北京2023年10月25日 /美通社/ -- 數據中心的運維壓力到底有多大?過去,IT圈里流傳著這樣一句話:一入運維深似海,從此下班是路人。隨著人工智能、大數據、云計算等技術的成熟應用,數據中心走向集約化、規模化的趨勢,數據中心的IT設備越來越繁雜,同時超過10萬臺乃至100萬臺服務器的超大規模數據中心越來越多,盡管許多企業在數據中心的投資十分重視,但卻往往卻忽略了后期運營管理的成本,有統計數據顯示,數據中心中服務器的運維成本在IT系統TCO中占比高達70%,因此,真正做到服務器智能管理,極簡運維對企業數據中心而言至關重要。
同時服務器作為數據中心的核心,承載著數據中心絕大部分計算任務,其可靠性、穩定性以及對故障問題精準定位的能力都直接影響著整個數據中心系統運行,在考慮數據中心算力部署密度的同時,設備的智能管理、高效運維也相當重要,浪潮信息G7算力平臺就秉承極致的設計理念,憑借多年產品創新經驗,通過多種保障來強化服務器自身的高效運維能力,構建現代數據中心的可靠基礎,幫助用戶高效可靠地運行其各類應用負載。
智能底層設計 實現部件級精細化管理
“精益設計”之父蒙羅將精益設計定義為“更少的零件,更高的質量”,關注產品的簡化設計與成本的降低,從產品設計的源頭開始改善,并兼顧生產環節的可制造性。而對于服務器設計來說,一點小小的改變,或許就能引起整個產品,甚至整個行業巨大的改變。
浪潮信息最新發布的G7算力平臺采用基于開源技術OpenBMC自主研發的服務器嵌入式管理系統InBry,可提供硬件狀態部署、節能、安全、預警等系列管理工具,以標準化接口構建更加完善的服務器管理生態系統,幫助企業用戶統一、智能化管理服務器等IT基礎設施,提高運維效率。
G7算力平臺的服務器嵌入式管理系統InBry具有智能故障診斷功能,可對服務器各類部件進行實時管理,實現服務器關鍵部件的深度故障診斷和故障預測維護,有效定位率可達95%。比如基于MCTP技術可以對系統內IO 設備實現智能管理功能,可以對PCIE卡、NVME盤、E1/3.S盤等IO裝置快速管理,并透過MCTP Over PCIE了解關鍵部件上的溫度、健康狀態、IO性能、功耗等指標,結合浪潮信息龐大的故障定位診斷庫輸出詳細的故障原因和處理建議,對部件健康狀態進行預警、故障信息快速診斷和部件溫度/功耗監測,大幅提升系統穩定性。對針對內存、硬盤的全面管理,全線G7算力平臺基于豐富的故障診斷庫建立AI智能算法模型集成到嵌入式管理系統中,對收集到的信息進行診斷,提前預知內存、硬盤的健康狀態,通過運維人員進行有計劃的運維,避免非預期的故障對數據中心造成不良影響。
同時G7算力平臺采用多個創新模塊設計,以供電模塊為例,G7算力平臺采用智能電源,支持鉑金、鉑金+、鈦金等寬域電源組合,可為系統在低業務場景提升4%~6%的轉換效率并提供客制化能耗最佳場景,以往的電源固件升級過程中可能出現的輸出掉電問題,浪潮信息獨有的智能電源設計可支持不斷電升級,而且不影響系統電源冗余及效能,成功率可達100%,同時G7算力平臺采用的智能電源具備自身健康狀態巡檢功能,運維人員可第一時間通過BMC可示化的圖表了解PSU黑盒內部資訊,并通過獲取健康狀況,幫助運維人員快速診斷,定位故障源。
整機創新架構 服務器全生命周期集群級自動化運維
在當前綠色算力的大趨勢下,企業數據中心不再只建在一處,服務器可能部署在世界各地。像很多互聯網、通信公司,IT設備會部署在相對自然冷卻環境優渥的偏遠地區,但這些地方往往人煙稀少,運維難度更多大,所以運維人員會更多以周期巡檢的方式進行設備部署和運維。
浪潮信息G7算力平臺提供全新服務器管理工具InManage Tools,能夠實現服務器從上架到下線的全流程精細化管理。InManage Tools具備GUI、CLI等多種交互方式,支持服務器集群一鍵上架、智能固件更新、故障自動報修等高度自動化功能,零網絡部署、開箱即用,從而降低部署時間成本,提高交付效率。InManage Tools創新研發了帶外操作系統自動化部署功能,克服傳統PXE技術對用戶生產網絡造成的沖擊,實現硬件配置、固件刷新、系統和應用部署等自動化上架能力。InManage打通線上資源,通過線上固件源,可實現服務器集群固件版本自動檢測、智能推薦、批量刷新;結合服務器云診斷系統,也可實現服務器部件日志一鍵收集、線上智能診斷、自動報修。
同時為了讓運維人員現場更高效操作,浪潮信息G7算力平臺在硬件層面上也進行了創新突破,架構設計上兼容傳統后維護的同時提供前置IO的架構選擇,節約50%系統風扇功耗,而且前IO架構使熱敏部件如光模塊前置處于冷通道空間,保證溫度維持在25℃左右,光模塊平均故障率下降90%,壽命提升3倍以上。同時前 IO 出線方式,可以更好地適配新建機房的冷熱風道封閉設計,讓運維工作均可在冷通道進行,解決運維理線干涉問題,單邊維護效率更高,而面向整機浪潮信息G7算力平臺支持免工具運維,針對風扇、硬盤、OCP等6大部分結構件進行優化,可實現100%免工具便可進行拆卸,極大縮短了運維的時間和難度。
同時支持BMC直連管理Type-C接口,運維人員可通過連接終端設備(本地PC/手機)進行BMC近端維護,系統信息監控、參數配置、定位設備、日志采集等,監控模式更靈活,應用BMC技術,使技術人員可以通過Web管理界面、故障診斷LED等指引設備,加速找到已經發生故障(或者正在發生故障)的組件,從而簡化維護工作、加快解決問題的速度,并且提高系統可用性。
數據中心級物理平臺 多數據中心統一管理
根據ResearchAndMarkets 《全球數據中心托管服務市場機遇》報告顯示,超大規模數據中心預計將從2019年的509個增長到2025年的890個,這將驅動數據中心運營方式的升級。報告預測,到2025年,70%的組織將通過持續的基礎設施自動化來補充應用程序的持續交付,以提高業務敏捷性。基礎設施自動化(IA)進入了穩步上升期,它融合了深度學習、機器學習、語音識別、機器視覺等技術,并將其應用在IT基礎設施運營場景,預計兩到五年后會得到主流采用。數據中心規模不斷擴大,對運維的效率、成本、質量都提出了更高的要求,所以打破傳統運維方式,打造“監、管、控、防”智能化的運維是解決問題的關鍵。
浪潮信息G7算力平臺支持浪潮信息基礎設施智能化管理平臺InManage,通過Redfish、IPMI、SSH等多種管理協議實現大規模數據中心基礎設施智能化統一管理,并憑借前瞻的技術布局以及領先的智能運維(AIOps)技術,成為唯一入選中國智能運維(AIOps in China)標桿廠商的服務器企業。在數字化轉型的大潮中,InManage 通過數字孿生技術為IT資產管理提供了全新的解決方案,它能夠統一管理在線和離線資產,實現在任何地方、任何時間都能掌握IT資產狀況。對于大規模IT基礎設施的智能化管理,InManage能實時感知服務器的狀態,及時發現、預測并解決問題,讓IT系統始終保持最佳狀態。InManage支持本地和云端部署方式,無論客戶選擇私有云,還是公有云,都能得到最佳的使用體驗。而且,InManage還提供了豐富的北向API,能夠輕松地與其他系統進行集成,實現數據的共享和交換。
針對服務器運行過程中存在的CPU、內存、硬盤等關鍵部件故障預測失效、告警失穩等難題,InManage在智能化管理方面,擁有自動化數據處理、特征衍生、自動化建模工具多項創新能力,解決了局部硬件概率性故障下系統有效容錯的難題。InManage實現了對海量服務器帶內、帶外日志的穩定采集,提出了基于服務器部件告警日志,通過智能故障診斷 AI 模型,推理出服務器故障根因的整體解決方案,故障診斷精準度超過95%,遠高于業界平均標準。通過硬盤特征數據分布式采集和存取技術,實現了線上生產系統10萬級硬盤特征數據的高質量分析,構建面向業務場景的硬盤故障預測模型,預測準確率超過95%。同時,InManage利用設備檢查異常檢測機制,完成物理內存故障精準位置的抓取,實現故障內存物理位置向量化,基于向量化特征構建內存特征關聯關系模型,對內存健康狀況有效進行實時預測性分析,與傳統預測方式相比準確率提升約30%。
隨著數字經濟的發展,數據中心已成為各行各業的重要資產,數據中心的運維水平能力也幾乎變為公司的核心競爭力之一。浪潮信息服務器通過智能化運維,對服務器部件、單機到集群再到數據中心的管理進行層層優化,幫助企業用戶不斷簡化運維難度提升運維效率,降低運維成本,推動數字化帶動更多經濟收益。