北京2024年12月26日 /美通社/ -- 根據調研報告顯示,大規模數據中心每宕機一分鐘將會造成近1萬美元的經濟損失,而數據中心的宕機成本隨著近年來數據中心規模的不斷擴大還在不斷攀升,除經濟損失外,宕機造成的業務中斷對公司聲譽有著不可估量的影響。"小病不治,大病難醫",金融、互聯網行業大規模數據中心通常每月都會為IT基礎設施定期巡檢,以及時發現可疑問題,快速修復,這已經成為保障數據中心業務連續性的關鍵。
日前,浪潮信息全新升級數據中心服務器故障智能診斷AIOps技術。針對數據中心服務器日常巡檢中,故障人工識別效率低,難以精準定位的問題,浪潮信息基于數百萬臺服務器運維管理經驗,打造先進的AI模型算法,融合專家經驗知識圖譜,構建覆蓋問題檢測、診斷、修復到驗證的全生命周期故障閉環管理。在互聯網、金融等用戶數據中心部署應用過程中,服務器故障智能診斷AIOps技術涵蓋國內外眾多廠商的上百種不同型號的IT設備的各類故障,5萬+服務器規模的數據中心,故障排查時間從4小時縮短至3分鐘,有效應對數據中心規模不斷擴大帶來的運維管理挑戰,為數據中心的高效、精準、智能化運維提供了有力支撐,也為客戶的業務連續性提供保障。
數據中心服務器運維"體檢"兩大難:人工效率低、故障識別難
隨著AIGC、5G、物聯網(IoT)等技術飛速發展,全球大型數據中心數量將以3.6%的年復合增長率增長,數據中心規模不斷擴大,在這一過程中,服務器的代際及品牌也越來越繁雜,需要運維工程師每月甚至每天定期對服務器故障進行巡檢修復,這對運維工程師的需求大幅增加,從而提升了企業運維成本;同時,隨著越來越多的核心業務系統遷移到線上,業務對系統的即時性要求不斷提高,而且"小病不治,大病難醫",日常定期巡檢已經是保障系統的持續穩定運行的關鍵。
一方面,在傳統運維中,為預防系統宕機風險,運維人員會定期對服務器進行日常故障巡檢,通過手動篩查后臺運行日志識別各類服務器故障,但這種人工方式的故障識別低效且時效性差。數據中心中服務器種類繁雜,品牌、型號、代際多樣,加之海量的故障日志和報警信息交織,使得人工分析過程耗時長達數小時甚至數天。這種方式難以快速響應業務需求,嚴重影響系統的可用性和故障恢復效率。
另一方面,據數據統計,大型數據中心的實際運維中服務器最容易出現故障的三個部件分別是內存、硬盤、CPU,傳統運維檢測工具主要圍繞在這些部件的監測上,但實際運維中仍然有一些小概率故障會出現在風扇、網卡、電源以及其他的元器件上,而這種小概率故障事件往往隱藏在復雜的運行數據中,傳統工具難以精準捕捉這些信號。由于此類問題信號弱且不易察覺,未及時修復可能引發連鎖反應,擴大故障影響范圍,從而延長修復周期并降低系統的可靠性。同時,一些復雜場景下的疑難故障排查高度依賴專家經驗,然而,運維團隊往往缺乏足夠的專家資源,導致問題長期得不到解決。這不僅拖延了系統恢復時間,還進一步影響業務的穩定性和用戶體驗。
打造"識別-診斷-處理"一體化AIOps服務器智能診斷體系
針對數據中心傳統故障運維的挑戰,浪潮信息以數百萬級服務器統一管理經驗,全新升級數據中心AIOps智能診斷技術。AIOps智能診斷技術兼容多品牌、多型號及不同代際服務器產品,通過輕量化設計將診斷模型部署至服務器端,實現了關鍵指標秒級感知與響應、故障根因精準診斷、解決方案秒級呈現的全鏈條智能,構建了覆蓋問題檢測、診斷、修復到驗證的全生命周期故障閉環管理,全面助力數據中心智能、高效的運維管理。
數據中心AIOps智能診斷技術引入了時序數據分析與分離算法,從關鍵部件,時序時間以及使用情況三個維度進行交叉比對,在故障發生時實時篩選關鍵日志,打破了傳統單一維度、單線程的診斷模式。通過特征提取與異常模式匹配,讓檢測的顆粒度更加精細同時更加精準,以便快速發現異常項,將傳統故障診斷的時長從小時級縮短至分鐘級甚至秒級。而這種海量數據的多維度的感知,就好像是我們的五感一樣,不再是通過單一的觸覺或者是嗅覺判讀,而且通過"望聞問切"的方式全景化、自動化的快速定位問題節點,大幅提升故障響應效率,保障系統的高效運維。
作為全球領先的算力基礎設施提供商,多年來浪潮信息在實踐中積累了海量的故障處理經驗,因此浪潮信息基于海量歷史數據構建了故障診斷模型,并融合決策樹、深度學習等多種算法,對隱匿的小概率故障進行精準識別,故障診出率超過98%,高故障率部件故障診斷準確率可達95%以上,小概率故障診斷準確率提升至90%以上。同時,系統具備自學習能力,能逐步優化診斷規則,應對未知故障類型,有效提高系統穩定性與可用性。
浪潮信息將資深運維專家的經驗轉化為知識圖譜,并與機器學習模型深度融合,推出"口袋模型"功能。該模型能夠在秒級內提供最優解決方案和清晰的故障處理指引,幫助運維團隊快速應對疑難問題,減少對專家支持的依賴,提升整體運維效率。
當前,該AIOps技術已廣泛應用于金融、互聯網等行業大規模數據中心,應用結果顯示,在5萬+規模的數據中心,服務器故障排查時長從4小時縮短至3分鐘,對于一些小概率故障的診斷更能見微知著,有效避免了業務中斷;同時,對于計算模塊、存儲模塊等存在復雜關聯關系的疑難故障問題,故障處理時間減少80%以上,極大降低了運維團隊的工作壓力。這些創新成果不僅提升了故障響應效率和診斷精準度,還增強了系統的穩定性與業務連續性,為企業數據中心的高效運維提供了全面技術支持,樹立了智能化管理的行業標桿。