北京2023年6月9日 /美通社/ -- 武藝精絕者,能聽音辨位,醫術高明者,可聞聲辨癥,這都是匠人技藝高超的體現。而現在,關于“聽”這項技能,AI又會帶來什么驚喜? 僅需10秒聽音,就能精準判斷服務器風扇故障,這是浪潮信息工程師們秉持匠心,通過AI技術“聞風聽診”,精益求精所帶來的前沿創新:
浪潮信息最新發布的智能聽音診斷技術,可以讓服務器風扇的故障預警準確率達到95%,致力于將這一會引發服務器故障和數據中心事故的安全隱患降到最低。
風扇之殤牽引服務器之痛
眾所周知,“發燒”是服務器的致命傷。在服務器系統中,良好的散熱是保障系統以高性能穩定可靠運行的基礎,風扇在其中所起的作用不言而喻。
然而,風扇雖是服務器降溫的法寶,其本身卻并非“百毒不侵”。風扇的故障,可能來自于軸承變形,部件老化、電路板短路故障,灰塵與污垢的積壓,潤滑油的不足,嚴重時甚至會引起數據中心的火災。
散熱風扇雖然僅有1%的可能發生故障,但其一旦發生故障,將影響系統性能和可靠性,且風扇故障的維修時間長,對數據中心業務運行影響很大。
有什么辦法,可以提前預測風扇的“亞健康”問題,方便為服務器“治未病”?浪潮信息的工程師們為自己立下了研發的目標,并且開始反向求索去解決需求痛點。
聽音預警為服務器“治未病”
地震在發生前會產生1-10Hz的次聲波,能輔助人們提前預測災害的發生,可見聲音傳遞的信息如果能被正確解讀,能夠給人類帶來巨大的價值。而浪潮信息研發工程師發現,服務器風扇作為一種旋轉機械,一方面要抑制其產生的氣動噪聲對性能、可靠性的影響,另一方面,也可以利用其中所攜帶的風扇性能狀態的信息,剖析風扇健康狀態。
浪潮信息工程師采用中科院聲學所語音與智能信息處理實驗室的智能聲學故障檢測技術,利用機箱內噪聲的特征信息,建立了業界首個基于聲紋特征的服務器風扇故障智能預警系統。該系統可以實時分辨幾乎所有的服務器風扇故障噪聲,實現“聽音診斷”。
將風扇故障智能診斷模型部署在服務器BMC芯片中,進一步擴展了服務器的智能運維能力。BMC通過內部的麥克風陣列、音頻處理芯片,采集系統的多維噪音,并進行聲學信號處理、分析、診斷,僅需10秒鐘“聽音”,就可準確預警故障狀態,精準度達95%,提前從根源上徹底解決服務器風險問題,保證數據中心運行安全。
“知音”難覓AI助力開先河
基于聲學探測的服務器風扇智能聽音診斷系統聽起來很簡單,但從無到有,從有到精,對于聽音診斷的AI學習來說,遠不止“讀書百遍,其義自見”這么容易。
工程師們首先在服務器主板上集成麥克風陣列采集風扇的噪音,完成采集到的音頻信號的降噪、同步、處理,然后將數據傳輸至部署了智能診斷模型的BMC中,在BMC中實現風扇故障的在線診斷功能,包括對風扇故障音的特征匹配與分析,精準識別潛在的風扇故障音、定位風扇故障位置、發出警報,并記入風扇故障日志等,實現對葉片偏心、軸承磨損、繞組性能退化、潤滑油不足或耗干、IC元件電阻變化等等故障原因進行精準定位。
從零起步的難點在于,此前業界沒有任何參考,信號特征提取又特別復雜。數據中心有上萬臺的風扇,分別分布在不同機柜中。傳統的聲音分析方法中,背景噪音嘈雜,聲紋特征很容易被混淆,難以精準識別。
為了得到識別精度高、泛化能力強的診斷模型,浪潮信息工程師們構建了業界首個針對服務器風扇故障音的人工智能訓練數據集,時長足足達200小時,涵蓋了幾乎所有的風扇故障類型,并對聲紋信息抽取40維MFCC特征,建立了多級深度學習神經網絡。
經過訓練的風扇故障音診斷模型能夠區分特征相似的聲紋數據,并緩解了正負樣本分布不均衡的問題,對各種類型、不同位置的故障風扇洞察秋毫,有見微知著的效果。
目前,這套AI預測模型已經部署在浪潮信息服務器中,由BMC統籌管理風扇、麥克風陣列、DSP、指示燈等組成的聽音診斷系統只需十秒聽音,葉片偏心或破損、軸承磨損、潤滑油不足、積灰等種種故障均可精準定位預警,預警精準度達95%,徹底解決服務器的運行風險。
結語:
若能澄心凈耳聽,萬籟俱寂亦是韻。風過留痕,雁過留聲,從聲音的碎片中去捕捉風扇的暗傷,從偶爾的音變中去發現必然的質變,知音莫過于此。智能只是手段,工程師們的如磐匠心才是創新的根基,精益求精,千錘百煉,只為一臺好的服務器。