北京2023年10月25日 /美通社/ -- 人工智能、云計算、大數據等各類數字技術正在交織構建一個全新的虛擬空間,生產、流通、科學、教育、娛樂、社交等等無不因此而變。在技術驅動下,新的數字文明正勃然而興,突飛猛進的算力變革則是這次文明迭代的重要驅動力之一。自計算機問世以來,在短短的70余年的時間內,其性能從最初的每秒5000次運算發展到如今超級計算機的每秒百億億次計算,性能激增數百萬億倍。即便如此,面對蓬勃興起的生成式人工智能、元宇宙等技術,算力缺口依然巨大。
在浪潮信息,有這樣一群工程師們,他們在好奇心的驅動下,通過各種方式尋找算力提升的路徑,無論進步大小,自豪感都在驅使著他們繼續探索未知,甚至像一個科學家一樣琢磨各種跨界的技術,并用于解決各類工程難題。他們具有發散的思維,也有著聚焦的能力,憑借對算力創新的熱情與追求,不斷拓展數字文明的邊界……。
112Gbps高速互連,服務器設計的“藝術”
Yang Yang,浪潮信息AI服務器工程師大軍中的一員,他所在的團隊負責進行AI服務器系統架構的研發工作,其中的關鍵是——設計開發出一款具備超高速互連性能的開放加速基板。
“以前,我們在強調怎么樣去提高單顆芯片的算力。但是到了大模型時代,模型訓練動輒成千上萬張卡,單張芯片已經完全無法承載。在新的AI超級計算機形態下,什么樣的互連架構才能更好的支撐大模型業務發展,是我們重點研究的一個課題。”Yang Yang認為,實現數千乃至上萬顆芯片互連并讓它們能夠高效協同工作的前提,是解決單個服務器內部芯片的高速直連,這是一切問題的“原點”。
在他們團隊的努力下,浪潮信息定義了業界第一個符合OAM(開放加速模塊)規范的8卡互連AI系統,這是一個遵循開放計算標準的互連的基板,首次達到了業界最高的單通道速率56Gbps。這個基板的厚度僅為3.26mm,層數卻高達22層,包含了近1000個高速互連差分對。
目前,56Gpbs仍然是開放加速規范下芯片互連的最高速率。Yang Yang表示:“下一步,我們將沖刺112Gbps單通道的高速互連通信,這種級別的速度提升,就相當于我們從5G時代跨步進入了6G時代。”
112Gbps 高速互連技術難點在于,在物理尺寸近乎不變的情況下,要將GPU間的互連速率提升一倍,需要犧牲信噪比。而信噪比的降低帶來的影響是巨大的,意味著112Gbps信號對于抖動和噪聲的敏感程度更為強烈,即對于信道的串擾、SCD(信號在通過該通道時的差分能量變為共模能量的模態轉化量,越低越好。)、PN Skew(內外線路不等長造成的傳輸差異)、ILD(損耗,線損/阻抗的影響程度,即漂移度)等指標的要求都更為嚴苛。
這不僅需要更高端的材料支撐,更考驗設計的“藝術”。要知道,3-5mm厚度的基板實際上是采用疊層設計,往往包含了十幾層甚至幾十層PCB板(印刷電路板),每層厚度僅有100微米左右,與一張A4紙相當。而為了保證信號傳輸質量,每組線路均需要采用差分對設計,即采用長度相等、相位相反的互補信號來傳輸同一個信號,以減少噪音和EMI(電磁干擾),這將使得布線量增加一倍,對于本就信號布線密度近乎極限的基板來說,無疑是雪上加霜。并且,差分對走線的寬度和間距必須始終保持一致,當在基板上的障礙物,如過孔或較小的器件周圍布線時,對設計能力的要求更高。
因此,112Gbps高速互連設計不僅需要尋找更低損耗的樹酯、玻璃纖維及更平滑的銅箔,同時也要確保這些材料在加工之后能夠符合可靠度的規范,設計與工藝復雜度極高。
在Yang Yang看來,112Gpbs高速互連技術既需要科學的發散,也要做到工程的收斂:通過科學的發散尋找創新的可能性,通過工程的收斂尋找“可行性”。創新的可能性空間包括了材料、工藝、方法、管理運營等等,而可行性則是尋找“最大化或最小化”,是尋找最優解的過程,“就像談到利潤,我們往往都會追求利潤最大化而成本最小化,最大化與最小化在很多時候是統一的,目標是一致的。”
Yang Yang團隊所從事的工作能夠惠及數以百計的芯片創新公司以及更多數量的用戶:借助標準化的、性能出色的開放加速基板,芯片公司可以快速的實現產品落地并持續迭代,而用戶則可以使用統一的、開放的基礎架構,根據業務需要配置不同類型的AI加速芯片,加快創新和創造更好的用戶體驗。
聽音降噪,服務器優化的“浪漫”
一臺服務器需要整合超過10000個零部件,其中包括50多類專用芯片;同時還涉及30多個技術方向,例如材料學、熱力學、電池技術、流體力學、化學等一系列學科;此外,一臺服務器里還會應用超過100種傳輸協議。在制造中,服務器需要經歷30多道流程,使用100多種加工和制造工藝,并對200多個關鍵過程的控制點進行把控。
如何確保整個系統的可靠性,是一項非常精細且復雜的工程,每一個細節都關乎整體,甚至連聲音,也會影響到服務器的可靠性。四五年前,相當數量的數據中心用戶幾乎都遇到了同一個問題:風扇轉速越快,硬盤越有可能出現性能波動,嚴重時還會直接掉線。
“最開始以為振動是罪魁禍首,后來才發現聲音才是始作俑者。”浪潮信息結構工程師Cathy Wang以女性特有的敏銳,創造出一種獨屬于工程師的“浪漫”——聽音降噪。
團隊針對硬盤性能失效問題做了大量的實驗,發現風扇產生的噪音一旦達到120分貝,極易造成硬盤磁頭偏移、讀寫效率下降,進而導致扇區失效乃至硬盤報廢、服務器宕機。“在結構的領域來說有一個不可調和的矛盾,就是風扇的轉速提高之后,它的噪音會向高頻段以及大聲壓這個方向去發展,而且它是這個聲音和轉速是成5次方的關系在增長的,所以我們看到一個非常明確且快速的風扇的噪音增長的趨勢。這個風扇和硬盤之間的沖突的問題,如何站在系統設計的角度,建立硬盤敏感度模型,成為業界廠商探討的難點。”Cathy Wang介紹說。
不過,雖然找到了問題的根源,但解決問題的過程依然曲折。在嘗試過正弦波、1/3倍頻程等走不通的路徑后,Cathy Wang所在的團隊才找到了最合適的噪音帶寬,并以混頻、掃頻的模式模擬出多樣化的噪聲源,能夠測量硬盤在500Hz~10000Hz噪音刺激下的共振頻率和聲壓閥值。基于大量機理性研究和測試,團隊發現硬盤性能損失與聲壓強度間的數學規律,構建出業界首個硬盤敏感度模型,量化出不同硬盤受到各類噪聲影響后的性能表現。
“我們希望通過我們的研究工作,讓性能優化從經驗主導變為科學主導,借助于不斷完善的基礎理論、工具與方法,針對特定問題形成標準方案并設計出新的可復用知識。”Cathy Wang說道。
服務器里聲音的“黑盒子”就這樣被打開了。在確定機箱內真正影響硬盤工作的噪音頻譜的基礎上,浪潮信息的工程師對服務器系統展開全方位的優化設計。首先從噪聲振動的源頭入手,通過CFD流體動力學仿真改進風扇的葉片形態,抑制扇葉表面因渦流脫落形成的高頻噪音;其次,在機箱內通過設計40多種歌院式的消音結構,有效消除特定的高頻噪聲;此外,還對硬盤固件中的伺服控制算法進行調整,讓硬盤磁頭的噪聲共振擺動控制在10納米以內,在提升讀寫效率、性能翻倍的同時,實現服務器安全運行。
融合架構3.0,服務器架構的“夢想”
大模型時代,當在單機上獲得較高算力效率之后,能不能在幾百個節點、幾千塊卡保持相對線性的性能擴展比,已經成為算力集群系統設計和并行策略設計時的關鍵性因素。在傳統計算體系結構中,處理器橫向擴展一直是難以突破的瓶頸,尋找新的出路勢在必行。
浪潮信息體系結構工程師Lorne Ci 認為:“傳統服務器是把所有的IT資源放到一個服務器里面。如果需要更多算力、更多內存、更多IO的話,需要把服務器去做疊加,像我們通常意義上一個大規模的數據中心可能有十幾萬臺,甚至有幾十萬臺服務器。但簡單的堆疊只能堆出各種形態和規格的服務器,這對數據中心計算能力的提升,并沒有實質性的幫助。需要把服務器IT資源都做成池化的形態,然后通過軟件定義的方式來實現資源的動態調配。”
因此,Lorne Ci 團隊研究的方向是,創造一種新的體系架構,將硬件設備中的同類資源整合成一個資源池,不同的設備能夠任意的整合,再通過軟件動態感知業務的資源需求,利用硬件重組的能力來滿足各類應用的需要。
浪潮信息將這種新的體系架構命名為“融合架構”,早在2014年就提出這一技術理念,核心在于通過硬件解耦實現資源的物理池化和動態重構,通過軟件定義實現業務感知的按需資源組合與配置,滿足系統的彈性伸縮和超大規模的持續擴展,實現軟硬高度協同發展。浪潮信息將融合架構的發展劃分為三個階段,分別為“服務器即計算機(Server as a Computer)” ,“機柜即計算機(Rack as a Computer)”以及最終的“數據中心即計算機(Data Center as a Computer)”。
目前融合架構3.0原型系統已經研制成功,實現了計算資源、存儲資源、內存資源、異構加速資源等核心IT資源徹底解耦與池化,支持池化資源異步升級、支持細粒度多主機共享高并發存儲、亞微秒級遠端內存共享訪問等特性,可通過軟件定義實現“一套系統,N類應用”。
融合架構3.0最核心的就是要做到內存資源池的池化與算力資源池的池化。而如何實現遠程內存的調用,實現低延時的快速響應,如何實現緩存一致性……都是內存池化面臨的重大挑戰。Lorne Ci 介紹說,“現在融合架構基于許多開放總線技術,包括PCIE、CXL等等,共同構建一個大內存系統,構建了一個高速高性能的互聯網絡,這對于參數量和數據量激增的大模型訓練有著巨大價值。”
伴隨著融合架構3.0原型系統的研制成功,浪潮信息在融合架構領域完成了重要的突破,實現了整機柜級別的計算、內存、存儲與互聯等各種IT資源的池化。其中,內存解耦實現了亞微秒級的遠端內存訪問,并構建出了一種邏輯上可遠端共享的內存資源池。這種變化讓多臺主機可以訪問同一個內存池,并最終大幅提高了數據交換的效率。新的架構打破了現有服務器的邏輯架構與應用模式。它以系統設計為中心,可以讓數據中心從資源驅動型向業務驅動型轉變。面向云計算和人工智能等不同場景,這種新的架構和新的組合方式,讓數據中心真正實現了,用一套系統去支撐多類應用。
在如今這個逐漸成型的數字文明時代,計算已經滲透到我們生活的方方面面。不論是在家庭中,商業世界,還是科學研究領域,計算技術都無處不在,這已經成為了我們日常生活的一部分。然而,我們必須認識到,這只是數字文明的起點,計算的重要性將在未來進一步凸顯。算力創新將成為數字文明中的火種,它將不斷照亮前行的道路。正如昔日的拓荒者冒險前行以開辟新的大陸,今天無數的"算力拓荒人"將持續引領我們進入數字時代的新境界。這些先鋒者將科學與工程融合,將"知"與"行"完美結合,以探索廣闊而充滿想象的未知之地。
在這條通往數字文明的開拓之路上,充滿了機遇與挑戰,我們需要更多具備跨學科知識的"知行合一"的研發人員,科技工作者,去通過一系列前所未有的解決方案,將計算創新推向新的高度,使其持續閃耀,帶領我們走向數字文明的下一個巔峰。