北京2022年8月8日 /美通社/ -- 據工信部發布的信息顯示,我國近五年算力年均增速超過30%。其中,在用數據中心的服務器規模為1900萬臺,存儲容量達到800EB(1EB=1024PB)。面對算力、存儲的高速增長,網絡作為數據中心三大關鍵要素之一,它的技術發展日益成為業界關注的焦點。
針對高性能計算、數據中心領域中的高階網絡互連技術發展,在由高效能服務器和存儲技術國家重點實驗室和開放計算中國社區聯合主辦的"第六期開放計算技術沙龍:網絡技術研究與實踐"線上研討會中,來自清華大學的教授、博士生導師向東老師以《高性能高階(High-Radix)網絡互連架構及通訊協議》為主題,針對業內主流的蜻蜓網絡(Dragonfly)架構以及相關的網絡架構特點、優勢進行了詳細解讀。針對Dragonfly網絡適用于高端市場的應用情況,浪潮網絡推出了更加具備市場貼合度的無損網絡解決方案。以采用RoCE技術的數據中心以太網交換機為核心,具備網絡流控、死鎖消除以及存儲即插即用等特點。
萬級、十萬級、百萬級互連節點 彰顯蜻蜓網絡魅力
Dragonfly網絡憑借較低的網絡直徑和較低的部署成本,已經在高性能計算領域得到了廣泛應用。向東教授認為,Dragonfly網絡所具備的特點,同樣也適用于當下算力需求增長迅速、算力多樣化的數據中心網絡之中。"Dragonfly網絡作為一個二級全連接網絡,其網絡設計成本遠低于3-DTorus及胖樹等其他網絡架構,不僅適合于搭建超級計算機,同時也適用于數據中心。"向東教授說道。
當前,高性能計算的網絡設計成本主要取決于機柜間的全局光纖數目,減少光纖數目及交換機端口數目是降低設計成本的核心要素。Dragonfly網絡的拓撲結構可以將數據包傳輸路徑的全局光纖數目降低為1。當高性能計算集群達到1萬個計算節點以上的規模時,采用Dragonfly網絡拓撲結構平臺所需交換機芯片的端口數目僅需30多個左右。當集群節點規模達到10萬時,采用Dragonfly網絡拓撲結構的交換機芯片端口數目則在55左右。
Dragonfly網絡是一個二階全連接網絡,分別由Router(路由器)、Group(組)以及整個System(系統)構成。Group中的Router與終端進行連接,Router之間實現Intra-group interconnection network全連接。與此同時,Group之間也實現了Inter-group interconnection network。其中,Group中采用電纜實現Router之間的互連,Group之間則采用光纖互連。
Dragonfly網絡雖然在成本方面、降低交互芯片連接端口數量較低等優勢,但是面對超算、數據中心計算節點的增多,包括Dragonfly、Dragonfly+等網絡結構依然要面臨網絡連線較為復雜,網絡總體設計成本仍然偏高,以及整體網絡所需的全局光纖數仍然偏高等挑戰。
向東教授及其團隊為此研發設計出CLHR,即基于通訊局部化的高階互連網絡以及相應的路由算法。通過采用CLHR,一套擁有15萬臺服務器且采用Dragonfly網絡結構的超算平臺,其交換芯片端口數可控制在30個以內。當整體服務器規模達到100萬臺以上時,交換芯片的端口數量也可以控制在50個以內。向東教授指出,采用CLHR,相比二階全聯接的Dragonfly網絡,端口總體數量得到有效降低。此外,數據通訊不需要虛擬通道,不需要設計Misrouting算法,任何節點間通訊可使用多條最短路徑。
讓智算普惠 無損網絡釋放更多價值
無論是高性能計算領域中較為普遍采用的Dragonfly網絡,還是針對其進行優化、改進的CLHR,向東教授認為這些技術上的創新都是為了實現無損網絡所作出的努力。以往,傳統數據中心會采用無損網絡技術,但面對數據中心的算力攀升、算力的多樣化,向東教授認為打造無損網絡已經成為一種趨勢,這需要在網絡架構的設計上更加精致,需要網絡平臺具備高效的流控能力、嚴格避免PFC死鎖情況的出現。
目前,浪潮網絡所提供的無損網絡解決方案已經成功的應用到南京智能計算中心項目的建設之中。通過融合浪潮的計算、存儲、網絡和人工智能開發平臺整體解決方案,構建端到端、無損、低延時的RDMA(遠程直接內存訪問)承載網絡。
浪潮網絡推出的無損網絡解決方案,不僅有效的應對了智算中心算力增長、算力需求多樣、存儲指數級攀升的需求。同時,也為現有的高性能計算平臺構建低延遲、高帶寬的網絡平臺,提供了在性價比和未來發展前景上都不錯的一種選擇。