北京2024年11月21日 /美通社/ -- 隨著AI技術從機器學習演進至深度學習,并進一步邁向生成式AI的新階段,算法、算力及數據需求呈現出爆炸式增長態勢。大模型爆發初期,眾多企業布局,要求存儲提供高帶寬、高IOPS和低時延,以確保模型能夠快速有效地進行訓練。而在模型的實際部署與應用過程中,又需要實現數據的跨域、跨介質靈活調度,以及高質量數據集的高效管理,這對存儲系統的靈活性、安全性及數據的可持續訪問能力構成了新的挑戰。
在近期舉辦的中國數據與存儲峰會AI+存儲協同發展論壇上,浪潮信息分布式存儲產品總監張業興發表了題為"數聚存儲,智慧未來"的演講。演講中,張業興不僅回顧了過去一年人工智能領域的迅猛發展態勢,還深入闡述了浪潮信息在這一背景下如何精心布局新產品、新技術和新方案。
AI時代:存儲的轉型與重塑
人工智能已被提升至國家戰略的高度,成為驅動新質生產力發展的關鍵力量。張業興指出,數據作為一種新型生產要素,不僅是勞動工具,還能創造經濟價值。隨著數據的迅猛增長和摩爾定律的持續推動,人工智能正步入一個爆發式增長的階段,特別是在GPU市場規模及智能算力領域,展現出了驚人的增長潛力。據預測,至2028年,全球GPU市場規模有望達到2461.5億美元,而中國市場的規模也將攀升至459億美元,年復合增長率高達32.8%。這一趨勢清晰地表明,人工智能正引領著第四次工業革命,對經濟社會產生著廣泛而深遠的影響。
在人工智能時代的大背景下,存儲系統的角色已悄然轉變,它不再是單純的數據存儲容器,而是成為了推動人工智能發展的核心組件。隨著大模型技術的蓬勃發展,存儲系統正面臨著前所未有的挑戰。在大模型市場的初期布局中,已有超過400家廠商爭相涌入,模型訓練的"速度"成為了競爭的關鍵。為了提高GPU的利用效率,存儲系統必須能夠提供TB級的高帶寬和百萬級的高IOPS,以確保模型訓練的高效運行。
此外,隨著模型在各行業的落地,數據的跨域和跨介質調動變得至關重要,存儲系統需要實現全局命名空間的管理,以支持大規模數據的高效匯集和利用。同時,在大模型的行業化落地過程中,為了提升通用模型的專業化能力,高質量且可重復利用的數據集成為了不可或缺的資源。數據的安全存儲與可持續性訪問能力成為了存儲系統必須滿足的重要要求。
AS13000G7:解鎖存儲潛能,賦能AI未來
針對上述挑戰,浪潮信息推出了分布式融合存儲平臺AS13000G7,在性能優化、融合互通、韌性保障等多個維度進行了技術創新。
在性能優化方面,AS13000G7通過數控分離架構,減少了數據在轉發和拷貝過程中的延遲,單流帶寬可達15GB/s,單節點帶寬超過100GB/s,相比傳統數控一體架構性能提升60%以上。此外,AS13000G7能夠智能識別大IO和小IO,通過切片處理和聚合處理,將不同規模的數據形成統一的數據團,并存入全局緩存中,實現小IO性能提升5倍。同時,數據緩存預讀功能能夠在訓練過程中提前加載熱點數據,進一步提升數據加載速度。另外,AS13000G7還設計了全用戶態的輕量級IO站,利用多任務并行和無鎖IO處理技術,實現了延遲降低40%,訓練數據加載時間減少30%。
在近期發布的MLPerf? Storage v1.0 AI存儲基準測試中,AS13000G7參與了八項測試并獲得了五項全球第一的成績,如3D-UNet測試中,支持264個模擬加速器,GPU利用率超90%時提供360GB每秒帶寬,單節點帶寬超120GB每秒;在CosmoFlow模型測試中,樣本讀取時間極短,單客戶端和多客戶端分別提供了18GB/s和52GB/s的帶寬。
在融合互通方面,AS13000G7支持多種接入協議,如NFS和S3等,并通過復原數據管理實現文件和對象數據的協議互通、語義無損以及性能一致,避免了數據格式轉換和多份存儲的問題,為用戶節省了高達50%的存儲空間。同時,AS13000G7還建立了全局統一命名空間,納管所有數據,實現跨域、跨介質和跨協議的靈活調動,提供統一數據視圖,并支持10億級文件秒級檢索,有效解決了數據孤島問題,方便用戶數據訪問與管理。
在韌性保障方面,AS13000G7定期進行亞健康檢測,并通過內部冗余保護機制實現免遷移快速重構,將TB級重構時間降至5分鐘內,每次故障恢復時間降低90%。此外,AS13000G7運用AIOps算法預測磁盤故障、容量趨勢、性能趨勢和SSD壽命,其中磁盤故障預測準確率達98%以上,誤報率僅0.007%。在數據安全層面,AS13000G7設置了五層系統防護,采用快篩機器學習和深篩深度學習算法來檢測惡意軟件,漏報率僅為0.029%,誤報率為0.33%。
面向大模型應用,基于AS13000G7的AI存儲解決方案,整合不同盤位存儲設備形成統一資源池,提供高性能、高利用率和高韌性,滿足數據全生命周期需求。結合AI資源調度平臺,提升數據預讀加載效率30%,已服務眾多AIGC客戶。
在上海某高校的應用案例中,由于該校擁有多個與AI相關的學科,數據導入呈現出多元多態的特點,業務需求也涵蓋了數據的匯集、處理、訓練和推理等多個環節。浪潮信息為其提供32節點GPU服務器作為計算支持,并配置20個節點的AS13000G7 24盤位全閃節點作為存儲資源池,實現對象文件融合存儲,降低總體擁有成本(TCO)達30%,大帶寬高IOPS的特性支持了模型毫秒級讀寫,進一步縮短訓練等待時間40%。
從市場表現來看,浪潮信息在存儲領域取得了顯著的成就。2024年上半年,浪潮信息存儲裝機容量位列全球前三,企業級存儲銷售額在中國市場排名第二,全閃存儲銷售額同樣在中國市場排名第二。
展望未來,浪潮信息將繼續憑借其先進的技術和解決方案,在全球和國內存儲市場中保持重要地位,并持續推動數據存儲行業的發展。同時,浪潮信息也將致力于助力各行業在人工智能時代實現數字化轉型和智能化升級,有望在技術創新和市場拓展方面取得更大的突破。