北京2024年7月2日 /美通社/ -- AIGC作為當下最火的技術話題,其業務流程涉及到數據的采集、處理、訓練、推理和歸檔五個階段,每個階段都面臨著不同的存儲需求和挑戰。隨著數據量的爆炸性增長,特別是隨著多模態數據的快速增長,對存儲系統的擴展性和服務兼容性也提出了新的挑戰。
在2024年數據基礎設施技術峰會上,浪潮信息分布式存儲產品線架構師Lance Sun博士發表了題目為"高效數據編排,加速釋放數據潛能"的主旨演講,詳細討論了高效數據編排對于解決上述挑戰,并釋放數據潛能的重要性。
AIGC帶來的存儲挑戰凸顯了數據的重要性
首先,Lance Sun博士詳細介紹了AIGC對存儲提出的需求和挑戰,讓我們對AIGC的業務流程和對數據存儲的需求有了更深入的認識。
第一個是巨量多模態數據的挑戰。很多大語言模型都采用了來自Common Crawl的數據集,這個組織在過去17年已經采集了2500億網頁,現在還在持續收集更多。IDC預測,到2025年,全球數據總量將超過175ZB,這種增長對存儲系統的多樣性和擴展性帶來了挑戰。
第二個挑戰是對超大讀寫帶寬的需求。在訓練階段,checkpoint的管理是關鍵,良好的存儲性能應在12分鐘內完成checkpoint的讀寫操作,確保不拖慢整個訓練過程。同時,由于GPU成本高昂,更高的存儲性能可以減少顯卡的等待時間,減少資源浪費。
第三個挑戰是對于讀寫IOPS的更高需求。千億級文件的快速訪問對IOPS有著極高要求,在某些采用shuffle洗牌策略的訓練過程,如果IOPS性能不夠,會導致元數據服務器產生大量的通信阻塞,同時會造成GPU集群等待,影響訓練效率,造成資源浪費。
第四個挑戰在于數據全生命周期管理。在數據清洗和標注算法日益發展的今天,數據作為企業的核心資產,企業需要對數據進行長期保存。于是,如何將數據以較低的成本安全存儲起來,也成為更重要的課題。
為了說明高質量數據的重要性,Lance Sun博士還提到了ImageNet數據集。作為高質量的數據集,它極大地推動了深度學習算法的發展。2012年,AlexNet在ImageNet挑戰賽上取得成功,這不僅驗證了深度學習模型處理復雜視覺任務的能力,也激發了后續研究和多種新算法的產生。
由此可見,數據的采集和高質量的數據清洗,對AI的發展至關重要的。過去十多年的時間里,語言類模型的數據集規模,模型參數規模,AI芯片計算能力和數據存儲需求都發生了顯著變化。
AIGC在數據歸集面臨的挑戰與浪潮信息的解決之道
在數據存儲方面,隨著數據集規模和多樣性增加,越發依賴更大規模的存儲服務器集群。Lance Sun博士介紹稱,很多傳統行業都積累了大量數據,這些數據需要在不同的存儲系統間進行高效的數據流轉以支持AI和大數據分析,這在現有的存儲架構中造成了數據流動的效率問題。
事實上,多數據中心和異構存儲環境中數據遷移面臨很多挑戰,對此,Lance Sun博士總結了三點:
第一點,數據訪問分散。數據遷移的過程對用戶來說是不透明的,嚴重依賴第三方遷移軟件,而且受網絡波動和存儲性能的影響,容易導致數據遷移時間過長,增加操作的不確定性和復雜性。
第二點,空間和時間成本的浪費。遷移過程常用糾刪或副本機制來提高可靠性,但這會導致時間和空間成本大幅增加。此外,這一過程還嚴重依賴于第三方遷移軟件的性能,不同存儲平臺的使用容量差異可能導致數據副本遷移時出現容量不均衡問題。
第三點,運維復雜性增加。由于不同存儲產品的特性差異,使得存儲廠商各自發展出不同的運維管理系統,數據的頻繁遷移或長時間遷移導致數據管理混亂,導致運維時間和成本顯著增加。
為了應對多數據中心和異構存儲環境中數據管理和遷移挑戰,浪潮信息存儲進行了大量工作,基于AS13000構建了一套全局數據管理平臺。
在全局數據管理平臺的最上層,通過一個統一的全局命名空間提供用戶視角的完全統一,確保所有數據都可以通過一個統一的入口進行訪問和管理,極大地簡化了數據操作流程。
第二個層面,系統支持多種標準協議接口,包括Linux的NFS、對象存儲的S3、大數據的HDFS、容器化的CSI接口以及Windows環境下的SMB協議。這樣的設計使得平臺能夠廣泛兼容各種應用和環境,滿足不同場景的需求。
最后一層,AS13000引入了智能數據編排和緩存系統。智能數據編排引擎利用人工智能算法自動讓數據在熱、溫、冷存儲之間的流轉,優化數據存儲效率。而高效的緩存系統可以為短期內頻繁使用的極熱數據提供快速訪問能力,加速數據的流轉。
最終,用戶可以基于AS13000的全局數據管理平臺實現數據在任何地點,任何時間以任何類型可視可管可流動。
Lance Sun博士還指出了市場上一些方案的不足。比如,一些方案在數據采集階段使用了混閃對象存儲,而在訓練階段使用全閃存儲技術。然而,數據在兩個存儲集群的流轉非常低效,數遷移過程中,經常由于網絡波動造成文件斷傳。
相比之下,AS13000由于在一套系統內引入了多協議融合互通技術,直接省去了數據遷移的過程,大大提高了訓練數據的準備效率,以確保數據在訓練和處理階段的高效率和低延遲訪問。
AIGC存儲的技術展望
AIGC技術的影響力日益擴大,各大存儲廠商對此高度重視,存儲系統的創新和演進均將AIGC作為核心考量。在演講的最后,Lance Sun博士詳細介紹了浪潮信息存儲在AIGC領域的未來發展關鍵方向和技術動向,并表示浪潮存儲將持續深度融入AI生態系統。
在行業技術方面,GPU直連存儲技術已在眾多文件系統層面廣泛應用,其在大文件讀寫方面的性能表現尤為出色。浪潮信息與英偉達及業界廠商緊密合作,致力于推動完整技術體系和標準的落地。
在行業基準評測方面,浪潮信息積極參與權威的AI性能測試基準—MLperf Storage評測,并在多項負載性能評測中表現優異,幫助企業選擇最適用于AI場景的存儲系統。
存儲的安全問題同樣不容忽視。英偉達在2024年的GTC大會上提到包括加密計算在內的多種安全技術,而在存儲層面,同樣需要提供強有力的數據保護措施。浪潮信息存儲正在多租戶權限隔離、防勒索等數據保護技術領域進行深入探索。
談到未來發展,Lance Sun博士表示,存儲性能的持續優化是浪潮信息存儲的核心目標。浪潮信息將繼續通過軟硬件結合的持續創新,力求在智算產業和AI產業中實現快速落地,推動整個行業的進步。
2024年,AIGC依然是最熱技術話題,其迅猛的發展速度和廣闊的應用前景吸引了眾多關注和創新力量。憑借在數據存儲領域的持續創新和深耕,浪潮信息正站在這場技術革新的前沿。