北京2023年10月16日 /美通社/ -- 近日,在KubeCon + CloudNativeCon + Open Source Summit China 2023大會(簡稱"開源技術峰會")上,浪潮信息分享了"基于Kubernetes+RoCEv2構建大規(guī)模AI基礎設施與大模型訓練實踐"主題報告,介紹了浪潮信息在大模型開發(fā)過程中,尤其在大規(guī)模RoCE網絡的使用場景,如何通過AIStation人工智能算力調度平臺滿足大模型訓練的穩(wěn)定性和效率要求,實現高效長時間持續(xù)訓練。
KubeCon + CloudNativeCon + Open Source Summit是Linux基金會、云原生計算基金會(CNCF)主辦的開源和云原生領域的旗艦盛會,在業(yè)界享有極高的聲譽,來自谷歌、亞馬遜、英特爾、Hugging Face等知名企業(yè)的近百位全球技術專家及行業(yè)領袖齊聚本屆大會,帶來最前沿的云原生相關技術成果和技術洞察。
大模型訓練遇RoCE網絡性能低、斷點難題
大模型是當前通用人工智能產業(yè)發(fā)展創(chuàng)新的核心技術。但大模型訓練過程非常復雜,面臨諸多挑戰(zhàn)。
一方面,大模型訓練對通信的要求非常高。為了獲得最優(yōu)的訓練效果,單臺GPU服務器會搭載多張InfiniBand、ROCE等高性能網卡,為節(jié)點間通信提供高吞吐、低時延的服務。但不同的網絡方案各有優(yōu)劣,InfiniBand因性能優(yōu)異已被公認為大模型訓練的首選,但其成本較高;RoCE雖然成本較低,但在大規(guī)模的網絡環(huán)境下,其性能和穩(wěn)定性不如InfiniBand方案。因此要想滿足大模型訓練對通信的要求,就要對集群網絡中的通信設備適配使用和網絡情況進行探索和設計。
另一方面,大模型訓練周期通常長達數月,集群計算效力低、故障頻發(fā)且處理復雜,會導致訓練中斷后不能及時恢復,從而降低大模型訓練的成功率,也會使得訓練成本居高不下。Meta在訓練Open Pre-trained Transformer (OPT)-175B大模型時,遇到的一大工程問題就是訓練不穩(wěn)定,Meta訓練日志顯示兩個星期內因硬件、基礎設施或實驗穩(wěn)定性問題重新啟動了40多次。
AIStation實現RoCE網絡下大模型高效穩(wěn)定訓練
針對大模型研發(fā)和應用各環(huán)節(jié)的諸多挑戰(zhàn),浪潮信息發(fā)布了大模型智算軟件棧OGAI(Open GenAI Infra)——"元腦生智",為大模型業(yè)務提供了全棧全流程的智算軟件棧。OGAI軟件棧由5層架構組成,其中L2層AIStation針對大模型訓練中常見的"RoCE網絡性能和穩(wěn)定性低"、"訓練中斷"難題,提供了性能和兼容性俱佳的網絡方案和斷點續(xù)訓能力,為大模型訓練保駕護航。
1. 優(yōu)化RoCE網絡下的大模型訓練,提升網絡性能和穩(wěn)定性
AIStation能夠制定合理的作業(yè)執(zhí)行計劃,以最大限度地利用資源,滿足訓練任務的時延和吞吐需求。AIStation優(yōu)化調度系統性能,實現了上千POD極速啟動和環(huán)境就緒。尤其AIStation對大規(guī)模RoCE無損網絡下的大模型訓練也做了相應優(yōu)化,實測網絡性能穩(wěn)定性達到了業(yè)界較高水平。
AIStation通過PFC+ECN構建無損以太網絡,在交換機側控制方面,PFC在數據鏈路層基于報文-隊列優(yōu)先級,在交換機入口側進行擁塞控制,ECN在網絡層基于數據包頭中的標識位,在交換機出口側進行擁塞控制。主機容器側控制則為Kubernetes的Pod,基于Linux、OFED驅動進行擁塞控制。該方案資源使用靈活,且經過多輪次的GPU分配與回收,解決了GPU分布的碎片化問題。
在大模型訓練場景,AIStation通過Calico構建元數據交換網絡,基于物理RoCE網卡構建RDMA通訊網絡,并通過CNI和虛擬化插件實現IP分配,使POD內大模型訓練任務能夠充分利用NCCL的PXN等通信優(yōu)化特性,實現網絡的高效使用。
借助AIStation平臺,某大型商業(yè)銀行完成了主流大模型訓練框架,如DeepSpeed、Megatron-LM和大語言模型在RoCE網絡環(huán)境下的訓練,快速實現大模型的落地實踐。
2. 內置監(jiān)控系統和智能運維模塊,保障大模型穩(wěn)定訓練
健壯性與穩(wěn)定性是高效完成大模型訓練的必要條件。利用AIStation內置的監(jiān)控全面的監(jiān)控系統和智能運維模塊,可以快速定位芯片、網卡、通訊設備異常或故障。同時對訓練任務進行暫停保持,再從熱備算力中進行自動彈性替換異常節(jié)點,最后利用健康節(jié)點進行快速checkpoint讀取,實現大模型斷點自動續(xù)訓。
3. 自動配置環(huán)境,快速構建大模型訓練任務
AIStation實現了計算、存儲、網絡等訓練環(huán)境的自動化配置,同時允許用戶自定義基本的超參數,只需簡單幾步,就能啟動大模型分布式訓練。并且,AIStation還集成了主流的大模型訓練框架,包括Megatron-LM、DeepSpeed、HunggingFace上的諸多開源解決方案,實現了秒級構建運行環(huán)境。能夠幫助開發(fā)者在大規(guī)模集群環(huán)境下便捷地提交分布式任務。調度系統根據分布式任務對GPU算力的需求,通過多種親和性調度策略,大大降低構建分布式訓練任務的技術門檻。
AIStation平臺在AI開發(fā)、應用部署和大模型工程實踐上積累了寶貴的經驗和技術,幫助諸多行業(yè)客戶在資源、開發(fā)、部署層面實現降本增效。在垂直行業(yè)領域,AIStation平臺幫助頭部金融客戶、生物制藥服務公司快速利用密集數據訓練、驗證大模型,大大降低大模型業(yè)務成本。某大型商業(yè)銀行基于AIStation打造的并行運算集群,憑借領先的大規(guī)模分布式訓練支撐能力,榮獲2022 IDC"未來數字基礎架構領軍者"獎項。
浪潮信息AIStation在大模型方面已經取得了諸多業(yè)界領先的經驗和積累,實現了端到端的優(yōu)化,是更適合大模型時代的AI算力調度平臺。未來AIStation進一步通過低代碼、標準化的大模型開發(fā)流程,以及低成本和高效的推理服務部署,幫助客戶快速實現大模型開發(fā)和落地,加速生成式AI發(fā)展。