北京2023年12月6日 /美通社/ -- 11月29日,在北京舉行的2023人工智能計算大會(AICC)上,浪潮信息高級副總裁劉軍在主題演講《智算力系統創新 加速生成式AI產業發展》中分享了浪潮信息對于智算力系統創新和AI產業發展的思考。
以下為演講實錄整理
當前,生成式人工智能和大模型推動算力需求高速增長,如何通過智算力系統來更好地支撐AI創新與應用,已經成為智算產業的關鍵。應對生成式AI的發展和挑戰,應該從算力系統、AI軟件基礎設施(AI Infra)、算法模型和產業生態4個方面來進行綜合考量,從而加速智能產業的落地。
智算系統創新,解決生成式AI的算力挑戰
在算力系統層面,生成式人工智能面臨的挑戰主要來自計算、數據和互聯三個方面:
在計算層面,算力多元化趨勢愈發明顯,導致AI算力系統開發適配周期長、定制開發投入大、業務遷移時間久。此外,大模型訓練對算力規模要求高,在單芯片算力有限的情況下,必須通過構建更大規模的集群來獲得性能的擴展。
在數據層面,大模型從文本、圖片等單模態向多模態、跨模態演進,訓練的數據集達到TB級甚至PB級,且不同作業階段對于數據存儲的要求呈現多元化趨勢。
在互聯層面,傳統RoCE網絡因ECMP哈希不均導致40%以上的網絡帶寬被浪費,且尾時延高導致網絡通信時間占比訓練時間高達40%,極大降低了計算效率。同時,網絡是集群共享資源,當集群規模達到一定量級后,網絡性能波動會影響到所有計算資源的利用率,網絡故障會影響數十個甚至更多加速卡的連通性。
面對三重挑戰,浪潮信息總結了多年產品研發和用戶服務經驗,提出三部分解決之道。
在計算方面,首先要針對多元算力,以統一的系統架構和統一的接口規范來兼容各類AI加速卡,保障芯片算力的高效釋放。浪潮信息早在2018年就著力開放多元的AI算力平臺設計,最新發布的G7多元算力平臺是業界唯一可以同時兼容SXM、OAI加速卡并實現8卡全互聯、16卡全互聯和混合立方互聯系統拓撲的AI算力平臺。為了保障更大規模的節點擴展性能,浪潮信息研制的開放加速計算架構支持PCIe、RocE和多種私有互聯協議,節點內和跨節點卡間互聯最大達到896 GB/s,跨節點通過免網卡RDMA實現高效擴展,集群性能加速比超過90%。
在數據存儲方面,針對大模型的數據存儲需求,浪潮信息在業界率先實現了一套集群系統同時支持文件、對象、大數據等多種非結構化協議的無損互訪,同時支持閃存、磁盤、磁帶、光盤四類存儲介質,并支持數據全生命周期熱、溫、冷、冰四級存儲管理,以一套存儲架構支持一個數據中心,真正實現了數據融合、管理融合。
在網絡互聯方面,浪潮信息專為生成式AI計算場景發布旗艦51.2T高性能交換機,為企業級智算網絡提供高吞吐、高可擴展、高可靠的智算網絡產品及方案,解決了傳統RoCE方案普遍存在的有效帶寬低、尾時延高、故障收斂慢等問題,將大模型訓練性能提升38%以上,性能接近InfiniBand,助力AI用戶高效釋放大模型生產力。
AI Infra全棧優化:釋放多元算力、提升大模型算力效率
大模型算法開發的鏈條冗長,這意味著需要諸多的工程化工具支撐。因此,在算力系統外,AI軟件基礎設施(AI Infra)也亟需創新。
AIGC大模型開發是一項極其復雜的系統工程,即便解決了底層算力供給的問題,仍面臨建不了和用不好的問題。"建不好"是指構建算力平臺不僅需要服務器、存儲、網絡等硬件集成,還需要考慮不同硬件和軟件之間的兼容性和版本選擇,確保驅動和工具的適配性和穩定性;"用不好"則體現在算力平臺效率低、穩定性不足、故障頻發等現實困擾。
為加速模型生產和落地應用,浪潮信息在AI Infra層面開發了大模型智算軟件棧OGAI (Open GenAI Infra)。在算力部署方面,OGAI開源了業界首個AI算力集群系統環境部署方案PODsys;在大規模訓練的長時保障方面,從算力調度平臺層實現了自動化斷點續訓;在多元算力接入方面以標準化、模塊化接入方式穩定接入超過40+芯片;在數據治理方面構建了流程化、可自定義的數據清洗pipeline,有效縮短數據清洗時間、提升文本審核過濾準確率;在計算效率優化方面,通過對分布式并行算法的極致優化,將千億參數模型的訓練計算效率提升到54%;在多模型管理方面已經支持了超過10個業界主流的開源大模型和元腦生態大模型,用實踐證明AI Infra全棧基礎軟件和工作流的創新是多元算力高效釋放、提升大模型算力效率的關鍵。
基礎大模型,生成式AI落地發展的核心支撐
當前,大模型技術正在推動生成式人工智能產業迅猛發展,而基礎大模型的關鍵能力則是大模型在行業和應用落地時能力表現的核心支撐。但是,基礎大模型在持續進化的過程中,依然面臨著數據、算法、算力等關鍵因素的挑戰與制約。
目前,受政策支持、算力水平提升、數據資源龐大以及科研實力增強等利好因素的推動,中國在基礎大模型方面取得一定成績,但仍需加大在基礎性技術方面的原創性突破,夯實底層模型和算法能力。
浪潮信息從實踐入手,加大模型結構創新、高質量數據準備、高效算力利用投入,并將這些技術運用在了"源2.0"大模型上,在編程、推理、邏輯等方面展示了先進的能力。
在算法方面,"源2.0"提出并采用了一種新型的注意力算法結構,有效提升了模型自然語言的表達能力與生成精度;在數據方面,"源2.0"在訓練數據來源、數據增強和合成方法等方面進行了全面創新,最終增強模型數理邏輯能力;在算力方面,"源2.0"采用非均勻流水并行+優化器參數并行+數據并行+ Loss計算分塊的策略,顯著降低大模型對于芯片間互聯帶寬的要求,讓模型訓練在"條件有限"的算力規模下實現高效率工作。
源2.0作為千億級基礎大模型,在業界公開的評測上進行了代碼生成、數學問題求解、事實問答方面的能力測試,展示了較為先進的能力表現。為了滿足不同行業、不同場景的能力要求,浪潮信息全面開源"源2.0"全系列大模型,以最便捷的方式支持用戶建設自己的智能化產品與能力,結合行業特點進行框架、模型、數據的垂直整合,提升基礎大模型的準確性和可用性。
生態聚進,聯合創新,加速AI應用落地
有了強大的基礎大模型,還需要進一步深入應用場景。將大模型的能力賦能到產業環節之中,需要多廠商的深度配合。面對生態復雜離散、產業AI落地困難的挑戰,浪潮信息提出元腦生態,聚合優質伙伴協同創新,通過"技術支持、方案聯合、平臺共享"實現不同廠商之間的優勢互補。
目前,元腦生態以浪潮信息的AI算力平臺、AI資源平臺和AI算法平臺為支撐,已經對接40多家芯片廠商,400+算法廠商,4000+系統集成商,通過多元的算力供給、全棧的AI Infra軟件棧、豐富的大模型經驗,實現"百模"與"千行"的對接,助力千行百業加速生成式AI 產業創新,高效釋放生產力。
智算力是創新力,AIGC與數字經濟、實體經濟的深度融合,將會創造出更多顛覆性的社會價值、經濟價值,而浪潮信息將秉持開放、共享、共建的發展理念,抓住AIGC市場機遇,共同推進人工智能落地。