北京2023年12月4日 /美通社/ -- 2023年生成式AI和大模型的爆發,讓我們面對一個變化更加快速也更加激動人心的時代,隨著新質生產力和算力基礎設施高質量發展的提出,算力和存儲基礎設施也面臨著創新與破局,如何在生成式AI和大模型時代,更好地幫助企業實現數字化創新?
11月29日,由DOIT傳媒舉辦的"數智創新·AI未來"—2023中國數據與存儲峰會在北京成功舉辦,浪潮信息存儲產品線副總經理劉希猛和分布式存儲總經理姜樂果受邀參會,分享了存儲在生成式AI和大模型上的創新理念與實踐,與合作伙伴和客戶共同探討通過創新發展應對快速變化的新時代。
新場景:數聚AI加速企業向智能化場景變革
生成式AI和大模型與千行百業進行了全面的融合,帶來了自動駕駛、智能制造、智慧醫療等AI+創新應用場景,這些新的應用場景將加速傳統產業向智能化的變革。
千行百業的AI+創新應用帶來了數據爆發式的增長,數據要素在產業智能化的過程中發揮著重要作用。IDC最新發布的數據顯示,中國數據量規模將從2022的23.88ZB增長至2027年的76.6ZB,增長幅度為全球第一,其中企業數據量占據70%,而僅有24%的數據被用于分析或AI決策,這意味著企業將有更大的空間來挖掘數據價值。
中國非常重視數據要素的作用,發布了如《算力基礎設施高質量發展行動計劃》、《數據要素白皮書》、《生成式人工智能服務暫行方法》等一系列政策,推動企業在激活數據要素潛能和加速人工智能領先等方面的發展。
在AI 時代,原始數據呈現出多源多態的趨勢,包括文本、圖像、音頻、視頻等有感數據以及激光、毫米波、紅外線等無感數據,會產生TB級乃至PB級多態數據,這一趨勢給數據的存儲、管理和應用帶來了新的需求和挑戰。
這些新的需求和挑戰體現在巨量多模態數據、超大讀寫帶寬、超高讀寫IOPS和全生命周期管理四個方面。姜樂果表示,隨著訓練模型從LLM(語言)、ALM(音頻)、CV(計算視覺)、VL(多模態)到FMLM(混合模態),對數據存儲的要求從PB級到EB級容量需求,從100GB帶寬到TB級帶寬的性能訪問要求,同時還要求在多源異構數據之間實現快速轉換與傳輸,實現生命的全生命周期管理,以及數據的安全可靠。
新存儲:分布式融合存儲助力企業實現破局創新
面對AI時代多源多態的數據挑戰,企業需要支持多種架構、具有持久性、靈活性的數據基礎設施,來部署和實施生成式AI的創新應用。
浪潮信息存儲一直秉持"分層解耦"的理念,提供從數據中心、硬件平臺、大模型智算軟件棧OGAI和基礎大模型完整的全棧解決方案,以應對生成式AI和大模型時代的全面需求和挑戰。其中解決數據多模多態需求和挑戰的就是分布式融合存儲平臺。
浪潮信息存儲面向生成式AI的分布式融合存儲解決方案結合生成式AI和大模型的數據采集、數據準備、數據訓練、數據推理和數據歸檔的五個階段,由同一套存儲提供端到端的數據流支持流程,滿足面向文本、音頻、圖像、視頻、代碼以及多模態和全模態的模型的需求,具有極致融合、極致容量、極致性能和極致管理四大特點。
極致融合是面向海量、多源、異構非結構化數據場景,融合多種存儲介質、多協議實時互訪互通、系統扁平擴展,可以用一套存儲實現多模態場景應用;極致容量是從PB級到EB級甚至是ZB級,通過多種容量算法的加持,讓存儲空間利用達到最優,讓客戶的投資收益最大化;極致性能是通過對存儲性能的極致提升,帶來了超大帶寬和超高IOPS,滿足了生成式AI和大模型場景對存儲的苛刻要求;極致管理提供了閃存、磁盤、磁帶、光盤四種介質,以及提供了熱溫冷冰四種存儲資源,實現了資源的互通,可以實現數據全生命周期的管理。
劉希猛認為,在非結構化數據爆發的生成式AI和大模型時代,無論基于高性能文件、流式對象還是原生大數據的智能化應用,浪潮信息的分布式存儲平臺都將成為企業簡化IT部署和實施生成式AI創新的關鍵支撐。
新實踐:在源大模型和企業AIGC上的創新實踐
作為全球領先的IT基礎設施產品、方案及服務提供商,浪潮信息已經建立了面向大模型應用場景的整體解決方案。
2023年10月,浪潮信息幫助中科大升級其校級"融合計算平臺",部署了25個GPU服務器節點和40個分布式融合存儲節點,來滿足不同學科、領域產生的海量多模態數據需求,助力AI驅動下的高水平科研創新。
在助力企業應用生成式AI和大模型實現數字化創新上,浪潮信息不僅提供了數據中心和硬件平臺,還基于數據基礎設施的領先性,為企業提供了大模型智算軟件棧OGAI和基礎大模型"源2.0"。
劉希猛介紹,大模型智算軟件棧OGAI"元腦生智"是浪潮信息面向以大模型為核心技術的生成式AI開發與應用場景,提供從集群系統環境部署到算力調度保障和大模型開發管理的全棧全流程的軟件,從而降低大模型算力系統的使用門檻、優化大模型的研發效率,保障大模型的生產與應用。
源大模型是浪潮信息存儲支持生成式AI和大模型的最佳實踐。基于浪潮信息大模型整體方案的"源2.0"大模型已正式發布,并全面開源,這也將會更好地滿足企業大模型開發和應用的需求,推動企業的應用創新。
在"源1.0"中文語言大模型的訓練中,AS13000就采用最新硬件平臺,搭載全閃SSD和高速IB網絡,支撐"源1.0"的訓練過程高效完成。在近期發布的"源2.0"大模型中,浪潮信息存儲更是作為模型訓練的基座,為數據的采集、預處理、訓練和歸檔起到了不可忽視的助力,高靈活可擴展的容量為"源2.0"獲取12個PB中文數學數據提供了堅實的后盾,使模型訓練在容量方面不存在瓶頸。
浪潮信息存儲此次獲得了"2023年度高端存儲產品金獎"和"2023年年度存儲技術創新獎"。在過去的一年,浪潮信息存儲實現了金融行業的六大行、股份制、城商行等用戶的全面突破。
浪潮信息未來將會繼續秉持著創新的服務理念,基于浪潮信息的基礎平臺能力和源自JDM的存儲場景共同體定制能力,持續將先進的產品、技術、解決方案帶給企業,與客戶和合作伙伴一起攜手共行,幫助企業加快實現數字化轉型和創新,加速實現高質量發展,服務未來數字化轉型。