北京2023年5月16日 /美通社/ -- 我們站在人工智能(AI)革命的前沿。過去十年,數據與算力的碰撞催生了深度學習,讓許多令人刮目相看的AI能力成為現實。然而,這也讓我們面臨好似潘多拉盒子那樣的矛盾性挑戰:自動化居然是勞動密集型的工作。聽起來似乎好笑,但任何試圖用AI來解決業務問題的人可能都知道,這是事實。
傳統的AI工具雖然功能強大,但可能昂貴且耗時難用。必須費力地收集、整理數據并使用特定任務的注釋來標記數據,以訓練 AI 模型;而構建模型還需要專門但卻難找的技能,更不要說每個新任務都需要重復這個過程。因此,企業不得不將主要注意力放在自動化那些有豐富數據和高業務價值的任務之上,而把其它的一切先放在一邊。然而,這種情況正在開始改變。
如需了解IBM技術、產品和服務的更多信息,點擊訪問IBM官網。
https://research.ibm.com/blog/what-is-generative-AITransfomers算法架構和自監督學習方法的出現,使我們能夠利用大量未標記的數據,為大型預訓練模型鋪平了道路,我們有時將其稱為"基礎模型"。這些大模型降低了自動化背后所需的成本和勞力。
基礎模型為各種 AI 應用提供了強大而多樣的基礎。我們可以使用基礎模型以有限的注釋數據和最少的工作量快速執行任務;在某些情況下,我們只需要描述手頭的任務就可以驅使模型去完成任務。
但這些強大的技術也給企業帶來了新的風險和挑戰。今天的許多模型都是在質量和來源未知的數據集上進行訓練的,導致會產生攻擊性、有偏見或與事實不符的響應。那些最大型的模型不僅成本高昂,而且訓練和運行的耗能龐大,部署起來也很復雜。
IBM 一直在開發一種方法,解決企業使用基礎模型所面臨的核心挑戰。IBM日前在Think大會上宣布推出 watsonx.ai,這是IBM提供的市場上最新的 AI 工具和技術門戶。當然,這個領域發展極快,有些工具只有幾周時間長,而IBM也在不斷為市場提供更新的工具。
watsonx.ai 是IBM剛剛宣布的watsonx產品集的一部分,包含的內容多樣且將不斷演進,但IBM總體的承諾不變——就是要提供安全的企業就緒的自動化產品。
這是 IBM 正在進行的一項工作,旨在加速客戶從AI 新范式中獲取價值的旅程。在此,介紹一下IBM構建一套由 IBM 訓練的企業級基礎模型的工作,包括IBM采用的數據與模型架構的方法。同時還將概述IBM新的平臺和工具,如何幫助企業基于廣泛的開源模型目錄和IBM的模型,來構建和部署基于基礎模型的解決方案。
數據:基礎模型的基礎
數據質量 至關重要。在有偏見或不良數據上訓練的AI模型,自然會產生有偏見或不良的輸出。這個問題在基礎模型時代會變得更加復雜,用于訓練模型的數據通常來自眾多數據源,且異常豐富,以至于人類根本無法合理地梳理所有數據。
由于數據是驅動基礎模型的燃料,因此 IBM 一直專注于精心策劃模型中的所有內容。我們開發了AI工具,嚴格過濾數據中存在的仇恨、褻瀆、許可限制和偏見等。一旦發現,立即刪除,然后重新訓練模型,如此循環反復。
數據管理是一項永遠都做不完的工作。我們不斷開發和完善新方法,以提高數據質量和控制,以滿足不斷變化的法律和監管要求。我們構建了一個端到端框架來跟蹤已經清洗過的原始數據、使用的方法,以及每個數據點接觸過的模型。
我們不斷收集高質量的數據,以幫助解決金融、法律、網絡安全和可持續發展等各個領域的一些最為緊迫的業務挑戰。 我們當前的目標是收集超過 1 TB 的精選文本用以訓練我們的基礎模型,同時添加精選軟件代碼、衛星數據以及 IT 網絡事件的數據與日志。
IBM 研究院還在開發能夠在基礎模型整個生命周期中注入信任的技術,以減輕偏見并提高模型的安全性。例如FairIJ,它可以識別用于調整模型的數據中的偏差數據點,以便對其進行編輯。其它方法,如fairness reprogramming,允許我們減輕模型中的偏差,即使是已經訓練過的模型。
專注于企業價值的高效基礎模型
IBM 新的 watsonx.ai 開發平臺提供了 一套旨在實現企業價值的基礎模型。它們已被整合到一系列 IBM的產品當中,這些產品將在未來幾個月內提供給 IBM 客戶。
認識到并沒有放之四海而皆準的解決方案,因此IBM正在構建一系列有著不同大小和體系結構的語言及代碼的基礎模型。每個模型家族都以一個地質名稱代號——Granite (花崗巖)、砂巖 (Sandstone)、黑曜石 (Obsidian) 和板巖 (Slate)——它們匯集了來自 IBM 研究院和開放研究社區的尖端創新,每個模型都可以針對一系列企業任務進行定制。
Granite 模型是基于僅解碼器、類似 GPT 的架構,用于生成任務。 Saadstone模型使用編碼器-解碼器架構,非常適合對特定任務進行微調,可與 Google 流行的 T5 模型互換。 Obsidian 模型利用 IBM 研究院開發的新模塊化架構,為各種任務提供高推理效率和性能水平。 Slate指的是一系列僅編碼器(基于RoBERTa)的模型,雖然不是生成式的,但對于許多企業NLP任務來說既快速又有效。所有 watsonx.ai 模型都是在 IBM 精心策劃的且聚焦企業的數據湖和IBM定制設計的云原生 AI 超級計算機 Vela 上進行訓練。
效率和可持續性是 watsonx.ai 的核心設計原則。 IBM 研究院發明了用于高效模型訓練的新技術,包括"LiGO"算法,該算法可回收小模型并讓使其"長成"較大的模型。這種方法可以節省訓練模型所需的 40% 到 70% 的時間、成本和碳排放量。為了提高推理速度,IBM研究院利用其在量化方面的深厚專業知識,https://www.ibm.com/blogs/research/2019/05/ultra-low-precision-training/或將模型從 32 點浮點算法縮小到更小的整數位格式。降低 AI 模型精度可以在不犧牲準確性的情況下帶來巨大的效率優勢。IBM希望很快在其AI優化芯片IBM AIU上運行這些壓縮模型https://research.ibm.com/blog/ibm-artificial-intelligence-unit-aiu。
適用于基礎模型的混合云工具
基礎模型的最后一道難題是創建一個易用的軟件平臺來調整和部署模型。IBM 基于紅帽OpenShift 構建的混合及云原生的推理堆棧,已針對訓練和服務基礎模型進行了優化。企業可以利用 OpenShift 的靈活性在任何地點(包括本地)運行模型。
IBM在 watsonx.ai 中創建了一套工具,為客戶提供友好的用戶界面和開發人員友好的庫,用于構建基于基礎模型的解決方案。我們的提示實驗室 (Prompt Lab) 使用戶只需幾個標記的示例即可快速執行AI任務。調優開發平臺基于IBM 研究院開發的最先進的高效微調技術,讓客戶可以用自己的數據來實現快速、可靠的模型定制。
除了 IBM 自己的模型之外,watsonx.ai 還提供了對廣泛的開源模型目錄的無縫訪問,供企業進行試驗和快速迭代。通過與Hugging Face建立的新合作伙伴關系,IBM將在 watsonx.ai 中提供數千個開源的Hugging Face基礎模型,數據集和庫。反過來,Hugging Face也將在 watsonx.ai 上提供IBM所有的專有和開放訪問的模型與工具http://watsonx.ai/http://ibm.com/products/watsonx-aihttp://watsonx.ai/。
展望未來
基礎模型正在改變AI 的格局,并將加速推進已經取得的各項進展。IBM 很高興能夠立于這一快速發展的技術前沿并做出規劃,把科技創新轉化為真正的企業價值。