通過Amazon SageMaker HyperPod的三項新功能,以及直接在Amazon SageMaker中整合亞馬遜云科技合作伙伴的熱門AI應用產品,亞馬遜云科技幫助客戶消除AI開發生命周期中無差別的繁重工作,從而更快速、更輕松地構建、訓練和部署模型
北京2024年12月16日 /美通社/ -- 亞馬遜云科技在2024 re:Invent全球大會上,宣布推出Amazon SageMaker AI四項創新,助力企業更快使用熱門的公開模型,最大化訓練效率、降低成本,并使用其首選工具加速生成式人工智能(AI)模型的開發。Amazon SageMaker AI是一項端到端的服務,數十萬客戶使用它來構建、訓練和部署各種用例的AI模型,它提供完全托管的基礎設施、工具和工作流。
- Amazon SageMaker HyperPod新增三項強大功能,幫助客戶更輕松地快速開始訓練時下流行的公開可用模型,通過靈活訓練計劃節省數周的模型訓練時間,并最大化計算資源利用率,將成本降低高達40%。
- 現在,客戶可以直接在Amazon SageMaker中輕松安全地發現、部署和使用來自亞馬遜云科技合作伙伴的完全托管的生成式AI和機器學習(ML)開發應用,例如Comet、Deepchecks、Fiddler AI和Lakera,從而靈活選擇最適合的工具。
- Articul8、澳大利亞聯邦銀行、富達、Hippocratic AI、Luma AI、NatWest、NinjaTech AI、OpenBabylon、Perplexity、Ping Identity、Salesforce和湯森路透等客戶正在使用Amazon SageMaker的新功能,加速生成式AI模型開發。
亞馬遜云科技人工智能和機器學習服務與基礎設施副總裁Baskar Sridharan博士表示:"亞馬遜云科技在七年前推出Amazon SageMaker,以簡化構建、訓練和部署AI模型的過程,幫助各種規模的組織訪問和擴展其對AI和機器學習的使用。隨著生成式AI的興起,Amazon SageMaker不斷快速創新,自2023年以來已經推出了超過140項功能,幫助Intuit、Perplexity和Rocket Mortgage等企業更快地構建基礎模型。通過此次發布,我們將為客戶提供更高性能、更具成本效益的模型開發基礎設施,幫助他們加速將生成式AI工作負載部署到生產環境中。"
Amazon SageMaker HyperPod:訓練生成式AI模型的首選基礎設施
隨著生成式AI的出現,構建、訓練和部署機器學習模型的過程變得更加困難,這需要深厚的AI專業知識、訪問大量數據以及創建和管理大型計算集群。此外,客戶需要開發專門的代碼來實現跨集群分布式訓練,持續檢查和優化模型,并手動處理硬件故障,同時盡量控制時間進度和成本。亞馬遜云科技為此推出Amazon SageMaker HyperPod,幫助客戶在數千個AI加速器上高效擴展生成式AI模型開發,將訓練基礎模型的時間縮短高達40%。無論是Writer、Luma AI、Perplexity等領先的初創公司,還是湯森路透、Salesforce等大型企業,都在利用Amazon SageMaker HyperPod加速模型開發。亞馬遜還使用Amazon SageMaker HyperPod訓練新的Amazon Nova模型,不僅降低了訓練成本,提高了訓練基礎設施的性能,還節省了數月手動設置和管理集群的時間。
現在,越來越多的企業希望微調熱門的公開可用模型,或訓練自己的專用模型,以利用生成式AI改造業務和應用。Amazon SageMaker HyperPod將持續創新,幫助客戶更輕松、更快速、更具成本效益地大規模構建、訓練和部署這些模型,具體創新包括:
- 新訓練配方幫助客戶更快上手:許多客戶希望基于Llama和Mistral等熱門的公開可用模型,使用內部數據為特定用例進行定制。然而,優化訓練性能可能需要數周的反復測試,包括嘗試不同的算法、調整參數、觀察訓練效果、調試問題和設定性能基準。為了幫助客戶在幾分鐘內快速入門,Amazon SageMaker HyperPod現在提供30多個精選的模型訓練配方,可適用于時下熱門的一些公開可用模型,包括Llama 3.2 90B、Llama 3.1 405B和Mistral 8x22B。這些配方極大地簡化了客戶的入門過程,自動加載訓練數據集、應用分布式訓練技術,并配置系統以實現高效的檢查點管理和基礎設施故障恢復。不同技能水平的客戶能夠從一開始就在亞馬遜云科技基礎架構上優化模型訓練的性價比,省去了數周的反復評估和測試的時間。客戶可以通過Amazon SageMaker GitHub存儲庫瀏覽可用的訓練配方,根據定制需求調整參數,并在幾分鐘內完成部署。此外,客戶只需一行簡單編輯,即可在基于GPU或Trainium的實例之間無縫切換,進一步優化性價比。
Salesforce的研究人員一直在尋求一種快速啟動基礎模型訓練和微調的解決方案,希望能夠在不用過多關注基礎設施的情況下,避免為每個新模型耗費數周時間進行訓練堆棧優化。通過Amazon SageMaker HyperPod的定制模板,他們現在能夠快速開展基礎模型的原型設計。目前,Salesforce的AI研究團隊可以在短短幾分鐘內啟動各種預訓練和微調流程,并成功實現基礎模型的高效運營。
- 靈活訓練計劃可輕松滿足訓練時限和預算要求:盡管基礎設施創新有助于降低成本并提高訓練效率,但客戶仍需規劃并管理所需計算資源,以確保在預算范圍內按時完成訓練任務。因此,亞馬遜云科技為Amazon SageMaker HyperPod推出了靈活訓練計劃。客戶只需輕松點擊幾下,就能指定預算、截止日期和所需的最大計算資源量。Amazon SageMaker HyperPod會自動預留容量、設置集群并創建模型訓練作業,幫助團隊節省數周的訓練時間,減少客戶在獲取大型計算集群以完成模型開發任務時的不確定性。如果提議的訓練計劃無法滿足指定的時間、預算或計算要求,Amazon SageMaker HyperPod會提供替代方案,如延長日期范圍、增加計算資源或選擇不同的亞馬遜云科技區域進行訓練。一旦計劃獲批,Amazon SageMaker會自動配置基礎設施并啟動訓練作業。Amazon SageMaker使用 Amazon Elastic Compute Cloud (EC2)容量塊預留所需的加速計算實例,確保訓練任務按時完成。根據容量塊的可用時間,Amazon SageMaker HyperPod通過有效的暫停和恢復訓練作業,確保客戶始終擁有按時完成任務所需的計算資源,無需人工干預。
Hippocratic AI為醫療保健開發以安全為重點的大語言模型(LLM)。為了訓練多個模型,Hippocratic AI采用了Amazon SageMaker HyperPod靈活訓練計劃,獲得了按時完成訓練任務所需的加速計算資源。這幫助他們將模型訓練速度提高了4倍,并更有效地擴展其解決方案,以適應數百個用例。
- 任務治理功能最大化加速器利用率:越來越多的企業為模型訓練配置大量加速計算資源。這些計算資源昂貴且有限,因此客戶需要一種管理資源使用率的方法,以確保其計算資源優先用于最關鍵的模型開發任務,避免任何浪費或利用率不足。如果沒有對任務優先級和資源分配的有效控制,一些項目最終會因資源不足而停滯,而同時其他項目卻資源利用率不足。這給管理員帶來了巨大負擔,他們必須不斷重新規劃資源分配,而數據科學家則難以取得進展。這不僅阻礙了企業將AI創新快速推向市場,還可能導致成本超支。通過Amazon SageMaker HyperPod任務治理功能,客戶可以在模型訓練、微調和推理過程中最大化加速器的利用率,將模型開發成本降低最多 40%。只需點擊幾下,客戶就可以輕松為不同任務定義優先級,并為每個團隊或項目可以使用的計算資源設置限制。一旦客戶在不同團隊和項目之間設置了限制,Amazon SageMaker HyperPod將分配相關資源,自動管理任務隊列以確保最關鍵的工作優先進行。例如,如果客戶緊急需要更多計算資源來支持面向客戶的推理任務,但所有計算資源都已被占用,Amazon SageMaker HyperPod會自動釋放未充分利用的資源或非緊急任務的資源,以確保緊急推理任務獲得所需資源。在這種情況下,Amazon SageMaker HyperPod會自動暫停非緊急任務,保存檢查點以保證已完成的工作完好無損,并在更多資源可用時從最后保存的檢查點恢復任務,確保客戶最大化計算資源的利用。
Articul8 AI是一家快速成長的初創企業,致力于幫助企業構建自己的生成式AI應用產品,因此需要不斷優化計算環境,以盡可能高效地分配資源。通過使用Amazon SageMaker HyperPod中的新任務治理功能,該公司的GPU利用率有了顯著提高,減少了空閑時間,并加速了端到端模型開發。自動將資源轉移到高優先級任務的能力提高了團隊的生產力,使他們能夠更快地推出生成式AI創新成果。
在Amazon SageMaker中使用亞馬遜云科技合作伙伴的熱門AI應用產品,加速模型開發和部署
許多客戶在使用Amazon SageMaker AI的同時,也在使用業界一流的生成式AI和機器學習模型開發工具來執行專業任務,如跟蹤和管理實驗、評估模型質量、監控性能和保護AI應用產品。然而,將熱門的AI應用產品集成到團隊的工作流程中是一個耗時的多步驟過程。這包括尋找合適的解決方案、執行安全和合規性評估、監控跨多個工具的數據訪問、配置和管理必要的基礎設施、構建數據集成以及驗證是否符合治理要求。現在,亞馬遜云科技幫助客戶更輕松地將專業AI應用產品的強大功能與Amazon SageMaker AI的托管能力和安全性結合起來。這項新功能讓客戶能夠直接在Amazon SageMaker中輕松發現、部署和使用來自領先合作伙伴(如Comet、Deepchecks、Fiddler和Lakera Guard)的最佳生成式AI和機器學習開發應用,從而消除其中的阻礙繁重的工作。
Amazon SageMaker是首個為一系列生成式AI和機器學習開發任務提供精選的、完全托管且安全的合作伙伴應用集的服務。這為客戶構建、訓練和部署模型提供了更大的靈活性和控制權,同時將AI應用產品的上線時間從數月縮短到數周。每個合作伙伴應用都由Amazon SageMaker AI完全托管,因此客戶不必擔心設置應用或持續監控以確保有足夠的容量。通過Amazon SageMaker可直接訪問這些應用,客戶無需將數據從安全的亞馬遜云科技環境中移出,同時可以減少在不同界面之間切換的時間。客戶只需瀏覽Amazon SageMaker合作伙伴AI應用產品目錄,了解他們想要使用的應用的功能、用戶體驗和定價。然后,他們可以輕松選擇和部署應用,并使用Amazon Identity and Access Management(Amazon IAM)管理整個團隊的訪問權限。
Amazon SageMaker在Ping Identity自研的AI和機器學習基礎設施的開發和運營中也發揮著關鍵作用。借助Amazon SageMaker中的合作伙伴AI應用產品,Ping Identity將能夠通過私有、完全托管的服務,為其客戶提供更快速、更高效的機器學習驅動的功能,同時滿足嚴格的安全和隱私要求,并減少運營開銷。
Amazon SageMaker全部創新技術現已全面可用。