北京2023年10月18日 /美通社/ -- 近日,亞馬遜云科技宣布Amazon DataZone正式可用。Amazon DataZone讓客戶能夠跨組織邊界發現、訪問、共享和治理大規模數據,并減少企業內部成員訪問數據和使用分析工具時繁重的工作量。通過Amazon DataZone,數據工程師、科學家和分析師等數據使用者可以通過統一的數據分析門戶,在亞馬遜云科技賬戶之間共享和訪問數據,實現跨部門、跨組織地使用數據及開展數據協作。此外,數據所有者和數據管理者可以通過在用戶界面中使用預定義的審批工作流來平衡數據訪問治理,以及通過向數據添加業務上下文而簡化數據發現。
數據管理和治理的常見問題:
- 數據發現,特別是跨賬戶及區域分布的數據:企業所擁有的PB級數據往往分散在數十甚至數千個數據源中,為發現可用于分析的數據帶來極大挑戰。
- 數據訪問:不同企業采用不同的數據管理方式,且通常需要手動批準,這導致數據訪問控制變得繁瑣耗時,而且很難及時同步更新,這讓分析師常常無法及時獲取所需數據。
- 工具使用:每個工具都以不同的方式管理數據訪問,每個用戶在治理數據時使用的工具可能各不相同。
- 協作:分析師、數據科學家和數據工程師通常在端到端的分析過程中處于不同的階段,但沒有一種簡單的方式可以讓他們選擇不同的工具來協作處理同一個經過治理的數據。
- 數據治理:數據治理的構建通常隱藏在各個工具中,并由不同的團隊以不同方式進行管理,這導致企業無法跟蹤誰正在訪問什么數據以及為什么訪問。
Amazon DataZone的三個核心優勢
Amazon DataZone允許客戶跨組織邊界大規模發現、共享和治理數據。
- 管理跨組織邊界的數據訪問:幫助確保正確的用戶以符合企業安全規定的方式訪問正確的數據,而無需依賴個人憑證;同時,通過經過治理的工作流提供數據資產的透明度,并批準數據訂閱;此外,審計功能可監控跨項目的數據資產使用情況。
- 通過共享數據和工具連接數據用戶,驅動業務洞察:通過團隊之間無縫協作和提供數據和分析工具的自助訪問,提升業務團隊的效率;使用業務術語搜索、共享和訪問數據目錄,使數據對所有授權用戶可用,并通過業務詞匯表了解他們想要使用的數據。
- 利用機器學習實現數據發現和編目自動化:縮短了在業務數據目錄手動輸入數據屬性所需的時間,同時減少了錯誤的發生;數據目錄中數據的增多會提升搜索體驗,將搜索和使用數據的時間從幾周縮短到幾天。
為了實現上述優勢,Amazon DataZone內置了多項功能,其中包括:
- 業務驅動領域:一個DataZone數據域代表了企業內的一條業務線(LOB)或一個業務領域的明確邊界,它可以管理自己的數據,包括數據資產、數據定義或業務術語,以及數據治理標準。數據域是用戶開啟Amazon DataZone旅程的起點。當用戶首次開始使用DataZone時,將創建一個包含所有核心組件的數據域,如業務數據目錄、項目和環境。
- 企業內部的業務數據目錄:企業可以為數據增加業務上下文,從而增加數據的可見性,以便數據使用者可以更加快速高效地查找和理解數據。目錄的核心功能是對不同來源的數據編目,并通過附加的業務背景來增強元數據,為尋找數據的使用者提供更好的決策支持。
- 利用數據項目進行聯邦治理:Amazon DataZone 數據項目基于業務用例將用戶、數據資產和分析工具進行分組,簡化了訪問亞馬遜云科技分析工具的過程。數據項目提供了可供項目成員一起協作、交換數據和共享工件(artifact)的空間。只有被添加到項目中的用戶才能參與協作,因此,整個項目的安全性可以得到最大限度的保證。通過這些項目,Amazon DataZone將數據所有權分散到不同團隊中的數據所有者身上,所有者通過訪問管理權控制用戶的數據訪問請求。
- Amazon DataZone現已提供外部API,以編程的方式與系統交互。用戶可以將Amazon DataZone添加到現有架構中。例如,用戶可以在Amazon DataZone中使用數據管道編目數據,使客戶能夠無縫搜索、查找、訂閱和訪問數據。在此版本中,Amazon DataZone引入了一個新的目錄數據模型。編目API支持基于類型系統的模型,允許用戶定義和管理目錄中實體的類型。通過使用該類型的系統模型,用戶將擁有一個靈活且可擴展的目錄,在表示不同類型對象的同時可以將其(資產或列)關聯到元數據。類似地,用戶也可以用編程方式使用Amazon DataZone的API。
Amazon DataZone常見客戶應用場景
數據發現
Bristol Myers Squibb研究IT解決方案架構總監David Y. Liu表示:"Bristol Myers Squibb正在積極推進一項計劃,旨在將藥物發現和研發時間縮短超過30%。這項計劃的關鍵環節是解決數據共享所面臨的挑戰并優化數據可用性。通過與亞馬遜云科技合作,我們發現Amazon DataZone能夠幫助我們創建、管理、歸類整理我們的數據產品,使數據更容易被找到、訪問、進行協作處理和復用。目前我們正在評估Amazon DataZone在企業內更廣泛的可用性,以確定是否與我們的運營目標相符。"
共享治理數據以支持生成式AI項目
Guardant Health數據、CRM和分析高級總監Rajesh Kucharlapati表示:"通過在多個業務領域之間協調數據,我們可以培養數據共享的文化。為此,我們一直在使用Amazon DataZone,將開發人員從構建和維護平臺的任務中解放出來,使他們能夠專注于定制解決方案。亞馬遜云托管服務對我們具有重要意義,因為利用亞馬遜云科技生態系統功能,我們能夠更快地從數據分析中獲得業務洞察,標準化數據定義,以及充分利用生成式AI的潛力。我們期待繼續與亞馬遜云科技合作,為Guardant Health注入活力,并為我們服務的患者提供更優質的服務。與亞馬遜云服務的合作已遠遠超出了數據范疇,這是一段充滿活力的旅程。"
聯邦式數據治理
Itaú Unibanco數據治理和隱私主管Priscila Cardoso Ferreira表示:"實現數據驅動是我們的戰略目標之一。我們始終遵循更優的數據治理、數據隱私保護和安全性實踐。在Itaú,數據被視為最主要的資產之一,良好的數據定義和管理是我們解決方案的核心組成部分,這在使用亞馬遜云科技分析服務的每一個環節中都得到了體現。與亞馬遜云科技團隊一起,我們使用Amazon DataZone預覽版提出了與Itaú技術和業務需求相匹配的功能——例如按數據域劃分的數據可以簡化數據治理的流程,并幫助業務部門間分配責任。隨著Amazon DataZone的正式可用,我們希望能夠迅速而輕松地為團隊建立跨數據域工作規則,幫助數據分析師、工程師和科學家在多個業務用例中進行數據假設實驗,實現簡化治理。"