隨著大數據時代的到來,數據價值的深度應用成為助力企業發展的重要源動力。在企業的數字化轉型過程中,加強數據治理、深化數據開發、保障數據安全成為釋放數據價值的關鍵環節,而強化數據安全對企業的數字化轉型和升級起著至關重要的作用。
基于此,CIO時代、新基建創新研究院聯合霍因科技推出“霍因安全觀”系列線上微課堂,詳細介紹數據安全治理的方法論、先進技術、典型案例及實踐成果,展現數據安全治理的全生命周期管理,助力企業的數字化轉型與升級。
大數據時代,所有數據都具有了一定的價值。價值的背后潛藏著巨大風險,大量敏感數據被販賣、竊取和無授權濫用,這一問題已經嚴重危害到個人隱私、企業發展甚至國家安全。
首期“霍因安全觀”系列微課堂,我們共同關注一下人工智能在全域敏感數據發現中的應用。
如何邁好數據安全治理的第一步
數據安全治理是企業安全管理的重要組成也是管理難點之一,隨著《網絡安全法》、《民法典》、《數據安全法》和《個人信息保護法》等國家相關法律法規的出臺,以及地方性、行業性的規范及指導意見的實施,都體現出數據安全管理的重要性和必要性。但數據安全治理并不是一蹴而就的,從《GB∕T 37988-2019 信息安全技術 數據安全能力成熟度模型》(DSMM模型)中可以看出,數據安全是涉及到數據完整生命周期的全過程安全管理。
從數據安全過程管理角度看,數據采集階段是踐行DSMM數據安全管理的第一步。在數據采集階段所需要做的數據發現、數據定義、數據分級分類等工作,是后續更好的完成數據過程管理的基礎。
全域敏感數據發現正在面臨巨大挑戰
對于企業而言,數據安全的核心是針對特定的敏感信息實施安全防護。在數據安全治理中,數據采集階段的重要目標是完成數據分類分級。可在執行中,企業通常會面臨以下的一些挑戰:
1. 不知道哪些系統存有需要處置的數據?
2. 只有數據庫中的數據才需要管理么?
3. 如何根據自身業務情況配置分類分級策略?
由此可見,進行數據分類分級的前提是了解客戶環境中全量數據情況。從目前主流的數據安全管理產品現狀來看,除開進行敏感數據發現時手段單一之外,還存在以下兩方面的問題:
1. 支持的數據源范圍有限:以主流的敏感數據掃描產品為例,在進行敏感數據發現時,主要面向的是數據庫系統,但大量客戶的數據使用環境并不是只有數據庫,包括企業網盤、流程平臺、大數據開發甚至IM通訊軟件中都存有大量的敏感信息數據。
2. 數據發現的手段單一:傳統的數據安全產品依據的是大量定義正則表達式規則匹配完成數據庫的敏感數據掃描。數據發現的范圍及精準度完全依賴于正則規則豐富度及準確度。很難確保數據發現不出現遺漏、偏離等問題。
除此之外,諸如大量人工配置、發現效率低等問題都制約了客戶完成數據安全治理的目標達成。
全域敏感數據發現的秘密武器
1)善用機器學習的能力
經過霍因的長期經驗總結,機器學習是目前分析、理解、識別數據模式的最佳工具。在數據安全治理過中合理的借助機器學習的能力,能有效解決全域敏感數據發現過程中準確度、匹配度等問題。
其次,機器學習具備廣泛的技術適配性,可通過多種技術的復合應用來解決企業應用場景中異構數據類型及不同數據源的全域敏感數據的發現。
例如,在針對傳統敏感數據發現產品中不具備的非結構化數據掃描,可通過NLP(自然語言處理)技術進行掃描及敏感特征發現,還可以通過k-means算法技術完成相似數據的發現、聚類識別等。
2)AI(人工智能)賦能全域敏感數據發現
目前,企業生成的數據量正呈指數級增長,這是由于隱藏于數據庫中所有未被發現的敏感信息進行評估而產生的。自動化的廣泛應用,是可以有效提升數據治理的。因此,可通過兩方面實現AI賦能全域敏感數據發現:
1、基于AI發現能力:
通過自動化嗅探技術將客戶環境中的存儲進行識別,并通過掃描樣例數據摸底,初步梳理出客戶的數據資產。包括:
1)通過SQL檢索摸底并梳理結構化數據庫數據信息;
2)通過NLP及對應的數據學習模型完成非結構化文檔中的敏感數據解析;
3)通過大數據連接組件及內置的正則式發現半結構化數據中的敏感信息。
2、利用AI分類分級
在了解客戶基本數據環境情況以后,產品通過內置的智能分類器對全量數據進行自動化標簽處理,并再結合法律法規的解讀和導入進行自動化的分級分類處置。在處理過程中,通過聚類算法等方式提高處理效率及準確性。
數據安全管理的前提是對全域全量數據的發現及合理化的分類分級,霍因數據安全治理平臺可通過AI技術賦能數據安全治理過程,讓客戶了解數據現狀,從而更好的開展后續數據安全管理工作。
本平臺通過實踐DSMM模型期間形成“咨詢-發現-管控”流程體系,完成數據完整生命周期過程中的安全管理工作。平臺采用多種AI技術,將客戶的數據環境通過不同的數據發現及掃描分類技術進行自動化預處理。降低客戶在進行數據安全治理期間第一步“全域全量數據發現”的難度。
關于霍因科技
霍因科技是一家專注在為企業客戶提供數據安全的方案/服務提供商。率先提出下一代數據安全理論CDC(Consult-Discover-Control),服務聚焦于安全合規驅動下的數據治理方案,采用場景化能力復用及機器學習能力,將數據治理與數據安全管理能力融合。
基于“Consult-Discover-Control”理念,霍因科技為眾多政企客戶提供實踐數據管理及安全合規方案:從客戶數據業務的咨詢、法規理解和導入著手,基于機器學習技術與大數據湖倉技術為企業構建安全的數據管理環境,從而實現基于生態的全面安全控制。霍因科技在安全驅動數據治理方面的優勢:
1. 全域:結構化數據、非結構化數據(文件/音視頻)
2. 全場景:個人隱私數據、企業數據(商業數據、生產數據、經營數據...)
3. 全鏈路:數據在采集、存儲、處理、交換、管理等全鏈路上的安全管理