劉志勇,何忠江,阮宜龍,單俊峰,張超
(中國電信集團有限公司,北京 100032)
大數(shù)據(jù)已經(jīng)逐步應用于產業(yè)發(fā)展、政府治理、民生改善等領域,大幅度提高了人們的生產效率和生活水平。適應、把握、引領大數(shù)據(jù),將成為時代潮流。在大數(shù)據(jù)時代,數(shù)據(jù)是重要的戰(zhàn)略資源,是企業(yè)得以發(fā)展的核心,但數(shù)據(jù)資源的價值只有在流通和應用過程中才能夠充分體現(xiàn)。云計算、物聯(lián)網(wǎng)、大數(shù)據(jù)等新技術的迅猛發(fā)展,引發(fā)了數(shù)據(jù)規(guī)模的爆炸式增長和數(shù)據(jù)模式的高度復雜化,如何對大量且復雜的數(shù)據(jù)進行有效管理和合理分析成為企業(yè)亟待解決的問題[1]。為應對日益復雜的數(shù)據(jù)環(huán)境,加快數(shù)據(jù)應用與部署,大數(shù)據(jù)湖逐漸成為企業(yè)大數(shù)據(jù)運營管理的重要趨勢和發(fā)展方向,通過統(tǒng)一匯聚和管理各生產系統(tǒng)的運營數(shù)據(jù),提供統(tǒng)一的存儲與數(shù)據(jù)服務,讓各類數(shù)據(jù)應用和數(shù)據(jù)開發(fā)人員各取所需,充分發(fā)揮數(shù)據(jù)價值[2]。大數(shù)據(jù)在收集、匯聚、存儲、使用、共享的過程中,對信息安全的要求越來越高,數(shù)據(jù)類型及數(shù)據(jù)量的增多使數(shù)據(jù)安全和隱私保護問題更加突出,傳統(tǒng)的基于邊界安全和基于已知特征的網(wǎng)絡安全防護方式,已無法有效應對大數(shù)據(jù)環(huán)境下新的安全威脅。因此,要建立完備的大數(shù)據(jù)安全防護機制和管理制度,根據(jù)各類數(shù)據(jù)應用的不同特點,完善全生命周期數(shù)據(jù)安全保障策略,防止數(shù)據(jù)越權訪問、私自篡改、泄露毀壞等問題發(fā)生。
大數(shù)據(jù)(big data)具有數(shù)據(jù)體量浩大(volume)、數(shù)據(jù)生成速度快(velocity)、數(shù)據(jù)種類繁多(variety)、數(shù)據(jù)價值高但密度低(value)的4V特點,如圖1所示。
圖1 大數(shù)據(jù)4V特點
由于采用分布式存儲方式,數(shù)據(jù)存儲路徑相對清晰,且數(shù)據(jù)量過大,導致攻擊者較容易利用相關漏洞實施不法操作,造成安全問題。
(1)大數(shù)據(jù)成為網(wǎng)絡攻擊的顯著目標。更加龐大敏感的數(shù)據(jù)提高了黑客的“收益率”,成為了黑客攻擊的最佳目標;數(shù)據(jù)中包含大量用戶信息,使得對大數(shù)據(jù)的開發(fā)利用很容易侵犯公民的隱私,增加了用戶個人隱私泄露風險。
(2)大數(shù)據(jù)的存儲管理風險加大。數(shù)據(jù)量非線性甚至指數(shù)級的速度增長,多種應用進程的并發(fā)以及頻繁無序的運行,極易造成數(shù)據(jù)存儲錯位和數(shù)據(jù)管理混亂;訪問控制和隱私管理、授權與驗證的安全模式、技術漏洞和成熟度、數(shù)據(jù)管理與保密等問題,以及物理故障、人為誤操作、軟件故障、木馬病毒和黑客攻擊等都嚴重威脅著數(shù)據(jù)的安全性。
(3)大數(shù)據(jù)的傳輸處理隱患增多。除數(shù)據(jù)非授權使用、泄露、被篡改、被破壞等風險外,由于大數(shù)據(jù)傳輸?shù)漠悩?、多源、關聯(lián)等特點,即使多個數(shù)據(jù)集各自脫敏處理,數(shù)據(jù)集仍然存在關聯(lián)分析造成個人信息泄露的風險。
(4)大數(shù)據(jù)實施訪問控制更加復雜。大數(shù)據(jù)應用范圍廣泛,被用于多種不同場景,被來自不同組織、部門、身份與目的的用戶所訪問,其訪問控制需求十分突出,導致難以預設角色、難以實現(xiàn)角色劃分、難以預知每個角色的實際權限、不同類型的大數(shù)據(jù)中可能存在多樣化的訪問控制需求等問題。
(5)大數(shù)據(jù)技術被應用到攻擊手段中。網(wǎng)絡攻擊者最大限度地收集更多有用信息,通過大數(shù)據(jù)分析讓攻擊更加精準;大數(shù)據(jù)已成為高級可持續(xù)攻擊(advanced persistent threat,APT)的載體,利用大數(shù)據(jù)發(fā)起僵尸網(wǎng)絡攻擊,控制上百萬臺傀儡機,傳統(tǒng)的基于內置攻擊事件庫的特征實施匹配檢測技術對檢測APT攻擊是無效的,將攻擊隱藏在大數(shù)據(jù)中,給安全服務提供商的安全分析制造了很大的困難[3]。
(1)數(shù)字化
面向云網(wǎng)安全協(xié)同和安全融云,建設“全網(wǎng)聯(lián)動、防控一體”安全中臺樞紐,打造以數(shù)據(jù)驅動的智能化安全運營體系,從被動防御向積極防御演進。隨著IT系統(tǒng)上云同步建立電信云內生安全體系,保障云上系統(tǒng)與數(shù)據(jù)安全,借助基礎網(wǎng)優(yōu)勢,持續(xù)優(yōu)化企業(yè)網(wǎng)絡安全建設;并進一步打造以骨干網(wǎng)、5G為中心的安全防護體系;構建5G核心網(wǎng)異常信令監(jiān)測控制能力,打造差異化的5G安全防護體系,助力企業(yè)在5G時代提升整體競爭力;同時,逐步加強邊緣網(wǎng)絡安全防護能力,構建從終端到業(yè)務的零信任安全體系。重點攻關數(shù)據(jù)流動的阻斷防護和安全檢測技術,掌握敏感數(shù)據(jù)的識別、用戶身份識別和訪問控制、用戶行為分析、個人隱私保護、數(shù)據(jù)防泄露等關鍵技術,實現(xiàn)安全能力服務化,統(tǒng)一開放和安全原子能力賦能數(shù)字化平臺。
(2)體系化
構建貫穿大數(shù)據(jù)應用云管端的綜合立體防御體系,已滿足大數(shù)據(jù)戰(zhàn)略與市場應用的需要。綜合利用數(shù)據(jù)源驗證、大規(guī)模傳輸加密、非關系型數(shù)據(jù)庫加密存儲、數(shù)據(jù)防泄露、數(shù)據(jù)銷毀等技術,與系統(tǒng)現(xiàn)有網(wǎng)絡信息安全技術設施相結合,建立縱深的防御體系。集中的安全配置管理和安全機制部署成為平臺層安全趨勢。集中安全管理、準入控制、多因素認證、細粒度訪問控制、密鑰管理、數(shù)據(jù)脫敏、集中審計等安全機制,從機制上防止數(shù)據(jù)的未授權訪問和泄露。
(3)智能化
敏感數(shù)據(jù)識別技術作為數(shù)據(jù)安全監(jiān)控的必要技術條件將逐步實現(xiàn)自動化;人工智能識別技術的引入,通過機器學習實現(xiàn)大量文檔的聚類分析,自動生成分類規(guī)則庫,內容自動化識別程度正逐步提高。大數(shù)據(jù)分析技術、機器學習算法的發(fā)展與演進將推動數(shù)據(jù)防泄露的智能化發(fā)展,DLP將實現(xiàn)用戶行為分析與數(shù)據(jù)內容的智能識別,實現(xiàn)數(shù)據(jù)的智能化分層、分級保護,并提供終端、網(wǎng)絡、云端協(xié)同一體的敏感數(shù)據(jù)動態(tài)集中管控體系。借助大數(shù)據(jù)分析、人工智能等技術,實現(xiàn)自動化威脅識別、風險阻斷和攻擊溯源,從源頭上提升大數(shù)據(jù)安全防御水平[4]。
(4)流通化
大數(shù)據(jù)要發(fā)揮其自身價值,必須安全、有效地流通、共享。之前應用廣泛的數(shù)據(jù)脫敏技術受到多源數(shù)據(jù)匯聚的嚴重挑戰(zhàn)而可能面臨失效,目前匿名化算法等前沿技術鮮有實際應用案例,普遍存在運算效率過低、開銷過大等問題,還需要在算法的優(yōu)化方面持續(xù)進行改進,以滿足大數(shù)據(jù)環(huán)境下的隱私保護需求。“隱私保護計算”和“區(qū)塊鏈”成為近年數(shù)據(jù)安全流通領域常用的兩種技術框架,通常涵蓋聯(lián)邦學習、安全多方計算、同態(tài)加密等關鍵技術。
目前,中國電信通過建設集團企業(yè)級大數(shù)據(jù)平臺匯聚企業(yè)主要運營數(shù)據(jù),開展精準營銷、精確管理、精細服務、精益運營等應用探索,對部分生產系統(tǒng)閉環(huán)注智,較好地支撐了企業(yè)數(shù)字化轉型。為解決大數(shù)據(jù)平臺在數(shù)據(jù)匯聚和應用過程中的數(shù)據(jù)安全問題,打造了以網(wǎng)絡基礎設施安全為基礎,以“數(shù)據(jù)和人”為核心的大數(shù)據(jù)安全深度防御體系,如圖2所示,結合不同場景,從數(shù)據(jù)的采集安全、存儲加工安全、應用共享安全等全生命周期進行綜合施策,以此實現(xiàn)“降低數(shù)據(jù)泄露風險、保障企業(yè)級數(shù)據(jù)與用戶隱私數(shù)據(jù)安全、夯實數(shù)字化基礎”的目標。
網(wǎng)絡基礎設施安全是大數(shù)據(jù)安全不可或缺的基礎保障。為滿足“云網(wǎng)融合”安全需求,正在推動構建覆蓋“云-網(wǎng)-應用-數(shù)據(jù)-終端”的一體化安全運營體系,從被動響應轉向主動防御,從單點防御轉向全網(wǎng)聯(lián)防聯(lián)動,建立安全與信息化“深度融合、全面覆蓋”的內生安全體系,保障云網(wǎng)業(yè)務數(shù)據(jù)安全、可靠、高效地運營。在網(wǎng)絡安全層面,大數(shù)據(jù)平臺實施物理隔離部署,日常管理維護、開發(fā)測試均通過“VPN+堡壘機”方式接入;網(wǎng)絡邊界出口部署流量控制、入侵檢測系統(tǒng)(intrusion detection system,IDS)、入侵防御(軟WAF)等安全防護設備,通過策略路由方式引流,防范南北向攻擊;利用云堤網(wǎng)絡鏈路資源和基礎清洗能力,結合網(wǎng)站防護設備(硬WAF),實現(xiàn)基于IP路由的雙向引流、清洗和綜合防護,防止大流量DDoS攻擊、Web攻擊;使用WAF+SSL證書進行應用層、傳輸層的防護,保證數(shù)據(jù)不被劫持、篡改,防止CC、SQL注入等攻擊。在主機安全層面,采用LDAP統(tǒng)一身份認證和主機權限控制;部署安全代理(agent)監(jiān)控組件對主機實現(xiàn)7×24 h的安全防護,部署終端防護響應工具(EDR),通過預防、防御、檢測、響應等環(huán)節(jié),為終端提供更加優(yōu)良的隔離策略、病毒查殺和檢測處置能力。
圖2 打造以數(shù)據(jù)、人為核心的大數(shù)據(jù)安全防御體系
圍繞數(shù)據(jù)全生命周期,從采集、傳輸、存儲、處理、共享、銷毀等環(huán)節(jié),以關鍵技術措施為突破,完善大數(shù)據(jù)安全技術體系,如圖3所示。
(1)在數(shù)據(jù)采集環(huán)節(jié),實施連接限制、敏感數(shù)據(jù)識別、數(shù)據(jù)一致性和合法性校驗等手段,通過底層HDFS文件系統(tǒng)的訪問控制列表(access control list,ACL)權限管控實現(xiàn)數(shù)據(jù)源認證、接入安全、權限管理;開啟基于分析系統(tǒng)日志(Elastic search,Logstash,Kibana,ELK)開發(fā)的數(shù)據(jù)采集日志審計,實現(xiàn)對數(shù)據(jù)采集過程全流程操作可追溯,保證各類數(shù)據(jù)采集活動的合規(guī)性和安全性;對采集的數(shù)據(jù)進行分類分級標識,對不同類和級別的數(shù)據(jù)實施相應的安全管理策略和保障措施[5]。
(2)在數(shù)據(jù)傳輸環(huán)節(jié),利用鏈路加密、加密協(xié)議、認證鑒權等機制對數(shù)據(jù)傳輸進行安全管理,構建傳輸安全通道;部署RSA、AES等密碼算法以及PKI系統(tǒng)進行身份認證和密鑰管理,防止數(shù)據(jù)丟失、泄露、篡改。建立數(shù)據(jù)傳輸接口安全管理工作規(guī)范,包括安全域內、安全域間等數(shù)據(jù)傳輸接口規(guī)范。
(3)在數(shù)據(jù)存儲與加工環(huán)節(jié),采用多種加密算法(例如AES、FPR)實現(xiàn)數(shù)據(jù)脫敏、加密等手段。實現(xiàn)數(shù)據(jù)保密,提高個人信息的安全性;加強數(shù)據(jù)的統(tǒng)一調度與資源監(jiān)控,以及日志分析和操作審計;對數(shù)據(jù)實施分權分域管理,嚴控集群公共數(shù)據(jù)的讀寫權限分配,數(shù)據(jù)模型采用分層架構,控制數(shù)據(jù)開放范圍。
(4)在數(shù)據(jù)應用與共享環(huán)節(jié),實施數(shù)據(jù)脫敏、數(shù)據(jù)水印、導出管理、訪問頻度控制等手段,建立嚴格的審批流程,通過訪問控制列表(ACL)、業(yè)務日志監(jiān)控(sentry)等技術實現(xiàn)對數(shù)據(jù)、表的共享訪問控制和操作控制。制定數(shù)據(jù)共享審計策略和審計日志管理規(guī)范,審計記錄詳細完整,為數(shù)據(jù)共享安全事件的處置、應急響應和事后溯源提供幫助[6]。
(5)在數(shù)據(jù)銷毀層面,針對不同的存儲方式、存儲內容,建立數(shù)據(jù)銷毀周期管理能力,明確需要進行數(shù)據(jù)銷毀的數(shù)據(jù)、方式和要求,明確銷毀數(shù)據(jù)范圍和流程;遵循可審計原則,建立數(shù)據(jù)刪除策略和管理制度,記錄數(shù)據(jù)刪除的操作時間、操作人、操作方式、數(shù)據(jù)內容等相關信息[5]。
圖3 數(shù)據(jù)全生命周期安全管理
著眼云網(wǎng)融合資源布局的多組織、大體系環(huán)境下的數(shù)據(jù)安全需求,建設企業(yè)級大數(shù)據(jù)平臺安全管理系統(tǒng),構建大數(shù)據(jù)集群安全統(tǒng)一管控體系,通過數(shù)據(jù)分權分域管理、數(shù)據(jù)訪問授權、數(shù)據(jù)加密脫敏、敏感數(shù)據(jù)識別、安全審計實時風險告警、集群多租戶管理等安全能力,為大數(shù)據(jù)平臺提供安全防護和安全事件溯源能力。企業(yè)級大數(shù)據(jù)平臺安全管理系統(tǒng)能力架構如圖4所示。
(1)構建多租戶權限管理體系。圍繞以人為核心,建立租戶、用戶組、用戶三大要素所組成的3層用戶體系,對大數(shù)據(jù)平臺進行立體式的用戶管理,成功解決Hadoop平臺原生安全認證能力過于單一,無法精細化、多樣化地控制每一個用戶權限的問題。3層用戶體系把組織、用戶組、用戶的概念融為一體,提供對平臺資源統(tǒng)一分配、數(shù)據(jù)集中權限控制的能力,由上至下形成一條完整的管控鏈路,從全局實現(xiàn)平臺資源和數(shù)據(jù)的統(tǒng)籌分配管理,從局部解決了租戶內部資源管理與隔離。數(shù)據(jù)權限的管控與繼承,既實現(xiàn)了租戶與租戶之間的完全隔離,也滿足了租戶內部對資源、數(shù)據(jù)靈活調配的定制化需求?,F(xiàn)在多租戶權限管理體系已經(jīng)為全國31個省公司167個租戶、1 343個用戶組的日常生產經(jīng)營提供底層用戶體系保障和安全管控服務。平臺用戶體系及資源管控如圖5所示。
圖4 企業(yè)級大數(shù)據(jù)平臺安全管理系統(tǒng)能力架構
圖5 平臺用戶體系及資源管控
(2)統(tǒng)一身份認證管理,利用云認證平臺提供大數(shù)據(jù)平臺人臉、聲紋、指紋、掃碼等多因子認證服務,業(yè)務系統(tǒng)集中單點登錄,實現(xiàn)對14個業(yè)務系統(tǒng)共計25 000個應用賬號的統(tǒng)一管理,形成“一人一賬號、一次登錄通行訪問”的用戶便捷操作和安全保障能力。在大數(shù)據(jù)集群的身份認證方面,Hadoop主要支持簡單機制和Kerberos機制兩種身份認證機制[4]。簡單機制根據(jù)用戶的有效UID確認用戶名,避免內部人員誤操作。Kerberos機制支持集群中服務器間的認證和客戶端(client)到服務器的認證,嚴格控制數(shù)據(jù)輸出,實現(xiàn)較強的安全性,同時保證較高的運行性能。技術上采用客戶端/服務器結構與多層加密技術,密碼和關鍵信息經(jīng)過3層加密,先使用base64算法進行數(shù)據(jù)編碼在經(jīng)過sha256加密,其次再生成隨機動態(tài)鹽,密碼和動態(tài)鹽拼接在一塊,經(jīng)過sha-224類型的SHA算法加密生成最終的數(shù)據(jù),用于防竊聽、防replay攻擊、保護數(shù)據(jù)完整性,使用對稱密鑰體制進行密鑰存儲,建立數(shù)據(jù)權限管理的基礎安全環(huán)境。
(3)統(tǒng)一資產管理。對大數(shù)據(jù)平臺內所有資產實施臺賬管理,與智能運維平臺聯(lián)動,建立“資產入網(wǎng)-資產變更-資產監(jiān)視-資產退網(wǎng)”的流程,實現(xiàn)對主機、數(shù)據(jù)庫、業(yè)務系統(tǒng)、網(wǎng)絡拓撲圖、業(yè)務系統(tǒng)互聯(lián)關系等資產信息的全生命周期管控;在未知資產自動發(fā)現(xiàn)方面,通過端口掃描、協(xié)議探測等方式,可實現(xiàn)對網(wǎng)絡中的未知資產對象的發(fā)現(xiàn)與基本信息偵測。驗證試點全網(wǎng)數(shù)據(jù)資產測繪,通過集中式數(shù)據(jù)庫JDBC、CMDShell等API連接方式實現(xiàn)定向采集,利用分布式終端agent進行本地腳本直采,實現(xiàn)MySQL、Oracle、SQLServer等主流關系型數(shù)據(jù)庫以及HBase、Hive、MongoDB、Redis等主流大數(shù)據(jù)組件的資產數(shù)據(jù)采集,同時結合網(wǎng)絡流量的采集監(jiān)測進行HTTP、FTP、SQL等協(xié)議解析,可動態(tài)發(fā)現(xiàn)敏感數(shù)據(jù)的流動方向、使用熱度等,結合平臺資產信息可發(fā)現(xiàn)未登記、已退網(wǎng)等情況的異常資產,實現(xiàn)資產數(shù)據(jù)查漏補缺和動態(tài)更新;數(shù)據(jù)資產信息采集后通過周期性北向接口進行自動數(shù)據(jù)上報形成全網(wǎng)重要數(shù)據(jù)資產地圖。
(4)統(tǒng)一日志審計管理。使用分布式數(shù)據(jù)抽取組件將數(shù)據(jù)進行加密傳輸,支持多種數(shù)據(jù)源類型可支持采集文件、網(wǎng)絡數(shù)據(jù)、主機的審計和運行指標、堡壘機日志等,可自動化解析、規(guī)范轉發(fā)以及數(shù)據(jù)庫的日志。Lambda架構如圖6所示,使用經(jīng)典的Lambda架構,數(shù)據(jù)傳輸?shù)较㈥犃兄?,支持進行數(shù)據(jù)的無感分流;一方面使用分布式實時計算組件(Spark streaming)對接消息中間件進行實時數(shù)據(jù)指標的分析,形成用戶行為軌跡、賬號違規(guī)共享、執(zhí)行高危指令、數(shù)據(jù)上傳下載、異常時段登錄、組件日志審計、Web系統(tǒng)日志審計等能力;另一方面數(shù)據(jù)存儲到ES(elastic search)搜索引擎中,使用腳本結合AI挖掘建模技術,采用隨機森林等算法對數(shù)據(jù)進行打標處理,根據(jù)多維評分模型,進行數(shù)據(jù)安全感知分析、威脅預判和預處理。
圖6 Lambda架構
(5)提供數(shù)據(jù)匿名化解決方案。配套常用對稱/非對稱加解密算法API,支持aes/des/MD5/sm2/sm3/sm4/rc4等多種加密能力,針對不同的業(yè)務場景可提供表級加密和字段級加密能力。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)加密需要實現(xiàn)數(shù)據(jù)在靜態(tài)存儲及傳輸過程的加密保護,難點在于密鑰管理。在Hadoop2.6的版本之后,HDFS支持一種靜態(tài)加密方式,應用層加密是一種基于加密區(qū)的透明加密方法,將需要加密的目錄分解成若干個區(qū),數(shù)據(jù)寫入加密區(qū)和客戶端讀取數(shù)據(jù)時,數(shù)據(jù)被透明地加密和解密。對于動態(tài)的傳輸數(shù)據(jù),對應PRC、TCP/IP和HTTP,Hadoop提供了不同的動態(tài)加密方法用以保證客戶端和服務器傳輸?shù)陌踩浴O到y(tǒng)底層支持分布式的計算架構,利用分布式計算能夠橫向擴展的特性來提升數(shù)據(jù)加密性能。安全系統(tǒng)還對系統(tǒng)中所有的加/解密作業(yè)進行跟蹤,記錄每個作業(yè)的執(zhí)行時間、運行狀態(tài)、執(zhí)行結果、相關數(shù)據(jù)等信息,以保證所有加/解密行為的有記可查。數(shù)據(jù)匿名架構如圖7所示。
(6)構建統(tǒng)一的漏洞知識庫。包括數(shù)據(jù)訪問行為知識、用戶訪問組件行為知識、存儲組件漏洞庫等。從多個數(shù)據(jù)源獲取攻擊規(guī)則、軟件漏洞樣本、網(wǎng)絡威脅情報、漏洞數(shù)據(jù)以及與計算機和網(wǎng)絡安全相關的知識,對收集的知識進行統(tǒng)一化清洗處理,將分散的知識結構化為計算機可理解的知識庫,通過五元組模型(包含概念、實例、關系、屬性和規(guī)則),實現(xiàn)知識圖譜化。通過將零散的安全閾值規(guī)則整合成體系化的安全漏洞知識庫后,安全告警事件發(fā)現(xiàn)識別率提升30%,預防潛在安全風險能力提升20%。漏洞知識庫構建架構如圖8所示。
在解決數(shù)據(jù)匯聚和應用過程中大數(shù)據(jù)安全問題的同時,還有一些不足。一是重防范安全、輕共享安全,數(shù)據(jù)應用面臨多種能力開放模式:如數(shù)據(jù)專區(qū)、挖掘建模、營銷開發(fā)、服務封裝,個人用戶信息保護難度越來越大,傳統(tǒng)的“一事一議”方式無法滿足越來越多的數(shù)據(jù)開放需求,數(shù)據(jù)安全共享成為迫切需要解決的問題。二是安全風險監(jiān)測智能化能力不足,依賴傳統(tǒng)的基于規(guī)則過濾的黑名單制的日志審計,對疑似符合已知威脅模式/特征的行為產生告警,無法識別看似合法的風險隱患;檢測水平取決于運營人員自身的經(jīng)驗和水平,缺少對AI新技術的有效使用。三是過于依賴網(wǎng)絡和邊界安全,缺乏數(shù)字化轉型“企業(yè)邊界正在瓦解,基于邊界的安全防護體系正在失效”這一大背景下的應對措施。
圖7 數(shù)據(jù)匿名架構
(1)引入聯(lián)邦學習、區(qū)塊鏈等技術在確保隱私安全前提下促進數(shù)據(jù)有序流通共享
隱私保護是建立在數(shù)據(jù)安全防護基礎之上的保障用戶個人信息的更深層次的安全要求。在數(shù)據(jù)共享方面,探索引入安全多方計算、聯(lián)邦學習等隱私計算技術,在原始數(shù)據(jù)不出平臺的情況下,與合作伙伴開展聯(lián)合建模、聯(lián)合營銷、聯(lián)合風控等場景的數(shù)據(jù)聯(lián)合計算,實現(xiàn) “數(shù)據(jù)可用不可見”的安全體驗;采用區(qū)塊鏈技術進行數(shù)據(jù)服務調用的存證、授權、計費等,以確保數(shù)據(jù)計算和利用的合法合規(guī),提供計算數(shù)據(jù)、過程的驗證審計、數(shù)據(jù)監(jiān)控等能力,保證計算過程真實可信、數(shù)據(jù)的真實性和數(shù)據(jù)質量;使用同態(tài)加密/部分同態(tài)加密技術,保護計算外包時的數(shù)據(jù)安全。在數(shù)據(jù)發(fā)布方面,利用數(shù)據(jù)匿名化算法(包括差分隱私、K匿名、L 多樣性、T 接近等)有條件地發(fā)布部分數(shù)據(jù)或數(shù)據(jù)的部分屬性內容,達到隱私性和可用性的平衡。
圖8 漏洞知識庫構建架構
(2)建立基于軟件定義邊界的零信任數(shù)據(jù)訪問控制體系
基于SDS(software defined security,軟件定義安全)實現(xiàn)安全能力原子化、安全服務鏈編排,實現(xiàn)云網(wǎng)融合的安全產品與能力,提供多樣化、可定制的云網(wǎng)安全服務。構建以身份為中心的信任體系和動態(tài)訪問控制,建立全新的零信任微邊界,引入角色挖掘、風險訪問控制、半/非結構化數(shù)據(jù)的訪問控制、針對隱私保護的訪問控制、基于密碼學的訪問控制等新技術以實現(xiàn)對數(shù)據(jù)可信的訪問控制,依據(jù)控制策略對資源進行不同的授權訪問,從而保障數(shù)據(jù)資源在合法范圍內得以有效使用和管理。持續(xù)開展信任評估,一旦環(huán)境發(fā)生變化就要去驗證訪問者是不是真實可信的,基于身份再次進行信任評估、基于環(huán)境的風險重新判定,基于行為的異常做出“檢測+響應+阻止”,進而全面降低攻擊者在網(wǎng)絡中橫向移動的風險。
(3)利用大數(shù)據(jù)和AI技術實現(xiàn)從被動防御到主動監(jiān)測的轉變
通過大數(shù)據(jù)分析、人工智能等技術,實現(xiàn)基于用戶實體行為分析技術的審計監(jiān)控,構建從數(shù)據(jù)采集、傳輸、使用、共享全鏈路的智能化風險檢測能力[4]。在數(shù)據(jù)流轉、接口監(jiān)測方面,對TCP/UDP應用層服務及數(shù)據(jù)庫協(xié)議進行解析和內容還原,基于文檔指紋、圖片特征、關鍵字匹配識別流量中的敏感數(shù)據(jù),通過連續(xù)時間變量分析、概率分布對比(非參數(shù)檢驗/密度估計)和稀有度統(tǒng)計分析等離散變量、聚類K-means/DBSCAN、離散森林(isolation forest)、LOF等無監(jiān)督學習算法,構建和持續(xù)優(yōu)化正常訪問流量通道和行為模型,實現(xiàn)采集數(shù)據(jù)鑒別、傳輸接口、流動數(shù)據(jù)、共享接口、服務接口監(jiān)測和風險預警能力。在數(shù)據(jù)使用和操作方面,通過機器學習算法和預定義規(guī)則對照行為基線判斷用戶行為是否異常,通過權限變化監(jiān)控、用戶安全風險綜合評估,進行數(shù)據(jù)安全感知分析,對數(shù)據(jù)安全威脅預判、預處理,從源頭上提升大數(shù)據(jù)安全防御水平,提升對未知威脅的防御能力和防御效率。
大數(shù)據(jù)時代,數(shù)據(jù)在流動和共享過程中不斷創(chuàng)造新的價值。大數(shù)據(jù)不僅是數(shù)字化轉型的重要驅動力,更是轉型之后企業(yè)數(shù)字化發(fā)展的重要載體和工具。需要構建以數(shù)據(jù)為中心的、動態(tài)的數(shù)據(jù)安全防護體系,通過聯(lián)邦學習、安全多方計算、人工智能和零信任的新技術研究應用,持續(xù)提升大數(shù)據(jù)安全效能,才能為企業(yè)數(shù)字化轉型提供堅強保障與重要支撐。