程偉,馬成,凌捷
1.清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系,北京 100084;
2.聯(lián)通(廣東)產(chǎn)業(yè)互聯(lián)網(wǎng)有限公司,廣東 廣州 510320;
3.廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510006
數(shù)據(jù)安全事關(guān)國(guó)家安全、社會(huì)穩(wěn)定、經(jīng)濟(jì)發(fā)展和人民福祉,守護(hù)數(shù)據(jù)安全是信息通信央企的第一責(zé)任。近年來國(guó)家陸續(xù)出臺(tái)《中華人民共和國(guó)數(shù)據(jù)安全法》《中華人民共和國(guó)個(gè)人信息保護(hù)法》《關(guān)鍵信息基礎(chǔ)設(shè)施安全保護(hù)條例》等多項(xiàng)數(shù)據(jù)安全相關(guān)監(jiān)管法律法規(guī)。國(guó)家“十四五”規(guī)劃也明確要求保障國(guó)家數(shù)據(jù)安全,要求做好數(shù)據(jù)資源全生命周期安全保護(hù),建立數(shù)據(jù)分類分級(jí)管理、數(shù)據(jù)安全審查、數(shù)據(jù)安全風(fēng)險(xiǎn)評(píng)估、監(jiān)測(cè)預(yù)警和應(yīng)急處置等基本制度。
基于以上國(guó)家政策大環(huán)境和大型企業(yè)數(shù)據(jù)安全治理應(yīng)用需求的背景,很多大型企業(yè)在積極研究設(shè)計(jì)數(shù)據(jù)安全平臺(tái),以解決在資產(chǎn)管理、安全防護(hù)、日志審計(jì)等應(yīng)用場(chǎng)景下普遍遇到的數(shù)據(jù)安全治理難題。隨著大數(shù)據(jù)的大規(guī)模流轉(zhuǎn)、匯總存儲(chǔ)和分析,以及各種大數(shù)據(jù)技術(shù)架構(gòu)、支撐平臺(tái)和大數(shù)據(jù)軟件的大范圍使用,企業(yè)研究數(shù)據(jù)安全治理相關(guān)技術(shù)、建設(shè)數(shù)據(jù)安全平臺(tái)來統(tǒng)籌多維度、全流程的數(shù)據(jù)安全治理任務(wù),優(yōu)化各設(shè)備的防護(hù)策略,強(qiáng)化數(shù)據(jù)安全治理體系,更具緊迫性。
本文提出了基于圖算法的關(guān)鍵權(quán)限人員識(shí)別技術(shù),該技術(shù)可發(fā)現(xiàn)系統(tǒng)中潛在的權(quán)限影響因素,并可從多個(gè)角度衡量不同含義的權(quán)重影響力;提出一種基于生成對(duì)抗網(wǎng)絡(luò)的異常檢測(cè)方法,實(shí)驗(yàn)結(jié)果表明,所提方法的精確率、召回率和F1值的平均值均優(yōu)于對(duì)比基線模型方法;設(shè)計(jì)開發(fā)了數(shù)據(jù)安全平臺(tái),其在降低數(shù)據(jù)安全風(fēng)險(xiǎn)、輔助企業(yè)合規(guī)建設(shè)、促進(jìn)數(shù)據(jù)開發(fā)利用等方面起到了重要作用,相關(guān)技術(shù)已在廣東聯(lián)通的數(shù)據(jù)安全治理實(shí)際項(xiàng)目中得到應(yīng)用,取得了良好的社會(huì)經(jīng)濟(jì)效果。
數(shù)據(jù)安全治理的實(shí)踐路徑一般為“規(guī)劃-建設(shè)-運(yùn)營(yíng)-優(yōu)化”。其中,運(yùn)營(yíng)階段旨在通過不斷適配業(yè)務(wù)環(huán)境和風(fēng)險(xiǎn)管理需求,持續(xù)優(yōu)化安全策略措施,確保整個(gè)數(shù)據(jù)安全治理體系有效運(yùn)轉(zhuǎn)[1]。數(shù)據(jù)安全平臺(tái)作為運(yùn)營(yíng)階段的重要工具,可統(tǒng)一管理企業(yè)資產(chǎn)信息、安全運(yùn)營(yíng)信息、防護(hù)日志信息等安全運(yùn)營(yíng)數(shù)據(jù)。根據(jù)數(shù)據(jù)的應(yīng)用特點(diǎn),數(shù)據(jù)安全平臺(tái)一般使用圖數(shù)據(jù)庫(kù)、事務(wù)型數(shù)據(jù)庫(kù)、搜索引擎數(shù)據(jù)庫(kù)存儲(chǔ)對(duì)應(yīng)信息。
企業(yè)資產(chǎn)信息包括主機(jī)資產(chǎn)信息、應(yīng)用系統(tǒng)信息、數(shù)據(jù)源信息、人員賬號(hào)信息等。由于各類信息之間存在從屬或關(guān)聯(lián)關(guān)系,使用圖形數(shù)據(jù)庫(kù)存儲(chǔ),可在業(yè)務(wù)中快速依據(jù)實(shí)體間的關(guān)系遍歷搜索目標(biāo)。
安全運(yùn)營(yíng)信息包括數(shù)據(jù)生存周期各階段部署的安全專用防護(hù)設(shè)備信息(如VPN系統(tǒng)、數(shù)據(jù)庫(kù)審計(jì)、API監(jiān)測(cè))、設(shè)備安全策略的執(zhí)行情況以及運(yùn)營(yíng)工單信息。此類信息存儲(chǔ)在事務(wù)型數(shù)據(jù)庫(kù)中,以支持業(yè)務(wù)中對(duì)信息的頻繁更新。
防護(hù)日志信息主要是各專用安全設(shè)備策略運(yùn)行的結(jié)果日志。各設(shè)備每日監(jiān)測(cè)產(chǎn)生大量用戶和實(shí)體動(dòng)作日志,這些日志大多是非結(jié)構(gòu)數(shù)據(jù),存儲(chǔ)在搜索引擎數(shù)據(jù)庫(kù)中,以應(yīng)對(duì)在平臺(tái)進(jìn)行的中長(zhǎng)文本檢索任務(wù)。
在安全事務(wù)中,實(shí)時(shí)性很重要。數(shù)據(jù)安全平臺(tái)在防護(hù)日志的解析與分析中采用流處理大數(shù)據(jù)架構(gòu),如圖1所示。
圖1 日志數(shù)據(jù)處理流程
安全專用設(shè)備將產(chǎn)生的日志推送至消息隊(duì)列后,把編寫好的解析程序和分析程序作為消費(fèi)者的實(shí)時(shí)讀取日志,并將分析的結(jié)果(識(shí)別的告警或統(tǒng)計(jì)的指標(biāo))發(fā)送至新的消息隊(duì)列,再經(jīng)過ETL任務(wù)處理后寫入搜索引擎數(shù)據(jù)庫(kù),支撐上層應(yīng)用?;诹鲾?shù)據(jù)的大數(shù)據(jù)架構(gòu)滿足安全日志處理高吞吐、低延遲的性能要求,可做到日志產(chǎn)生一條就分析一條,并可及時(shí)感知數(shù)據(jù)安全態(tài)勢(shì)。
數(shù)據(jù)安全平臺(tái)作為安全運(yùn)營(yíng)數(shù)據(jù)的交匯系統(tǒng),掌握識(shí)別、防護(hù)、監(jiān)測(cè)、響應(yīng)場(chǎng)景下的各種類型數(shù)據(jù),為大數(shù)據(jù)分析與挖掘提供基礎(chǔ)條件。
數(shù)據(jù)安全運(yùn)營(yíng)通常包括數(shù)據(jù)采集系統(tǒng)、數(shù)據(jù)存儲(chǔ)系統(tǒng)、數(shù)據(jù)分析系統(tǒng)和多個(gè)業(yè)務(wù)應(yīng)用系統(tǒng)。系統(tǒng)種類多,系統(tǒng)任務(wù)交叉,有效監(jiān)控人員對(duì)各系統(tǒng)的操作極其困難。普遍的思路是對(duì)人員進(jìn)行分級(jí)管理,重點(diǎn)監(jiān)測(cè)關(guān)鍵權(quán)限人員,而如何界定和識(shí)別關(guān)鍵人員,目前還沒有明確通用的標(biāo)準(zhǔn)和方法。
Brin S等[2]提出了一個(gè)大規(guī)模搜索引擎的原型Google,其模型中包含了一種對(duì)搜索引擎搜索結(jié)果中的網(wǎng)頁(yè)進(jìn)行排名的算法PageRank。其基本假設(shè)是:更重要的頁(yè)面往往更多地被其他頁(yè)面引用。算法通過對(duì)超鏈接集合中的元素賦權(quán)重值,實(shí)現(xiàn)“衡量集合范圍內(nèi)某一元素的相關(guān)重要性”的目的。該算法實(shí)際可以應(yīng)用于任何存在元素之間相互引用的情況的集合實(shí)體。
Freeman L C[3]提出了中介中心性(betweenness centrality)的概念。頂點(diǎn)的中介中心性的定義為:
其中,v是一個(gè)節(jié)點(diǎn);σxy是x和y之間最短路徑的數(shù)量;σxy(x)是x和y之間通過v的最短路徑的數(shù)量。
本文利用上述概念研究適合大型信息通信企業(yè)數(shù)據(jù)安全治理的關(guān)鍵權(quán)限人員識(shí)別技術(shù)。
監(jiān)控與審計(jì)是防范數(shù)據(jù)安全風(fēng)險(xiǎn)的重要手段,自動(dòng)有效的審計(jì)方法可以及時(shí)阻止數(shù)據(jù)安全風(fēng)險(xiǎn)轉(zhuǎn)變?yōu)榘踩录?015年Gartner公司首次提出用戶與實(shí)體行為分析(user and entity behavior analytics,UEBA)的概念[4],該類技術(shù)用于關(guān)聯(lián)分析用戶行為和設(shè)備日志,以發(fā)現(xiàn)潛在威脅或安全問題,當(dāng)前已廣泛應(yīng)用于企業(yè)內(nèi)部威脅分析和外部入侵檢測(cè)等任務(wù)[5]。
UEBA的分析理念可分為兩類:一是利用模式匹配、簽名規(guī)則等方法對(duì)本次新產(chǎn)生日志的時(shí)間、IP、動(dòng)作等內(nèi)容直接分析。這種分析的特點(diǎn)是單獨(dú)分析當(dāng)前日志,即當(dāng)前日志是否異常與以往的日志無關(guān)。
另一類分析方法則考慮利用回歸、機(jī)器學(xué)習(xí)等技術(shù),將當(dāng)前日志與歷史日志綜合進(jìn)行分析,參考實(shí)體以往的行為表現(xiàn)對(duì)當(dāng)前日志做出是否出現(xiàn)異常情況的判斷。目前許多安全產(chǎn)品能夠從歷史數(shù)據(jù)中建立(學(xué)習(xí))行為基線,方法普遍是直接在無標(biāo)簽數(shù)據(jù)中做監(jiān)督學(xué)習(xí),這樣的操作默認(rèn)了歷史數(shù)據(jù)中沒有異常值,但實(shí)際生產(chǎn)環(huán)境中并不一定能滿足該假設(shè)。
一般情況下,企業(yè)的資產(chǎn)信息和人員賬號(hào)信息存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中,基于這樣的數(shù)據(jù)結(jié)構(gòu)進(jìn)行普通的統(tǒng)計(jì)分析很難發(fā)現(xiàn)潛在的關(guān)鍵人員。在數(shù)據(jù)安全治理實(shí)踐中,從資產(chǎn)訪問權(quán)限的角度,將單位內(nèi)的資產(chǎn)信息和人員賬號(hào)信息轉(zhuǎn)換為圖數(shù)據(jù)。由此,系統(tǒng)結(jié)構(gòu)中關(guān)鍵權(quán)限人員的識(shí)別問題被轉(zhuǎn)化為圖中關(guān)鍵節(jié)點(diǎn)的計(jì)算問題。本節(jié)重點(diǎn)關(guān)注關(guān)鍵權(quán)限人員的識(shí)別問題。
圖由有窮非空頂點(diǎn)集合V 和頂點(diǎn)之間邊的集合E組成,是用于描述節(jié)點(diǎn)之間復(fù)雜關(guān)聯(lián)關(guān)系的數(shù)據(jù)結(jié)構(gòu)。本文將能夠發(fā)放賬號(hào)的3種資產(chǎn)(應(yīng)用系統(tǒng)、數(shù)據(jù)源、主機(jī))以及賬號(hào)歸屬的人員作為頂點(diǎn)集合V中的元素,并定義元素之間的有向關(guān)系,如下。
● <數(shù)據(jù)源,應(yīng)用系統(tǒng)>:該數(shù)據(jù)源服務(wù)于該應(yīng)用系統(tǒng)。
● <數(shù)據(jù)源,主機(jī)>:該數(shù)據(jù)源部署于該主機(jī)。
● <應(yīng)用系統(tǒng),主機(jī),>:該應(yīng)用系統(tǒng)部署于該主機(jī)。
除資產(chǎn)間可能建立的關(guān)系外,基于資產(chǎn)發(fā)放的賬號(hào)和賬號(hào)所屬的人員,定義資產(chǎn)和人員之間的有向關(guān)系,如下。
● <數(shù)據(jù)源,人員>:該人員擁有此數(shù)據(jù)源的訪問賬號(hào)。
● <應(yīng)用系統(tǒng),人員>:該人員擁有此應(yīng)用系統(tǒng)賬號(hào)。
● <主機(jī),人員>:該人員擁有此主機(jī)賬號(hào)。
基于以上定義,一個(gè)可能的關(guān)系如圖2所示。
圖2 資產(chǎn)關(guān)系圖示例
A應(yīng)用系統(tǒng)有2個(gè)數(shù)據(jù)源,其中數(shù)據(jù)源1和A應(yīng)用系統(tǒng)都部署在主機(jī)R上。人員A擁有主機(jī)R的訪問權(quán)限。
本文提出的關(guān)鍵權(quán)限人員識(shí)別技術(shù)將借助相關(guān)圖算法,從3個(gè)不同的維度綜合衡量圖中節(jié)點(diǎn)的重要性。
(1)基于節(jié)點(diǎn)影響力的衡量
數(shù)據(jù)安全治理中發(fā)現(xiàn)此類場(chǎng)景:人員A擁有主機(jī)K的賬號(hào);人員B擁有主機(jī)L的賬號(hào),同時(shí)主機(jī)L上部署了一個(gè)數(shù)據(jù)源和一個(gè)應(yīng)用系統(tǒng),如圖3所示。
圖3 圖結(jié)構(gòu)示例
在這種情況下,如果只是以“人員能夠訪問資產(chǎn)的數(shù)量”為標(biāo)準(zhǔn)衡量人員在系統(tǒng)中的關(guān)鍵程度,將會(huì)得出人員A與人員B同等重要的結(jié)論(人員A和人員B各自只擁有1個(gè)主機(jī)賬號(hào))。然而基于圖3顯然會(huì)認(rèn)為人員B更重要。當(dāng)資產(chǎn)數(shù)量豐富、資產(chǎn)間層級(jí)復(fù)雜時(shí),這樣有價(jià)值的信息更難以發(fā)現(xiàn)。
圖中任意節(jié)點(diǎn)v的權(quán)重值稱為“v的PageRank”,用符號(hào)PR(v)表示。PR值的計(jì)算式如下:
其中,vi是目標(biāo)元素(節(jié)點(diǎn)),M(vi)是鏈入vi的節(jié)點(diǎn)集合,L(vj)是節(jié)點(diǎn)vj鏈出節(jié)點(diǎn)的數(shù)量,N是集合中所有節(jié)點(diǎn)的數(shù)量。d為阻尼系數(shù),表示在任意時(shí)刻,該節(jié)點(diǎn)向下一個(gè)節(jié)點(diǎn)鏈接的概率。
令d=0.9,迭代計(jì)算圖3中每個(gè)節(jié)點(diǎn)的PR值至收斂后,人員A的PR值為0.038,人員B的PR值為0.070,人員A與人員B的影響力表現(xiàn)出明顯差異。在作者單位的具體實(shí)踐中發(fā)現(xiàn),PR影響力排名中,擁有生產(chǎn)系統(tǒng)訪問權(quán)限的人高于擁有演示系統(tǒng)訪問權(quán)限的人。生產(chǎn)系統(tǒng)有更多的鏈入節(jié)點(diǎn),在結(jié)構(gòu)中更重要,這導(dǎo)致算法認(rèn)為有權(quán)限訪問生產(chǎn)系統(tǒng)的人員更關(guān)鍵。
(2)基于信息傳遞路徑的衡量
忽略圖的方向,可將資產(chǎn)關(guān)系圖轉(zhuǎn)為無向圖。在數(shù)據(jù)安全治理中常面臨如下場(chǎng)景。
如圖4所示,在這種情況下,人員A和人員B各自擁有2個(gè)數(shù)據(jù)源的訪問權(quán)限。我們可能會(huì)簡(jiǎn)單地得出人員A與人員B同等重要的結(jié)論。但其實(shí)人員B可能更重要,他有權(quán)限訪問的兩個(gè)數(shù)據(jù)源來自兩個(gè)不同的應(yīng)用系統(tǒng),可以說他連接了兩個(gè)不同的系統(tǒng),如果刪去該節(jié)點(diǎn)可能導(dǎo)致圖的一部分不連通。
圖4 無向關(guān)系圖
圖4中,應(yīng)用系統(tǒng)A與應(yīng)用系統(tǒng)B之間的最短路徑只通過人員B而不通過人員A,兩人之間的中介中心性表現(xiàn)出差異,明顯地體現(xiàn)了人員B在信息流控制中更重要。在中介中心性排名中,擁有不同系統(tǒng)資產(chǎn)訪問權(quán)限的共享運(yùn)維人員,高于只服務(wù)于某個(gè)系統(tǒng)的專屬運(yùn)維人員,即便他們運(yùn)維的資產(chǎn)數(shù)量幾乎相同,這一結(jié)果也符合安全運(yùn)營(yíng)常識(shí)。
(3)基于數(shù)據(jù)敏感等級(jí)的衡量
數(shù)據(jù)分級(jí)化管理已是數(shù)據(jù)安全領(lǐng)域的共識(shí)。工業(yè)和信息化部2022年印發(fā)的《工業(yè)和信息化領(lǐng)域數(shù)據(jù)安全管理辦法(試行)》將數(shù)據(jù)分類分級(jí)管理作為數(shù)據(jù)安全管理的基礎(chǔ)性要求。全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員2021年發(fā)布的《網(wǎng)絡(luò)安全標(biāo)準(zhǔn)實(shí)踐指南——網(wǎng)絡(luò)數(shù)據(jù)分類分級(jí)指引》,按照數(shù)據(jù)一旦遭到篡改、破壞、泄露或者非法獲取、非法利用,對(duì)個(gè)人、組織合法權(quán)益造成的危害程度,將一般數(shù)據(jù)從低到高分為1級(jí)、2級(jí)、3級(jí)、4級(jí)共4個(gè)級(jí)別。
面對(duì)關(guān)鍵權(quán)限人員識(shí)別的問題,本文采納前期數(shù)據(jù)分類分級(jí)的結(jié)果,從被訪問數(shù)據(jù)的敏感等級(jí)界定關(guān)鍵權(quán)限人員。例如:“存有3級(jí)敏感數(shù)據(jù)的數(shù)據(jù)源為3級(jí)敏感數(shù)據(jù)源。有3級(jí)或以上等級(jí)敏感數(shù)據(jù)源訪問權(quán)限的人,是關(guān)鍵權(quán)限人員”。在這種思路下,可以在構(gòu)建資產(chǎn)關(guān)系圖時(shí)為數(shù)據(jù)源節(jié)點(diǎn)加入“敏感等級(jí)”的描述對(duì)象(標(biāo)簽),再查詢所有敏感數(shù)據(jù)源鏈出的節(jié)點(diǎn),即可找到關(guān)鍵權(quán)限人員。
進(jìn)一步,如果認(rèn)為部署敏感數(shù)據(jù)源的主機(jī)也是敏感主機(jī),則訪問敏感主機(jī)的人員也是關(guān)鍵人員。查詢這樣的節(jié)點(diǎn)仍然可以從敏感數(shù)據(jù)源出發(fā),遍歷敏感數(shù)據(jù)源不同深度鏈出的節(jié)點(diǎn)。這樣未知深度的遍歷查詢?cè)陉P(guān)系型數(shù)據(jù)庫(kù)中可能需要多層表連接操作,而在圖數(shù)據(jù)庫(kù)中,此類查詢語(yǔ)句變得易于編寫,且執(zhí)行效率更高。
本文提出的基于圖算法的關(guān)鍵權(quán)限人員識(shí)別技術(shù),可以發(fā)現(xiàn)系統(tǒng)結(jié)構(gòu)中潛在的權(quán)限影響因素,并且可從多個(gè)角度衡量不同含義的權(quán)重影響力,識(shí)別結(jié)果可解釋性強(qiáng),符合安全運(yùn)營(yíng)邏輯,可以更加科學(xué)高效地發(fā)現(xiàn)關(guān)鍵權(quán)限人員,進(jìn)而精細(xì)化防控?cái)?shù)據(jù)安全風(fēng)險(xiǎn)。
用戶或?qū)嶓w的行為日志按一定的時(shí)間周期可統(tǒng)計(jì)為時(shí)間序列指標(biāo)。例如,每個(gè)API每小時(shí)的平均訪問流量、每個(gè)賬號(hào)每天的登錄次數(shù)。由此,用戶與實(shí)體的異常行為檢測(cè)問題可轉(zhuǎn)化為時(shí)間序列數(shù)據(jù)的異常檢測(cè)問題。
時(shí)間序列數(shù)據(jù)異常檢測(cè)按訓(xùn)練方式可分為有監(jiān)督方法和無監(jiān)督方法。有監(jiān)督方法需要利用有標(biāo)簽數(shù)據(jù)建模,這種加入了先驗(yàn)知識(shí)的做法本質(zhì)上是一種預(yù)測(cè)方法。將模型的預(yù)測(cè)值與新樣本進(jìn)行比較,從而判斷新樣本是否存在異常。但是安全實(shí)踐中多數(shù)歷史日志并不帶有標(biāo)簽[5],直接使用帶有異常值的數(shù)據(jù)做有監(jiān)督訓(xùn)練將給下一步模型預(yù)測(cè)帶來誤差。無監(jiān)督方法可以從無標(biāo)簽數(shù)據(jù)中學(xué)習(xí)一定的規(guī)律,因此無監(jiān)督方法可能是更適用實(shí)際安全場(chǎng)景的模型訓(xùn)練方法。
從學(xué)習(xí)原理上,時(shí)間序列數(shù)據(jù)異常檢測(cè)又可分為一般統(tǒng)計(jì)學(xué)習(xí)方法和深度學(xué)習(xí)方法。不同于進(jìn)行統(tǒng)計(jì)機(jī)器學(xué)習(xí)時(shí)需要人工構(gòu)造訓(xùn)練特征,深度學(xué)習(xí)包含的自編碼器(auto encoder)可以進(jìn)行自動(dòng)特征選擇,這樣的非線性權(quán)重模型在特征提取方面具有明顯優(yōu)勢(shì)。在安全場(chǎng)景中,企業(yè)內(nèi)部環(huán)境復(fù)雜、使用的設(shè)備多種多樣,多源異構(gòu)數(shù)據(jù)難以融合,在僅有單一統(tǒng)計(jì)指標(biāo)的情況下構(gòu)造特征困難,深度學(xué)習(xí)方法在特征提取上有明顯的優(yōu)勢(shì)。
本文采用的無監(jiān)督的深度學(xué)習(xí)方法,較適合生產(chǎn)環(huán)境下的安全分析場(chǎng)景,有效地實(shí)現(xiàn)了對(duì)用戶與實(shí)體行為的異常檢測(cè)。
2020年Geiger A等人[6]提出了一種利用生成對(duì)抗網(wǎng)絡(luò)(GAN)重建信號(hào)并進(jìn)行異常檢測(cè)的方法,為時(shí)間序列異常檢測(cè)提供了新的思路。
不同于有監(jiān)督模型,生成式模型旨在尋找一個(gè)數(shù)據(jù)分布到另一個(gè)數(shù)據(jù)分布的映射[7]。在此處是希望用一個(gè)模型捕捉時(shí)間序列的低維表示,再用另一個(gè)模型從低維空間中重建時(shí)間序列,而異常信息則會(huì)在數(shù)據(jù)映射到低維空間時(shí)丟失。
圖5為Geiger A等人提出的TadGAN訓(xùn)練過程的簡(jiǎn)化圖示。其中信號(hào)數(shù)據(jù)用深色矩形表示。訓(xùn)練時(shí)需要學(xué)習(xí)兩個(gè)映射函數(shù):編碼器E和解碼器(生成器)G。編碼器E用于將原始信號(hào)X映射到潛在特征空間,并輸出至解碼器G。解碼器G同時(shí)將編碼信號(hào)和白噪聲信號(hào)Z作為輸入,生成重建信號(hào)GZ。鑒別器CX迫使重建信號(hào)與原始信號(hào)模式相同。鑒別器CZ迫使編碼信號(hào)與白噪聲Z處于同類潛在空間。這樣的生成式訓(xùn)練策略保證了生成器G可以重建原始信號(hào)X的分布,而不過擬合X中的異常值。綜合考慮鑒別器CX的得分與重構(gòu)誤差(重建信號(hào)CZ與原始信號(hào)間的誤差),則可發(fā)現(xiàn)原始信號(hào)中的異常[6]。
圖5 TadGAN 訓(xùn)練策略
Ta d G A N 方法采用雙向長(zhǎng)短期記憶模型(L S T M)作為編碼器E和解碼器G的架構(gòu),本文嘗試使用基于注意力機(jī)制(attention mecha nism)[8]的Transformer中的Encoder和Decoder作為編碼器E和解碼器G的架構(gòu),在具體實(shí)踐中發(fā)現(xiàn)并驗(yàn)證了該方法具有更好的效果。為了滿足該方法Encoder的輸入,本文重新設(shè)計(jì)了針對(duì)安全場(chǎng)景的時(shí)間序列矩陣采樣方法,將24小時(shí)作為滑動(dòng)窗口大小和步長(zhǎng)大小,將采樣時(shí)間序列將采樣的子序列作為單個(gè)向量。不同時(shí)間間隔的數(shù)據(jù)集按此規(guī)則動(dòng)態(tài)采樣。
本文構(gòu)建了3個(gè)數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。其中,數(shù)據(jù)集A1為某API每1小時(shí)返回流量的平均值;數(shù)據(jù)集A2為某內(nèi)部安全域每30 min訪問流量的總和;數(shù)據(jù)集A3為某VPN賬號(hào)每12小時(shí)內(nèi)登錄次數(shù)的總和,并由業(yè)務(wù)安全專家人工標(biāo)注數(shù)據(jù)中的異常點(diǎn)。數(shù)據(jù)集的信息見表1。
表1 數(shù)據(jù)集信息
對(duì)于A1數(shù)據(jù)集,單個(gè)向量的維度為2 4,A3數(shù)據(jù)集單個(gè)向量的維度為2。每次依順序采樣7個(gè)向量形成矩陣,作為Encoder的輸入。下一次則將時(shí)間窗口后移24小時(shí)再次采樣7個(gè)向量作為輸入。這樣設(shè)計(jì)考慮了UEBA分析中行為動(dòng)作是以24小時(shí)和7天為周期發(fā)生的現(xiàn)實(shí)情況。
實(shí)驗(yàn)的比對(duì)對(duì)象選擇T a d G A N(LSTM)、Arima模型(autoregressive integrated moving average model)和某商業(yè)UEBA軟件DC(匿名)作為基線方法進(jìn)行實(shí)驗(yàn)。對(duì)于各模型預(yù)測(cè)的異常時(shí)間窗口,如果預(yù)測(cè)窗口包含任何已知的異常點(diǎn),則記錄一個(gè)TP;如果預(yù)測(cè)窗口不包含任何已知的異常點(diǎn),則記錄一個(gè)FP;如果已知異常點(diǎn)不包含于任何預(yù)測(cè)窗口,則記錄一個(gè)FN。
實(shí)驗(yàn)數(shù)據(jù)來自廣東聯(lián)通實(shí)際安全運(yùn)營(yíng)生產(chǎn)環(huán)境,根據(jù)實(shí)驗(yàn)記錄計(jì)算出各模型的精確率(precision)、召回率(recall)和F1-Score,見表2。
表2 各種方法的對(duì)比實(shí)驗(yàn)
從實(shí)驗(yàn)結(jié)果可見,本文方法的召回率、F1值在3個(gè)數(shù)據(jù)集上都有提高,在數(shù)據(jù)量較少的A3數(shù)據(jù)集上出現(xiàn)了Arima的精確率略高于本文方法的情況。本文方法的精確率、召回率和F1值3個(gè)評(píng)估指標(biāo)的平均值均優(yōu)于其他3個(gè)基線模型的值。
數(shù)據(jù)安全平臺(tái)是以數(shù)據(jù)為中心,面向數(shù)據(jù)全生存周期構(gòu)建的安全管理與防護(hù)體系。其核心是在合規(guī)監(jiān)管和具體業(yè)務(wù)的驅(qū)動(dòng)下,以數(shù)據(jù)發(fā)現(xiàn)和數(shù)據(jù)分類分級(jí)為基礎(chǔ),以降低數(shù)據(jù)安全風(fēng)險(xiǎn)為目標(biāo),融合多種數(shù)據(jù)安全技術(shù)實(shí)現(xiàn)數(shù)據(jù)安全治理的平臺(tái)化數(shù)據(jù)安全防護(hù)。
本文基于廣東聯(lián)通數(shù)據(jù)安全治理的實(shí)際應(yīng)用背景,設(shè)計(jì)了數(shù)據(jù)安全平臺(tái)。通過數(shù)據(jù)安全平臺(tái),可實(shí)現(xiàn)對(duì)數(shù)據(jù)安全能力的集中管理、閉環(huán)運(yùn)營(yíng),形成覆蓋數(shù)據(jù)全生命周期安全的縱深防御管理體系。數(shù)據(jù)安全平臺(tái)主要由5個(gè)中心組成,包括資產(chǎn)管理中心、能力管控中心、分析監(jiān)管中心、安全運(yùn)營(yíng)中心、態(tài)勢(shì)感知中心,平臺(tái)的功能架構(gòu)如圖6所示。
各中心主要包括以下功能。
● 資產(chǎn)管理中心:識(shí)別或登記各類資產(chǎn)信息,并基于行業(yè)規(guī)則實(shí)現(xiàn)數(shù)據(jù)分類分級(jí),形成資產(chǎn)目錄、資產(chǎn)關(guān)系圖。
● 能力管控中心:標(biāo)準(zhǔn)化對(duì)接異構(gòu)安全設(shè)備,基于資產(chǎn)分級(jí)結(jié)果遠(yuǎn)程下發(fā)安全策略,實(shí)現(xiàn)多設(shè)備信息聯(lián)動(dòng)。包括設(shè)備統(tǒng)一納管、狀態(tài)監(jiān)控、安全日志數(shù)據(jù)處理等功能模塊,以及數(shù)據(jù)庫(kù)加密、數(shù)據(jù)脫敏、API風(fēng)險(xiǎn)監(jiān)測(cè)、數(shù)據(jù)分類分級(jí)、數(shù)據(jù)庫(kù)訪問控制等安全工具的納管對(duì)接。
● 分析監(jiān)管中心:支持低代碼創(chuàng)建多種流處理模型,實(shí)時(shí)分析安全日志,發(fā)現(xiàn)威脅與異常行為。包括原始日志、告警管理、風(fēng)險(xiǎn)管理、事件管理、模型管理等模塊。支持開箱即用的安全檢測(cè)分析規(guī)則,提供開放式的規(guī)則管理模型,貼合安全人員的實(shí)際使用需求。
● 安全運(yùn)營(yíng)中心:提供國(guó)家標(biāo)準(zhǔn)的安全運(yùn)營(yíng)流程及量化指標(biāo),在線合規(guī)審查、生成安全報(bào)告、事件閉環(huán)管理,綜合提升運(yùn)營(yíng)效率與準(zhǔn)確性。內(nèi)置流程引擎,實(shí)現(xiàn)工單的流程自定義,可一鍵生成,全程跟進(jìn)。從而實(shí)現(xiàn)從風(fēng)險(xiǎn)、預(yù)警、運(yùn)營(yíng)事項(xiàng)安排到具體的人員的跟蹤處理,實(shí)現(xiàn)責(zé)任到人,有效跟進(jìn)風(fēng)險(xiǎn)處置。
● 態(tài)勢(shì)感知中心:對(duì)資產(chǎn)分布、數(shù)據(jù)風(fēng)險(xiǎn)、用戶行為等多類指標(biāo)進(jìn)行可視化呈現(xiàn)。
以資產(chǎn)管理中心的數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)功能為例,內(nèi)置數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)、中間件資產(chǎn)發(fā)現(xiàn)能力,且可通過與工具對(duì)接,獲取安全工具整理的API資產(chǎn),實(shí)現(xiàn)API資產(chǎn)發(fā)現(xiàn)?;谄脚_(tái)內(nèi)置的流程引擎,提供資產(chǎn)認(rèn)領(lǐng)、工單下發(fā)功能,快速流程化地對(duì)資產(chǎn)完成責(zé)任認(rèn)領(lǐng),最終形成數(shù)據(jù)資產(chǎn)清單,為平臺(tái)資產(chǎn)梳理提供支持。圖7是數(shù)據(jù)資產(chǎn)發(fā)現(xiàn)的界面截圖。
本文提出的基于圖算法的關(guān)鍵權(quán)限人員識(shí)別技術(shù)和基于生成對(duì)抗網(wǎng)絡(luò)的用戶與實(shí)體行為異常檢測(cè)方法,已融合到數(shù)據(jù)安全平臺(tái),平臺(tái)可登記應(yīng)用資產(chǎn)、數(shù)據(jù)源、主機(jī)資產(chǎn)、人員賬號(hào)。其中,新增應(yīng)用系統(tǒng)時(shí)需填寫其部署的主機(jī)IP地址;新增數(shù)據(jù)源時(shí),需填寫所屬應(yīng)用系統(tǒng),以及其所在的主機(jī)IP地址。登記的實(shí)體信息為節(jié)點(diǎn),從屬關(guān)系為邊,直接寫入原生多模型數(shù)據(jù)庫(kù)。平臺(tái)后端默認(rèn)在資產(chǎn)關(guān)系發(fā)生變動(dòng)的5小時(shí)后自動(dòng)執(zhí)行上述3種圖算法,每種算法執(zhí)行完畢后,篩選出人員節(jié)點(diǎn),按計(jì)算結(jié)果降序排序。
在平臺(tái)“人員管控”模塊中可以選擇任一衡量標(biāo)準(zhǔn)(算法結(jié)果)排序,清單化管理業(yè)務(wù)系統(tǒng)中的人力資源。關(guān)鍵權(quán)限人員在列表中排名靠前,提醒安全審計(jì)員分級(jí)管控。另外,信息詳情頁(yè)能夠可視化展示任意一名人員在資產(chǎn)關(guān)系圖中的位置,幫助安全審計(jì)員直觀了解人員及資產(chǎn)的關(guān)聯(lián)關(guān)系,充分發(fā)揮圖數(shù)據(jù)結(jié)構(gòu)的優(yōu)勢(shì)。
數(shù)據(jù)安全平臺(tái)統(tǒng)一收集各設(shè)備的監(jiān)控日志后,可以按一定的時(shí)間窗口將某個(gè)用戶與實(shí)體的行為動(dòng)作統(tǒng)計(jì)為時(shí)間序列指標(biāo)。在平臺(tái)的“模型管理”模塊可以對(duì)任意已創(chuàng)建的指標(biāo)應(yīng)用該算法創(chuàng)建模型,算法的實(shí)現(xiàn)采用麻省理工大學(xué)Data to AI實(shí)驗(yàn)室的開源項(xiàng)目[9]。模型上線后按指定的時(shí)間間隔自動(dòng)進(jìn)行異常檢測(cè)。
基于本文方法設(shè)計(jì)研發(fā)的聯(lián)通“數(shù)御”數(shù)據(jù)安全平臺(tái),獲評(píng)2022年中國(guó)信息通信研究院的“數(shù)據(jù)安全-數(shù)據(jù)安全治理優(yōu)秀案例”、2022年度DAMA中國(guó)數(shù)據(jù)治理獎(jiǎng)“數(shù)據(jù)治理優(yōu)秀產(chǎn)品獎(jiǎng)”等獎(jiǎng)項(xiàng)。項(xiàng)目研發(fā)的技術(shù)和平臺(tái)不僅在廣東聯(lián)通體系內(nèi)部得到應(yīng)用,還在地市政務(wù)服務(wù)數(shù)據(jù)管理局等政企客戶項(xiàng)目中落地應(yīng)用。對(duì)于統(tǒng)籌、集中管理安全資源的客戶,通過聯(lián)通“數(shù)御”數(shù)據(jù)安全平臺(tái)的資產(chǎn)梳理能力、跨部門層級(jí)協(xié)作能力以及內(nèi)嵌的大數(shù)據(jù)分析與挖掘技術(shù),可有效滿足大型企業(yè)集中數(shù)據(jù)安全管控的需求。
在廣東聯(lián)通的數(shù)據(jù)安全治理應(yīng)用實(shí)踐中發(fā)現(xiàn),在安全監(jiān)管中一次異??赡馨鄠€(gè)設(shè)備的上下文信息。生產(chǎn)中若能將同一用戶或?qū)嶓w在不同設(shè)備中的行為日志關(guān)聯(lián)起來,豐富日志證據(jù)鏈,將有效提升異常檢測(cè)的準(zhǔn)確性。目前,這方面的研究?jī)?yōu)化工作還在持續(xù)推進(jìn)。
近年來,數(shù)據(jù)活動(dòng)日益豐富,數(shù)據(jù)安全治理愈發(fā)復(fù)雜,大數(shù)據(jù)技術(shù)在安全領(lǐng)域的作用越來越重要,人工智能技術(shù)在自動(dòng)機(jī)器學(xué)習(xí)(AutoML)、生成式預(yù)訓(xùn)練模型(GPT)等方向取得新進(jìn)展。未來,將進(jìn)一步探索AI技術(shù)進(jìn)步為數(shù)據(jù)安全治理帶來的新價(jià)值,推動(dòng)數(shù)據(jù)安全治理向智能化方向發(fā)展。