■ 中國(guó)移動(dòng)通信集團(tuán)天津有限公司 李越鵬
云計(jì)算環(huán)境下,很多業(yè)務(wù)部署在虛擬機(jī)資源池,包括客戶身份相關(guān)數(shù)據(jù)、客戶服務(wù)內(nèi)容數(shù)據(jù)、用戶服務(wù)衍生數(shù)據(jù)等。在云環(huán)境中,由于存儲(chǔ)、計(jì)算的多層面虛擬化,帶來(lái)了數(shù)據(jù)管理權(quán)與所有權(quán)分離,網(wǎng)絡(luò)邊界模糊等新問(wèn)題,與傳統(tǒng)環(huán)境相比,在敏感數(shù)據(jù)識(shí)別方面存在更多的困難和風(fēng)險(xiǎn)。這些問(wèn)題會(huì)導(dǎo)致企業(yè)面對(duì)急速增長(zhǎng)的數(shù)據(jù)安全問(wèn)題無(wú)法做到主動(dòng)發(fā)現(xiàn)、動(dòng)態(tài)識(shí)別敏感數(shù)據(jù),甚至于因問(wèn)題資產(chǎn)檢測(cè)遺漏引發(fā)的安全事件在爆發(fā)后相當(dāng)長(zhǎng)的一段時(shí)間后才被知曉,安全管控措施較為被動(dòng)。
本次研究基于云計(jì)算環(huán)境,設(shè)計(jì)了兩種方式的識(shí)別敏感數(shù)據(jù)。一是通過(guò)主機(jī)Agent抓取數(shù)據(jù)庫(kù)、文件夾、文件中的數(shù)據(jù),根據(jù)規(guī)則匹配其中的敏感數(shù)據(jù),以得到敏感數(shù)據(jù)資產(chǎn)。二是利用網(wǎng)絡(luò)流量分析技術(shù),通過(guò)在核心交換機(jī)上部署TAP設(shè)備,對(duì)流量數(shù)據(jù)進(jìn)行鏡像采集和分析,進(jìn)而識(shí)別敏感數(shù)據(jù),實(shí)現(xiàn)對(duì)虛擬資源承載的敏感數(shù)據(jù)的有效識(shí)別。研究關(guān)注的焦點(diǎn)是敏感數(shù)據(jù)的有效識(shí)別,形成有效信息載體清單用于后期實(shí)施控制,對(duì)于出云敏感數(shù)據(jù)的實(shí)時(shí)監(jiān)控和告警,不涉及分類后控制管理工作。
本次研究采用在主機(jī)上部署Agent,實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)、主機(jī)承載的敏感數(shù)據(jù)資產(chǎn)的自動(dòng)化采集。
動(dòng)態(tài)敏感數(shù)據(jù)識(shí)別引擎通過(guò)集成數(shù)據(jù)庫(kù)表結(jié)構(gòu)、主機(jī)目錄(文件)的Agent作為采集引擎,采用規(guī)則、特征庫(kù)以及SQL語(yǔ)句處理,實(shí)現(xiàn)完全不影響業(yè)務(wù)系統(tǒng)正常運(yùn)行的“無(wú)損探傷”模式的采集分析功能,對(duì)包含個(gè)人敏感信息的數(shù)據(jù)進(jìn)行識(shí)別、特征提取從而進(jìn)行智能發(fā)現(xiàn),以實(shí)現(xiàn)全面掌控?cái)?shù)據(jù)庫(kù)、主機(jī)的數(shù)據(jù)資產(chǎn)變化情況的目的。系統(tǒng)整體分為四套引擎,分別為:數(shù)據(jù)資產(chǎn)建模引擎、任務(wù)調(diào)度引擎、配置采集引擎和資產(chǎn)分析引擎。
1.結(jié)構(gòu)化敏感數(shù)據(jù)識(shí)別流程說(shuō)明
(1)連接虛擬環(huán)境中的數(shù)據(jù)庫(kù)。
(2)解析數(shù)據(jù)庫(kù)中的庫(kù)表結(jié)構(gòu)。
(3)根據(jù)庫(kù)表結(jié)構(gòu),正確的獲取數(shù)據(jù)庫(kù)表中每條記錄每個(gè)字段的內(nèi)容。
(4)使用預(yù)先定義的敏感數(shù)據(jù)發(fā)現(xiàn)分類規(guī)則掃描字段內(nèi)容,從而判斷數(shù)據(jù)庫(kù)中是否還存有敏感數(shù)據(jù)。
2.非結(jié)構(gòu)化敏感數(shù)據(jù)識(shí)別
本次研究中使用了基于自然語(yǔ)言理解與機(jī)器學(xué)習(xí)的方法,實(shí)現(xiàn)敏感數(shù)據(jù)標(biāo)簽動(dòng)態(tài)學(xué)習(xí)過(guò)程。通過(guò)掃描文件夾、文件中的非結(jié)構(gòu)化數(shù)據(jù),分析其中的敏感數(shù)據(jù)匹配度,突破了傳統(tǒng)上依靠關(guān)鍵字、正則表達(dá)式的識(shí)別方法,實(shí)現(xiàn)敏感數(shù)據(jù)識(shí)別的智能化。利用機(jī)器學(xué)習(xí)算法對(duì)敏感字段識(shí)別不僅能夠提高識(shí)別的準(zhǔn)確率,同時(shí)也能提高識(shí)別效率,從而高效地完成敏感數(shù)據(jù)的存儲(chǔ)策略制定和數(shù)據(jù)落庫(kù)。
識(shí)別流程如圖1所示。
流程說(shuō)明:
(1)利用Agent遞歸掃描虛擬資源中所有文件目錄,以便于發(fā)現(xiàn)其中的敏感數(shù)據(jù),為了提高掃描速度,支持對(duì)不同操作系統(tǒng)的掃描路徑進(jìn)行優(yōu)化。
(2)掃描到壓縮文件以后,會(huì)將壓縮文件展開(kāi),以便于后續(xù)進(jìn)一步掃描壓縮文件中的相關(guān)數(shù)據(jù)。支持逐級(jí)展開(kāi)級(jí)聯(lián)壓縮的壓縮文件,以保證壓縮文件中所有的數(shù)據(jù)文件都會(huì)被展開(kāi),避免漏掃。
圖1 識(shí)別流程拓?fù)浣Y(jié)構(gòu)
(3)解析文件格式,根據(jù)文件的二進(jìn)制格式頭判定文件的存儲(chǔ)格式,然后根據(jù)文件格式提取文件內(nèi)容。
(4)處理中文編碼,由于常見(jiàn)的中文編碼包含GBK,UTF8和Unicode,為了后續(xù)的監(jiān)測(cè)敏感數(shù)據(jù)模塊能正確工作,必須鑒別文件內(nèi)容中中文的編碼方式,以保證文件內(nèi)容被正確理解。
(5)使用預(yù)先定義的敏感數(shù)據(jù)識(shí)別分類規(guī)則掃描文件內(nèi)容,從而判斷相關(guān)文件是否屬于敏感數(shù)據(jù)。
本次研究除支持基于主機(jī)Agent實(shí)現(xiàn)對(duì)虛擬資源的識(shí)別外,還支持從網(wǎng)絡(luò)傳輸層面上發(fā)現(xiàn)敏感數(shù)據(jù)以及敏感數(shù)據(jù)的操作識(shí)別。研究過(guò)程是將TAP設(shè)備,并旁路部署在核心交換機(jī)側(cè),通過(guò)在核心交換機(jī)上的相關(guān)端口進(jìn)行鏡像,從交換機(jī)中獲取訪問(wèn)各個(gè)虛擬機(jī)的流量,分離出來(lái)類似HTTP、FTP、SMTP、POP3等可以傳輸、訪問(wèn)文件的協(xié)議,并從這協(xié)議中獲取傳輸文件、訪問(wèn)文件的日志,結(jié)合該虛擬機(jī)的敏感數(shù)據(jù)結(jié)果,進(jìn)行分析、展示。
流程說(shuō)明:
(1)采集TAP設(shè)備發(fā)送的網(wǎng)絡(luò)流量數(shù)據(jù)。
(2)對(duì)采集到的流量數(shù)據(jù)進(jìn)行協(xié)議解析,解析對(duì)象為支持文件傳輸及訪問(wèn)的協(xié)議,如HTTP、FTP、SMTP、POP3。
(3)提取協(xié)議中的文件傳輸及訪問(wèn)的日志信息。
(4)敏感數(shù)據(jù)信息進(jìn)行比對(duì)。
(5)呈現(xiàn)敏感數(shù)據(jù)的分析結(jié)果。
本次研究基于Agent和流量采集技術(shù),集成敏感數(shù)據(jù)發(fā)現(xiàn)工具,實(shí)現(xiàn)云計(jì)算環(huán)境下,針對(duì)虛擬資源承載的敏感數(shù)據(jù)進(jìn)行內(nèi)容級(jí)的敏感數(shù)據(jù)發(fā)現(xiàn),建立完善的虛擬資源發(fā)現(xiàn)流程,覆蓋原云資源池?cái)?shù)據(jù)識(shí)別安全盲區(qū),建設(shè)效果如圖2所示。
圖2 建設(shè)效果圖
1.資源管理能力:實(shí)現(xiàn)實(shí)時(shí)監(jiān)控虛擬機(jī)的變化情況,實(shí)時(shí)掌握發(fā)生變更的虛擬機(jī)是否承載了敏感數(shù)據(jù),采取有針對(duì)性的安全防護(hù)手段保護(hù)敏感數(shù)據(jù);
2.敏感數(shù)據(jù)發(fā)現(xiàn)能力:敏感數(shù)據(jù)的準(zhǔn)確發(fā)現(xiàn)和識(shí)別是敏感數(shù)據(jù)防護(hù)的基礎(chǔ),在私有云環(huán)境中,敏感數(shù)據(jù)多以文件的形式存儲(chǔ)在虛擬服務(wù)器,本期項(xiàng)目實(shí)現(xiàn)基于自然語(yǔ)言處理的敏感數(shù)據(jù)文件內(nèi)容識(shí)別功能,能夠關(guān)聯(lián)文件內(nèi)容的語(yǔ)境、語(yǔ)義進(jìn)行敏感數(shù)據(jù)內(nèi)容的發(fā)現(xiàn),且只需要遍歷一次文件內(nèi)容,將提升敏感數(shù)據(jù)內(nèi)容發(fā)現(xiàn)的準(zhǔn)確率,大幅降低對(duì)服務(wù)器性能的消耗。
3.終端管理能力:無(wú)法識(shí)別用戶通過(guò)瘦客戶端訪問(wèn)虛擬桌面的源IP地址,進(jìn)而不能定位發(fā)生的安全問(wèn)題;能夠自動(dòng)分析搜客戶端的源IP地址,實(shí)現(xiàn)虛擬桌面操作和傳輸敏感數(shù)據(jù)行為監(jiān)控。
4.敏感數(shù)據(jù)傳輸監(jiān)控能力:目前的敏感數(shù)據(jù)傳輸監(jiān)控只支持FTP、SMTP、HTTP三類協(xié)議,在云環(huán)境下,除支持FTP、SMTP、HTTP三類協(xié)議外,還需要支持SFTP、封裝API的協(xié)議。
5.增強(qiáng)敏感數(shù)據(jù)管理和展現(xiàn):通過(guò)多種不同的方式對(duì)敏感數(shù)據(jù)進(jìn)行展現(xiàn),包括建立敏感數(shù)據(jù)資產(chǎn)載體視圖、敏感數(shù)據(jù)報(bào)表等方式,直觀地對(duì)敏感數(shù)據(jù)進(jìn)行展示。
6.云資源池安全防護(hù)策略制定和推進(jìn):云資源池虛擬機(jī)敏感數(shù)據(jù)高效識(shí)別,目前已完成,下一步考慮在敏感數(shù)據(jù)泄露風(fēng)險(xiǎn)的快速響應(yīng)工作,制定敏感數(shù)據(jù)防護(hù)策略和規(guī)范,從而進(jìn)一步提升敏感數(shù)據(jù)的安全防護(hù)。