馬波勇
(中國太平洋保險(xiǎn)(集團(tuán))股份有限公司 上海市 200233)
當(dāng)前各行業(yè)的數(shù)據(jù)呈現(xiàn)出爆炸式的發(fā)展態(tài)勢,數(shù)據(jù)將對行業(yè)未來的發(fā)展產(chǎn)生深遠(yuǎn)的影響,一度成為未來的核心資產(chǎn)[1]。數(shù)據(jù)中臺(tái)技術(shù)主要依據(jù)過程數(shù)據(jù)為核心的發(fā)展要義,實(shí)現(xiàn)了海量數(shù)據(jù)的綜合收集和綜合整理,便于對數(shù)據(jù)內(nèi)容進(jìn)行綜合的整理和加工計(jì)算,最終使其成為重要的核心數(shù)據(jù)資產(chǎn),為高效的信息服務(wù)提供了技術(shù)支持[2]。中臺(tái)從技術(shù)戰(zhàn)略角度出發(fā),將數(shù)據(jù)加工和數(shù)據(jù)處理進(jìn)行規(guī)范化建設(shè)。從實(shí)踐端來說,有了統(tǒng)一的中臺(tái),也就有了統(tǒng)一的數(shù)據(jù)規(guī)范。對于大數(shù)據(jù)相關(guān)的需求出發(fā),可以從相對唯一的業(yè)務(wù)數(shù)據(jù)出口進(jìn)行業(yè)務(wù)迭代,此時(shí)不需要為每個(gè)部門都進(jìn)行定制開發(fā),減少了人力資源的浪費(fèi)。
數(shù)據(jù)安全中臺(tái)以云化安全資源池為核心,提供了核心技術(shù)基礎(chǔ)[3]。以IDPRR五大能力為抓手,將網(wǎng)絡(luò)數(shù)據(jù)、客戶數(shù)據(jù)、企業(yè)數(shù)據(jù)為防護(hù)對象,構(gòu)建貫穿數(shù)據(jù)生命周期六大環(huán)節(jié)的安全體系[4],實(shí)現(xiàn)數(shù)據(jù)安全服務(wù)“可管控、可隱秘、可保護(hù)、可監(jiān)視、可審計(jì)”的五大目標(biāo)。其核心的基礎(chǔ)架構(gòu)示意如圖1所示。
圖1:基于數(shù)據(jù)中臺(tái)的安全能力架構(gòu)
(1)數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范化:規(guī)范化的數(shù)據(jù)收集架構(gòu)是所有業(yè)務(wù)開展的基礎(chǔ)核心,其數(shù)據(jù)業(yè)務(wù)的內(nèi)容涵蓋流程規(guī)范文檔以及信息項(xiàng)定義等要素;
(2)數(shù)據(jù)關(guān)系脈絡(luò)化:針對數(shù)據(jù)間流轉(zhuǎn)和數(shù)據(jù)之間的依賴關(guān)系而開展的深度分析;
(3)數(shù)據(jù)質(zhì)量度量化:參照著數(shù)據(jù)管理平臺(tái)的數(shù)據(jù)收集質(zhì)量,實(shí)現(xiàn)良好的數(shù)據(jù)質(zhì)量校核和數(shù)據(jù)綜合分析,進(jìn)而強(qiáng)化數(shù)據(jù)問題的追蹤質(zhì)量;
(4)數(shù)據(jù)服務(wù)電子化:數(shù)據(jù)平臺(tái)提供了精準(zhǔn)的數(shù)據(jù)服務(wù)渠道。
(1)統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn):對數(shù)據(jù)進(jìn)行分類、口徑、模型等規(guī)則的標(biāo)準(zhǔn)化統(tǒng)一管理。
(2)元數(shù)據(jù)管理:以建立企業(yè)級數(shù)據(jù)模型、指標(biāo)體系為切入,將業(yè)務(wù)分類、業(yè)務(wù)規(guī)則、數(shù)據(jù)立方體納入元數(shù)據(jù)管理。
(3)數(shù)據(jù)質(zhì)量管理:建立跨專業(yè)、全過程的數(shù)據(jù)質(zhì)量管理體系,保障數(shù)據(jù)信息的準(zhǔn)確、規(guī)范、完整、一致。
(4)數(shù)據(jù)生命周期管理:參照著數(shù)據(jù)中臺(tái)全生命周期的服務(wù)要素,將數(shù)據(jù)的使用頻度和使用資源進(jìn)行了合理化的分配。
(5)數(shù)據(jù)安全管控:對整個(gè)數(shù)據(jù)管理過程中,全過程數(shù)據(jù)資產(chǎn)進(jìn)行環(huán)境控制、訪問控制以及人員權(quán)限的綜合管控,最大限度的保證平臺(tái)安全。
數(shù)據(jù)治理中心應(yīng)具備統(tǒng)一管理、分租戶部署實(shí)例和管理的能力[5]。根據(jù)敏感數(shù)據(jù)分類分級要求,實(shí)現(xiàn)對敏感數(shù)據(jù)的風(fēng)險(xiǎn)識別以及數(shù)據(jù)安全風(fēng)險(xiǎn)評估及合規(guī)性檢測。通過對數(shù)據(jù)進(jìn)行分類、分級的自定義實(shí)現(xiàn)敏感數(shù)據(jù)分級、分類管理,利用敏感信息的標(biāo)識按敏感信息類別、子類及范圍進(jìn)行分類[6]。其中數(shù)據(jù)分級的核心原則主要有:各級界限明確原則,參照著數(shù)據(jù)敏感度而進(jìn)行的數(shù)據(jù)級別劃分;就高不就低原則,如果同一批的數(shù)據(jù)屬性中的字段分級不相同,則按照最高級別的屬性參數(shù)信息進(jìn)行綜合管控。
訪問控制中心依據(jù)數(shù)據(jù)全生命周期的管理要素進(jìn)行管控,目前在數(shù)據(jù)編碼中認(rèn)可度最高的標(biāo)準(zhǔn)為DAMA標(biāo)準(zhǔn),實(shí)現(xiàn)了數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)使用到數(shù)據(jù)消亡的全過程管[7]。整個(gè)業(yè)務(wù)流程當(dāng)中,元數(shù)據(jù)管理是關(guān)鍵的核心,因此在基礎(chǔ)業(yè)務(wù)的架構(gòu)上還需要充分保證數(shù)據(jù)存儲(chǔ)的完整性和一致性。數(shù)據(jù)質(zhì)量管理更加強(qiáng)調(diào)運(yùn)用數(shù)據(jù)特征度量來精確判定數(shù)據(jù)價(jià)值,更加注重?cái)?shù)據(jù)清洗后的整合、分析與價(jià)值利用,使其傾向于通過持續(xù)治理來有改進(jìn)數(shù)據(jù)質(zhì)量、創(chuàng)造新的價(jià)值。
同時(shí),數(shù)據(jù)中臺(tái)的開放共享使得數(shù)據(jù)安全與合規(guī)問題更加嚴(yán)重,因此需要在數(shù)據(jù)全生命周期內(nèi)強(qiáng)化數(shù)據(jù)分級分類管理、強(qiáng)制數(shù)據(jù)鑒權(quán)訪問,保證數(shù)據(jù)資產(chǎn)能夠在使用的過程中具有著適當(dāng)?shù)恼J(rèn)證和控制[8]。訪問控制中心需具備統(tǒng)一管理、分租戶部署實(shí)例和管理的能力。同時(shí)在業(yè)務(wù)經(jīng)營的過程中,建立起統(tǒng)一的數(shù)據(jù)安全管理控制策略庫能夠顯著的提升安全事件的處置效率,并提供相關(guān)的查詢、關(guān)聯(lián)、追溯等服務(wù)能力。策略庫具體包括但不限于:敏感數(shù)據(jù)脫敏策略、水印溯源策略、數(shù)據(jù)模糊化策略、數(shù)據(jù)加密策略等。
數(shù)據(jù)監(jiān)測中心主要對異常操作和數(shù)據(jù)泄露監(jiān)測,通過對外接口異常行為監(jiān)測、對外接口數(shù)據(jù)安全分析、應(yīng)用數(shù)據(jù)安全威脅監(jiān)測分析、大數(shù)據(jù)平臺(tái)數(shù)據(jù)流轉(zhuǎn)分析形成安全風(fēng)險(xiǎn)和態(tài)勢視圖。數(shù)據(jù)監(jiān)測中心具備統(tǒng)一管理、分租戶部署實(shí)例和管理的能力。利用敏感數(shù)據(jù)脫敏策略、水印溯源、數(shù)據(jù)模糊化、數(shù)據(jù)加密建立數(shù)據(jù)安全管控能力中心。
數(shù)據(jù)可視化是開展安全分析的關(guān)鍵核心,在數(shù)據(jù)可視化的安全分析平臺(tái)中,通過建立統(tǒng)一的數(shù)據(jù)傳輸口徑,能夠靈活、高效的開展探索式的業(yè)務(wù)分析,幫助用戶始終保持安全業(yè)務(wù)的核心洞察力,并將數(shù)據(jù)決策快速覆蓋相關(guān)人員及應(yīng)用場景當(dāng)中。數(shù)據(jù)可視化分析為上層應(yīng)用如查詢搜索、信息比對、關(guān)聯(lián)分析、統(tǒng)計(jì)分析、智能預(yù)測等應(yīng)用提供統(tǒng)一的訪問接口和查詢界面??蔁o縫完成上層應(yīng)用的對接,如可視化圖表分析工具,GIS應(yīng)用,圖片識別應(yīng)用等。
WebShell是黑客常用的惡意腳本,其本質(zhì)是建立在Web服務(wù)器上而生成的惡意代碼,通過計(jì)算機(jī)指令的形式形成惡意腳本,并通過網(wǎng)頁的形式發(fā)布命令,進(jìn)而對網(wǎng)站服務(wù)器進(jìn)行遠(yuǎn)程的操控。
WebShell具有以下兩種隱蔽特性:
(1)惡意WebShell只會(huì)被少數(shù)幾個(gè)惡意攻擊人員訪問,普通人員不會(huì)訪問WebShell(因?yàn)椴恢烙羞@個(gè)頁面的存在),且訪問次數(shù)也遠(yuǎn)遠(yuǎn)小于正常頁面;
(2)正常Web頁面彼此之間會(huì)通過超文本協(xié)議互相鏈接,引導(dǎo)用戶一步步點(diǎn)擊訪問系統(tǒng),WebShell因?yàn)殡[藏自身的需要不會(huì)與其它頁面互相鏈接,以免暴露自己。
基于上述特性,本文通過對出入度、訪問量等多個(gè)維度,建立多模型融合算法進(jìn)行攻擊檢測。本文檢測方法是假設(shè)對外Web系統(tǒng)被攻陷植入WebShell后,出現(xiàn)的異常場景:
(1)訪問量:惡意WebShell只會(huì)被少數(shù)幾個(gè)惡意攻擊人員訪問,普通人員不會(huì)訪問WebShell,且訪問次數(shù)也遠(yuǎn)遠(yuǎn)小于正常頁面。
(2)訪問關(guān)系:正常Web頁面彼此之間會(huì)通過超文本協(xié)議互相鏈接,引導(dǎo)用戶一步步點(diǎn)擊訪問系統(tǒng),WebShell因?yàn)殡[藏自身的需要不會(huì)與其它頁面互相鏈接,以免暴露自己。
(3)頁面響應(yīng):WebShell是用來幫助攻擊者控制Web系統(tǒng)和操作系統(tǒng),因此在訪問過程中必然會(huì)返回一些系統(tǒng)的敏感信息,這些信息雖然內(nèi)容難以預(yù)測,但從統(tǒng)計(jì)角度,和Web系統(tǒng)的返回信息特征存在明顯差異。
首先過濾日志中響應(yīng)值非200、500的不存在頁面,調(diào)用path規(guī)約生成用于頁面特征抽取的預(yù)處理數(shù)據(jù)。并且對所有頁面的參數(shù)信息進(jìn)行實(shí)時(shí)的特征提取,其主要的特征涵蓋:入度、出度、初次訪問時(shí)間、最新訪問時(shí)間、頁面曝光天數(shù)、頁面出現(xiàn)過天數(shù)等。
根據(jù)GMM、Local Outlier Factor、Isolation Forest算法分別計(jì)算出的各URI異常分?jǐn)?shù)值,取各算法最異常的URI交集,生成疑似WebShell進(jìn)行告警。
利用Kmeans模型對輸入的維度進(jìn)行聚類前處理,對聚好的類分別求高斯分布,其計(jì)算原理為:
加權(quán)平均的復(fù)合化結(jié)果如圖2所示。
圖2:K-Means和GMM示意圖
針對點(diǎn)A的位置甚至多個(gè)關(guān)聯(lián)的k點(diǎn),并且綜合的計(jì)算A點(diǎn)到這些位置上的歐式距離,并且將其記作為是Nk(A),計(jì)算原理為:
求出局部可達(dá)密度:
同時(shí)采用相同的計(jì)算方法進(jìn)行關(guān)聯(lián)迭代計(jì)算,最終得到異常因子:
孤立森林從算法屬性上屬于是非監(jiān)督算法,但是其底層架構(gòu)仍舊是決策樹算法,通過建立n個(gè)決策樹模型能夠?qū)δP瓦M(jìn)行及時(shí)得中臺(tái)數(shù)據(jù)的異常系數(shù)值,其結(jié)果的示意圖如圖3所示。
圖3:孤立森林模型示意圖
利用上述模型做組合模型處理,給每一個(gè)模型添加閾值,使其具有決策機(jī)制(即判斷是否為異常)對新輸入的數(shù)據(jù)綜合三個(gè)模型的投票,三個(gè)模型都認(rèn)為是異常的數(shù)據(jù)最異常,兩個(gè)次之,一個(gè)的異??赡苄宰钚?,都判別為不異常的,判別為正常。
當(dāng)中臺(tái)樣本數(shù)據(jù)X是一維數(shù)據(jù)時(shí),高斯分布的數(shù)據(jù)形式主要遵循概率密度函數(shù):
其中,μ為數(shù)據(jù)要素的期望值,σ為數(shù)據(jù)標(biāo)準(zhǔn)差。
當(dāng)樣本數(shù)據(jù)是多維的數(shù)據(jù)類型時(shí),高斯的數(shù)據(jù)分布主要遵循的是下述概率密度函數(shù):
其中,μ為數(shù)據(jù)均值(期望),∑為協(xié)方差(Covariance),D為數(shù)據(jù)維度。
高斯混合模型主要由多個(gè)高斯子模型復(fù)合而成,子模型同時(shí)也是隱形變量,使用混合模型的原因主要是因?yàn)槠渚哂兄己玫臄?shù)學(xué)性質(zhì)和計(jì)算性能,所以用混合高斯分布可以更好的描述問題,模型對比結(jié)果如圖4所示。
圖4:模型結(jié)果對比圖
其主要的流程中,首先需要定義如下信息:表示第j個(gè)觀測數(shù)據(jù)屬于第個(gè)子模型的概率。
針對著單高斯模型,可以使用最大似然法來估算參數(shù)θ的值,其計(jì)算原理為:
似然函數(shù)由概率密度函數(shù)給出:
由于每個(gè)點(diǎn)發(fā)生的概率都很小,乘積會(huì)變得極其小,不利于計(jì)算和觀察,因此采用Maximum Log-Likelihood來計(jì)算:
對于高斯混合模型,Log-Likelihood函數(shù)是:
由于log里還需要進(jìn)行求和操作,因此還需要不斷的進(jìn)行迭代來進(jìn)行綜合求解。
近年來,數(shù)據(jù)對于人們?nèi)粘I町a(chǎn)生的重要影響逐漸的深入人心,因此保護(hù)用戶數(shù)據(jù)安全也已經(jīng)逐漸成為人們?nèi)粘P袨榛顒?dòng)的主要看重點(diǎn)。本文的研究內(nèi)容中從基本的數(shù)據(jù)安全概念作為文章探討的出發(fā)點(diǎn),分別分析了在中臺(tái)體系下大數(shù)據(jù)安全體系和安全應(yīng)用的技術(shù)路徑,并結(jié)合著人工智能算法開展了數(shù)據(jù)處理,以促進(jìn)數(shù)據(jù)管理質(zhì)量的提升。