周勝利,金蒼宏,吳禮發(fā),洪征
(1. 陸軍工程大學(xué)指揮控制工程學(xué)院,江蘇 南京 210007;2. 浙江警察學(xué)院信息技術(shù)系,浙江 杭州 310053;3. 浙江大學(xué)城市學(xué)院計(jì)算機(jī)與計(jì)算科學(xué)學(xué)院,浙江 杭州 310015)
隨著云計(jì)算技術(shù)的迅速發(fā)展,云計(jì)算應(yīng)用已經(jīng)滲透到經(jīng)濟(jì)、政治、文化和國(guó)防等各個(gè)領(lǐng)域。一些著名的IT公司紛紛提供云計(jì)算服務(wù)[1],如阿里巴巴的阿里云、騰訊公司的騰訊云、亞馬遜的EC2/S3[2]、谷歌的 AppEngine[3]、IBM 的藍(lán)云[4]等。人們只要接入互聯(lián)網(wǎng),注冊(cè)云計(jì)算訪問賬號(hào)并購(gòu)買云服務(wù),就能利用云服務(wù)進(jìn)行工作學(xué)習(xí)[5]。一些有害用戶利用云計(jì)算的開放性、便捷性以及監(jiān)管部門云計(jì)算信息安全管理手段的滯后性,將低俗、詐騙、涉政、涉毒等有害信息放到云上并快速傳播,造成極其惡劣的社會(huì)影響。因此,必須根據(jù)云計(jì)算信息安全監(jiān)管的實(shí)際情況,研究科學(xué)的云計(jì)算用戶公共安全信譽(yù)模型,對(duì)云計(jì)算用戶傳播信息進(jìn)行分析,發(fā)現(xiàn)預(yù)警有害用戶,打擊云計(jì)算環(huán)境下的違法、違規(guī)行為。
傳統(tǒng)的云計(jì)算用戶安全管理主要是以識(shí)別惡意用戶為目標(biāo),根據(jù)用戶異常操作次數(shù)、云服務(wù)提供商歷史反饋、交易時(shí)間、交易次數(shù)等因素,設(shè)置影響因素權(quán)重,建立云計(jì)算用戶信譽(yù)模型,較少涉及云計(jì)算用戶發(fā)布文本信息的安全管理,且缺乏對(duì)信譽(yù)區(qū)分準(zhǔn)確性的評(píng)估論證,難以滿足監(jiān)管部門對(duì)云計(jì)算用戶安全監(jiān)管及打擊云計(jì)算犯罪行為的需要。針對(duì)以上問題,本文提出基于評(píng)分卡—隨機(jī)森林的云計(jì)算用戶公共安全信譽(yù)模型(PST-SRF, cloud computing users’ public safety trust model based on scorecard-random forest)。模型利用卷積神經(jīng)網(wǎng)絡(luò)分析云計(jì)算用戶文本信息,同時(shí)基于評(píng)分卡—隨機(jī)森林方法對(duì)云計(jì)算用戶公共安全信譽(yù)相關(guān)指標(biāo)進(jìn)行篩選建模,識(shí)別有害用戶,提高監(jiān)管部門云計(jì)算安全管理效率。
國(guó)內(nèi)對(duì)云計(jì)算安全的監(jiān)管主要是按照公安部云計(jì)算信息安全等級(jí)保護(hù)要求實(shí)行分級(jí)監(jiān)管,主要涉及用戶信譽(yù)評(píng)估、基礎(chǔ)設(shè)施安全評(píng)估、違法用戶識(shí)別、違法用戶溯源分析以及犯罪打擊等,尚未形成完善的云計(jì)算安全監(jiān)管制度。目前,公安部正在開展云計(jì)算安全評(píng)估和認(rèn)證工作,對(duì)于云計(jì)算用戶信譽(yù)的監(jiān)管還處于起步階段。
學(xué)術(shù)界圍繞云計(jì)算用戶信譽(yù)模型開展了一系列的理論研究。文獻(xiàn)[6]通過計(jì)算歷史反饋因子、交易完成反饋因子的權(quán)重得到整體信譽(yù),但未給出各因素權(quán)重的設(shè)定依據(jù)。文獻(xiàn)[7]通過調(diào)整通信時(shí)間,提高信譽(yù)評(píng)估準(zhǔn)確性。文獻(xiàn)[8]對(duì)用戶的信譽(yù)區(qū)間進(jìn)行劃分,并對(duì)信譽(yù)評(píng)估標(biāo)準(zhǔn)進(jìn)行論證,但并未對(duì)用戶信譽(yù)等級(jí)做區(qū)分準(zhǔn)確性評(píng)估。文獻(xiàn)[9]采用模糊層次分析法來量化云計(jì)算用戶的行為,從直接信譽(yù)、推薦信譽(yù)、綜合信譽(yù)、歷史信譽(yù)這4個(gè)維度評(píng)估云計(jì)算用戶信譽(yù)情況。由于評(píng)估結(jié)果只有可信與不可信2種,該方法無法實(shí)現(xiàn)對(duì)云計(jì)算用戶信譽(yù)的量化評(píng)估。文獻(xiàn)[10]構(gòu)建了基于動(dòng)態(tài)行為數(shù)據(jù)監(jiān)控的信譽(yù)模型,利用數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)針對(duì)影響信譽(yù)的多個(gè)度測(cè)指標(biāo)進(jìn)行自適應(yīng)的動(dòng)態(tài)度量。文獻(xiàn)[11]采用了基于改進(jìn)的證據(jù)理論的云計(jì)算環(huán)境下海量用戶行為信譽(yù)評(píng)估建模方法。該方法借鑒概率加權(quán)平均的原理來實(shí)現(xiàn)對(duì)云計(jì)算環(huán)境下海量用戶行為信譽(yù)評(píng)估。其成本較低,但是建立的模型無法反映用戶行為客觀事實(shí)。針對(duì)上述海量用戶信譽(yù)評(píng)估問題,文獻(xiàn)[12]提出了一種基于改進(jìn)動(dòng)態(tài)博弈論算法的云計(jì)算用戶行為信譽(yù)評(píng)估建模方法。該方法以博弈論為基礎(chǔ),利用不完全信息動(dòng)態(tài)博弈對(duì)云計(jì)算環(huán)境下的海量用戶進(jìn)行分類,從不同角度將云計(jì)算環(huán)境下的用戶行為可信關(guān)系量化,對(duì)用戶信譽(yù)進(jìn)行評(píng)估。
以上信譽(yù)模型的研究主要集中在用戶操作行為,很少涉及用戶的內(nèi)容安全管理。在用戶內(nèi)容安全的研究上,傳統(tǒng)的方法主要包括支持向量機(jī)[13]、樸素貝葉斯分類法[14]、隨機(jī)森林、決策樹法、K-最近鄰法[15]等。以上方法主要采用淺層機(jī)器學(xué)習(xí)方法,缺乏對(duì)分詞間邏輯關(guān)系的分析。為了提高淺層機(jī)器學(xué)習(xí)分類的精度,國(guó)內(nèi)外學(xué)者引入深度學(xué)習(xí)。深度學(xué)習(xí)本質(zhì)上是一種特征提取手段,能夠較好地反映出文本信息的特征。文獻(xiàn)[16]提出低維實(shí)數(shù)詞向量表示的方法,利用不同詞之間的相關(guān)性和依賴關(guān)系,有效降低了網(wǎng)絡(luò)的深度。文獻(xiàn)[17]介紹了一種高效的Skip-Gram模型,可以進(jìn)行高質(zhì)量的詞向量特征訓(xùn)練,語義相似度效果非常好。文獻(xiàn)[18]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行微調(diào),取得較好的分類效果。文獻(xiàn)[19]針對(duì)英文文本提出基于K-max池化操作的動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)方法,提取文本特征向量,取得較好的英文分類效果。
云計(jì)算用戶公共安全信譽(yù)評(píng)估本質(zhì)上是分類問題研究,即把全部用戶劃分為合規(guī)用戶和有害用戶。文獻(xiàn)[20]將線性回歸用于信譽(yù)評(píng)分。文獻(xiàn)[21]針對(duì)文獻(xiàn)[20]信譽(yù)評(píng)分方法在處理交互效應(yīng)和非線性因果關(guān)系的不足,采用邏輯回歸進(jìn)行信譽(yù)評(píng)分,利用正則化對(duì)變量進(jìn)行選擇,能夠解決共線性問題,實(shí)現(xiàn)簡(jiǎn)單快速,但當(dāng)變量空間變大時(shí),回歸的性能下降明顯并且容易存在欠擬合問題。文獻(xiàn)[22,23]運(yùn)用決策樹方法進(jìn)行信譽(yù)評(píng)分,能夠?qū)崿F(xiàn)自動(dòng)選擇變量,很好地處理缺失信息,防止過擬合,該方法的準(zhǔn)確性較采用邏輯回歸方法高,但是方法的泛化能力比較弱。
上述研究為云計(jì)算用戶公共安全信譽(yù)評(píng)估提供了良好的理論基礎(chǔ),但傳統(tǒng)文本分類模型對(duì)有害信息的識(shí)別效度仍需要評(píng)估;信譽(yù)量化模型基于結(jié)構(gòu)化指標(biāo)體系,對(duì)于文本等語義模糊且強(qiáng)度難以定義的指標(biāo)仍需要研究;信譽(yù)模型的泛化能力、數(shù)據(jù)處理能力、分類準(zhǔn)確性仍需要進(jìn)一步研究。基于上述分析,結(jié)合云計(jì)算用戶信息安全管理的需要,首先,利用Word2Vec和卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行公共安全標(biāo)簽分類;然后,采用評(píng)分卡方法,篩選強(qiáng)相關(guān)性指標(biāo);最后,結(jié)合隨機(jī)森林算法,建立PST-SRF模型進(jìn)行云計(jì)算有害用戶的發(fā)現(xiàn)、預(yù)警。
PST-SRF模型基本流程分3個(gè)階段:預(yù)處理階段、公共安全信譽(yù)評(píng)估階段和預(yù)警監(jiān)督階段,如圖1所示。
3.1.1 預(yù)處理階段
預(yù)處理階段主要進(jìn)行用戶發(fā)布文本內(nèi)容的采集、自然語言處理和文本信息公共安全信譽(yù)標(biāo)簽處理,具體操作說明如下。
1) 爬取用戶鏈接內(nèi)容信息:通過云服務(wù)商提供爬蟲工具以及日志采集機(jī)制,獲得云計(jì)算用戶鏈接跳轉(zhuǎn)信息等。
2) 爬取用戶內(nèi)容信息:通過云服務(wù)提供商的文本信息分析系統(tǒng),分析云計(jì)算用戶各種內(nèi)容信息,包括網(wǎng)頁內(nèi)容清洗、關(guān)鍵內(nèi)容提取和非結(jié)構(gòu)化信息保存等。
3) 用戶信息源分析:將爬取的用戶鏈接內(nèi)容和用戶內(nèi)容數(shù)據(jù)進(jìn)行降維處理,同時(shí)使用自然語言處理技術(shù)提取特征。
4) 用戶公共安全標(biāo)簽:利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)用戶文本信息進(jìn)行標(biāo)簽分類,按照預(yù)先設(shè)計(jì)的話題分類進(jìn)行相關(guān)性分析。
3.1.2 公共安全信譽(yù)評(píng)估階段
公共安全信譽(yù)評(píng)估階段主要利用評(píng)分卡方法進(jìn)行公共安全信譽(yù)指標(biāo)分析、篩選,結(jié)合隨機(jī)森林算法對(duì)用戶公共安全信譽(yù)進(jìn)行評(píng)估。具體步驟如下。
1) 指標(biāo)體系分析:主要通過評(píng)分卡方法,利用WOE(weight of evidence)和 IV(information value)指數(shù)評(píng)估指標(biāo)對(duì)信譽(yù)值的影響,篩選云計(jì)算用戶公共安全信譽(yù)相關(guān)性強(qiáng)的指標(biāo)[24]。
2) 評(píng)估模型構(gòu)建:對(duì)指標(biāo)體系中各個(gè)特征利用隨機(jī)森林進(jìn)行建模、分值轉(zhuǎn)換。
3) 模型評(píng)估:對(duì)模型進(jìn)行評(píng)估,主要考察其準(zhǔn)確率和召回率,對(duì)模型參數(shù)和算法進(jìn)行優(yōu)化調(diào)整,達(dá)到最佳的評(píng)估效果。
圖1 PST-SRF模型工作流程
3.1.3 預(yù)警監(jiān)督階段
該階段是信息的整體處理和反饋階段,云服務(wù)提供商將預(yù)警監(jiān)督的數(shù)據(jù)反饋給云計(jì)算信息安全管理中心,便于預(yù)測(cè)、發(fā)現(xiàn)有害用戶,及時(shí)做出判斷。
云計(jì)算用戶公共安全信譽(yù)等級(jí)分配策略是公共安全信譽(yù)評(píng)估的重要參考依據(jù)。公共安全信譽(yù)等級(jí)越低的用戶,其訪問行為的危險(xiǎn)級(jí)別越高。用戶公共安全信譽(yù)分成優(yōu)、良、中、差4個(gè)級(jí)別,分別對(duì)應(yīng)用戶行為危險(xiǎn)級(jí)別為正常、低危、中危、高危,如表1所示。
表1 公共安全信譽(yù)級(jí)別與對(duì)應(yīng)的用戶可疑級(jí)別
本節(jié)將從用戶公共安全標(biāo)簽文本處理、指標(biāo)體系構(gòu)建、隨機(jī)森林特征選擇算法這3個(gè)方面介紹PST-SRF模型,其具體實(shí)現(xiàn)步驟如下。
用戶公共安全標(biāo)簽文本處理主要包括文本分詞相關(guān)處理、詞向量計(jì)算以及利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本向量分類。
4.1.1 文本分詞相關(guān)處理
對(duì)云計(jì)算用戶所發(fā)言論進(jìn)行文本分詞相關(guān)處理,包括分詞、詞性標(biāo)注、實(shí)體識(shí)別等。在分詞后,保留名詞、動(dòng)詞,去掉相關(guān)的形容詞、副詞和停用詞等。
4.1.2 詞向量計(jì)算
對(duì)分詞后獲得的名詞、動(dòng)詞進(jìn)行向量計(jì)算,包括3個(gè)步驟。
1) 使用 mini-batch方法對(duì)文本內(nèi)容進(jìn)行分組,并對(duì)文本缺少的分組,使用特殊字符進(jìn)行補(bǔ)全。
2) 使用詞向量計(jì)算并擴(kuò)展相關(guān)單詞的關(guān)聯(lián)詞,使用Word2Vec框架把相關(guān)單詞變成詞向量,詞向量可計(jì)算詞之間的距離關(guān)系,得到相近的詞。
3) 使用skip-gram方法進(jìn)行推測(cè),該方法能根據(jù)目標(biāo)詞輸出其周圍最相關(guān)的詞。對(duì)于詞向量中的任意一個(gè)單詞w,通過skip_window的參數(shù)n,形成一系列的二元組(Context(w),w),生成 Huffman樹,生成的Huffman樹節(jié)點(diǎn)根據(jù)詞頻進(jìn)行構(gòu)建,如圖2所示。
圖2 分詞向量處理
4.1.3 文本向量分類
利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本向量分類。向量的卷積是文本特征向量進(jìn)行高層次特征提取的過程,與卷積窗口大小、學(xué)習(xí)率、卷積步長(zhǎng)以及正則化系數(shù)有關(guān)。云環(huán)境的文本經(jīng)過數(shù)據(jù)預(yù)處理后,根據(jù)網(wǎng)絡(luò)文本的長(zhǎng)度,本文設(shè)置卷積窗口為5,設(shè)置卷積步長(zhǎng)為1(經(jīng)過實(shí)驗(yàn),卷積窗口設(shè)置為5效果最好)。文本卷積式為
其中,矩陣W表示輸入的文本向量,Xij代表第i個(gè)文本的詞特征向量,G代表卷積核函數(shù)矩陣。G大小受輸入的文本數(shù)K和卷積的窗口win共同影響。矩陣W與矩陣G輸出的結(jié)果矩陣為H。其中,Hij代表第i個(gè)文本通過j次卷積得到的向量。
卷積神經(jīng)網(wǎng)絡(luò)的最終目標(biāo)是將相關(guān)詞劃分到幾大類安全標(biāo)簽類別中,需要優(yōu)化的參數(shù)主要包括2個(gè)部分:詞向量和網(wǎng)絡(luò)參數(shù)。本文記詞向量為E,卷積操作的參數(shù)為,分類器的參數(shù)為We,記W=((s1,y1),(s2,y2),… ,(sq,yq)),其中,si表示對(duì)應(yīng)句子的類別標(biāo)簽,表示訓(xùn)練集樣本個(gè)數(shù)。表示已知參數(shù)θ時(shí)將句子si的標(biāo)簽分為yi的概率,則優(yōu)化目標(biāo)為其中,λ為正向參數(shù)。
IV是信息價(jià)值或者信息量,WOE為證據(jù)權(quán)重,是對(duì)原始自變量的一種編碼形式。
變量WOE編碼,首先把變量進(jìn)行分箱處理,然后對(duì)第i組WOE值進(jìn)行計(jì)算。計(jì)算式為其中,pyi是分組中符合條件用戶(對(duì)應(yīng)的是有害用戶)占所有樣本中所有相應(yīng)用戶的比例,pni是分組中正常用戶占樣本中所有正常用戶的比例,#yi是分組中有害用戶的數(shù)量,#ni是分組中正常用戶的數(shù)量,#yT是樣本中所有有害用戶的數(shù)量,#nT是樣本中所有正常用戶的數(shù)量。WOE表示分組中有害用戶占所有有害用戶的比例和當(dāng)前分組中正常用戶占所有正常用戶的比例的差異。
對(duì)式(4)做變換得
變換后,WOEi表示當(dāng)前組有害用戶與正常用戶的比值和所有樣本中這個(gè)比值的差異。這種差異是用這2個(gè)比值的比值再取對(duì)數(shù)來表示的。WOEi越大,這種差異越大,這個(gè)分組里的樣本響應(yīng)的可能性就越大;WOEi越小,差異越小,這個(gè)分組里的樣本響應(yīng)的可能性就越小。
基于前面的分析,可得IV的計(jì)算式為
通過變量各分組的IV值可以計(jì)算整個(gè)變量的IV值,計(jì)算式為
其中,n為變量分組個(gè)數(shù)。
通過WOE和IV篩選后,保留下來的指標(biāo)可以用作訓(xùn)練指標(biāo)模型所需的特征。在訓(xùn)練之前,對(duì)每個(gè)樣本指標(biāo)進(jìn)行WOE的轉(zhuǎn)換。
IV值的選取根據(jù)IV值衡量標(biāo)準(zhǔn)決定指標(biāo)是否保留[24],如表2所示。
表1 IV值衡量標(biāo)準(zhǔn)
通過WOE和IV篩選后,保留下來的指標(biāo)可以作為訓(xùn)練指標(biāo)模型所需的特征,在訓(xùn)練模型之前,首先要對(duì)每個(gè)樣本指標(biāo)進(jìn)行WOE轉(zhuǎn)換,然后針對(duì)該子類評(píng)分模型,利用隨機(jī)森林特征選擇(RFFS,radom forest feature selection)算法提取有效特征,具體算法如算法1所示。
MacAcc表示最大分類正確率,F(xiàn)GSet表示篩選后的特征集合,LMaxAcc表示局部最大分類正確率,LMeanAcc表示局部平均正確率。
算法1中步驟1)和步驟2)表示數(shù)據(jù)前處理步驟,步驟3)~步驟12)為特征選擇最大子概率算法,步驟13)和步驟14)為從局部最優(yōu)概率中選擇出全局最優(yōu)的正確率,并且提取相對(duì)應(yīng)的特征。
算法1 隨機(jī)森林特征選擇算法
輸入WOE和IV選擇為0.1~0.5之間的特征,生成數(shù)據(jù)集S,共有N個(gè)
輸出 驗(yàn)證集上的最大分類正確率MaxAcc和對(duì)應(yīng)的特征集合FGSet
初始化
1) 讀入訓(xùn)練數(shù)據(jù)集S
2) 設(shè)置MaxAcc= 0
特征選擇最大子概率算法(循環(huán)N?2次)
3) 將S隨機(jī)10等分
4) 設(shè)置局部最大分類準(zhǔn)確率LMaxAcc=0和平均分類準(zhǔn)確率LMeanAcc=0
5)LAcc[1∶10] = 0
6) for (iin 1∶10)
7) 在S上構(gòu)建RandomForest分類器
8) 在測(cè)試集合上執(zhí)行分類
9) 比較分類結(jié)果和觀測(cè)值,計(jì)算LAcc
10)LMeanAcc=LMeanAcc+LAcc
11)LMaxAcc= 最大的LAcc[i]
12) 對(duì)特征按重要性排序FGSet
輸出結(jié)果
13) 輸出最大的LMaxAcc為MaxAcc
14) 輸出分類準(zhǔn)確率最高M(jìn)axAcc的特征集合FGSet
通過實(shí)驗(yàn)分析,驗(yàn)證文本標(biāo)簽分類的正確性、模型指標(biāo)篩選處理的合理性、隨機(jī)森林參數(shù)調(diào)整的合理性以及評(píng)估模型的準(zhǔn)確性。
在阿里云ODPS(open data processing service)平臺(tái)進(jìn)行實(shí)驗(yàn)測(cè)試。該平臺(tái)由10臺(tái)S10機(jī)器組成,每臺(tái)機(jī)器的配置為32核64 GB內(nèi)存2 TB硬盤,其中包含3臺(tái)管控集群和10臺(tái)計(jì)算集群,管控集群用于對(duì)任務(wù)進(jìn)行分發(fā)和管理,計(jì)算集群負(fù)責(zé)各機(jī)器學(xué)習(xí)分布式計(jì)算任務(wù)的運(yùn)行。
實(shí)驗(yàn)的目的是評(píng)估云計(jì)算用戶文本標(biāo)簽分類的準(zhǔn)確性。實(shí)驗(yàn)所使用的數(shù)據(jù)為某政法云平臺(tái)的公共安全分類數(shù)據(jù)集。本文選取了其中包含政治人物、司法相關(guān)、公眾人物等的實(shí)驗(yàn)數(shù)據(jù)。對(duì)每個(gè)類別分別隨機(jī)選取其中的 70%用于訓(xùn)練、30%用于測(cè)試。數(shù)據(jù)預(yù)處理階段使用 Word2Vec完成文本的簡(jiǎn)單處理,包括分詞、詞性標(biāo)注等。在預(yù)處理階段會(huì)設(shè)置句子分詞后最長(zhǎng)詞數(shù),對(duì)未達(dá)到最長(zhǎng)分詞個(gè)數(shù)的分詞單元統(tǒng)一使用規(guī)定符號(hào)補(bǔ)全。然后,利用卷積神經(jīng)網(wǎng)絡(luò)提取指定任務(wù)的句子特征。為了防止過擬合和提升模型的預(yù)測(cè)準(zhǔn)確率,使用dropout算法進(jìn)行優(yōu)化。
實(shí)驗(yàn)主要通過準(zhǔn)確率(accuracy)、靈敏度(sensitive)、特異度(specificity)、精確率(precision)、召回率(recall)、F1值等指標(biāo)進(jìn)行評(píng)估[24,25]。評(píng)估指標(biāo)如表3所示。
表3中,P表示正樣本數(shù)量;N表示負(fù)樣本數(shù)量;TP表示被正確分類的正樣本;FP表示被錯(cuò)誤地標(biāo)記為正樣本的負(fù)樣本;FN表示被錯(cuò)誤地標(biāo)記為負(fù)樣本的正樣本;TN表示被正確分類的負(fù)樣本。
表4的斜對(duì)角線體現(xiàn)了真實(shí)標(biāo)簽與預(yù)測(cè)標(biāo)簽的一致性。表4中A~R分別代表18種敏感話題。模型對(duì)話題D、F、J、K、L、N等標(biāo)簽預(yù)測(cè)準(zhǔn)確率在90%以下,其余各個(gè)類別的預(yù)測(cè)準(zhǔn)確率在90%以上,滿足實(shí)際應(yīng)用需求。
表5各項(xiàng)評(píng)估指標(biāo)均在90%以上,說明模型具有很好的分類效果,滿足公共安全信譽(yù)評(píng)估應(yīng)用需求。表5中A~R含義同表4。
實(shí)驗(yàn)的目的是為了說明模型指標(biāo)選擇的科學(xué)性。實(shí)驗(yàn)數(shù)據(jù)為從某政法云平臺(tái)中選取的6萬個(gè)用戶內(nèi)容行為數(shù)據(jù),包括1萬個(gè)黑樣本數(shù)據(jù)和5萬個(gè)白樣本數(shù)據(jù)。對(duì)各數(shù)據(jù)字段進(jìn)行屬性擴(kuò)充后,最終進(jìn)行模塊化存儲(chǔ)。
將黑樣本和白樣本分別按照7∶3的比例(機(jī)器學(xué)習(xí)常用的比例)進(jìn)行分割再組合,形成訓(xùn)練樣本和測(cè)試樣本。
表3 模型評(píng)估指標(biāo)
表2 混淆矩陣值
表5 混淆矩陣評(píng)估指標(biāo)
表6 cnt_good指標(biāo)WOE分析結(jié)果
表6表示cnt_good指標(biāo)的WOE值及其代表性分析結(jié)果。表6中橫坐標(biāo)表示正面句子條數(shù)分箱區(qū)間,縱坐標(biāo)WOE表示不同區(qū)間對(duì)應(yīng)的值。圖3進(jìn)一步分析cnt_good指標(biāo)的WOE值變化情況和分箱效果。圖3中,WOE值越大,反向指標(biāo)越??;WOE值越小,且中間無跳點(diǎn),則說明該分箱效果較好。另外,正向指標(biāo)的WOE值正斜率越大,反向指標(biāo)的負(fù)斜率越大,則說明指標(biāo)區(qū)分能力越好,即對(duì)評(píng)分的影響越大。
圖3 cnt_good 指標(biāo)WOE分析結(jié)果
通過指標(biāo)分析,可以篩選出符合統(tǒng)計(jì)學(xué)規(guī)律的指標(biāo)作為模型訓(xùn)練的候選特征,然后通過多重共線性分析對(duì)候選特征進(jìn)行相關(guān)性分析,刪除一些相關(guān)性強(qiáng)的指標(biāo),減少模型特征的維度。
篩選的最后一步是通過IV分析來確定單一指標(biāo)對(duì)模型預(yù)測(cè)能力的貢獻(xiàn),IV表示每個(gè)指標(biāo)所包含的信息量,相當(dāng)于是指標(biāo)WOE值的加權(quán),其值的大小決定了自變量對(duì)于目標(biāo)的影響程度,IV的實(shí)驗(yàn)分析結(jié)果如表7所示。
經(jīng)過數(shù)據(jù)分布情況分析,不斷進(jìn)行模型迭代,最終得到22個(gè)重要特征,樹的棵數(shù)為200,每棵樹的最大深度為5。通過ROC、AUC等指標(biāo)評(píng)估模型效果如圖4所示。
表7 指標(biāo)IV值
圖4 ROC曲線
圖4中縱軸表示TPR,即實(shí)際正樣本中被預(yù)測(cè)成正樣本的比例;橫軸表示FPR,即實(shí)際負(fù)樣本中被預(yù)測(cè)成正樣本的比例。其中,4個(gè)坐標(biāo)點(diǎn)分別表示如下。
1) 坐標(biāo)(0,0)表示實(shí)際正樣本中,被預(yù)測(cè)成正樣本的比例為 0,即所有預(yù)測(cè)都錯(cuò)誤;而在實(shí)際負(fù)樣本中,被預(yù)測(cè)成正樣本的比例也為 0,即所有負(fù)樣本都預(yù)測(cè)正確。
2) 坐標(biāo)(0,1)表示實(shí)際正樣本中,被預(yù)測(cè)成正樣本的比例為 1,即所有正例都預(yù)測(cè)正確;同時(shí),實(shí)際負(fù)例也被預(yù)測(cè)正確。
3) 坐標(biāo)(1,1)表示實(shí)際正樣本中,被預(yù)測(cè)成正樣本的比例為 1,即所有正樣本都預(yù)測(cè)正確;但實(shí)際負(fù)樣本中,被預(yù)測(cè)成正樣本的比例也為 1,所有負(fù)樣本預(yù)測(cè)錯(cuò)誤。
4) 坐標(biāo)(1,0)表示實(shí)際正樣本中,被預(yù)測(cè)成正樣本的比例為 0,即所有正樣本都預(yù)測(cè)錯(cuò)誤;且實(shí)際負(fù)樣本中,被預(yù)測(cè)成正樣本的比例為 1,即所有負(fù)樣本都預(yù)測(cè)錯(cuò)誤。
可見,第 2)種情況效果是最好的,而第 1)和第3)種情況是2個(gè)極端,第4)種情況效果最差。因此,對(duì)于ROC曲線,越是靠近左上角,效果則越好。
為了對(duì)ROC曲線中的效果進(jìn)行數(shù)值量化,引入了AUC指標(biāo),該指標(biāo)表示的是ROC曲線下方的面積。模型效果越好,ROC曲線越逼近左上角,AUC值越靠近1.0。本模型的AUC=0.9,達(dá)到了預(yù)期效果。
在本文的模型中,以概率0.5作為預(yù)測(cè)為正樣本和負(fù)樣本的切分點(diǎn),得到的混淆矩陣效果如表 8所示。表8中預(yù)測(cè)為正樣本(1表示正樣本,0表示負(fù)樣本)的數(shù)目為1 843個(gè),正確數(shù)目為1 340個(gè),錯(cuò)誤數(shù)目為503個(gè),正確率72.7%,召回率47.4%,F(xiàn)1為57.4%,滿足實(shí)際應(yīng)用需求。
本文所提 PST-SRF模型對(duì)云計(jì)算用戶的文本內(nèi)容進(jìn)行公共安全信譽(yù)評(píng)估。模型利用詞向量結(jié)合卷積神經(jīng)網(wǎng)絡(luò)方法,對(duì)用戶內(nèi)容安全進(jìn)行分類打標(biāo)簽,并結(jié)合評(píng)分卡方法中WOE和IV指標(biāo)篩選方法,篩選云計(jì)算用戶公共安全相關(guān)指標(biāo),之后根據(jù)數(shù)據(jù)離散情況、隨機(jī)森林中樹的個(gè)數(shù)、屬性個(gè)數(shù)、樹的深度,采用 bootstrap對(duì)樣本進(jìn)行子采樣,降低子模型之間的關(guān)聯(lián)度,建立公共安全信譽(yù)評(píng)估模型。實(shí)驗(yàn)評(píng)估結(jié)果表明,PST-SRF模型對(duì)用戶公共安全信譽(yù)具有較好的區(qū)分效果,能夠有效識(shí)別有害用戶,提高云計(jì)算用戶信息安全管理效率。
表8 本文混淆矩陣
[1] 劉楠, 魏進(jìn)武, 劉露.大數(shù)據(jù)交換信息鏈[J].電信科學(xué), 2016, 32(10)∶130-136.LIU N, WEI J W, LIU L. Big data exchange based on information chain[J].Telecommunications Science, 2016, 32(10)∶ 130-136.
[2] 周維, 路勁, 周可人, 等.基于并發(fā)跳表的云數(shù)據(jù)處理雙層索引架構(gòu)研究[J].計(jì)算機(jī)研究與發(fā)展, 2015, 52(7)∶ 1531-1545.ZHOU W, LU J, ZHOU K R, et al. Concurrent skiplist based double-layer index framework for cloud data processing[J].Journal of Computer Research and Devlopment, 2015, 52(7)∶ 1531-1545.
[3] 張常有, 邵立向, 李文清, 等.云服務(wù)的自組織機(jī)制及性能分析[J].中國(guó)通信, 2012, 9(6)∶135-144.ZHANG C Y, SHAO L X, LI W Q, et al. Self organizing mechanism for cloud services and performance analysis[J].China Communications,2012, 9(6)∶135-144.
[4] 陳康, 鄭緯民.云計(jì)算∶系統(tǒng)實(shí)例與研究現(xiàn)狀[J].軟件學(xué)報(bào), 2009,20(5)∶ 1337-1348.CHEN K, ZHENG W M. Cloud computing∶ system instances and current research[J]. Journal of Software, 2009, 20(5)∶1337-1348.
[5] 王國(guó)峰, 劉川意, 潘鶴中, 等.云計(jì)算模式內(nèi)部威脅綜述[J].計(jì)算機(jī)學(xué)報(bào), 2017, 40(2)∶ 296-316.WANG G F, LIU C Y, PAN H Z, et al. Survey on insider threats to cloud computing[J].Chinese Journal of Computers, 2017, 40(2)∶296-316.
[6] 李丙戌, 吳禮發(fā), 周振吉, 等. 基于信任的云計(jì)算身份管理模型設(shè)計(jì)與實(shí)現(xiàn)[J]. 計(jì)算機(jī)科學(xué), 2014, 41 (10)∶ 144-148.LI B X, WU L F, ZHOU Z J, et al. Design and implementation of trust-based identity management model for cloud computing[J].Computer Science, 2014, 41(10)∶ 144-148.
[7] TIAN L Q, LIN C, YANG N. Evaluation of user behavior trust in cloud computing[C]//2010 International Conference on Computer Application and System Modeling (ICCASM). 2010∶ 567-572.
[8] 蘇铓, 李鳳華, 史國(guó)振. 基于行為的多級(jí)訪問控制模型[J]. 計(jì)算機(jī)研究與發(fā)展, 2014, 51(7) ∶ 1604-1613.SU M, LI F H, SHI G Z. Action-based multi-level access control model[J]. Computer Research and Development, 2014, 51(7)∶ 1604-1613.
[9] 周茜, 于炯. 云計(jì)算下基于信任的防御系統(tǒng)模型[J]. 計(jì)算機(jī)應(yīng)用2011, 31(6) ∶1531-1535.ZHOU Q, YUU J. Defense systemm model based ontrust for cloud commputing[J]. Coomputer Applicationn, 2011, 31(6) ∶ 15331-1535.
[10] LI X Y, GUIX L, MAO Q, et aal. Adaptive dynammic trust measuremeent and predictioon model based on bbehavior monitoring∶ adaptive dynammic trust measureement and predictiion model based oon behavior monitooring[J]. Chineese Journal of Compputers, 2009, 32(4))∶ 664-674.
[11] 楊家興. 復(fù)雜雜網(wǎng)絡(luò)安全態(tài)勢(shì)評(píng)評(píng)估模型仿真分析析[J]. 計(jì)算機(jī)仿真真,2013, 30(8)∶289-292.YANG J X. SSimulation analysiss of complex netwoork security situation assessment mmodel[J]. Computerr Simulation, 2013,30(8)∶289-292.
[12] 毛建景, 張凱凱萍. 云計(jì)算環(huán)境下海量用戶行為信任評(píng)估模型[J]. 計(jì)計(jì)算機(jī)仿真, 20016, 33(3)∶ 385-3888.MAO J J, ZHHANG K P. Behavvior trust evaluationn model for massive users undercloud computingenvironment[J]. Computer Simulation,2016, 33(3)∶385-388.
[13] 丁世飛, 張健健, 張謝鍇, 等. 多分分類孿生支持向量機(jī)研究進(jìn)展[J]. 軟件學(xué)報(bào), 2018, 229(1)∶ 89-108.DING S F, ZZHANG J, ZHANGG X K, et al. Surveyy on multi class twwin support vectoor machines[J]. Jouurnal of Software, 2018, 29(1)∶ 89-108.
[14] WANG S C, XU G L, DU RR J. Restricted Bayesian classification networks[J].Science China(IInformation Sciennces), 2013, 56(7)∶210-224.
[15] LAM H K, EEKONG U, LIU H BB, et al. A study of nneural-network-based classifiers forr material classification[J]. Neurocomputing, 2014∶ 144.
[16] HINTON GE. Learning distributed representations of concepts[CC]//The 8th Annnual Conference off the Cognitive Science Society. 19886∶1-12.
[17] MIKOLOV TT, CHEN K, CORRRADO G, et al. Effficient estimationof word represenntations in vector spaace[J]. Computer Science, 2013∶ 1-12.
[18] KIM Y. Convvolutional neural nnetworks for sentence classification[CC]//The 2014 CConference on Emmppirical Methods inn Natural Languagge Processing. 22014∶1746-1751.
[19] STILO G, VEELARDI P. Efficieent temporal miningg of micro-blog texts and its appliccation to event disccovery[J]. Data Mining and Knowledge Discovery, 20016, 30(2)∶ 372-4022.
[20] KENNETH AA C, MICHAEL EE S. Debit, credit,or cash∶ survey evidence on gassoline purchases[J]]. Journal of Economics and Business,1999, 51(5)∶409-421.
[21] WIGINTONJ C. A. note on thhe comparison of logit and discriminant models of coonsumer credit behaavior[J].Journal ofFinancial and Quantitative Analyysis,1980,15∶757-7770.
[22] MAKOWSKKI P. Credit scoringg branches out[J].Credit World, 1985,75∶30-37.
[23] CARTER C, CATLETT J. Assessing ccredit card applicaation using machine learning[J].IEEEE Expert Magazine, 1987, 2(3)∶71-79.
[24] WANG G, HAO J, MAA J, et al, A comparative assessment of ensemble learning for credit scorring[J]. Expert Systtems with Applications , 2011,38(11) ∶223-230.
[25] GARRETH J, DANIELLA W, TREVORH, et al. Anintroduction to statiistical learning wwith application in R[M]//An Introduction to Satiistical Learning. 20013∶ 78-129.