劉江林 袁宏彥
摘 要: 通過(guò)對(duì)決策樹、k?Nearest Neighbor、貝葉斯三種不同數(shù)據(jù)挖掘算法的比較研究,基于可移動(dòng)端數(shù)據(jù)的特點(diǎn),建立了可移動(dòng)端數(shù)據(jù)安全檢測(cè)的模型框架,并通過(guò)實(shí)驗(yàn)對(duì)其加以驗(yàn)證。結(jié)果表明,決策樹算法的檢測(cè)分類結(jié)果最好,其查準(zhǔn)率和查全率結(jié)果都很高;貝葉斯算法的檢測(cè)分類結(jié)果性能穩(wěn)定,但準(zhǔn)確性不高,分類精度不理想,這是由該算法本身固有的特點(diǎn)決定的;k?Nearest Neighbor算法在開始時(shí)受到樣本向量多少的影響,檢測(cè)分類的效果不太穩(wěn)定,分類效果在樣本向量較少的情況下較差。通過(guò)對(duì)數(shù)據(jù)挖掘的可移動(dòng)終端數(shù)據(jù)安全檢測(cè)技術(shù)的研究,為今后數(shù)據(jù)安全檢測(cè)技術(shù)的應(yīng)用提供了一定的指導(dǎo)價(jià)值。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 移動(dòng)終端; 數(shù)據(jù)安全; 檢測(cè)技術(shù)
中圖分類號(hào): TN915.08?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)05?0082?03
Abstract: By comparatively studying on the data mining algorithms of decision tree, k?Nearest Neighbor and Bayesian, a model framework of the mobile terminal data security detection was established according to the characteristics of the mobile terminal data, and verified with the experiment. The results show that the decision tree algorithm has the best detection and classification result, and its precision ratio and recall ratio are both high; the Bayesian algorithm has the stable performance of the detection and classification result, but its accuracy is low and classification precision is unsatisfied because of the inherent characteristics of the algorithm itself; the k?Nearest Neighbor algorithm reflected by the quantity of the sample vectors has unstable detection and classification result, and the classification result is poor when the algorithm has less sample vectors. The mobile terminal data security detection technology of the data mining is studied, which provides a certain guidance value for the application of the data security detection technology.
Keywords: data mining; mobile terminal; data security; detection technology
0 引 言
伴隨著移動(dòng)通信技術(shù)的飛速發(fā)展,移動(dòng)終端在人們的日常生活中愈來(lái)愈多地承擔(dān)互聯(lián)網(wǎng)的應(yīng)用和服務(wù),但同時(shí)也帶來(lái)了許多負(fù)面的影響,其中最大的挑戰(zhàn)就是如何確??梢苿?dòng)端數(shù)據(jù)的安全[1?3]??梢苿?dòng)終端在承擔(dān)以前PC端互聯(lián)網(wǎng)的應(yīng)用和服務(wù)時(shí),自己也成了被攻擊的對(duì)象,如何快速地檢測(cè)、識(shí)別對(duì)可移動(dòng)端數(shù)據(jù)存在安全威脅的數(shù)據(jù),這一問(wèn)題急需解決。
數(shù)據(jù)挖掘是將人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別等多學(xué)科、多領(lǐng)域的知識(shí)結(jié)合,通過(guò)對(duì)當(dāng)前大量信息數(shù)據(jù)的分析,找出各類事物之間新的聯(lián)系和發(fā)展趨勢(shì)等[4?7]。數(shù)據(jù)挖掘?yàn)榻鉀Q可移動(dòng)端數(shù)據(jù)安全監(jiān)測(cè)問(wèn)題提供了一種新的思路和途徑,成為一個(gè)新的研究熱點(diǎn)[8]。
1 可移動(dòng)端數(shù)據(jù)安全檢測(cè)模型框架
1.1 數(shù)據(jù)挖掘算法比較
在利用數(shù)據(jù)挖掘技術(shù)對(duì)可移動(dòng)端數(shù)據(jù)進(jìn)行檢測(cè)時(shí),算法的選擇直接影響整個(gè)模型是否可以快速自動(dòng)、準(zhǔn)確無(wú)誤地識(shí)別對(duì)數(shù)據(jù)安全有威脅的信息,因此對(duì)數(shù)據(jù)挖掘算法的比較研究是基于數(shù)據(jù)挖掘的可移動(dòng)端數(shù)據(jù)安全檢測(cè)技術(shù)的核心。
1.1.1 決策樹算法
該算法的主體是利用樹狀結(jié)構(gòu)對(duì)可移動(dòng)端數(shù)據(jù)記錄進(jìn)行分類[9],具有非常高的可讀性,對(duì)數(shù)據(jù)記錄的分類準(zhǔn)確率和速度都很高等優(yōu)點(diǎn)。
1.1.2 k?Nearest Neighbor算法
k?Nearest Neighbor算法是基于統(tǒng)計(jì)分類的一種算法。該算法的優(yōu)點(diǎn)是不需要分割所有數(shù)據(jù)記錄組成的向量空間,通過(guò)對(duì)模型數(shù)據(jù)進(jìn)行訓(xùn)練,找出[K]個(gè)相似向量即可,分類效果較好;缺點(diǎn)是對(duì)異常值不敏感。計(jì)算公式如下:
[Simdi,dj=k-1MWik×Wjkk-1MW2ikk-1MW2jk] (1)
1.1.3 貝葉斯算法
貝葉斯算法是基于概率理論的數(shù)據(jù)檢測(cè)分類算法。該算法可以將事件的先驗(yàn)概率和后驗(yàn)概率聯(lián)系在一起,利用樣本數(shù)據(jù)與先驗(yàn)信息來(lái)確定事件的后驗(yàn)概率,其優(yōu)點(diǎn)是模型構(gòu)建簡(jiǎn)單,效率和穩(wěn)定性很高,缺點(diǎn)是數(shù)據(jù)分類效果不佳。計(jì)算公式如下:
[Pcjdi=pcjpdicjpdi] (2)
1.2 可移動(dòng)端數(shù)據(jù)安全檢測(cè)模型框架
完成對(duì)數(shù)據(jù)挖掘算法的研究,本文提出了一種基于數(shù)據(jù)挖掘的可移動(dòng)端數(shù)據(jù)安全檢測(cè)的模型,模型框架圖如圖1所示。
整個(gè)可移動(dòng)端數(shù)據(jù)安全檢測(cè)的過(guò)程分為訓(xùn)練過(guò)程和分類過(guò)程。首先,從可移動(dòng)端采集到原始數(shù)據(jù),將采集來(lái)的可移動(dòng)端數(shù)據(jù)以數(shù)據(jù)包的形式作為一個(gè)分類單位,數(shù)據(jù)包中包括已經(jīng)檢測(cè)的數(shù)據(jù)和待檢測(cè)的數(shù)據(jù),將已經(jīng)檢測(cè)過(guò)的數(shù)據(jù)作為訓(xùn)練過(guò)程的基礎(chǔ),先對(duì)其進(jìn)行預(yù)處理,即將可移動(dòng)端HTTP請(qǐng)求數(shù)據(jù)進(jìn)行文本化,然后提取文本數(shù)據(jù)的向量特征,將數(shù)據(jù)包中的文本數(shù)據(jù)轉(zhuǎn)化為可用于分類的空間向量,隨后,利用該訓(xùn)練數(shù)據(jù)集對(duì)數(shù)據(jù)檢測(cè)分類算法模型進(jìn)行訓(xùn)練,再利用測(cè)試數(shù)據(jù)集按一定的測(cè)試方法測(cè)試建立好的分類模型的性能,通過(guò)不斷的學(xué)習(xí)和調(diào)整,實(shí)現(xiàn)對(duì)移動(dòng)數(shù)據(jù)的自動(dòng)化安全檢測(cè)。
1.2.1 數(shù)據(jù)的向量化
數(shù)據(jù)預(yù)處理之后的文本數(shù)據(jù)是不可以直接使用的,必須將這些文本數(shù)據(jù)向量化,轉(zhuǎn)換成檢測(cè)分類算法可以識(shí)別的數(shù)據(jù),即把數(shù)據(jù)全部用向量表示,使數(shù)據(jù)包成為[N]維向量空間的一個(gè)點(diǎn)集,如下:
[T=TD1,W1,D2,W2,…,DN,WN] (3)
文本轉(zhuǎn)化為向量后,特征項(xiàng)為[D,]相對(duì)應(yīng)的特征項(xiàng)的權(quán)值為[W,]也就是當(dāng)前特征項(xiàng)在文本中的重要程度。這一建模過(guò)程方法很多,目前常用的有概率模型、布爾模型以及向量空間模型等。
1.2.2 向量特征值的選擇
將文本數(shù)據(jù)進(jìn)行向量化之后,數(shù)據(jù)就成了[N]維向量空間的一個(gè)點(diǎn)集,每一個(gè)點(diǎn)需要有一個(gè)特征向量,這樣才可以進(jìn)行下一步的分類。因?yàn)樵诟呔暥鹊南蛄靠臻g中進(jìn)行分類效率會(huì)很低,所以在提取特征向量前,要降低一下向量空間的維度,這就需要對(duì)數(shù)據(jù)的特征項(xiàng)進(jìn)行處理和過(guò)濾。本文設(shè)計(jì)的基于數(shù)據(jù)挖掘的可移動(dòng)端數(shù)據(jù)安全檢測(cè)模型中,提取了14個(gè)向量特征來(lái)表示每個(gè)可移動(dòng)端的數(shù)據(jù),這樣一來(lái)就可以大大降低向量空間的維度,而且還能保證數(shù)據(jù)的有效性。
1.2.3 數(shù)據(jù)的檢測(cè)分類
從可移動(dòng)端收集的數(shù)據(jù)被分為兩個(gè)部分:一部分為正常數(shù)據(jù);另一部分為惡意數(shù)據(jù),這兩部分?jǐn)?shù)據(jù)一定要具有良好的區(qū)分性,測(cè)試檢測(cè)模型是否對(duì)這兩部分?jǐn)?shù)據(jù)有足夠的敏感性,是否可以穩(wěn)健快速的區(qū)別[10]。經(jīng)過(guò)數(shù)據(jù)劃分之后,惡意數(shù)據(jù)和安全數(shù)據(jù)被劃分為惡意數(shù)據(jù)和正常數(shù)據(jù)兩類,預(yù)處理后作為目標(biāo)數(shù)據(jù)對(duì)模型的檢測(cè)分類算法進(jìn)行訓(xùn)練,這是一個(gè)自動(dòng)、機(jī)器學(xué)習(xí)的過(guò)程,模型訓(xùn)練后可以對(duì)數(shù)據(jù)進(jìn)行有效地分類和性能檢驗(yàn)。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境
本文選擇的實(shí)驗(yàn)數(shù)據(jù)共有61 937條安全數(shù)據(jù)和17 592條惡意數(shù)據(jù),分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集兩部分,分布情況如表1所示。
2.2 結(jié)果評(píng)估方法
本文采用查準(zhǔn)率、查全率對(duì)分類結(jié)果進(jìn)行評(píng)價(jià)。查準(zhǔn)率和查全率是評(píng)價(jià)分類結(jié)果的常用方法,查準(zhǔn)率衡量檢測(cè)準(zhǔn)確的概率,查全率是衡量檢測(cè)到的概率。
惡意數(shù)據(jù)包檢測(cè)結(jié)果的查準(zhǔn)率和查全率分別如下所示:
式中:真實(shí)結(jié)果為惡意用[Nm-m]表示,檢測(cè)結(jié)果為惡意的數(shù)據(jù)包的數(shù)目;真實(shí)結(jié)果為安全用[Ns-m]表示,檢測(cè)結(jié)果為惡意的移動(dòng)數(shù)據(jù)包數(shù)目;惡意移動(dòng)數(shù)據(jù)包的總數(shù)用[Nm]表示。
式中:真實(shí)結(jié)果為安全用[Ns-s]表示,檢測(cè)結(jié)果為安全的數(shù)據(jù)包的數(shù)目;真實(shí)結(jié)果為惡意用[Nm-s]表示,檢測(cè)結(jié)果為安全的移動(dòng)數(shù)據(jù)包數(shù)目;安全移動(dòng)數(shù)據(jù)包的總數(shù)用[Ns]表示。
2.3 分類結(jié)果評(píng)估指標(biāo)
評(píng)估分類結(jié)果,首先要對(duì)模型的算法性能進(jìn)行評(píng)估。在本文提出的檢測(cè)模型中,數(shù)據(jù)的檢測(cè)分為訓(xùn)練部分和分類部分,因此對(duì)算法的評(píng)估也需要分兩個(gè)階段進(jìn)行。對(duì)于k?Nearest Neighbor算法,其在訓(xùn)練部分的時(shí)間是線性的,而在分類部分的時(shí)間是非線性的;對(duì)于決策樹算法,其在訓(xùn)練部分的時(shí)間是非線性的,而在分類部分的時(shí)間又是線性的;而貝葉斯算法,其在訓(xùn)練部分和分類部分的時(shí)間都是線性的,因此通常用于對(duì)算法性能進(jìn)行評(píng)估,而在本文中并不適用,對(duì)于可移動(dòng)端數(shù)據(jù)安全檢測(cè)的算法則不再使用一些常用指標(biāo)去評(píng)估衡量算法的性能,而是引用信息檢索中的相關(guān)指標(biāo)來(lái)評(píng)估算法的性能,這些指標(biāo)主要有兩個(gè),即查全率和查準(zhǔn)率。對(duì)可移動(dòng)端數(shù)據(jù)的所有類別進(jìn)行標(biāo)記,每一個(gè)類別使用一個(gè)二值標(biāo)記,這樣數(shù)據(jù)的分類結(jié)果就形成一個(gè)二值分類鄰接表,利用這個(gè)表進(jìn)行計(jì)算,便可以對(duì)分類的結(jié)果進(jìn)行評(píng)估。
2.4 實(shí)驗(yàn)結(jié)果與分析
在本文提出的檢測(cè)模型中,數(shù)據(jù)的檢測(cè)分為訓(xùn)練部分和分類部分。在實(shí)驗(yàn)過(guò)程中,也將實(shí)驗(yàn)分成兩組進(jìn)行,第一組實(shí)驗(yàn)研究各個(gè)分類算法模型的二分類檢測(cè)結(jié)果,第二組實(shí)驗(yàn)研究各個(gè)分類算法模型的多類分類檢測(cè)結(jié)果。為了保證最后實(shí)驗(yàn)結(jié)果的可比性,在每組實(shí)驗(yàn)中只改變算法,不改變輸入的檢測(cè)數(shù)據(jù),實(shí)驗(yàn)數(shù)據(jù)見表2。
在二分類檢測(cè)中,將實(shí)驗(yàn)的數(shù)據(jù)類別只設(shè)定為安全數(shù)據(jù)和惡意數(shù)據(jù)兩種,并且把測(cè)試的數(shù)據(jù)分為五組輸入到檢測(cè)模型中對(duì)算法進(jìn)行驗(yàn)證,計(jì)算出平均查準(zhǔn)率和查全率。從實(shí)驗(yàn)結(jié)果數(shù)據(jù)可以看出,在進(jìn)行安全數(shù)據(jù)和惡意數(shù)據(jù)的二分類檢測(cè)時(shí),各個(gè)算法的性能都良好,其中性能穩(wěn)定和分類效果最好的是決策樹算法,其次是k?Nearest Neighbor算法,檢測(cè)分類效果不夠理想的是貝葉斯算法。
根據(jù)多類分類的實(shí)驗(yàn)結(jié)果可以看出,k?Nearest Neighbor算法開始變得不夠穩(wěn)定,其檢測(cè)分類的效果直接受到樣本向量多少的影響,在樣本向量較少的情況下其分類效果變差;貝葉斯算法的檢測(cè)分類結(jié)果性能穩(wěn)定,但準(zhǔn)確性卻不高,分類精度不理想,這是由該算法本身固有的特點(diǎn)決定的;檢測(cè)分類結(jié)果最好的是決策樹算法,無(wú)論是查準(zhǔn)率還是查全率,其檢測(cè)分類的結(jié)果都很高。
3 結(jié) 語(yǔ)
決策樹算法是一種廣泛使用的數(shù)據(jù)挖掘分類算法,該算法通過(guò)訓(xùn)練數(shù)據(jù)自動(dòng)生成分類模型,并可利用生成的決策樹對(duì)未知分類數(shù)據(jù)進(jìn)行預(yù)測(cè)。本文通過(guò)查準(zhǔn)率、查全率對(duì)決策樹算法的移動(dòng)終端數(shù)據(jù)安全檢測(cè)結(jié)果進(jìn)行評(píng)價(jià),得出以下結(jié)論:
在進(jìn)行安全數(shù)據(jù)和惡意數(shù)據(jù)的二分類檢測(cè)時(shí),各個(gè)算法的性能都良好,其中性能穩(wěn)定,分類效果最好的是決策樹算法,其次是k?Nearest Neighbor算法,檢測(cè)分類效果不夠理想的是貝葉斯算法。
在進(jìn)行安全數(shù)據(jù)和惡意數(shù)據(jù)的多類分類檢測(cè)時(shí),k?Nearest Neighbor算法不夠穩(wěn)定,其檢測(cè)分類的效果直接受到樣本向量多少的影響,在樣本向量較少的情況下其分類效果變差;貝葉斯算法的檢測(cè)分類結(jié)果性能穩(wěn)定,但準(zhǔn)確性卻不高,分類精度不理想;決策樹算法檢測(cè)分類結(jié)果最好,查準(zhǔn)率和查全率都很高。
決策樹算法雖比其他兩種算法的效果要好,但其對(duì)個(gè)別威脅類型如DOS,U2R等的查準(zhǔn)率還未超過(guò)90%,因此在今后研究中,還需要進(jìn)一步提高決策樹算法對(duì)各威脅類型檢測(cè)的查準(zhǔn)率及查全率。
參考文獻(xiàn)
[1] 張瑞華,周延泉,王樅,等.移動(dòng)終端離線瀏覽系統(tǒng)的新聞推薦服務(wù)研究[J].北京郵電大學(xué)學(xué)報(bào),2011(4):132?135.
[2] 張愛麗,劉廣利,劉長(zhǎng)宇.基于SVM的多類文本分類研究[J].情報(bào)方法,2004(9):125?127.
[3] COVER T M, HART P E. Nearest neighbor pattern classification [J]. IEEE transactions on information theory, 1968, 13(1): 21?27.
[4] LEE W, STOLFO S. A framework for constructing features and models for intrusion detection systems [J]. ACM transactions on information and system security, 2000, 3(4): 227?261.
[5] 房秉毅,張?jiān)朴?,徐?移動(dòng)互聯(lián)網(wǎng)環(huán)境下云計(jì)算安全淺析[J].移動(dòng)通信,2011(9):25?28.
[6] 傅建慶,陳健,范容,等.基于代理簽名的移動(dòng)通信網(wǎng)絡(luò)匿名漫游認(rèn)證協(xié)議[J].電子與信息學(xué)報(bào),2011,33(1):156?162.
[7] 李濤,胡愛群.可信模塊與強(qiáng)制訪問(wèn)控制結(jié)合的安全防護(hù)方案[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,41(3):513?517.
[8] 陳祎荻,秦玉平.基于機(jī)器學(xué)習(xí)的文本分類方法綜述[J].渤海大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(2):201?205.
[9] 楊靜,張楠男,李建,等.決策樹算法的研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(2):114?116.
[10] 柴春梅,李翔,林祥.基于改進(jìn)KNN算法實(shí)現(xiàn)網(wǎng)絡(luò)媒體信息智能分類[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009(1):1?4.