亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹算法的移動(dòng)終端數(shù)據(jù)安全檢測技術(shù)研究

        2017-04-01 23:49:39劉江林袁宏彥
        現(xiàn)代電子技術(shù) 2017年5期
        關(guān)鍵詞:移動(dòng)終端檢測技術(shù)數(shù)據(jù)安全

        劉江林 袁宏彥

        摘 要: 通過對決策樹、k?Nearest Neighbor、貝葉斯三種不同數(shù)據(jù)挖掘算法的比較研究,基于可移動(dòng)端數(shù)據(jù)的特點(diǎn),建立了可移動(dòng)端數(shù)據(jù)安全檢測的模型框架,并通過實(shí)驗(yàn)對其加以驗(yàn)證。結(jié)果表明,決策樹算法的檢測分類結(jié)果最好,其查準(zhǔn)率和查全率結(jié)果都很高;貝葉斯算法的檢測分類結(jié)果性能穩(wěn)定,但準(zhǔn)確性不高,分類精度不理想,這是由該算法本身固有的特點(diǎn)決定的;k?Nearest Neighbor算法在開始時(shí)受到樣本向量多少的影響,檢測分類的效果不太穩(wěn)定,分類效果在樣本向量較少的情況下較差。通過對數(shù)據(jù)挖掘的可移動(dòng)終端數(shù)據(jù)安全檢測技術(shù)的研究,為今后數(shù)據(jù)安全檢測技術(shù)的應(yīng)用提供了一定的指導(dǎo)價(jià)值。

        關(guān)鍵詞: 數(shù)據(jù)挖掘; 移動(dòng)終端; 數(shù)據(jù)安全; 檢測技術(shù)

        中圖分類號(hào): TN915.08?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)05?0082?03

        Abstract: By comparatively studying on the data mining algorithms of decision tree, k?Nearest Neighbor and Bayesian, a model framework of the mobile terminal data security detection was established according to the characteristics of the mobile terminal data, and verified with the experiment. The results show that the decision tree algorithm has the best detection and classification result, and its precision ratio and recall ratio are both high; the Bayesian algorithm has the stable performance of the detection and classification result, but its accuracy is low and classification precision is unsatisfied because of the inherent characteristics of the algorithm itself; the k?Nearest Neighbor algorithm reflected by the quantity of the sample vectors has unstable detection and classification result, and the classification result is poor when the algorithm has less sample vectors. The mobile terminal data security detection technology of the data mining is studied, which provides a certain guidance value for the application of the data security detection technology.

        Keywords: data mining; mobile terminal; data security; detection technology

        0 引 言

        伴隨著移動(dòng)通信技術(shù)的飛速發(fā)展,移動(dòng)終端在人們的日常生活中愈來愈多地承擔(dān)互聯(lián)網(wǎng)的應(yīng)用和服務(wù),但同時(shí)也帶來了許多負(fù)面的影響,其中最大的挑戰(zhàn)就是如何確??梢苿?dòng)端數(shù)據(jù)的安全[1?3]??梢苿?dòng)終端在承擔(dān)以前PC端互聯(lián)網(wǎng)的應(yīng)用和服務(wù)時(shí),自己也成了被攻擊的對象,如何快速地檢測、識(shí)別對可移動(dòng)端數(shù)據(jù)存在安全威脅的數(shù)據(jù),這一問題急需解決。

        數(shù)據(jù)挖掘是將人工智能、機(jī)器學(xué)習(xí)、模式識(shí)別等多學(xué)科、多領(lǐng)域的知識(shí)結(jié)合,通過對當(dāng)前大量信息數(shù)據(jù)的分析,找出各類事物之間新的聯(lián)系和發(fā)展趨勢等[4?7]。數(shù)據(jù)挖掘?yàn)榻鉀Q可移動(dòng)端數(shù)據(jù)安全監(jiān)測問題提供了一種新的思路和途徑,成為一個(gè)新的研究熱點(diǎn)[8]。

        1 可移動(dòng)端數(shù)據(jù)安全檢測模型框架

        1.1 數(shù)據(jù)挖掘算法比較

        在利用數(shù)據(jù)挖掘技術(shù)對可移動(dòng)端數(shù)據(jù)進(jìn)行檢測時(shí),算法的選擇直接影響整個(gè)模型是否可以快速自動(dòng)、準(zhǔn)確無誤地識(shí)別對數(shù)據(jù)安全有威脅的信息,因此對數(shù)據(jù)挖掘算法的比較研究是基于數(shù)據(jù)挖掘的可移動(dòng)端數(shù)據(jù)安全檢測技術(shù)的核心。

        1.1.1 決策樹算法

        該算法的主體是利用樹狀結(jié)構(gòu)對可移動(dòng)端數(shù)據(jù)記錄進(jìn)行分類[9],具有非常高的可讀性,對數(shù)據(jù)記錄的分類準(zhǔn)確率和速度都很高等優(yōu)點(diǎn)。

        1.1.2 k?Nearest Neighbor算法

        k?Nearest Neighbor算法是基于統(tǒng)計(jì)分類的一種算法。該算法的優(yōu)點(diǎn)是不需要分割所有數(shù)據(jù)記錄組成的向量空間,通過對模型數(shù)據(jù)進(jìn)行訓(xùn)練,找出[K]個(gè)相似向量即可,分類效果較好;缺點(diǎn)是對異常值不敏感。計(jì)算公式如下:

        [Simdi,dj=k-1MWik×Wjkk-1MW2ikk-1MW2jk] (1)

        1.1.3 貝葉斯算法

        貝葉斯算法是基于概率理論的數(shù)據(jù)檢測分類算法。該算法可以將事件的先驗(yàn)概率和后驗(yàn)概率聯(lián)系在一起,利用樣本數(shù)據(jù)與先驗(yàn)信息來確定事件的后驗(yàn)概率,其優(yōu)點(diǎn)是模型構(gòu)建簡單,效率和穩(wěn)定性很高,缺點(diǎn)是數(shù)據(jù)分類效果不佳。計(jì)算公式如下:

        [Pcjdi=pcjpdicjpdi] (2)

        1.2 可移動(dòng)端數(shù)據(jù)安全檢測模型框架

        完成對數(shù)據(jù)挖掘算法的研究,本文提出了一種基于數(shù)據(jù)挖掘的可移動(dòng)端數(shù)據(jù)安全檢測的模型,模型框架圖如圖1所示。

        整個(gè)可移動(dòng)端數(shù)據(jù)安全檢測的過程分為訓(xùn)練過程和分類過程。首先,從可移動(dòng)端采集到原始數(shù)據(jù),將采集來的可移動(dòng)端數(shù)據(jù)以數(shù)據(jù)包的形式作為一個(gè)分類單位,數(shù)據(jù)包中包括已經(jīng)檢測的數(shù)據(jù)和待檢測的數(shù)據(jù),將已經(jīng)檢測過的數(shù)據(jù)作為訓(xùn)練過程的基礎(chǔ),先對其進(jìn)行預(yù)處理,即將可移動(dòng)端HTTP請求數(shù)據(jù)進(jìn)行文本化,然后提取文本數(shù)據(jù)的向量特征,將數(shù)據(jù)包中的文本數(shù)據(jù)轉(zhuǎn)化為可用于分類的空間向量,隨后,利用該訓(xùn)練數(shù)據(jù)集對數(shù)據(jù)檢測分類算法模型進(jìn)行訓(xùn)練,再利用測試數(shù)據(jù)集按一定的測試方法測試建立好的分類模型的性能,通過不斷的學(xué)習(xí)和調(diào)整,實(shí)現(xiàn)對移動(dòng)數(shù)據(jù)的自動(dòng)化安全檢測。

        1.2.1 數(shù)據(jù)的向量化

        數(shù)據(jù)預(yù)處理之后的文本數(shù)據(jù)是不可以直接使用的,必須將這些文本數(shù)據(jù)向量化,轉(zhuǎn)換成檢測分類算法可以識(shí)別的數(shù)據(jù),即把數(shù)據(jù)全部用向量表示,使數(shù)據(jù)包成為[N]維向量空間的一個(gè)點(diǎn)集,如下:

        [T=TD1,W1,D2,W2,…,DN,WN] (3)

        文本轉(zhuǎn)化為向量后,特征項(xiàng)為[D,]相對應(yīng)的特征項(xiàng)的權(quán)值為[W,]也就是當(dāng)前特征項(xiàng)在文本中的重要程度。這一建模過程方法很多,目前常用的有概率模型、布爾模型以及向量空間模型等。

        1.2.2 向量特征值的選擇

        將文本數(shù)據(jù)進(jìn)行向量化之后,數(shù)據(jù)就成了[N]維向量空間的一個(gè)點(diǎn)集,每一個(gè)點(diǎn)需要有一個(gè)特征向量,這樣才可以進(jìn)行下一步的分類。因?yàn)樵诟呔暥鹊南蛄靠臻g中進(jìn)行分類效率會(huì)很低,所以在提取特征向量前,要降低一下向量空間的維度,這就需要對數(shù)據(jù)的特征項(xiàng)進(jìn)行處理和過濾。本文設(shè)計(jì)的基于數(shù)據(jù)挖掘的可移動(dòng)端數(shù)據(jù)安全檢測模型中,提取了14個(gè)向量特征來表示每個(gè)可移動(dòng)端的數(shù)據(jù),這樣一來就可以大大降低向量空間的維度,而且還能保證數(shù)據(jù)的有效性。

        1.2.3 數(shù)據(jù)的檢測分類

        從可移動(dòng)端收集的數(shù)據(jù)被分為兩個(gè)部分:一部分為正常數(shù)據(jù);另一部分為惡意數(shù)據(jù),這兩部分?jǐn)?shù)據(jù)一定要具有良好的區(qū)分性,測試檢測模型是否對這兩部分?jǐn)?shù)據(jù)有足夠的敏感性,是否可以穩(wěn)健快速的區(qū)別[10]。經(jīng)過數(shù)據(jù)劃分之后,惡意數(shù)據(jù)和安全數(shù)據(jù)被劃分為惡意數(shù)據(jù)和正常數(shù)據(jù)兩類,預(yù)處理后作為目標(biāo)數(shù)據(jù)對模型的檢測分類算法進(jìn)行訓(xùn)練,這是一個(gè)自動(dòng)、機(jī)器學(xué)習(xí)的過程,模型訓(xùn)練后可以對數(shù)據(jù)進(jìn)行有效地分類和性能檢驗(yàn)。

        2 實(shí)驗(yàn)結(jié)果與分析

        2.1 實(shí)驗(yàn)數(shù)據(jù)與環(huán)境

        本文選擇的實(shí)驗(yàn)數(shù)據(jù)共有61 937條安全數(shù)據(jù)和17 592條惡意數(shù)據(jù),分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集兩部分,分布情況如表1所示。

        2.2 結(jié)果評估方法

        本文采用查準(zhǔn)率、查全率對分類結(jié)果進(jìn)行評價(jià)。查準(zhǔn)率和查全率是評價(jià)分類結(jié)果的常用方法,查準(zhǔn)率衡量檢測準(zhǔn)確的概率,查全率是衡量檢測到的概率。

        惡意數(shù)據(jù)包檢測結(jié)果的查準(zhǔn)率和查全率分別如下所示:

        式中:真實(shí)結(jié)果為惡意用[Nm-m]表示,檢測結(jié)果為惡意的數(shù)據(jù)包的數(shù)目;真實(shí)結(jié)果為安全用[Ns-m]表示,檢測結(jié)果為惡意的移動(dòng)數(shù)據(jù)包數(shù)目;惡意移動(dòng)數(shù)據(jù)包的總數(shù)用[Nm]表示。

        式中:真實(shí)結(jié)果為安全用[Ns-s]表示,檢測結(jié)果為安全的數(shù)據(jù)包的數(shù)目;真實(shí)結(jié)果為惡意用[Nm-s]表示,檢測結(jié)果為安全的移動(dòng)數(shù)據(jù)包數(shù)目;安全移動(dòng)數(shù)據(jù)包的總數(shù)用[Ns]表示。

        2.3 分類結(jié)果評估指標(biāo)

        評估分類結(jié)果,首先要對模型的算法性能進(jìn)行評估。在本文提出的檢測模型中,數(shù)據(jù)的檢測分為訓(xùn)練部分和分類部分,因此對算法的評估也需要分兩個(gè)階段進(jìn)行。對于k?Nearest Neighbor算法,其在訓(xùn)練部分的時(shí)間是線性的,而在分類部分的時(shí)間是非線性的;對于決策樹算法,其在訓(xùn)練部分的時(shí)間是非線性的,而在分類部分的時(shí)間又是線性的;而貝葉斯算法,其在訓(xùn)練部分和分類部分的時(shí)間都是線性的,因此通常用于對算法性能進(jìn)行評估,而在本文中并不適用,對于可移動(dòng)端數(shù)據(jù)安全檢測的算法則不再使用一些常用指標(biāo)去評估衡量算法的性能,而是引用信息檢索中的相關(guān)指標(biāo)來評估算法的性能,這些指標(biāo)主要有兩個(gè),即查全率和查準(zhǔn)率。對可移動(dòng)端數(shù)據(jù)的所有類別進(jìn)行標(biāo)記,每一個(gè)類別使用一個(gè)二值標(biāo)記,這樣數(shù)據(jù)的分類結(jié)果就形成一個(gè)二值分類鄰接表,利用這個(gè)表進(jìn)行計(jì)算,便可以對分類的結(jié)果進(jìn)行評估。

        2.4 實(shí)驗(yàn)結(jié)果與分析

        在本文提出的檢測模型中,數(shù)據(jù)的檢測分為訓(xùn)練部分和分類部分。在實(shí)驗(yàn)過程中,也將實(shí)驗(yàn)分成兩組進(jìn)行,第一組實(shí)驗(yàn)研究各個(gè)分類算法模型的二分類檢測結(jié)果,第二組實(shí)驗(yàn)研究各個(gè)分類算法模型的多類分類檢測結(jié)果。為了保證最后實(shí)驗(yàn)結(jié)果的可比性,在每組實(shí)驗(yàn)中只改變算法,不改變輸入的檢測數(shù)據(jù),實(shí)驗(yàn)數(shù)據(jù)見表2。

        在二分類檢測中,將實(shí)驗(yàn)的數(shù)據(jù)類別只設(shè)定為安全數(shù)據(jù)和惡意數(shù)據(jù)兩種,并且把測試的數(shù)據(jù)分為五組輸入到檢測模型中對算法進(jìn)行驗(yàn)證,計(jì)算出平均查準(zhǔn)率和查全率。從實(shí)驗(yàn)結(jié)果數(shù)據(jù)可以看出,在進(jìn)行安全數(shù)據(jù)和惡意數(shù)據(jù)的二分類檢測時(shí),各個(gè)算法的性能都良好,其中性能穩(wěn)定和分類效果最好的是決策樹算法,其次是k?Nearest Neighbor算法,檢測分類效果不夠理想的是貝葉斯算法。

        根據(jù)多類分類的實(shí)驗(yàn)結(jié)果可以看出,k?Nearest Neighbor算法開始變得不夠穩(wěn)定,其檢測分類的效果直接受到樣本向量多少的影響,在樣本向量較少的情況下其分類效果變差;貝葉斯算法的檢測分類結(jié)果性能穩(wěn)定,但準(zhǔn)確性卻不高,分類精度不理想,這是由該算法本身固有的特點(diǎn)決定的;檢測分類結(jié)果最好的是決策樹算法,無論是查準(zhǔn)率還是查全率,其檢測分類的結(jié)果都很高。

        3 結(jié) 語

        決策樹算法是一種廣泛使用的數(shù)據(jù)挖掘分類算法,該算法通過訓(xùn)練數(shù)據(jù)自動(dòng)生成分類模型,并可利用生成的決策樹對未知分類數(shù)據(jù)進(jìn)行預(yù)測。本文通過查準(zhǔn)率、查全率對決策樹算法的移動(dòng)終端數(shù)據(jù)安全檢測結(jié)果進(jìn)行評價(jià),得出以下結(jié)論:

        在進(jìn)行安全數(shù)據(jù)和惡意數(shù)據(jù)的二分類檢測時(shí),各個(gè)算法的性能都良好,其中性能穩(wěn)定,分類效果最好的是決策樹算法,其次是k?Nearest Neighbor算法,檢測分類效果不夠理想的是貝葉斯算法。

        在進(jìn)行安全數(shù)據(jù)和惡意數(shù)據(jù)的多類分類檢測時(shí),k?Nearest Neighbor算法不夠穩(wěn)定,其檢測分類的效果直接受到樣本向量多少的影響,在樣本向量較少的情況下其分類效果變差;貝葉斯算法的檢測分類結(jié)果性能穩(wěn)定,但準(zhǔn)確性卻不高,分類精度不理想;決策樹算法檢測分類結(jié)果最好,查準(zhǔn)率和查全率都很高。

        決策樹算法雖比其他兩種算法的效果要好,但其對個(gè)別威脅類型如DOS,U2R等的查準(zhǔn)率還未超過90%,因此在今后研究中,還需要進(jìn)一步提高決策樹算法對各威脅類型檢測的查準(zhǔn)率及查全率。

        參考文獻(xiàn)

        [1] 張瑞華,周延泉,王樅,等.移動(dòng)終端離線瀏覽系統(tǒng)的新聞推薦服務(wù)研究[J].北京郵電大學(xué)學(xué)報(bào),2011(4):132?135.

        [2] 張愛麗,劉廣利,劉長宇.基于SVM的多類文本分類研究[J].情報(bào)方法,2004(9):125?127.

        [3] COVER T M, HART P E. Nearest neighbor pattern classification [J]. IEEE transactions on information theory, 1968, 13(1): 21?27.

        [4] LEE W, STOLFO S. A framework for constructing features and models for intrusion detection systems [J]. ACM transactions on information and system security, 2000, 3(4): 227?261.

        [5] 房秉毅,張?jiān)朴?,徐?移動(dòng)互聯(lián)網(wǎng)環(huán)境下云計(jì)算安全淺析[J].移動(dòng)通信,2011(9):25?28.

        [6] 傅建慶,陳健,范容,等.基于代理簽名的移動(dòng)通信網(wǎng)絡(luò)匿名漫游認(rèn)證協(xié)議[J].電子與信息學(xué)報(bào),2011,33(1):156?162.

        [7] 李濤,胡愛群.可信模塊與強(qiáng)制訪問控制結(jié)合的安全防護(hù)方案[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,41(3):513?517.

        [8] 陳祎荻,秦玉平.基于機(jī)器學(xué)習(xí)的文本分類方法綜述[J].渤海大學(xué)學(xué)報(bào)(自然科學(xué)版),2010(2):201?205.

        [9] 楊靜,張楠男,李建,等.決策樹算法的研究與應(yīng)用[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(2):114?116.

        [10] 柴春梅,李翔,林祥.基于改進(jìn)KNN算法實(shí)現(xiàn)網(wǎng)絡(luò)媒體信息智能分類[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009(1):1?4.

        猜你喜歡
        移動(dòng)終端檢測技術(shù)數(shù)據(jù)安全
        云計(jì)算中基于用戶隱私的數(shù)據(jù)安全保護(hù)方法
        電子制作(2019年14期)2019-08-20 05:43:42
        建立激勵(lì)相容機(jī)制保護(hù)數(shù)據(jù)安全
        大數(shù)據(jù)云計(jì)算環(huán)境下的數(shù)據(jù)安全
        電子制作(2017年20期)2017-04-26 06:57:48
        基于移動(dòng)終端的高校移動(dòng)學(xué)習(xí)體系構(gòu)建研究
        移動(dòng)終端云計(jì)算應(yīng)用分析
        公路工程試驗(yàn)檢測存在的問題及措施
        煤礦機(jī)電產(chǎn)品檢測技術(shù)
        手機(jī)APP在學(xué)生信息化管理中的應(yīng)用探索
        人間(2016年27期)2016-11-11 17:32:55
        基于移動(dòng)終端的APP營銷策略研究
        鍋爐檢測應(yīng)用壓力管道無損檢測技術(shù)的分析
        亚洲av产在线精品亚洲第三站 | 欧美金发尤物大战黑人| 日日猛噜噜狠狠扒开双腿小说| 风流少妇又紧又爽又丰满| 欧美日韩一二三区高在线| 国产亚洲精品高清视频| 日本一区二区不卡二区| 色视频网站一区二区三区| 国产成人精品亚洲日本在线观看 | 久久夜色精品国产欧美乱| 国产亚洲精品久久久久久久久动漫| 国产内射XXXXX在线| 国产一级做a爱视频在线| 亚洲av毛片在线播放| 一区二区三区视频在线观看免费| 国产农村妇女精品一二区| 午夜一级韩国欧美日本国产| 精品国产一区二区三区久久狼| 久久久精品少妇—二区| 日韩中文字幕一区二区二区| 国产精品成熟老女人| 99国产精品无码| 国产成+人+综合+亚洲 欧美| 亚洲国产欧美久久香综合| 国产在线看不卡一区二区| 亚洲中文字幕人成乱码在线 | av网站国产主播在线| 女人被狂躁的高潮免费视频| 私人毛片免费高清影视院| 色av综合av综合无码网站| 97精品国产高清自在线看超 | 在线国人免费视频播放| 国产精品久久久久久久久绿色| 日韩好片一区二区在线看| 91精品啪在线观看国产18| 亚洲中文字幕免费精品| 亚洲色精品三区二区一区| 东北寡妇特级毛片免费| 国产自在自线午夜精品视频在| 国产av三级精品车模| 亚洲无码在线播放|