周佩1 朱嫻睿1 何漢1 張毅2
1黑龍江省財(cái)政信息中心 2哈爾濱市信息化建設(shè)項(xiàng)目管理中心
基于數(shù)據(jù)挖掘的移動互聯(lián)網(wǎng)數(shù)據(jù)包安全檢測
周佩1 朱嫻睿1 何漢1 張毅2
1黑龍江省財(cái)政信息中心 2哈爾濱市信息化建設(shè)項(xiàng)目管理中心
本文主要對移動互聯(lián)網(wǎng)數(shù)據(jù)包安全檢測的主要方法進(jìn)行研究,與傳統(tǒng)檢測方法相比,其靈活性較好。其首先是將移動數(shù)據(jù)包中所包含內(nèi)容的主要特征進(jìn)行提取,之后通過數(shù)據(jù)挖掘算法對安全和惡意移動的數(shù)據(jù)包存在的特征進(jìn)行學(xué)習(xí),并對分類模型進(jìn)行建立。通過實(shí)驗(yàn)可知,基于數(shù)據(jù)挖掘進(jìn)行構(gòu)建的分類模型可以對移動互聯(lián)網(wǎng)數(shù)據(jù)包進(jìn)行有效的分類。
數(shù)據(jù)挖掘 移動互聯(lián)網(wǎng) 數(shù)據(jù)包 安全檢測
此系統(tǒng)主要應(yīng)用于互聯(lián)網(wǎng)的安全防護(hù),入侵檢測是指在進(jìn)行收集信息的過程中,發(fā)現(xiàn)在系統(tǒng)中存在危害或是違背安全方面的行為進(jìn)行檢測的方法。其主要分為誤用入侵檢測和異常入侵檢測兩類,此項(xiàng)技術(shù)已在移動互聯(lián)網(wǎng)的安全防護(hù)中得到廣泛應(yīng)用,其能夠檢測出惡意數(shù)據(jù)是否在移動終端中出現(xiàn)。
數(shù)據(jù)挖掘主要是指利用科學(xué)的方法對大量的數(shù)據(jù)以及潛在的數(shù)據(jù)進(jìn)行開發(fā)的全過程。其主要包含提取特征、對數(shù)據(jù)的預(yù)處理、模型的訓(xùn)練以及發(fā)現(xiàn)知識四個過程。為了使檢測的準(zhǔn)確性得以增加,可通過對惡意數(shù)據(jù)進(jìn)行建立來檢測其準(zhǔn)確性。本文主要對部分安全以及惡意移動數(shù)據(jù)包進(jìn)行搜集,然后對缺失值、去重以及歸一化等相關(guān)數(shù)據(jù)進(jìn)行處理,已達(dá)到挖掘建模的目的。
基于數(shù)據(jù)挖掘所進(jìn)行建立的安全檢測主要包含數(shù)據(jù)檢測和模型訓(xùn)練,數(shù)據(jù)檢測主要包括數(shù)據(jù)預(yù)處理、特征移動互聯(lián)網(wǎng)數(shù)據(jù)包以及構(gòu)建完畢的模型,這些形成了新數(shù)據(jù)包,并對這些數(shù)據(jù)包進(jìn)行安全檢測;模型訓(xùn)練主要包含預(yù)處理文件、移動互聯(lián)網(wǎng)數(shù)據(jù)包以及數(shù)據(jù)挖掘算法。
針對移動互聯(lián)網(wǎng)中的入侵檢測系統(tǒng)主要分為兩種,其一是移動終端中的內(nèi)部數(shù)據(jù),主要包括軟件狀態(tài)數(shù)據(jù)以及系統(tǒng)狀態(tài)數(shù)據(jù);其二是非移動終端的數(shù)據(jù),主要包括藍(lán)牙數(shù)據(jù)、聯(lián)網(wǎng)數(shù)據(jù)等。本次研究主要是根據(jù)移動數(shù)據(jù)包中所包含的內(nèi)容來進(jìn)行分析的,對各類移動終端所包含的一些數(shù)據(jù)沒有必要進(jìn)行搜集,所以,其屬于非移動終端的入侵檢測數(shù)據(jù)。
為了將特征提取對安全及惡意數(shù)據(jù)的區(qū)分性是否較好進(jìn)行確認(rèn),本次研究對數(shù)據(jù)分類所采取的主要方法為分類算法。首先需要將數(shù)據(jù)包進(jìn)行劃分,主要劃分為安全數(shù)據(jù)包和惡意數(shù)據(jù)包兩類,之后通過其已設(shè)定的內(nèi)在特征,將這些數(shù)據(jù)特征向量化,在所有分類算法中,最為常用的算法是決策樹算法以及樸素貝葉斯算法。
2.3.1 決策樹算法
決策樹算法是以信息熵為基礎(chǔ)的一種分類模型,樹可以對分類規(guī)則進(jìn)行表示,其具有直觀的特點(diǎn),因此,其可讀性良好。決策樹算法對樹進(jìn)行構(gòu)造是以遞歸的方法來完成的,從而利用這種算法來解決一些分類問題,同時,這種算法還是一種貪婪的算法,其是通過向下增長的指定方式進(jìn)行的,針對于樹的節(jié)點(diǎn)選擇,應(yīng)選擇沒有重復(fù)的屬性分類的節(jié)點(diǎn),直至此決策樹可以針對訓(xùn)練樣本做好相應(yīng)的分類為止,又或是將所有的屬性已經(jīng)使用完畢為止。
2.3.2 樸素貝葉斯算法
樸素貝葉斯是這樣一種分類模型,其是以統(tǒng)計(jì)和概率為基礎(chǔ)進(jìn)行的,這種算法的主要的意旨在于對尚待分類的所有樣本分屬各種類別時所形成的概率進(jìn)行計(jì)算,計(jì)算結(jié)果出現(xiàn)后,將此模型分配至較大概率的類別之中來達(dá)到分類的完成。
本次實(shí)驗(yàn)研究從數(shù)據(jù)信息庫中選取安全數(shù)據(jù)20000條,惡意數(shù)據(jù),4700條,其分組及組間數(shù)據(jù)如表一所示。并采取召回率、精度、錯誤率以及正確率對分類的結(jié)果進(jìn)行分析和評價,并通過五折交叉法分別對決策樹模型以及樸素貝葉斯模型進(jìn)行測試,測試結(jié)果顯示如表
?
?
從以上數(shù)據(jù)可以看出,兩種模型的性能在總體上都較好,并且兩種模型的精度以及準(zhǔn)確率都能夠高于94%,但是在移動互聯(lián)網(wǎng)數(shù)據(jù)包的召回率方面來看,決策樹的召回率偏高,因此,樸素貝葉斯模型的性能在檢測的過程中發(fā)揮的較為穩(wěn)定。
本次研究主要以數(shù)據(jù)挖掘?yàn)榛A(chǔ)。采用決策樹算法以及樸素貝葉斯算法來對安全及惡意移動互聯(lián)網(wǎng)數(shù)據(jù)包的行為模式進(jìn)行學(xué)習(xí),并通過入侵檢測的方法對兩種算法的召回率、精度、錯誤率以及正確率進(jìn)行分析,結(jié)果表明樸素貝葉斯算法的穩(wěn)定性能更加明顯,因此對移動互聯(lián)網(wǎng)數(shù)據(jù)包的安全檢測應(yīng)以此計(jì)算方法為主。
[1]袁騰飛.基于數(shù)據(jù)挖掘的入侵檢測系統(tǒng)研究[J].電子科技大學(xué),2014,11(2):221-221.
[2]陳茹茹.基于數(shù)據(jù)挖掘的移動互聯(lián)網(wǎng)業(yè)務(wù)推薦模型研究[J].北京郵電大學(xué),2014,17(2):45-49.
周佩(1982.11—),男,漢族,山東省福山縣人,碩士研究生學(xué)歷,高級工程師,研究方向:計(jì)算機(jī)信息系統(tǒng)分析與應(yīng)用。朱嫻睿(1978.04—),女,漢族,黑龍江省綏化市人,碩士研究生學(xué)歷,高級工程師,研究方向:電子工程。何漢(1979.10—)男,漢族,黑龍江省哈爾濱市人,碩士研究生學(xué)歷,高級工程師,研究方向:計(jì)算機(jī)應(yīng)用。張毅(1982.12—)男,漢族,河北省高陽縣人,大學(xué)本科學(xué)歷,工程師,研究方向:計(jì)算機(jī)軟硬件、網(wǎng)絡(luò)工程。