亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多協(xié)議下智能家居協(xié)議的分類(lèi)方法

        2018-07-03 04:38:10彭大芹李司坤楊彩敏
        關(guān)鍵詞:分類(lèi)

        彭大芹,項(xiàng) 磊,李司坤,楊彩敏 ,邱 雨

        (1.“新一代信息網(wǎng)絡(luò)與終端”重慶市協(xié)同創(chuàng)新中心,重慶 400065; 2.重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)工程研究院,重慶 400065;3.中移物聯(lián)網(wǎng)有限公司,重慶 400065)

        0 引 言

        互聯(lián)網(wǎng)技術(shù)的急速發(fā)展和城市智慧化進(jìn)度的不斷加快,智能家居[1]作為新型的高科技技術(shù)的衍生產(chǎn)品,在智慧城市的建設(shè)中發(fā)揮著中流砥柱的作用。近年來(lái),智能家居作為家庭信息化的實(shí)現(xiàn)方式,已逐漸成為社會(huì)信息化發(fā)展的重要組成部分,尤其是隨著“互聯(lián)網(wǎng)+”概念的提出,海爾、TCL、美的、格力等互聯(lián)網(wǎng)與家電企業(yè)大佬都想要在智能家居爭(zhēng)奪戰(zhàn)中占據(jù)話(huà)語(yǔ)權(quán),從而主導(dǎo)國(guó)內(nèi)智能家居市場(chǎng),因而,紛紛建立了智能家居生態(tài)圈。目前國(guó)內(nèi)已經(jīng)形成海爾+阿里+魅族、美的+小米與京東等生態(tài)圈模式,這雖然反映了智能家居火熱的發(fā)展勢(shì)頭,但由于智能家居的技術(shù)涉及面很廣,這樣就導(dǎo)致了不同的智能家居品牌開(kāi)發(fā)商有不一樣的智能家居接入技術(shù)標(biāo)準(zhǔn)和通信協(xié)議。比如,就智能家居系統(tǒng)內(nèi)的無(wú)線(xiàn)通信技術(shù)來(lái)說(shuō),就有多種標(biāo)準(zhǔn)和協(xié)議,如Zigbee,wifi,藍(lán)牙,紅外IR和射頻RF等。這種情況下,由于不知道智能家居協(xié)議的相關(guān)信息和開(kāi)發(fā)文檔,相當(dāng)于零知識(shí)情況下未知協(xié)議的識(shí)別與分類(lèi),不僅造成了協(xié)議分析的難題,也給網(wǎng)絡(luò)安全信息管理帶來(lái)了危害。

        傳統(tǒng)的協(xié)議識(shí)別方法難以應(yīng)對(duì)現(xiàn)有的爆炸式新穎流量,因此,一些研究者紛紛結(jié)合機(jī)器學(xué)習(xí)[2]算法提出了新的協(xié)議識(shí)別方法[3]。文獻(xiàn)[4-6]在比特流未知的情況下,通過(guò)改進(jìn)的AC(aho-corasick)算法和數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則算法,提出了未知協(xié)議的識(shí)別方法;文獻(xiàn)[7]提出了未知協(xié)議的幀長(zhǎng)識(shí)別方法;文獻(xiàn)[8]提出了基于數(shù)據(jù)流與機(jī)器學(xué)習(xí)中聚類(lèi)算法來(lái)分析未知的協(xié)議;文獻(xiàn)[9]根據(jù)二進(jìn)制比特流的特征,提出了一種基字節(jié)熵矢量加權(quán)指紋的協(xié)議識(shí)別方法。通過(guò)實(shí)驗(yàn)表明,該方法對(duì)二進(jìn)制比特流協(xié)議的識(shí)別高達(dá)94%以上的召回率,并可以識(shí)別訓(xùn)練數(shù)據(jù)集中未出現(xiàn)的協(xié)議。

        本文從同一協(xié)議的數(shù)據(jù)對(duì)象之間具有相似度,不同協(xié)議的數(shù)據(jù)對(duì)象之間具有差異度出發(fā),利用機(jī)器學(xué)習(xí)算法中的無(wú)監(jiān)督學(xué)習(xí)的高效、快速的K-Means聚類(lèi)算法,將多協(xié)議聚類(lèi)成不同的單協(xié)議類(lèi)型的簇集,并使用數(shù)理統(tǒng)計(jì)和向量空間模型的概念對(duì)算法的初始K值、初始聚類(lèi)中心及數(shù)據(jù)對(duì)象間距離進(jìn)行了改進(jìn),最后提出對(duì)未知協(xié)議的聚類(lèi)評(píng)價(jià)指標(biāo)。經(jīng)實(shí)驗(yàn)驗(yàn)證,該方法可行性和實(shí)用性極高。

        1 相關(guān)理論

        1.1 K-Means算法

        在未知的情況下,根據(jù)某些特征將數(shù)據(jù)對(duì)象基于某種相似度評(píng)判規(guī)則聚類(lèi)劃分成若干個(gè)類(lèi)簇的集合的過(guò)程,稱(chēng)之為聚類(lèi)。常用的聚類(lèi)算法,如K-Means,BIRCH,DBSCAN及STING等,這些聚類(lèi)算法各有各的優(yōu)缺點(diǎn)和應(yīng)用場(chǎng)景的局限性。而本文選擇了快速、高效的K-Means聚類(lèi)算法。

        K-Means算法[10]也稱(chēng)為K-均值算法,它是一種基于距離的聚類(lèi)算法?;舅枷胧窍戎付ㄒ粋€(gè)數(shù)據(jù)集將要?jiǎng)澐值念?lèi)簇個(gè)數(shù)K值及初始中心,然后通過(guò)對(duì)序列間進(jìn)行歐式距離計(jì)算,將序列劃分到距其最近的類(lèi)簇中心,更新類(lèi)簇中心,依次迭代計(jì)算,直到目標(biāo)準(zhǔn)則函數(shù)收斂,輸出K個(gè)類(lèi)簇。其K-Means算法的流程如圖1所示。

        圖1 K-Means算法的流程圖Fig.1 Flow chart of K-means

        K-Means聚類(lèi)算法的步驟描述如下。

        輸入:待聚類(lèi)的數(shù)據(jù)集合R={x1,x2,…,xn},要聚類(lèi)劃分的簇的個(gè)數(shù)K,聚類(lèi)的初始中心數(shù)據(jù)集合C={c1,c2,…,ck}。

        輸出:聚類(lèi)結(jié)果:K個(gè)類(lèi)簇。

        ①先從數(shù)據(jù)集R中選取K個(gè)數(shù)據(jù)對(duì)象為初始中心點(diǎn),即C={c1,c2,…,ck};

        ②按照歐式距離公式計(jì)算剩余數(shù)據(jù)到聚類(lèi)中心點(diǎn)C的距離,其公式定義為

        d(xi,xj)=

        (1)

        (1)式中:xi=(xi1,xi2,…,xip);xj=(xj1,xj2,…,xjp),分別表示2個(gè)p維度的屬性的數(shù)據(jù)對(duì)象。

        (2)

        (2)式中:d(xi,xj)是數(shù)據(jù)樣本點(diǎn)xi和xj的歐式距離。

        由(2)式計(jì)算距離后,將數(shù)據(jù)對(duì)象劃分到距離其最近的簇中心所屬的類(lèi)簇中,更新類(lèi)簇中心;

        ③重復(fù)迭代上述2個(gè)步驟,直到準(zhǔn)則目標(biāo)函數(shù)收斂,聚類(lèi)結(jié)束,輸出結(jié)果。其準(zhǔn)則目標(biāo)函數(shù)E公式為

        (3)

        (3)式中:Ni為第i個(gè)類(lèi)簇集合;ci為第i個(gè)類(lèi)中心。

        對(duì)于K-Means算法,因?yàn)槠渌惴ê?jiǎn)單、易于實(shí)現(xiàn),在對(duì)大規(guī)模的數(shù)據(jù)集聚類(lèi)劃分的時(shí)候,有很好的聚類(lèi)效果而被廣泛應(yīng)用,但是它對(duì)于初始的聚類(lèi)中心的選擇甚是敏感,再加上初始中心的隨機(jī)選擇往往會(huì)造成聚類(lèi)的評(píng)價(jià)函數(shù)收斂于局部最優(yōu),K值的指定有很大一部分的主觀因素,對(duì)于無(wú)任何經(jīng)驗(yàn)或者先驗(yàn)知識(shí)而言,是極其困難的。針對(duì)K-Means算法的2個(gè)參數(shù)的劣勢(shì)問(wèn)題,各研究學(xué)者紛紛提出了不同的高效的對(duì)策。文獻(xiàn)[11]提出了一種新的初始中心選擇方法,實(shí)驗(yàn)證明,該新提出的方法使目標(biāo)函數(shù)收斂更快,聚類(lèi)效果更好更穩(wěn)定;文獻(xiàn)[12]研究分析了算法中的不同的目標(biāo)收斂函數(shù)的選擇對(duì)K均值聚類(lèi)的影響;文獻(xiàn)[13-14]提出對(duì)聚類(lèi)算法K-Means的改進(jìn),提高K-Means聚類(lèi)算法的效率。

        1.2 聚類(lèi)評(píng)價(jià)

        由于本文處理的數(shù)據(jù)對(duì)象是未知協(xié)議,事先無(wú)法知曉混合協(xié)議中各個(gè)協(xié)議的值分布,所以,對(duì)分類(lèi)出來(lái)的單個(gè)協(xié)議也就無(wú)法使用協(xié)議識(shí)別評(píng)價(jià)指標(biāo)F-Measure進(jìn)行準(zhǔn)確度評(píng)價(jià)。本文由于事先不知道多協(xié)議中智能家居協(xié)議的多少,無(wú)法對(duì)正確分類(lèi)出來(lái)的智能家居協(xié)議進(jìn)行準(zhǔn)確度計(jì)算來(lái)評(píng)價(jià)本文分類(lèi)方法的好壞,因此,提出采用信息熵作為未知協(xié)議分類(lèi)方法的準(zhǔn)確度評(píng)價(jià)。

        信息熵[15]又稱(chēng)為香農(nóng)熵。它采用數(shù)值的形式來(lái)表述系統(tǒng)中信息的分布狀態(tài),測(cè)量系統(tǒng)的純凈程度。熵值越小,則說(shuō)明該系統(tǒng)中的信息越純凈或者是越單一。假設(shè)隨機(jī)變量X,其取值為{x1,x2,…,xk},xi(1≤i≤k)在X中出現(xiàn)的概率為p(xi),則信息熵H(x)定義為

        (4)

        本文通過(guò)對(duì)分類(lèi)出來(lái)的智能家居協(xié)議類(lèi)簇系統(tǒng)的信息熵值計(jì)算,來(lái)表述該類(lèi)簇系統(tǒng)中信息的純凈或混亂狀態(tài),以此評(píng)價(jià)本文協(xié)議分類(lèi)方法的準(zhǔn)確度高或低。以分類(lèi)出來(lái)的智能家居協(xié)議類(lèi)簇中的所有協(xié)議數(shù)據(jù)幀數(shù)為行,幀長(zhǎng)度為列,構(gòu)建二維矩陣,計(jì)算二維矩陣中每列的信息熵?cái)?shù)值,如果計(jì)算所得的熵值都接近為0或者普遍較小,則說(shuō)明本文分類(lèi)出來(lái)的智能家居協(xié)議類(lèi)簇系統(tǒng)的信息很純凈,也即是該分類(lèi)出來(lái)的類(lèi)簇中只包含智能家居協(xié)議一種數(shù)據(jù)類(lèi)型,進(jìn)而說(shuō)明本文改進(jìn)的K-Means聚類(lèi)效果好,協(xié)議分類(lèi)方法準(zhǔn)確度高。

        2 多協(xié)議下智能家居協(xié)議的分類(lèi)方法

        本文方法的大致系統(tǒng)框圖如圖2所示。將捕獲的多協(xié)議數(shù)據(jù)幀,使用數(shù)理統(tǒng)計(jì)進(jìn)行數(shù)據(jù)預(yù)處理,計(jì)算出近似的K、和初始中心,然后基于向量空間模型的概念(vector space model,VSM),使用數(shù)據(jù)對(duì)象之間的相似度計(jì)算代替K-Means聚類(lèi)算法中原有歐式距離計(jì)算,最后用信息熵對(duì)聚類(lèi)結(jié)果進(jìn)行評(píng)價(jià)。其創(chuàng)新點(diǎn)如下:①用數(shù)理統(tǒng)計(jì)方法改進(jìn)了算法K-Means聚類(lèi)中K值和初始聚類(lèi)中心的選擇的隨機(jī)性;②提出了基于向量空間模型的概念,以數(shù)據(jù)對(duì)象相似度代替數(shù)據(jù)對(duì)象間的聚類(lèi);③提出了未知協(xié)議的識(shí)別與分類(lèi)評(píng)價(jià)的方法,基于信息熵的評(píng)估方法。

        2.1 數(shù)據(jù)預(yù)處理

        因?yàn)楸疚牡妮斎霐?shù)據(jù)是按幀已劃分好的數(shù)據(jù)幀作為數(shù)據(jù)對(duì)象,以字節(jié)為數(shù)據(jù)處理單元。所以數(shù)據(jù)預(yù)處理基本思想是假設(shè)有n條數(shù)據(jù)幀,截取每幀數(shù)據(jù)的前m個(gè)字節(jié),以字節(jié)為元素,構(gòu)建一個(gè)n行m列的矩陣a[n][m]。

        2.2 VSM_K-Means算法

        此部分的目標(biāo)是通過(guò)對(duì)輸入的多協(xié)議數(shù)據(jù)幀分類(lèi)出智能家居協(xié)議的單類(lèi)型數(shù)據(jù)幀。其關(guān)鍵技術(shù)有:①K-Means聚類(lèi)初始輸入個(gè)數(shù)K值及初始聚類(lèi)中心的選擇;②類(lèi)簇聚類(lèi)劃分的距離計(jì)算。本文針對(duì)這2個(gè)關(guān)鍵技術(shù),分別給出了以下對(duì)應(yīng)的改進(jìn)思想。

        1)利用數(shù)理統(tǒng)計(jì)知識(shí),通過(guò)對(duì)數(shù)據(jù)預(yù)處理得到的數(shù)據(jù)集二維矩陣a[n][m]中每列字節(jié)頻率進(jìn)行統(tǒng)計(jì),設(shè)置閾值,篩選出每列的高頻字節(jié),包含該高頻字節(jié)的行的個(gè)數(shù)即為算法初始聚類(lèi)個(gè)數(shù)K值,包含該高頻字節(jié)的行即為該算法初始聚類(lèi)中心。

        2)利用VSM相似度計(jì)算代替K-Means聚類(lèi)算法中類(lèi)簇聚類(lèi)劃分的歐式距離計(jì)算,原有的以歐式距離計(jì)算的聚類(lèi)類(lèi)簇劃分,雖然方法簡(jiǎn)單、直觀,但在處理未知協(xié)議幀之間的相似問(wèn)題上并不適用,本文選用VSM的概念對(duì)協(xié)議幀向量化計(jì)算以相似度代替歐式計(jì)算。

        圖2 零知識(shí)多協(xié)議下智能家居協(xié)議分類(lèi)系統(tǒng)框圖Fig 2 Smart home protocol classification system block diagram of Zero-knowledge multi-protocol

        VSM是通過(guò)將文本劃分成多個(gè)相互獨(dú)立的N個(gè)詞的集合,然后再由每個(gè)詞對(duì)文本所做的貢獻(xiàn)程度賦上不同的權(quán)重值,這樣一個(gè)文本就可以由{詞、權(quán)重}2個(gè)N維的向量表示,從而使得文本之間的相似度具有了簡(jiǎn)化的計(jì)算,被廣泛應(yīng)用到信息檢索領(lǐng)域。

        本文由于是對(duì)未知的協(xié)議數(shù)據(jù)幀聚類(lèi),簡(jiǎn)單的歐式距離作為算法聚類(lèi)的評(píng)判尺度,并不能實(shí)質(zhì)性地反映出各個(gè)數(shù)據(jù)對(duì)象之間的關(guān)系,會(huì)造成將相同或者相似對(duì)象聚為一類(lèi)的時(shí)間較長(zhǎng)的結(jié)果。而以相似度計(jì)算,選取未知協(xié)議數(shù)據(jù)每幀中的高頻字節(jié)及高頻字節(jié)偏移位置作為協(xié)議數(shù)據(jù)幀向量空間化的2個(gè)特征屬性,以未知協(xié)議幀自身每個(gè)字節(jié)的特性來(lái)反映各個(gè)數(shù)據(jù)對(duì)象之間的相似性,這不僅從本質(zhì)上反映了數(shù)據(jù)對(duì)象之間的相似性,還可以加快相同或者相似數(shù)據(jù)對(duì)象聚為一類(lèi)的速度,減少算法運(yùn)行時(shí)間。

        其具體步驟如下。

        ①將數(shù)據(jù)預(yù)處理的結(jié)果n行m列的矩陣記作矩陣a[n][m];

        ②按列統(tǒng)計(jì)每一個(gè)字符出現(xiàn)的次數(shù)N,然后按照公式(5)計(jì)算字節(jié)在每列中的頻率,將每一列中頻率最大的那個(gè)字節(jié)加入字節(jié)候選集合Sbyte_list,并將每列中包含此候選字節(jié)的行號(hào)加入行候選集合Rhang_list,直到循環(huán)遍歷完矩陣a[n][m];

        (5)

        ③設(shè)置頻率閾值為[0.2,1],將字節(jié)候選集合Sbyte_list滿(mǎn)足該閾值范圍的字節(jié)篩選出來(lái),即為高頻字節(jié)集Slist;

        ④依據(jù)篩選出來(lái)的高頻字節(jié),將候選字節(jié)對(duì)應(yīng)的行候選集合Rhang_list更新為高頻字節(jié)對(duì)應(yīng)的行集合Rh_list;

        ⑤計(jì)算高頻字節(jié)對(duì)應(yīng)的行集合Rh_list中數(shù)據(jù)對(duì)象之間的相似度值,設(shè)置數(shù)據(jù)幀之間的相似度閾值,如果數(shù)據(jù)幀之間的相似度值大于設(shè)置的相似度閾值,則將其合并,否則,不合并,直到數(shù)據(jù)集中無(wú)可合并的數(shù)據(jù)幀。本文通過(guò)對(duì)高頻字節(jié)對(duì)應(yīng)的行集合Rh_list中任意2個(gè)高頻字節(jié)對(duì)應(yīng)的行集合進(jìn)行相似度計(jì)算,設(shè)置相似度閾值,如果這2個(gè)高頻字節(jié)所對(duì)應(yīng)的行集合相似度大于設(shè)置的閾值,則將該2個(gè)行集合合并組成一個(gè)新的行集合,直到集合Rh_list中無(wú)可合并的數(shù)據(jù)對(duì)象,然后更新高頻字節(jié)對(duì)應(yīng)的行集合Rh_list為初始聚類(lèi)中心集合Rlist,即是算法的輸入初始聚類(lèi)中心,其個(gè)數(shù)即為初始聚類(lèi)個(gè)數(shù)K值;

        相似度距離計(jì)算方法為假設(shè)集合Rh_list中的2個(gè)數(shù)據(jù)對(duì)象為集合Si(設(shè)集合Si為篩選出來(lái)的高頻字節(jié)X所在的行號(hào)集合)、集合Sj(設(shè)集合Sj為篩選出來(lái)的高頻字節(jié)Y所在的行號(hào)集合),其相似度距離為

        (6)

        相似度的閾值limsimilar設(shè)定方法:因?yàn)榻?jīng)過(guò)閾值篩選合并后的集合Rh_list中的數(shù)據(jù)對(duì)象就是K-Means聚類(lèi)算法的初始聚類(lèi)中心,其個(gè)數(shù)就是K值,所以此若limsimilar的值設(shè)置越大,小于此閾值的集合不合并,最后得到的K值越大;若limsimilar的值設(shè)置越小,大于此閾值的集合合并,最后得到的K值越小。本文根據(jù)數(shù)學(xué)中的中值定理,將limsimilar的值從0.1~1,繪制limsimilar-k函數(shù)曲線(xiàn),計(jì)算曲線(xiàn)的平均K值作為聚類(lèi)算法的初始輸入K值。

        (7)

        (7)式中:X1=(x11,x22,…,x1n),X2=(x21,x22,…,x2n)為n維向量。當(dāng)余弦相似度取值為1時(shí),說(shuō)明數(shù)據(jù)對(duì)象X1,X2完全一樣,其每一維度的分量都是完全一樣的,當(dāng)余弦度取值為0時(shí),剛好相反。

        ⑦輸入K值、初始聚類(lèi)中心、向量化后的n條數(shù)據(jù)幀;

        ⑧按照公式(7)計(jì)算數(shù)據(jù)幀x到每個(gè)聚類(lèi)中心的相似度值,并將其劃分到相似度值最高的類(lèi)簇中;

        ⑨按照公式(3)計(jì)算目標(biāo)準(zhǔn)則收斂函數(shù)E;

        ⑩更新聚類(lèi)中心,重新計(jì)算收斂函數(shù)E。若函數(shù)E不收斂,則轉(zhuǎn)到步驟⑦繼續(xù)運(yùn)算,若其收斂,則結(jié)束,輸出K個(gè)類(lèi)簇。

        2.3 聚類(lèi)評(píng)估方法

        由于未知協(xié)議的識(shí)別與分類(lèi)無(wú)法使用F-Measure進(jìn)行識(shí)別的準(zhǔn)確度評(píng)價(jià)。本文選用對(duì)聚類(lèi)輸出的每一個(gè)類(lèi)簇,將每個(gè)類(lèi)簇中的幀數(shù)據(jù)按照預(yù)處理方法構(gòu)建成二維矩陣。按公式(5)統(tǒng)計(jì)每一列中每個(gè)字節(jié)出現(xiàn)的概率,再按照公式(4)計(jì)算每一列的熵值,直至循環(huán)遍歷完矩陣中所有元素。計(jì)算所得的熵值代表了聚類(lèi)簇中數(shù)據(jù)集的純凈程度,如果分類(lèi)出來(lái)的類(lèi)簇只包含一種協(xié)議,則該類(lèi)簇計(jì)算所得熵值較小及中存在信息熵值為0;如果分類(lèi)出來(lái)的類(lèi)簇中不是單一協(xié)議而是夾雜了其他協(xié)議,則該類(lèi)簇計(jì)算所得熵值較大且?guī)缀醪淮嬖谛畔㈧刂禐?的情況。所以,可選定信息熵來(lái)評(píng)價(jià)未知協(xié)議分類(lèi)識(shí)別的準(zhǔn)確度。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 數(shù)據(jù)準(zhǔn)備

        本文在真實(shí)的實(shí)驗(yàn)室環(huán)境下,采用抓包工具wireshark對(duì)連接有智能家居設(shè)備(該智能家居設(shè)備采用的協(xié)議類(lèi)型為MQTT協(xié)議)以及其他終端設(shè)備的目標(biāo)路由器進(jìn)行協(xié)議流量數(shù)據(jù)采集,分別選取2組數(shù)據(jù)作為本文的實(shí)驗(yàn)測(cè)試數(shù)據(jù),其所選的實(shí)驗(yàn)測(cè)試數(shù)據(jù)如表1所示。

        表1 測(cè)試數(shù)據(jù)表Tab.1 Test data table

        3.2 結(jié)果分析

        1)2組數(shù)據(jù)作為輸入,先根據(jù)limsimilar-k函數(shù)曲線(xiàn)計(jì)算出算法初始輸入聚類(lèi)個(gè)數(shù)K值和及初始聚類(lèi)中心。不同的limsimilar-k取值,對(duì)應(yīng)不同的K值,其第1組數(shù)據(jù)的limsimilar-k取值統(tǒng)計(jì)如表2所示,第1組數(shù)據(jù)的limsimilar-k函數(shù)曲線(xiàn)關(guān)系如圖3所示。

        其第2組數(shù)據(jù)的limsimilar-k取值統(tǒng)計(jì)如表3所示,第2組數(shù)據(jù)的limsimilar-k函數(shù)曲線(xiàn)關(guān)系如圖4所示。

        表2 第一組數(shù)據(jù)limsimilar-k取值統(tǒng)計(jì)Tab.2 limsimilar-k value statistics of the first data

        圖3 第1組數(shù)據(jù)的limsimilar-k曲線(xiàn)圖Fig.3 limsimilar-k graph of the first data

        表3 第二組數(shù)據(jù)limsimilar-k取值統(tǒng)計(jì)Tab.3 limsimilar-k value statistics of the second data

        圖4 第2組數(shù)據(jù)的limsimilar-k曲線(xiàn)圖Fig.4 limsimilar-k graph of the second data

        根據(jù)中值定理,將曲線(xiàn)的首尾相連,然后作其平行線(xiàn),以最后離開(kāi)曲線(xiàn)的那一切點(diǎn),即為對(duì)應(yīng)的K值。第1組數(shù)據(jù)得到的K=6;第2組數(shù)據(jù)得到的K=5。也即是指定第1組、第2組數(shù)據(jù)的初始K值分別為6和5,然后作為本文改進(jìn)的K-Means的聚類(lèi)算法的初始輸入。因?yàn)楸疚氖菍⒁阎臄?shù)據(jù)作為未知的數(shù)據(jù)來(lái)算,所以仍然可以使用F-Measure進(jìn)行聚類(lèi)準(zhǔn)確率的評(píng)估。

        經(jīng)本文方法分類(lèi)識(shí)別后,第1組數(shù)據(jù)總數(shù)據(jù)幀共500,被正確分類(lèi)出了419條數(shù)據(jù)幀,其中智能家居協(xié)議MQTT為100幀被正確識(shí)別分類(lèi)出了93幀,由此得到本文改進(jìn)算法的準(zhǔn)確率為

        其智能家居協(xié)議MQTT協(xié)議識(shí)別的精度為

        經(jīng)本文方法分類(lèi)識(shí)別后,第2組數(shù)據(jù)總數(shù)據(jù)幀共500,被正確分類(lèi)出了469條數(shù)據(jù)幀,其中智能家居協(xié)議MQTT為100幀被正確識(shí)別分類(lèi)出了97幀,由此得到本文改進(jìn)算法的準(zhǔn)確率為

        其智能家居協(xié)議MQTT協(xié)議識(shí)別的精度為

        2)聚類(lèi)算法效果評(píng)估分析。本文選取了100幀智能家居協(xié)議MQTT作為單協(xié)議類(lèi)簇、50幀MQTT協(xié)議與50幀DNS混合協(xié)議作為另一類(lèi)簇,取每一個(gè)類(lèi)簇的協(xié)議幀前40字節(jié),也即二維矩陣的前40列。計(jì)算其每列信息熵值,計(jì)算結(jié)果繪圖如圖5所示。

        從圖5可以看出,對(duì)于只有一種智能家居協(xié)議MQTT類(lèi)簇來(lái)說(shuō),其每列的熵值都偏低于混合的MQTT和DNS協(xié)議類(lèi)簇,且存在多列信息熵值為0的列,這也說(shuō)明只有一種智能家居協(xié)議MQTT類(lèi)簇純凈度很高,證明了使用信息熵作為未知協(xié)議聚類(lèi)效果評(píng)價(jià)指標(biāo)的正確性和可行性。

        3)算法準(zhǔn)確率仿真。以本文改進(jìn)的方法和原有的K-Means聚類(lèi)算法對(duì)這2組數(shù)據(jù)進(jìn)行分類(lèi)的準(zhǔn)確率對(duì)比如圖6所示。

        圖6 本文改進(jìn)的方法與原有K-Means算法準(zhǔn)確率對(duì)比Fig.6 Contrastive of accuracy rate between improvement method and

        由圖6可以看出,本文改進(jìn)的K-Means算法在準(zhǔn)確率上比原有的K-Means算法平均高出約25%。

        4 總 結(jié)

        本文提出了多協(xié)議下智能家居協(xié)議的分類(lèi)方法,使用數(shù)理統(tǒng)計(jì)計(jì)算K值和初始聚類(lèi)中心,解決了K值和初始中心選擇的隨機(jī)性問(wèn)題;基于向量空間模型的概念,使用數(shù)據(jù)對(duì)象之間的相似度代替數(shù)據(jù)對(duì)象之間的距離,加快了聚類(lèi)算法中目標(biāo)函數(shù)的收斂速度;最后提供了一種未知協(xié)議分類(lèi)的評(píng)價(jià)指標(biāo):用信息熵作為評(píng)價(jià)聚類(lèi)效果。本文只是將智能家居協(xié)議分類(lèi)出來(lái),下一步將研究在無(wú)任何先驗(yàn)知識(shí)的情況,研究分析智能家居協(xié)議的具體格式、語(yǔ)義、參數(shù)等。

        參考文獻(xiàn):

        [1] 朱敏玲,李寧.智能家居發(fā)展現(xiàn)狀及未來(lái)淺析[J].電視技術(shù),2015(4):82-85+96.

        ZHU Minling ,LI Ning. The present situation and future analysis of the smart home[J].Video Engineering,2015(4):82-85+96.

        [2] SINGH A, THAKUR N, SHARMA A. A review of supervised machine learning algorithms[C]// 2016 3rd International Conference on Computing for Sustainable Global Development (INDIACom). India: IEEE, 2016:1310-1315.

        [3] 林榮強(qiáng).網(wǎng)絡(luò)協(xié)議識(shí)別關(guān)鍵技術(shù)研究[D].鄭州:解放軍信息工程大學(xué),2015.

        LIN Rongqiang. Research on key technologies of network protocol recognition[D]. Zhengzhou: Information Engineering University,2015.

        [4] 王慶亮.未知協(xié)議逆向分析關(guān)鍵技術(shù)研究[D].北京:北方工業(yè)大學(xué),2015.

        WANG Qingliang. Research on key techniques of inverse protocol analysis for unknown protocol[D].Beijing: North China University of Technology,2015.

        [5] 宋疆.無(wú)線(xiàn)網(wǎng)絡(luò)環(huán)境下未知協(xié)議發(fā)現(xiàn)探索研究[D].成都:電子科技大學(xué),2013.

        SONG Jiang. Research on unknown protocol discovery in wireless network environment[D].Chengdu:University of Electronic Science and Technology of China,2013.

        [6] 王和洲. 面向比特流的鏈路協(xié)議識(shí)別與分析技術(shù)[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2014.

        WANG Hezhou. Link protocol recognition and analysis technology facing the bitstream[D]. Hefei:University of Science and Technology of China,2014.

        [7] FEN L, TONG L, CHUN-RUI Z, et al. Length Identification of Unknown Data Frame[C]//2012 Eighth International Conference on Computational Intelligence and Security. Guangzhou, China:IEEE,2012,674-677.

        [8] 戴理,舒輝,黃荷潔. 基于數(shù)據(jù)流分析的網(wǎng)絡(luò)協(xié)議逆向解析技術(shù)[J]. 計(jì)算機(jī)應(yīng)用,2013(5):1217-1221.

        DAI Li ,SHU Hui ,HUANG Hejie. The reverse analysis technology of network protocol based on data flow analysis[J]. Journal of Computer Applications,2013(5):1217-1221.

        [9] 黃笑言,陳性元,祝寧,等. 基于字節(jié)熵矢量加權(quán)指紋的二進(jìn)制協(xié)議識(shí)別[J]. 計(jì)算機(jī)應(yīng)用研究,2015(2):493-497.

        HUANG Xiaoyan, CHENG Xingyuan, ZHU Ning, et al. Binary protocol recognition based on vector entropy of vector entropy[J]. Application Research of Computers, 2015(2):493-497.

        [10] 宋建林. K-means聚類(lèi)算法的改進(jìn)研究[D].合肥:安徽大學(xué),2016.

        SONG Jianlin. Research on the improvement of K-means clustering algorithm[D]. Hefei:Anhui University, 2016.

        [11] 趙京勝,孫夢(mèng)丹,張麗. 一種有效的K-means初始中心優(yōu)化算法[J]. 信息技術(shù)與信息化,2016(5):77-79.

        ZHAO Jingsheng ,SUN Mengdan ,ZHANG Li. An effective initial center optimization algorithm of K-means[J]. Information Technology & Information, 2016(5):77-79.

        [12] KAPIL S, CHAWLA M. Performance evaluation of K-means clustering algorithm with various distance metrics[C]//2016 IEEE 1st International Conference on Power Electronics, Intelligent Control and Energy Systems (ICPEICES), Delhi, India: IEEE,2016, pp. 1-4.

        [13] LING S, YUNFENG Q. Optimization of the distributed K-means clustering algorithm based on set pair analysis[C]//2015 8th International Congress on Image and Signal Processing (CISP). Shenyang, China: IEEE,2015,1593-1598.

        [14] KAPIL S, CHAWLA M. Performance evaluation of K-means clustering algorithm with various distance metrics[C]//2016 IEEE 1st International Conference on Power Electronics, Intelligent Control and Energy Systems (ICPEICES). Delhi, India:IEEE,2016,1-4.

        [15] 郭慶琳,李艷梅,唐琦. 基于VSM的文本相似度計(jì)算的研究[J]. 計(jì)算機(jī)應(yīng)用研究,2008(11):3256-3258.

        GUO Qinglin, LI Yanmei, TANG Qi.Research on text similarity calculation based on VSM[J]. Application Research of Computers, 2008(11):3256-3258.

        猜你喜歡
        分類(lèi)
        2021年本刊分類(lèi)總目錄
        分類(lèi)算一算
        垃圾分類(lèi)的困惑你有嗎
        大眾健康(2021年6期)2021-06-08 19:30:06
        星星的分類(lèi)
        我給資源分分類(lèi)
        垃圾分類(lèi),你準(zhǔn)備好了嗎
        分類(lèi)討論求坐標(biāo)
        數(shù)據(jù)分析中的分類(lèi)討論
        按需分類(lèi)
        教你一招:數(shù)的分類(lèi)
        久久精品国产亚洲av日韩一| 日日摸夜夜添夜夜添无码免费视频 | 亚洲国产综合精品 在线 一区 | 一本一道久久综合狠狠老| 亚洲自拍另类欧美综合| 亚洲国产精一区二区三区性色| 国产一区二区av免费观看| 无码人妻一区二区三区在线| av片在线观看免费| 久久亚洲午夜牛牛影视| 日本一区二区三区在线视频播放| 摸丰满大乳奶水www免费| 国产高清乱理伦片| 亚洲欧洲一区二区三区波多野| 精品国产免费一区二区久久| 高潮毛片无遮挡高清视频播放| 亚洲视频一区| 人妻系列无码专区久久五月天| 日韩av在线手机免费观看| 国产高清av在线播放| 久久久久亚洲av无码专区桃色| 亚洲AV无码AV色| 国产三区二区一区久久 | 国产午夜精品久久久久免费视| 久久精品国产屋| 免费在线国产不卡视频| 久久久www成人免费毛片| 亚洲第一网站免费视频| 中文字幕日本韩国精品免费观看 | 无码粉嫩虎白一线天在线观看| 亚洲先锋影院一区二区| 高清中文字幕一区二区三区| 人妻av无码一区二区三区| 四虎影永久在线观看精品| 日本视频一区二区二区| 日韩人妻无码精品一专区二区三区| 99精品国产99久久久久久97 | 一卡二卡三卡视频| 亚洲区一区二区中文字幕| 91在线视频在线视频| 亚洲第一无码xxxxxx|