亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Bi-LSTM 的在線物聯(lián)網(wǎng)設(shè)備識(shí)別方法

        2023-05-17 06:31:34郝秦霞謝林江杭菲璐
        關(guān)鍵詞:型號(hào)廠商向量

        郝秦霞,榮 政,謝林江,杭菲璐

        (1.西安科技大學(xué) 通信與信息工程學(xué)院,陜西 西安 710054;2.云南電網(wǎng)有限責(zé)任公司 信息中心,云南 昆明 650000)

        0 引 言

        物聯(lián)網(wǎng)技術(shù)的高速發(fā)展,方便智能設(shè)備的數(shù)據(jù)收集和交換。醫(yī)療、教育、交通、工業(yè)生產(chǎn)等領(lǐng)域部署大量的物聯(lián)網(wǎng)設(shè)備[1-4],預(yù)計(jì)到2025年,將有超過(guò)750億物聯(lián)網(wǎng)設(shè)備投入使用[5]。大規(guī)模應(yīng)用的同時(shí),也帶來(lái)諸多問(wèn)題[6-8],許多物聯(lián)網(wǎng)設(shè)備都是以低成本設(shè)計(jì)原則生產(chǎn)的,這些物聯(lián)網(wǎng)設(shè)備具有開(kāi)放式設(shè)計(jì)[9],易受到網(wǎng)絡(luò)攻擊,如DDoS攻擊[10]、SQL注入攻擊[11]和高級(jí)可持續(xù)威脅攻擊[12]等。典型的案例Mirai僵尸網(wǎng)絡(luò)[13]使用大規(guī)模的DDoS攻擊美國(guó)域名解析服務(wù)提供商Dyn,使其DNS服務(wù)器大面積癱瘓。Mirai僵尸網(wǎng)絡(luò)在最初的20個(gè)小時(shí)內(nèi)感染近65 000臺(tái)物聯(lián)網(wǎng)設(shè)備,然后達(dá)到30萬(wàn)數(shù)量的峰值,這其中包括DVR,IP攝像頭、路由器和打印機(jī)。新型的Hajime僵尸網(wǎng)絡(luò)[14]使用點(diǎn)對(duì)點(diǎn)(P2P)的方式進(jìn)行傳播,與Mirai相比,Hajime支持更廣泛的訪問(wèn)方法,且更具有彈性。網(wǎng)絡(luò)病毒會(huì)對(duì)某個(gè)廠商的某個(gè)型號(hào)的物聯(lián)網(wǎng)設(shè)備進(jìn)行攻擊[15]。為防止這些病毒惡意傳播,要正確識(shí)別出物聯(lián)網(wǎng)設(shè)備的型號(hào)信息,對(duì)該型號(hào)的物聯(lián)網(wǎng)設(shè)備進(jìn)行補(bǔ)丁升級(jí)等防護(hù)措施。從安全防護(hù)的角度來(lái)看,發(fā)現(xiàn)并識(shí)別網(wǎng)絡(luò)空間的物聯(lián)網(wǎng)設(shè)備具體型號(hào)是防止它們被破壞和利用的先決條件。

        國(guó)內(nèi)外學(xué)者針對(duì)流量指紋識(shí)別物聯(lián)網(wǎng)設(shè)備,開(kāi)展了大量的研究工作。IoT SENTINEL是最早使用流量特征來(lái)識(shí)別物聯(lián)網(wǎng)設(shè)備的方法,每個(gè)數(shù)據(jù)包選取23個(gè)流量特征,共接收N個(gè)數(shù)據(jù)包。每個(gè)設(shè)備生成N*23的特征矩陣,運(yùn)用機(jī)器學(xué)習(xí)訓(xùn)練模型并進(jìn)行預(yù)測(cè)[16]。MEIDAN等收集9個(gè)不同物聯(lián)網(wǎng)設(shè)備的流量數(shù)據(jù)特征,利用監(jiān)督學(xué)習(xí)訓(xùn)練多階段多分類模型,整體分類模型精度為99.2%,此方法只能識(shí)別到物聯(lián)網(wǎng)設(shè)備類型,而無(wú)法精確到設(shè)備的具體型號(hào),分類精度低,給下一階段的安全防護(hù)增加困難[17]。KOSTAS等提出的IoTDevID通過(guò)分析并計(jì)算網(wǎng)絡(luò)數(shù)據(jù)包中每個(gè)特征的權(quán)重值,用遺傳算法選取特征池中52個(gè)特征子集構(gòu)建特征向量,運(yùn)用機(jī)器學(xué)習(xí)算法訓(xùn)練模型,在不同測(cè)試集上均提高準(zhǔn)確率[18]。HASAN等在開(kāi)源數(shù)據(jù)集Kaggle使用分布式智能空間編排系統(tǒng)(DS2OS)創(chuàng)建一個(gè)虛擬物聯(lián)網(wǎng)環(huán)境,用于生成合成數(shù)據(jù),并通過(guò)對(duì)比不同機(jī)器學(xué)習(xí)模型的效果,得出隨機(jī)森林模型識(shí)別的準(zhǔn)確性最好,為99.4%[19]。NGUYEN等提出的D?oT通過(guò)將網(wǎng)絡(luò)數(shù)據(jù)包轉(zhuǎn)化為語(yǔ)言符號(hào),用于檢測(cè)異常的物聯(lián)網(wǎng)設(shè)備,是第1個(gè)將聯(lián)合學(xué)習(xí)方法用于基于異常檢測(cè)的入侵檢測(cè)的系統(tǒng)。通過(guò)評(píng)估30多個(gè)物聯(lián)網(wǎng)設(shè)備,證明在檢測(cè)被Mirai惡意軟件破壞的物聯(lián)網(wǎng)識(shí)別設(shè)備方面是非常有效的,檢測(cè)率為95.6%,并將其部署到真實(shí)的智能家居中[20]。YANG等根據(jù)應(yīng)用層不同協(xié)議返回的數(shù)據(jù)文本,按單詞出現(xiàn)頻率排序,選取前30 000個(gè)單詞,搭配網(wǎng)絡(luò)層和傳輸層的流量特征,作為神經(jīng)網(wǎng)絡(luò)的輸入訓(xùn)練模型,在測(cè)試集結(jié)果為94%的準(zhǔn)確率和95%的召回率[21]。

        上述方法都需要依靠先驗(yàn)知識(shí)進(jìn)行特征工程,即提取、選擇和調(diào)整特征,部分特征需要領(lǐng)域?qū)<覜Q策。流量傳輸受網(wǎng)絡(luò)時(shí)延和偏移誤差累計(jì)影響較大,且識(shí)別粒度較低,無(wú)法識(shí)別出設(shè)備的型號(hào),識(shí)別范圍局限于少數(shù)廠商。結(jié)合主動(dòng)探測(cè)的特點(diǎn)及流量指紋識(shí)別存在的缺陷,提出基于Bi-LSTM的在線物聯(lián)網(wǎng)設(shè)備的識(shí)別方法,改進(jìn)了指紋提取方式,向目標(biāo)地址的7種常用協(xié)議端口進(jìn)行探測(cè),將返回的報(bào)文經(jīng)過(guò)TF-IDF算法特征降維得到應(yīng)用層報(bào)文指紋,帶入到廠商識(shí)別模塊得到設(shè)備廠商。運(yùn)用爬蟲(chóng)技術(shù)建立型號(hào)知識(shí)庫(kù),通過(guò)正則表達(dá)式技術(shù)過(guò)濾出報(bào)文中可能是型號(hào)的字段,結(jié)合Jaro-Winkler文本匹配算法[22]得出設(shè)備型號(hào)和設(shè)備類型。

        1 二階段在線物聯(lián)網(wǎng)設(shè)備識(shí)別框架

        二階段在線物聯(lián)網(wǎng)設(shè)備識(shí)別框架如圖1所示,由預(yù)處理模塊、基于Bi-LSTM神經(jīng)網(wǎng)絡(luò)的物聯(lián)網(wǎng)設(shè)備廠商識(shí)別模塊、基于Jaro-Winkler算法的設(shè)備型號(hào)識(shí)別模塊組成。

        圖1 二階段在線物聯(lián)網(wǎng)設(shè)備識(shí)別框架Fig.1 Two-stage identification framework of online IoT device

        1)預(yù)處理模塊。對(duì)于HTTP協(xié)議提取HTML頁(yè)面源碼;對(duì)于非HTTP協(xié)議提取banner信息。提取的信息均以文本型保存,利用特征詞庫(kù)實(shí)現(xiàn)文本型向數(shù)值型轉(zhuǎn)換的特征詞映射。解析協(xié)議源碼后刪除視頻、音頻文件,去除停用詞。

        2)基于Bi-LSTM神經(jīng)網(wǎng)絡(luò)的物聯(lián)網(wǎng)設(shè)備廠商識(shí)別模塊。為過(guò)濾無(wú)用詞,減少樣本的特征維度,提高模型的訓(xùn)練速度和識(shí)別精度,采用TF-IDF文本挖掘算法,將輸入樣本經(jīng)特征降維后轉(zhuǎn)化為詞向量。鑒于Bi-LSTM神經(jīng)網(wǎng)絡(luò)能夠捕獲長(zhǎng)遠(yuǎn)上下文信息,在文本分類任務(wù)上表現(xiàn)出色,將詞向量通過(guò)Bi-LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,輸出結(jié)果為設(shè)備廠商。

        3)基于Jaro-Winkler算法的設(shè)備型號(hào)識(shí)別模塊。通過(guò)爬蟲(chóng)構(gòu)建三元組<廠商-型號(hào)-設(shè)備類型>產(chǎn)品知識(shí)庫(kù)。篩選已明確的廠商型號(hào)字段構(gòu)建案例庫(kù),將待匹配的物聯(lián)網(wǎng)設(shè)備的型號(hào)字段通過(guò)Jaro-Winkler算法與案例知識(shí)進(jìn)行相似度計(jì)算,比較得出該物聯(lián)網(wǎng)設(shè)備的型號(hào)、設(shè)備類型。

        2 數(shù)據(jù)預(yù)處理

        在HTTP協(xié)議中,在線物聯(lián)網(wǎng)設(shè)備應(yīng)用層返回的響應(yīng)數(shù)據(jù)通常包含與廠商高度相關(guān)的內(nèi)容,如<TITLE>TL-MR30XX</TITLE>,<meta name=“description”content=“WVC54GXX”>,標(biāo)簽含有廠商和設(shè)備型號(hào)信息,組成應(yīng)用層指紋,且唯一標(biāo)識(shí)設(shè)備。

        解析不同廠商設(shè)備登錄頁(yè)面的DOM樹(shù)結(jié)構(gòu),統(tǒng)計(jì)標(biāo)簽特征和標(biāo)簽數(shù)量,如圖2所示。

        圖2 不同型號(hào)設(shè)備頁(yè)面標(biāo)簽特征統(tǒng)計(jì)Fig.2 Page label feature statistics of different models of devices

        從圖2可以看出,廠商D-LINK、HUAWEI和CISCO在標(biāo)簽特征<div>個(gè)數(shù)、<meta>個(gè)數(shù)、<script>個(gè)數(shù)、<img>個(gè)數(shù)、<table>個(gè)數(shù)上存在明顯差異,而同為CISCO的設(shè)備僅在<div>標(biāo)簽數(shù)量上不同,其他標(biāo)簽特征完全一致,表明相同廠商設(shè)備管理頁(yè)面的布局具有相似性,而不同廠商設(shè)備管理頁(yè)面的布局有較大差異,這些差異可以作為識(shí)別物聯(lián)網(wǎng)設(shè)備的依據(jù)。

        一些設(shè)備存在不同端口使用不同協(xié)議,因而將同一IP不同端口返回的報(bào)文數(shù)據(jù)分配相同標(biāo)簽,增加數(shù)據(jù)集的多樣性。文本樣式以全英文小寫,預(yù)處理公式,見(jiàn)式(1)。

        式中 Tl為分詞后的樣本;Te為文本T以英文空格為間隔轉(zhuǎn)化為字符串集合,Te={t1,t2,t3,…,tn},其中n為分詞個(gè)數(shù)。S={s1,s2,s3,…,sn}為停用詞集合,包括標(biāo)點(diǎn)符號(hào)、“is”、“the”這些沒(méi)有冗余的單詞、自定義去除的單詞。

        分析7種應(yīng)用層協(xié)議返回信息,7種協(xié)議和常用端口見(jiàn)表1。

        表1 常用協(xié)議及對(duì)應(yīng)端口Table 1 Common protocols and corresponding ports

        從表1可以看出,HTTP協(xié)議常用的端口數(shù)量最多,這是由于廠商為了方便用戶設(shè)備管理和權(quán)限登錄,使用HTTP協(xié)議開(kāi)放管理頁(yè)面。限篇幅原因文中只對(duì)HTTP協(xié)議數(shù)據(jù)處理過(guò)程進(jìn)行分析。

        3 在線物聯(lián)網(wǎng)設(shè)備識(shí)別

        3.1 廠商識(shí)別

        預(yù)處理后的樣本經(jīng)TF-IDF算法降維后轉(zhuǎn)為數(shù)值型詞向量,作為模型輸入。利用Bi-LSTM神經(jīng)網(wǎng)絡(luò)構(gòu)建廠商識(shí)別模塊,輸出結(jié)果為設(shè)備廠商。

        3.1.1 TF-IDF算法降維

        TF-IDF(Term Frequency-Inverse Document Frequency)是一種統(tǒng)計(jì)方法,用于評(píng)估單詞對(duì)于樣本或樣本集合的重要程度。TF-IDF主要由TF和IDF兩部分組成。設(shè)樣本集合為T,ti為集合T中第i個(gè)樣本。詞cij的詞頻公式,見(jiàn)式(2)。

        式中 nij為單詞j在樣本i中出現(xiàn)的次數(shù);∑ni為ti的單詞總數(shù)。逆向文本頻率公式,見(jiàn)式(3)。

        式中 |T|為樣本集合中的樣本總數(shù),|{i:cj∈ti}|為包含詞語(yǔ)j的樣本數(shù)。最終單詞的TF-IDF權(quán)重,見(jiàn)式(4)。

        式中 wij越大,表示單詞在樣本集中越重要。

        當(dāng)在線物聯(lián)網(wǎng)設(shè)備返回的報(bào)文數(shù)據(jù)量較大,預(yù)處理后仍存在冗余字符串,且這些字符串的權(quán)重小、貢獻(xiàn)度低,增加特征向量的維度,導(dǎo)致出現(xiàn)過(guò)擬合現(xiàn)象,模型性能下降。將TF-IDF算法加入詞向量轉(zhuǎn)化過(guò)程中,計(jì)算單詞在數(shù)據(jù)集中的權(quán)重值,過(guò)濾掉低于閾值θ的無(wú)用詞,減少樣本的特征維度,提高模型的訓(xùn)練速度和識(shí)別精度。完整的流程如算法1所示。

        算法1 基于TF-IDF的詞向量轉(zhuǎn)換

        輸入:樣本集合T;樣本總數(shù)N;閾值θ;詞向量維度k;詞向量個(gè)數(shù)m;特征詞列表H_List。

        輸出:樣集合本的詞向量Tword

        1:INIT H_List←?

        2:for each sample from T do

        3: for each word from sample do

        4: ws,w←tfsmaple,word*idfword

        5: if ws,w>θthen

        6: H_List.add(word)

        7: else

        8: continue

        9: end for

        10:end for

        11:H_List去重,然后按入庫(kù)先后順序?yàn)槊總€(gè)單詞增加索

        引,轉(zhuǎn)換為字典類型D_List

        12:H_List.add(0:”unk”)

        13:H_List.add(1:”pad”)

        14:for each sample from T do

        15: sample.word←D_List[word]

        16:end for

        17:如果樣本的單詞數(shù)量超過(guò)m,取前m個(gè)單詞;如果單詞數(shù)量少于m,用1填充到m。將每個(gè)數(shù)字轉(zhuǎn)化為隨機(jī)生成的k維的向量。

        18:return Tword

        算法1得到的Tword為大小為n×m×k,其中n為樣本數(shù)量,m為一個(gè)樣本的分詞數(shù)量,k為詞向量的長(zhǎng)度。將Tword作為廠商識(shí)別模塊的輸入,用于訓(xùn)練模型。

        HTTP協(xié)議文本數(shù)據(jù)樣本處理前后對(duì)如圖3所示,基于HTTP協(xié)議得到“CISCOEPC3825”設(shè)備報(bào)文的內(nèi)容,將分詞處理后的樣本經(jīng)TF-IDF降維,得到最終樣本。

        圖3 HTTP協(xié)議文本數(shù)據(jù)處理前后對(duì)比Fig.3 Comparison of HTTP protocol text data before and after processing

        3.1.2 基于Bi-LSTM神經(jīng)網(wǎng)絡(luò)的廠商識(shí)別模塊

        轉(zhuǎn)換后的詞向量作為廠商識(shí)別模塊的輸入樣本,LSTM[23]為RNN[24]的改進(jìn)結(jié)構(gòu)解決了處理較長(zhǎng)時(shí)間序列時(shí)梯度消失問(wèn)題,但只能學(xué)習(xí)單方向的特征。Bi-LSTM通過(guò)將前向特征和后向特征反饋到輸出層,同時(shí)學(xué)習(xí)過(guò)去和未來(lái)時(shí)刻元素對(duì)當(dāng)前時(shí)刻元素的關(guān)系,在文本分類任務(wù)上表現(xiàn)出色。

        廠商識(shí)別模塊由Bi-LSTM神經(jīng)網(wǎng)絡(luò)結(jié)合3層全連接層構(gòu)成。Bi-LSTM神經(jīng)網(wǎng)絡(luò)公式,見(jiàn)式(5)~式(7)。

        式中 hf為正向隱藏層狀態(tài);hb為反向隱藏層狀態(tài);y為hf和hb拼接后的最后輸出。

        全連接層之間使用Tanh激活函數(shù)作非線性變換,模型收斂速度更快,函數(shù)公式,見(jiàn)式(8)。

        輸入向量經(jīng)Tanh函數(shù)計(jì)算后,映射至(0,1),最后1層全連接層接Softmax函數(shù)輸出設(shè)備廠商的類別,函數(shù)公式,見(jiàn)式(9)。

        式中 zi為第i個(gè)類的輸出值;C為類的數(shù)量。完整的模型架構(gòu)如圖4所示。

        圖4 廠商識(shí)別模塊網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of manufacturer identification module

        3.2 型號(hào)識(shí)別

        為防止不法分子針對(duì)具體型號(hào)設(shè)備進(jìn)行攻擊,還需進(jìn)一步識(shí)別設(shè)備型號(hào),以便與漏洞做更精準(zhǔn)的關(guān)聯(lián)分析,在漏洞爆發(fā)時(shí)及時(shí)制定相應(yīng)的防護(hù)措施。

        Jaro-Winkler算法是Jaro度量標(biāo)準(zhǔn)的改進(jìn)。對(duì)于2個(gè)給定的字符串s1和s2,Jaro距離dj計(jì)算公式,見(jiàn)式(10)。

        式中 m為s1,s1匹配的字符數(shù)量;|si|為字符串si的長(zhǎng)度;t為字符需要轉(zhuǎn)化的次數(shù)。匹配窗口公式,見(jiàn)式(11)。

        當(dāng)2個(gè)字符相同且它們之間的距離小于ω時(shí),認(rèn)為這2個(gè)字符是匹配的。Jaro-Winkler距離dw定義,見(jiàn)式(12)。

        式中 l為前綴部分匹配的長(zhǎng)度;p為范圍因子常量,用來(lái)調(diào)整l的權(quán)重,默認(rèn)值為0.1。當(dāng)Jaro距離陷入停滯時(shí),Jaro-Winkler算法可以對(duì)Jaro距離進(jìn)行調(diào)整。它的取值范圍為[0,1],越接近1,表示兩段字符串相似度越高。

        利用爬蟲(chóng)技術(shù)獲取廠商官網(wǎng)產(chǎn)品介紹構(gòu)建物聯(lián)網(wǎng)設(shè)備知識(shí)庫(kù),詳細(xì)信息見(jiàn)表2,其中廠商、設(shè)備型號(hào)和設(shè)備類型均為字符串類型。

        表2 型號(hào)知識(shí)庫(kù)及屬性值Table 2 Model knowledge base and attribute values

        使用Jaro-Winkler算法計(jì)算型號(hào)待匹配字段與案例的相似度,確定物聯(lián)網(wǎng)設(shè)備的型號(hào),設(shè)備類型也隨之確定。設(shè)備型號(hào)字段通常由數(shù)字或字母加數(shù)字的組合形式,例如Cisco 1841,Axis Q7424-R,運(yùn)用正則表達(dá)式技術(shù)(^[a-z]+\d{1,5}|\d{1,4}$|^\d+[a-z])抓取樣本頁(yè)面中可能是型號(hào)的字段進(jìn)行相似度匹配,流程如算法2所示。

        算法2設(shè)備型號(hào)匹配

        輸入:待確定的型號(hào)詞列表M_List;產(chǎn)品知識(shí)庫(kù)Dm,廠商m;閾值δ

        輸出:樣本的設(shè)備型號(hào)model_true

        1:INIT model_List←?,item_List←?

        2:for each item from M_List do

        3: for each model from Dmdo

        4: jw←Jaro-Winkler(item,model)

        5: model_List.add([jw,model])

        6: end for

        7: item_List.add(max(model_list))

        8:end for

        9:temp←max(item_List)

        10:if temp[jw]>δthen

        11: model_true←temp[model]

        12:else

        13: model_true←?

        14:return model_true

        輸出結(jié)果得到的model_true為匹配到的該設(shè)備的型號(hào)信息,model_true為空表示匹配失敗。

        4 試驗(yàn)與評(píng)估

        4.1 數(shù)據(jù)來(lái)源

        數(shù)據(jù)集來(lái)源于Zmap[25]掃描工具探測(cè)IPv4地址空間,對(duì)于存活的IP地址,向7種協(xié)議的常用端口發(fā)送請(qǐng)求數(shù)據(jù)包,共解析了10 400條報(bào)文數(shù)據(jù)并打上標(biāo)簽。數(shù)據(jù)集中包含10種設(shè)備類型,15個(gè)廠商的800種型號(hào)設(shè)備。其中80%的數(shù)據(jù)集作為訓(xùn)練集,20%的數(shù)據(jù)集作為測(cè)試集。

        4.2 運(yùn)行環(huán)境

        硬件環(huán)境為Windows 10操作系統(tǒng),內(nèi)存16GB,Intel Core i5-1135G7@2.40 GHz,軟件環(huán)境為Pycharm 2021版本,Pytorch框架。

        4.3 評(píng)價(jià)指標(biāo)

        從準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)、和F1-score來(lái)評(píng)價(jià)模型的性能。各指標(biāo)公式,見(jiàn)式(13)~式(16)。

        式中 TP為正類判定為正類;FP為負(fù)類判定為正類;FN為正類判定為負(fù)類;TN為負(fù)類判定為負(fù)類。精確率表示正確預(yù)測(cè)為正的占全部預(yù)測(cè)為正的比例,越高越好。召回率表示正確預(yù)測(cè)為正的占全部實(shí)際為正的比例,越高越好。F1-score是衡量分類性能的一種綜合指標(biāo)。

        4.4 試驗(yàn)結(jié)果分析

        4.4.1 廠商識(shí)別結(jié)果分析

        設(shè)置訓(xùn)練集與測(cè)試集數(shù)量比為4∶1,訓(xùn)練次數(shù)為400次,模型每訓(xùn)練4次測(cè)試1次。取詞向量維度k=10,30,60,100進(jìn)行訓(xùn)練和測(cè)試[26],結(jié)果如圖5所示。

        圖5 訓(xùn)練集與測(cè)試集損失函數(shù)Fig.5 Loss function between training set and test set

        從圖5可以看出,k=10時(shí),訓(xùn)練集損失函數(shù)收斂速度最慢,在訓(xùn)練次數(shù)為400次左右達(dá)到收斂,在測(cè)試集上損失函數(shù)最大,這是因?yàn)樵~向量維度太小,導(dǎo)致樣本之間差異性較弱,機(jī)器需要學(xué)習(xí)更多的次數(shù);k=30時(shí)損失函數(shù)在訓(xùn)練次數(shù)為200次左右達(dá)到收斂,測(cè)試集損失函數(shù)波動(dòng)較為明顯;k=60時(shí),在訓(xùn)練集和測(cè)試集上均最先達(dá)到收斂;k=100時(shí),損失函數(shù)收斂速度降低,這是因?yàn)樵~向量維度過(guò)高導(dǎo)致模型復(fù)雜度增加,但損失函數(shù)曲線波動(dòng)最小,模型更加穩(wěn)定。

        4.4.2 Bi-LSTM神經(jīng)網(wǎng)絡(luò)參數(shù)調(diào)優(yōu)

        設(shè)置與4.4.1一致,結(jié)果如圖6所示,通過(guò)結(jié)果分析參數(shù)k與訓(xùn)練次數(shù)的選取。

        圖6 k取值大小與分類性能關(guān)系Fig.6 Relationship between the value of k and the classification performance

        從圖6可以看出,隨著訓(xùn)練次數(shù)的增加,所有參數(shù)的模型精確率、召回率不斷提高,然后逐漸趨于收斂。k=10時(shí),在訓(xùn)練400次左右曲線達(dá)到收斂,此時(shí)精確率達(dá)到最高為92.3%,召回率為90.5%,F(xiàn)1-score值為0.91;k=30時(shí),曲線在訓(xùn)練280次達(dá)到收斂,此時(shí)精確率為96.4%,召回率為95.2%,F(xiàn)1-score值為0.95;k=60時(shí),曲線在訓(xùn)練120次達(dá)到收斂,在4條曲線中最先達(dá)到收斂,此時(shí)精確率為98.9%,召回率為98.6%,F(xiàn)1-score值為0.99;k=100時(shí),在訓(xùn)練140次時(shí)達(dá)到收斂,精確率為99.3%,召回率為97.3%,F(xiàn)1-score值為0.98,曲線波動(dòng)范圍最小。詞向量維度越小在向量空間中越密集,需要更多的訓(xùn)練次數(shù)來(lái)達(dá)到收斂;隨著詞向量維度增加,模型的穩(wěn)定性增強(qiáng);詞向量維度過(guò)大時(shí)將導(dǎo)致計(jì)算量指數(shù)級(jí)上升,訓(xùn)練時(shí)間也隨之增加。

        綜合考慮,取k=60,訓(xùn)練次數(shù)為150來(lái)訓(xùn)練廠商識(shí)別模型,此時(shí)訓(xùn)練次數(shù)和模型性能最均衡。

        4.4.3 型號(hào)識(shí)別結(jié)果分析

        在型號(hào)匹配模塊中,匹配閾值δ決定模型的匹配精度。當(dāng)匹配結(jié)果的可信值大于閾值時(shí),視為匹配成功;否則,視為無(wú)法匹配。δ取值過(guò)小時(shí),會(huì)得到非型號(hào)字段的干擾詞,模型的準(zhǔn)確率降低;當(dāng)δ取值過(guò)大時(shí),匹配失敗的樣例會(huì)增加,模型整體的性能降低。因此,需要找到閾值最佳的平衡點(diǎn)。δ取值和模型性能的關(guān)系如圖7所示。

        圖7 閾值大小與模型性能關(guān)系Fig.7 Relationship between threshold and model performance

        從圖7可以看出,隨著閾值δ從0.9增加到0.96,模型的準(zhǔn)確率和召回率不斷增加,在δ=0.96時(shí)達(dá)到最大值,此時(shí)準(zhǔn)確率為98.8%,召回率為96.5%。之后隨著閾值的增加,準(zhǔn)確率和召回率逐漸減小。當(dāng)δ=1時(shí),模型的性能表現(xiàn)最差,這是因?yàn)殚撝翟O(shè)置過(guò)高時(shí),型號(hào)匹配的要求更加嚴(yán)格,導(dǎo)致包含正確型號(hào)字段被過(guò)濾掉,使得模型整體性能變差。綜合考慮取δ值為0.96,此時(shí)準(zhǔn)確率和召回率達(dá)到峰值,模型的整體性能最佳。

        4.4.4 方法對(duì)比

        將提出的方法與IoT SENTINEL[16]、IoTDevID聚合和IoTDevID混合模式[18]從平均準(zhǔn)確率、識(shí)別粒度、識(shí)別范圍和時(shí)間開(kāi)銷4個(gè)方面進(jìn)行對(duì)比。IoT SENTINEL從每個(gè)設(shè)備的前12個(gè)數(shù)據(jù)包中提取的23個(gè)流量特征,作為設(shè)備的唯一指紋。IoTDevID通過(guò)使用遺傳算法從52個(gè)候選流量特征中挑選性能更高的特征子集來(lái)降低模型的計(jì)算開(kāi)銷。比較結(jié)果見(jiàn)表3。

        表3 不同方法性能對(duì)比Table 3 Performance comparison of different methods

        從表3可以看出,在平均準(zhǔn)確率方面文章提出的方法表現(xiàn)最好,平均準(zhǔn)確率為98.8%;IoTDevID在2種模式下通過(guò)重新組合流量指紋,得到最優(yōu)特征子集,提高了算法的準(zhǔn)確率,分別為94.3%和94.1%;IoT SENTINEL由于存在地址沖突問(wèn)題,性能與其他方法差距較大,僅為81.5%。在識(shí)別粒度方面,提出的二階段識(shí)別框架識(shí)別細(xì)粒度最高,知識(shí)庫(kù)800個(gè)設(shè)備型號(hào)中,識(shí)別出型號(hào)的占778個(gè),約占97%;IoT SENTINEL和IoTDevID采用流量指紋的方式,前者在27種流量中只能識(shí)別出4種設(shè)備型號(hào),后者只能識(shí)別到廠商粒度。時(shí)間開(kāi)銷方面,IoT SENTINEL沒(méi)有進(jìn)行額外的預(yù)處理,算法整體開(kāi)銷最小,約為0.15 s;IoTDevID由于加入了遺傳算法增加了時(shí)間開(kāi)銷,約為0.5 s;文章構(gòu)建型號(hào)知識(shí)庫(kù)擴(kuò)大識(shí)別范圍到800個(gè)物聯(lián)網(wǎng)設(shè)備,分別比其他方法多773個(gè)和769個(gè),識(shí)別型號(hào)時(shí)需要額外開(kāi)銷,但識(shí)別細(xì)粒度得到有效提升。

        5 結(jié) 論

        1)改進(jìn)指紋提取方法,提取應(yīng)用層報(bào)文特征生成設(shè)備指紋以識(shí)別在線物聯(lián)網(wǎng)設(shè)備。試驗(yàn)證明該方法準(zhǔn)確率為98.8%,召回率為96.5%,與其他方法相比平均識(shí)別準(zhǔn)確率提升4.7%。

        2)提出的二階段在線物聯(lián)網(wǎng)設(shè)備識(shí)別框架細(xì)化了設(shè)備識(shí)別粒度,利用Bi-LSTM 神經(jīng)網(wǎng)絡(luò)加Jaro-Winkler算法,在有效識(shí)別設(shè)備廠商后進(jìn)一步判別設(shè)備型號(hào)和設(shè)備類型。試驗(yàn)證明該方法在數(shù)據(jù)集中正確識(shí)別出97%的設(shè)備型號(hào)。

        3)構(gòu)建物聯(lián)網(wǎng)設(shè)備型號(hào)知識(shí)庫(kù),用于存儲(chǔ)設(shè)備型號(hào)、設(shè)備類型等物聯(lián)網(wǎng)設(shè)備信息。知識(shí)庫(kù)可擴(kuò)展性強(qiáng),通過(guò)將新設(shè)備信息添加入到庫(kù)中,有效解決識(shí)別范圍受限問(wèn)題。

        猜你喜歡
        型號(hào)廠商向量
        向量的分解
        “三化”在型號(hào)研制中的應(yīng)用研究
        聚焦“向量與三角”創(chuàng)新題
        玩具廠商及合作機(jī)構(gòu)新年進(jìn)步
        型號(hào)產(chǎn)品配套管理模式探索與實(shí)踐
        廠商對(duì)北京卡車市場(chǎng)不抱希望
        汽車觀察(2018年10期)2018-11-06 07:05:32
        不同型號(hào)CTC/TDCS設(shè)備的互聯(lián)互通
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        電視廠商與好萊塢公司將制訂超高清標(biāo)準(zhǔn)
        聲屏世界(2015年2期)2015-03-11 18:31:32
        国产三级c片在线观看| 少妇激情av一区二区| 国产亚洲精品A在线无码| 亚州韩国日本区一区二区片| 久久精品女人av一区二区| 国产日产精品一区二区三区四区的特点| 亚洲精品无码久久毛片| 亚洲国产成人久久综合三区 | 亚洲中文字幕久久精品色老板| 高h纯肉无码视频在线观看| 国产人碰人摸人爱视频| 97久久综合区小说区图片区| 国产亚洲精品一区在线| 国产成人综合亚洲看片| 四虎影永久在线观看精品| 手机av男人天堂免费网址| 日韩少妇人妻中文视频| 少妇久久久久久被弄到高潮| 免费看国产成年无码av| 国产精品国产三级国产不卡| 成人无码一区二区三区| 中文字幕熟妇人妻在线视频| 草莓视频中文字幕人妻系列| 亚洲视频一区二区免费看| 国产精品成人va在线观看| 99国产超薄丝袜足j在线观看| 激情五月婷婷六月俺也去| 亚洲熟妇自偷自拍另类| 欧美交换配乱吟粗大25p| 久久精品爱国产免费久久| 亚洲人成伊人成综合久久| 成人亚洲精品777777| 国产福利午夜波多野结衣| 日韩极品免费在线观看| 久久久久99精品成人片欧美| 被群cao的合不拢腿h纯肉视频| 日本韩国三级aⅴ在线观看| 亚洲国产系列一区二区| 99亚洲男女激情在线观看| 亚洲国产精品国语在线| 国产丝袜一区丝袜高跟美腿|