亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Web信息的物聯(lián)網(wǎng)設(shè)備指紋生成方法研究

        2021-07-20 00:05:14張莉紅
        現(xiàn)代計算機 2021年15期
        關(guān)鍵詞:余弦特征提取分類器

        張莉紅

        (1.四川大學計算機學院,成都610065;2.西藏藏醫(yī)藥大學,拉薩850000)

        0 引言

        物聯(lián)網(wǎng)技術(shù)的飛速發(fā)展給我們的工作、生活和學習等都帶來了新的變革。據(jù)研究發(fā)現(xiàn)到2030年物聯(lián)網(wǎng)設(shè)備的數(shù)量將達到1250億[1],物聯(lián)網(wǎng)設(shè)備穿插于社會各個層面,為改善生活和加快社會發(fā)展做貢獻,但同時也帶來了新的安全問題[2-4]。為了減少物聯(lián)網(wǎng)設(shè)備接入風險,必須對設(shè)備進行訪問安全控制。但是,傳統(tǒng)的互聯(lián)網(wǎng)安全訪問控制必須依賴復雜的認證和加密協(xié)議機制來完成,不適用于計算資源有限且功能比較單一的物聯(lián)網(wǎng)設(shè)備。設(shè)備指紋識別等技術(shù)則為解決上述問題提供了新思路,通過網(wǎng)絡(luò)流量或協(xié)議報文的方式獲取設(shè)備指紋特征,能唯一標識某一品牌類型及型號的物聯(lián)網(wǎng)設(shè)備。

        機器學習算法被廣泛用于設(shè)備識別中,常常關(guān)注于提升分類模型識別的準確率,而在發(fā)現(xiàn)新設(shè)備上卻沒多少進展,本文針對上述問題,提出了一種基于Web響應(yīng)信息的物聯(lián)網(wǎng)設(shè)備指紋生成方法,能大大提升對物聯(lián)網(wǎng)設(shè)備識別的準確性,并在此基礎(chǔ)上結(jié)合監(jiān)督數(shù)據(jù)提取距離閾值利用層次聚類算法發(fā)現(xiàn)新設(shè)備,適合用于大規(guī)模物聯(lián)網(wǎng)識別。

        1 相關(guān)工作

        設(shè)備識別起源于上世紀90年代,依據(jù)獲取方式的劃分主要有被動指紋識別和主動指紋識別兩種方式,被動指紋識別流量數(shù)據(jù)來源于監(jiān)聽,由于不向網(wǎng)絡(luò)發(fā)送數(shù)據(jù)包所以入侵小不易被發(fā)現(xiàn),但受監(jiān)聽網(wǎng)絡(luò)大小控制,識別設(shè)備僅限于監(jiān)聽網(wǎng)絡(luò)。主動指紋識別方式主要運用探測手段,需要發(fā)送探測數(shù)據(jù)包,會對網(wǎng)絡(luò)造成一定影響,但由于其目的性強,準確度高越來越受研究人員的青睞。

        Shah等人[5]提出通過服務(wù)標識Banner來識別Web服務(wù)器軟件信息和版本信息的方法,但由于某些設(shè)備HTTP響應(yīng)包中并不包含此信息,因此該方法在識別上有局限性。趙建軍等人[6]提出一種綜合的網(wǎng)絡(luò)空間終端識別設(shè)備框架,從Banner和Web指紋兩個角度來提取設(shè)備識別指紋,但沒有驗證其準確性。Li Q等人[7]通過設(shè)備登錄頁面的特征,提出一種GUIDE的設(shè)備識別框架,能對視頻監(jiān)控設(shè)備進行識別,但未對識別方法和效果進行詳細討論。Yang等人[8]通過對大量網(wǎng)絡(luò)流量分析總結(jié)出一系列特征來進行設(shè)備識別,但由于涉及多層報文的提取不適用于大規(guī)模物聯(lián)網(wǎng)識別。

        隨著設(shè)備識別方法的不斷總結(jié)提出,如何用最簡單有效的特征提取方法在有線標的設(shè)備中發(fā)現(xiàn)無標的設(shè)備是本文研究的重點。本文從物聯(lián)網(wǎng)設(shè)備為方便用戶使用都會開放Web管理服務(wù)這一前提出發(fā),采集HTTP報文響應(yīng)信息提取有效特征的方法進行物聯(lián)網(wǎng)設(shè)備分類識別,分類準確率達到99.6%,并結(jié)合帶閾值的層次聚類來發(fā)現(xiàn)新設(shè)備。

        2 基于Web信息的物聯(lián)網(wǎng)設(shè)備指紋生成識別框架

        2.1 方案概述

        本文提出的基于Web信息的物聯(lián)網(wǎng)設(shè)備指紋生成識別框架如圖1所示。

        圖1 基于Web信息的物聯(lián)網(wǎng)設(shè)備指紋生成框架

        (1)特征提取模塊。特征提取模塊從本地網(wǎng)絡(luò)向遠端網(wǎng)絡(luò)發(fā)送探測包獲取開放端口及協(xié)議的遠端IP地址及端口號存入數(shù)據(jù)庫,向數(shù)據(jù)庫中的所有地址發(fā)送HTTP-get請求,獲取到每個地址的響應(yīng)信息,同時隨機提取一部分地址設(shè)備進行物聯(lián)網(wǎng)設(shè)備和非物聯(lián)網(wǎng)設(shè)備標記并用人工方式進行驗證。通過卡方校驗物聯(lián)網(wǎng)設(shè)備和非物聯(lián)網(wǎng)設(shè)備的響應(yīng)信息,提取固定格式的特征向量作為設(shè)備指紋,為后續(xù)分類識別打好基礎(chǔ)。

        (2)分類器選擇模塊。分析現(xiàn)有機器學習中的多分類器,對于不同特征提取適用的分類器不一樣,因此我們在這個模塊中選取四類常用多分類器來對標記設(shè)備進行分類識別,最終選擇分類器效果最好的分類器作為我們的目標多分類器,并比較其他文獻采集特征的分類準確性,證明我們特征提取的有效性。

        (3)發(fā)現(xiàn)新設(shè)備模塊。利用有監(jiān)督的數(shù)據(jù)設(shè)置閾值用層次聚類的方法在導入的數(shù)據(jù)集中又發(fā)現(xiàn)上百種新設(shè)備類型。

        2.2 特征提取

        (1)設(shè)備發(fā)現(xiàn)數(shù)據(jù)獲?。贺撠熢谥付↖Pv4地址空間內(nèi)進行端口掃描,獲得開放Web服務(wù)的無標記設(shè)備的IP地址集,向地址集中所有地址發(fā)送HTTP-get請求,獲得響應(yīng)狀態(tài)碼為200ok的完整的響應(yīng)信息作為原始待處理樣本信息。具體采集到兩部分信息,形式如圖2所示。

        圖2 左部為響應(yīng)頭部信息右部為響應(yīng)主體信息

        (2)提取統(tǒng)計特征:物聯(lián)網(wǎng)設(shè)備服務(wù)器經(jīng)常采用一些公用的輕型網(wǎng)絡(luò)服務(wù)器,如micro_httpd、lighttpd、Boa/0.93.15等,而某些物聯(lián)網(wǎng)設(shè)備廠商則會在此嵌入與設(shè)備品牌型號相關(guān)的信息,因此可以通過Server字段初略的判定某些設(shè)備的品牌類型或排除掉一些非物聯(lián)網(wǎng)設(shè)備,利用正則表達式提取頭部Server字段、主體title信息以及頁面版權(quán)信息等標識物聯(lián)網(wǎng)和非物聯(lián)網(wǎng)設(shè)備集,隨機提取物聯(lián)網(wǎng)設(shè)備集中部分設(shè)備通過人工鑒定的方式為其打上品牌類型型號標簽,完成有標記設(shè)備采集。通過觀察比較物聯(lián)網(wǎng)設(shè)備響應(yīng)頭部字節(jié)長度,響應(yīng)頭部屬性字段數(shù)目和響應(yīng)主體的<head>...</head>及<body>...</body>內(nèi)字節(jié)長度,發(fā)現(xiàn)不同品牌設(shè)備類型所顯示的這四個值都不盡相同,而相同品牌設(shè)備類型所顯示的這四個值都大致相同。因此提取此四個統(tǒng)計特征作為第一部分特征。如圖3所示,用PCA在二維平面上進行降維分析此四個特征可以看出能夠很好地區(qū)分設(shè)備品牌類型。

        圖3 部分帶標簽設(shè)備統(tǒng)計特征向量分布

        (3)提取協(xié)議特征:觀察協(xié)議響應(yīng)報文的Header屬性值,我們發(fā)現(xiàn)相同設(shè)備一般具有相同屬性值,不同設(shè)備屬性值則不完全相同,因此在這部分中我們提取Header屬性中的每一個鍵名作為研究對象,通過圖4四格圖表法和卡方校驗的方法選取已標記的物聯(lián)網(wǎng)和非物聯(lián)網(wǎng)設(shè)備各一萬個,我們先假設(shè)某鍵名M不屬于物聯(lián)網(wǎng)設(shè)備,然后通過四格表觀察值確定p行q列的理論值,見公式(1),帶入卡方公式計算偏差值,見公式(2),通過公式(3)自由度查卡方分布表查概率值大小來驗證假設(shè)是否成立,成立則屬于非物聯(lián)網(wǎng)設(shè)備屬性,否則為物聯(lián)網(wǎng)設(shè)備屬性。通過卡方比對每一個鍵名獲得屬于物聯(lián)網(wǎng)設(shè)備的所有鍵名屬性特征,計算屬性特征出現(xiàn)的頻率最終選擇33個鍵名作為協(xié)議部分特征。

        圖4 四格圖表法

        (4)整合特征:整合統(tǒng)計特征和協(xié)議特征,形成特征向量集,如表1所示。

        表1 統(tǒng)計和協(xié)議特征集合

        提取物聯(lián)網(wǎng)地址集里面所有地址的統(tǒng)計特征和協(xié)議特征。對統(tǒng)計特征進行歸一化,對協(xié)議特征進行one-hot編碼,即設(shè)備特征頭部字段中有協(xié)議特征字段則標為1,沒有協(xié)議特征字段則標為0,最終形成具有37維特征的物聯(lián)網(wǎng)設(shè)備特征向量,部分設(shè)備特征集提取處理后效果如圖5所示。

        圖5 部分設(shè)備特征集提取處理集合

        2.3 相似性度量及新設(shè)備發(fā)現(xiàn)

        通過對比決策樹(DT)、隨機森林(RF)、K近鄰(KNN)和邏輯回歸(LR)四類分類器對標注物聯(lián)網(wǎng)設(shè)備進行分類,并對比文獻[9]特征提取方法,證明我們特征提取的有效性。

        由于我們的特征向量是基于響應(yīng)報文提取的偏向于用文本相似性去度量兩個樣本的異同,因此本文采用余弦距離作為相似性度量。結(jié)合文獻[10]可知余弦距離也可表達與歐氏距離一樣的意義,歐氏距離d(x,y)、余弦相似度cos(x,y)、余弦距離D(x,y)三者關(guān)系如公式(4)所示:

        每一類設(shè)備代表一個分類簇,用余弦距離找出各簇已標記設(shè)備品牌類型中心點,每一個簇代表一類設(shè)備,計算各簇中心到簇內(nèi)最遠點余弦距離D,計算平均余弦距離Dˉ。導入新數(shù)據(jù)集用Dˉ作為閾值進行層次聚類來發(fā)現(xiàn)新設(shè)備。

        2.4 算法描述

        根據(jù)Web信息的物聯(lián)網(wǎng)設(shè)備指紋生成框架,給出實驗的相應(yīng)算法步驟如下:

        (1)掃描IPv4空間中開放web端口服務(wù)的IP地址,形成IP地址集;

        (2)獲取IP地址集的原始響應(yīng)信息,包括響應(yīng)頭部信息和響應(yīng)主體信息;

        (3)隨機選出樣本集進行物聯(lián)網(wǎng)和非物聯(lián)網(wǎng)標記并通過人工驗證的方式為物聯(lián)網(wǎng)設(shè)備打上品牌類型標簽;

        (4)對原始響應(yīng)信息中物聯(lián)網(wǎng)和非物聯(lián)網(wǎng)設(shè)備頭部信息進行卡方校驗提取適合物聯(lián)網(wǎng)設(shè)備使用的協(xié)議特征并加入統(tǒng)計特征形成總體樣本集I={a1,a2,…,an},其中ai代表第i個樣本的37維特征向量;

        (5)對樣本集進行特征提取、預處理和歸一化;

        (6)對比決策樹(DT)、隨機森林(RF)、K近鄰(KNN)和邏輯回歸(LR)四類分類器,選擇分類準確率最高的KNN分類器作為設(shè)備分類器,并比較其他文獻提取特征的分類準確率;

        (7)輸入已知設(shè)備集合X,按品牌類型劃分為k簇,在每簇中間利用公式(4)代入計算簇內(nèi)余弦相似度的和,則和值為極大時表示此點為本簇中心O,得到K簇中心為Y;

        (8)計算各簇中心到各簇點的余弦距離,并記錄下各簇余弦距離最大值D,求出余弦平均值Dˉ:

        (9)導入新數(shù)據(jù)集M個,其中包含已標注數(shù)據(jù)集N個,設(shè)置當前聚類簇個數(shù)為M,計算兩兩之間的余弦距離,設(shè)置距離閾值為2Dˉ,選擇AGENS算法進行聚類,當余弦距離小于2Dˉ則合并,直到所有距離都大于2Dˉ時停止聚類。

        3 實驗與評估

        3.1 數(shù)據(jù)采集

        本文采用主動采集的方式,為避免對IP網(wǎng)段造成干擾,通過對在線設(shè)備運用了IP隨機化探測的方式向網(wǎng)絡(luò)中一段IP地址進行隨機化端口開放探測,探測到開放IP地址端口的設(shè)備上百萬個,并對探測到的特定端口(如80-85、8080、8090等)發(fā)送HTTP-get訪問請求,獲取到如圖6所示的響應(yīng)狀態(tài)碼分布情況信息,其中200ok表示請求已成功,請求所希望的響應(yīng)頭或響應(yīng)體將隨此響應(yīng)返回,出現(xiàn)此狀態(tài)碼是表示正常狀態(tài),基于只有直接暴露在互聯(lián)網(wǎng)中的設(shè)備才容易被利用和攻擊的假設(shè),我們提取響應(yīng)狀態(tài)碼為200ok的設(shè)備響應(yīng)信息作為我們的研究對象,我們提取了占采集數(shù)據(jù)46.11%的響應(yīng)信息。

        圖6 響應(yīng)狀態(tài)碼基本分布情況

        3.2 實驗結(jié)果分析

        本實驗基于“相同品牌相同類型相同型號的設(shè)備的響應(yīng)信息會大致相同”作為假設(shè)來進行,通過隨機提取部分響應(yīng)狀態(tài)碼為200ok的設(shè)備數(shù)據(jù)124708個作為我們的實驗數(shù)據(jù),經(jīng)篩選字段后用人工校驗的方式為目標設(shè)備添加品牌類型標簽,標記后有標簽的品牌類型設(shè)備有二十幾種,如表2所示。其中包含路由器、網(wǎng)絡(luò)攝像頭、網(wǎng)絡(luò)電源交換機、網(wǎng)絡(luò)存儲器、工控設(shè)備等多種物聯(lián)網(wǎng)設(shè)備,結(jié)合標簽設(shè)備數(shù)目選擇其中標記數(shù)目大于500的11種品牌設(shè)備每種取樣500個作為下一步機器學習的數(shù)據(jù)集,至此完成有監(jiān)督設(shè)備數(shù)據(jù)集的提取。

        表2 標記的帶標簽品牌和數(shù)目

        選擇決策樹(DT)、隨機森林(RF)、K近鄰(KNN)和邏輯回歸(LR)分類器來做分類器對比實驗,并設(shè)置其參數(shù)在其分類器上表現(xiàn)最優(yōu),經(jīng)過十折交叉驗證后的F1-Score值分別為RF-99.82%、DT:99.70%、KNN:99.91%、LR:93.06%,圖7混淆矩陣清楚的展示了四類分類器的分類效果,可以看出KNN分類器效果最佳。

        圖7 DT、RF、KNN、LR各分類器混淆矩陣

        利用KNN分類器對比文獻[9]提出的特征方法,如表3所示,經(jīng)對比在各品牌上的召回率、準確率和F1-Score值,本文提取的特征都更加有效。針對分類器錯誤分類的品牌設(shè)備進行分析,導致分類錯誤的原因主要有兩個:一是某些品牌設(shè)備在后期會被其他品牌收購兼并冠上新設(shè)備品牌名稱;二是我們在標記的時候籠統(tǒng)的把品牌類型作為主要目的而沒有去關(guān)注型號。

        表3 文獻[9]與本文特征提取算法的設(shè)備分類效果

        計算距離閾值,用帶閾值的層次聚類算法在未標記的數(shù)據(jù)集中進行新設(shè)備類型發(fā)現(xiàn),經(jīng)人工校驗后發(fā)現(xiàn)上百種新品牌類型,經(jīng)人工檢驗后部分新設(shè)備品牌類型如圖8所示。

        圖8 新發(fā)現(xiàn)部分設(shè)備品牌

        4 結(jié)語

        本文提出了一種基于頭部字段Header和統(tǒng)計相結(jié)合的設(shè)備指紋特征生成方法。該方法便于提取,易于實現(xiàn)。通過比較分類器,實驗結(jié)果表明此方法在設(shè)備品牌類型上能很好進行設(shè)備品牌及類型的提取和分類,最后應(yīng)用基于距離閾值的層次聚類方法發(fā)現(xiàn)諸多新品牌類型設(shè)備,便于開展大規(guī)模設(shè)備探測。

        猜你喜歡
        余弦特征提取分類器
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        BP-GA光照分類器在車道線識別中的應(yīng)用
        電子測試(2018年1期)2018-04-18 11:52:35
        Bagging RCSP腦電特征提取算法
        兩個含余弦函數(shù)的三角母不等式及其推論
        加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
        結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
        分數(shù)階余弦變換的卷積定理
        圖像壓縮感知在分數(shù)階Fourier域、分數(shù)階余弦域的性能比較
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        離散余弦小波包變換及語音信號壓縮感知
        中国精品18videosex性中国| 亚洲一区二区三区99区| 亚洲乱码av中文一区二区第八页| 国产人成视频在线视频| 亚洲av无码之国产精品网址蜜芽| 伊人色网站| 亚洲av一区二区网址| 桃红色精品国产亚洲av| 亚洲午夜无码av毛片久久| 久久中文字幕无码一区二区| 自拍偷拍另类三级三色四色| 日韩精品久久中文字幕| 一品二品三品中文字幕| 国模精品二区| 91亚洲夫妻视频网站| 久久黄色视频| 国产一区二区三区在线观看免费| 亚州毛色毛片免费观看| 91熟女av一区二区在线| 人妻体内射精一区二区三四| 精品88久久久久88久久久| 风流少妇一区二区三区| 蜜桃精品人妻一区二区三区| 亚洲精品美女久久久久99| 亚洲欧美日韩高清中文在线| 伊人影院成人在线观看| 少妇久久久久久被弄高潮| 在教室伦流澡到高潮h麻豆| 国产日韩AV无码免费一区二区| 东京热加勒比久久精品| 久久国产精品99精品国产| 男人的天堂在线无码视频| 日本高清一区二区三区不卡| 一区二区三区内射美女毛片| 人妻少妇哀求别拔出来| 亚洲色欲色欲www| 精品国偷自产在线不卡短视频| 极品少妇高潮在线观看| 少妇中文字幕乱码亚洲影视| 无码不卡高清毛片免费| 国内精品嫩模av私拍在线观看|