亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于搜索的物聯(lián)網(wǎng)設(shè)備識別框架

        2018-08-11 02:59:40鄒宇馳朱紅松孫利民
        信息安全學(xué)報 2018年4期
        關(guān)鍵詞:標(biāo)語型號準確率

        鄒宇馳, 劉 松, 于 楠, 朱紅松, 孫利民, 李 紅, 王 旭

        1中國科學(xué)院大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 北京中國100049

        2中國科學(xué)院信息工程研究所物聯(lián)網(wǎng)信息安全技術(shù)北京市重點實驗室 北京中國100093

        1 引言

        隨著物聯(lián)網(wǎng)(Internet of Things, IoT)技術(shù)的飛速發(fā)展, 各種類別、類型、品牌、型號的物聯(lián)網(wǎng)設(shè)備在日常生活中發(fā)揮著重要的作用, 如家用路由器、IP Camera、網(wǎng)絡(luò)打印機、工業(yè)物聯(lián)網(wǎng)中的工業(yè)控制系統(tǒng)(Industrial Control System)等。有報告顯示[1], 目前有超過50億的物聯(lián)網(wǎng)設(shè)備, 這個數(shù)量在2020年將會達到200億。這些設(shè)備在被分配公網(wǎng)IP地址的情況下, 可以借助互聯(lián)網(wǎng)較為方便地直接與之交互或管理。但隨之而來的是這些設(shè)備缺乏安全防護或者設(shè)計上的缺陷或者軟件漏洞的曝光以及黑客利用這些不安全因素實施惡意行為。如2016年10月份美國東海岸斷網(wǎng)事件, 歸咎為大量的IP Camera存在弱密鑰的缺陷。由此可見, 物聯(lián)網(wǎng)設(shè)備給網(wǎng)絡(luò)空間帶來的安全問題不容忽視。

        經(jīng)過調(diào)研發(fā)現(xiàn), 相同品牌或相同型號的設(shè)備會存在相同漏洞, 如 CVE-2015-7254[2], 影響了華為路由器下的HG532e、HG532n、HG532s等三種型號。因此, 在網(wǎng)絡(luò)空間中快速、準確地識別出物聯(lián)網(wǎng)設(shè)備,細粒度地判斷其產(chǎn)品屬性, 再通過漏洞庫進行準確標(biāo)識, 既能有助于建立物聯(lián)網(wǎng)設(shè)備安全分布態(tài)勢圖,又能幫助管理員加固設(shè)備防護, 加強資產(chǎn)管理, 幫助后續(xù)制定防護策略, 為安全防護方案提供參考。Shodan[3]與 Censys[4]是目前商用化最好的面向?qū)嶓w設(shè)備的搜索服務(wù)系統(tǒng), 是開展安全研究的重要資源平臺。

        本文提出一種基于搜索的物聯(lián)網(wǎng)設(shè)備產(chǎn)品屬性識別框架, 著重提升對物聯(lián)網(wǎng)設(shè)備產(chǎn)品相關(guān)屬性的識別能力。通過實時地對類型、品牌、型號庫搜索更新, 實現(xiàn)對不同類型、不同廠商甚至不同型號的物聯(lián)網(wǎng)設(shè)備的識別能力的提升。本文通過屬性信息庫自動化構(gòu)建框架、數(shù)據(jù)獲取與預(yù)處理模塊、設(shè)備產(chǎn)品屬性分級識別模塊三個主要部分定義了物聯(lián)網(wǎng)設(shè)備產(chǎn)品屬性完整識別框架。

        首先, 通過爬蟲等自動化的抓取手段, 自動化地、實時地搜索電商平臺上出現(xiàn)的物聯(lián)網(wǎng)設(shè)備產(chǎn)品屬性相關(guān)信息, 不斷更新設(shè)備信息庫。其次, 建立全連接之后, 發(fā)送針對特定協(xié)議或端口的特定探測報文, 獲得物聯(lián)網(wǎng)設(shè)備返回的協(xié)議標(biāo)語信息, 利用自然語言處理(Natural Language Process, NLP)的方式,除去協(xié)議標(biāo)語中的停用詞、特殊符號等非關(guān)鍵性因素后, 再對標(biāo)語信息進行分詞。最后利用自動化收集的信息庫以及相關(guān)內(nèi)容過濾標(biāo)語信息中的標(biāo)識信息,如類型、品牌、型號等。

        通過對以上研究方案的實現(xiàn), 克服了對物聯(lián)網(wǎng)設(shè)備識別能力不全、識別粒度較粗的問題。目前可識別品牌種類庫達到1200種以上, 型號種類庫達到12000種以上, 構(gòu)建效率遠高于人工指紋模式, 且自動形成對新品類設(shè)備的識別能力。通過在真實的公網(wǎng)環(huán)境中的實測,本框架利用 Onvif協(xié)議標(biāo)語對公網(wǎng)視頻監(jiān)控設(shè)備型號識別準確率最高達到 97%, 利用FTP協(xié)議標(biāo)語對型號識別準確率達到 91%, 利用Ethernet/ip協(xié)議標(biāo)語對工業(yè)控制系統(tǒng)設(shè)備型號識別準確率達到97%, 利用Bacnet協(xié)議標(biāo)語對工業(yè)控制系統(tǒng)型號識別準確率可達到98%。

        2 相關(guān)工作

        近些年來對于物聯(lián)網(wǎng)設(shè)備的識別研究工作逐漸成為一個熱點。2005年, Kohno等[5]根據(jù)設(shè)備硬件中存在的微小偏差, 利用時鐘偏移值, 實現(xiàn)對遠程設(shè)備的指紋識別技術(shù); 2010年, Cui等[6]對暴露在公網(wǎng)上的弱口令設(shè)備進行類別以及類型的分析, 可識別范圍從企業(yè)設(shè)備(防火墻、路由器)到消費電子設(shè)備(VoIP, IPTV機頂盒)等; 2015年, Radhakrishnan等[7]提出基于人工神經(jīng)網(wǎng)絡(luò)的指紋識別算法 GTID來進行物聯(lián)網(wǎng)設(shè)備類型識別, 能達到較好的精確率; 2016年,曹來成等[8,9]通過提取首頁http數(shù)據(jù)包頭部字段和狀態(tài)碼作為設(shè)備特征, 基于設(shè)備特征向量之間的余弦相似度, 通過 K-means聚類方法實現(xiàn)對設(shè)備的劃分; 同年還提出了網(wǎng)絡(luò)空間終端識別框架, 該框架利用http的標(biāo)語信息和 HTML源代碼雙重因素進行終端設(shè)備品牌識別; 2017年, 任春林等[10]通過機器學(xué)習(xí)的方法, 能夠根據(jù)WEB頁面信息識別設(shè)備是否是視頻監(jiān)控設(shè)備; 同年, Miettinen等[11]提出對特定網(wǎng)絡(luò)中物聯(lián)網(wǎng)設(shè)備類型的識別方法; Li等[12,13]通過視頻監(jiān)控WEB頁面提出一種自動化的視頻監(jiān)控設(shè)備分類方法; 同年, 他們通過設(shè)備登錄頁面的特征, 提出了一種GUIDE的設(shè)備識別框架, 該框架首先通過特征提取方法篩選出頁面的關(guān)鍵字特征, 然后通過構(gòu)建分類器進行視頻監(jiān)控設(shè)備的識別, 達到了較高的識別正確率; Meidan等[14]應(yīng)用機器學(xué)習(xí)算法于網(wǎng)絡(luò)流量數(shù)據(jù), 從而準確識別連接到網(wǎng)絡(luò)的物聯(lián)網(wǎng)設(shè)備類型; 2018年, Bezawada等[15]提出了基于物聯(lián)網(wǎng)設(shè)備指紋的類型識別方法, 通過從網(wǎng)絡(luò)流量中提取設(shè)備行為的近似特征, 用于訓(xùn)練設(shè)備類型的機器學(xué)習(xí)模型; Shaikh等[16]提出一種機器學(xué)習(xí)的方法實現(xiàn)對網(wǎng)絡(luò)空間中物聯(lián)網(wǎng)設(shè)備的二分類模型, 實現(xiàn)對網(wǎng)絡(luò)空間中惡意的物聯(lián)網(wǎng)設(shè)備活動的準確識別。用于搜索 SCADA工控設(shè)備的 Modscan[17]工具和用于發(fā)現(xiàn)西門子PLC設(shè)備的Plcscan[18]工具則是利用專有協(xié)議的標(biāo)語信息進行設(shè)備識別,通過人工構(gòu)建對應(yīng)的設(shè)備專有協(xié)議指紋庫, 對設(shè)備的專有協(xié)議標(biāo)語信息進行識別, 從而對設(shè)備進行識別分類, 區(qū)分出設(shè)備的類型; Feng等[19]分析了17個常用工控專有協(xié)議, 提出了針對互聯(lián)網(wǎng)工控系統(tǒng)設(shè)備的識別指紋。

        但是, 以上研究對物聯(lián)網(wǎng)設(shè)備的識別工作仍有些許不足。人工提取指紋能幫助解決一部分識別, 但是人工指紋容易退化, 對較新的、相似型號的設(shè)備識別能力不夠, 識別效率較低。引入機器學(xué)習(xí)或者深度學(xué)習(xí)的方法對網(wǎng)絡(luò)流量進行分析, 雖然提高了設(shè)備識別的自動化程度, 但是當(dāng)前只能識別到設(shè)備類型或設(shè)備品牌, 識別粒度較粗。而相同品牌的不同型號設(shè)備的頁面、標(biāo)語甚至流量特征信息很類似, 無法良好區(qū)分出設(shè)備的型號。對于新出現(xiàn)的設(shè)備, 已有的設(shè)備識別分類器將會失效, 需要重新訓(xùn)練分類器, 而且重新訓(xùn)練的代價較高, 并且對于不同類型設(shè)備可能提取的特征會有所不同。

        經(jīng)過調(diào)研后發(fā)現(xiàn), 與物聯(lián)網(wǎng)設(shè)備進行有效連接后, 物聯(lián)網(wǎng)設(shè)備返回的報文頭部常常帶有豐富的與產(chǎn)品屬性相關(guān)的信息, 如設(shè)備類型、品牌、型號等,這部分信息不僅僅反映了設(shè)備基本情況, 同時還包含了豐富的語義信息, 如已知型號可以幫助推斷設(shè)備類型與品牌, 已知類型與型號可以推斷品牌。屬性信息之間的互相關(guān)聯(lián)能增加對設(shè)備的判別能力, 提高識別準確率。

        根據(jù)物聯(lián)網(wǎng)設(shè)備產(chǎn)品屬性特性, 通過搜索的方式, 自動化構(gòu)建了產(chǎn)品屬性信息庫, 實現(xiàn)了物聯(lián)網(wǎng)設(shè)備識別框架。通過信息庫的建立, 可以準確且高效的針對不同協(xié)議標(biāo)語情況, 提出相對應(yīng)的解析、識別方法, 更能獲得未曾在標(biāo)語中出現(xiàn)的產(chǎn)品屬性, 從而提升對網(wǎng)絡(luò)空間中整體物聯(lián)網(wǎng)設(shè)備的識別能力。

        本文圍繞物聯(lián)網(wǎng)安全狀態(tài)分析的現(xiàn)實需求,以實現(xiàn)準確、高效、細粒度地物聯(lián)網(wǎng)設(shè)備在線識別為目標(biāo), 在現(xiàn)有設(shè)備網(wǎng)絡(luò)屬性識別方法的基礎(chǔ)上,研究物聯(lián)網(wǎng)設(shè)備產(chǎn)品屬性的網(wǎng)絡(luò)識別框架, 為進一步研究網(wǎng)絡(luò)空間中物聯(lián)網(wǎng)系統(tǒng)安全問題打下堅實的基礎(chǔ)。

        3 物聯(lián)網(wǎng)設(shè)備識別框架

        3.1 概述

        為了實現(xiàn)對物聯(lián)網(wǎng)設(shè)備準確、細粒度的識別, 本文設(shè)計了如圖 1所示物聯(lián)網(wǎng)設(shè)備識別框架, 總共分為三部分: 屬性信息庫自動化構(gòu)建框架, 數(shù)據(jù)采集與預(yù)處理模塊, 設(shè)備產(chǎn)品屬性分級識別模塊。屬性信息庫自動化構(gòu)建框架自動地從互聯(lián)網(wǎng)電商平臺搜索產(chǎn)品屬性等相關(guān)信息, 構(gòu)建產(chǎn)品屬性信息庫。數(shù)據(jù)采集和預(yù)處理模塊獲取標(biāo)語信息模塊, 并剔除不相關(guān)內(nèi)容。設(shè)備產(chǎn)品屬性分級識別模塊對處理后的標(biāo)語信息進行分級提取, 分別提取出設(shè)備類型、品牌、型號等, 再根據(jù)標(biāo)語信息中出現(xiàn)的語義信息推斷設(shè)備基本信息。

        3.2 屬性信息庫自動化構(gòu)建框架

        產(chǎn)品屬性庫自動化構(gòu)建是識別物聯(lián)網(wǎng)設(shè)備產(chǎn)品屬性的基礎(chǔ), 同時也是發(fā)現(xiàn)新物聯(lián)網(wǎng)設(shè)備品牌、型號的有效手段。目前網(wǎng)絡(luò)空間中物聯(lián)網(wǎng)設(shè)備種類紛繁復(fù)雜, 相同類型的相同品牌有多種型號, 若都采用人工收集的方式無疑大大增加了工作難度, 還可能導(dǎo)致識別滯后的問題。如何有效地收集、統(tǒng)計物聯(lián)網(wǎng)設(shè)備的類別、類型、品牌、型號等關(guān)鍵屬性, 是本文需要解決的問題之一。因此, 本文采用自動化地方式構(gòu)建產(chǎn)品屬性信息庫, 可以有效降低人工參與品牌型號收集工作, 提升收集效率。

        圖1 物聯(lián)網(wǎng)設(shè)備識別框架Figure 1 IoT device recognition framework

        3.2.1 物聯(lián)網(wǎng)產(chǎn)品屬性分類

        網(wǎng)絡(luò)空間中的物聯(lián)網(wǎng)設(shè)備紛雜多樣, 種類繁多。無論是用于安防的視頻監(jiān)控系統(tǒng)還是用于基礎(chǔ)設(shè)施的供氣供電的工業(yè)控制系統(tǒng), 其中涵蓋的物聯(lián)網(wǎng)設(shè)備也是多種多樣, 設(shè)備之間關(guān)系復(fù)雜。如圖2展示的是安防系統(tǒng)、家居系統(tǒng)和智能電網(wǎng)系統(tǒng)。從圖中可以得知, 安防系統(tǒng)中既有視頻監(jiān)控設(shè)備IP Camera(網(wǎng)絡(luò)攝像機)、NVR(Network Video Recorder, 網(wǎng)絡(luò)硬盤錄像機), 又有交換機和網(wǎng)關(guān); 家居系統(tǒng)中既有智能家居設(shè)備智能開關(guān)、智能吊燈, 又有路由器設(shè)備; 智能電網(wǎng)系統(tǒng)中既有工控設(shè)備 PLC(Programmable Logic Controller, 可編程邏輯控制器)、SCADA (Supervisory Control And Data Acquisition,數(shù)據(jù)采集與監(jiān)視控制設(shè)備), 同樣也有交換機設(shè)備。難點在于這三個系統(tǒng)中的設(shè)備既有其獨特性又有重復(fù), 若沒有一個合理的設(shè)備的屬性分層標(biāo)準, 則很難將物聯(lián)網(wǎng)設(shè)備的產(chǎn)品屬性劃分清楚。

        對于上文的描述, 提出一種屬性分層方式, 即各系統(tǒng)中都可能出現(xiàn)的設(shè)備劃分為一層, 每個系統(tǒng)中獨特的設(shè)備劃分到一層。這樣可以有效的解決設(shè)備類型分類的問題, 但如何確定每一類具體的內(nèi)容以及與品牌型號的關(guān)系, 則需要確定一個標(biāo)準。

        物聯(lián)網(wǎng)設(shè)備種類豐富, 同一種類的物聯(lián)網(wǎng)設(shè)備由很多廠商生產(chǎn), 并且同一品牌同一類型的物聯(lián)網(wǎng)設(shè)備有多種不同的型號。Hikvision(??低?的 IP Camera的類型有很多, 如 DS-2DF1-611、DS-2CD1-203代表的是兩個不同型號的海康威視的視頻監(jiān)控設(shè)備。對于物聯(lián)網(wǎng)設(shè)備的所屬類別來說, 若直接把設(shè)備都歸類為物聯(lián)網(wǎng)設(shè)備, 則其劃分太過于粗糙, 不能很好地確定此設(shè)備的具體用途, 因此需要在設(shè)備類型前再設(shè)置一個類別, 來劃分物聯(lián)網(wǎng)設(shè)備所屬的具體的種類。

        圖2 紛繁多樣的物聯(lián)網(wǎng)設(shè)備Figure 2 Diverse IoT devices

        因此, 可以將設(shè)備的產(chǎn)品屬性以層級關(guān)系定義。定義的產(chǎn)品屬性有設(shè)備類別、設(shè)備類型、設(shè)備品牌和設(shè)備型號。其特性如下:

        · 設(shè)備類別: 指的是設(shè)備歸屬的系統(tǒng), 表示的含義是設(shè)備的主要用途。比如視頻監(jiān)控系統(tǒng)、工業(yè)控制系統(tǒng)和路由交換系統(tǒng)等。

        · 設(shè)備類型: 指的是具有相同本質(zhì)特點的同類設(shè)備, 表示的含義是設(shè)備的名稱。比如視頻監(jiān)控系統(tǒng)下的NVR, 工業(yè)控制系統(tǒng)下的PLC。

        · 設(shè)備品牌: 指的是設(shè)備的品牌, 表示設(shè)備的所屬。比如??低?、Simens(西門子)、Scneider(施耐德)。

        · 設(shè)備型號: 指的是設(shè)備的具體型號。比如DS-2DF1-611代表的是??低暤?IP Camera,S7-200代表的是西門子的PLC。

        通過確定需要識別的設(shè)備產(chǎn)品屬性的定義標(biāo)準,則可以得知設(shè)備類別、設(shè)備類型、設(shè)備品牌和設(shè)備型號的關(guān)系, 劃分標(biāo)準如圖3所示。通過這種劃分方式, 發(fā)現(xiàn)物聯(lián)網(wǎng)設(shè)備的產(chǎn)品屬性之間具有交叉和繼承關(guān)系, 交叉關(guān)系是指同一類別的設(shè)備如DVR可以被不同廠商生產(chǎn), 如Dahua或者??低? 繼承關(guān)系是指已知某個設(shè)備是 DVR, 那么可以推斷其肯定是視頻監(jiān)控設(shè)備。通過對以上屬性的分析, 本文構(gòu)建了10種類別庫, 53種類型庫, 部分結(jié)果如表1所示。

        表1 設(shè)備類別分類表Table 1 IoT device category classification table

        3.2.2 設(shè)備品牌庫構(gòu)建

        構(gòu)建品牌庫的目的是通過品牌庫中的品牌特性與待識別設(shè)備的協(xié)議標(biāo)語信息進行比較, 過濾并識別出待識別設(shè)備的標(biāo)語信息中的品牌。同時得到設(shè)備的廠商, 品牌參數(shù), 設(shè)備品牌的相關(guān)描述以及所屬類別等信息。

        通過對設(shè)備的協(xié)議標(biāo)語信息觀察發(fā)現(xiàn), 設(shè)備的協(xié)議標(biāo)語信息中出現(xiàn)的設(shè)備品牌信息基本上都是品牌英文名稱。圖4展示的是 FTP、TELNET等協(xié)議標(biāo)語信息, 如FTP協(xié)議標(biāo)語中出現(xiàn)品牌名MikroTik。因此有必要對設(shè)備品牌建立一個完善的庫, 不僅只存儲品牌名, 還需存儲與之相關(guān)的信息, 如品牌描述、品牌所屬國家等。這些信息有助于更好地對品牌屬性進行刻畫。因此設(shè)計如表 2所示的品牌庫結(jié)構(gòu)。設(shè)備的所屬國家字段, 其目的是為了更好的統(tǒng)計品牌庫中收集的品牌數(shù)量在國內(nèi)外的分布情況。對于品牌和設(shè)備廠商的關(guān)系, 一個設(shè)備廠商下會有多個不同的品牌, 但是一個品牌只能屬于一個設(shè)備廠商。而對于在設(shè)備品牌庫中設(shè)置設(shè)備品牌鏈接和設(shè)備品牌描述信息字段, 則是為了方便進一步了解設(shè)備品牌的其它具體信息, 更好和更全面的掌握識別出來品牌設(shè)備的其他產(chǎn)品屬性。

        圖3 物聯(lián)網(wǎng)設(shè)備屬性劃分標(biāo)準Figure 3 Standard for attribute classification of IoT device

        表2 設(shè)備品牌庫結(jié)構(gòu)Table 2 Structure of IoT device manufacture database

        3.2.3 設(shè)備型號庫構(gòu)建

        設(shè)備型號庫構(gòu)建的目的是通過型號庫中的設(shè)備型號信息與待識別的協(xié)議標(biāo)語信息比較, 過濾出待識別設(shè)備標(biāo)語信息中的型號信息, 從而標(biāo)記出設(shè)備的型號, 根據(jù)設(shè)備產(chǎn)品屬性信息庫的劃分標(biāo)準, 進一步推導(dǎo)出設(shè)備所屬類型、類別以及品牌信息。通過構(gòu)建的設(shè)備型號庫可知設(shè)備的品牌信息, 通過得到的設(shè)備品牌信息, 則可以在品牌庫中進一步查詢獲取設(shè)備品牌相關(guān)的其他信息。如圖 4所示, 圖中TEL-NET協(xié)議中的BCM96338是設(shè)備型號, Router代表其設(shè)備類型, 根據(jù)型號庫, 可以推斷其品牌為Beet-el, 同樣已知了設(shè)備的型號信息之后, 可以獲取設(shè)備類別類型信息。因此, 構(gòu)建表3所示的型號庫結(jié)構(gòu), 增加該型號對應(yīng)的品牌、類型、類別信息。

        3.2.4 設(shè)備品牌型號庫自動化收集框架

        在品牌型號庫模型構(gòu)建好后, 下一步則為收集設(shè)備品牌和型號等屬性信息。但是由于物聯(lián)網(wǎng)設(shè)備海量異構(gòu), 物聯(lián)網(wǎng)設(shè)備品牌和型號種類龐大, 若靠人工收集物聯(lián)網(wǎng)設(shè)備品牌和型號信息, 難度較大。一是人工收集成本太高, 二是人工收集對于發(fā)現(xiàn)新設(shè)備品牌和型號也相對滯后。

        表3 設(shè)備型號庫結(jié)構(gòu)Table 3 Structure of IoT device model database

        一般情況下, 設(shè)備品牌和型號信息可以在各廠商的官網(wǎng)上查到對應(yīng)的信息, 常規(guī)的品牌型號爬取需要對各廠商的網(wǎng)站分別進行爬取, 過程較為煩瑣。但發(fā)現(xiàn)各大物聯(lián)網(wǎng)設(shè)備廠商下屬有多個代理廠商,代理廠商會將設(shè)備基本屬性公布在第三方電商平臺網(wǎng)站上, 如亞馬遜, ZOL, IT168等。圖 5顯示的是ZOL上搜索打印機顯示結(jié)果, 可以發(fā)現(xiàn)產(chǎn)品屬性品牌和型號都結(jié)構(gòu)化的呈現(xiàn)在網(wǎng)頁上, 包括該設(shè)備是否具備聯(lián)網(wǎng)功能, 對于不具備聯(lián)網(wǎng)功能的型號, 收集框架并不會將其爬取, 如愛普生R330這款打印機,收集框架并不會將其收錄。通過對這部分第三方電商平臺上的設(shè)備基本屬性信息進行爬取與收集, 可以降低構(gòu)造爬蟲的開銷, 同時收集更為方便。

        本文依據(jù)此類網(wǎng)站網(wǎng)頁展示的品牌、型號等結(jié)構(gòu)化特性, 提出一種設(shè)備品牌、型號自動化收集框架。自動化的爬取和收集設(shè)備品牌、型號等屬性, 使得收集設(shè)備品牌和型號的方法更具有一般性, 若有新的需求可以增加對應(yīng)的爬蟲, 具有良好擴展性,并能周期性更新和收集品牌和型號。

        圖4 協(xié)議標(biāo)語部分信息Figure 4 Part information of protocol banners

        圖5 電商平臺結(jié)構(gòu)化的品牌型號Figure 5 Structured manufacture and model of E-commerce platform

        圖6為品牌型號庫自動化收集框架, 基于Python的Scrapy架構(gòu), 使用異步網(wǎng)絡(luò)框架Twisted, 實現(xiàn)了對產(chǎn)品屬性的自動化收集工作??蚣芊譃樗膫€過程: 啟動過程, 數(shù)據(jù)解析過程, 數(shù)據(jù)獲取歸一化過程,自動入庫過程。

        (1) 啟動過程

        根據(jù)需求, 設(shè)定了兩套啟動方案, 其一為主動啟動, 方便配置待爬取網(wǎng)站, 待爬取類型、品牌、型號等屬性信息。其二為定時啟動, 通過設(shè)定爬取周期,定時對特定網(wǎng)站進行爬取。

        (2) 數(shù)據(jù)解析過程

        數(shù)據(jù)解析過程包含兩個步驟, 首先啟動爬蟲框架對目標(biāo)網(wǎng)頁進行特定信息收集, 即對設(shè)備產(chǎn)品屬性頁面進行特定信息收集; 然后使用對應(yīng)網(wǎng)頁的解析規(guī)則獲取產(chǎn)品屬性元素, 即品牌、型號以及基本參數(shù)。對于非聯(lián)網(wǎng)設(shè)備進行剔除, 因為本框架對物聯(lián)網(wǎng)的識別是基于遠程連接獲取的標(biāo)語信息, 對于非聯(lián)網(wǎng)的設(shè)備不適用。

        根據(jù)不同網(wǎng)站的頁面結(jié)構(gòu)及其特性, 需要針對對應(yīng)網(wǎng)站建立產(chǎn)品屬性提取規(guī)則, 構(gòu)建對應(yīng)網(wǎng)站頁面解析器, 完成對產(chǎn)品屬性的解析。在提取設(shè)備頁面上的品牌型號信息時, 需要提取設(shè)備的品牌、設(shè)備的型號、型號的相關(guān)描述信息、型號的標(biāo)簽信息以及設(shè)備型號圖片等。

        (3) 數(shù)據(jù)獲取歸一化過程

        數(shù)據(jù)獲取歸一化, 其目的是將(2)過程得到的頁面面元素信息歸一化為品牌元素(品牌中文、品牌英文和品牌參數(shù)), 型號元素(型號名稱、型號標(biāo)簽、對應(yīng)型號設(shè)備鏈接、型號詳情、型號圖片和型號參數(shù))和類型元素。其中品牌元素的中英文通過程序調(diào)用有道詞典API自動獲取。

        (4) 自動化入庫過程

        根據(jù)數(shù)據(jù)獲取歸一化過程可以得到品牌、型號和類型的三元組關(guān)系。將品牌元素自動存儲到品牌庫中, 將品牌英文, 型號元素, 類型元素以及根據(jù)產(chǎn)品屬性分層標(biāo)準得到的類別信息自動存儲到型號庫中。從而完成了品牌庫和型號庫數(shù)據(jù)自動收集過程。

        圖6 物聯(lián)網(wǎng)設(shè)備品牌型號自動化收集框架Figure 6 Automatic collecting framework of IoT device manufacture and model

        如圖7所示為自動化收集框架從2017年9月份至2018年1月份累計收集到的品牌與型號數(shù)量情況,可以發(fā)現(xiàn), 到 2018年1月份, 去重后的品牌種類達到2397種, 去重后的型號種類達到56282。

        圖7 設(shè)備品牌型號統(tǒng)計圖Figure 7 IoT device manufacture and model statistics

        2017年8月份代表當(dāng)時收集到的人工指紋情況。到2018年1月份, 與人工指紋相比, 自動化收集框架新增品牌種類2227種, 新增型號種類54439種。圖8展示的為隨著時間的推移, 工業(yè)控制系統(tǒng)、路由交換系統(tǒng)以及視頻監(jiān)控系統(tǒng)三類不同設(shè)備類別識別數(shù)量的變化情況。對圖8的分析發(fā)現(xiàn), 從2017年9月份到2017年12月份, 視頻監(jiān)控系統(tǒng)識別數(shù)量保持持續(xù)性增長, 但從 2018年開始出現(xiàn)下跌, 同樣變化的還有工控系統(tǒng)。原因在于之前被識別為視頻監(jiān)控系統(tǒng)的設(shè)備出現(xiàn)了一定的誤報率, 經(jīng)過對算法的改進, 將識別準確率提升到90%以上, 因而剔除了這些誤報設(shè)備,導(dǎo)致了識別數(shù)量的下降。同樣情況的還有工控系統(tǒng)。而可識別的路由交換系統(tǒng)的數(shù)量, 在保證較高準確率的前提下, 實現(xiàn)了與品牌型號數(shù)量的同步增長。

        3.3 標(biāo)語數(shù)據(jù)采集與預(yù)處理模塊

        標(biāo)語采集是指采集全網(wǎng)或者特定網(wǎng)絡(luò)范圍內(nèi)的基于TCP或者UDP協(xié)議的應(yīng)用層協(xié)議標(biāo)語信息。利用全連接或半連接的方式發(fā)現(xiàn)設(shè)備存活端口, 接著對這些設(shè)備存活端口構(gòu)造并發(fā)送特定協(xié)議探測包,獲取存活端口的響應(yīng)信息, 這部分響應(yīng)包信息被稱為協(xié)議標(biāo)語信息。圖9顯示的是一種基于TCP協(xié)議獲取協(xié)議標(biāo)語信息的方式。

        協(xié)議標(biāo)語信息分為兩種, 一種是可讀字符串標(biāo)語, 一種是不可讀字符串標(biāo)語。針對不同協(xié)議標(biāo)語設(shè)計不同的預(yù)處理流程。

        對可讀協(xié)議標(biāo)語, 首先需要過濾掉非物聯(lián)網(wǎng)設(shè)備, 為了過濾此類非物聯(lián)網(wǎng)設(shè)備的協(xié)議標(biāo)語信息,建立了一個非物聯(lián)網(wǎng)設(shè)備關(guān)鍵詞庫, 如 Nginx或者Apache等, 這種詞匯標(biāo)識了該設(shè)備有很大概率為WEB服務(wù)器。判讀特定協(xié)議標(biāo)語在特定字段上的詞是否在非物聯(lián)網(wǎng)設(shè)備關(guān)鍵詞庫內(nèi), 若在則標(biāo)記此設(shè)備為非物聯(lián)網(wǎng)設(shè)備, 排除掉此設(shè)備。接著需要把冗余部分信息剔除, 如Telnet協(xié)議標(biāo)語信息, 其中存在不少冗余信息, 如 等, 需要將特殊符號、標(biāo)點符號以及不可打印字符剔除。對于單個詞語中的詞語長度小于3的, 直接刪除該詞語; 然后根據(jù)過濾規(guī)則庫中的規(guī)則, 進一步過濾掉混淆字符, 比如日期、無用數(shù)字等。為了進一步減少不相關(guān)字符串的干擾, 對剩余的協(xié)議標(biāo)語信息使用自然語言處理的方式, 將NLTK(Natural Language Toolkit)庫中收集的英文停用詞在協(xié)議標(biāo)語中刪除。接著使用 NLTK庫中Tokenize分詞工具對剩余協(xié)議標(biāo)語進行分詞, 得到分詞后的標(biāo)語詞匯列表。

        圖8 類別識別數(shù)量統(tǒng)計圖Figure 8 Recognizable category statistics

        圖9 TCP協(xié)議標(biāo)語抓取Figure 9 Capturing TCP banner

        對于不可讀字符串協(xié)議, 需要將其轉(zhuǎn)碼后, 得到可讀的形式, 然后復(fù)用可讀字符串處理流程。

        經(jīng)過以上預(yù)處理后的標(biāo)語信息, 是后續(xù)用于設(shè)備產(chǎn)品屬性識別的關(guān)鍵基礎(chǔ)。

        3.4 設(shè)備產(chǎn)品屬性分級識別模塊

        圖10顯示了FTP、RTSP等8種不同類型的協(xié)議標(biāo)語信息, 根據(jù)協(xié)議的標(biāo)語信息分析可以發(fā)現(xiàn),若使用產(chǎn)品屬性信息庫與協(xié)議標(biāo)語直接比較存在許多困難, 其困難主要體現(xiàn)在: (1)協(xié)議種類多樣化, 有的通用協(xié)議如SNMP返回16進制字符串, 有的通用協(xié)議如 Http返回字符串, 還有一些工控設(shè)備專有協(xié)議如Ethernet/ip返回是鍵值對的形式。協(xié)議標(biāo)語內(nèi)容格式不一致直接導(dǎo)致識別方法無法提取有效的信息來進行識別, 需要確定一種讓識別更加有效的數(shù)據(jù)提取方案。(2)協(xié)議標(biāo)語信息內(nèi)容復(fù)雜, 在設(shè)備的協(xié)議標(biāo)語信息中, 設(shè)備信息雜糅多樣, 有的標(biāo)語信息中只有類型、品牌或者型號信息的一種, 有的標(biāo)語信息中含有此三種屬性的兩種或者三種。

        圖10 多種類型協(xié)議標(biāo)語Figure 10 A great diversity of protocol banners

        為了解決以上困難, 在保證型號識別準確率和品牌型號召回率的情況下, 本論文提出并實現(xiàn)基于搜索的設(shè)備產(chǎn)品屬性識別框架。如圖 11所示, 本框架分為四個部分, 分別為數(shù)據(jù)采集部分, 數(shù)據(jù)預(yù)處理部分, 信息庫匹配部分和人工驗證反饋部分。

        針對困難一實現(xiàn)了特定協(xié)議解析器方法, 針對特定協(xié)議標(biāo)語內(nèi)容格式, 如3.3節(jié)所述的方案采用對應(yīng)協(xié)議解析器, 完成協(xié)議有效信息的獲取與預(yù)處理;本框架針對困難二實現(xiàn)了分級識別方法, 按照順序依次識別出協(xié)議信息中的類型、品牌和型號。由于3.3節(jié)介紹了相關(guān)數(shù)據(jù)采集與預(yù)處理部分, 因此本節(jié)著重介紹屬性信息庫匹配和人工驗證反饋部分。

        選擇類型、品牌、型號過濾順序的原因是, 協(xié)議標(biāo)語的語義信息對于識別研究是非常重要的, 比如三星有款打印機型號名為100, 若直接用型號名匹配,對于返回標(biāo)語信息中帶有 100字樣的都會被識別為三星打印機, 這種完全脫離語義的識別模式大大降低識別準確率。但是, 當(dāng)配合上類型或者品牌信息,可以有效對 100這個字符串進行篩選, 也就是說沒有過濾品牌或者類型, 單純只有型號, 該設(shè)備并不會被成功識別。

        因此, 本文采用類型或者品牌結(jié)合型號的方式共同對設(shè)備進行識別。其次, 利用信息庫可以獲取除設(shè)備類型、品牌、型號之外的其他設(shè)備產(chǎn)品屬性信息, 比如設(shè)備廠商、官網(wǎng)等。圖12顯示信息庫匹配的 3個階段: (1)類型匹配階段; (2)品牌匹配階段;(3)型號匹配階段。通過以上3個階段, 可以過濾大部分物聯(lián)網(wǎng)設(shè)備產(chǎn)品基本信息。最后本文通過驗證反饋的方式, 進一步提高設(shè)備識別準確率。

        3.4.1 設(shè)備類型匹配階段

        物聯(lián)網(wǎng)設(shè)備類型匹配階段, 是使用類型庫中的類型與標(biāo)語詞匯列表中的詞進行匹配, 得到設(shè)備的類型, 如算法1所示。因為標(biāo)語與類型集合中存在大小寫, 而匹配算法對大小寫敏感, 因而需要將標(biāo)語詞與類型集合全轉(zhuǎn)為小寫, 接著把標(biāo)語中分詞后的列表中Lbanner每個元素與已有設(shè)備類型集合Stype進行比較, 最終得到過濾類型后的標(biāo)語詞匯列表(Lftbl)。

        圖11 產(chǎn)品屬性識別框架Figure 11 Product properties recognition framework

        圖12 階段匹配識別過程Figure 12 Phase matching

        算法1. 類型匹配算法.

        輸入: 標(biāo)語分詞后的列表Lbanner, 設(shè)備類型集合Stype

        輸出: 過濾設(shè)備類型標(biāo)簽Ttype, 過濾類型后的標(biāo)語詞匯列表Lftbl

        過程 1.判斷Lbanner是否有元素在Stype

        3.4.2 設(shè)備品牌匹配階段

        物聯(lián)網(wǎng)設(shè)備品牌匹配階段, 是使用品牌庫中的品牌與過濾類型后的標(biāo)語詞匯列表中的詞進行匹配,得到設(shè)備的品牌, 如算法2所示。因為品牌集合中存在大小寫, 而匹配算法對大小寫敏感, 因而需要將品牌集合全轉(zhuǎn)為小寫, 接著把過濾類型后的標(biāo)語詞匯列表Lftbl中的每個元素與已有設(shè)備品牌集合Sbrand進行比較, 最終得到過濾品牌后的標(biāo)語詞匯列表(Lftbbl)以及過濾得到品牌(Tbrand)。

        算法2. 品牌匹配算法.

        輸入: 過濾類型后的標(biāo)語詞匯列表Lftbl, 設(shè)備品牌集合Sbrand

        輸出: 過濾設(shè)備品牌標(biāo)簽Tbrand, 過濾類型、品牌后的標(biāo)語詞匯列表Lftbbl

        過程 1.判斷Lftbl是否有元素在Sbrand

        3.4.3 設(shè)備型號匹配階段

        通過3.2節(jié)自動構(gòu)建的自動爬取框架, 當(dāng)前已收集的物聯(lián)網(wǎng)設(shè)備類型有53種, 已收集品牌有2082個,所以對于類型和品牌直接使用庫匹配過濾, 但是對于型號匹配識別存在如下兩個問題:

        (1) 由于型號庫數(shù)量較大, 有52617個不同型號,直接遍歷型號庫中所有型號與Lftbbl中的詞匯進行比較, 時間復(fù)雜度高;

        (2) 即使當(dāng)前收集了萬數(shù)級的型號, 但仍存在部分未收集完全的型號。

        因此, 本文根據(jù)型號庫中收集到的型號信息規(guī)律, 如表 4型號規(guī)則分析表所示, 構(gòu)造正則表達式,通過這部分正則, 可篩選出潛在的設(shè)備型號。通過實驗分析, 經(jīng)過正則表達式抽取, 型號匹配時間降低了一倍。同時為了驗證正則表達式的科學(xué)性, 通過使用正則表達式對所有收集的型號進行過濾驗證, 發(fā)現(xiàn)已收集的所有型號都滿足表4對應(yīng)的規(guī)則。

        表4 型號規(guī)則分析表Table 4 Model rule analysis table

        另外, 經(jīng)過調(diào)研后發(fā)現(xiàn), 有的品牌的部分型號名稱相似, 直接字符串比較可能會導(dǎo)致部分未收集的型號丟失, 如表5所示, ??低旸VR存在極其相似的型號。因此, 本文采用字符串關(guān)聯(lián)算法來匹配識別, 找出更多設(shè)備的型號, 并且根據(jù)同一系列的設(shè)備型號推算出設(shè)備的品牌、類型以及類別信息。將這部分潛在的設(shè)備型號與型號庫中的型號進行相似度匹配識別, 將滿足閾值的標(biāo)語型號輸出, 得到設(shè)備型號。這樣做不僅降低了與型號庫比較次數(shù), 提高了整體效率, 更是克服了因為型號庫可能收集不全而導(dǎo)致的型號未能正確識別的其他相似型號設(shè)備的問題。

        為了描述方便, 定義設(shè)備型號全集為Smodel, 特定類型下的設(shè)備型號集合為Stmodel, 特定品牌下的設(shè)備型號集合為Sbmodel, 特定類型和特定品牌下的設(shè)備型號集合為Stbmodel其中Stmodel?Smodel,Sbmodel?Smodel,Stbmodel?Stmodel,Stbmodel?Sbmodel。算法具體描述如算法3所示, 通過將算法1和2中得到的設(shè)備類別、品牌信息作為輸入, 縮小型號庫范圍, 接著利用正則表達式, 提取Lftbbl中潛在的型號, 對這部分潛在型號與型號庫中的型號, 調(diào)用算法 4中的型號相似度比較算法, 得到滿足閾值的型號信息, 算法 4中LevenshteinRatio被用來計算兩個字符之間相似度。

        表5 相似型號分析表Table 5 Similarity model analysis table

        算法3. 型號匹配算法

        輸入: 過濾類型、品牌后的標(biāo)語詞匯列表Lftbbl,設(shè)備型號集合Smodel, 設(shè)備類型標(biāo)簽Ttype, 設(shè)備品牌標(biāo)簽Tbrand, 相似度匹配閾值TMS

        輸出: 過濾設(shè)備型號標(biāo)簽Tmodel

        過程 1. 根據(jù)Ttype,Tbrand篩選出型號SRM

        過程 2. 正則表達式提取潛在型號

        過程 3. 潛在型號與型號集合元素進行相似度比對

        算法4. 型號相似度比較算法ModelSimilarity.

        輸入: 潛在型號candmodel, 類型、品牌過濾后的型號集合SRM, 型號相似度門限TMS

        輸出: 相似型號列表Lsm

        過程 1. 分治法求潛在型號與型號集合元素間的LevenshteinRatio距離

        為了選取TMS的參數(shù)具體的值, 設(shè)計TMS參數(shù)選擇實驗, 具體的實驗步驟如下:

        (1) 從型號庫中隨機選擇 20個不同的型號, 每個型號數(shù)量為 10, 總共構(gòu)成 200個型號數(shù)據(jù)集。型號包括的設(shè)備類型有IP Camera、PLC、路由器和打印機, 覆蓋的設(shè)備品牌有18種。此處設(shè)每一種系列的型號數(shù)據(jù)屬于一類, 構(gòu)成的類別向量用Y表示, 則Y=(y1,y2,…,y20), 型號集合構(gòu)成X,X=(x1,x2,…,x200)。設(shè)xmn為X集合中屬于Y中某一類的型號,n的取值為1,2,3,…,20,m的取值為1,2,3,…,200;

        (2) 將每一系列的型號字符串進行排序, 即將屬于Y每一類的X進行排序;

        (3) 從每一類排好序的型號中隨機選擇一個型號作為此類的基準型號, 記為Qs=(xy1,xy2,…,xy20), 基準型號集中有20個型號, 每一個型號都屬于Y中的不同類;

        (4) 將Qs中的每一個型號與X中的每一個型號分別進行LevenshteinRatio距離相似度計算, 得到Qs中的每一類型號與X中的每個型號的相似度, 以及每一個相似度下的型號對, 即(xyn,xm),其中n的取值為1,2,3,…,20,m的取值為1,2,3,…,200;

        (5) 通過將(4)得到的相似度與TMS比較, 若相似度大于TMS, 則將相似度對應(yīng)的型號對中的xm歸類為xyn, 記為x*mn從而得到每個xyn下的型號分類結(jié)果;

        (6) 最后根據(jù)每個xyn下的型號分類結(jié)果, 求每個xyn類別下的型號分類的準確率和召回率; 其中型號分類準確率用Pm表示, 型號分類召回率用Rm表示。計算公式如下:

        (7) 計算型號分類準確率的均值和方差, 型號分類召回率的均值和方差;

        (8) 設(shè)置TMS的閾值范圍為 50%~100%, 每隔10%設(shè)置一次TMS閾值取值, 即TMS閾值為[50%, 60%,70%, 80%, 90%, 100%], 將步驟(5)到步驟(7)重復(fù)操作。

        得到的實驗結(jié)果如表 6所示。為了保證在識別準確的情況下召回更多種類的型號, 因此TMS的取值為90%最合適。

        由于TMS是在小范圍型號數(shù)據(jù)集上進行的實驗,在整個型號數(shù)據(jù)集上并不具有說服依據(jù), 因此, 本文選擇在整個型號庫中進行實驗, 驗證TMS取值的科學(xué)性。實驗步驟同小范圍型號數(shù)據(jù)集, 最終得到實驗結(jié)果如表7所示。

        表6 相似度閾值小范圍取值分析Table 6 A small range value analysis of similarity degree threshold

        表7 相似度閾值大范圍取值分析Table 7 A large range value analysis of similarity degree threshold

        觀察發(fā)現(xiàn)當(dāng)TMS選擇90%時, 準確率在大范圍型號數(shù)據(jù)集上的準確率只有 96.90%, 而不是小范圍得到的 100%, 經(jīng)過對數(shù)據(jù)集的分析發(fā)現(xiàn), 存在部分不同類型或者品牌的型號極其相似, 但由于型號相似比對算法基于 Levenshtein距離, 因而不同類型或品牌且相似型號計算的距離會大于設(shè)定的TMS。比如HP有一款型號為6000r的服務(wù)器, 同時IBM還有一款6000R的服務(wù)器, 根據(jù)LevenshteinRatio計算導(dǎo)致這 2款不同品牌的設(shè)備有可能被識別為一個產(chǎn)品,因此導(dǎo)致了在準確率方面略有下降, 但該準確率在可接受范圍內(nèi)。與TMS取100%相比, 發(fā)現(xiàn)了雖然準確率略有降低, 但召回率得到了提升, 證明在大范圍數(shù)據(jù)集上, 本方法可以有效找到更多相似的型號。綜合以上原因, 繼續(xù)選擇TMS為90%。

        3.4.4 驗證反饋

        數(shù)據(jù)預(yù)處理過程中的關(guān)鍵字提取部分的過濾規(guī)則庫是根據(jù)初始的設(shè)備協(xié)議標(biāo)語信息樣本集合提取出來的。但通常情況下能夠接觸的樣本集合也比較有限, 根據(jù)少量的樣本集合獲取得到的過濾規(guī)則庫通常是有偏的, 不全面的, 這樣最終也會影響設(shè)備匹配識別的準確率。例如, 表8給出的是FTP協(xié)議原始標(biāo)語, 通過最初始的設(shè)備過濾規(guī)則庫, 在經(jīng)過數(shù)據(jù)預(yù)處理之后得到的標(biāo)語詞匯列表如表 9所示。然后通過匹配識別之后, 會將此標(biāo)語識別成型號為5070的富士打印機。但實際上根據(jù)此FTP協(xié)議標(biāo)語是無法獲取設(shè)備的品牌和型號。通過觀察發(fā)現(xiàn), “You are user number N of M”是FTP協(xié)議標(biāo)語返回格式的一種, 其目的是告訴訪問者的順序, 因而此語句中的字符不能用來區(qū)分設(shè)備的品牌或型號, 反而會影響到最終的設(shè)備型號匹配識別的準確率。

        表8 FTP協(xié)議標(biāo)語原始信息樣例Table 8 Raw FTP protocol banner

        表9 預(yù)處理后的FTP協(xié)議標(biāo)語信息樣例Table 9 Preprocessed FTP protocol banner

        經(jīng)過上述驗證發(fā)現(xiàn), 需要將 FTP協(xié)議標(biāo)語中的“You are user number N of M”這句話過濾, FTP協(xié)議標(biāo)語的過濾規(guī)則庫需要添加一條新的規(guī)則。

        為了驗證反饋階段對識別方法的影響, 本次實驗利用了通用協(xié)議標(biāo)語——FTP協(xié)議標(biāo)語數(shù)據(jù)集通過如下步驟進行驗證:

        (1) 數(shù)據(jù)獲取, 通過 Zgrab[20]探測工具對全網(wǎng)開放FTP協(xié)議的設(shè)備進行標(biāo)語抓取, 得到超過2000萬的設(shè)備FTP協(xié)議標(biāo)語信息;

        (2) 識別匹配, 使用品牌型號庫設(shè)備識別模塊對FTP協(xié)議標(biāo)語數(shù)據(jù)進行處理和識別;

        (3) 結(jié)果統(tǒng)計, 對識別的結(jié)果進行統(tǒng)計;

        (4) 抽樣驗證, 抽樣驗證識別結(jié)果的準確性(此處主要是對型號的識別準確率進行抽樣驗證);

        (5) 根據(jù)驗證結(jié)果, 判斷識別型號錯誤的原因;

        (6) 更新過濾規(guī)則庫的規(guī)則;

        (7) 再次識別, 重復(fù)步驟(2)—(6), 直至規(guī)則無法進一步添加。

        在使用品牌型號庫識別方法對FTP協(xié)議標(biāo)語識別過程中, 新增了兩條規(guī)則, 并且將此方法在FTP協(xié)議標(biāo)語的設(shè)備型號識別準確率從 64.8%提高到了94%。如上文所述, 規(guī)則和協(xié)議之間存在映射關(guān)系。其中新增的兩條規(guī)則如下:

        規(guī)則 1: 若設(shè)備 FTP協(xié)議標(biāo)語信息中存在“You are user number N of M”,在數(shù)據(jù)預(yù)處理階段將此句話刪除, 如表10所示。在全網(wǎng)中, 設(shè)備FTP協(xié)議標(biāo)語信息中存在此語句的標(biāo)語有 3165393條, 而錯誤的將此語句的數(shù)字識別成型號的有659945條, 占比高達 21%; 增加此規(guī)則之后, 可以將型號準確率提高到84%。

        規(guī)則 2: 根據(jù)品牌型號庫算法模型的識別方法,若在前兩階段都未識別出設(shè)備的產(chǎn)品屬性, 則在第三階段即型號匹配識別階段, 增加一個過濾數(shù)字字符串過程。其意義是根據(jù)設(shè)備FTP協(xié)議標(biāo)語中進行了規(guī)則1過濾之后, 仍然存在26萬左右的數(shù)據(jù)其標(biāo)語中含有數(shù)字字符串, 但是不能代表設(shè)備的型號,因此需要將其過濾。增加規(guī)則2之后, 可以將型號準確率從84%提高到94%。表11展示了人工驗證反饋對型號準確率的影響。

        表10 規(guī)則處理后的FTP協(xié)議標(biāo)語信息樣例Table 10 FTP protocol banner after regularization processing

        表11 人工驗證反饋影響Table 11 Feedback effect of manual verification

        4 框架性能評估

        由于物聯(lián)網(wǎng)設(shè)備品牌型號總數(shù)較多, 為了驗證本文提出的框架對品牌型號識別覆蓋度情況, 分別利用框架與人工指紋在 4.1節(jié)進行品牌型號識別覆蓋度驗證實驗。算法4提出了正則過濾型號的方法,為了驗證該方法有效性, 在4.2節(jié)設(shè)計了正則抽取對算法效率的影響實驗。最后, 為了驗證整體框架識別的準確性與細粒度的情況, 在4.3節(jié)設(shè)計了2種視頻監(jiān)控系統(tǒng)協(xié)議 Onvif、FTP的型號準確率驗證實驗,在4.4節(jié)設(shè)計了2種工控系統(tǒng)協(xié)議Ethernet/ip、Bacnet的型號準確率驗證實驗。

        4.1 品牌型號識別覆蓋度驗證

        為了驗證基于搜索的設(shè)備產(chǎn)品屬性識別框架是否能夠召回更多設(shè)備品牌和型號, 本次實驗利用了全網(wǎng)掃描探測的部分協(xié)議標(biāo)語數(shù)據(jù)集對品牌和型號種類覆蓋度進行了驗證, 具體的驗證步驟如下:

        (1) 數(shù)據(jù)獲?。?對20個工控專有協(xié)議、3個視頻監(jiān)控專有協(xié)議、3個打印機專有協(xié)議和6個通用協(xié)議在全網(wǎng)空間進行標(biāo)語信息抓取;

        (2) 識別匹配: 使用基于搜索的設(shè)備識別框架以及人工收集指紋分別對上述32個協(xié)議標(biāo)語信息數(shù)據(jù)集分別識別;

        (3) 結(jié)果統(tǒng)計: 統(tǒng)計步驟(2)的識別結(jié)果, 將識別結(jié)果按照類別、類型、品牌和型號聚類;

        (4) 結(jié)果分析: 通過對聚類結(jié)果分析可知, 經(jīng)過4個月自動化構(gòu)建的品牌型號庫識別出的物聯(lián)網(wǎng)設(shè)備品牌種類超過了1200種, 識別的物聯(lián)網(wǎng)設(shè)備型號種類超過了12000種, 識別的數(shù)量遠遠大于2年收集到的人工指紋庫的170種設(shè)備品牌, 1843種設(shè)備型號。

        通過品牌型號庫的識別方法, 能夠有效的發(fā)現(xiàn)網(wǎng)絡(luò)空間中的設(shè)備品牌和型號。與人工指紋收集相比, 本方法極大地提高了設(shè)備識別的覆蓋能力。

        4.2 正則抽取對算法影響

        由于型號庫中的型號數(shù)量龐大, 達到萬數(shù)量級,為了能夠達到快速匹配識別的效果, 故對已經(jīng)過濾完品牌和類型的標(biāo)語數(shù)據(jù)列表Lftbbl進行了正則抽取過程, 進一步過濾掉非型號相關(guān)詞匯。

        為了驗證在型號匹配識別之前加入正則抽取過程的確能夠節(jié)約時間, 故據(jù)此設(shè)計了一個對照實驗,通過對照實驗進行驗證。實驗步驟如下:

        (1) 數(shù)據(jù)獲?。?通過從 Censys中下載全網(wǎng)的FTP協(xié)議標(biāo)語數(shù)據(jù)、SSH協(xié)議標(biāo)語數(shù)據(jù)和 Http協(xié)議標(biāo)語數(shù)據(jù);

        (2) 數(shù)據(jù)過濾: 通過本章提到的非物聯(lián)網(wǎng)設(shè)備過濾方法分別對步驟(1)中的三個協(xié)議標(biāo)語數(shù)據(jù)過濾,分別得到三個協(xié)議標(biāo)語數(shù)據(jù)的物聯(lián)網(wǎng)設(shè)備數(shù)據(jù)集;保證得到的數(shù)據(jù)集在使用庫識別方法識別中, 一定會經(jīng)過類型、品牌和型號匹配識別階段;

        (3) 實驗數(shù)據(jù)抽?。?從步驟(2)中得到的三個協(xié)議標(biāo)語的數(shù)據(jù)集分別抽取 2萬條協(xié)議標(biāo)語數(shù)據(jù)作為實驗數(shù)據(jù), 即2萬條Http協(xié)議標(biāo)語數(shù)據(jù)集Ω1、2萬條FTP協(xié)議標(biāo)語數(shù)據(jù)集Ω2和2萬條SSH協(xié)議標(biāo)語設(shè)備數(shù)據(jù)集Ω3;

        (4) 對照實驗: 分別準備庫匹配算法的兩套程序A和B進行實驗, 其中A是在庫匹配算法中使用了正則抽取模塊、B是沒有使用正則抽取模塊的庫匹配算法。

        使用三組數(shù)據(jù)集分別對A和B進行測試, 計算A和B在完成三組數(shù)據(jù)集完整的識別過程中各自消耗的時間。

        實驗結(jié)果如表12所示。從實驗結(jié)果中可以看出,利用正則抽取方法對Lftbbl進行過濾可以節(jié)省更多的匹配時間, 即在庫匹配算法中使用正則抽取, 可以讓整個品牌型號庫識別方法達到更快的識別效果。通過實驗結(jié)果數(shù)據(jù)可知, 不使用正則抽取整個識別方法的時間是使用正則抽取所花的時間2倍到9倍左右, 因此正則抽取可以極大的提高算法的性能。

        表12 正則抽取對算法性能影響Table 12 Regular extraction effects on algorithm performance

        4.3 視頻監(jiān)控設(shè)備型號識別

        為了驗證物聯(lián)網(wǎng)設(shè)備識別框架對互聯(lián)網(wǎng)視頻監(jiān)控設(shè)備識別的有效性, 通過如下步驟進行驗證:

        (1) 數(shù)據(jù)獲?。?選取視頻監(jiān)控設(shè)備2個常用協(xié)議Onvif與FTP, 進行全網(wǎng)標(biāo)語抓取, 得到Onvif協(xié)議標(biāo)語813404條, FTP協(xié)議標(biāo)語13110691條;

        (2) 識別匹配: 使用本文提出的框架, 對得到的Onvif與FTP協(xié)議標(biāo)語信息進行識別, 得到識別結(jié)果,其中被識別為視頻監(jiān)控設(shè)備的數(shù)據(jù)分別為305622與12302條;

        (3) 數(shù)據(jù)集壓縮: 對識別出是視頻監(jiān)控設(shè)備的 2個協(xié)議數(shù)據(jù)進行壓縮, 去除重復(fù)標(biāo)語信息后, 得到Onvif協(xié)議覆蓋型號3441, FTP協(xié)議覆蓋型號378種;

        (4) 驗證結(jié)果: 通過對(3)去重之后的數(shù)據(jù)進行型號識別準確率驗證, 得到的設(shè)備型號識別準確率分別為97%與90.87%。

        通過對以上 2種不同視頻監(jiān)控設(shè)備常用協(xié)議進行識別, 如表 13所示, 可以發(fā)現(xiàn)本文提出的物聯(lián)網(wǎng)設(shè)備識別框架, 對不同協(xié)議可以達到不同型號識別準確率, 最高可以達到 97.00%, 最低可以達到90.87%。一定程度上可以說明本文提出的框架的確可以達到細粒度對視頻監(jiān)控設(shè)備的識別。

        表13 Onvif與FTP標(biāo)語VSS識別結(jié)果分析Table 13 VSS recognition results analysis of Onvif and FTP

        4.4 工控設(shè)備型號識別

        為了能夠驗證本識別框架對工業(yè)物聯(lián)網(wǎng)環(huán)境下的工控設(shè)備識別的有效性, 本次實驗利用工控設(shè)備專有協(xié)議標(biāo)語——Ethernet/ip與 Bacnet通過如下步驟進行驗證:

        (1) 數(shù)據(jù)獲?。?通過對全網(wǎng)開放 Ethernet/ip與Bacnet協(xié)議的設(shè)備進行標(biāo)語抓取, 得到設(shè)備Ethernet/ip協(xié)議標(biāo)語數(shù)據(jù)8759條, Bacnet協(xié)議標(biāo)語數(shù)據(jù)12203條;

        (2) 識別匹配: 使用本文提出的方法分別對得到的協(xié)議標(biāo)語數(shù)據(jù)進行識別, 得到識別結(jié)果, 其中Ethernet/ip識別出工控設(shè)備的數(shù)據(jù)為5811條, Bacnet識別出工控設(shè)備的數(shù)據(jù)為7361條;

        (3) 數(shù)據(jù)集壓縮: 對識別出是工控設(shè)備的數(shù)據(jù)進行壓縮, 去除重復(fù)的標(biāo)語信息后, 統(tǒng)計發(fā)現(xiàn)Ethernet/ip協(xié)議覆蓋型號種類290種, Bacnet協(xié)議覆蓋型號種類220種;

        (4) 驗證結(jié)果: 通過對(3)去重之后的數(shù)據(jù)進行型號識別準確率驗證, 得到的設(shè)備型號識別準確率分別為97.00%與97.77%。具體內(nèi)容如表14所示。

        通過對以上 2種不同工控系統(tǒng)設(shè)備專有協(xié)議進行識別分析, 本文提出的物聯(lián)網(wǎng)設(shè)備識別框架對工業(yè)物聯(lián)網(wǎng)環(huán)境下的工控設(shè)備識別仍然適用, 同時還能達到較高的型號識別準確率。

        本方法不僅僅支持Ethernet/ip與Bacnet協(xié)議, 同時還支持其他 18種的工控設(shè)備專有協(xié)議標(biāo)語, 但Shodan目前僅支持15種。本方法與物聯(lián)網(wǎng)設(shè)備搜索引擎Shodan在全網(wǎng)工控設(shè)備識別數(shù)量上比較如圖13所示。圖13顯示了11種不同工控設(shè)備數(shù)量對比, 除了fox協(xié)議識別數(shù)量比Shodan少之外, 剩余10種都是領(lǐng)先或者與Shodan持平。出現(xiàn)fox協(xié)議識別數(shù)量少于Shodan的現(xiàn)象, 有很大可能性是因為探測系統(tǒng)對fox協(xié)議探測數(shù)據(jù)包收集還不夠全, 導(dǎo)致識別出的fox設(shè)備數(shù)量稍微低于Shodan。

        表14 Ethernet/ip與Bacnet標(biāo)語ICS識別結(jié)果分析Table 14 Analysis of ICS recognition results of Ethernet/ip and Bacnet banners

        圖13 工控協(xié)議下的設(shè)備數(shù)量分析Figure 13 Number of recognizable ICS device statistics

        5 未來工作

        本文提出了一種基于搜索的物聯(lián)網(wǎng)設(shè)備產(chǎn)品屬性識別框架。收集了2397種的物聯(lián)網(wǎng)設(shè)備品牌種類,56282種物聯(lián)網(wǎng)設(shè)備型號種類, 確定了 10種設(shè)備類別, 目前可識別的物聯(lián)網(wǎng)品牌種類達到1200種以上,可識別物聯(lián)網(wǎng)型號種類達到 12000種以上。通過設(shè)計算法成功實現(xiàn)對物聯(lián)網(wǎng)設(shè)備協(xié)議標(biāo)語信息內(nèi)容的提取工作。本文還對公網(wǎng)上的視頻監(jiān)控設(shè)備系統(tǒng)以及工業(yè)控制系統(tǒng)進行了實驗。實驗表明, 本框架在對通用、專用協(xié)議, 視頻監(jiān)控和工控設(shè)備都有較好表現(xiàn),產(chǎn)品屬性識別準確率均超過90%。

        實驗表明, 盡管論文提出方法能夠?qū)崿F(xiàn)對設(shè)備產(chǎn)品屬性可以進行準確識別和標(biāo)定, 但在設(shè)備識別率方面并不高。實驗表明, 互聯(lián)網(wǎng)可探測存活設(shè)備有4~5億, 物聯(lián)網(wǎng)設(shè)備根據(jù)推斷在 1億左右(包含家用路由器), 而當(dāng)前能識別的設(shè)備不超過5000萬。主要問題包括:

        (1) 大量設(shè)備在進行協(xié)議標(biāo)語抓取過程中受到防火墻等防護設(shè)備的攔截, 導(dǎo)致很大一部分開放端口不能抓到正常返回的標(biāo)語信息;

        (2) 隨著安全意識的提升, 大量物聯(lián)網(wǎng)設(shè)備都在提供服務(wù)信息前增加統(tǒng)一認證過程, 僅通過標(biāo)語信息難以區(qū)分不同設(shè)備;

        (3) 部分探測數(shù)據(jù)包收集不夠完善, 導(dǎo)致探測獲取原始標(biāo)語信息的數(shù)量不全。

        未來將在探測的友好度、探測數(shù)據(jù)包的完整性以及探索除上層協(xié)議標(biāo)語外的其他設(shè)備特征提取技術(shù)和利用方法方面進行改進, 以提升對物聯(lián)網(wǎng)設(shè)備識別比例。

        猜你喜歡
        標(biāo)語型號準確率
        “三化”在型號研制中的應(yīng)用研究
        標(biāo)語變變變
        趣味(語文)(2021年3期)2021-07-16 06:46:18
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        型號產(chǎn)品配套管理模式探索與實踐
        標(biāo)語變變變
        “濫掛標(biāo)語”
        高速公路車牌識別標(biāo)識站準確率驗證法
        不同型號CTC/TDCS設(shè)備的互聯(lián)互通
        成人影院在线观看视频免费| 粗大挺进孕妇人妻在线| 性高朝久久久久久久| 国产一区二区三区视频网| 久久久久无码中文字幕| 色婷婷久久一区二区三区麻豆| 人妻夜夜爽天天爽三区丁香花 | 91人妻无码成人精品一区91| 亚洲av日韩精品久久久久久久 | 国产一级一区二区三区在线播放| 午夜久久精品国产亚洲av| 国产精品亚韩精品无码a在线| 亚洲黄色天堂网站在线观看禁18 | 80s国产成年女人毛片| 亚洲国产一区二区视频| 国产视频最新| 人人爽人人爱| 久久不见久久见www日本网| 日韩精品资源在线观看免费| ZZIJZZIJ亚洲日本少妇| 国产成人av片在线观看| 日本添下边视频全过程| 日韩精品一区二区三区av| 久久精品国产亚洲一区二区| а√天堂资源8在线官网在线 | 国产精品成人av在线观看| 成人免费无遮挡在线播放| 国产不卡在线观看视频| 日本高清一区二区三区视频 | 人妻 色综合网站| 精品亚洲一区二区三区四| 国产激情小视频在线观看| 国产aⅴ丝袜旗袍无码麻豆| 亚洲国产一区二区在线| 国产精品爽黄69天堂a | 国产毛多水多高潮高清| 久久久精品亚洲人与狗| 久久亚洲精精品中文字幕早川悠里 | 影音先锋久久久久av综合网成人| 亚洲精品天堂日本亚洲精品| 性色av成人精品久久|