亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)系型數(shù)據(jù)庫的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法

        2022-06-28 03:12:00年愛華
        關(guān)鍵詞:特征提取分類數(shù)據(jù)庫

        年愛華

        (蘭州現(xiàn)代職業(yè)學(xué)院 信息工程學(xué)院, 甘肅 蘭州 730300)

        為規(guī)范網(wǎng)絡(luò)管理工作,保障網(wǎng)絡(luò)安全,技術(shù)人員需對網(wǎng)絡(luò)設(shè)備進(jìn)行分類處理,而網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理效果,直接關(guān)系網(wǎng)絡(luò)設(shè)備分類成果。常規(guī)網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法以編程語言為基礎(chǔ),編寫開發(fā)工具類軟件,局限性較大,不能推廣普及。就此,關(guān)于新型網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法的研究具有鮮明現(xiàn)實(shí)意義。

        一、現(xiàn)有網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法

        現(xiàn)有網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法包括以下三種,處理原理不同,處理效果不同。

        (一)基于端口的預(yù)處理方法

        該方法原理如下:對比分析互聯(lián)網(wǎng)數(shù)字分配機(jī)構(gòu)公布的端口號和流量包頭端口號,分析流量數(shù)據(jù)的應(yīng)用類型歸屬狀況。例如,DNS域名解析服務(wù)的流量數(shù)據(jù)端口號為53;部署HTTP協(xié)議的網(wǎng)絡(luò)應(yīng)用流量數(shù)據(jù)端口號為80。同時(shí),有研究學(xué)者結(jié)合端口的固定性特征,提出不同預(yù)處理方法。如根據(jù)端口號處理UDP流量,準(zhǔn)確分類應(yīng)用類型;根據(jù)端口連接形式和并發(fā)連接數(shù)量,進(jìn)行應(yīng)用流量分類。在新時(shí)期背景下,網(wǎng)絡(luò)應(yīng)用數(shù)量逐漸增多,僅根據(jù)端口號難以準(zhǔn)確分類,特別是P2P應(yīng)用大都將固定端口更換為動(dòng)態(tài)端口,甚至引進(jìn)端口偽裝技術(shù),降低基于端口的預(yù)處理方法應(yīng)用效果[1]。

        (二)基于深層包檢測的預(yù)處理方法

        該方法原理如下:根據(jù)數(shù)據(jù)包的所有載荷內(nèi)容,如特定字符或特定模式等,識別分類流量。在實(shí)際應(yīng)用中,只需處理網(wǎng)絡(luò)流的數(shù)據(jù)包即可實(shí)施識別分類,并將識別分類提前至流量產(chǎn)生環(huán)節(jié)。有研究學(xué)者以深層包檢測為基礎(chǔ),應(yīng)用隨機(jī)森林算法,實(shí)施網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理;有研究學(xué)者以深層包檢測為基礎(chǔ),研發(fā)網(wǎng)絡(luò)管理、分類系統(tǒng)。但在實(shí)踐中,由于深層包檢測需逐一分析載荷內(nèi)容,工作量較大,如數(shù)據(jù)包的載荷內(nèi)容多,識別分類時(shí)間較長,預(yù)處理效率較低。同時(shí),目前大眾網(wǎng)絡(luò)安全意識增強(qiáng),加密技術(shù)得到普遍應(yīng)用,深層包檢測的實(shí)施面臨較大阻礙[2]。

        (三)基于統(tǒng)計(jì)的預(yù)處理方法

        該方法原理如下:根據(jù)不同網(wǎng)絡(luò)流數(shù)據(jù)的特征差異,進(jìn)行識別與分類,以機(jī)器學(xué)習(xí)或神經(jīng)網(wǎng)絡(luò)等技術(shù)為主,選擇合適的算法與模型,學(xué)習(xí)海量網(wǎng)絡(luò)流數(shù)據(jù)的特征,進(jìn)而網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理目標(biāo)。技術(shù)人員可根據(jù)不同網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理要求,開發(fā)不同功能的機(jī)器學(xué)習(xí)分類器,實(shí)現(xiàn)流分類處理;也可開發(fā)卷積和循環(huán)神經(jīng)網(wǎng)絡(luò)模型,從統(tǒng)計(jì)角度進(jìn)行網(wǎng)絡(luò)流數(shù)據(jù)處理。在基于統(tǒng)計(jì)的預(yù)處理方法中,需以網(wǎng)絡(luò)數(shù)據(jù)包頭信息為基礎(chǔ),包括網(wǎng)絡(luò)協(xié)議等內(nèi)容,具有獲取便利、處理效率高、分類準(zhǔn)確等優(yōu)勢。但其優(yōu)勢發(fā)揮受機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)模型及相關(guān)參數(shù)影響,模型訓(xùn)練所用的流量統(tǒng)計(jì)特征也會(huì)影響分類效果[3]。就此,在基于統(tǒng)計(jì)的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法應(yīng)用中,技術(shù)人員應(yīng)根據(jù)網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理的具體應(yīng)用場景,如惡意流數(shù)據(jù)預(yù)處理等,遵循細(xì)粒度原則進(jìn)行流量特征提取,選擇最具區(qū)分度的特征。

        二、基于關(guān)系型數(shù)據(jù)庫的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理

        通過上述網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法分析可知,基于統(tǒng)計(jì)的預(yù)處理方法優(yōu)勢更為顯著。本文提出基于關(guān)系型數(shù)據(jù)庫的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法,利用關(guān)系型數(shù)據(jù)庫的SQL在統(tǒng)計(jì)方面的優(yōu)勢,有效提取流量統(tǒng)計(jì)特征,進(jìn)一步優(yōu)化基于統(tǒng)計(jì)的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法,推廣普及。

        (一)關(guān)系型數(shù)據(jù)庫的相關(guān)概念

        在關(guān)系型數(shù)據(jù)庫應(yīng)用中,涉及如下概念:

        包,即網(wǎng)絡(luò)消息中最小單位的數(shù)據(jù)塊,用如下公式表示:

        P={P1,P2,…Pi,…}

        Pi={xi1,xi2,…xij,…}

        在式中,P是指網(wǎng)絡(luò)流數(shù)據(jù)中全部包的集合;Pi是指第i個(gè)包記錄;xij是指第i個(gè)包記錄的第j個(gè)屬性。這里的屬性包括包的長度、數(shù)據(jù)包的收發(fā)時(shí)間、數(shù)據(jù)包傳輸應(yīng)用的傳輸協(xié)議等。

        流,即相同五元組的組的所有包,用如下公式表示:

        F={F1|t1,F2|t2,…Fk|tk,…}

        Fk={P1|∈Fk,P2|∈Fk,…Pn|∈Fk,…}

        Pn=(xn1,xn2,…,xij,…);P1.xg=P2.xg=…=Pn.xg=…

        式中,F(xiàn)是指網(wǎng)絡(luò)流數(shù)據(jù)中心的全部流的集合;Fk是指一個(gè)流的全部包的集合;tk是指第k個(gè)流中第一個(gè)包的開始時(shí)間;Pn是指Fk內(nèi)的包;Pn.xg是指Pn的五元組。

        會(huì)話,即雙向流的所有包,發(fā)送和接收的兩個(gè)流視為一個(gè)會(huì)話[4]。

        (二)網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理流程

        在基于關(guān)系型數(shù)據(jù)庫的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理中,具體流程如下:一是原始網(wǎng)絡(luò)流數(shù)據(jù)的采集,要求數(shù)據(jù)為二進(jìn)制文件,存儲(chǔ)于硬盤空間內(nèi);二是數(shù)據(jù)包提取,選擇流量分析工具實(shí)施提取操作;三是記錄轉(zhuǎn)儲(chǔ),將提取的文本內(nèi)容以CSV文件格式存儲(chǔ),導(dǎo)入至數(shù)據(jù)庫表;四是應(yīng)用SQL進(jìn)行網(wǎng)絡(luò)流數(shù)據(jù)統(tǒng)計(jì)特征提取與統(tǒng)計(jì)工作,導(dǎo)出網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理結(jié)果。

        上述預(yù)處理過程的思路在于通過規(guī)則抽象處理統(tǒng)計(jì)特征,并將其和SQL語言實(shí)施細(xì)粒度綁定,構(gòu)建統(tǒng)計(jì)特征提取庫,在網(wǎng)絡(luò)流量分類需求多樣化發(fā)展趨勢下,統(tǒng)計(jì)特征提取庫內(nèi)容不斷增多,技術(shù)人員可選擇相應(yīng)模塊的方法,進(jìn)行流量特征提取,為基于統(tǒng)計(jì)的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理提供保障。由此可見,在網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理過程中,特征提取庫的構(gòu)建與應(yīng)用為關(guān)鍵要點(diǎn),應(yīng)遵循圖1的流程。

        圖1 特征提取庫的構(gòu)建與應(yīng)用流程要點(diǎn)

        結(jié)合上圖,在統(tǒng)計(jì)特征提取時(shí),應(yīng)結(jié)合網(wǎng)絡(luò)流量的五元組屬性,整合為不同類型的流,根據(jù)網(wǎng)絡(luò)流數(shù)據(jù)的分類場景要求,進(jìn)一步細(xì)分不同類型的流,實(shí)施分段統(tǒng)計(jì),完成流量統(tǒng)計(jì)特征的獲取。例如,在以固定包數(shù)為統(tǒng)計(jì)特征的預(yù)處理中,只需提取每個(gè)類型的流的前N個(gè)數(shù)據(jù)包,根據(jù)固定時(shí)間段,將每個(gè)類型的流中的數(shù)據(jù)包按照時(shí)間戳順序?qū)嵤w并處理。在此基礎(chǔ)上,不同統(tǒng)計(jì)特征規(guī)則抽象,在特征提取庫中對應(yīng)的SQL代碼塊不同。例如,在匯總五元組的規(guī)格抽象處理中,需應(yīng)用Group by srcIP,srcPort,dstIP,dstPort及protocal代碼塊。

        (三)網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理步驟

        基于上述流程思路,技術(shù)人員應(yīng)按照規(guī)范步驟進(jìn)行網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理,保障各個(gè)環(huán)節(jié)的文件格式與內(nèi)容符合處理要求,提高網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理可靠性。細(xì)化來說,網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理步驟如下:

        將目標(biāo)網(wǎng)絡(luò)的頂層交換機(jī)全部網(wǎng)絡(luò)接口實(shí)施端口鏡像處理,使接口數(shù)據(jù)轉(zhuǎn)移至獨(dú)立匯聚端口處,可由該端口將網(wǎng)絡(luò)流數(shù)據(jù)傳輸至數(shù)據(jù)采集主機(jī)中。為保障數(shù)據(jù)采集穩(wěn)定性,在主機(jī)中配置Wireshark軟件,負(fù)責(zé)流量采集工作。在軟件中設(shè)置pcap文件的存儲(chǔ)方式和路徑,與匯聚端口網(wǎng)卡連接,完成網(wǎng)絡(luò)流數(shù)據(jù)的監(jiān)聽與采集。

        利用tshark命令控制工具處理pcap文件,采集網(wǎng)絡(luò)流數(shù)據(jù)中所需的屬性值,如五元組、數(shù)據(jù)包的長度等,并將采集的屬性值以CSV格式存儲(chǔ)。按照相應(yīng)的所屬協(xié)議,Wireshark軟件支持超過幾十萬的屬性字段,可根據(jù)不同網(wǎng)絡(luò)流分類場景需求,進(jìn)行識別分類。

        選擇SQLyog或Navicat Premium兩種工具,對CSV文件實(shí)施圖形化界面操作,將其導(dǎo)入到MySQL數(shù)據(jù)中,完成后每個(gè)文件可構(gòu)建一個(gè)數(shù)據(jù)庫表。

        利用MySQL數(shù)據(jù)庫的查詢分析器工具和SQL語言,在構(gòu)建的數(shù)據(jù)庫表中,查詢統(tǒng)計(jì)所需的流統(tǒng)計(jì)特征值記錄,結(jié)合網(wǎng)絡(luò)設(shè)備或網(wǎng)絡(luò)應(yīng)用的類型,在特征值記錄中添加訓(xùn)練標(biāo)簽列。通過SQL語言的各類函數(shù),如count、max等,高效處理統(tǒng)計(jì)信息值。如果數(shù)據(jù)庫表的統(tǒng)計(jì)量較大,可選擇UNION語句。

        應(yīng)用Navicat Premium的導(dǎo)出功能,將查詢分析結(jié)果以CSV格式導(dǎo)出,作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練數(shù)據(jù)庫,完成網(wǎng)絡(luò)流數(shù)據(jù)的預(yù)處理。

        在上述過程中,如構(gòu)建的數(shù)據(jù)庫表字段較少,可重新進(jìn)行第二步,增加網(wǎng)絡(luò)流數(shù)據(jù)屬性值的提取數(shù)量,必要時(shí)可全部提取常用的屬性值或有價(jià)值的屬性值,在后續(xù)分析中選擇性應(yīng)用,避免返工,提高效率,降低成本。如獲得的最終結(jié)果不滿足神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練要求,可重新進(jìn)行第四步,選擇不同的統(tǒng)計(jì)特征組合,提取新的統(tǒng)計(jì)特征[5]。

        三、基于關(guān)系型數(shù)據(jù)庫的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理效果

        在明確基于關(guān)系型數(shù)據(jù)庫的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法后,開展實(shí)踐探究,驗(yàn)證該方法的可行性與使用效果。以某高校的數(shù)據(jù)中心為研究對象,采集其監(jiān)控安防系統(tǒng)的網(wǎng)絡(luò)流數(shù)據(jù),實(shí)施預(yù)處理實(shí)驗(yàn)。

        (一)數(shù)據(jù)樣本

        在該高校的監(jiān)控安防系統(tǒng)中,與各個(gè)區(qū)域的集中器進(jìn)行數(shù)據(jù)通信,集中器負(fù)責(zé)采集區(qū)域的溫濕度、火焰及煙霧等傳感器設(shè)備信心,與傳感器間的連接使用485接口,與監(jiān)控安防系統(tǒng)主機(jī)的連接使用RJ45接口。在實(shí)際運(yùn)行中,監(jiān)控安防系統(tǒng)的流量設(shè)備會(huì)遵循采集命令,在規(guī)定的時(shí)間點(diǎn)向服務(wù)器傳輸狀態(tài)數(shù)據(jù)。就此,在實(shí)驗(yàn)中,于監(jiān)控安全系統(tǒng)的后臺(tái)服務(wù)器部署Wireshark軟件,實(shí)施網(wǎng)絡(luò)流數(shù)據(jù)的采集。結(jié)合該高校計(jì)算機(jī)系統(tǒng)特點(diǎn),選用win64-1.10.4版本的軟件,將采集的pcap文件存儲(chǔ)于D盤,存儲(chǔ)路徑如下:D:wiresharkpackageCapture。如pcap文件存儲(chǔ)空間超過50MB,需對文件實(shí)施拆分處理,并設(shè)置自動(dòng)命名規(guī)則,具體如下:“rawdatas_{序號}_{年月日時(shí)分秒(采集開始時(shí)間)}”。

        (二)特征提取

        在統(tǒng)計(jì)特征提取中,選擇網(wǎng)絡(luò)上公開的pcap文件集,構(gòu)建統(tǒng)計(jì)特征提取庫,包括7個(gè)類別的21類設(shè)備的流量數(shù)據(jù)。下載2019-11-21到2019-12-11共20天的pcap文件,根據(jù)下載日期命名文件。應(yīng)用tahrk工具逐一提取20個(gè)文件的屬性值,以CSV格式存儲(chǔ)屬性值文件;應(yīng)用SQLyog工具將CSV文件導(dǎo)入MySQL8.0.16數(shù)據(jù)庫中。根據(jù)網(wǎng)絡(luò)流數(shù)據(jù)分類需求,根據(jù)所屬類別對數(shù)據(jù)包實(shí)施排序,每個(gè)類別的數(shù)據(jù)包排序由所屬設(shè)備決定。在完成排序后,按照5min的時(shí)間間隔,匯總每個(gè)設(shè)備的數(shù)據(jù)包,計(jì)算每個(gè)時(shí)間間隔內(nèi)數(shù)據(jù)包的數(shù)量、數(shù)據(jù)包的長度平均值、數(shù)據(jù)包長度的峰值;最后,按照數(shù)據(jù)包的傳輸協(xié)議,將每個(gè)匯總屬性值拆分為用戶數(shù)據(jù)和控制數(shù)據(jù),根據(jù)數(shù)據(jù)類型設(shè)置相應(yīng)的訓(xùn)練標(biāo)簽值。使用UNION語句進(jìn)行統(tǒng)計(jì)特征提取,實(shí)施SQL查詢,最終將結(jié)果導(dǎo)出為CSV格式的文件,開展神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練。在預(yù)處理完成后,可獲得流量特征和業(yè)務(wù)特征兩種屬性的網(wǎng)絡(luò)流數(shù)據(jù)。

        (三)對比分析

        為驗(yàn)證基于關(guān)系型數(shù)據(jù)庫的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法,本文將其與常規(guī)流量統(tǒng)計(jì)工具和常規(guī)統(tǒng)計(jì)工具進(jìn)行對比分析。其中,常規(guī)流量統(tǒng)計(jì)工具選用SDN-pcap-Simulator,常規(guī)統(tǒng)計(jì)工具選用Excel。在預(yù)處理中,對比三種方法的需求通用性、處理效率、智能化水平及可拓展性,對比結(jié)果顯示,基于關(guān)系型數(shù)據(jù)庫的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法在四方面均顯著優(yōu)于另兩種方法。同時(shí),應(yīng)用Excel和SQL語句兩種工具對下載的2019-11-21到2019-12-11共20天pcap文件實(shí)施數(shù)據(jù)統(tǒng)計(jì)分析,該文件共包括956 151條數(shù)據(jù)包。處理結(jié)果顯示,Excel的數(shù)據(jù)加載用時(shí)62s,統(tǒng)計(jì)執(zhí)行用時(shí)1.5s,總用時(shí)63.5s;SQL語句數(shù)據(jù)加載用時(shí)7s,統(tǒng)計(jì)執(zhí)行用時(shí)5s,總用時(shí)12s,顯著快于Excel??梢姡陉P(guān)系型數(shù)據(jù)庫的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法優(yōu)勢顯著,可推廣普及。

        四、結(jié)語

        綜上所述,技術(shù)人員可應(yīng)用基于統(tǒng)計(jì)的網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理方法,引入關(guān)系型數(shù)據(jù)庫,按照網(wǎng)絡(luò)流數(shù)據(jù)采集、網(wǎng)絡(luò)流數(shù)據(jù)屬性提取、數(shù)據(jù)庫表構(gòu)建、流統(tǒng)計(jì)特征提取與分析,完成網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理。該方法具有需求通用性高、處理效率高、智能化與可拓展等優(yōu)勢,可在網(wǎng)絡(luò)流數(shù)據(jù)預(yù)處理中推廣應(yīng)用。

        猜你喜歡
        特征提取分類數(shù)據(jù)庫
        分類算一算
        基于Gazebo仿真環(huán)境的ORB特征提取與比對的研究
        電子制作(2019年15期)2019-08-27 01:12:00
        分類討論求坐標(biāo)
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        數(shù)據(jù)庫
        一種基于LBP 特征提取和稀疏表示的肝病識別算法
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        日韩女优在线一区二区| 各类熟女熟妇激情自拍| 久久av不卡人妻出轨一区二区| 女人被男人爽到呻吟的视频| 老师翘臀高潮流白浆| 欧美国产一区二区三区激情无套 | 色婷婷六月天| 狠狠亚洲超碰狼人久久老人| 日韩精品免费在线视频一区| 精品国偷自产在线视频九色| 亚洲综合精品成人| 亚洲av人妖一区二区三区| 亚洲中文字幕女同一区二区三区 | 久久开心婷婷综合中文| 欧美群妇大交群| 国产av无码专区亚洲av极速版| 国产麻豆一精品一AV一免费软件| www久久久888| 五月激情四射开心久久久| 午夜免费视频| 无码一区二区三区在线| 98色花堂国产精品首页| 女同av免费在线播放| 手机免费在线观看av网址| 激性欧美激情在线| 越猛烈欧美xx00动态图| 草草影院国产| 偷拍一区二区三区黄片| 成 人色 网 站 欧美大片在线观看 | 久久久无码精品亚洲日韩蜜臀浪潮 | 国产亚洲精品综合一区| 侵犯了美丽丰满人妻中文字幕 | 成人综合婷婷国产精品久久蜜臀 | 免费无遮挡无码视频在线观看| 一二区视频免费在线观看| 亚洲综合国产成人丁香五月激情 | 日本淫片一区二区三区| 男人和女人做爽爽视频| 国内精品视频一区二区三区 | 中文字幕一区乱码在线观看| 久久狠狠爱亚洲综合影院|