亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        微信流量分類模型及其業(yè)務(wù)識別算法研究

        2016-04-12 00:00:00范穎鄒香玲
        現(xiàn)代電子技術(shù) 2016年15期

        摘 要: 以微信流量模型和業(yè)務(wù)識別為主要研究內(nèi)容,首先分析了微信流量的特點,即脈沖式長連接的方式,并提出了分類的模型;其次,在分類模型的基礎(chǔ)上分析了微信的協(xié)議特征,通過匹配有效載荷識別出微信流;同時,提出了進一步識別出微信流量的算法以及細粒度分類微信子業(yè)務(wù);最后,進行了實驗分類微信流,以98%的分類準(zhǔn)確度識別出52%的微信子業(yè)務(wù)。

        關(guān)鍵詞: QoS; 流量分類; 協(xié)議特征; 深包檢測; 細粒度分類

        中圖分類號: TN911?34; TM417 文獻標(biāo)識碼: A 文章編號: 1004?373X(2016)15?0028?04

        Abstract: Taking the WeChat traffic model and business identification as the main research contents, the characteristic (pulsed long connection) of WeChat traffic is analyzed, and the classification model is put forward. On the basis of the classification model, the protocol feature of WeChat is analyzed, and the WeChat traffic is identified accurately by matching the effective load. An algorithm to identify the WeChat traffic futher is poposed to classify the WeChat sub?business with fine grit. The experiment was performed to classify the WeChat traffic. The algorithm can identify 52% WeChat sub?business with 98% classification accuracy.

        Keywords: QoS; traffic classification; protocol feature; deep packet detection; fine grit classification

        隨著計算機技術(shù)與互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,新的應(yīng)用模式與應(yīng)用需求不斷涌現(xiàn),網(wǎng)絡(luò)流量的增長變得多樣化,給互聯(lián)網(wǎng)管理和運營帶來巨大的壓力和挑戰(zhàn),網(wǎng)絡(luò)流量分類作為一種認識網(wǎng)絡(luò)流量,優(yōu)化流量是一項必不可少的方式[1]。對網(wǎng)絡(luò)流量進行合理的分類可以使服務(wù)提供商識別網(wǎng)絡(luò)中的流量,并根據(jù)流量的特性規(guī)劃網(wǎng)絡(luò),從而提供更合適的QoS服務(wù)。其次,網(wǎng)絡(luò)流量安全也是信息安全的一項重大主題,隨著安全的重要性不斷提高,網(wǎng)絡(luò)流量分類是入侵檢測的核心,如果能在流量到達目的地之前就進行攔截,能極大地提高網(wǎng)絡(luò)的安全性及網(wǎng)絡(luò)性能,營造更好的互聯(lián)網(wǎng)安全平臺。

        1 基于微信流量的分類模型

        目前對微信的流量識別方式較少,有些是基于深包檢測的研究方法[2],但這些方法缺乏系統(tǒng)化的流量分類方法,在現(xiàn)有的深包檢測的基礎(chǔ)上,進一步對微信流量分類細化,提出了一種基于層次化的微信流量分類模型,能廣泛用于類似微信的基于DPI的分類方法中[3]。

        1.1 流量模式分析

        從協(xié)議的角度上分析,微信流量是不具備加密性的,但可能存在一些重要的數(shù)據(jù)在網(wǎng)絡(luò)傳輸前就進行過本地的加密。進一步,微信是基于一個主TCP連接發(fā)生的,在進入微信的同時,會開啟一個客戶端到服務(wù)器的 TCP握手,當(dāng)用戶發(fā)生操作行為時,會在TCP連接中傳輸數(shù)據(jù);當(dāng)TCP連接傳送完成時,也不會立刻關(guān)閉這個連接,由于微信業(yè)務(wù)的實時性,會有可能不斷地發(fā)生更新,如果立即關(guān)閉TCP,很可能又需要再次開啟,為了節(jié)省握手的資源消耗,微信采取了心跳包的方式,圖1簡要介紹了微信的大致通信機制。

        1.2 基于DPI的微信流量的分類模型

        基于上述微信的特點,提出了一種層次化的基于DPI的微信識別方法對微信流量進行識別研究?;趯哟位哪P陀腥缦潞锰帲菏紫?,層次化的結(jié)構(gòu)是一種自上而下的結(jié)構(gòu),逐步細化求精的過程,輪廓分明;其次,基于層次化的結(jié)構(gòu)易于管理和維護,一旦其中某一環(huán)發(fā)生了問題,可以立刻追蹤到所歸屬的層次進行改進或者發(fā)現(xiàn)問題;最后,層次化的結(jié)構(gòu)有及時反饋的擴展功能[4]。

        (1) 深包檢測原理。微信流量分類使用的主要技術(shù)是基于正則表達式的DPI匹配技術(shù)對微信流量進行識別。首先,通過對微信流量的統(tǒng)計分析,得到微信的正則表達式特征,然后根據(jù)該正則表達式對微信流量進行匹配。實驗結(jié)果表明,基于DPI的匹配技術(shù)在微信流量分類上具有較高的匹配度和識別度。

        (2) 微信流量分類模型?;贒PI的方法是通過分析捕獲網(wǎng)絡(luò)包的內(nèi)容,通過簽名的分類方法對網(wǎng)絡(luò)流識別的一種流量分類方法,它強調(diào)了流的隱私性和加密性,如果流量是隱私或加密的流,則DPI的方法不可行。一般地,對于流中的有效載荷,其方法是通過流量的各個階段分析流量特征的正則表達式,從而得出適合準(zhǔn)確鑒別的流量特征。圖2提出了基于層次化的流量分類結(jié)構(gòu)的模型。

        2 微信流量的識別

        2.1 微信業(yè)務(wù)的研究對象

        本文以微信5.1版本的流量為研究對象,該版本涵蓋了實驗研究的主流微信業(yè)務(wù)。實驗室選用定點鏡像交換機收集手機系統(tǒng)的微信流量進行研究,由于這些流量直接來自于定向的手機流量,所以得到的流量是100%的真陽性的微信流量,最終收集的流量存儲在pcap[5]文件中,實驗分析研究的對象就是這些本地的pcap文件。

        2.2 微信特征分析

        (1) 微信特征包的采樣對比

        實驗首先對微信的文本圖片等業(yè)務(wù)進行了采樣比對,發(fā)現(xiàn)某些包具有一些特定的特征。對單一的微信文本流量進行觀察,發(fā)現(xiàn)wireshark軟件中提示continuation or non?HTTP traffic包中的載荷部分的字節(jié)存在恒定的字段,進一步對微信的圖片流量進行分析。在微信的圖片流量中,仍然存在一些非HTTP協(xié)議的微信包可能包含有微信的特征字段,而這些包正式被標(biāo)記為continuati on or non?HTT Ptraffic包,這說明,這類包中可能具備微信包的某種DPI特征,而圖片和文本的微信流量的此類型包之間也存在一定的公共性。這些存在公共部分特征的包極有可能用來表征微信,于是實驗重點研究了這些可能被DPI識別的微信特征包,也就是后面提到的研究所抽取的微信特征包。

        (2) 微信特征獲取

        為了研究采集的特征不過于偏向于微信的某些業(yè)務(wù)特征,分析階段對微信流量的各項業(yè)務(wù)進行了平均性的抽樣采集,分別采集了9種不同業(yè)務(wù)的特征包,包括心跳、登陸、注銷、刷新、文本、圖片、語音、視頻和社交業(yè)務(wù),每種業(yè)務(wù)提取30個可能具備特征的包進行分析,總共分析了270個包的有效載荷。

        通過wireshark的分析,收集到的270個可能包含特征的包中,在前16字節(jié)中,有一部分字段隨著包的不同不會發(fā)生變化,這些載荷的字段部分極有可能是公共字段部分。為了重點研究這16字節(jié),采用L7?filter[6]工具。實驗考慮了異或運算,對實驗觀察的包的對應(yīng)位字段分別采用異或處理,得到初步的微信特征正則表達式序列:

        2.3 微信特征優(yōu)化

        為了得到最短的特征序列,并確定該特征序列可以最優(yōu)匹配微信流量,實驗采用了增量式的研究策略,基于增量式的篩選方法如下:首先對處理的特征選取一個較短的初匹配序列,該匹配序列可能摻雜大量的假陽性,然后不斷地對這個較短的匹配序列增加長度,由于每一次的增加都減少了匹配范圍,這會導(dǎo)致能匹配到的包越來越短,最終導(dǎo)致結(jié)果越來越精確,當(dāng)匹配的包數(shù)不變時,不再出現(xiàn)假陽性,此時的字段便是最優(yōu)的匹配字段[7]。

        實驗選取了來自互聯(lián)網(wǎng)不同時段的校園流量進行了7組取樣。每組流量約4 GB,分別有300~400萬個包。初匹配序列選取的長度是4,這個選擇是一個經(jīng)驗性的推斷,在互聯(lián)網(wǎng)流量中,3不大可能標(biāo)識一個互聯(lián)網(wǎng)協(xié)議,所以沒有必要取得太短。微信的特征優(yōu)化見表1。

        3 微信業(yè)務(wù)的細粒度識別和分類

        3.1 微信業(yè)務(wù)的細粒度識別和分類

        針對微信的業(yè)務(wù)流量存在的特點,將微信的業(yè)務(wù)分為三大類,并在這三類的基礎(chǔ)上對其進行分類:短消息業(yè)務(wù)(文本,刷新,登陸,注銷,心跳等)、復(fù)合短消息業(yè)務(wù)(語音,朋友圈,新聞等)、長消息業(yè)務(wù)(圖片,視頻等)[8]。

        圖3為微信的業(yè)務(wù)特殊字段的獲取流程圖,實驗結(jié)果表明,根據(jù)微信業(yè)務(wù)的特征字段及上述方法可以得出微信業(yè)務(wù)的公共字段為對應(yīng)包的第12字節(jié)。表2為微信業(yè)務(wù)特征字段,第12字段能起到區(qū)分微信業(yè)務(wù)的作用,匹配該字段可以找到其對應(yīng)的微信業(yè)務(wù),這個過程經(jīng)歷了從微信的流量識別到業(yè)務(wù)類別的識別,但并未識別出業(yè)務(wù)的整個過程的流,而長度從7個字段的匹配長度變?yōu)?2個字段,這意味著在匹配耗時上的增加。

        3.2 短業(yè)務(wù)的分類

        在短業(yè)務(wù)的識別算法中,首先對業(yè)務(wù)特征進行匹配,如果到來的特征包對應(yīng)的業(yè)務(wù)屬于短業(yè)務(wù),那么就按照短業(yè)務(wù)的識別方式進行。短消息業(yè)務(wù)為兩次過程,一次是主方發(fā)送一次信息給從方,從方給確認,然后從方再發(fā)送一次反饋信息給主方,主方給確認。在這兩次發(fā)送中,主動方發(fā)送的包都包含有可識別的特征包,算法中,在第一次讀到特征包后,對同一條流繼續(xù)進行匹配,當(dāng)兩次特征包進行了匹配后,讀出后續(xù)的確認包,于是得到這次短消息業(yè)務(wù)的整個流程,從而在主TCP連接中標(biāo)記出這一次業(yè)務(wù)的行為及對應(yīng)的包序列號。一般來說,短業(yè)務(wù)僅僅通過較少的幾次特征包的交互,確認進行,所以,只需對短消息的特征包次數(shù)設(shè)置一個權(quán)值,在有限權(quán)值次數(shù)的交互下,都歸類為一次短業(yè)務(wù)。

        3.3 復(fù)合短業(yè)務(wù)的分類

        對于語音業(yè)務(wù)來說,一次較長的語音業(yè)務(wù)可能由多次短的語音業(yè)務(wù)復(fù)合而成,而這些短業(yè)務(wù)又互相不可分割,所以需要找到一種方式識別出該次業(yè)務(wù)所包含的所有短語音業(yè)務(wù)。首先,由于每次短業(yè)務(wù)的消息發(fā)送的包都是可以根據(jù)語音業(yè)務(wù)的特征識別的,可以對每次短分片進行特征匹配,匹配到的語音業(yè)務(wù)的包不大可能是其他業(yè)務(wù)產(chǎn)生的,這樣把統(tǒng)計的包范圍限定在語音業(yè)務(wù)范圍內(nèi);為了解決不同次語音業(yè)務(wù)之間的區(qū)別,即識別出的語音不會被誤識別為其他業(yè)務(wù)或者把別次語音的業(yè)務(wù)誤識別到所識別的業(yè)務(wù)之中。于是定義了一個閾值[tc,]設(shè)置[tc]是為了識別出一次語音業(yè)務(wù)中所有連續(xù)出現(xiàn)的語音特征包,時間越短,說明該業(yè)務(wù)的連續(xù)性越強,由于連續(xù)發(fā)送的語音包間隔非常短,而對于正常操作下,兩次不同的語音操作用時會很長,明顯會超出這個閾值[tc,]于是,在此閾值下,所有與上次發(fā)送的特征包間隔時間小于該值的語音包則被認為是同一次業(yè)務(wù)下發(fā)生的業(yè)務(wù)。

        3.4 長業(yè)務(wù)的識別

        為了對長業(yè)務(wù)類型的微信業(yè)務(wù)進行識別,實驗采用圖片業(yè)務(wù)研究長業(yè)務(wù)的分類。經(jīng)過大量的實驗及觀察,發(fā)現(xiàn)存在公有的特征,就是傳輸連接的開始端前若干個包具有固定的長度序列,對于圖片業(yè)務(wù)來說,前3個包具有比較明顯、固定的序列特征,如果能找到這些包,對于識別圖片的數(shù)據(jù)連接很重要。在其算法中,定義了閾值[td,]表示數(shù)據(jù)傳輸連接的時間上的逼近,設(shè)置閾值的好處是用數(shù)據(jù)流連接和主TCP的時間間隔判斷數(shù)據(jù)流,如果符合一個非常短的閾值,同時也滿足微信的數(shù)據(jù)傳輸流的特征,此兩種情況下,該流屬于其他流的可能性會很低。首先,通過特征包的業(yè)務(wù)字段匹配找到在長業(yè)務(wù)結(jié)尾的確認包后,需要向前尋找數(shù)據(jù)連接。由于可能存在完全找不到的情況,當(dāng)尋找的次數(shù)超時時,會選取最短間隔的傳輸數(shù)據(jù)連接作為最終判斷長業(yè)務(wù)的數(shù)據(jù)傳輸連接。得到長業(yè)務(wù)的數(shù)據(jù)傳輸連接之后,與主TCP的確認短消息進行組合便得到分類的微信的長業(yè)務(wù)流。

        4 實驗及分析

        基于垂直化流量分類結(jié)構(gòu)的實驗研究環(huán)境如表3所示。實驗采用鏡像交換機進行網(wǎng)絡(luò)流量的采集,并將采集結(jié)果送達分析節(jié)點,分析節(jié)點進行流量分類,最終將分類結(jié)果反饋給ISP節(jié)點進行控制。為了證實實驗的有效性,根據(jù)本文提出的微信流量的分類方法,最終采用Python語言實現(xiàn)了微信流量分類的整個過程。

        由于網(wǎng)絡(luò)流量過于復(fù)雜,對于未識別出的其他微信業(yè)務(wù)部分本文沒有考慮。實驗數(shù)據(jù)主要考慮的是識別出的微信流量中微信的準(zhǔn)確率和識別率。從實驗結(jié)果看來,對于互聯(lián)網(wǎng)流量來說,本文提出的基于DPI的分類算法分類出了52%的微信業(yè)務(wù),并達到了98%的分類精準(zhǔn)度。52%的業(yè)務(wù)分類率不代表分類子業(yè)務(wù)的最大限度,而是考慮的微信子業(yè)務(wù)的部分占了52%左右,如果考慮更多的微信子業(yè)務(wù),識別率可以進一步提高。

        實驗結(jié)果表明,微信正是以一種脈沖式的長連接方式進行通信的,在建立初始的TCP連接后,通過持續(xù)的心跳包保持連接。根據(jù)本文提出的分類模型,能有效地識別出微信的流量并分離出其中的各個子業(yè)務(wù),實驗結(jié)果表明了基于DPI識別方法的有效性,最終達到了對52%的微信業(yè)務(wù)識別達到了98%的準(zhǔn)確度。

        5 結(jié) 論

        本文以微信流量為研究對象,研究了流量分類的方式。分析了微信的流量模式,提出了對微信流量進行分類的模型;在此基礎(chǔ)上,采集了微信的流量,并對微信的特征包進行分析,得出微信的特征字段并進行了優(yōu)化;然后,將微信的業(yè)務(wù)劃分為三個大類,并根據(jù)各個大類提出了相應(yīng)的分類算法;最后,進行了實驗分析,實驗結(jié)果對互聯(lián)網(wǎng)中的流量分類出了52%的微信流量并達到98%的分類準(zhǔn)確度,證實了分類算法的可行性。

        參考文獻

        [1] 孫瑜玲,林勤花.基于遺傳神經(jīng)網(wǎng)絡(luò)的P2P流量識別系統(tǒng)[J].現(xiàn)代電子技術(shù),2015,38(17):117?120.

        [2] 邢玉鳳,毛艷瓊.基于有督導(dǎo)機器學(xué)習(xí)的網(wǎng)絡(luò)流量識別系統(tǒng)[J].現(xiàn)代電子技術(shù),2015,38(21):22?25.

        [3] 陳平,郭蘭珂,方俊湘.微信業(yè)務(wù)的識別方法研究[J].移動通信,2013(18):80?83.

        [4] 蔣建春,馬恒太,任黨恩,等.網(wǎng)絡(luò)安全入侵檢測:研究綜述[J].軟件學(xué)報,2011(11):45?46.

        [5] JOHNSON M E, GOETZ E. Embedding information security into the organization [J]. IEEE security privacy, 2007, 5(3): 16?24.

        [6] HUANG S J, CHEN K, LIU C, et al. A statistical?feature?based approach to internet traffic classification using machine learning [C]// Proceedings of 2009 International Conference on Ultra Modern Telecommunications Workshops. Petersburg: IEEE, 2009: 1?6.

        [7] NGUYEN T T T, ARMITAGE G. A survey of techniques for internet traffic classification using machine learning [J]. IEEE communications surveys tutorials, 2008, 10(4): 56?76.

        [8] 賀建英,李茹鈺,譚琳.基于微信公眾平臺和OpenAPI的微校城平臺構(gòu)建與實現(xiàn)[J].現(xiàn)代電子技術(shù),2015,38(17):49?52.

        亚洲小说区图片区另类春色| 激情免费视频一区二区三区| 国产亚洲精品在线播放| 亚洲综合精品亚洲国产成人| 一女被多男玩喷潮视频| 亚洲av综合久久九九| 欧美日韩区1区2区3区| 精品人妻一区二区蜜臀av| 久久精品熟女亚洲av香蕉 | 日本精品无码一区二区三区久久久 | 丝袜美腿一区二区在线观看| 人妻经典中文字幕av| 4455永久免费视频| 日韩毛片免费无码无毒视频观看| 这里有精品可以观看| 东风日产系列全部车型| 国产精品久久婷婷免费观看| 亚洲av成人无码久久精品老人| 亚洲精品乱码久久久久久日本蜜臀 | 琪琪色原网站在线观看| 超清纯白嫩大学生无码网站| 国产哟交泬泬视频在线播放| 亚洲素人日韩av中文字幕| 国产亚洲精品精品综合伦理| 亚洲av成人无码一二三在线观看| 玩弄放荡人妻少妇系列| 国产精品国产三级国产专播 | 久久久精品人妻一区亚美研究所| 国产女主播强伦视频网站| 中文字幕一区二区黄色| 亚洲综合成人婷婷五月网址| 国内a∨免费播放| 99热在线播放精品6| 亚洲啪啪色婷婷一区二区| 人妻少妇被粗大爽.9797pw| 精品人妻少妇一区二区三区不卡| 国产一区二区三区爆白浆| 伊人狼人激情综合影院| 日韩日韩日韩日韩日韩日韩日韩| 狠狠色噜噜狠狠狠狠7777米奇| 欧美日韩国产成人综合在线影院|