網(wǎng)絡(luò)背景流量的分類(lèi)與識(shí)別研究綜述

2019-07-31 12:14:01鄒騰寬汪鈺穎吳承榮

計(jì)算機(jī)應(yīng)用 2019年3期

鄒騰寬汪鈺穎吳承榮

摘要：互聯(lián)網(wǎng)流量分類(lèi)是識(shí)別網(wǎng)絡(luò)應(yīng)用和分類(lèi)相應(yīng)流量的過(guò)程，這被認(rèn)為是現(xiàn)代網(wǎng)絡(luò)管理和安全系統(tǒng)中最基本的功能。與應(yīng)用相關(guān)的流量分類(lèi)是網(wǎng)絡(luò)安全的基礎(chǔ)技術(shù)。傳統(tǒng)的流量分類(lèi)方法包括基于端口的預(yù)測(cè)方法和基于有效載荷的深度檢測(cè)方法。在目前的網(wǎng)絡(luò)環(huán)境下，傳統(tǒng)的方法存在一些實(shí)際問(wèn)題，如動(dòng)態(tài)端口和加密應(yīng)用，因此采用基于流量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)（ML）技術(shù)來(lái)進(jìn)行流量分類(lèi)識(shí)別。機(jī)器學(xué)習(xí)可以利用提供的流量數(shù)據(jù)進(jìn)行集中自動(dòng)搜索，并描述有用的結(jié)構(gòu)模式，這有助于智能地進(jìn)行流量分類(lèi)。起初使用樸素貝葉斯方法進(jìn)行網(wǎng)絡(luò)流量分類(lèi)的識(shí)別和分類(lèi)，對(duì)特定流量進(jìn)行實(shí)驗(yàn)時(shí)，表現(xiàn)較好，準(zhǔn)確度可達(dá)90%以上，但對(duì)點(diǎn)對(duì)點(diǎn)傳輸網(wǎng)絡(luò)流量（P2P）等流量識(shí)別準(zhǔn)確度僅能達(dá)到50%左右。然后有使用支持向量機(jī)（SVM）和神經(jīng)網(wǎng)絡(luò)（NN）等方法，神經(jīng)網(wǎng)絡(luò)方法使整體網(wǎng)絡(luò)流量的分類(lèi)準(zhǔn)確度能達(dá)到80%以上。多項(xiàng)研究結(jié)果表明，對(duì)于多種機(jī)器學(xué)習(xí)方法的使用和后續(xù)的改進(jìn)，很好地提高了流量分類(lèi)的準(zhǔn)確性。將各種機(jī)器學(xué)習(xí)的分類(lèi)技術(shù)應(yīng)用于流量分類(lèi)是很有意義的研究。

關(guān)鍵詞：流量分類(lèi);背景流量;機(jī)器學(xué)習(xí);深度包檢測(cè)技術(shù);基于行為模式的分類(lèi)

中圖分類(lèi)號(hào)： TP393.02

文獻(xiàn)標(biāo)志碼：A

文章編號(hào)：1001-9081（2019）03-0802-10

Abstract： Internet traffic classification is a process of identifying network applications and classifying corresponding traffic， which is considered as the most basic function of modern network management and security system. And application-related traffic classification is the basic technology of recent network security. Traditional traffic classification methods include port-based prediction methods and payload-based depth detection methods. In current network environment， there are some practical problems in traditional methods， such as dynamic ports and encryption applications. Therefore， Machine Learning （ML） technology based on traffic statistics is used to classify and identify traffic. Machine learning can realize centralized automatic search by using provided traffic data and describe useful structural patterns， which is helpful to intelligently classify traffic. Initially， Naive Bayes method was used to identify and classify network traffic classification， performing well on specific flows with accuracy over 90%， while on traffic such as peer-to-peer transmission network traffic （P2P） with accuracy only about 50%. Then， methods such as Support Vector Machine （SVM） and Neural Network （NN） were used， and neural network method could make accuracy of overall network classification reach 80% or more. A number of studies show that the use of a variety of machine learning methods and their improvements can improve the accuracy of traffic classification.

Key words： traffic classification; background traffic; Machine Learning （ML）; Deep Packet Inspection（DPI） technology; classification based on behavior patterns

0 引言

智能手機(jī)，特別是無(wú)線(xiàn)保真（Wireless-Fidelity， Wi-Fi）、第三代移動(dòng)通信技術(shù)（3rd-Generation， 3G）、全球微博互聯(lián)接入（Worldwide interoperability for Microwave Access， WiMAX）、通用移動(dòng)通信技術(shù)的長(zhǎng)期演進(jìn)（Long Term Evolution， LTE）等智能手機(jī)，傳感器和無(wú)線(xiàn)技術(shù)的革命使得社交網(wǎng)絡(luò)、M2M通信（Machine to Machine Communications）、物聯(lián)網(wǎng)應(yīng)用、智能城市等先進(jìn)應(yīng)用和服務(wù)成為可能。因此，大量的數(shù)據(jù)在計(jì)算機(jī)網(wǎng)絡(luò)中產(chǎn)生并攜帶，消耗了稀少的無(wú)線(xiàn)電和帶寬資源，導(dǎo)致網(wǎng)絡(luò)擁塞或故障。實(shí)際上，每個(gè)流量都不必與用戶(hù)活動(dòng)直接相關(guān)。具體而言，移動(dòng)設(shè)備上的應(yīng)用程序會(huì)自動(dòng)生成大量數(shù)據(jù)以更新其狀態(tài)，由此可以引出背景（BackGround， BG）流量。

BG流量由應(yīng)用程序觸發(fā)，Huang等[1]在研究屏幕工作時(shí)的流量和屏幕關(guān)閉時(shí)的流量發(fā)現(xiàn)，屏幕關(guān)閉時(shí)產(chǎn)生的流量所占比例遠(yuǎn)小于屏幕工作時(shí)的流量，但其流量包含的突發(fā)數(shù)量多得多。屏幕關(guān)閉時(shí)的流量突發(fā)在下行鏈路/上行鏈路分組和數(shù)據(jù)載荷的數(shù)量方面很少。在突發(fā)的下行鏈路平均有效載荷方面，屏幕開(kāi)啟流量是屏幕流量的7倍。但是屏幕關(guān)閉時(shí)的突發(fā)流量數(shù)量少持續(xù)時(shí)間短但頻率較高，這種行為很可能導(dǎo)致較長(zhǎng)的信道占用時(shí)間，并因此導(dǎo)致顯著的電池使用。因此，網(wǎng)絡(luò)運(yùn)營(yíng)商必須快速檢測(cè)和避免BG流量，以節(jié)省網(wǎng)絡(luò)資源，防止由于不必要的過(guò)載而導(dǎo)致的網(wǎng)絡(luò)故障。

在實(shí)踐中，如果BG和前臺(tái)（ForeGround， FG）流量（Foreground Traffic，F(xiàn)G流量）被有效分離，網(wǎng)絡(luò)運(yùn)營(yíng)商可以制定合適的策略來(lái)控制網(wǎng)絡(luò)流量，從而提高網(wǎng)絡(luò)服務(wù)的服務(wù)質(zhì)量（Quality of Service， QoS）和體驗(yàn)質(zhì)量（Quality of Experience， QoE）。例如，可以延遲在高峰時(shí)間遞送BG流量以節(jié)省FG流量的網(wǎng)絡(luò)資源以滿(mǎn)足用戶(hù)的通信需求。由于前臺(tái)和背景流量分離可以幫助優(yōu)化網(wǎng)絡(luò)管理和管理，尤其是提高網(wǎng)絡(luò)質(zhì)量，因此，從網(wǎng)絡(luò)流量中分離出背景流量成為一個(gè)亟待解決的問(wèn)題。

互聯(lián)網(wǎng)技術(shù)的發(fā)展，尤其是黑客技術(shù)的更新，導(dǎo)致互聯(lián)網(wǎng)中爬蟲(chóng)流量等機(jī)器產(chǎn)生的流量越來(lái)越多，甚至超過(guò)人類(lèi)用戶(hù)正常使用所產(chǎn)生的流量。在2012年的一項(xiàng)互聯(lián)網(wǎng)流量數(shù)據(jù)調(diào)查中就曾顯示，當(dāng)時(shí)51%的互聯(lián)網(wǎng)流量不是用戶(hù)操作計(jì)算機(jī)產(chǎn)生的，而是由一些機(jī)器人用戶(hù)產(chǎn)生的。到2014年的時(shí)候再次調(diào)查發(fā)現(xiàn)，互聯(lián)網(wǎng)中機(jī)器人流量比例已經(jīng)提升到61.5%。

在這種發(fā)展下，應(yīng)用流量的種類(lèi)和數(shù)量快速增長(zhǎng)，互聯(lián)網(wǎng)的網(wǎng)絡(luò)管理和服務(wù)質(zhì)量提供面臨了嚴(yán)峻的挑戰(zhàn)。其中一個(gè)重要的問(wèn)題就是，如何對(duì)海量的各種應(yīng)用流量進(jìn)行有效地檢測(cè)、識(shí)別和分類(lèi)。

接下來(lái)，具體闡述了一些網(wǎng)絡(luò)流量的識(shí)別分類(lèi)方法和它們的一些優(yōu)點(diǎn)和局限性，并嘗試將其具體應(yīng)用到背景流量的識(shí)別分類(lèi)上，并對(duì)其實(shí)用性進(jìn)行分析。

1 傳統(tǒng)流量識(shí)別分類(lèi)方法

查閱了一些相關(guān)文獻(xiàn)后，本文發(fā)現(xiàn)流量識(shí)別分類(lèi)方法一般存在四種：基于端口的識(shí)別分類(lèi)、基于深度包檢測(cè)的識(shí)別分類(lèi)、基于行為模式的識(shí)別分類(lèi)和基于機(jī)器學(xué)習(xí)的識(shí)別分類(lèi)。

其中比較傳統(tǒng)的流量識(shí)別方法為前三種，這一章著重描述一下前三種方法。

Alberto Dainotti等[2]曾在論文中提及了流量識(shí)別分類(lèi)研究的發(fā)展歷程。1992年時(shí)，RFC（Request For Comments）規(guī)定了標(biāo)準(zhǔn)端口空間，基于端口號(hào)的流量識(shí)別分類(lèi)技術(shù)開(kāi)始發(fā)展，并廣泛應(yīng)用?；诙丝谔?hào)的流量識(shí)別存在一些不足，進(jìn)而在1998年，深度報(bào)文檢測(cè)（Deep Packet Inspection，DPI）技術(shù)被普遍認(rèn)識(shí)使用。隨著加密數(shù)據(jù)流的增加和端口號(hào)提供信息的有限性，前兩種方法已經(jīng)不能滿(mǎn)足實(shí)際的需求，2005年，Thomas Karagiannis等[3]提出了一種新的方法，將重點(diǎn)放在了傳輸層上，提出了基于傳輸層行為模式分類(lèi)的方法。同年，隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展，機(jī)器學(xué)習(xí)被應(yīng)用到流量識(shí)別分類(lèi)領(lǐng)域。由于該方法使用流統(tǒng)計(jì)特征進(jìn)行流量分類(lèi)，所以不會(huì)被隨機(jī)端口、數(shù)據(jù)包加密和網(wǎng)絡(luò)地址轉(zhuǎn)換等技術(shù)影響，其分類(lèi)精度高、適用范圍廣，比前三種網(wǎng)絡(luò)流量分類(lèi)方法更優(yōu)。圖1簡(jiǎn)略表明了流量識(shí)別分類(lèi)的發(fā)展。

1.1 基于端口的識(shí)別分類(lèi)

基于端口號(hào)的流量識(shí)別是最早出現(xiàn)的流量識(shí)別分類(lèi)方法，它的原理十分簡(jiǎn)單，它根據(jù)數(shù)據(jù)包包頭中的端口號(hào)來(lái)區(qū)分不同的網(wǎng)絡(luò)應(yīng)用類(lèi)型。在20世紀(jì)90年代初互聯(lián)網(wǎng)應(yīng)用的知名端口空間規(guī)范化后，它可以根據(jù)RFC規(guī)定的端口號(hào)和應(yīng)用協(xié)議的對(duì)應(yīng)關(guān)系進(jìn)行流量識(shí)別分類(lèi)。知名端口號(hào)范圍是0到1023，例如：應(yīng)用文件傳輸協(xié)議（File Transfer Protocol， FTP）數(shù)據(jù)對(duì)應(yīng)端口為20，應(yīng)用FTP對(duì)應(yīng)端口為21，而80端口則分配給應(yīng)用超文本傳輸協(xié)議（HyperText Transfer Protocol， HTTP）等。

這種方法簡(jiǎn)單直接，易于實(shí)現(xiàn)，只需要捕獲一條數(shù)據(jù)流的一個(gè)正常數(shù)據(jù)包就可以實(shí)現(xiàn)，它只需要在基礎(chǔ)網(wǎng)絡(luò)設(shè)備上采用簡(jiǎn)單的規(guī)則即可實(shí)現(xiàn)，不需要額外的軟硬件設(shè)備支持，而且在傳統(tǒng)的網(wǎng)絡(luò)環(huán)境下，其識(shí)別效率和準(zhǔn)確率非常高，因此在互聯(lián)網(wǎng)早期發(fā)展時(shí)，服務(wù)的端口號(hào)變化不多時(shí)，這種方法的復(fù)雜度低、實(shí)用性高。

但是，隨著互聯(lián)網(wǎng)的發(fā)展，網(wǎng)絡(luò)中大量網(wǎng)絡(luò)應(yīng)用開(kāi)始使用動(dòng)態(tài)端口技術(shù)，不再使用標(biāo)準(zhǔn)端口提供網(wǎng)絡(luò)服務(wù)。例如許多主流的Web 服務(wù)器（Web Server）和FTP 服務(wù)器軟件，都允許用戶(hù)手工指定服務(wù)器端口，而不是使用固定端口。新型網(wǎng)絡(luò)應(yīng)用（如對(duì)等網(wǎng)絡(luò)（Peer to Peer，P2P））都普遍采用隨機(jī)端口（端口范圍在1024～65535）技術(shù)進(jìn)行數(shù)據(jù)傳輸，還有隨著防火墻技術(shù)的發(fā)展，大量的Internet應(yīng)用為了防止防火墻的檢測(cè)，蓄意使用動(dòng)態(tài)端口和偽裝端口技術(shù)，更降低基于端口進(jìn)行流量識(shí)別分類(lèi)的準(zhǔn)確度。Moore等[4]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)，現(xiàn)在基于端口的流量識(shí)別分類(lèi)在最佳情況下也僅有31%的準(zhǔn)確率。

可以看到，基于端口的識(shí)別分類(lèi)方法主要是通過(guò)已經(jīng)規(guī)定好的端口號(hào)來(lái)識(shí)別應(yīng)用程序，而背景流量由很多應(yīng)用程序的背景流組合而成，比較復(fù)雜。單純的基于端口的識(shí)別分類(lèi)很難運(yùn)用于一般復(fù)雜背景流的識(shí)別上。

但是這并不代表這種方法應(yīng)該就此被淘汰，基于端口的識(shí)別分類(lèi)方法由于只需要獲取數(shù)據(jù)包的端口號(hào)，時(shí)間復(fù)雜度很低，實(shí)現(xiàn)簡(jiǎn)單且分類(lèi)速度快。該方法應(yīng)用在高速網(wǎng)絡(luò)環(huán)境時(shí)，能夠快速并很好地識(shí)別一些端口號(hào)對(duì)應(yīng)的應(yīng)用層協(xié)議類(lèi)別，因此仍然具有一定的實(shí)際使用價(jià)值。因此現(xiàn)有技術(shù)很多將基于端口的識(shí)別和其他技術(shù)（如機(jī)器學(xué)習(xí)等）結(jié)合應(yīng)用，既能保證流量識(shí)別分類(lèi)的準(zhǔn)確率，又能提高識(shí)別速率，是現(xiàn)有方法的一大趨勢(shì)。

1.2 深度包檢測(cè)的識(shí)別分類(lèi)

隨著網(wǎng)絡(luò)的發(fā)展，基于端口的流量識(shí)別分類(lèi)已經(jīng)不能滿(mǎn)足需要，基于深度包檢測(cè)的識(shí)別分類(lèi)方法應(yīng)時(shí)而生。Moore等[4]在文章中設(shè)計(jì)了一種依靠完整數(shù)據(jù)包有效載荷的分類(lèi)方法。文章提出的該方法可以看作是一個(gè)迭代過(guò)程，其目標(biāo)是十分準(zhǔn)確地得到特定流量的相應(yīng)應(yīng)用程序。將數(shù)據(jù)包分組為數(shù)據(jù)流可以更加高效地處理收集的信息以及獲取必要的上下文，以便對(duì)相應(yīng)流的網(wǎng)絡(luò)應(yīng)用程序進(jìn)行適當(dāng)?shù)淖R(shí)別，因此DPI運(yùn)行在流而不是數(shù)據(jù)包上。文章Moore等[4]采取的第一步是根據(jù)數(shù)據(jù)包的五元組將數(shù)據(jù)包聚合成流。當(dāng)為T(mén)CP網(wǎng)絡(luò)數(shù)據(jù)流（Transmission Control Protocol Network data stream ）時(shí)，額外的語(yǔ)義也可以用來(lái)標(biāo)識(shí)流程的開(kāi)始和結(jié)束時(shí)間。文章的第二步是根據(jù)不同的標(biāo)準(zhǔn)迭代測(cè)試流動(dòng)特性，直到獲得十分確定的有關(guān)應(yīng)用程序標(biāo)識(shí)。這個(gè)過(guò)程由9個(gè)不同的識(shí)別子方法組成。DPI技術(shù)是通過(guò)底層的抓包工具，抓取多個(gè)數(shù)據(jù)包，并進(jìn)行一定的模式匹配，找到與其特征值相匹配的應(yīng)用程序。接下來(lái)介紹一些具有代表性的深度包檢測(cè)技術(shù)。

2003年，Dewes等[5]在文章中提出將聊天流量與其他互聯(lián)網(wǎng)流量分開(kāi)的方法，并展示這種方法的廣泛驗(yàn)證結(jié)果。

將Web聊天流量與其他網(wǎng)絡(luò)流量分開(kāi)的方法是先大量收集滿(mǎn)足一些一般標(biāo)準(zhǔn)的所有網(wǎng)絡(luò)流量，然后保留所有與本文對(duì)分析得出的特征值相匹配的流，最后忽略已知的非聊天流量。

2004年，Subhabrata Sen等[6]在文章中提出了一種通過(guò)應(yīng)用程序級(jí)特征識(shí)別P2P應(yīng)用程序流的有效方法。首先通過(guò)檢查一些可用的文檔和數(shù)據(jù)包級(jí)別的痕跡來(lái)識(shí)別應(yīng)用程序級(jí)別簽名;然后，利用已識(shí)別的簽名開(kāi)發(fā)在線(xiàn)過(guò)濾器，即使在高速網(wǎng)絡(luò)鏈路上也可以高效準(zhǔn)確地跟蹤P2P流量。

基于深度包檢測(cè)的識(shí)別準(zhǔn)確率高，且可識(shí)別一定數(shù)目的協(xié)議，而且這種方法對(duì)絕大部分網(wǎng)絡(luò)流量（特別是P2P）都很有效。但同時(shí)它也有一定的局限性，理論上，DPI技術(shù)實(shí)現(xiàn)的前提是數(shù)據(jù)包載荷部分可見(jiàn)且特征值已知。當(dāng)載荷部分進(jìn)行加密時(shí)，DPI技術(shù)將失去作用，隨著電子商務(wù)等業(yè)務(wù)的發(fā)展，現(xiàn)在的一些主流客戶(hù)端都采取了載荷加密技術(shù)，大大降低了DPI技術(shù)的準(zhǔn)確率;DPI技術(shù)無(wú)法識(shí)別未知特征值，當(dāng)網(wǎng)絡(luò)應(yīng)用的特征值發(fā)生變化時(shí)，系統(tǒng)必須及時(shí)更新特征值列表，加大復(fù)雜度。另外，在使用DPI技術(shù)進(jìn)行識(shí)別時(shí)，在提取流特征值時(shí)，需要捕獲和拷貝數(shù)據(jù)包，要消耗大量的資源;在通過(guò)特征值找到對(duì)應(yīng)的應(yīng)用程序時(shí)，要用到較復(fù)雜的匹配算法，加大DPI技術(shù)的復(fù)雜度。

對(duì)于背景流，也可以運(yùn)用DPI技術(shù)進(jìn)行特征值提取并進(jìn)行后續(xù)的識(shí)別分類(lèi)。康寧[7]在進(jìn)行網(wǎng)絡(luò)協(xié)議（Hyper Text Transfer Protocol over Secure socket layer， HTTPS）網(wǎng)頁(yè)流量的指紋提取和識(shí)別技術(shù)研究時(shí)，為了檢測(cè)加入背景流后的識(shí)別效果，在文章中加入了背景流的指紋識(shí)別實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明，將背景流作為一個(gè)類(lèi)別進(jìn)行特征值識(shí)別可行性不高，原因在于背景流變化較大，要更新特征值數(shù)據(jù)消耗過(guò)大，同時(shí)背景流的規(guī)模較大，導(dǎo)致識(shí)別分類(lèi)的復(fù)雜度過(guò)大。實(shí)驗(yàn)結(jié)果表明，在背景流較為復(fù)雜的情況下，單純的基于DPI的流量識(shí)別分類(lèi)技術(shù)并不適用于背景流。但隨著互聯(lián)網(wǎng)應(yīng)用流量的發(fā)展，DPI技術(shù)也逐漸朝著智能化方向發(fā)展，接下來(lái)介紹幾種基于DPI技術(shù)的一些后續(xù)技術(shù)，可以克服DPI技術(shù)的缺點(diǎn)，提高流量識(shí)別的準(zhǔn)確度。

一種方法是運(yùn)用深度流檢測(cè)（Deep Flow Inspection， DFI ）技術(shù)主要是為了彌補(bǔ)克服DPI 技術(shù)對(duì)加密數(shù)據(jù)流量識(shí)別的不足，DFI技術(shù)即深度數(shù)據(jù)流檢測(cè)技術(shù)，是一種基于流量行為的應(yīng)用識(shí)別技術(shù)，即利用不同的應(yīng)用程序的流的不同狀態(tài)來(lái)進(jìn)行流量識(shí)別。它假設(shè)不同應(yīng)用會(huì)有其應(yīng)用特有的流量統(tǒng)計(jì)特性，與DPI技術(shù)相比，它處理時(shí)間較快，維護(hù)成本較低，識(shí)別方法比較籠統(tǒng)，準(zhǔn)確度不如DPI，但不受載荷加密技術(shù)的影響。劉佳雄[8]設(shè)計(jì)了一種基于DPI 技術(shù)和DFI 技術(shù)相結(jié)合的網(wǎng)絡(luò)流量識(shí)別方案，并且將此方案運(yùn)用到了實(shí)踐中，克服了現(xiàn)網(wǎng)中變端口P2P 網(wǎng)絡(luò)流量和加密流量難以識(shí)別的困難。胡慶安[9]也結(jié)合了DPI技術(shù)實(shí)時(shí)性好、準(zhǔn)確率高和DFI技術(shù)可對(duì)加密協(xié)議和未知流量進(jìn)行識(shí)別的優(yōu)點(diǎn)，提出一種基于雙重特征的協(xié)議識(shí)別方法。

另一種方法是在降低匹配算法的復(fù)雜度方面著手。在傳統(tǒng)深度包檢測(cè)匹配引擎中，正則表達(dá)式規(guī)則采用不確定有窮自動(dòng)機(jī)（Nondeterministic Finite Automata， NFA）模式來(lái)實(shí)現(xiàn)，匹配時(shí)存在著大量的回溯現(xiàn)象，因而匹配速度較低。陳傳通[10]提出可以使用確定有窮自動(dòng)機(jī)（Deterministic Finite Automaton， DFA）方式來(lái)實(shí)現(xiàn)正則表達(dá)式規(guī)則。該方法不存在回溯現(xiàn)象且可以通過(guò)一次掃描匹配多條正則表達(dá)式規(guī)則，但會(huì)因?yàn)橐?guī)則數(shù)量增多導(dǎo)致引擎規(guī)模太大無(wú)法實(shí)現(xiàn)。因此論文中提出了對(duì)網(wǎng)絡(luò)協(xié)議加權(quán)設(shè)置優(yōu)先級(jí)的識(shí)別方法，并提出了具體的加權(quán)分組算法。該方法對(duì)于高優(yōu)先級(jí)的網(wǎng)絡(luò)協(xié)議組，采用DFA的形式，對(duì)于低優(yōu)先級(jí)的協(xié)議組采用混合有窮自動(dòng)機(jī)（Hybrid Finite Automata， Hybrid.FA）的方式來(lái)實(shí)現(xiàn)。該算法相比于傳統(tǒng)識(shí)別引擎，匹配速度可以提高29倍左右。DPI技術(shù)傳統(tǒng)的匹配算法有KMP算法（Knuth-Morris-Pratt Algorithm）、BM字符串搜索算法（BM String Searching Algorithm）、WM（Wu-Manber）算法和AC（Aho-Corasick）自動(dòng)機(jī)算法。劉瀧[11]在論文中對(duì)各種算法進(jìn)行了比對(duì)研究，提出了BMF（BM Fast）算法;然后設(shè)計(jì)了基于Hadoop平臺(tái)DPI技術(shù)的流量識(shí)別，利用Hadoop平臺(tái)處理大規(guī)模數(shù)據(jù)流量的優(yōu)勢(shì)，將DPI技術(shù)與MapReduce進(jìn)行結(jié)合，設(shè)計(jì)了MapReduceBoyer-MooreFast算法。

1.3 BLINC（BLINd Classification）

單純的基于DPI技術(shù)的流量識(shí)別分類(lèi)局限性比較大，不能對(duì)加密的數(shù)據(jù)流進(jìn)行有效的識(shí)別。隨著網(wǎng)絡(luò)中加密應(yīng)用的增加，基于行為模式的流量識(shí)別技術(shù)開(kāi)始發(fā)展。BLINC方法最早由Karagiannis等[3]在論文中提及。文章提出的方法不能訪(fǎng)問(wèn)數(shù)據(jù)包有效載荷，不知道端口號(hào)，以及除了當(dāng)前流量收集器提供的額外信息。與流量分類(lèi)領(lǐng)域提出的其他方法相比，BLINC實(shí)現(xiàn)了一個(gè)相當(dāng)不同的理念。主要區(qū)別如下：

1）文章主張分類(lèi)方法的重點(diǎn)從流向主機(jī)轉(zhuǎn)移時(shí)，可以積累足夠的信息以消除每個(gè)主機(jī)在不同流中的角色，從而識(shí)別特定應(yīng)用。

2）該方法運(yùn)行在流量記錄上，不需要關(guān)于單個(gè)數(shù)據(jù)包的時(shí)間或大小的信息。方法的輸入可能是當(dāng)前部署的設(shè)備收集的流量記錄統(tǒng)計(jì)。

3）對(duì)擁塞或路徑變化等網(wǎng)絡(luò)動(dòng)態(tài)不敏感，這可能會(huì)影響很大程度上依賴(lài)流中數(shù)據(jù)包之間的到達(dá)間隔時(shí)間的統(tǒng)計(jì)方法。

4）每一種應(yīng)用對(duì)應(yīng)的流量都有其特定的行為模式，因此基于行為模式的識(shí)別準(zhǔn)確率較高，但這種方法只適用于特定應(yīng)用的數(shù)據(jù)流管理。背景流量雖然沒(méi)有對(duì)應(yīng)的應(yīng)用程序，但它也有其行為模式，根據(jù)其行為模式直接可以識(shí)別和分類(lèi)出背景流量。例如下文中就利用已驗(yàn)證的背景流的周期性對(duì)背景流進(jìn)行識(shí)別分析。

1.3.1 PCA（Period Candidate Array）

通過(guò)Minh等[12]對(duì)網(wǎng)絡(luò)流量的觀察表明，應(yīng)用程序定期更新其與內(nèi)容服務(wù)器的狀態(tài)，而在用戶(hù)活動(dòng)中很少看到嚴(yán)格的周期性。由此得出：如果一個(gè)單獨(dú)的移動(dòng)設(shè)備產(chǎn)生的針對(duì)一個(gè)服務(wù)器的特定服務(wù)或數(shù)據(jù)的所產(chǎn)生的TCP流是周期性的，那么它將是BG流量。利用這一特性，該論文提出了一個(gè)新穎的方法PCA。PCA系統(tǒng)部署在由互聯(lián)網(wǎng)服務(wù)提供商（Internet Service Provider，ISP）或網(wǎng)絡(luò)運(yùn)營(yíng)商管理的網(wǎng)絡(luò)邊緣。它捕獲流量并檢測(cè)流量是否是BG流量。PCA方法通過(guò)分析流量的周期性來(lái)解決BG流量檢測(cè)問(wèn)題。對(duì)實(shí)際流量（TCP流）的觀察表明，流量通常很長(zhǎng)而且稀疏。所提出的PCA方法通過(guò)利用流稀疏性降低了計(jì)算成本。通過(guò)僅提取和處理與周期性分析相關(guān)的發(fā)生位置形成周期候選隊(duì)列來(lái)壓縮長(zhǎng)而稀疏的流。在此基礎(chǔ)上，論文考慮了網(wǎng)絡(luò)延遲的影響，利用了改進(jìn)的自相關(guān)函數(shù)來(lái)進(jìn)行周期候選隊(duì)列的周期性檢測(cè)。

1.3.2 PDM（Periodicity Detection Map）

Minh[13]在PCA研究的基礎(chǔ)上提出了PDM方法。 PDM的方法原理與PCA相同，都是利用BG流量的周期性，所以大致的步驟也類(lèi)似。首先它也是考慮到TCP連接流的周期性和基于自動(dòng)相關(guān)（AC）和投影的方法，在基于流是稀疏流這一現(xiàn)象提出了PDM的方法。

不同的是，PDM是一個(gè)將時(shí)間序列T轉(zhuǎn)換為特定數(shù)據(jù)結(jié)構(gòu)的映射，該結(jié)構(gòu)對(duì)于快速識(shí)別T中的周期性非常有用，可以有效地用于快速檢測(cè)給定序列T的最大潛在周期。同時(shí)，由于不是每個(gè)BG業(yè)務(wù)流量都是周期性的，PDM可能無(wú)法檢測(cè)到非周期性BG流量。所以該論文接下來(lái)利用機(jī)器學(xué)習(xí)（Machine Learning， ML）模型分類(lèi)非周期性流量，通過(guò)PDM方法（通過(guò)周期性分析）檢測(cè)到的BG流量的統(tǒng)計(jì)數(shù)據(jù)用于訓(xùn)練ML模型，然后用它來(lái)分類(lèi)非周期性的流量。

1.3.3 ICA（Independent Component Analysis）

Mekky等[14]研究目的是為了進(jìn)行惡意軟件分類(lèi)，但實(shí)際上，惡意軟件流量（惡意軟件信號(hào)）與其他合法流量（背景信號(hào)）混合在一起。因此，分類(lèi)器的有效性可能會(huì)受到阻礙，因?yàn)樗^察到的流量是混合的。因此建議應(yīng)用信號(hào)分解，以便將觀察到的流量分解為惡意軟件流量和背景流量?jī)蓚€(gè)組件，然后再刪除背景流量，分類(lèi)技術(shù)可有效應(yīng)用于惡意軟件流量。

ICA是一種假設(shè)將獨(dú)立性的多元信號(hào)分解為附加分量的方法，它用于將惡意軟件流量與背景流量分離。ICA算法依靠獨(dú)立性來(lái)恢復(fù)混合流量中的原始信號(hào)。文中提出了一個(gè)ICA分解器，用于從網(wǎng)絡(luò)流量中提取并移除背景流量。假設(shè)m個(gè)獨(dú)立的源信號(hào)S=[S1，S2，…，Sm]T。觀察混合物X=[X1，X2，…，Xm]T由X=A×S給出，其中A被稱(chēng)為混合矩陣。ICA的目標(biāo)是找到一個(gè)非混合矩陣W（約等于A的-1次方），使得Y=W×X約等于S，這將是S的最佳近似值?？梢钥吹剑瑑煞N基于周期性分析的方法PCA、PDM，可以有效和高效地檢測(cè)BG流量。當(dāng)分析的數(shù)據(jù)稀疏時(shí)，PCA將傳統(tǒng)方法中的O（n2 log n）的復(fù)雜度降低至O（n）。PCA還解決了需要大量計(jì)算時(shí)間和相關(guān)歷史數(shù)據(jù)的ML方法中的固有問(wèn)題。另外，PCA在用延長(zhǎng)周期概念分析由延遲構(gòu)成的網(wǎng)絡(luò)流量方面起到了作用。PDM方法有效地減少了計(jì)算空間，PDM還可以靈活地判斷流量是否是周期性。因此，當(dāng)分析的數(shù)據(jù)很長(zhǎng)且稀疏時(shí)，PDM同樣將傳統(tǒng)方法中的O（n2 log n）的復(fù)雜度降低至O（n）。這說(shuō)明基于行為模式的識(shí)別可以靈活運(yùn)用到背景流的識(shí)別上來(lái)，但這個(gè)方法還是存在一定的局限性，背景流的周期性并不總是確定的，并不是每一個(gè)背景流都是周期性的，背景流的其他特征還需要進(jìn)一步的研究。為了對(duì)背景流進(jìn)行更加精確的分類(lèi)和識(shí)別，接下來(lái)本文介紹基于機(jī)器學(xué)習(xí)的識(shí)別和分類(lèi)方法。

2 基于機(jī)器學(xué)習(xí)的識(shí)別分類(lèi)

隨著網(wǎng)絡(luò)的發(fā)展，產(chǎn)生的網(wǎng)絡(luò)流量的種類(lèi)越來(lái)越多，數(shù)據(jù)量也越來(lái)越龐大，傳統(tǒng)方式已經(jīng)無(wú)法勝任對(duì)數(shù)據(jù)流量進(jìn)行合理的分類(lèi)工作，這導(dǎo)致了數(shù)據(jù)沖突、資源耗費(fèi)、通信延遲、通信效率不斷降低等一系列問(wèn)題。因此，有研究人員將機(jī)器學(xué)習(xí)機(jī)制引入到網(wǎng)絡(luò)流量分類(lèi)工作中，對(duì)網(wǎng)絡(luò)流量中一些帶有特征的流量信息進(jìn)行識(shí)別分類(lèi)，以提高流量分類(lèi)的準(zhǔn)確性和快捷性，且從研究成果來(lái)看，這些方法的效果都很好，具體的效果在以下章節(jié)中會(huì)詳細(xì)說(shuō)明。

在過(guò)去的十年中，人們對(duì)有關(guān)機(jī)器學(xué)習(xí)技術(shù)在流量分類(lèi)中的應(yīng)用進(jìn)行了大量研究。這些研究工作運(yùn)用的主要方法可以分為監(jiān)督方法或無(wú)監(jiān)督方法。

2.1 數(shù)據(jù)及采集方法

在2005年，機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于網(wǎng)絡(luò)流量分類(lèi)的高峰時(shí)期，Moore等[15]為了研究應(yīng)用樸素貝葉斯技術(shù)對(duì)基于流量統(tǒng)計(jì)特征的網(wǎng)絡(luò)流量進(jìn)行分類(lèi)的方法，于2005年在對(duì)流量統(tǒng)計(jì)特征全面描述的基礎(chǔ)上，制作了一個(gè)公開(kāi)的數(shù)據(jù)集。這個(gè)數(shù)據(jù)集的制作方法是研究人員提出了一種網(wǎng)絡(luò)監(jiān)控架構(gòu)，該架構(gòu)能夠與1Gb/s全雙工網(wǎng)絡(luò)連接。執(zhí)行多協(xié)議分析; 從線(xiàn)路捕獲所有數(shù)據(jù)。應(yīng)用程序、傳輸和網(wǎng)絡(luò)協(xié)議的集成分析使得它們的交互可以被分析和研究。此外，傳輸和網(wǎng)絡(luò)狀態(tài)的關(guān)聯(lián)使得實(shí)驗(yàn)不必使用很大的數(shù)據(jù)進(jìn)行分析。

數(shù)據(jù)集分類(lèi)如表1所示。

2009年，Este等[16]在研究支持向量機(jī)（Support Vector Machine， SVM）對(duì)互聯(lián)網(wǎng) TCP 流量進(jìn)行識(shí)別的實(shí)驗(yàn)中采用了3個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。

2.1.1 UNIBS數(shù)據(jù)集

此集的數(shù)據(jù)包是在Faculty網(wǎng)絡(luò)的邊界路由器上收集的。由于研究人員對(duì)此路由器具有完全監(jiān)視器訪(fǎng)問(wèn)權(quán)限，因此捕獲了每個(gè)數(shù)據(jù)包的前400個(gè)字節(jié)。可以應(yīng)用模式匹配機(jī)制來(lái)評(píng)估生成每個(gè)TCP流的實(shí)際應(yīng)用程序，在某些情況下添加手動(dòng)檢查。由于這一點(diǎn)，研究人員認(rèn)為從UNIBS得到的訓(xùn)練和評(píng)估集相對(duì)于預(yù)分類(lèi)信息是相對(duì)可靠的，即，獨(dú)立于分類(lèi)器知道哪個(gè)應(yīng)用產(chǎn)生了每個(gè)流。

訓(xùn)練和評(píng)估集都由屬于不同應(yīng)用類(lèi)型的協(xié)議類(lèi)組成：Web瀏覽、郵件服務(wù)、P2P和交互。選擇它們是因?yàn)樗鼈冐?fù)責(zé)產(chǎn)生大部分流量，并且因?yàn)樗鼈兊亩鄻有?，它們?cè)试S驗(yàn)證基于SVM的技術(shù)的一般適用性。此外，它們可以通過(guò)模式匹配方法輕松識(shí)別，并具有令人滿(mǎn)意的準(zhǔn)確度和精度。

每個(gè)類(lèi)只有400個(gè)向量來(lái)自訓(xùn)練集，并且在捕獲時(shí)間接近的流之間存在明顯的相關(guān)性，即它們通常由相同的源生成。由于需要對(duì)協(xié)議特征進(jìn)行完整描述，因此研究人員收集了更大的流量并為訓(xùn)練階段提取了一個(gè)小的隨機(jī)子集。在訓(xùn)練集中插入了表2中列出的前6個(gè)協(xié)議。在每個(gè)協(xié)議名稱(chēng)旁邊展示了它生成的流的百分比以及它已傳輸?shù)淖止?jié)部分;在最后一列中，僅考慮與應(yīng)用層對(duì)應(yīng)的字節(jié)的百分比。

除了上面提到的6個(gè)協(xié)議之外，研究人員還在評(píng)估集的表格中包含了其他3類(lèi)流程，這些類(lèi)用于驗(yàn)證分類(lèi)器識(shí)別與訓(xùn)練階段使用的協(xié)議不同的協(xié)議的能力。研究人員負(fù)責(zé)從兩個(gè)不同的連續(xù)時(shí)間框架中收集的痕跡中選擇訓(xùn)練和評(píng)估集。

2.1.2 LBNL數(shù)據(jù)集

LBNL流量是在勞倫斯伯克利國(guó)家實(shí)驗(yàn)室收集的，并使用工具tcpmkpub進(jìn)行匿名化。

數(shù)據(jù)包是在LBNL網(wǎng)絡(luò)的兩個(gè)中央路由器上收集的，它們包含從數(shù)千個(gè)內(nèi)部主機(jī)生成的流量。

測(cè)量系統(tǒng)允許同時(shí)存儲(chǔ)20個(gè)路由器端口中僅有兩個(gè)的流量。因此，周期性地被監(jiān)視子網(wǎng)發(fā)生變化，并且所得到的跟蹤依次來(lái)自子網(wǎng)的連續(xù)。此測(cè)量過(guò)程會(huì)影響LBNL流量的特性，因?yàn)閷?duì)于每個(gè)應(yīng)用協(xié)議，流的數(shù)量及其統(tǒng)計(jì)屬性可能取決于監(jiān)控的子網(wǎng)。

測(cè)量系統(tǒng)允許同時(shí)存儲(chǔ)20個(gè)路由器端口中的2個(gè)端口的流量。因此，被監(jiān)視的子網(wǎng)會(huì)周期性地發(fā)生變化，所以得到的跟蹤流來(lái)自不同的子網(wǎng)。此測(cè)量過(guò)程會(huì)影響LBNL流量的特性，因?yàn)閷?duì)于每個(gè)應(yīng)用協(xié)議，跟蹤流的數(shù)量及其同技術(shù)性可能取決于受監(jiān)控的子網(wǎng)。

協(xié)議的選擇與UNIBS實(shí)驗(yàn)不同，它包括表3中前6個(gè)類(lèi)的訓(xùn)練階段。在評(píng)估集中，還考慮了表中顯示的其余8個(gè)類(lèi)。

由于需要盡可能多的流來(lái)表征給定的協(xié)議，因此研究人員分析了這些流量以確定最常見(jiàn)的應(yīng)用程序，并將它們分組以形成表中報(bào)告的組合。

2.1.3 CAIDA數(shù)據(jù)集

CAIDA數(shù)據(jù)集包含2002年8月14日沿OC48鏈路在AIX（AMES Internet Exchange）上3h內(nèi)收集的流量。使用從第一個(gè)小時(shí)（對(duì)應(yīng)于16：15—17：00 UTC的時(shí)間間隔）提取的流來(lái)構(gòu)建訓(xùn)練集，第三個(gè)小時(shí)（18：00—18：10 UTC）提取的流量創(chuàng)建評(píng)估集。

使用CAIDA數(shù)據(jù)集來(lái)驗(yàn)證分類(lèi)器對(duì)骨干鏈路的適用性，其中高傳輸速率比較常見(jiàn)，并且流量源比本地網(wǎng)絡(luò)更具有異構(gòu)性。

用于選擇協(xié)議的過(guò)程與LBNL數(shù)據(jù)集所遵循的過(guò)程相同。訓(xùn)練集中使用的流程對(duì)應(yīng)于表4中顯示的前6個(gè)類(lèi)別。在評(píng)估集中包括其余5個(gè)協(xié)議。

2.2 有監(jiān)督方法

有監(jiān)督的流量分類(lèi)方法具有分析監(jiān)督訓(xùn)練數(shù)據(jù)，并產(chǎn)生推斷的功能，可以預(yù)測(cè)任何測(cè)試流程的輸出類(lèi)別。在有監(jiān)督的流量分類(lèi)中，充分的監(jiān)督訓(xùn)練數(shù)據(jù)是一個(gè)普遍的假設(shè)。

2.2.1 樸素貝葉斯方法

為了解決基于有效載荷的流量分類(lèi)所帶來(lái)的問(wèn)題，如加密應(yīng)用和用戶(hù)數(shù)據(jù)隱私，Moore等[15]應(yīng)用有監(jiān)督的樸素貝葉斯技術(shù)對(duì)基于流量統(tǒng)計(jì)特征的網(wǎng)絡(luò)流量進(jìn)行分類(lèi)。所使用的數(shù)據(jù)集中的流量流被手動(dòng)分類(lèi)（基于流量?jī)?nèi)容），從而可以進(jìn)行準(zhǔn)確的評(píng)估。248個(gè)基于全流量的特征用于訓(xùn)練分類(lèi)器，這些特征中有基本的統(tǒng)計(jì)特征，例如最大、最小、平均包大小，最大、最小、平均包到達(dá)時(shí)間間隔等，也有復(fù)雜的衍生特征和變換特征，例如對(duì)包大小序列作傅里葉變換等。將用于互聯(lián)網(wǎng)應(yīng)用的所選流量分組為不同的類(lèi)別以用于分類(lèi)，例如，Web 訪(fǎng)問(wèn)流量（WWW）、郵件流量（MAIL）、大塊文件傳輸流量（BULK）、網(wǎng)絡(luò)服務(wù)流量（SERV）、數(shù)據(jù)庫(kù)流量（DB）、P2P流量（P2P）、攻擊流量（ATT）和互聯(lián)網(wǎng)多媒體流量（MMEDIA）等8種重要互聯(lián)網(wǎng)流量。為了評(píng)估分類(lèi)器的性能，研究使用Accuracy和Trust（相當(dāng)于Recall）作為評(píng)估指標(biāo)。結(jié)果表明，使用簡(jiǎn)單的樸素貝葉斯技術(shù)，使用整個(gè)流動(dòng)特征群體，可以在分類(lèi)中獲得大約65%的流動(dòng)精度。使用具有核密度估計(jì)的樸素貝葉斯（Naive Bayes using Kernel density estimation， NBK）和相關(guān)性快速過(guò)濾特征選擇（Fast Correlation Based Filter， FCBF）的方法對(duì)分類(lèi)器進(jìn)行了兩次改進(jìn)。這些改進(jìn)有助于減少特征空間，并將對(duì)于流量的分類(lèi)器性能提高到優(yōu)于總體精度的95%以上。憑借最優(yōu)的組合技術(shù)，單個(gè)應(yīng)用類(lèi)別的準(zhǔn)確率分別為：Web訪(fǎng)問(wèn)流量98%，批量數(shù)據(jù)傳輸90%，服務(wù)流量約44%和P2P 55%。在另一實(shí)驗(yàn)中Moore等又應(yīng)用貝葉斯神經(jīng)網(wǎng)絡(luò)方法擴(kuò)展了這項(xiàng)工作。已經(jīng)證明，與樸素貝葉斯技術(shù)相比，精度進(jìn)一步提高。貝葉斯訓(xùn)練的神經(jīng)網(wǎng)絡(luò)方法能夠?qū)ν惶爝M(jìn)行訓(xùn)練和測(cè)試的數(shù)據(jù)進(jìn)行高達(dá)99%的準(zhǔn)確率分類(lèi)，對(duì)相隔8個(gè)月的數(shù)據(jù)進(jìn)行訓(xùn)練和測(cè)試的準(zhǔn)確率達(dá)到95%。

Williams等[17]提供了ML流量分類(lèi)的性能方面的見(jiàn)解。著眼于許多監(jiān)督ML算法：具有離散化的樸素貝葉斯（Naive Bayes using Discretization， NBD），具有核密度估計(jì)的樸素貝葉斯（NBK），C4.5決策樹(shù)決策樹(shù)，貝葉斯網(wǎng)絡(luò)和樸素貝葉斯樹(shù)。這些算法的計(jì)算性能根據(jù)分類(lèi)速度（每秒分類(lèi)數(shù)量）和構(gòu)建相關(guān)分類(lèi)模型所花費(fèi)的時(shí)間進(jìn)行評(píng)估。

結(jié)果表明，大多數(shù)算法通過(guò)22個(gè)（選出的）特征實(shí)現(xiàn)了高流量精度（除了NBK算法達(dá)到的精度只有80%以上，其余算法均達(dá)到95%以上的精度）。之后使用8個(gè)基于關(guān)聯(lián)的特征選擇（Correlation-based Feature Selection， CFS）和9個(gè)基于一致性的特征選擇（CONsistency-based feature selection， CON）減少特征集合，通過(guò)交叉驗(yàn)證獲得的結(jié)果與使用全特征集合相比，總體精度僅顯示出極小的變化。使用CON方法減少特征集，NBD和NBK的準(zhǔn)確度最多降低2%～2.5%。

盡管分類(lèi)準(zhǔn)確性相似，但各分類(lèi)方法在計(jì)算性能方面表現(xiàn)出顯著差異。在使用任何不同的特征集時(shí)，C4.5 決策樹(shù)算法都被認(rèn)為是最快的算法。按照分類(lèi)速度降序排列的算法是：C4.5 決策樹(shù)、離散化的樸素貝葉斯（NBD）、貝葉斯網(wǎng)絡(luò)、樸素貝葉斯樹(shù)、核密度估計(jì)的樸素貝葉斯（NBK）。

就模型構(gòu)建時(shí)間而言，樸素貝葉斯樹(shù)需要比其余算法長(zhǎng)得多的時(shí)間。按照模型構(gòu)建時(shí)間降序排列的算法是：樸素貝葉斯樹(shù)、C4.5 決策樹(shù)、貝葉斯網(wǎng)絡(luò)、離散化的樸素貝葉斯（NBD）、核密度估計(jì)的樸素貝葉斯（NBK）。

結(jié)果還表明，對(duì)于大多數(shù)算法來(lái)說(shuō)，特征數(shù)量的減少大大提高了算法在模型構(gòu)建時(shí)間和分類(lèi)速度方面的性能。

2.2.2 支持向量機(jī)（SVM）

SVM 作為一種經(jīng)典的 ML 模型，在流量識(shí)別研究中非常受歡迎，許多研究者力圖使用 SVM 構(gòu)建高效的流量識(shí)別模型。Este 等采用 SVM 對(duì)互聯(lián)網(wǎng) TCP 流量進(jìn)行識(shí)別，在這項(xiàng)研究中，展示了一種SVM單分類(lèi)方法的應(yīng)用，用于分類(lèi)網(wǎng)絡(luò)流量和檢測(cè)離群值數(shù)據(jù)包。分類(lèi)器集成了SVM的“一對(duì)多”方法，在需要時(shí)解決多類(lèi)問(wèn)題。同時(shí)引入了一個(gè)簡(jiǎn)單的優(yōu)化程序來(lái)為使用的數(shù)據(jù)集導(dǎo)出理想的SVM參數(shù)，從而導(dǎo)出一個(gè)訓(xùn)練過(guò)程。最后分析了基于SVM的分類(lèi)器應(yīng)用于三條數(shù)據(jù)軌跡的結(jié)果，其中兩條來(lái)自大型局域網(wǎng)，另一條來(lái)自互聯(lián)網(wǎng)主網(wǎng)。

將這一技術(shù)應(yīng)用于三種不同的數(shù)據(jù)集UNIBS、LBNL和CAIDA。在幾乎所有情況下，分類(lèi)器的準(zhǔn)確性都非常好，大部分都能達(dá)到90%甚至95%以上，證明SVM 在流量識(shí)別中可以獲得相當(dāng)高的精度。有些情況下分類(lèi)器的性能可能不是很好，例如來(lái)自CAIDA數(shù)據(jù)集的包含未知協(xié)議的類(lèi)，使用基于SVM的分類(lèi)器對(duì)CAIDA數(shù)據(jù)集進(jìn)行分類(lèi)只能達(dá)到86.5%的效果。本文認(rèn)為，這些問(wèn)題中的大多數(shù)歸因于（基于端口的）預(yù)分類(lèi)器的不可靠性。而后2011年，文獻(xiàn)[18]中他們進(jìn)一步將 SVM 應(yīng)用到在線(xiàn)流量識(shí)別中。2014年，Groléat 等[19-20]針對(duì)高速網(wǎng)絡(luò)環(huán)境，結(jié)合 FPGA 技術(shù)，對(duì)基于 SVM 的流量識(shí)別模型進(jìn)行硬件加速，使其適應(yīng)真實(shí)的主網(wǎng)環(huán)境。

2017年，Kong等[21]利用SVM在多分類(lèi)問(wèn)題中的優(yōu)秀表現(xiàn)，將其應(yīng)用在流量識(shí)別系統(tǒng)中，研究出了異常流量識(shí)別系統(tǒng)（ATIS），可以對(duì)多種攻擊流量應(yīng)用進(jìn)行分類(lèi)和識(shí)別。He[22]提出一種基于特征加權(quán)的支持向量機(jī)（Support Vector Machine with Feature Weighted-Degree， FWD-SVM）的網(wǎng)絡(luò)流量分類(lèi)方法。通過(guò)對(duì)大規(guī)模樣本集上流量分類(lèi)實(shí)驗(yàn)的分析比較，此方法可以減少樣本分布的影響，提高計(jì)算速度，提高網(wǎng)絡(luò)流量分類(lèi)的準(zhǔn)確性，同時(shí)還具有很好的泛化能力。在表5中給出了，F(xiàn)WD-SVM在大規(guī)模樣本集上進(jìn)行流量分類(lèi)實(shí)驗(yàn)的結(jié)果與其他四種經(jīng)典分類(lèi)方法的準(zhǔn)確性比較。

2.2.3 神經(jīng)網(wǎng)絡(luò)（NN）

如上文提到的Moore 等在前期研究的基礎(chǔ)上，通過(guò)采用貝葉斯神經(jīng)網(wǎng)絡(luò)的方法對(duì)他們所收集的數(shù)據(jù)集進(jìn)行流量識(shí)別，實(shí)驗(yàn)所得出的結(jié)果比之前僅使用樸素貝葉斯分類(lèi)器的方法在識(shí)別精度上面得到了很大的提高。

Raahemi 等[23-25]也較早致力于用人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Network， ANN）進(jìn)行 P2P 流量識(shí)別。他對(duì)Moore的方法提出了一些分析，他認(rèn)為雖然樸素貝葉斯方法很有前途，但由于涉及太多的鑒別器，所以存在一個(gè)關(guān)于該方法的可擴(kuò)展性的問(wèn)題，并且準(zhǔn)備數(shù)據(jù)（具有許多屬性）和分配業(yè)務(wù)流到預(yù)定義的類(lèi)別需要很多時(shí)間。因此他提出采用監(jiān)督機(jī)器學(xué)習(xí)技術(shù)中，以多層感知器神經(jīng)網(wǎng)絡(luò)作為分類(lèi)器對(duì)網(wǎng)絡(luò)流量進(jìn)行分類(lèi)。對(duì)數(shù)據(jù)進(jìn)行預(yù)處理并標(biāo)記數(shù)據(jù)，并在訓(xùn)練數(shù)據(jù)集中使用不同比率的P2P /非P2P的不同屬性的組合來(lái)構(gòu)建若干模型。結(jié)論為觀察到應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型需要不斷更新以確保檢測(cè)到新的同伴群體。而后Raahemi等又發(fā)現(xiàn)上述工作中采用的神經(jīng)網(wǎng)絡(luò)是一個(gè)非增量分類(lèi)器，并不總是可以持續(xù)更新非增量算法。所以他們又改進(jìn)為應(yīng)用增量神經(jīng)網(wǎng)絡(luò)和Fuzzy ARTMAP來(lái)對(duì)互聯(lián)網(wǎng)流量進(jìn)行分類(lèi)。在校園網(wǎng)關(guān)上捕獲互聯(lián)網(wǎng)流量，對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和標(biāo)記，并針對(duì)不同規(guī)模的培訓(xùn)/測(cè)試數(shù)據(jù)集建立模糊ARTMAP神經(jīng)網(wǎng)絡(luò)分類(lèi)模型，分別用于增量學(xué)習(xí)和非增量學(xué)習(xí)模式。用靈敏度、特異性和準(zhǔn)確性來(lái)衡量分類(lèi)器的性能。實(shí)驗(yàn)結(jié)果表明當(dāng)訓(xùn)練集的大小相對(duì)較小時(shí)（大約4000次或更少），增量學(xué)習(xí)的性能比非增量學(xué)習(xí)的性能要好。當(dāng)訓(xùn)練集的大小增加時(shí)，增量學(xué)習(xí)的性能優(yōu)勢(shì)消失。

這一觀察結(jié)果突出了在線(xiàn)流數(shù)據(jù)挖掘任務(wù)的實(shí)際用法，例如互聯(lián)網(wǎng)中對(duì)等流量的分類(lèi)。在這種類(lèi)型的應(yīng)用程序中，通常對(duì)可用內(nèi)存量有限制。因此，需要具有需要小規(guī)模訓(xùn)練數(shù)據(jù)的分類(lèi)算法。實(shí)驗(yàn)結(jié)果證實(shí)，當(dāng)訓(xùn)練樣本很小時(shí)，增量學(xué)習(xí)算法，尤其是ARTMAP神經(jīng)網(wǎng)絡(luò)，表現(xiàn)比非增量學(xué)習(xí)算法好得多。基于這種觀察，建議使用增量學(xué)習(xí)方法來(lái)分類(lèi)P2P流量。該算法，例如Fuzzy ARTMAP神經(jīng)網(wǎng)絡(luò)，可以在路由器中實(shí)現(xiàn)（可能在最終用戶(hù)的訪(fǎng)問(wèn)接口上），作為后臺(tái)進(jìn)程連續(xù)運(yùn)行。

除上述方法以外，還有各種類(lèi)型的人工神經(jīng)網(wǎng)絡(luò)都被應(yīng)用到網(wǎng)絡(luò)流量識(shí)別中，例如文獻(xiàn)[26-28]中提到的BP 神經(jīng)網(wǎng)絡(luò)、文獻(xiàn)[29-31]中提到的概率神經(jīng)網(wǎng)絡(luò)和文獻(xiàn)[32]中提到的RBF神經(jīng)網(wǎng)絡(luò)等。前幾年，Mathewos 等[33]提出一種并行計(jì)算的架構(gòu)，用以提高神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和識(shí)別速度，使之適應(yīng)實(shí)際的流量識(shí)別問(wèn)題。

2017年，Wang等[34]使用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network， CNN）方法，將原始流量數(shù)據(jù)作為圖像，使用CNN進(jìn)行圖像分類(lèi)，最終實(shí)現(xiàn)惡意流量分類(lèi)的目標(biāo)。這是首次將圖像學(xué)習(xí)方法應(yīng)用于使用原始流量數(shù)據(jù)的惡意軟件流量分類(lèi)域。由于流量數(shù)據(jù)的連續(xù)性和圖像數(shù)據(jù)的離散性不同，研究了多種流量圖像類(lèi)型，并通過(guò)實(shí)驗(yàn)發(fā)現(xiàn)了CNN為最佳類(lèi)型。為了證明提出的方法的可擴(kuò)展性，使用三種分類(lèi)器在兩種情況下進(jìn)行實(shí)驗(yàn)，最終的平均準(zhǔn)確率為99.41%，符合實(shí)際應(yīng)用標(biāo)準(zhǔn)。

2.2.4 C4.5決策樹(shù)

在上文樸素貝葉斯方法中提到Williams等提供了ML流量分類(lèi)的性能方面的見(jiàn)解。著眼于許多監(jiān)督ML算法，并分析評(píng)估各類(lèi)算法的性能。

在使用任何不同的特征集時(shí)，C4.5 決策樹(shù)算法都被認(rèn)為是最快的算法。文獻(xiàn)[35-36]中也表明，將C4.5算法應(yīng)用于P2P流量分類(lèi)，性能比廣泛使用的貝葉斯方法更好更穩(wěn)定，并且能夠有效地避免P2P流量分布波動(dòng)的影響。

而Zhang等[37]表示研究方法在實(shí)時(shí)分類(lèi)方面很差。這主要是由于流程持續(xù)時(shí)間、流量大小和數(shù)據(jù)包計(jì)數(shù)器等屬性集合造成的，只有在流程結(jié)束時(shí)才能夠精確獲取。文獻(xiàn)中的子流模型可以大大提高分類(lèi)的及時(shí)性，但只有當(dāng)流量可以分為不同的階段時(shí)才能有效地進(jìn)行實(shí)時(shí)分類(lèi)。與之前的方法相比，Zhang等的方法從使用C4.5和滑動(dòng)窗口的屬性集的角度實(shí)現(xiàn)了機(jī)器學(xué)習(xí)分類(lèi)器的及時(shí)性。結(jié)果表明，與當(dāng)前屬性集相比，此方法可以實(shí)現(xiàn)更有效的性能，對(duì)于實(shí)時(shí)的P2P應(yīng)用分類(lèi)，準(zhǔn)確率達(dá)到了96.7%，并且即使流程開(kāi)始丟失，也可以保持穩(wěn)定。此方法的優(yōu)點(diǎn)在于，它可以盡早識(shí)別P2P應(yīng)用程序，其性能不依賴(lài)于流程的完整性，所以它在實(shí)際的實(shí)時(shí)網(wǎng)絡(luò)流量分類(lèi)中會(huì)很有用。

2.2.5 近鄰分類(lèi)（KNN）

K最近鄰（K-Nearest Neighbors， KNN）分類(lèi)模型也是一種在流量識(shí)別研究中非常受歡迎的模型。如前文所述目前的對(duì)于流量識(shí)別分類(lèi)的研究主要集中在使用ML技術(shù)，在分析流量統(tǒng)計(jì)特性的基礎(chǔ)上對(duì)流量進(jìn)行分析。然而，文獻(xiàn)[38]中提到，不平衡數(shù)據(jù)集是現(xiàn)實(shí)應(yīng)用中常見(jiàn)的問(wèn)題，特別是在網(wǎng)絡(luò)流量中，常常會(huì)對(duì)ML算法的分類(lèi)性能造成嚴(yán)重的負(fù)面影響。這是因?yàn)橐恍┢綍r(shí)很多人使用的應(yīng)用程序產(chǎn)生大量的流量（稱(chēng)為“大類(lèi)”），而不受歡迎的應(yīng)用程序只產(chǎn)生少量的流量（稱(chēng)為“小類(lèi)”）。在這個(gè)問(wèn)題中，分類(lèi)器總是偏向于大類(lèi)。大類(lèi)的分類(lèi)效果很好，而小類(lèi)的分類(lèi)效果非常差。大多數(shù)傳統(tǒng)的ML分類(lèi)算法都會(huì)盡量減小錯(cuò)誤率，即錯(cuò)誤預(yù)測(cè)分類(lèi)標(biāo)簽的百分比。這會(huì)導(dǎo)致算法忽略錯(cuò)誤類(lèi)型之間的差異。特別是，他們假設(shè)所有這些錯(cuò)誤分類(lèi)都是相同的。研究者們引入了許多解決方案來(lái)處理先前在數(shù)據(jù)和算法級(jí)別的ML算法的不平衡問(wèn)題。其中在算法層面，研究人員提出了成本敏感的學(xué)習(xí)，其重點(diǎn)在于將成本納入決策過(guò)程，這是另一種提高分類(lèi)器性能的另一種方式，即從不平衡數(shù)據(jù)集中學(xué)習(xí)或在內(nèi)部操縱分類(lèi)器，如文獻(xiàn)[39]中提到的KNN中的加權(quán)距離和SVM偏差算法。而后Wu等[40]提出一種新的方法，用于改善KNN方法中分類(lèi)器在小類(lèi)應(yīng)用中的分類(lèi)性能。即引入KNN算法的決策邊界，研究開(kāi)發(fā)了一個(gè)模型，可以自動(dòng)選擇最佳決策邊界，以達(dá)到小類(lèi)流量分類(lèi)的最佳性能，又能保持大類(lèi)流量分類(lèi)的性能穩(wěn)定。Du 等[41]也有提出將 BPSO 優(yōu)化算法與KNN結(jié)合，構(gòu)建出一種高效的P2P 流量識(shí)別模型。

2017年，McGaughey等[42]提出使用快速正交搜索（Fast Orthogonal Search， FOS）算法從數(shù)據(jù)導(dǎo)出的大量特征中選擇具有區(qū)分能力的特征子集，然后使用KNN分類(lèi)器和FOS選擇的特征對(duì)網(wǎng)絡(luò)流量進(jìn)行分類(lèi)。FOS算法從一組2839個(gè)特征中選擇了12個(gè)特征子集。研究表明使用這12個(gè)特征的KNN分類(lèi)器比使用任意44個(gè)特征集的KNN少106個(gè)錯(cuò)誤，并且分類(lèi)的計(jì)算時(shí)間減少了81%，大大提高了KNN對(duì)網(wǎng)絡(luò)流量進(jìn)行分類(lèi)的效率。

2.3 半監(jiān)督方法

半監(jiān)督方法主要是使用ML技術(shù)中的聚類(lèi)方法。使用聚類(lèi)方法來(lái)進(jìn)行網(wǎng)絡(luò)流量的識(shí)別與分類(lèi)。在半監(jiān)督學(xué)習(xí)的流識(shí)別研究中，Bernaille 等[43]于2006 年發(fā)表的研究成果具有重要意義，在這篇文獻(xiàn)中，嘗試使用K均值聚類(lèi)方法進(jìn)行半監(jiān)督學(xué)習(xí)的流量識(shí)別，并獲得了比較理想的結(jié)果。

Erman 等[44-45]也在半監(jiān)督學(xué)習(xí)的流量識(shí)別研究中作出了重大的貢獻(xiàn)，同是2006年，使用聚類(lèi)的機(jī)器學(xué)習(xí)方法對(duì)傳輸層的流量進(jìn)行統(tǒng)計(jì)分類(lèi)。通過(guò)評(píng)估兩種聚類(lèi)算法，即K-Means和DBSCAN聚類(lèi)算法（Density-Based Spatial Clustering of Applications with Noise， DBSCAN），確認(rèn)觀察結(jié)果。另外使用已有的基于自動(dòng)聚類(lèi)（AutoClass）算法（AutoClass 算法）的結(jié)果作為基線(xiàn)。使用的算法為半監(jiān)督學(xué)習(xí)機(jī)制，其中未標(biāo)記的訓(xùn)練數(shù)據(jù)基于相似性進(jìn)行分組。這種對(duì)未標(biāo)記訓(xùn)練數(shù)據(jù)進(jìn)行分組的能力是有利的，并且相對(duì)于需要標(biāo)記訓(xùn)練數(shù)據(jù)的學(xué)習(xí)方法這種方法有一個(gè)優(yōu)點(diǎn)，即可發(fā)現(xiàn)來(lái)自產(chǎn)生于過(guò)去的未知應(yīng)用的流量。盡管所選擇的算法使用半監(jiān)督學(xué)習(xí)機(jī)制，但是這些算法中的每一個(gè)都基于不同的聚類(lèi)原理。 K-Means聚類(lèi)算法是一種基于分區(qū)的算法，DBSCAN算法是一種基于密度的算法，而AutoClass算法是一種基于概率模型的算法。而選擇K-Means和DBSCAN算法的一個(gè)原因是它們?cè)诰垲?lèi)數(shù)據(jù)方面比以前使用的AutoClass算法快得多。

使用兩條經(jīng)驗(yàn)痕跡評(píng)估算法：奧克蘭大學(xué)眾所周知的公開(kāi)可用互聯(lián)網(wǎng)流量追蹤，以及從卡爾加里大學(xué)互聯(lián)網(wǎng)連接收集到的最新蹤跡?；谒鼈兩蓡蝹€(gè)應(yīng)用程序具有高預(yù)測(cè)能力的群集的能力來(lái)比較算法。實(shí)驗(yàn)表明集群適用于各種不同的應(yīng)用，包括Web、P2P文件共享和文件傳輸，AutoClass和K-Means算法的精度超過(guò)85%，DBSCAN的精度達(dá)到75%。

此外，論文分析了由不同算法產(chǎn)生的每個(gè)簇中，簇的數(shù)量和對(duì)象的數(shù)量。分析是基于每種算法生成具有單一流量類(lèi)別的高預(yù)測(cè)能力的群集的能力，并且每種算法是否能夠生成包含大多數(shù)連接的最少數(shù)量的群集。實(shí)驗(yàn)表明， AutoClass算法具有最好的整體精度。同時(shí)，盡管DBSCAN具有較低的整體精度，但它形成的群集是最準(zhǔn)確的，因?yàn)樗鼘⒋蠖鄶?shù)連接放置在一小群集群中。這非常有用，因?yàn)檫@些群集對(duì)單個(gè)類(lèi)別的流量具有很高的預(yù)測(cè)能力。K-Means算法的整體精度僅略低于AutoClass算法，但由于其建模時(shí)間快得多，因此更適合網(wǎng)絡(luò)流量分類(lèi)與識(shí)別問(wèn)題。后續(xù)文獻(xiàn)[46]中，他們繼續(xù)深入研究探索了半監(jiān)督學(xué)習(xí)模型在在線(xiàn)流量識(shí)別的應(yīng)用。

2017年，Hochst等[47]提出一種基于神經(jīng)自動(dòng)編碼器的流量和聚類(lèi)統(tǒng)計(jì)特性的無(wú)監(jiān)督流量流分類(lèi)的新方法。該算法已被用于將流量集中到下載、上傳、調(diào)用、瀏覽、視頻流、實(shí)時(shí)流或交互通信，獨(dú)立于用于執(zhí)行這些任務(wù)的特定網(wǎng)絡(luò)協(xié)議?；跁r(shí)間間隔的新穎特征向量構(gòu)建和半自動(dòng)聚類(lèi)標(biāo)記方法促進(jìn)了與已知流量類(lèi)別無(wú)關(guān)的流量分類(lèi)。通過(guò)在四個(gè)月內(nèi)捕獲的實(shí)際數(shù)據(jù)的實(shí)驗(yàn)評(píng)估。獲得的結(jié)果顯示，檢測(cè)到7個(gè)不同類(lèi)別的移動(dòng)通信流量，平均精度為80%，獲得了不錯(cuò)的實(shí)驗(yàn)效果。

2.4 基于機(jī)器學(xué)習(xí)的識(shí)別分類(lèi)方法總結(jié)

上文總結(jié)了從2004—2012年機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于網(wǎng)絡(luò)流量識(shí)別分類(lèi)的高峰期，也提出了近幾年的一些改進(jìn)。下面用表6歸納上述方法。

3 結(jié)語(yǔ)

流量分類(lèi)識(shí)別技術(shù)在近十幾年的相關(guān)研究中有所提高。在過(guò)去的研究中，研究界和網(wǎng)絡(luò)行業(yè)已經(jīng)調(diào)查，提出并開(kāi)發(fā)了多種分類(lèi)識(shí)別方法。雖然流量分類(lèi)識(shí)別技術(shù)的準(zhǔn)確性和效率有所提高，但不斷并迅速增加的不同的網(wǎng)絡(luò)應(yīng)用行為，同時(shí)有越來(lái)越多的方法被研究用來(lái)掩飾某些應(yīng)用程序以避免被過(guò)濾或阻止，流量分類(lèi)識(shí)別問(wèn)題仍然是網(wǎng)絡(luò)中許多未解決的問(wèn)題之一。本文回顧了近十幾年的研究成果，主要是分類(lèi)識(shí)別方法的發(fā)展進(jìn)程以及它們?cè)谶m用性、可靠性和隱私方面的權(quán)衡。從傳統(tǒng)的流量分類(lèi)識(shí)別方法包括基于端口的預(yù)測(cè)方法和基于有效載荷的深度檢測(cè)方法，到目前基于流量統(tǒng)計(jì)特征的機(jī)器學(xué)習(xí)技術(shù)，甚至近幾年出現(xiàn)的結(jié)合傳統(tǒng)方法與機(jī)器學(xué)習(xí)方法的流量分類(lèi)技術(shù)。

就目前的研究成果來(lái)看，網(wǎng)絡(luò)流量識(shí)別分類(lèi)技術(shù)通過(guò)從傳統(tǒng)的方法到應(yīng)用機(jī)器學(xué)習(xí)算法取得了較大的突破，但基于機(jī)器學(xué)習(xí)算法的方法應(yīng)有以下問(wèn)題：

1）僅使用機(jī)器學(xué)習(xí)算法只能滿(mǎn)足特定的網(wǎng)絡(luò)環(huán)境，缺少適合多種普遍環(huán)境的方法。

2）特征選擇存在考慮不足的情況，影響網(wǎng)絡(luò)流量識(shí)別分類(lèi)的準(zhǔn)確性。

為了解決以上問(wèn)題，未來(lái)需要嘗試使用更多結(jié)合的方法，來(lái)對(duì)網(wǎng)絡(luò)流量進(jìn)行識(shí)別分類(lèi)。同時(shí)為了適應(yīng)目前互聯(lián)網(wǎng)應(yīng)用的需求和模式的發(fā)展，流量識(shí)別技術(shù)需要考慮以下方向的發(fā)展：

1）增強(qiáng)移動(dòng)互聯(lián)網(wǎng)端的流量識(shí)別。隨著手機(jī)行業(yè)的發(fā)展，移動(dòng)端的應(yīng)用類(lèi)別日益增多。隨之產(chǎn)生的流量模式和數(shù)量也急速增長(zhǎng)，因此，移動(dòng)互聯(lián)網(wǎng)的流量識(shí)別必然成為互聯(lián)網(wǎng)流量識(shí)別的一個(gè)重要部分。

2）高速網(wǎng)絡(luò)下的流量識(shí)別。目前從工業(yè)界到民用帶寬都在進(jìn)行升級(jí)，隨著網(wǎng)絡(luò)帶寬的增加，如何在高速網(wǎng)絡(luò)環(huán)境下識(shí)別快速產(chǎn)生的海量流量，也將是互聯(lián)網(wǎng)流量識(shí)別的一個(gè)重要研究方向。

參考文獻(xiàn) （References）

[1] HUANG J， QIAN F， MAO Z M， et al. Screen-off traffic characterization and optimization in 3G/4G networks [C]// IMC '12： Proceedings of the 2012 International Conference on Internet Measurement Conference. New York： ACM， 2012： 357-364.

[2] DAINOTTI A， PESCAPE A， CLAFFY K C. Issues and future directions in traffic classification [J]. IEEE Network， 2012， 26（1）： 35-40.

[3] KARAGIANNIS T， PAPAGIANNAKI K， FALOUTSOS M. BLINC： multilevel traffic classification in the dark [J]. ACM SIGCOMM Computer Communication Review， 2005， 35（4）： 229-240.

[4] MOORE A W， PAPAGIANNAKI K. Toward the accurate identification of network applications [C]// PAM 2005： Proceedings of the 2005 International Workshop on Passive and Active Network Measurement， LNCS 3431. Berlin： Springer， 2005： 41-54.

[5] DEWES C， WICHMANN A， FELDMANN A. An analysis of Internet chat systems [C]// Proceedings of the 2003 SIGCOMM Conference on Internet Measurement. New York： ACM， 2003： 51-64.

[6] SEN S， SPATSCHECK O， WANG D. Accurate， scalable in-network identification of P2P traffic using application signatures[C]// Proceedings of the 2004 International Conference on World Wide Web. New York： ACM， 2004： 512-521.

[7] 康寧.HTTPS網(wǎng)頁(yè)流量的指紋提取和識(shí)別技術(shù)研究[D]. 哈爾濱：哈爾濱工業(yè)大學(xué)，2017：37-39.（KANG N. Research on fingerprint extraction and recognition technology of HTTPS Web traffic[D]. Harbin： Harbin Institute of Technology， 2017：37-39.）

[8] 劉佳雄.基于DPI和DFI技術(shù)的對(duì)等流量識(shí)別系統(tǒng)的設(shè)計(jì)[D].秦皇島：燕山大學(xué)，2010：20-30.（LIU J X. Design of peer-to-peer traffic identification system based on DPI and DFI technology [D]. Qinhuangdao： Yanshan University， 2010：20-30.）

[9] 胡慶安.基于雙重特征的協(xié)議識(shí)別方法研究[D].成都：西南交通大學(xué)，2010：23-40.（HU Q A. Research on protocol identification method based on dual features [D]. Chengdu： Southwest Jiaotong University， 2010：23-40.）

[10] 陳傳通.基于正則表達(dá)式匹配的網(wǎng)絡(luò)流量識(shí)別系統(tǒng)的研究與實(shí)現(xiàn)[D]. 濟(jì)南：山東大學(xué)，2013：17-22.（CHEN C T. Research and implementation of network traffic identification system based on regular expression matching [D]. Jinan： Shandong University， 2013：17-22.）

[11] 劉瀧.基于DPI的網(wǎng)絡(luò)業(yè)務(wù)流量識(shí)別技術(shù)研究[D].濟(jì)寧：曲阜師范大學(xué)，2017：15-31.（LIU L. Research on network service traffic identification technology based on DPI [D]. Jining： Qufu Normal University， 2017：15-31.）

[12] MINH Q T， KOTO H， KITAHARA T， et al. Separation of background and foreground traffic based on periodicity analysis [C]// Proceedings of the 2015 IEEE Global Communications Conference. Piscataway， NJ： IEEE， 2015：1-7.

[13] MINH Q T. An effective approach to background traffic detection [C]// FDSE 2015： Proceedings of the 2015 International Conference on Future Data and Security Engineering， LNCS 9446. Berlin： Springer， 2015： 135-146.

[14] MEKKY H， MOHAISEN A， ZHANG Z L. Blind separation of benign and malicious events to enable accurate malware family classification [C]// Proceedings of the 2014 SIGSAC Conference on Computer and Communications Security. New York： ACM， 2014： 1478-1480.

[15] MOORE A W， ZUEV D. Internet traffic classification using Bayesian analysis techniques [J]. ACM SIGMETRICS Performance Evaluation Review， 2005， 33（1）： 50-60.

[16] ESTE A， GRINGOLI F， SALGARELLI L. Support vector machines for TCP traffic classification [J]. Computer Networks， 2009， 53（14）： 2476-2490.

[17] WILLIAMS N， ZANDER S， ARMITAGE G. A preliminary performance comparison of five machine learning algorithms for practical IP traffic flow classification [J]. ACM SIGCOMM Computer Communication Review， 2006， 36（5）： 5-16.

[18] ESTE A， GRINGOLI F， SALGARELLI L. On-line SVM traffic classification [C]// Proceedings of the 2011 7th International Wireless Communications and Mobile Computing Conference. Piscataway， NJ： IEEE， 2011： 1778-1783.

[19] GROLAT T， ARZEL M， VATON S. Hardware acceleration of SVM-based traffic classification on FPGA [C]// Proceedings of the 2012 8th International Wireless Communications and Mobile Computing Conference. Piscataway， NJ： IEEE， 2012： 443-449.

[20] GROLAT T， ARZEL M， VATON S. Stretching the edges of SVM traffic classification with FPGA acceleration [J]. IEEE Transactions on Network and Service Management， 2014， 11（3）： 278-291.

[21] KONG L， HUANG G， WU K. Identification of abnormal network traffic using support vector machine [C]// Proceedings of the 2017 18th International Conference on Parallel and Distributed Computing， Applications and Technologies. Piscataway， NJ： IEEE， 2017： 288-292.

[22] HE H. A network traffic classification method using support vector machine with feature weighted-degree [J]. Journal of Digital Information Management， 2017， 15（2）： 76-83.

[23] RAAHEMI B， HAYAJNEH A， RABINOVITCH P. Classification of peer-to-peer traffic using neural networks[C]// Proceedings of the 2007 International Conference on Artificial Intelligence and Pattern Recognition. Piscataway， NJ： IEEE， 2007： 411-417.

RAAHEMI B， KOUZNETSOV A， HAYAJNEH A， et al. Classification of peer-to-peer traffic using incremental neural networks [C]// Proceedings of the 2008 Canadian Conference on Electrical and Computer Engineering. Piscataway， NJ： IEEE， 2008： 411-417.

[24] RAAHEMI B， HAYAJNEH A， RABINOVITCH P. Peer-to-peer IP traffic classification using decision tree and IP layer attributes [J]. International Journal of Business Data Communications and Networking， 2007， 3（4）： 60.

[25] RAAHEMI B， KOUZNETSOV A， HAYAJNEH A， et al. Classification of peer-to-peer traffic using incremental neural networks （fuzzy ARTMAP） [C]// CCECE 2008： Proceedings of the 2008 International Conference on Electrical and Computer EngineeringProceedings of the 2008 Canadian Conference on Electrical and Computer Engineering. Piscataway， NJ： IEEE， 2008： 719-724.

[26] SHEN F， PAN C， REN X. Research of P2P traffic identification based on BP neural network [C]// IIH-MSP 2007： Proceedings of the 2007 International Conference on Intelligent Information Hiding and Multimedia Signal Processing. Washington， DC： IEEE Computer Society， 2007， 2： 75-78.

[27] GU C， ZHUANG S. A novel P2P traffic classification approach using back propagation neural network [C]// Proceedings of the 2010 IEEE 12th International Conference on Communication Technology. Piscataway， NJ： IEEE， 2010： 52-55.

[28] CHEN H， HU Z， YE Z， et al. Research of P2P traffic identification based on neural network [C]// CNMT 2009： Proceedings of the 2009 International Symposium on Computer Network and Multimedia Technology. Piscataway， NJ： IEEE， 2009： 1-4.

[29] SUN R， YANG B， PENG L， et al. Traffic classification using probabilistic neural networks [C]// Proceedings of the 2010 6th International Conference on Natural Computation. Piscataway， NJ： IEEE， 2010， 4： 1914-1919.

[30] 賀靜，趙巒.基于PCA-概率神經(jīng)網(wǎng)絡(luò)的P2P流量分類(lèi)方法研究[J].電腦開(kāi)發(fā)與應(yīng)用，2011，24（7）：18-20.（HE J， ZHAO L. Research on P2P traffic classification based on PCA-probabilistic neural network[J]. Computer Development and Applications， 2011， 24（7）： 18-20.）

[31] AKILANDESWARI V， SHALINIE S M. Probabilistic neural network based attack traffic classification[C]// Proceedings of the 2012 4th International Conference on Advanced Computing. ?Piscataway， NJ： IEEE， 2012： 1-8.

[32] SINGH K， AGRAWAL S. Internet traffic classification using RBF neural network [C]// Proceedings of the 2011 International Conference on Communication and Computing technologies （ICCCT-2011）. Jalandhar， India： [s.n.]， 2011： 39-43.

[33] MATHEWOS B， CARVALHO M， HAM F. Network traffic classification using a parallel neural network classifier architecture [C]// CSIIRW '11： Proceedings of the 7th Annual Workshop on Cyber Security and Information Intelligence Research. New York： ACM， 2011： Article No. 33.

[34] WANG W， ZHU M， ZENG X， et al. Malware traffic classification using convolutional neural network for representation learning [C]// Proceedings of the 2017 International Conference on Information Networking. Piscataway， NJ： IEEE， 2017： 712-717.

[35] 徐鵬，林森.基于C4.5決策樹(shù)的流量分類(lèi)方法[J].軟件學(xué)報(bào)，2009，20（10）：2692-2704.（XU P， LIN S. Internet traffic classification using C4. 5 decision tree [J]. Journal of Software， 2009，20（10）： 2692-2704.）

[36] 陳云菁，張赟，陳經(jīng)濤.基于決策樹(shù)模型的P2P流量分類(lèi)方法[J].計(jì)算機(jī)應(yīng)用研究，2009，26（12）：4690-4693.（CHEN Y J， ZHANG Y， CHEN J T. Method for P2P traffic classification based on decision-tree model [J]. Application Research of Computers， 2009， 26（12）： 4690-4693.）.

[37] ZHANG Y， WANG H， CHENG S. A method for real-time peer-to-peer traffic classification based on C4.5 [C]// Proceedings of the 2010 IEEE 12th International Conference on Communication Technology. Piscataway， NJ： IEEE， 2010： 1192-1195.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

網(wǎng)絡(luò)背景流量的分類(lèi)與識(shí)別研究綜述