亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于行為的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)

        2018-10-31 07:31:22仇英俊張樹(shù)壯吳志剛
        關(guān)鍵詞:服務(wù)方法

        仇英俊, 羅 浩, 張樹(shù)壯, 吳志剛

        (北京郵電大學(xué) 網(wǎng)絡(luò)技術(shù)研究院, 北京 100876)

        引言

        理解網(wǎng)絡(luò)中主機(jī)的行為模式,對(duì)其規(guī)律和特性進(jìn)行利用,對(duì)于提高網(wǎng)絡(luò)的運(yùn)行效率、維護(hù)網(wǎng)絡(luò)安全具有重要的意義。當(dāng)網(wǎng)絡(luò)中主機(jī)數(shù)量規(guī)模比較小時(shí),可以通過(guò)分析流量?jī)?nèi)容實(shí)現(xiàn)對(duì)主機(jī)的細(xì)致觀測(cè)。但隨著網(wǎng)絡(luò)中主機(jī)數(shù)量的增加和網(wǎng)絡(luò)應(yīng)用類型的多樣化,在大規(guī)模網(wǎng)絡(luò)中分別對(duì)每臺(tái)主機(jī)來(lái)提供觀測(cè)已經(jīng)不再切合當(dāng)下實(shí)際狀況,對(duì)網(wǎng)絡(luò)的測(cè)量和監(jiān)管已然成為一個(gè)富含挑戰(zhàn)性的研究課題。近年來(lái),從網(wǎng)絡(luò)社團(tuán)的角度來(lái)研究網(wǎng)絡(luò)中主機(jī)的行為模式受到研究者們關(guān)注。

        計(jì)算機(jī)網(wǎng)絡(luò)可以抽象為網(wǎng)或者圖系統(tǒng),是復(fù)雜網(wǎng)絡(luò)的一個(gè)特例。在復(fù)雜網(wǎng)絡(luò)中,社團(tuán)根據(jù)節(jié)點(diǎn)之間的連通性可定義為由一組內(nèi)部之間聯(lián)系緊密而與外部連接稀疏的集群節(jié)點(diǎn)組成[1]。發(fā)現(xiàn)并探討復(fù)雜網(wǎng)絡(luò)系統(tǒng)中的社團(tuán)對(duì)于理解整個(gè)系統(tǒng)的構(gòu)成、演化等方面則將發(fā)揮基礎(chǔ)性的優(yōu)勢(shì)推動(dòng)作用。對(duì)于計(jì)算機(jī)網(wǎng)絡(luò)而言,社團(tuán)通常被認(rèn)為是由一組有著共同目標(biāo)或處在同一環(huán)境中的主機(jī)組成[2],即網(wǎng)絡(luò)中的主機(jī)會(huì)因?yàn)樵L問(wèn)相同的網(wǎng)站或使用相同的網(wǎng)絡(luò)應(yīng)用而形成網(wǎng)絡(luò)社團(tuán)。相比于逐臺(tái)主機(jī)的監(jiān)測(cè)方法,了解網(wǎng)絡(luò)中社團(tuán)的屬性及行為模式相當(dāng)于對(duì)原始數(shù)據(jù)進(jìn)行“壓縮”[3],此時(shí)只要觀察一個(gè)社團(tuán)中的少量的主機(jī)或流量,就可以確定同社團(tuán)中其它成員的屬性及行為,因此可以更加快速、有效地了解網(wǎng)絡(luò)整體的運(yùn)行情況。研究計(jì)算機(jī)網(wǎng)絡(luò)中的社團(tuán)可以用于未知流量檢測(cè)[4- 5]、網(wǎng)絡(luò)流量分析[6- 7]、僵尸網(wǎng)絡(luò)檢測(cè)[8- 9]、網(wǎng)絡(luò)應(yīng)用識(shí)別[10]等方面,可以為網(wǎng)絡(luò)管理員進(jìn)行網(wǎng)絡(luò)資源配置、病毒防護(hù)等工作提供重要依據(jù),對(duì)于維護(hù)網(wǎng)絡(luò)安全也有著重大影響與研究?jī)r(jià)值。

        在當(dāng)前的研究中,網(wǎng)絡(luò)社團(tuán)并沒(méi)有一個(gè)統(tǒng)一明確的描述,但根據(jù)各自的研究目標(biāo),網(wǎng)絡(luò)社團(tuán)可以從2種角度給出定義。一種是根據(jù)主機(jī)通信行為的相似程度進(jìn)行定義,另一種是從通信關(guān)系的緊密程度予以定義。因此網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)方法可以分為2類,分別是基于主機(jī)行為聚類的方法和基于拓?fù)鋭澐值姆椒?。其中,考慮到一般情況下將無(wú)法事先確定網(wǎng)絡(luò)中社團(tuán)數(shù)量及社團(tuán)的規(guī)模,因此基于主機(jī)行為模式的無(wú)監(jiān)督或半監(jiān)督聚類方法被提出來(lái)[11-13]。這類方法首先從主機(jī)通信時(shí)產(chǎn)生的流量中提取出特征,包括端口號(hào)、負(fù)載信息等統(tǒng)計(jì)值,然后使用聚類算法找出流量行為相似的主機(jī)集群。但該類方法的不足就在于容易受到加密技術(shù)和混淆技術(shù)的影響而得到不準(zhǔn)確的聚類結(jié)果[12]。另一類方法是根據(jù)主機(jī)之間的連通性,將主機(jī)之間的通信關(guān)系用圖來(lái)表示,然后使用圖分割的方式找出連接緊密的主機(jī)集群[6, 14-16]。這類方法僅僅討論了拓?fù)湫畔?,而?dāng)固有的拓?fù)浣Y(jié)構(gòu)中存在多種類型流量時(shí),卻無(wú)法得出更加細(xì)致的社團(tuán)劃分,例如一個(gè)CDN節(jié)點(diǎn)上緩存了多個(gè)網(wǎng)站的內(nèi)容,所有訪問(wèn)這個(gè)節(jié)點(diǎn)的主機(jī)會(huì)被籠統(tǒng)地看作是一個(gè)聚類,而不能因訪問(wèn)的網(wǎng)站不同而被區(qū)分。

        這2類方法發(fā)現(xiàn)的網(wǎng)絡(luò)社團(tuán)僅能說(shuō)明社團(tuán)中的成員主機(jī)在通信關(guān)系或流量行為單一的某個(gè)方面存在相似性。隨著網(wǎng)絡(luò)應(yīng)用種類的多樣化,每一臺(tái)主機(jī)都會(huì)同時(shí)參與多種應(yīng)用,僅通過(guò)單一角度得到的網(wǎng)絡(luò)社團(tuán)并不能全面反映網(wǎng)絡(luò)中主機(jī)當(dāng)前所處的狀態(tài)及網(wǎng)絡(luò)資源的使用情況,因此本文所研究網(wǎng)絡(luò)社團(tuán)同時(shí)結(jié)合通信關(guān)系和流量行為特征2方面因素,同一網(wǎng)絡(luò)社團(tuán)內(nèi)的主機(jī)既在通信關(guān)系上具有聯(lián)系,又在通信行為模式上呈現(xiàn)出相似性。為此,本文研發(fā)提出了一種新的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)方法,將網(wǎng)絡(luò)中的通信節(jié)點(diǎn)按照通信關(guān)系劃分成不同的子網(wǎng)。然后,為了發(fā)現(xiàn)通信關(guān)系相同但通信行為不同的情況(例如攻擊),本文又使用聚類的方法,進(jìn)一步區(qū)分同一子網(wǎng)內(nèi)的傳輸行為不同的網(wǎng)絡(luò)流。綜合上述2個(gè)步驟就可以實(shí)現(xiàn)更加準(zhǔn)確的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)。本文的貢獻(xiàn)在于:

        (1)重新定義了網(wǎng)絡(luò)社團(tuán),即社團(tuán)中主機(jī)具有通信關(guān)系相似及通信行為相似2方面特性。同時(shí)社團(tuán)中包括了服務(wù)端和客戶端,而不是僅僅將訪問(wèn)共同目標(biāo)的客戶端集合稱為社團(tuán),有利于網(wǎng)絡(luò)的測(cè)量與分析。

        (2)用二元組作為通信節(jié)點(diǎn)來(lái)描述網(wǎng)絡(luò)中的通信關(guān)系。這種方式可以更好地識(shí)別出網(wǎng)絡(luò)中主機(jī)的身份(服務(wù)器或客戶端),而且有助于發(fā)現(xiàn)使用非知名端口提供匿名服務(wù)的服務(wù)器。

        (3)提出一種新的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)方法。這種方法結(jié)合網(wǎng)絡(luò)關(guān)系及流量聚類2方面,可以得到更加精確的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)結(jié)果,例如發(fā)現(xiàn)同時(shí)承載多種服務(wù)的IP、區(qū)分訪問(wèn)同一的正常用戶和惡意用戶。

        在此基礎(chǔ)上,本文將按如下方式進(jìn)行組織。首先研究了不同種類的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)方法,其次論述了本文提出的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)方法的設(shè)計(jì)與實(shí)現(xiàn),包括網(wǎng)絡(luò)拓?fù)鋭澐趾途W(wǎng)絡(luò)流聚類2方面,然后展示、及評(píng)估了網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)結(jié)果,并對(duì)典型社團(tuán)進(jìn)行分析,以說(shuō)明本方法的實(shí)用價(jià)值。最后是本文的結(jié)論及未來(lái)的工作。

        1 相關(guān)工作

        區(qū)分不同的行為模式的主機(jī)集群對(duì)網(wǎng)絡(luò)安全的影響的分析研究課題正日漸受到研究人員的廣泛關(guān)注。在進(jìn)行網(wǎng)絡(luò)通信過(guò)程中,使用相同網(wǎng)絡(luò)應(yīng)用的主機(jī)所產(chǎn)生的流量在行為特征上會(huì)表現(xiàn)出相近的模式,運(yùn)用這些模式就可以定量地表示主機(jī)的通信行為,并以此達(dá)成主機(jī)分類的目的。而分析可知,網(wǎng)絡(luò)中應(yīng)用和主機(jī)的數(shù)量是無(wú)法事先確定的,因此無(wú)監(jiān)督和半監(jiān)督聚類方法常常用來(lái)區(qū)分不同行為模式的主機(jī)。Terzi等人[17]在分布式計(jì)算環(huán)境中,提取出端口、目標(biāo)IP和負(fù)載等相關(guān)特征來(lái)描述源IP地址的通信行為,并對(duì)源IP地址進(jìn)行聚類,以發(fā)現(xiàn)僵尸網(wǎng)絡(luò)。Wei等人[13]從網(wǎng)絡(luò)流量數(shù)據(jù)中識(shí)別出活躍主機(jī),并從這些主機(jī)的報(bào)文頭部中選取了相關(guān)特征,使用層次聚類算法構(gòu)建主機(jī)樹(shù)狀圖,找出行為相似的主機(jī)集群。Jakalan等人[10]設(shè)計(jì)算法找出網(wǎng)絡(luò)中重要的IP節(jié)點(diǎn),提取了15個(gè)通信模式特征,使用dbscan聚類算法得到主機(jī)集群,再通過(guò)比較不同集群中主機(jī)的特征值來(lái)分析聚類結(jié)果。Shadi等人[18]將TB級(jí)流量數(shù)據(jù)中的IP,按傳輸?shù)臄?shù)據(jù)量和所屬的地址塊匯聚到一個(gè)樹(shù)形結(jié)構(gòu)中,用于查找企業(yè)網(wǎng)絡(luò)中流量最大的IP地址塊。Dewaele等人[11]提出了描述主機(jī)通信模式的9個(gè)特征,而且使用最小生成樹(shù)的無(wú)監(jiān)督聚類方法來(lái)區(qū)分不同類型的主機(jī)。Iliofotou等人[12]提出了一種基于標(biāo)簽傳播的IP地址分類方法,該方法只需要知道IP之間的連通關(guān)系和少數(shù)IP主機(jī)的應(yīng)用程序使用情況,就可以對(duì)所有IP進(jìn)行分類。

        由于網(wǎng)絡(luò)中主機(jī)間表現(xiàn)出的通信行為與社會(huì)網(wǎng)絡(luò)中的社會(huì)行為類似,故而社會(huì)網(wǎng)絡(luò)中的社團(tuán)發(fā)現(xiàn)方法也被運(yùn)用在計(jì)算機(jī)網(wǎng)絡(luò)中,其中二部圖模型即可用于描繪網(wǎng)絡(luò)中主機(jī)的通信關(guān)系。在網(wǎng)絡(luò)的二部圖模型中,主機(jī)被分為完全獨(dú)立的2個(gè)集合,這2個(gè)集合之間的連線表示了主機(jī)間的通信關(guān)系。二部圖一個(gè)集合中的主機(jī)會(huì)根據(jù)對(duì)另一集合中主機(jī)的訪問(wèn)情況,而被分成不同的網(wǎng)絡(luò)社團(tuán)。Xu等人[6, 16]通過(guò)分析主機(jī)間通信關(guān)系,提出一種新方法來(lái)研究網(wǎng)絡(luò)中社團(tuán)行為相似的主機(jī)。該方法先根據(jù)主機(jī)所處的網(wǎng)段,將整個(gè)網(wǎng)絡(luò)分為2部分,構(gòu)建二部圖,然后使用單模投影的方法,統(tǒng)計(jì)同一網(wǎng)段下主機(jī)對(duì)網(wǎng)段外主機(jī)的訪問(wèn)情況,構(gòu)建相似矩陣,最后對(duì)主機(jī)使用譜聚類的方法,將同網(wǎng)段下的主機(jī)分成行為模式互不相同的若干集群。類似地,Jakalan等人[14- 15]使用邊界路由上獲取的NetFlow數(shù)據(jù)集構(gòu)建二部圖。為了描述管理域內(nèi)IP在社會(huì)關(guān)系上的相似性,研究中進(jìn)一步對(duì)二部圖應(yīng)用了單模投影,同時(shí)構(gòu)建相似矩陣,最后設(shè)計(jì)算法對(duì)相似矩陣進(jìn)行迭代,得到最終的網(wǎng)絡(luò)社團(tuán)劃分結(jié)果。

        上述方法均是將主機(jī)(或IP)作為一個(gè)整體進(jìn)行操作,一個(gè)主機(jī)(或IP)會(huì)被劃分至唯一的網(wǎng)絡(luò)社團(tuán)當(dāng)中。而事實(shí)上,一個(gè)客戶端可以同時(shí)使用多種網(wǎng)絡(luò)應(yīng)用,一個(gè)服務(wù)器也可能同時(shí)提供多種服務(wù),這就使得一個(gè)主機(jī)(或IP)可以同時(shí)屬于多個(gè)網(wǎng)絡(luò)社團(tuán)。為了更好地分析網(wǎng)絡(luò)中社團(tuán)存在情況,本文設(shè)計(jì)給出了一種網(wǎng)絡(luò)社團(tuán)定義及發(fā)現(xiàn)方法。該方法將主機(jī)同時(shí)提供不同服務(wù)或者參與不同應(yīng)用的情況考慮進(jìn)來(lái),可以更清楚地表示通信關(guān)系。在對(duì)通信關(guān)系圖做出分割后,又根據(jù)通信行為特征對(duì)主機(jī)進(jìn)行聚類,最終可以得到有意義的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)結(jié)果。

        2 網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)方法

        與已有的研究類似,本文擬將研究的網(wǎng)絡(luò)社團(tuán)在本質(zhì)上也是由網(wǎng)絡(luò)中節(jié)點(diǎn)(主機(jī)或IP)構(gòu)成的集合。但本文在此基礎(chǔ)上深入細(xì)化了網(wǎng)絡(luò)社團(tuán)的定義,社團(tuán)中的節(jié)點(diǎn)要同時(shí)具有2方面特性,對(duì)此可做如下闡述:

        (1) 存在服務(wù)提供節(jié)點(diǎn)(也稱為領(lǐng)袖節(jié)點(diǎn))且其它成員節(jié)點(diǎn)與領(lǐng)袖節(jié)點(diǎn)具有相似性的通信關(guān)系。

        (2) 成員主機(jī)與領(lǐng)袖節(jié)點(diǎn)在通信行為模式上具有相似性。

        同時(shí)滿足這2個(gè)條件的主機(jī)集合,研究將其稱為網(wǎng)絡(luò)社團(tuán),下文將簡(jiǎn)稱為社團(tuán)。比如服務(wù)器A、B提供不同的服務(wù),有客戶端1~7與2個(gè)服務(wù)器按照?qǐng)D1中連線的方式進(jìn)行通信,線的形狀用于不同的通信行為。根據(jù)上面對(duì)社團(tuán)的描述,可以將圖中的節(jié)點(diǎn)劃分成3個(gè)社團(tuán),即{A,1,2}、{A,3,4,5}和{B,4,5,6,7},其中A和B作為領(lǐng)袖節(jié)點(diǎn)決定了社團(tuán)的類型,1~7作為成員節(jié)點(diǎn)為了獲取某種網(wǎng)絡(luò)服務(wù)而與領(lǐng)袖節(jié)點(diǎn)通信。{1,2,3,4,5}雖然都與A發(fā)生過(guò)通信,但是由于{1,2}與{3,4,5}在通信行為模式上存在不同,則仍然分屬于不同社團(tuán)。通信行為模式不同,究其原因可能在于服務(wù)器A同時(shí)提供多種服務(wù),也可能是部分客戶端{(lán)1,2}或{3,4,5}都以非常規(guī)方式訪問(wèn)服務(wù)器。本文研發(fā)提出的方法就是為了找出網(wǎng)絡(luò)中滿足上述2個(gè)條件的社團(tuán)結(jié)構(gòu)。

        圖1 社團(tuán)示意圖

        本文提出的方法分成2部分。研究中,就是根據(jù)通信節(jié)點(diǎn)之間的通信關(guān)系,將網(wǎng)絡(luò)關(guān)系圖劃分成多個(gè)子網(wǎng)。一個(gè)子網(wǎng)由一個(gè)領(lǐng)袖節(jié)點(diǎn)(通常是服務(wù)節(jié)點(diǎn))和多個(gè)成員節(jié)點(diǎn)(通常是客戶節(jié)點(diǎn))及節(jié)點(diǎn)之間連線(網(wǎng)絡(luò)流)組成。一個(gè)子網(wǎng)中可能存在一種或多種網(wǎng)絡(luò)服務(wù)或應(yīng)用,因此要根據(jù)網(wǎng)絡(luò)流的統(tǒng)計(jì)特征,將同一子網(wǎng)中的節(jié)點(diǎn)進(jìn)一步劃分,找出在連接性和流量特征都相似的主機(jī)集合,即為最終的社團(tuán)發(fā)現(xiàn)結(jié)果。對(duì)此,將展開(kāi)如下研究論述。

        2.1 基于通信關(guān)系的網(wǎng)絡(luò)拓?fù)鋭澐?/h3>

        一個(gè)網(wǎng)絡(luò)社團(tuán)通常是由一個(gè)服務(wù)節(jié)點(diǎn)及多個(gè)客戶節(jié)點(diǎn)共同組成。如果能先找出網(wǎng)絡(luò)中的服務(wù)節(jié)點(diǎn),那么服務(wù)節(jié)點(diǎn)及其鄰接節(jié)點(diǎn)就會(huì)組建構(gòu)成一個(gè)子網(wǎng),有利于后續(xù)研究中的社團(tuán)發(fā)現(xiàn)。

        一段時(shí)間內(nèi)的網(wǎng)絡(luò)關(guān)系可以用圖來(lái)表示,在許多研究[2-4, 6, 14-16]中都是將IP作為實(shí)體,在圖中用節(jié)點(diǎn)進(jìn)行表示。如果2個(gè)IP之間出現(xiàn)了數(shù)據(jù)傳輸現(xiàn)象,那么就用一條邊將這2個(gè)IP代表的節(jié)點(diǎn)連起來(lái)。分析發(fā)現(xiàn),短時(shí)間內(nèi)主機(jī)與IP對(duì)應(yīng)關(guān)系基本不會(huì)發(fā)生改變,因此IP的行為即代表對(duì)應(yīng)主機(jī)的行為。這種表示方式也存在一定的局限性。首先,將無(wú)法從拓?fù)浣Y(jié)構(gòu)上判斷出一個(gè)IP是服務(wù)器還是客戶端。比如圖2所示的結(jié)構(gòu),其中1號(hào)節(jié)點(diǎn)既可能表示一個(gè)服務(wù)器接受許多客戶端的訪問(wèn),也可能是一個(gè)客戶端同時(shí)使用多種網(wǎng)絡(luò)服務(wù)而與多臺(tái)主機(jī)通信。其次,是無(wú)法從拓?fù)浣Y(jié)構(gòu)上判斷一個(gè)服務(wù)器提供幾種服務(wù)以及每種服務(wù)所對(duì)應(yīng)的客戶端都有哪些。

        圖2 通信關(guān)系

        對(duì)于絕大多數(shù)的網(wǎng)絡(luò)服務(wù)或應(yīng)用,網(wǎng)絡(luò)服務(wù)需要開(kāi)放固定端口來(lái)響應(yīng)許多客戶端發(fā)出的請(qǐng)求,端口的使用情況對(duì)于準(zhǔn)確判斷一個(gè)服務(wù)提供的服務(wù)種類及數(shù)量將頗有助益。因此本文將二元組作為網(wǎng)絡(luò)拓?fù)鋱D中的節(jié)點(diǎn),并用連線表示節(jié)點(diǎn)之間的通信關(guān)系。這樣做的好處可闡釋如下。

        (1)可以準(zhǔn)確地區(qū)分出服務(wù)節(jié)點(diǎn)與客戶節(jié)點(diǎn)??蛻舳嗽谂c服務(wù)器進(jìn)行通信時(shí),通常會(huì)使用多個(gè)端口,而服務(wù)器通常只用固定的端口,這種端口上的差異就可以使得服務(wù)節(jié)點(diǎn)獲得較大的度數(shù),從而可以清晰地識(shí)別出一個(gè)節(jié)點(diǎn)的身份。即使是一個(gè)IP同時(shí)訪問(wèn)多個(gè)服務(wù)器,服務(wù)節(jié)點(diǎn)度數(shù)較大的現(xiàn)象也不會(huì)發(fā)生改變。

        (2)可以識(shí)別出同一IP承載多種服務(wù)情況。同一IP會(huì)為不同的服務(wù)類型而開(kāi)放不同的端口,因此二元組作為節(jié)點(diǎn)可以將一個(gè)服務(wù)器IP根據(jù)端口的不同拆分成多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)對(duì)應(yīng)該服務(wù)器IP提供的一種服務(wù),以及客戶端節(jié)點(diǎn)對(duì)各種服務(wù)訪問(wèn)情況也很容易就可探查出來(lái)。

        服務(wù)節(jié)點(diǎn)和客戶節(jié)點(diǎn)組成了網(wǎng)絡(luò)中常見(jiàn)的結(jié)構(gòu)——C/S型結(jié)構(gòu)。在這種結(jié)構(gòu)中通常有一個(gè)服務(wù)節(jié)點(diǎn)與多個(gè)客戶節(jié)點(diǎn)。短時(shí)間內(nèi),每個(gè)客戶節(jié)點(diǎn)只與服務(wù)節(jié)點(diǎn)進(jìn)行通信,而不與其它的客戶節(jié)點(diǎn)直接通信。因此在鄰接節(jié)點(diǎn)的數(shù)量上,服務(wù)節(jié)點(diǎn)和客戶節(jié)點(diǎn)存在明顯差異,即對(duì)于某一網(wǎng)絡(luò)服務(wù)或應(yīng)用,服務(wù)節(jié)點(diǎn)的鄰接節(jié)點(diǎn)多,客戶節(jié)點(diǎn)的鄰接節(jié)點(diǎn)少。定義鄰接矩陣A,其中每個(gè)元素的數(shù)學(xué)表述如下:

        (1)

        對(duì)于節(jié)點(diǎn)i,這里定義集合的數(shù)學(xué)表示如下:

        Pi={p|Aip=1}

        (2)

        Qi={q|Apq=1,p∈Pi,q?Pi,q≠i}

        (3)

        研究推得,|Pi|與|Qi|分別表示集合Pi和Qi中元素個(gè)數(shù)。如圖2所示,對(duì)于所有節(jié)點(diǎn)i=1,2,3,4,5,6,7,8來(lái)說(shuō),各自的Pi與Qi可參見(jiàn)表1。

        表1 各節(jié)點(diǎn)的Pi與Qi

        由表1可以看出,C/S結(jié)構(gòu)中對(duì)于核心節(jié)點(diǎn)有|Pi|>|Qi|,而邊緣節(jié)點(diǎn)|Pi|<|Qi|,因此對(duì)于任意節(jié)點(diǎn),該節(jié)點(diǎn)的|Pi|與|Qi|的大小關(guān)系,可以反映其在網(wǎng)絡(luò)中所處的位置或身份。為了驗(yàn)證這一論點(diǎn),文中使用某企業(yè)邊界路由上采集的NetFlow日志,以為節(jié)點(diǎn),對(duì)每個(gè)節(jié)點(diǎn)的|Pi|和|Qi|進(jìn)行統(tǒng)計(jì),然后根據(jù)知名服務(wù)端口(20,21,22,53,80,123,443,1080,8080)將節(jié)點(diǎn)手工標(biāo)注為客戶節(jié)點(diǎn)或服務(wù)節(jié)點(diǎn)。實(shí)驗(yàn)結(jié)果表明:服務(wù)節(jié)點(diǎn)中有94%滿足|Pi|>|Qi|,客戶節(jié)點(diǎn)中,有98%滿足|Pi|≤|Qi|。所以對(duì)于|Pi|>|Qi|的節(jié)點(diǎn)i,有更大的可能就將是服務(wù)節(jié)點(diǎn),其鄰接節(jié)點(diǎn)集合Pi是客戶節(jié)點(diǎn),i和Pi可構(gòu)成一個(gè)子網(wǎng)。

        基于上述設(shè)計(jì),就可以將網(wǎng)絡(luò)中的通信節(jié)點(diǎn)(用二元組表示的節(jié)點(diǎn))劃分成不同的子網(wǎng)。算法1的參考代碼可見(jiàn)如下。

        算法1網(wǎng)絡(luò)劃分

        輸入:節(jié)點(diǎn)列表nodes

        輸出:節(jié)點(diǎn)所屬子網(wǎng)編號(hào)列表C

        1: 初始化C中所有元素值為-1,c=0

        2: Foriin nodes:

        3: ifC[i]!= -1:

        4: continue

        5: 計(jì)算Pi及Qi

        6: if |Pi|+|Qi|>2 and |Pi|>|Qi|:

        7:C[i] =c

        8: forjinPi:

        9:C[j] =c

        10:c+=1

        11:returnC

        其中,變量c是待分配的子網(wǎng)編號(hào),變量C記錄了每個(gè)節(jié)點(diǎn)所屬的子網(wǎng)編號(hào),如果一個(gè)節(jié)點(diǎn)已經(jīng)被分配過(guò)一個(gè)子網(wǎng)編號(hào)則跳過(guò)。如果節(jié)點(diǎn)i的|Pi|+|Qi|值非常小(不大于2),則說(shuō)明節(jié)點(diǎn)i及其鄰接節(jié)點(diǎn)構(gòu)成的子網(wǎng)也很小,不足以構(gòu)成一個(gè)有影響力的社團(tuán),可以被忽略。

        2.2 網(wǎng)絡(luò)流聚類

        在大部分情況下,使用2.1節(jié)中的方法得到的節(jié)點(diǎn)劃分結(jié)果可以描述網(wǎng)絡(luò)中的社團(tuán)存在情況,但是由于某些惡意行為是依托固有的通信關(guān)系,通過(guò)發(fā)送惡意報(bào)文來(lái)實(shí)現(xiàn)的,比如DDos攻擊、蠕蟲(chóng)、木馬等等。因此本文接下來(lái)會(huì)通過(guò)聚類方法,將同一子網(wǎng)內(nèi)的通信流量按照傳輸數(shù)據(jù)的統(tǒng)計(jì)特征進(jìn)一步區(qū)分,以得到最終的社團(tuán)發(fā)現(xiàn)結(jié)果。綜上研究過(guò)程后可以得知,社團(tuán)內(nèi)成員無(wú)論在通信關(guān)系上,還是在通信行為模式上都有著極高的相似性。

        2.2.1 網(wǎng)絡(luò)流聚合及特征提取

        經(jīng)過(guò)網(wǎng)絡(luò)拓?fù)鋭澐趾螅哂忻芮型ㄐ抨P(guān)系的節(jié)點(diǎn)會(huì)被劃分到同一子網(wǎng)中。大部分情況下,在短時(shí)間內(nèi)一對(duì)IP之間只會(huì)圍繞一種網(wǎng)絡(luò)服務(wù)進(jìn)行通信,因此可以將同一子網(wǎng)中節(jié)點(diǎn)之間的網(wǎng)絡(luò)流,按照IP對(duì)進(jìn)行聚合來(lái)提取通信行為特征。這樣就不僅避免了個(gè)別離群的網(wǎng)絡(luò)流對(duì)社團(tuán)劃分結(jié)果的影響,而且可大幅降低用于聚類的實(shí)例數(shù)量,同時(shí)也減少了聚類運(yùn)算的時(shí)間。

        網(wǎng)絡(luò)流通常用五元組表示,即:<源IP,目的IP,源端口,目的端口,網(wǎng)絡(luò)協(xié)議號(hào)>。NetFlow日志中以五元組為標(biāo)識(shí),記錄了每一條網(wǎng)絡(luò)流的統(tǒng)計(jì)信息,比如各方向的包數(shù)、字節(jié)數(shù)等。在聚合過(guò)程中,會(huì)將每一對(duì)通信IP之間的所有網(wǎng)絡(luò)流進(jìn)行組合,進(jìn)而提取出一個(gè)特征向量用于描述這一對(duì)IP之間的通信行為。其中包括的內(nèi)容可解析如下。

        (1)源IP地址使用的不重復(fù)端口數(shù)量。

        (2)目的IP地址使用的不重復(fù)端口數(shù)量。

        (3)協(xié)議號(hào)的平均值。

        (4)上/下行流包數(shù)最小值/中位數(shù)/最大值。

        (5)上/下行流平均包長(zhǎng)最小值/中位數(shù)/最大值。

        總地來(lái)說(shuō),特征1,2反映了一對(duì)通信IP地址端口的使用情況。特征3用于反映一對(duì)通信IP地址傳輸層協(xié)議的使用情況。本文只研究協(xié)議號(hào)為6(TCP)及17(UDP)的網(wǎng)絡(luò)流。特征4反映一對(duì)IP傳輸報(bào)文數(shù)的分布情況,特征5反映了一對(duì)IP傳輸報(bào)文長(zhǎng)度的分布情況。此番特征提取后,一個(gè)子網(wǎng)內(nèi)IP對(duì)之間的通信行為模式就做到了精準(zhǔn)的定量化描述。

        2.2.2 預(yù)處理及聚類

        為了統(tǒng)一每個(gè)維度的權(quán)重,在聚類前要對(duì)同一子網(wǎng)內(nèi)的實(shí)例(即IP對(duì))特征值進(jìn)行歸一化。本文將使用最大最小值縮放將特征縮放到[0,1]。假如一個(gè)子網(wǎng)中有N對(duì)發(fā)生通信的IP對(duì)(即聚類的實(shí)例),縮放運(yùn)算可寫作如下形式:

        (4)

        其中,i表示待聚類的實(shí)例序號(hào);Fik表示第i個(gè)實(shí)例的第k個(gè)特征值,k=1,2,…,15;Fk表示待聚類所有實(shí)例的第k維所有特征值構(gòu)成的數(shù)列;max(Fk),min(Fk)表示對(duì)Fk求最大、最小值;fik是歸一化后的特征值。

        至此,本文將使用dbscan聚類算法[19]來(lái)處理每個(gè)子網(wǎng)中的所有的實(shí)例。dbscan是一個(gè)基于密度的聚類算法,不需要指定聚類的數(shù)量。在缺失先驗(yàn)知識(shí)的情況下,一個(gè)子網(wǎng)中的網(wǎng)絡(luò)流的種類數(shù)及每個(gè)種類中流的數(shù)量是不確定的,所以非常適合用dbscan來(lái)進(jìn)行聚類。dbscan算法將歸一化后的特征向量矩陣作為輸入,矩陣的每一行表示一對(duì)IP間的網(wǎng)絡(luò)流,每一列表示一個(gè)特征維度。算法會(huì)輸出一個(gè)標(biāo)簽數(shù)組,數(shù)組中每個(gè)元素與矩陣的每行一一對(duì)應(yīng)。標(biāo)簽用來(lái)指出對(duì)應(yīng)向量所表示的網(wǎng)絡(luò)流所屬的類別。標(biāo)簽相同的網(wǎng)絡(luò)流所涉及的全部IP即是本方法最終的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)結(jié)果。

        3 實(shí)驗(yàn)

        3.1 數(shù)據(jù)集

        為了獲取實(shí)驗(yàn)數(shù)據(jù)集,研究中從某企業(yè)網(wǎng)的邊界路由采集了2周的網(wǎng)絡(luò)流日志。經(jīng)過(guò)數(shù)據(jù)清洗和篩選后,得到的數(shù)據(jù)集包含約3千萬(wàn)條網(wǎng)絡(luò)流,遍歷內(nèi)網(wǎng)IP節(jié)點(diǎn)209個(gè),外網(wǎng)IP節(jié)點(diǎn)54 147個(gè)。在采集過(guò)程中,研究在局域網(wǎng)內(nèi)模擬了DDoS攻擊行為以驗(yàn)證本方法的實(shí)用性。數(shù)據(jù)存儲(chǔ)上類似于NetFlow的格式并導(dǎo)出為可讀的文本形式用于本文的仿真實(shí)驗(yàn)。本次研究需要的數(shù)據(jù)字段包括:源IP、目的IP、源端口、目的端口、網(wǎng)絡(luò)協(xié)議號(hào)、流上行包數(shù)、流下行包數(shù)、流上行字節(jié)數(shù)、流下行字節(jié)數(shù)。

        3.2 實(shí)驗(yàn)結(jié)果

        3.2.1 模塊度

        本文通過(guò)計(jì)算模塊度[1]來(lái)評(píng)價(jià)劃分結(jié)果。模塊度由于計(jì)算簡(jiǎn)單而且能較好地反映全局劃分結(jié)果的優(yōu)劣,因而獲得了廣泛使用。圖3即展示了某天1 h的數(shù)據(jù)得到的結(jié)果,其中包括214 735條網(wǎng)絡(luò)流,16 145個(gè)IP地址。每隔5 min做一次社團(tuán)發(fā)現(xiàn)操作。得到的劃分結(jié)果模塊度在0.8以上。這就說(shuō)明本文提出的通過(guò)比較|Pi|和|Qi|的大小來(lái)判斷節(jié)點(diǎn)i的身份,并據(jù)此對(duì)網(wǎng)絡(luò)進(jìn)行劃分的方法是簡(jiǎn)單且有效的。

        圖3 不同時(shí)段的模塊度

        3.2.2 社團(tuán)數(shù)

        各時(shí)段子網(wǎng)數(shù)量及社團(tuán)數(shù)量如圖4所示。圖4中社團(tuán)數(shù)目要大于子網(wǎng)數(shù),這是由于某些子網(wǎng)內(nèi),網(wǎng)絡(luò)流在通信行為模式上的不同導(dǎo)致主機(jī)被劃分到了不同社團(tuán)中,比如DDos攻擊中的惡意用戶和正常用戶,雖然在通信關(guān)系上相同,但是卻會(huì)因通信行為特性的不同而被歸類至不同的社團(tuán)中。

        圖4 不同時(shí)段的子網(wǎng)數(shù)與社團(tuán)數(shù)

        為了說(shuō)明本方法的有效性,研究又使用Xu的方法[6]對(duì)同樣的數(shù)據(jù)進(jìn)行社團(tuán)發(fā)現(xiàn)。由于Xu的方法在社團(tuán)發(fā)現(xiàn)的過(guò)程中對(duì)二部圖使用了單模投影,則使得每次只能得到網(wǎng)絡(luò)某一側(cè)的社團(tuán)存在情況。繼而,研究又對(duì)企業(yè)網(wǎng)內(nèi)部與外部的IP分別使用文獻(xiàn)[6]中的社團(tuán)發(fā)現(xiàn)算法,得到的結(jié)果可詳見(jiàn)圖4。結(jié)果顯示對(duì)于同樣的數(shù)據(jù)集來(lái)說(shuō),本方法發(fā)現(xiàn)的社團(tuán)在數(shù)量上相比于Xu的方法要超出許多。在對(duì)結(jié)果輔以考察分析后,研究中又發(fā)現(xiàn)得知,Xu的方法并不能對(duì)通信關(guān)系相同但通信行為特性不同的情況做出區(qū)分(比如DDos攻擊情況),而且Xu的方法發(fā)現(xiàn)的社團(tuán)中并沒(méi)有服務(wù)節(jié)點(diǎn)(領(lǐng)袖節(jié)點(diǎn)),因此不能直觀地反映社團(tuán)的屬性。本方法在發(fā)現(xiàn)網(wǎng)絡(luò)社團(tuán)時(shí),還旁及兼顧了通信關(guān)系和通信行為特性,而且保留了社團(tuán)中的領(lǐng)袖節(jié)點(diǎn),這些設(shè)計(jì)均有利于更加準(zhǔn)確地發(fā)現(xiàn)社團(tuán)及研究社團(tuán)的屬性,而這也是本方法相比于已有研究的優(yōu)勢(shì)所在。

        4 結(jié)束語(yǔ)

        本文提出一種網(wǎng)絡(luò)社團(tuán)定義方法并在此基礎(chǔ)上研發(fā)了一種新的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)方法。本方法在建立通信關(guān)系圖時(shí)考慮了端口的使用情況,以二元組作為通信節(jié)點(diǎn),并將網(wǎng)絡(luò)中的所有通信節(jié)點(diǎn)根據(jù)通信關(guān)系劃分成不同的子網(wǎng); 在劃分之后,又使用聚類的方法將同一子網(wǎng)中的網(wǎng)絡(luò)流進(jìn)行聚類,得到最終的網(wǎng)絡(luò)社團(tuán)發(fā)現(xiàn)結(jié)果。實(shí)驗(yàn)結(jié)果顯示,本文提出的方法,不僅可以識(shí)別承載多種服務(wù)的IP地址,還可以區(qū)分出訪問(wèn)同一網(wǎng)站的正常用戶和惡意用戶。對(duì)于網(wǎng)絡(luò)管理來(lái)說(shuō),本方法發(fā)現(xiàn)的社團(tuán)能更準(zhǔn)確地反映網(wǎng)絡(luò)中的用戶的組成及行為,有助于網(wǎng)絡(luò)管理員了解網(wǎng)絡(luò)中的流量的分布狀況,而且可用于流量分類、僵尸網(wǎng)絡(luò)發(fā)現(xiàn)、匿名應(yīng)用發(fā)現(xiàn)等方面,對(duì)于維護(hù)網(wǎng)絡(luò)安全具有重要價(jià)值。

        猜你喜歡
        服務(wù)方法
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        學(xué)習(xí)方法
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        服務(wù)在身邊 健康每一天
        招行30年:從“滿意服務(wù)”到“感動(dòng)服務(wù)”
        商周刊(2017年9期)2017-08-22 02:57:56
        可能是方法不對(duì)
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        18禁黄无遮挡免费网站| 男女上下猛烈啪啪免费看| 国产av无码专区亚洲av琪琪| 精选麻豆国产AV| 亚洲国产都市一区二区| 精品av天堂毛片久久久| 久久AV中文一区二区三区| 精选二区在线观看视频| 9l国产自产一区二区三区| 国产一区二区视频在线免费观看| 欧美人与动人物牲交免费观看久久| 特级av毛片免费观看| 国产女高清在线看免费观看| 成年人视频在线播放麻豆| 日本强伦姧人妻一区二区| 高潮抽搐潮喷毛片在线播放| 亚洲精品乱码久久久久久蜜桃不卡 | 亚洲夜夜骑| 中文字幕中文字幕人妻黑丝| 国产高清一区二区三区四区色| 色偷偷av男人的天堂| 欧美xxxx新一区二区三区| 精品国产av一区二区三区| 国产精品免费看久久久无码| 精品少妇ay一区二区三区| 无码久久精品蜜桃| 亚洲天堂av福利在线| 免费无码专区毛片高潮喷水| 国产精品免费大片| 伊人久久中文大香线蕉综合| 国产日产免费在线视频| 国产精品视频亚洲二区| 国产精品va无码一区二区| 日韩久久一级毛片| 精品国产麻豆一区二区三区| 99国产精品久久99久久久| 欧美日韩亚洲tv不卡久久| 亚洲性无码av在线| 中文字幕精品一区二区的区别| 国产亚洲2021成人乱码| 亚洲AV无码乱码1区久久|