亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        行為特征中大數(shù)據(jù)海量Web流量識別與研究

        2022-03-17 08:33:10易燦劉彥姝
        電子測試 2022年4期
        關(guān)鍵詞:單詞功能

        易燦,劉彥姝

        (湖南大眾傳媒職業(yè)技術(shù)學院,湖南長沙,410100)

        0 引言

        目前,由于Web流量在整個網(wǎng)絡(luò)中所占的比例越來越高,因此變得越來越重要。通用的流量分類方法仍然可以將Web流量劃分為粗粒度類別,但并不能對它們進行細分。在當前的網(wǎng)絡(luò)環(huán)境中,Web流量所承載的應用程序遠遠超出了簡單的Web瀏覽任務(wù)。因此,盡管學術(shù)界和工業(yè)界已經(jīng)在傳統(tǒng)的IP流量識別和Web流量識別中提出一些有效方法,但是在當前Web流量占據(jù)主導地位的當前網(wǎng)絡(luò)環(huán)境中,現(xiàn)有的方法遠遠不能滿足對Web流量進行精細識別的要求。因此,在現(xiàn)有研究成果的基礎(chǔ)上,繼續(xù)尋求能夠有效識別未知Web流量的理論和算法,對于提高網(wǎng)絡(luò)服務(wù)質(zhì)量、網(wǎng)絡(luò)安全性能具有重要的理論意義。

        1 Web瀏覽記錄采集

        1.1 數(shù)據(jù)采集硬件網(wǎng)絡(luò)部署

        由于以NetFlow是基于路由器策略轉(zhuǎn)發(fā)機制的流緩存技術(shù),因此,在路由器板卡上緩存NetFlow會出現(xiàn)空間不足的現(xiàn)象,在高速網(wǎng)絡(luò)環(huán)境下,需要提前報告大量的流記錄。由于緩存空間不足,影響了流量監(jiān)控的效果。目前,基于硬件探針的網(wǎng)絡(luò)流量監(jiān)控設(shè)備和系統(tǒng)得到了廣泛的應用。它不依賴路由器的高速緩存,而是通過使用拆分器或節(jié)點設(shè)備的信息流復制功能來獲取消息的原始數(shù)據(jù)[1]。

        1.2 數(shù)據(jù)采集系統(tǒng)軟件架構(gòu)

        硬件探測設(shè)備的輸出包括業(yè)務(wù)消息和流記錄消息。商業(yè)消息攜帶用于商業(yè)識別和商業(yè)信息提取的特定商業(yè)信息,例如HTTP請求和響應消息。流量數(shù)據(jù)包是流的統(tǒng)計信息,包括諸如字節(jié)數(shù)與消息數(shù)等信息。此消息信息通過Monitor傳遞到收集器,該收集器負責對消息進行分類和解釋。

        2 固定網(wǎng)絡(luò)中的Web流量精細化識別與分析

        2.1 基本概念

        隨著HTTP協(xié)議在媒體網(wǎng)站中的廣泛使用,Web流量已逐漸成為網(wǎng)絡(luò)中的最大流量,消耗了運營商最多的帶寬資源。為了優(yōu)化網(wǎng)絡(luò)帶寬資源以提供更好的用戶體驗,操作員需要了解Web流量的來源。因此,對網(wǎng)絡(luò)流量的精細識別是運營商優(yōu)化網(wǎng)絡(luò)帶寬資源分配的基礎(chǔ)。

        2.2 未知流量及易知流量

        典型的Web網(wǎng)頁是帶有鏈接到嵌入式對象的超文本文檔。對象是駐留在服務(wù)器上的文件。網(wǎng)頁通常包含兩種對象,主要對象和嵌入對象。主對象是指包含HTML文檔的對象,嵌入式對象是指鏈接指向超文本文檔的對象。鏈接通常是一個URL,它告訴瀏覽器如何檢索對象。典型的URL由三部分組成:方法、主字段以及路徑。主域代表網(wǎng)絡(luò)上計算機的名稱,可以是域名或IP地址。出于便于記錄的目的,大多數(shù)URL的主要域是域名。但是,帶有某些嵌入式對象的URL的主要域部分是IP地址。

        城域網(wǎng)出口處部署了高性能流量監(jiān)控設(shè)備TMS。它可以監(jiān)視所有用戶訪問該網(wǎng)站的記錄,并且其監(jiān)視結(jié)果以Web瀏覽記錄的形式存儲。對于流記錄,我們可以根據(jù)URL信息輕松地將兩個主頁的相應Web瀏覽記錄與網(wǎng)站相關(guān)聯(lián)。這兩個Web瀏覽記錄的對應流量稱作易知流量,而對應的IP地址稱作易知IP。但是,與兩個嵌入對象相對應的Web瀏覽記錄的URL的Host字段是IP地址,我們無法確定其歸屬。與這兩個流記錄相對應的流量稱為未知流量,而對應的IP地址稱作未知IP。

        2.3 Web交互過程建模

        從Web流量生成過程的角度來看,Web流量可以視為一系列HTTP請求和響應。普通網(wǎng)頁通常由HTML文檔和一些嵌入式對象組成。用戶單擊網(wǎng)站鏈接或輸入URL后,瀏覽器將首先請求HTML頁面。將HTML完全加載到客戶端后,瀏覽器會根據(jù)HTML文件中每個嵌入對象的鏈接發(fā)出請求,直到整個頁面加載完畢。在網(wǎng)絡(luò)端,通過部署流量監(jiān)控設(shè)備,監(jiān)控給用戶訪問所有服務(wù)器的記錄,監(jiān)控設(shè)備通常記錄信息的訪問時間t,訪問用戶id并訪問服務(wù)器的IP地址,訪問網(wǎng)站主域可以主要是域d,用于IP地址,IP,在訪問URL之前訪問站點可以表示為f,對流域名v的訪問。單個Web瀏覽記錄可以表示為,而所有Web瀏覽記錄可以表示為。通過對這些記錄的統(tǒng)計分析,我們可以找出這些服務(wù)器之間的關(guān)系,然后識別未知流量[2]。

        3 動互聯(lián)網(wǎng)中的Web流量精細化識別與分析

        3.1 應用識別的研究背景及問題

        與固定網(wǎng)絡(luò)類似,移動互聯(lián)網(wǎng)中的Web流量也是網(wǎng)絡(luò)中最大的流量,而固定網(wǎng)絡(luò)中Web流量的精細標識不能直接應用于移動互聯(lián)網(wǎng),因為用戶訪問的方式網(wǎng)絡(luò)已經(jīng)改變。對于運營商而言,將網(wǎng)絡(luò)流量與網(wǎng)絡(luò)側(cè)的特定APP相關(guān)聯(lián),有利于網(wǎng)絡(luò)的精細管理,有利于分析用戶的行為特征,從而提供個性化服務(wù)。因此,在移動互聯(lián)網(wǎng)中,應用維度的精細流識別是國內(nèi)外研究的熱點,具有現(xiàn)實意義。

        3.2 應用識別的研究背景及問題

        隨著智能電話功能的增強,4G網(wǎng)絡(luò)的普及以及數(shù)據(jù)服務(wù)費用的降低,移動互聯(lián)網(wǎng)的流量正在迅速增加。因為基于HTTP協(xié)議易于構(gòu)建Web應用程序并具有跨平臺開發(fā)的優(yōu)勢,所以絕大多數(shù)移動應用程序都使用HTTP協(xié)議來傳輸客戶端和服務(wù)器之間的交互數(shù)據(jù),從而促使Web流量在移動網(wǎng)絡(luò)中占主導地位,部分移動互聯(lián)網(wǎng)Web流量甚至占總流量的90%以上。然而,現(xiàn)有的基于端口和協(xié)議的流量識別方法無法細分移動互聯(lián)網(wǎng)中的Web流量。因此,對Web流量的精細識別已經(jīng)成為研究的熱點。關(guān)于移動互聯(lián)網(wǎng)中Web流量的精細識別,現(xiàn)有方法可以分為三類:(1)把流量分為細粒度的服務(wù)類型;(2)與特定網(wǎng)站有關(guān)的流量;(3)與特定應用程序相關(guān)的流量[3]。

        (1)方法通常根據(jù)HTTP數(shù)據(jù)包標題中的文件類型等信息對HTTP流量進行更精細的分類,可用于大致觀察網(wǎng)絡(luò)流量的分布。(2)方法通常將HTTP請求的“主機”字段與網(wǎng)站流量相關(guān)聯(lián),該流量主要用于網(wǎng)站流量分析;(3)方法通常根據(jù)HTTP消息頭中的UA字段和Host56字段等指紋特征來獲取生成HTTP請求的應用程序名稱。當前,大多數(shù)(3)類方法仍保留在指紋特征提取的應用程序中,對于大多數(shù)中文應用程序,這些指紋特征通常是模糊的或不完整的應用程序名稱。因此,將應用程序指紋與應用程序名稱相關(guān)聯(lián)是此類方法進行細粒度HTTP流量識別的關(guān)鍵。指紋信息的不完整和模糊不清是無法識別應用程序全名的主要原因。為了更清楚地描述該應用程序并找到該應用程序的更多功能,提供了兩個思路:(1)根據(jù)應用產(chǎn)生的廣告流量,找到應用的唯一標識號;(2)綜合多個HTTP請求中的信息,以獲得可以全面應用的指紋功能。

        3.3 應用識別

        3.3.1 應用識別系統(tǒng)框架

        應用程序識別系統(tǒng)的每個模塊的功能描述如下:

        UA功能提?。簭腢A中提取一個字符串,該字符串唯一地標識相應的應用程序。

        互聯(lián)網(wǎng)知識的獲?。涸撃K的功能是獲取Internet上UA的功能的相關(guān)信息,并形成UA的功能文本。

        分詞:將從互聯(lián)網(wǎng)獲得的UA特征文本轉(zhuǎn)換為單詞。本文利用中文自然語言處理(NLP)開源項目組Ansj的中文分詞工具,該開源項目在TRECNovelty中文分詞系統(tǒng)中排名第一。分詞工具的輸入是一個句子,輸出是一個單詞/語音對。

        應用程序名稱存儲庫:為了避免分詞算法將應用程序名稱劃分為不同的單詞,本文實現(xiàn)了一個程序,該程序從應用程序商店中檢索應用程序名稱,并構(gòu)建一個appName存儲庫來存儲所有已檢索的應用程序名稱。代表詞中的詞性ository定義為appName。因此,當分詞工具進行檢測時,將與應用程序名稱存儲庫中的單詞相同的字符串分成一個單詞。

        應用程序識別:此模塊的功能是從分詞結(jié)果中選擇與UA功能相對應的最可能的應用程序名稱

        3.3.2 應用識別算法

        應用程序識別系統(tǒng)的輸入數(shù)據(jù)是一組Web瀏覽記錄,可以表示為。瀏覽記錄包含請求的多個維度的信息。我們僅列出與本文內(nèi)容相關(guān)的用戶ID和用戶代理UA。通過提取UA的功能并根據(jù)與這些功能相對應的APP用戶的數(shù)量從最高到最低對它們進行排序來獲得功能集。取x1,在搜索引擎中搜索,并將前5個搜索結(jié)果的標題作為x1的特征文本。根據(jù)某些規(guī)則將特征文本劃分為單詞,并計算每個單詞的出現(xiàn)次數(shù)。在獲得分詞結(jié)果之后,將應用識別問題轉(zhuǎn)化為從一系列候選詞中選擇一個詞作為與UA特征相對應的應用名稱,可以用公式(1)表示。

        在公式;IPT代表查找X的應用程序的名稱,而:F代表選擇單詞的規(guī)則。

        基于以上分析,我們分為五個步驟來實現(xiàn)對應用程序名稱的識別:

        第1步:IPUA特征提取。IPHTTP消息的標頭通常包含UA信息,該信息包含客戶端的名稱標識符。此外,它可能包含有關(guān)客戶端的其他信息,例如電話類型,客戶端操作系統(tǒng)類型等。因此,UA字段可能包含多個字符串,而我們所需要的只是代表應用程序的UA特征字符串。因此,您需要在UA字段中過濾掉無用的信息。查看大量實際的HTTP請求數(shù)據(jù)包后,我們分兩步對UA進行了過濾。

        第2步:獲取網(wǎng)絡(luò)知識。從UA個人資料排名最高的UA-100應用程序中刪除用戶,然后將這些UA作為關(guān)鍵字在搜索引擎中進行搜索,與移動應用程序相關(guān)聯(lián),以便使搜索結(jié)果可以在每個UA關(guān)鍵字之后增加,對于每個UA搜索結(jié)果,均以前五個字段的標題作為UA文本的特征。

        第3步:分詞。對于每個應用程序功能,計算功能文本中每個單詞的出現(xiàn)時間。由于帶有詞性appName的單詞是已知的應用程序名稱,因此這些單詞很可能是與UA功能相對應的應用程序名稱,因此應將更大的權(quán)重賦予這些單詞的出現(xiàn)次數(shù)。

        第4步:應用程序識別。由于對應于不同應用指紋的候選應用名稱的出現(xiàn)時間相差很大,為便于統(tǒng)一設(shè)置不同應用指紋的詞選擇閾值,應通過以下公式對對應于同一應用指紋的單詞的出現(xiàn)時間進行標準化。等式(2)表明,對于某個應用程序指紋yn,其特征文本中的單詞出現(xiàn)yn的次數(shù)越多,S值越大,并且xm的應用程序名稱為yn的可能性就越大。

        在尋找應用程序的UA特性的過程中,我們發(fā)現(xiàn)同一應用程序可能具有多個UA特性。這些UA特性可以分為兩類。一種是可以用于唯一確定應用程序名稱的UA特性,稱為專用代理[4]。另一種是用于實現(xiàn)應用程序功能的功能代理。由于功能代理沒有與其對應的實際應用,因此難以通過在搜索引擎中使用功能代理來搜索相應的應用名稱,從而降低了應用名稱識別的準確性。為了提高識別精度,需要過濾掉這些功能代理。

        第5步:手動檢查識別結(jié)果。為了正確識別應用指紋,將存儲識別結(jié)果,以避免重復識別。對于已過濾的應用程序指紋,需驗證過濾結(jié)果是否正確。

        猜你喜歡
        單詞功能
        What’s This?
        Exercise 1
        也談詩的“功能”
        中華詩詞(2022年6期)2022-12-31 06:41:24
        單詞連一連
        看圖填單詞
        關(guān)于非首都功能疏解的幾點思考
        看完這些單詞的翻譯,整個人都不好了
        懷孕了,凝血功能怎么變?
        媽媽寶寶(2017年2期)2017-02-21 01:21:24
        “簡直”和“幾乎”的表達功能
        中西醫(yī)結(jié)合治療甲狀腺功能亢進癥31例
        二区在线视频| 婷婷五月综合丁香在线| 亚洲av第一区国产精品| 久草手机视频在线观看| 国产极品裸体av在线激情网| 高清午夜福利电影在线| 亚洲精品~无码抽插| 亚洲春色在线视频| 人妻av无码系列一区二区三区 | 午夜精品久久久久久中宇| 久久久精品人妻一区亚美研究所| 男人天堂免费视频| 国产精品一区二区三级| 日本中文字幕av网址| 国产91成人自拍视频| 国内精品国产三级国产| 亚洲 小说区 图片区 都市| 国产欧美精品一区二区三区四区| 999国内精品永久免费观看| 一区二区国产在线观看| 国产精品原创av片国产日韩| 中文字幕亚洲精品码专区| 国产三级一区二区三区在线观看 | 巨熟乳波霸若妻在线播放| 91久久久久无码精品露脸| 国产成人丝袜在线无码| 亚洲国产精品色婷婷久久| 久久综合伊人有码一区中文字幕| 在线精品国产亚洲av麻豆| 精品偷自拍另类在线观看| 野花在线无码视频在线播放| 国产女人18一级毛片视频| 免费av在线视频播放| 成人做爰黄片视频蘑菇视频| 五月色婷婷丁香无码三级| 精品国产一二三产品区别在哪 | 亚洲日韩一区二区一无码| 美日韩毛片| 青青草绿色华人播放在线视频| 成人片黄网站a毛片免费| 韩日美无码精品无码|