許聞秋,雒江濤,楊軍超
(重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)工程研究院,重慶400652)
基于Hadoop的校園網(wǎng)視頻流量訪問(wèn)偏好分析
許聞秋,雒江濤,楊軍超
(重慶郵電大學(xué) 電子信息與網(wǎng)絡(luò)工程研究院,重慶400652)
針對(duì)傳統(tǒng)視頻用戶訪問(wèn)日志的偏好分析方法存在數(shù)據(jù)客觀性差和用戶關(guān)聯(lián)分析困難等問(wèn)題,在傳統(tǒng)偏好分析方法的基礎(chǔ)上,面向互聯(lián)網(wǎng)數(shù)據(jù)原始流量,提出一種基于主流大數(shù)據(jù)平臺(tái)技術(shù)Hadoop的校園網(wǎng)視頻用戶訪問(wèn)偏好分析方案。該方案利用網(wǎng)絡(luò)爬蟲和深度包檢測(cè)技術(shù),對(duì)視頻訪問(wèn)內(nèi)容進(jìn)行精細(xì)化識(shí)別,進(jìn)而研究了校園網(wǎng)視頻流量的訪問(wèn)偏好,并對(duì)比了MySQL和Hive的查詢效率。結(jié)果表明,文化層次的差異導(dǎo)致了視頻用戶群體的不同需求,低成本硬件環(huán)境下對(duì)大數(shù)據(jù)的處理Hive更顯健壯性。另外,該方案能穩(wěn)定可靠地實(shí)現(xiàn)對(duì)校園網(wǎng)視頻流量訪問(wèn)的偏好分析,捕捉用戶網(wǎng)絡(luò)輿情,制訂定向營(yíng)銷方案并提供個(gè)性化視頻推薦服務(wù)。經(jīng)現(xiàn)網(wǎng)測(cè)試驗(yàn)證,設(shè)計(jì)的視頻訪問(wèn)偏好分析方案達(dá)到了預(yù)期的效果。
校園網(wǎng)視頻;偏好分析;Hadoop;網(wǎng)絡(luò)爬蟲;深度包檢測(cè)
互聯(lián)網(wǎng)的發(fā)展使得視頻業(yè)務(wù)占據(jù)網(wǎng)絡(luò)流量的絕大部分,而通過(guò)視頻網(wǎng)站訪問(wèn)視頻的方式逐漸成為主流[1]?;ヂ?lián)網(wǎng)視頻流量承載了視頻用戶的訪問(wèn)數(shù)據(jù),對(duì)其深度挖掘是用戶偏好分析的一個(gè)有效途徑。同時(shí),校園網(wǎng)視頻流量分析將對(duì)校園網(wǎng)絡(luò)維護(hù)、擁塞控制及用戶管理等領(lǐng)域帶來(lái)研究?jī)r(jià)值[2]。視頻訪問(wèn)偏好分析將有助于捕捉用戶網(wǎng)絡(luò)輿情、制訂定向營(yíng)銷方案,且為個(gè)性化視頻推薦提供依據(jù)。然而,以視頻用戶訪問(wèn)日志為主的傳統(tǒng)偏好分析方法存在數(shù)據(jù)客觀性差,用戶關(guān)聯(lián)分析困難,用戶相關(guān)信息提取不易等問(wèn)題。
結(jié)合深度包檢測(cè)(deep packet inspection,DPI)技術(shù)的流量識(shí)別方法有助于視頻用戶訪問(wèn)偏好的分析,但精度不高。原因有:①傳統(tǒng)的數(shù)據(jù)挖掘算法對(duì)TB/PB量級(jí)的數(shù)據(jù)存儲(chǔ)和運(yùn)算存在局限性;②視頻HTTP(hyper text transfer protocol)請(qǐng)求的統(tǒng)一資源定位符(uniform resource locator,URL)無(wú)法直接獲取視頻詳細(xì)信息[3-4]。為此,融合網(wǎng)絡(luò)爬蟲(web crawler)技術(shù)并建立視頻網(wǎng)站產(chǎn)品信息庫(kù)的視頻流量識(shí)別方法能提高分析精度。
本文面向互聯(lián)網(wǎng)流量數(shù)據(jù),基于Hadoop提出一種通過(guò)視頻流量識(shí)別與統(tǒng)計(jì)從而對(duì)用戶訪問(wèn)偏好進(jìn)行分析的方案;融合DPI及網(wǎng)絡(luò)爬蟲技術(shù),通過(guò)分析校園網(wǎng)實(shí)時(shí)流量,得到不同維度下的用戶訪問(wèn)偏好,驗(yàn)證方案可行性并提高分析精確度;與傳統(tǒng)數(shù)據(jù)庫(kù)方法對(duì)比,驗(yàn)證了大數(shù)據(jù)下Hive的高效性;最后,本文為校園網(wǎng)流量監(jiān)管、擁塞控制,校園網(wǎng)用戶視頻推薦提供了依據(jù)。
中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心,通過(guò)計(jì)算機(jī)輔助電話訪問(wèn)和抽樣調(diào)查的方法,調(diào)研了國(guó)內(nèi)網(wǎng)絡(luò)視頻的用戶規(guī)模及用戶行為[5]。但是,該方法對(duì)參與的人力物力資源配置要求較高,不易實(shí)現(xiàn)。艾瑞咨詢通過(guò)第3方監(jiān)測(cè)軟件iVideoTracker,收集固定樣本簽約用戶的網(wǎng)絡(luò)視頻行為日志,分析了國(guó)內(nèi)主流視頻媒體收視情況及收視人群分布[6]。但是,該方法所需的用戶視頻訪問(wèn)日志不易獲取,且調(diào)研樣本單一,不具有普適性。
文獻(xiàn)[7]提出了一種在Hadoop下執(zhí)行解析IP(internet protocol),TCP(transmission control protocol),HTTP層MapReduce任務(wù)的網(wǎng)絡(luò)流量分析方案,驗(yàn)證了Hadoop下流量分析的可行性。文獻(xiàn)[8]結(jié)合DPI技術(shù),提出了一種移動(dòng)端視頻應(yīng)用用戶行為分析方案;文獻(xiàn)[9]通過(guò)對(duì)Web日志挖掘,提出了一種針對(duì)移動(dòng)互聯(lián)網(wǎng)視頻用戶的流量分析方法;文獻(xiàn)[10]提出了一種考慮視頻用戶偏好的視頻內(nèi)容質(zhì)量評(píng)估方法。文獻(xiàn)[11]在Apache Pig,Apache Hive和MySQL集群下,分別對(duì)不同大小的數(shù)據(jù)集進(jìn)行查詢效率測(cè)試,驗(yàn)證了Hive方法的優(yōu)越性。然而,上述文獻(xiàn)卻存在用戶訪問(wèn)信息及用戶偏好提取困難的問(wèn)題。為此,文獻(xiàn)[12]進(jìn)一步提出了基于Hadoop的電商網(wǎng)站流量識(shí)別與DPI系統(tǒng),對(duì)電商用戶的行為和偏好進(jìn)行提取和分析。本文應(yīng)用主流的開(kāi)源大數(shù)據(jù)平臺(tái)Hadoop,通過(guò)MapReduce提供的并行運(yùn)算編程模型,Hadoop分布式文件系統(tǒng)(hadoop distributed file system,HDFS)提供存儲(chǔ)基礎(chǔ),Hadoop的數(shù)據(jù)倉(cāng)庫(kù)Hive實(shí)現(xiàn)統(tǒng)計(jì)分析[13-17]。結(jié)合視頻網(wǎng)站及用戶特點(diǎn),提出了一個(gè)針對(duì)校園網(wǎng)視頻流量用戶訪問(wèn)偏好的分析方案。
2.1 視頻流量識(shí)別和DPI
本文結(jié)合DPI及網(wǎng)絡(luò)爬蟲技術(shù),通過(guò)解析校園網(wǎng)視頻流量,識(shí)別視頻提供商及視頻類別,借助爬蟲建立的產(chǎn)品信息庫(kù),確定視頻具體文件,統(tǒng)計(jì)分析視頻用戶訪問(wèn)偏好。
2.1.1 視頻服務(wù)提供商識(shí)別
用戶通過(guò)視頻網(wǎng)站,向視頻服務(wù)提供商的服務(wù)器發(fā)送一次HTTP請(qǐng)求,服務(wù)器隨即回送響應(yīng),通過(guò)瀏覽器解析響應(yīng)中的HTML(hyper text mark-up language),得到相應(yīng)視頻網(wǎng)頁(yè)。本文通過(guò)解析網(wǎng)頁(yè)視頻請(qǐng)求流量,重組HTTP請(qǐng)求,提取視頻關(guān)鍵信息,從而實(shí)現(xiàn)視頻服務(wù)提供商的識(shí)別。
本文采用基于特征字匹配的DPI數(shù)據(jù)包解析方法,通過(guò)對(duì)在應(yīng)用層協(xié)議頭或應(yīng)用層負(fù)荷中特定位置的視頻特征字段的識(shí)別來(lái)實(shí)現(xiàn)對(duì)視頻業(yè)務(wù)數(shù)據(jù)包的檢測(cè)和解析,從而得到一個(gè)包含視頻特征字段與特征值的DPI視頻特征庫(kù)。其中,視頻特征值具體包括:數(shù)字特征值(視頻ID)、HTTP GET請(qǐng)求中的Host域名特征、Referer特征及URL等字符特征值。
以優(yōu)酷視頻的特征識(shí)別為例,當(dāng)用戶訪問(wèn)某視頻時(shí),Host域名(youku)和GET請(qǐng)求URI同時(shí)構(gòu)成了用戶視頻請(qǐng)求HTTP數(shù)據(jù)包中的Full Request,其中,URI則帶有視頻數(shù)字特征,即視頻ID。通過(guò)正則表達(dá)式匹配同時(shí)包含Host域名和帶有“/v_show”和“.html”的校園網(wǎng)用戶GET請(qǐng)求數(shù)據(jù)包,匹配Host字段,由此識(shí)別該視頻請(qǐng)求流量的服務(wù)提供商為優(yōu)酷網(wǎng)。
2.1.2 視頻訪問(wèn)事件識(shí)別
本文應(yīng)用視頻網(wǎng)站爬蟲技術(shù),根據(jù)配置規(guī)則,定向抓取特定視頻網(wǎng)站資源,并把抓取結(jié)果存儲(chǔ)到視頻網(wǎng)站產(chǎn)品信息庫(kù)中。數(shù)據(jù)包解析得到視頻服務(wù)提供商信息和視頻ID,通過(guò)與視頻網(wǎng)站產(chǎn)品信息庫(kù)匹配,與對(duì)應(yīng)視頻文件建立映射關(guān)系。結(jié)果錄入數(shù)據(jù)庫(kù),并將該視頻請(qǐng)求流量轉(zhuǎn)化為用戶的一次視頻訪問(wèn)事件。
以優(yōu)酷網(wǎng)產(chǎn)品信息為例,表1是對(duì)優(yōu)酷網(wǎng)建立的產(chǎn)品信息表,包括:視頻網(wǎng)站、視頻ID、視頻名稱Name、視頻頻道、視頻二級(jí)頻道等信息。其余視頻類網(wǎng)站結(jié)構(gòu)及其分析過(guò)程與之類似。確認(rèn)視頻文件后,得到視頻名稱,即“視頻Name”。與優(yōu)酷網(wǎng)產(chǎn)品信息表匹配,即可辨認(rèn)對(duì)應(yīng)的視頻類別,其中包括:視頻頻道、二級(jí)頻道等相關(guān)信息。
表1 優(yōu)酷網(wǎng)產(chǎn)品信息
2.2 統(tǒng)計(jì)與偏好分析
2.2.1 流量識(shí)別與DPI
每條時(shí)間記錄下用戶視頻訪問(wèn)事件的累計(jì),能反映群體用戶的視頻偏好。因此,對(duì)校園網(wǎng)視頻用戶偏好的分析,通過(guò)對(duì)視頻流量的識(shí)別與DPI,最終被轉(zhuǎn)化為對(duì)視頻訪問(wèn)事件的統(tǒng)計(jì)。
為了能直接統(tǒng)計(jì)解析后的網(wǎng)頁(yè)視頻請(qǐng)求流量,同時(shí)避免對(duì)數(shù)據(jù)庫(kù)的重復(fù)建表和海量數(shù)據(jù)操作,本文采用Hadoop生態(tài)系統(tǒng)中的數(shù)據(jù)倉(cāng)庫(kù)Hive作為統(tǒng)計(jì)工具。解析后的校園網(wǎng)視頻流量直接存入HDFS,并建立元數(shù)據(jù)庫(kù)存入MySQL中,從而構(gòu)建數(shù)據(jù)映射關(guān)系。對(duì)Hive運(yùn)行查詢語(yǔ)句(hive query language,HQL),快速簡(jiǎn)單地實(shí)現(xiàn)MapReduce統(tǒng)計(jì)。整個(gè)分析過(guò)程,同時(shí)輸入MapReduce分布式運(yùn)算模型,最終完成對(duì)校園網(wǎng)視頻用戶的偏好統(tǒng)計(jì)分析。
2.2.2 數(shù)據(jù)表建立
用戶視頻訪問(wèn)事件以文本形式保存在HDFS中。其中,每行代表視頻訪問(wèn)的一次記錄,每條記錄以行分隔符(“ ”)分隔,每條記錄中的各個(gè)字段以逗號(hào)(“,”)分隔。Hive通過(guò)元數(shù)據(jù)存儲(chǔ)機(jī)制,將HDFS中的文件映射到數(shù)據(jù)表中,數(shù)據(jù)表的信息即元數(shù)據(jù)(metadata),元數(shù)據(jù)存儲(chǔ)在底層關(guān)系型數(shù)據(jù)庫(kù)MySQL中。
鑒于Hive外部表的安全性,能避免誤操作所帶來(lái)的損失。本文通過(guò)EXTERNAL關(guān)鍵字來(lái)指定創(chuàng)建外部表;通過(guò)LOCATION關(guān)鍵字來(lái)指定表數(shù)據(jù)存放在HDFS中的位置;通過(guò)STORED AS TEXTFILE指定加載的文件數(shù)據(jù)是純文本格式;ROW FORMAT DELIMITED關(guān)鍵字設(shè)置創(chuàng)建的表加載數(shù)據(jù)時(shí)支持列分隔符;COMMENT關(guān)鍵字給字段和表注釋。在Hive中創(chuàng)建名為Video的數(shù)據(jù)庫(kù),并創(chuàng)建外部表VideoTable描述視頻節(jié)目識(shí)別模塊得到的校園網(wǎng)用戶視頻訪問(wèn)記錄。
2.2.3 用戶偏好統(tǒng)計(jì)分析
對(duì)不同性別的校園網(wǎng)視頻用戶進(jìn)行不同維度的偏好統(tǒng)計(jì)。具體包括:不同性別用戶對(duì)主流視頻網(wǎng)站、頻道和節(jié)目的統(tǒng)計(jì)。根據(jù)統(tǒng)計(jì)結(jié)果,給出Top-N視頻推薦列表,并分析校園網(wǎng)流量視頻用戶的偏好。
2.3 MapReduce并行運(yùn)算模型
圖1是MapReduce提供的并行編程運(yùn)算模型,通過(guò)分發(fā)任務(wù),解析網(wǎng)絡(luò)視頻流量,完成校園網(wǎng)視頻用戶訪問(wèn)偏好的統(tǒng)計(jì)和分析。
2.3.1 Job 1視頻服務(wù)提供商識(shí)別
從HDFS中讀取PcapIputFormat格式的Pcap數(shù)據(jù)包,同時(shí),Map1的輸入為
圖1 MapReduce編程模型Fig.1 MapReduce programming model
2.3.2 Job2視頻文件確定
通過(guò)視頻Host和ID,與視頻網(wǎng)站爬蟲信息庫(kù)進(jìn)行匹配,確定視頻文件,包括:視頻名字Name、視頻頻道和視頻類型等。依據(jù)校園網(wǎng)規(guī)劃,宿舍樓棟號(hào)與網(wǎng)絡(luò)端口號(hào)一一對(duì)應(yīng),從而獲悉用戶性別信息。最終得到以用戶性別為key、以視頻對(duì)應(yīng)具體信息為value的Reduce2輸出。
2.3.3 統(tǒng)計(jì)與偏好分析
Hive將HQL轉(zhuǎn)化為對(duì)應(yīng)MapReduce任務(wù),查詢和統(tǒng)計(jì)HDFS中的數(shù)據(jù),最終實(shí)現(xiàn)校園網(wǎng)視頻用戶不同維度下的偏好統(tǒng)計(jì)及視頻Top-N推薦列表。
3.1 實(shí)驗(yàn)環(huán)境與數(shù)據(jù)采集
Hadoop集群實(shí)驗(yàn)平臺(tái)搭建在單位網(wǎng)絡(luò)中心,該集群硬件配置:普通雙核CPU的PC機(jī),其中一個(gè)NameNode配備8 GB內(nèi)存和500 GB硬盤,5個(gè)DataNode均配備4 GB內(nèi)存和500 GB硬盤,交換機(jī)連接各節(jié)點(diǎn);軟件配置:Hadoop 1.1.2、Hive 0.9.0,MySQL 5.1.73和 JDK1.7.0_45。數(shù)據(jù)采集配置Hcap-224F千兆采集卡。
實(shí)驗(yàn)隨機(jī)抽取校園內(nèi)5幢學(xué)生宿舍作為流量數(shù)據(jù)采集對(duì)象,對(duì)照校園網(wǎng)網(wǎng)管中心機(jī)房端口映射關(guān)系,將采集數(shù)據(jù)保存為pcap格式離線文件。數(shù)據(jù)采集時(shí)間從每天8:00—24:00,2013年12月9日至2013年12月12日,總計(jì)采集校園網(wǎng)流量數(shù)據(jù)2 020 GB。
3.2 實(shí)驗(yàn)結(jié)果
3.2.1 校園網(wǎng)視頻訪問(wèn)偏好分析
通過(guò)Hive統(tǒng)計(jì)不同維度下校園網(wǎng)視頻用戶的訪問(wèn)偏好,與國(guó)內(nèi)同期發(fā)布的權(quán)威報(bào)告相關(guān)數(shù)據(jù)和結(jié)論對(duì)比,分析了校園網(wǎng)用戶的視頻偏好特點(diǎn)。
圖2是校園網(wǎng)用戶對(duì)主流視頻網(wǎng)站的偏好統(tǒng)計(jì)。男生偏好優(yōu)酷網(wǎng),其次是土豆網(wǎng)、搜狐網(wǎng)和樂(lè)視網(wǎng),最后是迅雷看看。女生同樣偏好優(yōu)酷網(wǎng),其次是搜狐網(wǎng)和樂(lè)視網(wǎng),二者幾乎持平,接著是愛(ài)奇藝,訪問(wèn)量明顯高于男生,最后是迅雷看看。
圖2 視頻網(wǎng)站偏好統(tǒng)計(jì)Fig.2 Video website preference statistics
圖3是校園網(wǎng)用戶對(duì)視頻頻道的偏好統(tǒng)計(jì)。男生視頻頻道Top-5:生活、新聞資訊、娛樂(lè)音樂(lè)、原創(chuàng)和動(dòng)漫;女生視頻頻道Top-5:電視劇、綜藝、教育、電影和動(dòng)漫。區(qū)別于文獻(xiàn)[6]中電影、電視劇、綜藝節(jié)目名列前三的結(jié)果,反映了校園網(wǎng)視頻用戶對(duì)頻道選擇的差異性。
表2是校園網(wǎng)用戶對(duì)視頻節(jié)目的偏好的Top-10排序。文獻(xiàn)顯示國(guó)內(nèi)同期大眾視頻頻道偏好依次為:電視劇、電影、綜藝節(jié)目和動(dòng)漫節(jié)目[1,5-6]。電視節(jié)目偏好依次為:劇情劇《大丈夫》、愛(ài)情劇《來(lái)自星星的你》和喜劇《天真遇到現(xiàn)實(shí)》。通過(guò)與校園網(wǎng)流量視頻用戶偏好分析對(duì)比,可以看出,由于受教育程度、文化水平、用戶年齡的不同,造成校園網(wǎng)用戶群體對(duì)視頻的偏好與需求的差異。校園網(wǎng)流量視頻用戶的偏好特征:首選優(yōu)酷網(wǎng),偏愛(ài)電視劇或綜藝節(jié)目,并且男女生反映出較大偏好差異。
圖3 視頻頻道偏好統(tǒng)計(jì)Fig.3 Video channels preference statistics
排序男生節(jié)目偏好女生節(jié)目偏好1永不磨滅的番號(hào)咱們結(jié)婚吧2萬(wàn)萬(wàn)沒(méi)想到爸爸去哪兒3最美的時(shí)光繼承者們4火影忍者妖精的尾巴5航海王女人幫妞兒6初代吸血鬼普通話朗讀作品7康熙來(lái)了最美的時(shí)光8My盛Lady極品女士9咱們結(jié)婚吧RunningMan10性愛(ài)大師聽(tīng)見(jiàn)你的聲音
對(duì)群體用戶偏好和需求的分析,需要識(shí)別和統(tǒng)計(jì)群體內(nèi)各個(gè)用戶的特征。面向群體的不同興趣或偏好分布,不僅為用戶提供個(gè)性化服務(wù),還能為內(nèi)容提供商提供定向策略的依據(jù)。通過(guò)以上分析,驗(yàn)證了本文所提方案對(duì)于視頻用戶訪問(wèn)偏好深度挖掘的可行性和有效性。
3.2.2 Hive和MySQL查詢效率對(duì)比
查詢效率受3個(gè)方面影響:①數(shù)據(jù)集大小(有多少行);②查詢語(yǔ)句;③查詢平均時(shí)間。為驗(yàn)證Hive統(tǒng)計(jì)在本文實(shí)驗(yàn)環(huán)境下的高效性,本文設(shè)計(jì)以下實(shí)驗(yàn):利用3個(gè)不同大小的數(shù)據(jù)集,在相同MapReduce編程模型下,分別在Hive和MySQL上執(zhí)行相應(yīng)的7條查詢語(yǔ)句,每條查詢語(yǔ)句執(zhí)行5次并記錄平均執(zhí)行時(shí)間,對(duì)比查詢效率。
MySQL平均查詢時(shí)間隨著數(shù)據(jù)量的增長(zhǎng)驟然增加。存儲(chǔ)引擎結(jié)構(gòu)以及查詢執(zhí)行機(jī)制從根本上限制了MySQL的查詢效率。MySQL通過(guò)主鍵方式訪問(wèn)數(shù)據(jù),查詢語(yǔ)句執(zhí)行需要所有數(shù)據(jù)節(jié)點(diǎn)參與數(shù)據(jù)檢索。當(dāng)跨越數(shù)據(jù)節(jié)點(diǎn)訪問(wèn)MySQL服務(wù)器和各表數(shù)據(jù)時(shí),獲取所有數(shù)據(jù)節(jié)點(diǎn)數(shù)據(jù)會(huì)造成網(wǎng)絡(luò)接入延遲。
Hive查詢數(shù)據(jù)以分布式、cvs格式純文本文件存儲(chǔ)在HDFS中,不同于MySQL數(shù)據(jù)存儲(chǔ)于查詢機(jī)制,Hive只需對(duì)作為主鍵的元數(shù)據(jù)進(jìn)行存儲(chǔ)調(diào)度,并指定文件存儲(chǔ)位置。查詢時(shí)僅讀取文件索引,而非整個(gè)文件,使Hive快速查詢得以實(shí)現(xiàn)。
圖4對(duì)比了MySQL和Hive的平均處理時(shí)間,數(shù)據(jù)量越大,MySQL占用內(nèi)存越多,處理效率越低。在本實(shí)驗(yàn)環(huán)境下,約在69.6 MB數(shù)據(jù)量時(shí),二者查詢效率出現(xiàn)轉(zhuǎn)折點(diǎn),Hive逐漸顯現(xiàn)出查詢優(yōu)勢(shì)。驗(yàn)證了在低成本硬件設(shè)備環(huán)境下,對(duì)于大數(shù)據(jù)的處理,Hive比MySQL的查詢效率更高、健壯性更好。
圖4 MySQL和Hive平均處理時(shí)間Fig.4 Mean processing time of MySQL and Hive
本文面向互聯(lián)網(wǎng)數(shù)據(jù)原始流量,提出了一個(gè)基于Hadoop的校園網(wǎng)視頻流量訪問(wèn)偏好分析方案。它利用網(wǎng)絡(luò)爬蟲和深度包檢測(cè)技術(shù),完成了主流視頻網(wǎng)站產(chǎn)品信息庫(kù)的建立、視頻訪問(wèn)事件特征提取和識(shí)別,最后利用Hive數(shù)據(jù)庫(kù)完成了偏好統(tǒng)計(jì)分析,并對(duì)MySQL和Hive查詢效率進(jìn)行對(duì)比。結(jié)果表明,由于文化層次的差異,不同用戶群體的視頻需求存在較大的差異性;在低成本硬件設(shè)備環(huán)境下,對(duì)于大數(shù)據(jù)的處理,Hive比MySQL查詢效率更高,隨著數(shù)據(jù)量的增大,Hive有更好的健壯性。本方案能穩(wěn)定、可靠地實(shí)現(xiàn)校園網(wǎng)視頻流量訪問(wèn)偏好分析,將有助于捕捉用戶網(wǎng)絡(luò)輿情、制定定向營(yíng)銷方案以及提供個(gè)性推薦服務(wù)。
在未來(lái)實(shí)際應(yīng)用工作中,還可對(duì)硬件環(huán)境進(jìn)行改善,執(zhí)行更復(fù)雜的查詢語(yǔ)句。對(duì)除MySQL外的關(guān)系型數(shù)據(jù)庫(kù),如Oracle,聯(lián)合Hive,Pig等Hadoop統(tǒng)計(jì)模型,進(jìn)行相關(guān)性能的測(cè)試,以便使分析結(jié)果更接近實(shí)際。
[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)中心. 第36次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB/OL]. [2015-07-01]. http://www.cnnic.net.cn/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf. CNNIC.The 36th Report of China Internet Network Development State Statistic[EB/OL].[2015-07-01].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201507/P020150723549500667087.pdf.
[2] WU Haitao,FENG Zhenqian, GUO Chuanxiong, et al. ICTCP: Incast congestion control for TCP in data-center networks [J]. IEEE/ACM Transactions on Networking (TON), 2013, 21(2): 345-358.
[3] ZHAO D, TRAORE I, SAYED B, et al. Botnet detection based on traffic behavior analysis and flow intervals[J]. Computers & Security, 2013, 39: 2-16.
[4] RICHARD S W. TCP/IP Illustrated Volume 3: TCP for Transactions, HTTP, NNTP and the UNIX Domain Protocols [M]. USA: Addison-Wesley, 2002:129-165.
[5] 中國(guó)互聯(lián)網(wǎng)絡(luò)中心. 2013年中國(guó)網(wǎng)民網(wǎng)絡(luò)視頻應(yīng)用研究報(bào)告[EB/OL]. [2014-06-09]. http:// www.cnnic.net.cn/hlwfzyj/hlwxzbg/spbg/201406/t20140609_47180.htm. CNNIC. 2013 Study Report of Chinese Internet Video Network Users Applications[EB/OL]. [2014-06-09]. http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/spbg/201406/t20140609_47180.htm.
[6] 艾瑞咨詢. iVideoTracker視頻媒體用戶行為分析報(bào)告[EB/OL]. [2015-09-15]. http:// news.iresearch.cn/zt/254353.shtml. I Research. IVideoTracker Video Media User Behavior Analysis Report[EB/OL]. [2015-09-15]. http:// news.iresearch.cn/zt/254353.shtml.
[7] LEE Yeonhee, LEE Youngseok. Toward scalable internet traffic measurement and analysis with hadoop [J]. ACM SIGCOMM Computer Communication Review,2013,43(1):5-13.
[8] FUKUMOTO Norihiro, ANO Shigehiro, GOTO Shigeki. A practical behavior analysis of video application users on smart phones[C]// Computer Software and Applications Conference (COMPSAC), 2013 IEEE 37th Annual. Kyoto: IEEE, 2013: 288-289.
[9] YAMAKAMI T. Mobile video user revisit analysis based on multi-day visiting patterns [C]// Advanced Communication Technology (ICACT), 2010 The 12th International Conference on. [s.L.]: IEEE, 2010, 2: 1435-1439.
[10] RODRIGUEZ D, ROSA R, ALFAIA Costa, et al. Video quality assessment in video streaming services considering user preference for video content [J]. Consumer Electronics, IEEE Transactions on, 2014, 60(3): 436-444.
[11] FUAD A, ERWIN A, IPUNGH H. Processing performance on Apache Pig, Apache Hive and MySQL cluster[C]// Information, Communication Technology and System (ICTS), 2014 International Conference on. Surabaya: IEEE, 2014: 297-302.
[12] LUO Jiangtao, LIANG Yan, GAO Wei, et al. Hadoop based Deep Packet Inspection system for traffic analysis of e-business websites[C]// Data Science and Advanced Analytics (DSAA), 2014 International Conference on. Shanghai:IEEE, 2014: 361-366.
[13] Apache. Hadoop[EB/OL]. [2015-09-30]. http://hadoop.apache.org.
[14] WHITE T. Hadoop: The definitive Guide. [M]. 2nd. USA: O’Reilly, 2012.
[15] LUO Yifeng, LUO Siqiang, GUAN Jihong, et al. A RAMCloud storage system based on HDFS: Architecture, implementation and evaluation [J]. The Journal of Systems and Software, 2013, 86(3): 744-750.
[16] Apache. Hive.[EB/OL]. [2015-10-01]. https://cwiki.apache.org/confluence/display/Hive/Home
[17] CAPRIOLO E, WAMPLER D, RUTBERGLEN J. Hive Programming [M]. USA: O’Reilly, 2013.
許聞秋(1990-),云南昆明人,女, 碩士研究生,主要研究方向網(wǎng)絡(luò)流量分類與識(shí)別、數(shù)據(jù)挖掘。E-mail:xuwenqiu_xenia@163.com。
雒江濤(1971-),男,教授/博導(dǎo),主要研究方向?yàn)樾乱淮W(wǎng)絡(luò)技術(shù)和移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)挖掘。E-mail:luojt@cqupt.edu.cn。 楊軍超(1988-),男,博士研究生,主要研究方向大數(shù)據(jù)。E-mail: 262256660@qq.com。
(編輯:魏琴芳)
Hadoop based analysis of access preference for campus video traffic
XU Wenqiu, LUO Jiangtao, YANG Junchao
(Electronic Information and Networking Research Institute, Chongqing University of Posts and Telecommunications,Chongqing 400065,P.R. China)
There are poor objectivity of data and difficult association analysis in traditional user preference analysis approach with video access log. To solve this problem, the Hadoop based scheme of video user access preference analysis in campus network is proposed by using the original traffic from internet in this paper. The scheme was designed to refine identification of video access content by using the technology of web crawler and deep packet inspection. And the access preference for campus video traffic is analyzed in further. The query efficiency was compared between MySQL and Hive at the same time. The results demonstrate that the difference level of culture leads to the variation of video needs among user groups, and under the low cost hardware environment, Hive is robust for the processing of large data. The scheme is stable and reliable to realize the analysis of access preference for campus video traffic, capturing user network public opinions, working out customized marketing plans and providing service of personalized video recommendation. Through testing in current network environment, the scheme of video user preference analysis proposed in this paper works well as what is expected.
campus network video; preference analysis; Hadoop; web crawler; deep packet inspection
10.3979/j.issn.1673-825X.2016.06.024
2015-09-23
2016-08-31
許聞秋 xuwenqiu_xenia@163.com
重慶市應(yīng)用開(kāi)發(fā)計(jì)劃資助項(xiàng)目(cstc2013yykfA40006);2013重慶高校創(chuàng)新團(tuán)隊(duì)建設(shè)計(jì)劃(KJTD201312)
Foundation Items:The Application Development Foundation Project of Chongqing (cstc2013yykfA40006); The Innovation Teams Building Program of Chongqing Universities in 2013 (KJTD201312)
TP391;TN929.5
A
1673-825X(2016)06-0897-06