姜明 朱開誠 王興起
?
視頻網(wǎng)站熱門視頻快速發(fā)掘系統(tǒng)
姜明 朱開誠 王興起
杭州電子科技大學(xué),浙江 杭州 310018
隨著互聯(lián)網(wǎng)視頻網(wǎng)站的蓬勃發(fā)展,觀看網(wǎng)絡(luò)視頻已經(jīng)成為了廣大網(wǎng)民日常生活的一部分。熱門視頻能夠?yàn)榫W(wǎng)站帶來巨大流量和經(jīng)濟(jì)效益。因此,如何快速發(fā)掘熱門視頻是一個(gè)新的研究熱點(diǎn)。根據(jù)中國最大的視頻分享網(wǎng)站優(yōu)酷網(wǎng)的特點(diǎn),分析了影響熱點(diǎn)視頻的因素,在常規(guī)的熱點(diǎn)視頻發(fā)掘方法上加入了賬號(hào)質(zhì)量和話題熱度這兩個(gè)熱度計(jì)算參數(shù),根據(jù)這兩個(gè)參數(shù)設(shè)計(jì)了一個(gè)熱點(diǎn)視頻快速發(fā)掘系統(tǒng),并通過性能測(cè)驗(yàn)證實(shí)了相比于傳統(tǒng)方法該系統(tǒng)能夠有效提高熱點(diǎn)視頻的發(fā)掘效率。
視頻網(wǎng)站;互聯(lián)網(wǎng)
隨著互聯(lián)網(wǎng)各大視頻網(wǎng)站的發(fā)展,觀看網(wǎng)絡(luò)視頻已經(jīng)成為了中國網(wǎng)民日常生活的一部分。互聯(lián)網(wǎng)每天有數(shù)萬新視頻發(fā)布,視頻的播放量達(dá)到一定量就成了熱門視頻。熱門視頻是網(wǎng)民的關(guān)注點(diǎn),往往會(huì)與網(wǎng)絡(luò)熱點(diǎn)事件相關(guān)。因此,設(shè)計(jì)一個(gè)快速發(fā)掘熱門視頻的系統(tǒng)有非常大的價(jià)值,一方面,熱點(diǎn)推送能快速抓住用戶的眼球,吸引大量網(wǎng)絡(luò)流量,為視頻網(wǎng)站推廣盈利帶來很大的效益;另一方面,擁有大量評(píng)論的熱門視頻能夠?yàn)榫W(wǎng)絡(luò)輿情的研究者提供更多的資源。
網(wǎng)絡(luò)熱點(diǎn)的特點(diǎn)是時(shí)效性強(qiáng),互聯(lián)網(wǎng)每天都將產(chǎn)生新的熱點(diǎn)話題,而這些熱點(diǎn)話題存活的時(shí)間也短,很快網(wǎng)民的注意力會(huì)被新的話題所吸引,經(jīng)過我們的統(tǒng)計(jì),不論視頻播放數(shù)量多高,到第三天,往往新增的播放數(shù)量就下降到比較低的水平,在第七天以后,總播放數(shù)量趨于平穩(wěn),每日播放量增量非常小。所以,熱門視頻要在視頻發(fā)布后一天內(nèi)就發(fā)掘出來進(jìn)行監(jiān)控,排除熱度已經(jīng)下降到一定程度的視頻,預(yù)警可能成為熱點(diǎn)的視頻。
視頻播放量是視頻熱度計(jì)算的重要指標(biāo),對(duì)于視頻分享網(wǎng)站,一方面,因?yàn)橛猩缃灰蛩氐拇嬖?,每個(gè)用戶新上傳的視頻首先會(huì)被推送到每個(gè)粉絲那里,粉絲們也會(huì)經(jīng)常性的收看自己訂閱的帳號(hào)的視頻,因此,我們認(rèn)為一個(gè)帳號(hào)受關(guān)注的程度往往能對(duì)其上傳的視頻熱度產(chǎn)生影響;另一方面,社交網(wǎng)站往往存在熱點(diǎn)話題,多個(gè)相同主題的熱門視頻能夠聚合成熱點(diǎn)話題,那么如果新上傳的視頻與當(dāng)前的熱點(diǎn)話題相關(guān),那會(huì)對(duì)視頻熱度造成影響,所以我們要探究的第二個(gè)影響視頻熱度的因素是話題熱點(diǎn)。
我們?cè)谘芯繋ぬ?hào)與視頻播放量的關(guān)系時(shí),根據(jù)帳號(hào)受歡迎的程度,提出來計(jì)算帳號(hào)的“質(zhì)量”,我們將計(jì)算一個(gè)帳號(hào)的平均總點(diǎn)擊量來判定一個(gè)帳號(hào)的質(zhì)量。計(jì)算公式是:
其中m表示該帳號(hào)的平均總播放量,C表示該帳號(hào)的總播放量,n表示該帳號(hào)的總視頻個(gè)數(shù)。我們對(duì)質(zhì)量較高的帳號(hào)建立“帳號(hào)質(zhì)量庫”。并對(duì)“帳號(hào)質(zhì)量庫”中的賬號(hào)賦予不同的值M。值M表示一個(gè)賬號(hào)的質(zhì)量,經(jīng)過計(jì)算,我們認(rèn)為M值?。?/p>
(3-2)
m是公式3-1中的m值,T表示該帳號(hào)的粉絲數(shù),x為系數(shù),取值需要一定的實(shí)驗(yàn)來確定。由于帳號(hào)質(zhì)量會(huì)隨著時(shí)間變化而變化,我們根據(jù)其變化幅度,認(rèn)為每一個(gè)月更新一次賬號(hào)質(zhì)量庫比較合適。
熱門話題是指一段時(shí)間內(nèi)特別受人關(guān)注的事件,當(dāng)一個(gè)事件成為熱門話題后,如果有新的與該話題有關(guān)的視頻出現(xiàn)時(shí),會(huì)立刻吸引人們的觀看,這樣的視頻是潛在的熱門視頻候選,所以,我們?cè)谟?jì)算熱點(diǎn)的時(shí)候,可以將現(xiàn)有的熱點(diǎn)話題生成一個(gè)庫,話題熱度相應(yīng)的提升視頻熱度。
這里,我們通過在視頻的名稱、標(biāo)簽等文字信息中提取出關(guān)鍵字,使用了基于知網(wǎng)(Hownet)的同義詞詞林[1]來作為我們的聚類詞典,選擇將關(guān)鍵字通過向量空間模型[2]進(jìn)行聚類,使用了增量組合與弱跟蹤器的組合方法[3]作為話題檢測(cè)跟蹤的方法,最后得出話題檢測(cè)的結(jié)果,形成一個(gè)話題熱度表,在熱度表中每一個(gè)話題有對(duì)應(yīng)的熱度P,P是一個(gè)相對(duì)熱度值,P的取值在0~2之間,取0~1時(shí)表示話題熱度有所降低,取1~2時(shí)表示話題熱度有所提高,我們每一次數(shù)據(jù)更新都會(huì)同時(shí)來更新我們的話題熱度表,使其保持熱度準(zhǔn)確性。
在研究視頻的熱度時(shí),我們確定了影響視頻熱度的因素,在視頻網(wǎng)站,視頻播放量是最為明顯的判斷視頻熱度的因素,所以通常將視頻播放量作為視頻熱度計(jì)算的標(biāo)準(zhǔn)。常用的熱度計(jì)算標(biāo)準(zhǔn)是:
1)絕對(duì)熱度
絕對(duì)熱度表示到一時(shí)刻該視頻總的熱度值,其表達(dá)式為:
Ha=xV(3-1)
Ha 表示絕對(duì)熱度值,V 表示視頻點(diǎn)擊量x 表示系數(shù),為簡便,x取 0~1 之間。
2)相對(duì)熱度
由于絕對(duì)熱度只是一個(gè)總量值,不能體現(xiàn)熱度的變化情況,所以我們引入了相對(duì)熱度,其表達(dá)式為:
Hd 表示熱度在一段時(shí)間內(nèi)的變化率,數(shù)值越大,表示該視頻在某一時(shí)間段內(nèi)觀看數(shù)量越多,可以反映出熱度變化的情況;△Ha 表示兩個(gè)時(shí)刻的熱度變化差,△t表示間隔時(shí)間。
通過前面兩節(jié)的分析,我們加入了帳號(hào)質(zhì)量和話題熱度兩個(gè)參數(shù),因?yàn)閹ぬ?hào)質(zhì)量相對(duì)在一定時(shí)間內(nèi)較為固定,所以作為絕對(duì)熱度參數(shù)計(jì)算,而話題熱度在一段時(shí)間內(nèi)變化較為平凡,所以作為相對(duì)熱度參數(shù),那么我們最終的熱度計(jì)算公式為:
其中HOT為熱度值,k為系數(shù),Ha為絕對(duì)熱度值,△t表示間隔時(shí)間,P表示話題熱度值,通過我們的計(jì)算,當(dāng)kM取0到0.1之間,P取0到2之間時(shí),預(yù)測(cè)效果比較好。
我們?cè)O(shè)計(jì)的模型總體框架如圖1所示,分為數(shù)據(jù)采集模塊、話題熱度模塊、熱點(diǎn)發(fā)掘模塊、數(shù)據(jù)顯示模塊。
圖1 ??
6.1 數(shù)據(jù)采集
數(shù)據(jù)采集模塊的核心功能是爬蟲程序,這個(gè)模塊的主要任務(wù)是分析網(wǎng)頁源碼,抓取網(wǎng)頁中有需要的信息,是系統(tǒng)數(shù)據(jù)的主要來源。種子網(wǎng)址指的是爬蟲的起始爬行地址,爬蟲任務(wù)的調(diào)度功能可以根據(jù)不同的需求開始、暫停、終止爬蟲程序,保證多個(gè)爬蟲同時(shí)進(jìn)行。爬蟲每訪問一張頁面,就要對(duì)這張頁面的HTML源碼進(jìn)行分析。將其中有用的數(shù)據(jù)根據(jù)我們的要求保存到數(shù)據(jù)庫中,同時(shí)標(biāo)記已經(jīng)訪問過的網(wǎng)頁,每隔一定時(shí)間進(jìn)行重爬獲取更新數(shù)據(jù)。
6.2 話題計(jì)算
話題計(jì)算模塊根據(jù)前面介紹的中文處理方法,將所有視頻內(nèi)容進(jìn)行話題向量提取,然后通過話題聚類方法計(jì)算出話題的熱度,生成一份“話題熱度表”,話題熱度表包含了近期熱點(diǎn)詞匯,是如果新的視頻的內(nèi)容在話題熱度表中,那么相應(yīng)的會(huì)提升視頻的熱度值,話題熱度表是一個(gè)動(dòng)態(tài)的,通過已有的熱點(diǎn)發(fā)現(xiàn)新的潛在熱門視頻,通過新的視頻關(guān)鍵詞生更新熱點(diǎn)詞匯表,計(jì)算話題的熱度變化。
6.3 熱點(diǎn)發(fā)掘
熱點(diǎn)發(fā)掘模塊的功能就是發(fā)掘新視頻中潛在的可能成為熱門的視頻。新的視頻會(huì)根據(jù)基礎(chǔ)播放數(shù)量、話題熱度、和帳號(hào)質(zhì)量得到一個(gè)初始熱度,然后每過一定的時(shí)間更新視頻的播放數(shù)量,并計(jì)算出其熱度,當(dāng)熱度值達(dá)到我們預(yù)設(shè)的閥值后,就將其列入疑似熱點(diǎn)視頻進(jìn)行跟蹤。
帳號(hào)質(zhì)量庫記錄了帳號(hào)的質(zhì)量,如果新視頻由帳號(hào)質(zhì)量庫的帳號(hào)提供,那么其熱點(diǎn)會(huì)根據(jù)帳號(hào)的熱度值相應(yīng)的提升熱點(diǎn)水平。熱門帳號(hào)庫每月會(huì)自動(dòng)更新一次,來確保帳號(hào)質(zhì)量的可靠性。
6.4 結(jié)果顯示
顯示模塊會(huì)顯示在一段時(shí)間內(nèi)的熱門視頻排行、每個(gè)熱點(diǎn)視頻的詳細(xì)信息。同時(shí)對(duì)疑似熱門視頻進(jìn)行預(yù)警,在結(jié)果顯示模塊體現(xiàn)了所有需要觀察的數(shù)據(jù)。我們可以通過檢索和統(tǒng)計(jì)功能來進(jìn)一步分析熱門視頻的相關(guān)信息。
我們通過對(duì)優(yōu)酷網(wǎng)資訊類欄目新上傳的視頻進(jìn)行四個(gè)小時(shí)的抓取,然后對(duì)抓取的每個(gè)視頻進(jìn)行二十四小時(shí)的跟蹤,同時(shí),我們?cè)O(shè)置一個(gè)對(duì)比組,在不加入話題熱度參數(shù)和帳號(hào)質(zhì)量參數(shù)的情況下進(jìn)行熱度計(jì)算,當(dāng)播放量大于10000時(shí)進(jìn)行預(yù)警。最終實(shí)驗(yàn)得出加入了參數(shù)的熱度計(jì)算在預(yù)測(cè)效率上提高了22%。同時(shí),熱門視頻的召回率為100%,證實(shí)了我們的模型的可靠性和高效性。
本文我們具體討論了帳號(hào)質(zhì)量和話題熱度兩個(gè)影響視頻熱度的因素,通過實(shí)驗(yàn)比較證實(shí)了在熱門視頻發(fā)掘階段這兩個(gè)參數(shù)對(duì)發(fā)掘效率的正面影響。最終我們?cè)O(shè)計(jì)出來的系統(tǒng)能夠有效的進(jìn)行熱門視頻的發(fā)掘,在接下去的工作中,我們可以對(duì)系統(tǒng)進(jìn)行拓展,來滿足更多的需求。
[1]熊德蘭,程菊明,田勝利.基于HowNet的句子褒貶傾向性研究[J].計(jì)算機(jī)工程與應(yīng)用,2008(22):143-145.
[2]姚清耘.基于向量空間模型的中文文本聚類方法的研究[D].上海交通大學(xué),2008.
[3]祁磊.話題檢測(cè)與跟蹤及趨勢(shì)預(yù)測(cè)研究[D].杭州電子科技大學(xué),2014.
TP311.52
A
1009-6434(2016)01-0057-02