亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        視頻網(wǎng)站熱門視頻快速發(fā)掘系統(tǒng)

        2016-10-14 01:49:21姜明朱開誠王興起
        移動(dòng)信息 2016年1期
        關(guān)鍵詞:帳號(hào)爬蟲熱門

        姜明 朱開誠 王興起

        ?

        視頻網(wǎng)站熱門視頻快速發(fā)掘系統(tǒng)

        姜明 朱開誠 王興起

        杭州電子科技大學(xué),浙江 杭州 310018

        隨著互聯(lián)網(wǎng)視頻網(wǎng)站的蓬勃發(fā)展,觀看網(wǎng)絡(luò)視頻已經(jīng)成為了廣大網(wǎng)民日常生活的一部分。熱門視頻能夠?yàn)榫W(wǎng)站帶來巨大流量和經(jīng)濟(jì)效益。因此,如何快速發(fā)掘熱門視頻是一個(gè)新的研究熱點(diǎn)。根據(jù)中國最大的視頻分享網(wǎng)站優(yōu)酷網(wǎng)的特點(diǎn),分析了影響熱點(diǎn)視頻的因素,在常規(guī)的熱點(diǎn)視頻發(fā)掘方法上加入了賬號(hào)質(zhì)量和話題熱度這兩個(gè)熱度計(jì)算參數(shù),根據(jù)這兩個(gè)參數(shù)設(shè)計(jì)了一個(gè)熱點(diǎn)視頻快速發(fā)掘系統(tǒng),并通過性能測(cè)驗(yàn)證實(shí)了相比于傳統(tǒng)方法該系統(tǒng)能夠有效提高熱點(diǎn)視頻的發(fā)掘效率。

        視頻網(wǎng)站;互聯(lián)網(wǎng)

        1 研究背景和現(xiàn)狀

        隨著互聯(lián)網(wǎng)各大視頻網(wǎng)站的發(fā)展,觀看網(wǎng)絡(luò)視頻已經(jīng)成為了中國網(wǎng)民日常生活的一部分。互聯(lián)網(wǎng)每天有數(shù)萬新視頻發(fā)布,視頻的播放量達(dá)到一定量就成了熱門視頻。熱門視頻是網(wǎng)民的關(guān)注點(diǎn),往往會(huì)與網(wǎng)絡(luò)熱點(diǎn)事件相關(guān)。因此,設(shè)計(jì)一個(gè)快速發(fā)掘熱門視頻的系統(tǒng)有非常大的價(jià)值,一方面,熱點(diǎn)推送能快速抓住用戶的眼球,吸引大量網(wǎng)絡(luò)流量,為視頻網(wǎng)站推廣盈利帶來很大的效益;另一方面,擁有大量評(píng)論的熱門視頻能夠?yàn)榫W(wǎng)絡(luò)輿情的研究者提供更多的資源。

        2 視頻熱度

        網(wǎng)絡(luò)熱點(diǎn)的特點(diǎn)是時(shí)效性強(qiáng),互聯(lián)網(wǎng)每天都將產(chǎn)生新的熱點(diǎn)話題,而這些熱點(diǎn)話題存活的時(shí)間也短,很快網(wǎng)民的注意力會(huì)被新的話題所吸引,經(jīng)過我們的統(tǒng)計(jì),不論視頻播放數(shù)量多高,到第三天,往往新增的播放數(shù)量就下降到比較低的水平,在第七天以后,總播放數(shù)量趨于平穩(wěn),每日播放量增量非常小。所以,熱門視頻要在視頻發(fā)布后一天內(nèi)就發(fā)掘出來進(jìn)行監(jiān)控,排除熱度已經(jīng)下降到一定程度的視頻,預(yù)警可能成為熱點(diǎn)的視頻。

        視頻播放量是視頻熱度計(jì)算的重要指標(biāo),對(duì)于視頻分享網(wǎng)站,一方面,因?yàn)橛猩缃灰蛩氐拇嬖?,每個(gè)用戶新上傳的視頻首先會(huì)被推送到每個(gè)粉絲那里,粉絲們也會(huì)經(jīng)常性的收看自己訂閱的帳號(hào)的視頻,因此,我們認(rèn)為一個(gè)帳號(hào)受關(guān)注的程度往往能對(duì)其上傳的視頻熱度產(chǎn)生影響;另一方面,社交網(wǎng)站往往存在熱點(diǎn)話題,多個(gè)相同主題的熱門視頻能夠聚合成熱點(diǎn)話題,那么如果新上傳的視頻與當(dāng)前的熱點(diǎn)話題相關(guān),那會(huì)對(duì)視頻熱度造成影響,所以我們要探究的第二個(gè)影響視頻熱度的因素是話題熱點(diǎn)。

        3 帳號(hào)質(zhì)量

        我們?cè)谘芯繋ぬ?hào)與視頻播放量的關(guān)系時(shí),根據(jù)帳號(hào)受歡迎的程度,提出來計(jì)算帳號(hào)的“質(zhì)量”,我們將計(jì)算一個(gè)帳號(hào)的平均總點(diǎn)擊量來判定一個(gè)帳號(hào)的質(zhì)量。計(jì)算公式是:

        其中m表示該帳號(hào)的平均總播放量,C表示該帳號(hào)的總播放量,n表示該帳號(hào)的總視頻個(gè)數(shù)。我們對(duì)質(zhì)量較高的帳號(hào)建立“帳號(hào)質(zhì)量庫”。并對(duì)“帳號(hào)質(zhì)量庫”中的賬號(hào)賦予不同的值M。值M表示一個(gè)賬號(hào)的質(zhì)量,經(jīng)過計(jì)算,我們認(rèn)為M值?。?/p>

        (3-2)

        m是公式3-1中的m值,T表示該帳號(hào)的粉絲數(shù),x為系數(shù),取值需要一定的實(shí)驗(yàn)來確定。由于帳號(hào)質(zhì)量會(huì)隨著時(shí)間變化而變化,我們根據(jù)其變化幅度,認(rèn)為每一個(gè)月更新一次賬號(hào)質(zhì)量庫比較合適。

        4 熱門話題

        熱門話題是指一段時(shí)間內(nèi)特別受人關(guān)注的事件,當(dāng)一個(gè)事件成為熱門話題后,如果有新的與該話題有關(guān)的視頻出現(xiàn)時(shí),會(huì)立刻吸引人們的觀看,這樣的視頻是潛在的熱門視頻候選,所以,我們?cè)谟?jì)算熱點(diǎn)的時(shí)候,可以將現(xiàn)有的熱點(diǎn)話題生成一個(gè)庫,話題熱度相應(yīng)的提升視頻熱度。

        這里,我們通過在視頻的名稱、標(biāo)簽等文字信息中提取出關(guān)鍵字,使用了基于知網(wǎng)(Hownet)的同義詞詞林[1]來作為我們的聚類詞典,選擇將關(guān)鍵字通過向量空間模型[2]進(jìn)行聚類,使用了增量組合與弱跟蹤器的組合方法[3]作為話題檢測(cè)跟蹤的方法,最后得出話題檢測(cè)的結(jié)果,形成一個(gè)話題熱度表,在熱度表中每一個(gè)話題有對(duì)應(yīng)的熱度P,P是一個(gè)相對(duì)熱度值,P的取值在0~2之間,取0~1時(shí)表示話題熱度有所降低,取1~2時(shí)表示話題熱度有所提高,我們每一次數(shù)據(jù)更新都會(huì)同時(shí)來更新我們的話題熱度表,使其保持熱度準(zhǔn)確性。

        5 熱度計(jì)算

        在研究視頻的熱度時(shí),我們確定了影響視頻熱度的因素,在視頻網(wǎng)站,視頻播放量是最為明顯的判斷視頻熱度的因素,所以通常將視頻播放量作為視頻熱度計(jì)算的標(biāo)準(zhǔn)。常用的熱度計(jì)算標(biāo)準(zhǔn)是:

        1)絕對(duì)熱度

        絕對(duì)熱度表示到一時(shí)刻該視頻總的熱度值,其表達(dá)式為:

        Ha=xV(3-1)

        Ha 表示絕對(duì)熱度值,V 表示視頻點(diǎn)擊量x 表示系數(shù),為簡便,x取 0~1 之間。

        2)相對(duì)熱度

        由于絕對(duì)熱度只是一個(gè)總量值,不能體現(xiàn)熱度的變化情況,所以我們引入了相對(duì)熱度,其表達(dá)式為:

        Hd 表示熱度在一段時(shí)間內(nèi)的變化率,數(shù)值越大,表示該視頻在某一時(shí)間段內(nèi)觀看數(shù)量越多,可以反映出熱度變化的情況;△Ha 表示兩個(gè)時(shí)刻的熱度變化差,△t表示間隔時(shí)間。

        通過前面兩節(jié)的分析,我們加入了帳號(hào)質(zhì)量和話題熱度兩個(gè)參數(shù),因?yàn)閹ぬ?hào)質(zhì)量相對(duì)在一定時(shí)間內(nèi)較為固定,所以作為絕對(duì)熱度參數(shù)計(jì)算,而話題熱度在一段時(shí)間內(nèi)變化較為平凡,所以作為相對(duì)熱度參數(shù),那么我們最終的熱度計(jì)算公式為:

        其中HOT為熱度值,k為系數(shù),Ha為絕對(duì)熱度值,△t表示間隔時(shí)間,P表示話題熱度值,通過我們的計(jì)算,當(dāng)kM取0到0.1之間,P取0到2之間時(shí),預(yù)測(cè)效果比較好。

        6 模型設(shè)計(jì)

        我們?cè)O(shè)計(jì)的模型總體框架如圖1所示,分為數(shù)據(jù)采集模塊、話題熱度模塊、熱點(diǎn)發(fā)掘模塊、數(shù)據(jù)顯示模塊。

        圖1 ??

        6.1 數(shù)據(jù)采集

        數(shù)據(jù)采集模塊的核心功能是爬蟲程序,這個(gè)模塊的主要任務(wù)是分析網(wǎng)頁源碼,抓取網(wǎng)頁中有需要的信息,是系統(tǒng)數(shù)據(jù)的主要來源。種子網(wǎng)址指的是爬蟲的起始爬行地址,爬蟲任務(wù)的調(diào)度功能可以根據(jù)不同的需求開始、暫停、終止爬蟲程序,保證多個(gè)爬蟲同時(shí)進(jìn)行。爬蟲每訪問一張頁面,就要對(duì)這張頁面的HTML源碼進(jìn)行分析。將其中有用的數(shù)據(jù)根據(jù)我們的要求保存到數(shù)據(jù)庫中,同時(shí)標(biāo)記已經(jīng)訪問過的網(wǎng)頁,每隔一定時(shí)間進(jìn)行重爬獲取更新數(shù)據(jù)。

        6.2 話題計(jì)算

        話題計(jì)算模塊根據(jù)前面介紹的中文處理方法,將所有視頻內(nèi)容進(jìn)行話題向量提取,然后通過話題聚類方法計(jì)算出話題的熱度,生成一份“話題熱度表”,話題熱度表包含了近期熱點(diǎn)詞匯,是如果新的視頻的內(nèi)容在話題熱度表中,那么相應(yīng)的會(huì)提升視頻的熱度值,話題熱度表是一個(gè)動(dòng)態(tài)的,通過已有的熱點(diǎn)發(fā)現(xiàn)新的潛在熱門視頻,通過新的視頻關(guān)鍵詞生更新熱點(diǎn)詞匯表,計(jì)算話題的熱度變化。

        6.3 熱點(diǎn)發(fā)掘

        熱點(diǎn)發(fā)掘模塊的功能就是發(fā)掘新視頻中潛在的可能成為熱門的視頻。新的視頻會(huì)根據(jù)基礎(chǔ)播放數(shù)量、話題熱度、和帳號(hào)質(zhì)量得到一個(gè)初始熱度,然后每過一定的時(shí)間更新視頻的播放數(shù)量,并計(jì)算出其熱度,當(dāng)熱度值達(dá)到我們預(yù)設(shè)的閥值后,就將其列入疑似熱點(diǎn)視頻進(jìn)行跟蹤。

        帳號(hào)質(zhì)量庫記錄了帳號(hào)的質(zhì)量,如果新視頻由帳號(hào)質(zhì)量庫的帳號(hào)提供,那么其熱點(diǎn)會(huì)根據(jù)帳號(hào)的熱度值相應(yīng)的提升熱點(diǎn)水平。熱門帳號(hào)庫每月會(huì)自動(dòng)更新一次,來確保帳號(hào)質(zhì)量的可靠性。

        6.4 結(jié)果顯示

        顯示模塊會(huì)顯示在一段時(shí)間內(nèi)的熱門視頻排行、每個(gè)熱點(diǎn)視頻的詳細(xì)信息。同時(shí)對(duì)疑似熱門視頻進(jìn)行預(yù)警,在結(jié)果顯示模塊體現(xiàn)了所有需要觀察的數(shù)據(jù)。我們可以通過檢索和統(tǒng)計(jì)功能來進(jìn)一步分析熱門視頻的相關(guān)信息。

        7 性能測(cè)驗(yàn)

        我們通過對(duì)優(yōu)酷網(wǎng)資訊類欄目新上傳的視頻進(jìn)行四個(gè)小時(shí)的抓取,然后對(duì)抓取的每個(gè)視頻進(jìn)行二十四小時(shí)的跟蹤,同時(shí),我們?cè)O(shè)置一個(gè)對(duì)比組,在不加入話題熱度參數(shù)和帳號(hào)質(zhì)量參數(shù)的情況下進(jìn)行熱度計(jì)算,當(dāng)播放量大于10000時(shí)進(jìn)行預(yù)警。最終實(shí)驗(yàn)得出加入了參數(shù)的熱度計(jì)算在預(yù)測(cè)效率上提高了22%。同時(shí),熱門視頻的召回率為100%,證實(shí)了我們的模型的可靠性和高效性。

        8 總結(jié)

        本文我們具體討論了帳號(hào)質(zhì)量和話題熱度兩個(gè)影響視頻熱度的因素,通過實(shí)驗(yàn)比較證實(shí)了在熱門視頻發(fā)掘階段這兩個(gè)參數(shù)對(duì)發(fā)掘效率的正面影響。最終我們?cè)O(shè)計(jì)出來的系統(tǒng)能夠有效的進(jìn)行熱門視頻的發(fā)掘,在接下去的工作中,我們可以對(duì)系統(tǒng)進(jìn)行拓展,來滿足更多的需求。

        [1]熊德蘭,程菊明,田勝利.基于HowNet的句子褒貶傾向性研究[J].計(jì)算機(jī)工程與應(yīng)用,2008(22):143-145.

        [2]姚清耘.基于向量空間模型的中文文本聚類方法的研究[D].上海交通大學(xué),2008.

        [3]祁磊.話題檢測(cè)與跟蹤及趨勢(shì)預(yù)測(cè)研究[D].杭州電子科技大學(xué),2014.

        TP311.52

        A

        1009-6434(2016)01-0057-02

        猜你喜歡
        帳號(hào)爬蟲熱門
        “賬號(hào)”不是“帳號(hào)”
        利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
        基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
        利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
        大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
        電子制作(2017年9期)2017-04-17 03:00:46
        熱門智能手機(jī)應(yīng)用
        海外星云(2016年7期)2016-12-01 04:18:00
        瘋狂猜圖
        家庭百事通(2016年5期)2016-05-06 20:48:31
        專家支招4類網(wǎng)上帳號(hào)最易被盜
        電腦無法共享收看節(jié)目故障排除一例
        2009年熱門特色風(fēng)味小吃
        一二三四日本中文在线| 国产自产自现在线视频地址| 久久久噜噜噜噜久久熟女m| 一区在线视频免费播放| 午夜性色一区二区三区不卡视频| 国产激情精品一区二区三区| 加勒比黑人在线| 国产精品不卡免费版在线观看| 日本一二三四区在线观看| 亚洲综合网站久久久| 免费看泡妞视频app| 精品免费一区二区三区在| 一区=区三区国产视频| 亚洲国产性夜夜综合另类| 51看片免费视频在观看| 免费无码成人av在线播放不卡| 久久精品国产久精国产69| 亚洲中文字幕在线第六区| 久久国产劲爆∧v内射| 久久久日韩精品一区二区三区| 国产在线无码免费视频2021| 国产精品国产三级在线专区| 亚洲国产丝袜久久久精品一区二区 | 在线观看免费视频发布白白色| 国产自拍偷拍精品视频在线观看| 国产午夜福利久久精品| 日本在线观看| 日韩精品有码中文字幕在线| 水蜜桃在线精品视频网| 成人免费a级毛片| 亚洲国产精品尤物yw在线观看| 国产一区二区精品av| 一区二区三区四区草逼福利视频| 最新日本一道免费一区二区 | 亚洲国产综合在线亚洲区亚洲av| 全免费a敌肛交毛片免费| 乌克兰少妇xxxx做受6| 日本久久一区二区三区高清| 国产精品美女久久久网站三级| 久久久久无码精品国产app| 亚洲中文字幕在线爆乳|