亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ARMA模型的在線電視劇流行度預(yù)測(cè)*

        2016-06-13 00:17:19陳春燕呂俊龍
        計(jì)算機(jī)與生活 2016年3期
        關(guān)鍵詞:時(shí)間序列

        陳春燕,張 鈺,?!?biāo),呂俊龍

        1.蚌埠醫(yī)學(xué)院衛(wèi)生管理系,安徽蚌埠2330302.中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥2300003.蚌埠學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,安徽蚌埠233030

        ISSN 1673-9418 CODEN JKYTA8

        Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0425-08

        ?

        基于ARMA模型的在線電視劇流行度預(yù)測(cè)*

        陳春燕1,2,張鈺1,2,常標(biāo)2,呂俊龍3+

        1.蚌埠醫(yī)學(xué)院衛(wèi)生管理系,安徽蚌埠233030
        2.中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,合肥230000
        3.蚌埠學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)系,安徽蚌埠233030

        ISSN 1673-9418 CODEN JKYTA8

        Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(03)-0425-08

        E-mail: fcst@vip.163.com

        http://www.ceaj.org

        Tel: +86-10-89056056

        * The Natural Science Foundation of Anhui Province under Grant No. 1408085QF110 (安徽省自然科學(xué)基金); the Fundamental Research Funds for the Central Universities of China under Grant No. WK0110000042 (中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金); the University Natural Science Foundation of Anhui Province under Grant No. KJ2015B071by (安徽省高等學(xué)校自然科學(xué)研究項(xiàng)目); the University ExcellentYouth Talents FoundationofAnhui Provinceunder Grant No.2010SQRL126(安徽省高等學(xué)校優(yōu)秀青年人才基金).

        Received 2015-05,Accepted 2015-07.

        CNKI網(wǎng)絡(luò)優(yōu)先出版: 2015-08-11, http://www.cnki.net/kcms/detail/11.5602.TP.20150811.1517.003.html

        Key words: autoregressive moving average model; popularity prediction; online teleplays; time series; sharing parameters

        摘要:在線電視劇的迅速普及和發(fā)展,引發(fā)了一個(gè)全新的研究問(wèn)題,即在線電視劇流行度預(yù)測(cè)。電視劇情節(jié)演化的連續(xù)性,使相鄰劇集的流行度序列具有很強(qiáng)的線性相關(guān)性。擴(kuò)展了自回歸滑動(dòng)平均(autoregressive moving average,ARMA)模型。具體地,采用多集單天和多集多天兩種不同的建模策略,使用電視劇之間共享參數(shù)方法進(jìn)行模型參數(shù)估計(jì)。利用均方根誤差(root mean squared error,RMSE)評(píng)價(jià)預(yù)測(cè)方法的準(zhǔn)確性,在大量的真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,上述兩種策略相比于對(duì)比方法,可以使RMSE平均分別降低22.0%和32.3%。關(guān)鍵詞:自回歸滑動(dòng)平均模型;流行度預(yù)測(cè);在線電視??;時(shí)間序列;共享參數(shù)

        1 引言

        近年來(lái),國(guó)內(nèi)網(wǎng)民數(shù)量一直呈上升趨勢(shì),數(shù)量超過(guò)6億,互聯(lián)網(wǎng)的普及率接近50%,各種網(wǎng)絡(luò)應(yīng)用深刻改變著網(wǎng)民的生活。傳統(tǒng)的電視節(jié)目在觀看時(shí)間上使用戶受到了很大的限制,已經(jīng)不能滿足老百姓的日常娛樂(lè)生活。這就促使了許多提供在線電視劇網(wǎng)站的迅速發(fā)展,國(guó)內(nèi)也迅速涌現(xiàn)出了許多視頻網(wǎng)站,如優(yōu)酷、愛(ài)奇藝等。使用網(wǎng)絡(luò)在線觀看電視連續(xù)劇,已經(jīng)成為很多互聯(lián)網(wǎng)用戶的主要娛樂(lè)生活。

        目前國(guó)內(nèi)外的研究多集中在用戶生成內(nèi)容(user generated content,UGC)的流行度的預(yù)測(cè),文獻(xiàn)[1]針對(duì)論壇討論帖的流行度預(yù)測(cè)問(wèn)題,提出了融合多個(gè)動(dòng)態(tài)因素的討論帖流行度預(yù)測(cè)。文獻(xiàn)[2]也是討論在線內(nèi)容的流行度預(yù)測(cè)。文獻(xiàn)[3]提出的方法能夠精確地預(yù)測(cè)在視頻流行度問(wèn)題上各種未知內(nèi)容的影響。

        然而在線電視劇有它固有的特點(diǎn),網(wǎng)站提供電視連續(xù)劇通常不會(huì)一次性更新所有劇集,而是在固定時(shí)間(每天或每周)更新一集或多集。而電視劇更新時(shí)間不同也可能會(huì)吸引不同的觀眾,比如在周末或節(jié)假日更新可能會(huì)吸引更多的上班族和學(xué)生來(lái)觀看。這就引發(fā)了一個(gè)非常實(shí)際的問(wèn)題,如果能夠預(yù)測(cè)在線電視劇的流行度,可以有更廣闊的應(yīng)用前景,如給用戶推薦電視劇[4]、廣告投放[5-6]等。

        若根據(jù)昨天的播放量或前若干天播放量的平均值來(lái)進(jìn)行預(yù)測(cè),則這種方法忽略了電視劇劇情發(fā)展的特點(diǎn)。電視劇的情節(jié)演化是在相鄰集之間,并且有強(qiáng)烈的順序依賴(lài)性,這是典型的時(shí)間序列[7-8]預(yù)測(cè)問(wèn)題。相鄰劇集的流行度有強(qiáng)烈的線性相關(guān)性,本文充分考慮在線電視劇時(shí)間序列的特點(diǎn)和相鄰集之間的線性相關(guān)性,使用自回歸滑動(dòng)平均(autoregressive moving average, ARMA)模型預(yù)測(cè)在線電視劇的流行度。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,此方法預(yù)測(cè)在線電視劇的流行度是非常有效的。

        2 問(wèn)題定義

        網(wǎng)站通常在固定的時(shí)間更新劇集,每天或每周更新一集或多集,本文中約定同一時(shí)間更新的劇集當(dāng)作一集來(lái)處理。觀眾可以在劇集更新后的任意時(shí)間觀看,更新后每一集的觀看量就組成了電視連續(xù)劇的流行度記錄[9]。

        下面介紹本文使用的符號(hào):

        每一部在線電視劇T包括n集,記作T={e1, e1, …,ei,…, en},其中第ei集在時(shí)間戳ti釋放,相鄰兩集的更新時(shí)間間隔記為?t=ti-ti-1。

        取相鄰劇集的更新時(shí)間間隔為一個(gè)單位時(shí)間,劇集更新后每個(gè)單位時(shí)間內(nèi)的觀看量構(gòu)成了每一集的流行度。因此,ei集的流行度可以用如下時(shí)間序列[10]描述,即φi={vi1,vi2},其中vij表示ei在更新后的第j個(gè)單位時(shí)間間隔的流行度。我國(guó)電視劇單位時(shí)間間隔通常為一天,如v21表示第2集在更新后第一天的觀看量。用表1說(shuō)明上述問(wèn)題。

        從表1可以看出,不同的劇集是在不同的時(shí)間戳被更新的,那么不同的劇集ei的流行度記錄時(shí)間序列φi的長(zhǎng)度是不同的。電視劇T的流行度記錄由每一集的流行度構(gòu)成[11],記為?n={φ1,φ2,φi},其中i≤n。

        Table 1   Popularity records of online teleplay表1 一部在線電視劇的流行度記錄

        綜合以上所述,現(xiàn)給出電視劇流行度預(yù)測(cè)問(wèn)題如下:給定在線電視劇T,已經(jīng)發(fā)布了前i集,它的流行度記為?i={φ1,φ2,φi},預(yù)測(cè)目標(biāo)是下一集(即第i+1集)在發(fā)布后的流行度記錄φi+1,φi+1= {vi+1,1,vi+1,2}。

        本文的主要工作是根據(jù)歷史劇集的流行度記錄預(yù)測(cè)即將發(fā)布劇集的流行度。然而電視劇的情節(jié)在相鄰劇集間有密切的相關(guān)性,有強(qiáng)烈的順序特征,符合時(shí)間序列的特征,這種特征可以用自回歸模型很好地表示[12]。因此本文利用相鄰劇集流行度序列的相關(guān)性,使用自回歸滑動(dòng)平均模型ARMA預(yù)測(cè)在線電視劇的流行度。

        3  ARMA模型預(yù)測(cè)流行度

        ARMA流行度預(yù)測(cè)模型考慮了相鄰劇集間流行度序列的依賴(lài)性,利用歷史電視劇流行度數(shù)據(jù)訓(xùn)練模型,訓(xùn)練過(guò)程如算法1所示。算法首先對(duì)歷史電視劇流行度數(shù)據(jù)進(jìn)行預(yù)處理,過(guò)濾流行度數(shù)據(jù)、集數(shù)太少、異常等的電視劇;然后按照“多集單天”或“多集多天”的建模策略,提取相應(yīng)的特征,構(gòu)成原始數(shù)據(jù)矩陣,并使用min-max方法標(biāo)準(zhǔn)化每行數(shù)據(jù);最后根據(jù)第4章介紹的參數(shù)估計(jì)方法訓(xùn)練ARMA模型,得到模型參數(shù)。使用得到的模型便可預(yù)測(cè)流行度。

        算法1 ARMA流行度預(yù)測(cè)模型訓(xùn)練算法

        輸入:歷史電視劇流行度數(shù)據(jù)。

        輸出:ARMA模型參數(shù)。

        (1)歷史電視劇流行度數(shù)據(jù)預(yù)處理;

        (2)根據(jù)第3.1或3.2節(jié)中建模策略提取特征;

        (3)特征數(shù)據(jù)標(biāo)準(zhǔn)化;

        (4)根據(jù)第4章參數(shù)估計(jì)方法訓(xùn)練ARMA模型。

        3.1多集單天ARMA模型

        本文使用ARMA模型[13],在劇集發(fā)布后的第j個(gè)單位時(shí)間間隔內(nèi),利用已經(jīng)更新過(guò)的劇集的流行度去預(yù)測(cè)新劇集的流行度。本文用表2來(lái)進(jìn)一步說(shuō)明,使用相同顏色表示的流行度去預(yù)測(cè)新釋放劇集的流行度,也就是用(v1j, v2j, vi-1, j)去預(yù)測(cè)vij的流行度。具體地說(shuō),如預(yù)測(cè)v41,即第4集在發(fā)布后的第1天的流行度。使用第1、2、3集在發(fā)布后第1天的流行度去預(yù)測(cè),即使用v11、v21和v31來(lái)預(yù)測(cè)v41。

        Table 2  Multiple episodes single day data表2 多集單天使用數(shù)據(jù)

        把每一集在更新后第j個(gè)單位時(shí)間間隔的流行度vij表示為先前p集在更新后第j個(gè)單位時(shí)間間隔的流行度的線性組合,即:

        其中,α是自動(dòng)回歸系數(shù);β是滑動(dòng)平均系數(shù)。誤差項(xiàng)εt假設(shè)是獨(dú)立同分布的隨機(jī)變量,服從均值為0,方差為σ2的正態(tài)分布[14],εtN(0,σ2)。

        式(1)中,模型參數(shù)為w=(α0,α1,αp,1,β1, β, Z=(1,vi-1,j,vi-p,j,εi,εi-1,εi-q)。式(1)可以寫(xiě)成:

        3.2多集多天ARMA模型

        本文使用的方法是在劇集發(fā)布后的第j個(gè)單位時(shí)間間隔內(nèi),利用已更新的劇集的流行度去預(yù)測(cè)即將更新的劇集的流行度。在表2中體現(xiàn)為,預(yù)測(cè)新劇集的流行度只使用相同顏色標(biāo)識(shí)的流行度數(shù)據(jù)。這樣就導(dǎo)致了在新劇集更新前的一部分流行度數(shù)據(jù)被忽略了,而這部分?jǐn)?shù)據(jù)可能會(huì)對(duì)新劇集的流行度也有較大的影響?,F(xiàn)在舉例說(shuō)明,在表3中仍然以預(yù)測(cè)v41為例。第2.1節(jié)中使用的數(shù)據(jù)是第1、2、3集在發(fā)布后第1天的流行度,即v11、v21和v31。但是由于電視連續(xù)劇的劇情在相鄰集之間有強(qiáng)烈的相關(guān)性和順序依賴(lài)特征,對(duì)于v41而言,v11的影響可能不如v22(第2集在更新后第2天的流行度)對(duì)v41的影響效果明顯,而在式(1)中恰恰把v22忽略了。其次,有些用戶由于工作或?qū)W習(xí)的原因沒(méi)在劇集更新后的當(dāng)天觀看,而是等到周末或節(jié)假日劇集已經(jīng)更新過(guò)一段時(shí)間后才觀看,這時(shí)可以同時(shí)觀看網(wǎng)站連續(xù)多天的更新劇集,這部分觀眾或許也是這部電視劇的粉絲。

        本節(jié)預(yù)測(cè)更新劇集的流行度使用的數(shù)據(jù)在表3中進(jìn)行詳細(xì)說(shuō)明。使用被預(yù)測(cè)流行度(紅色標(biāo)識(shí))左上三角區(qū)域的歷史流行度數(shù)據(jù)(藍(lán)色標(biāo)識(shí))來(lái)預(yù)測(cè)。如預(yù)測(cè)v41使用前兩集在v41左上三角的流行度數(shù)據(jù),也就是p=2時(shí),使用v21、v22和v31進(jìn)行計(jì)算。如果令p=3,此時(shí)使用前三集在v41左上三角的流行度數(shù)據(jù),那就是使用6個(gè)數(shù)據(jù),再多加v11、v12和v13。

        Table 3  Multiple episodes multi day data表3 多集多天使用數(shù)據(jù)圖示

        同樣,預(yù)測(cè)第i集在更新后第j個(gè)單位時(shí)間的流行度vij,使用先前p集在其左上三角的流行度數(shù)據(jù)的線性組合,式(1)可以改寫(xiě)為:

        n=1m=1

        其中p, q∈[1, i-1]。把式(3)展開(kāi)即為:

        在式(4)中,模型參數(shù)仍然記為w,w=(α0,α11,α21, α22,α31,α32,α33,1,β11,β21,β22,β31,β32,β33)T,Z=(1, vi-1,j, vi-2,j, vi-2,j+1, vi-3,j, vi-3,j+1,vi-3,j+2,εi,εi-1,j,εi-2,j, εi-2,j+1,εi-3,j,εi-3,j+1,εi-3,j+2)

        基于上述表示,式(4)可以表示為式(2)的形式,即:vij=wTZ

        4  ARMA模型參數(shù)估計(jì)

        為了獲得更好的預(yù)測(cè)結(jié)果,本文使用了共享參數(shù)方法學(xué)習(xí)模型參數(shù)。假定所有在線電視劇有共同的參數(shù),使用共享參數(shù)方法來(lái)學(xué)習(xí)模型的參數(shù)[15]。

        給定一部在線電視劇的訓(xùn)練集T和它的流行度記錄?={φ1,φ2,φs},按照經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化的策略求解參數(shù),即多項(xiàng)式的系數(shù)。損失函數(shù)使用平均相對(duì)平方誤差[16](mean relative squared error,mRSE),即:

        其中vij是電視劇真實(shí)的流行度。使損失函數(shù)L(w)最小化,求解參數(shù)w,即:

        對(duì)w求偏導(dǎo)數(shù)并令其為0,可以求解w,然后得到最優(yōu)解w[17]。

        ARMA參數(shù)估計(jì)算法[18]如下:

        (1)估計(jì)高階AR;

        (2)估計(jì)沒(méi)有被觀察到的噪聲εt;

        (3)回歸vij到vi-1,j, vi-2,j,…,vi-p,j,εi-1,j,εi-2,j,…, εi-q,j;

        (4)再次回歸提高εt的估計(jì)。

        5 實(shí)驗(yàn)

        5.1實(shí)驗(yàn)數(shù)據(jù)

        實(shí)驗(yàn)數(shù)據(jù)是從優(yōu)酷網(wǎng)(http://www.youku.com/)爬取的從2012-05-01至2014-09-08上映的我國(guó)電視劇播放量數(shù)據(jù),網(wǎng)站提供電視劇上映后每集每天的播放量信息,電視劇會(huì)每天更新至少一集。先從電視劇列表頁(yè)(http://www.youku.com/v_olist/c_97.html)獲取待爬取的電視劇IDs,然后根據(jù)IDs構(gòu)造電視劇播放信息所對(duì)應(yīng)的頁(yè)面URL,即優(yōu)酷指數(shù)(http:// index.youku.com/),例如電視劇《古劍奇譚》在優(yōu)酷內(nèi)的ID是z9ffa9418853611e2a19e,所對(duì)應(yīng)的優(yōu)酷指數(shù)頁(yè)面URL是http://index.youku.com/vr_show/showid_ z9ffa9418853611e2a19e.html。過(guò)濾掉集數(shù)比較少的電視劇后,實(shí)驗(yàn)數(shù)據(jù)最終包括211部電視劇,而且電視劇集數(shù)分布如圖1所示。

        從圖1中可以看出,大部分的電視劇在25集到44集之間,并且電視劇通常是每天發(fā)布一集或多集,換句話說(shuō),電視劇的更新頻率是一天。因此在實(shí)驗(yàn)中,設(shè)置電視劇的預(yù)測(cè)單位時(shí)間為一天。

        實(shí)驗(yàn)數(shù)據(jù)所用211部電視劇的觀看量的統(tǒng)計(jì)結(jié)果分別展示在圖2和圖3中。圖2展示了211部電視劇每集在更新后一周內(nèi)的平均觀看量。從圖2中可以看出,不同電視劇的流行趨勢(shì)有很大的差別,只有少數(shù)電視劇的觀看量非常多。因此預(yù)測(cè)在線電視劇的流行度是很有必要的。

        圖3展示了電視劇每集在上映后15天內(nèi)的平均觀看量??梢钥闯龃蠖鄶?shù)觀眾選擇在上映后第一天觀看,從第2天開(kāi)始觀看量驟減,第5天后觀看量的降幅趨于平穩(wěn)。因此在實(shí)驗(yàn)中,預(yù)測(cè)新劇集在上映后7天的觀看量。

        Fig.2  Views of each episode in the first week圖2 每集首周平均播放量

        Fig.3  Average views of every day圖3 單天平均播放量

        5.2對(duì)比方法和評(píng)價(jià)指標(biāo)

        為了評(píng)價(jià)ARMA模型在預(yù)測(cè)電視劇流行度時(shí)的性能,在實(shí)驗(yàn)中與文獻(xiàn)[9]中的樸素自回歸模型(Naive Autoregressive Model,NAR)進(jìn)行比較。

        把ARMA模型分為多集單天和多集多天兩種策略,分別記為ARMA-s和ARMA-m。利用均方根誤差(root mean square error,RMSE)[19]去評(píng)價(jià)流行度預(yù)測(cè)的效果,其定義為:

        其中,Pi為預(yù)測(cè)值;Ri為真實(shí)值;N為測(cè)試集大小。RMSE越小表明流行度預(yù)測(cè)效果越好。

        5.3實(shí)驗(yàn)結(jié)果

        為了降低模型訓(xùn)練的不確定性,利用五折交叉驗(yàn)證來(lái)評(píng)價(jià)模型的性能。通過(guò)實(shí)驗(yàn)證明使用被預(yù)測(cè)劇集前4集的流行度數(shù)據(jù)進(jìn)行預(yù)測(cè),能夠達(dá)到較好的預(yù)測(cè)效果。因此在本文實(shí)驗(yàn)中取p=4。當(dāng)p=4,q取不同值時(shí),ARMA-s和ARMA-m方法的均方根誤差RMSE如圖4所示。

        從圖4中可以看出,取不同q值時(shí),ARMA-s方法均方根誤差基本穩(wěn)定;當(dāng)q<6時(shí)ARMA-m方法的均方根誤差比較大,當(dāng)q≥6時(shí)均方根誤差趨于穩(wěn)定??傊?,當(dāng)p=4,q取6時(shí)可以達(dá)到比較好的預(yù)測(cè)效果,使用更多的信息(q>6)并不意味著更好的效果。

        Fig.4  RMSE graph with different q圖4 不同q時(shí)RMSE曲線圖

        對(duì)本文方法與文獻(xiàn)[9]中的NAR方法進(jìn)行比較。NAR方法使用先前3集的觀看量可以達(dá)到較好的預(yù)測(cè)效果,ARMA使用先前4集的流行度數(shù)據(jù)可以達(dá)到較好的預(yù)測(cè)效果。預(yù)測(cè)新劇集在播放后7天的播放量,均方根誤差詳細(xì)的比較結(jié)果展示在圖5中。

        Fig.5  RMSE graph with different algorithms圖5 不同算法的RMSE圖

        從圖5中可以看出,ARMA-s和ARMA-m比NAR預(yù)測(cè)效果要好,有較低的RMSE,可以使RMSE平均分別降低22.0%和32.3%。特別是在第4天時(shí),ARMA-s方法的均方根誤差比NAR方法降低了29.8%,ARMA-m方法的均方根誤差比NAR方法降低了48.3%??傮w來(lái)說(shuō),ARMA模型的多集單天和多集多天策略的預(yù)測(cè)效果要比NAR方法好。從圖5中也可以看出,預(yù)測(cè)第一天時(shí)ARMA-s方法的RMSE要比ARMA-m方法低,而從第二天開(kāi)始ARMA-m方法的效果要比ARMA-s好。這是因?yàn)榈谝惶斓牟シ乓?guī)律不明顯,ARMA-m使用多集多天的信息太多,所以效果不好;在第二天以后播放量變化規(guī)律明顯,所以使用多集多天的效果更好。新劇集隨著發(fā)布時(shí)間的推移,播放量的變化規(guī)律逐漸變得明顯。因此隨著時(shí)間的推移,RMSE也逐漸降低,并且在第4天后趨于穩(wěn)定。

        為了更好地說(shuō)明模型預(yù)測(cè)流行度的效果,圖6給出了使用ARMA-m模型(其中p=4,q=6)預(yù)測(cè)電視劇“產(chǎn)科男醫(yī)生”每次更新后第一天播放量的示例。此電視劇周一到周五每次更新3集,周六至周日更新兩集,把每次更新的劇集的播放量平均值作為此次更新的播放量。從圖6中可以看出,ARMA-m模型可以準(zhǔn)確地預(yù)測(cè)每次更新劇集第一天的平均播放量,驗(yàn)證了方法的有效性。

        Fig.6  ARMA-m predciting example圖6  ARMA-m預(yù)測(cè)示例

        6 結(jié)束語(yǔ)

        在線電視劇的流行度相鄰集之間有強(qiáng)烈的線性相關(guān)性,本文采用多集單天和多集多天兩種不同的建模策略擴(kuò)展了ARMA模型,通過(guò)已更新劇集的流行度預(yù)測(cè)即將更新的新劇集的流行度。與傳統(tǒng)方法相比,預(yù)測(cè)結(jié)果更具有準(zhǔn)確性和參考價(jià)值。在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果也表明,實(shí)際預(yù)測(cè)效果非常好,精度較高,與電視劇的實(shí)際觀看量非常接近??傊?,使用ARMA模型預(yù)測(cè)在線電視劇的流行度,實(shí)驗(yàn)表明此方法是非常有效的。未來(lái)可以探索融入其他數(shù)據(jù),如評(píng)論、搜索量等,進(jìn)一步提高預(yù)測(cè)精度。

        References:

        [1] Kong Qingchao, Mao Wenji. Predicting popularity of forum threads based on dynamic evolution[J]. Journal of Software, 2014, 25(12): 2767-2776.

        [2] Szabo G, Huberman B A. Predicting the popularity of online content[J]. Communication of the ACM, 2010, 53(8): 80-88.

        [3] Borghol Y, Ardon S, Carlsson N, et al. The untold story of the clones: content-agnostic factors that impact YouTuBe video popularity[C]//Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery in Database, Beijing, China, Aug 12-16, 2012. New York, USA: ACM, 2012: 1186-1194.

        [4] Yin Peifeng, Luo Ping, Wang Min, et al. A straw shows which way the wind blows: ranking potentially popular items from early votes[C]//Proceedings of the 5th ACM International Conference on Web Search and Data Mining, Seattle, USA, Feb 8-12, 2012. New York, USA:ACM, 2012: 623-632.

        [5] Himabindu L, Jitendra A. Attention prediction on social media brand pages[C]//Proceedings of the 20th ACM International Conference on Information and Knowledge Management, Glasgow, England, Oct 24-28, 2011. New York, USA: ACM, 2011: 2157-2160.

        [6] Ahmed M, Spagna S, Huici F. A peek into the future: predicting the evolution of popularity in user generated content [C]//Proceedings of the 6th ACM International Conference on Web Search and Data Mining, Rome, Italy, Feb 4- 8, 2013. New York, USA:ACM, 2013: 607-616.

        [7] Han J W, Kamber M. Data mining: concepts and techniques [M]. Fan Ming, Meng Xiaofeng, translated. 2nd ed. Beijing: China Machine Press, 2007: 306-345.

        [8] Yu Yufeng, Zhu Yuelong, Wan Dingsheng, et al. Time series outlier detection based on sliding windows prediction[J]. Journal of Computer Applications, 2014, 34(8): 2217-2220.

        [9] Chang Biao, Zhu Hengshu, Ge Yong, et al. Predicting the popularity of online serials with autoregressive models[C]// Proceedings of the 2014 International Conference on Information and Knowledge Management, Shanghai, China, Nov 3-7, 2014. New York, USA:ACM, 2014: 1339-1348.

        [10] Zhang Dengyi, Ouyang Chufei, Wu Wenli. Cluster-based hidden Markov model in time series multi-step prediction[J]. Chinese Journal Electronics, 2014, 42(12): 2359-2364.

        [11] Figueiredo F, Almeida J M, Benevenuto F, et al. Does content determine information popularity in social media?[C]// Proceedings of the 2014 ACM Conference on Human Factors in Computing Systems, Toronto, Canada, Apr 26-27, 2014. New York, USA:ACM, 2014: 979-982.

        [12] Lütkepohl H. New introduction to multiple time series analysis[M]. New York: Springer Press, 2007: 447-491.

        [13] Autoregressive-moving-average model[EB/OL].[2014-12-20]. http://en.wikipedia.org/wiki/Autoregressive%E2%80%93 moving-average_model.

        [14] Barnard R W. Trindade AA, Wickramasinghe R I P. Autoregressive moving average models under exponential power distributions[J]. ProbStat Forum, 2014, 7: 65-77.

        [15] Merabti H, Massicotte D. FPGA based implementation of a genetic algorithm for ARMA model parameters identification[C]//Proceedings of the 2014 International Conference on Great Lakes Symposium on VLSI Systems, Houston, USA, May 21-23, 2014. New York, USA:ACM, 2014: 95-96.

        [16] Pinto H, Almeida J, Gon?alves M A. Using early patterns to predict the popularity of YouTuBe videos[C]//Proceedings of the 6th ACM International Conference on Web Search and Data Mining, Rome, Italy, Feb 4-8, 2013. New York, USA:ACM, 2013: 365-374.

        [17] Murphy K P. Machine learning: a probabilistic perspective [M]. Boston: MIT Press, 2012: 217-244.

        [18] Hannan E J, Rissanen J. Recursive estimation of mixed autoregressive moving average order[J]. Biometrika, 1982, 69 (1): 81-94.

        [19] Bishop C M. Pattern recognition and machine learning[M]. New York: Springer Press, 2006: 179-224.

        附中文參考文獻(xiàn):

        [1]孔慶超,毛文吉.基于動(dòng)態(tài)演化的討論帖流行度預(yù)測(cè)[J].軟件學(xué)報(bào), 2014, 25(12): 2767-2776.

        [7] Han J W, Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].范明,孟小峰,譯. 2版.北京:機(jī)械工業(yè)出版社, 2007: 306-345.

        [8]余宇峰,朱躍龍,萬(wàn)定生,等.基于滑動(dòng)窗口的水文時(shí)間序列異常監(jiān)測(cè)[J].計(jì)算機(jī)應(yīng)用, 2014, 34(8): 2217-2220.

        [10]章登義,歐陽(yáng)黜霏,吳文李.針對(duì)時(shí)間序列多步預(yù)測(cè)的聚類(lèi)隱馬爾科夫模型[J].電子學(xué)報(bào), 2014, 42(12): 2359-2364.

        CHEN Chunyan was born in 1981. She received the M.S. degree in computer applications from Jiangnan University in 2008. Now she is a lecturer at Bengbu Medical College. Her research interests include data mining and machine learning, etc.陳春燕(1981—),女,安徽蚌埠人,2008年于江南大學(xué)計(jì)算機(jī)應(yīng)用專(zhuān)業(yè)獲得碩士學(xué)位,現(xiàn)為蚌埠醫(yī)學(xué)院講師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,機(jī)器學(xué)習(xí)等。

        ZHANG Yu was born in 1979. She received the M.S. degree in computer applications from Hefei University of Technology. Now she is a lecturer at Bengbu Medical College. Her research interests include data mining and pattern recognition, etc.張鈺(1979—),女,安徽蚌埠人,2012年于合肥工業(yè)大學(xué)計(jì)算機(jī)應(yīng)用專(zhuān)業(yè)獲得碩士學(xué)位,現(xiàn)為蚌埠醫(yī)學(xué)院講師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,模式識(shí)別等。

        CHANG Biao was born in 1990. He is a Ph.D. candidate at University of Science and Technology of China. His research interests include pattern recognition and machine learning, etc.常標(biāo)(1990—),男,安徽阜陽(yáng)人,中國(guó)科學(xué)技術(shù)大學(xué)計(jì)算機(jī)應(yīng)用技術(shù)博士研究生,主要研究領(lǐng)域?yàn)槟J阶R(shí)別,機(jī)器學(xué)習(xí)等。

        LV Junlong was born in 1979. He received the M.S. degree in control theory and engineering from Jiangsu University in 2010. Now he is a lecturer at Bengbu College. His research interests include data mining and machine learning, etc.呂俊龍(1979—),男,安徽蚌埠人,2010年于江蘇大學(xué)控制理論與控制工程專(zhuān)業(yè)獲得碩士學(xué)位,現(xiàn)為蚌埠學(xué)院講師,主要研究領(lǐng)域?yàn)閿?shù)據(jù)挖掘,機(jī)器學(xué)習(xí)等。

        Predicting Popularity of Online Teleplays with ARMAModels?

        CHEN Chunyan1,2, ZHANG Yu1,2, CHANG Biao2, LV Junlong3+
        1. Department of Health Management, Bengbu Medical College, Bengbu,Anhui 233030, China
        2. School of Computer Science and Technology, University of Science and Technology of China, Hefei 230000, China
        3. Department of Computer Science and Technology, Bengbu College, Bengbu,Anhui 233030, China
        + Corresponding author: E-mail: ccyljl@126.com

        CHEN Chunyan, ZHANG Yu, CHANG Biao, et al. Predicting popularity of online teleplays with ARMA models. Journal of Frontiers of Computer Science and Technology, 2016, 10(3): 425-432.

        Abstract:With the rapid prevalence and development of online TV series (or teleplays), there is a novel research problem, predicting the popularity of online teleplays. The continuity of teleplay plots makes the popularity of adjacent episodes have a strong correlation. This paper extends the classical autoregressive moving average (ARMA) model. Specifically, this paper considers two modeling strategies, namely multiple episodes and single day, and multiple episodes and multiple days. Both of them use the sharing parameter method to estimate the model parameters. This paper applies the root mean squared error (RMSE) as the evaluation measure, many experiments on a real-world dataset show that the above two strategies can reduce RMSE by 22.0% and 32.3% respectively.

        doi:10.3778/j.issn.1673-9418.1505053

        文獻(xiàn)標(biāo)志碼:A

        中圖分類(lèi)號(hào):TP181

        猜你喜歡
        時(shí)間序列
        基于分布式架構(gòu)的時(shí)間序列局部相似檢測(cè)算法
        基于嵌入式向量和循環(huán)神經(jīng)網(wǎng)絡(luò)的用戶行為預(yù)測(cè)方法
        醫(yī)學(xué)時(shí)間序列中混沌現(xiàn)象的初步研究
        科技視界(2016年26期)2016-12-17 17:12:56
        基于時(shí)間序列分析南京市二手房的定價(jià)模型
        云南銀行產(chǎn)業(yè)集聚與地區(qū)經(jīng)濟(jì)增長(zhǎng)研究
        基于Eviews上證綜合指數(shù)預(yù)測(cè)
        上證綜指收益率的影響因素分析
        基于指數(shù)平滑的電站設(shè)備故障時(shí)間序列預(yù)測(cè)研究
        基于時(shí)間序列的我國(guó)人均GDP分析與預(yù)測(cè)
        商(2016年32期)2016-11-24 16:20:57
        基于線性散列索引的時(shí)間序列查詢(xún)方法研究
        軟件工程(2016年8期)2016-10-25 15:43:57
        av在线不卡一区二区| 国产精品无码片在线观看| 国产日韩AV无码免费一区二区 | 性高朝久久久久久久3小时| 国产精品自在线拍国产手机版| 欧美日韩国产综合aⅴ| 日韩av他人妻中文字幕| 久久精品国产91精品亚洲| 亚洲av无码一区二区三区观看| 日本视频中文字幕一区在线| 亚洲最黄视频一区二区| 蜜桃av噜噜一区二区三区策驰| 国产女厕偷窥系列在线视频| 久久天天躁狠狠躁夜夜2020!| 色青青女同性恋视频日本熟女 | 日韩少妇人妻一区二区| 日本护士口爆吞精视频| 日韩人妻无码精品久久| www插插插无码视频网站| 国产91精品清纯白嫩| 国产人成视频在线视频| 国产在线视频一区二区三区| 神马不卡一区二区三级| 一本色道精品亚洲国产一区| 久久久噜噜噜久久| 秒播无码国产在线观看| 黑人一区二区三区啪啪网站| 蜜桃精品人妻一区二区三区| 日韩制服国产精品一区| 999久久66久6只有精品| 男人的精品天堂一区二区在线观看| 欧美大片aaaaa免费观看| 亚洲男人天堂2019| 中文字幕人妻少妇久久| 色翁荡熄又大又硬又粗又动态图 | 精品厕所偷拍一区二区视频| 中文国产日韩欧美二视频| 国产亚洲日本人在线观看| 色综合悠悠88久久久亚洲| 又大又粗又爽18禁免费看| 青春草国产视频|