亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于回歸模型的流行電視劇數(shù)據(jù)分析

        2017-11-20 14:53:46王一鳴
        電腦知識(shí)與技術(shù) 2017年25期
        關(guān)鍵詞:電視劇數(shù)據(jù)挖掘

        王一鳴

        摘要:為了探究不同電視劇數(shù)據(jù)之間的關(guān)系,發(fā)現(xiàn)出這些數(shù)據(jù)背后的價(jià)值,該文基于一元線性回歸模型,使用從中國(guó)網(wǎng)絡(luò)視頻指數(shù)、愛奇藝指數(shù)、央視索福瑞等權(quán)威網(wǎng)站獲取的多部熱播電視劇的點(diǎn)擊量、收視率等數(shù)據(jù),建立模型并進(jìn)行分析。最終發(fā)現(xiàn)電視劇相鄰兩集之間的收視率存在著一元非線性的關(guān)系,而單集電視劇的點(diǎn)擊量與評(píng)論數(shù)存在著一元線性關(guān)系,同時(shí)單集電視劇的收視率隨集數(shù)增大而緩慢上升,點(diǎn)擊量則迅速下降,最后該文對(duì)此結(jié)果做出了分析并提出一些合理的建議。

        關(guān)鍵詞:數(shù)據(jù)挖掘;電視?。灰辉€性回歸模型

        中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)25-0235-04

        近幾年中,各個(gè)領(lǐng)域都出現(xiàn)了大規(guī)模的數(shù)據(jù)增長(zhǎng),數(shù)據(jù)的蓬勃發(fā)展在社會(huì)經(jīng)濟(jì)和科學(xué)研究方面具有前所未有的推動(dòng)作用,對(duì)挖掘潛在于數(shù)據(jù)背后的價(jià)值具有重要的意義。前幾日剛開始播出的電視劇《楚喬傳》,以其上線20分鐘點(diǎn)擊量破億的佳績(jī)轟動(dòng)全網(wǎng)。但其實(shí)這并不是國(guó)產(chǎn)電視劇第一次有如此出色的表現(xiàn)了,從最早的《還珠格格》到之前的《三生三世十里桃花》,都曾創(chuàng)造過驚人的數(shù)據(jù),那么,這些數(shù)據(jù)背后是否存在著某種關(guān)系呢?

        在此之前,陳春燕教授等人的文章《基于ARMA模型的在線電視劇流行度預(yù)測(cè)》和毋世曉教授等人的文章《基于時(shí)序分析的視頻點(diǎn)擊量預(yù)測(cè)》中,都采用時(shí)序分析的方法來預(yù)測(cè)未來電視劇的走向,本文也采用了相關(guān)的思想。此外,本文將在他們研究的基礎(chǔ)上,以國(guó)內(nèi)電視劇的熱播為背景,通過采集多部電視劇的數(shù)據(jù),以一元線性回歸模型的理論為基礎(chǔ),從相鄰集數(shù)的收視率、點(diǎn)擊量與評(píng)論數(shù)、點(diǎn)擊量和收視率與集數(shù)三方面探究這些數(shù)據(jù)背后的關(guān)系,并提出相關(guān)的建議,從而促進(jìn)電視劇行業(yè)的蓬勃發(fā)展,提高社會(huì)效益。

        1 數(shù)據(jù)

        1.1 數(shù)據(jù)收集

        本文共收集了包括《楚喬傳》《人民的名義》《夏至未至》等八部正在更新或已經(jīng)更新完的電視劇的單集點(diǎn)擊量,收視率,評(píng)論數(shù)等數(shù)據(jù)。采用的電視劇每集點(diǎn)擊量,評(píng)論數(shù)來自于中國(guó)網(wǎng)絡(luò)視頻指數(shù)(index.youku.com)和愛奇藝指數(shù)(index.iqiyi.com),網(wǎng)站提供視頻上線之后的每集電視劇的點(diǎn)擊量總數(shù),電視劇每天至少更新一集。播出時(shí)段的收視率來自于央視索福瑞(www.csm.com.cn),其中有同一天晚上播出多集的使用同一個(gè)收視率數(shù)據(jù),同步更新的電視劇使用收集數(shù)據(jù)當(dāng)天之前的數(shù)據(jù),之后的數(shù)據(jù)不再進(jìn)行統(tǒng)計(jì)。

        1.2 數(shù)據(jù)預(yù)處理

        為了避免因播放源不同而引起的數(shù)據(jù)之間難以考慮到的誤差,本文所使用的八部電視劇均為湖南衛(wèi)視同一時(shí)段播放的,且網(wǎng)絡(luò)點(diǎn)擊量的數(shù)據(jù)均來自于中國(guó)網(wǎng)絡(luò)視頻指數(shù)。此外,為了方便數(shù)據(jù)的使用,本文將點(diǎn)擊量的單位定為百萬次,收視率的單位為%,評(píng)論數(shù)的單位為千條。此外,本文還會(huì)去掉一些因?yàn)樯暇€時(shí)間較短等其他因素導(dǎo)致的一些異常值,以求得更精準(zhǔn)的模型。(如圖1和圖2)

        2 理論基礎(chǔ)

        一元線性回歸模型具有簡(jiǎn)單易行的特點(diǎn),且經(jīng)過多次數(shù)據(jù)處理和計(jì)算后發(fā)現(xiàn)擬合度較高,所以本文所使用的模型的理論基礎(chǔ)均為一元線性回歸模型的理論。對(duì)于一元線性回歸模型

        3 模型的建立與處理

        3.1 基于一元非線性時(shí)間序列預(yù)測(cè)模型對(duì)收視率的預(yù)測(cè)

        收視率,指在某個(gè)時(shí)段收看某個(gè)電視節(jié)目的目標(biāo)觀眾人數(shù)占總目標(biāo)人群的比重,以百分比表示。收視率越高,則該電視劇與同期節(jié)目相比受到的關(guān)注度就越高,一般來說,當(dāng)t-1時(shí)刻的電視劇收視率越高時(shí),觀眾對(duì)t時(shí)刻的電視劇的期望就越高,t時(shí)刻的收視率就越高。因此本文猜想,t-1時(shí)的收視率與t時(shí)刻的收視率存在某種關(guān)系。本文以t-1時(shí)刻的收視率為自變量來預(yù)測(cè)t時(shí)刻的收視率,進(jìn)行了多次數(shù)據(jù)分析。以《楚喬傳》為例:

        如圖3是真實(shí)的t時(shí)刻與t-1時(shí)刻的電視劇收視率的關(guān)系:

        由上圖可以看出,t-1時(shí)刻的收視率與t時(shí)刻的收視率基本符合一元二次的函數(shù)關(guān)系,得到的模型擬合程度較高。之后以上圖中得到的回歸方程,預(yù)測(cè)最后5集電視劇收視率,得出結(jié)果后再與前面幾集的收視率做回歸分析,得到如下圖4:

        該數(shù)據(jù)同樣得到了擬合程度很高的模型,與真實(shí)結(jié)果相比差距很小。其中,實(shí)際結(jié)果得出的二次項(xiàng)系數(shù)為負(fù)而上圖中二次項(xiàng)系數(shù)為正,可能是因?yàn)槭褂玫臄?shù)據(jù)量過少。同時(shí)本文對(duì)當(dāng)時(shí)電視劇播出的背景做過調(diào)查后發(fā)現(xiàn),最后五集播出時(shí)處于工作日。很多人因?yàn)楣ぷ鞯脑虿荒芗皶r(shí)收看電視,這也可能是造成預(yù)測(cè)結(jié)果偏大的一個(gè)原因。

        最后本文經(jīng)過多次驗(yàn)證得出該模型可以很好的擬合數(shù)據(jù),對(duì)任一時(shí)刻的收視率,該模型都具有很好的預(yù)測(cè)效果。因而本文可以認(rèn)為,熱播電視劇的收視率與上一集的收視率存在一元二次的函數(shù)關(guān)系。

        3.2 一元線性模型預(yù)測(cè)單集電視劇評(píng)論數(shù)

        通常來講,對(duì)于一部熱播電視劇,如果某一集相比較其他更加吸引觀眾,便更會(huì)引起人們對(duì)他的關(guān)注,反映到數(shù)據(jù)上的一方面就是該集的評(píng)論數(shù)就會(huì)越多。而在收視率和點(diǎn)擊量?jī)蓚€(gè)可能可以預(yù)測(cè)評(píng)論數(shù)的因素中,本文猜想點(diǎn)擊量能更好地預(yù)測(cè)評(píng)論數(shù),并通過數(shù)據(jù)驗(yàn)證了本文的猜想。以《人民的名義》和《三生三世十里桃花》為例(如圖5和圖6)

        從下圖可以看出,不論是單集還是整體,在收視率這一方面《人民的名義》遠(yuǎn)超《三生三世十里桃花》,而點(diǎn)擊量方面的結(jié)果恰好相反,《三生三世十里桃花》則是更勝一籌,但如果本文比較兩部電視劇的評(píng)論數(shù)(如圖7),《三生三世十里桃花》占據(jù)了絕對(duì)優(yōu)勢(shì)。

        造成這種結(jié)果的原因是因?yàn)閮刹侩娨晞∈湛吹娜巳耗挲g段不同,《人民的名義》的觀眾群體年齡相對(duì)較高,多通過電視收看電視劇,很少會(huì)到網(wǎng)絡(luò)上發(fā)表對(duì)這部電視劇的看法;而《三生三世十里桃花》的觀眾群體相對(duì)年輕,多通過網(wǎng)絡(luò)收看電視劇,并樂于與其他人商量對(duì)這部電視劇的觀點(diǎn)。因而造成了點(diǎn)擊量與評(píng)論數(shù)的數(shù)據(jù)更為相符。通過比較可以初步驗(yàn)證本文的猜想,但這只能說明點(diǎn)擊量比收視率能更好地預(yù)測(cè)單集的評(píng)論數(shù),是否點(diǎn)擊量就能與評(píng)論數(shù)很好地契合,這還需要本文進(jìn)一步的數(shù)據(jù)分析。endprint

        以《擇天記》為例,本文以《擇天記》的單集點(diǎn)擊量為自變量,該集的評(píng)論數(shù)為因變量,刪除一些誤差較大的數(shù)據(jù)后得到20組單集評(píng)論數(shù)和點(diǎn)擊量數(shù)據(jù)。將這20組數(shù)據(jù)進(jìn)行回歸分析得到的結(jié)果如表1和圖8所示:

        通過回歸分析本文可以看出,這二十組數(shù)據(jù)間的線性相關(guān)性較強(qiáng),擬合程度較好。本文再以前十五組數(shù)據(jù)為訓(xùn)練集,最后五組數(shù)據(jù)為測(cè)試集。將預(yù)測(cè)的五組數(shù)據(jù)與真實(shí)的五組數(shù)據(jù)作對(duì)比,并計(jì)算二者的相關(guān)系數(shù)[ρ],即得表2:

        二者的相關(guān)系數(shù)[ρ]=0.792,即二者的相關(guān)性較強(qiáng),因而本文可以看出電視劇的單集點(diǎn)擊量對(duì)當(dāng)集的評(píng)論數(shù)有著較好的預(yù)測(cè)能力。當(dāng)本文把電視劇的數(shù)量擴(kuò)展到6部時(shí),本文先將156組數(shù)據(jù)進(jìn)行回歸分析,結(jié)果如表3和圖9所示:

        刪去這些數(shù)據(jù)中較大的66組數(shù)據(jù),剩余的90組數(shù)據(jù)中,以其中85組為訓(xùn)練集,另外5組為測(cè)試集,計(jì)算該模型的預(yù)測(cè)能力,如表4:

        由此可見,當(dāng)數(shù)據(jù)更大時(shí),點(diǎn)擊量與評(píng)論數(shù)的線性相關(guān)性加強(qiáng),而點(diǎn)擊量對(duì)評(píng)論數(shù)的預(yù)測(cè)能力也一直十分優(yōu)秀,所以本文可以推測(cè),當(dāng)數(shù)據(jù)數(shù)目足夠大時(shí),點(diǎn)擊量與評(píng)論數(shù)將符合一元線性回歸模型。

        3.3 單集收視率、點(diǎn)擊量與集數(shù)的關(guān)系

        一般來講,電視劇開播初期,因?yàn)椴煌娨晞〉拿餍顷嚾?、宣傳力度不同,在不知道劇情的情況下,電視劇的收視率與點(diǎn)擊量可能會(huì)有不同程度的波動(dòng),但隨電視劇的播出,人們對(duì)該電視劇了解進(jìn)一步深入,這種波動(dòng)可能會(huì)逐漸減小。因而本文推測(cè),隨集數(shù)的增長(zhǎng),單集電視劇的收視率與點(diǎn)擊量都會(huì)趨于平緩,且隨劇情深入,人們對(duì)電視劇的期望應(yīng)該會(huì)越高,因而二者都應(yīng)緩慢上升。下面本文分別以八部電視劇的集數(shù)為自變量,同一集(同為第一集、第二集等)的平均收視率和平均點(diǎn)擊量為因變量探究二者的關(guān)系,結(jié)果如圖10和圖11。

        由圖本文不難看出,真實(shí)的結(jié)果與本文的預(yù)期有一定的偏差:收視率與本文的預(yù)期基本相符,始終波動(dòng)較小,且有小幅上升,到最后達(dá)到最大值,這也反映了人們對(duì)電視劇結(jié)尾的期望。但點(diǎn)擊量始終保持較大的波動(dòng),偶爾會(huì)有小幅上揚(yáng),但總體來看一直在下降,且在3/10/30集左右都出現(xiàn)了明顯的斷層情況,一直到最后都沒有再大幅回升,不符合人們對(duì)大結(jié)局的期望值。

        探究這種現(xiàn)象發(fā)生的原因,本文認(rèn)為這與二者所代表的受眾群體相關(guān):常使用優(yōu)酷、土豆等網(wǎng)上觀看電視劇的多為二三十歲的中青年人,他們的時(shí)間相對(duì)緊湊,沒有時(shí)間每天晚上都在電視機(jī)前等待電視劇的更新,大多數(shù)時(shí)候只是通過網(wǎng)絡(luò)回看已經(jīng)播出的電視劇,在這種情況下,他們對(duì)電視劇的觀看就有了選擇性,某一集的劇情吸引人,可能該集的點(diǎn)擊量會(huì)有一個(gè)激增,其他的集數(shù)點(diǎn)擊量可能就較少,也正是由于這個(gè)原因,他們更偏愛集數(shù)較短的電視劇,因而隨集數(shù)的增長(zhǎng),電視劇的點(diǎn)擊量會(huì)逐步下降;而收視率的受眾群體多為其他人群,生活更加規(guī)律,時(shí)間相對(duì)寬裕,受眾群體穩(wěn)定因而收視率的變化相對(duì)平緩,且隨電視劇的深入,知道這部電視劇的人就更多,收看電視劇的人數(shù)就會(huì)逐步增多,因而電視劇的平均收視率會(huì)平緩地上升。本文也從央視索福瑞官網(wǎng)分別找到了電視受眾人群分布與網(wǎng)絡(luò)視頻受眾人群分布,數(shù)據(jù)制作為餅形圖后如圖12和圖13所示:

        4 結(jié)論與展望

        在如今電視劇風(fēng)靡的背景下,本文研究了電視劇的一些數(shù)據(jù),以一元線性回歸模型的原理為理論基礎(chǔ),發(fā)現(xiàn)收視率符合一元二次的時(shí)間序列預(yù)測(cè)模型,即知道某一集的收視率,便能比較好的預(yù)測(cè)出下一集電視劇的收視率,對(duì)于電視劇的出版方來說,合理的安排好劇情精彩的集數(shù),以此大幅帶動(dòng)周圍集數(shù)的收視率就顯得尤為重要。此外,本文還研究了單集點(diǎn)擊量與該集評(píng)論數(shù)的關(guān)系,發(fā)現(xiàn)某集的點(diǎn)擊量與該集的評(píng)論數(shù)成正相關(guān),因此,網(wǎng)絡(luò)視頻播出方可以加大宣傳的力度,提高該集的關(guān)注度,以此提高單集點(diǎn)擊量。最后,本文發(fā)現(xiàn)隨集數(shù)的增加,收視率平緩上升,而視頻點(diǎn)擊量則在波動(dòng)下降,對(duì)于集數(shù)較多的電視劇更為明顯,因此電視臺(tái)方面可以在收視后期多插播一些廣告或延長(zhǎng)時(shí)長(zhǎng)以增加收益,而出版方則要控制好電視劇的長(zhǎng)短,既要使電視劇的收視率達(dá)到一個(gè)令人滿意的高度,又要保證點(diǎn)擊量不會(huì)太低,以求得最大的收益。上述模型經(jīng)驗(yàn)證后發(fā)現(xiàn)擬合程度都很高,能夠很好地進(jìn)行預(yù)測(cè),這些問題的研究對(duì)于提高出版方與播出方的收益都有十分重要的意義。

        在未來對(duì)這些問題的深入研究中,通過更多電視劇的數(shù)據(jù),以及更高級(jí)的算法模型,使得模型能夠更加精確,具有更好的現(xiàn)實(shí)解釋力。

        參考文獻(xiàn):

        [1] 陳春燕, 張鈺, 常標(biāo)等. 基于ARMA模型的在線電視劇流行度預(yù)測(cè)[J]. 計(jì)算機(jī)科學(xué)與探索, 2016, 10(3).

        [2] 毋世曉, 趙翠. 基于時(shí)序分析的視頻點(diǎn)擊量預(yù)測(cè)[J]. 電腦編程技巧與維護(hù), 2016(20).

        [3] 趙忠仁. 電視劇參數(shù)這樣讀[J]. 成功營(yíng)銷, 2013(4).

        [4] 石光. 電視劇收視率在大數(shù)據(jù)環(huán)境下的分析[J]. 西部廣播電視, 2017(11).endprint

        猜你喜歡
        電視劇數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        大眾狂歡到政治泛化
        新聞界(2016年14期)2016-12-24 01:30:31
        以《紅高梁》為例淺析從小說到電視劇的改編
        數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
        傳統(tǒng)電視媒體的節(jié)目編排與發(fā)展出路
        聲屏世界(2016年9期)2016-11-10 22:30:44
        農(nóng)村題材電視劇改編設(shè)想
        IP熱潮下網(wǎng)絡(luò)文學(xué)影視化的理性發(fā)展
        人間(2016年26期)2016-11-03 18:15:06
        影像圓融:小議多元敘事視角的選擇性后置
        今傳媒(2016年9期)2016-10-15 23:00:49
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        中文字幕一区二区三区久久网站| 中文字幕一区二区网站 | 中文字幕亚洲入口久久| 国产精品186在线观看在线播放| 少妇扒开毛茸茸的b自慰| 欧美人和黑人牲交网站上线| 国产人妻无码一区二区三区免费| 日韩亚洲欧美中文高清在线| 国产精品白浆免费观看| 亚洲一区二区三区免费av| 免费观看91色国产熟女| 夜夜春亚洲嫩草影院| 一二三四在线观看免费视频| 亚洲AⅤ永久无码精品AA| 黑人一区二区三区在线| 丝袜美足在线视频国产在线看| 性做久久久久久久| 久久无码人妻一区二区三区午夜| 久久综合亚洲色社区| 亚洲一区二区一区二区免费视频| 成人女同av在线观看网站| 午夜射精日本三级| 国产色诱视频在线观看| 国产杨幂AV在线播放| 蜜桃传媒网站在线观看| 久久综合九色综合97欧美| 9999精品视频| 最新国内视频免费自拍一区| 国产三级黄色免费网站| 无码av不卡一区二区三区| 亚洲中文久久精品无码ww16| 在线观看一区二区女同| 粉嫩的18在线观看极品精品| 一区二区三区在线视频观看| 无码人妻一区二区三区在线 | 阴唇两边有点白是怎么回事 | 一区二区三区日本在线| 一区二区三区内射美女毛片| 久久久www成人免费无遮挡大片| 亚洲香蕉毛片久久网站老妇人| 一级老熟女免费黄色片|