王一鳴
摘要:為了探究不同電視劇數(shù)據(jù)之間的關(guān)系,發(fā)現(xiàn)出這些數(shù)據(jù)背后的價(jià)值,該文基于一元線性回歸模型,使用從中國(guó)網(wǎng)絡(luò)視頻指數(shù)、愛奇藝指數(shù)、央視索福瑞等權(quán)威網(wǎng)站獲取的多部熱播電視劇的點(diǎn)擊量、收視率等數(shù)據(jù),建立模型并進(jìn)行分析。最終發(fā)現(xiàn)電視劇相鄰兩集之間的收視率存在著一元非線性的關(guān)系,而單集電視劇的點(diǎn)擊量與評(píng)論數(shù)存在著一元線性關(guān)系,同時(shí)單集電視劇的收視率隨集數(shù)增大而緩慢上升,點(diǎn)擊量則迅速下降,最后該文對(duì)此結(jié)果做出了分析并提出一些合理的建議。
關(guān)鍵詞:數(shù)據(jù)挖掘;電視?。灰辉€性回歸模型
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)25-0235-04
近幾年中,各個(gè)領(lǐng)域都出現(xiàn)了大規(guī)模的數(shù)據(jù)增長(zhǎng),數(shù)據(jù)的蓬勃發(fā)展在社會(huì)經(jīng)濟(jì)和科學(xué)研究方面具有前所未有的推動(dòng)作用,對(duì)挖掘潛在于數(shù)據(jù)背后的價(jià)值具有重要的意義。前幾日剛開始播出的電視劇《楚喬傳》,以其上線20分鐘點(diǎn)擊量破億的佳績(jī)轟動(dòng)全網(wǎng)。但其實(shí)這并不是國(guó)產(chǎn)電視劇第一次有如此出色的表現(xiàn)了,從最早的《還珠格格》到之前的《三生三世十里桃花》,都曾創(chuàng)造過驚人的數(shù)據(jù),那么,這些數(shù)據(jù)背后是否存在著某種關(guān)系呢?
在此之前,陳春燕教授等人的文章《基于ARMA模型的在線電視劇流行度預(yù)測(cè)》和毋世曉教授等人的文章《基于時(shí)序分析的視頻點(diǎn)擊量預(yù)測(cè)》中,都采用時(shí)序分析的方法來預(yù)測(cè)未來電視劇的走向,本文也采用了相關(guān)的思想。此外,本文將在他們研究的基礎(chǔ)上,以國(guó)內(nèi)電視劇的熱播為背景,通過采集多部電視劇的數(shù)據(jù),以一元線性回歸模型的理論為基礎(chǔ),從相鄰集數(shù)的收視率、點(diǎn)擊量與評(píng)論數(shù)、點(diǎn)擊量和收視率與集數(shù)三方面探究這些數(shù)據(jù)背后的關(guān)系,并提出相關(guān)的建議,從而促進(jìn)電視劇行業(yè)的蓬勃發(fā)展,提高社會(huì)效益。
1 數(shù)據(jù)
1.1 數(shù)據(jù)收集
本文共收集了包括《楚喬傳》《人民的名義》《夏至未至》等八部正在更新或已經(jīng)更新完的電視劇的單集點(diǎn)擊量,收視率,評(píng)論數(shù)等數(shù)據(jù)。采用的電視劇每集點(diǎn)擊量,評(píng)論數(shù)來自于中國(guó)網(wǎng)絡(luò)視頻指數(shù)(index.youku.com)和愛奇藝指數(shù)(index.iqiyi.com),網(wǎng)站提供視頻上線之后的每集電視劇的點(diǎn)擊量總數(shù),電視劇每天至少更新一集。播出時(shí)段的收視率來自于央視索福瑞(www.csm.com.cn),其中有同一天晚上播出多集的使用同一個(gè)收視率數(shù)據(jù),同步更新的電視劇使用收集數(shù)據(jù)當(dāng)天之前的數(shù)據(jù),之后的數(shù)據(jù)不再進(jìn)行統(tǒng)計(jì)。
1.2 數(shù)據(jù)預(yù)處理
為了避免因播放源不同而引起的數(shù)據(jù)之間難以考慮到的誤差,本文所使用的八部電視劇均為湖南衛(wèi)視同一時(shí)段播放的,且網(wǎng)絡(luò)點(diǎn)擊量的數(shù)據(jù)均來自于中國(guó)網(wǎng)絡(luò)視頻指數(shù)。此外,為了方便數(shù)據(jù)的使用,本文將點(diǎn)擊量的單位定為百萬次,收視率的單位為%,評(píng)論數(shù)的單位為千條。此外,本文還會(huì)去掉一些因?yàn)樯暇€時(shí)間較短等其他因素導(dǎo)致的一些異常值,以求得更精準(zhǔn)的模型。(如圖1和圖2)
2 理論基礎(chǔ)
一元線性回歸模型具有簡(jiǎn)單易行的特點(diǎn),且經(jīng)過多次數(shù)據(jù)處理和計(jì)算后發(fā)現(xiàn)擬合度較高,所以本文所使用的模型的理論基礎(chǔ)均為一元線性回歸模型的理論。對(duì)于一元線性回歸模型
3 模型的建立與處理
3.1 基于一元非線性時(shí)間序列預(yù)測(cè)模型對(duì)收視率的預(yù)測(cè)
收視率,指在某個(gè)時(shí)段收看某個(gè)電視節(jié)目的目標(biāo)觀眾人數(shù)占總目標(biāo)人群的比重,以百分比表示。收視率越高,則該電視劇與同期節(jié)目相比受到的關(guān)注度就越高,一般來說,當(dāng)t-1時(shí)刻的電視劇收視率越高時(shí),觀眾對(duì)t時(shí)刻的電視劇的期望就越高,t時(shí)刻的收視率就越高。因此本文猜想,t-1時(shí)的收視率與t時(shí)刻的收視率存在某種關(guān)系。本文以t-1時(shí)刻的收視率為自變量來預(yù)測(cè)t時(shí)刻的收視率,進(jìn)行了多次數(shù)據(jù)分析。以《楚喬傳》為例:
如圖3是真實(shí)的t時(shí)刻與t-1時(shí)刻的電視劇收視率的關(guān)系:
由上圖可以看出,t-1時(shí)刻的收視率與t時(shí)刻的收視率基本符合一元二次的函數(shù)關(guān)系,得到的模型擬合程度較高。之后以上圖中得到的回歸方程,預(yù)測(cè)最后5集電視劇收視率,得出結(jié)果后再與前面幾集的收視率做回歸分析,得到如下圖4:
該數(shù)據(jù)同樣得到了擬合程度很高的模型,與真實(shí)結(jié)果相比差距很小。其中,實(shí)際結(jié)果得出的二次項(xiàng)系數(shù)為負(fù)而上圖中二次項(xiàng)系數(shù)為正,可能是因?yàn)槭褂玫臄?shù)據(jù)量過少。同時(shí)本文對(duì)當(dāng)時(shí)電視劇播出的背景做過調(diào)查后發(fā)現(xiàn),最后五集播出時(shí)處于工作日。很多人因?yàn)楣ぷ鞯脑虿荒芗皶r(shí)收看電視,這也可能是造成預(yù)測(cè)結(jié)果偏大的一個(gè)原因。
最后本文經(jīng)過多次驗(yàn)證得出該模型可以很好的擬合數(shù)據(jù),對(duì)任一時(shí)刻的收視率,該模型都具有很好的預(yù)測(cè)效果。因而本文可以認(rèn)為,熱播電視劇的收視率與上一集的收視率存在一元二次的函數(shù)關(guān)系。
3.2 一元線性模型預(yù)測(cè)單集電視劇評(píng)論數(shù)
通常來講,對(duì)于一部熱播電視劇,如果某一集相比較其他更加吸引觀眾,便更會(huì)引起人們對(duì)他的關(guān)注,反映到數(shù)據(jù)上的一方面就是該集的評(píng)論數(shù)就會(huì)越多。而在收視率和點(diǎn)擊量?jī)蓚€(gè)可能可以預(yù)測(cè)評(píng)論數(shù)的因素中,本文猜想點(diǎn)擊量能更好地預(yù)測(cè)評(píng)論數(shù),并通過數(shù)據(jù)驗(yàn)證了本文的猜想。以《人民的名義》和《三生三世十里桃花》為例(如圖5和圖6)
從下圖可以看出,不論是單集還是整體,在收視率這一方面《人民的名義》遠(yuǎn)超《三生三世十里桃花》,而點(diǎn)擊量方面的結(jié)果恰好相反,《三生三世十里桃花》則是更勝一籌,但如果本文比較兩部電視劇的評(píng)論數(shù)(如圖7),《三生三世十里桃花》占據(jù)了絕對(duì)優(yōu)勢(shì)。
造成這種結(jié)果的原因是因?yàn)閮刹侩娨晞∈湛吹娜巳耗挲g段不同,《人民的名義》的觀眾群體年齡相對(duì)較高,多通過電視收看電視劇,很少會(huì)到網(wǎng)絡(luò)上發(fā)表對(duì)這部電視劇的看法;而《三生三世十里桃花》的觀眾群體相對(duì)年輕,多通過網(wǎng)絡(luò)收看電視劇,并樂于與其他人商量對(duì)這部電視劇的觀點(diǎn)。因而造成了點(diǎn)擊量與評(píng)論數(shù)的數(shù)據(jù)更為相符。通過比較可以初步驗(yàn)證本文的猜想,但這只能說明點(diǎn)擊量比收視率能更好地預(yù)測(cè)單集的評(píng)論數(shù),是否點(diǎn)擊量就能與評(píng)論數(shù)很好地契合,這還需要本文進(jìn)一步的數(shù)據(jù)分析。endprint
以《擇天記》為例,本文以《擇天記》的單集點(diǎn)擊量為自變量,該集的評(píng)論數(shù)為因變量,刪除一些誤差較大的數(shù)據(jù)后得到20組單集評(píng)論數(shù)和點(diǎn)擊量數(shù)據(jù)。將這20組數(shù)據(jù)進(jìn)行回歸分析得到的結(jié)果如表1和圖8所示:
通過回歸分析本文可以看出,這二十組數(shù)據(jù)間的線性相關(guān)性較強(qiáng),擬合程度較好。本文再以前十五組數(shù)據(jù)為訓(xùn)練集,最后五組數(shù)據(jù)為測(cè)試集。將預(yù)測(cè)的五組數(shù)據(jù)與真實(shí)的五組數(shù)據(jù)作對(duì)比,并計(jì)算二者的相關(guān)系數(shù)[ρ],即得表2:
二者的相關(guān)系數(shù)[ρ]=0.792,即二者的相關(guān)性較強(qiáng),因而本文可以看出電視劇的單集點(diǎn)擊量對(duì)當(dāng)集的評(píng)論數(shù)有著較好的預(yù)測(cè)能力。當(dāng)本文把電視劇的數(shù)量擴(kuò)展到6部時(shí),本文先將156組數(shù)據(jù)進(jìn)行回歸分析,結(jié)果如表3和圖9所示:
刪去這些數(shù)據(jù)中較大的66組數(shù)據(jù),剩余的90組數(shù)據(jù)中,以其中85組為訓(xùn)練集,另外5組為測(cè)試集,計(jì)算該模型的預(yù)測(cè)能力,如表4:
由此可見,當(dāng)數(shù)據(jù)更大時(shí),點(diǎn)擊量與評(píng)論數(shù)的線性相關(guān)性加強(qiáng),而點(diǎn)擊量對(duì)評(píng)論數(shù)的預(yù)測(cè)能力也一直十分優(yōu)秀,所以本文可以推測(cè),當(dāng)數(shù)據(jù)數(shù)目足夠大時(shí),點(diǎn)擊量與評(píng)論數(shù)將符合一元線性回歸模型。
3.3 單集收視率、點(diǎn)擊量與集數(shù)的關(guān)系
一般來講,電視劇開播初期,因?yàn)椴煌娨晞〉拿餍顷嚾?、宣傳力度不同,在不知道劇情的情況下,電視劇的收視率與點(diǎn)擊量可能會(huì)有不同程度的波動(dòng),但隨電視劇的播出,人們對(duì)該電視劇了解進(jìn)一步深入,這種波動(dòng)可能會(huì)逐漸減小。因而本文推測(cè),隨集數(shù)的增長(zhǎng),單集電視劇的收視率與點(diǎn)擊量都會(huì)趨于平緩,且隨劇情深入,人們對(duì)電視劇的期望應(yīng)該會(huì)越高,因而二者都應(yīng)緩慢上升。下面本文分別以八部電視劇的集數(shù)為自變量,同一集(同為第一集、第二集等)的平均收視率和平均點(diǎn)擊量為因變量探究二者的關(guān)系,結(jié)果如圖10和圖11。
由圖本文不難看出,真實(shí)的結(jié)果與本文的預(yù)期有一定的偏差:收視率與本文的預(yù)期基本相符,始終波動(dòng)較小,且有小幅上升,到最后達(dá)到最大值,這也反映了人們對(duì)電視劇結(jié)尾的期望。但點(diǎn)擊量始終保持較大的波動(dòng),偶爾會(huì)有小幅上揚(yáng),但總體來看一直在下降,且在3/10/30集左右都出現(xiàn)了明顯的斷層情況,一直到最后都沒有再大幅回升,不符合人們對(duì)大結(jié)局的期望值。
探究這種現(xiàn)象發(fā)生的原因,本文認(rèn)為這與二者所代表的受眾群體相關(guān):常使用優(yōu)酷、土豆等網(wǎng)上觀看電視劇的多為二三十歲的中青年人,他們的時(shí)間相對(duì)緊湊,沒有時(shí)間每天晚上都在電視機(jī)前等待電視劇的更新,大多數(shù)時(shí)候只是通過網(wǎng)絡(luò)回看已經(jīng)播出的電視劇,在這種情況下,他們對(duì)電視劇的觀看就有了選擇性,某一集的劇情吸引人,可能該集的點(diǎn)擊量會(huì)有一個(gè)激增,其他的集數(shù)點(diǎn)擊量可能就較少,也正是由于這個(gè)原因,他們更偏愛集數(shù)較短的電視劇,因而隨集數(shù)的增長(zhǎng),電視劇的點(diǎn)擊量會(huì)逐步下降;而收視率的受眾群體多為其他人群,生活更加規(guī)律,時(shí)間相對(duì)寬裕,受眾群體穩(wěn)定因而收視率的變化相對(duì)平緩,且隨電視劇的深入,知道這部電視劇的人就更多,收看電視劇的人數(shù)就會(huì)逐步增多,因而電視劇的平均收視率會(huì)平緩地上升。本文也從央視索福瑞官網(wǎng)分別找到了電視受眾人群分布與網(wǎng)絡(luò)視頻受眾人群分布,數(shù)據(jù)制作為餅形圖后如圖12和圖13所示:
4 結(jié)論與展望
在如今電視劇風(fēng)靡的背景下,本文研究了電視劇的一些數(shù)據(jù),以一元線性回歸模型的原理為理論基礎(chǔ),發(fā)現(xiàn)收視率符合一元二次的時(shí)間序列預(yù)測(cè)模型,即知道某一集的收視率,便能比較好的預(yù)測(cè)出下一集電視劇的收視率,對(duì)于電視劇的出版方來說,合理的安排好劇情精彩的集數(shù),以此大幅帶動(dòng)周圍集數(shù)的收視率就顯得尤為重要。此外,本文還研究了單集點(diǎn)擊量與該集評(píng)論數(shù)的關(guān)系,發(fā)現(xiàn)某集的點(diǎn)擊量與該集的評(píng)論數(shù)成正相關(guān),因此,網(wǎng)絡(luò)視頻播出方可以加大宣傳的力度,提高該集的關(guān)注度,以此提高單集點(diǎn)擊量。最后,本文發(fā)現(xiàn)隨集數(shù)的增加,收視率平緩上升,而視頻點(diǎn)擊量則在波動(dòng)下降,對(duì)于集數(shù)較多的電視劇更為明顯,因此電視臺(tái)方面可以在收視后期多插播一些廣告或延長(zhǎng)時(shí)長(zhǎng)以增加收益,而出版方則要控制好電視劇的長(zhǎng)短,既要使電視劇的收視率達(dá)到一個(gè)令人滿意的高度,又要保證點(diǎn)擊量不會(huì)太低,以求得最大的收益。上述模型經(jīng)驗(yàn)證后發(fā)現(xiàn)擬合程度都很高,能夠很好地進(jìn)行預(yù)測(cè),這些問題的研究對(duì)于提高出版方與播出方的收益都有十分重要的意義。
在未來對(duì)這些問題的深入研究中,通過更多電視劇的數(shù)據(jù),以及更高級(jí)的算法模型,使得模型能夠更加精確,具有更好的現(xiàn)實(shí)解釋力。
參考文獻(xiàn):
[1] 陳春燕, 張鈺, 常標(biāo)等. 基于ARMA模型的在線電視劇流行度預(yù)測(cè)[J]. 計(jì)算機(jī)科學(xué)與探索, 2016, 10(3).
[2] 毋世曉, 趙翠. 基于時(shí)序分析的視頻點(diǎn)擊量預(yù)測(cè)[J]. 電腦編程技巧與維護(hù), 2016(20).
[3] 趙忠仁. 電視劇參數(shù)這樣讀[J]. 成功營(yíng)銷, 2013(4).
[4] 石光. 電視劇收視率在大數(shù)據(jù)環(huán)境下的分析[J]. 西部廣播電視, 2017(11).endprint