何曉雪 畢圓夢 姜繩
摘 要 隨著經(jīng)濟實力的不斷增長和人民生活水平的日益提高,我國電影市場得到了蓬勃發(fā)展,對國民經(jīng)濟的貢獻率不斷上升。對電影票房進行科學的預測,不僅能夠?qū)﹄娪氨旧淼耐顿Y有所幫助,同時也可以促進電影產(chǎn)業(yè)進行科學合理的資源配置。文章利用多元線性回歸方程,通過采集近年來的電影票房數(shù)據(jù)樣本,從豆瓣評分、微博想看人數(shù)、M1905電影網(wǎng)的相關新聞數(shù)量及電影首映日票房等多個角度構(gòu)建了票房預測模型,并確定了最終影響實際票房的三大因素,最后構(gòu)建了電影的票房預測模型并得出了預測票房結(jié)論。
關鍵詞 多元線性回歸方程;電影;票房預測
中圖分類號 G2 文獻標識碼 A 文章編號 2096-0360(2018)05-0041-08
1 研究背景
隨著我國經(jīng)濟實力不斷增長,人民生活水平日益提高,消費能力也在逐步提升。人們更加重視對美好生活的追求,其尤為突出的一個側(cè)面便是休閑娛樂投資所占比例越來越大。特別是近些年來,我國電影市場蓬勃發(fā)展,圍觀中提供了無數(shù)銀幕佳作,人們的觀影熱情也隨之越發(fā)高漲,又進一步推動了電影市場對經(jīng)濟貢獻率的不斷上升。這種相互遞進的經(jīng)濟效應,使得人們對于新生電影能否帶來理想票房愈發(fā)重視。
2017年,著名導演馮小剛的新片《芳華》宣布退出國慶黃金檔,無疑掀起一陣巨浪,更激起我們對于其撤檔背后是否與票房密切相關這一點產(chǎn)生了長久的思考。為研究此問題,需要一個合適的票房預測模型。2013年Google發(fā)布了一篇名為《Quantifying, movie magic with Google Search》的論文,里面提出一種基于多元線性回歸方程的電影票房預測模型,通過其能在電影上映前1個月得到該電影的首周票房,并且預測成功率高達94%。由于一部電影涉及眾多環(huán)節(jié),其票房的影響因素也紛繁復雜,而且程度有大有小,不同類型電影可以考察的參數(shù)亦不同。
1.1 多元線性回歸方程預測票房的可行性
多元線性回歸方程正是考慮到多方因素作用來計算的一種常用數(shù)學模型。它可以采用多個變量組合來預估某一變量,較單一變量預測更符合實際,誤差更小,結(jié)果更有效,具有廣泛的適用性,更符合現(xiàn)代社會的實際情況,而且實現(xiàn)簡單,易于人們理解和操作。因此,我們決定沿用這一模型對電影《芳華》票房進行預測分析,進而為電影行業(yè)的發(fā)展產(chǎn)生一些實際借鑒意義。
1.2 國內(nèi)外研究歷史及經(jīng)驗
隨著互聯(lián)網(wǎng)時代的高速發(fā)展,網(wǎng)民在線生成人數(shù)爆炸式增長,信息交互傳遞的速度越來越快。2006年,Gilad Mishne和Natalie Glance通過分析博客中有關電影的數(shù)據(jù),構(gòu)建了基于博客的電影票房預測模型,研究關于電影的口碑聲量和口碑的情感分析對票房的影響程度,最終揭示了口碑聲量的影響力更大。2010年,itaram Asur和Bernardo A.Huberman通過實驗得到了在推特中的電影聲量與票房呈線性相關,并且其數(shù)據(jù)的正負情感分析對票房也有很大影響的結(jié)論。在2013年,Chong Oh等利用推特里關于電影的口碑數(shù)據(jù)和boxofficemojo.com的電影票房數(shù)據(jù)分析,得出口碑能直接影響電影票房的結(jié)論,而且觀影用戶反饋及片方的前期推廣信息也間接影響整體的票房成績。
2 研究過程
2.1 影響電影票房的因素猜測
根據(jù)前人的研究與實驗成果,我們可以看出,用戶口碑、關注度以及新聞宣傳對電影票房有積極影響。自商品經(jīng)濟發(fā)展以來,口碑便是極為重要的影響因素。而在社交媒體盛行的當下,海量數(shù)據(jù)的挖掘無疑要從這一領域開始。其中,微博,作為一種通過關注機制分享簡短實時信息的廣播式的社交網(wǎng)絡平臺,截至2016年,月平均活躍人數(shù)達到2.97億。龐大的用戶覆蓋面使其在新聞輿論、綜藝娛樂等方面繼續(xù)保持絕對影響力,而對于電影行業(yè)的發(fā)展推動力也不容小覷。知名大V,各種營銷號的前期推廣,即時性的用戶反饋與信息傳遞,無時無刻不在影響著一部電影的票房走勢。豆瓣,作為老牌書影音交流社區(qū),憑借優(yōu)質(zhì)的用戶評論和較為客觀的電影評分,也成為我們本次研究的數(shù)據(jù)參考之一。此外,我們還選取了電影網(wǎng)站的新聞數(shù)據(jù),進一步思考前期宣傳與票房的關系,綜合探究口碑這一宏觀概念對于票房方面的影響。
在這些數(shù)據(jù)中,口碑數(shù)量與產(chǎn)品營銷成正相關關系。同時,電影票房也是自相關的,前期宣傳力度大、關注度高、近期票房高的電影總票房就會比較高。因此,我們分別針對豆瓣評分、微博中表示“想看”某部電影的人數(shù)、M1905電影網(wǎng)相關資訊及首映日票房與電影總票房的關系進行了研究探索。表1為搜集的近年電影樣本數(shù)據(jù)表,表2為數(shù)據(jù)采集來源表。
2.2 影像電影票房因素的確定方法
上文提到“豆瓣評分”、微博表示“想看”人數(shù)、M1905電影網(wǎng)相關影視新聞和電影首映日票房與電影實際票房的情況看起來似乎都有極大的關系。為了驗證這4個因素是否有關系,有什么樣的關系,我們采用單個元素分析,最后整合的方式進行試探。
第一,分別將上述元素作為唯一自變量,將兩年內(nèi)所找到的電影實際票房作為因變量,分別利用SPSS統(tǒng)計軟件進行線性回歸探索。在線性回歸探索中,如果R2的數(shù)值越接近1,那么這個與票房的關系越緊密。
第二,再對自變量、因變量進行顯著性分析,在得出的結(jié)果中看顯著性。顯著性的臨界值是0.05,即超過這個值,因變量與自變量的線性關系無法建立,應當舍棄。
第三,對于符合上述兩個條件的自變量與因變量關系再此進行驗證,并用軟件自動建立線性回歸公式。這個公式暫時不具有參考意義,只是對于自變量與因變量關系的存在進行證明。
第四,當確定與實際票房有線性關系的因素后,將這些因素全部作為自變量,將實際票房作為因變量,再次利用SPSS軟件,重復上述三個步驟,建立多元線性回歸方程,這個方程就是所得的票房預測方程。
第五,利用所得方程,將電影《芳華》的自變量數(shù)據(jù)帶入,經(jīng)計算得出最終結(jié)論。
2.3 猜測因素與票房關系探索
2.3.1 豆瓣評分與票房關系探索
基于之前的假設,首先對豆瓣評分與實際票房之間的關系做分析。通過運用SPSS統(tǒng)計軟件,將表1中2017年芳華類電影的豆瓣評分作為自變量,實際票房作為因變量輸入軟件,進行了線性回歸分析,探索二者之間的關系。結(jié)果如表3所示。
在這個表中,R2的數(shù)值是0.083,遠遠小于1,這表示電影實際票房的8.3%可由豆瓣評分來解釋。鑒于在R?的值越接近1,其擬合效果越好的這個規(guī)律,可以初步判定豆瓣評分與電影實際票房之間的關系不大。為了確定這個結(jié)論,再將豆瓣評分與票房關系顯著性進行分析,結(jié)果如表4所示。
在顯著性分析中,當結(jié)果值大于0.05時說明模型受誤差因素干擾太大不能接受。由表4可以看出,這里的顯著性為0.115,遠遠超過了0.05,也就是由自變量“豆瓣評分”和因變量“電影實際票房”建立的線性關系回歸模型沒有顯著的統(tǒng)計學意義。所以再次證明,豆瓣評分不能作為我們預測電影票房的依據(jù)。
2.3.2 微博表示“想看”電影人數(shù)與電影實際票房關系探索
與探索豆瓣評分與票房關系的方法相同,將2016年和2017年芳華類電影的微博“想看”人數(shù)作為自變量,實際票房數(shù)據(jù)作為因變量,進行了線性回歸分析,結(jié)果如表5所示。
在表格中,可以R?是0.424,大于可作為參考因素的臨界值0.3,表示電影票房的42.5%可以通過電影的微博“想看”人數(shù)來解釋,所以微博“想看”人數(shù)是可以作為我們預測電影票房的一個重要依據(jù)的。同樣,再次進行微博“想看”人數(shù)與票房關系顯著性分析,以驗證上述猜想,結(jié)果如表6、表7所示。
這里得到了結(jié)果的顯著性為0.000,因為精確值的關系,軟件并未顯示具體數(shù)值,但可以明確看出這個數(shù)值遠小于臨界值0.05,這表明由自變量“電影的微博‘想看人數(shù)”和因變量“電影實際票房”建立的線性回歸模型具有極顯著的統(tǒng)計學意義。
為了確定微博“想看”人數(shù)與票房關系的線性關系,我們再次將二者通過SPSS軟件進行顯著性分析,并試圖得出結(jié)論。如表7所示。
從系數(shù)這一欄中我們可以得到建模的直接結(jié)果,并且系數(shù)的顯著性也是0.000,說明該線性回歸方程是有意義的。根據(jù)軟件所給結(jié)論,某電影微博“想看”人數(shù)(X)與電影實際票房(Y)的模型表達式為:Y=0.598X+2 418.659。
2.3.3 M1905電影網(wǎng)相關影視新聞數(shù)量與電影實際票房的關系探索
M1905電影網(wǎng)也是一個十分具有影響力的網(wǎng)站。在這個網(wǎng)站中,我們主要選擇2016年和2017年芳華類電影在M1905上的新聞資訊的數(shù)量和實際票房,用同樣的方法進行了線性回歸分析,結(jié)果如表8
所示。
我們看到R2是0.461,說明電影票房的46.1%可以用M1905的新聞資訊數(shù)量解釋。
再對M1905相關影視新聞數(shù)量與票房關系顯著性進行分析,結(jié)果如表9、表10所示。
顯著性為0.000,根據(jù)前面的經(jīng)驗,這里的實際數(shù)值應當是小于0.01的一個值,遠小于0.05,表明由自變量“M1905的相關新聞資訊數(shù)量”和因變量“電影實際票房”建立的線性回歸模型具有極顯著的統(tǒng)計學意義。
再次對M1905電影網(wǎng)相關影視新聞數(shù)量與票房關系進行線性方程的建立。分析結(jié)果如表10。
從系數(shù)這一欄中我們可以得到建模的直接結(jié)果,所以M1905的相關新聞數(shù)量與電影實際票房的模型表達式為:Y=402.470X-3732.455。
2.3.4 電影首映日票房與電影實際票房的關系
探索
探討電影首映日票房與實際票房的關系,我們同樣用2016年和2017年芳華類電影的首映日票房和實際票房的數(shù)值進行了線性回歸分析,分析結(jié)果如表11所示。
我們看到R?是0.575,表示電影票房的57.5%可以通過電影的首映日票房來解釋,所以電影的首映日票房應當是預測電影票房的一個重要依據(jù)。再對電影首映日票房與實際票房關系進行顯著性分析,結(jié)果如表12、表13所示。
從這個結(jié)果中,我們可以看到,顯著性為0.000,應當是小于0.01中的某個值,遠小于0.05,表明由自變量“電影的首映日票房”和因變量“電影實際票房”建立的線性回歸模型具有極顯著的統(tǒng)計學意義。
從系數(shù)這一欄中我們可以得到建模的直接結(jié)果,所以電影首映日票房與電影實際票房的模型表達式為:Y=8.841X-76.196。
2.4 多元線性回歸方程的確定
基于前面的分析,可以確定最終一個電影在其微博上表示“想看”人數(shù)、電影首映日票房以及M1905電影網(wǎng)網(wǎng)站上電影相關新聞的數(shù)量有著線性關系。把這三個作為自變量,電影實際票房作為因變量構(gòu)建多元線性回歸模型,進行可行性探索,結(jié)果如表14所示。
在這個表中,我們看到R?是0.675,表示電影票房的67.5%可以通過這三個變量來解釋,也就是說我們預測模型的準確率在67.5%左右。繼續(xù)分析三要素與電影實際票房關系顯著性。結(jié)果如表15、表16所示。
在表15中,我們看到,自變量與因變量關系的顯著性為0.000,即小于0.01的某個值,遠小于0.05,表明由這三個自變量和因變量“電影實際票房”建立的多元線性回歸模型具有極顯著的統(tǒng)計學意義。
在表16中,非標準化系數(shù)作為自變量的系數(shù),常量作為線性回歸公式的常量,可以取得最后的線性回歸公式:
Y=0.275X1+4.447X2+204.055X3-6 082.328
其中:X1=某電影微博表示“想看”的人數(shù),X2=電影首映日票房,X3=M1905電影網(wǎng)相關影視新聞報道量。
3 《芳華》電影預測
根據(jù)上述公式,我們找到了截至2018年3月5日,電影《芳華》的微博“想看”人數(shù)為42 505,首映日票房為7 579.25萬,M1905新聞網(wǎng)網(wǎng)站上關于電影《芳華》的新聞數(shù)量為159,把數(shù)據(jù)代入方程中,我們預測出的電影《芳華》實際票房為11 688.875+33 704.925+32 444.745-6 082.328=71 756.217(萬元),即7.2億。
4 模型總結(jié)與討論
根據(jù)中國網(wǎng)的報道,截至2018年1月2日,電影《芳華》的票房就已經(jīng)超過12.7億①,遠大于我們所預測的票房數(shù)。這樣的大誤差說明我們的預測結(jié)果不能夠正確地預測《芳華》的票房。那么,這個模型是否能夠有效測出電影實際票房,我們對2017年的電影數(shù)據(jù)選取了10部進行了抽樣分析②,得出結(jié)果如表17所示。
在這個表中,我們看到,偏差率盡管通過SPSS進行統(tǒng)計出的線性回歸公式并未準確地預測出《芳華》的票房,但是通過驗證,我們所得的多元線性回歸方程基本能夠滿足預測票房的要求。當然,我們也知道,這個公式還有它的局限性,也希望讀者進行批評指正。
注釋
①資料來源:芳華1月2日累計票房超12.7億 芳華挺進華語電影票房前十,萬家熱線網(wǎng).http://365jia.cn/news/2018-01-03/DC8C64355BD5C349.html.
②數(shù)據(jù)測試電影選取方法:表1中的前十部電影。因為表1中的每一部電影之間沒有直接的關聯(lián),所以直接選取這個表格中的前十部,可以認定為隨機抽取。
③數(shù)據(jù)更新截止到2018年3月5日。
參考文獻
[1]鄭堅,周尚波.基于神經(jīng)網(wǎng)絡的電影票房預測建模[J].計算機應用,2014,34(3):742-748.
[2]任丹.基于多元線性回歸模型的電影票房預測系統(tǒng)設計與實現(xiàn)[D].廣州:中山大學軟件工程學院,2015.
作者簡介:何曉雪,上海外國語大學新聞傳播學院學生。
畢圓夢,上海外國語大學新聞傳播學院學生。
姜 繩,上海外國語大學國際關系與公共事務學院博士生。