孟雪
隨著互聯(lián)網(wǎng)的發(fā)展,電影行業(yè)與互聯(lián)網(wǎng)的聯(lián)結(jié)也愈發(fā)緊密。電影網(wǎng)絡(luò)口碑的兩個維度為電影評分和電影評論,網(wǎng)絡(luò)口碑在一定程度上會對購買決策產(chǎn)生作用?;?017年賀歲檔影片的整體情況,選擇其中150部電影,運(yùn)用神經(jīng)網(wǎng)絡(luò)文本分類模型進(jìn)行文本數(shù)據(jù)分析,將評論內(nèi)容分為三類并賦值。再結(jié)合多元線性回歸模型,得到一個有關(guān)影片評論人數(shù)、評論內(nèi)容、評論星級和主演受歡迎程度的影片評分計(jì)算公式。影片評分的評分是影響人們觀影計(jì)劃的重要因素,所以,本文進(jìn)一步根據(jù)影片評分與票房之間的關(guān)系,實(shí)現(xiàn)影片票房的天體預(yù)測,個根據(jù)預(yù)測,可以實(shí)現(xiàn)影片宣傳成本的調(diào)控。
電影口碑文本分析BP神經(jīng)網(wǎng)絡(luò)多元線性回歸
普通大眾在選擇影片時,往往選擇較熱門的電影或者口碑良好的電影。在互聯(lián)網(wǎng)時代,人們會參看類似“豆瓣”的電影網(wǎng)站中其他網(wǎng)友的評論制定觀影計(jì)劃,有以下兩種情況:關(guān)注與自己態(tài)度一致的信息、關(guān)注與大多數(shù)人態(tài)度一致的信息。因此,我們認(rèn)為電影的口碑是影響電影票房的重要因素,及時的預(yù)測票房趨勢可以實(shí)時調(diào)整影片宣傳策略,實(shí)現(xiàn)投資成本的最優(yōu)規(guī)劃。
數(shù)據(jù)來源本文選取了2017年1月?3月的150部上映電影,它們的評價人數(shù)、觀眾對主演的喜愛程度、評價內(nèi)容和評價星級作為自變量,影片豆瓣評分為因變量。其中,評價內(nèi)容和星級來自國泰安數(shù)據(jù)庫。電影票房來自http://58921.com/電影票房數(shù)據(jù)庫。
結(jié)果與分析
(1)變量的神經(jīng)網(wǎng)絡(luò)自動分類模型
人為的對多個變量進(jìn)行分類是一個很大的工作量,我們利用BP神網(wǎng)絡(luò)算法構(gòu)建文本分類器,采用一種三層前饋型網(wǎng)絡(luò)來進(jìn)行自動知識獲取,既令其獲取其關(guān)鍵詞,并自動歸類。評價內(nèi)容一般可分為三種情況,一種是有利評論,一個未看過某電影的人看到評論后會產(chǎn)生看該電影的計(jì)劃;一種是不利評論,一個有看某電影計(jì)劃的人會取消看該電影的計(jì)劃。一種是客觀評論,感情色彩不明確,或者觀眾各執(zhí)一詞,最終不會影響一個人的觀影計(jì)劃。在實(shí)際操作中,我們需要首先將變量名稱的描述文字處理成神經(jīng)網(wǎng)絡(luò)可以接受的數(shù)值形式。
第一步,我們統(tǒng)計(jì)一部電影的所有評論的高頻詞匯,以“火鍋英雄”為例,有182個高頻詞,但是其中包含了許多沒有意義的詞,例如:the,and,by,of等,將這些無意義的詞作為停用詞刪去。
從剩余高頻詞中選取出其中能表現(xiàn)情感態(tài)度的高頻詞。以“火鍋英雄”為例,其高頻詞有“good”、“hero”、“humor”、“vivid”、“hotpot”等。顯然,電影“火鍋英雄”的評論以有利評論為主,我們認(rèn)為一個未看過“火鍋英雄”的人,在看完所有評論后,會產(chǎn)生觀看“火鍋英雄”的計(jì)劃。第二步,將所有電影的情感態(tài)度高頻詞統(tǒng)計(jì)出來以后,將所有有利詞匯,例如:“good”,“humor”,“excellent”,共263個詞匯提取出來,認(rèn)為它們是有序的。然后將每一條電影評論轉(zhuǎn)化為維度相同的向量,若含有這263個有利詞匯的第一個詞,則對應(yīng)向量的第一個元素為1,否則為0,依次下去??蓪⑺性u論轉(zhuǎn)化為一個263維的、由0,1組成的向量。利用R語言編程將所有變量轉(zhuǎn)化為向量。即神經(jīng)網(wǎng)絡(luò)自動分類模型的輸入向量。第三步,選取60個向量作為訓(xùn)練集,人為將其賦值。我們規(guī)定,類似“火鍋英雄”,以有利評論為主的電影評價內(nèi)容定義為1,類似“謀殺似水年華”,以不利評論為主的電影評價內(nèi)容定義為-1。則每個向量對應(yīng)一個類別編碼。即為輸出向量。第四步,將隱藏層神經(jīng)元設(shè)為6個,輸出層神經(jīng)元為設(shè)1個。學(xué)習(xí)率設(shè)為0.05,訓(xùn)練步數(shù)設(shè)為1000步,誤差限制設(shè)為le-5。當(dāng)誤差小于le-5或步數(shù)到達(dá)1000步時結(jié)束訓(xùn)練。訓(xùn)練方法采用Levenberg-Marquardt,誤差是逐漸減少的。這樣就建立起了神經(jīng)網(wǎng)絡(luò)文本分類器。下面將剩余的90個向量輸入神經(jīng)網(wǎng)絡(luò)文本分類器,就直接得出他們對應(yīng)的組別代碼,下面展示了部分結(jié)果。
(2)多元線性回歸分析的模型
進(jìn)行多元線性回歸,選取評價人數(shù)、觀眾對主演的喜愛程度、評價星級和評價內(nèi)容作為自變量,分別為x1,x2,x3,x4影片豆瓣評分為因變量y。計(jì)算變量間相關(guān)性,可知主演的喜愛程度變量與評分的相關(guān)性不大,其余自變量都與y有較強(qiáng)的相關(guān)性。再進(jìn)行多元線性回歸。主演的喜愛程度變量的t檢驗(yàn)的p值為0.681,不顯著,下面采用逐步回歸法進(jìn)行處理。新的變量系數(shù)擬合值均通過t檢驗(yàn),R2=0.8664,F(xiàn)檢驗(yàn)的p值<2.2e-16,認(rèn)為是顯著的。進(jìn)行回歸診斷,有一個異常值,將其剔除。檢查多重共線性,vif<2,說明沒有多種共線性。故影片評分的表達(dá)式:y=3.666+0.002x1+1.278x3+0.046x4(1)
根據(jù)2016年1月《消費(fèi)者報(bào)道》對195名消費(fèi)者進(jìn)行的問卷調(diào)查顯示,超過83%的消費(fèi)者會在觀影前參考影片評分;超過96%的消費(fèi)者表示觀影意愿會受到評分高低的影響,僅有4.32%的人完全不受評分影響??梢姡捌u分高低對票房具有一定影響,電影的票房一般與其評分成正比關(guān)系。計(jì)算各變量相關(guān)系數(shù),我們發(fā)現(xiàn)票房與評論人數(shù)、評分具有相關(guān)性。評論人數(shù)的多少與票房都體現(xiàn)了一部電影的社會影響程度,為方便計(jì)算,將票房單位改為千萬,可以得到票房與評論人數(shù)之間的關(guān)系式為:
y=0.286+0.3245x1,其中F檢驗(yàn)p值=5.494e-09,認(rèn)為是顯著的。
結(jié)論
(1)一部電影的口碑十分重要,電影評論會影響一部電影的評分。在已知一部電影的各方面評價信息后,可以大致推測出一部電影的最終評分,即具有參考價值的電影評分。對于網(wǎng)絡(luò)口碑與電影票房的關(guān)系,我們一般聽到四種組合:即叫好,又叫座;只叫好,不叫座;不叫好,卻叫座;不叫好,不叫座。通過實(shí)際案例分析,我們認(rèn)為兩者之間的關(guān)系難以這樣簡單概括,而是涉及多重的維度和多種因素介人。一般來說,評分與票房高低都呈現(xiàn)正比關(guān)系,存在兩種特殊情況——對于評分高票房低的電影,一般話題性不夠,營銷能力不佳,題材“陽春白雪”盡管部分觀眾在觀影之后有較好的體驗(yàn),使電影評分較高,但是難以引起其他觀眾的共鳴,不具有吸引力。對于評分低,票房高的電影,一般影片藝術(shù)表達(dá)具有一定特色,能夠滿足部分群體的需求并引發(fā)話題爭議,可以調(diào)動其他觀眾參與,從而促進(jìn)電影票房的增長。還有一種情況是影片藝術(shù)水平低劣但具有迎合性和娛樂性,由于產(chǎn)生了負(fù)面話題,反而引起其他觀眾的注意與審丑沖動,在一邊罵的同時一邊買票進(jìn)場觀看,且在觀影后參與到負(fù)面話題的討論中,這種行為是不理性的。此外,也存在一些來自娛樂新聞的不確定性話題炒作帶來的影響。
(2)隨著電影市場的成熟,盡管炒作現(xiàn)象仍然嚴(yán)重,觀眾也越來越理性,口碑經(jīng)不起推敲的影片會在短時期之內(nèi)跌落。業(yè)內(nèi)認(rèn)為,與2016年相比,2017年評分與票房的相關(guān)系數(shù)有了一定提高,這種提高反應(yīng)了電影市場的發(fā)展越來越健康。
(3)本文結(jié)論可應(yīng)用與以下方面:第一,在電影上映之后,隨時會出現(xiàn)有關(guān)該電影的評價,獲取這些評價可以得到該電影的實(shí)時評分,但是隨著觀看人數(shù)的提高,電影的評價類別也有可能發(fā)生變化,因此利用公式(1)得到的評分具有時效性。第二,理想情況下,可以通過所求的評分來預(yù)測票房,從而制定合理的影片宣傳策略,減少無用投資。通過計(jì)算電影評分與票房之間的相關(guān)系數(shù)值可以衡量我國電影市場的理性程度。
[1]可曉群,劉文卿,應(yīng)用回歸分析[M],4版,北京:中國人民大學(xué),2015,3:132-157
[2]RobertI.Kabacoff.R語言實(shí)戰(zhàn)(第二版).人民郵電出版社,2016,5.
[3]張杭,黃敏,《浙江藝術(shù)職業(yè)學(xué)院學(xué)報(bào)》[N],2016年3期.