唐中君,周亞麗
(北京工業(yè)大學 經濟與管理學院,北京 100124)
我國電影產業(yè)不斷繁榮發(fā)展,2019年全國總票房達642.66億元,銀幕總數超越北美,成為全球最大的電影市場。雖然我國電影產業(yè)不斷發(fā)展壯大,規(guī)模增長迅速,但是不同電影的投資回報存在較大的波動性。2019上半年國產電影前50部中僅有13部盈利;引進片中,《X戰(zhàn)警:黑鳳凰》等收益情況也不容樂觀。因此,電影票房預測有助于制定有效決策和規(guī)避風險。
對電影票房的預測可分為上映前和上映后的預測。電影的生命周期極短,上映前的預測顯得尤為重要[1]。上映前可獲得的票房影響因素有電影類型、導演票房影響力(以下簡稱導演影響力)、演員票房影響力(以下簡稱演員影響力)[1-6]、上映期票房影響力(以下簡稱上映期影響力)[3-6]、影片預告片播放量[6]、影片時長[7]等。導演影響力、演員影響力、上映期影響力等因素存在一定程度的模糊性。已有研究對演員影響力、導演影響力的量化方法有獎項提名數總和[5]、設置前一部電影是否成功作為虛擬變量并考慮前一部電影的票房表現[2]、搜索引擎搜索量[3]等。用上映日是否為節(jié)假日[6]或放映時間與熱門檔期的重合天數[5]等量化上映期影響力。這些量化方法沒有考慮導演影響力、演員影響力及上映期影響力的模糊性。
對模糊性變量的量化主要有概率和非概率方法[8]。概率方法需得到模糊性變量的精確概率分布。這對于導演影響力和演員影響力等模糊性變量的量化是難以做到的[9],然而采用非概率方法的區(qū)間數表示則是容易的。學者Young[10]提出區(qū)間數的思想,并用其解決不確定性和模糊性問題。運用區(qū)間理論時,對于模糊性變量無需知道精確值,只需給定大概范圍[8],并且在解決量化問題的同時提高信息利用率。由此可見,對于導演影響力、演員影響力等存在模糊性的變量,采用區(qū)間數量化更合理。區(qū)間理論不斷發(fā)展,已廣泛應用于工程分析[8,11-12]、綜合評價[13]、動態(tài)優(yōu)化[14]、巖爆等級預測[15]等多個領域,但未發(fā)現將其應用于電影票房預測方面的研究。
區(qū)間數只能用于量化票房影響因素,需結合其他方法才能在上映前預測電影總票房。目前電影票房預測方法有以神經網絡為代表的機器學習方法[1-4]、以線性回歸為代表的回歸類方法[5]、以Bass模型[16-17]為代表的擴散類方法等。這些方法與區(qū)間數結合會產生復雜的計算推演過程,但是TOPSIS法[18]則不同,其計算過程簡單。該方法依據決策方案的各描述指標與理想解的距離判斷決策方案的好壞[19]。方案的各指標值距正理想解越近、距負理想解越遠,則該方案越優(yōu)。將每部電影看作一個方案,以票房影響因素為票房評價指標,取各指標最大值和最小值為理想解,則可通過計算票房評價指標與理想解的接近程度判斷電影票房。高理想解貼近度對應高票房;反之,對應低票房。不同影響因素對票房的影響程度不同,需對各因素賦權。區(qū)間數和TOPSIS法無法完成對指標的賦權,因此需要一種指標賦權方法。熵權法是一種客觀賦權方法,權重結果依賴數據本身,科學合理性高[18]。電影上映前,電影口碑、在線評論、網站評分等重要信息未產生,使得上映前的票房點預測值精度難以保證。此外,電影上映前票房預測主要用于各類投資決策,區(qū)間預測值即可滿足投資決策要求。不同類型的電影有不同的觀眾群體,具有不同的票房規(guī)律。因此,按照電影類型分別進行票房預測更具可行性。
基于以上分析,本文將構建一種按照電影類型分別收集數據的結合區(qū)間理論、熵權法和TOPSIS法的電影上映前總票房區(qū)間預測方法。該方法選取票房的重要影響因素作為票房評價指標;采用區(qū)間數量化上映期影響力、導演影響力、演員影響力等評價指標;利用熵權法對各指標賦權;通過TOPSIS法得到票房理想解貼近度,確定不同票房級別對應的理想解貼近度區(qū)間,從而得到票房區(qū)間預測值。采用2015~2017年上映的劇情類和動作類電影驗證該方法的有效性。
結合區(qū)間理論、熵權法和TOPSIS法的電影上映前總票房區(qū)間預測方法如圖1所示。該方法包括票房評價指標的選取和量化、基于訓練集的票房理想解貼近度區(qū)間計算、基于測試集的方法驗證和待預測電影票房預測4個階段。其中,待預測電影票房預測階段與基于測試集的方法驗證階段流程相同,為方便起見,在圖1中,將兩者畫在一起。圖中實線矩形為數據操作過程;平行四邊形代表流程輸入和輸出;箭頭代表流程走向。圖中,η為理想解貼近度;分別為第i部電影第j個加權規(guī)范化后的票房評價指標與正理想解、負理想解的歐幾里得距離。
基于訓練集的票房理想解貼近度區(qū)間計算階段,以訓練集電影數據為輸入,通過熵權法確定指標權重區(qū)間、計算理想解。該階段的輸出為分級票房的理想解貼近度區(qū)間。基于測試集的方法驗證(待預測電影票房預測)階段,以測試集(待預測)電影數據為輸入,根據前述指標權重區(qū)間和理想解,計算測試集(待測試)電影的票房理想解貼近度。該階段的輸出為測試集(待預測)電影的票房預測級別,即票房區(qū)間預測值。
圖 1 結合區(qū)間數熵權法和理想解法的電影上映前總票房預測方法Figure 1 A prediction method for total box office before released based on interval theory, entropy weight, and TOPSIS
一部電影的成功與否,受多方面因素影響。能否從眾多因素中選取最關鍵的因素,關系著電影票房預測有效性。本文選擇如下9個因素,建立票房評價指標體系。
1.2.1 百度指數
百度作為全球最大的中文搜索引擎,其指數是分析網民行為的重要數據。電影上映前,電影發(fā)行方通常會組織大量的營銷宣傳活動。百度指數能體現電影營銷宣傳活動的力度?;诖?,選取百度指數為票房評價指標之一。為了保證數據一致性,以電影名稱為搜索關鍵詞收集電影百度指數。百度指數區(qū)間
其中,DBDi代表第i部電影百度指數區(qū)間。由于遺忘效應的存在,本文只收集電影上映前7 d的百度指數。其中,百度指數以d為基本單位;DBDiL、分別代表第i部電影上映前7 d百度指數的最小值和最大值。
1.2.2 微博話題關注度與微博電影視頻播放量
電影上映前,發(fā)行商通常在國內主流社交媒體“新浪微博”上宣傳。宣傳方式包括創(chuàng)建電影話題,發(fā)布電影宣傳片、預告片、花絮片等方式。區(qū)別于百度指數,社交媒體數據反映潛在觀眾對電影的關注程度,是電影票房的重要影響因素[20-21]。因此,選擇微博話題關注度、微博電影視頻播放量為電影票房評價指標。以上2個指標量化后的值為點數據,為便于計算,將其轉化為區(qū)間數
其中,DWGi代表第i部電影的微博話題關注度區(qū)間;DWG、DWG為第i部電影的微博話題關注度的最小值和最大值(人);DSPi代表第i部電影的微博電影視頻播放量區(qū)間;DSP、DSP分別為第i部電影的微博電影視頻播放量的最小值和最大值(萬次)。
1.2.3 上映期影響力
已有研究證實,票房表現與上映期密切相關[5]。上映期影響力指上映期對票房的影響程度。本文運用區(qū)間數量化上映期影響力為
其中,DDQi代表第i部電影的上映期影響力區(qū)間;DDQ、DDQ分別代表第i部電影上映期影響力區(qū)間的左端點和右端點。本文在文獻[4]有關上映期影響力量化的基礎上,將上映期影響力轉化為區(qū)間數。具體日期的影響力區(qū)間如表1所示。
表 1 上映期影響力區(qū)間Table 1 The influence range of release date
1.2.4 想看人數
電影上映前的營銷宣傳會增強觀眾的觀影意向。體現潛在觀眾觀影意向的指標有時光網、豆瓣電影網統(tǒng)計的想看人數。同種類型的電影在相同的網站統(tǒng)計想看人數數據。類似于微博話題關注度,想看人數為點數據,將其轉化為區(qū)間數為
其中,DXKi代表第i部電影的想看人數區(qū)間;分別為第i部電影的想看人數的最小值和最大值。
1.2.5 導演影響力
電影導演作為一部電影的執(zhí)導者,對電影票房的成功起著至關重要的作用。文獻[3]研究表明,新電影最大的魅力有包括電影導演在內的超級明星。導演影響力指導演對票房的影響程度為
其中,DDYi代表第i部電影的導演影響力區(qū)間分別代表第i部電影導演影響力區(qū)間的左端點和右端點。當該導演在第i部電影之前執(zhí)導的全部電影數目dr 0時,
式中,d?Boxofficeidp表示第i部電影導演在該電影之前執(zhí)導的第dp部電影的票房(萬元),dq=min(dr,3)。當dr=0時,
1.2.6 演員影響力
電影的呈現靠演員實現。演員專業(yè)水平、角色塑造能力影響著電影的質量,進而影響觀眾的觀影感受。演員影響力指演員對票房的影響程度。Allbert[22]的研究證明,當前電影的票房受演員前一部電影表現的影響。因此,本文以第一主演和第二主演在當前電影之前參演的電影的票房為基礎,量化演員的票房影響力區(qū)間,見式(9)~(12)。
其中,DZYi(k)代表第i部電影第k(k=1,2)主演影響力區(qū)間。當該演員在第i部電影之前參演的全部電影數目sr(k) 0時,
式中,s?Boxofficeisp(k)(k)表示第i部電影第k主演在參演第i部電影之前參演的第sp(k)部電影的票房(萬元)。tsp(k)表示演員在之前參演的第sp(k)部電影的角色排名,本文只取演員角色排名在10以內的電影。sq(k)=min(sr(k),3),sr表示該主演在第i部電影之前主演的全部電影數目,當sr(k)=0時,
1.2.7 電影時長
在正常的電影時長范圍和同等花費的條件下,觀眾傾向于觀看時長更長的影片。電影時長對電影票房有正向影響[7]。類似于微博話題關注度,電影時長是點數據
其中,DDSi代表第i部電影時長區(qū)間;分別為第i部電影時長的最小值和最大值(min)。
基于訓練集的票房理想解貼近度區(qū)間計算階段由數據規(guī)范化及熵權法確定權重、求加權規(guī)范化票房評價指標矩陣、確定每部電影的理想解貼近度和確定分級票房的理想解貼近度區(qū)間4部分組成。
1.3.1 數據規(guī)范化及熵權法確定權重
1) 數據規(guī)范化。
根據票房評價指標選取與量化階段選取的n個票房評價指標及量化方法,收集m部同類型電影原始數據,構建如式(13)所示的原始的區(qū)間數票房評價指標矩陣代表第i部電影第j個票房評價指標區(qū)間。
票房評價指標選取及量化階段選取的指標均為效益型指標,即指標值越大對票房越有益。針對效益型指標的規(guī)范化方式[23](見式(14)),代表規(guī)范化后的第i部電影第j個票房評價指標區(qū)間。對規(guī)范化,得到式(15)所示的規(guī)范化的區(qū)間數票房評價指標矩陣
2) 熵權法確定權重。
1.3.2 求加權規(guī)范化票房評價指標矩陣
根據數據規(guī)范化及熵權法確定權重階段得到的規(guī)范化區(qū)間數票房評價指標矩陣及各指標權重,建立加權規(guī)范化區(qū)間數票房評價指標矩陣(ci j)m×n為
進而根據求得的加權規(guī)范化區(qū)間數票房評價指標矩陣,得到如式(21)和(22)所示的正負理想解。代表第j個電影票房評價指標的正理想解;代表第j個電影票房評價指標的負理想解。
1.3.3 確定每部電影的理想解貼近度
確定票房理想解貼近度之前首先要確定票房評價指標與正負理想解之間的距離。歐幾里得距離是常用的一種距離定義。對于任意的2個區(qū)間數a=[aL,aU],b=[bL,bU],a和b之 間的歐幾里得距離[24]為
根據求加權規(guī)范化票房評價指標矩陣階段得到的理想解與加權規(guī)范化區(qū)間數票房評價指標矩陣,由式(23)可以得到每部電影票房評價指標與理想解的歐幾里得距離為
根據每部電影各指標與理想解的距離,確定各指標理想解貼近度 ηij與電影票房理想解貼近度ηi(i=1,2,···,m)[25]為
1.3.4 確定分級電影的理想解貼近度區(qū)間
2017年票房過億的92部電影中,票房2億以上的電影占據70%以上的份額。票房超過5億無疑是好營銷和好作品的結合?;诖耍瑢㈦娪捌狈糠譃?個等級:Ⅰ(5 000萬以下)、Ⅱ(5 000萬至2億)、Ⅲ(2億至5億)、Ⅳ(5億以上)。根據確定每部電影的理想解貼近度階段得到的每部電影的理想解貼近度及票房分級標準,確定每個等級的電影理想解貼近度區(qū)間。
1) 數據規(guī)范化。將測試集電影票房評價指標數據規(guī)范化處理,得到規(guī)范化的票房評價指標。
2) 確定加權規(guī)范化票房評價指標。按照式(20)對第1)步求得的規(guī)范化的測試集電影票房評價指標進行加權,得到加權規(guī)范化的測試集票房評價指標數據。其中,指標權重源自基于訓練集的票房理想解貼近度區(qū)間計算階段。數a=[aL,aU],b=[bL,bU],則稱P(a≥b)為a≥b的 可
3) 確定測試集電影票房理想解貼近度。首先判定第2)步中得到的加權規(guī)范化的票房評價指標與基于訓練集的票房理想解貼近度區(qū)間計算階段得到的理想解的大小。其中,對于任意的2個非負區(qū)間能度[26]
如果測試集中電影i的第j個加權規(guī)范化的票房評價指標大于正理想解的可能度大于0.5,則記該指標與理想解的貼近度反之,如果小于負理想解的可能度大于0.5,則該指標與理想解的貼近度記如果不是以上2種情況,則按照式(24)和(25)計算 ηij。最后按照式(26)計算待測試電影的理想解貼近度 ηi。
4) 測試集電影票房級別的預測。判定測試集電影i票房理想解貼近度屬于哪一票房理想解貼近度區(qū)間。該票房理想解貼近度區(qū)間對應的票房級別即為測試集電影i的票房預測級別,從而得到票房預測區(qū)間值。
由于待預測電影的票房預測流程與基于測試集的方法驗證流程相同,不再對待測試電影的票房預測流程加以贅述。
收集了2015~2017年上映的168部電影相關數據,最終選擇數量多且票房波動性居前2類的68部動作類電影和65部劇情類電影驗證本文提出的方法。首先,隨機抽取8部動作類和8部劇情類電影作為測試集,60部動作類和57部劇情類電影為訓練集,分別進行預測方法的驗證;其次,為進一步驗證方法的可靠性,利用樣本數據進行K-折交叉驗證。
根據本文選取的票房評價指標的特點及各網站數據顯示情況,本文各指標數據來源見表2。
表 2 各指標數據來源Table 2 Data source of each indicator
用57部劇情類和60部動作類電影分別作為訓練集,按照圖1所示的方法計算票房理想解貼近度區(qū)間。
按照式(17)~(19)求得劇情類和動作類電影各指標左右端點的熵以及指標權重,結果見表3。
根據指標權重,按照式(19)對規(guī)范化的區(qū)間數票房評價指標矩陣進行加權。按照式(21)和(22)求得各指標理想解,結果見表4。
表 3 指標熵及權重Table 3 The index entropy and weight
表 4 理想解Table 4 The ideal solution
根據理想解,用式(26)計算訓練集各電影的票房理想解貼近度,進一步得到各電影票房等級的票房理想解貼近度η 的取值區(qū)間,結果見表5。
用隨機選擇的8部動作類和8部劇情類電影分別驗證提出的電影上映前總票房區(qū)間預測方法。驗證結果見表6。
由表6可知,只有編號7、8劇情類電影和編號1、2、6動作類電影預測錯誤。所有預測結果沒有出現預測級別和實際級別差超過一個級別的樣本,預測結果可用來為影院排片以及發(fā)行商決策提供指導。
表 5 票房理想解貼近度區(qū)間Table 5 The ideal solution nearness degree interval of box office
為了進一步驗證預測方法的有效性,基于動作類和劇情類樣本數據進行K-折交叉驗證。K為進行交叉驗證的次數,K取5,將兩種類型電影樣本通過隨機抽樣分別分成5個樣本子集,輪流將其中4份做訓練集,1份做驗證集,用票房預測正確的電影數占測試集電影總數的比例計算預測準確率,將5次交叉驗證準確率的均值作為K-折交叉驗證結果。本文提出的預測方法在動作類和劇情類電影的K-折交叉驗證結果見表7。平均準確率分別為79.33%和73.92%,說明本文提出的預測方法具有一定有效性。
表 6 測試集驗證結果Table 6 The validation results of test set
表 7 交叉驗證結果Table 7 The cross-validation results%
因不同類型電影有不同需求規(guī)律,本文提出按電影類型分類的結合區(qū)間理論、熵權法和TOPSIS法的電影上映前總票房區(qū)間預測方法。為解決模糊性票房影響因素的量化問題,提出用區(qū)間數量化票房評價指標;考慮數據本身信息的效用值,采用熵權法對各指標賦權;根據TOPSIS法求解每部電影的票房理想解貼近度,根據每個級別電影的票房理想解貼近度區(qū)間判斷待預測電影票房所屬的級別,從而得到區(qū)間預測值。用2015~2017年上映的68部動作類和65部劇情類電影驗證了提出的預測方法的有效性。該方法對于與電影類似的短生命周期體驗品的早期需求預測具有一定的參考價值。本方法的預測結果存在一定誤差,主要原因是沒有考慮口碑和電影制作成本等指標。以后的研究有必要考慮增加指標。