《IT時代周刊》特約撰稿人/陳昌業(yè)(發(fā)自北京)
責(zé)編:張里 E-mail:zhangli@ittime.com.cn 美編:圓圓 校對:媚子
截至10月16日,《黃金時代》的累計票房為4698萬(已上映16天),如此成績對于片方、媒體和公眾而言都是出乎意料,畢竟?jié)M滿的7天國慶黃金檔是一個日產(chǎn)斗金的高產(chǎn)值檔期。無論是湯唯還是馮紹峰都已是炙手可熱的有極高票房號召力的大明星,此役失利,堪稱冷門。
但最令人啞然的恐怕還是影片上映前百度為其背書的票房預(yù)測,當(dāng)時很多媒體還認(rèn)為百度的預(yù)測太過保守。在百度百發(fā)的新聞發(fā)布會上,當(dāng)宣布預(yù)測票房為2.0-2.3億后,全場只有安靜,畢竟這個為期七天的黃金檔期對于擁有湯唯和馮紹峰的電影而言,只預(yù)計這個數(shù)字略顯保守了,但如此謹(jǐn)慎的預(yù)測,在今天看來竟顯得過于“樂觀”。
其實,百度很早就開始研究并在內(nèi)部預(yù)測票房了,在今年7月18日愛奇藝影業(yè)宣布成立的新聞發(fā)布會上,愛奇藝首席內(nèi)容官馬東就透露,目前在愛奇藝內(nèi)部,基于百度大數(shù)據(jù)的票房預(yù)測已經(jīng)能夠做到80%以上的準(zhǔn)確率,未來將會在適當(dāng)?shù)臅r候?qū)ν獍l(fā)布票房預(yù)測。顯然,針對《黃金時代》的百度百發(fā)(娛樂眾籌產(chǎn)品)發(fā)布就成為了百度發(fā)布票房預(yù)測的適當(dāng)時候,但只可惜出師未捷。
為什么中國最有能力做大數(shù)據(jù)預(yù)測的百度,竟會“意外”地馬失前蹄?
不到5000萬的票房收入,讓投資方百度百發(fā)早期通過大數(shù)據(jù)技術(shù)對《黃金時代》國慶期間的票房預(yù)測完全失真。
愛夢娛樂大數(shù)據(jù)創(chuàng)始人雷鳴和凡影調(diào)研客戶總監(jiān)王舒都認(rèn)為,在國內(nèi)做電影票房預(yù)測存在一個根本性的“疏漏”,就是中國電影市場的歷史數(shù)據(jù)沉淀嚴(yán)重不足。
我國有詳細(xì)、清楚和準(zhǔn)確的票房記錄是從2012年開始。當(dāng)年2月,全國電影票務(wù)綜合信息系統(tǒng)(簡稱新平臺)上線。該平臺共規(guī)劃了信息速遞、行業(yè)管理、影院管理、影片管理、票房數(shù)據(jù)接收、放映數(shù)據(jù)接收、監(jiān)控管理、專資收繳管理、專資使用管理、查詢統(tǒng)計、分析預(yù)測、GIS綜合展示、安全認(rèn)證、系統(tǒng)管理、SSL應(yīng)用共15個模塊,77項功能。從技術(shù)上實現(xiàn)了能夠準(zhǔn)確統(tǒng)計全國的票房、場次、排片等影院端生成的數(shù)據(jù)。
在此之前,除了年底由國家電影專資辦統(tǒng)計出具的權(quán)威票房數(shù)據(jù)外,其他每周、每月票房的數(shù)據(jù)多是由專業(yè)人士根據(jù)抽樣的統(tǒng)計進(jìn)行估算。
雷鳴介紹,愛夢娛樂大數(shù)據(jù)為了彌補(bǔ)公開的票房數(shù)據(jù)資料不足,自己做了大量的“臟活、累活”,對2010年以來的國產(chǎn)電影單片的投資額、票房、演員陣容等進(jìn)行了盡可能的資料搜集和統(tǒng)計,并進(jìn)行了標(biāo)簽化的整理,從而形成自己的具備一定沉淀量的結(jié)構(gòu)化數(shù)據(jù)。
王舒還特別提到,從2012年有詳盡票房統(tǒng)計以來的數(shù)據(jù)并不足夠有參考價值以作為票房預(yù)測的基礎(chǔ),因為中國電影產(chǎn)業(yè)自2012年以來連續(xù)地進(jìn)入了一段爆發(fā)式增長期,從百億迅速跨越到200億元,甚至今年有望沖擊300億元。
“穩(wěn)定性是做趨勢性預(yù)測的基礎(chǔ)?!蓖跏嬲J(rèn)為,“高速增長是具破壞性的,如果根據(jù)這樣的數(shù)據(jù)進(jìn)行預(yù)測,則必須作出實時的調(diào)整才能相對準(zhǔn)確?!本屯跏婵磥?,只有等到中國電影的票房產(chǎn)值進(jìn)入到一個穩(wěn)定的平臺期,電影的消費(fèi)習(xí)慣趨于穩(wěn)定,才可能作出基于統(tǒng)計分析“準(zhǔn)確”的趨勢性預(yù)測。
據(jù)百度大數(shù)據(jù)部產(chǎn)品規(guī)劃負(fù)責(zé)人祖崢介紹,百度票房預(yù)測基于百度每日60億次的搜索查詢數(shù)據(jù)、1億規(guī)模的微博數(shù)據(jù)以及10年電影行業(yè)數(shù)據(jù),通過百度大數(shù)據(jù)引擎將數(shù)據(jù)進(jìn)行整合、建模和清洗,輸出針對特定電影的搜索指數(shù)、社交指數(shù)、演員指數(shù)、導(dǎo)演指數(shù)等,最終可以導(dǎo)出電影總票房預(yù)測和7日票房預(yù)測等數(shù)據(jù)。
雷鳴認(rèn)為,百度的搜索排名以及搜索結(jié)果導(dǎo)出的各類指數(shù)都會有大量來自于片方及其宣傳公司,即非自然形成的人為推高——這在電影行業(yè)的宣傳里司空見慣,當(dāng)然也是百度的競價排名等與搜索結(jié)果有關(guān)的收費(fèi)服務(wù)所提供的“宣傳空間”。
如果是這些 “結(jié)果”,本身由此就會存在大量的誤導(dǎo),這在雷鳴的描述里被稱作統(tǒng)計上的“噪音”,亦被稱作“臟數(shù)據(jù)”。雷鳴認(rèn)為,不排除《黃金時代》存在這些“噪音”,而百度方面很有可能因為沒有能夠剝離這些“臟數(shù)據(jù)”,從而“被自己欺騙了”。
關(guān)于百度預(yù)測模型,媒體公開的資料顯示,“這一產(chǎn)品結(jié)合百度搜索數(shù)據(jù)、新浪微博數(shù)據(jù),以及中國電影過去幾年的歷史票房數(shù)據(jù),可以從演員熱度、導(dǎo)演熱度、電影關(guān)注度、上映時間等多個維度對一部電影進(jìn)行票房預(yù)估?!?/p>
凡影調(diào)研客戶總監(jiān)凌毅認(rèn)為,僅從披露的信息看,模型內(nèi)包含的數(shù)據(jù)維度并不足夠多,“或許該模型還處在初級階段。”凌毅提到了從媒體公布的資料看,特別是忽略了檔期內(nèi)其他競爭影片這一重要的參考維度。而據(jù)其分析,該片之所以會票房失利,與影片對國慶檔期的錯判,特別是該檔期內(nèi)觀眾的消費(fèi)心理錯判有很大的關(guān)系。凌毅介紹,樂視影業(yè)內(nèi)部對于電影項目的數(shù)據(jù)決策模型中,基于同檔期競爭影片的數(shù)據(jù)分析是十分重要的數(shù)據(jù)維度。
搜狗方面亦對此頗為認(rèn)同,“影響票房的未知因素多:導(dǎo)演、演員、劇本、宣傳、首映時間、影片檔期、同期競爭的影片、CPI、經(jīng)濟(jì)周期、天氣情況、影院的排片率、上座率、票價、是否3D等。此外,《黃金時代》與多部電影同步上映,互相影響。而很多數(shù)據(jù)都是基于單部電影,對多部電影相互影響的作用并不好分析預(yù)判。百度票房預(yù)測的數(shù)據(jù)來源和覆蓋人群還是非常廣的,只是如上所述,預(yù)測過程中充滿了不確定性,特別是一些不可預(yù)期的變量會對預(yù)測結(jié)果產(chǎn)生比較大的影響,這點(diǎn)在部分電影中表現(xiàn)會比較明顯,也是不可避免的?!?/p>
在王舒看來,變量遺漏和樣本偏差是做統(tǒng)計性趨勢分析的最大敵人。前者即是凌毅提到的問題,維度的不夠豐富,不僅可能是因為疏漏而導(dǎo)致沒有納入到統(tǒng)計口徑內(nèi),還可能是因為互聯(lián)網(wǎng)內(nèi)的數(shù)據(jù)目前仍然存在“門戶”壁壘——無法打通一些關(guān)鍵的大數(shù)據(jù),譬如說微博數(shù)據(jù)與微信數(shù)據(jù)打通,百度的搜索引擎內(nèi)沉淀的數(shù)據(jù)與騰訊在QQ、微信上沉淀的用戶數(shù)據(jù)打通,淘寶、京東、貓眼等電商或O2O平臺內(nèi)的數(shù)據(jù)之間打通,這些具有強(qiáng)關(guān)聯(lián)性的數(shù)據(jù)目前還難以實現(xiàn)分享,而這些數(shù)據(jù)不能打通,則任何一方對于“人”的消費(fèi)行為描述、消費(fèi)心理觀察都必然會有相當(dāng)程度的偏頗,變量遺漏也就在所難免了。
樣本偏差指的是,“在沒有嚴(yán)格遵循隨機(jī)的原則時,所覆蓋的樣本越大反而會導(dǎo)致誤差越大?!绷硗?,由于搜索只是一種表示興趣的行為,如果僅以一小部分人的興趣來推測全體的購票決策,準(zhǔn)確度有限是難免的。
“大數(shù)據(jù)不實用。”王舒認(rèn)為,“做這種預(yù)測,對于電影票房并沒有直接的幫助。這是一個無法證偽,也無法證實的預(yù)測?!庇城暗钠狈款A(yù)測如果高了,片方也不會就不作為,干等勝利成果,那么預(yù)測后所進(jìn)行的努力就成了對于票房最終結(jié)果的助力,從而也就無法證實彼時的預(yù)測與此時的成績之間是否可以稱作是準(zhǔn)確。反之亦然,預(yù)測低了,片方當(dāng)然會盡最大努力調(diào)整營銷策略,那無論最終準(zhǔn)確與否都無法判斷彼時預(yù)測的結(jié)果究竟對與否。因此,除了為影片增加噱頭外,票房預(yù)測可以說沒有價值。
凌毅指出,樂視影業(yè)內(nèi)部的數(shù)據(jù)及策略中心,會在電影的投資階段,便參與到對項目的市場評估,幫助影片在制作上做調(diào)整。而在電影進(jìn)入到發(fā)行階段之后,更會基于對本體、檔期、競品等的數(shù)據(jù)分析,來制定相應(yīng)的市場策略,包括通過對實施效果的實時監(jiān)測,來修正和調(diào)整營銷策略。凌毅強(qiáng)調(diào),數(shù)據(jù)分析更像是一個工具,它能修正經(jīng)驗及主觀意識的偏見,幫助片方在營銷上少做錯誤的決策,但絕不是包治百病的萬靈丹。
“目前,電影領(lǐng)域談大數(shù)據(jù),還為時過早?!绷枰阏J(rèn)為,電影行業(yè)仍然還是傳統(tǒng)產(chǎn)業(yè),從制造到消費(fèi)都是線下完成,即便現(xiàn)在有電商介入購票環(huán)節(jié),但是絕大部分的線下行為都無法數(shù)據(jù)化導(dǎo)入到線上,從而形成具有因果關(guān)聯(lián)性的大數(shù)據(jù)沉淀?!鞍ㄔ跇芬曈皹I(yè)內(nèi)部,目前數(shù)據(jù)對我們最具意義的部分,其實在于它是一套培養(yǎng)良好思維習(xí)慣的工具,大數(shù)據(jù)的前景在將來?!?/p>
王舒與凌毅觀點(diǎn)相似,他認(rèn)為大數(shù)據(jù)盡管不同于過去強(qiáng)調(diào)因果關(guān)系的統(tǒng)計分析,但強(qiáng)調(diào)關(guān)聯(lián)性的大數(shù)據(jù)并非無需因果,仍然需要有因果關(guān)系的數(shù)據(jù)導(dǎo)入。否則,全世界發(fā)生的事情都只要用“蝴蝶效應(yīng)”來解釋就足矣。
僅就電影行業(yè)的大數(shù)據(jù)而言,一方面需要較長時間的歷史沉淀數(shù)據(jù)——王舒認(rèn)為是十年后;另一方面需要有大量的第三方公司參與到行業(yè)中來,幫助打通各個陣營、領(lǐng)域、行業(yè)中“孤立”的數(shù)據(jù),關(guān)聯(lián)才是大數(shù)據(jù)中“大”的真正價值。因此,沉淀票房的歷史數(shù)據(jù)以及與電影行業(yè)有關(guān)的其他數(shù)據(jù)才是當(dāng)務(wù)之急,經(jīng)年累月后,這些大數(shù)據(jù)能夠產(chǎn)生巨大的分析價值,不止于票房預(yù)測。