賀文
有人稱他們是為電影“算命”,但劉晗以為,“看病”更準(zhǔn)確。劉晗他們創(chuàng)業(yè)的新影數(shù)訊,就是將數(shù)據(jù)分析、數(shù)據(jù)挖掘應(yīng)用到電影票房的預(yù)測(cè)上。這是一個(gè)創(chuàng)業(yè)不到兩年的團(tuán)隊(duì),現(xiàn)在是十余人的規(guī)模,卻掌握了20000部電影、60000名藝人、4000位導(dǎo)演的數(shù)據(jù)資料,并能對(duì)微博80%活躍用戶中的影迷約8000萬(wàn)人進(jìn)行偏好分析。
劉晗介紹,新影數(shù)訊開(kāi)發(fā)的“iFilm+”系統(tǒng)即通過(guò)數(shù)據(jù)分析,將影視作品和用戶的行為關(guān)聯(lián)起來(lái)?!拔覀兺诰蛴脩簦ㄓ懊裕?duì)娛樂(lè)產(chǎn)品(影片)的娛樂(lè)訴求和價(jià)值感知,然后我們精準(zhǔn)地計(jì)算出某部影片的受眾人群的意愿。在知道了什么樣的電影會(huì)成功之后,我們便能對(duì)制片人和導(dǎo)演提出決策建議。”在這一思路下,原本是B2C模式的電影產(chǎn)業(yè),將出現(xiàn)C2B的變化。劉晗說(shuō),“iFilm+”預(yù)測(cè)一部電影的市場(chǎng)表現(xiàn),在上映前一個(gè)月左右,其準(zhǔn)確度能達(dá)到80%。
這套算法也不是萬(wàn)能的?!癷Film+”能說(shuō)明白應(yīng)該怎樣做,卻不能解釋為什么,這也不是“iFilm+”的缺陷,而是因?yàn)椤按髷?shù)據(jù)只解釋相關(guān)性的問(wèn)題,不解釋因果”。此外,這套算法只能做到測(cè)算商業(yè)片的價(jià)值回報(bào),卻算不出“電影能不能得獎(jiǎng),會(huì)不會(huì)感人”。
將數(shù)據(jù)分析、數(shù)據(jù)挖掘應(yīng)用到影視領(lǐng)域,劉晗認(rèn)為能做兩件事,預(yù)測(cè)和推薦。新影數(shù)訊選擇了toB“預(yù)測(cè)”,回避了toC“推薦”。因?yàn)橹袊?guó)的互聯(lián)網(wǎng)用戶,還沒(méi)有特別好的付費(fèi)習(xí)慣,而比較常見(jiàn)的電影票抽成的做法,給他們這類服務(wù)商留下的利潤(rùn)空間已經(jīng)很薄。
“手工清洗”數(shù)據(jù)
事實(shí)上,電影行業(yè)利用數(shù)據(jù),在好萊塢不是新鮮事兒。在好萊塢工業(yè)體系下,一部電影從研發(fā)、創(chuàng)作生產(chǎn)到發(fā)行,都能看到數(shù)據(jù)的身影。而且,好萊塢在數(shù)據(jù)庫(kù)建設(shè)方面的基礎(chǔ)工作做得很早、很扎實(shí)。在中國(guó)情況則大不相同。有業(yè)內(nèi)人士曾說(shuō),“中國(guó)電影產(chǎn)業(yè)多數(shù)時(shí)候都是拍腦門憑經(jīng)驗(yàn),過(guò)去連每周票房的實(shí)際數(shù)據(jù)都拿不到,很多數(shù)據(jù)都不靠譜,更不要說(shuō)其他精確數(shù)據(jù)了”。
那新影數(shù)訊的“iFilm+”,是如何解決數(shù)據(jù)來(lái)源難題呢?影片制作端、影片消費(fèi)端這兩端的信息數(shù)據(jù),“iFilm+”是如何完成積累的?
按照新影數(shù)訊的理念,電影的名稱、陣容、劇本、檔期、宣傳點(diǎn)、主題曲、互聯(lián)網(wǎng)版權(quán)等30多個(gè)參數(shù)變量共同決定了一部影片是否能獲得成功。他們的設(shè)想是,從過(guò)往上映的電影抽樣中,找到相關(guān)數(shù)據(jù),然后利用計(jì)算機(jī)確定出定量和公式。這部分做法類似于好萊塢的票房預(yù)測(cè)體系。但“iFilm+”不僅如此,還引入了社交網(wǎng)絡(luò)的數(shù)據(jù),將微博等社交網(wǎng)絡(luò)上涉及到演員、角色、電影結(jié)局等內(nèi)容作為變量。“300個(gè)人月”,這是劉晗他們用在電影行業(yè)數(shù)據(jù)收集與整理上的時(shí)間。換句話說(shuō),如果有20個(gè)人手的話,得做15個(gè)月。
光有人力和時(shí)間的投入還不夠,還得有技術(shù)手段的介入。劉晗舉例說(shuō),很多網(wǎng)絡(luò)數(shù)據(jù)庫(kù)對(duì)于演員票房貢獻(xiàn)度的算法很粗糙,他們則是按照戲份的多少、臺(tái)詞的多少等來(lái)計(jì)算演員票房貢獻(xiàn)度。即便像《十二生肖》這種由成龍編劇、導(dǎo)演、主演的影片,按照劉晗他們的系統(tǒng)計(jì)算,成龍的票房貢獻(xiàn)度也不到70%。最初的時(shí)候,劉晗他們甚至用“最笨”的方法——找人看一遍電影——來(lái)核實(shí)一些影片基本信息的真實(shí)與否?!斑@些電影行業(yè)的原始數(shù)據(jù)都是我們自己‘手工洗過(guò)的,我們能做到現(xiàn)在這一步,也是因?yàn)楦闪撕芏嗫嗷罾刍?,所以不怕新浪、騰訊或者百度?!眲㈥险f(shuō)。
即便如此,電影行業(yè)本身的數(shù)據(jù)還都不是“大數(shù)據(jù)”,劉晗認(rèn)為,社交媒體的用戶行為數(shù)據(jù),才是真正的大數(shù)據(jù)。但這部分?jǐn)?shù)據(jù)的收集和整理的難題是,如何過(guò)濾掉數(shù)據(jù)的“雜音”?劉晗反倒不認(rèn)為這是難事。在創(chuàng)業(yè)之前,他曾在新浪的無(wú)線部門做技術(shù),很熟悉新浪微博的底層技術(shù),他還在中移動(dòng)旗下的卓望公司工作過(guò),參與搭建了卓望整個(gè)的開(kāi)放平臺(tái),卓望當(dāng)時(shí)主要負(fù)責(zé)中移動(dòng)“移動(dòng)夢(mèng)網(wǎng)”。“抓取數(shù)據(jù),識(shí)別僵尸粉絲、判定灌水、攔截機(jī)器人等,我們相對(duì)有得天獨(dú)厚的條件?!?/p>
那么,“iFilm+”獲取用戶行為數(shù)據(jù)會(huì)否受到微博等新媒體平臺(tái)的限制?“其實(shí)不會(huì)?!眲㈥辖忉屨f(shuō),這里只有“懶人和勤快人的區(qū)別”。從對(duì)方平臺(tái)的接口抓取數(shù)據(jù),是最省事的;如果對(duì)方不開(kāi)放數(shù)據(jù)接口,則可以用機(jī)器模擬一個(gè)真實(shí)用戶看這些網(wǎng)頁(yè)的行為,也能抓取數(shù)據(jù)。
在創(chuàng)業(yè)早期,因?yàn)閿?shù)據(jù)的存儲(chǔ)有壓力,劉晗他們不得已要“忍痛割愛(ài)”刪一些相對(duì)“老”的數(shù)據(jù),或者對(duì)現(xiàn)在或者半年一年后的趨勢(shì)判斷沒(méi)有太大影響的數(shù)據(jù);此外,他們還建立了數(shù)據(jù)存儲(chǔ)的分級(jí)更換機(jī)制,比如9天之內(nèi)的是熱數(shù)據(jù),存在機(jī)器內(nèi)存里,老一點(diǎn)的數(shù)據(jù)放在硬盤上,再老一點(diǎn)的用磁盤、光盤備份等。
劉晗透露,今年新的融資將主要投在硬件設(shè)備上,“做大數(shù)據(jù)需要有存儲(chǔ)量大、計(jì)算量大的設(shè)備,我們現(xiàn)有20多臺(tái)服務(wù)器特別不夠,現(xiàn)在基本上每?jī)芍芫鸵硬畈欢嘈∫蝗f(wàn)塊錢的硬盤設(shè)備”。
做toB的生意
在數(shù)據(jù)分析上,劉晗是技術(shù)高手,但是對(duì)電影,他原本卻是個(gè)門外漢。新影數(shù)訊的“iFilm+”,就像劉晗本人一樣,在與電影業(yè)界人士、制片方的線下接觸中,不斷熟悉電影行當(dāng),不斷豐富對(duì)電影票房的計(jì)算維度。
在商業(yè)模式上,劉晗他們選擇了toB,而非toC。這也是劉晗認(rèn)為的,在把大數(shù)據(jù)應(yīng)用到影視領(lǐng)域時(shí),新影數(shù)訊與豆瓣電影的不同。他們toB做的是有關(guān)電影投資/拍攝的咨詢服務(wù)建議,也有toC的“推薦”,但是他們沒(méi)有把toC的結(jié)果直接轉(zhuǎn)化成toC的業(yè)務(wù)模式,而是反向操作,把用戶喜歡的東西做成toB的咨詢建議。劉晗總結(jié),他們的商業(yè)模式/業(yè)務(wù)模式是針對(duì)影片的投資方/出品方/宣傳方。在他看來(lái),電影產(chǎn)業(yè)不應(yīng)該是一個(gè)“拍腦門憑經(jīng)驗(yàn)”行當(dāng),而應(yīng)該“需要更加理性的數(shù)據(jù)來(lái)幫助判斷”。
大數(shù)據(jù)讓影視界感受到“沖擊”的經(jīng)典案例,當(dāng)屬美國(guó)視頻網(wǎng)站Netflix推出的電視劇《紙牌屋》,該劇無(wú)論是劇情設(shè)置還是選擇演員、導(dǎo)演陣容,都以用戶在網(wǎng)站上的行為和使用數(shù)據(jù)做支撐,根據(jù)官方公布的數(shù)據(jù),3/4訂閱者都會(huì)接受Netflix的觀影推薦。
同樣都是將大數(shù)據(jù)應(yīng)用到影視領(lǐng)域,新影數(shù)訊與Netflix的做法不一樣。首先,新影數(shù)訊收集的是微博等第三方平臺(tái)的用戶數(shù)據(jù),Netflix是以自己平臺(tái)上用戶產(chǎn)生的數(shù)據(jù)為支撐;其次,Netflix的商業(yè)模式是用戶付費(fèi),它有2000多萬(wàn)付費(fèi)用戶,而新影數(shù)訊選擇的是toB模式。
新影數(shù)訊現(xiàn)在有兩種收費(fèi)方式:一是收取固定的服務(wù)費(fèi);另一種是他們更愿意大規(guī)模拓展的,影片票房增值部分的分成?!氨热缫徊坑捌?,投資方認(rèn)為能有1.5億元的票房,我們通過(guò)數(shù)據(jù)分析預(yù)測(cè)票房能到2億元,如果最后票房超過(guò)1.5億元,那么增值部分投資方每多賺1000萬(wàn)元,我們多抽1%?!比绻堑诙N業(yè)務(wù)模式,新影數(shù)訊則需要在劇本環(huán)節(jié)就得介入,包括劇本接不接地氣、如何選演員等。劉晗透露,今年新影數(shù)訊主要承接的都是此類合作,“開(kāi)花結(jié)果”將集中到明年年底。
期間也有人建議過(guò)劉晗他們做藝人經(jīng)紀(jì),或者從現(xiàn)在做影片的數(shù)據(jù)分析挖掘,拓展到舞臺(tái)劇、話劇等,但劉晗都拒絕了,而是堅(jiān)持把主線放在“對(duì)影視行業(yè)娛樂(lè)數(shù)據(jù)、用戶觀影行為、用戶對(duì)演員的評(píng)價(jià)等要素的分析整理上”。在他看來(lái),這是資源有限的創(chuàng)業(yè)團(tuán)隊(duì),要經(jīng)得住的“誘惑”,要懂得取舍。
在堅(jiān)持“主線”的同時(shí),劉晗也在考慮更大效率地商業(yè)化“iFilm+”的數(shù)據(jù)分析挖掘能力。他們已與一些影視投資基金和制片方合作,以代管基金的方式,嘗試介入到影片投資環(huán)節(jié);他們也在嘗試影片植入廣告的服務(wù)。