李振興 韓麗娜 史楠
摘 要:決策樹是一種具有樹形結(jié)構(gòu)的機器學(xué)習(xí)算法,能夠在短時間內(nèi)處理數(shù)據(jù),并能直觀地顯示數(shù)據(jù)特性。具有速度快、直觀、精度高等特點。本文在大數(shù)據(jù)分析的基礎(chǔ)上,以2018年國內(nèi)上映的30部國產(chǎn)電影的信息數(shù)據(jù)作為訓(xùn)練模型,選取C4.5算法作為工具,構(gòu)建出基于決策樹算法的票房預(yù)測模型。經(jīng)過測試,該模型的準(zhǔn)確率為78%,并從中分析出影響票房的關(guān)鍵因素是演員。
關(guān)鍵詞:決策樹算法;電影票房;預(yù)測
文章編號:2095-2163(2019)04-0132-05 中圖分類號:TP311 文獻(xiàn)標(biāo)志碼:A
0 引 言
電影產(chǎn)業(yè)是一項高投資、高收益、高風(fēng)險的行業(yè),當(dāng)今社會已進(jìn)入了大數(shù)據(jù)時代,可以將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電影票房的預(yù)測研究中,為投資者智能規(guī)避電影投資風(fēng)險,并幫助影院運營商優(yōu)化放映計劃,實現(xiàn)收益的最大化[1-2]。本文提出了一種基于決策樹算法的票房預(yù)測模型,該模型將預(yù)測問題轉(zhuǎn)換為分類問題,將電影類型、演員流量程度、導(dǎo)演知名度作為自變量,電影票房類別作為因變量。與以往的主觀假設(shè)和頭腦風(fēng)暴相比,這是一種更可靠、更科學(xué)的方法[3]。
1 決策樹算法及相關(guān)概念
1.1 決策樹
決策樹算法采用的是自頂向下的貪婪算法,在每個節(jié)點上選擇出最優(yōu)屬性進(jìn)行分類。算法包括 ID3、C4.5、CHAID、CART、SLIQ、SPRINT等。其中C4.5算法在2006年12月舉行的國際數(shù)據(jù)挖掘會議(ICDM)上,排在十大數(shù)據(jù)挖掘算法之列[4]。
1.2 C4.5算法
C4.5算法是一種基于信息熵的機器學(xué)習(xí)算法,主要采用信息增益率作為條件屬性的判斷標(biāo)準(zhǔn),信息增益率越高,數(shù)據(jù)分類能力越強。因此,分別計算每一個條件屬性的信息增益率,選取信息增益率最高的屬性作為下一個分裂節(jié)點,以此遞歸即可構(gòu)建C4.5決策樹[5-7]。相關(guān)公式如下:
1.3 決策樹修剪
由于決策樹是由訓(xùn)練數(shù)據(jù)集生成的,許多分支反映的是噪聲或孤立點,這可能會增加決策樹分類的錯誤率,因此有必要對決策樹進(jìn)行修剪 [10]。修剪決策樹一般分為:預(yù)剪枝法和后剪枝法。預(yù)剪枝法是在樹生長的過程中設(shè)置一定的標(biāo)準(zhǔn)來阻止樹木繼續(xù)生長。后剪枝法是待決策樹完全生成后再進(jìn)行剪枝。后剪枝方法比預(yù)剪枝方法需要更多的計算量,但通??梢援a(chǎn)生更可靠的樹[11-12]。
2 應(yīng)用決策樹技術(shù)預(yù)測電影票房
2.1 數(shù)據(jù)準(zhǔn)備
本次研究中數(shù)據(jù)信息來源于“中國電影票房年度總排行榜”網(wǎng),從中抽取48部電影,將其中的30部作為訓(xùn)練樣本數(shù)據(jù),剩余的18 部作為測試樣本數(shù)據(jù)。數(shù)據(jù)源主要包括電影類型、電影導(dǎo)演、電影主演。原始數(shù)據(jù)見表1。
2.2 數(shù)據(jù)預(yù)處理
(1)電影類型。每位觀眾在不同階段可能會有不同的喜好,因此電影類型對于電影票房很重要。變量值有:劇情、喜劇、奇(科)幻、愛情。
(2)電影導(dǎo)演。導(dǎo)演是影片制作的領(lǐng)導(dǎo)者和組織者,決定著影片的質(zhì)量和影片藝術(shù)風(fēng)格。通過對這些導(dǎo)演的獲獎情況和近三年來執(zhí)導(dǎo)電影所獲票房的均數(shù)進(jìn)行分析。將國內(nèi)頂級的大導(dǎo)演劃分為高層次,知名導(dǎo)演劃分為中等層次,非知名導(dǎo)演劃分為低層次。
(3)電影主演。演員具有一定程度的票房號召力,觀眾會因為喜歡的演員而選擇電影。通過對“2018年中國內(nèi)地演員排行榜”的數(shù)據(jù)分析,將排名前50的演員劃分為高流量演員,排名51-300的演員劃分為中等流量演員,排名300以后的演員劃分為低流量演員。
(4)電影票房。作為數(shù)據(jù)的因變量,參考國外學(xué)者Ramesh[13]的票房劃分方法,將票房收益高于6億的電影劃分為高票房,將票房收益介于1億至6億之間的電影劃分為中等票房,將票房收益低于1億的電影劃分為低等票房。
經(jīng)過數(shù)據(jù)預(yù)處理后,量化表示數(shù)據(jù)表中的描述性文字,得到了30個處理后的數(shù)據(jù)訓(xùn)練樣本,見表2。
2.3 C4.5構(gòu)造決策樹
(4)建立決策樹。因為屬性actor的信息增益率最大,所以選擇屬性actor作為根結(jié)點。按照actor的取值,對30個樣本進(jìn)行分支得到3個子集,如圖1所示。并對每個子集按照以上方法創(chuàng)建分支,最后得到C4.5決策樹,如圖1所示。最后采用后修剪方式,修剪后的C4.5決策樹如圖2所示。
2.4 模型評估
為了驗證模型的可靠性,根據(jù)圖3的決策樹對18個測試樣本數(shù)據(jù)進(jìn)行了測試,其中14條數(shù)據(jù)與模型結(jié)果一致,準(zhǔn)確率達(dá)到78%。結(jié)果表明,該模型具有較好的預(yù)測效果,可為電影票房預(yù)測提供一定的參考價值。通過對電影票房的預(yù)測和分析,影響票房預(yù)測的最重要的因素是演員。演員流量程度越高,其主演的電影票房水平就越高。因此,選擇受歡迎程度高和具有票房號召力的演員才是票房收益的關(guān)鍵[14]。
3 結(jié)束語
文章將決策樹算法C4.5應(yīng)用于電影票房的預(yù)測研究,通過對電影票房信息數(shù)據(jù)進(jìn)行分析處理,建立完整的預(yù)測模型。實驗結(jié)果說明,基于決策樹算法的電影票房預(yù)測模型簡單、快速,為電影票房的預(yù)測提供一定的科學(xué)依據(jù)[15]。不足之處在于模型中選取樣本數(shù)據(jù)較少,而且沒有全面考慮宣傳力度、同期電影競爭、制片廠、投資、微博指數(shù)等影響電影票房的其它因素。此外,構(gòu)建決策樹時未考慮屬性之間的關(guān)聯(lián)度,例如演員屬性和導(dǎo)演屬性之間的關(guān)聯(lián)度,一般具有高流量的演員更愿意和知名大導(dǎo)演合作,很難出現(xiàn)高流量演員和低知名度導(dǎo)演合作的情況,進(jìn)而影響到?jīng)Q策樹的生成,也影響到電影票房的預(yù)測結(jié)果,后續(xù)應(yīng)改進(jìn)完善數(shù)據(jù)的前期處理分析。
參考文獻(xiàn)
[1]鄭堅,周尚波. 基于神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測建模[J]. 計算機應(yīng)用,2014,34(3):742-748.
[2]吳發(fā)翔,錢佳威,劉江帆. 一種基于C5.0決策樹算法的票房預(yù)測研究[J]. 2016 (4):186-192.
[3]張鑫,郭振宇. 基于隨機森林的影片票房預(yù)測 [J]. 現(xiàn)代電影技術(shù),2016(3):11-15,35.
[4]WU Xindong, KUMAR V, QUINLAN J R,et al. Top 10 algorithms in data mining[J]. Knowledge and information systems, 2008,14(1):1-37.
[5]周志華. 機器學(xué)習(xí)[M]. 北京:清華大學(xué)出版社,2016.
[6]韓麗娜,韓改寧. 決策樹算法在學(xué)生成績分析中的應(yīng)用研究[J]. 電子設(shè)計工程, 2017,25(2):18-21.
[7]李會,胡笑梅. 決 策 樹 中 ID3 算 法 與 C4.5算法分析與比較[J]. 水電能源科學(xué) ,2008,26(2):129-132,163.
[8]楊洋. 決策樹ID3算法及其改進(jìn)[J]. 軟件導(dǎo)刊,2016,15(8):46-48.
[9]周美琴. 單位代價收益敏感決策樹分類算法及其剪枝算法的研究[D]. 桂林:廣西師范大學(xué).2016.
[10]SHARDA R,DELEN D. Predicting box-office success of motion pictures with neural networks [J]. Expert Systems With Applications,2006,30(2):243-254.
[11]李航. 統(tǒng)計學(xué)習(xí)方法[M]. 北京:清華大學(xué)出版社,2012.
[12]王文霞. 數(shù)據(jù)挖掘中改進(jìn)的 C4.5 決策樹分類算法[J]. 吉林大學(xué)學(xué)報(理學(xué)版), 2017, 55(5):1274-1277.
[13]吳思博,陳志剛,黃瑞. 基于相關(guān)系數(shù)的ID3優(yōu)化算法[J]. 計算機工程與科學(xué),2016, 38(11):2342-2347.
[14]張慧,王世偉. 基于深度學(xué)習(xí)對電影票房的預(yù)測[J]. 湖北第二師范學(xué)院學(xué)報,2017,34(8):60-64.
[15]張雪. 基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測[D]. 北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2017.