亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹算法的電影票房預(yù)測研究

        2019-09-12 10:41:42李振興韓麗娜史楠
        智能計算機與應(yīng)用 2019年4期
        關(guān)鍵詞:電影票房預(yù)測

        李振興 韓麗娜 史楠

        摘 要:決策樹是一種具有樹形結(jié)構(gòu)的機器學(xué)習(xí)算法,能夠在短時間內(nèi)處理數(shù)據(jù),并能直觀地顯示數(shù)據(jù)特性。具有速度快、直觀、精度高等特點。本文在大數(shù)據(jù)分析的基礎(chǔ)上,以2018年國內(nèi)上映的30部國產(chǎn)電影的信息數(shù)據(jù)作為訓(xùn)練模型,選取C4.5算法作為工具,構(gòu)建出基于決策樹算法的票房預(yù)測模型。經(jīng)過測試,該模型的準(zhǔn)確率為78%,并從中分析出影響票房的關(guān)鍵因素是演員。

        關(guān)鍵詞:決策樹算法;電影票房;預(yù)測

        文章編號:2095-2163(2019)04-0132-05 中圖分類號:TP311 文獻(xiàn)標(biāo)志碼:A

        0 引 言

        電影產(chǎn)業(yè)是一項高投資、高收益、高風(fēng)險的行業(yè),當(dāng)今社會已進(jìn)入了大數(shù)據(jù)時代,可以將數(shù)據(jù)挖掘技術(shù)應(yīng)用到電影票房的預(yù)測研究中,為投資者智能規(guī)避電影投資風(fēng)險,并幫助影院運營商優(yōu)化放映計劃,實現(xiàn)收益的最大化[1-2]。本文提出了一種基于決策樹算法的票房預(yù)測模型,該模型將預(yù)測問題轉(zhuǎn)換為分類問題,將電影類型、演員流量程度、導(dǎo)演知名度作為自變量,電影票房類別作為因變量。與以往的主觀假設(shè)和頭腦風(fēng)暴相比,這是一種更可靠、更科學(xué)的方法[3]。

        1 決策樹算法及相關(guān)概念

        1.1 決策樹

        決策樹算法采用的是自頂向下的貪婪算法,在每個節(jié)點上選擇出最優(yōu)屬性進(jìn)行分類。算法包括 ID3、C4.5、CHAID、CART、SLIQ、SPRINT等。其中C4.5算法在2006年12月舉行的國際數(shù)據(jù)挖掘會議(ICDM)上,排在十大數(shù)據(jù)挖掘算法之列[4]。

        1.2 C4.5算法

        C4.5算法是一種基于信息熵的機器學(xué)習(xí)算法,主要采用信息增益率作為條件屬性的判斷標(biāo)準(zhǔn),信息增益率越高,數(shù)據(jù)分類能力越強。因此,分別計算每一個條件屬性的信息增益率,選取信息增益率最高的屬性作為下一個分裂節(jié)點,以此遞歸即可構(gòu)建C4.5決策樹[5-7]。相關(guān)公式如下:

        1.3 決策樹修剪

        由于決策樹是由訓(xùn)練數(shù)據(jù)集生成的,許多分支反映的是噪聲或孤立點,這可能會增加決策樹分類的錯誤率,因此有必要對決策樹進(jìn)行修剪 [10]。修剪決策樹一般分為:預(yù)剪枝法和后剪枝法。預(yù)剪枝法是在樹生長的過程中設(shè)置一定的標(biāo)準(zhǔn)來阻止樹木繼續(xù)生長。后剪枝法是待決策樹完全生成后再進(jìn)行剪枝。后剪枝方法比預(yù)剪枝方法需要更多的計算量,但通??梢援a(chǎn)生更可靠的樹[11-12]。

        2 應(yīng)用決策樹技術(shù)預(yù)測電影票房

        2.1 數(shù)據(jù)準(zhǔn)備

        本次研究中數(shù)據(jù)信息來源于“中國電影票房年度總排行榜”網(wǎng),從中抽取48部電影,將其中的30部作為訓(xùn)練樣本數(shù)據(jù),剩余的18 部作為測試樣本數(shù)據(jù)。數(shù)據(jù)源主要包括電影類型、電影導(dǎo)演、電影主演。原始數(shù)據(jù)見表1。

        2.2 數(shù)據(jù)預(yù)處理

        (1)電影類型。每位觀眾在不同階段可能會有不同的喜好,因此電影類型對于電影票房很重要。變量值有:劇情、喜劇、奇(科)幻、愛情。

        (2)電影導(dǎo)演。導(dǎo)演是影片制作的領(lǐng)導(dǎo)者和組織者,決定著影片的質(zhì)量和影片藝術(shù)風(fēng)格。通過對這些導(dǎo)演的獲獎情況和近三年來執(zhí)導(dǎo)電影所獲票房的均數(shù)進(jìn)行分析。將國內(nèi)頂級的大導(dǎo)演劃分為高層次,知名導(dǎo)演劃分為中等層次,非知名導(dǎo)演劃分為低層次。

        (3)電影主演。演員具有一定程度的票房號召力,觀眾會因為喜歡的演員而選擇電影。通過對“2018年中國內(nèi)地演員排行榜”的數(shù)據(jù)分析,將排名前50的演員劃分為高流量演員,排名51-300的演員劃分為中等流量演員,排名300以后的演員劃分為低流量演員。

        (4)電影票房。作為數(shù)據(jù)的因變量,參考國外學(xué)者Ramesh[13]的票房劃分方法,將票房收益高于6億的電影劃分為高票房,將票房收益介于1億至6億之間的電影劃分為中等票房,將票房收益低于1億的電影劃分為低等票房。

        經(jīng)過數(shù)據(jù)預(yù)處理后,量化表示數(shù)據(jù)表中的描述性文字,得到了30個處理后的數(shù)據(jù)訓(xùn)練樣本,見表2。

        2.3 C4.5構(gòu)造決策樹

        (4)建立決策樹。因為屬性actor的信息增益率最大,所以選擇屬性actor作為根結(jié)點。按照actor的取值,對30個樣本進(jìn)行分支得到3個子集,如圖1所示。并對每個子集按照以上方法創(chuàng)建分支,最后得到C4.5決策樹,如圖1所示。最后采用后修剪方式,修剪后的C4.5決策樹如圖2所示。

        2.4 模型評估

        為了驗證模型的可靠性,根據(jù)圖3的決策樹對18個測試樣本數(shù)據(jù)進(jìn)行了測試,其中14條數(shù)據(jù)與模型結(jié)果一致,準(zhǔn)確率達(dá)到78%。結(jié)果表明,該模型具有較好的預(yù)測效果,可為電影票房預(yù)測提供一定的參考價值。通過對電影票房的預(yù)測和分析,影響票房預(yù)測的最重要的因素是演員。演員流量程度越高,其主演的電影票房水平就越高。因此,選擇受歡迎程度高和具有票房號召力的演員才是票房收益的關(guān)鍵[14]。

        3 結(jié)束語

        文章將決策樹算法C4.5應(yīng)用于電影票房的預(yù)測研究,通過對電影票房信息數(shù)據(jù)進(jìn)行分析處理,建立完整的預(yù)測模型。實驗結(jié)果說明,基于決策樹算法的電影票房預(yù)測模型簡單、快速,為電影票房的預(yù)測提供一定的科學(xué)依據(jù)[15]。不足之處在于模型中選取樣本數(shù)據(jù)較少,而且沒有全面考慮宣傳力度、同期電影競爭、制片廠、投資、微博指數(shù)等影響電影票房的其它因素。此外,構(gòu)建決策樹時未考慮屬性之間的關(guān)聯(lián)度,例如演員屬性和導(dǎo)演屬性之間的關(guān)聯(lián)度,一般具有高流量的演員更愿意和知名大導(dǎo)演合作,很難出現(xiàn)高流量演員和低知名度導(dǎo)演合作的情況,進(jìn)而影響到?jīng)Q策樹的生成,也影響到電影票房的預(yù)測結(jié)果,后續(xù)應(yīng)改進(jìn)完善數(shù)據(jù)的前期處理分析。

        參考文獻(xiàn)

        [1]鄭堅,周尚波. 基于神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測建模[J]. 計算機應(yīng)用,2014,34(3):742-748.

        [2]吳發(fā)翔,錢佳威,劉江帆. 一種基于C5.0決策樹算法的票房預(yù)測研究[J]. 2016 (4):186-192.

        [3]張鑫,郭振宇. 基于隨機森林的影片票房預(yù)測 [J]. 現(xiàn)代電影技術(shù),2016(3):11-15,35.

        [4]WU Xindong, KUMAR V, QUINLAN J R,et al. Top 10 algorithms in data mining[J]. Knowledge and information systems, 2008,14(1):1-37.

        [5]周志華. 機器學(xué)習(xí)[M]. 北京:清華大學(xué)出版社,2016.

        [6]韓麗娜,韓改寧. 決策樹算法在學(xué)生成績分析中的應(yīng)用研究[J]. 電子設(shè)計工程, 2017,25(2):18-21.

        [7]李會,胡笑梅. 決 策 樹 中 ID3 算 法 與 C4.5算法分析與比較[J]. 水電能源科學(xué) ,2008,26(2):129-132,163.

        [8]楊洋. 決策樹ID3算法及其改進(jìn)[J]. 軟件導(dǎo)刊,2016,15(8):46-48.

        [9]周美琴. 單位代價收益敏感決策樹分類算法及其剪枝算法的研究[D]. 桂林:廣西師范大學(xué).2016.

        [10]SHARDA R,DELEN D. Predicting box-office success of motion pictures with neural networks [J]. Expert Systems With Applications,2006,30(2):243-254.

        [11]李航. 統(tǒng)計學(xué)習(xí)方法[M]. 北京:清華大學(xué)出版社,2012.

        [12]王文霞. 數(shù)據(jù)挖掘中改進(jìn)的 C4.5 決策樹分類算法[J]. 吉林大學(xué)學(xué)報(理學(xué)版), 2017, 55(5):1274-1277.

        [13]吳思博,陳志剛,黃瑞. 基于相關(guān)系數(shù)的ID3優(yōu)化算法[J]. 計算機工程與科學(xué),2016, 38(11):2342-2347.

        [14]張慧,王世偉. 基于深度學(xué)習(xí)對電影票房的預(yù)測[J]. 湖北第二師范學(xué)院學(xué)報,2017,34(8):60-64.

        [15]張雪. 基于深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)的電影票房預(yù)測[D]. 北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2017.

        猜你喜歡
        電影票房預(yù)測
        無可預(yù)測
        黃河之聲(2022年10期)2022-09-27 13:59:46
        選修2-2期中考試預(yù)測卷(A卷)
        選修2-2期中考試預(yù)測卷(B卷)
        選修2—2期中考試預(yù)測卷(A卷)
        新年新氣象,元旦來帶頭 2021年1月電影票房排行榜
        打鐵還需自身硬 2020年10月電影票房排行榜
        意料之中,整體表現(xiàn)平淡 2020年9月電影票房排行榜
        提前邁過“600億大關(guān)”2019年12月電影票房排行榜
        暑期檔繼續(xù)“遇冷”2019年7月電影票房排行榜
        不可預(yù)測
        91久久精品一二三区蜜桃| 18黑白丝水手服自慰喷水网站| 女人张开腿让男桶喷水高潮 | 国产精品一区二区三区播放| 成人丝袜激情一区二区| 无码人妻久久一区二区三区app| 丁香五月缴情综合网| 午夜国产精品视频免费看电影| 亚洲女人天堂成人av在线| 国产一区二区三区四色av| 亚洲精品久久久av无码专区| 亚洲视频一区| 国产精品无码久久久久久蜜臀AV| 少妇一级内射精品免费| 国产女主播一区二区三区| 午夜精品射精入后重之免费观看| 色一情一乱一伦一区二区三区| 不卡无毒免费毛片视频观看| 69久久精品亚洲一区二区| 精品人妻久久一区二区三区| 欧美日韩国产精品自在自线| 久久无码高潮喷水| 太大太粗太爽免费视频| 国产一区二区三区免费av| 亚洲va久久久噜噜噜久久天堂| 18分钟处破好疼哭视频在线观看| 草草影院国产| 精品女同一区二区三区亚洲| 久久精品国产亚洲av麻豆瑜伽 | 亚洲av无码潮喷在线观看| 国产成人免费高清激情明星| 在线观看国产av一区二区| av熟妇一区二区三区| 无码乱人伦一区二区亚洲一| 精品国产免费久久久久久| 久久精品一区二区三区不卡牛牛| 国产av剧情刺激对白| 熟妇人妻久久中文字幕| 日本丶国产丶欧美色综合| 精品国产乱码久久免费看| 中国老熟女露脸老女人|