亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)算法進(jìn)行電影票房預(yù)測(cè)

        2021-06-16 05:29:22席一鍇
        電子制作 2021年4期
        關(guān)鍵詞:電影票房機(jī)器預(yù)測(cè)

        席一鍇

        (江蘇省新海高級(jí)中學(xué),江蘇連云港,222000)

        0 引言

        隨著我國(guó)經(jīng)濟(jì)的快速發(fā)展,人們的生活水平穩(wěn)步提升,在追求物質(zhì)生活的同時(shí),也不斷追求著精神層面的滿(mǎn)足,觀看電影是當(dāng)下大眾消遣娛樂(lè)的基本形式,好的影視作品不僅能帶來(lái)歡樂(lè),也能帶來(lái)不錯(cuò)的票房促進(jìn)影視企業(yè)的發(fā)展。據(jù)統(tǒng)計(jì),2018年我國(guó)電影票房高達(dá)417億美元,電影行業(yè)比以往任何時(shí)候都更受歡迎,每年的內(nèi)地影市,都有五六百部影片上映。雖然影片的票房不能代表一切,但是票房收入則是衡量一部商業(yè)片是否成功的最重要的指標(biāo),沒(méi)有之一。了解電影票房的影響因素,有利于企業(yè)提前做好預(yù)判,有效抵御風(fēng)險(xiǎn),因此對(duì)于電影票房的預(yù)測(cè)顯得格外重要。80年代,美國(guó)的BarryLitman提出了票房收入預(yù)測(cè)模型,該模型能分析預(yù)測(cè)不同種類(lèi)電影的票房?jī)r(jià)值,對(duì)之后美國(guó)電影投資界產(chǎn)生了顛覆性的影響。2012年我國(guó)企業(yè)也研究推出第一套票房預(yù)測(cè)系統(tǒng),推動(dòng)了我國(guó)影視產(chǎn)業(yè)的進(jìn)一步發(fā)展。本文利用線(xiàn)性回歸及xgboost算法,建立電影票房預(yù)測(cè)模型,取得了良好的實(shí)驗(yàn)結(jié)果。

        本文研究意義如下:

        (1)本文根據(jù)理論證明了相關(guān)電影票房預(yù)測(cè)模型的可用,證明了基于機(jī)器學(xué)習(xí)的預(yù)測(cè)模型的可行性,以及基于電影市場(chǎng)各種復(fù)雜因素進(jìn)行預(yù)測(cè)的效果。

        (2)為以后制作一款電影票房預(yù)測(cè)系統(tǒng)提供制作算法,制作理念和制作核心,為以后開(kāi)發(fā)一個(gè)完整的電影票房預(yù)測(cè)系統(tǒng)做基礎(chǔ)。

        (3)鼓勵(lì)電影從業(yè)者打造出符合大眾審美的具有良好社會(huì)影響力的影視文化作品,提高國(guó)內(nèi)影視產(chǎn)業(yè)水平。

        1 機(jī)器學(xué)習(xí)算法建模

        ■1.1 機(jī)器學(xué)習(xí)

        機(jī)器學(xué)習(xí)可以使計(jì)算機(jī)模擬或?qū)崿F(xiàn)人類(lèi)的學(xué)習(xí)行為,以獲取新的知識(shí)或技能,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善自身的算法。機(jī)器學(xué)習(xí)能夠讓計(jì)算機(jī)實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的決策,是人工智能的核心。利用機(jī)器學(xué)習(xí),可以迅速的訓(xùn)練出預(yù)測(cè)模型,應(yīng)用到實(shí)際場(chǎng)景中。在電影票房的預(yù)測(cè)中,我們能在一定的數(shù)據(jù)集中挖掘出影響一部電影票房的潛在影響因素,發(fā)現(xiàn)并總結(jié)出電影各種特征的內(nèi)在聯(lián)系,從而適用于現(xiàn)實(shí)世界的真實(shí)場(chǎng)景進(jìn)行票房預(yù)測(cè),并對(duì)行業(yè)發(fā)展起到一定的指導(dǎo)作用。本文討論的票房預(yù)測(cè)適用于機(jī)器學(xué)習(xí)中的回歸問(wèn)題,我們將采用相應(yīng)的回歸算法嘗試建立模型擬合真實(shí)場(chǎng)景。

        ■1.2 構(gòu)建電影票房預(yù)測(cè)模型

        回歸算法是機(jī)器學(xué)習(xí)中最常用的算法之一,分為線(xiàn)性回歸和邏輯回歸,在本文的業(yè)務(wù)場(chǎng)景中,我們需要通過(guò)數(shù)據(jù)分析一部電影的票房走勢(shì),即最終預(yù)測(cè)出一部電影的總票房收入,這是典型的回歸模型。我們需要通過(guò)數(shù)據(jù)特征,諸如一部電影的多種信息來(lái)探索影響票房的因素,從而建模進(jìn)行票房預(yù)測(cè)。在回歸問(wèn)題中,實(shí)際上是我們?cè)诮?shù)學(xué)方程對(duì)數(shù)據(jù)進(jìn)行擬合的一個(gè)過(guò)程,我們利用機(jī)器學(xué)習(xí)通過(guò)大量數(shù)據(jù)進(jìn)行學(xué)習(xí)的特點(diǎn),不斷讓計(jì)算機(jī)通過(guò)建立好的回歸模型不斷優(yōu)化和調(diào)節(jié)模型參數(shù),從而達(dá)到預(yù)測(cè)值越來(lái)越接近真實(shí)值的目的。通過(guò)不斷的迭代更新,最終我們可以利用算法模型得到一個(gè)能夠近似反映真實(shí)世界規(guī)律的模型,這也就是本文中我們的目標(biāo)。

        ■1.3 模型評(píng)估

        我們已經(jīng)知道票房預(yù)測(cè)是一個(gè)典型的回歸問(wèn)題,我們可以嘗試一些基本的回歸問(wèn)題模型來(lái)對(duì)數(shù)據(jù)進(jìn)行建模。相關(guān)的模型有很多,并且對(duì)每個(gè)模型,當(dāng)嘗試不同的參數(shù),所表達(dá)出來(lái)的效果也是千差萬(wàn)別。這時(shí)候,我們要考慮的不僅僅是要構(gòu)建模型,而且還需要對(duì)我們建立好的模型進(jìn)行準(zhǔn)確的評(píng)估,因?yàn)橐粋€(gè)預(yù)測(cè)效果和真實(shí)情況差距很大的模型,或者是不穩(wěn)定的模型都是遠(yuǎn)遠(yuǎn)不夠甚至是包含風(fēng)險(xiǎn)的。

        在機(jī)器學(xué)習(xí)算法的評(píng)估中,我們利用損失函數(shù)來(lái)評(píng)估建立好的模型。損失函數(shù)可以衡量模型預(yù)測(cè)的好壞,用來(lái)表現(xiàn)預(yù)測(cè)與實(shí)際數(shù)據(jù)的差距程度。通常損失函數(shù)最小,對(duì)應(yīng)模型參數(shù)最優(yōu)。比如在線(xiàn)性回歸中,實(shí)際值和預(yù)測(cè)值肯定會(huì)有誤差,那么我們找到一個(gè)函數(shù)表達(dá)這個(gè)誤差就是損失函數(shù)。比如在本研究中,根據(jù)機(jī)器學(xué)習(xí)算法進(jìn)行的電影票房預(yù)測(cè)難免與實(shí)際票房存在差距。機(jī)器所給出的票房是預(yù)測(cè)值,而電影實(shí)際在市場(chǎng)中所取得的票房就是實(shí)際值。通過(guò)模型和損失函數(shù)來(lái)進(jìn)行模型構(gòu)建的流程圖如圖1所示。

        圖1 模型構(gòu)建

        ■1.4 模型優(yōu)化

        上文已經(jīng)提到,我們完成模型的初步構(gòu)建之后將會(huì)尋求一個(gè)用于評(píng)估模型是否接近真實(shí)物理模型的函數(shù)表達(dá)式,即損失函數(shù)。我們希望在模型訓(xùn)練的過(guò)程中最小化這個(gè)損失,一旦我們可以找到一個(gè)全局的最小損失,也將意味著模型達(dá)到了一個(gè)比較好的效果。

        機(jī)器學(xué)習(xí)模型訓(xùn)練中由于涉及到大量的高維度數(shù)據(jù),數(shù)學(xué)模型十分復(fù)雜,我們很難直接求得損失函數(shù)的這個(gè)最小值,因此一般我們采用多次迭代不斷接近的方式去逼近這個(gè)最優(yōu)解。這種方式即為梯度下降算法,也稱(chēng)為最速下降法。它在機(jī)器學(xué)習(xí)中應(yīng)用非常廣泛,主要通過(guò)不斷迭代找到最小值,或者逼近最小偏差。

        梯度下降算法如同下山,每走一步需要進(jìn)行計(jì)算當(dāng)前位置的梯度,沿著梯度負(fù)方向,進(jìn)一步向下走。所以通過(guò)不斷的迭代計(jì)算,就可以找到令損失函數(shù)最小化的參數(shù),確定最優(yōu)模型,用梯度下降算法循環(huán)更新模型參數(shù),就可以找到一組最優(yōu)參數(shù),使損失函數(shù)得到一個(gè)接近最優(yōu)解的結(jié)果,通過(guò)這組比較好的參數(shù),我們可以構(gòu)建一個(gè)接近真實(shí)的模型。

        2 實(shí)驗(yàn)過(guò)程

        ■2.1 數(shù)據(jù)集介紹

        本實(shí)驗(yàn)數(shù)據(jù)集來(lái)源于電影數(shù)據(jù)庫(kù)TMDB,在這個(gè)數(shù)據(jù)集中包括7398部電影和從電影數(shù)據(jù)庫(kù)(TMDB)獲得的各種元數(shù)據(jù)。數(shù)據(jù)特征包括演員陣容、攝制組、劇情關(guān)鍵詞、預(yù)算、海報(bào)、上映日期、語(yǔ)言、制片公司和國(guó)家等相關(guān)信息。

        ■2.2 數(shù)據(jù)預(yù)處理及探索性分析

        我們首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,預(yù)處理是機(jī)器學(xué)習(xí)建模的關(guān)鍵步驟,我們需要在預(yù)處理過(guò)程中將拿到的數(shù)據(jù)進(jìn)行一定的清洗和篩選,并轉(zhuǎn)換為我們的算法模型能夠識(shí)別的數(shù)據(jù)類(lèi)型。針對(duì)缺失值的數(shù)據(jù),我們采用均值填充,即取其所在列中的其他數(shù)據(jù)的平均值來(lái)代替,而對(duì)離散型數(shù)據(jù)則采用眾數(shù)填充。

        在進(jìn)行簡(jiǎn)單的處理之后,我們對(duì)數(shù)據(jù)的幾個(gè)主要特征進(jìn)行了探索,通過(guò)可視化工具我們觀察了特征之間的相關(guān)性,以及我們的預(yù)測(cè)標(biāo)簽revenue(票房收入)與特征之間的關(guān)系。

        圖2 預(yù)算,網(wǎng)站投票數(shù)與票房收入分布圖

        我們通過(guò)類(lèi)似的方式對(duì)數(shù)據(jù)特征進(jìn)行了一些探索,發(fā)現(xiàn)預(yù)算,投票數(shù),電影主題,演員等幾類(lèi)特征和票房收入是正相關(guān)的,同時(shí)我們也篩選出了一些沒(méi)有顯著正相關(guān)的特征進(jìn)行舍棄,如電影ID,語(yǔ)言等影響比較小或者比較不具備規(guī)律性的特征。通過(guò)圖3的特征相關(guān)性我們認(rèn)為特征之間沒(méi)有顯著的關(guān)聯(lián)性,故認(rèn)為不存在特征相似性過(guò)大的冗余特征

        圖3 特征之間的相關(guān)性

        ■2.3 構(gòu)建算法模型及實(shí)驗(yàn)結(jié)果

        數(shù)據(jù)的預(yù)處理及數(shù)據(jù)分析之后,我們接下來(lái)可以對(duì)數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí)算法建模,本實(shí)驗(yàn)數(shù)據(jù)集相對(duì)較小(訓(xùn)練集4398,測(cè)試集3000),我們先后嘗試簡(jiǎn)單的回歸預(yù)測(cè)模型線(xiàn)性回歸,以及各種時(shí)下比較流行的集成算法如xgboost,lightGBM,模型的訓(xùn)練結(jié)束之后我們采用均方誤差對(duì)預(yù)測(cè)結(jié)果進(jìn)行了測(cè)試,結(jié)果如下:

        LightGBM MSE: 1.8184;xgboost MSE:1.8320;linear model MSE:1.8819。

        集成算法模型相對(duì)較為復(fù)雜,在大多數(shù)時(shí)候具有較好的效果,線(xiàn)性回歸模型相對(duì)來(lái)說(shuō)較為簡(jiǎn)單,并且從實(shí)驗(yàn)結(jié)果來(lái)看效果雖然略微弱于集成算法,但也具備了良好實(shí)驗(yàn)效果,因此具體的模型選擇還需要結(jié)合業(yè)務(wù)場(chǎng)景。

        3 結(jié)論與展望

        本論文基于機(jī)器學(xué)習(xí)算法建立了對(duì)實(shí)際場(chǎng)景下的電影票房預(yù)測(cè)模型,在構(gòu)建模型的過(guò)程中通過(guò)對(duì)TMDB數(shù)據(jù)集進(jìn)行了詳細(xì)的分析和處理,并建立回歸模型進(jìn)行了預(yù)測(cè)并得到了較好的效果。我們的模型尚可發(fā)掘更多的信息,比如我們可以在模型建立完成之后進(jìn)一步查看分析特征的重要程度,這也能夠指導(dǎo)我們?cè)趯?shí)際場(chǎng)景中對(duì)票房收入有更完善的理解。我們也可進(jìn)一步調(diào)整模型并適用于更大規(guī)模和復(fù)雜的數(shù)據(jù)集上,得到更為全面的預(yù)測(cè)功能,使算法起到更多的作用。

        猜你喜歡
        電影票房機(jī)器預(yù)測(cè)
        無(wú)可預(yù)測(cè)
        黃河之聲(2022年10期)2022-09-27 13:59:46
        機(jī)器狗
        選修2-2期中考試預(yù)測(cè)卷(A卷)
        選修2-2期中考試預(yù)測(cè)卷(B卷)
        機(jī)器狗
        新年新氣象,元旦來(lái)帶頭 2021年1月電影票房排行榜
        打鐵還需自身硬 2020年10月電影票房排行榜
        意料之中,整體表現(xiàn)平淡 2020年9月電影票房排行榜
        暑期檔繼續(xù)“遇冷”2019年7月電影票房排行榜
        未來(lái)機(jī)器城
        電影(2018年8期)2018-09-21 08:00:06
        亚洲中文字幕无码爆乳| 青青草视频是针对华人| 一本色道无码不卡在线观看| 特级无码毛片免费视频尤物| 日韩免费小视频| 日韩国产有码精品一区二在线 | 亚洲精品综合第一国产综合| 国产成人精品中文字幕| 亚洲精品中文字幕乱码影院| 日韩激情无码免费毛片 | 开心久久综合婷婷九月| 成人毛片av免费| 99视频一区| 国产一区二区av男人| 国产一区二区视频在线免费观看| 伊人久久大香线蕉亚洲五月天 | 国产精品每日更新在线观看 | 国产偷2018在线观看午夜| av高清视频在线麻豆免费观看| 人人澡人人妻人人爽人人蜜桃麻豆| 无码av免费一区二区三区| 在线观看av国产自拍| 中文字幕成人精品久久不卡91| 亚洲欧洲成人精品香蕉网| 国产一区二区不卡老阿姨| 国产成人AⅤ| 国产一级二级三级在线观看av| 麻豆国产在线精品国偷产拍| 亚洲aⅴ无码日韩av无码网站| 亚洲日本精品一区二区三区| 无码人妻精品中文字幕| www插插插无码免费视频网站| 永久免费的拍拍拍网站| 99久久国内精品成人免费| 国产真实乱对白精彩久久老熟妇女 | 国内精品伊人久久久久影院对白| 亚洲成Av人片不卡无码观看| 综合亚洲二区三区四区在线| 亚洲成在人线av品善网好看| 91在线在线啪永久地址| 日韩精品自拍一区二区|