亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征加權(quán)的電影票房預(yù)測(cè)研究

        2023-05-30 06:24:55吳正清曹暉崔澤宇
        關(guān)鍵詞:隨機(jī)森林BP神經(jīng)網(wǎng)絡(luò)

        吳正清 曹暉 崔澤宇

        關(guān)鍵詞:票房預(yù)測(cè);隨機(jī)森林;特征權(quán)重;BP神經(jīng)網(wǎng)絡(luò)

        電影票房在電影產(chǎn)業(yè)中占有舉足輕重的地位,因此,在電影發(fā)行當(dāng)天對(duì)電影票房做出準(zhǔn)確的預(yù)估,可以幫助制片人控制風(fēng)險(xiǎn),幫助影院制定排片計(jì)劃,并引導(dǎo)影院和制片人制定市場(chǎng)戰(zhàn)略。在前期對(duì)電影票房的影響因子及票房預(yù)估的探討中,研究者著重于電影上映之前所確立的靜態(tài)影響因子,如主演、導(dǎo)演、編劇、題材、制式、獲獎(jiǎng)及提名、上映檔期、發(fā)行公司、電影地區(qū)等。目前,對(duì)于上述的一些靜態(tài)影響因子,大部分學(xué)者都建立了比較完整的評(píng)價(jià)體系和比較科學(xué)的定量模型,而這些靜態(tài)因子在票房預(yù)報(bào)方面也得到了廣泛的應(yīng)用。

        本文使用從網(wǎng)絡(luò)上利用爬蟲技術(shù)搜集到的678部電影及其相關(guān)信息數(shù)據(jù)作為數(shù)據(jù)集,使用合理方法進(jìn)行量化以及歸一化處理后,通過(guò)計(jì)算隨機(jī)森林變量重要性分?jǐn)?shù),衡量每個(gè)影響票房因素的重要性,并基于隨機(jī)森林變量重要性得分對(duì)不同的變量賦予權(quán)重。其中300部電影用于計(jì)算隨機(jī)森林特征重要性分?jǐn)?shù),其余電影使用10折交叉驗(yàn)證法,利用BP神經(jīng)網(wǎng)絡(luò)模型進(jìn)行票房預(yù)測(cè),分別對(duì)比賦予權(quán)重與不賦予權(quán)重的預(yù)測(cè)效果來(lái)研究隨機(jī)森林特征賦予的有效性。

        1相關(guān)工作

        隨機(jī)森林(Random Forest,RF)[1]是一種廣泛使用的集合式機(jī)器學(xué)習(xí)方法,它包含多顆互相獨(dú)立的決策樹(shù)。決策樹(shù)中的結(jié)點(diǎn)主要包括3類:根結(jié)點(diǎn),含有所有的樣本;內(nèi)部結(jié)點(diǎn),代表特性的判定;葉節(jié)點(diǎn),表示決策的結(jié)果。

        隨機(jī)森林生成的步驟是:(1)將所有的樣本進(jìn)行有放回的Ⅳ次隨機(jī)采樣,得到Ⅳ個(gè)子樣本,并為各子樣本生成決策樹(shù);(2)從各采樣到的子樣本所含有的M項(xiàng)屬性中,隨機(jī)抽取m項(xiàng),并在滿足m<

        BP神經(jīng)網(wǎng)絡(luò)是一種多層的、以誤差反向傳遞為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)。BPNN分為2個(gè)部分,即前向信號(hào)傳遞和反向誤差傳遞。這種算法從輸入到輸出,進(jìn)行誤差的運(yùn)算,然后由誤差來(lái)校正網(wǎng)絡(luò)中的權(quán)值和閾值。首先,通過(guò)隱藏層,將輸入的信號(hào)非線性地傳遞到輸出節(jié)點(diǎn),由此在實(shí)際的和預(yù)期的結(jié)果之間進(jìn)行誤差的運(yùn)算,再由隱藏層將其逆向傳輸?shù)捷斎雽樱鶕?jù)每個(gè)層次所得到的誤差信息來(lái)調(diào)節(jié)每個(gè)神經(jīng)元權(quán)值。經(jīng)過(guò)對(duì)各結(jié)點(diǎn)的權(quán)重和閾值的調(diào)節(jié),使得各結(jié)點(diǎn)的誤差沿梯度方向逐漸減小,并在反復(fù)的迭代中不斷地進(jìn)行學(xué)習(xí),最后得到輸出誤差最小的網(wǎng)絡(luò)參數(shù)[2]。

        2電影票房影響因素?cái)?shù)據(jù)處理

        2.1數(shù)據(jù)獲取與數(shù)據(jù)預(yù)處理

        電影數(shù)據(jù)的主要來(lái)源是中國(guó)票房網(wǎng)和豆瓣網(wǎng),利用網(wǎng)絡(luò)爬蟲技術(shù)收集電影的有關(guān)資料,并從各種其他渠道收集所需電影相關(guān)的各項(xiàng)數(shù)據(jù)。從網(wǎng)站上獲得的最終票房都是按照“萬(wàn)元”單位轉(zhuǎn)換為浮點(diǎn)格式的:整合后的電影制作區(qū)域包括中國(guó)大陸,歐美,日韓,和其他地區(qū)等:一些影片的主題與內(nèi)蘊(yùn)有關(guān),如武俠題材的動(dòng)作電影,這些也需要整合起來(lái)。另外,對(duì)于票房較差的影片,其研究?jī)r(jià)值較低,并且特征缺失問(wèn)題嚴(yán)重,所以僅選取票房超過(guò)3000萬(wàn)的影片作為預(yù)測(cè)數(shù)據(jù)。

        2.2影響因素量化

        2.2.1電影制式

        本文對(duì)不同制式電影的歷史票房總和取平均來(lái)計(jì)算相應(yīng)的影響力,以達(dá)到量化電影制式的目的。

        2.2.2電影題材

        對(duì)于電影題材的量化,本文通過(guò)各種題材電影的平均票房乘以各種題材電影所占比例來(lái)實(shí)現(xiàn)。同時(shí),采用該指數(shù)的均值來(lái)表示具有多種題材的電影。

        2.2.3影人因素

        本文以導(dǎo)演、編劇和導(dǎo)演作品之前的票房平均來(lái)衡量影片的票房收入,并以導(dǎo)演、編劇和主演表中排名靠前的5名演員來(lái)進(jìn)行預(yù)估。1部影片往往由多個(gè)導(dǎo)演、編劇和演員組成,因此,本論文選取了多個(gè)演員的平均影響力指標(biāo)作為各個(gè)維度的定量指標(biāo)。

        2.2.4是否IP,是否續(xù)集

        由于是否IP、是否續(xù)集等因素使電影票房起到正向的影響作用,因此,本文在對(duì)其量化時(shí)就簡(jiǎn)單地將其使用布爾變量表示。

        2.2.5制片地區(qū)

        在對(duì)電影地區(qū)進(jìn)行定量時(shí),以平均票房和所占比例的方式來(lái)進(jìn)行計(jì)算。1種影片可以是多個(gè)地區(qū)的合作作品,因此,本文選取了各個(gè)制片地區(qū)的平均影響指標(biāo)。

        2.2.6發(fā)行公司

        在本文中,當(dāng)公司的發(fā)行電影超過(guò)5部時(shí),以公司的平均票房來(lái)衡量公司的影響力,如果是5部以下的公司,則會(huì)合并成其他公司,以已發(fā)行電影的平均票房來(lái)衡量公司的影響力。

        2.2.7上映檔期

        根據(jù)我國(guó)節(jié)假日實(shí)際情況劃分出4個(gè)檔期,并將檔期轉(zhuǎn)換成one-hot向量,如表1所列。

        2.3數(shù)據(jù)歸一化

        本文使用最大一最小標(biāo)準(zhǔn)化(Min-MaxNormalization,也稱離差標(biāo)準(zhǔn)化)方法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化后的數(shù)據(jù)會(huì)落在[0,1]區(qū)間。

        3實(shí)驗(yàn)結(jié)果與分析

        根據(jù)計(jì)算得到的隨機(jī)森林變量的重要性分?jǐn)?shù),確定各因素在票房中的重要程度,同時(shí)對(duì)隨機(jī)森林中變量的重要性分?jǐn)?shù)給予不同變量作為權(quán)重。然而,基于隨機(jī)森林的性質(zhì),通過(guò)對(duì)各因素的權(quán)重系數(shù)進(jìn)行分析,通過(guò)多次實(shí)驗(yàn)得出的各項(xiàng)因素的重要性分?jǐn)?shù)有差異,而通過(guò)多次實(shí)驗(yàn)發(fā)現(xiàn),各因素的重要性分?jǐn)?shù)的變化存在一定的范圍,故用多次實(shí)驗(yàn)求平均。因?yàn)楦鱾€(gè)特征間的重要性分?jǐn)?shù)差異很大,若將其作為權(quán)值,則會(huì)導(dǎo)致某些特征的數(shù)值偏大,而在其他特征數(shù)值偏低時(shí),則會(huì)降低權(quán)值。因此,本文通過(guò)對(duì)計(jì)算得到的重要性分?jǐn)?shù)進(jìn)行對(duì)數(shù)轉(zhuǎn)換,求出各特征的重要度,從而使其在[0,1]范圍內(nèi),獲得最后的權(quán)值。

        本文使用十折交叉驗(yàn)證(10-fold cross-validation)來(lái)測(cè)試模型的效果,該方法的基本思路是:將所有的數(shù)據(jù)集平均分為10個(gè)部分,依次抽取9個(gè)部分當(dāng)作訓(xùn)練集,剩下1個(gè)部分當(dāng)作測(cè)試集進(jìn)行測(cè)試,然后將10輪訓(xùn)練與預(yù)測(cè)后的結(jié)果進(jìn)行平均,將平均值作為模型最后的估計(jì)結(jié)果。該方法可以有效解決由于不正確分割數(shù)據(jù)集而導(dǎo)致的模型過(guò)度擬合等問(wèn)題。因?yàn)樵谟脭?shù)據(jù)集較小時(shí),進(jìn)行建模很可能會(huì)產(chǎn)生這種情況,所以采用交叉驗(yàn)證的方式來(lái)評(píng)價(jià)小規(guī)模數(shù)據(jù)集會(huì)有一定的優(yōu)越性。由于所采用的資料集數(shù)量少,因此,采用十折交叉驗(yàn)證方法比較適合。

        以R-Squared為評(píng)價(jià)標(biāo)準(zhǔn),本文模型以及對(duì)比模型的實(shí)驗(yàn)結(jié)果如表2所列。

        2個(gè)模型的實(shí)驗(yàn)結(jié)果折線圖如圖1所示。

        在檢驗(yàn)所建立的模型的票房預(yù)測(cè)結(jié)果時(shí),除比較R-Squared模型的總體預(yù)測(cè)結(jié)果,還進(jìn)行了一系列的實(shí)驗(yàn),以此模型,得出了5個(gè)最近幾年比較出名的影片的預(yù)測(cè)結(jié)果。它們的預(yù)測(cè)結(jié)果和實(shí)際值的比較表與絕對(duì)誤差的百分?jǐn)?shù)如表3和表4所列。

        4結(jié)束語(yǔ)

        本文搜集了678部電影并將其作為數(shù)據(jù),選擇電影制式、電影題材、制片地區(qū)、發(fā)行公司、是否IP續(xù)集、主演、導(dǎo)演、編劇以及檔期等作為主要影響因素,隨機(jī)選取其中300部電影使用隨機(jī)森林算法計(jì)算特征重要性,之后使用BP神經(jīng)網(wǎng)絡(luò)對(duì)剩余電影進(jìn)行票房預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,對(duì)電影影響因素賦予權(quán)重后的模型R—squared值高于未賦予權(quán)重的模型,對(duì)近年來(lái)的5部電影進(jìn)行票房預(yù)測(cè)的結(jié)果也更接近于實(shí)際值。

        猜你喜歡
        隨機(jī)森林BP神經(jīng)網(wǎng)絡(luò)
        隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
        基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
        軟件(2016年7期)2017-02-07 15:54:01
        拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
        就bp神經(jīng)網(wǎng)絡(luò)銀行選址模型的相關(guān)研究
        基于DEA—GA—BP的建設(shè)工程評(píng)標(biāo)方法研究
        基于BP神經(jīng)網(wǎng)絡(luò)的旅行社發(fā)展方向研究
        商情(2016年39期)2016-11-21 09:30:36
        復(fù)雜背景下的手勢(shì)識(shí)別方法
        BP神經(jīng)網(wǎng)絡(luò)在軟件質(zhì)量評(píng)價(jià)中的應(yīng)用研究 
        基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
        BP神經(jīng)網(wǎng)絡(luò)算法在數(shù)值預(yù)報(bào)產(chǎn)品釋用中的應(yīng)用
        科技視界(2016年20期)2016-09-29 14:15:12
        国产三区三区三区看三区| 99热精品国产三级在线观看| 吃下面吃胸在线看无码| a级三级三级三级在线视频| 欧美拍拍视频免费大全| 亚洲美腿丝袜 欧美另类| 久久半精品国产99精品国产 | 国产乱理伦在线观看美腿丝袜| 久久久久久久波多野结衣高潮| 亚洲爆乳无码专区| 日本少妇爽的大叫高潮了| 97青草超碰久久国内精品91| 鲁丝片一区二区三区免费| 肉体裸交丰满丰满少妇在线观看| 亚洲综合网一区二区三区| 国产成人综合精品一区二区| 国产又色又爽又黄的| 在线高清精品第一区二区三区| 国产伦理自拍视频在线观看| 国产让女高潮的av毛片| 卡一卡二卡三无人区| 综合色天天久久| 亚洲女同性恋第二区av| 领导边摸边吃奶边做爽在线观看| av人摸人人人澡人人超碰小说| 国产精品国产三级国产在线观| 中文字幕国产亚洲一区| 国产激情视频一区二区三区| 中文字幕一区二区三区乱码不卡 | 亚洲av片无码久久五月| 射死你天天日| 国产亚洲日本人在线观看| 精品一区二区三区久久| 国产成人精品无码一区二区老年人 | 亚洲av无码乱码国产麻豆 | 亚洲国产成人精品一区刚刚| 老熟妇乱子伦牲交视频| 婷婷丁香五月中文字幕| 人人妻人人澡av| 日本伦理精品一区二区三区| 精品国产人妻一区二区三区|