亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于特征工程方法的電影評(píng)分影響因素重要性分析

        2020-12-23 10:33:02
        現(xiàn)代電影技術(shù) 2020年12期
        關(guān)鍵詞:特征模型

        程 純

        (安徽大學(xué)經(jīng)濟(jì)學(xué)院,安徽合肥 230601)

        1 引言

        近年來,華語電影市場(chǎng)越發(fā)呈現(xiàn)出百花齊放的盛態(tài)。得益于各種觀影渠道的興盛和視頻播放技術(shù)的升級(jí),人們?cè)谌粘S^影時(shí)也有了更大的選擇空間,此時(shí)電影評(píng)分成為了大多數(shù)人選片時(shí)考慮的重要指標(biāo)之一。出于各種需求,國內(nèi)出現(xiàn)了眾多電影評(píng)分平臺(tái),例如豆瓣、貓眼、時(shí)光網(wǎng)等。其中豆瓣作為起步最早、用戶粘性最大的平臺(tái),其電影評(píng)分一度成為大家評(píng)價(jià)電影質(zhì)量的標(biāo)桿。豆瓣評(píng)分機(jī)制將用戶總體評(píng)分除以評(píng)分人數(shù),得到樣本評(píng)分均值作為總體均值的估計(jì)量,具有較好的統(tǒng)計(jì)性質(zhì)。因此有理由認(rèn)為豆瓣電影評(píng)分反映了電影品質(zhì)的真實(shí)情況,這也是本文選擇豆瓣電影評(píng)分的基礎(chǔ)。

        學(xué)術(shù)界對(duì)于電影相關(guān)預(yù)測(cè)的研究主要集中在電影票房預(yù)測(cè)、觀影人數(shù)預(yù)測(cè)、評(píng)分預(yù)測(cè)等。其中大多數(shù)研究集中在電影票房預(yù)測(cè),其開始時(shí)間早,因此取得了很多不錯(cuò)的研究成果。目前針對(duì)電影評(píng)分的研究較少,但已經(jīng)有部分研究者將票房預(yù)測(cè)的研究方法應(yīng)用于評(píng)分預(yù)測(cè)中。Matthew Rodrigue(2010)對(duì)比了邏輯回歸模型和多項(xiàng)式模型在26個(gè)變量上的選擇效果,實(shí)驗(yàn)結(jié)果表明前者的預(yù)測(cè)準(zhǔn)確性更高。Karl Persson(2015)收集了IMDb網(wǎng)站上好萊塢電影的屬性特征信息,包括電影類型、預(yù)算、制片人和導(dǎo)演、明星影響力等特征,隨后使用隨機(jī)森林回歸模型和支持向量回歸機(jī)模型對(duì)特征信息進(jìn)行建模,得到電影評(píng)分的預(yù)測(cè)模型,結(jié)果表明前者的性能優(yōu)于后者。

        周文樂等(2015)綜合了時(shí)間和用戶評(píng)分特征,提出了一種基于對(duì)分網(wǎng)絡(luò)的評(píng)分預(yù)測(cè)模型;文中考慮到了用戶相似性,利用譜聚類方法得到不同的用戶興趣組,最后利用鄰居用戶的評(píng)分信息對(duì)未知項(xiàng)目做出預(yù)測(cè),其原理類似現(xiàn)在常用的推薦系統(tǒng)方法。劉明昌(2017)使用的混合預(yù)測(cè)模型在電影特征信息指標(biāo)之外,添加了豆瓣電影用戶評(píng)分和相似電影推薦這兩項(xiàng)影響因素,結(jié)果表明改進(jìn)后的模型在預(yù)測(cè)精度上有了較大幅度的提高。陸君之(2018)從導(dǎo)演、編劇、主演、電影類型、國家地區(qū)五個(gè)維度來構(gòu)建電影的特征向量,對(duì)比了隨機(jī)森林、DT算法及GBDT算法等算法模型的誤差,結(jié)果表明隨機(jī)森林模型的預(yù)測(cè)性能明顯優(yōu)于其他模型。周如彪等(2019)以豆瓣Top250影片為研究對(duì)象,通過建立多元線性回歸模型驗(yàn)證得出:編劇評(píng)分對(duì)電影評(píng)分影響最顯著。

        綜合以上文獻(xiàn)可以發(fā)現(xiàn),研究者在電影評(píng)分預(yù)測(cè)方面的創(chuàng)新點(diǎn)主要分為變量選取的創(chuàng)新和算法模型的改進(jìn),但是在明確哪些變量對(duì)評(píng)分影響更為重要時(shí)常常表意不清。而本文的創(chuàng)新點(diǎn)主要表現(xiàn)在三個(gè)方面:一是變量選取:除大眾廣泛認(rèn)可的導(dǎo)演、演員、編劇、類型等影響電影評(píng)分的因素外,還考慮了大眾關(guān)注度、電影語言特征、電影時(shí)長(zhǎng)等因素。二是使用了特征工程方法對(duì)定性變量重新賦值,使之前雜亂的文本特征轉(zhuǎn)化為可度量的影響因素。三是通過選取不同模型,輸出了各模型的變量重要性排名,綜合各模型結(jié)果得到影響電影評(píng)分的最主要因素。

        2 建模機(jī)理與數(shù)據(jù)準(zhǔn)備

        2.1 電影評(píng)分機(jī)理分析

        目前電影評(píng)分機(jī)制的研究方法主要分為以下三類:

        (1)基于用戶評(píng)分。即通過分析用戶的評(píng)分信息,得到其觀影偏好和評(píng)分習(xí)慣,進(jìn)而對(duì)新電影評(píng)分做預(yù)測(cè)。

        (2)基于電影特征。收集影響電影評(píng)分的相關(guān)特征,選擇合適的預(yù)測(cè)模型。

        (3)基于相似電影推薦。電影推薦系統(tǒng)的常用方法,通過計(jì)算目標(biāo)電影與其他電影的相似度,進(jìn)而得到預(yù)測(cè)評(píng)分。

        本文采用第二種方法,首先需找出影響評(píng)分的電影特征。目前學(xué)界對(duì)于影響電影評(píng)分因素的研究較少,參考電影票房預(yù)測(cè)的研究結(jié)論并結(jié)合日常經(jīng)驗(yàn),本文將影響因素分為以下四類,即:演職人員特征、出品方特征、電影自身特征和大眾關(guān)注度特征,具體分析見表2。

        表2 電影評(píng)分影響因素

        2.2 數(shù)據(jù)準(zhǔn)備

        通過爬蟲獲得截至2019年3月的豆瓣華語電影數(shù)據(jù),共14個(gè)變量,13960條記錄。簡(jiǎn)單瀏覽華語電影數(shù)據(jù)集后發(fā)現(xiàn)評(píng)論人數(shù)較少的影片有較多的字段缺失,并且其主創(chuàng)團(tuán)隊(duì)沒有其他的作品;這使得在下一步中對(duì)變量賦值時(shí)無法計(jì)算或計(jì)算不正確,因此本次試驗(yàn)僅選擇影評(píng)數(shù)量超過300的影片。對(duì)華語電影數(shù)據(jù)集進(jìn)行數(shù)據(jù)選擇和數(shù)據(jù)整理后,總計(jì)有552部影片作為最終的建模數(shù)據(jù)。

        結(jié)合2.1節(jié)的分析選擇相應(yīng)變量,使用特征工程方法對(duì)變量進(jìn)行處理。

        2.3 特征工程

        觀察建模數(shù)據(jù)集可以發(fā)現(xiàn),表1中的特征預(yù)處理方式在本次試驗(yàn)中都有所涉及。其中,電影類型、導(dǎo)演、編劇和主演字段全部以文本形式呈現(xiàn),此類定性特征不能直接使用,需要將定性特征轉(zhuǎn)換為定量特征。通過生成新的衍生變量,將文本數(shù)據(jù)轉(zhuǎn)化為數(shù)值型數(shù)據(jù),以便更好地建立模型。

        查閱資料后發(fā)現(xiàn),對(duì)導(dǎo)演、編劇和主演進(jìn)行賦值較為困難,常用的賦分方法有兩種:一是根據(jù)其獲獎(jiǎng)情況進(jìn)行統(tǒng)計(jì),二是基于其之前執(zhí)導(dǎo)或者參與的影片評(píng)分來統(tǒng)計(jì)。在本文中,由于涉及演職人員較多,且近年來對(duì)于電影從業(yè)人員設(shè)立的獎(jiǎng)項(xiàng)愈發(fā)繁多,筆者也無法明確辨別哪些屬于含金量較高的獎(jiǎng)項(xiàng)?;谝陨峡剂?本次實(shí)驗(yàn)選擇“電影評(píng)分”作為導(dǎo)演、編劇、主演相關(guān)影響力的衡量指標(biāo)。

        各變量解釋和具體賦值過程如下:

        (1)導(dǎo)演執(zhí)導(dǎo)水平

        以某導(dǎo)演執(zhí)導(dǎo)電影所獲得的評(píng)分均值作為導(dǎo)演執(zhí)導(dǎo)水平特征。

        (2)編劇水平

        對(duì)于同一位編劇,選擇由該編劇主創(chuàng)的所有電影劇本的電影均值為該編劇的評(píng)分。從數(shù)據(jù)集可以看出,一部電影的編劇往往不止一人,電影劇本也分為原創(chuàng)劇本和其他成名作品改編。良好作品的呈現(xiàn)靠的是群體的群策群力,因此相對(duì)于某一位編劇的重大影響力,取均值似乎更能代表實(shí)際情況。選取一部電影排行前五的編劇,計(jì)算評(píng)分均值。

        (3)演員表現(xiàn)力

        選用演員參與拍攝的所有電影作品計(jì)算該演員評(píng)分。

        S表示第 i 位主演的評(píng)分均值;

        ω表示第 i 位主演在此部電影的權(quán)重。

        考慮到一部影片的參演人數(shù)較多,有時(shí)可多達(dá)十幾位。一來排名靠后的演員對(duì)電影的最終評(píng)分影響甚微;二來給計(jì)算帶來極大的難度。綜合考慮下,本文結(jié)合電影宣發(fā)時(shí)對(duì)主演排名的先后,權(quán)重設(shè)置如表3所示,若參演人數(shù)多于 5 位,則從第6位開始不考慮其對(duì)電影的影響。

        表3 演員權(quán)重表

        由于導(dǎo)演、編劇、演員三個(gè)特征的賦值過程較為相似,我們分別選出10位展示經(jīng)均值計(jì)算處理后的結(jié)果,如表4所示。

        表4 導(dǎo)演、編劇、演員個(gè)人評(píng)分表(部分)

        從表4中可以看到,各演職人員的個(gè)人評(píng)分總體上符合大眾認(rèn)知。其中參演電影次數(shù)較多的個(gè)人,其評(píng)分當(dāng)然更加準(zhǔn)確。如果參與電影數(shù)太少,例如《流浪地球》的主演屈楚蕭,他只參演過一部影片,那流浪地球的豆瓣評(píng)分就是該演員的個(gè)人評(píng)分,這可能對(duì)接下來的建模造成不良影響。

        (4)是否為聯(lián)合發(fā)行

        引入啞變量,制片國家/地區(qū)為兩個(gè)及以上時(shí),為變量賦值為1。單個(gè)地區(qū)賦值為0。

        (5)發(fā)行年份

        結(jié)合之前的分析,年份較早的電影容易獲得高評(píng)分;同時(shí)隨著電影技術(shù)和經(jīng)濟(jì)水平的不斷發(fā)展,大眾審美變化越來越快。根據(jù)電影發(fā)行年份大致分布情況,將電影發(fā)行年份劃分以五個(gè)階段:1990年之前,1990至1999,2000至2009,2010至2014及2015年之后。類別編號(hào)為1-5。

        (6)影片類型

        通過爬取豆瓣Top250的影片數(shù)據(jù),對(duì)受大眾歡迎的電影類型進(jìn)行可視化分析,從圖1可以清楚看到劇情片遙遙領(lǐng)先。類型前五分別是:劇情、愛情、喜劇、犯罪和冒險(xiǎn)??梢娙藗?cè)谟^影選擇方面,一則偏好具有強(qiáng)烈的戲劇沖突、令人腎上腺素飆升的犯罪和冒險(xiǎn)片;其次是喜愛給人帶來歡樂、促使多巴胺分泌的喜劇和愛情片。根據(jù)圖1表示的觀眾偏好給各類型電影打分,如表5所示。

        圖1 豆瓣Top250電影類型

        表5 影片類型對(duì)應(yīng)得分

        (7)電影時(shí)長(zhǎng)

        根據(jù)日常經(jīng)驗(yàn)分析可知,合適的電影時(shí)長(zhǎng)可以改善人們的觀影體驗(yàn),時(shí)長(zhǎng)太長(zhǎng)或太短似乎都不太受大家喜愛。將電影時(shí)長(zhǎng)劃分為如下區(qū)間: 0-90,90-120,120-150和150以上,單位為分鐘;所對(duì)的類別編號(hào)為1-4。

        (8)電影語言

        華語電影整體以普通話和粵語為主,但也有部分地方方言。方言能夠帶來不一樣的影片效果。從數(shù)據(jù)集上可以看到該變量多為“普通話/粵語/北京話”形式,為定性變量。對(duì)含有方言的電影賦值為1;為粵語/普通話的影片賦值為0。

        2.4 變量選擇和命名

        表6 電影評(píng)分影響因素

        結(jié)合2.1和2.3節(jié)對(duì)引入回歸模型的變量進(jìn)行選擇和命名,對(duì)分類變量進(jìn)行因子型轉(zhuǎn)化,使其在引入回歸模型時(shí)會(huì)自動(dòng)轉(zhuǎn)化為虛擬變量形式。

        3 模型構(gòu)建

        回歸分析是預(yù)測(cè)模型的最常用方法之一,其主要目的是確定因變量與自變量之間相互依賴的定量關(guān)系,基于變量特征選擇合適的回歸模型。

        3.1 相關(guān)性分析

        表7 連續(xù)變量相關(guān)系數(shù)表及其顯著性檢驗(yàn)

        在建立模型之前需探究因變量與自變量的相關(guān)關(guān)系,連續(xù)型變量和分類型變量相關(guān)性有不同的分析方法。首先計(jì)算本次試驗(yàn)中連續(xù)型變量的相關(guān)系數(shù)。由于Pearson線性相關(guān)系數(shù)要求連續(xù)變量的取值服從正態(tài)分布,本實(shí)驗(yàn)不符合該要求,故選擇Spearman秩相關(guān)系數(shù)。輸出相關(guān)系數(shù)矩陣及其對(duì)應(yīng)的相關(guān)系數(shù)顯著性檢驗(yàn)表,如表7所示。

        從表7可以看出,華語電影評(píng)分與演員、編劇和主演相關(guān)性較強(qiáng),同時(shí)這三個(gè)變量間也存在較強(qiáng)的相關(guān)性,這里考慮到特征工程賦值的原因。從相關(guān)系數(shù)顯著性檢驗(yàn)結(jié)果來看(原假設(shè)為變量間不相關(guān),即相關(guān)系數(shù)為0)。第一列p值皆小于0.01。因此拒絕原假設(shè),有理由認(rèn)為因變量與所選自變量之間具有相關(guān)性。

        對(duì)于分類變量,本試驗(yàn)數(shù)據(jù)不服從正態(tài)總體假設(shè),且各類別數(shù)據(jù)獨(dú)立。對(duì)于二分類和多分類變量分別使用Wilconxon秩和檢驗(yàn)和Kruskal-Wallis檢驗(yàn),判斷電影評(píng)分在各類別組間是否存在差異,輸出結(jié)果如表8所示。

        表8 組間差異非參數(shù)檢驗(yàn)

        可以看出除了publisher(是否為聯(lián)合發(fā)行)變量不能拒絕電影評(píng)分在各類別表現(xiàn)相同的原假設(shè)外(p>0.05),其他分類變量皆可拒絕原假設(shè),即認(rèn)為電影評(píng)分均值在語言、發(fā)行年份、電影時(shí)長(zhǎng)變量的各類別間存在顯著差異。

        從以上的相關(guān)分析中猜測(cè)預(yù)測(cè)變量間存在多重共線性,即使用的多個(gè)預(yù)測(cè)變量之間存在線性相關(guān)關(guān)系,此時(shí)多元線性回歸模型已不再適用,因?yàn)槠渲匾俣ㄖ痪褪腔貧w模型的解釋變量之間不存在線性關(guān)系。

        表9 自變量VIF檢驗(yàn)結(jié)果

        對(duì)多重共線性的處理方法包括:刪除次要變量、改變變量形式、選擇其他回歸方法等。在本次試驗(yàn)中,存在強(qiáng)多重共線性的三個(gè)變量是導(dǎo)演、編劇和演員,這是模型中的重要因素,不可直接刪除。結(jié)合相關(guān)性分析結(jié)果,刪除變量short(短評(píng)數(shù)量)和publisher(是否為聯(lián)合發(fā)行),將剩余的9個(gè)變量作為最終的預(yù)測(cè)變量建立回歸模型(處理為虛擬變量后為14個(gè)變量)。

        3.2 回歸模型選擇

        一般來說,構(gòu)建的模型由線性函數(shù)組成的回歸問題就可以稱之為線性回歸,即認(rèn)為輸出值是輸入變量的線性組合。首次從回歸分析中最基礎(chǔ)、最簡(jiǎn)單的多元線性回歸模型入手,其優(yōu)點(diǎn)包括:易于建模、形式簡(jiǎn)單、可將因子型變量直接納入模型并具有較好的解釋性。對(duì)于多重共線性問題,輕度多重共線性對(duì)參數(shù)估計(jì)的影響較為有限,故而可以嘗試使用多元線性回歸建模。除多元線性模型之外,筆者還希望尋找既可以處理多重共線性問題,又能夠?qū)ψ兞窟M(jìn)行篩選、給出變量重要性排序的模型;基于以上分析,本文將使用多元線性回歸、LASSO回歸和隨機(jī)森林回歸三種方法進(jìn)行建模。

        3.2.1 多元線性回歸

        多元線性回歸使用普通最小二乘法來求解模型的最小損失函數(shù),通過最小化殘差平方和尋找最佳的模型參數(shù)。在R中完成下列操作:劃分訓(xùn)練集和測(cè)試集比例為7∶3,訓(xùn)練集中包含觀測(cè)386個(gè),測(cè)試集中觀測(cè)數(shù)為166。生成多元線性模型,輸出結(jié)果如表10所示。

        表10 多元回歸分析輸出結(jié)果

        R中對(duì)分類變量的處理是將其定義為因子型變量,讀取時(shí)以第一類別為比較標(biāo)準(zhǔn),引入虛擬變量。在發(fā)行年份(year)變量中,類別1為1990年之前。根據(jù)回歸系數(shù),可得出類別2(1990至1999)的評(píng)分略高于類別1外,其后的發(fā)行年份(2000至2009,2010至2014及2015年之后)的評(píng)分總體表現(xiàn)為逐年走低,這也印證了本文之前的猜想:大眾評(píng)分越來越嚴(yán)格,新發(fā)行電影想要獲得高評(píng)分愈加困難。在影片時(shí)長(zhǎng)(time)變量中,結(jié)果顯示電影時(shí)長(zhǎng)對(duì)電影評(píng)分為負(fù)向影響,與預(yù)估的結(jié)論不一致。可能的原因包括:變量本身設(shè)置不佳、模型設(shè)定有誤等。

        time1-2.08E-011.37E-01-1.5230.128552 time2-4.05E-011.54E-01-2.6330.008828**time3-4.37E-012.60E-01-1.6790.093908.language3.75E-011.04E-013.6160.00034***comment2.23E-063.78E-075.9087.84E-09***long -5.01E-053.11E-05-1.6090.108518變量顯著性標(biāo)記(對(duì)應(yīng)不同顯著性水平):0‘***’ 0.001‘**’ 0.01‘*’0.05‘.’0.1‘ ’ 1模型判定系數(shù)R2:0.7663, 調(diào)整的R2: 0.7575

        從多元線性回歸結(jié)果來看,模型可以為研究者反映一些信息。但本文目的為篩選出對(duì)電影評(píng)分預(yù)測(cè)最有效的指標(biāo);由于變量的量綱存在差異,此模型的回歸系數(shù)沒有參考意義,因而選用相對(duì)權(quán)重來衡量變量相對(duì)重要性,如表11所示。

        3.2.2 LASSO回歸

        使用程序包glmnet,glmnet包在計(jì)算λ值之前首先對(duì)輸入進(jìn)行標(biāo)準(zhǔn)化,然后輸出非標(biāo)準(zhǔn)化系數(shù)。指定響應(yīng)變量的分布為gaussian,因?yàn)樗沁B續(xù)的;指定alpha = 1,表示進(jìn)行LASSO回歸。使用K折交叉檢驗(yàn)找到最優(yōu)的λ,將λ=0.138代入預(yù)測(cè),同時(shí)輸出LASSO回歸對(duì)應(yīng)的變量系數(shù),見表11。

        圖2 LASSO回歸系數(shù)收縮圖

        圖2展示了LASSO回歸的作用過程,同時(shí)反映出變量的重要性排序。其橫軸表示壓縮的懲罰系數(shù)(λ值取對(duì)數(shù)),縱軸表示變量系數(shù)的變化,每條線代表一個(gè)特征。LASSO回歸可以通過觀察曲線到達(dá)0的前后順序,決定選擇哪些特征進(jìn)入模型。圖2中,最先舍去的變量是9/13/14(year4、comment、long);隨 后 是10/8/4/11/12(time1、year4、type、time2、time3),其 次 是6/5/7(year1、language、year2),最后是3/1/2(starring、director、writer)。

        3.2.3 隨機(jī)森林回歸

        隨機(jī)森林算法對(duì)于特征之間相關(guān)性不敏感,同時(shí)可以處理多種類型的變量。這就表明在對(duì)電影評(píng)分進(jìn)行預(yù)測(cè)時(shí),隨機(jī)森林回歸有較好的表現(xiàn)。使用randomForest( )函數(shù)構(gòu)建隨機(jī)森林模型,同時(shí)查看變量重要性。本文選IncMSE為度量標(biāo)準(zhǔn),等價(jià)于均方誤差;輸出結(jié)果如表11所示。

        表11 變量重要性和模型預(yù)測(cè)性能比較

        4 變量重要性排序

        基于3.2節(jié)的分析,分別列出多元線性回歸、LASSO回歸、隨機(jī)森林回歸對(duì)變量顯著性的度量指標(biāo),分別是:相對(duì)權(quán)重、變量系數(shù)和變量重要性(IncMSE);根據(jù)輸出結(jié)果,按照變量的重要性程度,為變量排序。同時(shí)對(duì)比以上三種模型在測(cè)試集上的均方誤差MSE和決定系數(shù)Rscore,其分別描述了模型的預(yù)測(cè)精度和擬合優(yōu)度,結(jié)果表明隨機(jī)森林回歸作為非參模型,較參數(shù)模型具有更好的泛化性能。

        在表11中,“.”代表該變量對(duì)應(yīng)的系數(shù)為0,即LASSO回歸模型未選擇該變量。綜合三種模型的排序結(jié)果,編劇水平、導(dǎo)演執(zhí)導(dǎo)水平和演員表現(xiàn)力是電影評(píng)分的最主要影響因素;并且相對(duì)于導(dǎo)演執(zhí)導(dǎo)水平和演員影響力,編劇水平對(duì)電影評(píng)分影響更大。這就說明了對(duì)于一部好的電影,大家更加關(guān)注電影整體情節(jié)是否精彩。

        模型結(jié)果還表明:大眾關(guān)注度高和電影中含有方言對(duì)評(píng)分影響是正向的,但其對(duì)最終評(píng)分的影響較為有限。此外,是否為聯(lián)合發(fā)行、電影時(shí)長(zhǎng)變量對(duì)電影評(píng)分的影響不大。

        最后需要探討的是“電影類型”變量,從模型結(jié)果可以發(fā)現(xiàn)其對(duì)評(píng)分的影響似乎沒有文章開頭預(yù)想的那么大。重新查閱數(shù)據(jù)集后筆者思考出現(xiàn)這種情況的主要原因是:數(shù)據(jù)集中的電影類型為豆瓣官方自動(dòng)生成,存在不能識(shí)別全部電影類型的可能。這就使得一部本來可以有六七種類別標(biāo)簽的影片,最終只顯示其主要類型(兩種以下);而有些影片,其類型相對(duì)完整,所得的類型評(píng)分也相對(duì)較高,如此就導(dǎo)致了電影類型變量在模型中的作用程度估計(jì)錯(cuò)誤。

        5 結(jié)論

        本文首先利用特征工程方法為原始數(shù)據(jù)集中的定性變量賦值,從賦值結(jié)果來看,符合大眾預(yù)知。在模型變量選擇方面,盡量多地考慮到了影響電影評(píng)分的各方面因素,并選擇了合適的變量對(duì)相關(guān)特征進(jìn)行衡量。最終選用的三個(gè)模型中,隨機(jī)森林回歸模型效果最佳,建議研究者選用。

        最終結(jié)論表明:對(duì)電影評(píng)分進(jìn)行預(yù)測(cè)時(shí),首先應(yīng)考慮編劇水平、導(dǎo)演執(zhí)導(dǎo)水平和演員表現(xiàn)力;并且應(yīng)賦予編劇水平較大的比重。建議未來的電影市場(chǎng)多多發(fā)現(xiàn)和創(chuàng)造優(yōu)秀的電影劇本,培養(yǎng)和鼓勵(lì)更多優(yōu)秀的編劇人才。對(duì)于電影創(chuàng)作團(tuán)隊(duì)而言,在電影拍攝中更加注重如何講好電影故事,而非在名導(dǎo)光環(huán)、參演明星上下過多功夫,這點(diǎn)在流量明星評(píng)分不敵優(yōu)秀演員上已得到驗(yàn)證。

        其次還需考慮電影的大眾關(guān)注度特征、語言特征和發(fā)行年份,大眾關(guān)注度高及電影中含有方言等其他元素對(duì)電影評(píng)分影響是正向的。對(duì)于新上映和未上映影片,可將“想看人數(shù)”作為大眾關(guān)注度的衡量指標(biāo)。相應(yīng)的,電影制片方和發(fā)行方在注重電影宣傳的同時(shí),還需在影片細(xì)節(jié)、語言新意、多種元素引入等方面下功夫。現(xiàn)今,大眾審美水平不斷提升、觀影口味愈發(fā)苛刻已經(jīng)是既定趨勢(shì),這就要求電影工作者與時(shí)俱進(jìn),以更嚴(yán)格的標(biāo)準(zhǔn)去創(chuàng)作和審視一部作品。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        午夜免费观看日韩一级片| 一个人看的www免费视频中文| 国产精品亚洲A∨天堂不卡| 国产三级在线观看性色av| 美丽小蜜桃1一3在线观看| 亚洲精品色午夜无码专区日韩| 亚洲依依成人亚洲社区| 亚洲 暴爽 AV人人爽日日碰| 亚洲一区二区岛国高清| 午夜熟女插插xx免费视频| 国产激情精品一区二区三区| 色欲AV成人无码精品无码| 免费黄网站一区二区三区| 日本高清在线一区二区三区| 欧洲极品少妇| 精品人妻少妇一区二区中文字幕 | 日韩免费视频| 男人添女人下部高潮全视频| 色伊人国产高清在线| 日本97色视频日本熟妇视频| 久久aaaa片一区二区| 97午夜理论片在线影院| 日本岛国精品中文字幕| 国产精品亚洲一区二区三区在线 | 国产成人av性色在线影院色戒 | 久久久久国产精品熟女影院 | 亚洲精品不卡av在线免费| 久久精品国产清自在天天线| 国产精品熟妇视频国产偷人| 国产人妖一区二区在线| 亚洲第一幕一区二区三区在线观看 | 国产精品蝌蚪九色av综合网| 黄色a级国产免费大片| av狼人婷婷久久亚洲综合| 亚洲精品综合中文字幕组合| 人妻洗澡被强公日日澡电影| 国产免费久久精品国产传媒| 蜜臀av国内精品久久久人妻| 公厕偷拍一区二区三区四区五区 | 中文字幕无线码一区二区| 国产精品亚洲成在人线|