亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林理論的電影評分預測

        2021-02-28 07:30:09劉林慧王慧
        現(xiàn)代信息科技 2021年16期

        劉林慧 王慧

        摘? 要:電影評分是電影質量的一個直觀反映,對未上映的電影評分進行預測是非常重要的。文章在電影本身屬性的基礎上,定義所有特征量化方式,同時利用電影相似度新增相似電影評分屬性,結果表明,加入該因子之后,模型的均方誤差降低了35.3%。在此基礎上,使用選擇性隨機森林優(yōu)化算法對電影評分進行預測,模型的均方誤差為0.102 5,預測較準確。

        關鍵詞:相似電影評分;特征量化;隨機森林;電影評分預測

        中圖分類號:TP391.4? ? ? ? ? ? ? ? ? ? 文獻標識碼:A文章編號:2096-4706(2021)16-0083-04

        Prediction of Film Score Based on Random Forest Theory

        LIU Linhui, WANG Hui

        (College of Modern Manufacturing Engineering, Heilongjiang University of Technology, Jixi? 158100, China)

        Abstract: Film score is an intuitive reflection of film quality. It is very important to predict the score of unreleased films. Based on the attributes of the film itself, this paper defines all feature quantization methods, at the same time, the film similarity is used to add the scoring attribute of similar films. The results show that after adding this factor, the mean square error of the model is reduced by 35.3%. On this basis, the selective random forest optimization algorithm is used to predict the film score, the mean square error of the model is 0.102 5, which is more accurate.

        Keywords: similar film score; feature quantification; random forest; prediction of film score

        0? 引? 言

        隨著信息時代的大踏步發(fā)展,人們生活方式的大幅度變革,電影成了人們休閑娛樂的重要方式之一。在電影領域,不管是哪種片型,都包含著一個國家、一個民族、一個社會的交往方式,反映了一個特定時期的人文精神。越來越多的人會在休閑之余選擇去觀看電影,渴望通過電影獲取這個時代的重要信息,渴望通過電影釋放自己的精神壓力。電影是拍給觀眾看的,沒有觀眾的電影是不存在的,因此電影要適應觀眾的需要。

        近年來,越來越多的電影在大眾視野中出現(xiàn),但是電影的質量卻是參差不齊。電影評分是電影質量最直觀的反映,它成為觀眾選擇電影消費的一個重要依據(jù)。預測電影評分問題[1,2]對于電影領域未來的發(fā)展和地區(qū)經(jīng)濟發(fā)展非常重要,因此對即將上映的電影評分進行預測是非常有必要的。

        1? 數(shù)據(jù)處理

        本文所使用的實驗數(shù)據(jù)來自豆瓣網(wǎng)站[3],詳見https://movie.douban.com/。共包含8個屬性,15 000條電影數(shù)據(jù)。電影本身屬性包括:電影名稱、類型、時長、劇情簡介、導演、編劇、主演、評分,數(shù)據(jù)形式如表1所示。

        1.1? 相似電影評分屬性

        本部分新增相似電影評分屬性,根據(jù)電影本身特征,導演、編劇、主演、劇情簡介、類型,設置權重,計算電影之間相似度,每部電影尋找與它相似度最高的10部相似電影,取10部電影評分的平均值作為新增屬性值。

        1.1.1? 特征到向量的轉化

        1.1.1.1? 導演、編劇、演員、類型

        從表1可知導演、編劇、演員和類型都是字符型數(shù)據(jù),處理方式相同。將每部電影的導演、編劇、演員、類型、劇情簡介轉化為0,1向量,實現(xiàn)字符型數(shù)據(jù)到向量轉化的算法如算法1所示:

        文本特征到向量的轉化

        輸入:電影文本特征

        輸出:每個電影文本特征對應的二進制向量

        過程:

        1.將所有電影的文本信息存入新列表中

        2.遍歷新列表

        3. 遍歷每個電影文本信息

        4.? ?如果該電影信息在列表中出現(xiàn),列表對應位置賦值為1,其他位置賦值為0

        1.1.1.2? 劇情簡介

        劇情是對電影的簡單描述,觀眾可以通過劇情簡介了解電影的大概內容。尋找相似電影時,劇情屬性是非常重要的。判斷兩個電影是否相似,可以通過電影劇情中的關鍵字來判斷。

        電影劇情中的關鍵詞通過關鍵詞提取得到,所謂關鍵詞提取,就是從一段給定的文本中自動抽取出能夠反映文本信息的特征詞。本文使用TextRank關鍵詞提取方法,TextRank算法是可以脫離語料庫的背景,僅對單篇文檔進行分析就可以提取出該文檔的關鍵詞的一種提取方法[4]。

        以電影《銀河補習班》為例。使用TextRank算法提取到的關鍵詞如表2所示。

        提取關鍵詞之后,將關鍵詞轉化為二進制向量,同樣應用算法1實現(xiàn)。

        1.1.2? 電影相似度計算

        1.1.2.1? 余弦相似度

        余弦相似度是一種相似度的度量標準,用向量之間的夾角來計算相似度。

        已知兩個向量α,β,兩向量之間的夾角用θ表示。余弦相似度公式為:

        (1)

        以類型為例,利用上述公式計算兩電影的類型相似度。假設電影1的類型向量為α,電影2的類型向量為β。

        α=(1,1,1,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)? ?(2)

        β=(1,0,0,1,0,0,0,0,1,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0)? ?(3)

        則兩部電影類型的相似度為:

        (4)

        1.1.2.2? 特征權重相似度

        定義:在余弦相似度的基礎上,乘上相應的特征的權重,得到特征權重相似度。

        本論文為屬性設定權重值如表3所示。

        (5)

        1.1.3? 相似電影評分屬性值計算

        得到的基于電影信息的相似電影評分屬性值計算方法如算法2所示:

        def binary(attribute_list,newList):# 將所有文本特征轉化為二進制向量

        binaryList = []

        for attribute in newList:

        if attribute in attribute _list:

        binaryList.append(1)

        else:

        binaryList.append(0)

        return binaryList

        def Similarity(movie_name):#求兩個電影之間的特征權重相似度

        A_Similarity List = []

        for index, movie in f.iterrows():? ?#f文件為包含二進制向量的數(shù)據(jù)

        a = f.iloc[movie_name]

        b = f.iloc[movie[‘name’]

        attribute_Distance = similar(a[‘attribute_vec’], b[attribute_vec’])

        A_Similarity=0.5*director_Distance+0.5*scriptwriter_Distance+0.5*actor_Distance+ type_Distance+1.5*words_Distance? ?#特征權重相似度公式

        A_Similarity List.append(A_Similarity)

        returnA_SimilarityList

        def Subject(movie_name):

        #取特征權重相似度最大的前10位電影,輸出電影的相似電影評分屬性值

        A_SimilarityList=Similarity(movie_name)

        A_Similarity_ten=A_SimilarityList[0:10]

        subject=sum(A_Similarity_ten)/len(A_Similarity_ten)

        return subject

        1.2? 電影屬性處理

        本部分給出第一導演、第一編劇、第一、二主演、時長、類型等屬性的定義量化特征的方式:

        (1)第一導演:

        (6)

        其中Ri表示該部電影的第一導演導過的第i部電影的評分,n表示該導演導過的全部電影的數(shù)目。

        (2)第一編劇:

        (7)

        其中Rj表示該部電影的第一編劇編寫過的第j部電影的評分,n表示該編劇參與過的全部電影的數(shù)目。

        (3)第一、二主演:

        ,α=0.6,β=0.4? ? ? ? ? ? ?(8)

        其中第一主演與第二主演的計算方式相同。Bi表示主演作為第一主演出演的第i部電影的評分,Cj表示主演不作為第一主演出演的第j部電影的評分,n為主演參演過的全部電影數(shù)。α和β為權重。如果一位主演只作為第一主演,或者從未作為第一主演,則取他作為第一主演所演過的電影的平均分或者作為其他主演所演過的電影的平均分。

        (4)時長。對于時長這一屬性,在數(shù)據(jù)預處理過程中保留原數(shù)值,不對其進行處理。

        (5)類型:

        (9)

        其中Wi、Wj、Wk分別代表各個類型全部電影的平均分。

        2? 新加入特征的有效性檢驗

        將數(shù)據(jù)集進行拆分,75%作為訓練集數(shù)據(jù),25%作為測試集數(shù)據(jù)。

        分別計算100棵樹、300棵樹、500棵樹以及1 000棵樹在兩種情況下的得到的隨機森林的均方誤差。兩種情況分別是原始六個因子和加入相似電影評分因子。圖1是兩種情況下隨機森林均方誤差值的對比圖,橫坐標表示森林的規(guī)模,縱坐標表示均方誤差。圖2是在使用隨機森林預測過程中得到的變量重要性情況,用條形圖進行展示。縱坐標表示各屬性所占的權重,橫坐標表示各屬性名稱。

        圖1表明,一方面,加入相似電影評分因子能減小模型的均方誤差。圖2可以看出,對電影評分影響最大的特征是相似電影評分因子,雖然其他因子對評分的影響沒有相似電影評分因子影響大,但是依然對預測結果做出貢獻。因此從實驗結果可以得出結論,新加入的因子有效。

        3? 基于選擇性隨機森林的電影評分預測

        3.1? 算法理論基礎

        3.1.1? 隨機森林

        隨機森林[5-7]是一種集成學習算法,隨機森林的基學習器是決策樹,每棵決策樹沒有關聯(lián)。隨機森林相對于決策樹來說,模型有更低的泛化誤差。在回歸問題中,所有決策樹輸出結果的平均值就是隨機森林最終的輸出值。

        3.1.2? 選擇性隨機森林優(yōu)化算法

        選擇性集成[8]是指從所有現(xiàn)有的基學習器中,剔除對結果作用不大或者對結果起反作用的基學習器,然后基于某種準則選擇出一部分性能好的學習器作為一個新的集成,通常,使用新的集成模型能夠使分類或者回歸的結果更準確。

        隨機森林的泛化誤差與決策樹的平均泛化誤差和決策樹之間的平均相關性有關[5]。對隨機森林子集進行優(yōu)化,就是在保證森林規(guī)模的前提下,考慮單棵樹的平均泛化誤差、樹與樹之間的相關關系和集成的規(guī)模三者關系,讓隨機森林的泛化誤差更加接近極限值[9]。

        3.2? 基于選擇性隨機森林的電影評分預測

        在本部分中使用選擇性隨機森林優(yōu)化算法對電影評分進行預測。將隨機森林的規(guī)模設為1 000,迭代次數(shù)為設為100,種群個數(shù)設為50,最終得到的實驗結果如表4所示。

        優(yōu)化后森林的規(guī)模從原來1 000棵樹壓縮到了498棵樹,壓縮率達到了50.2%,且有更低的均方誤差為0.102 5。由于實驗所用的數(shù)據(jù)集較大,無法完全展示。因此本文采用隨機抽樣的方式,在樣本中抽取5部電影,并把5部電影的預測結果進行輸出,電影評分的真實值和預測值如表5所示。

        4? 結? 論

        本文選擇編劇、演員、導演、類型、劇情簡介、時長等六個屬性進行電影評分預測。并根據(jù)其中的編劇、演員、導演、類型、劇情簡介五個特征新建“相似電影評分”屬性,使用隨機森林算法優(yōu)化算法進行預測,模型的均方誤差達到0.102 5,預測較準確。

        本文考慮的影響未上映電影評分的因素有限,在后續(xù)的工作中會結合本次試驗的屬性重要性程度再考慮加入更多的因素,給出更精準的預測。

        參考文獻:

        [1] 劉明昌.豆瓣網(wǎng)站電影在線評分的混合預測模型研究 [D].保定:河北大學,2017.

        [2] 張紅麗,劉濟郢,楊斯楠,等.基于網(wǎng)絡用戶評論的評分預測模型研究 [J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(8):48-58.

        [3] 豆瓣.豆瓣電影 [EB/OL].[2021-05-04].https://movie.douban.com/.

        [4] 涂銘,劉祥,劉樹春.Python自然語言處理實戰(zhàn):核心技術與算法 [M].北京:機械工業(yè)出版社,2018:88-91.

        [5] BREIMAN. Random Forests [J].Machine Learning,2001,45(1):5-32.

        [6] 周志華.機器學習 [M].北京:清華大學出版社,2016:171-181.

        [7] 李航.統(tǒng)計學習方法 [M].北京:清華大學出版社,2012:67-72.

        [8] ZHOU Z H,WU J X,TANG W. Ensembling neural networks:Many could be better than all [J].Artificial Intelligence,2002,137 (1):239-263.

        [9] 姚明煌. 隨機森林及其在遙感圖像分類中的應用 [D]. 廈門:華僑大學,2014.

        作者簡介:劉林慧(1996.02—),女,漢族,黑龍江雞東人,助教,碩士研究生,主要研究方向:數(shù)據(jù)分析;王慧(1985.10—),女,漢族,黑龍江雞西人,講師,碩士研究生,主要研究方向:數(shù)學機械化。

        免费特级毛片| 国产AⅤ无码久久丝袜美腿| 国产v视频| 无码不卡一区二区三区在线观看| 国产在视频线精品视频二代| 男女视频在线观看一区二区| 在厨房拨开内裤进入毛片| 天天碰免费上传视频| 男女18禁啪啪无遮挡| 无码国产精品色午夜| 极品视频一区二区三区在线观看| 日本一区二区视频免费在线观看| 91九色老熟女免费资源| 亚洲国产成人av在线观看| 日本亚洲国产一区二区三区| 欧美日韩国产一区二区三区地区| 69国产成人综合久久精| 国产日产亚洲系列首页| 91露脸半推半就老熟妇| 亚洲av无码国产精品色午夜字幕 | 亚洲视频免费在线观看| 国产xxx69麻豆国语对白| 猫咪www免费人成网最新网站| 日韩美女av二区三区四区| 精品国产日产av在线| 日本无遮挡真人祼交视频| 中文字幕亚洲欧美日韩2019| 亚洲人成7777影视在线观看| 99久久亚洲精品加勒比| 日本本土精品午夜视频| 亚洲国产精品成人天堂| 成人看片黄a免费看那个网址| 亚洲九九九| 免费女同毛片在线不卡| 蜜桃传媒免费在线观看| 久久青青草原精品国产app| 国产精品密播放国产免费看| 久久精品中文字幕免费| 亚洲精品无码久久久久y| 青草国产精品久久久久久| 亚洲AV无码成人精品区H|