李香君 肖小玲
摘要:本文依據(jù)電影是人們?nèi)粘I钪兄匾膴蕵贩绞街?,用戶在選擇觀看一部電影前,通常會想通過已觀看過用戶對電影的評分或是評論來了解這部電影的是否值得觀看的需求。評分預測(rating prediction)在個性化推薦研究領域中可以被理解為:被用來作為預測用戶對那些尚沒有評價過的電影的評分的研究問題。本文工作首先對電影數(shù)據(jù)集進行數(shù)據(jù)預處理,隨后重點研究了支持向量機(SVM)回歸預測對電影評分進行預測,實驗結果MAE的值表明支持向量機(SVM)回歸預測在電影評分預測中取得較好的預測。
關鍵詞:支持向量機;MAE;回歸預測
中圖分類號:TP311文獻標識碼:A
文章編號:1009-3044(2021)27-0109-03
Abstract: In this paper, the film is one of the important ways of entertainment in people's daily life. Before people choose to watch a film, they usually want to know the quality of a film through film rating or comments. In the field of personalized recommendation research, rating prediction can be understood as a research problem that is used to predict users' ratings of movies that have not been evaluated. This paper first preprocesses the movie data set, and then focuses on the support vector machine (SVM) regression prediction to predict the movie score. The experimental results show that the MAE value of support vector machine (SVM) regression prediction achieves better prediction in the movie score prediction.
Key words: Support vector machine; MAE;Regression prediction
1引言
現(xiàn)如今隨著影音、書籍等垂直網(wǎng)站的快速發(fā)展,已經(jīng)購買或觀看過的用戶對產(chǎn)品或服務的評分評價,已經(jīng)逐漸發(fā)展成了一種重要的信息載體的趨勢,據(jù)有關視頻網(wǎng)站上的數(shù)據(jù)表明,借助社交媒體平臺表達自己觀點和想法的用戶數(shù)量有呈指數(shù)增長的趨勢,并且越來越多的用戶會在觀看電影前都會先關注電影的評分以及其他用戶對此電影的評價,以此來作為是否觀看電影的有力依據(jù)。通過對電影評分的直觀查閱,這是一種可以幫助用戶在是否觀看此電影的決策過程中提供其他用戶意見的一種快速有效的方式。
由于電影的評分預測相對來說難度較大,缺乏一套成熟并科學的預測方法。在為了實現(xiàn)對電影評分的準確預測需求上,本文在進行了相關電影推薦學習中評分預測研究的基礎上,結合影響用戶評分的特征實際情況與基于機器學習算法進行建模預測-基于支持向量機(SVM)回歸預測模型,主要目的是構建預測效果較好的分類模型來預測用戶對電影的評分。
2相關技術
本文基于機器學習算法進行建模預測-基于支持向量機(SVM)回歸預測模型。首先我們對SVR模型進行初始化,將訓練組數(shù)據(jù)輸入到帶有貝葉斯調(diào)參的10折交叉驗證程序中進行訓練,再將得到的最優(yōu)超調(diào)參數(shù)帶入到處理過的預測組數(shù)據(jù)輸入進行預測,計算其MAE值。
2.1余弦相似度
余弦相似度,實現(xiàn)過程如下:先計算兩個向量夾角的余弦值,然后用計算的夾角余弦值對這兩個向量的相似度進行評估。在數(shù)據(jù)挖掘的研究中,余弦相似度通常會被作為集群內(nèi)部凝聚力的一種度量。
應用在文本中,首先需要將兩段文本進行分詞的操作,再依據(jù)這兩個文本中的詞建立兩個向量,然后計算這兩個向量的夾角余弦值,通過余弦值得到這兩個文本在統(tǒng)計學方法中的相似度情況。依據(jù)余弦值范圍來判斷相似度:若求取的范圍落在[-1,1]之間:余弦值如果越趨近于1,則是代表這兩個向量的方向呈現(xiàn)越吻合,表現(xiàn)為越相似;余弦值如果越趨近于-1,這兩個向量的方向就呈現(xiàn)越相反;若接近于0,則表示這兩個向量近乎于正交。
2.2 SVR
SVR支持向量回歸,這是一種“寬容的回歸模型”,寬容的支持向量回歸(SVR)模型[1]的模型函數(shù)是一個線性函數(shù):y=ωx+b。
SVR支持向量回歸,算法的實現(xiàn)是通過在線性函數(shù)的兩側(cè)制造一個“間隔帶”,是否將樣本計入損失函數(shù)與樣本與間隔帶的關系有關,若樣本是落入間隔帶中間將不會被計入損失函數(shù);若樣本落入間隔帶之外則會被計入損失函數(shù)。最優(yōu)化模型問題,是通過最小化間隔帶的寬度和總損失解決的。在落在隔離帶邊緣之外的,或者是落在隔離帶邊緣上的,才會被計入最后的損失中。
3支持向量回歸的電影評分預測實驗
3.1數(shù)據(jù)源
本文采用movies、ratings、tags等數(shù)據(jù)集。由于數(shù)據(jù)集過大,本論文中只選取前10000條進行研究。調(diào)用pandas庫讀取三個數(shù)據(jù)文件并保存為CSV文件。采用用隨機分配的方式對測試集和訓練集進行劃分,確定訓練集與測試集的比例為7:3。通過pandas中read_table函數(shù)讀取數(shù)據(jù)文件,并為其關鍵字命名。其中數(shù)據(jù)文件包括ratings.dat、tags.dat、movies.dat。