亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        電影評分的自編碼網(wǎng)絡預測研究

        2018-10-26 02:42:42黃幸穎滕少華
        小型微型計算機系統(tǒng) 2018年9期
        關鍵詞:準確度編碼節(jié)點

        黃幸穎,梁 路,滕少華

        (廣東工業(yè)大學 計算機學院,廣州 510006)

        1 引 言

        在推薦系統(tǒng)中,用戶對項目的評分通常用二維矩陣來表示,但用戶已評分的項目數(shù)量有限,且隨著用戶數(shù)和項目數(shù)的增加,評分矩陣的規(guī)模將變大,這就是稀疏性[1]的問題.在推薦系統(tǒng)中被廣泛采用的協(xié)同過濾算法是根據(jù)用戶的歷史評分數(shù)據(jù)進行推薦的,易受到稀疏性的影響,如何降低其影響成為實現(xiàn)協(xié)同過濾要考慮的關鍵問題之一[2].

        有鑒于此,國內(nèi)外學者從降低矩陣稀疏度這一思路出發(fā),采用了多種方法來對空缺值進行預測,例如基于內(nèi)容的方法,基于聚類的方法等.這些方法有的利用項目或用戶的評分信息[3],有的利用用戶或項目的文本特征信息[4],對空缺的評分進行預測.優(yōu)點是簡單、直觀和易于解釋,但存在特征的提取問題.填充時若使用項目的特征,大多情況下都只能選擇文本類信息,而對于音頻、視頻等非文本類的項目,可供使用的文本類特征有限,限制了預測準確度的提升;若使用的是用戶特征,用戶出于對自身隱私的保護,普遍對顯式特征收集表現(xiàn)出抗拒的情緒,而隱式特征收集又會涉及復雜的用戶行為分析與建模,所得特征既不易于解釋,也難以保證準確性.

        本文采用一種基于自編碼網(wǎng)絡的模型,僅利用現(xiàn)有的評分信息,通過調(diào)整網(wǎng)絡節(jié)點之間的連接狀態(tài)來緩解稀疏性的影響,實現(xiàn)對評分矩陣空缺值的預測.實驗結(jié)果表明此方法的預測準確度超過了部分常用的推薦算法.本文第二部分為協(xié)同過濾領域的評分預測方法及其特點介紹;第三部分描述自編碼網(wǎng)絡在電影評分預測中的應用;第四部分展示實驗結(jié)果及分析;第五部分總結(jié)并提出下一步工作.

        2 相關工作

        稀疏性問題使得推薦算法產(chǎn)生推薦序列時要分兩步:第一,按照一定的標準預測評分矩陣當中的空缺值;第二,在第一步的基礎上進行Top-N推薦[5].解決稀疏性問題的常用方法有固定值、基于人口統(tǒng)計屬性、基于內(nèi)容、基于社交網(wǎng)絡等.以上方法能在一定程度上緩解稀疏性對推薦所帶來的影響,但有的沒有考慮用戶之間或項目之間的評分差異,難以保證預測結(jié)果的個性化;有的需要用戶或項目的額外信息,需要另外獲取[6-9].

        Salakhutdinov和Hinton將深度學習和協(xié)同過濾進行結(jié)合,通過在Netflix數(shù)據(jù)集上使用受限波爾茲曼機(Restricted Boltzmann Machine,簡稱RBM)為用戶建模,對未知的電影評分進行預測,取得了不錯的效果[10].該方法嘗試為每一個用戶建立一個模型,但用于模型訓練的樣本只有一個,即用戶自身的歷史評分記錄,而其他用戶的評分信息卻未能得到充分利用.

        作為深度學習的基礎模塊之一,自編碼網(wǎng)絡是一個三層的神經(jīng)網(wǎng)絡,輸入層到隱含層為編碼層,隱含層到輸出層為解碼層,整體來說,自編碼網(wǎng)絡是在學習輸入數(shù)據(jù)的某種表示[11].由若干個自編碼網(wǎng)絡組成的堆棧式自編碼網(wǎng)絡(Stacked Auto-encoder,簡稱SAE)已被用于分類問題的求解[12].

        自編碼網(wǎng)絡及其變型也常被用于輸入數(shù)據(jù)的特征提取.Xie[13]將這一結(jié)構(gòu)應用到圖像的識別與去噪中,結(jié)果表明自編碼網(wǎng)絡提取出來的特征能提高識別準確率.Vincent[14]用去噪自編碼網(wǎng)絡來提取音樂特征,取得了很好的效果.胡振[15]用去噪自編碼網(wǎng)絡組成混合模型解決作曲家分類問題,實驗結(jié)果表明自編碼網(wǎng)絡在特征提取上存在優(yōu)勢.江國薦[16]將堆疊自編碼網(wǎng)絡用于網(wǎng)頁分類,由于文本特征表示的特征向量維度高,而網(wǎng)頁文本屬于短文本,顯然用于文本特征表示的特征向量是一個稀疏向量,這與電影評分數(shù)據(jù)中各個用戶的評分向量是稀疏的一致.此外,該文實驗采用堆疊自編碼網(wǎng)絡進行特征選取,結(jié)果證明自編碼網(wǎng)絡可以更貼切地表達文本特征.綜上所述,故本文采用自編碼網(wǎng)絡來提取用戶評分中的隱含特征.

        3 電影評分的自編碼網(wǎng)絡

        3.1 場景預設

        假設現(xiàn)有一個用戶-項目評分矩陣如表1所示,共有4名用戶和5部電影.評分值為1到5之間的整數(shù),分值越大,表示用戶的喜好程度越高.現(xiàn)在要預測表中的空缺值,即用戶張三對電影《黃金時代》,用戶李四對電影《十七歲》等的評分.

        表1 用戶-項目評分矩陣
        Table 1 Users-items rating matrix

        黃金時代親愛的十七歲大話西游歲月神偷張三132李四154王五233趙六513

        基于用戶的協(xié)同過濾方法首先會計算用戶之間的相似度,然后用相似用戶對目標項的評分來填充相應的空缺值.例如,用戶張三和趙六的相似度最高,因此用戶張三對電影《黃金時代》的評分就用趙六對《黃金時代》的評分5分來填充.此方法優(yōu)點是簡單直觀,但在預測空缺值時僅考慮目標項的評分,忽略了各個項目評分之間可能存在的聯(lián)系.而自編碼網(wǎng)絡能從用戶的評分中提取特征,有利于發(fā)現(xiàn)項目評分之間的相關性,提高準確度.

        3.2 自編碼網(wǎng)絡建模

        在電影評分的預測中,假設有N個用戶,M部電影,相關的定義如下:

        定義1.用戶ui對電影mj的評分

        定義2.用戶ui對所有電影的評分

        定義3.輸入層第j個節(jié)點激活標志flagj

        當自編碼網(wǎng)絡的輸入數(shù)據(jù)中隱含著一些特定結(jié)構(gòu),比如某些輸入特征是彼此相關的,那么自編碼網(wǎng)絡可以發(fā)現(xiàn)輸入數(shù)據(jù)中的這些相關性,進而對輸入數(shù)據(jù)進行有效的表示.

        圖1 電影評分預測的自編碼網(wǎng)絡結(jié)構(gòu)Fig.1 Auto-encoder structure in film rating predicts

        本文所構(gòu)建的自編碼網(wǎng)絡是一個三層神經(jīng)網(wǎng)絡,其網(wǎng)絡結(jié)構(gòu)如圖1所示.其中輸入層節(jié)點個數(shù)等于電影數(shù)M,與隱層節(jié)點的連接狀態(tài)用虛線表示,當該節(jié)點的激活標志為1時建立與隱層節(jié)點的連接,否則不建立連接.輸出層為一個softmax分類器,對應5個輸出節(jié)點,分別代表1到5分.

        圖2 電影評分預測流程Fig.2 Film rating predicts process

        然而在實際應用場景當中,用戶ui已給出評分的電影數(shù)目占總電影數(shù)目的比例很小,因此r(i)中有很多空缺值.將用戶的評分輸入到模型的時候,不能簡單地將空缺的評分值用0來代替,此舉會嚴重降低預測的準確度.因為自編碼網(wǎng)絡能夠?qū)W習輸入數(shù)據(jù)的特征表示,大量地輸入0會讓網(wǎng)絡學習到用戶評分的負偏好,錯誤地認為這個用戶的評分十分嚴謹,甚至是苛刻,致使預測階段得到的評分偏低,這顯然不符合實際情況.有鑒于此,在本文所構(gòu)建的模型中增設輸入節(jié)點的激活標志,當該節(jié)點的激活標志為1時才將其值作為網(wǎng)絡的輸入.因為輸入的都是確實存在的評分,這些評分組成了概念上稠密評分記錄,每次激活值的計算及權(quán)重的調(diào)整都只發(fā)生在實際建立連接的節(jié)點上,使得模型能在一定程度上緩解稀疏性帶來的影響.與此同時,由于自編碼網(wǎng)絡在訓練階段學習的是一個輸出等于輸入的函數(shù),即hW,b(r(i))≈r(i)此舉保證了自編碼網(wǎng)絡提取出來的隱層特征能夠很好地還原出輸入數(shù)據(jù),從魯棒性角度而言,這些特征較一般的神經(jīng)網(wǎng)絡提取出來的特征更優(yōu),故自編碼網(wǎng)絡能夠發(fā)現(xiàn)用戶評分中的隱含特征.

        3.3 預測流程

        現(xiàn)在要預測用戶張三對電影《黃金時代》的評分,整個預測流程參照圖2.

        首先求出張三的近鄰.以表1的數(shù)據(jù)為例,各用戶之間的皮爾遜相似度(Pearson Correlation Coefficient)如表2所示.根據(jù)用戶之間的相似度選取出近鄰,則張三的近鄰為王五和趙六.

        表2 用戶的皮爾遜相似度
        Table 2 Pearson similarity of users

        張三李四王五趙六張三1.0-0.930.950.71李四-0.931.0-1.0-0.99王五0.95-1.01.00.90趙六0.71-0.990.901.0

        由于網(wǎng)絡的輸出層是一個分類器,故需要獲得訓練樣本的類標簽.現(xiàn)將王五和趙六對《黃金時代》的評分進行抽取,二值化后作為訓練樣本的類標簽.{1,0,0,0,0}表示評分值為1分,{0,1,0,0,0}表示評分值為2分,如此類推.但王五對《黃金時代》的評分空缺,故王五的評分數(shù)據(jù)被拋棄不用.

        利用近鄰的評分信息,通過逐層訓練,全局微調(diào)的方式即可獲得一個用于預測的自編碼網(wǎng)絡.其中,全局微調(diào)階段的整體損失函數(shù)為:

        W代表整個網(wǎng)絡的權(quán)值,b代表偏置(bias).對應上述例子,n等于1,i等于2,j等于1.上式中,第一項是重構(gòu)誤差項,第二項是正則項,用來防止網(wǎng)絡出現(xiàn)過擬合.由于自編碼網(wǎng)絡的優(yōu)化問題是一個非凸優(yōu)化問題,采用反向傳播求解損失函數(shù)最小值的過程中可能會陷入局部極小值.為了避免這一情況的發(fā)生,可以在權(quán)重調(diào)整時采用動量調(diào)整的方式來降低陷入局部極小值的概率.

        將用戶張三對所有電影的評分r(1)輸入到訓練好的網(wǎng)絡中.經(jīng)過一次前向傳播即可得到輸出層節(jié)點的激活值.選擇激活值最大的節(jié)點所對應的評分作為張三對電影《黃金時代》的預測評分.

        4 實驗分析

        4.1 實驗數(shù)據(jù)集

        實驗選用MovieLens1數(shù)據(jù)集:第一個是MovieLens 100k,該數(shù)據(jù)集包含了943位用戶在1682部電影上的100,000條評分記錄,稀疏度約為93.7%;第二個是MovieLens 1m,該數(shù)據(jù)集包含了6040位用戶在3952部電影上的1,000,209條評分記錄,稀疏度約為95.8%.兩個數(shù)據(jù)集的評分都是1到5之間的整數(shù),分布情況如表3所示,可見在兩個數(shù)據(jù)集中,3分及以上的評分均占總評分數(shù)的80%以上,4分及以上的評分占總評分數(shù)的50%以上,評分分布明顯不平衡.

        表3 數(shù)據(jù)集評分分布
        Table 3 Distribution of rating datasets

        評分分布MovieLens 100kMovieLens 1m1分6110條,約占6.1%56174條,約占5.6%2分11370條,約占11.4%107557條,約占10.8%3分27145條,約占27.1%261197條,約占26.1%4分34174條,約占34.2%348971條,約占34.9%5分21201條,約占21.2%226310條,約占22.6%

        數(shù)據(jù)集中的數(shù)據(jù)隨機選取80%的評分數(shù)據(jù)作為訓練樣本,剩下的20%作為測試樣本.

        4.2 準確度評估標準

        準確度指標采用平均絕對誤差(Mean Absolute Error,簡稱MAE),和均方根誤差(Root Mean Squared Error,簡稱RMSE)來衡量.

        平均絕對誤差的計算公式如下:

        均方根誤差的計算公式如下:

        4.3 結(jié)果分析

        表4展示了自編碼網(wǎng)絡與基于用戶的協(xié)同過濾、基于項目的協(xié)同過濾、Slope One、SVD這4種常用的推薦算法和BP神經(jīng)網(wǎng)絡.在兩個數(shù)據(jù)集上的對比結(jié)果.

        在100k這個數(shù)據(jù)集上,自編碼網(wǎng)絡的MAE值為0.776,優(yōu)于BP神經(jīng)網(wǎng)絡的0.802和SVD的0.781,僅次于Slope One的0.747,而在RMSE值上,自編碼網(wǎng)絡的0.983要遜于Slope One的0.947,優(yōu)于基于用戶的協(xié)同過濾的1.275和BP神經(jīng)網(wǎng)絡的1.051.而在1M數(shù)據(jù)集上,自編碼網(wǎng)絡獲得的結(jié)果與100k上的相似,MAE值優(yōu)于BP神經(jīng)網(wǎng)絡和SVD,僅次于Slope One;RMSE值則位居第二,依然次于Slope One.

        從實驗結(jié)果中不難看出以下幾點:

        1)針對電影評分數(shù)據(jù)稀疏、冗余和不平衡的特點,本方法同時考慮了近鄰之間的評分相似性和項目之間的評分相關性.從預測準確度來看,得益于自編碼網(wǎng)絡的特征提取優(yōu)勢,自編碼網(wǎng)絡隱層提取的特征要優(yōu)于BP神經(jīng)網(wǎng)絡提取的特征.

        2)自編碼網(wǎng)絡在大數(shù)據(jù)集上的準確度要高于小數(shù)據(jù)集上的準確度.因為較大的數(shù)據(jù)集能夠提供更多的訓練樣本,強化了近鄰之間的評分相似性和項目之間的評分相關性,有助于提取評分信息的更一般特征,提高網(wǎng)絡的泛化性能.

        表4 各種推薦算法的準確度
        Table 4 Accuracy of recommendation algorithms

        實驗方法MovieLens 100kMovieLens 1mMAERMSEMAERMSE基于用戶的協(xié)同過濾0.9811.2750.8351.099基于項目的協(xié)同過濾0.8481.1190.7830.995SVD0.7810.9860.7320.921Slope One0.7470.9470.7160.908BP神經(jīng)網(wǎng)絡0.8021.0510.7480.993自編碼網(wǎng)絡0.7660.9830.7290.916

        3)自編碼網(wǎng)絡上的MAE值和RMSE值相差約為0.2,大于基Slope One上的差值.因為訓練自編碼網(wǎng)絡涉及非凸函數(shù)的優(yōu)化求解,存在局部極小值,使得預測結(jié)果不夠穩(wěn)定,波動較大.

        5 結(jié) 論

        本文利用自編碼網(wǎng)絡將評分預測問題轉(zhuǎn)換為多分類問題來解決,通過設置節(jié)點激活標志來調(diào)整輸入節(jié)點與隱層節(jié)點連接狀態(tài),能在一定程度上降低稀疏性對預測準確度的影響.所得隱含特征在實現(xiàn)評分信息近似表示的同時,提高了預測準確度,為處理評分冗余且分布不平衡的稀疏矩陣形成支撐,在協(xié)同過濾稀疏性問題的背景下有一定的應用價值.實驗表明,本方法能獲得比部分常用的協(xié)同過濾算法更高的預測準確度,具有較好的可擴展性,但在訓練網(wǎng)絡時需要較多的計算資源,對冷啟動問題的解決也有待加強.

        猜你喜歡
        準確度編碼節(jié)點
        CM節(jié)點控制在船舶上的應用
        Analysis of the characteristics of electronic equipment usage distance for common users
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
        基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應用
        電子制作(2019年22期)2020-01-14 03:16:24
        Genome and healthcare
        幕墻用掛件安裝準確度控制技術
        建筑科技(2018年6期)2018-08-30 03:40:54
        動態(tài)汽車衡準確度等級的現(xiàn)實意義
        抓住人才培養(yǎng)的關鍵節(jié)點
        日韩午夜理论免费tv影院| 久久久久久久久久91精品日韩午夜福利| 按摩女内射少妇一二三区| 自拍成人免费在线视频| 日韩av激情在线观看| 国产麻无矿码直接观看| 国产丰满乱子伦无码专| 深夜黄色刺激影片在线免费观看| 国产精品视频一区二区三区不卡| 99精品国产兔费观看久久99| 国产96在线 | 免费| 男女深夜视频网站入口| av色综合久久天堂av色综合在| 欧美成人看片黄a免费看| 被暴雨淋湿爆乳少妇正在播放 | 国产a在亚洲线播放| 国产午夜福利小视频合集| 久久精品无码一区二区三区不卡 | 亚洲av综合a色av中文| 久青草国产在线观看| 精品少妇人妻久久免费| 日本视频一区二区三区一| 日本人与黑人做爰视频网站| 视频一区精品自拍| 国产成人av三级三级三级在线 | 亚洲日韩一区二区三区| 国产精品成人午夜久久| 中文字幕日韩精品中文字幕| 国产精品毛片va一区二区三区 | 精品99在线黑丝袜| 日本在线观看三级视频| 亚洲av无码国产精品色午夜字幕| 亚洲尺码电影av久久| 国产精品亚洲av国产| 国产一区二区三区激情视频| 中文亚洲欧美日韩无线码| 国产小屁孩cao大人免费视频| 尤物蜜桃视频一区二区三区| 色先锋av影音先锋在线| 亚洲综合自拍| 一二三四在线观看韩国视频|