亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合用戶興趣和評分差異的協(xié)同過濾推薦算法

        2020-04-07 10:48:24師智斌劉忠寶
        計算機工程與應用 2020年7期
        關鍵詞:差異用戶

        陸 航,師智斌,劉忠寶

        1.中北大學 大數(shù)據(jù)學院 大數(shù)據(jù)與網(wǎng)絡安全研究所,太原030051

        2.中北大學 軟件學院,太原030051

        1 引言

        協(xié)同過濾算法是當前推薦系統(tǒng)中應用最廣泛的推薦算法,在互聯(lián)網(wǎng)各個領域都有實際的應用價值,如商品推薦[1]、音樂推薦[2]、新聞推薦[3]。其中基于用戶的協(xié)同過濾算法主要依據(jù)用戶對項目的歷史評分行為計算用戶之間相似度找到最近鄰居,預測對項目的評分,然后將評分最高的前n 個項目推薦給用戶。但是,隨著協(xié)同過濾推薦算法在實際中的應用,也暴露出來許多問題。例如存在著用戶和項目的冷啟動問題,數(shù)據(jù)稀疏性問題,可擴展性問題[4]。其中用戶相似度計算不準確也是影響推薦不準確的一個主要因素之一[5]。針對這個問題,許多學者展開研究。其中考慮評分差異性是提高相似度計算的一種有效方法。文獻[6]通過對歐氏距離進行歸一化來消除不同維度之間的衡量尺度來計算用戶相似度。文獻[7]定義了一種評分差異度來優(yōu)化傳統(tǒng)的相似性度量方法。上述方法雖然一定程度上提高了推薦效果,但是方法單一,只考慮到用戶對項目的顯式評分信息。

        研究人員發(fā)現(xiàn)挖掘用戶對項目內在的隱式信息,如興趣偏好,能極大提高推薦的準確性。文獻[8]將用戶項目評分矩陣轉換為用戶項目屬性評分矩陣,提出了基于用戶對項目屬性偏好的協(xié)同過濾算法。文獻[9]通過標簽來計算用戶的偏好和項目特征的相似度實現(xiàn)項目的個性化推薦。文獻[10]將專家預設的標簽信息引入到相似度計算過程中,彌補了評分矩陣稀疏性問題。上述方法盡管能夠部分反映用戶的興趣偏好,同時有效地利用標簽來解決數(shù)據(jù)稀疏性問題,但是沒有考慮到用戶的興趣會隨時間發(fā)生變化并且忽略了標簽在項目中所占權重問題。

        針對以上問題,本文從用戶興趣和評分差異兩方面出發(fā),提出了一種融合用戶興趣和評分差異的協(xié)同過濾推薦算法(Collaboration Filtering recommendation algorithm based on User Interest and Rating Difference,CF-UIRD)。首先,利用TF-IDF的思想計算用戶的項目標簽權重,并且在指數(shù)衰減函數(shù)基礎上融入時間窗口,更加精準地反映用戶的興趣變化;然后在歐氏距離基礎上設計了一種考慮用戶評判準則差異、用戶影響差異、項目影響差異等影響因子的評分差異相似性度量算法;最后綜合考慮用戶興趣和評分差異來評估用戶的最終相似度,找出目標用戶的鄰居用戶,預測項目評分,生成推薦列表。

        2 相關工作

        2.1 構建相關矩陣

        用戶項目評分矩陣R 如表1 所示。其中n 表示項目總數(shù),m 表示用戶總數(shù),Rmn表示用戶m 對項目n 的評分。在表1上做預處理,若用戶m 對項目n 有評分則將評分置為1;若沒有評分則將評分置為0,構成m×n的用戶項目選擇矩陣R′。

        項目標簽矩陣F 如表2 所示。其中s 表示標簽總數(shù),n 表示項目總數(shù),F(xiàn)ns表示項目n 是否包含標簽s,若項目n 包含標簽s,則Fns的值為1,否則Fns的值為0。

        用戶標簽偏好矩陣P 如表3所示。其中m 表示用戶總數(shù),s 表示標簽總數(shù),Pms表示用戶m 對標簽s 的偏好程度。

        2.2 用戶評分差異

        文獻[11]中闡釋了傳統(tǒng)相似性度量方法存在的一些缺陷,并引入了用戶間評分差異度這一概念:對于任意兩個用戶,對同一項目的評分差異越小則兩個用戶的喜好越相近,即兩個用戶之間的相似度越高;反之如果兩個用戶之間的評分差異越大則兩個用戶的喜好越不相近,相似度越低。其中歐式距離常用來計算用戶評分差異,值越大說明個體間的差異越大,反之越小。

        3 考慮用戶興趣變化的用戶興趣相似性度量算法

        3.1 基于項目標簽權重的用戶偏好

        一般來說,用戶對項目的評分能夠較精準的反映用戶對項目的喜愛程度,而標簽標注作為一種用戶行為,蘊含了用戶對項目內容和屬性的深入理解[12]。文獻[13]通過對項目的標簽進行簡單的計數(shù)統(tǒng)計來求得用戶對項目標簽的偏好向量,但是這種方法在計算用戶對標簽興趣偏好時會出現(xiàn)熱門標簽權重較大的問題,這樣就導致了被用戶選擇過的稀缺標簽很難給用戶進行推薦造成權重偏差,降低了推薦結果的準確性并且未能充分反映用戶的興趣偏好。針對以上問題,本文引入TF-IDF的思想對用戶的項目標簽偏好進行計算。

        TF-IDF 是一種加權技術,采用一種統(tǒng)計方法來評估某一個特征詞在一個語料庫中的重要程度[14]。將其思想應用到用戶偏好計算上,若用戶選擇某個標簽越頻繁,這個標簽被選擇的人數(shù)又越少并且這個標簽在整個標簽集中的占比越小,則認為用戶對這個標簽的偏好程度越高。公式如下:

        表1 用戶-項目評分矩陣

        表2 項目-標簽矩陣

        表3 用戶-標簽偏好矩陣

        由公式(1)能夠推出,若一個標簽選擇人數(shù)較多且在整個標簽集中的自身占比較高,即熱門標簽,則計算結果偏低;若用戶選擇冷門標簽,相較于其他用戶而言,用戶更關注此標簽且該標簽對于該用戶的重要程度更高,這樣就能在一定程度上很好的區(qū)分和明確用戶的偏好,提高推薦準確率。

        3.2 融入時間窗口的指數(shù)衰減函數(shù)

        傳統(tǒng)的推薦算法在處理用戶對標簽的偏好時常用1/0 值來標注用戶是否使用此標簽,這意味著隨著時間的變化這些標簽值是靜態(tài)的,在推薦過程中所起的作用是相同的,這樣就導致在推薦信息時產生低時效的問題[15]。例如用戶以前喜歡功夫片,現(xiàn)在喜歡喜劇片,若不考慮興趣變化,就會造成推薦誤差。實際上用戶的興趣是動態(tài)變化的,用戶所標注的標簽也會發(fā)生變化,在標簽系統(tǒng)中,標簽具有實時性,它隱含著用戶的興趣轉變信息[16]。相較于用戶的早期行為,用戶的近期行為更能反映用戶的當前興趣,如果要精準預測用戶的當前興趣,就要在預測過程中使用戶近期標注的標簽比早期標注的標簽擁有更高的權重,即對時間屬性賦予合適的權值,這樣就能有效降低過時信息的重要性和有效緩解推薦項目老化問題,提高推薦質量,產生較好的推薦效果。文獻[16]提出了一種適應用戶興趣變化的指數(shù)衰減函數(shù),公式如下:

        其中,tui表示用戶u 對項目i 的評價時間,tnow表示用戶評價項目的最大時間,Tatt表示衰減系數(shù),代表用戶興趣衰減快慢。Tui表示用戶u 對項目i 的時間加權值,即信息的衰減程度,取值范圍在(0,1)之間,tui距離當前時間越近,則tnow-tui差值越小,Tui值越大,表示用戶近期行為對預測有更重要的價值。

        雖然指數(shù)衰減函數(shù)可以通過衰減項目影響力,即用戶興趣權重來衡量用戶長期興趣,但是用戶的興趣也不是每分每秒都會發(fā)生改變,即沒有考慮用戶興趣存在短期的穩(wěn)定性。例如:用戶今天喜歡功夫片,不能認為第二天用戶就不喜歡功夫片,這之間存在一個興趣轉變的時間緩沖期,為此引入一個時間窗口值Twin來表示用戶興趣保持穩(wěn)定的時間周期,對式(2)進行改進,如下所示:

        公式(3)將時間窗口引入到指數(shù)衰減函數(shù)中,彌補了指數(shù)衰減函數(shù)的不足,綜合兩者的優(yōu)勢提高了準確率,更加有效地緩解了信息過期對推薦結果的負面影響,提高推薦質量。

        3.3 用戶興趣相似性計算

        根據(jù)前面分析,提出了考慮用戶興趣變化的用戶興趣相似性度量算法(User Interest similarity measurement,UI)。首先將改進后的指數(shù)衰減函數(shù)添加到基于項目標簽權重的用戶偏好中得到用戶的興趣偏好,然后將值填充到用戶標簽矩陣中,公式如下:

        最后對歐式距離進行歸一化后,根據(jù)填充后的用戶標簽矩陣計算UI,公式如下:

        4 用戶評分差異相似性度量算法

        4.1 評分差異影響因素

        文獻[11]在求解用戶評分差異時,雖然考慮了用戶評判準則差異這個事實,消除了平均值差異對結果的影響,但是沒有考慮到用戶影響差異和項目影響差異對計算結果準確性的影響。因此本文在計算用戶評分差異度時設計了一種考慮用戶評判準則差異,用戶影響差異和項目影響差異的度量方法。

        在計算用戶評分差異度時,要考慮用戶評判準則差異這個事實。因為有的用戶喜歡給項目打高分,有的用戶則喜歡打低分。例如:在5分制的評分系統(tǒng)中,用戶1總是給喜歡的項目打5分,而不喜歡的項目打3分;用戶2總是給喜歡的項目打3分,而不喜歡的項目打1分。如果用戶1 和2 同時對某個項目評分都是3 分,用傳統(tǒng)的歐式距離進行計算評分差異度就會得到用戶1和2具有相同偏好的錯誤結論。因此對于消除用戶評判準則差異十分關鍵。

        其次,要考慮到用戶之間的影響差異。傳統(tǒng)的相似度公式在計算用戶之間的相似性時普遍認為用戶之間的影響差異為0,而且傳統(tǒng)的歐氏距離在計算用戶之間相似度時僅利用共同評分項目,忽略了其他評分項目對相似度計算時的影響。例如:用戶1 對4 個項目評分分別為(3,3,-,-),用戶2 對4 個項目的評分分別為(3,3,2,5),如果只考慮共同評分項目,用戶1和2的相似度計算結果完全相同,但實際情況是用戶1只能用一半的項目評分去和用戶2匹配,計算時忽略了各自評分項目對相似度計算時的影響。為了體現(xiàn)出不同用戶之間相互影響程度的差異性,在計算用戶評分差異時引入用戶影響差異度,定義如下:

        其中,I(u,v)表示用戶u 對用戶v 的影響差異。Iu∩Iv表示用戶u 和v 共同評分項目集合,Iu表示用戶u 評分項目的集合。用戶評分項目越少,對其他用戶的影響差異就越小。

        在計算用戶之間評分差異度時,由于項目影響的差異化,會影響計算結果的準確性。一個項目如果質量較高或較低,那么多數(shù)人對其評分都會很高或很低,利用傳統(tǒng)歐氏距離計算用戶之間的相似度結果就會偏高,而事實上這是由于項目自身質量過高或過低導致,而并非用戶之間擁有共同的偏好所致,這種項目在計算用戶相似度時應該讓其影響度變小。針對上述情況,本文引入項目影響差異度Ii來解決項目自身質量過高或過低對用戶相似性計算時導致結果偏高的影響,如下所示:

        其中,Ii為項目i 的影響差異度,利用用戶對項目i 的評分標準差來表示,z 為評價過項目i 的用戶個數(shù),ru為用戶u 對項目i 的評分,σ 為項目i 的平均分。對于一個項目,若用戶對其評分高低不同,則該項目能夠很好地區(qū)分用戶偏好,影響差異度權值Ii變大;相反,若用戶對其評分大致相同,則該項目不能很好區(qū)分用戶興趣偏好,影響差異度權值Ii變小。為了讓其計算結果保持在(0,1)區(qū)間,在計算時,對其進行最大最小歸一化處理。

        4.2 用戶評分差異的相似性度量算法

        綜合考慮上述差異影響因子,在用戶項目評分矩陣基礎上,提出了用戶評分差異相似性度量算法(Ratings Differential similarity measurement,RD)。公式如下:

        其中,uˉ和vˉ分別表示用戶u 和v 評價項目的平均分,ui和vi分別表示用戶u 和v 對項目i 的評分,通過兩者相減來消除評判準則差異對結果帶來的影響;I(u,v)為用戶u 和v 之間的影響差異度;Ii為項目i 的影響差異度。sim2(u,v)值越大,用戶u 和用戶v 的相似度越高。

        文獻[17]指出,對于不同的推薦系統(tǒng),應根據(jù)項目和用戶的數(shù)量相對關系選擇更加高效的推薦算法,基于用戶相似性的推薦模型更加適用于用戶數(shù)遠少于項目數(shù)的情況。本文根據(jù)用戶之間相似度來進行推薦,其中時間復雜度可以評估算法的效率,假設推薦系統(tǒng)中有m個用戶,n 個項目,其中用戶數(shù)遠少于項目數(shù),原始的歐氏距離衡量兩個用戶之間相似度的時間復雜度為O(n),對歐氏距離改進后的用戶評分差異相似性度量算法的時間復雜度為O(mn),但是m 遠小于n,因此本文提出的用戶評分差異相似性度量算法在時間復雜度增加不大的情況下可以明顯提升用戶之間相似度的準確率,從而提高了推薦的質量。

        5 融合用戶興趣和評分差異的協(xié)同過濾推薦算法

        5.1 用戶綜合相似度

        本文提出了融合用戶興趣偏好和評分差異的協(xié)同過濾推薦算法(CF-UIRD)。首先通過對sim1(u,v)和sim2(u,v)線性組合,得到融合用戶興趣和評分差異的綜合相似度,公式如下:

        其中,權重λ ∈(0,1),大小在實驗中確定,當兩個用戶沒有共同評分項目時λ 為1。sim(u,v)值越大,兩個用戶差異性越小,相似度越高。

        然后在得到目標用戶綜合相似度之后,對項目進行評分預測,最后進行推薦,公式如下所示:

        5.2 算法描述

        算法融合用戶興趣偏好和評分差異的推薦算法

        輸入目標用戶u,項目評分矩陣R,項目標簽矩陣F,用戶標簽矩陣P,鄰居個數(shù)k。

        輸出目標用戶對待評分項目的預測評分Pui,MAE值。

        步驟1 將用戶項目評分矩陣R 做預處理,構建用戶項目選擇矩陣R′;

        步驟2 根據(jù)公式(4)計算用戶興趣偏好,并對用戶標簽矩陣P 進行填充;

        步驟3 在填充后的用戶標簽矩陣上,根據(jù)公式(5)計算sim1(u,v);

        步驟4 在用戶項目評分矩陣R 上根據(jù)公式(8)計算sim2(u,v);

        步驟5 根據(jù)公式(9),計算綜合相似度sim(u,v);

        步驟6 根據(jù)公式(10)計算用戶對于候選項目的預測評分Pui;

        步驟7 根據(jù)下文的公式(11)計算MAE值。

        5.3 算法分析

        本文提出的融合用戶興趣和評分差異協(xié)同過濾算法主要有兩部分組成,一部分是考慮用戶興趣變化的用戶相似性度量算法,這部分算法充分利用項目標簽和時間因素,刻畫了用戶的真實興趣偏好,通過用戶的興趣偏好來計算用戶之間的相似度;另一部分是用戶評分差異相似性度量算法,這部分算法綜合考慮用戶評判準則差異,用戶影響力差異和項目影響力差異有效緩解了因為用戶評分習慣不同,用戶之間評價項目數(shù)量不同和項目質量過高過低造成的不能很好區(qū)分用戶偏好和計算結果偏差問題,從而進一步提高了用戶之間偏好準確度;最后通過融合這兩部分算法能夠更加準確刻畫用戶偏好,對于用戶之間共同評價項目稀少,僅依靠用戶項目評分計算用戶之間相似性導致計算結果偏差,推薦準確率低的問題,這時可以通過用戶對項目標簽的興趣偏好來計算用戶之間的相似度,對單方面依靠用戶項目評分計算用戶之間相似度造成的誤差進行修正,找到最近鄰居,對用戶未評分項目進行評分預測,進行推薦,從而有效緩解因為數(shù)據(jù)稀疏性導致的推薦準確率下降的問題。

        對算法進行時間復雜度分析,假設有m 個用戶,n個項目,s 個標簽。步驟2 中計算用戶對標簽偏好的時間復雜度為O(mns),步驟3中計算用戶之間興趣偏好相似度的時間復雜度為O(n),步驟4中計算用戶之間評分差異相似性時間復雜度為O(mn),步驟5中線性加權的時間復雜度為O(1)。因此,本文算法計算用戶之間綜合相似度的時間復雜度為O(mns)。4.2節(jié)中提到,基于用戶相似性的協(xié)同過濾推薦算法適用于用戶數(shù)遠少于項目數(shù)的情況,并且項目標簽數(shù)在實際情況中也遠小于項目數(shù),因此本算法在不影響推薦效率的情況下更加全面準確的衡量用戶之間相似度,提升推薦質量。

        6 實驗結果與分析

        6.1 數(shù)據(jù)集

        本文采用美國Minnesota 大學GroupLens 研究小組創(chuàng)建的Movielens100K 數(shù)據(jù)集驗證融合用戶興趣偏好和評分差異的協(xié)同過濾推薦算法。數(shù)據(jù)集中記錄了943個用戶對1 682部電影的100 000個評分,其中每個用戶評分電影至少有20 部,最低分為1 分,最高分為5 分。電影標簽為:動作、冒險、動畫等18個標簽,每個電影可能用多個標簽表示。實驗中隨機將數(shù)據(jù)集的80%作為訓練集,20%作為測試集,在訓練集上建立模型,然后在測試集上對用戶評分進行預測。

        6.2 評估指標

        平均絕對誤差MAE(Mean Absolute Error)是檢驗推薦系統(tǒng)好壞的常用標準,利用訓練集中的數(shù)據(jù)經(jīng)過推薦算法得到未評分項目的預測分,然后將預測評分與測試集中的實際評分進行比較,偏差越小,準確性越高。公式如下:

        其中,Pui為用戶u 對于項目i 的預測評分,rui為用戶u對項目i 的實際評分,Test為測試集。

        6.3 實驗結果

        首先對算法中的相關參數(shù)進行確定。本文涉及到的參數(shù)有3 個,分別為:表示用戶在一段時間內興趣保持穩(wěn)定的時間窗口參數(shù)Twin、衰減系數(shù)參數(shù)Tatt和用戶綜合相似度中參數(shù)λ。

        實驗1 通過MAE值來確定時間窗口參數(shù)Twin的值,如圖1所示,在K=60,Tatt的值分別為30、60、90的條件下,MAE的值都是先下降然后再上升,Tatt=30,Twin=6時,MAE 值最小;當Tatt分別為60 和90 時,Twin=5 時,MAE 值最小。在后續(xù)的實驗中,將Twin的值設置為5來進行實驗,認為用戶的興趣在這5天內不會發(fā)生變化。

        圖1 不同Twin 值對應的MAE

        實驗2 通過MAE 的值來確定最佳時間衰減參數(shù)Tatt的值,如圖2 所示,在K=60,Twin=5,Tatt的值分別為30、40、50、60、70、80、90 條件下,MAE 的值逐漸下降然后上升,在Tatt=60 時,MAE 值達到最低,因此,設置Tatt=60。

        圖2 不同Tatt 值對應的MAE

        實驗3 確定綜合相似度中參數(shù)λ 的值,當λ=0 時,表示通過用戶評分差異來計算用戶之間的相似性,當λ=1時,表示通過用戶興趣來計算用戶之間的相似性。如圖3所示,在K 分別為30、60、90的條件下,MAE值逐漸下降后上升,λ=0.2 時,MAE值最小,推薦效果最好。

        圖3 不同λ 對應的MAE值

        實驗4 在不同近鄰情況下,比較了不同相似度算法的準確度,其中相似度計算包括:采用傳統(tǒng)的歐氏距離算法(ED),采用TF-IDF算法(TF-IDF),采用本文第3章提出的考慮用戶興趣變化的用戶興趣相似性度量算法(UI),本文第4章提出的考慮用戶評分差異的相似性度量算法(RD),最后是融合用戶興趣和評分差異的協(xié)同過濾推薦算法(CF-UIRD),如圖4所示。隨著近鄰個數(shù)的增加,5種算法的MAE值逐漸變小,在近鄰等于80之后,MAE的值趨于平緩。本文設計的RD算法比傳統(tǒng)的ED算法在推薦準確度上有顯著的提升,本文設計的UI算法比傳統(tǒng)的TF-IDF 算法也有小幅度提升,最后融合用戶興趣和評分差異得到的CF-UIRD 算法的MAE 值始終小于其他4種推薦算法,推薦準確度最高。

        圖4 5種算法對應的MAE值

        7 結束語

        本文針對傳統(tǒng)的基于用戶的協(xié)同過濾算法中用戶相似度計算不準確的問題,將用戶對項目標簽的偏好、用戶評判準則差異、評分值差異、用戶影響差異和項目影響差異等因素融入到基于用戶的協(xié)同過濾算法中,并且將指數(shù)衰減函數(shù)和時間窗口融入到改進的用戶興趣偏好中來表示用戶的興趣變化,提出了融合用戶興趣和評分差異的協(xié)同過濾推薦算法。實驗結果表明,提出的算法能夠更加準確的找到目標用戶的鄰居集用戶,并且提高了推薦的精度。但是本文的推薦算法是將特征獨立考慮,并沒有討論特征與特征之間的交互關系,例如女性喜歡看言情劇,男性喜歡看功夫劇,可以看出用戶的性別和電影的類型之間是有強關聯(lián)性的。因此,下一步工作將挖掘用戶屬性和電影屬性之間的關系來進一步提升推薦的準確率。

        猜你喜歡
        差異用戶
        相似與差異
        音樂探索(2022年2期)2022-05-30 21:01:37
        找句子差異
        DL/T 868—2014與NB/T 47014—2011主要差異比較與分析
        生物為什么會有差異?
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        M1型、M2型巨噬細胞及腫瘤相關巨噬細胞中miR-146a表達的差異
        Camera360:拍出5億用戶
        100萬用戶
        免费观看的av毛片的网站| 色妞一区二区三区免费视频| 成人免费播放视频影院| 国产精品高清一区二区三区不卡| 一本加勒比hezyo无码人妻| 麻豆久久五月国产综合| 免费一区二区三区av| 国产午夜亚洲精品国产成人av | 水蜜桃精品一二三| 国产精品理人伦国色天香一区二区 | 精品水蜜桃久久久久久久| 国产精品一区二区韩国AV| 国产日韩乱码精品一区二区| 欧美最猛性xxxx| 无码精品人妻一区二区三区人妻斩| 亚洲区日韩精品中文字幕| 亚洲人妻av综合久久| 强奸乱伦影音先锋| 中国丰满熟妇av| 无码超乳爆乳中文字幕| 在线观看一区二区蜜桃| 宅男66lu国产在线观看| 风流少妇又紧又爽又丰满| 国产一区二区精品av| 超级乱淫片国语对白免费视频| 老少配老妇老熟女中文普通话| 真实国产乱视频国语| 亚洲成av人片在久久性色av| 夫妻免费无码v看片| 久久久久久国产精品美女| 91福利精品老师国产自产在线| 国产中文字幕亚洲精品| 日日碰狠狠添天天爽五月婷 | 日夜啪啪一区二区三区| 亚洲中文字幕在线一区二区三区 | 日韩人妻精品中文字幕专区| 亚洲中文字幕国产综合| 久久亚洲伊人| 一区二区三区在线观看视频精品| 亚洲精品国产精品国自产| 亚洲福利视频一区|