亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于動態(tài)時間權重的混合協(xié)同過濾推薦算法

2024-01-02 08:35:30李卓敏馬圣雨宋逸杰

軟件導刊 2023年12期

李卓敏，盧敏，馬圣雨，宋逸杰

（1.江西理工大學理學院，江西贛州 341000；2.河南理工大學計算機科學與技術學院，河南焦作 454003）

0 引言

信息技術的快速發(fā)展為用戶在平臺上提供了更多瀏覽選擇，在眾多信息中快速、準確尋找偏好信息是一個亟待解決的難題［1］。為了更好地過濾信息，提升用戶服務質量，推薦技術由此誕生，并迅速引起了學術界的廣泛關注。許多算法被提出來解決推薦技術的各種問題，其中協(xié)同過濾推薦算法是研究熱門，在許多案例中取得了較好的推薦效果。

該算法通過收集與用戶推薦偏好相似的相關用戶信息，或收集用戶感興趣的領域信息，為其推薦相關產(chǎn)品［2］，可分為基于用戶和基于項目兩方面［3］。其中，用戶協(xié)同過濾算法（Collaborative Filtering，CF）挖掘與目標用戶評價過相同項目的其他用戶，通過判斷共評信息，推薦相似用戶評價高的項目，但只考慮了用戶間的聯(lián)系，未考慮熱門項目對用戶的影響，忽略了熱門項目無法突顯用戶個性化的問題；項目協(xié)同過濾算法通過挖掘項目所有歷史評分記錄，根據(jù)評分高低計算各項目間的相似度，以推薦相似度高的項目集，致力于挖掘項目間的相關性，但忽略了時間因素對相關性的影響，導致評分可靠性較低。然而，上述兩種算法僅考慮了單方面因素，忽略了時間因素對兩者相關性的影響。

為此，本文提出一種HCFADT 算法解決傳統(tǒng)算法中熱門項目無法突顯個性化、用戶可靠度與時間相關性低的問題。首先提出一種引入動態(tài)時間權重因子的相似度計算方法，根據(jù)用戶為項目評分的時間生成動態(tài)時間權重因子，將用戶可靠性與時間形成關聯(lián)，突顯用戶個性化；然后提出一種引入?yún)?shù)β的綜合考慮用戶和項目相似度的混合算法，根據(jù)兩者不同的依賴程度調(diào)整參數(shù)，獲取最佳參數(shù)β，以綜合考慮用戶和項目兩個因素，解決傳統(tǒng)算法存在的數(shù)據(jù)稀疏性問題。

1 相關工作

協(xié)同過濾算法的產(chǎn)生使互聯(lián)網(wǎng)為用戶提供了更精確的服務信息，但卻出現(xiàn)了數(shù)據(jù)稀疏、冷啟動等問題［4］。針對這些問題，國內(nèi)外研究人員提出了許多改進的推薦算法，對今后發(fā)展具有啟發(fā)式作用。

為了解決數(shù)據(jù)稀疏問題，吳賓等［5］根據(jù)不同結構的數(shù)據(jù)設計了不同建模方式，提出MSRA 算法分析異構數(shù)據(jù)間的相關性來解決問題。李改等［6］提出一種URA 算法兼顧評分預測和排序預測，使算法能更快適應在大數(shù)據(jù)環(huán)境中的預測。文詩琪等［7］對用戶評分設定閾值，將項目屬性分為用戶偏好與不偏好，只有具備偏好屬性的項目才能作為近鄰，減少了計算近鄰相似項目的個數(shù)，有效提升了推薦精度，但并未考慮篩選用戶偏好的計算效率和時間對用戶偏好的影響，使得算法的時間復雜度較大。

為了提升傳統(tǒng)推薦方法在大量物品中為用戶進行推薦的計算效率，張飛等［8］提出一種根據(jù)用戶興趣和物品特征進行聚類分組的方法，并構建圖模型求解分組。王瑞琴等［9］根據(jù)項目評分數(shù)據(jù)，生成用戶對項目的評論態(tài)度影響因子，通過影響因子進一步放大用戶對項目的偏好，以更準確地預測目標用戶偏好，提升推薦質量和計算效率。然而，上述文獻均只考慮了用戶偏好領域的信息，未考慮時間因素對用戶偏好的影響和熱門項目對用戶個性化的影響。

針對用戶推薦算法中用戶可靠度問題，李偉霖等［10］考慮社會心理學中多個信任要素，深入提取用戶間的信任信息并融入推薦算法，有效提升了推薦精確度，但未考慮時間對用戶間信任關系的影響。潘一騰等［11］考慮用戶作為信任者和被信任者時不同偏好的情況，得到社會關系的隱含間接影響，然后根據(jù)兩種信任強度影響提出一種自適應相似度計算的模型，但忽略了信任關系的可靠度。綜上，上述方法僅考慮了用戶間信任關系，均未考慮用戶之間信任關系的可靠性和時間變化與用戶可靠度變化的相關性。

考慮到結合用戶和項目算法，能有效解決單一依靠用戶或項目導致推薦質量較低的問題。Rosa 等［12］提出一種局部相似性方法，利用用戶間的多種相關結構，使用聚類方法查找對相似項目存在相似偏好的對象組，為每個集群創(chuàng)建一個基于用戶的相似性模型，得到了較好的推薦效果。Ortega 等［13］提出一種基于多類分類算法合并不同CF方法提供的推薦結果，在MovieLens、Netflix 數(shù)據(jù)集上取得了較高的推薦質量。Zhang 等［14］提出一種TTHybridCF 算法，利用標簽和評級信息計算用戶或物品間的相似性，極大提升了模型預測精度。上述方法表明，混合算法能有效提升推薦精度，但并未考慮時間因素，仍然存在時間對用戶關系與熱門項目的影響。

對于時間改變用戶偏好的問題，Liao 等［15］利用一群信息素捕捉用戶興趣實時變化，相較于傳統(tǒng)算法提升了推薦準確性。Wangwatcharakul 等［16］利用聯(lián)合分解方法提取用戶潛在過渡模式，基于動態(tài)環(huán)境的主題建模結合潛在因素與評論文本的相關主題演，捕捉評分矩陣中的用戶偏好動態(tài)。Joorabloo 等［17］考慮到未來的相似性趨勢，重新排列用戶或項目鄰域集提出一種算法預測相似性趨勢，根據(jù)趨勢的增減來更新CF 公式的最終最近鄰集，以提升算法的精確度。雖然，加入時間因子能提供未來趨勢，有效提升算法精確度，但未考慮將混合算法與時間因素相結合，無法有效利用用戶與項目的信息，存在數(shù)據(jù)稀疏性問題。

綜上，考慮到用戶和項目單一的缺點，結合混合算法與時間因素，本文提出一種基于動態(tài)時間權重的混和協(xié)同過濾推薦算法。首先，加入動態(tài)時間權重解決熱門項目和用戶可靠性問題；其次，融合兩種算法計算相似度，以有效利用用戶與項目信息解決數(shù)據(jù)稀疏性問題；再次，選取用戶的最佳相似鄰居集對目標用戶進行推薦預測，提升模型推薦性能。

2 基于HCFADT的算法設計

2.1 皮爾遜相似度

本文采用皮爾遜相似度進行計算［18］，該數(shù)是一個-1～1 的數(shù)，能衡量兩個數(shù)據(jù)集合之的相似性。相似性強時相似度趨于1；相似性弱時相似度趨于0；在負相似性情況下，一個數(shù)據(jù)的值很高而另一個數(shù)據(jù)值很低時相似度趨于-1。

2.2 引入動態(tài)時間權重的用戶相似度計算

用戶CF 算法［19，20］假設用戶間存在相似興趣，很可能會購買相同物品，該方法通過挖掘目標用戶的歷史偏好信息來識別相似用戶，利用相似用戶歷史評價信息判斷相似用戶偏好項目，對目標用戶進行推薦，如圖1所示。

2.2.1 用戶間的相似度

根據(jù)用戶共同評分的項目集合信息，計算用戶間的相似度。計算用戶u、v的相似度如式（1）所示。

式中：Iuv表示用戶u、v歷史共同評價過的項目集合；Ruj表示用戶u對項目j的評分，Rvj表示用戶v對項目j的評分；和分別表示用戶u和用戶v對項目的平均評分。

2.2.2 用戶動態(tài)時間權重值

假設兩個用戶都購買了新華詞典，但無法突顯他們的個性化，因為大多數(shù)人都會購買這本書。然而，如果兩個用戶都買了機器學習這種少數(shù)人購買的書，將突顯兩人的個性化，表明他們存在相同的興趣或需求。為了解決用戶CF 算法存在熱門項目無法突顯個性化問題，本文引入用戶權重wut(i)表示用戶u對項目i評分的動態(tài)時間權重，如式（2）所示。

式中：i∈Iuv、tminu表示用戶第一次對項目的評分時間；tmaxu表示用戶最近一次對項目的評分時間；tu表示用戶的評分時間段，即tminu

2.2.3 用戶動態(tài)時間權重的相似度

引入用戶動態(tài)時間權重的相似度計算，如式（3）所示。

用戶間相似度的計算首先生成用戶評分矩陣（見表1），根據(jù)評分信息計算相似度；然后計算每個項目被評分的頻數(shù)時間權重；最后將時間權重加入相似度計算中。

Table 1 User rating matrix表1 用戶評分矩陣

2.2.4 獲取目標用戶的鄰居集

通過計算用戶間的相似度得到相似度矩陣，對相似度進行降序排序，選取前k個用戶作為相似鄰居集，用集合N(u)表示。

2.2.5 根據(jù)用戶相似度與相似鄰居集計算預測評分

利用選取的鄰居集中各相似用戶對目標項目的評分，預測目標用戶u對目標項目i的評分PUADT(Rui)，如式（4）所示。

2.3 引入動態(tài)時間權重的項目相似度計算

傳統(tǒng)項目CF 計算項目相似度的原理是用戶可能會對與歷史偏好項目相似的項目感興趣，通過挖掘用戶的歷史評價數(shù)據(jù)識別相似項目，根據(jù)這些項目的相似度進行推薦，如圖2所示。

Fig.2 Project similarity diagram process圖2 項目相似圖流程

2.3.1 項目間的相似度

根據(jù)對項目i、j共同評分過的用戶集計算項目i和j之間相似度，如式（5）所示。

式中：Uij表示對項目i、j共同評價過的用戶集合；Rui、Ruj分別表示用戶u對項目i和j的評分分別表示項目i、j的平均評分。

2.3.2 項目動態(tài)時間權重值

項目CF 算法未考慮用戶打分可靠度，假設某用戶在某時間內(nèi)由于環(huán)境影響或時間因素隨意評價項目，此時分數(shù)并不可靠，對相似度計算會造成影響。為此，本文引入wit(u)表示項目i的動態(tài)時間權重，以降低該情況造成的影響，如式（6）所示。

式中：u∈Uij、tmini表示項目第一次被用戶評分時間；tmaxi表示項目最近一次被的評分時間；ti表示項目被評分的時間段，即tminu

2.3.3 引入項目動態(tài)時間權重項目相似度

引入項目動態(tài)時間權重的項目相似度計算，如式（7）所示。

項目間相似度計算首先生成項目評分矩陣（見表2），根據(jù)用戶評分信息計算相似度；然后通過計算每個用戶評分的頻數(shù)得出時間權重；最后將時間權重加入相似度計算。

Table 2 Item rating matrix表2 項目評分矩陣

2.3.4 選取目標項目相似項目集

通過計算項目相似度得到相似度矩陣，對相似度進行降序排序，選取前k個相似項目作為相似項目集，通過集合N(i)進行表示。

2.3.5 預測評分

根據(jù)項目相似度選取項目集，計算目標用戶u對目標項目i的預測評分PIADT(Rui)，如式（8）所示。

2.4 基于動態(tài)時間權重的混合協(xié)同過濾推薦算法

由于在評分預測時，依靠項目預測或用戶預測得到的推薦質量較低。為此，本文提出基于動態(tài)時間權重的混合協(xié)同過濾推薦算法（HCFADT），如式9所示。

式中：等式第一部分包括基于UADT、IADT 的預測結果；β∈(0，1) 為調(diào)節(jié)因子，代表對UADT、IADT 的依賴程度，當β=0 時表示算法只考慮了用戶信息，當β=1 時表示算法只考慮了項目信息，取中間值時表示綜合考慮了兩者信息。

3 實驗結果與分析

3.1 實驗設置

為了驗證HCFADT 算法的推薦效果，獲取最佳參數(shù)β，實驗在Intel（R）Core（TM）i5-7200U CPU 環(huán)境下進行訓練，使用Tensorflow 為后端，Python 3.8 進行編譯。以平均絕對誤差（Mean Absolute Error，MAE）和均方根誤差（Root Mean Square Error，RMSE）作為評價指標［21］，采用的ML-100k 數(shù)據(jù)集包含10 萬條對電影的評分記錄，電影評分范圍為[1，5]的整數(shù)，用戶對電影的評分越高代表興趣程度越高。數(shù)據(jù)預處理環(huán)節(jié)，將80%的用戶評分數(shù)據(jù)作為實驗訓練集，20%的用戶評分數(shù)據(jù)作為實驗測試集，實驗參數(shù)如表3所示。

Table 3 Detailed parameters of ML-100k dataset表3 ML-100k數(shù)據(jù)集詳細參數(shù)

MAE 計算真實值與預測值間的平均差值，能表明預測與真實值的接近程度，如式（10）所示；RMSE 由計算預測值與真實值偏差的平方與總數(shù)之比的平方根所獲得，如式（11）所示，由于RMSE 對預測結果的波動非常敏感，因此可有效驗證實驗方法的穩(wěn)定性。

式中：MAE 越小表明預測更接近真實值，預測精度越高。

式中：rui、分別表示用戶u對項目i的預測評分和實際評分；N表示測試集的評分數(shù)量；RMSE 值越低表明預測結果與真實結果越接近，算法精確度越高。

3.2 算法比較

由于近鄰數(shù)量對預測得分的準確性具有很大影響，實驗比較了參數(shù)β在(0，1)內(nèi)間隔為0.2 取值下的最佳值，如圖3 所示。為了評價推薦算法的預測精度，在相同的實驗環(huán)境下，將本文算法、傳統(tǒng)CF 算法、引入動態(tài)時間權重的CFADT 算法，在[5，30]間隔為5 的預測精度下進行實驗比較，實驗結果如圖4、圖5所示。

Fig.3 MAE values of different β圖3 不同β時的MAE值

Fig.4 Comparison of MAE values圖4 MAE值比較

Fig.5 Comparison of RMSE values圖5 RMSE值比較

3.2.1 參數(shù)β

在混合協(xié)同過濾算法中引入?yún)?shù)β，以確定算法對加入動態(tài)時間權重的項目和用戶依賴程度。實驗中，對所有近鄰的選擇進行實驗以確定β的靈敏度，其中β的值從0變化到1，間隔為0.2，結果如圖3所示。

由圖3 可見，當β=0 時MAE 值為項目算法的相似度；當β處于0～1 時，預測融合了用戶和項目算法的優(yōu)點，有效提升了預測精度；隨著參數(shù)β增大，預測向基于用戶的方面靠近，MAE 值逐漸增大，即預測誤差逐漸增大；當β=1時，MAE值為用戶算法的相似度。

綜上，在兩端單一依賴用戶或項目算法的推薦精確度較低，取中間值能融合各算法的優(yōu)點，提升預測精度，在0.2時預測精度最佳。

3.2.2 MAE值

為了驗證所提算法的優(yōu)越性和有效性，將HCFADT 算法、傳統(tǒng)CF 算法和基于動態(tài)時間權重的CFADT 算法進行比較，K 表示所選近鄰數(shù)量，如圖4所示。

隨著近鄰數(shù)量增加，MAE 值逐漸降低，HCFADT 算法的MAE 值遠低于CF、CFADT，表明預測值更接近真實值。引入動態(tài)時間權重的算法預測精度優(yōu)于傳統(tǒng)協(xié)同過濾算法，因此動態(tài)時間權重對模型預測精度具有積極作用。此外，結合二者算法的混合算法預測精度優(yōu)于單一引入動態(tài)時間權重的算法。

由圖5 可見，隨著近鄰數(shù)量增加，CF、CFADT 算法的RMSE 值下降并逐漸趨于穩(wěn)定，但HCFADT 的RMSE 值波動較小，總體低于CF、CFADT 算法。原因為CF、CFADT 僅考慮了項目或用戶單方面的影響，導致預測精確度不高，并且CF 算法未考慮時間變化，因此算法RMSE值存在明顯波動。然而，本文算法綜合考慮了項目、用戶及時間因素，因此具有更好的穩(wěn)定性和精確性。

4 結語

本文為了有效提升推薦算法的推薦質量，解決傳統(tǒng)協(xié)同過濾算法存在熱門項目影響和無法識別一段時間內(nèi)用戶項目偏愛度的問題，提出一種基于動態(tài)時間權重的混合協(xié)同過濾推薦算法。首先計算目標用戶的評論頻數(shù)和目標項目的被評頻數(shù)，通過用戶評論量和項目用戶評論數(shù)分別為基于項目、用戶的算法添加動態(tài)時間權重；然后在獲得較好效果的情況下，將兩個算法相結合。

實驗表明，在用戶評分數(shù)據(jù)稀疏的情況下，混合相似度計算顯著提升了模型的推薦預測精確性，證明了本文算法在整體上相較于傳統(tǒng)方法更優(yōu)。下一步，考慮到用戶興趣愛好與用戶之間信任關系的動態(tài)變化性，將通過強化學習方法接收環(huán)境對動作的獎勵（反饋），獲得學習信息并更新模型參數(shù)，以快速對用戶進行推薦，進一步提升模型推薦預測的準確性。