張洪為
隨著Web2.0 技術(shù)的迅速發(fā)展,在線信息呈爆炸式增長(zhǎng),推薦系統(tǒng)已成為幫助用戶有效找到所需信息的重要工具[1]. 推薦系統(tǒng)旨在為用戶提供符合他們偏好的物品,如產(chǎn)品或服務(wù). 協(xié)同過濾是推薦系統(tǒng)中最流行的技術(shù)[2],它利用收集到的具有相似行為的其他用戶的歷史評(píng)分記錄為目標(biāo)用戶生成推薦[3].早期的協(xié)同過濾方法主要是基于鄰域的方法[4],其更關(guān)注物品之間或用戶之間的關(guān)系,現(xiàn)在已逐漸演化為基于模型的方法,涉及機(jī)器學(xué)習(xí)技術(shù),如矩陣分解[5-7],概率模型[8]和深度神經(jīng)網(wǎng)絡(luò)[9]等. 概率矩陣分解(Probabilis‐tic Matrix Factorization,PMF)[6]是一 種 最具代表性的矩陣分解方法,它假設(shè)觀測(cè)到的評(píng)分服從高斯分布,然后通過最大化用戶和物品特征的對(duì)數(shù)后驗(yàn),來學(xué)習(xí)用戶和物品特征.PMF 方法的實(shí)質(zhì)是將用戶/物品評(píng)分矩陣分解為兩個(gè)低秩矩陣,然后利用它們的乘積來對(duì)用戶/物品評(píng)分矩陣進(jìn)行重構(gòu),進(jìn)而實(shí)施推薦.然而,PMF 方法僅利用了用戶與物品的交互信息,沒有利用用戶/物品的鄰域結(jié)構(gòu)信息,即用戶與用戶以及物品與物品的相似性關(guān)系,限制了模型的推薦性能.
為解決上述問題,本文提出一種融合鄰域結(jié)構(gòu)信息的概率矩陣分解算法(簡(jiǎn)稱GPMF),該算法將PMF 模型與包含用戶和物品鄰域結(jié)構(gòu)信息的圖正則化項(xiàng)整合到一個(gè)統(tǒng)一的優(yōu)化問題中. 然后利用一種迭代優(yōu)化算法對(duì)該優(yōu)化問題進(jìn)行求解. 在兩個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性.
給定一個(gè)用戶-物品評(píng)分矩陣R∈?M×N,其中Rij表示第i個(gè)用戶對(duì)第j個(gè)物品的評(píng)分,推薦系統(tǒng)的任務(wù)是對(duì)R中的缺失評(píng)分進(jìn)行預(yù)測(cè),然后將預(yù)測(cè)評(píng)分高的物品推薦給相應(yīng)的用戶. 概率矩陣分解算法是一種有效的協(xié)同過濾算法,其目標(biāo)是將R分解為兩個(gè)低秩矩陣U∈?M×k和V∈?N×k,分別稱為用戶的潛在偏好矩陣和物品的潛在特征矩陣,其中k表示用戶的潛在偏好個(gè)數(shù)或物品的潛在特征個(gè)數(shù). 求解U和V等價(jià)于求解如下優(yōu)化問題
其中:I是指示矩陣,表示用戶是否對(duì)物品進(jìn)行了評(píng)分,如果第i個(gè)用戶對(duì)第j個(gè)物品進(jìn)行了評(píng)分,則Iij= 1,否則Iij= 0.⊙表示矩陣按元 素 相 乘.‖ ?‖F(xiàn)為Frobenius 范 數(shù).λ為 控 制 約束對(duì)模型復(fù)雜度影響的正則化參數(shù).
通過對(duì)U和V進(jìn)行梯度下降,能夠找到式(1)的局部最小值. 然后,推薦可由下式給出
概率矩陣分解方法的本質(zhì)是利用用戶的潛在偏好向量Ui·(U的第i行)與物品的潛在特征向量Vj·的內(nèi)積來對(duì)R中的未知評(píng)分進(jìn)行建模,它僅利用了用戶與物品的交互信息,而沒有使用用戶與用戶,以及物品與物品的相似性關(guān)系,限制了模型的推薦性能. 本文將用戶圖和物品圖的圖正則化整合到概率矩陣分解模型中,以進(jìn)一步提升模型的推薦性能.
圖正則化[10-11]已被廣泛應(yīng)用于降維、聚類和半監(jiān)督學(xué)習(xí)中,融合鄰域結(jié)構(gòu)信息的用戶圖和物品圖的圖正則化可分別定義為:
式 中:Ri·和R·j分 別表 示用 戶-物品 評(píng)分 矩 陣R的 第i行和 第j列.
將包含用戶和物品鄰域結(jié)構(gòu)信息的圖正則化項(xiàng)引入到概率矩陣分解模型中,能使模型在學(xué)習(xí)的過程中保持用戶之間和物品之間固有的相似性信息,進(jìn)而提升推薦的性能. 為此,將圖正則化項(xiàng)整合到概率矩陣分解模型中,得如下優(yōu)化問題其中:α為控制圖正則化對(duì)概率矩陣分解影響的圖正則化參數(shù).
利用梯度下降法可得學(xué)習(xí)模型的迭代算法如下:
其中:η為學(xué)習(xí)率.
本文采用兩個(gè)真實(shí)的數(shù)據(jù)集Netflix 和MovieLens20M 來評(píng)價(jià)所提出的基于圖正則化的概率矩陣分解算法.Netflix 數(shù)據(jù)集包含了100 480 507 個(gè)評(píng)分,由480 189 名用戶對(duì)17 770部電影上給出,其值包含在集合{1,2,3,4,5}中.MovieLens20M 數(shù)據(jù)集包含20 000 263 個(gè)評(píng)分,由138 493 名用戶在26 744 部電影上給出,其值包含在集合{0.5,1,1.5,…5}中,本文將其規(guī)范化到{1,2,3,4,5}. 隨機(jī)提取Netflix或MovieLens20M 數(shù)據(jù)集上5 000 名用戶對(duì)5 000部電影的密集評(píng)分矩陣R,然后將R隨機(jī)劃分為訓(xùn)練集Rta和測(cè)試集Rte,分別包含50% 的評(píng)分. 讓Rte保持不變,分別從Rta中隨機(jī)提取1%,1.5% 和2% 的評(píng)分用于訓(xùn)練.
本文采用廣泛使用的平均絕對(duì)誤差(MAE)和均方根誤差(RMSE)作為評(píng)價(jià)標(biāo)準(zhǔn),分別定義為
本文使用AG 方法(即利用觀測(cè)評(píng)分的平均值來預(yù)測(cè)未知評(píng)分)及PMF 方法與所提出的GPMF 方法進(jìn)行對(duì)比,三種方法在Netflix 子集和MovieLens20M 子集上的對(duì)比結(jié)果如表1和表2 所示. 從中可以看到,相比于對(duì)比方法,所提出的GPMF 方法在兩個(gè)真實(shí)數(shù)據(jù)集的三個(gè)不同密集度上,實(shí)現(xiàn)了最好的推薦性能.驗(yàn)證了將包含用戶/物品鄰域結(jié)構(gòu)信息的圖正則化項(xiàng)整合到概率矩陣分解模型中,能夠進(jìn)一步提煉用戶和物品的潛在因子,實(shí)現(xiàn)推薦性能的提升.
表1 三種方法在Netflix 子集上的性能比較
表2 三種方法在MovieLens20M 子集上的性能比較
本文針對(duì)概率矩陣分解算法未利用用戶/物品鄰域結(jié)構(gòu)信息影響推薦性能的問題,提出一種融合鄰域結(jié)構(gòu)信息的概率矩陣分解算法,該算法將概率矩陣分解模型與包含用戶和物品鄰域結(jié)構(gòu)信息的圖正則化項(xiàng)整合到一個(gè)統(tǒng)一的優(yōu)化問題中,以對(duì)用戶和物品潛在因子作進(jìn)一步提煉,實(shí)現(xiàn)推薦性能的提升. 在兩個(gè)真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了所提算法的有效性和穩(wěn)定性.
通化師范學(xué)院學(xué)報(bào)2022年8期