潘 偉 胡春安
(江西理工大學(xué)信息工程學(xué)院 江西 贛州 341000)
隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)上用戶規(guī)模與內(nèi)容服務(wù)呈幾何數(shù)量級增長,社會信息超過了個人能接受的范圍,海量的信息導(dǎo)致了信息過載問題[1],推薦系統(tǒng)成為解決這一問題的重要工具,并在許多領(lǐng)域得到了應(yīng)用,如電子商務(wù)[2]、新聞推薦[3]、音樂推薦[4]以及電影視頻推薦[5-6]等。
推薦系統(tǒng)中使用最廣泛的方法是基于協(xié)同過濾的推薦算法。協(xié)同過濾方法包括基于記憶的協(xié)同過濾和基于模型的協(xié)同過濾?;谟洃浀膮f(xié)同過濾利用物品被評分的記錄或用戶過去的行為計算物品之間的相似度或用戶之間的相似度構(gòu)成最近鄰集合,從而對目標(biāo)用戶的興趣進(jìn)行預(yù)測,產(chǎn)生推薦結(jié)果?;谀P偷膮f(xié)同過濾利用已知評分矩陣訓(xùn)練預(yù)測模型,訓(xùn)練好的模型為用戶生成推薦。雖然協(xié)同過濾方法被廣泛研究和應(yīng)用,但依然存在一些問題,例如評分矩陣的稀疏性導(dǎo)致用戶之間或物品之間的相似度計算不穩(wěn)定,矩陣的高維度導(dǎo)致相似度計算量非常大。為了解決評分矩陣的稀疏性問題,文獻(xiàn)[7]利用矩陣填充技術(shù),將矩陣中空缺的元素合理準(zhǔn)確地填充,提出了一種加權(quán)的核范數(shù)最小化模型,該模型提高了核函數(shù)的靈活性,提升了矩陣填充時的精度和速度,但在矩陣規(guī)模大的情況下優(yōu)勢不明顯。文獻(xiàn)[8]提出基于加權(quán)核范數(shù)正則化項的最小化方法模型(Weighted Nuclear Norm Minimization,WNNM),通過構(gòu)造與奇異值大小相反的權(quán)值來更好地逼近原矩陣。
本文提出一種基于加權(quán)Schatten-p范數(shù)最小化模型。該模型利用Schatten-p范數(shù)來替代核范數(shù)對評分矩陣進(jìn)行低秩約束,同時采用對奇異值加權(quán)的方式以更好地逼近原始秩函數(shù),此外,近端交替線性化最小化(Proximal Alternating Linearized Minimization,PALM)方法被用來求解非凸最小化問題,通過在MovieLens數(shù)據(jù)集上實驗驗證了所提出模型在推薦結(jié)果精準(zhǔn)度上得到了提升。
在推薦系統(tǒng)中,用戶-項目的關(guān)系一般用矩陣表示,矩陣的元素值代表了某用戶對某項目的評分,要實現(xiàn)評分的預(yù)測,可以通過填充用戶-項目評分矩陣來完成。
對于一個部分矩陣元素未知的矩陣M∈Rm×n,矩陣填充問題可以定義為以下的秩最小化問題:
s.t.PΩ(X)=PΩ(M)
(1)
式中:X∈Rm×n是填充所得矩陣;rank(X)表示矩陣X的秩;Ω是矩陣M中已知元素的下標(biāo)的集合;PΩ(·):Rm×n→Rm×n表示正交投影算子。當(dāng)元素的下標(biāo)(i,j)∈Ω時,(PΩ(X))ij=Xij;當(dāng)元素的下標(biāo)(i,j)∈Ω時,(PΩ(X))ij=0。
由于秩函數(shù)的非凸性和不連續(xù)性,式(1)所示的秩最小化問題是個NP問題,并且問題的復(fù)雜度隨著矩陣維數(shù)的增長呈指數(shù)關(guān)系增長。因此現(xiàn)有的很多矩陣填充方法用核范數(shù),即矩陣的奇異值的和,來代替矩陣的秩[9],從而將式(1)轉(zhuǎn)化為如下形式:
s.t.PΩ(X)=PΩ(M)
(2)
式中:‖·‖*表示矩陣的核范數(shù)。矩陣X∈Rm×n的核范數(shù)定義成:
(3)
式中:σi(X)表示矩陣X的第i個最大的奇異值。
通過使用內(nèi)點法,可以將式(2)所示的核范數(shù)最小化問題轉(zhuǎn)化為半定規(guī)劃(Semi-Definite Programming,SDP)[9]問題。在許多的實際應(yīng)用中,所需填充矩陣的維數(shù)都非常高,而SDP只適用于矩陣維數(shù)較低的情況。
為了有效地解決核范數(shù)最小化問題,特別是在矩陣維數(shù)較高的情況下,文獻(xiàn)[10]提出了奇異值閾值(Singular Value Thresholding,SVT)方法。該方法用如下形式表示:
s.t.PΩ(X)=PΩ(M)
(4)
式中:參數(shù)τ大于0,‖·‖F(xiàn)表示矩陣的Frobenius范數(shù),該優(yōu)化問題可以通過迭代的奇異值收縮算子[10]來求解。對于一個秩為r的矩陣X,奇異值分解為:
X=UΣVT,Σ=diag({σi},1≤i≤r)
(5)
在該奇異值分解中,U∈Rm×r,V∈Rn×r均由正交的奇異向量構(gòu)成。
對于每個τ,有軟閾值操作:Sτ(Σ)=diag({σi-τ}+),其中{σi-τ}+=max(σi-τ,0)。
使用奇異值收縮算子Dτ:Dτ(X)=USτ(Σ)VT,從而生成新的矩陣。
為了改變不同奇異值對秩函數(shù)的影響,提高核范數(shù)在實際應(yīng)用中的靈活度,文獻(xiàn)[7]提出了用于矩陣填充的加權(quán)核范數(shù)最小化模型:
(6)
核函數(shù)雖能很好地逼近秩函數(shù),但在實際應(yīng)用中其效果還沒有達(dá)到最優(yōu)。為了更好地逼近秩函數(shù),文獻(xiàn)[11]提出了使用Schatten-p范數(shù)來逼近秩函數(shù),Schatten-p范數(shù)表示為:
(7)
式中:參數(shù)p的取值范圍是0
結(jié)合WNNM的加權(quán)性和Schatten-p范數(shù)最小化,本節(jié)提出了一種基于加權(quán)Schatten-p范數(shù)的矩陣填充模型WSNM-PALM,該方法利用評分矩陣奇異值的稀疏性,即矩陣的低秩性,同時考慮了不同秩的重要性,采用比核范數(shù)具有更佳低秩逼近的加權(quán)Schatten-p范數(shù)來對矩陣作低秩約束,使用近端交替線性化最小化方法來求解模型中的非凸最小化問題。
對于一個已知的評分矩陣Y∈Rm×n,m和n分別表示用戶數(shù)量和項目數(shù)量,本文所提模型的目的就是要通過填充得到一個近似Y的低秩矩陣X∈Rm×n。矩陣X的加權(quán)Schatten-p范數(shù)的定義如下:
(8)
式中:wi為σi(X)對應(yīng)的權(quán)重,所有的權(quán)重構(gòu)成了一個向量w=(w1,w2,…,wmin(m,n))。因此可以得到加權(quán)Schatten-p范數(shù)的p次方為:
(9)
于是可以得到如下優(yōu)化問題:
s.t.PΩ(X)=PΩ(Y)
(10)
權(quán)重參數(shù)wi的取值為:
(11)
式中:C和ε為均常數(shù)。
針對式(10)所示的優(yōu)化問題,本文采用近端交替線性化最小化[12-13](PALM)方法來進(jìn)行求解。根據(jù)文獻(xiàn)[14],對于一個矩陣X∈Rm×n,可以將其分解為兩個子矩陣的乘積,并且存在以下等式:
(12)
式中:A∈Rm×d,B∈Rd×n,d≥rank(X)。
受核范數(shù)和雙線性譜正則化之間的關(guān)系啟發(fā),文獻(xiàn)[15]定義了兩種范數(shù):Frobenius/核混合范數(shù)和雙核范數(shù),分別用‖X‖F(xiàn)/N和‖X‖BiN表示。這兩種范數(shù)與Schatten-p范數(shù)之間的關(guān)系滿足下式:
‖X‖F(xiàn)/N=‖X‖S2/3
(13)
‖X‖BiN=‖X‖S1/2
(14)
式中:‖X‖S2/3表示X的Schatten-2/3范數(shù);‖X‖S1/2表示X的Schatten-1/2范數(shù)。因此有:
(15)
(16)
于是,式(10)可以轉(zhuǎn)化為如下相等的問題:
(17)
(18)
式中:λ是正則化項的系數(shù)。
(19)
因此對于問題(17),在第k+1次迭代時,A和B的更新求解步驟如下:
(20)
(21)
(22)
(23)
式中:‖B‖2表示矩陣B的最大奇異值。
同樣地,對于問題(18),在第k+1次迭代時,A和B的更新求解步驟為:
(24)
(25)
式(17)和式(18)分別是p=2/3和p=1/2時要求解的優(yōu)化問題。所提出模型的求解算法描述如算法1所示。
算法1WSNM-PALM算法
輸入:矩陣Y∈Rm×n, 參數(shù)λ,ε,d。
輸出:補全矩陣X*∈Rm×n。
初始化:對矩陣Y中的未知元素用已知元素的平均值填充,k=0
1) 對矩陣Y進(jìn)行奇異值分解,計算權(quán)重wi,A0和B0
2) Repeatk=0, 1, 2, …
4) 若p=1/2,則通過式(24)更新變量Ak+1;
5) 若p=2/3,則通過式(20)更新變量Ak+1;
7) 若p=1/2,則通過式(25)更新變量Bk+1;
8) 若p=2/3,則通過式(21)更新變量Bk+1;
9)Xk+1←Ak+1Bk+1;
10) Until 達(dá)到預(yù)設(shè)的停止條件
實驗采用推薦系統(tǒng)研究中常用的MovieLens 1M數(shù)據(jù)集[16],該數(shù)據(jù)集包含了100萬條整型評分?jǐn)?shù)據(jù),這些評分?jǐn)?shù)據(jù)是6 400名用戶對3 900部電影的評分記錄。實驗在配置為Intel Core i5 2.40 GHz CPU、6 GB內(nèi)存的Windows 10 PC機上進(jìn)行,運行環(huán)境為MATLAB R2014a。
平均絕對誤差(Mean Absolute Error,MAE)和均方根誤差(Root Mean Squared Error,RMSE)是常用的度量推薦算法性能的評估方法。本文實驗采用MAE和RMSE作為評價指標(biāo)。其定義分別為:
(26)
(27)
從定義來看,這兩種指標(biāo)都是通過計算預(yù)測值和真實值之間的誤差來度量推薦算法的性能。MAE和RMSE的值越小,意味著該算法的預(yù)測精度越高。
為了驗證提出模型的有效性,對比方法選取加權(quán)核范數(shù)模型WNNM[8],并選取矩陣分解類算法ConvMF[17]、MFMSR[18]作為參照。加權(quán)核范數(shù)模型WNNM使用加權(quán)核范數(shù)作為正則化項,構(gòu)造和奇異值大小相反的權(quán)值,使得近似矩陣能很好地逼近原矩陣;ConvMF算法利用評分和項目描述文檔,以概率的角度將卷積神經(jīng)網(wǎng)絡(luò)集成到概率矩陣分解中,有效解決了評分?jǐn)?shù)據(jù)的稀疏性問題;MFMSR算法通過提取項目內(nèi)容的多維語義特征,并以正則化方式融入概率矩陣分解模型,緩解了用戶-項目交互行為數(shù)據(jù)的稀疏性。
文獻(xiàn)[8]中的實驗將MovieLens 1M數(shù)據(jù)集上49.86%的評分?jǐn)?shù)據(jù)作為訓(xùn)練集,50.14%的評分?jǐn)?shù)據(jù)作為測試集,因此所提出模型與WNNM模型對比實驗時也按照0.498 6:0.501 4劃分訓(xùn)練集和測試集。實驗的結(jié)果如表1所示。
表1 WSNM-PALM與WNNM的性能對比結(jié)果
可以看出,WSNM-PALM模型的推薦性能優(yōu)于WNNM模型,MAE值和RMSE值分別降低了1.04%和2.53%。
所提出模型與ConvMF和MFMSR進(jìn)行性能對比實驗時,將MovieLens 1M數(shù)據(jù)集按照0.8∶0.2劃分訓(xùn)練集和測試集。實驗的結(jié)果如表2所示。
表2 WSNM-PALM與ConvMF和MFMSR的性能對比結(jié)果
可以看出,所提出的算法的性能優(yōu)于ConvMF和MFMSR。相較于ConvMF,所提出算法的MAE值和RMSE值分別降低了1.92%和1.67%;相較于MFMSR,所提出算法的MAE值和RMSE值分別降低了0.63%和0.85%。
為了研究參數(shù)p對WSNM-PALM性能的影響,分別取p=2/3和p=1/2,保持其他參數(shù)不變,觀察在MovieLens 1M數(shù)據(jù)集上MAE和RMSE的實驗結(jié)果,結(jié)果如圖1和圖2所示。
圖1 不同p值下MAE收斂走勢圖
圖2 不同p值下RMSE收斂走勢圖
可以看出,迭代開始時收斂速度較快,當(dāng)?shù)螖?shù)達(dá)到1 000時,收斂變緩,MAE和RMSE的值逐漸趨于穩(wěn)定,當(dāng)p=1/2時,MAE值達(dá)到0.660 0,RMSE值達(dá)到0.841 8;當(dāng)p=2/3時,MAE值達(dá)到0.666 8,RMSE值達(dá)到0.848 9。p取1/2時算法的性能優(yōu)于p取2/3時算法的性能。
為了研究參數(shù)λ對算法性能的影響,實驗設(shè)置λ的值從0.005~0.009以0.001的間隔遞增,p取值為1/2,其他的參數(shù)不變,觀察在MovieLens 1M數(shù)據(jù)集上MAE和RMSE的實驗結(jié)果,如圖3和圖4所示。
圖3 參數(shù)λ對MAE的影響
圖4 參數(shù)λ對RMSE的影響
可以看出,當(dāng)λ的值為0.005時,MAE和RMSE的值最大,此時預(yù)測精度最低,隨著λ的值增大,預(yù)測精度逐步提高,而當(dāng)λ值到達(dá)0.007后,隨著λ的值增大,預(yù)測精度開始降低。在λ=0.007時MAE和RMSE的值最小,此時推薦效果最佳。
最后,本文研究了參數(shù)d對算法性能的影響,當(dāng)d的值為30、80、130(λ=0.007,p=1/2)時,在MovieLens 1M數(shù)據(jù)集上MAE和RMSE的實驗結(jié)果,如圖5和圖6所示。
圖5 不同d值下MAE收斂走勢圖
圖6 不同d值下RMSE收斂走勢圖
圖5和圖6顯示了初始秩d取不同值時MAE和RMSE的變化過程??梢钥闯?d取的值越大,初始循環(huán)時MAE和RMSE的值越大,但收斂狀態(tài)最快。
傳統(tǒng)基于核范數(shù)的矩陣填充模型中,對所有奇異值的懲罰力度一樣,容易損失矩陣的性質(zhì),并且在實際應(yīng)用中核范數(shù)對秩函數(shù)的逼近效果不佳,導(dǎo)致評分矩陣填充時準(zhǔn)確性不高。因此,本文提出了一種基于加權(quán)Schatten-p范數(shù)的矩陣填充模型WSNM-PALM,該方法利用評分矩陣奇異值的稀疏性,并對奇異值加權(quán),采用加權(quán)Schatten-p范數(shù)來逼近低秩假設(shè),使用近端交替線性化最小化方法來求解矩陣填充模型中的非凸最小化問題。通過MovieLens 1M數(shù)據(jù)集上的實驗,驗證了該模型在評分預(yù)測的準(zhǔn)確性上優(yōu)于對比模型。