摘 要:本文簡要介紹了協(xié)同過濾推薦技術的核心思想以及優(yōu)缺點,重點描述了協(xié)同過濾推薦系統(tǒng)的數據稀疏性問題,并總結了四種解決數據稀疏性問題的方法,分別是簡單填值、聚類、降維和結合內容的過濾方法。
關鍵詞:協(xié)同過濾;稀疏性;降維
中圖分類號:TP391
隨著Internet的快速發(fā)展,信息過載的問題變得越來越嚴重。推薦系統(tǒng)就是為了提高用戶從大量的數據中找到自己需要信息的效率而產生的。推薦系統(tǒng)主要分為三種,分別是基于內容、基于協(xié)同過濾技術和將兩種技術融合的推薦系統(tǒng)。其中,協(xié)同過濾推薦系統(tǒng)以其特有的優(yōu)勢得到了更為廣泛的應用。例如,大型網絡書店亞馬遜、國外知名的購物網店ebay、國內的淘寶網等電子商務網站中的推薦系統(tǒng)都采用了協(xié)同過濾的推薦方法。另外,還有一些專門的協(xié)同推薦系統(tǒng)的網站,例如著名的 Ringo音樂推薦系統(tǒng)、Jester笑話推薦系統(tǒng)等。
1 協(xié)同過濾算法簡介
1.1 協(xié)同過濾核心思想以及分類
協(xié)同過濾以其特有的優(yōu)勢成為眾多專家和學者關注的焦點,目前在各大電子商務網站得到廣泛應用。該算法的思想是:根據系統(tǒng)中已有的評分數據計算用戶(或項目)之間的相似性;根據計算得到的相似性找出當前用戶(或項目)的最近鄰;根據最近鄰中用戶(或項目)的評分預測當前用戶對其他項目的評分值,最終根據評分值大小確定是否將該項目推薦給當前用戶。
協(xié)同過濾推薦算法可以分為基于用戶的協(xié)同過濾(UCF)與基于項目的協(xié)同過濾(ICF)。這兩個算法的共同點在于二者都是根據用戶-項目評分矩陣建立推薦系統(tǒng)模型,從而為用戶提供個性化推薦服務的。不同之處在于UCF是根據用戶之間的相似性找到目標用戶的最近鄰集,然后根據該集合中用戶的評分情況確定目標用戶的推薦結果。而ICF則是通過分析項目之間的相似性,最終將與目標用戶評價較好的項目相似度較高的作為推薦列表的結果。
1.2 協(xié)同過濾的優(yōu)缺點
基于協(xié)同過濾算法的推薦系統(tǒng)主要有以下優(yōu)點:
(1)協(xié)同過濾算法的數據源是用戶對項目的評價信息,不用考慮項目是否屬于同一類別,所以協(xié)同過濾算法可以從屬性不同的項目中提取有用的信息。
(2)協(xié)同過濾算法同時考慮了當前用戶和其他用戶的評價信息,這樣能夠增加產生推薦可利用的信息量,從而提高推薦的質量與效率。
(3)協(xié)同過濾算法的新穎性較高,推薦結果可能是用戶意想不到的。
目前,協(xié)同過濾技術已經得到了廣泛應用。但是網站商品信息量和用戶人數在不斷攀升,網站的結構也越來越復雜,因此基于協(xié)同過濾的推薦系統(tǒng)面臨著一系列問題[1],比如:稀疏性問題、冷啟動問題和可擴展性問題。
冷啟動問題分為系統(tǒng)冷啟動、用戶冷啟動和項目冷啟動。系統(tǒng)冷啟動問題主要解決如何在一個新開發(fā)的網站上設計個性化推薦系統(tǒng),從而在網站剛發(fā)布的時候就能讓用戶體驗到個性化推薦服務。用戶冷啟動主要解決的是在沒有新用戶的行為數據時如果為其提供個性化推薦服務。項目冷啟動主要解決將新上架的項目推薦給可能對它感興趣的用戶。另外,電子商務網站、商品、用戶的數量都在不斷增加,推薦系統(tǒng)將面臨嚴重的可擴展性問題。
2 稀疏性問題描述
稀疏性問題是推薦系統(tǒng)面臨的主要問題,也是導致推薦系統(tǒng)質量下降的重要原因。在一些大型網站如亞馬遜,用戶評價過的項目質量相對網站中總項目數量可謂是冰山一角,這就導致了用戶項目評分矩陣的數據極端稀疏,在計算用戶或項目的最近鄰時準確率就會比較低,從而使得推薦系統(tǒng)的推薦質量急劇下降。
3 稀疏性問題解決方式
稀疏性問題直接影響這推薦系統(tǒng)的質量問題,因此受到了學術界和應用界的高度關注。目前提出的解決稀疏性問題的方式已經有很多種,常用的有:簡單填值、聚類、降維、結合內容的過濾方法等。
3.1 簡單填值的方法
填值法就是用一個固定的數值填充系統(tǒng)中所有的未評過分的項目,從而解決稀疏性問題一種方法。常用固定值的選取方法有兩種:
(1)缺省值可以設為評分的平均值,或者對前兩者進行某種合成。該方法在一定程度上能緩解數據稀疏性問題,但在用戶和項目數量很大的情況下填充所有缺省值,完成推薦的計算量也比較大,因此適合于小規(guī)模數據庫。另外用戶對未評過分的項目評分情況會有一些差異,該方法采用統(tǒng)一的數值進行填充,沒有考慮到用戶的興趣差異,抹殺了用戶的個性。
(2)眾數法。眾數法就是將目標用戶所有評分的眾數作為新項目預測評分的方法。從統(tǒng)計學的角度來說,采用眾數法這種預測方法的準確率會比較高,但是在實際生活中,采用眾數法預測用戶對項目的評分可能會是錯誤的。另外,用戶對項目的評分可能會存在多個眾數或者沒有眾數的情況,因此眾數法的應用局限性比較大。
3.2 聚類的方法
該方法根據用戶興趣之間的差異,利用某種聚類算法將系統(tǒng)中的所有用戶劃分為不同的群體;系統(tǒng)把用戶所在群體的中心值作為用戶對未評項目的評分預測值,進行用戶項目評分矩陣的填充。主要的聚類方法有k-means聚類和遺傳聚類等。聚類方法針對的對象可以是用戶,也可以是項目,還可以對用戶和項目均進行聚類。其中,對用戶進行聚類時首先要對用戶-項目評分數據庫進行聚類,然后選擇目標用戶所屬類的用戶作為最近鄰集合;對項目進行聚類時根據用戶對項目評分的相似性對項目進行k-means聚類生成相應聚類中心,在此基礎上計算目標項目與聚類中心的相似性,從而只需在與目標項目最相似的若干個聚類中就能尋找到目標項目的最近鄰,并能夠產生推薦列表,這種方法是由鄧愛林等人提出的[2];對用戶和項目均進行聚類的方法主要有層次聚類、biclustering聚類和co-clustering聚類等。聚類的方法利用相似群體的評分信息提高了預測的準確度,但不能體現用戶間的愛好區(qū)別,因此推薦結果的準確率并沒有得到顯著提高。
3.3 降維的方法
用戶-項目評分矩陣出現數據稀疏的情況是由項目的高維數據引起的,因此可以考慮采取一定措施降低項目數據的維度,進而達到約減數據的目的。目前常見的降維技術主要有簡單降維方法、矩陣分解和主成分分析(PCA)三類。
(1)簡單降維方法。簡單的降維方法就是通過設置限制條件刪除一些用戶和項目,從而降低用戶-評分矩陣的維度。被刪除的往往是沒有參加過評分活動或者是評分次數很少的用戶,或者是沒有被用戶評價過或者是被評價的次數很少的項目。利用該方法可以在一定程度上降低評分矩陣的維度,但是無法對被刪除的用戶或者項目進行推薦,這就導致了用戶流失和信息隱藏的問題。
(2)矩陣分解。矩陣分解的最簡單方法是單值分解算法。用該方法分解用戶-項目評分矩陣,可以約減評分矩陣中的數據。但是該算法在分解矩陣的過程中會造成數據遺失,影響準確率。
奇異值分解(SVD)是一種矩陣分解的有效方式,該技術在計算機科學、統(tǒng)計學等領域有著廣泛應用。SVD可以將高度相關且在一起出現的內容作為單獨因子,把通常很大的矩陣向量拆解成更小階的近似矩陣。奇異值分解能夠應用于協(xié)同過濾算法解決數據稀疏性問題,主要原因是協(xié)同過濾中用戶對項目評分是因為用戶對這些項目的隱含特性比較感興趣,而這些項目之間也存在著一些共同的特征。用戶喜歡某一項目的表現為用戶對這些項目的評分比較高,所以通過將用戶的評分用線性代數方法分解為一些特征,可以根據用戶對這些特征的喜好程度來預測用戶對他所沒有評過分的項目的喜好。
(3)主成分分析。主成分分析是基于矩陣特征值分解計算的標準統(tǒng)計分析方法。該方法式將原來的變量重新組合成一組新的互相無關的綜合變量,同時根據實際需要可以從中取出幾個能夠盡可能多地反映原來信息綜合變量作為新的參考信息。經過PCA處理后,原始評分數據被投射到最相關的主特征向量上,從而能夠約減數據集。
降維技術雖然在一定程度上能夠降低用戶-項目評分矩陣的規(guī)模和稀疏程度,但采用該技術也流失了一部分用戶對項目的評分數據。C C Aggarwak指出降維技術產生的效果與數據集密切相關,在項目空間維度很高的情況下進行降維,效果往往難以得到保證。
3.4 結合內容的過濾
協(xié)同過濾利用的信息只是用戶評分數據,基于內容的過濾可以具體顯示用戶的描述信息,因此將這兩種方式融合在一起可以增加可利用的數據量。具體的融合方式有以下四種[3]:
(1)綜合考慮協(xié)同過濾和基于內容的過濾的推薦結果,采用一定方式將兩種結果融合在一起。
(2)將協(xié)同過濾和基于內容的過濾集成到一個統(tǒng)一的模型。
(3)將協(xié)同過濾的部分功能集成到基于內容的過濾。
(4)將基于內容過濾的部分功能集成到協(xié)同過濾。
4 結束語
數據稀疏性不僅降低了最近鄰居搜尋準確率,而且也降低了推薦覆蓋率,直接影響著推薦的質量與效率。因此稀疏性問題一直是進行推薦系統(tǒng)研究的重點。目前,眾多專家和學者已經提出了解決數據稀疏性的方法,有效的提高了推薦結果的質量。
參考文獻:
[1]孫小華.協(xié)同過濾系統(tǒng)的稀疏性與冷啟動問題研究[D].浙江大學,2005.
[2]鄧愛林,左子葉,朱揚勇.基于項目聚類的協(xié)同過濾推薦算法[J].小型微型計算機系統(tǒng),2004(09):1665-1670.
[3]G Adomavicius,A Tuzhilin. Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions[J].IEEE Transactions on Knowledge and Data Engineering,2005(06):734-749.
作者簡介:顧立志(1980-),男,河北人,交付中心經理,工程師,研究生,研究方向:信息管理與信息系統(tǒng)。
作者單位:CSC信息科技(天津)有限公司,天津 300308