亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于用戶相似度的協(xié)同過濾推薦算法

2014-10-27 11:53:00榮輝桂火生旭胡春華莫進俠

通信學報 2014年2期

榮輝桂，火生旭，胡春華，莫進俠

（1. 湖南大學信息科學與工程學院，湖南長沙 410082；2. 湖南商學院計算機與信息工程學院，湖南長沙 410205)

1 引言

隨著互聯(lián)網的發(fā)展，數(shù)據資源每天以幾何數(shù)量級增加，為解決用戶復雜的需求和龐大數(shù)據之間的矛盾，個性化推薦系統(tǒng)應運而生，其應用日益廣泛[1]。個性化推薦技術通過研究用戶的喜好和興趣，為用戶推薦其所需的各種資源，最初應用于電子商務個性化服務中[2]。隨著社交網絡的興起，個性化推薦技術也在社交網絡中得到了廣泛的應用。與傳統(tǒng)的基于內容過濾的直接分析內容進行推薦不同，協(xié)同過濾分析用戶的興趣，在用戶群中找出與目標用戶相似的用戶，綜合這些相似用戶對不同項目的評分，產生目標用戶對這些項目喜好程度的預測，從而產生推薦[2]。

目前，主流協(xié)同過濾推薦算法分為2類：基于用戶的協(xié)同過濾推薦算法[1]和基于項目的協(xié)同過濾推薦算法[3,4]。基于用戶的協(xié)同過濾推薦算法根據用戶對項目的評分矩陣，計算用戶之間的相似度，找出目標用戶的最鄰近鄰居集合，最后，對最近鄰居集合進行加權，從而產生目標用戶的推薦集。此類算法能夠有效地使用其他相似用戶的反饋信息，為用戶產生推薦。但是由于用戶涉及的信息量相當有限，用戶對項目的評分相對稀少，造成評分矩陣相對稀疏，數(shù)據冷啟動問題嚴重，難以找到相似用戶集，在這種情況下，僅使用少量評價數(shù)據不可能產生精確推薦，大大降低了推薦系統(tǒng)有效性。基于項目的協(xié)同過濾推薦算法根據對用戶已評分項目相似項目的評分進行預測，從某種程度上減少了評分矩陣稀疏性和冷啟動問題對推薦質量的影響。雖然項目間相似性相對穩(wěn)定，但用戶的喜好和興趣是不斷變化的，推薦集覆蓋率較低，此類算法也沒有提出有效解決這一問題的方法，用戶對推薦的滿意度較低。

雖然協(xié)同過濾推薦算法在信息過濾方面呈現(xiàn)出了極大的優(yōu)勢，但隨著電子商務和社交網絡的快速發(fā)展和相互間的不斷融合，算法在不同領域中的應用也凸顯出一些問題：①冷啟動問題；②稀疏性問題；③最初評價問題。社交網絡包含用戶的基本資料信息的同時，也包含大量用戶交互、互動行為信息，如何有效利用這2類信息為用戶產生推薦，也成為個性化推薦研究的一個重要議題。

為解決這些問題，文獻[6]中，在弱關系的微博類社交網絡中，采用基于用戶聚類的方法，提出兩階段聚類的推薦算法GCCR，將圖摘要方法和基于內容相似度的算法結合，實現(xiàn)基于用戶興趣的主題推薦，有效緩解了矩陣稀疏性和冷啟動問題。文獻[7]里提出了一種遞歸預測算法，該算法讓那些最近鄰的用戶加入到預測處理中，即使他們沒有對給定的項目進行評分。對所需評分值不明確的用戶，預測它的遞歸，整合到預測過程中。此方法用另一種方式緩解了矩陣稀疏對推薦質量的影響，提供了推薦精度。Alfred等在文獻[8]中提出了要利用社交網絡中隱式的用戶間互動數(shù)據為用戶產生推薦。在下面情形下：信息接收方可能會拒絕用戶初始階段發(fā)送的互動信息，一些用戶接收到大量并不期望接受的信息，降低了用戶滿意度，文獻中提出的方法解決了這一問題。Br?zovsky L 和 Pet???ek 在文獻[9]中，通過估算目標用戶與用戶間的吸引度，針對幾種協(xié)同過濾推薦算法在社交網絡中的應用進行了評價，分析了幾種算法的優(yōu)缺點。文獻[10]中深入分析了交友約會、招聘等網站的特性，利用用戶個人信息，對個人信息進行分類取值，找到用戶的喜好，為用戶產生推薦。這種推薦方式在用戶個人信息不足或者很少的情況下，不能為目標用戶產生滿意的推薦。Tingting Wang等在文獻[11]中預測新用戶的行為，文獻中對用戶進行分類，把用戶行為分為瀏覽、點擊、發(fā)信3類，對3類行為給予不同權值；利用用戶信息計算新用戶相似度，根據與新用戶相似用戶的行為分析，預測新用戶的行為；但是沒有考慮初始的用戶行為，在用戶行為較少的情況下，不能產生良好的推薦。文獻[12]中，在交友約會網站中，利用社會圖譜，根據用戶的個人信息、喜好及對推薦集用戶的匹配要求，對用戶進行聚類，利用SimRank對產生的推薦進行排序，為用戶產生推薦，相比其他協(xié)同過濾推薦算法，這種方法取得了較好的推薦結果和用戶滿意度。文獻[13]中，利用用戶個人信息和互動信息，估算出滿足用戶喜好的配對模型，根據這一模型，使用 Gale-Shapley算法預測滿足用戶喜好模型的用戶，為用戶產生推薦。RichiNayak等在文獻[14]中利用用戶在過去聯(lián)系過的用戶間的社會關系，來預測新用戶之間的社會關系，計算相似度，為用戶產生推薦，這種方法未能解決矩陣稀疏問題。

基于搜索匹配和用戶屬性的推薦系統(tǒng)已經廣泛應用于社交網絡中，但此類推薦系統(tǒng)有很大的限制，一些用戶得到了很多并不期望的推薦，一些用戶僅僅得到很少的推薦。基于內容的推薦算法可以根據用戶的類別、標簽等信息緩解數(shù)據冷啟動問題，但往往推薦精度不夠高。社交網絡中，龐大的用戶之間存在某種關系，把這種關系劃分為顯式關系和隱式關系。顯式關系是指用戶間明確的建立并確認了關系，隱式關系是用戶間尚未確立關系。在顯式信息不足的情況下，有效地使用隱式信息可提高推薦系統(tǒng)的精確度。這些方法從一定程度上減少了矩陣稀疏性和冷啟動問題對推薦算法的影響，但沒有從根本上解決協(xié)同過濾推薦算法在社交網絡中的實際應用。

前述研究表明，社交網絡中用戶屬性和互動信息仍未能充分利用，推薦效率與準確度偏低，可見現(xiàn)有推薦算法難以滿足日益復雜的社交網絡的推薦需求。針對這一問題，本文引入用戶相似度概念，重新定義社交網絡中相似度屬性，相似度構成及其計算方法，提出一種改進的協(xié)同過濾推薦算法，并給出推薦質量與用戶滿意度評價方法。

2 用戶相似度定義及描述

傳統(tǒng)的相似度有皮爾遜相關系數(shù)法、向量余弦法、調整的向量余弦法、約束的皮爾遜相關系數(shù)法、斯皮爾曼相關系數(shù)法等，在不同的應用領域中，選取不同的相似度計算方法。由于社交網絡的特殊場景，本文重新定義了相似度及其計算方法。算法中的相似度由2部分構成：一部分是由用戶屬性決定的用戶屬性相似度，通過計算用戶間的距離 DA?B度量，距離值越小，用戶間的屬性相似程度越高；另一部分由用戶間的互動信息決定互動相似度，其計算與目標用戶相似發(fā)件人和收件人的用戶數(shù)度量，值越大，用戶間的互動相似程度越高。最后將2部分相似度進行線性擬合，計算得出用戶間總相似度。

2.1 用戶屬性相似度及計算

社交網絡中用戶屬性包括用戶個人信息和其他選填項，另外在交友網站中，用戶需要填寫自己理想對象的匹配條件，以便得到更好的推薦。用戶屬性分為2類：一類是數(shù)值型屬性（如年齡、身高、收入等）；一類是名稱型的屬性（如體型、教育水平、婚否等）。對于數(shù)值型屬性，計算不同用戶之間數(shù)值型屬性的絕對差值不同屬性絕對差值的最小和最大差距為[ξ1,ξn]，將這個區(qū)間平均劃分成 n?1個等距的小區(qū)間： {[ξ1,ξ2],[ξ2,ξ3]…[ξn-1,ξn]; ξ∈[0,+∞]}，當用戶間的數(shù)值型屬性的絕對差值落在其中的某個小區(qū)間，對每個小區(qū)間依次給定數(shù)值型屬性距離{0，1，2，…，n?1，n}（這里只劃定 3個區(qū)間），針對不同的區(qū)間，得到用戶間的數(shù)值型屬性距離DNum；對于每個名稱型屬性，根據每個名稱型屬性先前設定的取值數(shù)N，確定編碼的位數(shù)n=lbN，然后對不同的取值進行格雷編碼并依次串連起來，計算不同用戶間格雷編碼之間的海明距離，得到不同用戶間的名稱型屬性距離DH。

1)對于數(shù)值型的屬性距離 DNum，根據前面的說明，定義不同的取值區(qū)間：

若 ξ∈ [ξ1,ξ2]，則 dNum=0；

若 ξ∈[ξ2,ξ3]，則 dNum=1；

…

若 ξ∈[ξn-1,ξn]，則 dNum=n-1。

針對數(shù)值屬性，用戶間的距離計算為

一般情況下，只劃分為3個區(qū)間。

2)對于名稱型的屬性距離dNum，對不同的取值進行編碼。

則

3)最終得到2個用戶A與B的信息屬性距離為

DA-B越小，相似度越大，而DA-B越大，相似度越?。?。計算示例：若A={23，183 cm,0101000000}，B={26,176 cm,1100010100}，則用戶A與B間的距離DA-B=1(0+1+4)=5。

2.2 用戶互動相似度及計算

社交網絡中用戶行為存在多種情況，如用戶間的信息瀏覽、信息互發(fā)、收取信息與拒絕信息等。為適應社交網絡的特殊場景，算法中重點考慮積極、成功的互動（如果用戶U給用戶V發(fā)送了信息，同時，U也收到了V的回復）。因此，互動相似度可定義為：如果發(fā)信人S1和S2都給收信人R1和R2發(fā)送了信息，則R1和R2是相似的發(fā)信人，相似度為相同的收件人數(shù)量；同理，如果收件人 R1和R2收到發(fā)信人S1和S2發(fā)送的信息，則R1和R2為相似的收信人，相似度為收件人R1和R2相同發(fā)件人的數(shù)量?；酉嗨贫瓤捎脭?shù)學定義如下。

其中，U1→U2表示U1向U2發(fā)送了消息。

1)發(fā)信相似度SS：

SimS=Num (用戶U1與U2同時向相同用戶u發(fā)送信息的用戶數(shù))

2)收信相似度SR

SimR=Num (用戶U1與U2同時向相同用戶u發(fā)送信息的用戶數(shù))

3)用戶A與B的互動相似度SI

根據用戶間的互動信息，相似的發(fā)信人和相似的收信人，計算用戶間互動相似度

其中，若用戶U1與U2，相似的發(fā)信人又是相似的收信人，則直接將這些用戶CS?R加入到推薦集中。

3 引入用戶相似度的協(xié)同過濾推薦算法

用戶相似度是將用戶屬性相似度和互動相似度2部分相似度進行線性擬合并計算得到。社交網絡中，大量用戶只填寫必須的信息，用戶信息缺失相對嚴重，用戶間產生互動信息相對較少。因此，為產生較好的推薦集，算法應結合實際情況，2部分相似度權重的定義應該有所不同。

3.1 用戶相似度計算

根據前述說明，社交網絡中的用戶信息由用戶屬性和用戶互動（行為）信息構成。在社交網絡的不同的應用場景下，用戶屬性相似度（用戶間距離）DA-B和用戶互動相似度 SimI對于總體相似度的影響不同，所對應的權重α與β的取值不同，可根據實際應用進行設置。對于計算出的2個子相似度進行線性擬合，計算得出用戶間的相似度SimA?B。若SimA?B值越小，說明用戶間的相似程度越高；若SimA?B值越大，則說明用戶間的相似程度越低。

用戶A與B的總相似度

其中，α與β是2個子相似度在用戶間相似度中的權重，滿足α＋β=1。SimA-B越小，用戶A與B之間的相似度越大。

3.2 基于用戶相似度的協(xié)同過濾推薦算法

綜合前面的論述，算法 1給出了為目標用戶U0產生推薦集合的過程。

算法1 A&I_CF(U0,U,int N)

//算法為目標用戶U0產生其推薦集C；

//算法最后輸出目標用戶U0的推薦集C。

輸入：目標用戶U0，備選用戶集U，產生推薦個數(shù)N。

Begin：

1)相似度計算

① 用戶屬性相似度計算。

對于用戶 U0名稱型屬性，對屬性取值進行格雷編碼，將用戶名稱型取值格雷碼串連，計算出海明距離DH。

根據 DA-B=DNum+DH計算用戶 U0與其他用戶間的距離，用來度量用戶 U0與其他用戶間屬性相似度，即用戶間的距離DA-B。

② 用戶互動相似度計算。

找到與用戶 U0相似的發(fā)信人用戶，并統(tǒng)計其數(shù)量。

找到與用戶 U0相似的收件人用戶，并統(tǒng)計其數(shù)量。

根據 SimI=SimS+SimR計算出 U0互動相似度SimI。

2)產生推薦集

① 確定候選集C。根據用戶間的互動信息，找出和目標用戶 U相似用戶{U1,U2,…,Un}產生互動的用戶集

輸出：目標用戶U0的推薦集。

End

基于用戶相似度的系統(tǒng)過濾推薦算法通過計算用戶相似度，計算得到用戶相似度值越小，表明用戶間相似程度越高，按照相似度降序對用戶排序，產生推薦候選集，再使用Top-N方法取到候選集排在前N位的用戶推薦給目標用戶。

3.3 算法復雜度分析

算法復雜度是衡量算法效率的標準，通?？煞譃闀r間復雜度和空間復雜度。隨科技的發(fā)展，算法執(zhí)行所需的存儲空間對于算法的影響逐漸弱化。

通過對上述用戶相似度算法分析，算法執(zhí)行過程只需要存儲用戶屬性信息、交互信息、推薦集信息，存儲空間的占用較??；且隨用戶的增加，存儲空間線性增加，數(shù)量級上沒有變化；此外，當前硬件發(fā)展使得較小的代價即可獲得較大的存儲容量，因此，該算法中時間復雜度成為衡量算法效率的重點，本文聚焦于此算法的時間復雜度分析。

算法執(zhí)行總次數(shù)：f(n)=n+1+n(n+1)+M×n(n+1)+lbN×n(n+1)+n(n+1)+n(n+1)+n(n+1)+n(n+1)+n(n+1)+n+1+N0。

其中，M、N、α、β、N0均為常量，利用時間復雜度計算原則，忽略常量、低次冪和最高次冪的系數(shù)，計算得出算法的時間復雜度：

從上述分析可知：本文中算法時間復雜度在O(n2)內，在不增加額外存儲空間的前提下，其時間復雜度與文中引用2個經典推薦算法處于同一數(shù)量級，未增加過多的時間開銷。

4 仿真實驗與性能分析

4.1 仿真實驗環(huán)境設置

實驗運行在Apache Mahout開源項目基礎之上，該開源平臺的主要目標是創(chuàng)建一些可伸縮的機器學習算法，包含聚類、協(xié)同過濾、分詞分類、集群等算法應用。利用Apache提供的工具，通過Taste庫建立一個推薦引擎，Taste是基于用戶和基于項目的推薦，并且提供了許多推薦選項，以及用戶自定義的界面[15]。

為檢驗本文提出算法的有效性，實驗環(huán)境貼近真實隨機、復雜網絡的社交網。以反映算法在真實環(huán)境中的有效性為目標，設置了如下的實驗環(huán)境和實驗過程。

1)利用隨機方法生成用戶屬性及其取值，形成用戶屬性相似度，實驗數(shù)據來自真實的社交網絡。

2)獲取訓練集，訓練集搜集用戶在過去一個月的數(shù)據。測試集的數(shù)據源于訓練集中最后一周的用戶數(shù)據，并且測試集的用戶是訓練集中活躍用戶，保證數(shù)據的真實有效性。

3)對用戶屬性和互動信息進行統(tǒng)計分析，得出用戶間互動信息的分布，互動信息的匯總為算法度量提供數(shù)據。

4)利用統(tǒng)計得出的數(shù)據和評價標準度量算法有效性。

可見，算法的實驗數(shù)據使用社交網絡中具有代表性網站用戶的真實歷史數(shù)據，最大限度的模擬和描述真實社交網絡應用情景。盡管實際社交網絡應用場景比實驗描述的環(huán)境要復雜，但以上實驗設置基本描述了當前社交網絡實體的主要情況，基本符合社交網絡的真實情況。本文中提出的算法在時間復雜度上與傳統(tǒng)經典算法相比較，處于同一數(shù)量級，故可認為三者的執(zhí)行效率是基本一致；且實驗環(huán)境中算法是線下執(zhí)行并生成推薦，初步可不考慮執(zhí)行時間對算法有效性的影響。

以下通過仿真實驗就本文提出的算法在社交網絡中的應用進行驗證，通過對協(xié)同過濾推薦算法（collaborative filtering recommendation algorithm）、基于互動的推薦算法（interaction-based，recommendation algorithm based interaction）、基于用戶相似度的協(xié)同過濾推薦算法（A&I-based， recommendation algorithm based on attribute and interaction）3種算法的基線成功率、成功率、召回率、覆蓋率等評價指標對算法進行比較與分析，得到較真實的度量評價，為社交網絡中推薦算法選擇與應用打下基礎。

4.2 測試數(shù)據獲取

1)獲取用戶數(shù)值型及名稱型屬性

由于目前社交網絡中用戶個人信息的獲取比較困難，但信息相對簡單，故實驗時選取隨機函數(shù)產生確定的用戶屬性取值，也能反映用戶屬性的平均狀況，最大限度地逼近真實的使用環(huán)境。實驗利用隨機函數(shù)產生的用戶屬性值計算用戶屬性相似度，最終和用戶行為相似度擬合為用戶相似度。

建立3個數(shù)據字典｛UNum,UNom,…,User｝，分別表示用戶數(shù)值型屬性、名稱型屬性、用戶屬性。針對前兩者，對每個子集建立屬性取值字典：①數(shù)值型屬性；②名稱型屬性。隨機生成用戶屬性取值后，形成用戶屬性取值：U seri={V1,V2,…,Vj}，進而得到用戶屬性相似度。

2)獲取用戶交互數(shù)據

測試數(shù)據選用目前流行的在線交友網站的真實歷史數(shù)據，該數(shù)據集包含不記名用戶的用戶屬性和用戶互動信息，訓練集搜集過去4周所有的互動信息，并剔除那些受歡迎用戶的互動。測試集搜集的互動信息是緊接著訓練集后的6天的數(shù)據，測試集里的用戶是訓練集中活躍的用戶，即在訓練期內與其他用戶產生了互動信息。最后，產生了訓練集700000條互動信息，測試集120000條互動信息；訓練集大概有60000個發(fā)信人用戶，110000收信人用戶；測試集有25000個發(fā)信人用戶，47000個收信人用戶。

為構建候選集，需要用到初始的訓練集，然后使用訓練集的一個子集來評價推薦算法的質量。選用的訓練集包含4周內的1.3億條互動信息，從其中獲取的測試集大約包含300000條用戶間的互動信息。對4周的訓練集進行遴選，第4周的數(shù)據質量高一些，因為隨著時間的推移，用戶間互動信息的數(shù)量會增加。

由于受歡迎的用戶對其他用戶的回復往往是消極的，為使度量更合理、有效，在測試集中剔除那些受歡迎的用戶。這里，定義在過去的一個月收到多余 50條互動信息的用戶為受歡迎的用戶：Popuser:(RMsg)30d≥30。通過統(tǒng)計得到下面用戶行為分析結果如表1所示，作為后續(xù)計算度量標準的源數(shù)據。

表1 實驗數(shù)據用戶分布

4.3 實驗結果及性能分析

為更好地評價推薦算法的質量和用戶滿意度，引入幾個度量因子：推薦準確度、覆蓋率、基線成功率、成功率、召回率。

P是所有用戶集合的訓練集，在集合P的元素中選取一個可能存在成功互動的子集，集合C為生成的推薦候選集。這樣就隱含了一個發(fā)信人的集合S和2個收信人的集合R和Q；R是可能收到發(fā)信人集合S中用戶發(fā)送信息收信人集合，Q是在測試階段，實際收到集合S中用戶發(fā)送信息的收信人集合。M(C)是在測試期內實際上發(fā)生互動的集合，nm(C)是候選集中互動集 M(C)中的互動數(shù)量，nm(C,+)是互動集m(C)中成功互動的數(shù)量，n(S)是S集合中用戶的個數(shù)，n(S,R)是由S中用戶和R中用戶互動的數(shù)量，ns(S,R,+)是S和R之間成功互動的數(shù)量，同樣的ns(S,Q,+)是S和Q之間成功互動的數(shù)量（+表示一個積極、成功的互動）。

1)精確度

生成的候選集中積極、成功的互動數(shù)量占總互動的比重稱作推薦的準確度。C,+表示積極、成功的互動，C表示所有互動。

2)覆蓋率

其中，集合N是用戶集合，n(N)是用戶數(shù)量；集合M是用戶N中收到推薦的用戶集合，n(M)是用戶集合N中收到推薦的用戶數(shù)量。

3)基線成功率

在測試期內產生實際的互動中，發(fā)信人集合 S中用戶發(fā)送的積極、成功互動數(shù)量占總互動數(shù)量的比重。

4)成功率

成功率是候選集中成功互動的數(shù)量占總互動數(shù)量的比重。

5)召回率

候選集中積極、成功互動數(shù)量占在測試期內實際上收到互動信息數(shù)量的比重稱作召回率。

在實驗中，針對相似度計算中2個權重α與β，需滿足條件：α+β=1，根據實際測試數(shù)據及線性規(guī)劃的最小二乘擬合法，不斷去調整α與β的值，以獲得最佳的實驗結果。針對{α=0.4,β=0.6; α=0.5,β=0.5; α=0.6,β=0.4}3組不同取值組合，考慮用戶間所有互動信息的情況下，得到3種算法BSR在不同的α與β取值下的取值表現(xiàn)。

通過圖1中3種算法的推基線成功率（BSR）曲線比較顯示，隨α變大，BSR遞增，當α＞0.6時，相比α=0.5時，BSR出現(xiàn)下降趨勢，通過多次實驗發(fā)現(xiàn)，現(xiàn)在α=0.57與β=0.43時，算法取得較好的推薦效果，有著較高的基線成功率和覆蓋率。

圖1 不同α、β取值下Top-N候選集的基線成功率

圖2和圖3實驗結果數(shù)據展示了在α=0.57與β=0.43時，分別在考慮所有互動和只考慮積極互動情況下，得出BSR結果的曲線比較。

1)考慮用戶間所有互動，包括積極、消極、成功互動，在這種情況下，3種算法的基線成功率比較如圖2所示。

圖3中3種算法BSR曲線表明，在考慮用戶所有互動情況下，基于用戶相似度的協(xié)同過濾推薦算法的基線成功率明顯高于另外2種算法。

2)在所有的互動中，剔除用戶間消極、不成功的互動，只考慮用戶間積極、成功的互動，在這種情況下，3種算法的基線成功率比較如圖3所示。

圖3 積極互動下基線成功率比較

圖3表明，只考慮積極成功互動情況下，基于用戶相似度的協(xié)同過濾推薦算法的 BSR同樣優(yōu)于另外2種算法。實驗表明，無論是在考慮所有的互動下，還是只考慮積極互動情況下，A&I-Based推薦算法的基線成功率都優(yōu)于另外2種算法。

為更全面度量基于用戶相似度的系統(tǒng)過濾推薦算法的推薦質量，圖4展示3種算法的基線成功率、成功率、召回率、覆蓋率4個度量值，全方位立體度量算法質量。

圖4呈現(xiàn)了協(xié)同推薦算法、基于用戶互動信息推薦算法、基于用戶資料和互動信息推薦算法的度量。在基線成功率、成功率、召回率、覆蓋率4個度量中，A&I-Based推薦算法的成功率、推薦質量、覆蓋率都優(yōu)于另外2種算法。

圖4 3種算法的推薦質量度量

根據文中對算法復雜度的分析，算法在 ⊙(n2)時間內即可執(zhí)行完算法，為用戶產生推薦，與另外2種算法復雜度處于同一數(shù)量級。在不增加算法額外存儲空間的情況下，實驗證明基于用戶屬性和互動信息的推薦算法精確度、基線成功率、覆蓋率都優(yōu)于基于全部互動的推薦方式（包括積極、成功和消極、不成功的互動）。實驗還表明，按用戶相似度的Top-N排序算法在社交網站中得到推薦集有較好的推薦質量。

5 結束語

本文在定義用戶相似度構成與計算方法基礎之上，提出一種基于用戶屬性和用戶互動信息的協(xié)同過濾推薦算法，并應用到社交網絡中的智能推薦過程；通過與2類經典協(xié)同過濾推薦算法進行比較，仿真實驗結果表明本文提出的算法有以下優(yōu)點。

2)在考慮用戶所有互動情況下，基于用戶相似度的協(xié)同過濾推薦算法的基線成功率明顯高于另外2種算法。

3)在考慮積極、成功的互動信息的情況下，基于用戶相似度的協(xié)同過濾推薦算法的精確度，基線成功率，覆蓋率都優(yōu)于基于全部互動的推薦方式（包括積極、成功和消極、不成功的互動）；且按用戶相似度的Top-N排序算法在社交網站中得到推薦集有較好的推薦質量。

[1]ZHAO Z D,SHANG M S. User-based collaborative-filtering recommendation algorithms on hadoop[A]. Knowledge Discovery and Data Mining,WKDD'10 Third International Conference on IEEE[C]. 2010.478-481.

[2]吳顏,沈潔,顧天竺等.協(xié)同過濾推薦系統(tǒng)中數(shù)據稀疏問題的解決[J]. 計算機應用研究,2007,24(6):94-97.WU Y,SHEN J,GU T Z,et al. Algorithm for sparse problem in collaborative filtering[J]. Application Research of Computers,2007,24(6):94-97.

[3]羅奇,余英,趙呈領等. 自適應推薦算法在電子超市個性化服務系統(tǒng)中的應用研究[J]. 通信學報,2006,(11): 183-186.LUO Q,YU Y,ZHAO C L,et al. Research on personalized service system in E-supermarket by using adaptive recommendation algorithm[J]. Journal on Communications,2006(11):183-186.

[4]鄧愛林,朱揚勇,施伯樂. 基于項目評分預測的協(xié)同過濾推薦算法[J].軟件學報,2003,14(9):1621-1628.DENG A L,ZHU Y Y,SHI B L. A collaborative filtering recommendation algorithm based on item rating prediction[J]. Journal of Software,2003,14(9):1621-1628.

[5]張中峰,李秋丹. 社交網站中潛在好友推薦模型研究[J]. 情報學報,2011,30(12):1319-1325.ZHANG Z F,LI Q D. Latent friend recommendation in social network services[J]. Journal of The China Society For Scientific and Technical Information,2011,30(12):1319-1325.

[6]陳可寒,韓盼盼,吳健. 基于用戶聚類的異構社交網絡推薦算法[J].計算機學報,2013,36(2):349-359.CHEN K H,HAN P P,WU J. User clustering based social network recommendation[J]. Chinese Journal of Computers,2011,36(2): 349-359.

[7]ZHANG J Y,PEARL P. A recursive prediction algorithm for collaborative filtering recommender systems[A]. Proceedings of the 2007 ACM Conference on Recommender Systems[C]. ACM,2007.57-64.

[8]KRZYWICKI A,WOBCKE W,CAI X. Interaction-based collaborative filtering methods for recommendation in online dating[A]. Web Information Systems Engineering-WISE 2010[C]. Springer Berlin Heidelberg,2010.342-356.

[9]BR?ZOVSKY L,PET?I?EK V. Recommender system for online dating service[D]. Charles University in Prague,2007.

[10]PIZZATO L,REJ T,CHUANG T. RECON: a reciprocal recommender for online dating[A]. Proceedings of the fourth ACM conference on Recommender systems ACM[C]. 2010.207-214.

[11]WANG T T,LIU H Y,HE J,et al. Predicting New User’s Behavior in Online Dating Systems[M]. Advanced Data Mining and Applications.Springer Berlin Heidelberg,2011.266-277.

[12]CHEN L,NAYAK R,XU Y. A recommendation method for onlinedating networks based on social relations and demographic information[A]. Advances in Social Networks Analysis and Mining(ASONAM)International Conference on IEEE[C]. 2011.407-411.

[13]HITSCH G J,HORTACSU A,ARIELY D. Matching and sorting in online dating[J]. The American Economic Review,2010,100(1):130-163.

[14]NAYAK R,ZHANG M,CHEN L. A social matching system for an online dating network: a preliminary study[A]. Data Mining Workshops (ICDMW)IEEE International Conference on[C]. 2010.352-357.

[15]OWEN S,NAIL R,DUNNING T,et al. Mahout in Action[M]. Manning,2011.