楊瑞仙 劉莉莉 楚晨等
關(guān)鍵詞: 社交網(wǎng)絡(luò); 好友推薦; 基于內(nèi)容的好友推薦; 基于社交關(guān)系的好友推薦; 混合好友推薦
DOI:10.3969 / j.issn.1008-0821.2023.04.004
〔中圖分類號〕G201 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 04-0028-11
社交網(wǎng)絡(luò)作為Web2.0時代的典型應(yīng)用, 已經(jīng)成為人們重要的社交方式。CNNIC第49 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示, 截至2021年12月, 我國網(wǎng)民規(guī)模達10.32億。據(jù)Statista研究統(tǒng)計, 截至2022年3月8日, Facebook 每月活躍用戶超過28.9億; 另外, 新浪微博發(fā)布的2022年Q1財報顯示, 微博日活躍用戶達到2.52億。然而, 由于社交網(wǎng)絡(luò)信息過載問題, 用戶僅憑自己發(fā)現(xiàn)志趣相投的好友變得十分困難, 因此社交網(wǎng)絡(luò)中的好友推薦服務(wù)便成為不錯的解決方案。好友推薦是社交網(wǎng)絡(luò)推薦中的關(guān)鍵模塊, 一方面擴大了用戶的交友范圍, 滿足用戶的交友需求, 幫助用戶獲取更多的信息資源; 另一方面幫助社交網(wǎng)站提高用戶忠誠度, 增加用戶的使用頻率。因此, 社交網(wǎng)絡(luò)中的好友推薦研究對于推動社交網(wǎng)絡(luò)的發(fā)展、提升用戶的體驗具有十分重要的研究意義?;诖?, 本文首先界定了好友推薦的概念, 其次詳細介紹了好友推薦過程, 然后對目前社交網(wǎng)絡(luò)中的好友推薦方法進行了歸納, 最后總結(jié)了現(xiàn)有研究存在的不足之處, 并提出未來該研究的重點。
1好友推薦概念與過程
推薦系統(tǒng)是聯(lián)系用戶和信息的紐帶, 一方面幫助用戶發(fā)現(xiàn)有價值的信息; 另一方面讓信息能夠展現(xiàn)在對它感興趣的用戶面前, 從而實現(xiàn)信息消費者和信息生產(chǎn)者的雙贏。最初, 推薦系統(tǒng)是對“物”的推薦, 例如對書籍、電影、餐館等的推薦。進入21 世紀后, 隨著社交網(wǎng)絡(luò)的快速發(fā)展, 各種交友網(wǎng)站應(yīng)運而生, 社交網(wǎng)絡(luò)上用戶的交友需求直線攀升, 從而催生了大量好友推薦的研究成果。本文使用TS = (“user recommendation” OR “friend recom?mendation”)及對應(yīng)的中文檢索式, 分別在WoS 核心庫和CNKI 中檢索了好友推薦研究相關(guān)的期刊、會議等學術(shù)文獻(檢索時間: 2022-07-30)。在檢索結(jié)果的基礎(chǔ)上, 清除不相關(guān)文獻并進行擴展搜索和延伸閱讀后共獲得258 篇切題文獻。對這些文獻進行統(tǒng)計分析, 得到有關(guān)“好友推薦” 研究的年代分布圖。如圖1所示, 21世紀初, 好友推薦研究開始受到學者關(guān)注, 之后的10年內(nèi)增長緩慢,2010年后進入快速增長期, 并持續(xù)成為研究熱點[11] 。
1.1好友推薦概念界定
好友推薦又稱“用戶推薦”, 作為推薦系統(tǒng)的應(yīng)用之一, 主要是聯(lián)系用戶和用戶, 根據(jù)用戶現(xiàn)有的好友、用戶的行為記錄等給用戶推薦新的好友,幫助用戶在社交網(wǎng)中找到他們感興趣的用戶, 并添加到自己的聯(lián)系人列表中, 從而增加整個社交網(wǎng)絡(luò)的稠密程度和社交網(wǎng)站用戶的活躍度[1] 。社交網(wǎng)絡(luò)中的好友推薦以獲取用戶個人信息以及好友列表為開端, 經(jīng)歷了概念階段、娛樂化階段、社交階段到現(xiàn)在的混合好友推薦階段。
1.2好友推薦過程梳理
如圖2所示, 通過對現(xiàn)有文獻的梳理, 將社交網(wǎng)絡(luò)中的好友推薦的過程總結(jié)為以下4個步驟。具體內(nèi)容如下所述:
1.2.1提取用戶特征信息
提取用戶特征信息就是獲取用戶在社交網(wǎng)絡(luò)上留下的記錄數(shù)據(jù), 它主要包括兩個部分, 提取用戶興趣特征信息和社會關(guān)系特征信息。用戶的興趣特征信息提取方面, 現(xiàn)有研究主要從用戶的個人信息[2] 、用戶的地理位置、用戶發(fā)布的文本和圖片信息等內(nèi)容數(shù)據(jù)中識別用戶的興趣; 用戶的社會關(guān)系特征信息方面, 主要從用戶間的共同好友和互動行為中獲取, 如共同好友的數(shù)量[3] 和比例, 用戶之間發(fā)消息、評論、轉(zhuǎn)發(fā)和收藏等的互動次數(shù)[4] ,共同好友數(shù)量越多, 互動頻率越高, 成為好友的概率就越大。
1.2.2計算用戶相似度相似性度
量用于度量兩個實體之間的相似性,是推薦系統(tǒng)的主要組成部分。在好友推薦中, 度量兩個用戶之間的相似性稱為用戶相似度計算[5] 。用戶相似度計算是指對獲取的用戶特征數(shù)據(jù)進行整理、分解、降維等一系列操作, 以提取描述用戶的不同特征信息, 比較不同用戶的特征信息集合的相似性。在社交網(wǎng)絡(luò)中, 用戶相似度包括用戶興趣相似性和用戶社交關(guān)系相似性等, 根據(jù)用戶的特征信息選擇合適的相似度算法。目前, 計算用戶相似度的算法主要有余弦相似性[12] 、皮爾森相關(guān)系數(shù)[45] ,以及Jaccard[8] 、歐幾里得距離[42] 、JS散度[2] 、Katz指標[9] 等。此外, 也有學者根據(jù)提取的用戶特征信息的特點自定義合適的用戶相似度算法, 如WuB X 等[6] 根據(jù)提取的文本信息提出了基于主題的用戶興趣相似度算法。
1.2.3取Top-K 用戶進行推薦
Top-K 思想即在給出的一系列推薦選項中, 選取前K 個最相關(guān)的推薦選項。在好友推薦中, 即在給出的一系列好友候選項中, 選擇前K 個相似度最高的用戶作為好友選項推薦給目標用戶。
1.2.4評價推薦結(jié)果
常用的好友推薦評價指標有3 個, 即準確率(Precision)、召回率(Recall)以及綜合準確率和召回率的F1-measure。準確率(Precision)是所有推薦中正確猜測的比率, 數(shù)值越大, 表示推薦列表中的結(jié)果對用戶越有效。召回率(Recall)是推薦列表與目標用戶未來真實事件的比率, 該數(shù)值越大, 表示算法效果越好。一般來說, 給出的推薦越多, 正確猜測用戶興趣的可能性就越大, 召回率(Recall)增加, 但準確率(Precision)反而降低。為了平均召回率(Recall)和準確率(Precision), 往往還使用標準F1-measure 去衡量。準確率(Precision)、召回率(Recall) 以及F1 -measure 的計算公式分別見式(1) ~(3)。
除了以上3種常用的好友推薦評價指標外, 也有學者使用其他的指標, 比如利用MRR(Mean Re?ciprocal Rank)、MAP(Mean Average Precision)評價推薦結(jié)果[10] , MRR 側(cè)重于排名第一的好友排名,MAP考慮了推薦列表中所有好友的排名, 這兩個指標彌補了Precision 只關(guān)注朋友推薦結(jié)果的精確度而對推薦列表中的前K 個好友排名不敏感的缺陷。
2好友推薦方法
社交網(wǎng)絡(luò)中, 用戶的好友分為現(xiàn)實好友和網(wǎng)絡(luò)好友兩種。現(xiàn)實好友來源于現(xiàn)實生活中的社交關(guān)系, 如親人、朋友、同事等, 而網(wǎng)絡(luò)好友往往是在虛擬網(wǎng)絡(luò)上與用戶有相同愛好品味的人。由于用戶的興趣可以從用戶在社交網(wǎng)絡(luò)中產(chǎn)生的各種內(nèi)容信息中獲取, 即有了基于內(nèi)容的好友推薦方法; 而社交關(guān)系不僅存在于實際生活中, 還存在于網(wǎng)絡(luò)中,因此可以從社交網(wǎng)絡(luò)上用戶的好友列表以及用戶之間的交互行為中, 獲取用戶在網(wǎng)絡(luò)上的社交關(guān)系,即有了基于社交關(guān)系的好友推薦方法。隨著好友推薦研究的發(fā)展, 單一好友推薦方法開始出現(xiàn)數(shù)據(jù)稀疏和冷啟動等問題, 因而, 融合內(nèi)容和社交關(guān)系的混合好友推薦方法被提出, 即有了混合好友推薦方法。鑒于此, 從社交網(wǎng)絡(luò)中的好友推薦的研究維度出發(fā), 將好友推薦方法分為3種, 分別為基于內(nèi)容的好友推薦方法、基于社交關(guān)系的好友推薦方法和混合好友推薦方法。
2.1基于內(nèi)容的好友推薦方法
好友推薦成功與否, 很大程度上取決于對用戶當前興趣的感知能力?;趦?nèi)容的好友推薦的主旨是根據(jù)用戶的興趣相似度進行好友推薦。基于內(nèi)容的好友推薦方法的性能依賴于有效的數(shù)據(jù)特征提取,提取用戶的內(nèi)容特征信息即是挖掘用戶興趣的過程,尤其是內(nèi)容型社交網(wǎng)站的出現(xiàn), 為探索用戶的興趣依據(jù)帶來了極大的便利。在該方法中, 可以從用戶在社交網(wǎng)絡(luò)產(chǎn)生的內(nèi)容中獲取特征信息, 因此將內(nèi)容特征信息總結(jié)為3 類, 包括用戶的個人信息、用戶的地理位置、用戶發(fā)布的文本和圖片信息。為了詳盡地獲取用戶內(nèi)容特征信息, 本文對這3類特征信息進行了細粒度的劃分, 統(tǒng)計情況如表1 所示,詳細情況如下:
1) 用戶個人信息。用戶的個人信息是指用戶在社交網(wǎng)絡(luò)上的認證信息, 包括用戶的頭像、個性簽名、年齡、籍貫、性別、職業(yè)、受教育程度等相關(guān)內(nèi)容。張繼東等[12] 通過對用戶個人信息的采集、分析, 將相似度較高的用戶劃分到同一社區(qū)內(nèi), 融合社區(qū)劃分和用戶相似度實現(xiàn)好友推薦。此外, 馬漢達等[2] 、龍增艷等[9] 提取用戶的認證信息、性別、婚姻狀況、地區(qū)、生日、年齡、職業(yè)、受教育程度等用戶的個人信息, 以此構(gòu)建用戶的特征向量, 分別采用歐幾里得距離和余弦相似度算法來計算用戶相似度。然而, 對于一般類型的社交網(wǎng)站來說, 用戶為了保護自身隱私, 并不愿意如實填寫個人信息, 因而適用范圍較小, 為了避免這種情況,研究往往會結(jié)合其他特征信息一起作為衡量指標來實現(xiàn)好友推薦[2] 。
2) 用戶的地理位置信息?,F(xiàn)在流行的社交網(wǎng)絡(luò)如Facebook、Twitter, 還有國內(nèi)的微博等都允許用戶共享自己的地理位置和行動軌跡。在現(xiàn)實生活中, 人們?nèi)ゲ煌牡胤娇梢苑从秤脩舻男袨楹团d趣, 例如, 用戶A 和用戶B 喜歡去同一家餐廳吃晚飯, 這反映了兩個用戶在行為和愛好方面具有相似性, 基于位置尋找具有相似行為或愛好的用戶進行好友推薦是可靠的。因此, 眾多學者通過分析這些位置信息來研究好友推薦問題。比如Zhu J Q等[13] 指出, 如果用戶有相似的興趣并位于同一地點, 他們就更有可能彼此建立互動, 提出了基于鄰居的朋友推薦(NBFR)。孫曉晨等[14] 利用用戶的簽到特性及簽到歷史記錄, 計算用戶在各個位置興趣點的位置權(quán)重。此外, 還有學者通過傳感器獲取位置信息[15] 。但是位置信息往往只是用戶所在的位置, 并不能表示用戶的興趣, 需要結(jié)合實際情況去分析。
3) 用戶發(fā)布的文本和圖片信息。用戶發(fā)布的文本信息包括用戶曾經(jīng)評論、轉(zhuǎn)發(fā)或者收藏過的文本信息, 通過文本信息識別用戶的興趣需要進行語義特征挖掘, 目前常用的方法是TF-IDF 值計算和主題模型。很多學者利用TF-IDF 將用戶的興趣愛好表示為關(guān)鍵詞和關(guān)鍵詞權(quán)重構(gòu)成的向量, 并通過余弦定理來計算用戶興趣相似度[4,16] 。而近年來,各種主題模型, 尤其是LDA 主題模型被廣泛應(yīng)用于好友推薦, 如Gong J B 等[17] 將LDA 方法應(yīng)用到朋友推薦模型中, 生成用戶感興趣的語義主題, 然后計算目標用戶和候選朋友之間的主題相似度。此外, 許多研究還采用了改進的LDA 模型[18] 來進行好友推薦, 其中Xin M J 等[19] 為了克服LDA 對文本的長度有要求, 且需要足夠多的單詞來分析彼此之間聯(lián)系的局限性, 針對用戶評論過短且稀疏的問題,提出了RD-LDA 模型, 該模型提高了用戶主題抽取的可靠性。還有學者融入了情感分析[55,26,56] , 以研究用戶對文本中表達實體的態(tài)度, 提高了識別用戶偏好的準確性。
除了文本信息之外, 用戶發(fā)布的信息中往往包含大量的圖片信息, 部分學者認為在用戶自身發(fā)表的微博信息中, 圖像比書面文字更能表現(xiàn)用戶的興趣特點。馬漢達等[2] 考慮用戶個人信息的同時, 還將用戶發(fā)表的圖像信息作為主要處理對象, 通過對圖像識別分類獲取用戶的興趣, 達到了較好的好友推薦效果。還有研究表明, 結(jié)合用戶間的共同興趣與用戶間共同關(guān)注物品的心理認知, 會提高好友推薦質(zhì)量[49] 。
2.2基于社交關(guān)系的好友推薦方法
與基于內(nèi)容的好友推薦方法不同, 基于社交關(guān)系的好友推薦主要是通過用戶之間的關(guān)系強弱來進行好友推薦, 關(guān)系越強越容易成為好友。基于社交關(guān)系的好友推薦方法主要從兩個特征維度進行好友推薦, 分別是用戶之間的共同好友和互動行為, 以下將對兩個特征信息進行詳細介紹, 統(tǒng)計情況如表1 所示。
1) 基于共同好友的社交關(guān)系好友推薦。共同的朋友是兩個陌生人之間的紐帶, 有助于增進兩人之間的友誼, 這是因為通過共同的朋友實現(xiàn)信息交互, 可以提高交流的機會, 進而成為新朋友。FOF(朋友的朋友)算法是一種高效的推薦算法, 因為其時間復雜度低而被廣泛使用, 其原理是社交網(wǎng)絡(luò)中兩個用戶的共同好友越多, 則他們成為朋友的概率越大。例如Facebook 上“你可能認識的人” 的列表就是利用FOF算法通過計算用戶之間的共同好友個數(shù)來實現(xiàn)的, 計算公式見式(4)。如果達到預(yù)先設(shè)定的閾值, 就會推薦給目標用戶[3] 。然而, 共同好友個數(shù)受用戶好友總數(shù)影響較大, 因此, 通常根據(jù)共同好友比例來表示用戶間關(guān)系的強弱, 計算公式見式(5)。還有學者考慮到社交網(wǎng)絡(luò)的拓撲結(jié)構(gòu), 即社交圖中的好友是有向的, 將共同好友比例的計算方法分為3 種, 分別是計算出度、計算入度、混合計算。入度(in)表示被關(guān)注的用戶, 出度(out)表示關(guān)注的用戶。以出度計算為例[4] , 用戶u和用戶v 的共同好友比例的計算公式見式(6)。
式(6) 中out(u)表示用戶u 關(guān)注的用戶集合, out(v)表示用戶v 關(guān)注的用戶集合; out(u)∩out(v)表示兩個用戶集合的交集, out(u)‖out(v)分別表示兩個用戶集合中好友的數(shù)量?;谌攵群突旌嫌嬎惴椒ú捎妙愃频挠嬎氵^程。
單純以共同好友的數(shù)量來衡量用戶間關(guān)系的強弱是不夠全面的, 還需要考慮其他因素的影響。Xin M J 等[19] 提出共同好友也有拓撲結(jié)構(gòu), 他們加入共同好友之間的連通分量來提取社交關(guān)系特征。還有研究基于關(guān)聯(lián)規(guī)則算法來計算用戶之間共同好友的數(shù)量[3] , 向程冠等[20] 同時考慮關(guān)注的“人”和“事” (“人” 主要指被關(guān)注的微博用戶, “事”主要指被關(guān)注的信息), 利用改進后的AprioriTid算法實現(xiàn)好友推薦?,F(xiàn)有共同好友的研究大多是將好友搜索控制在一度或者二度內(nèi), 杜淑穎等[21] 和夏立新等[16] 分別基于六度分割理論和三度影響力理論, 將好友搜索深度擴展到四度和三度, 在擴大了好友集合的同時, 還在一定程度上有效地解決了數(shù)據(jù)稀疏問題。
基于共同好友的社交關(guān)系好友推薦方法的優(yōu)點是時間復雜度低、簡單高效、易實現(xiàn), 效果明顯。但也存在很明顯的缺點, 首先是該算法給用戶推薦好友時, 用戶必須被足夠多的人所關(guān)注, 而社交網(wǎng)絡(luò)中大多數(shù)用戶自己關(guān)注的人數(shù)大于自己被關(guān)注的人數(shù), 如果用戶好友人數(shù)不夠多, 則無論是為其推薦其他好友或者將其推薦給其他人都會變得很難。其次是該算法只是關(guān)注“人” 的因素而忽略了其他因素, 可能會影響所推薦好友的準確性。
2) 基于互動行為的社交關(guān)系好友推薦。在現(xiàn)實生活的社交關(guān)系中, 朋友之間總是存在互動的,把這一人際關(guān)系中的特征應(yīng)用于互聯(lián)網(wǎng)中也是適用的, 通過用戶之間的互動來衡量用戶間關(guān)系的強弱, 互動越多, 關(guān)系越強, 越容易成為朋友。社交網(wǎng)絡(luò)中用戶之間的互動包括用戶間發(fā)送消息、評論、點贊、轉(zhuǎn)發(fā)和收藏等, 不同社交平臺上用戶間的互動行為會有些許的區(qū)別。大多數(shù)學者根據(jù)用戶之間的互動比例來反映好友關(guān)系的強弱, 如吳昊等[4] 根據(jù)用戶之間互動次數(shù)占各自互動總次數(shù)的比值來表示互動比例, 但他們對用戶之間不同的交互行為取了相同權(quán)重, 更進一步地, 徐建民等[22]給不同的交互行為賦予了不同權(quán)重。此外, 部分學者分析網(wǎng)絡(luò)拓撲結(jié)構(gòu)信息, 通過鏈路預(yù)測算法實現(xiàn)好友推薦[9,46] , Lo S C等[23] 提出了一個基于圖的好友推薦算法, 通過用戶之間發(fā)送的消息, 將所有成員聯(lián)系起來形成消息網(wǎng)絡(luò), 算法選擇最小消息數(shù)衡量成員之間的聯(lián)系強度。還有學者提出了基于用戶間的信任來進行好友推薦[43,47] , 用戶之間的評論、轉(zhuǎn)發(fā)等交互行為都代表了用戶之間的某種信任關(guān)系, 當用戶愿意接受另外一個用戶的好友請求,以及評論或者轉(zhuǎn)發(fā)該用戶發(fā)布的內(nèi)容時, 就表示用戶信任該內(nèi)容發(fā)布者, 交互越強表明用戶對該內(nèi)容發(fā)布者具有較強的信任關(guān)系[24] 。但用戶之間的互動應(yīng)該是雙向的, 如果一方給出很多互動, 另一方卻很少回應(yīng), 可能是一種騷擾, 而不是正向的互動, 但目前的研究往往忽略了這一點。其次, 用戶之間的互動依賴于用戶的活躍程度, 在社交網(wǎng)絡(luò)中存在大量活躍度不高的用戶, 他們與其他用戶之間沒有交互, 這也是該方法面臨的挑戰(zhàn)之一。最后,如何利用用戶之間的行為差異進行個性化的好友推薦也是未來工作的關(guān)鍵問題。
2.3混合好友推薦方法
近年來, 為了彌補單一好友推薦方法存在的局限性, 許多學者嘗試結(jié)合基于內(nèi)容的好友推薦與基于社交關(guān)系的好友推薦這兩種方法, 提出了混合好友推薦方法。比較常用的是分別使用基于內(nèi)容和基于社交關(guān)系的好友推薦方法產(chǎn)生兩個推薦模塊, 然后使用某種組合方式得到最終推薦結(jié)果?;旌虾糜淹扑]的推薦過程為, 首先計算用戶的興趣相似度和社交關(guān)系相似度, 其次將兩個數(shù)值按照指定的方式進行組合得到一個綜合值, 最后根據(jù)綜合值進行TOP-K 好友推薦。根據(jù)組合方式的不同將混合好友推薦分為3種, 分別為并行式混合好友推薦、切換式混合好友推薦和迭代式混合好友推薦。
2.3.1并行式混合好友推薦并行式混合好友推薦
是指同時運行多個不同的好友推薦方法, 得到不同的結(jié)果, 最終將這些推薦結(jié)果進行整合得到最終的好友推薦結(jié)果的過程, 如圖3 所示。吳昊等[4] 使用基于社交關(guān)系的好友推薦方法, 根據(jù)用戶的關(guān)注和行為信息數(shù)據(jù)計算共同好友比例和互動比例, 從而得到用戶的社交關(guān)系相似度; 使用基于內(nèi)容的好友推薦方法, 提取用戶的文本信息特征, 根據(jù)余弦相似度得到用戶的興趣相似度, 最終將社交興趣度和興趣相似度分別按最大值歸一化, 得到最終的評分公式, 實現(xiàn)好友推薦。類似地, 夏立新等[16] 計算用戶關(guān)系強度和興趣相似度之后, 根據(jù)兩個數(shù)值進行線性加權(quán), 得到的綜合數(shù)值進行TOP-K 好友推薦。并行式混合好友推薦的優(yōu)點是使各個好友推薦方法的優(yōu)點以直接的方式得到了利用。
2.3.2切換式混合好友推薦
切換式混合好友推薦首先使用第一種推薦方法, 達到切換標準后, 不再使用第一種推薦方法,而是切換為第二種推薦方法的過程, 如圖4所示。通過切換好友推薦方法能夠避免特定方法存在的問題, 例如, 針對社交關(guān)系的好友推薦方法存在的冷啟動問題, 龍增艷等[9] 將用戶現(xiàn)有好友列表數(shù)量設(shè)置為切換標準, 當用戶好友數(shù)量為0 時, 提取用戶的個人信息, 采用基于內(nèi)容的好友推薦方法處理數(shù)據(jù), 當用戶好友數(shù)量大于0 時, 切換基于社交關(guān)系的好友推薦方法來處理數(shù)據(jù)。這種混合方法的好處是, 能夠根據(jù)用戶的特征進行靈活轉(zhuǎn)換, 得到的推薦結(jié)果更加合理, 它主要的缺點是, 切換式混合好友推薦方法需要根據(jù)實際情況確定切換標準, 增加了推薦的復雜性。
2.3.3迭代式混合好友推薦
迭代式混合好友推薦是先使用第一種好友推薦方法輸出粗略的推薦列表, 該列表又被下一種好友推薦方法細化的過程, 如圖5 所示。Zhang Z 等[10]將候選人限制為朋友的朋友, 從而降低時間復雜度, 提高推薦結(jié)果的準確性, 具體是先基于共同好友的社交關(guān)系好友推薦方法對數(shù)據(jù)集進行處理, 得到一個粗略的推薦結(jié)果, 然后在該推薦結(jié)果的基礎(chǔ)上進行基于用戶屬性的計算, 得到最終結(jié)果。由于迭代過程是將推薦結(jié)果由粗到細的特性, 使得該混合方法非常有效, 并能容忍噪聲。
3社交網(wǎng)絡(luò)中好友推薦研究存在的不足及研究展望
3.1現(xiàn)有好友推薦研究存在的不足
不同類型的社交網(wǎng)站其側(cè)重點也不同, 如有些側(cè)重于用戶之間的互動, 有些則側(cè)重于文本或圖片信息的發(fā)布, 因此, 需要提取不同的特征信息并選擇合適的相似度算法[44] , 也可以融合多種特征信息來衡量用戶相似度。現(xiàn)有的好友推薦研究以用戶在社交網(wǎng)絡(luò)上實際產(chǎn)生的客觀數(shù)據(jù)和行為作為依據(jù)進行好友推薦, 具有可信度高、說服力強的特點, 但也存在一定的缺陷, 本文將不足總結(jié)為以下幾點:
1) 冷啟動問題。冷啟動問題, 即好友推薦過程中缺乏關(guān)于新用戶的信息。由于剛進入社交網(wǎng)站, 新用戶個人信息與行為信息都是不完善的, 系統(tǒng)不能通過模型分析用戶的偏好, 好友推薦系統(tǒng)也就無法利用推薦算法向該用戶推薦其可能感興趣的用戶[61] 。解決冷啟動問題可以提高社交網(wǎng)絡(luò)的留存率和用戶的使用舒適度。目前, 有相關(guān)研究對冷啟動問題提出了一些解決辦法, 部分研究要求新用戶在初次登陸系統(tǒng)時對若干選項進行反饋或者回答若干問題[5] , 當用戶度過冷啟動期時, 再結(jié)合用戶的偏好和社交關(guān)系來逐漸增強推薦, 但該方法需要用戶的積極參與, 還依賴于選項和問題設(shè)計的合理程度。還有研究通過混合好友推薦方法來實現(xiàn)對新用戶的好友推薦[9],這在一定程度上也能緩解冷啟動問題, 然而面對內(nèi)容和社交關(guān)系都是空白的新用戶, 該方法也不再有效。更進一步地, 有研究提出基于用戶的上下文信息[50],即通過利用額外的信息(如天氣、時間、季節(jié)等)、基于動態(tài)Kmeans算法對用戶進行聚類[58] 以及基于神經(jīng)網(wǎng)絡(luò)算法[51] 來解決該問題, 但以上方法存在相關(guān)信息提取難度大、算法復雜度高、通用性弱等問題。
2) 數(shù)據(jù)稀疏問題。數(shù)據(jù)稀疏問題即缺少可用信息。首先, 現(xiàn)實社交網(wǎng)絡(luò)中的大部分用戶之間并無共同好友, 只有少數(shù)用戶之間存在著一定數(shù)量的共同好友。其次, 對于活躍度不高的用戶, 他們產(chǎn)生的內(nèi)容信息少, 且這類用戶很少與其他用戶產(chǎn)生互動, 這些因素均導致好友推薦過程中存在的數(shù)據(jù)稀疏問題。混合好友推薦方法是目前主要的解決方法之一, 通過不同方法之間的互補來實現(xiàn)。此外,有研究通過擴展好友搜索深度, 擴大用戶潛在好友集合, 在一定程度上克服了數(shù)據(jù)稀疏性[21,16] , 還有研究通過引入本體庫來擴展豐富文本主題, 從而解決內(nèi)容數(shù)據(jù)稀疏的問題[59] 。Zarrinkalam F 等[60]根據(jù)用戶對Twitter 上活躍話題的傾向, 模擬了不活躍用戶的興趣。為了更好地了解用戶的需求, 提取用戶的特征數(shù)據(jù), 好友推薦中存在的數(shù)據(jù)稀疏問題仍然是一大挑戰(zhàn)。
3) 動態(tài)變化問題?,F(xiàn)有的好友推薦研究集中在如何精確地獲取用戶靜態(tài)偏好, 但實際上, 用戶的興趣愛好本身就是一個時間序列型數(shù)據(jù)[25] , 會隨著時間的變化而變化。相關(guān)研究對該問題提出的解決方案大多是在計算興趣相似度時添加了相應(yīng)的權(quán)重[2,26-27] , 即較長時間前的興趣愛好占較小的權(quán)重, 而近期的興趣愛好所占權(quán)重較高, 以此體現(xiàn)出時間因素的影響。但目前該問題的解決方法較為單一, 還需要做更多研究來增加解決方案的多樣性和有效性。
4) 信息繭房問題。目前研究為了增強用戶的粘性, 在好友推薦過程中會不斷重復推薦用戶感興趣的內(nèi)容來取悅用戶, 減少甚至不推薦與用戶興趣和社交關(guān)系不相似的用戶。這限制了用戶好友的多樣性, 也降低了用戶接受多樣化信息的可能性, 從而導致用戶在高度同質(zhì)化的信息中逐漸極端化。當系統(tǒng)只能推薦具有相同興趣的用戶時, 用戶被限制為推薦與過去自己興趣相同的用戶, 例如, 一個游泳愛好者永遠不會被推薦給一位沒有游過泳的人。這個問題在其他領(lǐng)域也有研究, 通常引入一些隨機性來解決, 在信息過濾的背景下, 遺傳算法的使用被認為是一種可能的解決方案[28,57] , 基于深度學習的推薦[52,53] 也被作為一種有效的解決方法, 但深度學習目前面臨著通用性等挑戰(zhàn)??傊?在好友推薦中, 需要考慮推薦用戶的多樣性, 給用戶提供一系列選項, 而不是一組同類的選項。研究表明,提高推薦的精準度并在推薦過程中兼顧“有趣”和“有益” 度, 將會是“破繭” 的利器[54] 。
5) 用戶隱私問題。當前, 好友推薦為了提高推薦質(zhì)量, 大多都將精力放在了推薦方法的選擇上, 忽略了用戶隱私問題。一方面, 若用戶敏感信息被人惡意利用就可能導致計算機輔助犯罪, 如騷擾、綁架等。出于這種隱私焦慮, 用戶在社交平臺上會刻意隱藏自己的信息, 使好友推薦精確度降低; 另一方面, 準確的好友推薦需要在社交網(wǎng)絡(luò)上獲取大量的用戶社交數(shù)據(jù), 而社交數(shù)據(jù)中就包含關(guān)于用戶的敏感信息。目前有研究提出了多種基于用戶隱私保護的好友推薦, 如將多項式秘密共享用于社交網(wǎng)絡(luò)從而實現(xiàn)個人簡檔的保護[31] , 利用同態(tài)加密設(shè)計基于可驗證安全點積協(xié)議的安全好友推薦方案[32] , 利用匿名技術(shù)和安全的KNN 計算作為運行協(xié)議[33] , 以及引入標簽偽造技術(shù)來隱藏用戶在推薦過程中的實際偏好[34] 等。此外, 還有基于密碼學的隱私保護方法[35-36] , 以及在嚴格的隱私概念下基于差分隱私的隱私保護方法[37] 。然而, 目前還需要不斷進行改進, 如何在保證高質(zhì)量好友推薦的同時保護用戶隱私問題, 是社交網(wǎng)絡(luò)的好友推薦中應(yīng)該重點解決的問題之一。
3.2好友推薦研究展望
通過對現(xiàn)有好友推薦方法的研究, 本文認為除了關(guān)注好友推薦方法的選擇及其不足的解決方案之外, 社交網(wǎng)絡(luò)的好友推薦未來還可以從如下幾個方面進行研究, 包括增加好友推薦的多維性、提供好友推薦結(jié)果的解釋、設(shè)置用戶反饋機制, 以及增強好友推薦系統(tǒng)的可拓展性。
1)推薦的多維性。推薦的多維性指可以從多個不同的維度對用戶進行推薦。根據(jù)最新社會學的研究發(fā)現(xiàn), 基于社交關(guān)系和內(nèi)容的好友推薦方法可能不是最合適的[29] 。根據(jù)這些研究, 用戶聯(lián)系在一起的規(guī)則包括習慣或生活方式、態(tài)度、興趣愛好、道德標準、經(jīng)濟水平和社交關(guān)系。其中, 興趣愛好和社交關(guān)系是現(xiàn)有好友推薦考慮的主流因素,但也可以合理利用其他規(guī)則來提高好友推薦系統(tǒng)的多維性。例如, 生活方式是最直觀的, 但由于用戶的生活方式難以通過網(wǎng)絡(luò)行為來捕捉, 所以并未廣泛使用。但隨著科技的發(fā)展, 可以通過傳感器去探索用戶的生活方式, Wang ZB等[30]就利用傳感器豐富的智能手機, 通過衡量用戶之間生活方式的相似性進行好友推薦。還可以利用配備有GPS、加速度計、麥克風、攝像頭等傳感器的穿戴設(shè)備, 從傳感數(shù)據(jù)中提取豐富的內(nèi)容感知信息, 進而發(fā)現(xiàn)人們的生活方式, 進行有效推薦。通過不同的維度實現(xiàn)好友推薦不僅能解決現(xiàn)有好友推薦普遍存在的問題, 還能提高推薦質(zhì)量。
2)提供好友推薦結(jié)果的解釋。好友推薦除了展示推薦結(jié)果外, 還應(yīng)該展示恰當?shù)睦碛勺層脩衾斫庀到y(tǒng)會做出這樣推薦的原因, 但目前的大多數(shù)好友推薦都沒有這項功能。研究表明, 提供推薦結(jié)果的解釋能提高系統(tǒng)的透明度、可檢查性、信任、有效性、說服力、效率和滿意度[41] , 好的解釋可以幫助用戶做出更好的決定[58] 。用戶無法獨自判斷與未知的其他用戶是否能成為好友, 而簡短的解釋可以幫助用戶決定是否可以根據(jù)解釋給出的指標與推薦用戶建立聯(lián)系, 這在社交網(wǎng)絡(luò)的好友推薦中發(fā)揮著重要作用。
3)設(shè)置好友推薦的用戶反饋機制。用戶反饋可以協(xié)助系統(tǒng)更好地評定好友推薦模型的準確性,如用戶可以對推薦結(jié)果做出“接受” 或者“拒絕”的反饋。如果用戶接受, 證明好友推薦模型相對合理; 如果用戶拒絕, 則系統(tǒng)需要對推薦模型進行調(diào)整, 提高推薦的精確度[20] 。用戶反饋可以帶來一些潛在的好處, 如提供了對好友推薦模型的直接洞察, 使好友推薦模型能更準確地反映用戶偏好; 能使達到某一準確度所需的訓練數(shù)據(jù)減少; 可以帶來更靈活的好友推薦模型, 尤其在用戶偏好不穩(wěn)定的領(lǐng)域作用較大。而現(xiàn)有的好友推薦系統(tǒng)大多缺失用戶反饋功能, 這對于好友推薦是不利的。因此, 未來的好友推薦系統(tǒng)可以考慮加入用戶反饋, 從而提供高質(zhì)量的好友推薦。
4)改進好友推薦系統(tǒng)的可拓展性。目前, 好友推薦系統(tǒng)在推薦時不僅要考慮推薦的準確性, 還要保證計算時間盡可能短, 以求準確實時地推薦信息, 即好友推薦系統(tǒng)要具有可拓展性[38] 。如通過擴大吞吐量來改進好友推薦系統(tǒng)的可擴展性, 其中, 吞吐量定義為每秒推薦的數(shù)量。好友推薦系統(tǒng)可以通過降維技術(shù)來實現(xiàn)可拓展性, 因為降維去除了冗余的特征保留了關(guān)鍵的特征, 可以避免系統(tǒng)過擬合, 從而提高系統(tǒng)的靈活性和吞吐量, 也能提高系統(tǒng)的運行速度。Nilashi M 等[39] 使用了一種降維技術(shù), 奇異值分解(SVD), 在每個項目和用戶聚類中找到最相似的項目和用戶, 結(jié)果表明, 使用聚類和降維技術(shù)的方法, 吞吐量明顯高于其他方法。
4研究總結(jié)
目前, 越來越多的社交網(wǎng)絡(luò)平臺加入了好友推薦的功能, 但當前的好友推薦系統(tǒng)仍需要進一步改進, 使好友推薦可以被更有效、更廣泛地應(yīng)用。在本文中, 首先界定了好友推薦的概念, 梳理了好友推薦的過程; 其次總結(jié)了3種社交網(wǎng)絡(luò)好友推薦方法, 分別是基于內(nèi)容的好友推薦方法、基于社交關(guān)系的好友推薦方法和混合好友推薦方法, 其中, 前兩種方法較為單一, 存在局限, 后者能夠較好地解決這一問題; 第三, 通過歸納總結(jié), 發(fā)現(xiàn)現(xiàn)有好友推薦存在冷啟動、數(shù)據(jù)稀疏、動態(tài)變化、信息繭房以及用戶隱私問題等研究不足; 最后提出了好友推薦的研究展望, 包括增加好友推薦的多維性, 供好友推薦結(jié)果的解釋, 設(shè)置用戶反饋機制, 提高好友推薦系統(tǒng)的可拓展性等。本研究通過對社交網(wǎng)絡(luò)中好友推薦的概念、過程、方法進行梳理、歸納和總結(jié), 得到了一些有價值的結(jié)果和結(jié)論, 希望該研究能對社交網(wǎng)絡(luò)中好友推薦的深入研究和實踐推進提供有益的參考。