李 慧,馬小平, 施 珺, 仲兆滿, 蔡 虹,3
(1. 淮海工學(xué)院 計(jì)算機(jī)工程學(xué)院,江蘇 連云港 222001; 2.中國(guó)礦業(yè)大學(xué) 信電學(xué)院, 江蘇 徐州 221008;3. 江蘇省海洋資源開(kāi)發(fā)研究院, 江蘇 連云港 221005)
結(jié)合信任度與社會(huì)網(wǎng)絡(luò)關(guān)系分析的微博推薦方法研究
李 慧1,2,馬小平2, 施 珺1, 仲兆滿1, 蔡 虹1,3
(1. 淮海工學(xué)院 計(jì)算機(jī)工程學(xué)院,江蘇 連云港 222001; 2.中國(guó)礦業(yè)大學(xué) 信電學(xué)院, 江蘇 徐州 221008;3. 江蘇省海洋資源開(kāi)發(fā)研究院, 江蘇 連云港 221005)
隨著微博網(wǎng)絡(luò)的盛行,越來(lái)越多的微博信息困擾用戶無(wú)法快速定位自己感興趣的博文。為了解決微博信息過(guò)載問(wèn)題,信息過(guò)濾、推薦和搜索等技術(shù)被應(yīng)用于微博研究中。該文提出了一個(gè)綜合信任模型、社會(huì)網(wǎng)絡(luò)關(guān)系分析的綜合推薦模型,應(yīng)用LDA主題模型及矩陣分解技術(shù)推斷微博的主題分布和用戶的興趣取向,實(shí)現(xiàn)微博的個(gè)性化推薦。通過(guò)實(shí)驗(yàn)驗(yàn)證,該方法能十分有效地解決個(gè)性化博文推薦問(wèn)題。
信任度;社會(huì)網(wǎng)絡(luò);矩陣分解;微博;LDA
在線社交網(wǎng)絡(luò)系統(tǒng)和面對(duì)面服務(wù)已經(jīng)獲得了社會(huì)媒體的廣泛關(guān)注, 它是通過(guò)鼓勵(lì)博主與其他博主分享自己的帖子或個(gè)人信息來(lái)發(fā)現(xiàn)一些現(xiàn)有的社交網(wǎng)絡(luò)或社會(huì)關(guān)系的一種社交方式。在微博圈里,微博確實(shí)為人們提供一個(gè)更加開(kāi)放的溝通渠道來(lái)閱讀、評(píng)論、引用、社交,甚至可以超出他們的社交網(wǎng)絡(luò)去建立新的聯(lián)系,從而形成社區(qū)。此外,微博圈中包括了基于文本的微博條目(文章)和配置文件、圖片、數(shù)據(jù)及多媒體等大量有價(jià)值的資源。對(duì)于用戶來(lái)說(shuō),面對(duì)如此海量的信息,如何處理信息過(guò)載問(wèn)題和如何有效地檢索他們認(rèn)為重要的信息,設(shè)計(jì)微博推薦方法和信息過(guò)濾機(jī)制是一個(gè)很好的解決方案。
社交網(wǎng)絡(luò)服務(wù)具有海量性、實(shí)時(shí)性和個(gè)性化等特點(diǎn),這些特點(diǎn)在微博平臺(tái)上得到了很好的體現(xiàn),這也使得微博成為一種非常典型的社交網(wǎng)絡(luò)服務(wù)。針對(duì)微博平臺(tái),部分互聯(lián)網(wǎng)公司已經(jīng)開(kāi)發(fā)了實(shí)時(shí)社交網(wǎng)絡(luò)服務(wù),包括Twitter, TOPSY和OneRiot。在學(xué)術(shù)界,Busch等人[1]介紹了Twitter搜索引擎EarlyBird, Chen等人[2]研究了Twitter的實(shí)時(shí)搜索引擎[3]。但是,目前這些工作并未充分考慮用戶間的信任關(guān)系及個(gè)性化服務(wù)的需求,這正是本文的出發(fā)點(diǎn)。
在微博推薦中,最重要的是如何通過(guò)微博推薦機(jī)制將有趣的、個(gè)性化的和社會(huì)相關(guān)的信息推薦給博主。本文提出的微博推薦機(jī)制目標(biāo)是分析博主或微博文章(文章),從推薦最受歡迎、最值得信賴(lài)、和最相似的鏈接或微博內(nèi)容等多個(gè)方面進(jìn)行考慮,提出綜合信任和社會(huì)網(wǎng)絡(luò)關(guān)系的綜合推薦模型,并應(yīng)用LDA主題模型及矩陣分解技術(shù)推斷微博的主題分布和用戶的興趣取向,實(shí)現(xiàn)微博的個(gè)性化推薦。
現(xiàn)有的一些有關(guān)博文推薦的研究主要是通過(guò)對(duì)用戶進(jìn)行興趣建模實(shí)現(xiàn)的。例如Liu等人[4]利用分類(lèi)法從微博文章中分析用戶偏好,將文章分類(lèi)到預(yù)定義的類(lèi)別中以確定作者的偏好,然后通過(guò)分析微博的內(nèi)容將符合用戶偏好的博文推薦給用戶。Ray和Singh[5]提出了一種博客主題擴(kuò)展的方法進(jìn)行微博推薦。根據(jù)用戶在微博中的查詢輸入,使用WordNet和多本體擴(kuò)展微博的基本主題,然后按照微博主題的排名進(jìn)行推薦。Liu等人[6]設(shè)計(jì)一個(gè)面向個(gè)人博文推薦的手機(jī)應(yīng)用,他們通過(guò)對(duì)互聯(lián)網(wǎng)讀者的博文點(diǎn)擊數(shù)進(jìn)行分析以獲得博客的流行趨勢(shì)主題,然后使用一種混合的方法來(lái)為移動(dòng)用戶推薦博文。丁兆云等人[7]針對(duì)微博的新特性,研究了微博近幾年的相關(guān)研究現(xiàn)狀,對(duì)微博情感分析、關(guān)系挖掘及信息檢索與推薦進(jìn)行了研究。
為了解決信息過(guò)載問(wèn)題,利用數(shù)據(jù)分析技術(shù)構(gòu)建推薦系統(tǒng)可以幫助用戶進(jìn)行信息過(guò)濾。推薦系統(tǒng)被廣泛用于電影推薦[8]、標(biāo)簽推薦[9]、微博推薦[10]等不同領(lǐng)域,主要包括如下幾種推薦方法。
2.1 基于內(nèi)容的過(guò)濾
基于內(nèi)容的過(guò)濾(CBF)方法主要是根據(jù)項(xiàng)目的屬性來(lái)分析用戶的偏好,構(gòu)建個(gè)性化的特征模型并對(duì)用戶可能感興趣的項(xiàng)目進(jìn)行預(yù)測(cè)?;趦?nèi)容的過(guò)濾主要用于網(wǎng)頁(yè)和新聞環(huán)境下的項(xiàng)目推薦,它通過(guò)對(duì)給定內(nèi)容的描述進(jìn)行分析,提取內(nèi)容特征并構(gòu)建特征模型,使用用戶喜好的項(xiàng)目構(gòu)建用戶模型。為了對(duì)項(xiàng)目?jī)?nèi)容進(jìn)行預(yù)處理,基于內(nèi)容的推薦系統(tǒng)主要使用信息檢索技術(shù)。CBF方法的局限性表現(xiàn)在用戶只能接收到與他們以往喜好相類(lèi)似的項(xiàng)目推薦。在本文的工作中也使用了CBF來(lái)計(jì)算推薦博文之間的內(nèi)容相似性。
2.2 協(xié)同過(guò)濾
與基于內(nèi)容的過(guò)濾不同,協(xié)同過(guò)濾(CF)主要是分析項(xiàng)目或用戶之間的關(guān)系,而不是分析項(xiàng)目的內(nèi)容。協(xié)同過(guò)濾方法通過(guò)分析與其具有相似興趣的鄰居用戶的喜好來(lái)預(yù)測(cè)目標(biāo)用戶的偏好。一般來(lái)說(shuō),CF方法可以分為兩種類(lèi)型: 基于用戶的協(xié)同過(guò)濾和基于項(xiàng)目的協(xié)同過(guò)濾?;谟脩舻膮f(xié)同過(guò)濾方法首先是將用戶分成不同的組或找到目標(biāo)用戶鄰居用戶集合,然后根據(jù)鄰居用戶的喜好進(jìn)行推薦?;陧?xiàng)目的協(xié)同過(guò)濾方法是在用戶對(duì)以往項(xiàng)目評(píng)分的基礎(chǔ)上分析項(xiàng)目之間的相似性,項(xiàng)目間的相似性被用于為用戶產(chǎn)生推薦。亞馬遜網(wǎng)站是一個(gè)最成功的使用基于項(xiàng)目的協(xié)同過(guò)濾方法來(lái)為用戶產(chǎn)生推薦的電子商務(wù)網(wǎng)站。
2.3 混合推薦
以上兩種方法的有效性需要建立在用戶存在大量的歷史評(píng)分?jǐn)?shù)據(jù)的基礎(chǔ)上,但實(shí)際上用戶的評(píng)分矩陣往往是一個(gè)稀疏矩陣,因此發(fā)現(xiàn)和用戶具有相似喜好的鄰居用戶是一項(xiàng)較為困難的工作?;旌贤扑]方法可以克服CF和CBF方法的固有缺點(diǎn),通過(guò)將基于內(nèi)容的過(guò)濾和協(xié)同過(guò)濾方法相結(jié)合來(lái)提高推薦精度。該方法使用加權(quán)模型對(duì)協(xié)同過(guò)濾和基于內(nèi)容的過(guò)濾方法的預(yù)測(cè)結(jié)果進(jìn)行線性組合,從而提高推薦系統(tǒng)的推薦精度。
2.4 矩陣分解技術(shù)
矩陣分解技術(shù)(MF)是解決協(xié)同過(guò)濾問(wèn)題常用的方法之一。該方法能夠發(fā)現(xiàn)隱藏在用戶和博文中的潛在特征向量,因此算法的有效性較高。矩陣分解的核心是將一個(gè)非常稀疏的評(píng)分矩陣分解為兩個(gè)矩陣,一個(gè)表示用戶的特性,一個(gè)表示項(xiàng)目的特性,將兩個(gè)矩陣中各取一行和一列向量做內(nèi)積就可以得到對(duì)應(yīng)的預(yù)測(cè)評(píng)分。最后根據(jù)得分進(jìn)行排名,選取Top-N條博文推薦給目標(biāo)用戶。
2.5 潛在狄利克雷分配模型
潛在狄利克雷分配模型(LDA)是一種無(wú)監(jiān)督式的概率生成模型。該模型假設(shè)文檔信息來(lái)自于隱含主題的隨機(jī)選擇,因此可以借助學(xué)習(xí)方法對(duì)隱含主題的分布情況進(jìn)行預(yù)測(cè)和把握。LDA模型被用于從大量的文檔集合中發(fā)現(xiàn)方法的主題集合,該模型是一個(gè)由文檔、主題、詞構(gòu)成的三層貝葉斯概率模型。其主要思想是把每個(gè)主題都看作在單詞上的一個(gè)概率分布,每篇文章就可以看作所有主題的一個(gè)混合概率分布。在本文的工作中,我們利用LDA模型發(fā)現(xiàn)博文的主題分布,實(shí)現(xiàn)基于主題級(jí)的博文推薦。
本文提出了一種融合信任度和社會(huì)網(wǎng)絡(luò)關(guān)系的微博推薦機(jī)制。這種機(jī)制分別考慮了微博網(wǎng)絡(luò)信息的可信度和可靠性、社會(huì)親密和流行度等因素。
在本文提出的推薦機(jī)制中對(duì)某博文(或博主)的推薦得分代表了在社會(huì)交互中的信任度及博文內(nèi)容的相似度。換句話說(shuō), 當(dāng)目標(biāo)博文(或博主)獲得的推薦得分越高,說(shuō)明該博文(或博主)就具有更高的價(jià)值和效用推薦給請(qǐng)求者,并且他/她們之間具有更相似的興趣和偏好。
(1) 抓取微博信息。首先,我們以請(qǐng)求者的微博站點(diǎn)作為起點(diǎn),根據(jù)每個(gè)微博中的友情鏈接,通過(guò)執(zhí)行搜索算法來(lái)搜索可用的和網(wǎng)絡(luò)可達(dá)的博主或推薦人。在關(guān)系網(wǎng)絡(luò)中,這些博主通過(guò)朋友的關(guān)系層層相連。一旦目標(biāo)對(duì)象被確定或指定,或者搜索層次達(dá)到最大值,推薦成員集合就被確定。然后,抓取推薦網(wǎng)絡(luò)中與每個(gè)博主有聯(lián)系的微博信息(如博文、超鏈接、評(píng)論信息等)。
(2) 構(gòu)建微博網(wǎng)絡(luò)。為了實(shí)現(xiàn)和評(píng)估該模型,我們采用了文獻(xiàn)[11]中提出的代理和對(duì)象的概念來(lái)模擬一個(gè)基于信任的微博網(wǎng)絡(luò)。在這個(gè)微博網(wǎng)絡(luò)圖(圖1)中,m代理(博主)和n對(duì)象(微博文章)分別用節(jié)點(diǎn)和類(lèi)似文檔的圖標(biāo)來(lái)表示。在網(wǎng)絡(luò)中有關(guān)系的邊表示異構(gòu)和多樣性的鏈接(顯式鏈接或隱式鏈接)。所構(gòu)造成的微博網(wǎng)絡(luò)是通過(guò)請(qǐng)求者(圖1中的白色節(jié)點(diǎn))形成并延伸出去,然后信任信息在代理層中進(jìn)行傳播。最終代理層中的博主所發(fā)表或評(píng)論的博文構(gòu)成了對(duì)象層的成員。在這個(gè)不完整的圖形中,對(duì)現(xiàn)有關(guān)系進(jìn)行分類(lèi)并為顯式鏈接和隱式鏈接作標(biāo)注是識(shí)別潛在關(guān)系的第一步。在本文中,關(guān)系被分為以下三個(gè)方面。
圖1 微博網(wǎng)絡(luò)鏈接的定義和分類(lèi)
3.1 博主—博主關(guān)系(A-A關(guān)系)
A-A關(guān)系包含兩種類(lèi)型。第一種關(guān)系是朋友和朋友的關(guān)系,該關(guān)系是以博主在微博中的友情鏈接體現(xiàn)的。我們用A-A關(guān)系來(lái)度量某一博主的可信度和可靠性,即信任程度。
第二種關(guān)系是關(guān)于社會(huì)相似性水平,這個(gè)水平可以衡量代理之間社會(huì)親密程度和博主之間的共同交互力。在本節(jié)中,不僅是現(xiàn)實(shí)中的真實(shí)鏈接,社會(huì)行為的隱式相似關(guān)系也會(huì)被考慮進(jìn)行,如共同鏈接、主題相似度、常見(jiàn)的超鏈接數(shù)、由同一作者在文章中的給出的相似標(biāo)簽或評(píng)論的數(shù)量等。通過(guò)整合這些關(guān)系可以獲得一個(gè)社會(huì)相似性得分。
3.2 博主—博文關(guān)系(A-O關(guān)系)
在微博社會(huì)網(wǎng)絡(luò)環(huán)境中,很多有趣的交互發(fā)生在評(píng)論行為中,和其他交互方式相比,這是一種最互動(dòng)的方式。這種A-O關(guān)系不僅表明了博主(評(píng)論者)對(duì)某一特定博文的興趣和社會(huì)親密度,還表明了博主的流行度。很顯然,當(dāng)某個(gè)博文從其他博主那獲得的評(píng)論和引用(入度鏈接)越多,則該博文獲得的流行度得分就會(huì)越高。
3.3 博文—博文關(guān)系(O-O關(guān)系)
為了保證推薦系統(tǒng)的完整性, 模型中應(yīng)該考慮用戶的引用行為,特別是博文之間的相似性。在推薦領(lǐng)域已經(jīng)將文本間的相似性作為一個(gè)重要的指標(biāo)。在微博推薦的環(huán)境下,博文之間的相似性同樣作為博文和微博推薦中的重要因素。本文提出的方法就將相似性的概念劃分為兩類(lèi): 社會(huì)親密度SI和流行度PO。
在微博中,通過(guò)其微博好友列表,即可確認(rèn)其朋友關(guān)系。并且朋友的建立也相對(duì)容易,通過(guò)“添加好友”即可完成。但是通過(guò)觀察微博和微博中的朋友關(guān)系,發(fā)現(xiàn)大量朋友關(guān)系處于“沉寂”狀態(tài),朋友之間很少或根本沒(méi)有互動(dòng)。對(duì)于信息傳播、社區(qū)發(fā)現(xiàn)等研究來(lái)說(shuō),這類(lèi)朋友關(guān)系沒(méi)有意義,因此需要提出合理的方法挖掘真實(shí)的朋友關(guān)系。在社會(huì)關(guān)系網(wǎng)絡(luò)中,人們總是對(duì)熟悉的人產(chǎn)生更大的信任度。在微博中,只有經(jīng)常發(fā)生交互的朋友才是真正熟悉的朋友,熟悉的朋友所給出的推薦才更有價(jià)值;另外在熟悉性相同的朋友中,人們更傾向于選擇志同道合的人,也就是說(shuō)人們會(huì)對(duì)具有和自己興趣相同的人產(chǎn)生更高的信任度。因此本文在計(jì)算信任度得分時(shí)會(huì)考慮兩個(gè)方面: 熟悉性產(chǎn)生的信任度及相似性產(chǎn)生的信任度。
4.1 熟悉性產(chǎn)生的信任度
一般將社會(huì)網(wǎng)絡(luò)抽象為一張有向帶權(quán)圖G=(V,E),V代表節(jié)點(diǎn)的集合,每個(gè)點(diǎn)表示個(gè)人或組織。E表示邊的集合,每條邊表示個(gè)體之間的交流關(guān)系(如評(píng)論、推薦、發(fā)消息等交互行為)。一般認(rèn)為,兩個(gè)用戶之間的交互越多,說(shuō)明這兩個(gè)用戶越熟悉,即由熟悉性產(chǎn)生的信任度會(huì)越高。用Fi,j表示用戶ui和用戶uj之間由熟悉性產(chǎn)生的信任度,其計(jì)算公式如式(1)所示。
(1)
其中,s(ui,uj) 表示用戶ui發(fā)送給用戶uj的博文集合;A(ui)表示被用戶ui采納的博文集合。
4.2 相似性產(chǎn)生的信任度
用戶之間由相似性產(chǎn)生的信任度可以通過(guò)選取用戶偏好作為度量標(biāo)準(zhǔn),由于在社會(huì)網(wǎng)絡(luò)服務(wù)中的很多應(yīng)用都有大量的用戶參與,從中可以方便地采集到用戶的興趣特征。因此可以通過(guò)這些興趣特征計(jì)算用戶之間的偏好相似程度,用戶之間的偏好相似度越高說(shuō)明相互間的信任度越大。本文采用LDA方法[12]對(duì)博文內(nèi)容進(jìn)行基于主題分布的提取。從用戶的歷史行為記錄中,可以使用樸素偏好度量方法計(jì)算用戶u對(duì)博文a的偏好程度(記為pu(a)),其計(jì)算公式如式(2)所示。
(2)
其中,A(u,a)表示除了博文a以外被用戶u采納的博文集合;Ta表示博文a的主題分布。
每條微博通常涉及一個(gè)或多個(gè)主題,微博的這個(gè)特征正好和LDA主題模型相匹配,因此本文采用 LDA主題模型來(lái)推斷微博的主題分布。此外,一個(gè)用戶所發(fā)布的微博又能很好地反映用戶所關(guān)心的主題。因此,可以通過(guò)該用戶發(fā)布微博的主題分布推斷其興趣取向。
令C表示預(yù)先設(shè)定的T個(gè)主題集合,用C={C1,C2,…,CT}來(lái)表示。給定一條微博t,其主題分布定義如下:
定義1 主題分布: 令主題集合C={C1,C2,…,CT},t為一條微博,用p(Ci|t)表示該微博t屬于主題C的后驗(yàn)概率,則由這T個(gè)后驗(yàn)概率組成的向量[p(C1|t),p(C2|t,…,p(CT|t))],被稱(chēng)為微博t的主題分布。
由定義可知該后驗(yàn)概率越大,表明微博t屬于主題的可能性越高。若用戶發(fā)布了d條微博,則可表示為{t1,t2,…,td}。由于每條微博對(duì)應(yīng)一個(gè)主題分布,該用戶的興趣取向定義如下:
由定義可知興趣取向中分量vi越大,表明用戶對(duì)主題Ci越感興趣。
在求得用戶偏好之后,可以利用用戶的個(gè)人偏好計(jì)算用戶之間喜好的相似度(記為Wi,j),如式(3)所示。
(3)
Wi,j取值越大,說(shuō)明兩個(gè)博主的興趣愛(ài)好越相似。
4.3 社會(huì)親密度和流行度的計(jì)算
本節(jié)通過(guò)在微博網(wǎng)絡(luò)中分析每個(gè)博主的交互與共同特性等信息來(lái)計(jì)算其社會(huì)親密度和流行度(記為Bi,j)的評(píng)分。該項(xiàng)評(píng)分的計(jì)算分為兩部分: 社會(huì)親密度SI和流行度PO。其中SI強(qiáng)調(diào)的是博文之間的相似程度,然而,PO更強(qiáng)調(diào)的是博文的聲譽(yù),計(jì)算公式如式(4)所示。
(4)
其中,Bi,j用來(lái)在微博網(wǎng)絡(luò)中計(jì)算某用戶與每個(gè)博主或博文的熟悉度得分;SI(i,j)和PO(oij)分別代表社會(huì)親密度和流行度得分。
SI(i,j)可以通過(guò)博文之間的主題分布來(lái)衡量其相似程度,計(jì)算公式如式(5)所示。
(5)
其中,T表示微博推薦服務(wù)的請(qǐng)求者 (源博主)向某特定博主推薦的博文的主題分布。
流行度PO用來(lái)測(cè)量在微博網(wǎng)絡(luò)中博主或博文的社會(huì)重要性??偣灿腥N方法適用于計(jì)算圖結(jié)構(gòu)中的節(jié)點(diǎn)排名問(wèn)題,即入度、HITS[13]和PageRank[14],為了便于計(jì)算,本文通過(guò)計(jì)算模型的入度(指向結(jié)點(diǎn)的鏈接數(shù)目)作為流行度PO的得分:
(6)
其中,Comment(oij)和Citation(oij)分別表示博主i發(fā)表博文j的評(píng)論數(shù)與引用數(shù);maxComment(A)和maxCitation(A)分別表示在集合中最大的評(píng)論數(shù)和引用數(shù)。顯然,博主i的流行度得分PO(i)即i所發(fā)表的所有博文流行度評(píng)分總和。
本節(jié)將詳細(xì)介紹本文提出的綜合信任度與社會(huì)網(wǎng)絡(luò)關(guān)系的微博推薦模型。假設(shè)現(xiàn)有M個(gè)博主,其中第i個(gè)博主用ui來(lái)表示;有N篇博文,其中第j篇博文用pj來(lái)表示。
現(xiàn)定義采納矩陣R如下:
(7)
則微博推薦問(wèn)題就轉(zhuǎn)換為對(duì)采納矩陣R中未知項(xiàng)的預(yù)測(cè)問(wèn)題。
令U∈Rk×M表示潛在博主的特征矩陣,V∈Rk×N表示潛在博文矩陣。S∈RM×M表示交互影響矩陣,其中每一項(xiàng)Sij表示用戶ui對(duì)用戶uj的影響程度。如果用戶ui在用戶uj的朋友列表中,或者用戶ui被用戶uj跟隨,則Sij的取值為1,否則為0。G∈RN×M表示博文發(fā)送矩陣,若其值Gij=1,則表示用戶uj發(fā)送了博文pj,否則為0。基于以上表示,微博推薦問(wèn)題就等價(jià)于尋找最佳的U,V,S使((SGT)?(UTV)) 能最佳的近似采納矩陣R,其中?表示阿達(dá)馬乘積。
通過(guò)已知的歷史數(shù)據(jù),我們可以獲得博文信息、博主的個(gè)人偏好及用戶之間的交互影響等信息。利用公式(3)可以計(jì)算出用戶之間的偏好相似度矩陣W∈RM×M,利用式(4)可以計(jì)算出博文相似度矩陣B∈RN×N,利用式(1)可以計(jì)算出用戶交互矩陣F∈RM×M。為了使預(yù)測(cè)誤差達(dá)到最小,定義采納矩陣R的條件概率分布滿足式(8):
(8)
其中N(x|μ,σ2)表示參數(shù)x服從期望為μ、標(biāo)準(zhǔn)差為σ2的高斯分布。
由貝葉斯定理可知,在已知部分用戶的采納矩陣、博文發(fā)送矩陣、用戶相似度矩陣、博文相似度矩陣及用戶交互矩陣等信息的前提下,求解其分解得到的用戶、博文及交互影響特征矩陣U、V和S的后驗(yàn)概率滿足公式(9),當(dāng)該式取最大值時(shí)便可以得到最佳的U、V和S,使得微博預(yù)測(cè)評(píng)分與實(shí)際評(píng)分的誤差最小。
(9)
其中Ω表示均值為0的球形高斯先驗(yàn)[15]。應(yīng)用梯度下降法[16]進(jìn)行模型的求解。該模型可以應(yīng)用于真實(shí)的大數(shù)據(jù)環(huán)境中,下面通過(guò)實(shí)驗(yàn)驗(yàn)證其在微博推薦中的有效性。
本文提出了一個(gè)綜合信任度和社會(huì)網(wǎng)絡(luò)關(guān)系分析的推薦模型。該模型提出了在微博網(wǎng)絡(luò)中實(shí)現(xiàn)高質(zhì)量推薦時(shí)所需要考慮的一些關(guān)鍵因素。在本節(jié)中,我們將提出的推薦模型應(yīng)用到一個(gè)在臺(tái)灣著名的擁有百萬(wàn)用戶的微博平臺(tái)Wretch( http://en.wikipedia.org)。然后,通過(guò)實(shí)驗(yàn)來(lái)驗(yàn)證本文提出的微博推薦機(jī)制的有效性和服務(wù)請(qǐng)求者對(duì)推薦列表的滿意度。
下面首先介紹下數(shù)據(jù)的收集過(guò)程。然后給出一些統(tǒng)計(jì)數(shù)據(jù),如推薦網(wǎng)絡(luò)中博主的數(shù)量、每個(gè)博主擁有朋友的平均數(shù)量和每個(gè)博主的平均發(fā)貼數(shù)量。
6.1 數(shù)據(jù)集
實(shí)驗(yàn)從臺(tái)灣社區(qū)網(wǎng)站W(wǎng)retch中收集數(shù)據(jù)來(lái)驗(yàn)證本文提出的推薦機(jī)制的有效性。這個(gè)社區(qū)網(wǎng)站,是臺(tái)灣最著名的微博社區(qū),有數(shù)以百萬(wàn)的用戶在線注冊(cè),用戶可以上傳照片到相冊(cè),可以寫(xiě)微博,并且與他人進(jìn)行互動(dòng)。使用爬蟲(chóng)程序在該網(wǎng)站上獲取每個(gè)微博的相關(guān)信息,包括博主賬戶、朋友關(guān)系、文章id、文章內(nèi)容(博文)、引用、評(píng)論和發(fā)貼時(shí)間。實(shí)驗(yàn)的詳細(xì)統(tǒng)計(jì)信息如表1所示。
表1 推薦網(wǎng)絡(luò)的統(tǒng)計(jì)數(shù)據(jù)
分析整個(gè)網(wǎng)絡(luò)數(shù)據(jù)發(fā)現(xiàn),大約57.22%的博文是孤立的,并且沒(méi)有任何評(píng)論和引用,99%的博文擁有0~15個(gè)評(píng)論, 80%的博文擁有0~2個(gè)評(píng)論,57.4%的博文沒(méi)有任何評(píng)論。此外,99%的博文沒(méi)有任何引用。這也證實(shí)了前面所提到的微博圈的稀疏特性,因此在我們的方法中必須從多個(gè)維度出發(fā)提高推薦得分計(jì)算的合理性與全面性,這將會(huì)提高推薦機(jī)制的可靠性和精準(zhǔn)度。
6.2 評(píng)估指標(biāo)
在信息檢索及博文推薦領(lǐng)域中廣泛使用精確度(precision)、召回率(recall)和F1值作為評(píng)估指標(biāo)來(lái)衡量預(yù)測(cè)結(jié)果的有效性。精確度表示在推薦的博文中用戶真正感興趣的比例,如公式(10)所示。召回率表示在用戶真正感興趣的博文中正確推薦的比例,如式(11)所示。
(10)
(11)
其中,Pr(L)表示推薦并被閱讀的博文總數(shù);L表示推薦的博文總數(shù);R(L)表示用戶閱讀的博文總數(shù)。
F1值是統(tǒng)計(jì)學(xué)中用來(lái)衡量二分類(lèi)模型精確度的一種指標(biāo),它同時(shí)兼顧了推薦模型的準(zhǔn)確率和召回率。F1值可以看作是模型精確度和召回率的一種加權(quán)平均,它被定義為精確度和召回率的調(diào)和平均數(shù),如式(12)所示。
(12)
6.3 實(shí)驗(yàn)對(duì)比方法
本次實(shí)驗(yàn)設(shè)計(jì)了五種不同的推薦策略來(lái)驗(yàn)證本文提出的推薦機(jī)制,具體包括: 基于內(nèi)容的過(guò)濾、基于項(xiàng)目的協(xié)同過(guò)濾和基于用戶的協(xié)同推薦、矩陣分解技術(shù)和潛在狄利克雷分配模型。傳統(tǒng)的推薦方法主要以分析用戶模型(用戶發(fā)表的博文和被用戶轉(zhuǎn)發(fā)的博文)為主。本文提出的方法將社會(huì)網(wǎng)絡(luò)關(guān)系加入到推薦模型中,提高了傳統(tǒng)推薦模型的精確度。下面簡(jiǎn)要給出實(shí)驗(yàn)對(duì)比方法的介紹:
(1) 基于內(nèi)容的過(guò)濾(CBF): 傳統(tǒng)的基于內(nèi)容的推薦方法主要考慮推薦博文之間的內(nèi)容相似度。
(2) 基于項(xiàng)目的協(xié)同過(guò)濾(ICF): 傳統(tǒng)的基于項(xiàng)目的推薦方法使用項(xiàng)目之間的相似度來(lái)預(yù)測(cè)目標(biāo)用戶對(duì)博文的喜好度。
(3) 基于用戶的協(xié)同推薦(UCF): 該方法主要利用目標(biāo)用戶的鄰居用戶(相似用戶)的喜好來(lái)預(yù)測(cè)該用戶的喜好。如果目標(biāo)用戶u的大部分鄰居用戶Nbr(u)都在轉(zhuǎn)發(fā)某篇博文,則用戶u將會(huì)對(duì)該博文具有較高的喜好值。其計(jì)算方法如式(13)所示,用戶u與其鄰居用戶v之間的相似度通過(guò)Jaccard相似性系數(shù)進(jìn)行度量。
(13)
其中,Ud表示在模型訓(xùn)練階段推送博文d的用戶集合;Du和Dv分別表示由用戶u和v發(fā)表的博文集合。
(4) 矩陣分解技術(shù)(MF): 矩陣分解技術(shù)是將用戶和博文映射到一個(gè)聯(lián)合潛在特征空間中。其主要思路是把評(píng)分矩陣通過(guò)分解,用一個(gè)低秩的矩陣來(lái)逼近原來(lái)的評(píng)分矩陣,逼近的目標(biāo)就是使預(yù)測(cè)誤差最小化。
(5) 潛在狄利克雷分配模型(LDA): LDA方法是一種文檔主題生成模型。所謂生成模型,就是說(shuō),我們認(rèn)為一篇博文的每個(gè)詞都是通過(guò)“以一定概率選擇了某個(gè)主題,并從這個(gè)主題中以一定概率選擇某個(gè)詞語(yǔ)”這樣一個(gè)過(guò)程得到。文檔到主題與主題到詞均服從多項(xiàng)式分布。
6.4 實(shí)驗(yàn)結(jié)果分析
圖2給出了應(yīng)用不同推薦策略后在不同推薦的Top-N數(shù)量下推薦模型的F1值對(duì)比結(jié)果。實(shí)驗(yàn)結(jié)果說(shuō)明本文提出的方法在推薦性能上優(yōu)于ICF、MF、UCF、LDA和CBF等傳統(tǒng)的推薦方法。并且由圖2可知,ICF和MF方法性能優(yōu)于UCF、CBF和LDA方法。MF方法在推薦博文數(shù)在Top-5到Top-10之間的性能優(yōu)于ICF方法,然而ICF方法在推薦博文數(shù)在Top-15到Top-30之間的性能優(yōu)于MF方法。此外,LDA方法在大部情況下都優(yōu)于CBF方法。本文提出的方法由于考慮了用戶之間的信任關(guān)系,以及基于主題級(jí)的相似度計(jì)算,優(yōu)化了博文推薦模型,因此在推薦性能上明顯優(yōu)于傳統(tǒng)的推薦方法。
圖2 推薦方法F1值對(duì)比結(jié)果
通過(guò)以上實(shí)驗(yàn)驗(yàn)證了本文所提的微博推薦算法較傳統(tǒng)推薦算法的優(yōu)越性。下面將其與近年來(lái)在微博推薦領(lǐng)域的一些代表性研究成果在精確度和召回率指標(biāo)上進(jìn)行對(duì)比。實(shí)驗(yàn)選取如下代表性成果: 2011年,夏培勇等人[17]在個(gè)性化推薦技術(shù)中的協(xié)同過(guò)濾算法研究中,采用Pearson相似度測(cè)量方法的推薦結(jié)果,召回率為26.87%,精確度為42.39%。2013年,慕福楠等人[18]在面向微博用戶的推薦多樣性研究中,基于用戶聚類(lèi)進(jìn)行協(xié)同過(guò)濾博文推薦,最終實(shí)驗(yàn)得到的召回率為66.70%,精確度為80.00%。2013年,蔣超等人[19]基于用戶聚類(lèi)和語(yǔ)義詞典進(jìn)行協(xié)同過(guò)濾的博文推薦,最終推薦的平均召回率為31.70%,精確度為84.50%。2014年,He等人[20]提出了基于K-means文本聚類(lèi)算法的個(gè)性化新浪博文及時(shí)推薦模型,最終推薦的平均召回率為76.73%,精確度為87.50%。而本文的推薦方法得到的平均召回率為79.83%,精確度為89.92%,實(shí)驗(yàn)結(jié)果如表2所示。
表2 研究對(duì)比結(jié)果
微博是一類(lèi)典型的社交網(wǎng)絡(luò)服務(wù),它體現(xiàn)了當(dāng)前社交網(wǎng)絡(luò)服務(wù)的海量性、實(shí)時(shí)性和個(gè)性化等特點(diǎn)。因此,在微博系統(tǒng)上提供個(gè)性化服務(wù)是一個(gè)非常有挑戰(zhàn)的任務(wù)。本文提出一個(gè)結(jié)合信任度、社會(huì)親密度和流行度等因素實(shí)現(xiàn)個(gè)性化的博文推薦機(jī)制,并且闡述了如何將推薦機(jī)制應(yīng)用于在線微博系統(tǒng)——Wretch。實(shí)驗(yàn)研究表明,本文提出的組合機(jī)制可以產(chǎn)生最高的推薦精度。在顯式和隱式鏈接都被考慮的微博社交網(wǎng)絡(luò)中,信任模型是用來(lái)測(cè)量目標(biāo)的可信度和可靠性,社會(huì)關(guān)系用來(lái)顯示社會(huì)行為的親密性和相似性。最后,我們利用真實(shí)數(shù)據(jù)驗(yàn)證實(shí)時(shí)個(gè)性化微博推薦方法的有效性和高效性。
[1] Busch M, Gade K, Larson B, et al. Earlybird: Real-Time Search at Twitter[J]. 2012, 41(4): 1360-1369.
[2] Chen C, Li F, Ooi B C, et al. TI: an efficient indexing mechanism for real-time search on tweets.[C]// Proceeding of ACM SIGMOD International Conference on Management of Data, SIGMOD 2011, Athens, Greece, June. 2011: 649-660.
[3] Gao M, Jin C, Qian W, et al. Real-Time Search over a Microblogging System[C]// Proceeding of International Conference on Cloud & Green Computing. 2012: 352-359.
[4] Liu K M, Chen W, Bu J J, et al. User Modeling for Recommendation in Blogspace[C]// Proceeding of Ieee/wic/acm International Conferences on Web Intelligence and Intelligent Agent Technology Workshops. IEEE, 2007: 79-82.
[5] Ray S K, Singh S. Blog content based recommendation framework using WordNet and multiple Ontologies[C]// Proceeding of International Conference on Next Generation Web Services Practices. 2010: 432-437.
[6] Liu D R, Tsai P Y, Chiu P H. Personalized recommendation of popular blog articles for mobile applications[J]. Information Sciences, 2011, 181(9): 1552-1572.
[7] 丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2014, 51(4): 691-706.
[8] Deldjoo Y, Elahi M, Quadrana M, et al. Toward Effective Movie Recommendations Based on Mise-en-Scène Film Styles[C]// Proceedings of the Chitaly Bi Conference on Italian Sigchi Chapter. 2015: 162-165.
[9] Jonathan G, Thomas S, Maryam R, et al. Adapting K-Nearest Neighbor for Tag Recommendation in Folksonomies.[C]// Proceedings of the 7th Workshop on Zutelligent Techniques for Web Personalization & Recommeuder Systems (ITwp’09), California, USA, 2009.
[10] Shin D, Cetintas S, Lee K C, et al. Tumblr Blog Recommendation with Boosted Inductive Matrix Completion[C]// Proceeding of the 24th ACM International Conference on Informetion and Knowledge Managment (CIKM’15), 2015: 203-212.
[11] K. Fujimura, M. Sugisaki. TheeingenRumer algorithm for ranking blogs[C]//Proceeding of the WWW 2005 of the workshop on the weblogging. 2005: 331-342.
[12] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
[13] J.M. Keinberg. Authoritative sources in hyperlinked environment[C]// Proceedings of the ninth annual ACM-SIAM symposium on discrete algorithms. 1999: 231-240.
[14] S.Brin, L.Page. The anatomy of a large-scale hypertextural web search engine[C]// Proceedings of seventh international World Wide Web conference,1998: 118-129.
[15] Ruslan Salakhutdinov, Andriy Mnih. Probabilistic Matrix Factorization[J]. Advances in Neural Information Processing Systems, 2007: 1257-1264.
[16] Xia J B. Template matching algorithm based on gradient search[C]// Proceedings of International Conference on Mechatronics and Control. IEEE, 2014: 1472-1475.
[17] 夏培勇.個(gè)性化推薦技術(shù)中的協(xié)同過(guò)濾算法研究[D].中國(guó)海洋大學(xué)博士學(xué)位論文,2011.
[18] 慕福楠.面向微博用戶的推薦多樣性研究[D].哈爾濱工業(yè)大學(xué)碩士學(xué)位論文,2013.
[19] 蔣超.基于用戶聚類(lèi)和語(yǔ)義詞典的微博推薦系統(tǒng)[D].浙江大學(xué)碩士學(xué)位論文,2013.
[20] He Y, Tan J. Study on SINA micro-blog personalized recommendation based on semantic network[J]. Expert Systems with Applications, 2015, 42(10): 4797-4804.
Microblog Recommendation by Trust and Social Relationship
LI Hui1,2, MA Xiaoping2, SHI Jun1, ZHONG Zhaoman1, CAI Hong1,3
(1. Department of Computer Science, Huaihai Institute of Technology, Lianyungang, Jiangsu 222002, China;2. School of Information & Electrical Engineering, China University of Mining &Technology, Xuzhou, Jiangsu 221008, China;3. Jiangsu Marine Resources Development Research Institute, Lianyungang, Jiangsu 222002, China)
Due to the rapid growth of microblogs, bloggers are facing difficulties in locating the microblogs they are interested. To deal with this information overload, various approaches including messages filtering, recommendation and searching have been investigated. Focusing on recommending bloggers or microblog posts by the trust model and the social relationship, this paper applies LDA topic model and Matrix Factorization to infer the topic distribution of microblogs and the user interest. According to the experimental results, the proposed method can effectively solve the personalized recommendation of microblog.
trust; social networks; matrix factorization; blog; LDA
李慧(1979—),博士研究生,副教授,主要研究領(lǐng)域?yàn)橹悄苄畔⑻幚恚鐣?huì)網(wǎng)絡(luò)分析,計(jì)算機(jī)技術(shù)及應(yīng)用。E?mail:shufanzs@126.com馬小平(1961—),教授,博士,主要研究領(lǐng)域?yàn)榭刂评碚摷皯?yīng)用,計(jì)算機(jī)技術(shù)及應(yīng)用。E?mail:xpma@cumt.edu.cn施珺(1963—),教授,碩士,主要研究領(lǐng)域?yàn)榻逃畔⒒?,智能信息處理。E?mail:sj_lfg@hotmail.com
2014-12-15 定稿日期: 2015-09-12
國(guó)家自然科學(xué)基金(61403156,61403155);江蘇省科技項(xiàng)目(BN2016065);江蘇省海資院開(kāi)放課題(JSIMR201403);連云港市科技計(jì)劃項(xiàng)目(SH1507,CXY1530,CK1503,NYYQ1620);淮海工學(xué)院自然科學(xué)基金資助(Z2014007,Z2014012)
1003-0077(2017)02-0146-08
TP391
A