余福茂,胡亞蘭,林 娜
(杭州電子科技大學(xué) 管理學(xué)院,浙江 杭州 310018)
基于鄰域用戶模型的主題推薦研究
余福茂,胡亞蘭,林 娜
(杭州電子科技大學(xué) 管理學(xué)院,浙江 杭州 310018)
傳統(tǒng)的基于用戶興趣主題的主題推薦中,由于數(shù)據(jù)的稀疏性以及對鄰域好友之間的影響作用考慮不夠深入,推薦的效果不佳。為了豐富目標(biāo)用戶的興趣集,文章在基于本體的基本用戶模型之上,引入鄰域用戶興趣集,計算更新鄰域主題興趣度,根據(jù)獲取的目標(biāo)用戶興趣主題集來進行主題的匹配推薦。最后通過兩個不同的數(shù)據(jù)集對模型進行推薦效果驗證,結(jié)論表明文章所提出的用戶模型的推薦效果是明顯要優(yōu)于傳統(tǒng)用戶模型。
用戶模型;本體;鄰域用戶模型;協(xié)同過濾
當(dāng)前,利用知名社交平臺的流量數(shù)據(jù)建立用戶模型,實現(xiàn)對用戶興趣主題的預(yù)測是當(dāng)下數(shù)據(jù)挖掘領(lǐng)域的一個研究熱點。預(yù)測用戶興趣主題的關(guān)鍵是要獲取精確的用戶特征。建立用戶模型是近年來常用的獲取精確用戶特征的主要方法之一。目前國內(nèi)外關(guān)于用戶模型的研究取得了一定的成果。宋雯斐等人[1]結(jié)合情景信息建立動態(tài)語義用戶模型,并將模型應(yīng)用到個性化圖書館服務(wù)推薦中去。Tao等[2]綜合考量了個體和全局知識庫,建立個性化的本體用戶模型,最后通過與基準(zhǔn)模型對比數(shù)據(jù)表明,本體模型存在一定的優(yōu)勢。由于微博內(nèi)容的隨意性、更新的頻率高,廣告推薦往往會碰到數(shù)據(jù)稀疏性、冷啟動等問題。國內(nèi)外的學(xué)者針對這兩個問題代表性解決方式有Moussa[3]等在用戶意向挖掘中加入了年齡、性別等情景因素來解決數(shù)據(jù)稀疏性等問題,最終實驗表明論文中提出的算法提高了21%的精確度。G Piao[4]等重復(fù)利用谷歌的配置文件,在Twitter用戶模型的構(gòu)建上解決冷啟動問題。以及趙軍[5]等使用稀疏和低秩矩陣補全理論對稀疏的用戶——項目矩陣進行填充。上述的研究成果中,雖然多數(shù)研究者已經(jīng)關(guān)注到了用戶與鄰域好友之間的關(guān)系,但在本文的研究平臺微博中,用戶之間通過互動,形成了大量的傳播數(shù)據(jù)信息。在這樣一個龐大的社交網(wǎng)絡(luò)中,用戶的興趣偏好等必然會受到群體智慧的影響。而以上研究首先對群體智慧影響作用的研究不太關(guān)注。其次在對鄰域好友之間的關(guān)系的定位時,以往的研究多數(shù)是從用戶相似性的單一維度出發(fā),這樣會導(dǎo)致推薦效果不佳。
用戶模型是對用戶的興趣度的一個度量的模型,主要由兩部分構(gòu)成,第一部分是興趣主題詞,并且對主題詞的重要度進行量化的計算,得出用戶的主題興趣度,即內(nèi)容興趣度;第二部分是主題詞的專業(yè)程度,專業(yè)覆蓋度。內(nèi)容興趣度是在主題分類和提取的基礎(chǔ)上,用量化的方法將用戶所感興趣的內(nèi)容抽象成為權(quán)重最后得出用戶在主題上的興趣度。關(guān)于主題的提取與劃分,國內(nèi)外學(xué)者多數(shù)采用的是機器學(xué)習(xí)中的分類方法。A Kamal[6]等設(shè)計一種本體學(xué)習(xí)和情感分析系統(tǒng)的本體學(xué)習(xí)和情感分析的使用規(guī)則和機器學(xué)習(xí)的方法為意見挖掘和情感分析做準(zhǔn)備。本文的主題詞提取一方面依靠ICTCLAS3.0系統(tǒng)對微博內(nèi)容進行特征詞提取,另一方面根據(jù)搜集到的微博數(shù)據(jù)來進行人工修正與更新,以保證分類的精確性。而主題的重要程度主要由主題權(quán)重和逆文檔頻率兩部分構(gòu)成。
微博主題的提取與劃分,首先需要對文檔的相似度進行計算,由于余弦距離度量方法主要關(guān)注對象之間方向上的差異,更適合用來評估用戶的興趣的相似度和差異,因此本文主要采用余弦相似度。另外,目前對于主題興趣的分類的一種很主要的方式就是通過本體結(jié)合行業(yè)的領(lǐng)域知識來進行領(lǐng)域本體分類。例如范云杰[7]利用危機百科的分類結(jié)合本體學(xué)習(xí)方法,對中文文本中的短文本進行特征分類。
微博內(nèi)容的興趣度的表示一方面需要對微博主題的提取與分類,另一方面還需要主題在微博內(nèi)容中的重要程度。我們表示出主題詞t在微博M的相對重要度=詞頻重要度*逆文檔頻率。根據(jù)主題的劃分以及主題在文檔中的相對權(quán)重,我們能夠?qū)⒂脩鬽在主題S上的內(nèi)容興趣度表示為cidu(s)。呂歡歡、宋偉東[8]等在對領(lǐng)域本體的相似度計算的過程中指出:在本體結(jié)構(gòu)中,越是細(xì)分的下層概念,其含義是更加具體的,而上層的概念則是更加抽象的,因此把本體分類概念的深度也加入領(lǐng)域本體的相似度計算中。本文的用戶模型中,也考慮了用戶的領(lǐng)域?qū)I(yè)深度。
在前文中我們有提到予以分類樹中的父節(jié)點具有抽象性強解釋性弱的特點,而越是靠近下層的子節(jié)點的概念解釋性更強,因此葉節(jié)點的語義解釋性更強,我們把這種關(guān)系用參數(shù)&的值來定義,當(dāng)&>1,表示上述的關(guān)系成立。而水平方向上的語義解釋度我們用log來表示。根據(jù)語義覆蓋度,我們可以把用戶m對主題S的語義解釋性表示為sidu(s)。在獲取了用戶內(nèi)容興趣度以及語義解釋性之后,我們可以將基本的用戶模型表示為Iu(s)。
由于微博內(nèi)容的隨意性、更新的頻率高以及存在巨大的交互資源等特點,若只是針對目標(biāo)用戶個人的微博內(nèi)容所提取出來的用戶興趣模型往往是不夠全面的。潘以鋒、盛小平[9]在研究開放獲取指導(dǎo)的過程中提出,社交關(guān)系之間的強關(guān)系與弱關(guān)系的概念。微博作為一個和大型的虛擬社區(qū),其用戶之間的關(guān)系也有強弱之分。因此在尋找目標(biāo)用戶的鄰域好友的過程中,首先要對用戶之間的鄰域關(guān)系進行計算。本文中對鄰域關(guān)系的計算主要包括兩個方面,資源認(rèn)知與關(guān)注認(rèn)知。記o(u,m)=1為用戶 u 發(fā)布的微博 m,Mu={mj|o(u,m)=1}為與用戶u相關(guān)的微博的集合。記Fu為用戶u關(guān)注的用戶集合,分別為用戶、關(guān)注的好友集合對應(yīng)的基數(shù),那么可將資源認(rèn)知和關(guān)注關(guān)系認(rèn)知關(guān)系記為:
最后根據(jù)兩種類型的認(rèn)知關(guān)系,通過分配權(quán)重η得到用戶 ui與 uj之間的綜合認(rèn)知度,,在上述的用戶之間的認(rèn)知度公式中,資源認(rèn)知與關(guān)注認(rèn)知之間的權(quán)衡是通過設(shè)置參數(shù)來實現(xiàn)的。在用戶認(rèn)知度的基礎(chǔ)上可以得到用戶的鄰域好友集合,記為:Nui={uj|Rij≥σ},其中σ是閾值參數(shù),通過設(shè)置不同的閾值σ,可以得到用戶的不同的鄰域。Nui表示了用戶ui所關(guān)注的好友鄰域集合,該集合對用戶的潛在興趣有間接的影響作用。通過將該鄰域用戶的用戶模型進行去重合并,就能得到用戶ui的鄰域用戶模型。更新后的興趣度為:
我們選取精度(P),召回率(R)作為評價指標(biāo)對鄰域用戶模型和傳統(tǒng)模型以及CF推薦的效果進行比較。其公式可表示為:
其中Sτ是根據(jù)目標(biāo)用戶自己的微博提取出來的興趣主題的集合,SR是根據(jù)目標(biāo)用戶的鄰域好友的微博提取出來的興趣主題集。
本文的數(shù)據(jù)來自于NLPIR以及微博開放平臺數(shù)據(jù)集。由于本文只針對個人用戶的興趣特征進行廣告推薦,故在數(shù)據(jù)預(yù)處理的過程中,刪除了企業(yè)用戶以保證推薦的有效性。本文分別在體育經(jīng)濟文化IT四個領(lǐng)域上探究用戶的興趣特征。具體的數(shù)據(jù)集構(gòu)成如表1所示。
表1 數(shù)據(jù)集統(tǒng)計表
從表1可以看出,北京理工數(shù)據(jù)集相對于微博開放數(shù)據(jù)集來說,用戶之間的關(guān)注關(guān)系不那么明顯。
在前文中我們提到,在獲取用戶的鄰域興趣主題集時,參數(shù)α代表認(rèn)知關(guān)系中的資源認(rèn)識與關(guān)注認(rèn)知之間的比例,參數(shù)δ是用來獲取目標(biāo)用戶的不同大小的鄰域。由于本文中所涉及到的兩個數(shù)據(jù)集的特征不同,故本文首先對用戶關(guān)注關(guān)系不明顯的北京理工的數(shù)據(jù)集設(shè)置參數(shù)δ=0.1,對用戶關(guān)注關(guān)系更密集的微博開放數(shù)據(jù)集設(shè)置參數(shù)δ=0.3,兩個數(shù)據(jù)集的α值都設(shè)置為0.5進行比較。這是因為當(dāng)用戶之間的關(guān)注關(guān)系不那么明顯時,若δ的值太大,得到的鄰域用戶的范圍也會增大,導(dǎo)致推薦給了目標(biāo)用戶并不感興趣的微博廣告。
圖1 北理數(shù)據(jù)集:α=0.5,δ=0.1時,鄰域用戶、協(xié)同過濾以及孤立用戶模型的精度與召回率
圖2 微博數(shù)據(jù)集:α=0.5,δ=0.3時,鄰域用戶、協(xié)同過濾以及孤立用戶模型的精度與召回率
從圖1和圖2可以看出,本文提出的鄰域用戶模型無論是在精度和召回率維度來說都是要優(yōu)于協(xié)同過濾、孤立用戶模型。因為對多數(shù)用戶來說,他們更傾向于接受其鄰域內(nèi)的好友用戶所感興趣的興趣主題。在北京理工數(shù)據(jù)集上,隨著推薦主題數(shù)K的增加,鄰域用戶模型的精度的召回率越來越接近協(xié)同過濾,這是因為北京理工數(shù)據(jù)集中,用戶之間的關(guān)注關(guān)系弱,這樣的數(shù)據(jù)集中即時加入了鄰域好友的興趣主題,有效的推薦主題也是較少的,最終的推薦結(jié)果中不相關(guān)的主題比例會越來越大。
鄰域用戶模型的推薦性能直接受用戶的社交水平的影響,不善于社交的目標(biāo)用戶,關(guān)注的用戶數(shù)量少,這種情況下,想要獲得足夠的鄰域用戶集合都是很困難的,推薦的主題稀缺會直接導(dǎo)致推薦效果大打折扣;而社交能力太強的用戶,關(guān)注的好友數(shù)量大,這種情況下,鄰域用戶集合中,存在較多的數(shù)據(jù)冗余,導(dǎo)致推薦的興趣主題過多,不能集中到目標(biāo)用戶真正關(guān)心的興趣主題上,推薦效果不理想。
本文在總結(jié)主題推薦問題中缺少對用戶之間興趣的相互影響作用等問題的思考,提出了基于鄰域用戶的主題推薦模型。實驗證明該模型在精準(zhǔn)度和召回率兩個方面都要優(yōu)于孤立用戶模型和協(xié)同過濾模型。另外對于不同的數(shù)據(jù)集,用戶之間的關(guān)注關(guān)系不一致,可能影響推薦的效果,若要提高推薦有效性,需要選擇合適的鄰域范圍、資源認(rèn)知與關(guān)注認(rèn)知比例以及推薦主題的個數(shù)。
[1]宋雯斐,邢紅剛,魯揚,2013.基于層次語義情景的用戶模型構(gòu)建[J].情報科學(xué)(6):24-27.
[2]Tao X,Li Y,Zhong N.A Personalized Ontology Model for Web Information Gathering[J].IEEE Transactions on Knowledge&Data Engineering,2011,23(4):496-511.
[3]Moussa S.An Approach for Opinion-Demographic-Topology Based Microblog Friend Recommendation[C].Cham:Springer International Publishing,2017:815-824.
[4]Piao G,Breslin J G.Analyzing Aggregated Semantics-enabled User Modelingon Google+and Twitter for Personalized Link Recommendations[C].ACM,2016:105-109.
[5]趙軍,王紅,殷方勇.一種面向稀疏和虛假評分的協(xié)同推薦方法[J].小型微型計算機系統(tǒng),2017,38(3):472-477.
[6]Kamal A,Abulaish M,Jahiruddin.OntoLSA-An Integrated Text Mining Systemfor OntologyLearningand Sentiment Analysis[C].Cham:Springer International Publishing,2016:399-423.
[7]范云杰,劉懷亮,2012.基于維基百科的中文短文本分類研究[J].現(xiàn)代圖書情報技術(shù)(3):47-52.
[8]呂歡歡,宋偉東,楊睿.基于領(lǐng)域本體的綜合加權(quán)語義相似度算法研究[J].計算機工程與設(shè)計,2013,34(12):4209-4213.
[9]潘以鋒,盛小平.社會網(wǎng)絡(luò)理論與開放獲取的關(guān)系分析[J].情報理論與實踐,2013,36(6):21-26.
F062.5
A
1004-2768(2017)11-0108-04
2017-08-07
國家自然科學(xué)基金“電子廢棄物回收處理系統(tǒng)的多主體協(xié)同演化機理及政策研究”(71373064)
余福茂(1975-),男,山西應(yīng)縣人,博士,杭州電子科技大學(xué)管理學(xué)院教授,研究方向:信息技術(shù)與管理;胡亞蘭(1992-),女,四川瀘州人,杭州電子科技大學(xué)管理學(xué)院碩士研究生,研究方向:信息技術(shù)與管理、數(shù)據(jù)挖掘;林娜(1994-),女,江西上饒人,杭州電子科技大學(xué)管理學(xué)院碩士研究生,研究方向:信息技術(shù)與管理、數(shù)據(jù)挖掘。胡亞蘭為通訊作者。
C 校對:T)