亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于鄰域用戶模型的主題推薦研究

2017-12-29 03:03:55余福茂胡亞蘭

生產(chǎn)力研究 2017年11期

關(guān)鍵詞：鄰域好友本體

余福茂，胡亞蘭，林娜

（杭州電子科技大學(xué) 管理學(xué)院，浙江杭州 310018）

基于鄰域用戶模型的主題推薦研究

余福茂，胡亞蘭，林娜

（杭州電子科技大學(xué) 管理學(xué)院，浙江杭州 310018）

傳統(tǒng)的基于用戶興趣主題的主題推薦中，由于數(shù)據(jù)的稀疏性以及對鄰域好友之間的影響作用考慮不夠深入，推薦的效果不佳。為了豐富目標(biāo)用戶的興趣集，文章在基于本體的基本用戶模型之上，引入鄰域用戶興趣集，計算更新鄰域主題興趣度，根據(jù)獲取的目標(biāo)用戶興趣主題集來進行主題的匹配推薦。最后通過兩個不同的數(shù)據(jù)集對模型進行推薦效果驗證，結(jié)論表明文章所提出的用戶模型的推薦效果是明顯要優(yōu)于傳統(tǒng)用戶模型。

用戶模型；本體；鄰域用戶模型；協(xié)同過濾

一、基于微博社交的廣告推薦現(xiàn)狀

當(dāng)前，利用知名社交平臺的流量數(shù)據(jù)建立用戶模型，實現(xiàn)對用戶興趣主題的預(yù)測是當(dāng)下數(shù)據(jù)挖掘領(lǐng)域的一個研究熱點。預(yù)測用戶興趣主題的關(guān)鍵是要獲取精確的用戶特征。建立用戶模型是近年來常用的獲取精確用戶特征的主要方法之一。目前國內(nèi)外關(guān)于用戶模型的研究取得了一定的成果。宋雯斐等人[1]結(jié)合情景信息建立動態(tài)語義用戶模型，并將模型應(yīng)用到個性化圖書館服務(wù)推薦中去。Tao等[2]綜合考量了個體和全局知識庫，建立個性化的本體用戶模型，最后通過與基準(zhǔn)模型對比數(shù)據(jù)表明，本體模型存在一定的優(yōu)勢。由于微博內(nèi)容的隨意性、更新的頻率高，廣告推薦往往會碰到數(shù)據(jù)稀疏性、冷啟動等問題。國內(nèi)外的學(xué)者針對這兩個問題代表性解決方式有Moussa[3]等在用戶意向挖掘中加入了年齡、性別等情景因素來解決數(shù)據(jù)稀疏性等問題，最終實驗表明論文中提出的算法提高了21%的精確度。G Piao[4]等重復(fù)利用谷歌的配置文件，在Twitter用戶模型的構(gòu)建上解決冷啟動問題。以及趙軍[5]等使用稀疏和低秩矩陣補全理論對稀疏的用戶——項目矩陣進行填充。上述的研究成果中，雖然多數(shù)研究者已經(jīng)關(guān)注到了用戶與鄰域好友之間的關(guān)系，但在本文的研究平臺微博中，用戶之間通過互動，形成了大量的傳播數(shù)據(jù)信息。在這樣一個龐大的社交網(wǎng)絡(luò)中，用戶的興趣偏好等必然會受到群體智慧的影響。而以上研究首先對群體智慧影響作用的研究不太關(guān)注。其次在對鄰域好友之間的關(guān)系的定位時，以往的研究多數(shù)是從用戶相似性的單一維度出發(fā)，這樣會導(dǎo)致推薦效果不佳。

二、基于鄰域用戶模型的主題推薦方法

（一）基本用戶模型

用戶模型是對用戶的興趣度的一個度量的模型，主要由兩部分構(gòu)成，第一部分是興趣主題詞，并且對主題詞的重要度進行量化的計算，得出用戶的主題興趣度，即內(nèi)容興趣度；第二部分是主題詞的專業(yè)程度，專業(yè)覆蓋度。內(nèi)容興趣度是在主題分類和提取的基礎(chǔ)上，用量化的方法將用戶所感興趣的內(nèi)容抽象成為權(quán)重最后得出用戶在主題上的興趣度。關(guān)于主題的提取與劃分，國內(nèi)外學(xué)者多數(shù)采用的是機器學(xué)習(xí)中的分類方法。A Kamal[6]等設(shè)計一種本體學(xué)習(xí)和情感分析系統(tǒng)的本體學(xué)習(xí)和情感分析的使用規(guī)則和機器學(xué)習(xí)的方法為意見挖掘和情感分析做準(zhǔn)備。本文的主題詞提取一方面依靠ICTCLAS3.0系統(tǒng)對微博內(nèi)容進行特征詞提取，另一方面根據(jù)搜集到的微博數(shù)據(jù)來進行人工修正與更新，以保證分類的精確性。而主題的重要程度主要由主題權(quán)重和逆文檔頻率兩部分構(gòu)成。

微博主題的提取與劃分，首先需要對文檔的相似度進行計算，由于余弦距離度量方法主要關(guān)注對象之間方向上的差異，更適合用來評估用戶的興趣的相似度和差異，因此本文主要采用余弦相似度。另外，目前對于主題興趣的分類的一種很主要的方式就是通過本體結(jié)合行業(yè)的領(lǐng)域知識來進行領(lǐng)域本體分類。例如范云杰[7]利用危機百科的分類結(jié)合本體學(xué)習(xí)方法，對中文文本中的短文本進行特征分類。

微博內(nèi)容的興趣度的表示一方面需要對微博主題的提取與分類，另一方面還需要主題在微博內(nèi)容中的重要程度。我們表示出主題詞t在微博M的相對重要度=詞頻重要度*逆文檔頻率。根據(jù)主題的劃分以及主題在文檔中的相對權(quán)重，我們能夠?qū)⒂脩鬽在主題S上的內(nèi)容興趣度表示為cidu（s）。呂歡歡、宋偉東[8]等在對領(lǐng)域本體的相似度計算的過程中指出：在本體結(jié)構(gòu)中，越是細(xì)分的下層概念，其含義是更加具體的，而上層的概念則是更加抽象的，因此把本體分類概念的深度也加入領(lǐng)域本體的相似度計算中。本文的用戶模型中，也考慮了用戶的領(lǐng)域?qū)I(yè)深度。

在前文中我們有提到予以分類樹中的父節(jié)點具有抽象性強解釋性弱的特點，而越是靠近下層的子節(jié)點的概念解釋性更強，因此葉節(jié)點的語義解釋性更強，我們把這種關(guān)系用參數(shù)&的值來定義，當(dāng)&＞1，表示上述的關(guān)系成立。而水平方向上的語義解釋度我們用log來表示。根據(jù)語義覆蓋度，我們可以把用戶m對主題S的語義解釋性表示為sidu（s）。在獲取了用戶內(nèi)容興趣度以及語義解釋性之后，我們可以將基本的用戶模型表示為Iu（s）。

（二）鄰域用戶模型

由于微博內(nèi)容的隨意性、更新的頻率高以及存在巨大的交互資源等特點，若只是針對目標(biāo)用戶個人的微博內(nèi)容所提取出來的用戶興趣模型往往是不夠全面的。潘以鋒、盛小平[9]在研究開放獲取指導(dǎo)的過程中提出，社交關(guān)系之間的強關(guān)系與弱關(guān)系的概念。微博作為一個和大型的虛擬社區(qū)，其用戶之間的關(guān)系也有強弱之分。因此在尋找目標(biāo)用戶的鄰域好友的過程中，首先要對用戶之間的鄰域關(guān)系進行計算。本文中對鄰域關(guān)系的計算主要包括兩個方面，資源認(rèn)知與關(guān)注認(rèn)知。記o（u，m）=1為用戶 u 發(fā)布的微博 m，Mu={mj|o（u，m）=1}為與用戶u相關(guān)的微博的集合。記Fu為用戶u關(guān)注的用戶集合，分別為用戶、關(guān)注的好友集合對應(yīng)的基數(shù)，那么可將資源認(rèn)知和關(guān)注關(guān)系認(rèn)知關(guān)系記為：

最后根據(jù)兩種類型的認(rèn)知關(guān)系，通過分配權(quán)重η得到用戶 ui與 uj之間的綜合認(rèn)知度，，在上述的用戶之間的認(rèn)知度公式中，資源認(rèn)知與關(guān)注認(rèn)知之間的權(quán)衡是通過設(shè)置參數(shù)來實現(xiàn)的。在用戶認(rèn)知度的基礎(chǔ)上可以得到用戶的鄰域好友集合，記為：Nui={uj|Rij≥σ}，其中σ是閾值參數(shù)，通過設(shè)置不同的閾值σ，可以得到用戶的不同的鄰域。Nui表示了用戶ui所關(guān)注的好友鄰域集合，該集合對用戶的潛在興趣有間接的影響作用。通過將該鄰域用戶的用戶模型進行去重合并，就能得到用戶ui的鄰域用戶模型。更新后的興趣度為：

三、實驗評估

（一）評價指標(biāo)

我們選取精度（P），召回率（R）作為評價指標(biāo)對鄰域用戶模型和傳統(tǒng)模型以及CF推薦的效果進行比較。其公式可表示為：

其中Sτ是根據(jù)目標(biāo)用戶自己的微博提取出來的興趣主題的集合，SR是根據(jù)目標(biāo)用戶的鄰域好友的微博提取出來的興趣主題集。

（二）數(shù)據(jù)描述

本文的數(shù)據(jù)來自于NLPIR以及微博開放平臺數(shù)據(jù)集。由于本文只針對個人用戶的興趣特征進行廣告推薦，故在數(shù)據(jù)預(yù)處理的過程中，刪除了企業(yè)用戶以保證推薦的有效性。本文分別在體育經(jīng)濟文化IT四個領(lǐng)域上探究用戶的興趣特征。具體的數(shù)據(jù)集構(gòu)成如表1所示。

表1 數(shù)據(jù)集統(tǒng)計表

從表1可以看出，北京理工數(shù)據(jù)集相對于微博開放數(shù)據(jù)集來說，用戶之間的關(guān)注關(guān)系不那么明顯。

（三）推薦評估

在前文中我們提到，在獲取用戶的鄰域興趣主題集時，參數(shù)α代表認(rèn)知關(guān)系中的資源認(rèn)識與關(guān)注認(rèn)知之間的比例，參數(shù)δ是用來獲取目標(biāo)用戶的不同大小的鄰域。由于本文中所涉及到的兩個數(shù)據(jù)集的特征不同，故本文首先對用戶關(guān)注關(guān)系不明顯的北京理工的數(shù)據(jù)集設(shè)置參數(shù)δ=0.1，對用戶關(guān)注關(guān)系更密集的微博開放數(shù)據(jù)集設(shè)置參數(shù)δ=0.3，兩個數(shù)據(jù)集的α值都設(shè)置為0.5進行比較。這是因為當(dāng)用戶之間的關(guān)注關(guān)系不那么明顯時，若δ的值太大，得到的鄰域用戶的范圍也會增大，導(dǎo)致推薦給了目標(biāo)用戶并不感興趣的微博廣告。

圖1 北理數(shù)據(jù)集：α=0.5，δ=0.1時，鄰域用戶、協(xié)同過濾以及孤立用戶模型的精度與召回率

圖2 微博數(shù)據(jù)集：α=0.5，δ=0.3時，鄰域用戶、協(xié)同過濾以及孤立用戶模型的精度與召回率

從圖1和圖2可以看出，本文提出的鄰域用戶模型無論是在精度和召回率維度來說都是要優(yōu)于協(xié)同過濾、孤立用戶模型。因為對多數(shù)用戶來說，他們更傾向于接受其鄰域內(nèi)的好友用戶所感興趣的興趣主題。在北京理工數(shù)據(jù)集上，隨著推薦主題數(shù)K的增加，鄰域用戶模型的精度的召回率越來越接近協(xié)同過濾，這是因為北京理工數(shù)據(jù)集中，用戶之間的關(guān)注關(guān)系弱，這樣的數(shù)據(jù)集中即時加入了鄰域好友的興趣主題，有效的推薦主題也是較少的，最終的推薦結(jié)果中不相關(guān)的主題比例會越來越大。

鄰域用戶模型的推薦性能直接受用戶的社交水平的影響，不善于社交的目標(biāo)用戶，關(guān)注的用戶數(shù)量少，這種情況下，想要獲得足夠的鄰域用戶集合都是很困難的，推薦的主題稀缺會直接導(dǎo)致推薦效果大打折扣；而社交能力太強的用戶，關(guān)注的好友數(shù)量大，這種情況下，鄰域用戶集合中，存在較多的數(shù)據(jù)冗余，導(dǎo)致推薦的興趣主題過多，不能集中到目標(biāo)用戶真正關(guān)心的興趣主題上，推薦效果不理想。

（四）結(jié)論

本文在總結(jié)主題推薦問題中缺少對用戶之間興趣的相互影響作用等問題的思考，提出了基于鄰域用戶的主題推薦模型。實驗證明該模型在精準(zhǔn)度和召回率兩個方面都要優(yōu)于孤立用戶模型和協(xié)同過濾模型。另外對于不同的數(shù)據(jù)集，用戶之間的關(guān)注關(guān)系不一致，可能影響推薦的效果，若要提高推薦有效性，需要選擇合適的鄰域范圍、資源認(rèn)知與關(guān)注認(rèn)知比例以及推薦主題的個數(shù)。

[1]宋雯斐，邢紅剛，魯揚，2013.基于層次語義情景的用戶模型構(gòu)建[J].情報科學(xué)（6）：24-27.

[2]Tao X，Li Y，Zhong N.A Personalized Ontology Model for Web Information Gathering[J].IEEE Transactions on Knowledge&Data Engineering，2011，23（4）：496-511.

[3]Moussa S.An Approach for Opinion-Demographic-Topology Based Microblog Friend Recommendation[C].Cham：Springer International Publishing，2017：815-824.

[4]Piao G，Breslin J G.Analyzing Aggregated Semantics-enabled User Modelingon Google+and Twitter for Personalized Link Recommendations[C].ACM，2016：105-109.

[5]趙軍，王紅，殷方勇.一種面向稀疏和虛假評分的協(xié)同推薦方法[J].小型微型計算機系統(tǒng)，2017，38（3）：472-477.

[6]Kamal A，Abulaish M，Jahiruddin.OntoLSA-An Integrated Text Mining Systemfor OntologyLearningand Sentiment Analysis[C].Cham：Springer International Publishing，2016：399-423.

[7]范云杰，劉懷亮，2012.基于維基百科的中文短文本分類研究[J].現(xiàn)代圖書情報技術(shù)（3）：47-52.

[8]呂歡歡，宋偉東，楊睿.基于領(lǐng)域本體的綜合加權(quán)語義相似度算法研究[J].計算機工程與設(shè)計，2013，34（12）：4209-4213.

[9]潘以鋒，盛小平.社會網(wǎng)絡(luò)理論與開放獲取的關(guān)系分析[J].情報理論與實踐，2013，36（6）：21-26.

F062.5

1004-2768（2017）11-0108-04

2017-08-07

國家自然科學(xué)基金“電子廢棄物回收處理系統(tǒng)的多主體協(xié)同演化機理及政策研究”（71373064）

余福茂（1975-），男，山西應(yīng)縣人，博士，杭州電子科技大學(xué)管理學(xué)院教授，研究方向：信息技術(shù)與管理；胡亞蘭（1992-），女，四川瀘州人，杭州電子科技大學(xué)管理學(xué)院碩士研究生，研究方向：信息技術(shù)與管理、數(shù)據(jù)挖掘；林娜（1994-），女，江西上饒人，杭州電子科技大學(xué)管理學(xué)院碩士研究生，研究方向：信息技術(shù)與管理、數(shù)據(jù)挖掘。胡亞蘭為通訊作者。

C 校對：T）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于鄰域用戶模型的主題推薦研究

一、基于微博社交的廣告推薦現(xiàn)狀

二、基于鄰域用戶模型的主題推薦方法

（一）基本用戶模型

（二）鄰域用戶模型

三、實驗評估

（一）評價指標(biāo)

（二）數(shù)據(jù)描述

（三）推薦評估

（四）結(jié)論

一、基于微博社交的廣告推薦現(xiàn)狀

三、實驗評估