亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種融合個性化與多樣性的人物標簽推薦方法

        2017-06-01 11:29:47熊錦華程學旗
        中文信息學報 2017年2期
        關(guān)鍵詞:融合用戶方法

        顓 悅,熊錦華,程學旗

        (1. 中國科學院計算技術(shù)研究所 中國科學院網(wǎng)絡(luò)數(shù)據(jù)科學與技術(shù)重點實驗室,北京 100190;2. 中國科學院大學,北京 100190)

        一種融合個性化與多樣性的人物標簽推薦方法

        顓 悅1,2,熊錦華1,2,程學旗1,2

        (1. 中國科學院計算技術(shù)研究所 中國科學院網(wǎng)絡(luò)數(shù)據(jù)科學與技術(shù)重點實驗室,北京 100190;2. 中國科學院大學,北京 100190)

        針對人物標簽推薦中多樣性及推薦標簽質(zhì)量問題,該文提出了一種融合個性化與多樣性的人物標簽推薦方法。該方法使用主題模型對用戶關(guān)注對象建模,通過聚類分析把具有相似言論的對象劃分到同一類簇;然后對每個類簇的標簽進行冗余處理,并選取代表性標簽;最后對不同類簇中的標簽融合排序,以獲取Top-K個標簽推薦給用戶。實驗結(jié)果表明,與已有推薦方法相比,該方法在反映用戶興趣愛好的同時,能顯著提高標簽推薦質(zhì)量和推薦結(jié)果的多樣性。

        人物標簽推薦;多樣性推薦;標簽冗余;標簽質(zhì)量

        1 引言

        隨著網(wǎng)絡(luò)的社會化屬性越來越明顯,新興的社交網(wǎng)絡(luò),如國外的Facebook、Twitter、LinkedIn,國內(nèi)的新浪微博、人人網(wǎng)等,將人們更緊密地結(jié)合在一起。據(jù)新華網(wǎng)第32次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告,截至2013年6月底,我國微博用戶已達到3.31億,比2012年底增長了2 216萬[1]。社交網(wǎng)絡(luò)已經(jīng)變?yōu)槿藗兩畹囊徊糠?,人們將各種信息發(fā)布到社交網(wǎng)絡(luò)上與朋友分享,這使得基于社交網(wǎng)絡(luò)的人物研究變得越來越重要。社交網(wǎng)絡(luò)強調(diào)以人為核心,一切活動和資源均圍繞人與人之間的互動。在這些社交網(wǎng)絡(luò)中,人們?yōu)榱吮砻髯约旱呐d趣愛好、職業(yè)特征,常常選擇一組詞匯或者短語對自身進行標注,進而將自身與一組詞匯或者短語建立聯(lián)系,這些標注詞匯或者短語通常被稱為標簽(tag)。圖1展示了新浪微博用戶“李開復(fù)”的標簽信息。

        利用用戶標注的標簽信息可以幫助解決好友推薦、社團發(fā)現(xiàn)、人物搜索等問題。為了獲取更準確的標簽,許多網(wǎng)絡(luò)服務(wù)提供了標簽推薦的功能,來幫助用戶進行標簽標注。實際上,在社會化標簽系統(tǒng)中的標簽推薦已經(jīng)有許多研究,例如,網(wǎng)頁標簽網(wǎng)站Delicious為網(wǎng)頁增加標簽、論文書簽網(wǎng)站CiteULike為論文增加標簽、音樂網(wǎng)站Last.fm對音樂增加標簽。目前,社會化標簽系統(tǒng)中的標簽推薦方法主要包括: (1)基于內(nèi)容的標簽推薦技術(shù)[2-5],主要利用標注資源內(nèi)容特征進行標簽推薦; (2)基于關(guān)系圖的標簽推薦技術(shù)[6-12],主要利用社會化標簽系統(tǒng)中的三元組關(guān)系進行標簽推薦。由于社交網(wǎng)絡(luò)中的人物標簽和社會化標簽的標注資源、標注目的及標注模型都有很大的區(qū)別,因此社會標簽中關(guān)于標簽推薦的相關(guān)工作不適用于社交網(wǎng)絡(luò)中人物標簽推薦。

        圖1 新浪微博用戶李開復(fù)的標簽信息

        2 相關(guān)工作

        隨著社交網(wǎng)絡(luò)的發(fā)展,人物標簽推薦慢慢引起人們的注意。目前,人物標簽的推薦方法主要分為兩類: 基于社交關(guān)系的標簽推薦和基于微博內(nèi)容的標簽推薦。

        2.1 基于社交關(guān)系的標簽推薦

        Lappas等人[13]利用社交網(wǎng)絡(luò)中的關(guān)注關(guān)系建立社會支持網(wǎng)絡(luò)(social endorsement networks)來挖掘Twitter人物標簽。作者認為用戶具有多個不同方面的興趣特征,用戶粉絲根據(jù)用戶某一方面興趣特征而關(guān)注了他,因此用戶的粉絲特征能夠反映出用戶不同方面的興趣愛好。例如,Twitter用戶Lance Armstrong的粉絲群體分別因為Cycling、Charity和Cancer Awareness等標簽特征而關(guān)注他。文章中,作者首先獲取用戶的粉絲發(fā)布的微博消息并進行預(yù)處理,然后使用改進的主題模型進行人物標簽推薦。

        陳淵等人[14]對用戶的關(guān)注人數(shù)、粉絲數(shù)和發(fā)布的微博數(shù)為標準對用戶信息進行分析,認為用戶關(guān)注的對象是比用戶粉絲更能反映出用戶感興趣的話題。由此,使用用戶關(guān)注對象的標簽推薦給用戶,并把用戶粉絲作為關(guān)注對象較少時候的補充,具體思路是: 首先,收集用戶關(guān)注人的標簽構(gòu)建候選標簽集,然后,使用標簽統(tǒng)計次數(shù)作為其權(quán)重;然后,對候選標簽排序,每個標簽的得分(推薦度)為標簽自身的權(quán)重乘以該標簽在用戶微博中出現(xiàn)頻次加1;最后,選取候選標簽中Top-K個標簽推薦給用戶。

        汪祥等人[15]針對新浪微博中的標簽預(yù)測問題,提出了基于用戶交互關(guān)系的標簽預(yù)測方法,該方法通過根據(jù)用戶交互行為(評論、轉(zhuǎn)發(fā)和提及關(guān)系)構(gòu)建加權(quán)有向加權(quán)圖G=(V,E,W),在交互圖G中,一個頂點vi(vi∈V)可以表示為vi=(ui,Tui,Wui),其中,ui代表用戶,Tui代表用戶ui的標簽集合,Wui是由ui與Tui中的標簽的相關(guān)度組成的集合。文中利用標簽在交互圖G上的傳播進行人物標簽預(yù)測。

        2.2 基于微博內(nèi)容的標簽推薦

        Yamaguchi等人[16]提出了一種利用Twitter用戶的分組名稱為用戶推薦標簽的方法。文中首先根據(jù)用戶分組列表抽取短語作為標簽,然后把抽取的標簽賦給所屬分組列表下面的關(guān)注用戶,并得到“用戶-標簽”的矩陣,最后計算用戶和標簽之間的相關(guān)得分對標簽排序。但是由于用戶分組所用詞語的相似性,造成挖掘的標簽中存在著大量的同義標簽,標簽推薦質(zhì)量不高。

        Wu等人[17]分別使用TFIDF和TextRank的方法抽取用戶微博的關(guān)鍵詞作為人物標簽。文中把用戶所有的微博消息作為一個文檔,然后計算文檔中每個詞語的TFIDF權(quán)重。TextRank[18]作為PageRank算法的變種,把每個候選詞作為圖中的一個節(jié)點,根據(jù)候選詞之間的共現(xiàn)關(guān)系建立節(jié)點之間的邊,從而構(gòu)建成一個無向加權(quán)圖。候選詞Vi的秩為:

        (1)

        其中,wji是候選詞Vj和Vi所構(gòu)成邊的權(quán)重;E(Vi)是候選詞Vi連接的候選詞集合;d為阻尼系數(shù),一般設(shè)為0.85。通過多次迭代直到收斂后,得到排列最高的K個候選詞作為人物標簽。從微博文本中抽取標簽的方法需要很多預(yù)處理工作,包括縮寫詞處理、網(wǎng)絡(luò)用語的處理、去停用詞等。而且微博文本中可能沒有出現(xiàn)能夠代表用戶興趣愛好的關(guān)鍵詞。例如,雖然用戶經(jīng)常談?wù)擉w育相關(guān)的內(nèi)容,但關(guān)鍵詞中沒有出現(xiàn)“體育”。

        涂存超等人[19]對微博用戶的標簽進行分析,提出了使用社交網(wǎng)絡(luò)結(jié)構(gòu)進行正則化的標簽分發(fā)模型(network-regularized tag dispatch model,NTDM)。NTDM模型提取微博用戶個人簡介中的關(guān)鍵詞,然后對關(guān)鍵詞和標簽之間的關(guān)系進行建模,同時使用社交網(wǎng)絡(luò)中的社交關(guān)系對模型進行約束。NTDM模型是一個類似PLSA和LDA的概率模型,該模型只能夠?qū)τ袀€人簡介的用戶建模,不能解決缺少個人簡介或者個人簡介信息過少的用戶的標簽推薦問題。

        以上社交網(wǎng)絡(luò)中的人物標簽推薦方法沒有考慮到推薦結(jié)果的多樣性問題和標簽推薦質(zhì)量,為了解決上述問題,受到以上相關(guān)工作的啟發(fā),本文提出了一種融合個性化與多樣性的人物標簽推薦方法。

        3 融合個性化與多樣性的人物標簽推薦方法

        3.1 方法概述

        在社交網(wǎng)絡(luò)中,用戶社交對象能夠反映用戶的興趣愛好,但現(xiàn)有的方法沒有對用戶社交對象的多樣化興趣進行有效劃分,進而無法從用戶關(guān)注對象中獲取個性化與多樣化的標簽。為了解決社交網(wǎng)絡(luò)中人物標簽推薦的個性化與多樣性問題,本文提出了一種融合個性化和多樣性的人物標簽推薦方法。

        該方法對用戶關(guān)注對象進行劃分,獲取在不同興趣上的關(guān)注對象集合,并通過對不同興趣用戶集合上的標簽進行個性化排序,最終獲取融合個性化和多樣性的推薦標簽。此外,本文使用標簽冗余處理技術(shù)把語義相似、拼寫錯誤等問題標簽進行規(guī)范化,提高了標簽推薦的質(zhì)量。算法具體流程如下: 首先,分析用戶的微博信息判斷社交對象的相似性,并使用聚類算法把具有相似言論的社交對象劃分到相同的類簇中,這樣每個類簇中包含著具有相似興趣愛好的關(guān)注對象,多個不同類簇能夠反映出用戶多樣化的關(guān)注興趣;然后,使用標簽冗余處理技術(shù)對類簇中的人物標簽進行預(yù)處理,把具有語義相同、語義相近、拼寫錯誤的標簽規(guī)范化為相同語義的高質(zhì)量標簽;最后,通過兩階段標簽融合排序方法獲取能夠反映出用戶不同關(guān)注興趣的前K(K>0)個標簽,具體流程如圖2所示。

        3.2 基于主題的對象劃分

        在社交平臺上,用戶發(fā)布的微博信息能夠反映出用戶的興趣愛好和職業(yè)特征,新浪微博中一條微博消息最長允許140個字符,其文本短小且信息量少。為了能夠充分挖掘用戶的行為特征,我們抓取用戶近三個月的微博短文本作為用戶的語義空間,把用戶聚類問題轉(zhuǎn)化為文本聚類問題。對于微博短文本,由于關(guān)鍵詞出現(xiàn)的次數(shù)很少,傳統(tǒng)的文本聚類方法不能從語義上理解微博文本之間的聯(lián)系,無法獲得較好的聚類效果。

        本節(jié)中我們使用主題模型(Latent Dirichlet Allocation,LDA)獲取用戶微博內(nèi)容潛在的主題特征及其在各個主題上的概率分布。利用LDA生成一篇文檔的過程如圖3所示。

        LDA模型是由Blei、Ng和Jordan于2003年提出來的,主要用來對文檔建模。在LDA中,文檔集中的所有文檔按照一定的概率共享隱含主題集合,而隱含主題集合則按照一定的概率共享特征詞集合。LDA可通過對文字隱含的主題進行建模,挖掘出文字背后的語義關(guān)聯(lián),克服了傳統(tǒng)信息檢索中文檔相似度計算方法的缺點。

        圖2 融合個性化與多樣性的人物標簽推薦方法流程

        圖3 利用LDA生成一篇文檔的過程

        LDA模型主要問題在于如何對超參數(shù)α和β進行參數(shù)估計。LDA的提出者使用EM-變分法進行超參數(shù)的訓練,但該方法的序列過程較為復(fù)雜,不適合大規(guī)模文本處理。為了克服EM-變分法的缺點,2004年Thomas Griffiths和Mark提出了用吉布斯采樣(Gibbs sampling)的方法學習LDA模型。吉布斯采樣是利用Dirichlet分布和多項分布之間的對偶性,只對隱含變量z進行采樣,得到兩個參數(shù)分布: “文檔-主題”分布和“主題—詞語”分布。

        本章將使用吉布斯采樣的方式進行LDA模型學習。圖4闡釋了LDA主題模型進行文本處理的大致過程,在該圖中,文檔集D={d1,d2,…,dN},文檔集D中的詞語集合W={w1,w2,…,wM},主題Tdi=[t1,t2,…,tK],N為文檔個數(shù),M為文檔集中的詞語數(shù),K為通過LDA訓練后的主題個數(shù),其中M

        圖4 N×M的文檔-詞語矩陣經(jīng)過LDA轉(zhuǎn)化為N×K的文檔-主題矩陣

        使用LDA模型引入用戶微博的隱含主題,每個用戶可以表示為在語義空間上的主題向量,然后,使用傳統(tǒng)的聚類算法對用戶進行聚類分析,完成用戶聚類的過程。通過計算每個用戶在主題集合上的概率向量的余弦相似度,可以得到兩個用戶在微博主題上的相似度。對于用戶ui和用戶uj的相似度可以使用其對應(yīng)的微博文本di和dj在隱含主題向量Tdi與Tdj的相似度計算。其對應(yīng)的公式如式(2)所示。

        (2)

        在把用戶語義空間表示為隱含主題層次上的向量模型基礎(chǔ)上,進一步利用K-means聚類方法對用戶在主題層次進行聚類分析,最終把用戶關(guān)注對象劃分為多個不同語義空間的類簇,每個類簇反映了用戶的特定方面的社交特點。通過獲取用戶類簇中的人物標簽信息,得到由相似言論用戶的標簽構(gòu)成的標簽類簇,這些標簽類簇能夠反映出用戶不同方面的興趣特點。

        3.3 標簽冗余處理

        人物標簽的同義詞、縮寫詞、繁簡轉(zhuǎn)化、雙語詞等造成了標簽的冗余性,如果過濾掉這些冗余的標簽,不僅能夠減少標簽推薦中的噪聲,提高推薦的準確率,而且能夠得到高質(zhì)量的推薦標簽。標簽聚類通過把冗余標簽聚到一起并把標簽簇的優(yōu)質(zhì)標簽推薦給用戶,能夠很好地解決標簽冗余性的問題。社交網(wǎng)絡(luò)中人物標簽具有以下特點:

        (1) 標簽短小且含有縮寫詞、錯誤拼寫等現(xiàn)象,不能提供足夠的信息進行相似度計算;

        (2) 標簽中含有新詞、網(wǎng)絡(luò)用語等不規(guī)范詞語,基于同義詞典進行語義擴充的方法不適用于人物標簽;

        (3) 標簽沒有用戶標注歷史和標簽共現(xiàn)特征,不能通過標簽之間的共現(xiàn)關(guān)系進行相似度計算。

        為此,本文提出一種基于Web搜索摘要擴展的標簽相似度計算方法。在Web網(wǎng)頁集合中,標簽作為關(guān)鍵詞在網(wǎng)頁中的上下文信息,能夠?qū)撕瀮?nèi)容進行擴充以方便計算文本之間的相似度。由于網(wǎng)絡(luò)文本的高速增長,搜索引擎提供一種有效的方法動態(tài)更新和組織管理這些網(wǎng)頁文本。因此,我們利用搜索引擎檢索人物標簽,獲取搜索結(jié)果中的網(wǎng)頁摘要對標簽進行語義擴展,具體過程如表1所示。

        表1 基于網(wǎng)頁摘要的人物標簽語義擴展過程

        把人物標簽表示為向量空間形式后,我們可以通過余弦相似度(cosine similarity)計算標簽ti和tj之間的相似性,如式(3) 所示。

        (3)

        根據(jù)標簽相似度計算方法,使用基于凝聚式的層次聚類算法進行標簽聚類,使得類簇中的標簽相似度高,類簇間的標簽相似度低,進而獲取類簇中的優(yōu)質(zhì)標簽作為該類簇中其他標簽的規(guī)范化標簽,實現(xiàn)標簽的冗余處理。

        3.4 兩階段標簽融合排序模型

        兩階段標簽融合排序模型首先是對標簽類簇內(nèi)的標簽進行排序,選取能夠反映類簇特征的標簽加入推薦候選集。然后對標簽類簇間的標簽進行融合處理,包括標簽合并、標簽排序,最終獲取能夠融合個性化與多樣性的推薦標簽。

        3.4.1 簇內(nèi)標簽排序方法

        對于標簽類簇內(nèi)的標簽,如果在興趣領(lǐng)域的類簇中出現(xiàn)的次數(shù)多,而在整個標簽系統(tǒng)中出現(xiàn)的次數(shù)較少,我們可認為它能夠反映這個群體的興趣。基于此,可使用經(jīng)典的TFIDF計算每個候選集中的標簽。其中TF是標簽在用戶候選集中出現(xiàn)的次數(shù),IDF是在整個系統(tǒng)中標記為標簽t的用戶數(shù)和全部用戶數(shù)的逆頻率對數(shù)。對于用戶u,其關(guān)注用戶劃分的興趣領(lǐng)域為Clusteru={clusteru,0,clusteru,1,…,clusteru,m},類簇clusteru,m表示包含相同行為特征的用戶群體,對于標簽t,其對應(yīng)的TFIDF為TFIDFt,計算公式如式(4)~式(7)所示。

        (4)

        (5)

        (6)

        (7)

        其中,U是有限的用戶集合,Nt是系統(tǒng)中標簽數(shù)量。

        3.4.2 簇間標簽融合方法

        對于用戶u,通過用戶聚類和簇內(nèi)標簽排序方法,我們可以得到其關(guān)注對象劃分的類簇集合Clusteru={clusteru,0,clusteru,1,…,clusteru,m}和由每個簇中的標簽構(gòu)成的帶有權(quán)重的標簽簇集合,其中m為用戶u的聚類個數(shù)。對于用戶u的每個候選標簽t,其最終的權(quán)重wu,t可以表示為標簽TF-IDF權(quán)重和用戶與簇的相似度similarity(u,clusteru,i)的乘積,計算公式如式(8)所示。

        (8)

        在社交網(wǎng)絡(luò)中,當用戶與類簇中相同關(guān)注對象或者相同粉絲數(shù)越多時,他們之間的興趣特征相似性越強。為此,用戶和用戶類簇之間的相似度關(guān)系可以通過用戶與類簇中關(guān)注對象的相同用戶關(guān)注數(shù)或者相同粉絲數(shù)來衡量。為了減少用戶自身粉絲數(shù)量和關(guān)注數(shù)量對用戶之間相關(guān)性的影響,我們使用Jaccard系數(shù)衡量用戶與關(guān)注對象之間的相似關(guān)系,如式(9)所示。

        (9)

        其中,Co(u1,u2)代表用戶u1和u2的相同粉絲數(shù)或者相同用戶關(guān)注數(shù),Co(u)代表用戶u的粉絲數(shù)或者關(guān)注數(shù)。clusteru,i代表用戶u的第i個類簇,在此基礎(chǔ)上,用戶u與用戶類簇clusteru,i的相關(guān)性可表示為:

        (10)

        4 實驗及結(jié)果分析

        4.1 數(shù)據(jù)集

        目前,社交網(wǎng)絡(luò)上的標簽推薦沒有標準數(shù)據(jù)集,為了合理地評價標簽推薦的結(jié)果,本節(jié)選取標簽數(shù)量等于10的大V用戶當做標準數(shù)據(jù)集。為了確保測試集數(shù)據(jù)選取的隨機性,我們采用隨機數(shù)的方法來判定某一符合條件的用戶是否加入測試集,最終選出200名用戶作為本實驗的測試集。

        本節(jié)使用涂存超等人[19]統(tǒng)計的200萬新浪微博用戶信息而獲取top-10個熱門標簽作為Baseline,該方法對任意用戶都推薦當前系統(tǒng)中的top-10個熱門標簽,這也是當前標簽推薦中常用的對比方法。其中,微博數(shù)據(jù)中top-10標簽詳細信息如表2所示。

        表2 200萬微博數(shù)據(jù)中top-10標簽詳細信息

        為了驗證本章提出的標簽推薦方法具有多樣性的特點,我們使用基于社交關(guān)系的標簽推薦方法作為對比。基于社交關(guān)系的標簽推薦方法是根據(jù)TF-IDF方法對用戶關(guān)注對象的標簽進行排序,選取TF-IDF值高的標簽作為推薦結(jié)果,計算公式如式(11)~式(13)所示。

        (11)

        (12)

        (13)

        其中,F(xiàn)ollowu為用戶u的關(guān)注對象集合,Nt為標簽總數(shù),U為有限的用戶集合。

        4.2 評估方法

        為了證明本文提出方法的有效性,我們使用準確率和多樣性這兩個指標來度量標簽推薦的效果??紤]到人物標簽語義信息含糊或者標簽含義過于單一的問題,我們通過分析以下兩種信息進行標簽推薦的準確率評判:

        (1) 標簽有沒有反映出用戶的特征(如標簽、簡介等原信息)。

        (2) 標簽是否反映出用戶微博主題特征

        如果推薦結(jié)果滿足以上任意條件,則認為推薦的標簽為正確結(jié)果。本實驗綜合多位評價者的評價結(jié)果來計算推薦標簽的準確率和多樣性。標簽準確率度量的公式為:

        (14)

        其中,K是推薦標簽個數(shù);Ncorr是推薦K個標簽的正確個數(shù)。

        推薦結(jié)果的多樣性是推薦算法要解決的一個重要問題,現(xiàn)有很多推薦多樣性的評價方法,本文使用ILS(intra-list similarity)[20-22]來評價標簽推薦的多樣性。ILS指標評測的是推薦列表中所有推薦條目的平均兩兩相似性。具體計算方法為:

        (15)

        其中,R是標簽推薦列表,i和j是推薦列表中的條目,K是推薦條目的個數(shù)。ILS值越大,推薦列表多樣性效果越差。

        4.3 實驗結(jié)果

        本節(jié)分別使用熱門標簽推薦方法(Baseline)、基于社交關(guān)系的標簽推薦方法(Simple-Relation)和融合個性化與多樣性的人物標簽推薦方法(Diversity-Relation)計算推薦標簽數(shù)量在1~10之間的準確率和多樣性。

        圖5展示了標簽推薦結(jié)果的準確率對比,從實驗中可以看出,融合個性化與多樣性的人物標簽推薦方法準確率優(yōu)于Baseline和基于社交關(guān)系的標簽推薦方法。這是由于通過對用戶關(guān)注對象的劃分,消弱了噪聲標簽對推薦結(jié)果的影響,使得推薦結(jié)果在趨于多樣化的同時多角度反映了用戶的關(guān)注興趣。在實驗過程中,我們發(fā)現(xiàn)融合個性化與多樣性的人物標簽推薦方法推薦的標簽質(zhì)量明顯好于基于社交關(guān)系的標簽推薦方法,這主要是因為本文方法利用了標簽冗余處理技術(shù)進行了標簽冗余處理,把語義相近的標簽聚集一起,并選取相似標簽中的熱門標簽作為推薦結(jié)果,使得推薦的用戶標簽既準確又質(zhì)量高。

        圖5 標簽推薦結(jié)果的準確率對比

        圖6展示了標簽推薦結(jié)果的多樣性對比(ILS值越低表示推薦結(jié)果的多樣性越高),從圖中可以看出融合個性化與多樣性的人物標簽推薦效果要極大地優(yōu)于基于社交關(guān)系的標簽推薦效果。這主要是因為融合個性化與多樣性的人物標簽推薦方法把用戶的關(guān)注對象劃分為不同的群體,使得群體內(nèi)的用戶具有相似的興趣愛好,而群體之間的相似性較弱,進而在群體之上做標簽推薦,這樣得到的推薦標簽?zāi)軌蚍从吵鲇脩舨煌呐d趣點,推薦結(jié)果的多樣性好。此外,融合個性化與多樣性的人物標簽推薦方法通過對標簽冗余問題的處理,更進一步增加了標簽推薦的多樣性。

        4.4 效果實例

        本文分別以新浪微博認證用戶和普通用戶為例,通過本文提出的方法對用戶關(guān)注對象進行聚類分析,獲取類簇中的標簽信息,然后通過質(zhì)量權(quán)重排序得到如表3所示的標簽結(jié)果。可以看出,不同類簇中的標簽?zāi)軌蚍从吵鲱惔赜脩舻奶卣鳎總€類簇的特征能夠體現(xiàn)出用戶關(guān)注這些對象的興趣點。

        表4展示冗余標簽對標簽推薦算法的影響。推薦算法給出五個標簽,基于社交關(guān)系的標簽推薦方法推薦的標簽含有大量的相似標簽,推薦結(jié)果單一,而融合個性化與多樣性的人物標簽推薦方法能夠合并相似標簽,并從多個角度推薦質(zhì)量高的標簽,在保證推薦個性化的同時使推薦結(jié)果更加多樣化。

        圖6 標簽推薦結(jié)果的多樣性對比

        大V用戶:黃曉明認證信息:知名演員人物標簽:歌手、演員演員、葉問、電影、香港、萬達影視……娛樂、段子、趣圖、冷笑話、八卦……大眾系車迷、專四、最愛旅行車、專八、老爺車……男裝、時尚達人、男裝設(shè)計、男裝控、服裝搭配師……深度、慈善、社會、新聞、共修懺悔法門……大V用戶:雷軍認證信息:小米創(chuàng)辦人,董事長兼CEO;金山軟件董事長;天使投資人。人物標簽:天使投資、小米手機、我們都愛用米聊手機控、小米社區(qū)、小米手機、小米、移動互聯(lián)網(wǎng)……體育、新聞資訊、IT數(shù)碼、足籃排乒乓臺、旅游……光輝歲月微電影、導演麥田、影格視覺、麥田映畫、北京青年……企業(yè)管理、歷史、哲學、旅游、讀書……搜狗、互聯(lián)網(wǎng)、搜索、瀏覽器、輸入法……普通用戶:1762173272所在地:廣東、廣州人物標簽:新聞趣事、WebDataMining、OnlineSN機器學習、數(shù)據(jù)挖掘、自然語言處理、云計算、信息檢索……愛故事、晉語、三毛控、簡單……火狐、Mozilla、瀏覽器、開源、Firefox……ACM、編程、IT、TopCoder、程序猿……多啦A夢控、愛狗、愛貓、星座控、五月天……

        表4 標簽冗余對標簽推薦算法的影響

        5 結(jié)論

        針對當前人物標簽推薦個性化與多樣性不足的問題,本文提出了一種融合個性化與多樣性的人物標簽推薦方法。該方法把用戶的關(guān)注對象劃分為不同的興趣類簇,通過對不同類簇中的人物標簽進行排序融合,得到能夠反映出用戶興趣特點且多樣化的標簽推薦結(jié)果。下一步的工作是,如何利用用戶發(fā)布內(nèi)容進行人物標簽抽取,以解決社交關(guān)系不足以提供豐富的標簽信息的人物標簽推薦問題。

        [1] 新華網(wǎng). 第 32 次中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告[R]. 網(wǎng)絡(luò)數(shù)據(jù)庫: 中國互聯(lián)網(wǎng)絡(luò)信息中心,2013年.

        [2] N Zhang, Y Zhang, J Tang. A tag recommendation system based on contents[C]//Proceedings of the ECML PKDD Discovery Challenge 2009, 2009: 285.

        [3] Harvey M, et al. Tripartite hidden topic models for personalised tag suggestion[C]//Proceedings of the Advances in Information Retrieval. 2010: 432-443.

        [4] Zhang Y, et al. Combining content and relation analysis for recommendation in social tagging systems[C]//Proceedings of the Physica A: Statistical Mechanics and Its Applications. 2012, 391(22): 5759-5768.

        [5] Heymann P, D Ramage, H Garcia-Molina. Social tag prediction[C]//Proceedings of the 31st annual international ACM SIGIR conference on Research and development in information retrieval,2008.

        [6] J?schke R, et al. Tag recommendations in folksonomies[C]//Proceedings of the Knowledge Discovery in Databases: PKDD 2007, 2007: 506-514.

        [7] Liu Z, C Shi, M Sun. FolkDiffusion: A graph-based tag suggestion method for folksonomies[C]//Proceedings of the Information Retrieval Technology, 2010: 231-240.

        [8] Hu J, et al. Personalized tag recommendation using social influence[J]. Journal of Computer Science and Technology, 2012, 27(3): 527-540.

        [9] Guan Z, et al. Personalized tag recommendation using graph-based ranking on multi-type interrelated objects[C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval, 2009.

        [10] Zhou T, et al. Bipartite network projection and personal recommendation[J]. Physical Review E, 2007, 76(4): 046115.

        [11] Sigurbj?rnsson B, R Van Zwol. Flickr tag recommendation based on collective knowledge[C]//Proceedings of the 17th international conference on World Wide Web, 2008.

        [12] Durao F, P Dolog. A personalized tag-based recommendation in social web systems[C]//Proceedings of the arXiv preprint arXiv:1203.0332, 2012.

        [13] Lappas T, K Punera, T Sarlos. Mining tags using social endorsement networks[C]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval, 2011.

        [14] 陳淵, 林磊, 孫承杰, 劉秉權(quán). 一種面向微博用戶的標簽推薦方法[J]. 智能計算機與應(yīng)用, 2011, 1(3): 21-26.

        [15] 汪祥, 賈焰, 周斌, 陳儒華, 韓毅 基于交互關(guān)系的微博用戶標簽預(yù)測[J]. 計算機工程與科學, 2013, 35(10): 44-50.

        [16] Yamaguchi Y, T Amagasa, H Kitagawa. Tag-based user topic discovery using twitter lists[C]//Proceedings of the Advances in Social Networks Analysis and Mining (ASONAM), 2011 International Conference on. 2011.

        [17] Wu W, B Zhang, M Ostendorf. Automatic generation of personalized annotation tags for Twitter users[C]//Proceedings of the Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics: Los Angeles, California. 2010: 689-692.

        [18] Mihalcea R, P Tarau. TextRank: Bringing order into texts[C]//Proceedings of EMNLP, 2004.

        [19] 涂存超, 劉知遠, 孫茂松. 社會媒體用戶標簽的分析與推薦[J]. 圖書情報工作,2013, 57(23): 24-30, 35.

        [20] Zhang M, N Hurley. Avoiding monotony: improving the diversity of recommendation lists[C]//Proceedings of the 2008 ACM conference on Recommender systems, 2008.

        [21] Smyth B, P McClave. Similarity vs. diversity, in Case-Based Reasoning Research and Development[C]//Proceedings of the Springer, 2001,2080: 347-361.

        [22] Bradley K, B Smyth. Improving recommendation diversity[C]//Proceedings of the Twelfth National Conference in Artificial Intelligence and Cognitive Science, 2001.

        User Tag Recommendation with Personalization and Diversity

        ZHUAN Yue1,2, XIONG Jinhua1,2, CHENG Xueqi1,2

        (1. CAS Key Laboratory of Network Data Science and Technology, Institute of Computing Technology,Chinese Academy of Sciences, Beijing 100190, China;2. University of Chinese Academy of Sciences, Beijing 100190, China)

        To take full advantage of user’s social characteristics and address the diversity of tag recommendation, we present a method for user tag recommendation, aiming to combine user’s social characteristics and the diversity of tag recommendation. We use topic model to get a user’s potential semantic topics from his tweets, and then cluster the users followed by this user, i.e. using the potential semantic topics to divide the users into different areas. Each area can reflect the interest that attracts the user to follow. We select several representative tags by sorting the tags in the area based on TF-IDF. Then, we combine and sort different areas of representative tags to get top-K tags for recommendation. Experiment shows that our approach not only can recommend diversity tags but also reflect the user’s interest and hobbies.

        user tag recommendation; recommendation diversity; tag redundancy; tag quality

        顓悅(1988—),碩士,主要研究領(lǐng)域為自然語言處理。E?mail:zhuan_yue@163.com熊錦華(1972—),通信作者,博士,副研究員,主要研究領(lǐng)域為互聯(lián)網(wǎng)搜索與挖掘、大規(guī)模數(shù)據(jù)處理、分布式計算。E?mail:xjh@ict.a(chǎn)c.cn程學旗(1971—),博士,研究員,博士生導師,主要研究領(lǐng)域為網(wǎng)絡(luò)科學、網(wǎng)絡(luò)與信息安全、互聯(lián)網(wǎng)搜索與服務(wù)。E?mail:cxq@ict.a(chǎn)c.cn

        2014-06-25 定稿日期: 2014-09-22

        863項目(2014AA015204);國家自然科學基金(61402442);973項目(2014CB340406)

        1003-0077(2017)02-0154-09

        TP391

        A

        猜你喜歡
        融合用戶方法
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        可能是方法不對
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        毛片免费全部无码播放| 97精品人妻一区二区三区在线| 无套熟女av呻吟在线观看| 国产精品熟女视频一区二区| 午夜成人理论无码电影在线播放 | 亚洲国内精品一区二区在线 | 日韩一区二区中文字幕| 99噜噜噜在线播放| 亚洲av永久无码天堂网毛片| 无码毛片高潮一级一免费| 精品女同av一区二区三区| 亚洲精品人成中文毛片| 五级黄高潮片90分钟视频| 91情侣视频| 国产黄色一级大片一区二区| 亚洲人精品午夜射精日韩| 又黄又爽又色又刺激的视频| 亚洲中字幕永久在线观看| 91久久精品一区二区| 国产综合色在线视频区| 免费人成视频在线观看视频| 日产精品一区二区三区免费| 亚洲熟女少妇精品综合| 午夜福利试看120秒体验区| 亞洲綜合一區二區三區無碼| 偷拍与自偷拍亚洲精品| 无遮挡1000部拍拍拍免费| 久久精品亚洲中文字幕无码网站 | 免费的小黄片在线观看视频| 337p西西人体大胆瓣开下部| 亚洲午夜无码久久yy6080| 白白色日韩免费在线观看| 免费观看交性大片| 漂亮人妻被黑人久久精品| 亚洲国产综合性感三级自拍| 女优av一区二区三区| 丰满老熟妇好大bbbbb| 国产呦系列呦交| 一本之道久久一区二区三区| 久久久久久好爽爽久久| 无码国产精品色午夜|