亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶關(guān)系和文本的微博用戶相似性度量

        2019-05-17 02:45:04黃建軍方勇何祥
        現(xiàn)代計(jì)算機(jī) 2019年9期
        關(guān)鍵詞:博文相似性度量

        黃建軍,方勇,何祥

        (1.四川大學(xué)電子信息學(xué)院,成都 610065;2.四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,成都 610207)

        0 引言

        微博是一個(gè)以用戶社交關(guān)系為基礎(chǔ)的信息發(fā)布、分享、獲取的在線社交平臺(tái),在微博中,用戶可以隨時(shí)隨地發(fā)布信息,并可以對(duì)感興趣的微博內(nèi)容進(jìn)行轉(zhuǎn)發(fā)、點(diǎn)贊和評(píng)論[1]。根據(jù)新浪微博官方發(fā)布的數(shù)據(jù),目前微博月活躍用戶已經(jīng)超過(guò)4億人,構(gòu)成了一個(gè)龐大的用戶網(wǎng)絡(luò),對(duì)微博平臺(tái)中用戶的特征以及發(fā)布的內(nèi)容和關(guān)注關(guān)系進(jìn)行分析挖掘是當(dāng)前的熱門(mén)的研究方向,而用戶相似度計(jì)算是其中的一個(gè)重要研究點(diǎn)。用戶相似度計(jì)算相關(guān)技術(shù)可用于好友推薦、相似用戶發(fā)現(xiàn),可在海量用戶中挖掘與目標(biāo)用戶在關(guān)系和興趣愛(ài)好等特征維度相似的用戶并推薦給目標(biāo)用戶。除此之外,用戶相似度計(jì)算在用戶聚類(lèi)、社區(qū)發(fā)現(xiàn)、熱門(mén)微博跟蹤等方面都有著重要意義[2]。本文綜合了社交關(guān)系(關(guān)注、粉絲)和微博文本兩種屬性,給出一種微博用戶相似性度量方法。

        1 相關(guān)研究

        社交媒體上的用戶的信息總體上可以分為三類(lèi):①用戶的背景信息,包括年齡、性別、地理位置、教育、職業(yè)、標(biāo)簽信息等;②用戶的社交關(guān)系,包括關(guān)注、粉絲、轉(zhuǎn)發(fā)、點(diǎn)贊等;③用戶發(fā)表的微博信息。已有的研究工作大多都是基于上述三類(lèi)信息的一種或多種構(gòu)建用戶相似性度量方法。

        Bhattacharyya等人[3]從用戶的背景信息中提取關(guān)鍵詞,并通過(guò)計(jì)算關(guān)鍵詞的語(yǔ)義距離來(lái)表示關(guān)鍵詞的相似性,進(jìn)而度量用戶間的相似度。Krishnamurthy等人[4]通過(guò)分析Twitter用戶的關(guān)注和粉絲關(guān)系,并利用用戶關(guān)系構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行用戶間的相似性進(jìn)行度量。Kahanda等人[5]利用用戶相互之間的轉(zhuǎn)發(fā)、評(píng)論、文件傳輸?shù)冉换バ袨閬?lái)度量用戶相似度。Xiang等人[6]融合了用戶的屬性(包括學(xué)校、工作單位、興趣組和地理位置等)和用戶間的交互計(jì)算用戶關(guān)系強(qiáng)度。徐志明等人[7]在進(jìn)行微博用戶相似性度量時(shí)給出了用戶的背景信息、微博文本、社交信息等多種屬性的相似度計(jì)算方法并對(duì)各屬性對(duì)相似度計(jì)算影響大小進(jìn)行實(shí)驗(yàn),認(rèn)為社交信息對(duì)用戶的相似性度量最有影響力。鄭志蘊(yùn)等人[8]結(jié)合微博用戶自身背景信息和交互信息兩種屬性,并利用層次分析法確定各屬性權(quán)值,最后構(gòu)建綜合的用戶相似度計(jì)算模型。姚彬修等人[9]分別計(jì)算用戶間社交信息相似度、微博內(nèi)容相似度和交互關(guān)系相似度,最后融合各類(lèi)相似度得出兩個(gè)用戶的總相似度來(lái)進(jìn)行用戶推薦。

        本文采用用戶社交關(guān)系和微博文本構(gòu)建用戶相似性度量方法,并分別給出基于戶社交關(guān)系信息和微博文本信息的用戶相似度計(jì)算方法:①用戶社交關(guān)系相似度計(jì)算方面,本文在Jaccard[10-11]方法的基礎(chǔ)上對(duì)用戶間的每個(gè)共同好友根據(jù)其熱度不同賦予不同的權(quán)重,使相似度計(jì)算結(jié)果更加合理。②在微博文本相似度計(jì)算方面,本文采用LDA模型[12]來(lái)表示微博文本并計(jì)算相似度,較基于TF-IDF的VSM模型[13-14]有效地降低了文本向量的維度并提高了相似度計(jì)算的效果。

        2 微博用戶相似度計(jì)算模型

        2. 1 用戶社交關(guān)系相似度計(jì)算

        在微博平臺(tái)中,用戶之間存在著關(guān)注和被關(guān)注的關(guān)系,用戶會(huì)關(guān)注感興趣的賬號(hào),也可以吸引別的用戶成為自己的粉絲,關(guān)注和被關(guān)注的關(guān)系不斷擴(kuò)展使構(gòu)成了一個(gè)龐大的社交關(guān)系網(wǎng)絡(luò)。微博用戶的關(guān)注信息和粉絲信息可以直觀的反映該用戶的興趣,兩個(gè)微博用戶擁有的共同粉絲或關(guān)注者越多,說(shuō)明其具有更加緊密的社交聯(lián)系,這也能在某種程度上反映了兩個(gè)用戶間的相似度。對(duì)于一個(gè)微博用戶u,其社交信息可以表示為:

        其中FollowerSet(u)表示用戶u的關(guān)注用戶集,F(xiàn)ansSet(u)表示用戶u的粉絲用戶集。用戶間的社交關(guān)系相似度可以分為關(guān)注信息和粉絲信息兩種屬性的相似度計(jì)算問(wèn)題。

        基于用戶社交關(guān)系的相似度計(jì)算方法一般使用基于共同鄰居的方法,如Jaccard方法[7-9]。以用戶關(guān)注信息為例,基于Jaccard方法的關(guān)注信息相似度可以表示為:

        如上式所示,Jaccard方法通過(guò)兩個(gè)用戶間的共同關(guān)注用戶的比例來(lái)度量用戶間的相似程度,這種方法對(duì)不同的共同關(guān)注用戶并沒(méi)有分情況處理,無(wú)論是熱度較高(即粉絲較多)的用戶,還是普通的用戶,對(duì)用戶相似度計(jì)算結(jié)果的影響都是相同的。但實(shí)際中并非如此,微博平臺(tái)上存在著一些熱門(mén)用戶,這些熱門(mén)用戶擁有海量的粉絲數(shù),受到廣大微博用戶的喜愛(ài)和關(guān)注。關(guān)注這樣一個(gè)熱門(mén)的用戶往往并不能夠反映一個(gè)用戶的真正的興趣所在。相反,微博用戶對(duì)一個(gè)較為冷門(mén)的用戶的關(guān)注,從某種程度上來(lái)說(shuō)更能反映用戶真正的興趣所在。基于上述現(xiàn)象,計(jì)算用戶u和用戶v的關(guān)注相似度時(shí),共同關(guān)注微博用戶z的粉絲越多,在計(jì)算關(guān)注相似度時(shí)其權(quán)重越小。與之相反,粉絲數(shù)越少,在計(jì)算關(guān)注相似度時(shí)其權(quán)重越大?;谠撍悸罚疚脑贘accard方法的基礎(chǔ)上,對(duì)每一個(gè)共同關(guān)注根據(jù)其熱度賦予不同的權(quán)重,用戶關(guān)注信息相似度計(jì)算公式可以表示為:

        同理用戶的粉絲信息相似度計(jì)算公式可以表示為:

        綜合關(guān)注和粉絲兩個(gè)方面,對(duì)于兩個(gè)用戶u,v之間的社交關(guān)系相似度定義為:

        Simfollower(u,v)表示兩個(gè)用戶關(guān)注信息的相似度,Simfans(u,v)表示兩個(gè)用戶粉絲信息的相似度,α1、α2兩者的權(quán)重,α1+α2=1。

        2. 2 基于LDA的用戶微博文本相似度計(jì)算

        在微博平臺(tái)上用戶可以隨時(shí)隨地的發(fā)表自己的想法與見(jiàn)解,同時(shí)還能夠轉(zhuǎn)發(fā)、評(píng)論其感興趣用戶的微博內(nèi)容。微博文本是微博用戶間進(jìn)行互動(dòng)交流的主要媒介,微博文本直接體現(xiàn)了用戶感興趣的內(nèi)容和話題。兩用戶所發(fā)布微博文本的相似度可以有效地體現(xiàn)兩個(gè)用戶間的相似度。

        基于TF-IDF的向量空間模型(VSM)文本相似度計(jì)算方法被廣泛地用于微博文本相似度計(jì)算[7,9]。將用戶的微博文本拼接成一個(gè)文檔,通過(guò)分詞、提取關(guān)鍵詞,使用TF-IDF計(jì)算關(guān)鍵詞權(quán)重,最終將用戶微博表示為一個(gè)文本向量,并通過(guò)余弦相似度計(jì)算兩個(gè)用戶的微博文本相似度。VSM將文檔表示成一個(gè)高緯度、稀疏的文本向量導(dǎo)致計(jì)算效率不高,并且VSM忽略了詞語(yǔ)之間的關(guān)聯(lián),不能完全建模自然語(yǔ)言的復(fù)雜性問(wèn)題。

        針對(duì)上述方法存在的缺陷,本文使用LDA主題模型進(jìn)行文本相似度計(jì)算。LDA(Latent Dirichlet Allocation)模型是一種對(duì)文本數(shù)據(jù)的主題信息進(jìn)行建模的方法,它有文檔-主題-特征詞三層貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。本文用LDA模型對(duì)用戶微博文本進(jìn)行建模,即利用文本的統(tǒng)計(jì)特性,挖掘文本中不同主題與詞之間的潛在關(guān)系,將文檔以主題分布的形式展現(xiàn),通過(guò)此分布計(jì)算文本的相似度。使用LDA主題模型進(jìn)行文本相似度計(jì)算相較于向量空間模型能更好地表示文本的語(yǔ)義并且有效地降低了文本向量的維度。

        將用戶所發(fā)布的微博合并成一個(gè)長(zhǎng)文本作為L(zhǎng)DA模型中的文檔層中的一個(gè)文檔,從而得到用戶的主題概率多項(xiàng)分布。對(duì)于用戶u將其發(fā)布的全部微博所拼接成一個(gè)長(zhǎng)文本并使用LDA模型其表示為一個(gè)主題向量的過(guò)程如下:

        文本預(yù)處理,對(duì)微博文本進(jìn)行過(guò)濾表情符號(hào)、URL等無(wú)意義文本、分詞、去停用詞等處理;

        詞頻向量表示,采用詞頻方法來(lái)計(jì)算微博文本中的每個(gè)特征詞i的權(quán)重,將文本表示為詞頻向量 du=;

        主題生成,通過(guò)LDA模型生成用戶微博文本在k個(gè)主題上的概率分布,表示成向量θu=。

        在將用戶微博表示為主題向量θ后,用戶間的相似度可以通過(guò)計(jì)算兩用戶對(duì)應(yīng)的主題概率分布得到。有人使用KL(Kullback Leibler)散度,來(lái)衡量2個(gè)概率分布的距離[15],其計(jì)算公式為:

        由于KL散度是不對(duì)稱(chēng)的,即Dkl(P,Q)≠Dkl(Q,P),可以將其轉(zhuǎn)換為對(duì)稱(chēng)的,如公式(6):

        在基于LDA的主題模型中,由主題的概率分布來(lái)表示。因此,用戶間的相似程度可以由用戶微博文本主題分布間的KL距離來(lái)表示,用戶相似度計(jì)算如下所示:

        2. 3 完整的微博用戶相似度計(jì)算

        如圖2所示,完整的微博用戶相似度計(jì)算是將用戶微博社交關(guān)系相似度和微博文本相似度兩個(gè)部分綜合起來(lái)得到,更加全面地構(gòu)建微博用戶間的相似性度量。

        圖1 微博用戶相似度計(jì)算框架

        結(jié)合前兩節(jié)內(nèi)容,將綜合的微博用戶相似度表示為:

        其中Simrel(u,v)表示用戶社交關(guān)系的相似度,Simtext(u,v)表示用戶微博文本的相似度,ω1、ω2表示兩者的權(quán)重,ω1+ω2=1。

        3 實(shí)驗(yàn)及分析

        3. 1 實(shí)驗(yàn)數(shù)據(jù)

        目前,關(guān)于新浪微博用戶相似度計(jì)還沒(méi)有統(tǒng)一的公開(kāi)數(shù)據(jù)集,根據(jù)需求,本文使用Scrapy框架編寫(xiě)爬蟲(chóng)程序自行從新浪微博上采集相關(guān)數(shù)據(jù)。本文在新浪微博中選取10個(gè)種子用戶,并利用其社交關(guān)系鏈向外擴(kuò)展一層,抓取用戶的基本信息、微博內(nèi)容、社交信息。為了實(shí)驗(yàn)的有效性,對(duì)采集的用戶數(shù)據(jù)進(jìn)行了篩選:①去除不活躍的用戶,即用戶關(guān)注加上粉絲數(shù)少于50或發(fā)表微博數(shù)少于30的用戶;②去除部分無(wú)效的微博,即微博字?jǐn)?shù)少于10個(gè)或者僅包含表情符號(hào)、URL的微博。

        經(jīng)過(guò)處理后,挑選出2000名用戶的信息用于實(shí)驗(yàn),包括用戶社交關(guān)系信息230250條,微博內(nèi)容968016條。

        3. 2 評(píng)估指標(biāo)

        本文使用準(zhǔn)確率(Precision Rate)和召回率(Recall Rate)作為衡量實(shí)驗(yàn)結(jié)果的評(píng)估指標(biāo)。通過(guò)用戶標(biāo)簽、簡(jiǎn)介以及用戶微博內(nèi)容為用戶劃分領(lǐng)域,以同一領(lǐng)域的用戶為相似用戶。對(duì)于用戶集合中的用戶u,通過(guò)對(duì)其進(jìn)行Top-N推薦,即使用相似度算法計(jì)算各個(gè)用戶之間的相似度,將計(jì)算結(jié)果排序選出相似度得分最高的N個(gè)用戶作為相似用戶推薦結(jié)果。

        準(zhǔn)確率是指在推薦出的N個(gè)用戶中屬于用戶的相似用戶的個(gè)數(shù)Nc與推薦結(jié)果總數(shù)N的比值,比值越大則推薦結(jié)果的準(zhǔn)確率越高。準(zhǔn)確率的計(jì)算公式為:

        召回率是指推薦結(jié)果中屬于相似用戶的個(gè)數(shù)Nc與相似用戶總數(shù)Ns的比值,比值越大則說(shuō)明推薦結(jié)果越全面。召回率的計(jì)算公式為:

        3. 3 實(shí)驗(yàn)結(jié)果及分析

        本文選擇以下四種方法進(jìn)行對(duì)比實(shí)驗(yàn):

        (1)本文提出的方法,通過(guò)多次實(shí)驗(yàn)將社交關(guān)系相似度中關(guān)注相似度和粉絲相似度的權(quán)重分別設(shè)為α1=0.6,α2=0.4;微博文本相似度中LDA模型主題數(shù)k=40;社交關(guān)系相似度和微博文本相似度的權(quán)重分別設(shè)為ω1=0.8,ω2=0.2。

        (2)已有的混合方法,借鑒文獻(xiàn)[6-8]的方法,基于用戶社交關(guān)系和微博文本計(jì)算用戶的相似度,其中社交關(guān)系相似度采用Jaccard方法,微博文本相似度采用基于TF-IDF的VSM模型計(jì)算。

        (3)本文所述的基于社交關(guān)系的相似度計(jì)算方法。

        (4)本文所述的基于微博文本的相似度計(jì)算方法。

        在實(shí)驗(yàn)中,分別取TOP-N的N={20,40,60,80,100}時(shí)的5種情況,四種算法的確率、召回率如圖2-3所示。

        圖2 四種算法的準(zhǔn)確率對(duì)比

        從實(shí)驗(yàn)結(jié)果可以看出,隨著推薦數(shù)N的增加,各算法的準(zhǔn)確率逐漸降低,在四種算法的對(duì)比中本文提出的混合方法的準(zhǔn)確率方面均明顯高于其他方法;在召回率方面,隨著N值的增加,召回率越來(lái)越高,并且比本文算法的召回率始終高于其他三種算法。本文算法綜合了用戶社交關(guān)系和微博文本兩方面屬性,較于單獨(dú)屬性構(gòu)建的相似度算法有更好的表現(xiàn),且與已有的混合方法相比效果上也有一定提升。

        4 結(jié)語(yǔ)

        本文主要研究微博用戶間的相似性度量方法,對(duì)微博用戶社交關(guān)系(關(guān)注、粉絲)和微博文本兩方面信息分別進(jìn)行分析并給出兩種信息相似度計(jì)算方法。對(duì)于用戶社交關(guān)系,本文在Jaccard方法的基礎(chǔ)上引入用戶熱度的影響并用于用戶社交信息相似度計(jì)算;對(duì)于用戶微博文本,本文使用LDA模型進(jìn)行用戶微博文本相似度計(jì)算。最終通過(guò)加權(quán)的方式綜合兩種信息構(gòu)建完整的微博用戶相似性度量方法。并使用本文方法進(jìn)行了Top-N推薦實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文所提算法較其他三種算法具有更好的效果。對(duì)于微博用戶相似性度量的進(jìn)一步研究可以考慮利用微博用戶的其他信息進(jìn)行相似度計(jì)算,如使用點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論等交互信息來(lái)度量用戶相似性。

        圖3 四種算法的召回率對(duì)比

        猜你喜歡
        博文相似性度量
        有趣的度量
        一類(lèi)上三角算子矩陣的相似性與酉相似性
        第一次掙錢(qián)
        模糊度量空間的強(qiáng)嵌入
        淺析當(dāng)代中西方繪畫(huà)的相似性
        迷向表示分為6個(gè)不可約直和的旗流形上不變愛(ài)因斯坦度量
        誰(shuí)和誰(shuí)好
        低滲透黏土中氯離子彌散作用離心模擬相似性
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        地質(zhì)異常的奇異性度量與隱伏源致礦異常識(shí)別
        国产香蕉国产精品偷在线| 国产一区二区丁香婷婷| 日本成人免费一区二区三区| 色婷婷久久综合中文久久一本| 亚洲av成熟国产一区二区 | 中文字幕av人妻一区二区| 国产女主播福利在线观看| 亚洲国产高清精品在线| 婷婷久久香蕉五月综合加勒比| 亚洲精品久久国产高清情趣图文| 成人无码区免费AⅤ片WWW| 国产精品一区二区三区蜜臀| 国产视频激情视频在线观看| 国产亚洲精品久久久久久国模美| 国产激情久久久久影院老熟女| 婷婷五月综合激情| 经典女同一区二区三区| 亚洲精品中文字幕乱码| 97久久婷婷五月综合色d啪蜜芽 | 久久精品综合国产二区| 精品熟女av中文字幕| 国产乱码人妻一区二区三区| 99久久国产综合精品女图图等你| 无码AV高潮喷水无码专区线| av中文字幕在线资源网| 日本在线一区二区三区视频观看| 成人亚洲一区二区三区在线| 国产午夜精品一区二区三区不卡| 国产午夜激无码AV毛片不卡| 亚洲中字永久一区二区三区| 日韩中文字幕有码午夜美女| 无码一区二区三区亚洲人妻| 国产剧情福利AV一区二区| 久草国产手机视频在线观看| 最新中文字幕亚洲一区| 日本做受120秒免费视频| 人妻精品无码一区二区三区 | 熟妇人妻丰满少妇一区 | 久久道精品一区二区三区| 亚洲综合小综合中文字幕| 97se色综合一区二区二区|