亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶質(zhì)量的關(guān)注關(guān)系預(yù)測

        2015-05-15 10:19:03李旺龍李川
        現(xiàn)代計算機(jī) 2015年3期
        關(guān)鍵詞:信息網(wǎng)絡(luò)相似性節(jié)點

        李旺龍,李川

        (四川大學(xué)計算機(jī)學(xué)院,成都 610065)

        基于用戶質(zhì)量的關(guān)注關(guān)系預(yù)測

        李旺龍,李川

        (四川大學(xué)計算機(jī)學(xué)院,成都 610065)

        鏈接預(yù)測是當(dāng)前信息網(wǎng)絡(luò)研究中的熱點問題,旨在關(guān)注如何通過已知的網(wǎng)絡(luò)結(jié)構(gòu)等信息預(yù)測網(wǎng)絡(luò)中尚未產(chǎn)生連邊的兩個節(jié)點之間產(chǎn)生鏈接的概率,鏈接關(guān)系包含好友關(guān)系、follow關(guān)系、@關(guān)系。提出基于用戶質(zhì)量的關(guān)注關(guān)系鏈接預(yù)測的新方法LPR,基于真實數(shù)據(jù)的實驗表明,LPR方法較基于局部信息相似性和路徑相似性的方法,有較大的提升。

        用戶質(zhì)量;相似性;鏈接預(yù)測;微博

        0 引言

        微博中的鏈接關(guān)系包含好友關(guān)系、follow關(guān)系、@關(guān)系等。這些關(guān)系均為有向關(guān)系,可表示為一個有向圖。微博是一種典型的異構(gòu)信息網(wǎng)絡(luò)[1]。用戶和微博可看作網(wǎng)絡(luò)中的節(jié)點,用戶間、用戶與微博間可有不同類型的鏈接關(guān)系。鏈接預(yù)測是當(dāng)前信息網(wǎng)絡(luò)研究中的熱點問題,旨在關(guān)注如何通過已知的網(wǎng)絡(luò)結(jié)構(gòu)等信息預(yù)測網(wǎng)絡(luò)中尚未產(chǎn)生連邊的兩個節(jié)點之間產(chǎn)生鏈接的概率[2]。鏈接預(yù)測在不同的場景中有不同的應(yīng)用和價值。例如,在犯罪分子網(wǎng)絡(luò)中,鏈接預(yù)測可用來發(fā)現(xiàn)潛在的犯罪分子;在社交網(wǎng)絡(luò)中,鏈接預(yù)測可指示用戶間建立好友關(guān)系的可能性,為用戶提供好友推薦。另外,鏈接的產(chǎn)生隱含著網(wǎng)絡(luò)結(jié)構(gòu)的演化,抓住鏈接關(guān)系產(chǎn)生規(guī)律往往能揭示網(wǎng)絡(luò)的演化趨勢。

        常用的鏈接預(yù)測方法多是基于節(jié)點相似性進(jìn)行鏈接預(yù)測,這些相似性包括用戶屬性相似性[3]、局部拓?fù)浣Y(jié)構(gòu)相似性[4]和路徑相似性[5]等。節(jié)點間的相似性越高,鏈接關(guān)系的產(chǎn)生概率越大。然而,在微博這類在線社交網(wǎng)絡(luò)中系統(tǒng),僅憑借相似性很難刻畫用戶間鏈接關(guān)系產(chǎn)生的普遍規(guī)律。這主要因為:

        (1)網(wǎng)絡(luò)中的信息傳播[6]會對鏈接關(guān)系的產(chǎn)生有巨大影響,微博中用戶鏈接關(guān)系的產(chǎn)生往往是基于微博的發(fā)出與轉(zhuǎn)發(fā),微博被轉(zhuǎn)發(fā)的次數(shù)與該微博的發(fā)出者被其他用戶看到的概率成正比。

        (2)社會學(xué)中的重要規(guī)律現(xiàn)象,如馬太效應(yīng)[7]、二八定律[8]等,很難用相似性簡單表征。在社會網(wǎng)絡(luò)中占據(jù)較多資源或者處于較核心地位的人,會利用資源優(yōu)勢擴(kuò)充自己的資源。對微博中的鏈接關(guān)系而言,粉絲較多的用戶,會吸收更多的粉絲。

        本文針對上述問題進(jìn)行了研究,提出微博異構(gòu)信息網(wǎng)絡(luò)中用戶鏈接關(guān)系的預(yù)測新算法LPR(Link Prediction Regression)。該算法利用邏輯回歸(Logistic regression)[10]方法計算鏈接關(guān)系產(chǎn)生的概率。

        1 問題定義

        定義G(V;E;P)為一個屬性圖,其中V為節(jié)點集合,E為有向邊集合,P為節(jié)點和邊的屬性集合。網(wǎng)絡(luò)總節(jié)點數(shù)為N,邊數(shù)為M。網(wǎng)絡(luò)共有N*(N-1)條有向邊,即全集U。通過一種鏈路預(yù)測的方法,對節(jié)點對(x,y)∈(UE)所表示的有向邊賦予一個分?jǐn)?shù)值Sxy,分值越大表示有向邊產(chǎn)生的概率越大。

        針對微博異構(gòu)信息網(wǎng)絡(luò),可描述為:設(shè)G(V;E;P)為一個微博屬性圖,其中V為節(jié)點集合,包括微博和用戶這兩類;E為有向邊的集合,包括用戶與微博的鏈接關(guān)系(用戶發(fā)微博、用戶轉(zhuǎn)發(fā)微博)以及用戶與用戶的鏈接關(guān)系(關(guān)注);P為各類節(jié)點與連邊的屬性。預(yù)測不存在的鏈接關(guān)系(用戶與微博,或者用戶與用戶)產(chǎn)生的概率。

        2 預(yù)測算法LPR

        2.1 數(shù)據(jù)處理

        King-wa Fu[11]的研究表明在微博系統(tǒng)中存在大量的“僵尸用戶”。這些“僵尸用戶”多為營銷公司注冊,用來操縱關(guān)注人數(shù)獲取利益。這類用戶通常會關(guān)注大量用戶或者關(guān)注用戶數(shù)遠(yuǎn)大于其粉絲數(shù)。另一類是活躍度較低的用戶,這類用戶很少使用微博,通常關(guān)注的用戶很少。本文將這兩類用戶看作噪聲用戶。為減少噪聲用戶對鏈接預(yù)測方法的影響,對用戶進(jìn)行過濾顯得十分必要。過濾條件如下:

        (1)過濾關(guān)注人數(shù)小于5或者關(guān)注人數(shù)大于800的用戶。

        (2)過濾關(guān)注人數(shù)大于粉絲數(shù)20倍的用戶。

        (3)過濾前兩步處理后PR值較小的1%的用戶。

        2.2 特征定義

        在微博這種弱關(guān)系網(wǎng)絡(luò)中,用戶間以相同的興趣聚合在一起,兩個用戶間共同關(guān)注的用戶數(shù),可表征這兩個用戶興趣的相似性;而兩用戶共同粉絲數(shù),則可表征在其他用戶眼中他們的相似性。Jaccard[4]系數(shù),在考慮共同鄰居的同時也考慮了這兩個用戶的所有鄰居,能較合理地刻畫兩個用戶的結(jié)構(gòu)相似性。

        通常用路徑相似性來衡量網(wǎng)絡(luò)中兩個節(jié)點之間關(guān)系的強(qiáng)弱。設(shè)網(wǎng)絡(luò)中的兩個節(jié)點x和y,要衡量x到y(tǒng)這條鏈接關(guān)系的強(qiáng)弱,可以通過計算網(wǎng)絡(luò)中從x經(jīng)過任意一個中間節(jié)點z到達(dá)y的路徑的條數(shù)。

        在信息傳播理論當(dāng)中,網(wǎng)絡(luò)中的核心節(jié)點往往占有更多的資源,即二八定律。在微博網(wǎng)絡(luò)中,一些權(quán)威或影響力較高的用戶往往會擁有更多的粉絲。他們所發(fā)的微博會被更多其他用戶轉(zhuǎn)發(fā)。從而有了更多機(jī)會被其他用戶關(guān)注,即會產(chǎn)生馬太效應(yīng)。因此,對于一條待預(yù)測的用戶鏈接關(guān)系,兩個用戶會具有不同的影響力和權(quán)威值,他們的影響力和權(quán)威值,對這條鏈接關(guān)系會產(chǎn)生一定的影響

        定義(用戶質(zhì)量)(User Quality)設(shè)T表示用戶發(fā)出的微博數(shù),R表示用戶被轉(zhuǎn)發(fā)的微博數(shù),L表示用戶發(fā)出的包含鏈接的微博數(shù),PR為用戶在微博系統(tǒng)中的PR值,則用戶質(zhì)量可表示為:

        2.3 預(yù)測模型

        在LPR中,利用邏輯回歸可以計算出一條鏈接關(guān)系產(chǎn)生的概率P。將概率大于閾值θ的鏈接關(guān)系預(yù)測為將會產(chǎn)生,否則預(yù)測為不會產(chǎn)生。邏輯回歸的一般性表示如下:

        決策邊界:

        損失函數(shù):

        其中m為訓(xùn)練集的大小,n為回歸參數(shù)的數(shù)量,x(i)為第i個訓(xùn)練數(shù)據(jù),θj為第j個回歸參數(shù),λ為正則化參數(shù)。優(yōu)化求解時,采用隨機(jī)梯度下降法(SGD,Stochastic Gradient Descent)。由此,得到LPR算法具體過程為:

        (1)按2.1節(jié)的方法過濾后網(wǎng)絡(luò)中邊的集合為E。

        (2)隨機(jī)抽取若干網(wǎng)絡(luò)中的鏈接ET作為正例。

        (3)隨機(jī)抽取若干不存在于網(wǎng)絡(luò)中的鏈接EF作為負(fù)例。

        (4)在E-ET-EF的網(wǎng)絡(luò)中計算ET∪EF中所有節(jié)點的特征以及鏈接的特征,并將節(jié)點的特征轉(zhuǎn)換為鏈接關(guān)系的特征,最終鏈接關(guān)系的特征集為X。

        (5)將EF∪ET分為訓(xùn)練集、驗證集和測試集。

        (6)在訓(xùn)練集上訓(xùn)練模型,在驗證集上選擇使預(yù)測結(jié)果最優(yōu)的模型超參數(shù)(θ、λ、SGD百分比和SGD學(xué)習(xí)率),得到最終模型hθ(x)和閾值θ。

        (7)將測試集中任意一條鏈接關(guān)系代入模型,即可得到該鏈接關(guān)系產(chǎn)生的概率P。當(dāng)P>θ時,預(yù)測該鏈接關(guān)系將會產(chǎn)生,否則,預(yù)測該鏈接關(guān)系不會產(chǎn)生。

        3 實驗

        為衡量LPR算法的有效性,本文選取了真實的微博數(shù)據(jù),主要包括關(guān)注關(guān)系和微博信息數(shù)據(jù),并與基于局部結(jié)構(gòu)相似性和路徑相似性的鏈接預(yù)測方法進(jìn)行比較。在LPR中模型的訓(xùn)練與驗證階段,先按在驗證集上F-Score最大的得到2.3節(jié)提到的超參數(shù),再將學(xué)習(xí)率縮小為原來的一半,迭代不同的次數(shù)得到驗證集上不同的F-Score,如圖1所示。

        在計算基于局部結(jié)構(gòu)相似性時,定義兩個節(jié)點的局部結(jié)構(gòu)相似性為他們?nèi)攵群统龆确较騄accard系數(shù)的平均值。即:

        在計算基于路徑的相似性時,直接選取2.2節(jié)計算節(jié)點關(guān)系強(qiáng)度的特征,定義為TwoStep。在測試集上,LPR、SS與TwoStep的準(zhǔn)確率,召回率以及F-Score比較如圖2所示。

        圖1 LPR算法性能

        可以發(fā)現(xiàn),LPR較SS和TwoStep有明顯效果提升。其主要原因在于社交網(wǎng)絡(luò)具有高度稀疏性,絕大多數(shù)用戶間都沒有共同好友或好友間二步之內(nèi)不可達(dá),LPR綜合了結(jié)構(gòu)相似性與路徑相似性作為特征并且額外加入起點和終點用戶質(zhì)量作為特征,更細(xì)致地刻畫了用戶間鏈接關(guān)系的產(chǎn)生因素。

        4 結(jié)語

        本文基于信息傳播的理論,提出在微博這種異構(gòu)信息網(wǎng)絡(luò)中的用戶質(zhì)量度量,且提出了預(yù)測微博中用戶間鏈接關(guān)系產(chǎn)生的方法——LPR。鏈接預(yù)測是一個有廣泛應(yīng)用場景的研究問題,不同的場景對應(yīng)不同的異構(gòu)信息網(wǎng)絡(luò)。在不同的異構(gòu)信息網(wǎng)絡(luò)中,節(jié)點和邊的特征會有很大不同。傳統(tǒng)基于相似性的方法,在解決鏈接預(yù)測問題時,存在較大的局限性和主觀性。而LPR方法,綜合基于相似性的特征和用戶質(zhì)量。實驗結(jié)果證實了該方法的可行性與有效性。

        圖2 SS、TwoStep與LPR效果比較

        [1] Han J.Mining Heterogeneous Information Networks:the Next Frontier[C].Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.ACM,2012:2~3

        [2] 呂琳媛.復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測[J].電子科技大學(xué)學(xué)報,2010,39(5):652

        [3] Lin D.An Information-Theoretic Definition of Similarity[C].ICML.1998,98:296~304

        [4] Jaccard.http://en.wikipedia.org/wiki/Jaccard_index#References

        [5] Zhou T,Lü L,Zhang Y C.Predicting Missing Links Via Local Information[J].The European Physical Journal B,2009,71(4):623~630

        [6] 徐玉萍.網(wǎng)絡(luò)信息傳播規(guī)律研究[J].圖書館學(xué)研究,2010(6):14-17.

        [7] Merton R K.The Matthew Effect in Science[J].Science,1968,159(3810):56~63

        [8] Pareto_principle http://en.wikipedia.org/wiki/Pareto_principle

        [9] Brin S,Page L.The Anatomy of a Large-Scale Hypertextual Web Search Engine[J].Computer Networks and ISDN Systems,1998,30(1):107~117

        [10] 李航.統(tǒng)計學(xué)習(xí)方法[M].北京:清華大學(xué)出版社,2012

        [11] Fu K,Chau M.Reality Check for the Chinese Microblog Space:a Random Sampling Approach[J].PLoS ONE,2013,8(3):e58356

        Attention Link Prediction Based on User Data Quality

        LI Wang-long,LI Chuan
        (College of Computer Science,Sichuan University,Chengdu 610065)

        Link prediction is one of the most heated topics in information network research,which mainly concerns how to predict the probability of new links between different pairs of nodes,including friends,follow,@relationship,etc.Proposes a new method LPR for links prediction in the micro-blog information networks.Experiments of the real data show that the LPR method is far better than methods which are based on local information similarity and path similarity.

        User Data Quality;Similarity;Link Prediction;Micro-Blog

        1007-1423(2015)03-0003-04

        10.3969/j.issn.1007-1423.2015.03.001

        李旺龍(1990-),男,湖北孝感人,碩士,研究方向為數(shù)據(jù)挖掘、分布式計算

        李川(1977-),男,河南鄭州人,博士,副教授,碩士生導(dǎo)師,研究方向為數(shù)據(jù)庫、數(shù)據(jù)挖掘

        2014-12-25

        2015-01-10

        國家自然科學(xué)基金(No.61103043)、國家“十二五”科技支撐計劃項目(No.2012BAG04B02)、武漢大學(xué)軟件工程國家重點實驗室開放基金項目(No.SKLSE2012-09-26)

        猜你喜歡
        信息網(wǎng)絡(luò)相似性節(jié)點
        一類上三角算子矩陣的相似性與酉相似性
        CM節(jié)點控制在船舶上的應(yīng)用
        Analysis of the characteristics of electronic equipment usage distance for common users
        基于AutoCAD的門窗節(jié)點圖快速構(gòu)建
        淺析當(dāng)代中西方繪畫的相似性
        河北畫報(2020年8期)2020-10-27 02:54:20
        幫助信息網(wǎng)絡(luò)犯罪活動罪的教義學(xué)展開
        刑法論叢(2018年2期)2018-10-10 03:32:22
        非法利用信息網(wǎng)絡(luò)罪的適用邊界
        法律方法(2018年3期)2018-10-10 03:21:34
        網(wǎng)絡(luò)共享背景下信息網(wǎng)絡(luò)傳播權(quán)的保護(hù)
        幫助信息網(wǎng)絡(luò)犯罪活動罪若干問題探究
        低滲透黏土中氯離子彌散作用離心模擬相似性
        中日韩字幕中文字幕一区| 97人人模人人爽人人喊电影 | 国产真实乱人偷精品人妻| 国产精品系列亚洲第一| 亚洲国产成人久久精品美女av| 亚洲精品乱码久久久久久| 中文亚洲欧美日韩无线码| 国产精品三级一区二区按摩| 在线视频制服丝袜中文字幕| 视频一区视频二区亚洲免费观看| 在线亚洲精品一区二区三区| 国偷自拍av一区二区三区| 久久久国产精品黄毛片| 亚洲AV无码精品呻吟| 蜜桃av噜噜噜一区二区三区| 久久人妻中文字幕精品一区二区| 日日躁夜夜躁狠狠躁| 国产成人av一区二区三区在线| 国产av无码专区亚洲aⅴ | 国产成人精品免费久久久久 | 午夜免费观看日韩一级片| 无码国产色欲xxxx视频| 91spa国产无码| 白色月光在线观看免费高清 | 97碰碰碰人妻无码视频| 国产一区日韩二区欧美三区| 厕所极品偷拍一区二区三区视频| 国产精品国产三级国产av18| 性色av闺蜜一区二区三区| 国产福利片无码区在线观看 | 亚洲VA不卡一区| 亚洲一区二区av免费观看| 人妻制服丝袜中文字幕| 少妇人妻大乳在线视频不卡| 久久99国产伦精品免费| 亚洲中文字幕高清在线视频一区| 国产精品一区二区av麻豆| 国产av无码专区亚洲av| 国产三级黄色的在线观看| 人成综合视频在线播放| 国产一女三男3p免费视频|