亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶分析的微博用戶影響力度量模型

        2015-04-21 08:28:57張紹武林鴻飛魏現(xiàn)輝
        中文信息學報 2015年4期
        關鍵詞:度量影響力指標

        張紹武,尹 杰,林鴻飛,魏現(xiàn)輝

        (大連理工大學 計算機科學與技術學院信息檢索研究室, 遼寧 大連 116024)

        ?

        基于用戶分析的微博用戶影響力度量模型

        張紹武,尹 杰,林鴻飛,魏現(xiàn)輝

        (大連理工大學 計算機科學與技術學院信息檢索研究室, 遼寧 大連 116024)

        微博用戶影響力作為影響力研究在微博領域的延伸,已逐漸成為一個研究熱點。該文在傳統(tǒng)影響力度量指標的基礎上,結合微博價值、消息傳播過程中產(chǎn)生的影響力擴散以及用戶的活躍程度,提出了三種新影響力度量方法,包括微博影響力、行為影響力以及活躍度影響力。此外,通過有效融合上述三種新度量方法提出了新的微博用戶影響力度量模型。最后,針對不同影響力度量指標,該文對它們的內(nèi)部關系進行分析,并闡述了影響力度量指標之間關聯(lián)程度及形成原因。

        用戶影響力;新浪微博;傳播路徑

        1 引言

        隨著網(wǎng)絡的飛速發(fā)展,通過哪些因素來衡量網(wǎng)絡用戶的影響力以及如何挖掘有影響力的用戶已逐漸成為研究熱點。微博用戶影響力作為影響力研究在微博領域的延伸,目前逐漸引起了廣泛的關注。

        目前,已有不少學者對微博用戶影響力進行了研究探討。其中,Cha等人[1]提出了三種用戶影響力的度量方法,包括入度、轉發(fā)、提及,并且基于這些方法分析了不同主題、時間下用戶的影響力。Ye等人[2]對Twitter中用戶粉絲數(shù)影響力、回復影響力、轉發(fā)影響力進行了分析,并指出回復和轉發(fā)是穩(wěn)定的衡量指標。Weng等人[3]針對微博用戶數(shù)和關系數(shù)服從均勻分布的特點,提出一種主題敏感的TwitterRank算法。與此同時,Lee等人[4]提出一種基于時間序列的影響力排序方法,不僅考慮鏈接結構,還加入了用戶發(fā)布微博的時間戳信息,該方法可以挖掘出一些擁有潛在影響力的用戶。Romero等人[5]在充分考慮并分析了用戶影響力和抵抗力后,提出一種新的影響力度量方法IP-influence。HP實驗室的Huberman等人[6]對新浪微博分析后發(fā)現(xiàn),與Twitter用戶在行為上相比,新浪微博用戶主要關注笑話、圖片或視頻等娛樂類消息。此外,石磊等人[7]針對單一排名機制的不足,綜合考慮用戶在微博平臺經(jīng)常出現(xiàn)的三個行為,提出了用戶活躍度模型,并從多個方面考察了用戶的活躍狀態(tài)。

        本文對于用戶影響力的研究主要討論三個問題: 第一,用戶影響力度量方法;第二,用戶各類影響力指標之間的聯(lián)系;第三,名人圈中各類影響力指標是否符合冪律分布。其中,影響力度量方法,本文首先實現(xiàn)傳統(tǒng)影響力度量方法[1-2],包括粉絲數(shù)影響力、轉發(fā)數(shù)影響力、評論影響力、微博數(shù)影響力,其次,考慮用戶發(fā)布消息的傳播范圍,本文針對評論影響力以及級聯(lián)影響力進行研究,再次,加入用戶的活躍度因素,并最終提出一種融合用戶行為和微博影響力的影響力度量模型。

        文章的組織結構如下: 第二部分對相關定義進行說明,第三部分詳細介紹本文的主要研究方法,第四部分是實驗結果及分析,第五部分進行總結并展望下一步工作。

        2 相關定義

        本文根據(jù)前人研究[1-2]歸納為以下四種常見的影響力度量指標。

        1. 粉絲影響力(If): 用來衡量首次傳播消息的能力。用戶擁有越多的粉絲,該用戶的影響力越大。通常也稱為度影響力。

        2. 評論影響力(Ic): 用來衡量被用戶評論的能力。用戶擁有越多的評論,該用戶的影響力越大。

        3. 轉發(fā)影響力(Ir): 用來衡量消息被其他用戶轉發(fā)的能力。用戶擁有越多的轉發(fā)次數(shù),該用戶的影響力越大。

        4. 微博數(shù)目影響力(It): 用來衡量用戶發(fā)布微博的能力。用戶發(fā)布微博數(shù)目越多,該用戶的影響力越大。

        3 微博用戶影響力度量模型

        3.1 用戶微博影響力

        用戶微博影響力主要衡量微博的價值。一個用戶的微博影響力影響因素有很多種,例如,微博消息的新奇程度、發(fā)布微博的頻率、微博的質量等。對于用戶而言,在時間序列上微博影響力是一個累積的過程,本文將所有微博影響力的平均值作為用戶的微博影響力。

        (1)

        圖1針對用戶的微博記錄進行統(tǒng)計,并比較了評論數(shù)和轉發(fā)數(shù)的量級差異。如圖1(左)所示,Y軸Ratio表示轉發(fā)數(shù)不小于評論數(shù)的微博數(shù)目占該用戶微博總數(shù)目的比例,另外兩個坐標軸分別展示用戶的評論數(shù)和轉發(fā)數(shù),圖示1(左)中具體信息及計算公式如圖1(右)中所示。通過統(tǒng)計信息可知,約70%的用戶轉發(fā)數(shù)目大于評論數(shù)目(Q1&&Q4),超過80%的用戶單條消息轉發(fā)數(shù)大于評論數(shù)(Q1&&Q2)。

        圖1 比較評論數(shù)和轉發(fā)數(shù)

        為了平衡評論數(shù)和轉發(fā)數(shù)的量級,本文通過式(2)計算每一條微博消息的影響力。其中,ReNum和CoNum分別為用戶第i條微博消息的轉發(fā)數(shù)和評論數(shù)。

        (2)

        3.2 用戶行為影響力

        基于微博消息傳播機制中,用戶的行為影響力主要體現(xiàn)在兩個方面: 直接影響力和級聯(lián)影響力[2]。一般情況,直接影響力用來衡量用戶對其粉絲集合的影響程度,而級聯(lián)影響力用來衡量用戶發(fā)布微博的輻射范圍。用戶的行為影響力定義如下:

        (3)

        (4)

        其中,twNumui、faNumui分別表示用戶ui對應的微博數(shù)和粉絲數(shù)。相較之下,級聯(lián)影響力從多跳的角度對影響力進行了補充,如微博消息經(jīng)過用戶直接粉絲的轉發(fā)可以到達更多的用戶,使得用戶的影響力得到擴散和傳播。

        (5)

        3.3 用戶活躍度影響力

        用戶活躍度反映用戶在微博圈中的活躍程度,主要通過用戶的主動和被動行為體現(xiàn)。主動行為一般包括發(fā)布、轉發(fā)、評論、關注四種行為;被動行為包括被關注行為。Cha等人[1]發(fā)現(xiàn)如果用戶ui經(jīng)常發(fā)布微博消息,則ui表現(xiàn)出持續(xù)的影響力;ui轉發(fā)或主動評論uj微博消息更容易引起uj的注意[8],結果通常是獲得uj的回復或最終促使uj成為ui的粉絲;同時,用戶ui的添加關注行為反映用戶對于微博平臺的關注度在提升。石磊等人[7]給出用戶活躍指數(shù)模型,將用戶粉絲、用戶添加關注的頻率與用戶發(fā)布微博的頻率結合,提出了用戶的活躍指數(shù)的計算方法。本文更全面的考慮用戶的主動和被動行為,將轉發(fā)和評論行為加入模型中,用戶ui的活躍度影響力計算方法如下:

        (6)

        其中,k為影響因子的個數(shù),即上文所提及的五個影響因子;Ti.first、Ti,end分別為用戶ui的第j類影響因子最新發(fā)生的時間以及最早發(fā)生的時間,兩者的差為用戶ui的第j類影響因子發(fā)生的總天數(shù);ni,j為用戶ui第j類影響因子的總數(shù)。

        3.4 用戶影響力度量模型

        在上述三個討論的基礎上,本文提出用戶影響力度量模型,同時,使用層次分析法[9-10]計算不同指標在反映用戶影響力時的權重。

        (7)

        4 實驗結果與分析

        4.1 實驗設置

        本文選取新浪微博名人堂用戶作為數(shù)據(jù)集來源,語料具體規(guī)模如表1所示。

        表1 數(shù)據(jù)集規(guī)模

        由于不同度量指標之間存在較大差異,在進行加權融合之前須進行歸一化處理,使得融合的度量指標在同一量級上,因而,本文對各類影響力指標進行歸一化操作,具體方法見式(8)。

        (8)

        4.2 評價方法

        為了量化影響力序列的差別,本文采用如下三種常見的評價方法進行度量:Spearman序列相關系數(shù)ρ[12-13]、KendallTau序列相關系數(shù)τ[14-15]以及重疊率Overlap[2]。其中,重疊率的定義如式(9)所示。

        (9)

        4.3 實驗結果及分析

        本節(jié)中實驗的影響力圖示用曲線圖展示(圖2),多項式擬合信息用餅圖展示(圖3)。點堆積曲線展示用戶影響力的實際狀況,均為歸一化后的排序結果,虛線為利用指數(shù)曲線進行擬合的圖樣,實曲線為利用指數(shù)的泰勒級數(shù)展開(即多項式)對原始數(shù)據(jù)進行高度擬合的圖樣。

        4.3.1 傳統(tǒng)影響力指標分析

        從石磊等人[7]的研究可知,整個微博網(wǎng)絡中用戶的粉絲數(shù)、關注數(shù)、微博數(shù)等指標均呈現(xiàn)冪律分布的特點,那么在名人網(wǎng)絡中,是否也出現(xiàn)該類現(xiàn)象呢?本文以傳統(tǒng)影響力度量的形式展現(xiàn)名人圈中用戶各類指標的分布。

        圖2 粉絲影響力

        圖3 粉絲影響力多項式擬合

        圖4 評論影響力

        由圖4可知,用戶的評論基本符合冪指數(shù)分布趨勢。同時,多項式擬合的結果(圖5)表明約有70位用戶處于影響力高的狀態(tài),占據(jù)總人數(shù)的10%;約47位用戶處于影響力較高狀態(tài),占據(jù)總人數(shù)的7%;其余84%為一般影響力的用戶分布。

        圖5 評論影響力多項式擬合

        由圖6可知,用戶的轉發(fā)也基本符合冪指數(shù)分布趨勢。多項式擬合的結果(圖7)表明約有73位用戶處于影響力高的狀態(tài),占據(jù)總人數(shù)的10%;約61位用戶處于影響力較高狀態(tài),占據(jù)總人數(shù)的9%;其余81%為一般影響力的用戶分布。

        圖6 轉發(fā)影響力

        圖7 轉發(fā)影響力多項式擬合

        由圖8可知,冪指數(shù)對于用戶微博數(shù)目分布的擬合效果欠佳。相較之下,多項式擬合的實曲線基本符合實際數(shù)據(jù)的變化趨勢,曲線擬合度R2=0.983 0。圖9中多項式擬合的結果表明約有76位用戶處于影響力高的狀態(tài),占據(jù)總人數(shù)的11%;約55位用戶處于影響力較高狀態(tài),占據(jù)總人數(shù)的8%;其余82%為一般影響力的用戶分布。

        圖8 微博數(shù)目影響力

        圖9 微博數(shù)目影響力多項式擬合

        綜上所述,名人圈中用戶的粉絲數(shù)、關注數(shù)、轉發(fā)數(shù)基本符合冪律分布的趨勢。

        4.3.2 用戶影響力度量模型

        (1) 影響因素權重設置

        本文實驗中通過標注法得到的判定矩陣如表2所示,之后使用方根法對矩陣進行特征向量的計算,并將最終得到的權重向量置于表2最后一行。

        表2 影響因素權重

        (2) 影響因素融合

        圖10 用戶影響力

        圖11 用戶影響力多項式擬合

        4.3.3 影響力度量指標關系

        由上述實驗結果可知,具有較高影響力的用戶范圍處于[13%, 19%],即[96, 135]。本文三個指標中τ和Overlap有意義范圍在較高影響力的群體中,即本文期望通過實驗得知: 在較高影響力群體中,即topn,同一用戶在不同影響力度量指標下排名序列差異情況,同樣數(shù)目的用戶在不同影響力度量指標下覆蓋情況。因而,本文設置參數(shù)n=140。

        (1) 傳統(tǒng)影響力度量指標關聯(lián)度

        表3展示傳統(tǒng)影響力度量指標之間相關度,ρ指標對應一列實驗值幾乎接近1,說明相同排名的用戶之間的影響力值相差不大。τ指標對應一列實驗值均比較小,說明同一用戶在不同影響力度量指標下排名序列差異較大。

        表3 傳統(tǒng)影響力度量指標之間相關度

        由Overlap一列可知,用戶的粉絲數(shù)與微博數(shù)之間的關系較小,說明擁有很多粉絲的用戶,對微博消息的更新頻率不一定很高,即這些用戶不一定是活躍用戶。另外,用戶的微博數(shù)目與用戶微博的轉發(fā)數(shù)以及評論數(shù)之間的關系較小,說明一個用戶如果發(fā)布的微博沒有價值,那么微博不可能出現(xiàn)大量的轉發(fā)或評論行為,即一條有價值的微博更容易被傳播??煽闯觯脩舻脑u論數(shù)和轉發(fā)數(shù)之間關聯(lián)密切,原因在與微博平臺提供的轉發(fā)機制,當用戶轉發(fā)一條微博時,往往會加入自己對于該條微博的評論,而這個評論可以有選擇的回復給微博原始發(fā)布者,從這個角度考慮,用戶的評論數(shù)和轉發(fā)數(shù)關系密切。

        (2) 新影響力度量指標關聯(lián)度

        表4 新影響力度量指標之間相關度

        表4展示新影響力度量指標之間相關度,Tw、Us、Ac分別為用戶微博影響力、用戶行為影響力以及用戶活躍度影響力。從ρ和τ指標同樣可以發(fā)現(xiàn),相同排名用戶之間的影響力相差不大,而同一用戶在不同影響力度量指標下排名序列差異仍較大。由Overlap可知,三種新影響力度量指標中Tw、Us與Ac之間的關聯(lián)不大,但Tw和Us之間的相關度略高,原因在于Tw和Us兩者的衡量標準均基于用戶發(fā)布的微博,而Ac僅從時間角度考慮用戶的影響力。

        (3) 用戶影響力度量指標與其余指標關聯(lián)度

        表5展示用戶影響力度量指標之間相關度,In為用戶影響力簡稱。由Overlap一列可知,首先用戶影響力指標與用戶的微博影響力關聯(lián)密切,與用戶的粉絲數(shù)關聯(lián)最差,即用戶發(fā)布微博的質量直接影響用戶的影響力提升,由于一條有價值的微博更容易被轉發(fā)或評論,因而,綜合考慮兩方面因素的用戶微博影響力指標與最終的用戶影響力指標關聯(lián)密切。同時,再次說明用戶的粉絲數(shù)不是決定影響力的絕對因素。其次,用戶影響力指標與用戶微博數(shù)目影響力以及用戶活躍度影響力之間的關聯(lián)也較強,說明用戶的活躍程度直接影響用戶的影響力提升,該結論與Romero等人[16]的觀點不謀而合。

        表5 用戶影響力度量指標之間相關度

        5 總結

        本文通過對傳統(tǒng)影響力度量指標以及新影響力度量指標的分析,展現(xiàn)不同衡量標準下,用戶影響力的變化。實驗說明,用戶影響力與粉絲數(shù)關聯(lián)不大,而與微博影響力關聯(lián)較強,即有價值的微博更容易被傳播;用戶影響力指標與用戶活躍度影響力之間的關聯(lián)較強,即用戶在平臺下的活躍程度直接影響用戶的影響力提升。

        未來工作可以考慮以下兩點: 第一,本文采用的加權融合方法是最簡單的線性融合,下一步可以優(yōu)化參數(shù),或者考慮采用邏輯回歸等方法進行融合;第二,尋找新的度量方法,從而挖掘微博平臺下各項影響力指標均穩(wěn)定的用戶,進而實現(xiàn)影響力用戶的推薦。

        [1] M Cha, H Haddadi, F Benevenuto, et.al. Measuring User Influence in Twitter: The Million Follower Fallacy [C]//Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media. Washington, DC, USA, 2010: 10-17.

        [2] Ye S, Wu S F. Measuring Message Propagation and Social Influence on Twitter.com[J]. Springer Berlin, 2010: 216-231.

        [3] Weng J, Lim E P, Jiang J, et al. TwitterRank: Finding Topic-sensitive Influential Twitterers[C]//Proceedings of the third ACM international conference on Web search and data mining. New York, NY, USA, 2010:261-270.

        [4] Lee C, Kwak H, Park H, et al. Finding influentials based on the temporal order of information adoption in twitter[C]//Proceedings of the 19th international conference on world wide web. New York, NY, USA, 2010: 1137-1138.

        [5] Romero D M, Galuba W, Asur S, et al. Influence and passivity in social media[J]. Springer Berlin Heidelberg, 2011: 18-33.

        [6] Yu L, Asur S, Huberman B A. What trends in chinese social media[C]//Proceedings of the 5th SNA-KDD Workshop on Social Network Mining and Analysis. San Diego, CA USA, 2011: 37.

        [7] 石磊, 張聰, 衛(wèi)琳. 引入活躍指數(shù)的微博用戶排名機制[J]. 小型微型計算機系統(tǒng), 2012, 33(1):110-114.

        [8] Kwee A T, Lim E P, Achananuparp P, et al. Follow Link Seeking Strategy—A Pattern Based Approach [C]//Proceedings of the 6th SNA-KDD Workshop on Social Network Mining and Analysis. Beijing, China, 2012.

        [9] Thomas L. Saaty L. Theory and applications of the analytic network process[M]. Pittsburgh: RWS Publications, 2005.

        [10] Thomas L. Saaty. Decision making with the analytic hierarchy process[J].International Journal of Services Sciences, 2008, 1(1): 83-98.

        [11] Barabasi A-L, Albert R. Emergence of Scaling in Random Networks[J]. Science, 1999, 286( 5439): 509-512.

        [12] Zar J H. Significance Testing of the Spearman Rank Correlation Coefficient[J]. Journal of the American Statistical Asso, 1972, (67): 578-580.

        [13] Spearman C. The proof and measurement of association between two things[J]. The American Journal of Psychology, 1904, 15(1): 72-101.

        [14] Sen P K. Estimates of the Regression Coefficient Based on Kendall’s Tau[J]. Journal of the American Statistical Association, 1968, (63):1379-1382.

        [15] Kendall M G. A new measure of rank correlation[J]. Biometrika, 1938, 30(1/2): 81-93.

        [16] Romero D M, Galuba W, Asur S, et al. Influence and passivity in social media[J]. Springer Berlin Heidelberg, 2011: 18-33.

        [17] 尹杰,基于用戶分析的微博信息過濾研究[D],大連: 大連理工大學碩士學位論文,2013.

        A Micro-blog User Influential Model Based on User Analysis

        ZHANG Shaowu, YIN Jie, LIN Hongfei, WEI Xianhui

        (Information Retrieval Laboratory, College of Computer Science and Technology,Dalian University of Technology, Dalian, Liaoning 116024, China)

        As an extension of the user influence research, micro-blog user influence mining is becoming a hot research issue. Based on traditional user influence measures, we propose three novel methods to mining micro-blog user influence in terms of the value of micro-blogging, the proliferation influence of message propagation and the user active level. Meanwhile, a user influence model including tweet influence, behavior influence, and activity influence is presented. Finally, for different influence indicators, we describe their internal relations with discussions for possible reasons.

        user influence; sina microblog; propagation path

        張紹武(1967—),博士,副教授,主要研究領域為社會計算、情感分析和文本挖掘。E-mail:zhangsw@dlut.edu.cn尹杰(1987—),碩士,主要研究領域為社會媒體處理。E-mail:china20070917@yahoo.com林鴻飛(1962—),博士,教授,主要研究領域為信息檢索、社會計算、情感分析和自然語言處理。E-mail:hflin@dlut.edu.cn

        1003-0077(2015)04-0059-08

        2013-07-29 定稿日期: 2013-11-15

        國家自然科學基金(60973068,61277370);遼寧省自然科學基金(201202031,2014020003)

        TP391

        A

        猜你喜歡
        度量影響力指標
        有趣的度量
        模糊度量空間的強嵌入
        迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
        最新引用指標
        莫讓指標改變初衷
        商周刊(2018年26期)2018-12-29 12:56:00
        天才影響力
        NBA特刊(2018年14期)2018-08-13 08:51:40
        黃艷:最深遠的影響力
        人大建設(2017年11期)2017-04-20 08:22:49
        地質異常的奇異性度量與隱伏源致礦異常識別
        3.15消協(xié)三十年十大影響力事件
        傳媒不可估量的影響力
        人間(2015年21期)2015-03-11 15:24:39
        囯产精品无码va一区二区| 国产精品高清一区二区三区不卡| 亚洲综合av一区二区三区| 老熟妇高潮喷了╳╳╳| 99在线国产视频| 自拍偷拍韩国三级视频| 亚洲av无码码潮喷在线观看| 特黄a级毛片免费视频| 女同性恋精品一区二区三区| 能看不卡视频网站在线| 国产乱子伦精品无码专区| 无码综合天天久久综合网| 一区二区视频观看在线| 成人自拍偷拍视频在线观看| 日本大乳高潮视频在线观看| 久久国产色av| 亚洲综合色婷婷七月丁香| 亚洲国产一区二区三区精品| 最新国产福利在线观看精品| 香蕉视频在线观看国产| 中文少妇一区二区三区| 不卡一区二区黄色av| 日本公妇在线观看中文版| 亚洲av在线播放观看| 国产亚洲中文字幕久久网| 黄桃av无码免费一区二区三区| 日本a级特黄特黄刺激大片| 亚洲美女性生活一级片| 国产在线一区二区三精品乱码| 人妻夜夜爽天天爽一区| 91成人午夜性a一级毛片| 大香蕉青青草视频在线| 成人乱码一区二区三区av| 五月天综合在线| 激情视频国产在线观看| 久久精品99国产精品日本| 久久精品亚洲中文字幕无码网站| 国产精品亚洲A∨无码遮挡| 亚洲人成网站色在线入口口| 毛多水多www偷窥小便| 99久久精品一区二区三区蜜臀|