亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于活動網(wǎng)絡(luò)的微博用戶影響力分析

        2018-09-21 10:04:36張鳳娟
        關(guān)鍵詞:用戶分析活動

        張鳳娟,王 濛,周 剛

        (信息工程大學(xué),河南 鄭州 450001)

        0 引 言

        微博作為一種在線社會網(wǎng)絡(luò)以其實(shí)時(shí)性、高效性吸引了大量用戶。與傳統(tǒng)在線社會網(wǎng)絡(luò)相比,微博用戶間只需通過“關(guān)注”行為便可獲得目標(biāo)用戶的微博信息,并以此構(gòu)成具有廣播性質(zhì)的社會信息傳播網(wǎng)絡(luò);用戶間交互方便,可以實(shí)時(shí)地獲取所關(guān)注用戶的消息并參與討論;而且微博具有多種信息發(fā)布平臺和發(fā)布形式,已經(jīng)逐漸成為人們傳播消息和獲取消息的重要媒介。

        在微博中,有一些用戶對信息傳播和話題發(fā)展起到了極大的促進(jìn)和推動作用,或者能夠?qū)ζ渌脩舢a(chǎn)生很大的影響,這些用戶被稱為有影響力的用戶,這些用戶能夠引導(dǎo)微博輿論的發(fā)展方向。分析并預(yù)測微博網(wǎng)絡(luò)中的用戶影響力,有利于分析輿情在網(wǎng)絡(luò)中的傳播軌跡,追蹤熱點(diǎn)話題的關(guān)鍵人物,為輿情分析提供支持,準(zhǔn)確判斷影響力高的用戶,以便進(jìn)行網(wǎng)絡(luò)輿情引導(dǎo)或者社會網(wǎng)絡(luò)營銷等。

        影響力一般認(rèn)為是一種以別人樂于接受的方式,改變他人情感、思想或行為的能力。在微博平臺上,用戶影響力本質(zhì)上是某用戶發(fā)布的帖子等信息引起其他用戶行為改變的能力,一個(gè)用戶對其他用戶的作用越大,該用戶的影響力也越大。用戶通過發(fā)布微博消息、評論他人的消息等行為來表達(dá)自己的情感與觀點(diǎn),通過關(guān)注、轉(zhuǎn)發(fā)、評論等與其他用戶交互。文中認(rèn)為那些影響力很大的用戶,他們的微博信息,很多都會在微博網(wǎng)絡(luò)中影響其他用戶,與之交互的用戶越多,受其影響的用戶也越多,表明該用戶的影響力也就越大。

        因此,做出兩個(gè)假設(shè):微博中用戶通過發(fā)布信息和行為影響他人;信息和行為的傳播依賴于用戶間的交互行為?;诖?,文中首先根據(jù)用戶間的交互行為構(gòu)建活動網(wǎng)絡(luò),在此基礎(chǔ)上利用用戶的行為特征結(jié)合用戶間交互的強(qiáng)度改進(jìn)PageRank算法,提出了一種新的基于活動網(wǎng)絡(luò)的微博用戶影響力分析算法—ANR,并通過實(shí)驗(yàn)進(jìn)行驗(yàn)證。

        1 相關(guān)工作

        近年來,隨著互聯(lián)網(wǎng)的迅速發(fā)展,微博呈現(xiàn)爆炸式發(fā)展,對于微博的研究受到了科研人員的廣泛關(guān)注。在微博網(wǎng)絡(luò)中用戶是處于核心地位的,許多文獻(xiàn)都對微博網(wǎng)絡(luò)尤其是微博Twitter中的用戶影響力進(jìn)行探索,主要側(cè)重于對用戶屬性和網(wǎng)絡(luò)結(jié)構(gòu)兩個(gè)方面的研究。Kwak等[1]研究了社交網(wǎng)站Twitter中的數(shù)據(jù),使用了粉絲數(shù)、微博被轉(zhuǎn)發(fā)數(shù)以及PageRank算法對用戶影響力進(jìn)行了分析,對排序結(jié)果的相關(guān)性進(jìn)行比較,實(shí)驗(yàn)結(jié)果說明基于粉絲數(shù)的排序結(jié)果和采用PageRank算法的排序結(jié)果具有較強(qiáng)的相關(guān)性,但是,基于粉絲數(shù)的排序結(jié)果卻與基于轉(zhuǎn)發(fā)數(shù)的排序結(jié)果有很大差別。Cha等[2]分別從粉絲數(shù)、轉(zhuǎn)發(fā)數(shù)和評論次數(shù)三個(gè)屬性對微博用戶影響力進(jìn)行考量,通過實(shí)驗(yàn)對比了三種用戶影響力排序方法,得出的結(jié)論與文獻(xiàn)[1]類似,即粉絲數(shù)越多不代表具有越大的影響力,說明了粉絲數(shù)并不是衡量用戶影響力的唯一與最好指標(biāo)。Web Ecology Project中對用戶影響力的研究[3]同樣表明粉絲數(shù)多并不代表具有較大的影響力,像轉(zhuǎn)帖的次數(shù)、回復(fù)的次數(shù)、瀏覽的次數(shù)等這些代表用戶發(fā)表話題的受關(guān)注程度的屬性也是評價(jià)用戶影響力的重要指標(biāo)。上述對微博用戶影響力的衡量方法大多依賴于主觀感覺,文獻(xiàn)[4]通過對微博中多種指標(biāo)的回歸分析詳細(xì)研究了不同屬性在信息傳播中的作用,并以此來度量用戶影響力,實(shí)驗(yàn)表明,用戶行為和交互的特征比微博網(wǎng)絡(luò)的靜態(tài)拓?fù)涮卣?比如粉絲數(shù))更能反映用戶的影響力大小。

        PageRank算法[5]是Google創(chuàng)始人Lary Page和Sergey Brin提出的,是Google搜索重要的網(wǎng)頁排名算法。它主要是通過網(wǎng)頁之間的鏈接結(jié)構(gòu)來確定網(wǎng)頁的重要性,不僅可以衡量網(wǎng)頁的重要度,由于微博用戶節(jié)點(diǎn)間的交互行為類似網(wǎng)頁的鏈接關(guān)系,因此該算法還可以用來評價(jià)社會網(wǎng)絡(luò)中用戶影響力的大小。Daniel Tunkelang[6]改進(jìn)了PageRank算法,將隨機(jī)游走的思想和用戶微博數(shù)量等特征用于Twitter中用戶影響力的排序上,提出了用戶影響力計(jì)算的TunkRank算法。文獻(xiàn)[1]中也用到了PageRank算法,并與用戶粉絲數(shù)、被轉(zhuǎn)發(fā)數(shù)度量用戶影響力的方法進(jìn)行了比較。Weng等[7]對PageRank算法進(jìn)行了改進(jìn),提出了判斷用戶在給定某個(gè)話題內(nèi)的影響力的TwitterRank算法。Lü等[8]以傳統(tǒng)PageRank算法為基礎(chǔ)提出了LeaderRank算法,該算法通過附加一個(gè)超級節(jié)點(diǎn)來處理PageRank算法中孤懸節(jié)點(diǎn)和網(wǎng)絡(luò)不連通等問題。和PageRank算法相比,LeaderRank算法的優(yōu)勢有無額外參數(shù)、適用范圍廣、收斂性好和排序結(jié)果穩(wěn)定等。但是這些方法,都只是研究了網(wǎng)絡(luò)結(jié)構(gòu)而沒有考慮用戶屬性和用戶的交互行為。

        綜上所述,以往對微博用戶影響力度量的方法無論是基于粉絲數(shù)還是基于對PageRank算法的改進(jìn),都只是分析了微博網(wǎng)絡(luò)的不同拓?fù)涮卣骰蚬?jié)點(diǎn)間的相互作用且多是直接使用微博網(wǎng)絡(luò)的靜態(tài)拓?fù)渥鹘Y(jié)構(gòu)作為分析的基礎(chǔ)。但是微博網(wǎng)絡(luò)的靜態(tài)拓?fù)渲魂P(guān)注了網(wǎng)絡(luò)中的好友關(guān)系,而忽略了用戶間的真實(shí)交互情況。文獻(xiàn)[9-10]的研究表明,社交網(wǎng)絡(luò)中的用戶交互網(wǎng)絡(luò)遠(yuǎn)小于基于好友關(guān)系的靜態(tài)網(wǎng)絡(luò),網(wǎng)絡(luò)中有大量“不活動”的用戶,即“僵尸”用戶,顯然,使用包含大量“僵尸”用戶的關(guān)系網(wǎng)來度量用戶影響力是不夠準(zhǔn)確的。另外,還有研究僅使用被轉(zhuǎn)發(fā)數(shù)、被評論數(shù)、用戶被提及數(shù)等來度量用戶影響力,這些指標(biāo)雖然考慮到了用戶之間的交互行為,但是僅利用了交互行為在單個(gè)目標(biāo)上的聚合結(jié)果,沒有考慮用戶間交互行為的強(qiáng)弱和相互作用。

        因此,文中將微博用戶間的交互行為作為度量用戶影響力的標(biāo)準(zhǔn),首先基于用戶交互行為建立活動網(wǎng)絡(luò)(activity network)[11-13],結(jié)合用戶交互行為強(qiáng)度、用戶在網(wǎng)絡(luò)中的活躍度、PageRank算法等因素,提出了一種基于活動網(wǎng)絡(luò)來評估微博用戶影響力的新算法。

        2 建立活動網(wǎng)絡(luò)

        2.1 活動網(wǎng)絡(luò)在微博中的運(yùn)用

        活動網(wǎng)絡(luò)是在用戶交往的基礎(chǔ)上建立起來的網(wǎng)絡(luò),但是這種交往并不一定是友好關(guān)系,這種網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)稱為活動拓?fù)浣Y(jié)構(gòu)[9]。例如,微博用戶通常通過互相關(guān)注(follow)、互相提及(mention)、轉(zhuǎn)發(fā)動態(tài)(retweet)和評論回復(fù)(remark)四種行為進(jìn)行網(wǎng)絡(luò)互動行為。通過這幾種主要行為來構(gòu)建活動網(wǎng)絡(luò)。

        2.2 微博活動網(wǎng)絡(luò)構(gòu)建算法

        以三元組Gr=(V,E,D)形式表示活動網(wǎng)絡(luò)G,其中:

        r∈R={follow,mention,retweet,remark}:活動網(wǎng)絡(luò)對應(yīng)的用戶交互行為;

        V={vi|i=1,2,…,N}:活動網(wǎng)絡(luò)的節(jié)點(diǎn)集合,每個(gè)節(jié)點(diǎn)對應(yīng)一個(gè)微博用戶,N為網(wǎng)絡(luò)中的節(jié)點(diǎn)數(shù)目;

        E={(vi,vj,wij)|vi,vj∈V,i≠j,viRvj}:活動網(wǎng)絡(luò)的邊集合,viRvj定位為節(jié)點(diǎn)vi和節(jié)點(diǎn)vj間產(chǎn)生了交互R,wij為邊的權(quán)值,與交互R的次數(shù)、類型等相關(guān);

        D={di|i=1,2,…,L}:活動網(wǎng)絡(luò)中節(jié)點(diǎn)的屬性向量,對于每一個(gè)屬性向量,都有一個(gè)節(jié)點(diǎn)與之對應(yīng)。

        微博用戶的所有交互活動內(nèi)容都在微博文本上得以體現(xiàn)。結(jié)構(gòu)化信息可以從半結(jié)構(gòu)化微博文本中提取,從而間接完成網(wǎng)絡(luò)活動的構(gòu)建,這些結(jié)構(gòu)化信息主要包括微博用戶的網(wǎng)絡(luò)節(jié)點(diǎn)及其相互之間的聯(lián)系。

        構(gòu)建微博活動網(wǎng)絡(luò)的主要過程為:

        (1)進(jìn)行節(jié)點(diǎn)獲取,得到用戶基本信息,把微博用戶的節(jié)點(diǎn)集結(jié)起來,形成集合V。

        (2)分析節(jié)點(diǎn)間的關(guān)系,通過對微博用戶互動行為的分析,把用戶節(jié)點(diǎn)間的關(guān)系集結(jié)起來,形成集合E,把用戶交互行為的次數(shù)記錄下來,當(dāng)作邊的屬性。

        (3)提取網(wǎng)絡(luò)屬性,分析數(shù)據(jù)和網(wǎng)絡(luò)需求,通過對用戶節(jié)點(diǎn)屬性的構(gòu)造,得到邊與節(jié)點(diǎn)之間的屬性結(jié)果,比如節(jié)點(diǎn)的訪出和訪問可以由用戶的好友數(shù)和粉絲數(shù)來代表,可以作為用戶網(wǎng)絡(luò)行為的特征表示,用戶相互間的行為邊屬性特征等也可以因此表示出來。選取屬性時(shí)可以參考數(shù)據(jù)的儲量和算法需求程度對其進(jìn)行合理設(shè)置。

        3 基于活動網(wǎng)絡(luò)的微博用戶影響力分析

        在微博網(wǎng)絡(luò)中,用戶之間的聯(lián)系是通過關(guān)注關(guān)系形成的,但是這個(gè)關(guān)注是單方面的用戶網(wǎng)絡(luò)行為,用戶v可以單向關(guān)注用戶u,而且并不用得到用戶u的同意確認(rèn),甚至可以把用戶u的動態(tài)隨時(shí)隨地發(fā)給其他關(guān)注了用戶u的人follow(u),對用戶u的評論、回復(fù)和轉(zhuǎn)發(fā)等操作都沒有限制,這樣的信息交互過程如圖1(a)所示。通過關(guān)注關(guān)系建立起來的就是好友關(guān)系網(wǎng)絡(luò),利用這個(gè)網(wǎng)絡(luò)建立信息傳播和交互機(jī)制,用戶可以方便地獲取信息和發(fā)布消息,并對其他用戶產(chǎn)生影響。因此,傳統(tǒng)對用戶影響力的評價(jià)都是通過分析好友關(guān)系網(wǎng)絡(luò)的拓?fù)涮卣鲗?shí)現(xiàn)的。

        但是,還有一些特殊功能,不同的用戶分為了不同的圈子,圈子內(nèi)的用戶可以隨意互相評論其他用戶的微博動態(tài),而不用互相關(guān)注。這種消息傳播模式的一個(gè)應(yīng)用如新浪微博微吧,其中,用戶圈子內(nèi)信息傳播的主要途徑不再是由關(guān)注行為構(gòu)成的好友關(guān)系網(wǎng)絡(luò),而是通過評論、轉(zhuǎn)發(fā)、提及等交互行為構(gòu)成的新網(wǎng)絡(luò),如圖1(b)所示。

        所以,文中首要任務(wù)就是在微博用戶行為分析的基礎(chǔ)上建立活動網(wǎng)絡(luò),再借鑒PageRank算法的隨機(jī)游走思想建立用戶影響力分析模型,最后結(jié)合節(jié)點(diǎn)的行為特征對鏈接分析過程進(jìn)行優(yōu)化。

        圖1 微博網(wǎng)絡(luò)中信息的不同傳播模式

        3.1 PageRank算法

        PageRank算法是Google搜索重要的網(wǎng)頁排名算法,它主要是通過網(wǎng)頁之間的鏈接結(jié)構(gòu)來確定網(wǎng)頁的重要性。由于微博網(wǎng)絡(luò)中的用戶節(jié)點(diǎn)鏈接關(guān)系與網(wǎng)頁節(jié)點(diǎn)間的鏈接關(guān)系相似,可以用PageRank算法來分析在線社會網(wǎng)絡(luò)中重要用戶、發(fā)現(xiàn)最優(yōu)話語權(quán)的用戶。PageRank算法的基本原理如下:凡是一個(gè)網(wǎng)頁受到用戶的擁護(hù)和追捧,而得到了很高的排名,那么它必然與許多其他網(wǎng)頁相鏈接。PageRank算法的兩個(gè)基本假設(shè):(1)網(wǎng)頁的重要程度是和頁面的入鏈數(shù)呈正比的;(2)網(wǎng)頁的入鏈質(zhì)量越高,網(wǎng)頁就越重要,從而就會向其他頁面?zhèn)鬟f更多的權(quán)重。PageRank算法可以表述為:

        (1)

        其中,p1,p2,…,pN表示網(wǎng)頁;M(pi)表示頁面pi的頁面鏈入數(shù);L(pj)表示頁面pj的頁面鏈出數(shù);N表示網(wǎng)絡(luò)中的頁面數(shù)量;PageRank(pi)表示頁面pi的PageRank值,所有頁面的PageRank值構(gòu)成網(wǎng)絡(luò)的PageRank向量;q表示用戶繼續(xù)瀏覽該頁面之后的頁面的概率,通常概率值為0.85;1-q表示用戶瀏覽該頁面之后的頁面的概率。

        文中將PageRank算法的思想用于微博網(wǎng)絡(luò)用戶影響力排名,但是微博活動網(wǎng)絡(luò)與互聯(lián)網(wǎng)有很大不同,傳統(tǒng)的PageRank算法有很大的局限性。

        (1)傳統(tǒng)PageRank算法只是在Web網(wǎng)絡(luò)的基礎(chǔ)上建立起來的頁面鏈接關(guān)系,符合二元關(guān)系,這種關(guān)系大部分建立在微博好友關(guān)系的基礎(chǔ)上,不過大多時(shí)候,比如在熱門話題的討論、微吧、微群中,用戶信息并不是沿著好友關(guān)系鏈傳播而是通過特定的用戶分組或用戶群傳播,用戶間不需要添加為好友就可以直接進(jìn)行交互。因此將PageRank算法用于基于回復(fù)/評論的活動網(wǎng)絡(luò),而不是好友關(guān)系網(wǎng)絡(luò)。

        (2)傳統(tǒng)PageRank算法沒有考慮到節(jié)點(diǎn)間的相互作用是不同的。微博用戶的相互聯(lián)系越強(qiáng)烈,相互間的影響就越大。在微博好友關(guān)系網(wǎng)中,邊僅代表關(guān)注與被關(guān)注關(guān)系,一次即可完成,微博用戶之間在互相評論、回復(fù)、轉(zhuǎn)發(fā)等多次交互行為時(shí)產(chǎn)生了很多相互疊加的關(guān)系。PageRank算法中在計(jì)算PageRank數(shù)值時(shí),假設(shè)權(quán)值轉(zhuǎn)移是相同的,并沒有把節(jié)點(diǎn)的重要性考慮進(jìn)去。

        (3)傳統(tǒng)PageRank算法只考慮了靜態(tài)節(jié)點(diǎn),沒有考慮動態(tài)節(jié)點(diǎn),只考慮了網(wǎng)頁節(jié)點(diǎn)之間的關(guān)系對節(jié)點(diǎn)的重要影響,沒有考慮微博用戶的行為特征,這種行為特征是具有自主能動性的。在分析節(jié)點(diǎn)之間的傳播上,PageRank數(shù)值只考慮了節(jié)點(diǎn)的結(jié)構(gòu),沒有考慮節(jié)點(diǎn)的非結(jié)構(gòu)行為帶來的活躍特征程度。在網(wǎng)絡(luò)活動中用戶的行為例如發(fā)布微博動態(tài)、評論回復(fù)、轉(zhuǎn)發(fā)等都會在很大程度上影響信息的傳播,PageRank算法沒有很好地體現(xiàn)這一特征。

        3.2 在微博用戶網(wǎng)絡(luò)活動基礎(chǔ)上的影響力分析算法

        為了更準(zhǔn)確地衡量微博用戶的影響力,適應(yīng)活動網(wǎng)絡(luò)的特點(diǎn),文中對PageRank算法進(jìn)行了改進(jìn),設(shè)計(jì)了基于活動網(wǎng)絡(luò)的用戶影響力排序算法—ANR算法。

        已知活動網(wǎng)絡(luò)Gr=(V,E,A),算法描述為:

        (2)

        (3)

        (4)

        同時(shí)定義用戶ui對用戶uj的交互序列為:

        actionsi→j=r1,r2,…,rM,rm∈R,m=1,2,…,M

        (5)

        用戶節(jié)點(diǎn)活躍度h(ui)為用戶評論他人和發(fā)帖的總數(shù):

        (6)

        用戶間交互強(qiáng)度g(uj,ui)為用戶間交互次數(shù):

        (7)

        4 實(shí) 驗(yàn)

        4.1 數(shù)據(jù)集

        文中實(shí)驗(yàn)數(shù)據(jù)來自于新浪微博中的“微吧”。微吧是一個(gè)基于主題討論與交流的社區(qū),上線于新浪微博,實(shí)現(xiàn)了微博內(nèi)容的按主題聚合、深度討論和潛在熱點(diǎn)挖掘。微吧的顯著特點(diǎn)為同一微吧內(nèi)的用戶都是關(guān)注同一主題的,具有較高的聚合度和活躍度,用戶不需關(guān)注即可獲取微吧內(nèi)其他用戶所發(fā)的消息,用戶間的主要交互方式為評論或回復(fù),適合進(jìn)行影響力分析。

        通過網(wǎng)絡(luò)爬蟲抓取了新浪微博鄭州微吧部分帖子及其回復(fù)信息,抽取參與討論的用戶信息以及微吧內(nèi)用戶間的交互信息建立活動網(wǎng)絡(luò),并使用新浪微博API采集用戶的屬性特征,比如用戶的朋友數(shù)量、粉絲數(shù)量、發(fā)帖數(shù)等。同時(shí),可以通過對抓取的帖子的分析得到用戶在微吧內(nèi)的相應(yīng)屬性特征。其基本信息如表1所示。

        表1 基本信息

        通過對表1的分析可以發(fā)現(xiàn),微吧內(nèi)每個(gè)用戶交互量是用戶關(guān)注關(guān)系量的5.8倍,相比于非好友用戶數(shù)量,在微博貼吧內(nèi)完全沒有交互關(guān)系的用戶數(shù)量只占了4.1%。圖2和圖3是用戶在微吧內(nèi)和在全網(wǎng)絡(luò)的好友關(guān)系數(shù)量的CDF圖,通過對所有用戶微吧內(nèi)和全網(wǎng)內(nèi)關(guān)系數(shù)量的研究得出結(jié)論,微博貼吧內(nèi)的朋友數(shù)量和粉絲數(shù)量僅占全網(wǎng)朋友數(shù)和粉絲數(shù)的一小部分,分別是5.2%和1.2%。間接說明了基于微博用戶交互的活動網(wǎng)絡(luò)比僅使用好友關(guān)系網(wǎng)絡(luò)來分析用戶影響力更具有合理性。

        圖2 用戶在微吧內(nèi)的朋友數(shù)和全網(wǎng)的朋友數(shù)

        圖3 用戶在微吧內(nèi)的粉絲數(shù)和全網(wǎng)的粉絲數(shù)

        4.2 實(shí)驗(yàn)及分析

        4.2.1 對比算法

        為驗(yàn)證ANR算法,運(yùn)用以下兩種常用影響力度量方法作為對照:

        (1)PageRank算法:PageRank算法是經(jīng)典的網(wǎng)絡(luò)算法,微博中的用戶影響力排序就是通過該算法進(jìn)行的。另外,ANR算法是在PageRank算法的基礎(chǔ)上優(yōu)化得來的,所以PageRank算法是基本對比算法之一,并且是在好友關(guān)系網(wǎng)絡(luò)的基礎(chǔ)上建立起來的。

        (2)粉絲數(shù):使用關(guān)注微吧中用戶的粉絲數(shù)進(jìn)行影響力排序,稱為FansC(fans count)算法。Twitter等已經(jīng)使用了該方法,它也被當(dāng)作對比算法作為許多文獻(xiàn)的參考。該方法也是文中的基準(zhǔn)算法。

        4.2.2 實(shí)驗(yàn)結(jié)果

        表2左側(cè)給出了在ANR、PageRank和FansC三種影響力排序算法的基礎(chǔ)上得到的Top-20名用戶。觀察可得,PageRank與FansC兩種方法得到的Top-10有相同用戶重疊(不考慮排名),Top-20也有14名重疊用戶—得到的結(jié)果與其他文獻(xiàn)的研究結(jié)果相同[1],PageRank與FansC兩種方法得到的用戶排名結(jié)果是近似的。

        表2 三種排序方法的前20名用戶

        表3給出了上述三種排序算法以及按發(fā)帖數(shù)、評論數(shù)Top-10和Top-20的共同覆蓋率??梢钥闯?,ANR算法得到的Top-10/20用戶與用PageRank和FansC方法得到的用戶的相同率僅有20%左右。ANR算法是否可行,可以從排名結(jié)果上看出,排名結(jié)果可以使用發(fā)帖數(shù)和被評論數(shù)進(jìn)行分析—這兩個(gè)指標(biāo)在一定程度上表現(xiàn)了用戶行為的數(shù)量和質(zhì)量,文獻(xiàn)[4,14]的結(jié)論表明這兩項(xiàng)都能夠較好地表示用戶的影響力。

        表3 不同方法TopN共同覆蓋用戶比例

        表3給出了Top-20用戶的相關(guān)屬性特征,分析可得如下結(jié)論:

        (1)ANR算法預(yù)測得到的Top-20用戶的發(fā)帖數(shù)和被評論數(shù)普遍較高;在所預(yù)測的Top-20用戶中,三種算法的平均發(fā)帖數(shù)量分別為233.7、96.5和98.9;而對于不在ANR Top-20的用戶中,基于PageRank和基于粉絲數(shù)FansC兩種算法的平均發(fā)帖量僅為2.1和2.3。另外,可以看出,不在ANR算法Top-20的用戶中有很大一部分沒有或者很少在微吧中發(fā)帖子。

        “影響”在維基百科和現(xiàn)代漢語詞典中定義為“對別人的思想、情感或行為起作用”,發(fā)帖數(shù)體現(xiàn)了用戶的活躍程度,被回復(fù)數(shù)則體現(xiàn)了該用戶的影響力,是否影響了別人。通過結(jié)論(1)的分析可知,ANR算法預(yù)測的Top-20用戶發(fā)帖數(shù)和被評論數(shù)都比PageRank和FansC算法預(yù)測的高,也證明文中算法是有效的。

        (2)分析ANR算法得到Top-20用戶,發(fā)現(xiàn)一些發(fā)帖數(shù)較少的用戶也有所出現(xiàn)。例如“一米Andrew”、“_馨小馨錢多多_”、“Nice-u”等三個(gè)用戶的發(fā)帖數(shù)僅為1,但仍然排進(jìn)了Top-20。分析這些用戶的評論發(fā)現(xiàn):這些用戶的評論中存在大量自己的回復(fù),而PageRank算法計(jì)算中無法識別這類問題,會大幅度提高這類節(jié)點(diǎn)的得分值。另外還發(fā)現(xiàn),有些用戶只活躍在早期,但排名仍然靠前。典型用戶為“新浪鄭州汽車”,只有5個(gè)帖子的發(fā)帖量。這5個(gè)帖子都是在微博建立之初發(fā)布的,但是由于一些微吧活躍的用戶,如“櫻空旭”、“凡心”等,使得該用戶的影響力比實(shí)際要高很多。

        結(jié)論2表現(xiàn)了ANR算法的問題,即Native PageRank算法本身具有的缺點(diǎn),在對時(shí)間的感覺上不是很敏感。

        不過在預(yù)測用戶影響力的排名時(shí),PageRank和FansC方法基本無法準(zhǔn)確預(yù)測出微吧內(nèi)的有影響力用戶,而ANR算法能較準(zhǔn)確找出有影響力的用戶,也就是說文中算法對于預(yù)測用戶影響力在像微吧這樣的應(yīng)用中是有效的。

        5 結(jié)束語

        通過分析現(xiàn)有對微博用戶影響力的相關(guān)研究,提出一種在活動網(wǎng)絡(luò)基礎(chǔ)上的新算法-ANR。該算法針對傳統(tǒng)微博用戶影響力評估的一些問題,考慮用用戶交互行為構(gòu)建活動網(wǎng)絡(luò),結(jié)合個(gè)人的屬性特征和行為特征兩方面體現(xiàn)在PageRank算法中,進(jìn)而預(yù)測用戶影響力。通過對微吧數(shù)據(jù)的分析表明,基于活動網(wǎng)絡(luò)的微博用戶影響力算法對影響力的識別準(zhǔn)確性超過了基于好友關(guān)系網(wǎng)絡(luò)的PageRank算法和基于粉絲數(shù)排序的算法。另一方面,ANR算法的種種問題也在實(shí)驗(yàn)中表現(xiàn)出來,忽視了用戶的自我評論傾向和時(shí)間對用戶評論行為預(yù)測的影響。

        影響微博用戶準(zhǔn)確評估涉及的因素是多方面的[15]。文中單獨(dú)舉出了評論這一種網(wǎng)絡(luò)行為,其他的交互模式以及用戶屬性特征也會對用戶影響力預(yù)測產(chǎn)生較大影響,如果能將多種因素有效結(jié)合將大大提高用戶影響力預(yù)測的準(zhǔn)確度。

        猜你喜歡
        用戶分析活動
        “六小”活動
        “活動隨手拍”
        行動不便者,也要多活動
        中老年保健(2021年2期)2021-08-22 07:31:10
        隱蔽失效適航要求符合性驗(yàn)證分析
        電力系統(tǒng)不平衡分析
        電子制作(2018年18期)2018-11-14 01:48:24
        三八節(jié),省婦聯(lián)推出十大系列活動
        海峽姐妹(2018年3期)2018-05-09 08:20:40
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        電力系統(tǒng)及其自動化發(fā)展趨勢分析
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        很黄很色的女同视频一区二区| 一本大道久久a久久综合| 人妻丝袜中文字幕久久| 亚洲精品中字在线观看| 国产欧美亚洲精品第一页| 国产中老年妇女精品| 久久久久成人精品免费播放网站| 中文字幕手机在线精品| 邻居少妇张开腿让我爽了一夜| 好屌草这里只有精品| 亚洲AV永久天堂在线观看| 日本视频一区二区三区三州| 97人妻人人揉人人躁九色| 欧美成人午夜精品久久久| 亚洲中文字幕久久精品蜜桃| 久久偷拍国内亚洲青青草| 国产精品无码制服丝袜| av潮喷大喷水系列无码| 综合91在线精品| 人妻少妇中文字幕专区| 欧美噜噜久久久xxx| 国产高潮国产高潮久久久| 日韩精人妻无码一区二区三区| 国产av精选一区二区| 午夜免费福利小电影| 在线看亚洲十八禁网站| 亚洲精品中文字幕尤物综合 | 久久婷婷五月综合97色一本一本| 国产精品亚洲综合一区在线观看| 白白视频在线免费观看| 亚洲精品一区三区三区在线| 三叶草欧洲码在线| 亚洲VA中文字幕欧美VA丝袜| 青青草是针对华人绿色超碰| 亚洲爆乳精品无码一区二区三区 | 亚洲精品日韩自慰喷水白浆| 99久久免费中文字幕精品| 亚洲一区二区三区内裤视| 少妇高潮惨叫正在播放对白| 在线视频青青草猎艳自拍69 | 久久天堂一区二区三区av|