亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)聯(lián)關(guān)系的微博用戶可信度分析方法

        2017-05-24 14:45:22李付民佟玲玲杜翠蘭李揚(yáng)曦張仰森
        計(jì)算機(jī)應(yīng)用 2017年3期
        關(guān)鍵詞:影響力用戶評(píng)價(jià)

        李付民,佟玲玲,杜翠蘭,李揚(yáng)曦,張仰森

        (1.北京信息科技大學(xué) 智能信息處理研究所,北京 100192; 2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100190) (*通信作者電子郵箱tongling300@sina.com)

        基于關(guān)聯(lián)關(guān)系的微博用戶可信度分析方法

        李付民1,佟玲玲2*,杜翠蘭2,李揚(yáng)曦2,張仰森1

        (1.北京信息科技大學(xué) 智能信息處理研究所,北京 100192; 2.國(guó)家計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)急技術(shù)處理協(xié)調(diào)中心,北京 100190) (*通信作者電子郵箱tongling300@sina.com)

        隨著微博研究的深入,對(duì)微博用戶可信度的評(píng)價(jià)成為一個(gè)研究熱點(diǎn)。針對(duì)微博用戶可信度評(píng)價(jià)的問(wèn)題,提出了一種基于關(guān)聯(lián)關(guān)系的用戶可信度分析方法。以新浪微博為研究對(duì)象,首先從用戶的資料信息、交互信息和行為信息三個(gè)方面出發(fā),分析了用戶的7個(gè)相關(guān)特征,利用層次分析法(AHP),進(jìn)而得到用戶自評(píng)價(jià)可信度;然后以用戶自評(píng)價(jià)作為基點(diǎn),以用戶關(guān)系網(wǎng)絡(luò)作為載體,結(jié)合用戶之間潛在的用戶互評(píng)關(guān)系,通過(guò)改進(jìn)PageRank算法,提出了用戶可信度評(píng)價(jià)模型User-Rank,進(jìn)而,利用關(guān)系網(wǎng)絡(luò)中其他用戶對(duì)待分析用戶的可信度進(jìn)行綜合評(píng)價(jià)。大規(guī)模的微博真實(shí)數(shù)據(jù)的實(shí)驗(yàn)表明,所提方法能夠取得良好的用戶可信度評(píng)價(jià)效果。

        用戶自評(píng)價(jià);關(guān)系網(wǎng)絡(luò);用戶可信度;用戶關(guān)聯(lián)關(guān)系;層次分析法;PageRank

        0 引言

        近年來(lái),隨著社交網(wǎng)絡(luò)的快速發(fā)展,微博作為一種開放式社交網(wǎng)絡(luò)媒體,憑借其實(shí)時(shí)、簡(jiǎn)潔、靈活、快捷的特點(diǎn),快速地融入到人們生活的各個(gè)方面。它不僅具有社交媒體的特性,而且還具有今非昔比的社會(huì)服務(wù)價(jià)值。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center, CNNIC)發(fā)布的《2015年中國(guó)社交應(yīng)用用戶行為研究報(bào)告》[1]指出,微博是用戶獲取和分享最新資訊和興趣愛好的重要平臺(tái)。新華網(wǎng)發(fā)布《2015年全國(guó)政務(wù)新媒體綜合影響力報(bào)告》[2]統(tǒng)計(jì)數(shù)據(jù)顯示:截止到2015年12月,我國(guó)政務(wù)微博認(rèn)證賬號(hào)(含新浪、騰訊兩大微博平臺(tái))達(dá)到28.4萬(wàn)個(gè),累計(jì)覆蓋人次達(dá)45億以上。微博作為時(shí)下流行的大眾化信息傳播媒介,處于網(wǎng)絡(luò)輿論傳播中心地位。它不僅滿足用戶及時(shí)了解新聞熱點(diǎn)、興趣內(nèi)容、對(duì)新聞熱點(diǎn)事件的評(píng)論等需求,同時(shí)在政府新聞機(jī)構(gòu)也得到了廣泛的應(yīng)用和極大的推廣。

        由于微博的開放性和交互性等因素,越來(lái)越多的國(guó)內(nèi)民眾注冊(cè)微博,成為微博這一草根媒體的一員。隨著微博的普及,微博用戶的可信度[3]問(wèn)題成為亟待解決的問(wèn)題。目前微博用戶可信度的研究大都是基于統(tǒng)計(jì)學(xué)的方法,通過(guò)統(tǒng)計(jì)微博用戶的粉絲數(shù)、原創(chuàng)或轉(zhuǎn)發(fā)微博數(shù)量、用戶交互頻率、用戶被@次數(shù)等特征來(lái)進(jìn)行研究的,這些特征只是從靜態(tài)的角度反映了該微博用戶的可信度,并沒(méi)有考慮用戶關(guān)系網(wǎng)絡(luò)[4]中其他微博用戶的可信度對(duì)該用戶的可信度造成的影響,因此難以全面地評(píng)價(jià)微博用戶的可信度。

        本文基于用戶關(guān)聯(lián)關(guān)系對(duì)用戶可信度評(píng)價(jià)方法進(jìn)行研究,創(chuàng)新性工作主要包括:

        1)從用戶資料信息、用戶交互信息、用戶行為信息[5-6]綜合考慮出發(fā),分析了用戶可信度的相關(guān)度量特征,構(gòu)建了用戶可信度自評(píng)價(jià)模型。

        2)結(jié)合用戶自評(píng)價(jià)值,利用用戶關(guān)系網(wǎng)絡(luò),完成對(duì)微博用戶可信度評(píng)價(jià)模型的構(gòu)建。

        1 相關(guān)工作

        針對(duì)微博用戶可信度的問(wèn)題,已有不少學(xué)者對(duì)微博用戶進(jìn)行了研究探討。

        Cha等[7]提出了三種度量用戶影響力的方法(被關(guān)注數(shù)量、被轉(zhuǎn)發(fā)次數(shù)、被提及次數(shù)),通過(guò)對(duì)三種方法的分析比較發(fā)現(xiàn):被關(guān)注數(shù)量少的用戶的影響力一定很低,但是擁有較多關(guān)注者的用戶其影響力并不一定高。也就說(shuō),簡(jiǎn)單通過(guò)統(tǒng)計(jì)關(guān)注者數(shù)量來(lái)度量用戶影響力的方法并不一定有效。

        Bakshy等[8]把微博轉(zhuǎn)發(fā)樹作為用戶影響力的度量指標(biāo),通過(guò)分析消息傳播網(wǎng)絡(luò)中消息傳播的廣度和深度,使用回歸樹的方法,來(lái)度量用戶的社會(huì)影響力大小。該研究認(rèn)為用戶發(fā)布微博的轉(zhuǎn)發(fā)規(guī)模決定了用戶影響力的大小。

        Castillo等[9]提取用戶發(fā)布和轉(zhuǎn)發(fā)行為、微博文本信息和外部鏈接引用等三類特征,并利用決策樹來(lái)評(píng)估與相關(guān)的“趨勢(shì)”的主題的微博帖子的可信度。針對(duì)微博用戶,他們提取每個(gè)用戶微博發(fā)布數(shù)量、關(guān)注的好友數(shù)量、微博注冊(cè)時(shí)間和粉絲數(shù)量作為微博用戶特征,由于缺乏對(duì)用戶的權(quán)威性的考慮,因此,難以全面地衡量微博用戶的可信度。

        毛佳昕等[10]考慮用戶行為因素和微博傳播網(wǎng)絡(luò)結(jié)構(gòu)兩方面的信息,通過(guò)分析微博的時(shí)效性、用戶訪問(wèn)微博的時(shí)間分布和用戶轉(zhuǎn)發(fā)微博的喜好等用戶行為因素的關(guān)系,提出了用戶所發(fā)微博在全局范圍內(nèi)被轉(zhuǎn)發(fā)的次數(shù)這一影響因子,并結(jié)合社會(huì)影響力在微博關(guān)系網(wǎng)絡(luò)中的傳播情況,來(lái)度量用戶社會(huì)影響力。研究表明,用戶傳播信息能力的大小反映了用戶的社會(huì)影響力。

        張紹武等[11]針對(duì)消息傳播過(guò)程中產(chǎn)生的影響力、用戶的活躍程度以及微博消息的價(jià)值,提出了三種影響力度量方法(用戶行為影響力、用戶活躍度影響力和微博影響力),通過(guò)分析影響力指標(biāo)之間關(guān)聯(lián)程度,構(gòu)建了一種融合上述三種度量方法的微博用戶影響力度量模型。研究表明,用戶影響力和用戶活躍度影響力與微博影響力之間的關(guān)聯(lián)較強(qiáng),即活躍度較高的用戶,其發(fā)布的有價(jià)值的微博更能提升自身影響力。

        縱觀國(guó)內(nèi)外學(xué)者對(duì)于微博可信度的研究,大多集中研究了各種可能影響微博可信度的因素,但鮮有涉及用戶關(guān)系網(wǎng)絡(luò)對(duì)微博用戶可信度的潛在影響及其作用機(jī)制?;诖耍疚膶⒀芯繉?duì)象鎖定在國(guó)內(nèi)新浪微博上,在國(guó)內(nèi)外學(xué)者研究的基礎(chǔ)上,引入用戶關(guān)系網(wǎng)絡(luò)中的用戶關(guān)聯(lián)關(guān)系對(duì)微博用戶的可信度進(jìn)行評(píng)價(jià)。

        2 微博用戶可信度模型分析

        2.1 用戶可信度的自評(píng)價(jià)模型

        本文對(duì)新浪微博進(jìn)行了詳盡的分析,從用戶資料信息、用戶行為信息和用戶交互信息三個(gè)方面出發(fā),對(duì)影響微博用戶可信度的自評(píng)價(jià)效果的相關(guān)特征進(jìn)行度量,提出微博用戶可信度的自評(píng)價(jià)模型。

        2.1.1 用戶資料信息

        一般地,如果用戶個(gè)人基本資料的公開程度越高,用戶發(fā)布、轉(zhuǎn)發(fā)以及評(píng)論微博時(shí)會(huì)保持較高的道德標(biāo)準(zhǔn),公眾對(duì)這類用戶的信任程度通常也很高。用戶資料信息的完整度一定程度上反映了用戶的可信度?;谛吕宋⒉?duì)用戶資料信息進(jìn)行提取,包括用戶資料信息中的10項(xiàng)標(biāo)簽的內(nèi)容:性別、生日、地區(qū)、騰訊QQ、博客、簡(jiǎn)介、標(biāo)簽、教育信息、職業(yè)信息和認(rèn)證信息。

        構(gòu)建向量A用以表示用戶基本資料的填寫情況,如式(1)所示:

        A=(x1,x2,…,xn)

        (1)

        其中xi表示序號(hào)為i的標(biāo)簽是否包含信息:xi=0表示第i號(hào)標(biāo)簽不存在有效信息;xi=1表示第i號(hào)標(biāo)簽存在有效信息。

        考慮到新浪微博用戶注冊(cè)時(shí),用戶提交的用戶資料信息可能不準(zhǔn)確,在數(shù)據(jù)預(yù)處理階段,本文對(duì)用戶提交的資料信息進(jìn)行過(guò)濾預(yù)處理。對(duì)經(jīng)過(guò)預(yù)處理的用戶資料信息,本文把其作為判斷用戶可信度的一個(gè)維度。用戶向量模型構(gòu)建算法流程如圖1所示。

        圖1 用戶向量模型構(gòu)建算法流程

        定義1 用戶資料完整度為用戶注冊(cè)微博平臺(tái)賬號(hào)時(shí)主觀意愿上向公眾公開的個(gè)人基本信息標(biāo)簽所占所有信息標(biāo)簽的比例。

        通過(guò)計(jì)算向量A的稀疏度來(lái)確定用戶資料完整度(UserInfo Integrity, UI),如式(2)所示:

        (2)

        其中:UI(u)表示用戶資料完整度函數(shù),n是用戶資料向量A的總維度。

        2.1.2 用戶行為信息

        從用戶行為信息出發(fā),本文考慮用戶發(fā)布或轉(zhuǎn)發(fā)微博中非鏈接域比率、內(nèi)容多樣性、微博活躍度和時(shí)間活躍度這四個(gè)特征。

        1)非鏈接域比率。

        通常情況下,每條微博文本都較為簡(jiǎn)短,一些廣告用戶通常會(huì)選用“在微博消息中添加鏈接”的方式發(fā)布廣告推廣、產(chǎn)品營(yíng)銷等垃圾微博信息。Al-Khalifa等[12]通過(guò)對(duì)Twitter的分析,考慮文本中是否含有鏈接這一特性。本文用“不含URL(UniformResoureLocator)微博比”來(lái)描述用戶微博中不含有鏈接的微博占比(NoURLRate,NR),如式(3)所示:

        (3)

        其中:NR(u)表示用戶u發(fā)布的所有微博中不含鏈接的微博比例;Num(u)表示用戶u的微博總數(shù);函數(shù)Url(i)表示用戶u發(fā)布微博中第i條微博中是否包含鏈接,若包含鏈接返回值為1,反之返回值為0。

        2)內(nèi)容多樣性。

        微博用戶中既有正常用戶也有僵尸用戶。正常用戶的微博內(nèi)容富含用戶個(gè)人色彩,語(yǔ)言表達(dá)形式多樣;僵尸用戶是指那些虛假賬號(hào),一般通過(guò)人為控制、自動(dòng)轉(zhuǎn)發(fā)特定信息的賬號(hào),目的性較強(qiáng),發(fā)布的微博大多具有針對(duì)性。通過(guò)對(duì)廣告用戶、垃圾用戶等一些有目的性的微博用戶的分析,本文發(fā)現(xiàn),這類用戶發(fā)布的微博內(nèi)容在一段時(shí)間內(nèi)比較集中,通常具有目的性。特別是廣告用戶,他們發(fā)布的微博內(nèi)容重復(fù)率特別高。這類用戶發(fā)布的微博內(nèi)容去重之后,有效字?jǐn)?shù)較少。為了更好地區(qū)分正常用戶與垃圾用戶或者有目的性的用戶,本文認(rèn)為,從微博用戶發(fā)布的歷史微博內(nèi)容出發(fā),考慮微博短文本的特性、微博內(nèi)容有效字?jǐn)?shù),在一定程度上能反映微博用戶的差異性,進(jìn)而對(duì)微博用戶的可信度進(jìn)行分析。

        基于微博文本的特性,以字為最小單位,計(jì)算微博用戶內(nèi)容的多樣性(ContentDiversity,ConD),如式(4)所示:

        (4)

        其中:ConD(u)表示微博用戶內(nèi)容的多樣性,Con(i)表示微博用戶第i條微博的內(nèi)容,Num(u)表示用戶u的微博總數(shù),Len(m)表示微博文本m的長(zhǎng)度,Dis(C)表示微博文本集C去重后的字?jǐn)?shù)。

        3)微博活躍度。

        該指標(biāo)指的是用戶在更新微博、轉(zhuǎn)發(fā)微博的活躍程度。微博活躍度越高,說(shuō)明該微博用戶經(jīng)常借助微博互動(dòng)行為,與其他用戶實(shí)現(xiàn)信息共享。一方面表明該用戶所發(fā)布的微博、評(píng)論等具有比較強(qiáng)的傳播能力,另一方面也說(shuō)明該用戶的可信度比較高,其他用戶對(duì)其信任程度也較高。

        定義2 用戶微博活躍度(ActivityDegree,AD)為微博用戶在一定時(shí)間內(nèi),通過(guò)發(fā)布或者轉(zhuǎn)發(fā)微博,與他人進(jìn)行微博信息共享的頻率,如式(5)所示:

        (5)

        其中:AD(u)表示用戶微博活躍度,NumT(u)表示用戶u在時(shí)間T內(nèi)的原創(chuàng)微博總數(shù),ReblogT(u)表示用戶u在時(shí)間T內(nèi)的轉(zhuǎn)發(fā)關(guān)注者的微博總數(shù),AttT(u)表示用戶u在時(shí)間粒度T內(nèi)的關(guān)注者數(shù),常數(shù)T為時(shí)間粒度量,γ為用戶原創(chuàng)微博數(shù)的權(quán)重,δ為用戶轉(zhuǎn)發(fā)微博數(shù)的權(quán)重。

        例如:用戶A有5個(gè)關(guān)注者,在一段時(shí)間內(nèi)原創(chuàng)微博10條,轉(zhuǎn)發(fā)微博5條;用戶B有100個(gè)關(guān)注者,在相同時(shí)間內(nèi)原創(chuàng)微博11條,轉(zhuǎn)發(fā)微博4條??梢钥闯觯脩鬉與他人進(jìn)行信息共享頻率比用戶B的高。

        4)時(shí)間活躍度。

        定義3 時(shí)間活躍度(TimeActivityDegree,TD)是對(duì)用戶發(fā)布的最近N條微博消息跨越的天數(shù)的度量。對(duì)于正常用戶而言,這一特征值較低,而對(duì)于突然活躍的用戶,例如當(dāng)某一話題在微博流行時(shí),這些用戶會(huì)通過(guò)當(dāng)前熱門話題來(lái)博得其他用戶的關(guān)注,這些用戶的該特征值較高,如式(6)所示:

        (6)

        其中:TD(u)表示用戶時(shí)間活躍度值,Num(u)表示用戶u的微博總數(shù),Date(i)表示第i條微博發(fā)布的日期,Day(register)表示微博賬號(hào)注冊(cè)的天數(shù)。

        2.1.3 用戶交互信息

        1)微博傳播力度。

        定義4 微博傳播力度(SpreadDegree,SD)是指微博用戶發(fā)布的原創(chuàng)微博中,被粉絲認(rèn)可進(jìn)而進(jìn)行的轉(zhuǎn)發(fā)、評(píng)論、回復(fù)、點(diǎn)贊等互動(dòng)行為的次數(shù)。一定程度上,用戶傳播力度反映了該用戶對(duì)關(guān)系網(wǎng)絡(luò)中的其他用戶的影響力的大小。用戶傳播力度越高,用戶發(fā)布的微博獲取的關(guān)注也就越多,參與的人數(shù)也會(huì)增加,用戶的影響力也越高,如式(8)所示:

        (7)

        SD(u)=(eμ×Total(u)-1)/(eμ×Total(u)+1)

        (8)

        其中:SD(u)表示微博傳播力度,Num(u)表示用戶原創(chuàng)微博數(shù),Thu(i)表示用戶u的第i條微博被點(diǎn)贊的次數(shù)、Eval(i)表示用戶u的第i條微博被評(píng)論的次數(shù)、Rep(i)表示用戶u的第i條微博被回復(fù)的次數(shù)、Tran(i)表示用戶u的第i條微博被轉(zhuǎn)發(fā)的次數(shù),F(xiàn)ans(u)表示用戶的粉絲數(shù)。

        2)用戶有效交際廣度。

        在用戶關(guān)系網(wǎng)絡(luò)中,微博用戶間通過(guò)關(guān)注成為彼此的粉絲。粉絲表明他人對(duì)用戶的關(guān)注,以期望得到用戶的微博行為信息,并將成為微博傳播的帶動(dòng)者。擁有越多粉絲的用戶,與粉絲之間的交互能力越強(qiáng),在粉絲中的影響力越高,用戶的可信度越高。在中文微博中,有的用戶為了追求高粉絲數(shù),于是出現(xiàn)了一種特殊的“互粉”現(xiàn)象,即用戶關(guān)注了其他某個(gè)用戶,同時(shí)也希望該用戶關(guān)注自己。

        定義5 針對(duì)這種特色現(xiàn)象,本文通過(guò)對(duì)純粉絲數(shù)和互粉數(shù)加權(quán)求和來(lái)統(tǒng)計(jì)用戶有效交際廣度(CommunicateDegree,ComD),如式(9)所示:

        (9)

        其中:ComD(u)表示用戶有效交際廣度;Pfans(u)表示用戶純粉絲數(shù),Mfans(u)表示用戶互粉數(shù),F(xiàn)ans(u)表示用戶粉絲數(shù),且Fans(u)=Pfans(u)+Mfans(u);Att(u)表示用戶關(guān)注數(shù),γ為用戶純粉絲數(shù)的權(quán)重系數(shù),δ為用戶互粉數(shù)的權(quán)重系數(shù)。

        2.1.4 用戶自評(píng)價(jià)可信度模型的構(gòu)建

        基于以上3方面7個(gè)指標(biāo)特征,應(yīng)用層次分析法(AnalyticHierarchyProcess,AHP)[13]進(jìn)行指標(biāo)權(quán)重系數(shù)的評(píng)價(jià),進(jìn)而度量用戶自評(píng)價(jià)可信度。

        層次分析法是把復(fù)雜的多因素決策問(wèn)題分解為多個(gè)層次上的子因素間相互比較和權(quán)重計(jì)算問(wèn)題。它是美國(guó)運(yùn)籌學(xué)家Saaty教授提出的一種多準(zhǔn)則、單目標(biāo)決策方法,是對(duì)定性事件作定量分析的一種靈活、適應(yīng)性強(qiáng)、相當(dāng)有效的方法。應(yīng)用層次分析方法進(jìn)行權(quán)重系數(shù)評(píng)價(jià)主要包括三部分。

        1)層次結(jié)構(gòu)模型的創(chuàng)建。

        層次分析法的基本結(jié)構(gòu)包括三層,分別是目標(biāo)層、指標(biāo)準(zhǔn)則層以及方案層,如圖2所示。

        圖2 層次結(jié)構(gòu)模型

        其中,第一層表示此次的目的是計(jì)算用戶的可信度,第二層表示存在7個(gè)指標(biāo)來(lái)影響目標(biāo)選取的準(zhǔn)則層,第三層表示用戶信息的方案層。

        2)模型比較矩陣的構(gòu)建。

        根據(jù)層次結(jié)構(gòu)模型,相對(duì)于計(jì)算用戶可信度,比較準(zhǔn)則層中的各個(gè)指標(biāo)的相對(duì)性,得出的比較矩陣如表1所示。

        表1 模型比較矩陣

        3)權(quán)值向量的構(gòu)建。

        構(gòu)建向量μ用以表示各個(gè)指標(biāo)的權(quán)重系數(shù),如式(10)所示:

        μ=(μ1,μ2,…,μi)

        (10)

        根據(jù)比較矩陣,獲取各個(gè)指標(biāo)間的相對(duì)重要程度,進(jìn)而得到權(quán)值向量:

        μ=(0.037 3,0.068 7,0.059 9,0.099 7,0.085 7,0.201 7,0.447 5)

        本文自評(píng)價(jià)(Self Evaluate, SE)度量模型的量化計(jì)算方法,如式(11)所示:

        SE(u)=(UI(u),NR(U),ConD(u),AD(u),TD(u),SD(u),ComD(u))×(μT)

        (11)

        其中:SE(u)表示用戶u的自評(píng)價(jià)可信度值。

        2.2 用戶可信度評(píng)價(jià)模型

        上節(jié)中,利用用戶自評(píng)價(jià)模型來(lái)描述微博用戶的可信度,但是從某種程度上來(lái)說(shuō)基于自評(píng)價(jià)的可信度模型是可以被“灌水”的。為了盡可能避免這種情況,本文對(duì)用戶之間的關(guān)聯(lián)關(guān)系進(jìn)行了分析,進(jìn)而評(píng)價(jià)用戶可信度對(duì)其他用戶的可信度造成的影響。

        2.2.1 微博關(guān)系網(wǎng)絡(luò)模型

        作為以用戶為核心的微博社交網(wǎng)絡(luò),微博用戶之間可以彼此任意關(guān)注對(duì)方,這種“關(guān)注”與“被關(guān)注”的關(guān)聯(lián)關(guān)系形成了有向圖,也就形成了一個(gè)巨大的用戶關(guān)系網(wǎng)絡(luò),如圖3所示。

        圖3 用戶關(guān)系網(wǎng)絡(luò)

        2.2.2 基于User-Rank的用戶可信度網(wǎng)絡(luò)評(píng)價(jià)模型

        PageRank是一種評(píng)價(jià)網(wǎng)頁(yè)的相關(guān)性以及重要性程度的算法,常常被用來(lái)衡量網(wǎng)頁(yè)之間鏈接指向的權(quán)威性。

        從拓?fù)浣Y(jié)構(gòu)來(lái)說(shuō),微博用戶關(guān)系網(wǎng)絡(luò)與網(wǎng)頁(yè)之間的鏈接關(guān)系具有相似性,因此,PageRank算法對(duì)微博用戶在用戶傳播關(guān)系網(wǎng)絡(luò)中的評(píng)估有一定的借鑒意義。假設(shè)微博用戶A和用戶B擁有相同的粉絲數(shù),并且所有粉絲的PageRank值相同,通過(guò)PageRank算法計(jì)算,用戶A和用戶B可信度值是相等的。由于微博中存在互粉現(xiàn)象,在粉絲數(shù)相同的情況下,擁有較多互粉的用戶的可信度值計(jì)算存在一定的偏差,因此,本文在對(duì)用戶可信度計(jì)算時(shí),把粉絲分為通過(guò)互粉建立關(guān)系和通過(guò)純粉建立關(guān)系兩類用戶,在計(jì)算用戶可信度值時(shí),在用戶關(guān)系之間引入權(quán)值,對(duì)PageRank算法進(jìn)行改造,提出User-Rank用戶可信度評(píng)價(jià)算法,使其更加適用于微博關(guān)系網(wǎng)絡(luò)中用戶的可信度度量。

        User-Rank算法分為兩個(gè)步驟。首先利用用戶自評(píng)價(jià)模型,得到每個(gè)微博用戶自評(píng)價(jià)可信度值。然后以用戶自評(píng)價(jià)值作為輸入,基于用戶關(guān)聯(lián)關(guān)系,計(jì)算用戶可信度值(UserCredibility,UC),如式(12)所示:

        (12)

        (13)

        (14)

        (15)

        式(12)中,UC(i)表示用戶i的可信度評(píng)價(jià)值,Wm(k)表示用戶的互粉用戶k的可信度值,Wp(j)表示用戶的純粉用戶j的可信度值,f表示阻尼系數(shù),由式(15)得到。

        3 實(shí)驗(yàn)結(jié)果與分析

        本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)自新浪微博。采集信息包括微博用戶資料信息、微博文本信息、微博用戶關(guān)系信息三方面的信息。微博用戶資料信息包括用戶id、簡(jiǎn)介、標(biāo)簽、認(rèn)證信息、粉絲數(shù)、關(guān)注數(shù)、互粉數(shù)等基本信息。微博文本信息包括微博文本內(nèi)容、點(diǎn)贊次數(shù)、評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)、@用戶等信息。微博用戶關(guān)系信息包括微博用戶id、用戶關(guān)注數(shù)、關(guān)注者id列表?;谛吕宋⒉┑膽?yīng)用程序編程接口(ApplicationProgrammingInterface,API),信息采集如下:

        1)爬取微博種子用戶信息。

        從某一用戶出發(fā),爬取用戶的粉絲列表,以這些粉絲作為種子用戶。

        2)獲取用戶關(guān)注關(guān)系信息。

        從種子用戶出發(fā),逐層爬取并記錄用戶之間的關(guān)注關(guān)系信息(每個(gè)單向關(guān)注作為一條記錄)。

        3)獲取微博用戶語(yǔ)料。

        從用戶關(guān)注關(guān)系出發(fā),統(tǒng)計(jì)關(guān)注關(guān)系中所有的微博用戶,選取關(guān)注關(guān)系較為理想的微博用戶,進(jìn)而爬取微博用戶的所有信息。其中本文選取微博文本的時(shí)間跨度為2014年10月-2016年4月,數(shù)據(jù)規(guī)模統(tǒng)計(jì)如表2所示。

        表2 數(shù)據(jù)規(guī)模

        3.1 實(shí)驗(yàn)結(jié)果

        在測(cè)試數(shù)據(jù)集上,通過(guò)對(duì)用戶信息的預(yù)處理,統(tǒng)計(jì)用戶可信度評(píng)價(jià)的各個(gè)指標(biāo),部分結(jié)果如表3所示。其中,表中的用戶指標(biāo)是通過(guò)式(2)~(9)所得。為了減小各個(gè)指標(biāo)的波動(dòng)性,本文進(jìn)行歸一化處理,使指標(biāo)的范圍在[0-1]。表3中的用戶對(duì)應(yīng)的可信度評(píng)價(jià)值如表4所示。表5列出利用本研究方法得到的用戶可信度排名和微博風(fēng)云榜[14]給出的2016年4月9號(hào)微博用戶排名中共同用戶對(duì)比的Top10結(jié)果。

        表3 部分用戶信息的對(duì)應(yīng)指標(biāo)

        表4 部分用戶可信度評(píng)價(jià)值

        3.2 模型分析

        從表4中可以看出:知名人物、娛樂(lè)明星以及官方認(rèn)證機(jī)構(gòu)的微博用戶可信度值一般較高;而對(duì)于普通的個(gè)人微博用戶來(lái)說(shuō),其可信度值一般較低。

        通過(guò)對(duì)表3和表4的綜合分析可以看出:對(duì)于一般用戶來(lái)說(shuō),其用戶完整度一般都不高,說(shuō)明用戶的基本信息不全;微博活躍度不高和時(shí)間活躍度較大,說(shuō)明了用戶近期大都沒(méi)有發(fā)布或轉(zhuǎn)發(fā)微博的行為;用戶的關(guān)注數(shù)與粉絲數(shù)較少,在一定程度上決定其交際廣度和傳播力度較低;正是由于普通的個(gè)人微博基本信息不全,并且其在微博信息網(wǎng)絡(luò)中沒(méi)有什么活躍性,那么微博用戶的可信度值必然較低。而對(duì)于知名人物的微博來(lái)說(shuō),由于其具有大量的粉絲,其發(fā)布的信息可以迅速地在微博關(guān)系網(wǎng)絡(luò)中得到其他用戶的響應(yīng),所以其可信度一般都較高。因此,模型的計(jì)算結(jié)果符合人們對(duì)不同類別的用戶群體的可信度認(rèn)知,也符合本文計(jì)算用戶可信度得出的一般性結(jié)論。

        對(duì)表4中記錄1和2、5和6、7和8兩兩比較,不難看出,在不考慮用戶關(guān)系網(wǎng)絡(luò)情況下,用戶粉絲較多的用戶,其自評(píng)價(jià)值相應(yīng)地也較高。針對(duì)微博用戶關(guān)系網(wǎng)絡(luò)中用戶之間雙向指向的關(guān)聯(lián)關(guān)系,本文在用戶關(guān)系之間引入權(quán)值,對(duì)表4中記錄1和2、3和4、5和6兩兩比較,可以看出在考慮互粉對(duì)用戶可信度影響后,在粉絲數(shù)相同或差不多的情況下,擁有較多的互粉的用戶的可信度值較低,這是因?yàn)樾吕宋⒉┲写嬖诨シ郜F(xiàn)象,在對(duì)用戶粉絲數(shù)統(tǒng)計(jì)時(shí),是存在“灌水”的可能性,所以在不考慮互粉影響下,用戶自評(píng)價(jià)的可信度模型的評(píng)價(jià)值不合理。這也證明了本文引入的用戶可信度評(píng)價(jià)模型,在一定程度上避免了用戶的可信度排名不合理的問(wèn)題。

        從表5可以看出,通過(guò)本文計(jì)算的用戶可信度排名具有一定的合理性。通過(guò)對(duì)比,可以看出,本文對(duì)用戶可信度的排名與微博風(fēng)云榜給出的微博用戶的排名在趨勢(shì)上是一致的。然而模型的構(gòu)建均是針對(duì)用戶歷史數(shù)據(jù)的計(jì)算,因此這個(gè)模型數(shù)值只能在一段時(shí)間內(nèi)有效。

        4 結(jié)語(yǔ)

        本文主要研究了微博用戶可信度的問(wèn)題。首先提取用戶的資料信息、交互信息和行為信息的7種特征,來(lái)度量用戶自評(píng)價(jià)可信度;隨后結(jié)合用戶關(guān)系網(wǎng)絡(luò)和用戶自評(píng)價(jià)可信度,提出了一種基于關(guān)系網(wǎng)絡(luò)中用戶權(quán)值分配的User-Rank用戶可信度評(píng)價(jià)方法。結(jié)合真實(shí)微博用戶數(shù)據(jù)進(jìn)行相關(guān)實(shí)驗(yàn),結(jié)果表明,本文提出的用戶可信度評(píng)價(jià)方法,不僅考慮了用戶本身各類信息特征,而且綜合考慮關(guān)系網(wǎng)絡(luò)中其他用戶的可信度對(duì)該用戶的可信度度量的影響,為用戶可信度分析提供高性能評(píng)價(jià)方法。

        在接下來(lái)的研究工作中,將從以下兩個(gè)方面進(jìn)一步改進(jìn)算法。

        1) 探索其他因素對(duì)微博用戶可信度評(píng)價(jià)特征的影響。例如。對(duì)微博轉(zhuǎn)發(fā)、評(píng)論特征統(tǒng)計(jì)時(shí),考慮與傳播學(xué)理論相結(jié)合,挖掘微博被轉(zhuǎn)發(fā)、評(píng)論的原因,對(duì)特征進(jìn)一步綜合分析。

        2) 進(jìn)一步探究可信度分析方法。通過(guò)綜合評(píng)估分析各個(gè)指標(biāo)對(duì)用戶可信度的影響,合理權(quán)衡對(duì)應(yīng)的閾值,實(shí)現(xiàn)對(duì)用戶可信度更有效的度量。

        表5 用戶可信度排名

        )

        [1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.2015年中國(guó)社交應(yīng)用用戶行為研究報(bào)告[EB/OL].[2016- 04- 08].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/sqbg/201604/P020160722551429454480.pdf.(ChinaInternetNetworkInformationCenter.Chinasocialapplicationuserbehaviorresearchreport2015 [EB/OL]. [2016- 04- 08].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/sqbg/201604/P020160722551429454480.pdf.)

        [2] 新華網(wǎng)輿情監(jiān)測(cè)分析中心.2015年上半年全國(guó)政務(wù)新媒體綜合影響力報(bào)告[EB/OL].[2015- 08- 18].http://news.xinhuanet.com/yuqing/128137211_14399521067501n.doc. (XinhuaPublicOpinionMonitoringandAnalysisCenter.Reportonthecomprehensiveinfluenceofthenationalgovernmentnewmediainthefirsthalfof2015 [EB/OL]. [2015- 08- 18].http://news.xinhuanet.com/yuqing/128137211_14399521067501n.doc.)

        [3] 蔣盛益,陳東沂,龐觀松,等.微博信息可信度分析研究綜述[J].圖書情報(bào)工作,2013,57(12):136-142.(JIANGSY,CHENDY,PANGGS,etal.ResearchreviewofinformationcredibilityanalysisonMicroblog[J].LibraryandInformationService, 2013, 57(12): 136-142.)

        [4] 文坤梅,徐帥,李瑞軒,等.微博及中文微博信息處理研究綜述[J].中文信息學(xué)報(bào),2012,26(6):27-37.(WENKM,XUS,LIRX,etal.SurveyofMicroblogandChineseMicrobloginformationprocessing[J].JournalofChineseInformationProcessing, 2012, 26(6): 27-37.)

        [5] 張成.社交網(wǎng)絡(luò)中的用戶行為特征分析與挖掘[D].北京:北京郵電大學(xué),2014:15-46.(ZHANGC.Characteranalysisandminingofuserbehaviorinonlinesocialnetwork[D].Beijing:BeijingUniversityofPostsandTelecommunications, 2014: 15-46.)

        [6] 徐恪,張賽,陳昊,等.在線社會(huì)網(wǎng)絡(luò)的測(cè)量與分析[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):165-188.(XUK,ZHANGS,CHENH,etal.Measurementandanalysisofonlinesocialnetworks[J].ChineseJournalofComputers, 2014, 37(1): 165-188.)

        [7]CHAM,HADDADIH,BENEVENUTOF,etal.Measuringuserinfluenceintwitter:themillionfollowerfallacy[C]//ICWSM2010:Proceedingsofthe4thInternationalAAAIConferenceonWeblogsandSocialMedia.MenloPark,CA:AAAIPress, 2010:10-17.

        [8]BAKSHYE,HOFMANJM,MASONWA,etal.Everyone’saninfluencer:quantifyinginfluenceontwitter[C]//WSDM2011:Proceedingsofthe4thACMInternationalConferenceonWebSearchandDataMining.NewYork:ACM, 2011: 65-74.

        [9]CASTILLOC,MENDOZAM,POBLETEB.Informationcredibilityontwitter[C]//Proceedingsofthe20thInternationalConferenceonWorldWideWeb.NewYork:ACM, 2011: 675-684.

        [10] 毛佳昕,劉奕群,張敏,等.基于用戶行為的微博用戶社會(huì)影響力分析[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):791-800.(MAOJX,LIUYQ,ZHANGM,etal.SocialinfluenceanalysisforMicro-bloguserbasedonuserbehavior[J].ChineseJournalofComputers, 2014, 37(4): 791-800.)

        [11] 張紹武,尹杰,林鴻飛,等.基于用戶分析的微博用戶影響力度量模型[J].中文信息學(xué)報(bào),2015,29(4):59-66.(ZHANGSW,YINJ,LINHF,etal.AMicro-bloguserinfluentialmodelbasedonuseranalysis[J].JournalofChineseInformationProcessing, 2015, 29(4): 59-66.)

        [12]AL-KHALIFAHS,AL-EIDANRM.Anexperimentalsystemformeasuringthecredibilityofnewscontentintwitter[J].InternationalJournalofWebInformationSystems, 2011, 7(2): 130-151.

        [13]SAATYTL.Howtomakeadecision:theanalytichierarchyprocess[J].EuropeanJournalofOperationalResearch, 1990, 48(1): 9-26.

        [14] 微風(fēng)云.微風(fēng)云榜[EB/OL].[2016- 04- 09].http://www.tfengyun.com/rankings.php.(TFENGYUN.MicroChart[EB/OL]. [2016- 04- 09].http://www.tfengyun.com/rankings.php.)

        ThisworkispartiallysupportedbytheNationalNaturalScienceFoundationofChina(61370139),theProjectofConstructionofInnovativeTeamsandTeacherCareerDevelopmentforUniversitiesandCollegesUnderBeijingMunicipality(IDHT20130519).

        LI Fumin, born in 1990, M. S. candidate. His research interests include Chinese information processing, data mining.

        TONG Lingling, born in 1984, Ph. D., senior engineer. Her research interests include multimedia content analysis and coding, natural language processing.

        DU Cuilan, born in 1966. Her research interests include network information security, natural language processing.

        LI Yangxi, born in 1982, Ph. D.candidate, senior engineer. His research interests include machine learning, data mining.

        ZHANG Yangsen, born in 1962, Ph. D., professor. His research interests include Chinese information processing, artificial intelligence, Web content security.

        Weibo users credibility evaluation based on user relationships

        LI Fumin1, TONG Lingling2*, DU Cuilan2, LI Yangxi2, ZHANG Yangsen1

        (1.InstituteofIntelligenceInformationProcessing,BeijingInformationScienceandTechnologyUniversity,Beijing100192,China; 2.NationalComputerNetworkEmergencyResponseTechnicalTeam/CoordinationCenterofChina,Beijing100190,China)

        With the deepening of Weibo research, credibility evaluation of Weibo users has become a research hotspot. Aiming at the problem of Weibo users’ credibility evaluation, a user confidence analysis method based on association was proposed. Taking Sina Weibo as the research object, firstly, seven characteristics of the user from three aspects: user information, interactive information and behavior information were analyzed, and the user self-evaluation credibility was got by using Analytic Hierarchy Process (AHP). Then, by using the user self-evaluation as the base point, the user relationship network as the carrier, and the potential users’ evaluation relationship among the users, was improved the PageRank algorithm, and the user credibility evaluation model called User-Rank was proposed. The proposed model was used to evaluate comprehensively credibility of users by other users in relational network. Experiments on large scale Weibo real data show that the proposed method can obtain good evaluation results of user credibility.

        user self-evaluation; relationship network; user credibility; user relationships; Analytic Hierarchy Process (AHP); PageRank

        2016- 09- 30;

        2016- 10- 20。

        國(guó)家自然科學(xué)基金資助項(xiàng)目(61370139);北京市屬高等學(xué)校創(chuàng)新團(tuán)隊(duì)建設(shè)與教師職業(yè)發(fā)展計(jì)劃項(xiàng)目(IDHT20130519)。

        李付民(1990—),男,河南商丘人,碩士研究生,CCF會(huì)員,主要研究方向:中文信息處理、數(shù)據(jù)挖掘; 佟玲玲(1984—),女,遼寧阜新人,高級(jí)工程師,博士,主要研究方向:多媒體內(nèi)容分析與編碼、自然語(yǔ)言處理; 杜翠蘭(1966—),女,湖北武漢人,主要研究方向:網(wǎng)絡(luò)信息安全、自然語(yǔ)言處理; 李揚(yáng)曦(1982—),男,甘肅蘭州人,高級(jí)工程師,博士研究生,主要研究方向:機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘; 張仰森(1962—),男,山西臨猗人,教授,博士,CCF高級(jí)會(huì)員,主要研究方向:中文信息處理、人工智能、Web內(nèi)容安全。

        1001- 9081(2017)03- 0654- 06

        10.11772/j.issn.1001- 9081.2017.03.654

        TP393.092

        A

        猜你喜歡
        影響力用戶評(píng)價(jià)
        SBR改性瀝青的穩(wěn)定性評(píng)價(jià)
        石油瀝青(2021年4期)2021-10-14 08:50:44
        天才影響力
        NBA特刊(2018年14期)2018-08-13 08:51:40
        黃艷:最深遠(yuǎn)的影響力
        關(guān)注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        關(guān)注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關(guān)注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        3.15消協(xié)三十年十大影響力事件
        傳媒不可估量的影響力
        人間(2015年21期)2015-03-11 15:24:39
        基于Moodle的學(xué)習(xí)評(píng)價(jià)
        如何獲取一億海外用戶
        麻麻张开腿让我爽了一夜| 久久免费精品日本久久中文字幕 | 男的和女的打扑克的视频| 偷拍一区二区三区四区| 亚洲热妇无码av在线播放| 人与嘼av免费| 国产精品亚洲一区二区极品| 视频女同久久久一区二区| 青青草原亚洲| 国产熟妇搡bbbb搡bb七区| 免费视频成人 国产精品网站| 亚洲av狠狠爱一区二区三区| 人妻少妇久久中文字幕| 久久中文精品无码中文字幕 | 亚洲av中文无码乱人伦在线观看| 久久精品麻豆日日躁夜夜躁| 亚洲欧洲国产日产国码无码| 久久精品国产亚洲av一| 久久免费看黄a级毛片| 人妻无码aⅴ不卡中文字幕| 国产日韩欧美911在线观看| 亚洲精品一区二区三区麻豆| 日韩视频在线观看| 亚洲国产精品特色大片观看完整版 | 精品无码国产一区二区三区麻豆| 亚洲精品字幕| 亚洲欧美日韩国产精品一区| 精品蜜桃av免费观看| 观看在线人视频| 同性男男黄g片免费网站| 一区视频在线观看免费播放.| 日本人妻精品有码字幕| 无码人妻精品一区二区| 中文字幕亚洲综合久久菠萝蜜| 日本美女性亚洲精品黄色| 无遮掩无码h成人av动漫| 亚洲成a人v欧美综合天堂麻豆| 亚洲成a人片在线观看中| av色一区二区三区精品| av午夜久久蜜桃传媒软件| 视频一区精品自拍|