亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

一種鑒別博客空間意見領(lǐng)袖的算法研究

2012-09-11 10:17:02宋昭君黃東旭

微處理機(jī) 2012年6期

宋昭君，戴航，黃東旭

(西北工業(yè)大學(xué)自動(dòng)化學(xué)院，西安 710072)

1 引言

博客是人們思想和觀點(diǎn)傳播的重要途徑。博客空間的意見領(lǐng)袖鑒別可以發(fā)掘出網(wǎng)絡(luò)中的主導(dǎo)觀念，跟蹤網(wǎng)絡(luò)輿情的走勢(shì)。近幾年來，博客空間意見領(lǐng)袖鑒別已成為網(wǎng)絡(luò)輿情中的熱點(diǎn)研究領(lǐng)域。

國內(nèi)外在博客意見領(lǐng)袖鑒別上做了很多研究，但都具有一定的局限性。Nakajima［1］采用普通網(wǎng)頁的分析方法，從鏈接關(guān)系入手，但是該算法忽略了博客的鏈接較普通網(wǎng)頁稀疏的特點(diǎn)。鑒于此種缺陷，Adar［2］研究了博客空間的顯式鏈接結(jié)構(gòu)以及隱式信息傳播途徑，增加了鏈接的密度。Ko Fujimura［3］提出的EigenRumor算法通過分析博文的鏈接并結(jié)合博主的信譽(yù)度，一同來鑒別意見領(lǐng)袖。Apostolos［3］從鏈接關(guān)系以及博文間的共同屬性提出Blogrank算法來研究重要的博客。但是上述研究策略并沒有考慮到博文的內(nèi)容。Song.X［5］提出的InfluenceRank算法從博主是否為網(wǎng)絡(luò)提供新穎信息方面入手來鑒別意見領(lǐng)袖。最近幾年國內(nèi)外對(duì)于博客空間意見領(lǐng)袖的研究主要集中在博文的鏈接關(guān)系上，對(duì)于博文的內(nèi)容考慮不足。

因此綜合博文的內(nèi)鏈接數(shù)，外鏈接數(shù)，評(píng)論數(shù)和文章長(zhǎng)度，基于這四個(gè)屬性，提出了OLRank算法。實(shí)驗(yàn)結(jié)果表明，與傳統(tǒng)的基于鏈接分析的算法比較，該算法在評(píng)估標(biāo)準(zhǔn)全路徑覆蓋率和話題多樣性下表現(xiàn)良好，可以更好的實(shí)現(xiàn)博客空間意見領(lǐng)袖的鑒別。

2 博客空間影響屬性分析

2.1 博客空間結(jié)構(gòu)

博客在短短幾年的時(shí)間內(nèi)發(fā)展成為繼E－mail，BBS，ICQ之后出現(xiàn)的第四種新型網(wǎng)絡(luò)交流方式。典型的博客站點(diǎn)，由許多按照時(shí)間倒序排列的條目(Entry)組成，如圖1所示。典型條目包括了文本、圖片，與別的博客站點(diǎn)或是網(wǎng)頁的鏈接，以及其他媒體指向該博客的鏈接［6］。博客空間(Blogosphere)是包括了許多博客站點(diǎn)的虛擬區(qū)。一般認(rèn)為，活躍在人際傳播網(wǎng)絡(luò)中，經(jīng)常為他人提供信息觀點(diǎn)或建議并對(duì)他人施加個(gè)人影響的人物，可以稱為意見領(lǐng)袖(opinion leader)［7］。意見領(lǐng)袖是網(wǎng)絡(luò)團(tuán)體中最具信息力，最有影響力的節(jié)點(diǎn)，鑒別意見領(lǐng)袖可以了解網(wǎng)絡(luò)中的主導(dǎo)觀點(diǎn)，分析博客空間的輿情走勢(shì)。

圖1 典型的博客站點(diǎn)

2.2 博主的屬性分析

成為意見領(lǐng)袖的博主必然具備若干特點(diǎn)，例如擁有許多的跟隨者，發(fā)表的博文非常具有創(chuàng)新性、有說服性，博文評(píng)論也比較多。因此，先從博主具有的屬性入手，然后衡量博主的每篇博文的影響力得分，最后通過博文的影響力得分排名來找出意見領(lǐng)袖。

歸納的博主屬性有如下四點(diǎn):

(1)認(rèn)可度:即博主被別人承認(rèn)的程度。認(rèn)可度越高，就越有可能成為意見領(lǐng)袖，對(duì)他所在群體的影響力度就會(huì)越大。這里用博文的內(nèi)連接數(shù)(inlinks)來衡量。內(nèi)鏈接數(shù)是博主的文章被他人引用的數(shù)目，被引用的數(shù)目越多，也就認(rèn)為該博主的認(rèn)可度越高。

(2)創(chuàng)新度:就是博主文章的新穎程度。創(chuàng)新度越高，就認(rèn)為該博主從其他博客，媒體獲取的信息越少，自主創(chuàng)新的程度就越好。這里用博文的外鏈接數(shù)(out－links)來衡量。外鏈接數(shù)是該博主引用他人文章的鏈接數(shù)目，外鏈接數(shù)越多，就認(rèn)為該博主的創(chuàng)新度越低。

(3)活躍度:就是博主在博客空間中積極的程度。可以間接用博文獲得的評(píng)論數(shù)(comments)來衡量。換言之，如果一個(gè)博主發(fā)布的博文沒有評(píng)論或評(píng)論很少，也反映出他的話題有很少的追隨者。因此，大量的評(píng)論數(shù)反映出博主的文章影響了許多人，人們也有興趣針對(duì)該博文寫評(píng)論。

(4)說服度:意見領(lǐng)袖必須要有說服力?？紤]意見領(lǐng)袖的說服力，可以從一篇博文傳遞的信息多少來衡量。文章的長(zhǎng)度往往可測(cè)，且能夠在一定程度上反映一篇文章傳遞信息的多少和文章質(zhì)量的好壞。因此用博文長(zhǎng)度來衡量博文的質(zhì)量度。

由以上可以看出，博主的四個(gè)屬性，可以用每篇博文的內(nèi)鏈接數(shù)、外鏈接數(shù)、評(píng)論數(shù)、文章長(zhǎng)度來衡量，分別用字母α、β、γ、σ來表示。

2.3 博主屬性量化修正

2.2 節(jié)中提出用博文獲得的評(píng)論數(shù)來衡量博主的活躍度。獲得的評(píng)論數(shù)越多，說明他對(duì)別人就越具有影響力，成為意見領(lǐng)袖的可能性也就越大。然而評(píng)論中存在不少垃圾評(píng)論。博客垃圾評(píng)論［8］的種類很多。文中主要涉及的垃圾評(píng)論是指重復(fù)評(píng)論，即一個(gè)博主的一篇博文可能會(huì)被同一個(gè)評(píng)論者進(jìn)行多次評(píng)論且評(píng)論內(nèi)容相同?？梢越梃b文獻(xiàn)［9］的處理方法:如果發(fā)現(xiàn)來自同一個(gè)用戶對(duì)博主的同一篇博文評(píng)論內(nèi)容相同，就將該用戶在同一篇博文中相同的評(píng)論條數(shù)降為1。

3 博客空間意見領(lǐng)袖排名算法(OLRank)

博客空間中的意見領(lǐng)袖是在所研究的博客空間中，最具影響力的前K名博主。設(shè)博主bx有L篇博文{P1，P2，...，PL}，假設(shè)這 L 篇博文都有一個(gè)影響力得分I(Pl)(1≤l≤L)。博主bx的影響力指數(shù)記做In(bx)，wl是博主bx每篇博文的權(quán)重值，In(bx)通過計(jì)算博文的影響力得分得到。研究對(duì)象擴(kuò)大為一個(gè)包括 M 個(gè)博主{b1，b2，...，bM}的集合 U。集合Vj是集合U的第j個(gè)按博主影響力指數(shù)排序的子集，即 Vj?U。Vj包括 K 個(gè)博主{bj1，bj2，...，bjK}其中 K≤M，如按照影響力指數(shù)從大到小排序?yàn)镮n(bj1)≥In(bj2)≥...≥In(bjk)。對(duì)于集合U中的Vj集合外的任何一個(gè)博主by，只要滿足In(by)≥In(bjk)就可以歸為新的意見領(lǐng)袖集合中。因此鑒別Top－K名意見領(lǐng)袖，就是找出包含最具有影響力的子集Vj。根據(jù)2.2節(jié)中對(duì)于博主屬性的分析，可以得到博主影響力算法流程圖如圖2所示。

(1)博主的認(rèn)可度與創(chuàng)新度

直觀起見，可以將研究的博客空間作為一個(gè)復(fù)雜網(wǎng)絡(luò)空間(network)，包含有許多個(gè)節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)代表一個(gè)博主。因此，鑒別意見領(lǐng)袖也就是鑒別網(wǎng)絡(luò)空間中的重要節(jié)點(diǎn)。由2.2節(jié)可知，節(jié)點(diǎn)包含四個(gè)屬性α、β、γ、σ。用I(P)表示一個(gè)節(jié)點(diǎn)的影響力得分，Link(p)表示一個(gè)節(jié)點(diǎn)由內(nèi)鏈接數(shù)和外連接數(shù)決定的最后得分，計(jì)算公式如下:

win，wout分別表示內(nèi)鏈接數(shù)和外連接數(shù)的權(quán)重值，取值范圍介于［0，1］。|α|，|β|分別代表內(nèi)鏈接總數(shù)和外連接總數(shù)。從公式(1)可以很容易看出，一篇博文得到的內(nèi)鏈接數(shù)越多，該博文的認(rèn)可度越高。外連接數(shù)越少，該博文的新穎度越高，影響越廣泛。

圖2 OLRank算法流程圖

(2)博主的活躍度

考慮文章的評(píng)論數(shù)γ，博文P的影響力得分與該博文得到的評(píng)論數(shù)，最后的鏈接數(shù)得分成正比。即:

γsp垃圾評(píng)論數(shù)，wcom表示博文評(píng)論數(shù)γp提升博文P影響力得分的權(quán)重值，wcom∈［0，1］。

(3)博主的說服力

由2.2中，將博文質(zhì)量作為博文影響力得分的因素之一，而博文質(zhì)量好壞與傳遞信息的多少有關(guān)，我們采用博文長(zhǎng)度σ來衡量這一因素。其中w(σ)是與博文長(zhǎng)度有關(guān)的一個(gè)函數(shù)，用文本分析工具進(jìn)行分析，計(jì)算博文影響力得分的公式如下:

(4)博主的影響力指數(shù)

以上三個(gè)公式給出了計(jì)算博文影響力得分的方法。鑒別意見領(lǐng)袖的方法，就是看博客空間中博主的影響力指數(shù)In(bx)，它的計(jì)算公式如下:

其中bx表示研究的博主，I(Pl)(1≤l≤L)表示博主bx的第l篇博文，wl是博主bx每篇博客的權(quán)重值表示所有博文權(quán)重值的絕對(duì)值之和，μ代表阻尼因子，一般情況下取0.85。有了影響力指數(shù)后，就可以在一個(gè)博客網(wǎng)站上進(jìn)行博主排序，選出前K名意見領(lǐng)袖。

4 數(shù)據(jù)收集及仿真結(jié)果分析

4.1 實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)數(shù)據(jù)

采用新浪博客(http://blog.sina.com.cn)作為實(shí)驗(yàn)的博客空間。實(shí)驗(yàn)平臺(tái)為:操作系統(tǒng)，Microsoft Windows Vista Home Basic，CPU 2.80GHz，內(nèi)存(RAM)2.00GB。采集工具為一款小巧方便的數(shù)據(jù)采集器“網(wǎng)絡(luò)神采”。數(shù)據(jù)采集的時(shí)間段為2011年11月10日到2011年12月10日，在此時(shí)間窗口內(nèi)，共采集種子博主418位，博文6016篇，關(guān)鍵詞779個(gè)，評(píng)論數(shù)97859條，去除垃圾評(píng)論得到過濾后的數(shù)據(jù)為評(píng)論數(shù)83562條，內(nèi)連接數(shù)為3742，外連接數(shù)為1044。

4.2 評(píng)估標(biāo)準(zhǔn)

為了評(píng)估第3節(jié)的意見領(lǐng)袖排名算法(Opinion Leader Rank algorithm)簡(jiǎn)稱為OLRank算法的有效性，使用兩種評(píng)估標(biāo)準(zhǔn)。

(1)全路徑覆蓋率:網(wǎng)絡(luò)空間中，有影響力的節(jié)點(diǎn)直接或間接影響其他節(jié)點(diǎn)覆蓋范圍的比率［5］。應(yīng)用到博客空間即為:博主直接或間接的被其他博主鏈接的數(shù)目與收集的博客集中所有鏈接的比率。計(jì)算公式如下:

集合M表示所研究的所有博主，Link(Pi)計(jì)算公式參照公式(1)。

(2)話題多樣性:給出每篇博文的關(guān)鍵詞，然后比較這些關(guān)鍵詞兩兩之間的相似度，如果相似度小，就認(rèn)為話題比較多樣。給出關(guān)鍵詞 ti(i=1，2，3...，n)計(jì)算公式如下:

4.3 結(jié)果及分析

在確定的時(shí)間窗口內(nèi)由OLRank算法得出Top－5的意見領(lǐng)袖，如表1所示。

表1 OLRank算法得到的Top－5

由OLRank算法得到的Top－5與新浪博客用流量得出的Top－5對(duì)比，可以看出兩種方法得到的Top－5排名順序基本相同，如表2所示。

選擇常用來計(jì)算網(wǎng)頁重要性的PageRank［10］算法(簡(jiǎn)記為 PR)、HITS［11］算法、從采集的種子博主中隨機(jī)抽取K個(gè)博主的方法(簡(jiǎn)記為RS)，這三種算法和本文的OLRank算法進(jìn)行對(duì)比研究。四種算法在全路徑覆蓋率評(píng)估標(biāo)準(zhǔn)下對(duì)比結(jié)果如圖3所示。

表2 OLRank與流量得到的Top－5對(duì)比

圖3 四種算法全路徑覆蓋率對(duì)比

可以看出在全路徑覆蓋率這個(gè)指標(biāo)下，PR算法和OLRank算法表現(xiàn)最好，但從Top6開始，OLRank較PR算法表現(xiàn)得更好。說明了PR算法適合于利用超鏈接計(jì)算Web頁面權(quán)重，而博客站點(diǎn)不同于Web頁面的是它不僅依賴于博客間的鏈接關(guān)系，還與博客的內(nèi)容緊密相關(guān)。

四種不同算法得到的意見領(lǐng)袖在談?wù)撛掝}多樣性指標(biāo)下的比較結(jié)果如圖4所示。

圖4 意見領(lǐng)袖話題多樣性比較

可以看出OLRank算法用于K＜15時(shí)對(duì)鑒別意見領(lǐng)袖話題多樣性很有效。隨著Top－K的增大，OLRank，PR，HITS三種算法話題多樣性指數(shù)相差不大。

5 結(jié)束語

從博客空間中博主具有的屬性出發(fā)，通過分析博文的內(nèi)鏈接數(shù)、外鏈接數(shù)、評(píng)論數(shù)、文章長(zhǎng)度來衡量一篇博文的影響力得分。然后在此基礎(chǔ)上提出OLRank算法來鑒別博客空間的意見領(lǐng)袖。從仿真結(jié)果也可以看出，該算法在評(píng)估標(biāo)準(zhǔn)全路徑覆蓋率和話題多樣性中相比傳統(tǒng)的基于鏈接分析的算法表現(xiàn)良好。最后在實(shí)驗(yàn)仿真時(shí)，對(duì)權(quán)重采用的是相同的值，沒有考慮到這四個(gè)參數(shù)權(quán)重值不一樣的情況。因此在后續(xù)工作中，研究選取不同權(quán)重值來衡量這四個(gè)參數(shù)對(duì)博文影響力得分，將是下一步工作的重點(diǎn)。

［1］Nakajima S，Tatemura J，Hino Y，Hara Y，Tanaka K.Discovering Important Bloggers based on Analyzing Weblog Threads［J］.2nd Annual Workshop on the Weblogging Ecosystem:Aggregation，Analysis and Dynamics，2005:604－608.

［2］E Adar，L Zang.Implicit structure and Dynamic of Blogspace［J］.workshop on the weblogging Ecosystem:Aggregation，Analysisand Dynamic，2004，16989 －16995.

［3］Fujimura Ko，Inove T，Sugisaki M.The EigenRumor algorithm for ranking blogs［J］.In:Adar E，Glance N，Hurst M，eds.Proc.of the world wide web 2005 workshop on the weblogging Ecosystem:Aggregation，Analysis and Dynamic，2005，619 －622.

［4］Apostolos Kritikopoulos，Martha Sideri and Iraklis Varlami.Blogrank:ranking weblogs based on connectivity and similarity features［J］.In AAA － IDEA06:Proceedings of the 2nd International workshop on Advanced architectures and algorithms for internet delivery and applications，New York ACMPress，2006:467 － 474.

［5］Song X，Chi Y，Hino and Tseng B.Identifying opinion leaders in the blogosphere［J］.In proceedings of CIKM，2007:971－974.

［6］T Nanno，Y Suzuki，T Fujuki and Mokumura.Automatic collection and Monitoring of Japanese weblog［J］.www 2004workshop on the weblogging Ecosystem:Aggregation，Analysis and Dynamic，New York，2004:191－193.

［7］Cohen E，Krishnamurthy B.A short walk in the Blogistan［J］.Computer Networks，2006，50(5):615 －630.

［8］Abu－Nimeh S，Chen T.Proliferation and Detection of blog spam［J］.Security＆Privacy，2007:42 － 47.

［9］Zhai，Z.W，Hua X.Identifying opinion leaders In BBS［J］.IEEE Proceeding of Intelligenceant Intelligent Agent Technology，2008:398 －401.

［10］馮振明.Google核心—PageRank算法探討［J］.計(jì)算機(jī)技術(shù)與發(fā)展，2006(2):88－90.

［11］Nomura S，Oyama S，Hayamizu T，and Ishida T.Analysis and Improvement of HITS Algorithm for Detecting Web Communities［J］.The 2002 International Symposium on Applications and the Internet，2002:132 －140.