宋昭君,戴 航,黃東旭
(西北工業(yè)大學(xué)自動(dòng)化學(xué)院,西安 710072)
博客是人們思想和觀點(diǎn)傳播的重要途徑。博客空間的意見領(lǐng)袖鑒別可以發(fā)掘出網(wǎng)絡(luò)中的主導(dǎo)觀念,跟蹤網(wǎng)絡(luò)輿情的走勢(shì)。近幾年來,博客空間意見領(lǐng)袖鑒別已成為網(wǎng)絡(luò)輿情中的熱點(diǎn)研究領(lǐng)域。
國內(nèi)外在博客意見領(lǐng)袖鑒別上做了很多研究,但都具有一定的局限性。Nakajima[1]采用普通網(wǎng)頁的分析方法,從鏈接關(guān)系入手,但是該算法忽略了博客的鏈接較普通網(wǎng)頁稀疏的特點(diǎn)。鑒于此種缺陷,Adar[2]研究了博客空間的顯式鏈接結(jié)構(gòu)以及隱式信息傳播途徑,增加了鏈接的密度。Ko Fujimura[3]提出的EigenRumor算法通過分析博文的鏈接并結(jié)合博主的信譽(yù)度,一同來鑒別意見領(lǐng)袖。Apostolos[3]從鏈接關(guān)系以及博文間的共同屬性提出Blogrank算法來研究重要的博客。但是上述研究策略并沒有考慮到博文的內(nèi)容。Song.X[5]提出的InfluenceRank算法從博主是否為網(wǎng)絡(luò)提供新穎信息方面入手來鑒別意見領(lǐng)袖。最近幾年國內(nèi)外對(duì)于博客空間意見領(lǐng)袖的研究主要集中在博文的鏈接關(guān)系上,對(duì)于博文的內(nèi)容考慮不足。
因此綜合博文的內(nèi)鏈接數(shù),外鏈接數(shù),評(píng)論數(shù)和文章長(zhǎng)度,基于這四個(gè)屬性,提出了OLRank算法。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的基于鏈接分析的算法比較,該算法在評(píng)估標(biāo)準(zhǔn)全路徑覆蓋率和話題多樣性下表現(xiàn)良好,可以更好的實(shí)現(xiàn)博客空間意見領(lǐng)袖的鑒別。
博客在短短幾年的時(shí)間內(nèi)發(fā)展成為繼E-mail,BBS,ICQ之后出現(xiàn)的第四種新型網(wǎng)絡(luò)交流方式。典型的博客站點(diǎn),由許多按照時(shí)間倒序排列的條目(Entry)組成,如圖1所示。典型條目包括了文本、圖片,與別的博客站點(diǎn)或是網(wǎng)頁的鏈接,以及其他媒體指向該博客的鏈接[6]。博客空間(Blogosphere)是包括了許多博客站點(diǎn)的虛擬區(qū)。一般認(rèn)為,活躍在人際傳播網(wǎng)絡(luò)中,經(jīng)常為他人提供信息觀點(diǎn)或建議并對(duì)他人施加個(gè)人影響的人物,可以稱為意見領(lǐng)袖(opinion leader)[7]。意見領(lǐng)袖是網(wǎng)絡(luò)團(tuán)體中最具信息力,最有影響力的節(jié)點(diǎn),鑒別意見領(lǐng)袖可以了解網(wǎng)絡(luò)中的主導(dǎo)觀點(diǎn),分析博客空間的輿情走勢(shì)。
圖1 典型的博客站點(diǎn)
成為意見領(lǐng)袖的博主必然具備若干特點(diǎn),例如擁有許多的跟隨者,發(fā)表的博文非常具有創(chuàng)新性、有說服性,博文評(píng)論也比較多。因此,先從博主具有的屬性入手,然后衡量博主的每篇博文的影響力得分,最后通過博文的影響力得分排名來找出意見領(lǐng)袖。
歸納的博主屬性有如下四點(diǎn):
(1)認(rèn)可度:即博主被別人承認(rèn)的程度。認(rèn)可度越高,就越有可能成為意見領(lǐng)袖,對(duì)他所在群體的影響力度就會(huì)越大。這里用博文的內(nèi)連接數(shù)(inlinks)來衡量。內(nèi)鏈接數(shù)是博主的文章被他人引用的數(shù)目,被引用的數(shù)目越多,也就認(rèn)為該博主的認(rèn)可度越高。
(2)創(chuàng)新度:就是博主文章的新穎程度。創(chuàng)新度越高,就認(rèn)為該博主從其他博客,媒體獲取的信息越少,自主創(chuàng)新的程度就越好。這里用博文的外鏈接數(shù)(out-links)來衡量。外鏈接數(shù)是該博主引用他人文章的鏈接數(shù)目,外鏈接數(shù)越多,就認(rèn)為該博主的創(chuàng)新度越低。
(3)活躍度:就是博主在博客空間中積極的程度。可以間接用博文獲得的評(píng)論數(shù)(comments)來衡量。換言之,如果一個(gè)博主發(fā)布的博文沒有評(píng)論或評(píng)論很少,也反映出他的話題有很少的追隨者。因此,大量的評(píng)論數(shù)反映出博主的文章影響了許多人,人們也有興趣針對(duì)該博文寫評(píng)論。
(4)說服度:意見領(lǐng)袖必須要有說服力??紤]意見領(lǐng)袖的說服力,可以從一篇博文傳遞的信息多少來衡量。文章的長(zhǎng)度往往可測(cè),且能夠在一定程度上反映一篇文章傳遞信息的多少和文章質(zhì)量的好壞。因此用博文長(zhǎng)度來衡量博文的質(zhì)量度。
由以上可以看出,博主的四個(gè)屬性,可以用每篇博文的內(nèi)鏈接數(shù)、外鏈接數(shù)、評(píng)論數(shù)、文章長(zhǎng)度來衡量,分別用字母α、β、γ、σ來表示。
2.2 節(jié)中提出用博文獲得的評(píng)論數(shù)來衡量博主的活躍度。獲得的評(píng)論數(shù)越多,說明他對(duì)別人就越具有影響力,成為意見領(lǐng)袖的可能性也就越大。然而評(píng)論中存在不少垃圾評(píng)論。博客垃圾評(píng)論[8]的種類很多。文中主要涉及的垃圾評(píng)論是指重復(fù)評(píng)論,即一個(gè)博主的一篇博文可能會(huì)被同一個(gè)評(píng)論者進(jìn)行多次評(píng)論且評(píng)論內(nèi)容相同??梢越梃b文獻(xiàn)[9]的處理方法:如果發(fā)現(xiàn)來自同一個(gè)用戶對(duì)博主的同一篇博文評(píng)論內(nèi)容相同,就將該用戶在同一篇博文中相同的評(píng)論條數(shù)降為1。
博客空間中的意見領(lǐng)袖是在所研究的博客空間中,最具影響力的前K名博主。設(shè)博主bx有L篇博文{P1,P2,...,PL},假設(shè)這 L 篇博文都有一個(gè)影響力得分I(Pl)(1≤l≤L)。博主bx的影響力指數(shù)記做In(bx),wl是博主bx每篇博文的權(quán)重值,In(bx)通過計(jì)算博文的影響力得分得到。研究對(duì)象擴(kuò)大為一個(gè)包括 M 個(gè)博主{b1,b2,...,bM}的集合 U。集合Vj是集合U的第j個(gè)按博主影響力指數(shù)排序的子集,即 Vj?U。Vj包括 K 個(gè)博主{bj1,bj2,...,bjK}其中 K≤M,如按照影響力指數(shù)從大到小排序?yàn)镮n(bj1)≥In(bj2)≥...≥In(bjk)。對(duì)于集合U中的Vj集合外的任何一個(gè)博主by,只要滿足In(by)≥In(bjk)就可以歸為新的意見領(lǐng)袖集合中。因此鑒別Top-K名意見領(lǐng)袖,就是找出包含最具有影響力的子集Vj。根據(jù)2.2節(jié)中對(duì)于博主屬性的分析,可以得到博主影響力算法流程圖如圖2所示。
(1)博主的認(rèn)可度與創(chuàng)新度
直觀起見,可以將研究的博客空間作為一個(gè)復(fù)雜網(wǎng)絡(luò)空間(network),包含有許多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一個(gè)博主。因此,鑒別意見領(lǐng)袖也就是鑒別網(wǎng)絡(luò)空間中的重要節(jié)點(diǎn)。由2.2節(jié)可知,節(jié)點(diǎn)包含四個(gè)屬性α、β、γ、σ。用I(P)表示一個(gè)節(jié)點(diǎn)的影響力得分,Link(p)表示一個(gè)節(jié)點(diǎn)由內(nèi)鏈接數(shù)和外連接數(shù)決定的最后得分,計(jì)算公式如下:
win,wout分別表示內(nèi)鏈接數(shù)和外連接數(shù)的權(quán)重值,取值范圍介于[0,1]。|α|,|β|分別代表內(nèi)鏈接總數(shù)和外連接總數(shù)。從公式(1)可以很容易看出,一篇博文得到的內(nèi)鏈接數(shù)越多,該博文的認(rèn)可度越高。外連接數(shù)越少,該博文的新穎度越高,影響越廣泛。
圖2 OLRank算法流程圖
(2)博主的活躍度
考慮文章的評(píng)論數(shù)γ,博文P的影響力得分與該博文得到的評(píng)論數(shù),最后的鏈接數(shù)得分成正比。即:
γsp垃圾評(píng)論數(shù),wcom表示博文評(píng)論數(shù)γp提升博文P影響力得分的權(quán)重值,wcom∈[0,1]。
(3)博主的說服力
由2.2中,將博文質(zhì)量作為博文影響力得分的因素之一,而博文質(zhì)量好壞與傳遞信息的多少有關(guān),我們采用博文長(zhǎng)度σ來衡量這一因素。其中w(σ)是與博文長(zhǎng)度有關(guān)的一個(gè)函數(shù),用文本分析工具進(jìn)行分析,計(jì)算博文影響力得分的公式如下:
(4)博主的影響力指數(shù)
以上三個(gè)公式給出了計(jì)算博文影響力得分的方法。鑒別意見領(lǐng)袖的方法,就是看博客空間中博主的影響力指數(shù)In(bx),它的計(jì)算公式如下:
其中bx表示研究的博主,I(Pl)(1≤l≤L)表示博主bx的第l篇博文,wl是博主bx每篇博客的權(quán)重值表示所有博文權(quán)重值的絕對(duì)值之和,μ代表阻尼因子,一般情況下取0.85。有了影響力指數(shù)后,就可以在一個(gè)博客網(wǎng)站上進(jìn)行博主排序,選出前K名意見領(lǐng)袖。
采用新浪博客(http://blog.sina.com.cn)作為實(shí)驗(yàn)的博客空間。實(shí)驗(yàn)平臺(tái)為:操作系統(tǒng),Microsoft Windows Vista Home Basic,CPU 2.80GHz,內(nèi)存(RAM)2.00GB。采集工具為一款小巧方便的數(shù)據(jù)采集器“網(wǎng)絡(luò)神采”。數(shù)據(jù)采集的時(shí)間段為2011年11月10日到2011年12月10日,在此時(shí)間窗口內(nèi),共采集種子博主418位,博文6016篇,關(guān)鍵詞779個(gè),評(píng)論數(shù)97859條,去除垃圾評(píng)論得到過濾后的數(shù)據(jù)為評(píng)論數(shù)83562條,內(nèi)連接數(shù)為3742,外連接數(shù)為1044。
為了評(píng)估第3節(jié)的意見領(lǐng)袖排名算法(Opinion Leader Rank algorithm)簡(jiǎn)稱為OLRank算法的有效性,使用兩種評(píng)估標(biāo)準(zhǔn)。
(1)全路徑覆蓋率:網(wǎng)絡(luò)空間中,有影響力的節(jié)點(diǎn)直接或間接影響其他節(jié)點(diǎn)覆蓋范圍的比率[5]。應(yīng)用到博客空間即為:博主直接或間接的被其他博主鏈接的數(shù)目與收集的博客集中所有鏈接的比率。計(jì)算公式如下:
集合M表示所研究的所有博主,Link(Pi)計(jì)算公式參照公式(1)。
(2)話題多樣性:給出每篇博文的關(guān)鍵詞,然后比較這些關(guān)鍵詞兩兩之間的相似度,如果相似度小,就認(rèn)為話題比較多樣。給出關(guān)鍵詞 ti(i=1,2,3...,n)計(jì)算公式如下:
在確定的時(shí)間窗口內(nèi)由OLRank算法得出Top-5的意見領(lǐng)袖,如表1所示。
表1 OLRank算法得到的Top-5
由OLRank算法得到的Top-5與新浪博客用流量得出的Top-5對(duì)比,可以看出兩種方法得到的Top-5排名順序基本相同,如表2所示。
選擇常用來計(jì)算網(wǎng)頁重要性的PageRank[10]算法(簡(jiǎn)記為 PR)、HITS[11]算法、從采集的種子博主中隨機(jī)抽取K個(gè)博主的方法(簡(jiǎn)記為RS),這三種算法和本文的OLRank算法進(jìn)行對(duì)比研究。四種算法在全路徑覆蓋率評(píng)估標(biāo)準(zhǔn)下對(duì)比結(jié)果如圖3所示。
表2 OLRank與流量得到的Top-5對(duì)比
圖3 四種算法全路徑覆蓋率對(duì)比
可以看出在全路徑覆蓋率這個(gè)指標(biāo)下,PR算法和OLRank算法表現(xiàn)最好,但從Top6開始,OLRank較PR算法表現(xiàn)得更好。說明了PR算法適合于利用超鏈接計(jì)算Web頁面權(quán)重,而博客站點(diǎn)不同于Web頁面的是它不僅依賴于博客間的鏈接關(guān)系,還與博客的內(nèi)容緊密相關(guān)。
四種不同算法得到的意見領(lǐng)袖在談?wù)撛掝}多樣性指標(biāo)下的比較結(jié)果如圖4所示。
圖4 意見領(lǐng)袖話題多樣性比較
可以看出OLRank算法用于K<15時(shí)對(duì)鑒別意見領(lǐng)袖話題多樣性很有效。隨著Top-K的增大,OLRank,PR,HITS三種算法話題多樣性指數(shù)相差不大。
從博客空間中博主具有的屬性出發(fā),通過分析博文的內(nèi)鏈接數(shù)、外鏈接數(shù)、評(píng)論數(shù)、文章長(zhǎng)度來衡量一篇博文的影響力得分。然后在此基礎(chǔ)上提出OLRank算法來鑒別博客空間的意見領(lǐng)袖。從仿真結(jié)果也可以看出,該算法在評(píng)估標(biāo)準(zhǔn)全路徑覆蓋率和話題多樣性中相比傳統(tǒng)的基于鏈接分析的算法表現(xiàn)良好。最后在實(shí)驗(yàn)仿真時(shí),對(duì)權(quán)重采用的是相同的值,沒有考慮到這四個(gè)參數(shù)權(quán)重值不一樣的情況。因此在后續(xù)工作中,研究選取不同權(quán)重值來衡量這四個(gè)參數(shù)對(duì)博文影響力得分,將是下一步工作的重點(diǎn)。
[1]Nakajima S,Tatemura J,Hino Y,Hara Y,Tanaka K.Discovering Important Bloggers based on Analyzing Weblog Threads[J].2nd Annual Workshop on the Weblogging Ecosystem:Aggregation,Analysis and Dynamics,2005:604-608.
[2]E Adar,L Zang.Implicit structure and Dynamic of Blogspace[J].workshop on the weblogging Ecosystem:Aggregation,Analysisand Dynamic,2004,16989 -16995.
[3]Fujimura Ko,Inove T,Sugisaki M.The EigenRumor algorithm for ranking blogs[J].In:Adar E,Glance N,Hurst M,eds.Proc.of the world wide web 2005 workshop on the weblogging Ecosystem:Aggregation,Analysis and Dynamic,2005,619 -622.
[4]Apostolos Kritikopoulos,Martha Sideri and Iraklis Varlami.Blogrank:ranking weblogs based on connectivity and similarity features[J].In AAA - IDEA06:Proceedings of the 2nd International workshop on Advanced architectures and algorithms for internet delivery and applications,New York ACMPress,2006:467 - 474.
[5]Song X,Chi Y,Hino and Tseng B.Identifying opinion leaders in the blogosphere[J].In proceedings of CIKM,2007:971-974.
[6]T Nanno,Y Suzuki,T Fujuki and Mokumura.Automatic collection and Monitoring of Japanese weblog[J].www 2004workshop on the weblogging Ecosystem:Aggregation,Analysis and Dynamic,New York,2004:191-193.
[7]Cohen E,Krishnamurthy B.A short walk in the Blogistan[J].Computer Networks,2006,50(5):615 -630.
[8]Abu-Nimeh S,Chen T.Proliferation and Detection of blog spam[J].Security&Privacy,2007:42 - 47.
[9]Zhai,Z.W,Hua X.Identifying opinion leaders In BBS[J].IEEE Proceeding of Intelligenceant Intelligent Agent Technology,2008:398 -401.
[10]馮振明.Google核心—PageRank算法探討[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006(2):88-90.
[11]Nomura S,Oyama S,Hayamizu T,and Ishida T.Analysis and Improvement of HITS Algorithm for Detecting Web Communities[J].The 2002 International Symposium on Applications and the Internet,2002:132 -140.