亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種鑒別博客空間意見領(lǐng)袖的算法研究

        2012-09-11 10:17:02宋昭君黃東旭
        微處理機(jī) 2012年6期
        關(guān)鍵詞:博文博主領(lǐng)袖

        宋昭君,戴 航,黃東旭

        (西北工業(yè)大學(xué)自動(dòng)化學(xué)院,西安 710072)

        1 引言

        博客是人們思想和觀點(diǎn)傳播的重要途徑。博客空間的意見領(lǐng)袖鑒別可以發(fā)掘出網(wǎng)絡(luò)中的主導(dǎo)觀念,跟蹤網(wǎng)絡(luò)輿情的走勢(shì)。近幾年來,博客空間意見領(lǐng)袖鑒別已成為網(wǎng)絡(luò)輿情中的熱點(diǎn)研究領(lǐng)域。

        國內(nèi)外在博客意見領(lǐng)袖鑒別上做了很多研究,但都具有一定的局限性。Nakajima[1]采用普通網(wǎng)頁的分析方法,從鏈接關(guān)系入手,但是該算法忽略了博客的鏈接較普通網(wǎng)頁稀疏的特點(diǎn)。鑒于此種缺陷,Adar[2]研究了博客空間的顯式鏈接結(jié)構(gòu)以及隱式信息傳播途徑,增加了鏈接的密度。Ko Fujimura[3]提出的EigenRumor算法通過分析博文的鏈接并結(jié)合博主的信譽(yù)度,一同來鑒別意見領(lǐng)袖。Apostolos[3]從鏈接關(guān)系以及博文間的共同屬性提出Blogrank算法來研究重要的博客。但是上述研究策略并沒有考慮到博文的內(nèi)容。Song.X[5]提出的InfluenceRank算法從博主是否為網(wǎng)絡(luò)提供新穎信息方面入手來鑒別意見領(lǐng)袖。最近幾年國內(nèi)外對(duì)于博客空間意見領(lǐng)袖的研究主要集中在博文的鏈接關(guān)系上,對(duì)于博文的內(nèi)容考慮不足。

        因此綜合博文的內(nèi)鏈接數(shù),外鏈接數(shù),評(píng)論數(shù)和文章長(zhǎng)度,基于這四個(gè)屬性,提出了OLRank算法。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的基于鏈接分析的算法比較,該算法在評(píng)估標(biāo)準(zhǔn)全路徑覆蓋率和話題多樣性下表現(xiàn)良好,可以更好的實(shí)現(xiàn)博客空間意見領(lǐng)袖的鑒別。

        2 博客空間影響屬性分析

        2.1 博客空間結(jié)構(gòu)

        博客在短短幾年的時(shí)間內(nèi)發(fā)展成為繼E-mail,BBS,ICQ之后出現(xiàn)的第四種新型網(wǎng)絡(luò)交流方式。典型的博客站點(diǎn),由許多按照時(shí)間倒序排列的條目(Entry)組成,如圖1所示。典型條目包括了文本、圖片,與別的博客站點(diǎn)或是網(wǎng)頁的鏈接,以及其他媒體指向該博客的鏈接[6]。博客空間(Blogosphere)是包括了許多博客站點(diǎn)的虛擬區(qū)。一般認(rèn)為,活躍在人際傳播網(wǎng)絡(luò)中,經(jīng)常為他人提供信息觀點(diǎn)或建議并對(duì)他人施加個(gè)人影響的人物,可以稱為意見領(lǐng)袖(opinion leader)[7]。意見領(lǐng)袖是網(wǎng)絡(luò)團(tuán)體中最具信息力,最有影響力的節(jié)點(diǎn),鑒別意見領(lǐng)袖可以了解網(wǎng)絡(luò)中的主導(dǎo)觀點(diǎn),分析博客空間的輿情走勢(shì)。

        圖1 典型的博客站點(diǎn)

        2.2 博主的屬性分析

        成為意見領(lǐng)袖的博主必然具備若干特點(diǎn),例如擁有許多的跟隨者,發(fā)表的博文非常具有創(chuàng)新性、有說服性,博文評(píng)論也比較多。因此,先從博主具有的屬性入手,然后衡量博主的每篇博文的影響力得分,最后通過博文的影響力得分排名來找出意見領(lǐng)袖。

        歸納的博主屬性有如下四點(diǎn):

        (1)認(rèn)可度:即博主被別人承認(rèn)的程度。認(rèn)可度越高,就越有可能成為意見領(lǐng)袖,對(duì)他所在群體的影響力度就會(huì)越大。這里用博文的內(nèi)連接數(shù)(inlinks)來衡量。內(nèi)鏈接數(shù)是博主的文章被他人引用的數(shù)目,被引用的數(shù)目越多,也就認(rèn)為該博主的認(rèn)可度越高。

        (2)創(chuàng)新度:就是博主文章的新穎程度。創(chuàng)新度越高,就認(rèn)為該博主從其他博客,媒體獲取的信息越少,自主創(chuàng)新的程度就越好。這里用博文的外鏈接數(shù)(out-links)來衡量。外鏈接數(shù)是該博主引用他人文章的鏈接數(shù)目,外鏈接數(shù)越多,就認(rèn)為該博主的創(chuàng)新度越低。

        (3)活躍度:就是博主在博客空間中積極的程度。可以間接用博文獲得的評(píng)論數(shù)(comments)來衡量。換言之,如果一個(gè)博主發(fā)布的博文沒有評(píng)論或評(píng)論很少,也反映出他的話題有很少的追隨者。因此,大量的評(píng)論數(shù)反映出博主的文章影響了許多人,人們也有興趣針對(duì)該博文寫評(píng)論。

        (4)說服度:意見領(lǐng)袖必須要有說服力??紤]意見領(lǐng)袖的說服力,可以從一篇博文傳遞的信息多少來衡量。文章的長(zhǎng)度往往可測(cè),且能夠在一定程度上反映一篇文章傳遞信息的多少和文章質(zhì)量的好壞。因此用博文長(zhǎng)度來衡量博文的質(zhì)量度。

        由以上可以看出,博主的四個(gè)屬性,可以用每篇博文的內(nèi)鏈接數(shù)、外鏈接數(shù)、評(píng)論數(shù)、文章長(zhǎng)度來衡量,分別用字母α、β、γ、σ來表示。

        2.3 博主屬性量化修正

        2.2 節(jié)中提出用博文獲得的評(píng)論數(shù)來衡量博主的活躍度。獲得的評(píng)論數(shù)越多,說明他對(duì)別人就越具有影響力,成為意見領(lǐng)袖的可能性也就越大。然而評(píng)論中存在不少垃圾評(píng)論。博客垃圾評(píng)論[8]的種類很多。文中主要涉及的垃圾評(píng)論是指重復(fù)評(píng)論,即一個(gè)博主的一篇博文可能會(huì)被同一個(gè)評(píng)論者進(jìn)行多次評(píng)論且評(píng)論內(nèi)容相同??梢越梃b文獻(xiàn)[9]的處理方法:如果發(fā)現(xiàn)來自同一個(gè)用戶對(duì)博主的同一篇博文評(píng)論內(nèi)容相同,就將該用戶在同一篇博文中相同的評(píng)論條數(shù)降為1。

        3 博客空間意見領(lǐng)袖排名算法(OLRank)

        博客空間中的意見領(lǐng)袖是在所研究的博客空間中,最具影響力的前K名博主。設(shè)博主bx有L篇博文{P1,P2,...,PL},假設(shè)這 L 篇博文都有一個(gè)影響力得分I(Pl)(1≤l≤L)。博主bx的影響力指數(shù)記做In(bx),wl是博主bx每篇博文的權(quán)重值,In(bx)通過計(jì)算博文的影響力得分得到。研究對(duì)象擴(kuò)大為一個(gè)包括 M 個(gè)博主{b1,b2,...,bM}的集合 U。集合Vj是集合U的第j個(gè)按博主影響力指數(shù)排序的子集,即 Vj?U。Vj包括 K 個(gè)博主{bj1,bj2,...,bjK}其中 K≤M,如按照影響力指數(shù)從大到小排序?yàn)镮n(bj1)≥In(bj2)≥...≥In(bjk)。對(duì)于集合U中的Vj集合外的任何一個(gè)博主by,只要滿足In(by)≥In(bjk)就可以歸為新的意見領(lǐng)袖集合中。因此鑒別Top-K名意見領(lǐng)袖,就是找出包含最具有影響力的子集Vj。根據(jù)2.2節(jié)中對(duì)于博主屬性的分析,可以得到博主影響力算法流程圖如圖2所示。

        (1)博主的認(rèn)可度與創(chuàng)新度

        直觀起見,可以將研究的博客空間作為一個(gè)復(fù)雜網(wǎng)絡(luò)空間(network),包含有許多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)代表一個(gè)博主。因此,鑒別意見領(lǐng)袖也就是鑒別網(wǎng)絡(luò)空間中的重要節(jié)點(diǎn)。由2.2節(jié)可知,節(jié)點(diǎn)包含四個(gè)屬性α、β、γ、σ。用I(P)表示一個(gè)節(jié)點(diǎn)的影響力得分,Link(p)表示一個(gè)節(jié)點(diǎn)由內(nèi)鏈接數(shù)和外連接數(shù)決定的最后得分,計(jì)算公式如下:

        win,wout分別表示內(nèi)鏈接數(shù)和外連接數(shù)的權(quán)重值,取值范圍介于[0,1]。|α|,|β|分別代表內(nèi)鏈接總數(shù)和外連接總數(shù)。從公式(1)可以很容易看出,一篇博文得到的內(nèi)鏈接數(shù)越多,該博文的認(rèn)可度越高。外連接數(shù)越少,該博文的新穎度越高,影響越廣泛。

        圖2 OLRank算法流程圖

        (2)博主的活躍度

        考慮文章的評(píng)論數(shù)γ,博文P的影響力得分與該博文得到的評(píng)論數(shù),最后的鏈接數(shù)得分成正比。即:

        γsp垃圾評(píng)論數(shù),wcom表示博文評(píng)論數(shù)γp提升博文P影響力得分的權(quán)重值,wcom∈[0,1]。

        (3)博主的說服力

        由2.2中,將博文質(zhì)量作為博文影響力得分的因素之一,而博文質(zhì)量好壞與傳遞信息的多少有關(guān),我們采用博文長(zhǎng)度σ來衡量這一因素。其中w(σ)是與博文長(zhǎng)度有關(guān)的一個(gè)函數(shù),用文本分析工具進(jìn)行分析,計(jì)算博文影響力得分的公式如下:

        (4)博主的影響力指數(shù)

        以上三個(gè)公式給出了計(jì)算博文影響力得分的方法。鑒別意見領(lǐng)袖的方法,就是看博客空間中博主的影響力指數(shù)In(bx),它的計(jì)算公式如下:

        其中bx表示研究的博主,I(Pl)(1≤l≤L)表示博主bx的第l篇博文,wl是博主bx每篇博客的權(quán)重值表示所有博文權(quán)重值的絕對(duì)值之和,μ代表阻尼因子,一般情況下取0.85。有了影響力指數(shù)后,就可以在一個(gè)博客網(wǎng)站上進(jìn)行博主排序,選出前K名意見領(lǐng)袖。

        4 數(shù)據(jù)收集及仿真結(jié)果分析

        4.1 實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)數(shù)據(jù)

        采用新浪博客(http://blog.sina.com.cn)作為實(shí)驗(yàn)的博客空間。實(shí)驗(yàn)平臺(tái)為:操作系統(tǒng),Microsoft Windows Vista Home Basic,CPU 2.80GHz,內(nèi)存(RAM)2.00GB。采集工具為一款小巧方便的數(shù)據(jù)采集器“網(wǎng)絡(luò)神采”。數(shù)據(jù)采集的時(shí)間段為2011年11月10日到2011年12月10日,在此時(shí)間窗口內(nèi),共采集種子博主418位,博文6016篇,關(guān)鍵詞779個(gè),評(píng)論數(shù)97859條,去除垃圾評(píng)論得到過濾后的數(shù)據(jù)為評(píng)論數(shù)83562條,內(nèi)連接數(shù)為3742,外連接數(shù)為1044。

        4.2 評(píng)估標(biāo)準(zhǔn)

        為了評(píng)估第3節(jié)的意見領(lǐng)袖排名算法(Opinion Leader Rank algorithm)簡(jiǎn)稱為OLRank算法的有效性,使用兩種評(píng)估標(biāo)準(zhǔn)。

        (1)全路徑覆蓋率:網(wǎng)絡(luò)空間中,有影響力的節(jié)點(diǎn)直接或間接影響其他節(jié)點(diǎn)覆蓋范圍的比率[5]。應(yīng)用到博客空間即為:博主直接或間接的被其他博主鏈接的數(shù)目與收集的博客集中所有鏈接的比率。計(jì)算公式如下:

        集合M表示所研究的所有博主,Link(Pi)計(jì)算公式參照公式(1)。

        (2)話題多樣性:給出每篇博文的關(guān)鍵詞,然后比較這些關(guān)鍵詞兩兩之間的相似度,如果相似度小,就認(rèn)為話題比較多樣。給出關(guān)鍵詞 ti(i=1,2,3...,n)計(jì)算公式如下:

        4.3 結(jié)果及分析

        在確定的時(shí)間窗口內(nèi)由OLRank算法得出Top-5的意見領(lǐng)袖,如表1所示。

        表1 OLRank算法得到的Top-5

        由OLRank算法得到的Top-5與新浪博客用流量得出的Top-5對(duì)比,可以看出兩種方法得到的Top-5排名順序基本相同,如表2所示。

        選擇常用來計(jì)算網(wǎng)頁重要性的PageRank[10]算法(簡(jiǎn)記為 PR)、HITS[11]算法、從采集的種子博主中隨機(jī)抽取K個(gè)博主的方法(簡(jiǎn)記為RS),這三種算法和本文的OLRank算法進(jìn)行對(duì)比研究。四種算法在全路徑覆蓋率評(píng)估標(biāo)準(zhǔn)下對(duì)比結(jié)果如圖3所示。

        表2 OLRank與流量得到的Top-5對(duì)比

        圖3 四種算法全路徑覆蓋率對(duì)比

        可以看出在全路徑覆蓋率這個(gè)指標(biāo)下,PR算法和OLRank算法表現(xiàn)最好,但從Top6開始,OLRank較PR算法表現(xiàn)得更好。說明了PR算法適合于利用超鏈接計(jì)算Web頁面權(quán)重,而博客站點(diǎn)不同于Web頁面的是它不僅依賴于博客間的鏈接關(guān)系,還與博客的內(nèi)容緊密相關(guān)。

        四種不同算法得到的意見領(lǐng)袖在談?wù)撛掝}多樣性指標(biāo)下的比較結(jié)果如圖4所示。

        圖4 意見領(lǐng)袖話題多樣性比較

        可以看出OLRank算法用于K<15時(shí)對(duì)鑒別意見領(lǐng)袖話題多樣性很有效。隨著Top-K的增大,OLRank,PR,HITS三種算法話題多樣性指數(shù)相差不大。

        5 結(jié)束語

        從博客空間中博主具有的屬性出發(fā),通過分析博文的內(nèi)鏈接數(shù)、外鏈接數(shù)、評(píng)論數(shù)、文章長(zhǎng)度來衡量一篇博文的影響力得分。然后在此基礎(chǔ)上提出OLRank算法來鑒別博客空間的意見領(lǐng)袖。從仿真結(jié)果也可以看出,該算法在評(píng)估標(biāo)準(zhǔn)全路徑覆蓋率和話題多樣性中相比傳統(tǒng)的基于鏈接分析的算法表現(xiàn)良好。最后在實(shí)驗(yàn)仿真時(shí),對(duì)權(quán)重采用的是相同的值,沒有考慮到這四個(gè)參數(shù)權(quán)重值不一樣的情況。因此在后續(xù)工作中,研究選取不同權(quán)重值來衡量這四個(gè)參數(shù)對(duì)博文影響力得分,將是下一步工作的重點(diǎn)。

        [1]Nakajima S,Tatemura J,Hino Y,Hara Y,Tanaka K.Discovering Important Bloggers based on Analyzing Weblog Threads[J].2nd Annual Workshop on the Weblogging Ecosystem:Aggregation,Analysis and Dynamics,2005:604-608.

        [2]E Adar,L Zang.Implicit structure and Dynamic of Blogspace[J].workshop on the weblogging Ecosystem:Aggregation,Analysisand Dynamic,2004,16989 -16995.

        [3]Fujimura Ko,Inove T,Sugisaki M.The EigenRumor algorithm for ranking blogs[J].In:Adar E,Glance N,Hurst M,eds.Proc.of the world wide web 2005 workshop on the weblogging Ecosystem:Aggregation,Analysis and Dynamic,2005,619 -622.

        [4]Apostolos Kritikopoulos,Martha Sideri and Iraklis Varlami.Blogrank:ranking weblogs based on connectivity and similarity features[J].In AAA - IDEA06:Proceedings of the 2nd International workshop on Advanced architectures and algorithms for internet delivery and applications,New York ACMPress,2006:467 - 474.

        [5]Song X,Chi Y,Hino and Tseng B.Identifying opinion leaders in the blogosphere[J].In proceedings of CIKM,2007:971-974.

        [6]T Nanno,Y Suzuki,T Fujuki and Mokumura.Automatic collection and Monitoring of Japanese weblog[J].www 2004workshop on the weblogging Ecosystem:Aggregation,Analysis and Dynamic,New York,2004:191-193.

        [7]Cohen E,Krishnamurthy B.A short walk in the Blogistan[J].Computer Networks,2006,50(5):615 -630.

        [8]Abu-Nimeh S,Chen T.Proliferation and Detection of blog spam[J].Security&Privacy,2007:42 - 47.

        [9]Zhai,Z.W,Hua X.Identifying opinion leaders In BBS[J].IEEE Proceeding of Intelligenceant Intelligent Agent Technology,2008:398 -401.

        [10]馮振明.Google核心—PageRank算法探討[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006(2):88-90.

        [11]Nomura S,Oyama S,Hayamizu T,and Ishida T.Analysis and Improvement of HITS Algorithm for Detecting Web Communities[J].The 2002 International Symposium on Applications and the Internet,2002:132 -140.

        猜你喜歡
        博文博主領(lǐng)袖
        領(lǐng)袖風(fēng)范
        黃河之聲(2022年6期)2022-08-26 06:46:04
        跟著零食博主買拼多多小吃
        好日子(2022年6期)2022-08-17 07:16:42
        如果孩子想當(dāng)美妝博主
        咱們的領(lǐng)袖毛澤東
        第一次掙錢
        時(shí)尚博主謝慕梓:分享身邊的美
        金橋(2021年1期)2021-05-21 08:22:04
        誰和誰好
        領(lǐng)袖哲學(xué)
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        平民領(lǐng)袖
        无码av中文一区二区三区桃花岛| 欧美洲精品亚洲精品中文字幕 | 寂寞少妇做spa按摩无码| 精品国模一区二区三区| 九九九影院| 亚洲区精品久久一区二区三区女同 | 精品人妻无码视频中文字幕一区二区三区| 久久无码av三级| www.五月激情| 亚洲一区二区三区1区2区| 国产亚洲成人精品久久| 久久精品国产亚洲7777| 亚洲aⅴ无码成人网站国产app| 午夜精品久视频在线观看| 中文字幕色一区二区三区页不卡| 视频在线观看免费一区二区| 国产一区二区三区乱码| 国产亚洲精品久久久久秋霞| 国产成人AⅤ| 中文字幕av素人专区| 中文字幕乱码亚洲一区二区三区| 日韩 无码 偷拍 中文字幕| 免费看黄色电影| 国产精品国产三级在线高清观看| 少妇激情一区二区三区久久大香香| 午夜大片在线播放观看| 伊人色综合久久天天五月婷| a级黑人大硬长爽猛出猛进| 免费看一级a女人自慰免费| 亚洲精品国产一区av| 网红尤物泛滥白浆正在播放| 国产亚洲精品综合一区| 伊人久久精品久久亚洲一区| 亚洲AV无码未成人网站久久精品| 亚洲一区二区一区二区免费视频| 91精品国产自拍视频| 97一期涩涩97片久久久久久久| 亚洲一本到无码av中文字幕| 无码高潮久久一级一级喷水| 一区二区三区在线观看人妖| 天天躁日日躁aaaaxxxx|