闕文暉,黃永峰,李 星
(清華大學(xué) 電子工程系,北京 100084)
意見領(lǐng)袖在信息傳播和輿情控制中起著重要作用,吸引了國內(nèi)外學(xué)者的廣泛關(guān)注,并相應(yīng)地提出了結(jié)合不同互聯(lián)網(wǎng)內(nèi)容進(jìn)行意見領(lǐng)袖挖掘的方法,如微博[1]、論壇[2]、新聞報(bào)道[3]、新聞評(píng)論[4]等。然而,目前這些方法多集中在通用意見領(lǐng)袖的挖掘上,對于所需要分析的不同的特定事件的適用性并不好,對此本文提出一種采用特定事件相關(guān)的新聞文本構(gòu)建人物關(guān)系網(wǎng)絡(luò),結(jié)合社會(huì)網(wǎng)絡(luò)分析方法挖掘意見領(lǐng)袖的方法。該方法的整體框架如圖1所示。不同于微博、論壇回復(fù)等顯式存在的人物關(guān)系網(wǎng)絡(luò),本文使用新聞文本的人物共現(xiàn)關(guān)系構(gòu)建人物關(guān)系網(wǎng)絡(luò),即認(rèn)為存在共現(xiàn)關(guān)系的人物之間存在隱式的互相影響的關(guān)系,文獻(xiàn)[3]中意見領(lǐng)袖的挖掘工作正是基于此開展。同時(shí),新聞文本內(nèi)容豐富,表述規(guī)范,便于判斷和事件的相關(guān)程度,和事件相關(guān)的新聞文本的數(shù)據(jù)集較易獲取。因此,相比于微博、論壇等更適合特定事件的意見領(lǐng)袖挖掘。基于上述構(gòu)建的人物關(guān)系網(wǎng)絡(luò),本文采用改進(jìn)的LeaderRank算法計(jì)算人物的影響力排名,充分考慮相鄰人物節(jié)點(diǎn)之間關(guān)于特定事件的影響強(qiáng)弱信息以及人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響強(qiáng)弱信息,提高意見領(lǐng)袖識(shí)別的準(zhǔn)確性。
圖1 特定事件意見領(lǐng)袖挖掘框架
現(xiàn)有意見領(lǐng)袖的挖掘方法主要分為兩類:用戶屬性分析法和社會(huì)網(wǎng)絡(luò)分析法。
用戶屬性分析法主要基于用戶的各種特征屬性來衡量用戶的影響力,如文獻(xiàn)[1]從用戶影響力和用戶活躍度兩個(gè)方面考慮構(gòu)建了微博意見領(lǐng)袖指標(biāo)體系。同時(shí),使用用戶屬性結(jié)合聚類的方法也被使用于意見領(lǐng)袖的挖掘[5]。但這類方法只考慮了用戶自身的屬性,并沒有使用用戶之間的關(guān)系信息。
社會(huì)網(wǎng)絡(luò)分析法基于人物關(guān)系網(wǎng)絡(luò),使用節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置和結(jié)構(gòu)信息,量化節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要性。相比于用戶屬性分析法,該方法得到了意見領(lǐng)袖挖掘研究者的更多關(guān)注。如Bai等[6]指出網(wǎng)絡(luò)中的意見領(lǐng)袖可以是度最大的節(jié)點(diǎn),通過對其施加影響可以控制網(wǎng)絡(luò)中信息的傳播。Aral等[7]的研究證明意見領(lǐng)袖在網(wǎng)絡(luò)信息傳播中起著核心作用。文獻(xiàn)[8-10]將社會(huì)網(wǎng)絡(luò)分析法應(yīng)用到了多種復(fù)雜網(wǎng)絡(luò)的意見領(lǐng)袖挖掘工作中。此外,大量的衡量節(jié)點(diǎn)在網(wǎng)絡(luò)中傳播能力和影響力的其它指標(biāo)不斷被提出用于挖掘網(wǎng)絡(luò)中的意見領(lǐng)袖[11-13]。
目前,在網(wǎng)絡(luò)節(jié)點(diǎn)影響力排序上,常見的衡量方法有度中心性,介數(shù)中心性[14],緊密度中心性[15],局部中心性[16],K-Shell[17],LeaderRank[18]等方法。度中心性方法實(shí)現(xiàn)簡單,但僅使用了較少的局部信息來衡量節(jié)點(diǎn)的重要性,因此其效果并不是很好。介數(shù)中心性和緊密度中心性使用了網(wǎng)絡(luò)的全局信息,效果較好,但是計(jì)算復(fù)雜度太高。局部中心性在計(jì)算復(fù)雜度和效果上進(jìn)行了綜合考慮,使用更多的局部信息獲得了更好的效果。K-Shell方法能夠有效地找到核心的節(jié)點(diǎn)集合,但是可能存在多個(gè)節(jié)點(diǎn)都屬于一個(gè)集合,集合內(nèi)節(jié)點(diǎn)影響力無法區(qū)分。LeaderRank作為一種PageRank[19]的改進(jìn)算法,在網(wǎng)絡(luò)中加入ground節(jié)點(diǎn)的方式對節(jié)點(diǎn)跳轉(zhuǎn)信息進(jìn)行控制,有效地提高了排序準(zhǔn)確性,并且其迭代收斂性較好。Xu等[20]針對LeaderRank算法進(jìn)行改進(jìn),提出加入用戶間情感傾向和用戶活躍度的改進(jìn)LeaderRank算法,并通過實(shí)驗(yàn)驗(yàn)證了改進(jìn)算法的準(zhǔn)確性和抗干擾能力都得到了提升。但此改進(jìn)方法僅適用于微博等少數(shù)場景,對于其它如新聞文本等場景并不能適用。
本文從特定事件的意見領(lǐng)袖挖掘的需求出發(fā),對Lea-derRank算法進(jìn)行了改進(jìn),加入了人物之間關(guān)于特定事件的影響強(qiáng)弱信息,并且在ground節(jié)點(diǎn)進(jìn)行影響力分配的過程中考慮接收節(jié)點(diǎn)的鄰居節(jié)點(diǎn)和二度鄰居節(jié)點(diǎn)的局部結(jié)構(gòu)信息,來計(jì)算人物節(jié)點(diǎn)的影響力排名,突出排名靠前的人物節(jié)點(diǎn)的區(qū)分度,提高意見領(lǐng)袖識(shí)別的有效性和準(zhǔn)確性。
本文分別實(shí)現(xiàn)了使用中文新聞文本和英文新聞文本構(gòu)建特定事件人物關(guān)系網(wǎng)絡(luò)。中文新聞文本的特定事件人物關(guān)系網(wǎng)絡(luò)構(gòu)建過程將結(jié)合“天津爆炸”事件進(jìn)行介紹,而英文新聞文本對應(yīng)的構(gòu)建過程則將在中文新聞文本的特定事件人物關(guān)系網(wǎng)絡(luò)構(gòu)建過程的基礎(chǔ)上進(jìn)行補(bǔ)充介紹。
2.1.1 特定事件相關(guān)新聞文本獲取
從中文新聞網(wǎng)站爬取一段時(shí)間內(nèi)的大量的新聞文本,然后通過關(guān)鍵詞過濾的方式得到和特定事件相關(guān)的新聞文本集合。比如“天津爆炸”事件中,我們爬取了大量從2015年8月13日至2015年9月13日內(nèi)的新聞文本,通過關(guān)鍵詞“天津”和“爆炸”對爬取的新聞文本進(jìn)行過濾,得到1599篇和“天津爆炸”事件相關(guān)的新聞文本。
2.1.2 新聞文本和特定事件的相關(guān)性計(jì)算
考慮到特定事件相關(guān)的新聞文本集合中各篇新聞文本和事件的相關(guān)性并不相同,我們計(jì)算每一篇新聞文本和特定事件的相關(guān)度來表征新聞文本和事件相關(guān)性的強(qiáng)弱。首先,使用ICTCLAS工具[21]將特定事件相關(guān)的新聞文本集合D={D1,D2,…}進(jìn)行分詞,去除停用詞后統(tǒng)計(jì)詞頻。取詞頻排序靠前的VN個(gè)詞作為特定事件的描述詞,構(gòu)成事件描述向量V={v1,v2,…vVN},其中vi均為對應(yīng)描述詞歸一化后的詞頻。則一篇文檔和事件的相關(guān)度可以采用以下公式進(jìn)行計(jì)算
(1)
其中,vEp對應(yīng)事件的描述向量,而vip對應(yīng)新聞文本Di的表示向量。
2.1.3 新聞文本人名識(shí)別及優(yōu)化
采用ICTCLAS工具對中文新聞文本進(jìn)行人名識(shí)別,但識(shí)別結(jié)果并不完全準(zhǔn)確。為構(gòu)建更為準(zhǔn)確的人物關(guān)系網(wǎng)絡(luò),我們采用人工校正和規(guī)則的方式對人名識(shí)別結(jié)果進(jìn)行優(yōu)化。
人工校正主要是為了解決人名切分錯(cuò)誤、人名拼寫錯(cuò)誤、以人名打頭的地名企業(yè)名誤識(shí)為人名等情況。如“天津爆炸”事件中,人名“邵俊強(qiáng)”被切分為“邵俊”,人名“楊剛”錯(cuò)寫為“楊鋼”,“萬科”、“安監(jiān)”、“黃煙”等識(shí)別為人名。
規(guī)則主要包括單篇新聞文檔中的人名消歧和多篇文檔中的人名消歧。單篇新聞文檔中的文檔消歧我們主要考慮兩種情況,一是人物的姓名和名共同出現(xiàn)的情況,如“黃艷榮”和“艷榮”,這種情況我們把姓名和名統(tǒng)一合并到姓名進(jìn)行處理;二是姓名和“姓+先生”或“姓+女士”同時(shí)出現(xiàn)的情況,如“董社軒”和“董先生”,這種情況我們首先找到離“姓+先生”或者“姓+女士”最近的相同姓的姓名,然后合并到對應(yīng)的姓名。多篇新聞文檔中的人名消歧主要是解決人物的姓名和名出現(xiàn)在不同新聞文本中的問題。這種情況我們把姓名和名統(tǒng)一合并到姓名進(jìn)行處理。
2.1.4 特定事件人物共現(xiàn)關(guān)系網(wǎng)絡(luò)構(gòu)建
對事件相關(guān)的每一篇新聞文本按段落進(jìn)行人名識(shí)別和優(yōu)化,每個(gè)段落對應(yīng)一個(gè)人名序列Sp={name1,name2,…},每篇新聞文本對應(yīng)一個(gè)人名序列的順序集合Sd={Sp1,Sp2,…}。事件相關(guān)的所有新聞文本對應(yīng)的人名序列集合中的所有人名構(gòu)成了人物關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)集合。對于一篇新聞文本中出現(xiàn)的任意兩個(gè)人名,并不一定存在互相影響的關(guān)系,即在人物關(guān)系網(wǎng)絡(luò)中并不是一定存在邊。本文考慮人名在文中的位置關(guān)系,采用以下兩個(gè)規(guī)則確定人物之間的是否存在影響關(guān)系,構(gòu)建人物關(guān)系網(wǎng)絡(luò)中的邊,使得所構(gòu)建的人物關(guān)系網(wǎng)絡(luò)更為精準(zhǔn)。
規(guī)則一:給定滑動(dòng)窗口大小WS,序列Sd中任意WS大小窗口內(nèi)的人名之間存在邊。
規(guī)則二:同一個(gè)段落內(nèi)任意兩個(gè)人名之間存在邊。
規(guī)則一考慮了新聞文本中出現(xiàn)位置相近的人名之間關(guān)系較強(qiáng),相隔太遠(yuǎn)的人名之間的關(guān)系較弱而忽略置為零。規(guī)則二考慮了新聞文本段落的內(nèi)容聚合性,新聞作者往往會(huì)把相關(guān)的內(nèi)容放在一個(gè)段落,因此我們認(rèn)為同一個(gè)段落內(nèi)的人物之間具有較強(qiáng)的影響關(guān)系。
每一條邊的權(quán)值,即由此條邊相連的兩個(gè)人物關(guān)于特定事件的互相影響的強(qiáng)弱程度,由邊相連的兩個(gè)人物所共同出現(xiàn)的新聞文本集合決定
(2)
其中,Гi,j表示人物i和j所共同出現(xiàn)的新聞文本集合,R(d)表示新聞文本d和特定事件的相關(guān)度。
2.1.5 最大連通子圖獲取
考慮到實(shí)驗(yàn)中采用SI(susceptible-infected)[24]模型進(jìn)行結(jié)果評(píng)估,我們從上述構(gòu)建的網(wǎng)絡(luò)中獲取最大連通子圖,作為下文計(jì)算人物節(jié)點(diǎn)影響力得分的網(wǎng)絡(luò)。
使用英文新聞文本構(gòu)建特定事件人物關(guān)系網(wǎng)絡(luò)的過程和使用中文文本的流程很類似,為避免描述過多重復(fù)的內(nèi)容,以下主要描述兩者的不同之處。
在特定事件新聞文本數(shù)據(jù)的獲取上,我們從英文新聞網(wǎng)站進(jìn)行數(shù)據(jù)采集。在新聞文本和特定事件相關(guān)度的計(jì)算上,首先將英文文本的大寫字母轉(zhuǎn)換為小寫字母,采用空格和標(biāo)點(diǎn)符號(hào)等分隔符對文本進(jìn)行切分,去除停用詞,然后采用Porter Stemmer[22]進(jìn)行詞干提取,之后的計(jì)算步驟和中文新聞文本的處理方式類似。人名識(shí)別和優(yōu)化上,英文文本的人名識(shí)別我們采用的是Stanford Named Entity Recognizer[23],在優(yōu)化方面與中文新聞文本的處理方式類似。在網(wǎng)絡(luò)構(gòu)建和最大子圖獲取上與中文新聞文本的處理方式類似,在此不再贅述。
LeaderRank算法是Lv等[18]提出的一種PageRank的改進(jìn)算法。記無向網(wǎng)絡(luò)為G=
(3)
(4)
Lv等[18]通過實(shí)驗(yàn)證明LeaderRank算法相比PageRank算法具有更高的準(zhǔn)確性和更強(qiáng)的穩(wěn)定性。但是在特定事件的意見領(lǐng)袖挖掘中,構(gòu)建的人物關(guān)系網(wǎng)絡(luò)中人物之間影響強(qiáng)弱不同,或是某一人物節(jié)點(diǎn)受非相鄰人物節(jié)點(diǎn)的影響各不相同,都會(huì)影響意見領(lǐng)袖排名的準(zhǔn)確性,而LeaderRank算法會(huì)受到這兩方面因素的影響。因此,改進(jìn)的LeaderRank算法對上述兩方面因素進(jìn)行了考察優(yōu)化。
3.2.1 人物之間關(guān)于特定事件的影響強(qiáng)弱
在人物關(guān)系網(wǎng)絡(luò)中,LeaderRank算法認(rèn)為任意兩個(gè)人物節(jié)點(diǎn)之間的影響關(guān)系強(qiáng)弱是相同的,即網(wǎng)絡(luò)中所有邊的權(quán)值相同,人物節(jié)點(diǎn)的影響力在傳播過程中是均勻地向鄰居節(jié)點(diǎn)傳播的。LeaderRank算法沒有考慮到人物之間關(guān)于特定事件的影響關(guān)系強(qiáng)弱是各不相同的,影響關(guān)系強(qiáng)的人物之間受到彼此的影響更強(qiáng),而關(guān)系弱的人物之間受到彼此的影響更弱。針對上述問題,改進(jìn)的LeaderRank算法加入了人物關(guān)系網(wǎng)路中人物之間關(guān)于特定事件的影響強(qiáng)弱信息,具體體現(xiàn)在考慮了網(wǎng)路中邊的權(quán)值信息。網(wǎng)絡(luò)中任意兩個(gè)普通節(jié)點(diǎn)之間的權(quán)值如式(2)所述。
3.2.2 人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響
人物關(guān)系網(wǎng)絡(luò)中,人物節(jié)點(diǎn)不僅受到鄰居節(jié)點(diǎn)的影響,還受到非鄰居節(jié)點(diǎn)影響,表現(xiàn)在PageRank算法中是一個(gè)用戶訪問一個(gè)網(wǎng)頁時(shí),除了可以通過點(diǎn)擊節(jié)點(diǎn)網(wǎng)頁中的鏈接跳轉(zhuǎn)到其它網(wǎng)頁外,還會(huì)以一個(gè)跳轉(zhuǎn)概率c通過地址欄隨機(jī)跳轉(zhuǎn)到其它網(wǎng)頁。對應(yīng)到LeaderRank算法中,一個(gè)節(jié)點(diǎn)收到的影響不僅來自其鄰居節(jié)點(diǎn),還來自其它非鄰居節(jié)點(diǎn),而非鄰居節(jié)點(diǎn)的影響力是通過ground節(jié)點(diǎn)傳遞實(shí)現(xiàn)的。但是LeaderRank算法認(rèn)為某一節(jié)點(diǎn)受到非鄰居節(jié)點(diǎn)的影響強(qiáng)弱相同,沒有考慮到影響力強(qiáng)的節(jié)點(diǎn)相比于影響力弱的節(jié)點(diǎn)對其非鄰居節(jié)點(diǎn)的具有更強(qiáng)的影響力。針對上述問題,改進(jìn)的LeaderRank算法加入了人物節(jié)點(diǎn)受到非鄰居節(jié)點(diǎn)的影響強(qiáng)弱信息。從節(jié)點(diǎn)的局部結(jié)構(gòu)信息出發(fā),考慮兩個(gè)因素:節(jié)點(diǎn)的鄰居節(jié)點(diǎn)局部結(jié)構(gòu)信息和節(jié)點(diǎn)的二度鄰居節(jié)點(diǎn)局部結(jié)構(gòu)信息。如果一個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的加權(quán)信息和二度鄰居節(jié)點(diǎn)的加權(quán)信息越豐富,則這個(gè)節(jié)點(diǎn)對其非鄰居節(jié)點(diǎn)產(chǎn)生的影響越大。之所以考慮二度鄰居節(jié)點(diǎn)局部結(jié)構(gòu)信息,是為了能夠更多地使用節(jié)點(diǎn)的局部結(jié)構(gòu)信息,避免將一些鄰居節(jié)點(diǎn)較多但又不是真正位于網(wǎng)絡(luò)核心位置的節(jié)點(diǎn)識(shí)別為重要節(jié)點(diǎn),如圖2所示,節(jié)點(diǎn)14的鄰居節(jié)點(diǎn)較多,但是其二度鄰居節(jié)點(diǎn)很少,并不處于網(wǎng)絡(luò)的核心位置,因此不能將其識(shí)別為重要節(jié)點(diǎn)。具體改進(jìn)體現(xiàn)在對LeaderRank算法中g(shù)round節(jié)點(diǎn)到普通節(jié)點(diǎn)的邊的權(quán)值ωgi進(jìn)行了優(yōu)化,即
ωgi=α·WDi+(1-α)∑j∈ΓiWDj
(5)
其中,WDi=∑j∈Гiωij,Гi表示節(jié)點(diǎn)i的所有相鄰普通節(jié)點(diǎn)的個(gè)數(shù),α是一個(gè)取值于[0,1]的一個(gè)可調(diào)參數(shù)。
圖2 網(wǎng)絡(luò)節(jié)點(diǎn)影響力分析樣例
3.2.3 算法的改進(jìn)
從上述的人物之間關(guān)于特定事件的影響強(qiáng)弱和人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響兩個(gè)因素出發(fā),對LeaderRank算法進(jìn)行改進(jìn),改進(jìn)的LeaderRank算法核心公式如式(6)、式(7)所示
(6)
(7)
其中,ωji的取值規(guī)則為:若j為ground節(jié)點(diǎn),則ωgi=1/SZi·∑j∈Гiωij,其中ωij表示任意一對普通節(jié)點(diǎn)的邊的權(quán)重,Гi表示節(jié)點(diǎn)i的所有相鄰普通節(jié)點(diǎn),SZi表示Гi集合的大小,ωgi如式(5)所述;若j為普通節(jié)點(diǎn),則ωgi如式(2)所述;其它變量含義同式(3)、式(4)。
為驗(yàn)證文本提出的方法,我們在兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。一個(gè)是“天津爆炸”數(shù)據(jù)集。我們采集了2015年8月13日至2015年9月13日之間大量的中文新聞文本,通過關(guān)鍵詞過濾得到和“天津爆炸“事件相關(guān)的新聞文本1599篇,以此數(shù)據(jù)集構(gòu)建“天津爆炸”事件的人物關(guān)系網(wǎng)絡(luò),記為PCNTEE。另一個(gè)是“巴黎襲擊”數(shù)據(jù)集。我們采集了2015年11月13日至2015年12月3日之間大量的英文新聞文本,通過關(guān)鍵詞過濾得到和“巴黎襲擊“事件相關(guān)的新聞文本1083篇,以此數(shù)據(jù)集構(gòu)建“巴黎襲擊”事件的人物關(guān)系網(wǎng)絡(luò),記為PCNPAE。兩個(gè)數(shù)據(jù)集的基本統(tǒng)計(jì)情況如表1所示。其中,N表示網(wǎng)絡(luò)中節(jié)點(diǎn)個(gè)數(shù),M為邊的個(gè)數(shù),節(jié)點(diǎn)平均度為
表1 兩個(gè)真實(shí)數(shù)據(jù)集的基本統(tǒng)計(jì)情況
4.2.1 有效性評(píng)估
SI模型[24]作為網(wǎng)絡(luò)節(jié)點(diǎn)影響力度量的一種方式被廣泛使用。在上述兩個(gè)數(shù)據(jù)集上分別采用SI模型計(jì)算節(jié)點(diǎn)的標(biāo)準(zhǔn)影響力得分。SI模型中,所有節(jié)點(diǎn)僅有兩種狀態(tài):Susceptible(S)和Infected(I)。初始時(shí)刻,網(wǎng)絡(luò)中某一節(jié)點(diǎn)置為I狀態(tài)而其它節(jié)點(diǎn)都為S狀態(tài)。每一次迭代過程中,處于I狀態(tài)的節(jié)點(diǎn)以概率β感染相鄰的處于S狀態(tài)的節(jié)點(diǎn)。實(shí)驗(yàn)過程中發(fā)現(xiàn),將感染概率設(shè)置為0.1時(shí),效果較好。定義F(t)代表時(shí)刻t網(wǎng)絡(luò)中處于I狀態(tài)的節(jié)點(diǎn)個(gè)數(shù),隨著t的增加,F(xiàn)(t)不斷增大,最后收斂到一個(gè)穩(wěn)定的值,此時(shí)網(wǎng)絡(luò)中幾乎所有的節(jié)點(diǎn)都處于I狀態(tài)。定義F(tc)作為節(jié)點(diǎn)的標(biāo)準(zhǔn)影響力得分,其中tc為使得F(tc)和F(tc)的斜率均較大的某一時(shí)刻。對F(tc)重復(fù)計(jì)算100次取平均,平均值越大,代表此節(jié)點(diǎn)影響力越大越可能是意見領(lǐng)袖。根據(jù)具體實(shí)驗(yàn)情況,天津爆炸實(shí)驗(yàn)中,設(shè)定tc=9;巴黎襲擊實(shí)驗(yàn)中,設(shè)定tc=10。采用本文提出的改進(jìn)LeaderRank(local weighted LeaderRank,LWLR)算法,以及度中心性(degree centrality,DC)、介數(shù)中心性(betweenness centrality,BC)[14]、緊密度中心性(closeness centrality,CC)[15]、局部中心性(local centrality,LC)[16]、K-Shell(KS)算法[17]、LeaderRank(LR)算法[18]、人物在特定事件相關(guān)的新聞文本中被提及次數(shù)(Mentions)等各個(gè)對比方法計(jì)算節(jié)點(diǎn)影響力得分。圖3和圖4為兩個(gè)數(shù)據(jù)集上節(jié)點(diǎn)標(biāo)準(zhǔn)影響力得分和采用上述方法計(jì)算的節(jié)點(diǎn)影響力得分的相關(guān)性。
圖3 “天津爆炸”數(shù)據(jù)集上8種方法對應(yīng)的相關(guān)性結(jié)果
圖4 “巴黎襲擊”數(shù)據(jù)集上8種方法對應(yīng)的相關(guān)性結(jié)果
從圖3中我們觀察到,在PCNTEE中,采用DC、BC、KS和Mentions方法得到的排名和采用SI得到的標(biāo)準(zhǔn)影響力排名之間的相關(guān)性較差,而CC、LC、LR和LWLR方法相關(guān)性較好,并且LWLR取得了最好的相關(guān)性,尤其是在影響力得分較低的那部分節(jié)點(diǎn)。這是因?yàn)長WLR考慮了更多的局部信息,提高了區(qū)分得分在中后位置的那部分節(jié)點(diǎn)的排名的能力。由圖4可知,在PCNPAE中,DC、BC、KS以及Mentions方法和其在PCNTEE中的表現(xiàn)相似,都較差,而LC和LWLR比其它方法的表現(xiàn)都好??梢奓C和LWLR方法是本文中所考慮的最好的兩種方法。因此,可以說本文提出的LWLR方法可以有效地找到網(wǎng)絡(luò)中的最具影響力的人物。
為了定量地評(píng)估采用各種方法計(jì)算得到網(wǎng)絡(luò)節(jié)點(diǎn)影響力得分的準(zhǔn)確性,我們采用Kendall’sτ系數(shù)進(jìn)行衡量,其定義詳見文獻(xiàn)[25]。表2為兩個(gè)數(shù)據(jù)集上采用8種方法計(jì)算得到的節(jié)點(diǎn)影響力排名對應(yīng)的Kendall’sτ的值。在PCNTEE,我們的方法取得了最好的τ值,即我們的方法得到的節(jié)點(diǎn)影響力排名比其它方法的得到的排名要更為接近標(biāo)準(zhǔn)排名。在PCNPAE中,LC方法取得了最好的τ值,但本文方法的τ值很接近LC的τ值,并且比其它方法的τ值要好許多,即本文方法在這個(gè)網(wǎng)絡(luò)中表現(xiàn)也很好。結(jié)合兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,可知本文方法要比除LC之外的方法都好,并且和LC的效果相當(dāng),但是在不同網(wǎng)絡(luò)中效果要比LC更為穩(wěn)定。
表2 8種不同方法對應(yīng)的Kendall’s τ值
4.2.2 Top-L節(jié)點(diǎn)影響力排名分析
Kendall’sτ衡量的是所有節(jié)點(diǎn)影響力排名的準(zhǔn)確性,并不能衡量排名靠前的節(jié)點(diǎn)影響力排名的準(zhǔn)確性。考慮到意見領(lǐng)袖挖掘中最為重要的是準(zhǔn)確獲得排名靠前的人物,我們采用一個(gè)新的指標(biāo)——排名靠前的L個(gè)節(jié)點(diǎn)的影響力得分的平均值,來衡量方法獲得的Top-L節(jié)點(diǎn)的影響力排名的準(zhǔn)確性,記為。在PCNTEE和PCNPAE兩個(gè)數(shù)據(jù)集上,我們采用本文提出的方法和對比方法計(jì)算其,結(jié)果如圖5所示。理論上一個(gè)效果好的方法,其對應(yīng)的曲線應(yīng)該向右下遞減。由圖5可知,本文方法在整個(gè)L區(qū)間內(nèi)比其它方法的效果都好。在4.2.1中的分析可知,LC方法在所有節(jié)點(diǎn)的排序上取得了很好的效果。但由圖5可知,LC在Top-L節(jié)點(diǎn)的排序上效果并不好,原因在于LC考慮了過多的局部信息,而排名靠前的節(jié)點(diǎn)之間很可能緊密連接,其局部結(jié)構(gòu)和權(quán)重信息可能很類似。通過對比τ值和值,可知本文提出的方法相比于其它方法,能夠得到一個(gè)更加接近標(biāo)準(zhǔn)影響力排名的節(jié)點(diǎn)排序,并且能夠更好地識(shí)別出排名靠前的重要節(jié)點(diǎn)。
圖5 兩個(gè)數(shù)據(jù)集上8種方法Top-L節(jié)點(diǎn)的平均影響力
4.2.3 Top-10節(jié)點(diǎn)影響力傳播分析
從上述實(shí)驗(yàn)結(jié)果分析中,可知LWLR方法相比其它方法能夠更好的識(shí)別出影響力排名靠前的節(jié)點(diǎn)。但上述結(jié)論僅僅考慮了節(jié)點(diǎn)在tc時(shí)刻的影響力。為了更好地分析所得到的排名靠前的節(jié)點(diǎn)在影響力傳播過程中的表現(xiàn),本文對采用LWLR和采用LR得到的Top-10節(jié)點(diǎn)的影響力進(jìn)行對比分析。選擇LR作為對比方法主要考慮到采用LR所得到的Top-10節(jié)點(diǎn)相比于其它方法要更為接近LWLR。實(shí)驗(yàn)中,首先取LWLR的Top-10節(jié)點(diǎn)集合SLWLR,LR Top-10節(jié)點(diǎn)集合SLR,再分別將單獨(dú)出現(xiàn)在SLWLR和SLR中的節(jié)點(diǎn)初始化為I(infected)狀態(tài),記錄傳播過程中到達(dá)I狀態(tài)的節(jié)點(diǎn)數(shù)。重復(fù)上述過程100次取平均值。實(shí)驗(yàn)中沒有使用共同出現(xiàn)在SLWLR和SLR中的節(jié)點(diǎn),因此得到的實(shí)驗(yàn)結(jié)果更有利于區(qū)分兩種方法的效果。實(shí)驗(yàn)結(jié)果如圖6所示。從圖中可知,在兩個(gè)數(shù)據(jù)集上,LWLR對應(yīng)的曲線整體均在LR對應(yīng)的曲線上方,并且在整個(gè)傳播過程中,LWLR的曲線方差都比LR的要小。這表明LWLR識(shí)別的Top-10節(jié)點(diǎn)具有更強(qiáng)的影響力傳播能力,驗(yàn)證了本文方法的確能夠有效識(shí)別出最具影響力的節(jié)點(diǎn)。
圖6 LR和LWLR Top-10節(jié)點(diǎn)影響力傳播過程
針對特定事件的意見領(lǐng)袖挖掘,本文提出了一種采用新聞文本進(jìn)行意見領(lǐng)袖挖掘的方法。該方法采用新聞文本構(gòu)建特定事件的人物關(guān)系網(wǎng)絡(luò),充分考慮了新聞文本與事件的相關(guān)度和新聞文本內(nèi)不同位置人物之間影響關(guān)系的強(qiáng)弱。在改進(jìn)的LeaderRank算法中,加入了人物之間關(guān)于特定事件的影響強(qiáng)弱信息,以及人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響強(qiáng)弱信息,提高了網(wǎng)絡(luò)中節(jié)點(diǎn)影響力度量的準(zhǔn)確度和區(qū)分度。實(shí)驗(yàn)分析結(jié)果表明,本文方法能夠有效識(shí)別特定事件的意見領(lǐng)袖,特別是排名靠前的意見領(lǐng)袖,而且相比LeaderRank等方法具有更好的效果。
[1]LIU Zhiming,LIU Lu.Identification and analysis of opinion leaders in micro-blogging network public opinion[J].Systems Engineering,2011(6):8-16(in Chinese).[劉志明,劉魯.微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識(shí)別及分析[J].系統(tǒng)工程,2011(6):8-16.]
[2]Zhou Xueyan,Yang Jing,Zhang Jianpei,et al.A BBS opi-nion leader mining algorithm based on topic model[J].Journal of Computational Information Systems,2014,10(6):2571-2578.
[3]Jonnalagadda S,Peeler R,Topham P.Discovering opinion leaders for medical topics using news articles[J].Journal of Biomedical Semantics,2012,3(1):1-13.
[4]Song Kaisong,Wang Daling,Feng Shi,et al.Detecting opi-nion leader dynamically in Chinese news comments[M]//Web-Age Information Management.Berlin Heidelberg:Springer,2012:197-209.
[5]WANG Jue,ZENG Jianping,ZHOU Baohua,et al.Online forum opinion leaders discovering method[J].Computer Engineering,2011,37(5):44-46(in Chinese).[王玨,曾劍平,周葆華,等.基于聚類分析的網(wǎng)絡(luò)論壇意見領(lǐng)袖發(fā)現(xiàn)方法[J].計(jì)算機(jī)工程,2011,37(5):44-46.]
[6]Bai Wenjie,Zhou Tao,Wang Binghong.Immunization of susceptible-infected model on scale-free networks[J].Physica A Statistical Mechanics & Its Applications,2007,384(2):656-662.
[7]Aral S,Walker D.Identifying influential and susceptible members of social networks[J].Science,2012,337(6092):337-341.
[8]Zhou Yanbo,Lyu Linyuan,Li Menghui.Quantifying the influence of scientists and their publications:Distinguish prestige from popularity[J].New Journal of Physics,2012,14(3):33033-33049(17).
[9]Salesses P,Schechtner K,Hidalgo CA.The collaborative image of the city:Mapping the inequality of urban perception[J].Plos One,2013,8(7):e68400.
[10]Hou Bonan,Yao Yiping,Liao Dongsheng.Identifying all-around nodes for spreading dynamics in complex networks[J].Physica A Statistical Mechanics & Its Applications,2012,391(15):4012-4017.
[11]Liu YY,Slotine JJ,Barabási A.Control centrality and hie-rarchical structure in complex networks[J].Plos One,2012,7(9):e44459.
[12]Mui L.Computational models of trust and reputation:Agents,evolutionary games,and social networks[J].Acta Paulista De Enfermagem,2014,20(4):452-457.
[13]Bakó I,Bencsura A,Hermannson K,et al.Hydrogen bond network topology in liquid water and methanol:A graph theory approach[J].Physical Chemistry Chemical Physics,2013,15(36):15163-15171.
[14]Katona Z,Zubcsek PP,Sarvary M.Network effects and personal influences:Diffusion of an online social network[J].Journal of Marketing Research,2013,48(48):425-443.
[15]Csermely P,London A,Wu LY,et al.Structure and dynamics of core/periphery networks[J].Journal of Complex Networks,2013,1(2):93-123.
[16]Chen Duanbing,Lyu Linyuan,Shang Mingsheng,et al.Identifying influential nodes in complex networks[J].Physica A Statistical Mechanics & Its Applications,2012,391(4):1777-1787.
[17]Kitsak M,Gallos LK,Havlin S,et al.Identification of influential spreaders in complex networks[J].Nature Physics,2010,6(11):888-893.
[18]Lyu Linyuan,Zhang Yicheng,Chi Hoyeung,et al.Leaders in social networks,the delicious case[J].Plos One,2011,6(6):e21202.
[20]XU Junming,ZHU Fuxi,LIU Shichao,et al.Identifying opinion leaders by improved algorithm based on LeaderRank[J].Computer Engineering & Applications,2015,51(1):110-114(in Chinese).[徐郡明,朱福喜,劉世超,等.改進(jìn)LeaderRank算法的意見領(lǐng)袖挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(1):110-114.]
[21]Wang Changbo.SentiView:Sentiment analysis and visualization for internet popular topics[J].IEEE Transactions on Human-Machine Systems,2013,43(43):620-630.
[22]Cao S,Snavely N.Graph-based discriminative learning for location recognition[J].International Journal of Computer Vision,2015,112(2):239-254.
[23]Manning CD,Surdeanu M,Bauer J,et al.The stanford CoreNLP natural language processing toolkit[C]//Meeting of the Association for Computational Linguistics:System Demonstrations. Baltimore,2014.
[24]Sienkiewicz A,Gubiec T,Kutner R,et al.Dynamic structural and topological phase transitions on the Warsaw stock exchange:A phenomenological approach[J].Acta Physica Polonica,2013,123(3):615-620.
[25]Gao Shuai,Ma Jun,Chen Zhumin,et al.Ranking the spreading ability of nodes in complex networks based on local structure[J].Physica A Statistical Mechanics & Its Applications,2014,403(6):130-147.