特定事件意見領(lǐng)袖挖掘

2018-03-16 06:18:00闕文暉黃永峰

計(jì)算機(jī)工程與設(shè)計(jì) 2018年2期

關(guān)鍵詞：文本方法

闕文暉，黃永峰，李星

(清華大學(xué) 電子工程系，北京 100084)

0 引言

意見領(lǐng)袖在信息傳播和輿情控制中起著重要作用，吸引了國內(nèi)外學(xué)者的廣泛關(guān)注，并相應(yīng)地提出了結(jié)合不同互聯(lián)網(wǎng)內(nèi)容進(jìn)行意見領(lǐng)袖挖掘的方法，如微博[1]、論壇[2]、新聞報(bào)道[3]、新聞評(píng)論[4]等。然而，目前這些方法多集中在通用意見領(lǐng)袖的挖掘上，對于所需要分析的不同的特定事件的適用性并不好，對此本文提出一種采用特定事件相關(guān)的新聞文本構(gòu)建人物關(guān)系網(wǎng)絡(luò)，結(jié)合社會(huì)網(wǎng)絡(luò)分析方法挖掘意見領(lǐng)袖的方法。該方法的整體框架如圖1所示。不同于微博、論壇回復(fù)等顯式存在的人物關(guān)系網(wǎng)絡(luò)，本文使用新聞文本的人物共現(xiàn)關(guān)系構(gòu)建人物關(guān)系網(wǎng)絡(luò)，即認(rèn)為存在共現(xiàn)關(guān)系的人物之間存在隱式的互相影響的關(guān)系，文獻(xiàn)[3]中意見領(lǐng)袖的挖掘工作正是基于此開展。同時(shí)，新聞文本內(nèi)容豐富，表述規(guī)范，便于判斷和事件的相關(guān)程度，和事件相關(guān)的新聞文本的數(shù)據(jù)集較易獲取。因此，相比于微博、論壇等更適合特定事件的意見領(lǐng)袖挖掘。基于上述構(gòu)建的人物關(guān)系網(wǎng)絡(luò)，本文采用改進(jìn)的LeaderRank算法計(jì)算人物的影響力排名，充分考慮相鄰人物節(jié)點(diǎn)之間關(guān)于特定事件的影響強(qiáng)弱信息以及人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響強(qiáng)弱信息，提高意見領(lǐng)袖識(shí)別的準(zhǔn)確性。

圖1 特定事件意見領(lǐng)袖挖掘框架

1 相關(guān)研究

現(xiàn)有意見領(lǐng)袖的挖掘方法主要分為兩類：用戶屬性分析法和社會(huì)網(wǎng)絡(luò)分析法。

用戶屬性分析法主要基于用戶的各種特征屬性來衡量用戶的影響力，如文獻(xiàn)[1]從用戶影響力和用戶活躍度兩個(gè)方面考慮構(gòu)建了微博意見領(lǐng)袖指標(biāo)體系。同時(shí)，使用用戶屬性結(jié)合聚類的方法也被使用于意見領(lǐng)袖的挖掘[5]。但這類方法只考慮了用戶自身的屬性，并沒有使用用戶之間的關(guān)系信息。

社會(huì)網(wǎng)絡(luò)分析法基于人物關(guān)系網(wǎng)絡(luò)，使用節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置和結(jié)構(gòu)信息，量化節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要性。相比于用戶屬性分析法，該方法得到了意見領(lǐng)袖挖掘研究者的更多關(guān)注。如Bai等[6]指出網(wǎng)絡(luò)中的意見領(lǐng)袖可以是度最大的節(jié)點(diǎn)，通過對其施加影響可以控制網(wǎng)絡(luò)中信息的傳播。Aral等[7]的研究證明意見領(lǐng)袖在網(wǎng)絡(luò)信息傳播中起著核心作用。文獻(xiàn)[8-10]將社會(huì)網(wǎng)絡(luò)分析法應(yīng)用到了多種復(fù)雜網(wǎng)絡(luò)的意見領(lǐng)袖挖掘工作中。此外，大量的衡量節(jié)點(diǎn)在網(wǎng)絡(luò)中傳播能力和影響力的其它指標(biāo)不斷被提出用于挖掘網(wǎng)絡(luò)中的意見領(lǐng)袖[11-13]。

目前，在網(wǎng)絡(luò)節(jié)點(diǎn)影響力排序上，常見的衡量方法有度中心性，介數(shù)中心性[14]，緊密度中心性[15]，局部中心性[16]，K-Shell[17]，LeaderRank[18]等方法。度中心性方法實(shí)現(xiàn)簡單，但僅使用了較少的局部信息來衡量節(jié)點(diǎn)的重要性，因此其效果并不是很好。介數(shù)中心性和緊密度中心性使用了網(wǎng)絡(luò)的全局信息，效果較好，但是計(jì)算復(fù)雜度太高。局部中心性在計(jì)算復(fù)雜度和效果上進(jìn)行了綜合考慮，使用更多的局部信息獲得了更好的效果。K-Shell方法能夠有效地找到核心的節(jié)點(diǎn)集合，但是可能存在多個(gè)節(jié)點(diǎn)都屬于一個(gè)集合，集合內(nèi)節(jié)點(diǎn)影響力無法區(qū)分。LeaderRank作為一種PageRank[19]的改進(jìn)算法，在網(wǎng)絡(luò)中加入ground節(jié)點(diǎn)的方式對節(jié)點(diǎn)跳轉(zhuǎn)信息進(jìn)行控制，有效地提高了排序準(zhǔn)確性，并且其迭代收斂性較好。Xu等[20]針對LeaderRank算法進(jìn)行改進(jìn)，提出加入用戶間情感傾向和用戶活躍度的改進(jìn)LeaderRank算法，并通過實(shí)驗(yàn)驗(yàn)證了改進(jìn)算法的準(zhǔn)確性和抗干擾能力都得到了提升。但此改進(jìn)方法僅適用于微博等少數(shù)場景，對于其它如新聞文本等場景并不能適用。

本文從特定事件的意見領(lǐng)袖挖掘的需求出發(fā)，對Lea-derRank算法進(jìn)行了改進(jìn)，加入了人物之間關(guān)于特定事件的影響強(qiáng)弱信息，并且在ground節(jié)點(diǎn)進(jìn)行影響力分配的過程中考慮接收節(jié)點(diǎn)的鄰居節(jié)點(diǎn)和二度鄰居節(jié)點(diǎn)的局部結(jié)構(gòu)信息，來計(jì)算人物節(jié)點(diǎn)的影響力排名，突出排名靠前的人物節(jié)點(diǎn)的區(qū)分度，提高意見領(lǐng)袖識(shí)別的有效性和準(zhǔn)確性。

2 特定事件人物關(guān)系網(wǎng)絡(luò)構(gòu)建

本文分別實(shí)現(xiàn)了使用中文新聞文本和英文新聞文本構(gòu)建特定事件人物關(guān)系網(wǎng)絡(luò)。中文新聞文本的特定事件人物關(guān)系網(wǎng)絡(luò)構(gòu)建過程將結(jié)合“天津爆炸”事件進(jìn)行介紹，而英文新聞文本對應(yīng)的構(gòu)建過程則將在中文新聞文本的特定事件人物關(guān)系網(wǎng)絡(luò)構(gòu)建過程的基礎(chǔ)上進(jìn)行補(bǔ)充介紹。

2.1 使用中文新聞文本構(gòu)建人物關(guān)系網(wǎng)絡(luò)

2.1.1 特定事件相關(guān)新聞文本獲取

從中文新聞網(wǎng)站爬取一段時(shí)間內(nèi)的大量的新聞文本，然后通過關(guān)鍵詞過濾的方式得到和特定事件相關(guān)的新聞文本集合。比如“天津爆炸”事件中，我們爬取了大量從2015年8月13日至2015年9月13日內(nèi)的新聞文本，通過關(guān)鍵詞“天津”和“爆炸”對爬取的新聞文本進(jìn)行過濾，得到1599篇和“天津爆炸”事件相關(guān)的新聞文本。

2.1.2 新聞文本和特定事件的相關(guān)性計(jì)算

考慮到特定事件相關(guān)的新聞文本集合中各篇新聞文本和事件的相關(guān)性并不相同，我們計(jì)算每一篇新聞文本和特定事件的相關(guān)度來表征新聞文本和事件相關(guān)性的強(qiáng)弱。首先，使用ICTCLAS工具[21]將特定事件相關(guān)的新聞文本集合D={D1,D2,…}進(jìn)行分詞，去除停用詞后統(tǒng)計(jì)詞頻。取詞頻排序靠前的VN個(gè)詞作為特定事件的描述詞，構(gòu)成事件描述向量V={v1,v2,…vVN}，其中vi均為對應(yīng)描述詞歸一化后的詞頻。則一篇文檔和事件的相關(guān)度可以采用以下公式進(jìn)行計(jì)算

(1)

其中，vEp對應(yīng)事件的描述向量，而vip對應(yīng)新聞文本Di的表示向量。

2.1.3 新聞文本人名識(shí)別及優(yōu)化

采用ICTCLAS工具對中文新聞文本進(jìn)行人名識(shí)別，但識(shí)別結(jié)果并不完全準(zhǔn)確。為構(gòu)建更為準(zhǔn)確的人物關(guān)系網(wǎng)絡(luò)，我們采用人工校正和規(guī)則的方式對人名識(shí)別結(jié)果進(jìn)行優(yōu)化。

人工校正主要是為了解決人名切分錯(cuò)誤、人名拼寫錯(cuò)誤、以人名打頭的地名企業(yè)名誤識(shí)為人名等情況。如“天津爆炸”事件中，人名“邵俊強(qiáng)”被切分為“邵俊”，人名“楊剛”錯(cuò)寫為“楊鋼”，“萬科”、“安監(jiān)”、“黃煙”等識(shí)別為人名。

規(guī)則主要包括單篇新聞文檔中的人名消歧和多篇文檔中的人名消歧。單篇新聞文檔中的文檔消歧我們主要考慮兩種情況，一是人物的姓名和名共同出現(xiàn)的情況，如“黃艷榮”和“艷榮”，這種情況我們把姓名和名統(tǒng)一合并到姓名進(jìn)行處理；二是姓名和“姓+先生”或“姓+女士”同時(shí)出現(xiàn)的情況，如“董社軒”和“董先生”，這種情況我們首先找到離“姓+先生”或者“姓+女士”最近的相同姓的姓名，然后合并到對應(yīng)的姓名。多篇新聞文檔中的人名消歧主要是解決人物的姓名和名出現(xiàn)在不同新聞文本中的問題。這種情況我們把姓名和名統(tǒng)一合并到姓名進(jìn)行處理。

2.1.4 特定事件人物共現(xiàn)關(guān)系網(wǎng)絡(luò)構(gòu)建

對事件相關(guān)的每一篇新聞文本按段落進(jìn)行人名識(shí)別和優(yōu)化，每個(gè)段落對應(yīng)一個(gè)人名序列Sp={name1,name2,…}，每篇新聞文本對應(yīng)一個(gè)人名序列的順序集合Sd={Sp1,Sp2,…}。事件相關(guān)的所有新聞文本對應(yīng)的人名序列集合中的所有人名構(gòu)成了人物關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)集合。對于一篇新聞文本中出現(xiàn)的任意兩個(gè)人名，并不一定存在互相影響的關(guān)系，即在人物關(guān)系網(wǎng)絡(luò)中并不是一定存在邊。本文考慮人名在文中的位置關(guān)系，采用以下兩個(gè)規(guī)則確定人物之間的是否存在影響關(guān)系，構(gòu)建人物關(guān)系網(wǎng)絡(luò)中的邊，使得所構(gòu)建的人物關(guān)系網(wǎng)絡(luò)更為精準(zhǔn)。

規(guī)則一：給定滑動(dòng)窗口大小WS，序列Sd中任意WS大小窗口內(nèi)的人名之間存在邊。

規(guī)則二：同一個(gè)段落內(nèi)任意兩個(gè)人名之間存在邊。

規(guī)則一考慮了新聞文本中出現(xiàn)位置相近的人名之間關(guān)系較強(qiáng)，相隔太遠(yuǎn)的人名之間的關(guān)系較弱而忽略置為零。規(guī)則二考慮了新聞文本段落的內(nèi)容聚合性，新聞作者往往會(huì)把相關(guān)的內(nèi)容放在一個(gè)段落，因此我們認(rèn)為同一個(gè)段落內(nèi)的人物之間具有較強(qiáng)的影響關(guān)系。

每一條邊的權(quán)值，即由此條邊相連的兩個(gè)人物關(guān)于特定事件的互相影響的強(qiáng)弱程度，由邊相連的兩個(gè)人物所共同出現(xiàn)的新聞文本集合決定

(2)

其中，Гi,j表示人物i和j所共同出現(xiàn)的新聞文本集合，R(d)表示新聞文本d和特定事件的相關(guān)度。

2.1.5 最大連通子圖獲取

考慮到實(shí)驗(yàn)中采用SI(susceptible-infected)[24]模型進(jìn)行結(jié)果評(píng)估，我們從上述構(gòu)建的網(wǎng)絡(luò)中獲取最大連通子圖，作為下文計(jì)算人物節(jié)點(diǎn)影響力得分的網(wǎng)絡(luò)。

2.2 使用英文新聞文本構(gòu)建人物關(guān)系網(wǎng)絡(luò)

使用英文新聞文本構(gòu)建特定事件人物關(guān)系網(wǎng)絡(luò)的過程和使用中文文本的流程很類似，為避免描述過多重復(fù)的內(nèi)容，以下主要描述兩者的不同之處。

在特定事件新聞文本數(shù)據(jù)的獲取上，我們從英文新聞網(wǎng)站進(jìn)行數(shù)據(jù)采集。在新聞文本和特定事件相關(guān)度的計(jì)算上，首先將英文文本的大寫字母轉(zhuǎn)換為小寫字母，采用空格和標(biāo)點(diǎn)符號(hào)等分隔符對文本進(jìn)行切分，去除停用詞，然后采用Porter Stemmer[22]進(jìn)行詞干提取，之后的計(jì)算步驟和中文新聞文本的處理方式類似。人名識(shí)別和優(yōu)化上，英文文本的人名識(shí)別我們采用的是Stanford Named Entity Recognizer[23]，在優(yōu)化方面與中文新聞文本的處理方式類似。在網(wǎng)絡(luò)構(gòu)建和最大子圖獲取上與中文新聞文本的處理方式類似，在此不再贅述。

3 改進(jìn)LeaderRank算法

3.1 LeaderRank算法

LeaderRank算法是Lv等[18]提出的一種PageRank的改進(jìn)算法。記無向網(wǎng)絡(luò)為G=，其中V為節(jié)點(diǎn)的集合，N=|V|表示集合內(nèi)節(jié)點(diǎn)個(gè)數(shù)，E為邊的集合，M=|E|表示集合內(nèi)邊的個(gè)數(shù)。LeaderRank對PageRank的改進(jìn)主要是在網(wǎng)絡(luò)中增加了一個(gè)ground節(jié)點(diǎn)，記為g。g節(jié)點(diǎn)和網(wǎng)絡(luò)中所有普通節(jié)點(diǎn)(網(wǎng)絡(luò)中除g外的其它節(jié)點(diǎn))相連。則網(wǎng)絡(luò)中包含N+1個(gè)節(jié)點(diǎn)和M+2N條邊。LeaderRank算法的核心公式如式(3)、式(4)所示

(3)

(4)

3.2 改進(jìn)LeaderRank算法

Lv等[18]通過實(shí)驗(yàn)證明LeaderRank算法相比PageRank算法具有更高的準(zhǔn)確性和更強(qiáng)的穩(wěn)定性。但是在特定事件的意見領(lǐng)袖挖掘中，構(gòu)建的人物關(guān)系網(wǎng)絡(luò)中人物之間影響強(qiáng)弱不同，或是某一人物節(jié)點(diǎn)受非相鄰人物節(jié)點(diǎn)的影響各不相同，都會(huì)影響意見領(lǐng)袖排名的準(zhǔn)確性，而LeaderRank算法會(huì)受到這兩方面因素的影響。因此，改進(jìn)的LeaderRank算法對上述兩方面因素進(jìn)行了考察優(yōu)化。

3.2.1 人物之間關(guān)于特定事件的影響強(qiáng)弱

在人物關(guān)系網(wǎng)絡(luò)中，LeaderRank算法認(rèn)為任意兩個(gè)人物節(jié)點(diǎn)之間的影響關(guān)系強(qiáng)弱是相同的，即網(wǎng)絡(luò)中所有邊的權(quán)值相同，人物節(jié)點(diǎn)的影響力在傳播過程中是均勻地向鄰居節(jié)點(diǎn)傳播的。LeaderRank算法沒有考慮到人物之間關(guān)于特定事件的影響關(guān)系強(qiáng)弱是各不相同的，影響關(guān)系強(qiáng)的人物之間受到彼此的影響更強(qiáng)，而關(guān)系弱的人物之間受到彼此的影響更弱。針對上述問題，改進(jìn)的LeaderRank算法加入了人物關(guān)系網(wǎng)路中人物之間關(guān)于特定事件的影響強(qiáng)弱信息，具體體現(xiàn)在考慮了網(wǎng)路中邊的權(quán)值信息。網(wǎng)絡(luò)中任意兩個(gè)普通節(jié)點(diǎn)之間的權(quán)值如式(2)所述。

3.2.2 人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響

人物關(guān)系網(wǎng)絡(luò)中，人物節(jié)點(diǎn)不僅受到鄰居節(jié)點(diǎn)的影響，還受到非鄰居節(jié)點(diǎn)影響，表現(xiàn)在PageRank算法中是一個(gè)用戶訪問一個(gè)網(wǎng)頁時(shí)，除了可以通過點(diǎn)擊節(jié)點(diǎn)網(wǎng)頁中的鏈接跳轉(zhuǎn)到其它網(wǎng)頁外，還會(huì)以一個(gè)跳轉(zhuǎn)概率c通過地址欄隨機(jī)跳轉(zhuǎn)到其它網(wǎng)頁。對應(yīng)到LeaderRank算法中，一個(gè)節(jié)點(diǎn)收到的影響不僅來自其鄰居節(jié)點(diǎn)，還來自其它非鄰居節(jié)點(diǎn)，而非鄰居節(jié)點(diǎn)的影響力是通過ground節(jié)點(diǎn)傳遞實(shí)現(xiàn)的。但是LeaderRank算法認(rèn)為某一節(jié)點(diǎn)受到非鄰居節(jié)點(diǎn)的影響強(qiáng)弱相同，沒有考慮到影響力強(qiáng)的節(jié)點(diǎn)相比于影響力弱的節(jié)點(diǎn)對其非鄰居節(jié)點(diǎn)的具有更強(qiáng)的影響力。針對上述問題，改進(jìn)的LeaderRank算法加入了人物節(jié)點(diǎn)受到非鄰居節(jié)點(diǎn)的影響強(qiáng)弱信息。從節(jié)點(diǎn)的局部結(jié)構(gòu)信息出發(fā)，考慮兩個(gè)因素：節(jié)點(diǎn)的鄰居節(jié)點(diǎn)局部結(jié)構(gòu)信息和節(jié)點(diǎn)的二度鄰居節(jié)點(diǎn)局部結(jié)構(gòu)信息。如果一個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的加權(quán)信息和二度鄰居節(jié)點(diǎn)的加權(quán)信息越豐富，則這個(gè)節(jié)點(diǎn)對其非鄰居節(jié)點(diǎn)產(chǎn)生的影響越大。之所以考慮二度鄰居節(jié)點(diǎn)局部結(jié)構(gòu)信息，是為了能夠更多地使用節(jié)點(diǎn)的局部結(jié)構(gòu)信息，避免將一些鄰居節(jié)點(diǎn)較多但又不是真正位于網(wǎng)絡(luò)核心位置的節(jié)點(diǎn)識(shí)別為重要節(jié)點(diǎn)，如圖2所示，節(jié)點(diǎn)14的鄰居節(jié)點(diǎn)較多，但是其二度鄰居節(jié)點(diǎn)很少，并不處于網(wǎng)絡(luò)的核心位置，因此不能將其識(shí)別為重要節(jié)點(diǎn)。具體改進(jìn)體現(xiàn)在對LeaderRank算法中g(shù)round節(jié)點(diǎn)到普通節(jié)點(diǎn)的邊的權(quán)值ωgi進(jìn)行了優(yōu)化，即

ωgi=α·WDi+(1-α)∑j∈ΓiWDj

(5)

其中，WDi=∑j∈Гiωij，Гi表示節(jié)點(diǎn)i的所有相鄰普通節(jié)點(diǎn)的個(gè)數(shù)，α是一個(gè)取值于[0,1]的一個(gè)可調(diào)參數(shù)。

圖2 網(wǎng)絡(luò)節(jié)點(diǎn)影響力分析樣例

3.2.3 算法的改進(jìn)

從上述的人物之間關(guān)于特定事件的影響強(qiáng)弱和人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響兩個(gè)因素出發(fā)，對LeaderRank算法進(jìn)行改進(jìn)，改進(jìn)的LeaderRank算法核心公式如式(6)、式(7)所示

(6)

(7)

其中，ωji的取值規(guī)則為：若j為ground節(jié)點(diǎn)，則ωgi=1/SZi·∑j∈Гiωij，其中ωij表示任意一對普通節(jié)點(diǎn)的邊的權(quán)重，Гi表示節(jié)點(diǎn)i的所有相鄰普通節(jié)點(diǎn)，SZi表示Гi集合的大小，ωgi如式(5)所述；若j為普通節(jié)點(diǎn)，則ωgi如式(2)所述；其它變量含義同式(3)、式(4)。

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)數(shù)據(jù)

為驗(yàn)證文本提出的方法，我們在兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。一個(gè)是“天津爆炸”數(shù)據(jù)集。我們采集了2015年8月13日至2015年9月13日之間大量的中文新聞文本，通過關(guān)鍵詞過濾得到和“天津爆炸“事件相關(guān)的新聞文本1599篇，以此數(shù)據(jù)集構(gòu)建“天津爆炸”事件的人物關(guān)系網(wǎng)絡(luò)，記為PCNTEE。另一個(gè)是“巴黎襲擊”數(shù)據(jù)集。我們采集了2015年11月13日至2015年12月3日之間大量的英文新聞文本，通過關(guān)鍵詞過濾得到和“巴黎襲擊“事件相關(guān)的新聞文本1083篇，以此數(shù)據(jù)集構(gòu)建“巴黎襲擊”事件的人物關(guān)系網(wǎng)絡(luò)，記為PCNPAE。兩個(gè)數(shù)據(jù)集的基本統(tǒng)計(jì)情況如表1所示。其中，N表示網(wǎng)絡(luò)中節(jié)點(diǎn)個(gè)數(shù)，M為邊的個(gè)數(shù)，節(jié)點(diǎn)平均度為，最小權(quán)重值為EMIN，最大權(quán)重值為EMAX，平均權(quán)重值為。

表1 兩個(gè)真實(shí)數(shù)據(jù)集的基本統(tǒng)計(jì)情況

4.2 實(shí)驗(yàn)結(jié)果

4.2.1 有效性評(píng)估

SI模型[24]作為網(wǎng)絡(luò)節(jié)點(diǎn)影響力度量的一種方式被廣泛使用。在上述兩個(gè)數(shù)據(jù)集上分別采用SI模型計(jì)算節(jié)點(diǎn)的標(biāo)準(zhǔn)影響力得分。SI模型中，所有節(jié)點(diǎn)僅有兩種狀態(tài)：Susceptible(S)和Infected(I)。初始時(shí)刻，網(wǎng)絡(luò)中某一節(jié)點(diǎn)置為I狀態(tài)而其它節(jié)點(diǎn)都為S狀態(tài)。每一次迭代過程中，處于I狀態(tài)的節(jié)點(diǎn)以概率β感染相鄰的處于S狀態(tài)的節(jié)點(diǎn)。實(shí)驗(yàn)過程中發(fā)現(xiàn)，將感染概率設(shè)置為0.1時(shí)，效果較好。定義F(t)代表時(shí)刻t網(wǎng)絡(luò)中處于I狀態(tài)的節(jié)點(diǎn)個(gè)數(shù)，隨著t的增加，F(xiàn)(t)不斷增大，最后收斂到一個(gè)穩(wěn)定的值，此時(shí)網(wǎng)絡(luò)中幾乎所有的節(jié)點(diǎn)都處于I狀態(tài)。定義F(tc)作為節(jié)點(diǎn)的標(biāo)準(zhǔn)影響力得分，其中tc為使得F(tc)和F(tc)的斜率均較大的某一時(shí)刻。對F(tc)重復(fù)計(jì)算100次取平均，平均值越大，代表此節(jié)點(diǎn)影響力越大越可能是意見領(lǐng)袖。根據(jù)具體實(shí)驗(yàn)情況，天津爆炸實(shí)驗(yàn)中，設(shè)定tc=9；巴黎襲擊實(shí)驗(yàn)中，設(shè)定tc=10。采用本文提出的改進(jìn)LeaderRank(local weighted LeaderRank，LWLR)算法，以及度中心性(degree centrality，DC)、介數(shù)中心性(betweenness centrality，BC)[14]、緊密度中心性(closeness centrality，CC)[15]、局部中心性(local centrality，LC)[16]、K-Shell(KS)算法[17]、LeaderRank(LR)算法[18]、人物在特定事件相關(guān)的新聞文本中被提及次數(shù)(Mentions)等各個(gè)對比方法計(jì)算節(jié)點(diǎn)影響力得分。圖3和圖4為兩個(gè)數(shù)據(jù)集上節(jié)點(diǎn)標(biāo)準(zhǔn)影響力得分和采用上述方法計(jì)算的節(jié)點(diǎn)影響力得分的相關(guān)性。

圖3 “天津爆炸”數(shù)據(jù)集上8種方法對應(yīng)的相關(guān)性結(jié)果

圖4 “巴黎襲擊”數(shù)據(jù)集上8種方法對應(yīng)的相關(guān)性結(jié)果

從圖3中我們觀察到，在PCNTEE中，采用DC、BC、KS和Mentions方法得到的排名和采用SI得到的標(biāo)準(zhǔn)影響力排名之間的相關(guān)性較差，而CC、LC、LR和LWLR方法相關(guān)性較好，并且LWLR取得了最好的相關(guān)性，尤其是在影響力得分較低的那部分節(jié)點(diǎn)。這是因?yàn)長WLR考慮了更多的局部信息，提高了區(qū)分得分在中后位置的那部分節(jié)點(diǎn)的排名的能力。由圖4可知，在PCNPAE中，DC、BC、KS以及Mentions方法和其在PCNTEE中的表現(xiàn)相似，都較差，而LC和LWLR比其它方法的表現(xiàn)都好?？梢奓C和LWLR方法是本文中所考慮的最好的兩種方法。因此，可以說本文提出的LWLR方法可以有效地找到網(wǎng)絡(luò)中的最具影響力的人物。

為了定量地評(píng)估采用各種方法計(jì)算得到網(wǎng)絡(luò)節(jié)點(diǎn)影響力得分的準(zhǔn)確性，我們采用Kendall’sτ系數(shù)進(jìn)行衡量，其定義詳見文獻(xiàn)[25]。表2為兩個(gè)數(shù)據(jù)集上采用8種方法計(jì)算得到的節(jié)點(diǎn)影響力排名對應(yīng)的Kendall’sτ的值。在PCNTEE，我們的方法取得了最好的τ值，即我們的方法得到的節(jié)點(diǎn)影響力排名比其它方法的得到的排名要更為接近標(biāo)準(zhǔn)排名。在PCNPAE中，LC方法取得了最好的τ值，但本文方法的τ值很接近LC的τ值，并且比其它方法的τ值要好許多，即本文方法在這個(gè)網(wǎng)絡(luò)中表現(xiàn)也很好。結(jié)合兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果，可知本文方法要比除LC之外的方法都好，并且和LC的效果相當(dāng)，但是在不同網(wǎng)絡(luò)中效果要比LC更為穩(wěn)定。

表2 8種不同方法對應(yīng)的Kendall’s τ值

4.2.2 Top-L節(jié)點(diǎn)影響力排名分析

Kendall’sτ衡量的是所有節(jié)點(diǎn)影響力排名的準(zhǔn)確性，并不能衡量排名靠前的節(jié)點(diǎn)影響力排名的準(zhǔn)確性。考慮到意見領(lǐng)袖挖掘中最為重要的是準(zhǔn)確獲得排名靠前的人物，我們采用一個(gè)新的指標(biāo)——排名靠前的L個(gè)節(jié)點(diǎn)的影響力得分的平均值，來衡量方法獲得的Top-L節(jié)點(diǎn)的影響力排名的準(zhǔn)確性，記為。在PCNTEE和PCNPAE兩個(gè)數(shù)據(jù)集上，我們采用本文提出的方法和對比方法計(jì)算其，結(jié)果如圖5所示。理論上一個(gè)效果好的方法，其對應(yīng)的曲線應(yīng)該向右下遞減。由圖5可知，本文方法在整個(gè)L區(qū)間內(nèi)比其它方法的效果都好。在4.2.1中的分析可知，LC方法在所有節(jié)點(diǎn)的排序上取得了很好的效果。但由圖5可知，LC在Top-L節(jié)點(diǎn)的排序上效果并不好，原因在于LC考慮了過多的局部信息，而排名靠前的節(jié)點(diǎn)之間很可能緊密連接，其局部結(jié)構(gòu)和權(quán)重信息可能很類似。通過對比τ值和值，可知本文提出的方法相比于其它方法，能夠得到一個(gè)更加接近標(biāo)準(zhǔn)影響力排名的節(jié)點(diǎn)排序，并且能夠更好地識(shí)別出排名靠前的重要節(jié)點(diǎn)。

圖5 兩個(gè)數(shù)據(jù)集上8種方法Top-L節(jié)點(diǎn)的平均影響力

4.2.3 Top-10節(jié)點(diǎn)影響力傳播分析

從上述實(shí)驗(yàn)結(jié)果分析中，可知LWLR方法相比其它方法能夠更好的識(shí)別出影響力排名靠前的節(jié)點(diǎn)。但上述結(jié)論僅僅考慮了節(jié)點(diǎn)在tc時(shí)刻的影響力。為了更好地分析所得到的排名靠前的節(jié)點(diǎn)在影響力傳播過程中的表現(xiàn)，本文對采用LWLR和采用LR得到的Top-10節(jié)點(diǎn)的影響力進(jìn)行對比分析。選擇LR作為對比方法主要考慮到采用LR所得到的Top-10節(jié)點(diǎn)相比于其它方法要更為接近LWLR。實(shí)驗(yàn)中，首先取LWLR的Top-10節(jié)點(diǎn)集合SLWLR，LR Top-10節(jié)點(diǎn)集合SLR，再分別將單獨(dú)出現(xiàn)在SLWLR和SLR中的節(jié)點(diǎn)初始化為I(infected)狀態(tài)，記錄傳播過程中到達(dá)I狀態(tài)的節(jié)點(diǎn)數(shù)。重復(fù)上述過程100次取平均值。實(shí)驗(yàn)中沒有使用共同出現(xiàn)在SLWLR和SLR中的節(jié)點(diǎn)，因此得到的實(shí)驗(yàn)結(jié)果更有利于區(qū)分兩種方法的效果。實(shí)驗(yàn)結(jié)果如圖6所示。從圖中可知，在兩個(gè)數(shù)據(jù)集上，LWLR對應(yīng)的曲線整體均在LR對應(yīng)的曲線上方，并且在整個(gè)傳播過程中，LWLR的曲線方差都比LR的要小。這表明LWLR識(shí)別的Top-10節(jié)點(diǎn)具有更強(qiáng)的影響力傳播能力，驗(yàn)證了本文方法的確能夠有效識(shí)別出最具影響力的節(jié)點(diǎn)。

圖6 LR和LWLR Top-10節(jié)點(diǎn)影響力傳播過程

5 結(jié)束語

針對特定事件的意見領(lǐng)袖挖掘，本文提出了一種采用新聞文本進(jìn)行意見領(lǐng)袖挖掘的方法。該方法采用新聞文本構(gòu)建特定事件的人物關(guān)系網(wǎng)絡(luò)，充分考慮了新聞文本與事件的相關(guān)度和新聞文本內(nèi)不同位置人物之間影響關(guān)系的強(qiáng)弱。在改進(jìn)的LeaderRank算法中，加入了人物之間關(guān)于特定事件的影響強(qiáng)弱信息，以及人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響強(qiáng)弱信息，提高了網(wǎng)絡(luò)中節(jié)點(diǎn)影響力度量的準(zhǔn)確度和區(qū)分度。實(shí)驗(yàn)分析結(jié)果表明，本文方法能夠有效識(shí)別特定事件的意見領(lǐng)袖，特別是排名靠前的意見領(lǐng)袖，而且相比LeaderRank等方法具有更好的效果。

[1]LIU Zhiming,LIU Lu.Identification and analysis of opinion leaders in micro-blogging network public opinion[J].Systems Engineering,2011(6):8-16(in Chinese).[劉志明,劉魯.微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識(shí)別及分析[J].系統(tǒng)工程,2011(6):8-16.]

[2]Zhou Xueyan,Yang Jing,Zhang Jianpei,et al.A BBS opi-nion leader mining algorithm based on topic model[J].Journal of Computational Information Systems,2014,10(6):2571-2578.

[3]Jonnalagadda S,Peeler R,Topham P.Discovering opinion leaders for medical topics using news articles[J].Journal of Biomedical Semantics,2012,3(1):1-13.

[4]Song Kaisong,Wang Daling,Feng Shi,et al.Detecting opi-nion leader dynamically in Chinese news comments[M]//Web-Age Information Management.Berlin Heidelberg:Springer,2012:197-209.

[5]WANG Jue,ZENG Jianping,ZHOU Baohua,et al.Online forum opinion leaders discovering method[J].Computer Engineering,2011,37(5):44-46(in Chinese).[王玨,曾劍平,周葆華,等.基于聚類分析的網(wǎng)絡(luò)論壇意見領(lǐng)袖發(fā)現(xiàn)方法[J].計(jì)算機(jī)工程,2011,37(5):44-46.]

[6]Bai Wenjie,Zhou Tao,Wang Binghong.Immunization of susceptible-infected model on scale-free networks[J].Physica A Statistical Mechanics & Its Applications,2007,384(2):656-662.

[7]Aral S,Walker D.Identifying influential and susceptible members of social networks[J].Science,2012,337(6092):337-341.

[8]Zhou Yanbo,Lyu Linyuan,Li Menghui.Quantifying the influence of scientists and their publications:Distinguish prestige from popularity[J].New Journal of Physics,2012,14(3):33033-33049(17).

[9]Salesses P,Schechtner K,Hidalgo CA.The collaborative image of the city:Mapping the inequality of urban perception[J].Plos One,2013,8(7):e68400.

[10]Hou Bonan,Yao Yiping,Liao Dongsheng.Identifying all-around nodes for spreading dynamics in complex networks[J].Physica A Statistical Mechanics & Its Applications,2012,391(15):4012-4017.

[11]Liu YY,Slotine JJ,Barabási A.Control centrality and hie-rarchical structure in complex networks[J].Plos One,2012,7(9):e44459.

[12]Mui L.Computational models of trust and reputation:Agents,evolutionary games,and social networks[J].Acta Paulista De Enfermagem,2014,20(4):452-457.

[13]Bakó I,Bencsura A,Hermannson K,et al.Hydrogen bond network topology in liquid water and methanol:A graph theory approach[J].Physical Chemistry Chemical Physics,2013,15(36):15163-15171.

[14]Katona Z,Zubcsek PP,Sarvary M.Network effects and personal influences:Diffusion of an online social network[J].Journal of Marketing Research,2013,48(48):425-443.

[15]Csermely P,London A,Wu LY,et al.Structure and dynamics of core/periphery networks[J].Journal of Complex Networks,2013,1(2):93-123.

[16]Chen Duanbing,Lyu Linyuan,Shang Mingsheng,et al.Identifying influential nodes in complex networks[J].Physica A Statistical Mechanics & Its Applications,2012,391(4):1777-1787.

[17]Kitsak M,Gallos LK,Havlin S,et al.Identification of influential spreaders in complex networks[J].Nature Physics,2010,6(11):888-893.

[18]Lyu Linyuan,Zhang Yicheng,Chi Hoyeung,et al.Leaders in social networks,the delicious case[J].Plos One,2011,6(6):e21202.

[20]XU Junming,ZHU Fuxi,LIU Shichao,et al.Identifying opinion leaders by improved algorithm based on LeaderRank[J].Computer Engineering & Applications,2015,51(1):110-114(in Chinese).[徐郡明,朱福喜,劉世超,等.改進(jìn)LeaderRank算法的意見領(lǐng)袖挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(1):110-114.]

[21]Wang Changbo.SentiView:Sentiment analysis and visualization for internet popular topics[J].IEEE Transactions on Human-Machine Systems,2013,43(43):620-630.

[22]Cao S,Snavely N.Graph-based discriminative learning for location recognition[J].International Journal of Computer Vision,2015,112(2):239-254.

[23]Manning CD,Surdeanu M,Bauer J,et al.The stanford CoreNLP natural language processing toolkit[C]//Meeting of the Association for Computational Linguistics:System Demonstrations. Baltimore,2014.

[24]Sienkiewicz A,Gubiec T,Kutner R,et al.Dynamic structural and topological phase transitions on the Warsaw stock exchange:A phenomenological approach[J].Acta Physica Polonica,2013,123(3):615-620.

[25]Gao Shuai,Ma Jun,Chen Zhumin,et al.Ranking the spreading ability of nodes in complex networks based on local structure[J].Physica A Statistical Mechanics & Its Applications,2014,403(6):130-147.

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放