亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        特定事件意見領(lǐng)袖挖掘

        2018-03-16 06:18:00闕文暉黃永峰
        關(guān)鍵詞:文本方法

        闕文暉,黃永峰,李 星

        (清華大學(xué) 電子工程系,北京 100084)

        0 引 言

        意見領(lǐng)袖在信息傳播和輿情控制中起著重要作用,吸引了國內(nèi)外學(xué)者的廣泛關(guān)注,并相應(yīng)地提出了結(jié)合不同互聯(lián)網(wǎng)內(nèi)容進(jìn)行意見領(lǐng)袖挖掘的方法,如微博[1]、論壇[2]、新聞報(bào)道[3]、新聞評(píng)論[4]等。然而,目前這些方法多集中在通用意見領(lǐng)袖的挖掘上,對于所需要分析的不同的特定事件的適用性并不好,對此本文提出一種采用特定事件相關(guān)的新聞文本構(gòu)建人物關(guān)系網(wǎng)絡(luò),結(jié)合社會(huì)網(wǎng)絡(luò)分析方法挖掘意見領(lǐng)袖的方法。該方法的整體框架如圖1所示。不同于微博、論壇回復(fù)等顯式存在的人物關(guān)系網(wǎng)絡(luò),本文使用新聞文本的人物共現(xiàn)關(guān)系構(gòu)建人物關(guān)系網(wǎng)絡(luò),即認(rèn)為存在共現(xiàn)關(guān)系的人物之間存在隱式的互相影響的關(guān)系,文獻(xiàn)[3]中意見領(lǐng)袖的挖掘工作正是基于此開展。同時(shí),新聞文本內(nèi)容豐富,表述規(guī)范,便于判斷和事件的相關(guān)程度,和事件相關(guān)的新聞文本的數(shù)據(jù)集較易獲取。因此,相比于微博、論壇等更適合特定事件的意見領(lǐng)袖挖掘。基于上述構(gòu)建的人物關(guān)系網(wǎng)絡(luò),本文采用改進(jìn)的LeaderRank算法計(jì)算人物的影響力排名,充分考慮相鄰人物節(jié)點(diǎn)之間關(guān)于特定事件的影響強(qiáng)弱信息以及人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響強(qiáng)弱信息,提高意見領(lǐng)袖識(shí)別的準(zhǔn)確性。

        圖1 特定事件意見領(lǐng)袖挖掘框架

        1 相關(guān)研究

        現(xiàn)有意見領(lǐng)袖的挖掘方法主要分為兩類:用戶屬性分析法和社會(huì)網(wǎng)絡(luò)分析法。

        用戶屬性分析法主要基于用戶的各種特征屬性來衡量用戶的影響力,如文獻(xiàn)[1]從用戶影響力和用戶活躍度兩個(gè)方面考慮構(gòu)建了微博意見領(lǐng)袖指標(biāo)體系。同時(shí),使用用戶屬性結(jié)合聚類的方法也被使用于意見領(lǐng)袖的挖掘[5]。但這類方法只考慮了用戶自身的屬性,并沒有使用用戶之間的關(guān)系信息。

        社會(huì)網(wǎng)絡(luò)分析法基于人物關(guān)系網(wǎng)絡(luò),使用節(jié)點(diǎn)在網(wǎng)絡(luò)中的位置和結(jié)構(gòu)信息,量化節(jié)點(diǎn)在網(wǎng)絡(luò)中的重要性。相比于用戶屬性分析法,該方法得到了意見領(lǐng)袖挖掘研究者的更多關(guān)注。如Bai等[6]指出網(wǎng)絡(luò)中的意見領(lǐng)袖可以是度最大的節(jié)點(diǎn),通過對其施加影響可以控制網(wǎng)絡(luò)中信息的傳播。Aral等[7]的研究證明意見領(lǐng)袖在網(wǎng)絡(luò)信息傳播中起著核心作用。文獻(xiàn)[8-10]將社會(huì)網(wǎng)絡(luò)分析法應(yīng)用到了多種復(fù)雜網(wǎng)絡(luò)的意見領(lǐng)袖挖掘工作中。此外,大量的衡量節(jié)點(diǎn)在網(wǎng)絡(luò)中傳播能力和影響力的其它指標(biāo)不斷被提出用于挖掘網(wǎng)絡(luò)中的意見領(lǐng)袖[11-13]。

        目前,在網(wǎng)絡(luò)節(jié)點(diǎn)影響力排序上,常見的衡量方法有度中心性,介數(shù)中心性[14],緊密度中心性[15],局部中心性[16],K-Shell[17],LeaderRank[18]等方法。度中心性方法實(shí)現(xiàn)簡單,但僅使用了較少的局部信息來衡量節(jié)點(diǎn)的重要性,因此其效果并不是很好。介數(shù)中心性和緊密度中心性使用了網(wǎng)絡(luò)的全局信息,效果較好,但是計(jì)算復(fù)雜度太高。局部中心性在計(jì)算復(fù)雜度和效果上進(jìn)行了綜合考慮,使用更多的局部信息獲得了更好的效果。K-Shell方法能夠有效地找到核心的節(jié)點(diǎn)集合,但是可能存在多個(gè)節(jié)點(diǎn)都屬于一個(gè)集合,集合內(nèi)節(jié)點(diǎn)影響力無法區(qū)分。LeaderRank作為一種PageRank[19]的改進(jìn)算法,在網(wǎng)絡(luò)中加入ground節(jié)點(diǎn)的方式對節(jié)點(diǎn)跳轉(zhuǎn)信息進(jìn)行控制,有效地提高了排序準(zhǔn)確性,并且其迭代收斂性較好。Xu等[20]針對LeaderRank算法進(jìn)行改進(jìn),提出加入用戶間情感傾向和用戶活躍度的改進(jìn)LeaderRank算法,并通過實(shí)驗(yàn)驗(yàn)證了改進(jìn)算法的準(zhǔn)確性和抗干擾能力都得到了提升。但此改進(jìn)方法僅適用于微博等少數(shù)場景,對于其它如新聞文本等場景并不能適用。

        本文從特定事件的意見領(lǐng)袖挖掘的需求出發(fā),對Lea-derRank算法進(jìn)行了改進(jìn),加入了人物之間關(guān)于特定事件的影響強(qiáng)弱信息,并且在ground節(jié)點(diǎn)進(jìn)行影響力分配的過程中考慮接收節(jié)點(diǎn)的鄰居節(jié)點(diǎn)和二度鄰居節(jié)點(diǎn)的局部結(jié)構(gòu)信息,來計(jì)算人物節(jié)點(diǎn)的影響力排名,突出排名靠前的人物節(jié)點(diǎn)的區(qū)分度,提高意見領(lǐng)袖識(shí)別的有效性和準(zhǔn)確性。

        2 特定事件人物關(guān)系網(wǎng)絡(luò)構(gòu)建

        本文分別實(shí)現(xiàn)了使用中文新聞文本和英文新聞文本構(gòu)建特定事件人物關(guān)系網(wǎng)絡(luò)。中文新聞文本的特定事件人物關(guān)系網(wǎng)絡(luò)構(gòu)建過程將結(jié)合“天津爆炸”事件進(jìn)行介紹,而英文新聞文本對應(yīng)的構(gòu)建過程則將在中文新聞文本的特定事件人物關(guān)系網(wǎng)絡(luò)構(gòu)建過程的基礎(chǔ)上進(jìn)行補(bǔ)充介紹。

        2.1 使用中文新聞文本構(gòu)建人物關(guān)系網(wǎng)絡(luò)

        2.1.1 特定事件相關(guān)新聞文本獲取

        從中文新聞網(wǎng)站爬取一段時(shí)間內(nèi)的大量的新聞文本,然后通過關(guān)鍵詞過濾的方式得到和特定事件相關(guān)的新聞文本集合。比如“天津爆炸”事件中,我們爬取了大量從2015年8月13日至2015年9月13日內(nèi)的新聞文本,通過關(guān)鍵詞“天津”和“爆炸”對爬取的新聞文本進(jìn)行過濾,得到1599篇和“天津爆炸”事件相關(guān)的新聞文本。

        2.1.2 新聞文本和特定事件的相關(guān)性計(jì)算

        考慮到特定事件相關(guān)的新聞文本集合中各篇新聞文本和事件的相關(guān)性并不相同,我們計(jì)算每一篇新聞文本和特定事件的相關(guān)度來表征新聞文本和事件相關(guān)性的強(qiáng)弱。首先,使用ICTCLAS工具[21]將特定事件相關(guān)的新聞文本集合D={D1,D2,…}進(jìn)行分詞,去除停用詞后統(tǒng)計(jì)詞頻。取詞頻排序靠前的VN個(gè)詞作為特定事件的描述詞,構(gòu)成事件描述向量V={v1,v2,…vVN},其中vi均為對應(yīng)描述詞歸一化后的詞頻。則一篇文檔和事件的相關(guān)度可以采用以下公式進(jìn)行計(jì)算

        (1)

        其中,vEp對應(yīng)事件的描述向量,而vip對應(yīng)新聞文本Di的表示向量。

        2.1.3 新聞文本人名識(shí)別及優(yōu)化

        采用ICTCLAS工具對中文新聞文本進(jìn)行人名識(shí)別,但識(shí)別結(jié)果并不完全準(zhǔn)確。為構(gòu)建更為準(zhǔn)確的人物關(guān)系網(wǎng)絡(luò),我們采用人工校正和規(guī)則的方式對人名識(shí)別結(jié)果進(jìn)行優(yōu)化。

        人工校正主要是為了解決人名切分錯(cuò)誤、人名拼寫錯(cuò)誤、以人名打頭的地名企業(yè)名誤識(shí)為人名等情況。如“天津爆炸”事件中,人名“邵俊強(qiáng)”被切分為“邵俊”,人名“楊剛”錯(cuò)寫為“楊鋼”,“萬科”、“安監(jiān)”、“黃煙”等識(shí)別為人名。

        規(guī)則主要包括單篇新聞文檔中的人名消歧和多篇文檔中的人名消歧。單篇新聞文檔中的文檔消歧我們主要考慮兩種情況,一是人物的姓名和名共同出現(xiàn)的情況,如“黃艷榮”和“艷榮”,這種情況我們把姓名和名統(tǒng)一合并到姓名進(jìn)行處理;二是姓名和“姓+先生”或“姓+女士”同時(shí)出現(xiàn)的情況,如“董社軒”和“董先生”,這種情況我們首先找到離“姓+先生”或者“姓+女士”最近的相同姓的姓名,然后合并到對應(yīng)的姓名。多篇新聞文檔中的人名消歧主要是解決人物的姓名和名出現(xiàn)在不同新聞文本中的問題。這種情況我們把姓名和名統(tǒng)一合并到姓名進(jìn)行處理。

        2.1.4 特定事件人物共現(xiàn)關(guān)系網(wǎng)絡(luò)構(gòu)建

        對事件相關(guān)的每一篇新聞文本按段落進(jìn)行人名識(shí)別和優(yōu)化,每個(gè)段落對應(yīng)一個(gè)人名序列Sp={name1,name2,…},每篇新聞文本對應(yīng)一個(gè)人名序列的順序集合Sd={Sp1,Sp2,…}。事件相關(guān)的所有新聞文本對應(yīng)的人名序列集合中的所有人名構(gòu)成了人物關(guān)系網(wǎng)絡(luò)的節(jié)點(diǎn)集合。對于一篇新聞文本中出現(xiàn)的任意兩個(gè)人名,并不一定存在互相影響的關(guān)系,即在人物關(guān)系網(wǎng)絡(luò)中并不是一定存在邊。本文考慮人名在文中的位置關(guān)系,采用以下兩個(gè)規(guī)則確定人物之間的是否存在影響關(guān)系,構(gòu)建人物關(guān)系網(wǎng)絡(luò)中的邊,使得所構(gòu)建的人物關(guān)系網(wǎng)絡(luò)更為精準(zhǔn)。

        規(guī)則一:給定滑動(dòng)窗口大小WS,序列Sd中任意WS大小窗口內(nèi)的人名之間存在邊。

        規(guī)則二:同一個(gè)段落內(nèi)任意兩個(gè)人名之間存在邊。

        規(guī)則一考慮了新聞文本中出現(xiàn)位置相近的人名之間關(guān)系較強(qiáng),相隔太遠(yuǎn)的人名之間的關(guān)系較弱而忽略置為零。規(guī)則二考慮了新聞文本段落的內(nèi)容聚合性,新聞作者往往會(huì)把相關(guān)的內(nèi)容放在一個(gè)段落,因此我們認(rèn)為同一個(gè)段落內(nèi)的人物之間具有較強(qiáng)的影響關(guān)系。

        每一條邊的權(quán)值,即由此條邊相連的兩個(gè)人物關(guān)于特定事件的互相影響的強(qiáng)弱程度,由邊相連的兩個(gè)人物所共同出現(xiàn)的新聞文本集合決定

        (2)

        其中,Гi,j表示人物i和j所共同出現(xiàn)的新聞文本集合,R(d)表示新聞文本d和特定事件的相關(guān)度。

        2.1.5 最大連通子圖獲取

        考慮到實(shí)驗(yàn)中采用SI(susceptible-infected)[24]模型進(jìn)行結(jié)果評(píng)估,我們從上述構(gòu)建的網(wǎng)絡(luò)中獲取最大連通子圖,作為下文計(jì)算人物節(jié)點(diǎn)影響力得分的網(wǎng)絡(luò)。

        2.2 使用英文新聞文本構(gòu)建人物關(guān)系網(wǎng)絡(luò)

        使用英文新聞文本構(gòu)建特定事件人物關(guān)系網(wǎng)絡(luò)的過程和使用中文文本的流程很類似,為避免描述過多重復(fù)的內(nèi)容,以下主要描述兩者的不同之處。

        在特定事件新聞文本數(shù)據(jù)的獲取上,我們從英文新聞網(wǎng)站進(jìn)行數(shù)據(jù)采集。在新聞文本和特定事件相關(guān)度的計(jì)算上,首先將英文文本的大寫字母轉(zhuǎn)換為小寫字母,采用空格和標(biāo)點(diǎn)符號(hào)等分隔符對文本進(jìn)行切分,去除停用詞,然后采用Porter Stemmer[22]進(jìn)行詞干提取,之后的計(jì)算步驟和中文新聞文本的處理方式類似。人名識(shí)別和優(yōu)化上,英文文本的人名識(shí)別我們采用的是Stanford Named Entity Recognizer[23],在優(yōu)化方面與中文新聞文本的處理方式類似。在網(wǎng)絡(luò)構(gòu)建和最大子圖獲取上與中文新聞文本的處理方式類似,在此不再贅述。

        3 改進(jìn)LeaderRank算法

        3.1 LeaderRank算法

        LeaderRank算法是Lv等[18]提出的一種PageRank的改進(jìn)算法。記無向網(wǎng)絡(luò)為G=,其中V為節(jié)點(diǎn)的集合,N=|V|表示集合內(nèi)節(jié)點(diǎn)個(gè)數(shù),E為邊的集合,M=|E|表示集合內(nèi)邊的個(gè)數(shù)。LeaderRank對PageRank的改進(jìn)主要是在網(wǎng)絡(luò)中增加了一個(gè)ground節(jié)點(diǎn),記為g。g節(jié)點(diǎn)和網(wǎng)絡(luò)中所有普通節(jié)點(diǎn)(網(wǎng)絡(luò)中除g外的其它節(jié)點(diǎn))相連。則網(wǎng)絡(luò)中包含N+1個(gè)節(jié)點(diǎn)和M+2N條邊。LeaderRank算法的核心公式如式(3)、式(4)所示

        (3)

        (4)

        3.2 改進(jìn)LeaderRank算法

        Lv等[18]通過實(shí)驗(yàn)證明LeaderRank算法相比PageRank算法具有更高的準(zhǔn)確性和更強(qiáng)的穩(wěn)定性。但是在特定事件的意見領(lǐng)袖挖掘中,構(gòu)建的人物關(guān)系網(wǎng)絡(luò)中人物之間影響強(qiáng)弱不同,或是某一人物節(jié)點(diǎn)受非相鄰人物節(jié)點(diǎn)的影響各不相同,都會(huì)影響意見領(lǐng)袖排名的準(zhǔn)確性,而LeaderRank算法會(huì)受到這兩方面因素的影響。因此,改進(jìn)的LeaderRank算法對上述兩方面因素進(jìn)行了考察優(yōu)化。

        3.2.1 人物之間關(guān)于特定事件的影響強(qiáng)弱

        在人物關(guān)系網(wǎng)絡(luò)中,LeaderRank算法認(rèn)為任意兩個(gè)人物節(jié)點(diǎn)之間的影響關(guān)系強(qiáng)弱是相同的,即網(wǎng)絡(luò)中所有邊的權(quán)值相同,人物節(jié)點(diǎn)的影響力在傳播過程中是均勻地向鄰居節(jié)點(diǎn)傳播的。LeaderRank算法沒有考慮到人物之間關(guān)于特定事件的影響關(guān)系強(qiáng)弱是各不相同的,影響關(guān)系強(qiáng)的人物之間受到彼此的影響更強(qiáng),而關(guān)系弱的人物之間受到彼此的影響更弱。針對上述問題,改進(jìn)的LeaderRank算法加入了人物關(guān)系網(wǎng)路中人物之間關(guān)于特定事件的影響強(qiáng)弱信息,具體體現(xiàn)在考慮了網(wǎng)路中邊的權(quán)值信息。網(wǎng)絡(luò)中任意兩個(gè)普通節(jié)點(diǎn)之間的權(quán)值如式(2)所述。

        3.2.2 人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響

        人物關(guān)系網(wǎng)絡(luò)中,人物節(jié)點(diǎn)不僅受到鄰居節(jié)點(diǎn)的影響,還受到非鄰居節(jié)點(diǎn)影響,表現(xiàn)在PageRank算法中是一個(gè)用戶訪問一個(gè)網(wǎng)頁時(shí),除了可以通過點(diǎn)擊節(jié)點(diǎn)網(wǎng)頁中的鏈接跳轉(zhuǎn)到其它網(wǎng)頁外,還會(huì)以一個(gè)跳轉(zhuǎn)概率c通過地址欄隨機(jī)跳轉(zhuǎn)到其它網(wǎng)頁。對應(yīng)到LeaderRank算法中,一個(gè)節(jié)點(diǎn)收到的影響不僅來自其鄰居節(jié)點(diǎn),還來自其它非鄰居節(jié)點(diǎn),而非鄰居節(jié)點(diǎn)的影響力是通過ground節(jié)點(diǎn)傳遞實(shí)現(xiàn)的。但是LeaderRank算法認(rèn)為某一節(jié)點(diǎn)受到非鄰居節(jié)點(diǎn)的影響強(qiáng)弱相同,沒有考慮到影響力強(qiáng)的節(jié)點(diǎn)相比于影響力弱的節(jié)點(diǎn)對其非鄰居節(jié)點(diǎn)的具有更強(qiáng)的影響力。針對上述問題,改進(jìn)的LeaderRank算法加入了人物節(jié)點(diǎn)受到非鄰居節(jié)點(diǎn)的影響強(qiáng)弱信息。從節(jié)點(diǎn)的局部結(jié)構(gòu)信息出發(fā),考慮兩個(gè)因素:節(jié)點(diǎn)的鄰居節(jié)點(diǎn)局部結(jié)構(gòu)信息和節(jié)點(diǎn)的二度鄰居節(jié)點(diǎn)局部結(jié)構(gòu)信息。如果一個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的加權(quán)信息和二度鄰居節(jié)點(diǎn)的加權(quán)信息越豐富,則這個(gè)節(jié)點(diǎn)對其非鄰居節(jié)點(diǎn)產(chǎn)生的影響越大。之所以考慮二度鄰居節(jié)點(diǎn)局部結(jié)構(gòu)信息,是為了能夠更多地使用節(jié)點(diǎn)的局部結(jié)構(gòu)信息,避免將一些鄰居節(jié)點(diǎn)較多但又不是真正位于網(wǎng)絡(luò)核心位置的節(jié)點(diǎn)識(shí)別為重要節(jié)點(diǎn),如圖2所示,節(jié)點(diǎn)14的鄰居節(jié)點(diǎn)較多,但是其二度鄰居節(jié)點(diǎn)很少,并不處于網(wǎng)絡(luò)的核心位置,因此不能將其識(shí)別為重要節(jié)點(diǎn)。具體改進(jìn)體現(xiàn)在對LeaderRank算法中g(shù)round節(jié)點(diǎn)到普通節(jié)點(diǎn)的邊的權(quán)值ωgi進(jìn)行了優(yōu)化,即

        ωgi=α·WDi+(1-α)∑j∈ΓiWDj

        (5)

        其中,WDi=∑j∈Гiωij,Гi表示節(jié)點(diǎn)i的所有相鄰普通節(jié)點(diǎn)的個(gè)數(shù),α是一個(gè)取值于[0,1]的一個(gè)可調(diào)參數(shù)。

        圖2 網(wǎng)絡(luò)節(jié)點(diǎn)影響力分析樣例

        3.2.3 算法的改進(jìn)

        從上述的人物之間關(guān)于特定事件的影響強(qiáng)弱和人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響兩個(gè)因素出發(fā),對LeaderRank算法進(jìn)行改進(jìn),改進(jìn)的LeaderRank算法核心公式如式(6)、式(7)所示

        (6)

        (7)

        其中,ωji的取值規(guī)則為:若j為ground節(jié)點(diǎn),則ωgi=1/SZi·∑j∈Гiωij,其中ωij表示任意一對普通節(jié)點(diǎn)的邊的權(quán)重,Гi表示節(jié)點(diǎn)i的所有相鄰普通節(jié)點(diǎn),SZi表示Гi集合的大小,ωgi如式(5)所述;若j為普通節(jié)點(diǎn),則ωgi如式(2)所述;其它變量含義同式(3)、式(4)。

        4 實(shí)驗(yàn)結(jié)果及分析

        4.1 實(shí)驗(yàn)數(shù)據(jù)

        為驗(yàn)證文本提出的方法,我們在兩個(gè)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。一個(gè)是“天津爆炸”數(shù)據(jù)集。我們采集了2015年8月13日至2015年9月13日之間大量的中文新聞文本,通過關(guān)鍵詞過濾得到和“天津爆炸“事件相關(guān)的新聞文本1599篇,以此數(shù)據(jù)集構(gòu)建“天津爆炸”事件的人物關(guān)系網(wǎng)絡(luò),記為PCNTEE。另一個(gè)是“巴黎襲擊”數(shù)據(jù)集。我們采集了2015年11月13日至2015年12月3日之間大量的英文新聞文本,通過關(guān)鍵詞過濾得到和“巴黎襲擊“事件相關(guān)的新聞文本1083篇,以此數(shù)據(jù)集構(gòu)建“巴黎襲擊”事件的人物關(guān)系網(wǎng)絡(luò),記為PCNPAE。兩個(gè)數(shù)據(jù)集的基本統(tǒng)計(jì)情況如表1所示。其中,N表示網(wǎng)絡(luò)中節(jié)點(diǎn)個(gè)數(shù),M為邊的個(gè)數(shù),節(jié)點(diǎn)平均度為,最小權(quán)重值為EMIN,最大權(quán)重值為EMAX,平均權(quán)重值為。

        表1 兩個(gè)真實(shí)數(shù)據(jù)集的基本統(tǒng)計(jì)情況

        4.2 實(shí)驗(yàn)結(jié)果

        4.2.1 有效性評(píng)估

        SI模型[24]作為網(wǎng)絡(luò)節(jié)點(diǎn)影響力度量的一種方式被廣泛使用。在上述兩個(gè)數(shù)據(jù)集上分別采用SI模型計(jì)算節(jié)點(diǎn)的標(biāo)準(zhǔn)影響力得分。SI模型中,所有節(jié)點(diǎn)僅有兩種狀態(tài):Susceptible(S)和Infected(I)。初始時(shí)刻,網(wǎng)絡(luò)中某一節(jié)點(diǎn)置為I狀態(tài)而其它節(jié)點(diǎn)都為S狀態(tài)。每一次迭代過程中,處于I狀態(tài)的節(jié)點(diǎn)以概率β感染相鄰的處于S狀態(tài)的節(jié)點(diǎn)。實(shí)驗(yàn)過程中發(fā)現(xiàn),將感染概率設(shè)置為0.1時(shí),效果較好。定義F(t)代表時(shí)刻t網(wǎng)絡(luò)中處于I狀態(tài)的節(jié)點(diǎn)個(gè)數(shù),隨著t的增加,F(xiàn)(t)不斷增大,最后收斂到一個(gè)穩(wěn)定的值,此時(shí)網(wǎng)絡(luò)中幾乎所有的節(jié)點(diǎn)都處于I狀態(tài)。定義F(tc)作為節(jié)點(diǎn)的標(biāo)準(zhǔn)影響力得分,其中tc為使得F(tc)和F(tc)的斜率均較大的某一時(shí)刻。對F(tc)重復(fù)計(jì)算100次取平均,平均值越大,代表此節(jié)點(diǎn)影響力越大越可能是意見領(lǐng)袖。根據(jù)具體實(shí)驗(yàn)情況,天津爆炸實(shí)驗(yàn)中,設(shè)定tc=9;巴黎襲擊實(shí)驗(yàn)中,設(shè)定tc=10。采用本文提出的改進(jìn)LeaderRank(local weighted LeaderRank,LWLR)算法,以及度中心性(degree centrality,DC)、介數(shù)中心性(betweenness centrality,BC)[14]、緊密度中心性(closeness centrality,CC)[15]、局部中心性(local centrality,LC)[16]、K-Shell(KS)算法[17]、LeaderRank(LR)算法[18]、人物在特定事件相關(guān)的新聞文本中被提及次數(shù)(Mentions)等各個(gè)對比方法計(jì)算節(jié)點(diǎn)影響力得分。圖3和圖4為兩個(gè)數(shù)據(jù)集上節(jié)點(diǎn)標(biāo)準(zhǔn)影響力得分和采用上述方法計(jì)算的節(jié)點(diǎn)影響力得分的相關(guān)性。

        圖3 “天津爆炸”數(shù)據(jù)集上8種方法對應(yīng)的相關(guān)性結(jié)果

        圖4 “巴黎襲擊”數(shù)據(jù)集上8種方法對應(yīng)的相關(guān)性結(jié)果

        從圖3中我們觀察到,在PCNTEE中,采用DC、BC、KS和Mentions方法得到的排名和采用SI得到的標(biāo)準(zhǔn)影響力排名之間的相關(guān)性較差,而CC、LC、LR和LWLR方法相關(guān)性較好,并且LWLR取得了最好的相關(guān)性,尤其是在影響力得分較低的那部分節(jié)點(diǎn)。這是因?yàn)長WLR考慮了更多的局部信息,提高了區(qū)分得分在中后位置的那部分節(jié)點(diǎn)的排名的能力。由圖4可知,在PCNPAE中,DC、BC、KS以及Mentions方法和其在PCNTEE中的表現(xiàn)相似,都較差,而LC和LWLR比其它方法的表現(xiàn)都好??梢奓C和LWLR方法是本文中所考慮的最好的兩種方法。因此,可以說本文提出的LWLR方法可以有效地找到網(wǎng)絡(luò)中的最具影響力的人物。

        為了定量地評(píng)估采用各種方法計(jì)算得到網(wǎng)絡(luò)節(jié)點(diǎn)影響力得分的準(zhǔn)確性,我們采用Kendall’sτ系數(shù)進(jìn)行衡量,其定義詳見文獻(xiàn)[25]。表2為兩個(gè)數(shù)據(jù)集上采用8種方法計(jì)算得到的節(jié)點(diǎn)影響力排名對應(yīng)的Kendall’sτ的值。在PCNTEE,我們的方法取得了最好的τ值,即我們的方法得到的節(jié)點(diǎn)影響力排名比其它方法的得到的排名要更為接近標(biāo)準(zhǔn)排名。在PCNPAE中,LC方法取得了最好的τ值,但本文方法的τ值很接近LC的τ值,并且比其它方法的τ值要好許多,即本文方法在這個(gè)網(wǎng)絡(luò)中表現(xiàn)也很好。結(jié)合兩個(gè)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,可知本文方法要比除LC之外的方法都好,并且和LC的效果相當(dāng),但是在不同網(wǎng)絡(luò)中效果要比LC更為穩(wěn)定。

        表2 8種不同方法對應(yīng)的Kendall’s τ值

        4.2.2 Top-L節(jié)點(diǎn)影響力排名分析

        Kendall’sτ衡量的是所有節(jié)點(diǎn)影響力排名的準(zhǔn)確性,并不能衡量排名靠前的節(jié)點(diǎn)影響力排名的準(zhǔn)確性。考慮到意見領(lǐng)袖挖掘中最為重要的是準(zhǔn)確獲得排名靠前的人物,我們采用一個(gè)新的指標(biāo)——排名靠前的L個(gè)節(jié)點(diǎn)的影響力得分的平均值,來衡量方法獲得的Top-L節(jié)點(diǎn)的影響力排名的準(zhǔn)確性,記為。在PCNTEE和PCNPAE兩個(gè)數(shù)據(jù)集上,我們采用本文提出的方法和對比方法計(jì)算其,結(jié)果如圖5所示。理論上一個(gè)效果好的方法,其對應(yīng)的曲線應(yīng)該向右下遞減。由圖5可知,本文方法在整個(gè)L區(qū)間內(nèi)比其它方法的效果都好。在4.2.1中的分析可知,LC方法在所有節(jié)點(diǎn)的排序上取得了很好的效果。但由圖5可知,LC在Top-L節(jié)點(diǎn)的排序上效果并不好,原因在于LC考慮了過多的局部信息,而排名靠前的節(jié)點(diǎn)之間很可能緊密連接,其局部結(jié)構(gòu)和權(quán)重信息可能很類似。通過對比τ值和值,可知本文提出的方法相比于其它方法,能夠得到一個(gè)更加接近標(biāo)準(zhǔn)影響力排名的節(jié)點(diǎn)排序,并且能夠更好地識(shí)別出排名靠前的重要節(jié)點(diǎn)。

        圖5 兩個(gè)數(shù)據(jù)集上8種方法Top-L節(jié)點(diǎn)的平均影響力

        4.2.3 Top-10節(jié)點(diǎn)影響力傳播分析

        從上述實(shí)驗(yàn)結(jié)果分析中,可知LWLR方法相比其它方法能夠更好的識(shí)別出影響力排名靠前的節(jié)點(diǎn)。但上述結(jié)論僅僅考慮了節(jié)點(diǎn)在tc時(shí)刻的影響力。為了更好地分析所得到的排名靠前的節(jié)點(diǎn)在影響力傳播過程中的表現(xiàn),本文對采用LWLR和采用LR得到的Top-10節(jié)點(diǎn)的影響力進(jìn)行對比分析。選擇LR作為對比方法主要考慮到采用LR所得到的Top-10節(jié)點(diǎn)相比于其它方法要更為接近LWLR。實(shí)驗(yàn)中,首先取LWLR的Top-10節(jié)點(diǎn)集合SLWLR,LR Top-10節(jié)點(diǎn)集合SLR,再分別將單獨(dú)出現(xiàn)在SLWLR和SLR中的節(jié)點(diǎn)初始化為I(infected)狀態(tài),記錄傳播過程中到達(dá)I狀態(tài)的節(jié)點(diǎn)數(shù)。重復(fù)上述過程100次取平均值。實(shí)驗(yàn)中沒有使用共同出現(xiàn)在SLWLR和SLR中的節(jié)點(diǎn),因此得到的實(shí)驗(yàn)結(jié)果更有利于區(qū)分兩種方法的效果。實(shí)驗(yàn)結(jié)果如圖6所示。從圖中可知,在兩個(gè)數(shù)據(jù)集上,LWLR對應(yīng)的曲線整體均在LR對應(yīng)的曲線上方,并且在整個(gè)傳播過程中,LWLR的曲線方差都比LR的要小。這表明LWLR識(shí)別的Top-10節(jié)點(diǎn)具有更強(qiáng)的影響力傳播能力,驗(yàn)證了本文方法的確能夠有效識(shí)別出最具影響力的節(jié)點(diǎn)。

        圖6 LR和LWLR Top-10節(jié)點(diǎn)影響力傳播過程

        5 結(jié)束語

        針對特定事件的意見領(lǐng)袖挖掘,本文提出了一種采用新聞文本進(jìn)行意見領(lǐng)袖挖掘的方法。該方法采用新聞文本構(gòu)建特定事件的人物關(guān)系網(wǎng)絡(luò),充分考慮了新聞文本與事件的相關(guān)度和新聞文本內(nèi)不同位置人物之間影響關(guān)系的強(qiáng)弱。在改進(jìn)的LeaderRank算法中,加入了人物之間關(guān)于特定事件的影響強(qiáng)弱信息,以及人物節(jié)點(diǎn)受非鄰居人物節(jié)點(diǎn)的影響強(qiáng)弱信息,提高了網(wǎng)絡(luò)中節(jié)點(diǎn)影響力度量的準(zhǔn)確度和區(qū)分度。實(shí)驗(yàn)分析結(jié)果表明,本文方法能夠有效識(shí)別特定事件的意見領(lǐng)袖,特別是排名靠前的意見領(lǐng)袖,而且相比LeaderRank等方法具有更好的效果。

        [1]LIU Zhiming,LIU Lu.Identification and analysis of opinion leaders in micro-blogging network public opinion[J].Systems Engineering,2011(6):8-16(in Chinese).[劉志明,劉魯.微博網(wǎng)絡(luò)輿情中的意見領(lǐng)袖識(shí)別及分析[J].系統(tǒng)工程,2011(6):8-16.]

        [2]Zhou Xueyan,Yang Jing,Zhang Jianpei,et al.A BBS opi-nion leader mining algorithm based on topic model[J].Journal of Computational Information Systems,2014,10(6):2571-2578.

        [3]Jonnalagadda S,Peeler R,Topham P.Discovering opinion leaders for medical topics using news articles[J].Journal of Biomedical Semantics,2012,3(1):1-13.

        [4]Song Kaisong,Wang Daling,Feng Shi,et al.Detecting opi-nion leader dynamically in Chinese news comments[M]//Web-Age Information Management.Berlin Heidelberg:Springer,2012:197-209.

        [5]WANG Jue,ZENG Jianping,ZHOU Baohua,et al.Online forum opinion leaders discovering method[J].Computer Engineering,2011,37(5):44-46(in Chinese).[王玨,曾劍平,周葆華,等.基于聚類分析的網(wǎng)絡(luò)論壇意見領(lǐng)袖發(fā)現(xiàn)方法[J].計(jì)算機(jī)工程,2011,37(5):44-46.]

        [6]Bai Wenjie,Zhou Tao,Wang Binghong.Immunization of susceptible-infected model on scale-free networks[J].Physica A Statistical Mechanics & Its Applications,2007,384(2):656-662.

        [7]Aral S,Walker D.Identifying influential and susceptible members of social networks[J].Science,2012,337(6092):337-341.

        [8]Zhou Yanbo,Lyu Linyuan,Li Menghui.Quantifying the influence of scientists and their publications:Distinguish prestige from popularity[J].New Journal of Physics,2012,14(3):33033-33049(17).

        [9]Salesses P,Schechtner K,Hidalgo CA.The collaborative image of the city:Mapping the inequality of urban perception[J].Plos One,2013,8(7):e68400.

        [10]Hou Bonan,Yao Yiping,Liao Dongsheng.Identifying all-around nodes for spreading dynamics in complex networks[J].Physica A Statistical Mechanics & Its Applications,2012,391(15):4012-4017.

        [11]Liu YY,Slotine JJ,Barabási A.Control centrality and hie-rarchical structure in complex networks[J].Plos One,2012,7(9):e44459.

        [12]Mui L.Computational models of trust and reputation:Agents,evolutionary games,and social networks[J].Acta Paulista De Enfermagem,2014,20(4):452-457.

        [13]Bakó I,Bencsura A,Hermannson K,et al.Hydrogen bond network topology in liquid water and methanol:A graph theory approach[J].Physical Chemistry Chemical Physics,2013,15(36):15163-15171.

        [14]Katona Z,Zubcsek PP,Sarvary M.Network effects and personal influences:Diffusion of an online social network[J].Journal of Marketing Research,2013,48(48):425-443.

        [15]Csermely P,London A,Wu LY,et al.Structure and dynamics of core/periphery networks[J].Journal of Complex Networks,2013,1(2):93-123.

        [16]Chen Duanbing,Lyu Linyuan,Shang Mingsheng,et al.Identifying influential nodes in complex networks[J].Physica A Statistical Mechanics & Its Applications,2012,391(4):1777-1787.

        [17]Kitsak M,Gallos LK,Havlin S,et al.Identification of influential spreaders in complex networks[J].Nature Physics,2010,6(11):888-893.

        [18]Lyu Linyuan,Zhang Yicheng,Chi Hoyeung,et al.Leaders in social networks,the delicious case[J].Plos One,2011,6(6):e21202.

        [20]XU Junming,ZHU Fuxi,LIU Shichao,et al.Identifying opinion leaders by improved algorithm based on LeaderRank[J].Computer Engineering & Applications,2015,51(1):110-114(in Chinese).[徐郡明,朱福喜,劉世超,等.改進(jìn)LeaderRank算法的意見領(lǐng)袖挖掘[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(1):110-114.]

        [21]Wang Changbo.SentiView:Sentiment analysis and visualization for internet popular topics[J].IEEE Transactions on Human-Machine Systems,2013,43(43):620-630.

        [22]Cao S,Snavely N.Graph-based discriminative learning for location recognition[J].International Journal of Computer Vision,2015,112(2):239-254.

        [23]Manning CD,Surdeanu M,Bauer J,et al.The stanford CoreNLP natural language processing toolkit[C]//Meeting of the Association for Computational Linguistics:System Demonstrations. Baltimore,2014.

        [24]Sienkiewicz A,Gubiec T,Kutner R,et al.Dynamic structural and topological phase transitions on the Warsaw stock exchange:A phenomenological approach[J].Acta Physica Polonica,2013,123(3):615-620.

        [25]Gao Shuai,Ma Jun,Chen Zhumin,et al.Ranking the spreading ability of nodes in complex networks based on local structure[J].Physica A Statistical Mechanics & Its Applications,2014,403(6):130-147.

        猜你喜歡
        文本方法
        初中群文閱讀的文本選擇及組織
        甘肅教育(2020年8期)2020-06-11 06:10:02
        在808DA上文本顯示的改善
        學(xué)習(xí)方法
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        可能是方法不對
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        論《柳毅傳》對前代文本的繼承與轉(zhuǎn)化
        人間(2015年20期)2016-01-04 12:47:10
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        賺錢方法
        大地资源在线播放观看mv| 国产亚洲精品熟女国产成人| 男女性杂交内射妇女bbwxz| 精品国产乱码久久久软件下载 | 狠狠色噜噜狠狠狠777米奇| 国产三级精品av在线| 久久久噜噜噜久久中文福利| 人人玩人人添人人澡| 伊人婷婷色香五月综合缴激情| 蜜桃av一区二区三区| 国产一区二区三区尤物| 天天做天天爱夜夜爽毛片毛片| 男男车车的车车网站w98免费| 国产视频最新| 国产免费人成视频在线观看播放播| 99国产精品99久久久久久| 日韩乱码人妻无码中文字幕视频| 99成人无码精品视频| 成年人视频在线观看麻豆| 午夜天堂精品久久久久| 亚洲老妈激情一区二区三区 | 亚洲av蜜桃永久无码精品| 亚洲V在线激情| 亚洲国产日韩av一区二区 | 特级毛片a级毛片在线播放www| 天堂网日韩av在线播放一区| 人妻少妇看a偷人无码| 亚洲国产激情一区二区三区| 亚洲精品456| 日韩一二三四区免费观看 | 乱人伦视频中文字幕| 亚洲va欧美va| 国产网红一区二区三区| 男人的天堂手机版av| 欧美日韩国产码高清综合人成| 麻豆AV免费网站| 亚洲av色精品国产一区二区三区| 亚洲国产精品av在线| 中文字幕一区在线观看视频| 亚洲电影一区二区| 人妻少妇av中文字幕乱码|