摘要:目前,有許多理論被用來識別輿論領(lǐng)袖。一般使用節(jié)點的度數(shù)、緊密度、介數(shù)和不同領(lǐng)域的PageRank算法等中心化指標來識別出輿論領(lǐng)袖,這些方法雖然簡單,但是由于它們僅利用了節(jié)點自身的外部屬性,因而識別率并不高。為此,文章提出了一種輿論領(lǐng)袖識別模型IDMS。該模型不但考慮了節(jié)點的外部屬性,而且還綜合考慮了節(jié)點的內(nèi)部屬性,如文本內(nèi)容的相關(guān)度。最后通過實驗,驗證了該模型可以更準確地識別出輿論領(lǐng)袖。
關(guān)鍵詞:網(wǎng)絡(luò)社區(qū);影響力發(fā)現(xiàn);輿論領(lǐng)袖
一、引言
“輿論領(lǐng)袖”的概念是由美國哥倫比亞大學的傳播學者Lazarsfeld、Berelson和Gaudet在1940年政治選舉研究中提出的。輿論領(lǐng)袖會表達他們有影響力的評論或觀點,提出指導(dǎo)意見,鼓勵和指導(dǎo)大眾去理解社會問題,因此輿論領(lǐng)袖的識別是非常重要而且是很有意義的。
基于在線網(wǎng)絡(luò)社區(qū)的網(wǎng)絡(luò)交往特征,人際互動關(guān)系已成為國內(nèi)外學者的研究熱點,但是關(guān)于在線網(wǎng)絡(luò)社區(qū)中參與者重要性方面的研究并不多見,特別是針對在線網(wǎng)絡(luò)社區(qū)中輿論領(lǐng)袖的識別研究非常匱乏。社區(qū)參與者重要性評估、輿論領(lǐng)導(dǎo)者發(fā)現(xiàn)及其相關(guān)技術(shù)目前仍然處在起步階段,為此本文針對在線網(wǎng)絡(luò)社區(qū)中輿論領(lǐng)袖的識別問題進行研究。
首先,本文研究的網(wǎng)絡(luò)輿論領(lǐng)袖是指那些通過在新興媒體發(fā)表帖子(文本)或者回復(fù)其他網(wǎng)絡(luò)用戶發(fā)表的帖子這種基于文本的交流方式。將自己的見解、觀點傳遞給其他網(wǎng)絡(luò)用戶,引起他們內(nèi)心的共鳴,進而影響、改變他們的觀點、思想和決策的網(wǎng)絡(luò)用戶。
其次,通過研究發(fā)現(xiàn),很多的研究者在研究輿論領(lǐng)袖的識別方法方面存在一些不足:現(xiàn)有的研究工作側(cè)重于分析網(wǎng)絡(luò)用戶間的外部聯(lián)系,如發(fā)帖、回帖,忽略了內(nèi)部聯(lián)系,如帖子的內(nèi)容。
為此,本文提出了輿論領(lǐng)袖識別模型IDMS (Influence Diffusion Model Similarity),改進了影響力擴散模型IDM(In fluence Diffusion Model),增加了文本相似度的計算與分析。通過高頻關(guān)鍵詞識別出具有熱點話題的帖子,然后再通過熱帖識別出影響力大的網(wǎng)絡(luò)用戶,也就是從海量的具有回復(fù)關(guān)系的帖子中找出那些具有重要影響力的網(wǎng)絡(luò)用戶。只有影響力大的網(wǎng)絡(luò)用戶才是真正的輿論領(lǐng)袖。
二、輿論領(lǐng)袖識別模型
(一)基本思想
假設(shè)C={C1,C2,…,Cn}是一個帖子的集合,同時Ci(1≤i≤n)是指任意的一個帖子,同時本文給出了以下的定義。
定義1:外部聯(lián)系和內(nèi)部聯(lián)系。對于任意的Ci和cj(1≤i,j≤n),假設(shè)Ci的發(fā)布時間早于Ci,如果Ci是Ci的回復(fù),那么Cj和Ci就有外部聯(lián)系。如果它們沒有關(guān)系,但是ci和Cj之間有語義上的相似性(相同或不同)那么Cj和Ci之間就有內(nèi)部聯(lián)系。
定義2:帖子網(wǎng)絡(luò)。對于任意的帖子會形成兩種網(wǎng)絡(luò),內(nèi)部聯(lián)系的網(wǎng)絡(luò)和外部聯(lián)系的網(wǎng)絡(luò)。
基于帖子內(nèi)容和信息傳播結(jié)構(gòu)的影響力計算模型多是從詞頻角度著手。
假設(shè)1:在BBS交流環(huán)境下。發(fā)帖和回復(fù)是BBS成員之間最直接的交互方式,人們通過發(fā)回帖來表達觀點和意見,可以認為論壇對話鏈體現(xiàn)影響力的傳遞結(jié)構(gòu),即論壇成員通過交互關(guān)系傳遞影響力。
假設(shè)2:論壇成員通過發(fā)帖表達觀點和看法,帖子的基本組成單位是詞語,可以認為論壇交流通過詞語來表達和傳播。
通過挖掘蘊含在網(wǎng)絡(luò)文本內(nèi)容和回復(fù)結(jié)構(gòu)中的規(guī)律來測量論壇參與者的活動,并假設(shè)論壇影響力最高的用戶就是論壇輿論領(lǐng)袖。這里分為兩種情況:一是在基于文本的論壇交流環(huán)境中,人們通過發(fā)帖、回帖表達自己的觀點,因此論壇回復(fù)鏈體現(xiàn)影響力的傳遞結(jié)構(gòu):二是詞語是組成帖子內(nèi)容的基本單位,在基于文本的論壇交流環(huán)境中,交流通過詞語來表達和傳播。帖子影響力定義為帖子包含的詞語集合在回復(fù)鏈傳播的程度,采用回復(fù)關(guān)系的上下游帖子的詞語交集數(shù)與下游帖子詞語數(shù)之比來進行計算。帖子回復(fù)鏈結(jié)構(gòu)表示了個體之間的關(guān)系,一個個體的影響力就是他提交的所有帖子的影響力的總和。因此,通過帖子的影響力計算就可以找到最有影響力的個體,也就是輿論領(lǐng)袖。
(二)影響力計算
帖子內(nèi)容的主題相關(guān)性可以通過向量空間模型來計算。根據(jù)當前帖子和它回復(fù)帖子之間的主題相關(guān)度來分配影響力,計算的方法是對這些有回復(fù)鏈接關(guān)系的帖子的主題內(nèi)容進行分析。
具體過程如下:兩個主題型帖子內(nèi)容的相關(guān)性是根據(jù)兩個帖子出現(xiàn)的相似關(guān)鍵詞和高頻關(guān)鍵詞的次數(shù)總和進行計算的。計算帖子A和帖子B內(nèi)容的主題相似度算法計算步驟如下。