安 璐,胡俊陽,李 綱
1 武漢大學(xué) 信息資源研究中心,武漢 430072 2 武漢大學(xué) 信息管理學(xué)院,武漢 430072
近年來,突發(fā)事件的爆發(fā)往往在社交媒體上引發(fā)大量關(guān)于該事件的播報(bào)和討論。在這些社交媒體信息中,意見領(lǐng)袖在引導(dǎo)事件的網(wǎng)絡(luò)輿情走向方面發(fā)揮著重要作用?,F(xiàn)有對(duì)網(wǎng)絡(luò)意見領(lǐng)袖的研究絕大多數(shù)是分析針對(duì)某一事件發(fā)表微博并在網(wǎng)絡(luò)中產(chǎn)生一定影響力的博主,很少有研究涉及對(duì)博主的博文進(jìn)行評(píng)論的高影響力評(píng)論用戶?,F(xiàn)在有一種普遍現(xiàn)象,即博主博文的評(píng)論區(qū)有許多網(wǎng)友根據(jù)自己的立場和看法進(jìn)行討論,在討論過程中產(chǎn)生觀點(diǎn)的分化并形成代表人物。根據(jù)兩級(jí)傳播理論[1],意見領(lǐng)袖通常是作為信息與受眾者的中間傳遞人,因此可以將扮演中間傳遞人角色的評(píng)論區(qū)代表用戶視為評(píng)論意見領(lǐng)袖。與普通網(wǎng)絡(luò)意見領(lǐng)袖直接針對(duì)事件發(fā)表微博不同,評(píng)論意見領(lǐng)袖活躍于微博的評(píng)論區(qū),結(jié)合事件和博主博文的內(nèi)容發(fā)表評(píng)論,并與其他網(wǎng)民產(chǎn)生交互,評(píng)論觀點(diǎn)可能會(huì)影響他人判斷、改變他人認(rèn)知。發(fā)現(xiàn)評(píng)論區(qū)的意見領(lǐng)袖是發(fā)現(xiàn)網(wǎng)絡(luò)意見領(lǐng)袖的一種新思路,本研究通過識(shí)別與評(píng)論主題一致且情感上支持的回復(fù),構(gòu)建評(píng)論意見領(lǐng)袖識(shí)別體系,并探討評(píng)論意見領(lǐng)袖的行為特征,為管理部門尋求在公共事件中如何利用網(wǎng)絡(luò)意見領(lǐng)袖有效引導(dǎo)網(wǎng)絡(luò)輿情的策略提供參考。
意見領(lǐng)袖的概念最早是由LAZARSFELD et al.[1]于20世紀(jì)50年代提出,他們認(rèn)為意見領(lǐng)袖不僅是信息的提供者,還在一定程度上能夠?qū)λ水a(chǎn)生影響;HOLLANDER[2]于1961年提出一種新的定義意見領(lǐng)袖的方法,即意見領(lǐng)袖最好是以其影響追隨者態(tài)度和行為的能力來定義;ROGERS[3]總結(jié)了意見領(lǐng)袖的特點(diǎn),并認(rèn)為意見領(lǐng)袖必須為他人做出示范。相對(duì)于普通群眾,意見領(lǐng)袖的特點(diǎn)在于擁有更高的社會(huì)地位、更好的教育背景、更強(qiáng)的應(yīng)對(duì)挑戰(zhàn)的能力[4]。意見領(lǐng)袖不僅將普通群眾的注意力集中于特定問題,而且能暗示群眾應(yīng)該以怎樣的回應(yīng)和行動(dòng)面對(duì)該問題[5]。發(fā)展至今,對(duì)于意見領(lǐng)袖有許多不同的定義,但是所有定義的核心都集中在意見領(lǐng)袖的“中介”作用上。傳統(tǒng)上,意見領(lǐng)袖社會(huì)地位更高,并與社會(huì)事務(wù)大量接觸,他們比非領(lǐng)袖更頻繁地注意新聞媒體的內(nèi)容[6]。意見領(lǐng)袖可以是社區(qū)、群組或社會(huì)中有影響力的成員,他人可向其尋求建議、觀點(diǎn)和看法[7]。意見領(lǐng)袖能夠塑造他人想法,并且對(duì)普通群眾具有影響力[8]。意見領(lǐng)袖的影響過程類似于一個(gè)金字塔,一些極有影響力的人占據(jù)了頂層,其影響力作用于下層的群眾[9]。
目前,即時(shí)通信工具功能不斷改進(jìn),與天涯論壇等傳統(tǒng)網(wǎng)絡(luò)社區(qū)功能相融合,隨著Twitter、新浪微博等帶有即時(shí)性特點(diǎn)的社交應(yīng)用的興起,出現(xiàn)了越來越多的網(wǎng)絡(luò)平臺(tái)使網(wǎng)絡(luò)意見領(lǐng)袖充分發(fā)揮其自身影響力,豆瓣、新浪微博、網(wǎng)易新聞等網(wǎng)絡(luò)應(yīng)用也逐漸成為網(wǎng)絡(luò)意見領(lǐng)袖聚集的空間[10]。網(wǎng)絡(luò)意見領(lǐng)袖是指將互聯(lián)網(wǎng)作為主要的活動(dòng)場所,通過互聯(lián)網(wǎng)技術(shù)支持的各項(xiàng)服務(wù)為普通網(wǎng)民提供意見和信息,能夠回答網(wǎng)民在某些領(lǐng)域提出的問題,在網(wǎng)民之中具有一定影響力,并在特定時(shí)間、空間條件下能夠制造和引領(lǐng)社會(huì)輿論的一類人[10]。國外對(duì)網(wǎng)絡(luò)意見領(lǐng)袖的研究早于中國,不僅提出基于在線社區(qū)網(wǎng)站的網(wǎng)絡(luò)意見領(lǐng)袖影響力擴(kuò)散模型[11],還以商品的推廣情況為例分析發(fā)現(xiàn)網(wǎng)絡(luò)意見領(lǐng)袖所具有的明顯不同于傳統(tǒng)意見領(lǐng)袖的特征[12]。中國對(duì)網(wǎng)絡(luò)意見領(lǐng)袖的代表性研究類型主要有采用數(shù)據(jù)挖掘等方法篩選網(wǎng)絡(luò)論壇輿論領(lǐng)袖并從多個(gè)維度刻畫論壇輿論領(lǐng)袖的特點(diǎn)[13]、構(gòu)建指標(biāo)體系以建立輿論領(lǐng)袖影響力傳播模型[14]、識(shí)別社交網(wǎng)絡(luò)意見領(lǐng)袖[15]。
考量每一次公共事件的網(wǎng)絡(luò)輿情演化過程,幾乎都有網(wǎng)絡(luò)意見領(lǐng)袖參與其中并發(fā)揮重要作用[16]。目前國內(nèi)外對(duì)網(wǎng)絡(luò)意見領(lǐng)袖的研究主要針對(duì)其在電子商務(wù)活動(dòng)中的作用,認(rèn)為意見領(lǐng)袖能夠影響消費(fèi)者的消費(fèi)傾向[17]。雖然有學(xué)者從微博評(píng)論出發(fā)識(shí)別微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)中的意見領(lǐng)袖[18],但是對(duì)微博評(píng)論的研究仍非常少見。相對(duì)于現(xiàn)有對(duì)意見領(lǐng)袖的研究,本研究以微博評(píng)論為研究對(duì)象,在已有研究思路的基礎(chǔ)上加入回復(fù)與原評(píng)論的主題一致性,再結(jié)合評(píng)論回復(fù)的情感支持,識(shí)別微博評(píng)論中有影響力的意見領(lǐng)袖。
對(duì)微博文本的主題發(fā)現(xiàn)方法可以大致概括為文本聚類法和主題模型法兩大類。相比較而言,由于文本聚類方法是基于統(tǒng)計(jì)層面的,很難解決文本中一詞多義以及歧義的問題,而主題模型方法對(duì)隱含在文本中的主題建模,能夠克服文本聚類方法中文檔相似度計(jì)算方法的缺點(diǎn),因此主題模型方法在文本主題發(fā)現(xiàn)中應(yīng)用較多[19]?;跐撛诘依死追峙?latent Dirichlet allocation,LDA)模型的主題發(fā)現(xiàn)在微博文本主題發(fā)現(xiàn)的研究中較為矚目。LDA是一種3層貝葉斯概率模型,通過無監(jiān)督的學(xué)習(xí)方法發(fā)現(xiàn)文本中隱含的主題信息[20]。許多學(xué)者對(duì)LDA的應(yīng)用進(jìn)行拓展。LDA-SVM短文本分類流程是將LDA主題模型和SVM分類器結(jié)合起來,使用LDA主題模型對(duì)短文本的特征項(xiàng)進(jìn)行擴(kuò)展,然后將擴(kuò)展后的特征向量代入到SVM分類器中進(jìn)行分類[21];以標(biāo)簽對(duì)潛在主題的貢獻(xiàn)為出發(fā)點(diǎn),通過Gibbs算法將標(biāo)簽映射到具有特定意義的主題上也是一種行之有效的LDA潛在主題發(fā)現(xiàn)方法[22]。由于傳統(tǒng)LDA主題模型是根據(jù)詞語在某一個(gè)主題下的概率高低來判斷詞語與主題的相關(guān)性,而實(shí)際上LDA模型識(shí)別出的主題及其包含的詞語可讀性欠佳。鑒于基于Relevance公式改進(jìn)的LDA主題模型[23]中的theta矩陣可確定文檔-主題的分布、phi矩陣可確定主題-詞語分布矩陣,且引入的權(quán)重參數(shù)λ可用于調(diào)節(jié)詞語與主題之間的相關(guān)性,因此本研究采用可以改善主題可讀性的基于Relevance公式改進(jìn)的LDA主題模型,并通過LDAVis[23]進(jìn)行可視化分析,判斷評(píng)論與其回復(fù)的主題一致性。
情感分析,又稱意見挖掘,由PANG et al.[24]在2002年提出,通過對(duì)文本進(jìn)行語義分析判斷文本的情感極性,主要包括正面、負(fù)面、中立3種情感態(tài)度?;谇楦性~典的分析方法和機(jī)器學(xué)習(xí)方法是最為常見的兩種情感分析方法[25]?;谇楦性~典的分析方法的核心在于“詞典”,很大程度上依賴于詞典的質(zhì)量,目前中國學(xué)者在研究微博平臺(tái)數(shù)據(jù)時(shí)常用的情感詞典有臺(tái)灣大學(xué)NTUSD中文情感極性詞典、大連理工大學(xué)情感詞典[26]、HowNet情感詞典等。在基于機(jī)器學(xué)習(xí)的情感分析中經(jīng)常使用樸素貝葉斯[27]、支持向量機(jī)[28]、最大熵模型[29]等經(jīng)典分類模型,其中多數(shù)分類模型的性能依賴于標(biāo)注數(shù)據(jù)集的質(zhì)量,而獲取高質(zhì)量的標(biāo)注數(shù)據(jù)需要耗費(fèi)大量的人工成本[30]。綜合上述討論,本研究采用基于情感詞典的分析方法。此外,網(wǎng)民經(jīng)常在微博評(píng)論及回復(fù)中使用表情符號(hào)以輔助自身情感的表達(dá),然而隨著網(wǎng)絡(luò)文化的不斷變化,微博表情符號(hào)的現(xiàn)實(shí)含義早已與微博平臺(tái)對(duì)表情符號(hào)的定義大相徑庭,如“微笑”表情符號(hào)本意是用以表達(dá)友好親切,現(xiàn)在多用于嘲諷、無言的情緒表示。因此,本研究構(gòu)建與當(dāng)下網(wǎng)絡(luò)文化情緒傳遞相吻合的表情符號(hào)詞典,作為情感詞典的補(bǔ)充。
許多學(xué)者從不同角度構(gòu)建意見領(lǐng)袖特征體系對(duì)潛在意見領(lǐng)袖進(jìn)行評(píng)估。傳統(tǒng)上,主貼數(shù)、回帖數(shù)、總跟帖數(shù)是常見的意見領(lǐng)袖特征指標(biāo),在此基礎(chǔ)上,根據(jù)研究對(duì)象和研究角度的不同,特征指標(biāo)的選取也出現(xiàn)一些差異。響應(yīng)值測量用戶對(duì)意見領(lǐng)袖的響應(yīng)類型和響應(yīng)強(qiáng)度[31];活躍度、認(rèn)同度、關(guān)注度分別用于揭示意見領(lǐng)袖的發(fā)帖頻率、受其他用戶認(rèn)同情況和觀點(diǎn)的影響擴(kuò)散程度[14];支持力則是其他用戶對(duì)意見領(lǐng)袖支持程度的體現(xiàn)[32];平均回復(fù)長度、平均被回復(fù)長度等量化指標(biāo)也從側(cè)面反映意見領(lǐng)袖與其他用戶的交互[33];還有學(xué)者采用威望度測量意見領(lǐng)袖自身影響力的效應(yīng)[34]。已有研究對(duì)意見領(lǐng)袖特征指標(biāo)的選擇通常會(huì)考慮用戶本身影響力等因素,并且盡可能涵蓋意見領(lǐng)袖所有方面的特征,以期識(shí)別結(jié)果準(zhǔn)確度更高。本研究并非從用戶自身影響力出發(fā),而是從用戶評(píng)論內(nèi)容出發(fā),探討評(píng)論內(nèi)容造成的實(shí)際影響力。本研究選取的意見領(lǐng)袖特征指標(biāo)包括獲點(diǎn)贊數(shù)和獲回復(fù)數(shù)2個(gè)1級(jí)指標(biāo),以及獲回復(fù)數(shù)下的直接獲回復(fù)數(shù)、間接獲回復(fù)數(shù)、直接回復(fù)數(shù)3個(gè)2級(jí)指標(biāo),以此評(píng)估評(píng)論意見領(lǐng)袖的影響力。
通常,用戶發(fā)布的微博可能收到若干評(píng)論,而每條評(píng)論又可能得到若干回復(fù)。微博的評(píng)論和回復(fù)結(jié)構(gòu)見圖1。主題分析有助于了解用戶的觀點(diǎn),情感分析有助于識(shí)別用戶的情感極性。本研究基于主題一致性和情感支持構(gòu)建研究框架,包括數(shù)據(jù)收集和預(yù)處理、評(píng)論主題獲取、主題校正、情感計(jì)算、意見領(lǐng)袖值計(jì)算5個(gè)步驟,見圖2。
數(shù)據(jù)收集和預(yù)處理階段的主要工作是利用網(wǎng)絡(luò)爬蟲獲取新浪微博評(píng)論及其評(píng)論回復(fù)數(shù)據(jù),經(jīng)過預(yù)處理后的語料集留作下一步使用;評(píng)論主題獲取階段主要使用基于Relevance公式改進(jìn)的LDA主題模型獲取微博評(píng)論的主題;主題校正階段是將每條評(píng)論與其回復(fù)結(jié)合,再次使用基于Relevance公式改進(jìn)的LDA主題模型進(jìn)行主題分類,并通過LDAVis進(jìn)行可視化分析,利用多維尺度分析法剔除與評(píng)論主題不相關(guān)的回復(fù);情感計(jì)算階段基于情感詞典和擴(kuò)展詞典,計(jì)算每條評(píng)論和回復(fù)的情感值,以此確定回復(fù)用戶對(duì)評(píng)論用戶的情感支持態(tài)度;意見領(lǐng)袖值計(jì)算階段構(gòu)建意見領(lǐng)袖特征值指標(biāo)體系,采用標(biāo)準(zhǔn)離差法確定各指標(biāo)的權(quán)重,根據(jù)評(píng)論用戶意見領(lǐng)袖值的高低確定意見領(lǐng)袖。
LDA是BLEI et al.[35]在2003年提出的一個(gè)主題模型。為了改善主題的可讀性,使用基于Relevance公式改進(jìn)的LDA主題模型對(duì)微博評(píng)論進(jìn)行潛在主題提取和主題校正。給定一個(gè)權(quán)重參數(shù),Relevance計(jì)算公式為
(1)
其中,w為詞語,w∈{1,…,V};k為主題,k∈{1,…,K};λ為權(quán)重參數(shù),0≤λ≤1;r(w,k|λ)為在指定的λ下,詞語w與主題k的相關(guān)程度;?k,w為主題k下詞語w出現(xiàn)的概率分布矩陣;pw為詞語w在主題-詞語矩陣?中的邊際概率。通常使用變分貝葉斯方法或吉布斯抽樣以及pw計(jì)算???梢杂忙苏{(diào)節(jié)詞語與主題之間的相關(guān)性,如果λ接近于1,主題詞語的選擇是基于在主題下出現(xiàn)越頻繁的詞語與主題更相關(guān)這一思想,即為傳統(tǒng)的LDA主題關(guān)鍵詞選擇方法[36];如果λ越接近于0,在該主題下更特殊、更獨(dú)有的詞語與主題更相關(guān),即在該主題下出現(xiàn)的次數(shù)較多但在其他主題中很少出現(xiàn)的詞語跟主題更相關(guān)。
圖1微博評(píng)論和回復(fù)結(jié)構(gòu)Figure 1Structure of Microblog Comments and Responses
圖2基于主題一致性和情感支持的意見領(lǐng)袖識(shí)別總體框架Figure 2Opinion Leader Identification Framework Based on Topic Consistency and Emotional Support
本研究通過選取基礎(chǔ)情感極性詞匯、表情符號(hào)、否定詞和雙重否定詞等特征,對(duì)微博評(píng)論和回復(fù)信息進(jìn)行情感分類?;A(chǔ)情感極性詞匯采用臺(tái)灣大學(xué)中文情感極性詞典(NTUSD)中被標(biāo)記為positive和negative的詞表,以及安璐等[37]在情感分析相關(guān)研究中構(gòu)建的中文微博情感詞典;表情符號(hào)特征通過構(gòu)建微博表情符號(hào)詞典進(jìn)行匹配;否定詞和雙重否定詞則參考王勇等[38]構(gòu)建的否定詞典和雙重否定詞典。
微博平臺(tái)上的表情符號(hào)比語言更直觀,它是微博用戶經(jīng)常用來輔助情感表達(dá)的一種工具。本研究分析新浪微博自帶的表情符號(hào)的極性,在已構(gòu)建好的表情符號(hào)詞典[39]的基礎(chǔ)上,結(jié)合新的網(wǎng)絡(luò)環(huán)境下表情符號(hào)的增加和表情符號(hào)的情感轉(zhuǎn)變,構(gòu)建微博表情符號(hào)詞典。部分新增的表情符號(hào)和情感極性發(fā)生變化的表情符號(hào)見表1。
在漢語表述中經(jīng)常用到否定詞及其多種組合。當(dāng)使用否定性詞語修飾某一詞語時(shí),該詞的情感極性將發(fā)生改變,因此通常使用否定詞來表達(dá)不同的情感態(tài)度;雙重否定詞語主要表現(xiàn)形式是連用兩個(gè)否定性詞語,與否定性詞語不同的是,雙重否定有表達(dá)肯定、強(qiáng)化語氣等功能。構(gòu)建否定詞典時(shí)結(jié)合實(shí)際語料補(bǔ)充21個(gè)否定詞,新增否定詞包括不到、不該、不行、不會(huì)、不借、不去、不算、不提、不想、不知、從來不、否、很少、極少、沒能、沒人、沒想到、沒用、千萬別、勿、只不過。
表1部分新增表情符號(hào)和特殊表情符號(hào)Table 1Some Newly Added Emoji and Special Emoji
目前許多研究的情感分析涉及到多種情緒分類,如喜、怒、哀、樂等,本研究主要從情感是否支持的角度識(shí)別意見領(lǐng)袖,因此對(duì)情感傾向性的分析簡化為正面情感極性和負(fù)面情感極性。本研究認(rèn)為表情符號(hào)表達(dá)的情感與情感詞表達(dá)的情感同樣重要,并將表1中的正面情感表情符號(hào)與正面情感詞匯融合,標(biāo)注其情感極性值為1;將負(fù)面情感表情符號(hào)與負(fù)面情感詞匯融合,標(biāo)注其情感極性值為-1。使用(2)式修正若干個(gè)否定詞修飾的情感詞的情感極性,即
s′(wi)=(-1)φs(wi)
(2)
其中,wi為第i個(gè)情感詞,s′(wi)為經(jīng)否定詞修飾后新的情感詞極性值,φ為否定詞的個(gè)數(shù),s(wi)為wi的初始情感極性值。
微博評(píng)論及其回復(fù)的總體情感值計(jì)算公式為
(3)
其中,Sen(d)為評(píng)論及其回復(fù)的總體情感值,等于該條微博評(píng)論或評(píng)論回復(fù)的情感詞語總情感值與表情符號(hào)總情感值之和;m為情感詞的個(gè)數(shù),i=1,…,m;f(wi)為wi經(jīng)否定詞修飾后得到的情感修正值;n為表情符號(hào)的個(gè)數(shù),j=1,…,n;xj為第j個(gè)表情符號(hào);g(xj)為xj的情感值。
HOLLANDER[2]認(rèn)為,意見領(lǐng)袖能夠影響追隨者的態(tài)度和行為,ROGERS[3]認(rèn)為意見領(lǐng)袖須為他人做出示范,WEIMANN[5]認(rèn)為意見領(lǐng)袖能夠?qū)⑵胀ㄈ罕姷淖⒁饬杏谔囟▎栴},且暗示群眾應(yīng)如何回應(yīng)該問題。因此,本研究借鑒以上學(xué)者的研究,將主題一致性和情感支持納入評(píng)論意見領(lǐng)袖識(shí)別,即要求評(píng)論意見領(lǐng)袖既能持續(xù)獲得同一主題回復(fù)又受到他人的情感支持。由于本研究以評(píng)論為切入點(diǎn),識(shí)別的是評(píng)論區(qū)的意見領(lǐng)袖,考慮到用戶在評(píng)論區(qū)與他人的交互,引入直接獲回復(fù)數(shù)、間接獲回復(fù)數(shù)和直接回復(fù)數(shù)3個(gè)指標(biāo)。
首先,使用基于Relevance公式改進(jìn)的LDA主題模型對(duì)微博評(píng)論進(jìn)行潛在主題提取,確定各評(píng)論所屬主題。然后,分別將每條微博評(píng)論與其接收到的回復(fù)結(jié)合,在LDA主題建模之后利用LDAVis包生成一個(gè)可視化的主題模型,揭示主題下詞語的顯著性和詞語-主題相關(guān)性,利用多維尺度分析法提取出主成分的維度,將主題分布到這些維度上,主題相互之間的位置遠(yuǎn)近表達(dá)了主題之間的接近性[40]。通過評(píng)論所屬主題節(jié)點(diǎn)與其回復(fù)所屬主題節(jié)點(diǎn)之間的距離,刪除主題相關(guān)度較低的評(píng)論,實(shí)現(xiàn)主題校正。之后再基于情感詞典和擴(kuò)展詞典,計(jì)算每條評(píng)論及其回復(fù)的情感值,以此確定回復(fù)用戶對(duì)評(píng)論用戶的情感支持態(tài)度。在意見領(lǐng)袖值計(jì)算前構(gòu)建意見領(lǐng)袖特征指標(biāo),包括獲點(diǎn)贊數(shù)和獲回復(fù)數(shù)2個(gè)1級(jí)指標(biāo),以及獲回復(fù)數(shù)下的直接獲回復(fù)數(shù)、間接獲回復(fù)數(shù)和直接回復(fù)數(shù)3個(gè)2級(jí)指標(biāo)。意見領(lǐng)袖判定標(biāo)準(zhǔn)和特征指標(biāo)具體結(jié)構(gòu)見表2,獲點(diǎn)贊數(shù)指1條評(píng)論獲得的點(diǎn)贊數(shù),獲回復(fù)數(shù)指1條評(píng)論獲得的總回復(fù)數(shù)。
表2意見領(lǐng)袖特征指標(biāo)設(shè)置和判定標(biāo)準(zhǔn)Table 2Characteristic Indices Setting and Criterion for Opinion Leaders
評(píng)論與回復(fù)之間的局部結(jié)構(gòu)見圖3,①為B回復(fù)A,即A的直接獲回復(fù);②為C回復(fù)B,即A的間接獲回復(fù);③為A回復(fù)B,即A的直接回復(fù);④為B回復(fù)C,即A的間接獲回復(fù);⑤為C回復(fù)A,即A的直接獲回復(fù);⑥為A回復(fù)C,即A的直接回復(fù)。
圖3評(píng)論與回復(fù)的結(jié)構(gòu)示意圖Figure 3Structure for Comments and Responses
根據(jù)圖3,本研究給出3個(gè)2級(jí)指標(biāo)的含義。直接獲回復(fù)數(shù)指其他用戶對(duì)該評(píng)論回復(fù)的數(shù)量,直接獲回復(fù)數(shù)=①+⑤+類似回復(fù)類型;間接獲回復(fù)數(shù)指發(fā)生在該評(píng)論下但交流雙方不包括評(píng)論作者的回復(fù)的數(shù)量,間接獲回復(fù)數(shù)=②+④+類似回復(fù)類型;直接回復(fù)數(shù)指該評(píng)論作者對(duì)他人的回復(fù)又進(jìn)行回復(fù)的數(shù)量,直接回復(fù)數(shù)=③+⑥+類似回復(fù)類型;獲回復(fù)數(shù)=直接獲回復(fù)數(shù)+間接獲回復(fù)數(shù)+直接回復(fù)數(shù)。
標(biāo)準(zhǔn)差能反映一個(gè)數(shù)據(jù)集的離散程度[41],通常某個(gè)指標(biāo)的標(biāo)準(zhǔn)差大小反映了其提供的信息量的大小,從而決定該指標(biāo)在綜合評(píng)價(jià)中所起的作用和權(quán)重分配。本研究采用標(biāo)準(zhǔn)離差法確定各指標(biāo)的權(quán)重,首先,以極值法對(duì)由指標(biāo)組構(gòu)成的數(shù)據(jù)矩陣的每列(即每個(gè)指標(biāo))數(shù)據(jù)進(jìn)行無量綱化處理;其次,依據(jù)標(biāo)準(zhǔn)差計(jì)算方法確定獲點(diǎn)贊數(shù)和獲回復(fù)數(shù)2個(gè)指標(biāo)的標(biāo)準(zhǔn)差;最后,根據(jù)1個(gè)指標(biāo)的標(biāo)準(zhǔn)差占所有指標(biāo)標(biāo)準(zhǔn)差之和的比重計(jì)算該指標(biāo)的權(quán)重。
由于1條評(píng)論的獲回復(fù)數(shù)等于該評(píng)論的直接獲回復(fù)數(shù)、間接獲回復(fù)數(shù)和直接回復(fù)數(shù)之和,因此本研究保留獲點(diǎn)贊數(shù)和獲回復(fù)數(shù)2個(gè)1級(jí)指標(biāo)賦予權(quán)重計(jì)算意見領(lǐng)袖值,根據(jù)評(píng)論用戶意見領(lǐng)袖值的高低確定意見領(lǐng)袖。意見領(lǐng)袖值的計(jì)算公式為
Val=W1·L1+W2·L2
(4)
其中,Val為意見領(lǐng)袖值,W1和W2為指標(biāo)對(duì)應(yīng)的權(quán)重,L1和L2為經(jīng)無量綱化處理后的獲點(diǎn)贊數(shù)或獲回復(fù)數(shù)的值。直接獲回復(fù)數(shù)、間接獲回復(fù)數(shù)和直接回復(fù)數(shù)用于分析意見領(lǐng)袖值排名靠前的用戶的特征。
本研究從用戶主頁基本信息和用戶評(píng)論內(nèi)容屬性兩個(gè)角度,探討評(píng)論意見領(lǐng)袖的行為特征。在用戶主頁基本信息方面,關(guān)注用戶的微博賬戶創(chuàng)建時(shí)間、當(dāng)前等級(jí)、是否取得微博認(rèn)證、關(guān)注數(shù)、粉絲數(shù)、發(fā)表微博數(shù)等,以此判斷該用戶的活躍度和基礎(chǔ)影響力;在用戶評(píng)論內(nèi)容屬性方面,除統(tǒng)計(jì)評(píng)論獲點(diǎn)贊數(shù)、獲回復(fù)數(shù)(包括直接獲回復(fù)數(shù)、間接獲回復(fù)數(shù)和直接回復(fù)數(shù))的數(shù)值之外,還充分討論直接獲回復(fù)數(shù)、間接獲回復(fù)數(shù)和直接回復(fù)數(shù)3個(gè)2級(jí)指標(biāo)之間的相關(guān)性。綜合上述兩方面的研究,以實(shí)驗(yàn)和數(shù)據(jù)支撐探討評(píng)論意見領(lǐng)袖的行為特征。
本研究以山東辱母殺人事件為例,將“山東辱母”作為關(guān)鍵詞,利用網(wǎng)絡(luò)爬蟲獲取在新浪微博平臺(tái)上2017年3月1日至2017年12月1日期間所有熱門微博的評(píng)論及該評(píng)論對(duì)應(yīng)的回復(fù)信息,得到2 014條評(píng)論的53 564條回復(fù)數(shù)據(jù)。通常意義上,只有接收到他人的回復(fù)的評(píng)論用戶才可能成為意見領(lǐng)袖,因此需要剔除評(píng)論接收到的回復(fù)數(shù)為0的用戶,經(jīng)初步清洗后,最終有1 547條評(píng)論的26 676條回復(fù)數(shù)據(jù),平均長度約51個(gè)字符。
采用R語言結(jié)巴分詞[42]對(duì)清洗后的數(shù)據(jù)進(jìn)行分詞。由于原用戶詞典的不完善,沒有收錄“山東辱母”事件相關(guān)詞匯、網(wǎng)絡(luò)流行用語和法律詞匯等,因此本研究首先選用搜狗詞庫中的搜狗日常用語大詞庫、搜狗網(wǎng)絡(luò)流行新詞、搜狗法律詞匯大全,再結(jié)合圖悅生成的辱母事件高頻150詞,將上述步驟得到的51 319個(gè)詞匯一同納入用戶詞典并導(dǎo)入分詞系統(tǒng),分詞效果得到極大提升。實(shí)驗(yàn)使用哈爾濱工業(yè)大學(xué)停用詞表、四川大學(xué)機(jī)器智能實(shí)驗(yàn)室停用詞庫和百度停用詞等結(jié)合的1 893個(gè)停用詞構(gòu)成的停用詞典刪除停用詞。
在對(duì)所有評(píng)論進(jìn)行分詞操作后,利用基于Relevance公式改進(jìn)的LDA主題模型確定各主題下的特征詞。主題的個(gè)數(shù)由困惑度確定,對(duì)于不同主題訓(xùn)練出來的模型,計(jì)算其困惑度,最小困惑度對(duì)應(yīng)的主題個(gè)數(shù)就是最優(yōu)的主題數(shù)。經(jīng)試驗(yàn)最優(yōu)主題數(shù)為20,分別為:司法判決與道德輿論的平衡(V1);微博平臺(tái)在本案中起到的作用(V2);別有用心的人煽動(dòng)群眾情緒(V3);致敬于歡的忠孝,輿論應(yīng)保護(hù)他(V4);法律應(yīng)保護(hù)兒子護(hù)母的孝順行為(V5);法律丟失了道德底線(V6);中小企業(yè)融資困難向高利貸借款(V7);人民的血性被剝奪(V8);案件背后存在“警匪一家”等問題(V9);案件暴露的問題上升到更高層面(V10);出警民警及案件審判人員信息(V11);出警民警的處理結(jié)果存在爭議(V12);不滿以法官為代表的法院的判決(V13);警察對(duì)民事糾紛敷衍了事、瀆職(V14);法院冤判,能否相信法律與正義(V15);于歡案量刑過重應(yīng)輕判(V16);鼓勵(lì)遭受不公的人反抗(V17);為不公正事件發(fā)聲,敢于奮起反擊(V18);聊城市全面調(diào)查案件背后公務(wù)人員的問題(V19);嚴(yán)厲打擊山東省內(nèi)涉黑行為等(V20)。
經(jīng)反復(fù)試驗(yàn),λ=0.6時(shí)各主題之間距離最大,主題詞語的選取效果最好。這20個(gè)主題可以分為5個(gè)大類:V1和V2期望以法律形式保護(hù)于歡權(quán)益;V3、V4、V8和V11對(duì)此次事件涉及到的政府公務(wù)人員的行為展開討論;V13和V19關(guān)注輿論如何推動(dòng)此次事件的發(fā)展;V16鼓勵(lì)群眾為不公正事件發(fā)聲;V5、V6、V7、V9、V10、V12、V14、V15、V17、V18和V20探索本案背后更深層次的問題,如法律完善、貸款制度、司法公正等,圍繞全面調(diào)查并嚴(yán)厲打擊山東省內(nèi)公務(wù)人員涉黑、瀆職、貪腐等問題發(fā)表意見。
按照上文描述的主題校正方法,對(duì)每條評(píng)論收到的所有回復(fù)進(jìn)行主題一致性篩選。首先,將經(jīng)預(yù)處理后留下的1 547條評(píng)論分別與其對(duì)應(yīng)的回復(fù)結(jié)合,形成1 547份評(píng)論-回復(fù)結(jié)合的數(shù)據(jù)文件;其次,利用基于Relevance公式改進(jìn)的LDA主題模型和LDAVis,將這些數(shù)據(jù)文件一一做可視化展示;最后,在可視化結(jié)果的基礎(chǔ)上判斷每個(gè)數(shù)據(jù)文件中評(píng)論與回復(fù)的主題一致性,識(shí)別不相關(guān)的回復(fù)并將其刪除。刪除不相關(guān)回復(fù)的規(guī)則如下:①若獲回復(fù)數(shù)不超過100,則刪除與評(píng)論主題距離最遠(yuǎn)的一個(gè)主題的特征詞所構(gòu)成的最相關(guān)回復(fù);②若獲回復(fù)數(shù)多于100但不超過1 000,則刪除與評(píng)論主題距離最遠(yuǎn)的兩個(gè)主題的特征詞所構(gòu)成的最相關(guān)回復(fù);③若獲回復(fù)數(shù)多于1 000,則刪除與評(píng)論主題距離最遠(yuǎn)的3個(gè)主題的特征詞所構(gòu)成的最相關(guān)回復(fù)。對(duì)所有回復(fù)內(nèi)容進(jìn)行主題一致性篩選后,與對(duì)應(yīng)評(píng)論主題保持一致的回復(fù)的數(shù)量為25 535條。
同時(shí),將沒有進(jìn)行主題校正的數(shù)據(jù)保留,以在后續(xù)處理中進(jìn)行對(duì)比實(shí)驗(yàn)。
基于情感詞典及其擴(kuò)展,本研究采用上文的情感計(jì)算方法,將各主題下每條評(píng)論對(duì)應(yīng)的回復(fù)信息進(jìn)行情感分析,各主題下獲得支持和反對(duì)態(tài)度的評(píng)論數(shù)量分布見圖4。
結(jié)合實(shí)際數(shù)據(jù)可以看出,由于對(duì)出警民警的處理結(jié)果存在很大爭議,因此有關(guān)主題V12的評(píng)論也引起廣泛討論,一部分網(wǎng)民認(rèn)為出警警察玩忽職守,而另一部分網(wǎng)民認(rèn)為警察處理并無不妥,雙方爭執(zhí)不下導(dǎo)致在這一主題下很難有一個(gè)統(tǒng)一的意見。以警察的行為為切入點(diǎn),許多網(wǎng)民分享了自己遇到的報(bào)警無果事件,牽扯出的與主題V9相關(guān)的“警匪一家”問題也引起了極大的爭論?;诖?,有網(wǎng)民呼吁嚴(yán)厲打擊山東省內(nèi)涉黑行為(主題V20),同時(shí)聊城市也發(fā)出公告,將全面調(diào)查于歡殺人護(hù)母案件背后公務(wù)人員的問題(主題V19),但是多數(shù)網(wǎng)民對(duì)此并不抱有期待。除此之外,一些網(wǎng)民質(zhì)疑于歡母親向高利貸借款的非法行為,但更多的網(wǎng)民認(rèn)為是銀行貸款制度的苛刻和缺乏人性化的設(shè)置導(dǎo)致于歡母親求助于高利貸的做法,而這一現(xiàn)象背后透露出中國中小企業(yè)融資困難及難以生存的現(xiàn)狀(主題V7)。民眾的信任缺失極易引發(fā)社會(huì)矛盾,需要意見領(lǐng)袖理智發(fā)聲,引導(dǎo)網(wǎng)民以正確且積極的心態(tài)看待問題,因此識(shí)別網(wǎng)絡(luò)評(píng)論意見領(lǐng)袖具有至關(guān)重要的意義。通過情感分析,本研究篩選出824個(gè)候選意見領(lǐng)袖。
意見領(lǐng)袖特征指標(biāo)包括獲點(diǎn)贊數(shù)和獲回復(fù)數(shù)2個(gè)1級(jí)指標(biāo),以及獲回復(fù)數(shù)下的直接獲回復(fù)數(shù)、間接獲回復(fù)數(shù)和直接回復(fù)數(shù)3個(gè)2級(jí)指標(biāo)。指標(biāo)體系構(gòu)成的數(shù)據(jù)矩陣在經(jīng)過無量綱化處理和標(biāo)準(zhǔn)差計(jì)算后,確定了獲點(diǎn)贊數(shù)和獲回復(fù)數(shù)的權(quán)重,分別為0.469和0.531。按照意見領(lǐng)袖值從高到低排序,前10名意見領(lǐng)袖見表3,No.1103評(píng)論用戶和No.958評(píng)論用戶的意見領(lǐng)袖值遠(yuǎn)高于其他評(píng)論用戶。
結(jié)合實(shí)際數(shù)據(jù)可知,排名第1的No.1103評(píng)論用戶獲點(diǎn)贊數(shù)為58 000,獲回復(fù)數(shù)為1 680,其中直接獲回復(fù)數(shù)為912,間接獲回復(fù)數(shù)為675,直接回復(fù)數(shù)為93。No.1103評(píng)論用戶獲點(diǎn)贊數(shù)在所有評(píng)論者中是最高的,獲回復(fù)數(shù)在所有評(píng)論者中排名第2,綜合這兩個(gè)指標(biāo)分析,該用戶無疑是一個(gè)具有影響力的意見領(lǐng)袖。No.1103評(píng)論用戶的直接獲回復(fù)數(shù)和直接回復(fù)數(shù)在所有評(píng)論者中是最大的,說明該用戶與回復(fù)用戶之間互動(dòng)較多;其間接獲回復(fù)數(shù)在所有評(píng)論者中排名第4,高于平均水平,即其他用戶與回復(fù)用戶之間也有較多交流。核對(duì)No.1103評(píng)論用戶的評(píng)論內(nèi)容可知,該評(píng)論用戶的觀點(diǎn)在于于歡護(hù)母的忠孝,認(rèn)為無論是社會(huì)還是法律都應(yīng)保護(hù)于歡,并鼓勵(lì)人們敢于發(fā)聲,許多回復(fù)用戶用點(diǎn)贊和回復(fù)的方式表示支持。No.1103評(píng)論用戶與回復(fù)用戶之間的討論基本上達(dá)成了共識(shí),這也說明大多數(shù)網(wǎng)民對(duì)于歡抱以同情的心理,理解于歡的行為。鑒于上述討論,識(shí)別No.1103評(píng)論用戶為一名意見領(lǐng)袖是無爭議的。
No.958評(píng)論用戶獲點(diǎn)贊數(shù)為33 112,獲回復(fù)數(shù)為2 282,其中直接獲回復(fù)數(shù)為678,間接獲回復(fù)數(shù)為1 604,直接回復(fù)數(shù)為0。No.958評(píng)論用戶的獲回復(fù)數(shù)在所有評(píng)論者中是最高的,獲點(diǎn)贊數(shù)在所有評(píng)論者中排名第3,該用戶在這兩個(gè)指標(biāo)上的表現(xiàn)均處于較高水平。No.958評(píng)論用戶的直接回復(fù)數(shù)在所有評(píng)論者中是最小的,表明該用戶很少與回復(fù)用戶進(jìn)行交流。此外,該評(píng)論用戶的直接獲回復(fù)數(shù)在所有評(píng)論者中排名第3,間接獲回復(fù)數(shù)在所有評(píng)論者中排名第1,這也說明該評(píng)論用戶的評(píng)論易引起不同觀點(diǎn)之間的相互討論。核對(duì)No.958評(píng)論用戶的評(píng)論內(nèi)容可知,該評(píng)論用戶重點(diǎn)討論出警民警及案件審判人員信息,關(guān)注聊城市對(duì)此案件的調(diào)查,對(duì)案件處理尤為重視,并且?guī)缀醪慌c回復(fù)用戶進(jìn)一步交流。回復(fù)用戶針對(duì)案件的處理情況發(fā)表了不同的看法,相互之間因觀點(diǎn)不同而產(chǎn)生許多爭論。從回復(fù)用戶的回復(fù)內(nèi)容可以看出,許多網(wǎng)民關(guān)注公檢法系統(tǒng)在此次案件中的行為,期待正義的聲音不會(huì)被淹沒。因此,No.958評(píng)論用戶是一個(gè)能夠引導(dǎo)其他用戶思考的意見領(lǐng)袖。
結(jié)合實(shí)際情況考量,識(shí)別出的其他評(píng)論用戶在本次事件中基本上均發(fā)揮了意見領(lǐng)袖應(yīng)有的作用。此外,通過對(duì)比實(shí)驗(yàn),對(duì)沒有校正主題的回復(fù)進(jìn)行情感計(jì)算和意見領(lǐng)袖值計(jì)算,發(fā)現(xiàn)對(duì)比實(shí)驗(yàn)識(shí)別出的、但原實(shí)驗(yàn)未識(shí)別出的一些意見領(lǐng)袖,其回復(fù)者出現(xiàn)偏離評(píng)論主題轉(zhuǎn)而討論其他事情的現(xiàn)象,回復(fù)者與評(píng)論者討論的不是一個(gè)主題,這種情況下的評(píng)論用戶不應(yīng)視為意見領(lǐng)袖。因此,只考慮情感支持不考慮主題一致性的對(duì)比實(shí)驗(yàn)存在缺陷,不能有效識(shí)別真正的意見領(lǐng)袖,而本研究提出的基于情感支持和主題一致性的方法彌補(bǔ)了這一缺陷。
通過對(duì)1級(jí)指標(biāo)與用戶基本信息(包括微博賬戶等級(jí)、是否取得認(rèn)證、關(guān)注數(shù)、粉絲數(shù)、發(fā)表微博數(shù)等)之間的相關(guān)性檢驗(yàn),發(fā)現(xiàn)在置信水平為0.010時(shí),獲點(diǎn)贊數(shù)與微博賬戶等級(jí)、是否取得認(rèn)證、關(guān)注數(shù)、粉絲數(shù)、發(fā)表微博數(shù)等均不存在顯著相關(guān)性,獲回復(fù)數(shù)與這些用戶基本信息也均不存在顯著相關(guān)性。因此,評(píng)論用戶的自身影響力不一定對(duì)評(píng)論的實(shí)際影響力產(chǎn)生作用。
本研究還對(duì)意見領(lǐng)袖特征指標(biāo)之間的相關(guān)性進(jìn)行分析,從而揭示了意見領(lǐng)袖的行為特征。在置信水平為0.010時(shí),直接回復(fù)數(shù)與直接獲回復(fù)數(shù)之間存在顯著的弱相關(guān)性,直接獲回復(fù)數(shù)與間接獲回復(fù)數(shù)之間存在顯著的強(qiáng)相關(guān)性,直接回復(fù)數(shù)與間接獲回復(fù)數(shù)之間存在顯著的弱相關(guān)性。結(jié)合實(shí)際情況可初步得出以下推論:評(píng)論者的直接回復(fù)在一定程度上引起更多的回復(fù)者再次回復(fù),從而增加一定數(shù)量的直接獲回復(fù)數(shù);回復(fù)者的間接回復(fù)是在直接獲回復(fù)的基礎(chǔ)上產(chǎn)生,即直接獲回復(fù)是間接回復(fù)的存在條件,直接回復(fù)數(shù)與間接獲回復(fù)數(shù)兩者之間存在強(qiáng)相關(guān)性不難理解;直接回復(fù)需經(jīng)過直接獲回復(fù)作用于間接獲回復(fù),直接回復(fù)數(shù)與間接獲回復(fù)數(shù)之間的相關(guān)程度較低。
綜上所述,本研究提出的基于主題一致性和情感支持的網(wǎng)絡(luò)評(píng)論意見領(lǐng)袖識(shí)別方法并不局限于只考慮用戶自身影響力,而是著重關(guān)注評(píng)論內(nèi)容以及用戶之間的交互,是一種新的識(shí)別網(wǎng)絡(luò)評(píng)論意見領(lǐng)袖的方法。此外,構(gòu)建的意見領(lǐng)袖特征體系中的3個(gè)2級(jí)指標(biāo)能夠反映評(píng)論意見領(lǐng)袖的行為特征。
本研究提出一種基于主題一致性和情感支持的網(wǎng)絡(luò)評(píng)論意見領(lǐng)袖識(shí)別方法,以山東辱母殺人事件為例,使用基于Relevance公式改進(jìn)的LDA模型和情感詞典,篩選與評(píng)論主題一致且情感上支持評(píng)論者的回復(fù),并根據(jù)意見領(lǐng)袖指標(biāo)體系最終確定具有正面和負(fù)面高影響力的微博評(píng)論意見領(lǐng)袖,同時(shí)從用戶主頁基本信息和用戶評(píng)論內(nèi)容屬性兩個(gè)角度,探討評(píng)論意見領(lǐng)袖的行為特征。
研究結(jié)果表明,本研究提出的方法能夠識(shí)別評(píng)論區(qū)的意見領(lǐng)袖,評(píng)論內(nèi)容的效應(yīng)與用戶概況之間沒有顯著的相關(guān)性,提出的網(wǎng)絡(luò)評(píng)論意見領(lǐng)袖識(shí)別方法并不局限于只考慮評(píng)論者自身的影響力,而是著重關(guān)注評(píng)論內(nèi)容本身以及用戶之間的交互。評(píng)論者的獲點(diǎn)贊數(shù)和獲回復(fù)數(shù)等指標(biāo)可以作為評(píng)論者成為評(píng)論區(qū)意見領(lǐng)袖的基礎(chǔ),而根據(jù)直接獲回復(fù)數(shù)、間接獲回復(fù)數(shù)和直接回復(fù)數(shù)之間的相互作用可勾勒出用戶在交互中的行為特征。
本研究結(jié)果能夠?yàn)橥话l(fā)事件管理部門提供網(wǎng)民對(duì)事件的關(guān)注焦點(diǎn)和情感態(tài)度,有助于其及時(shí)掌握網(wǎng)絡(luò)輿情,通過識(shí)別、引導(dǎo)正面評(píng)論意見領(lǐng)袖積極發(fā)聲減少消極情緒,通過引導(dǎo)負(fù)面評(píng)論意見領(lǐng)袖合理回應(yīng)存在的問題避免情緒的極端化乃至事件惡化,為后續(xù)的應(yīng)對(duì)管理提供理論和方法支持。
本研究也有一定的局限性,即識(shí)別的評(píng)論意見領(lǐng)袖沒有考慮時(shí)間因素,缺乏事件發(fā)生期間高影響力評(píng)論用戶的觀點(diǎn)演變分析,后續(xù)將嘗試增加時(shí)間這一因素,探索不同時(shí)間段內(nèi)意見領(lǐng)袖的觀點(diǎn)構(gòu)成,進(jìn)而識(shí)別是否存在具有影響力但觀點(diǎn)不同于之前意見領(lǐng)袖的“意見扭轉(zhuǎn)者”;以山東辱母案為例,本研究結(jié)果的分析是針對(duì)該事件的微博數(shù)據(jù)展開,該結(jié)論在其他突發(fā)事件中是否成立還有待驗(yàn)證,因此還需結(jié)合多類型事件探討結(jié)論的普適性;情感詞匯的情感判斷方面,可能會(huì)出現(xiàn)情感詞匯在詞匯表中的情感極性與實(shí)際表達(dá)中不同的問題,未來將在研究中引入反諷計(jì)算等方法。