劉高勇,譚依雯,艾丹祥,黃靖釗
(廣東工業(yè)大學 管理學院,廣東 廣州 510520)
突發(fā)事件是指突然發(fā)生,造成或可能造成較大社會影響的公共事件,經(jīng)過網(wǎng)絡(luò)的發(fā)酵后形成網(wǎng)絡(luò)輿情。在突發(fā)事件網(wǎng)絡(luò)輿情的傳播過程中存在著一些“意見領(lǐng)袖”,他們通常是各個領(lǐng)域的媒體、精英、名人或者“網(wǎng)紅”,時刻關(guān)注著網(wǎng)絡(luò)上的熱點,積極地扮演著“信息引導(dǎo)者”和“信息評論者”的角色,高頻率地表達自己對事件的看法和態(tài)度,有意識地追蹤和推動輿情的發(fā)展。社交媒體平臺往往是各類意見領(lǐng)袖輸出觀點、引導(dǎo)輿論的主要渠道,他們利用社交網(wǎng)絡(luò)響應(yīng)速度快、受眾面廣等特點,獲得更高的輿情影響力。在我國最大的社交媒體平臺——新浪微博中,聚集了各個領(lǐng)域大量的意見領(lǐng)袖。在社會性突發(fā)事件發(fā)生時,普通網(wǎng)民往往處于不知情狀態(tài)或持有負面態(tài)度,而微博意見領(lǐng)袖是他們進一步了解事件態(tài)勢的重要信息來源,大眾也容易受到其觀點的影響。如果出現(xiàn)少數(shù)意見領(lǐng)袖為獲取網(wǎng)絡(luò)流量而有意散布錯誤信息和負面觀點,則可能引發(fā)社會矛盾,導(dǎo)致社會治理危機。因此準確地識別微博意見領(lǐng)袖及其輿論導(dǎo)向,是事件輿情治理的關(guān)鍵。
從前人對意見領(lǐng)袖概念的定義[1]中可以看出,作為意見領(lǐng)袖需要滿足2個條件:(1) 能夠傳播信息,并具有一定的影響性;(2) 需要有自己的觀點和態(tài)度,并能夠獲得群體的關(guān)注和支持。然而現(xiàn)有的研究在識別事件意見領(lǐng)袖時往往更注重對前者的評估,而忽略了第二項本質(zhì)條件。事實上,某些媒體或“大V”用戶發(fā)布的信息可能因為其在其他領(lǐng)域獲得的影響力而得到廣泛傳播,但其信息只是起到陳述事實的作用,并未輸出觀點并形成意見引導(dǎo),因此不應(yīng)將其判定為意見領(lǐng)袖。針對此問題,本文將傳統(tǒng)的意見領(lǐng)袖指標模型評價和基于機器學習的觀點挖掘技術(shù)結(jié)合起來,綜合考慮“信息影響力、觀點輸出性、觀點支持度”3個方面的衡量標準,形成一種新的突發(fā)事件微博意見領(lǐng)袖識別方法。
“意見領(lǐng)袖”是傳播學者拉扎斯菲爾德在20世紀40年代《人民的選擇》一書中提出的。在書中,他提出了“兩級傳播”理論,認為大眾傳播并不是直接“流”向一般大眾,而是通過意見領(lǐng)袖在兩者之間進行信息傳達,其模式是:大眾傳播—意見領(lǐng)袖—一般受眾[1],因此意見領(lǐng)袖在信息傳播過程中扮演了重要角色。此后,意見領(lǐng)袖的概念在多個不同領(lǐng)域得到了廣泛的研究,國內(nèi)主要是網(wǎng)絡(luò)輿情、新聞傳播等領(lǐng)域。進入21世紀后,web2.0的發(fā)展促進了大量網(wǎng)絡(luò)社區(qū)的產(chǎn)生,而網(wǎng)絡(luò)社區(qū)中同樣存在著意見領(lǐng)袖,這些網(wǎng)絡(luò)空間的意見領(lǐng)袖影響和改變著用戶的思想傾向。
在國內(nèi),微博已經(jīng)成為突發(fā)事件網(wǎng)絡(luò)輿情形成的重要平臺,從2010年開始逐漸變成網(wǎng)絡(luò)輿情研究的重點。微博意見領(lǐng)袖識別主要是采用指標分析法和社會網(wǎng)絡(luò)分析來識別意見領(lǐng)袖,王佳敏等[2]從影響力和活躍度兩個維度出發(fā),結(jié)合微博的傳播特點,構(gòu)建微博意見領(lǐng)袖指標體系,應(yīng)用一種改進的層次分析法確定指標權(quán)重。彭麗徽等[3]從影響力、活躍度和認同度3個維度出發(fā),構(gòu)建微博意見領(lǐng)袖指標體系,應(yīng)用一種改進的模糊—層次分析法確定指標要素權(quán)重,構(gòu)建一種意見領(lǐng)袖識別模型。吳江等[4]融合用戶個人屬性、網(wǎng)絡(luò)特征、行為特征和文本特征,構(gòu)建意見領(lǐng)袖識別的綜合指標體系。
近年來,隨著大數(shù)據(jù)和人工智能技術(shù)的發(fā)展,自然語言處理技術(shù)也被越來越多地運用于網(wǎng)絡(luò)文本信息的分析與挖掘中。其中觀點挖掘和情感分析技術(shù)受到研究者的廣泛關(guān)注,該技術(shù)能分析文本中隱含的情緒狀態(tài),進而對文本發(fā)表者的態(tài)度、意圖、評價等進行推測?;镜挠^點挖掘技術(shù)包括文本主客觀分析、情感分類等。其中主客觀分析用于判斷文本是否表達了情感或含有觀點。情感分類則是用于判斷主觀性文本中情感的類型。簡單的情感分類將文本中情感分為正向和負向,也稱為情感極性分析或情感傾向性分析,通常正向代表褒義的情感,負向代表貶義的情感。而更復(fù)雜的情感分類技術(shù)則是將文本中蘊含的情感進一步劃分為“喜”“怒”“哀”“懼”等多種類型。一些研究者已將這些技術(shù)應(yīng)用于網(wǎng)絡(luò)意見領(lǐng)袖的識別,并提出了一些新的思路與方法。如陳芬等[5]采用多級文本傾向性分析識別網(wǎng)民評論的5種情感傾向,表征網(wǎng)民對博主的支持度,并將其融合進識別網(wǎng)絡(luò)意見領(lǐng)袖的指標體系。安璐等[6]采用主題分析和情感分析方法,基于主題一致性和情感支持識別評論區(qū)的意見領(lǐng)袖。他們的研究表明,觀點挖掘技術(shù)有助于深入判斷意見領(lǐng)袖的輿論影響力和引導(dǎo)力,能識別出更為有效的結(jié)果。
盡管目前識別網(wǎng)絡(luò)意見領(lǐng)袖的方法眾多,但判定意見領(lǐng)袖的標準仍然缺乏統(tǒng)一性,尤其是缺乏對意見領(lǐng)袖“觀點引導(dǎo)性”這一本質(zhì)特征的考量和評判。而文本則針對這一問題,在現(xiàn)有研究成果的基礎(chǔ)上,進一步將觀點挖掘和情感分析技術(shù)應(yīng)用于對突發(fā)事件中微博意見領(lǐng)袖本質(zhì)特征的識別與量化評價,從而構(gòu)建一套新的識別方法。
本文提出的方法框架如圖1所示。該方法的初始數(shù)據(jù)集合為B0,包含與突發(fā)事件相關(guān)的全部微博博文及其博主,然后分3個步驟從博主中篩選出事件的微博意見領(lǐng)袖。
第1步:基于指標模型的博主信息影響力計算。
信息影響力大小決定了博主的事件相關(guān)表述能否被足夠多的人看到,也是博主成為事件意見領(lǐng)袖的首要條件。因此本方法首先根據(jù)博主的用戶屬性及其在社交網(wǎng)絡(luò)中的重要性構(gòu)建其信息影響力指標模型,通過模型計算,從B0中找出高影響力博主及其博文,形成集合B1。由于指標模型的計算相對簡單,因此將其作為本方法框架中的第1步,可以快速篩選掉大批不具意見領(lǐng)袖潛質(zhì)的普通博主,提高方法的整體計算效率。
第2步:基于博文主客觀分類的博主觀點輸出性計算。
本步驟判斷B1中的博主是否在其事件相關(guān)表述中形成了觀點輸出。如果博主要表達自己的觀點,則往往會在博文中對事件的某些方面進行具有主觀色彩的加工,而不是單純的客觀報道,因此本步驟首先提取B1中所有的博文,然后基于觀點挖掘技術(shù)中的文本主客觀分類,計算每篇博文表述的觀點輸出性,判斷其是否為觀點博文,并將B1中的所有觀點博文及其博主選出,形成集合B2。
第3步:基于評論情感極性分類的博主觀點支持率計算。
本步驟判斷B2中的博主觀點是否獲得了大眾支持。博文所獲得的評論能直接反映出大眾對博文內(nèi)容的看法和態(tài)度,如果評論者認同博文中的觀點,則其評價往往是正面和積極的,反之則是負面和消極的。因此本步驟首先獲得B2中所有博文的評論,然后基于觀點挖掘技術(shù)中的文本情感極性分類,計算每篇博文獲得的觀點支持度,判斷其是否獲得較多支持,并將B2中的博文劃分為獲支持的博文和未獲支持的博文,最終計算B2中所有博主獲支持觀點的比例,將大部分觀點均獲得支持的博主認定為意見領(lǐng)袖。
對于網(wǎng)絡(luò)用戶信息影響力的計算,不同的研究者從各個維度提出了評價指標,但大部分可以分為2類,一類考慮用戶自身的屬性,如用戶的活躍度、擁有的粉絲數(shù)、是否認證等;一類考慮用戶在網(wǎng)絡(luò)傳播中的重要性,如被轉(zhuǎn)發(fā)數(shù)、被評論數(shù)、被點贊數(shù)、被@數(shù)等。為了構(gòu)建一個精簡的指標模型計算博主的信息影響力,作為篩選意見領(lǐng)袖的粗略標準,選取7篇不同時期識別意見領(lǐng)袖的代表性文獻成果。論文1:孫乃利等[7]發(fā)表于2012年;論文2:魏志惠等[8]發(fā)表于2014年;論文3:王佳敏等[2]發(fā)表于2016年;論文4:彭麗徽等[3]發(fā)表于2017年;論文5:陳芬等[5]發(fā)表于2018年;論文6:胡若涵等[9]發(fā)表于2018年;論文7:陳芬等[10]發(fā)表于2019年,并對比總結(jié)了其中使用的影響力評價指標,提取了4個被所有文獻共同使用的核心指標:粉絲數(shù)w1、 原創(chuàng)微博數(shù)w2、被評論數(shù)w3和被轉(zhuǎn)發(fā)數(shù)w4。其中w1和w2作為博主用戶屬性上的代表性指標,而w3和w4作為突發(fā)事件中博主網(wǎng)絡(luò)傳播重要性上的代表性指標,僅限為與當前事件相關(guān)的博文的被評論和被轉(zhuǎn)發(fā)數(shù)量。
表1顯示了從7篇文獻成果中提取出的4個核心指標的原始權(quán)重,由于各篇論文中評價指標權(quán)重的范圍不統(tǒng)一,為了便于各指標的計算,使用式(1)對每篇論文中4個指標的權(quán)重進行歸一化處理。
表1 7篇文獻的指標權(quán)重Table 1 Index weight table of 7 articles
指標 論文1 論文2 論文3 論文4 論文5 論文6 論文7 w*1 0.43 0.32 0.17 0.28 0.16 0.01 0.19 w*2 0.13 0.08 0.07 0.09 0.21 0.29 0.11 w*3 0.22 0.31 0.38 0.31 0.38 0.35 0.31 w*4 0.22 0.29 0.38 0.32 0.25 0.35 0.39
表2顯示了歸一化處理后新的權(quán)重值。然后取各指標的7篇論文權(quán)重均值,形成如表3所示的指標模型。
表3 博主信息影響力計算指標模型Table 3 Blogger information influence calculation index model
運用上述指標模型,可對初始數(shù)據(jù)集合B0中的每位博主進行信息影響力的評價計算,并將影響力大于一定閾值的博主選出,作為高影響力博主。
對于B1中的每位高影響力博主,如果是真正的意見領(lǐng)袖,則其發(fā)表事件相關(guān)博文時,不僅會陳述事件情況,還會表達個人的感受、意見或觀點,直觀體現(xiàn)在其博文文本含有較強烈的主觀色彩。因此,為了計算和識別這些博主的觀點輸出性,可以對其博文進行主客觀分類分析,認為主觀性概率高的文本觀點輸出性高,而客觀性概率高的文本觀點輸出性低。
多項前人研究結(jié)果表明,在判斷文本的主觀性問題上,樸素貝葉斯分類器表現(xiàn)效果較好[11-13],因此本方法采用基于主客觀特征的樸素貝葉斯分類模型對博文的主客觀概率進行計算,具體過程如下。
第1步:對于B1中的每一篇博文,提取其中的主客觀特征。在區(qū)分主客觀的特征選擇問題上,前人研究成果已提供了較多的經(jīng)驗:楊武[12]通過分析主客觀句的差異,認為可以選取語義層面和語法層面兩方面的特征。在語義層面,選取情感詞、指示性動詞、指示性副詞、語氣詞、標點符號作為主觀線索特征,選取時間、地點、描述性無感情色彩名詞、冒號等作為客觀線索特征;在語法層面,選擇2-POS模型作為類別特征。丁晟春[13]則使用句內(nèi)特征、句式特征和隱性特征對微博博文進行主客觀分析,句內(nèi)特征包括詞性、程度副詞、主觀指示詞、客觀詞等;句式特征包括是否為否定句、疑問句、感嘆句等;而隱性特征則同樣使用N-POS模型來表征。劉培玉[14]提取了6類主觀性特征:指示性動詞、指示性副詞、形容詞、情感詞、人稱代詞和指示性標點符號,以及少量的客觀詞作為客觀性特征。綜合上述研究成果,本文選取了5類最具代表性的主客觀特征。
(1) 指示動詞。博主在輸出觀點時,常常使用“認為”“覺得”等主觀動詞來表明觀點的所屬,通常與第一人稱代詞連用。本方法采用《知網(wǎng)》情感分析用詞語集中的中文主張詞語作為指示動詞特征詞表。
(2) 程度副詞。博主如果對事件有著強烈情感,則往往會采用“很”“非?!钡瘸潭雀痹~來加強情感表達。本方法采用《知網(wǎng)》情感分析用詞語集中的中文程度級別詞語作為程度副詞特征詞表。
(3) 情感詞。博主的博文中如果含有較多的含有情感傾向的詞語,則其輸出主觀性觀點的可能性較大,本方法采用BosonNLP情感詞典作為特征詞表,主要因為BosonNLP情感詞典的構(gòu)建來源中包含了較多微博博文數(shù)據(jù),因此詞典囊括了很多網(wǎng)絡(luò)用語和非規(guī)范文本,比較適合進行微博的情感分析和觀點挖掘。
(4) 語氣助詞。語氣助詞常在句尾或句中停頓處出現(xiàn)。微博文本的口語化決定了人們會將口語習慣帶入文本中,常用“喲”“啊”“呵”等語氣助詞表明個人的某種態(tài)度。本方法根據(jù)百度百科對現(xiàn)代漢語語氣助詞的解釋,手工列舉構(gòu)建特征詞表。
(5) 標點符號。選取問號和感嘆號作為特征。其中,問號表示對事件的疑問,具有不確定性;而感嘆號表明對事件的驚訝。兩者皆在一定程度上傳達了博主的態(tài)度傾向。
第3步:構(gòu)建樸素貝葉斯分類模型。首先,從現(xiàn)有的博文向量中選擇一部分樣本,人工標注其主客觀性,構(gòu)建樸素貝葉斯分類模型訓練數(shù)據(jù)集TBayes={(d1,s1),(d2,s2),···,(dk,sk),···,(dN,sN)}, 其中dk和sk(k=1,2,···,N)分別代表第k個博文樣本及其主客觀類別;sk∈{0,1} , “1” 代表主觀類,“0”代表客觀類。基于TBayes采用極大似然法估計博文主客觀類別的先驗概率P(sk=1),計算方法為將屬于主觀類的博文數(shù)除以博文樣本總數(shù)。
其次,基于TBayes采用極大似然法估計條件概率P(f(l)|sk=1), 即主客觀特征f(l)(l∈{1,2,···,n})出現(xiàn)在主觀類博文中的概率,計算方法為將特征f(l)在主觀類博文中的出現(xiàn)次數(shù)除以主觀類博文中所有特征的出現(xiàn)次數(shù)之和。
同理,可以估計博文屬于客觀類的先驗概率P(sk=0) 、 主客觀特征f(l)(l∈{1,2,···,n})出現(xiàn)在客觀類博文中的條件概率P(f(l)|sk=0)。
最后,對于給定的待分類博文文本向量d,可基于其含有的n個主客觀特征f(1)(l∈{1,2,···,n}),計算其屬于主觀類的概率P(sk=1|d)和其屬于客觀類的概率P(sk=0|d)。
比較P(sk=1|d)和P(sk=0|d)的值,當
則博文d為主觀意愿較大的觀點博文,反之則為非觀點博文。
真正的意見領(lǐng)袖不僅輸出觀點,而且其大部分觀點會在群體中獲得廣泛的認可和支持,從而形成輿論引導(dǎo)力。對于已經(jīng)篩選出的觀點博文,其觀點是否獲得大眾支持往往體現(xiàn)在博文對應(yīng)的評論中,正向評論表明評論者持有與博主一致的立場,而負向評論和中立評論表明評論者持有與博主相反的立場或者無關(guān)的立場。因此,為了計算博文的觀點支持度,可以對其評論文本的情感極性進行分析,當正向情感評論數(shù)大于非正向情感評論數(shù)時,可認為博文的觀點獲得了較大的支持。
前人研究表明,在針對微博評論短文本的機器學習分類算法中,支持向量機(Support Vector Machine,SVM)的情感分類效果較好[15],因此本方法采用基于情感特征的SVM分類模型對觀點博文的用戶評論情感極性進行計算,具體過程如下。
第1步:對于B2中的每一篇觀點博文,獲取其對應(yīng)的所有評論,并從評論文本中提取情感特征。特征詞表同樣采用BosonNLP情感詞典,包含約7萬個含有情感色彩的詞語和網(wǎng)絡(luò)用語。
第2步:通過Word2Vec方法對第1步選取的情感特征進行向量化,并將每篇評論的情感特征詞向量相加,構(gòu)成該評論的文本向量r=(t(1),t(2),···,t(m)),其中t(1),t(2),···,t(m)為r具備的m個情感特征。
第3步:構(gòu)建SVM分類模型。首先,從現(xiàn)有的評論向量中選擇一部分樣本,人工標注其情感極性,構(gòu)建SVM分類模型訓練數(shù)據(jù)集TSVM={(r1,c1),(r2,c2),···,(ri,ci),···,(rM,cM)}, 其中ri和ci(i=1,2,···,M)分別代表第i個評論樣本及其情感極性;ci∈{-1,1},“1”代表支持博文的正向評論,“-1”代表不支持博文的非正向評論。采用徑向基函數(shù)(Radial Basis Function,RBF)作為SVM的核函數(shù)K,即
其次,對于給定的評論r,可采用以下的分類決策函數(shù)判斷其情感極性。
當f(r)=1時 ,r為正向評論;反之當f(r)=-1時,r為負向評論。
最后,對于B2中的每一篇觀點博文,計算其觀點支持度S upport,即該博文的正向評論數(shù)占總評論數(shù)的比率。
當Support>0.5時,認為該博文的觀點獲得了大眾的支持,反之則未獲得支持。
第4步:對于B2中的每一位博主,在其發(fā)表的所有觀點博文中進行統(tǒng)計,如果其獲支持的觀點博文數(shù)未達到一定比例,即觀點支持率較小,則表明其大部分觀點不被大眾接受和認可,思想引導(dǎo)性較小,不具備意見領(lǐng)袖的價值,因此將其剔除。最終保留的博主即為突發(fā)事件輿情中真正的微博意見領(lǐng)袖。
本文選取2020年我國發(fā)生的重大輿情突發(fā)事件——“杭州女子失蹤案”作為微博意見領(lǐng)袖識別方法的驗證案例。2020年7月5日,在浙江省杭州市江干區(qū)三堡北苑小區(qū)發(fā)生一起女子離奇失蹤案件。同月23日,杭州公安發(fā)布通報:“杭州女子離奇失蹤案”偵辦取得重大突破,失蹤女子已遇害,嫌疑人是其丈夫許某。該事件被網(wǎng)絡(luò)媒體報道后,迅速獲得廣泛關(guān)注,并引發(fā)網(wǎng)絡(luò)用戶“全民推理破案”。通過查詢百度指數(shù)發(fā)現(xiàn),網(wǎng)民對事件輿情的搜索和關(guān)注從2020年7月16日起始,7月24日案件真相曝光后達到最大熱度,7月28日之后逐漸降低。
在該事件輿情的全生命周期中,微博成為傳播最新案情和網(wǎng)民參與討論的主要渠道之一,相關(guān)話題頻繁登上微博熱搜榜,大量“微博大V”進行了事件的報告和評價,積極充當意見領(lǐng)袖的角色。為了更好地識別其中真正的意見領(lǐng)袖,本文使用后羿采集器工具,以“杭州失蹤”為關(guān)鍵詞,搜索并抓取2020年7月16日~8月4日間的熱門微博數(shù)據(jù),共獲得1 673位博主發(fā)布的3 217條博文,剔除評論數(shù)和轉(zhuǎn)發(fā)數(shù)都在10次以下的博文及其博主信息,最終保留1 442位博主、2 740條博文作為初始數(shù)據(jù)集合。
3.2.1 信息影響力計算
運用2.2小節(jié)中表3的指標模型計算博主信息影響力值。由于各評價指標的具體數(shù)值相差巨大,為了便于指標的比較,需要先統(tǒng)一量綱,使用式(11)對各指標值進行非線性歸一化。
其中,x*為歸一化后的指標值,x為原始指標值,xmax為該指標中的最大值。
指標值進行歸一化處理后,按指標模型進行加權(quán)求和計算,獲得信息影響力值,并從高到低進行排序。
由于模型中的部分指標(轉(zhuǎn)發(fā)數(shù)和評論數(shù))與具體的博文相關(guān),因此當博主針對事件發(fā)表多篇博文時,每篇博文反映的博主信息影響力都會被單獨計算。本文設(shè)置影響力閾值為0.6,即信息影響力大于0.6的博文及其博主將被保留參與下一步的篩選,最終共有127位博主的369條微博博文被保留。表4展示了部分被保留的博文、博主及其影響力值。
表4 高信息影響力博文及博主示例Table 4 Examples of high-influence blog posts and bloggers
3.2.2 觀點輸出性計算
從事件相關(guān)博文中隨機抽取1 200條,人工標注其主客觀性。標注時采用4人策略,即先由A和B各自分開對全部博文進行標注,然后對比找出A和B標注不一致博文,再由C和D共同討論確定其主客觀性。最終共標注主觀類博文550條,客觀類博文640條,刪除無法判斷的模糊博文10條。
實驗采用Pycharm開發(fā)環(huán)境,Python3.7編程語言。首先調(diào)用結(jié)巴分詞包對博文文本進行自動分詞,按照2.3節(jié)中確定的主客觀特征詞表抽取博文的特征詞,并使用Word2Vec對其進行向量化。然后調(diào)用scikit-learn機器學習工具中的naive_bayes包,輸入標注好的博文數(shù)據(jù),使用高斯樸素貝葉斯算法訓練主客觀分類模型。采用10折交叉驗證的方式測試模型的準確性,即輪流按9∶1的比例劃分訓練集和測試集,取10次測試結(jié)果的準確率平均值作為該模型的準確率,最終確定該模型的平均準確率為84.3%。
模型構(gòu)建完成后,輸入上一步保留的高影響力博文數(shù)據(jù),以計算其觀點輸出性,結(jié)果表明其中有69位博主的80篇博文中含有觀點,表5展示了部分博主及其博文的觀點輸出性。
從分類結(jié)果可以看出,盡管都具有較高的影響力,但博主發(fā)布博文的目的并不完全相同,主觀性較大的博文用于輸出表達博主觀點和態(tài)度,而客觀性較大的博文用于陳述和報道事實。以表5中序號1~4的博文為例,分析實際數(shù)據(jù)中博文觀點輸出性的差異。
表5 博主及其博文的觀點輸出性示例Table 5 Example output of opinions of bloggers and their blog posts
序號1的博文:博主首先貼出了“化糞池警告的幽默很惡臭” 這個論點,然后引用魯迅先生以及前輩的話作為論據(jù),表明對用他人生命惡意造梗的風氣的批評與反對。
序號2的博文:陳述了杭州失蹤女子被殺案疑似6年前蕪湖失蹤女子被殺案這一事實,沒有輸出任何觀點。
序號3的博文:陳述了失蹤遇害女子丈夫經(jīng)過吸糞車時,曾兩次看向化糞池這一事實,也沒有輸出任何觀點。
序號4的博文:博主看似是用數(shù)據(jù)事實說話,但是“竟”字表明了博主對杭州女子失蹤案真相的震驚,同時博主分析了過往的類似案件,認為過往對兇手的處罰偏輕。
從以上分析可以看出,有觀點輸出的博文更能反映出博主引導(dǎo)輿論走向的意圖,也是其成為意見領(lǐng)袖的關(guān)鍵之一。
3.2.3 觀點支持率計算
對上一步保留的80篇觀點博文,獲取其評論文本,清除其中的空數(shù)據(jù)、“@某人”但無評論的數(shù)據(jù)、純表情和純符號以及無意義的數(shù)字,最終獲得43 368條評論數(shù)據(jù)。隨機選取其中的5 000條評論進行人工標注:將正向評論標注為1,非正向評論標注為-1。由于數(shù)據(jù)較多,標注時分2組進行,每組標注2 500條并同樣采用4人策略。最終獲得正向評論2 148條,非正向評論2 852條。
采用和上一步相同的Python環(huán)境,首先調(diào)用結(jié)巴分詞包對評論文本進行分詞,按照2.4節(jié)中確定的情感特征詞表抽取評論的特征詞,并使用Word2Vec對其進行向量化。然后調(diào)用scikit-learn機器學習工具中的SVM包,采用RBF(Radial Basis Function)核函數(shù),輸入標注好的評論數(shù)據(jù)訓練情感極性分類模型。采用10折交叉驗證的方式測試模型的準確性,最終該模型的平均準確率為83.7%。
模型構(gòu)建完成后,輸入剩余未標注的評論數(shù)據(jù),獲得每篇評論的情感極性,再依據(jù)式(11)計算每篇博文的觀點支持度,并判斷其是否獲得支持。表6顯示了部分博文及其博主的觀點支持度。
表6 評論對博文的支持情況示例Table 6 Support rate of comments for blog posts
從表6可以看出,盡管有些博主發(fā)表了含有相同或相似內(nèi)容的博文,但是獲得的用戶支持率卻不一樣,表明某些博主不被大眾認可,并非由于博文輸出的觀點,而是出于自身口碑或者其他原因,這也導(dǎo)致此類博主的觀點無法起到其預(yù)期的傳播或者引導(dǎo)效果,因此不能作為真正的意見領(lǐng)袖。
進一步的,根據(jù)博文的觀點支持情況,對上一步保留的69位博主的觀點支持率進行統(tǒng)計,并將支持率低于0.5的博主剔除。最終共有40位博主被認定為此次事件中既有觀點輸出又獲得大眾支持的真正意見領(lǐng)袖。
為了驗證本方法識別的微博輿情博主具有意見領(lǐng)袖的本質(zhì)特征,文本按照“杭州失蹤女子案”事件發(fā)展的時間線,對識別出的40位微博意見領(lǐng)袖的屬性和輿情參與行為進行了觀察和分析。
首先,根據(jù)意見領(lǐng)袖的微博認證進行其類型的劃分和統(tǒng)計,如圖2所示。結(jié)果表明,40位微博意見領(lǐng)袖中共有11位為官方微博,大部分為從事社會新聞報道評述的官方媒體號,占意見領(lǐng)袖總?cè)藬?shù)的27.5%,其余29位為個人自媒體號,其認證的類型包括娛樂、新聞、法律、科技、情感、美食、搞笑幽默、作者、演員和音樂人等。
圖2 “杭州女子失蹤案”微博意見領(lǐng)袖類型占比分布Fig.2 "A Hangzhou Woman Missing Case" microblog opinion leader type distribution
其次,對官方微博和各類自媒體意見領(lǐng)袖在此次突發(fā)事件中發(fā)表微博的時間和表述的觀點進行分析。
圖3展示了各類意見領(lǐng)袖發(fā)表觀點微博的時間點。圖中其他類包含:情感、軍事、美食、演員、作家、音樂人和無微博認證的自媒體博主。從發(fā)博時間上可以看出,7月23日~7月28日期間是意見領(lǐng)袖較為集中的發(fā)表觀點的時間,與百度指數(shù)的高熱度期吻合。依據(jù)杜洪濤等對突發(fā)事件網(wǎng)絡(luò)輿情演化模式的研究[16],結(jié)合意見領(lǐng)袖的輿情參與時間和人次,可將此次事件的微博平臺輿情更為精確地分為3個階段:7月18日~7月22日為輿情的形成(擴散)階段,7月23日~7月28日為輿情的高潮階段,7月29日之后為輿情的消散階段。
圖3 意見領(lǐng)袖發(fā)表觀點微博的時間序列Fig.3 Time series of opinions expressed by opinion leaders on microblog
表7則進一步總結(jié)了各微博意見領(lǐng)袖在事件輿情發(fā)展中的參與階段和發(fā)表的觀點。可以看出事件輿情在高潮階段出現(xiàn)過2個討論熱點,(1) 7月24日某演員在其微博號“鄭爽SZ”中發(fā)表對事件的評論后,“圈內(nèi)領(lǐng)袖”“朕碩”“星聞揭秘”“娛樂圈扒姑”“新浪娛樂”“娛舔舔”“八爺圈”“芒果劇集”“天生八卦”“娛樂圈探班”等娛樂類自媒體號紛紛跟進,支持其在熱點事件中發(fā)聲,引發(fā)一波輿情熱度。(2) 在7月25日,杭州市公安局召開記者會,確認許某因家庭生活矛盾于7月5日凌晨殺害來某,并分尸拋棄。之后幾日內(nèi)社交平臺悄悄涌現(xiàn)出“XXX警告”等所謂“網(wǎng)絡(luò)新?!?,惡意渲染、調(diào)侃案件細節(jié),消遣慘劇。這些言語和行為不僅挑戰(zhàn)公序良俗的底線,更對社會輿情場造成了極為嚴重的誤導(dǎo)效應(yīng)。針對這一“惡意玩?!爆F(xiàn)象,一些官方微博和自媒體微博大號,如“新周刊”“共青團中央”“頭條新聞”“新華網(wǎng)”“中國長安網(wǎng)”“半月談”“中國新聞網(wǎng)”“中國婦女報”等及時進行了譴責,安撫群眾情緒,引導(dǎo)輿情正常化。
表7 “杭州女子失蹤案”微博意見領(lǐng)袖參與階段及觀點Table 7 "A Hangzhou Woman Missing Case" microblog opinion leaders' participation stage and views
從輿情治理的角度上看,識別網(wǎng)絡(luò)意見領(lǐng)袖的目的在于2個方面:(1) 可以通過分析意見領(lǐng)袖的行為判斷事件輿情的熱點和走向;(2) 可以通過意見領(lǐng)袖對事件輿情做正面的引導(dǎo)。從上述針對真實突發(fā)事件的實驗結(jié)果上看,本方法識別出的微博意見領(lǐng)袖無論屬于官方微博還是自媒體,都明顯注重追蹤事件的發(fā)展,善于捕捉事件中的新情況和敏感點,并在事件進程的關(guān)鍵節(jié)點處發(fā)聲。加之其博文具有較強的觀點導(dǎo)向性,借助其在龐大粉絲群的影響力和話語權(quán),往往能有效地推動輿情熱點的形成和發(fā)展。其中,一些官方微博之所以能成為事件中的意見領(lǐng)袖,除了其自身粉絲體量大以外,更多的是由于其輸出了強烈而鮮明的是非觀點,而其輿論引導(dǎo)作用也非常明顯,特別在一些社會道德問題上,其觀點和態(tài)度能有效地幫助民眾明辨是非,形成對社會丑惡現(xiàn)象的輿論批判,消除其不良影響。此次典型事件中,在惡意造梗現(xiàn)象出現(xiàn)后,大批官微在7月28日集中發(fā)聲批評,促成了網(wǎng)民對此類“網(wǎng)絡(luò)新梗”的反感和抵制,很快相關(guān)話題的熱度便降低至消散。此外,自媒體意見領(lǐng)袖在事件中的輿情影響作用也不容小覷,一方面不同類型自媒體博主的參與,擴大了事件輿情的受眾面和受關(guān)注度,特別是一些娛樂明星的發(fā)聲,可能會引發(fā)大批娛樂營銷號的聯(lián)動,迅速推高輿情熱度。另一方面自媒體意見領(lǐng)袖輸出的觀點自由度較高,增加了事件輿情走向的不確定性,某些觀點雖然獲得了網(wǎng)民的支持,但客觀上也加劇了民眾對事件的負面情緒,因此需要輿情治理者密切關(guān)注并及時疏導(dǎo)??傊痉椒ㄍㄟ^運用觀點挖掘技術(shù),能夠較為有效地過濾掉“陳述報道事件事實”和“觀點不具備影響力”的偽微博意見領(lǐng)袖,挖掘出更具備治理價值的核心意見領(lǐng)袖集合。
為了進一步驗證實驗結(jié)果的科學性,將本文通過觀點挖掘法識別的“杭州女子失蹤案”事件的微博意見領(lǐng)袖與通過社會網(wǎng)絡(luò)分析法、專家人工分析法識別的微博意見領(lǐng)袖進行了對比,對比結(jié)果見表8。
社會網(wǎng)絡(luò)分析法是經(jīng)典的意見領(lǐng)袖識別方法,考慮微博的轉(zhuǎn)發(fā)和評論,通過比較微博節(jié)點入度、出度以及各類型中心度代表節(jié)點的重要性;專家人工分析法是通過專家對事件各維度影響因素進行綜合考慮排序,人工確定意見領(lǐng)袖。邀請了20位專家進行綜合評分,其中包括3名新聞傳播領(lǐng)域?qū)<遥?名網(wǎng)絡(luò)輿情領(lǐng)域的研究學者,以及10位高校研究網(wǎng)絡(luò)輿情分析的博士研究生。因觀點挖掘法共識別出39位意見領(lǐng)袖,所以選擇社會網(wǎng)絡(luò)分析法、專家人工分析法識別前39位意見領(lǐng)袖,按同樣的規(guī)則降序排列。通過表8可以發(fā)現(xiàn)觀點挖掘分析法識別的意見領(lǐng)袖與專家人工分析的結(jié)果更為相似;社會網(wǎng)絡(luò)分析法則更關(guān)注信息的傳播力,體現(xiàn)在識別的意見領(lǐng)袖均為具有高轉(zhuǎn)發(fā)量的博主,而本文方法識別的意見領(lǐng)袖則更具有實際輿情影響力,與在事件輿情進程關(guān)鍵點發(fā)揮作用的重點用戶高度吻合,真實引導(dǎo)著輿論的發(fā)展趨勢,是真正意義上的意見領(lǐng)袖。對比發(fā)現(xiàn),本文提出的突發(fā)事件微博意見領(lǐng)袖識別方法更具有科學性與實用性。
表8 各意見領(lǐng)袖識別方法識別結(jié)果比較Table 8 Comparison of the identification results of various opinion leaders
本文在對網(wǎng)絡(luò)意見領(lǐng)袖的定義進行解析后,依據(jù)其本質(zhì)提出了一個新的針對突發(fā)事件的微博意見領(lǐng)袖識別方法,通過綜合運用指標模型方法和觀點挖掘技術(shù),對高信息影響力、輸出觀點、觀點獲支持等意見領(lǐng)袖的本質(zhì)特征進行量化評價,形成了一套更完整的評價標準及模式。以“杭州女子失蹤案”事件為例對本文提出的方法進行實驗驗證,結(jié)果表明,本方法發(fā)現(xiàn)的意見領(lǐng)袖更符合意見領(lǐng)袖的定義,是用戶真實支持的有輿論引導(dǎo)力的意見領(lǐng)袖。
本研究的局限性在于:大數(shù)據(jù)環(huán)境下,網(wǎng)絡(luò)輿情的傳播方式和傳播途徑多元化,而本文未考慮到多平臺多渠道的信息流動。同時,由于微博上部分博主存在篩選評論和事后刪除微博的行為,可能導(dǎo)致采集到的數(shù)據(jù)出現(xiàn)偏差,對最終結(jié)果的準確性有一定的影響。