李熠輝 李冠 趙衛(wèi)東
摘要:推動微博輿情事件演化是眾多意見領(lǐng)袖共同作用的結(jié)果,因此識別意見領(lǐng)袖群對于輿情事件的監(jiān)管具有重要作用。提出微博輿情話題下的意見領(lǐng)袖群識別模型,綜合考慮用戶屬性特征、交互特征和網(wǎng)絡結(jié)構(gòu),設計微博輿情下用戶影響力評估算法MUR,并結(jié)合K-means算法形成MUK-means算法,實現(xiàn)對意見領(lǐng)袖群的識別。以新浪微博數(shù)據(jù)進行實驗,MUK-means算法的聚類時間(14s)遠遠少于傳統(tǒng)K-means算法(32s),而且基于MUK-means算法得到的意見領(lǐng)袖群的用戶覆蓋率高達86.3%。實驗結(jié)果表明,MUK-means算法改進了K-means算法初始聚類中心不確定的缺點,不僅提高了聚類效率,而且實現(xiàn)了對意見領(lǐng)袖群的有效識別。
關(guān)鍵詞:微博輿情;MUR;MUK-means;意見領(lǐng)袖群
DOI:10.11907/rjd k.192007
中圖分類號:TP301 文獻標識碼:A 文章編號:1672-7800(2019)012-0030-05
0引言
網(wǎng)絡輿情事件是指在網(wǎng)絡世界中,由于各種刺激人們對于該事件所有的認知、態(tài)度、情感和行為傾向的集合。網(wǎng)絡輿情事件的突發(fā)性、環(huán)境隱蔽性和網(wǎng)絡用戶素質(zhì)參差不齊,都加大了社會公共治理難度。在通過法律手段對網(wǎng)絡環(huán)境進行規(guī)范的同時,應更關(guān)注意見領(lǐng)袖對普通網(wǎng)民潛移默化的影響,正確的思想方向與規(guī)范的言論能夠正確引導普通網(wǎng)民對待輿情事件的態(tài)度,繼而影響事件的發(fā)展態(tài)勢。微博作為國內(nèi)主流社交平臺,不僅擁有龐大的用戶群,便捷化、大眾化和實時性等特點更使其成為網(wǎng)絡輿情事件形成和發(fā)展的主要陣地。在微博這個社會網(wǎng)絡中,“意見領(lǐng)袖”不是指某一個體,單個的意見領(lǐng)袖并不能牽動全局,對輿情事件的引導、推動作用是眾多意見領(lǐng)袖共同作用的結(jié)果。因此,準確識別出意見領(lǐng)袖群,對于網(wǎng)絡輿情事件管理具有重大意義。
1相關(guān)工作
近年來,國內(nèi)外學者在意見領(lǐng)袖識別方面作了大量研究,主要分為3個方向:基于鏈路分析的方法、基于社會網(wǎng)絡分析的方法和基于用戶特征的方法。
基于鏈路分析的方法主要以網(wǎng)頁排序算法PageRank及其拓展算法為基礎,根據(jù)用戶間的鏈接關(guān)系對影響力進行迭代計算。這種算法主要研究用戶間的交互行為,忽略了對交互內(nèi)容的分析。對此,朱茂然通過分析回帖的情感傾向,計算情感權(quán)重,提出了Leader-PageRank算法。
傳統(tǒng)基于社會網(wǎng)絡分析的方法通過用戶間的關(guān)系構(gòu)建社會網(wǎng)絡,利用節(jié)點人度、點度中心性、中間中心性、接近中心性等結(jié)構(gòu)要素實現(xiàn)關(guān)鍵節(jié)點識別。Dewi提出通過定義社會網(wǎng)絡中邊緣類型尋找意見領(lǐng)袖。但是基于社會網(wǎng)絡分析的方法在考慮節(jié)點全局性的同時,忽略了節(jié)點自身屬性特征。
基于用戶特征的方法主要利用層次分析法,通過對提取的特征加權(quán),實現(xiàn)對用戶影響力的綜合評價,但是由于缺乏統(tǒng)一標準,往往會造成特征提取不全面。因此在微博輿情事件下,綜合分析用戶交互內(nèi)容、用戶自身特性及其網(wǎng)絡拓撲結(jié)構(gòu)對意見領(lǐng)袖群的識別具有重要意義。
上述研究雖然從不同角度實現(xiàn)了對用戶影響力的評估,但對意見領(lǐng)袖范圍進行確定時,往往采用排名閾值方式,而閾值由研究者自己決定,具有很強的不確定性和人為性。為了解決此問題,本文提出微博輿情話題下的意見領(lǐng)袖群識別模型:綜合考慮用戶屬性特征、交互特征和網(wǎng)絡結(jié)構(gòu),借鑒PageRank算法思想,提出了MUR(Microb-log-lyric User-Influence Rank)算法實現(xiàn)對用戶影響力評估,并將MUR算法與K-means算法相結(jié)合得到MUK-means(Microblog-lyric User-Influence-based K-means)算法,以影響力最大的用戶為簇心進行聚類,識別意見領(lǐng)袖群,得到意見領(lǐng)袖的范圍。
2微博輿情話題下的意見領(lǐng)袖群識別
微博輿情話題下的意見領(lǐng)袖群識別模型如圖1所示,主要包括4個方面:①數(shù)據(jù)獲取及處理,主要任務是對以Python語言編寫程序爬取的輿情數(shù)據(jù)進行預處理;②用戶特征分析,從用戶活躍度和影響力角度對用戶屬性特征進行詮釋,用戶的交互特征是從語義角度對用戶交互過程中產(chǎn)生的影響力進行刻畫;③用戶影響力評估,借鑒Pager-ank算法思想,綜合用戶屬性特征、交互特征和網(wǎng)絡結(jié)構(gòu),設計微博輿情下的用戶影響力評估算法MUR;④意見領(lǐng)袖群識別,K-means算法與MUR算法相結(jié)合形成MUK-means算法,實現(xiàn)對意見領(lǐng)袖群和一般用戶群初始簇心的確定,以對用戶進行聚類,得到意見領(lǐng)袖群。
2.1用戶特征分析
在微博輿情傳播過程中,用戶影響力是多種因素共同作用的結(jié)果,從靜態(tài)和動態(tài)兩個角度出發(fā),本文選取用戶屬性特征與用戶交互特征作為影響力評估基礎。
2.1.1用戶屬性特征
根據(jù)拉扎斯菲爾德對意見領(lǐng)袖的定義,意見領(lǐng)袖是小部分具有一定影響力的活躍分子。綜合微博特性和已有研究,本文從用戶活躍度和影響力兩個維度對用戶屬性特征進行描述。用戶屬性特征組成如圖2所示。
活躍度A(i)是指用戶單位時間內(nèi)更新微博的數(shù)量,通過原創(chuàng)微博數(shù)(M1)和轉(zhuǎn)發(fā)微博數(shù)(M2)體現(xiàn)。微博用戶單位時間內(nèi)活躍度越高,其在微博輿情話題下保持高活躍度的概率就越大。
影響力I(f)是身份認證(M3)、粉絲數(shù)(M4)和單位時間內(nèi)微博被轉(zhuǎn)發(fā)率(M5)的綜合體現(xiàn)。微博用戶認證意味著更高的可信度與曝光度,認證后的用戶極可能被收錄到搜索引擎,使用戶及其所發(fā)微博的曝光度大大增加,而且在一般用戶的認知中,經(jīng)過認證的用戶所發(fā)表的文字更加權(quán)威,更使人信服,可信度更高。用戶粉絲量越大,其接觸到的用戶范圍就越大,產(chǎn)生的影響輻射范圍就越大。用戶單位時間內(nèi)微博被轉(zhuǎn)發(fā)率越高,其在微博輿情話題下發(fā)表的言論被轉(zhuǎn)發(fā)的機率就越大。
由于特征數(shù)據(jù)的維度不統(tǒng)一,因此為了方便數(shù)據(jù)處理,使處理結(jié)果更加準確,本文對各級特征數(shù)據(jù)進行歸一化處理,采用rain-max方法,對數(shù)據(jù)進行線性變換,將數(shù)據(jù)映射到[0,1]區(qū)間內(nèi),轉(zhuǎn)換如式(1)所示。
2.1.2用戶交互特征
意見領(lǐng)袖的權(quán)威度來自于其他用戶對其言論的認可,在微博輿情傳播過程中,轉(zhuǎn)發(fā)量和評論量是對其最直接的體現(xiàn)。但是在對意見領(lǐng)袖進行識別過程中,單純地對數(shù)據(jù)量進行疊加并不能很好地詮釋用戶在交互過程中產(chǎn)生的影響力,因此本文同時從語義角度出發(fā)對用戶交互特征進行分析:通過判斷轉(zhuǎn)發(fā)、評論內(nèi)容與原微博情感極性是否一致,作為互動行為有效性的依據(jù)。
在已有研究中,往往通過正向情感占比實現(xiàn)對微博情感支持率的分析,由于情感粒度劃分較粗,只統(tǒng)計正向情感的比例容易忽略關(guān)鍵信息,如在負面輿情事件中,博主發(fā)表微博“愿逝者安息,英雄一路走好”表達悲傷,情感極性為負向,而評論“太悲傷了”,情感極性雖然為負向,但表達的是對博主言論的支持,博主的言論對其產(chǎn)生了影響。為了改進上述問題,本文通過判斷轉(zhuǎn)發(fā)、評論內(nèi)容與原微博情感極性是否一致對用戶獲取的情感支持,即產(chǎn)生的影響力進行衡量。本文采用FastText分類器對微博內(nèi)容進行情感極性分析,將情感極性分為正向和負向兩類。FastText是Mikolov于2016年提出的一種快速文本分類器,能夠獲得與深度學習分類器相近的準確率,但運行效率遠遠高于深度學習分類器,保證了輿情快速演化過程中情感極性的準確快速識別。獲得情感極性分類后,定義在微博輿情傳播過程中,情感一致的轉(zhuǎn)發(fā)、評論行為視為有效互動行為,用戶有效互動值Eij計算如式(5)所示。
2.2基于MUR的用戶影響力評估
微博輿情下用戶間的互動網(wǎng)絡可以抽象為有向加權(quán)圖G(v,E),其中v表示節(jié)點集合,E表示邊的集合。將參與輿情話題討論的用戶看作節(jié)點,若用戶間存在互動關(guān)系,構(gòu)建用戶間的有向邊,邊的權(quán)值由用戶間的有效互動率確定。
PageRank算法是衡量網(wǎng)絡中網(wǎng)頁重要程度的經(jīng)典算法,基于微博拓撲結(jié)構(gòu)與網(wǎng)絡拓撲結(jié)構(gòu)的相似性,本文借鑒PageRank算法思想,提出了微博輿情用戶影響力評估算法MUR,具體計算如式(6)所示。原始PageRank算法只考慮了網(wǎng)絡結(jié)構(gòu),在影響力分配過程中往往采取平均分配原則,既忽視了用戶節(jié)點本身影響力大小的不同,也忽視了傳遞過程中用戶受影響程度的不同。鑒于此,本文將用戶屬性特征值P(i)作為節(jié)點初值,根據(jù)有效互動率分配用戶影響力,對傳統(tǒng)PageRank算法進行改進。
2.3基于MUK-means的意見領(lǐng)袖群識別
K-means算法是一種無監(jiān)督學習的聚類算法,基于物以類聚的思想,對內(nèi)在相似性大的數(shù)據(jù)進行分類組織,其因簡單高效而應用廣泛,但初始聚類中心的不確定性容易使K-means算法陷入局部最優(yōu)解,造成聚類結(jié)果不穩(wěn)定。本文提出將MUR算法和K-means算法結(jié)合形成MUK-means算法,在有效解決初始聚類中心不確定的同時,實現(xiàn)對意見領(lǐng)袖群的識別。在識別意見領(lǐng)袖時,用戶總會被劃分為意見領(lǐng)袖和非意見領(lǐng)袖,則可確定劃分K值為2。MUR算法優(yōu)化了PageRank算法,得到微博輿情話題下微博用戶影響力從高到低的準確排名,用戶的MUI值越大,其影響力就越大,排名越高。將MUR算法與K-means算法相結(jié)合,MUI值最高的用戶代表意見領(lǐng)袖簇的聚類中心,MUI值最低的用戶代表非意見領(lǐng)袖簇的聚類中心,避免了聚類中心的隨機性,保證了簇間距離的最大化,優(yōu)化了聚類效果,同時也得到了意見領(lǐng)袖群和一般用戶群。
3實驗與結(jié)果分析
3.1實驗數(shù)據(jù)收集預處理
本文基于新浪微博提供的開放API,以“重慶公交車墜江”作為關(guān)鍵詞,爬取2018年10月28日-2018年11月2日的相關(guān)傳播數(shù)據(jù),詳細數(shù)據(jù)集信息如表1所示。此外,實驗數(shù)據(jù)還包括用戶基礎信息:粉絲數(shù)、認證信息及其近一個月內(nèi)發(fā)表、轉(zhuǎn)發(fā)微博的相關(guān)信息。
在收集的數(shù)據(jù)集中,僅包含“#重慶公交車墜江#”話題標簽的微博數(shù)據(jù)有539條,不能作為有效數(shù)據(jù)進行分析,在過濾掉無效數(shù)據(jù)后,剩余45519條微博,參與討論(發(fā)布原創(chuàng)微博或轉(zhuǎn)發(fā)微博)的用戶數(shù)為39074,有12642個用戶發(fā)表了原創(chuàng)微博,但是沒有引起任何轉(zhuǎn)發(fā)和評論,有16007個用戶轉(zhuǎn)發(fā)他人微博后并沒有引發(fā)二次轉(zhuǎn)發(fā)。本文將對剩余的10425個用戶及其互動關(guān)系構(gòu)造的網(wǎng)絡進行影響力計算。
3.2評價指標
(1)用戶覆蓋率(coverage Rate,CR)。由于目前對用戶影響力沒有一個統(tǒng)一的評價指標,本文選用戶覆蓋率指標對用戶影響力評估準確性進行驗證。用戶覆蓋率是指在微博輿情事件中受用戶i影響的用戶數(shù)占總用戶的比例,計算公式如式(12)所示。NK表示前K個用戶影響的用戶數(shù)量,Ⅳ表示參與該輿情事件討論的用戶總數(shù)。
3.4實驗與分析
3.3.1基于MUR算法的用戶影響力評估實驗
將用戶作為種子節(jié)點,以用戶間的互動關(guān)系構(gòu)建網(wǎng)絡。提取用戶身份認證信息、粉絲數(shù),并以用戶2018年9月27日2018年10月27日一個月內(nèi)的微博數(shù)據(jù)作為樣本,統(tǒng)計單位時間內(nèi)的原創(chuàng)微博數(shù)、轉(zhuǎn)發(fā)微博數(shù)、被轉(zhuǎn)發(fā)微博數(shù)。對數(shù)據(jù)進行歸一化處理后,根據(jù)式(4)計算用戶屬性值作為節(jié)點初始值。調(diào)用Python的FastText包實現(xiàn)情感極性的分類,工作流程如圖3所示。通過情感一致性判別對有效互動值進行計算,并根據(jù)MUR算法計算式(6)對互動網(wǎng)絡中的用戶影響力并進行迭代計算,直到每個節(jié)點的MUI值與上次計算的MUI值相等,得到每個用戶最終的影響力值。
為了驗證MUR算法對用戶影響力評估的準確性,采用前K個用戶的用戶覆蓋率對MUR算法與UI_LR算法、PageRank算法進行對比。3種算法的用戶覆蓋率結(jié)果如圖4所示。圖4中,MUR算法和UI-LR算法性能明顯優(yōu)于PageRank算法。雖然在前10個用戶的影響下,UI-LR算法與本文算法覆蓋的用戶范圍十分接近,但是在10名之后的用戶影響下,本文算法覆蓋的用戶范圍更廣,這充分說明了MUR算法對用戶影響力評估的有效性,同時保證了初始聚類中心的準確性。
3.3.2基于MUK-means算法的意見領(lǐng)袖群識別實驗
基于MUK-means算法的意見領(lǐng)袖群識別,即將意見領(lǐng)袖識別轉(zhuǎn)換為一個二分類問題,把用戶分為意見領(lǐng)袖和一般用戶。以在用戶影響力評估中影響力最大和最小的用戶作為初始聚類中心,歸一化后的用戶屬性特征與互動特征作為特征向量,利用Python實現(xiàn)用戶聚類,影響力最大的用戶所在的簇即為意見領(lǐng)袖群。
由于目前沒有對意見領(lǐng)袖群的識別研究,缺乏對比算法,為了證明MUK-means算法對意見領(lǐng)袖群識別的有效性,通過DBI指標和聚類時間對比MUK-means算法與K-means算法的聚類效果,并計算兩種算法得到意見領(lǐng)袖群用戶覆蓋率,結(jié)果如表2所示。
從表2可以看出,MUK-means算法運行時間要小于K-means算法,因為MUK-means算法對初始聚類中心的確定,減少了迭代次數(shù),優(yōu)化了原始K-means算法。MUK-means算法的DBI值要低于K-means算法,說明MUK-means的聚類效果要優(yōu)于K-means算法,即由MUK-means算法得到的意見領(lǐng)袖群內(nèi)距離更小,相似度更大。從得到的意見領(lǐng)袖群的用戶覆蓋率看,MUK-means算法得到的意見領(lǐng)袖群用戶覆蓋率高達86.3%,遠大于K-means算法直接通過特征聚類得到的結(jié)果,說明了MUK-means識別意見領(lǐng)袖群的有效性。
4結(jié)語
本文針對現(xiàn)有研究對意見領(lǐng)袖范圍不確定的問題,基于對用戶屬性特征、交互特征和網(wǎng)絡結(jié)構(gòu)的多角度分析,提出了微博輿情話題下的意見領(lǐng)袖群識別算法MUK-means。實驗結(jié)果表明,MUK-means算法改進了傳統(tǒng)K-means算法初始聚類中心不確定的缺點,提高了聚類效率,能夠有效識別微博輿情話題下的意見領(lǐng)袖群,從而為相關(guān)部門及時掌握意見領(lǐng)袖范圍,了解輿情動態(tài),進行輿情控制提供了依據(jù)。然而本文在分析用戶交互特征時,沒有考慮到網(wǎng)絡水軍所發(fā)虛假評論的影響,下一步研究中將對虛假評論進行過濾,從而進一步提高意見領(lǐng)袖群的識別準確率。