秦斌 倪靜
摘 要:針對目前意見領(lǐng)袖識別過程易受主觀因素影響的問題,以微博為研究對象,采用熵權(quán)TOPSIS的相關(guān)理論建立意見領(lǐng)袖的識別模型。首先,從用戶的靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)特征、用戶的個人屬性信息和用戶的交互信息三個方面建立綜合測度的用戶影響力評價指標體系。然后,采取熵權(quán)法得到各指標的權(quán)重,采用逼近于理想值的排序方法求得用戶的重要度,根據(jù)重要度值的大小識別出意見領(lǐng)袖。最后,爬取微博社交平臺中“校園暴力”話題的相關(guān)數(shù)據(jù),對提出的意見領(lǐng)袖識別模型進行實驗分析,并通過與單一維度測度指標的方法相比驗證提出的意見領(lǐng)袖測度模型的有效性。
關(guān)鍵詞:熵權(quán)法;TOPSIS;意見領(lǐng)袖
中圖分類號:F224? ? ? ? 文獻標志碼:A? ? ? 文章編號:1673-291X(2021)13-0119-03
引言
微博、QQ、微信等在線社交平臺的不斷發(fā)展給人們的工作和生活帶來了巨大的影響。人們通過這些便捷的社交平臺,一方面可以輕松自由地交流和表達他們對特定產(chǎn)品、服務(wù),甚至政治和經(jīng)濟領(lǐng)域的個人經(jīng)驗、情感和感受,但是另一方面,通過發(fā)帖、評論、轉(zhuǎn)發(fā)等行為方式,可以使得輿論事件在很短的時間內(nèi)呈現(xiàn)出病毒般的傳播趨勢,可能引發(fā)網(wǎng)絡(luò)輿情危機,而在線社會網(wǎng)的意見領(lǐng)袖是社會輿情的重要引導者,很大程度決定輿情的發(fā)展走向,因此意見領(lǐng)袖的識別工作具有很好的研究前景。
一、相關(guān)研究
意見領(lǐng)袖的概念最初是由美國哥倫比亞大學的社會學家拉扎斯菲爾德提出的[1],他將意見領(lǐng)袖定義為具有吸引力的人,在其心理、身體和社會方面都具有突出的特征,且在某一領(lǐng)域具有可信的知識的人。隨后“意見領(lǐng)袖”受到了國內(nèi)外學者的關(guān)注,他們在各個領(lǐng)域展開了研究,研究發(fā)現(xiàn)意見領(lǐng)袖在政治、營銷、教育等方面扮演著重要的角色。
目前,在線社會網(wǎng)絡(luò)意見領(lǐng)袖的識別方法主要包括基于社會網(wǎng)絡(luò)結(jié)構(gòu)的識別方法和基于測度指標分析的識別方法。基于社會網(wǎng)絡(luò)結(jié)構(gòu)的識別方法主要包括基于網(wǎng)絡(luò)中心性的識別方法、基于PageRank算法及其改進算法的識別方法和基于LeaderRank算法及其改進算法的識別方法等。劉廣強等人基于中介中心性,計算用戶節(jié)點的綜合影響力[2]。琚春華等人融合緊密中心性和信任尋找電商化社交平臺意見領(lǐng)袖[3]。Cha等人以Twitter為媒體平臺對輿情信息的傳播特征進行分析,從粉絲數(shù)、轉(zhuǎn)發(fā)數(shù)和被提及數(shù)3個用戶個性化特征指標的點度中心性,利用皮爾遜相關(guān)系數(shù)對用戶影響力進行排序[4]。Jain等人利用網(wǎng)絡(luò)中的各種結(jié)構(gòu)性指標來衡量用戶的聲譽模型[5]。孫紅等人改進PageRank算法識別微博網(wǎng)絡(luò)中的意見領(lǐng)袖[6]。李志宏等人基于LeaderRank算法從網(wǎng)絡(luò)結(jié)構(gòu)、交互行為和交互信息三個維度識別微博網(wǎng)絡(luò)中的意見領(lǐng)袖[7]?;跍y度指標的識別方法主要包括基于影響力度量指標進行識別意見領(lǐng)袖。李玉貞等人選用3個方面的用戶影響力評價指標構(gòu)建一個評價指標體系,并利用層次分析法設(shè)計意見領(lǐng)袖影響力模型識別意見領(lǐng)袖[8]。彭麗徽等人基于用戶的影響力、活躍度、認同度等構(gòu)建影響力評價指標體系,并采用灰色關(guān)聯(lián)方法建立意見領(lǐng)袖識別模型,進而識別意見領(lǐng)袖[9]。王佳敏等人從用戶的影響力和活躍度兩方面構(gòu)建一個影響力評估指標體系,并采用改進的層次分析法識別社交網(wǎng)絡(luò)的意見領(lǐng)袖[10]。
綜上所述,國內(nèi)外目前現(xiàn)有的在線社會網(wǎng)絡(luò)的意見領(lǐng)袖識別工作各有優(yōu)劣,但如果只是從網(wǎng)絡(luò)拓撲結(jié)構(gòu)進行分析,缺乏一定的全面性,且目前基于測度指標分析的方法,各指標的權(quán)重基本上是由專家主觀確定為主,其客觀準確度較低。針對以上存在的不足,綜合考慮微博用戶多個維度的影響力評價指標,然后采用熵權(quán)TOPSIS方法建立全面、客觀的意見領(lǐng)袖識別模型。首先,基于用戶的靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)特征、用戶的個人屬性信息和用戶的交互信息建立一個用戶影響力評價指標體系。然后,采用熵權(quán)法計算各個指標的權(quán)重,采用TOPSIS方法對用戶的影響力進行評估,進而識別出高影響力的用戶。最后,通過抓取微博社交平臺的“校園暴力”相關(guān)話題的數(shù)據(jù)對提出的意見領(lǐng)袖識別模型進行實驗分析。
二、微博意見領(lǐng)袖測度指標選取和建模
(一)用戶影響力評價指標體系構(gòu)建
綜合考慮用戶的靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)特征、用戶的個人屬性信息和用戶的交互信息三個方面的影響指標作為意見領(lǐng)袖判定的基礎(chǔ)。
1.靜態(tài)網(wǎng)絡(luò)結(jié)構(gòu)特征指標選取。在社會網(wǎng)絡(luò)中,一個節(jié)點的結(jié)構(gòu)重要性越高,該節(jié)點的影響力越高,復(fù)雜網(wǎng)絡(luò)分析中常以中心性指標衡量節(jié)點在網(wǎng)絡(luò)中的重要程度。本文選用度中心性(A1)、緊密中心性(A2)和中介中心性(A3)來衡量用戶在交互網(wǎng)絡(luò)中的結(jié)構(gòu)重要性。一個節(jié)點的度中心性表示與該節(jié)點所連接的邊數(shù),可以直觀體現(xiàn)節(jié)點的重要程度。一個節(jié)點的緊密中心性用來衡量該節(jié)點影響網(wǎng)絡(luò)中其他節(jié)點的能力,可以通過該節(jié)點到其他所有節(jié)點最短距離之和的倒數(shù)得出,其值越大,則表明該節(jié)點越處于社會網(wǎng)絡(luò)的中心位置。中介中心性為網(wǎng)絡(luò)中通過該節(jié)點的最短路徑的數(shù)目與所有節(jié)點對之間最短路徑數(shù)目的比值,其值越大,表示社會網(wǎng)絡(luò)信息傳播過程中流經(jīng)該用戶節(jié)點的信息流越大。
2.用戶個人屬性信息指標選取。用戶的個人屬性具體包括粉絲數(shù)(A4)、關(guān)注數(shù)(A5)、用戶等級(A6)和是否認證(A7)。其中,用戶的粉絲數(shù)是其影響力的直觀衡量,一個用戶的粉絲數(shù)越多,其發(fā)布動態(tài)的潛在關(guān)注度和轉(zhuǎn)發(fā)率也相對更高,其對輿情產(chǎn)生的影響也相對較大。用戶的關(guān)注者是其在平臺中獲取信息的重要來源,因此,其關(guān)注數(shù)可以在一定程度上反映用戶信息來源渠道的廣泛性。而用戶等級和是否認證可以反映用戶的資歷和威望。對于是否認證,如果用戶是認證狀態(tài)就記作1,否則記為0。
3.用戶的交互信息指標選取。用戶的交互信息可以實時地反映用戶參與輿情事件討論的參與度和所發(fā)博文的傳播能力,因此話題相關(guān)的用戶所發(fā)博文的被轉(zhuǎn)發(fā)數(shù)(A8)、被評論數(shù)(A9)和被贊數(shù)(A10)可以反映用戶的影響力。一個用戶發(fā)布的話題相關(guān)博文的被轉(zhuǎn)發(fā)數(shù)和被贊數(shù)越高,表明該用戶發(fā)布的信息及其表達的觀點被越多人所認可,其傳播的信息給輿情發(fā)展方向帶來的影響也相對越大。一個用戶話題相關(guān)博文的被評論數(shù)越多,表明該用戶關(guān)于此輿情事件表達的觀點對其他用戶形成了一定影響,從而引發(fā)了更多的討論,一定程度上也在引導著輿論事件的走向。
(二)意見領(lǐng)袖識別模型構(gòu)建
目前此類研究中的指標權(quán)重基本上是由專家主觀確定為主,其客觀準確度較低,因此本文采用熵權(quán)法確定用戶影響力評價指標的權(quán)重系數(shù)值,取代以專家主觀確定權(quán)重的方法。然后將參與話題討論的用戶看作決策方案,將能夠反映用戶重要性的指標看作方案的屬性,通過計算與每個屬性的最佳方案的貼合程度來量化每個用戶的重要程度。設(shè)U={u1,u2,u3,…,un}為話題相關(guān)的用戶集合,D={d1,d2,d3,…,dm}為用戶的屬性集合,記用戶ui上第j個指標的屬性值為ui,j(i=1,2,3…,n;j=1,2,3,…m),那么用戶重要評估矩陣可以表示為:E=(ui,j)n×m。
其中,ci為用戶ui與理想點的貼進度,ci的值越大,則用戶ui的決策屬性與正理想點越接近,其重要程度也越高。
三、實驗數(shù)據(jù)獲取與結(jié)果分析
(一)實驗數(shù)據(jù)的獲取和預(yù)處理
實驗數(shù)據(jù)來自微博社交平臺2019年5月29日至6月2日“校園暴力”話題相關(guān)的數(shù)據(jù)。通過Gooseeker爬蟲網(wǎng)站獲取話題相關(guān)的25 582 條用戶信息,經(jīng)過清洗各項數(shù)據(jù)均為0和重復(fù)的數(shù)據(jù),最終得到738個有效用戶數(shù)據(jù),結(jié)合python網(wǎng)絡(luò)爬蟲技術(shù)和Gooseeker爬蟲網(wǎng)站確定用戶的交互關(guān)系并建立交互網(wǎng)絡(luò)。
(二)實驗結(jié)果及分析
首先,利用Gephi軟件計算用戶的網(wǎng)絡(luò)中心性指標的值,同時將采集到的用戶的個人屬性指標和交互屬性指標進行標準化處理。其次,利用熵權(quán)法對用戶影響力評價指標體系各指標的權(quán)重進行賦值,得到的結(jié)果如表1所示。最后,通過TOPSIS確定話題相關(guān)的意見領(lǐng)袖,本實驗得到的結(jié)果與通過基于上文提到的單一維度得到的意見領(lǐng)袖對比如表2所示。
從意見領(lǐng)袖識別的評價指標體系構(gòu)成和實驗結(jié)果進行綜合分析。用戶交互網(wǎng)絡(luò)的結(jié)構(gòu)特征一定程度上可以體現(xiàn)用戶在輿論事件中的地位,但是也不能決定一個用戶的影響力,比如“王志坤”和“陳小兜律師”在此次事件中的影響力應(yīng)小于“微課堂”和“教育知事”。用戶個人屬性信息在很大程度上可以衡量一個重要程度,但是從幾個方法識別的意見領(lǐng)袖排名第一的用戶可以看出,這些用戶均不是參與話題中粉絲最多的,同樣的,“頭條新聞”“中國新聞網(wǎng)”等新聞類用戶在此次事件中的影響力小于相關(guān)的“太原校園”“頭條校園”等用戶。用戶的交互信息反映了用戶參與話題的積極性,意見領(lǐng)袖的觀點可以引起了大多數(shù)人的轉(zhuǎn)發(fā)、點贊,說明其在輿情意見領(lǐng)袖的識別過程中影響較大,但是可以從交互信息識別出的意見領(lǐng)袖都包括較多的非官方用戶,這些非官方用戶的其他屬性不滿足一個意見領(lǐng)袖的定義。而本文識別出的意見領(lǐng)袖均在以上各個維度都有意見領(lǐng)袖的典型特征,且是話題最相關(guān)的用戶。通過以上分析,與考慮單一測度指標的意見領(lǐng)袖識別方法相比,本文方法較全面、準確和客觀識別出了此次話題的話題導向者,識別出了話題中的意見領(lǐng)袖。
四、結(jié)論和展望
針對傳統(tǒng)意見領(lǐng)袖識別方法的不全面性和主觀性,從用戶的靜態(tài)結(jié)構(gòu)特征、用戶個人屬性和用戶交互信息三個方面建立了一個較全面的微博意見領(lǐng)袖指標體系,并基于熵權(quán)TOPSIS提出了微博意見領(lǐng)袖識別模型。通過與單一維度的意見領(lǐng)袖識別方法的對比可以得出,本文提出的模型方法識別出了與輿情相關(guān)度最高且符合意見領(lǐng)袖定義和特征的高影響力用戶。在未來的研究中,一方面將會考慮增加文本感情、文本內(nèi)容等屬性,進一步提高意見領(lǐng)袖識別的客觀性;另一方面,本文僅僅考慮了微博這一社交平臺,具有一定的局限性,將會在其他平臺驗證本文提出的意見領(lǐng)袖識別模型的全面性和客觀性。
參考文獻:
[1]? 祝陽,張汝立.“網(wǎng)絡(luò)意見領(lǐng)袖人”與“網(wǎng)絡(luò)意見領(lǐng)袖帖”的概念及內(nèi)涵分析[J].情報雜志,2016,(6):70-74+143.
[2]? 劉廣強.基于中介中心性的網(wǎng)絡(luò)傳播節(jié)點影響力發(fā)現(xiàn)[D].哈爾濱:哈爾濱工程大學,2017.
[3]? 琚春華,趙凱迪,鮑福光.融入緊密度中心性與信用的社交網(wǎng)絡(luò)用戶影響力強度計算模型[J].情報學報,2019,(2):170-177.
[4]? Cha M.,Haddadi H.,Benevenuto F.,et al.Measuring user influence in Twitter:the million follower fallacy[C]//Proceedings of the 4th International AAAI Conference on Weblogs and Social Media.Washington D C,USA,2010:10-17.
[5]? Jain K.,Katarya R.,Sachdeva S.Opinion leader detection using whale optimization algorithm in online social network[J].Expert Systems With Applications,2020,(142).
[6]? 孫紅,左騰.基于PageRank的微博用戶影響力算法研究[J].計算機應(yīng)用研究,2018,(4).
[7]? 李志宏,莊云蓓.基于水軍信任懲罰的多維用戶影響力度量模型[J].系統(tǒng)工程理論與實踐,2017,(7).
[8]? 李玉貞,胡勇,熊熙.微博意見領(lǐng)袖的評估模型[J].信息安全與通信保密,2013,(2):79-81.
[9]? 彭麗徽,李賀,張艷豐.基于灰色關(guān)聯(lián)分析的網(wǎng)絡(luò)輿情意見領(lǐng)袖識別及影響力排序研究:以新浪微博“8·12”濱海爆炸“為例[J].情報理論與實踐,2017,(9):90-94.
[10]? 王佳敏,吳鵬,陳芬,等.突發(fā)事件中意見領(lǐng)袖的識別和影響力實證研究[J].情報學報,2016,(2):169-176.
[責任編輯 馬 學]