朱義鑫,朱 愷
(新疆財經大學 信息管理學院,新疆 烏魯木齊 830000)
在網絡輿情傳播[1]中的意見領袖的識別方面,已有許多學者做了廣泛的研究,目前較為主流的研究方法有:
(1)使用網絡輿情數(shù)據(jù),建立指標算法實現(xiàn)意見領袖的識別。如郭博等通過建立活躍度、可信度、影響力等信息指標利用層次分析法得到用戶的綜合評價模型指標[2];馬寧等建立人物、話題和網絡三大維度,構建謠言和辟謠信息綜合影響力模型[3];金海通過用戶信息和微博信息的采集,使用神經網絡算法實現(xiàn)意見領袖的識別和預測[4]。
(2)以網絡輿情傳播數(shù)據(jù)建立社交網絡,通過用戶間的連接識別網絡中的關鍵節(jié)點,實現(xiàn)意見領袖的發(fā)現(xiàn)。如王日芬等提出了網絡輿情生命周期階段劃分、網絡輿情社區(qū)發(fā)現(xiàn)與關鍵節(jié)點識別、輿情事件主題發(fā)現(xiàn)3個研究內容[5];Chunlin Li等提出了一種基于內容相似度、時間相似度和用戶拓撲結構的輿情社區(qū)檢測方法,并在融合相似性的基礎上提出了一種基于用戶影響和情感分析的意見領袖檢測方法[6]。馬玉燃在PageRank算法的基礎上,引入節(jié)點的權威度,并結合用戶主觀意向下對節(jié)點的選擇偏好,提出 Au-2Step-PageRank算法[7]。
PageRank算法最初由Google開發(fā),用于其搜索引擎進行網頁排序,通過對每個網頁節(jié)點的重要性判斷,優(yōu)化其搜索結果。其原理為:若有網頁A、B、C,其中網頁C均可以由網頁A和網頁B中的鏈接指向,則網頁C的PageRank值由網頁A和網頁B的PageRank值共同決定的,即一個頁面的重要性取決于指向它的所有頁面的數(shù)量和質量。其計算方式如式(1)所示
(1)
式中:q為阻尼系數(shù),通常取值0.85,頁面指向方向為pj指向pi, L(pj) 為pj的出度,PageRank(pj)為pi的射入鄰接點pj的PageRank值。
PageRank算法在兩個節(jié)點之間只存在一條有向邊,即判斷兩個節(jié)點之間是否存在指向關系,并采取平均分配的原則將各節(jié)點影響力進行傳遞。近年來,已有學者在PageRank算法的基礎上提出許多改進算法,如IARank算法[8]、UI-LR算法[9]、FW-Rank算法[10]等,均使用用戶節(jié)點之間的互動關系進行連接,改進了節(jié)點影響力傳遞方式。
現(xiàn)階段社交網絡中意見領袖識別的研究方法依然存在較多挑戰(zhàn)[11]:首先在構建網絡時通常選取用戶間一種固定關系作為用戶節(jié)點之間的聯(lián)系,較為片面不能真實完全反映整個社交網絡中用戶之間的復雜關系。其次,在構建社交網絡的過程中,通常將整個網絡輿情的發(fā)展作為靜態(tài)網絡進行分析,忽視了網絡輿情傳播的動態(tài)過程。最后,在網絡輿情傳播過程中每一時刻的輿情狀態(tài)會對后續(xù)的輿情發(fā)展產生影響,且這種影響隨著時間的發(fā)展而變化,而現(xiàn)有研究多考慮相鄰快照之間的聯(lián)系,忽視了各快照輿情狀態(tài)對事件后續(xù)發(fā)展的動態(tài)影響。
針對網絡輿情傳播過程中用戶群體互動性強,信息流動速度快的特點,本文爬取微博用戶互動數(shù)據(jù)構建時序網絡,使用快照內用戶互動強度重定義節(jié)點間的影響力貢獻來改進PageRank算法,計算網絡快照中各節(jié)點影響力得分,引入網絡快照的記憶效應參數(shù),構建一種包含在線社交時序網絡記憶效應的意見領袖動態(tài)識別算法——DWIR算法(dynamic-web interaction rank)。
意見領袖動態(tài)識別模型構建及實驗主要包括4個步驟:①獲取實驗數(shù)據(jù),劃分用戶互動方式。②根據(jù)數(shù)據(jù)時間戳劃分時間窗口,以用戶為節(jié)點,互動關系為邊生成快照網絡,計算用戶活躍度,得到快照網絡中用戶影響力得分。③所有快照網絡組成時序網絡,引入記憶效應參數(shù),構建DWIR算法,計算網絡輿情各階段用戶DWIR得分,以此排序得到意見領袖動態(tài)識別結果。④利用DWIR意見領袖動態(tài)識別結果與其它算法識別結果比較進行深入分析。
快照網絡中,每個用戶的重要程度既取決于其它與其互動的所有用戶的數(shù)量與質量,還取決于用戶之間的互動方式,本文使用用戶之間的互動方式和互動程度計算用戶互動強度[12]。
對于一篇帖子,用戶可以進行轉發(fā)與評論,本文用WC(weight_comments)和WF(weight_forward)分別表示相鄰用戶節(jié)點之間的評論權重和轉發(fā)權重。用Comment_times(Am,Aj) 表示用戶Aj(j=1,2,3…n) 對用戶Am(m=1,2,3…n,m≠j) 的評論次數(shù); Forward_times(Am,Aj) 表示用戶Aj(j=1,2,3…n) 對用戶Am(m=1,2,3…n,m≠j) 的轉發(fā)次數(shù)。用戶Ai的評論權重WC和轉發(fā)權重WF計算方式分別為式(2)、式(3)所示
(2)
(3)
本文使用式(4)進行用戶互動強度(Interaction-Strength)的計算
IS(Ai,Aj)=α·WC(Ai,Aj)+β·WF(Ai,Aj)
(4)
式中: IS(Ai,Aj) 表示Ai的相鄰節(jié)點Aj提供的互動強度,α對應評論的相對權重,β對應轉發(fā)的相對權重。
根據(jù)在線社交平臺的用戶互動特點,評論和轉發(fā)兩種互動方式雖然都可以為用戶增加影響力,但是重要程度明顯不同。本研究采用AHP層次分析法求解[13],使用“1-9”標度法計算α和β。
令I1為評論的重要程度,I2為轉發(fā)的重要程度,本研究根據(jù)評論和轉發(fā)行為對用戶提供的不同影響力,取I1的相對影響力標度為1,I2的相對影響力標度為3,構建判斷矩陣如式(5)所示
(5)
將判斷矩陣按列進行歸一化處理,并逐行計算算數(shù)平均值即可求得其最終權重ω, 其表達方式如式(6)所示
(6)
經過一致化檢驗,最終解得:I1≈0.25、I2≈0.75。 即評論的相對權重α=0.25,轉發(fā)的相對權重β=0.75,可得IS(Ai,Aj) 計算方式如式(7)所示
IS(Ai,Aj)=0.25·WC(Ai,Aj)+0.75·WF(Ai,Aj)
(7)
本文通過用戶之間的互動強度對PageRank算法進行改進,重新定義了相鄰節(jié)點之間的影響力貢獻方式,得到基于在線社交網絡用戶互動的PageRank改進算法(web interaction rank,WIR),其計算方法如式(8)所示
(8)
快照網絡用戶影響力計算過程描述如下:
輸入:Gi為快照內用戶關系集合;Ci為快照內用戶評論數(shù)據(jù);Ai為快照內用戶轉發(fā)數(shù)據(jù);ε為迭代終止條件。
輸出:快照內用戶節(jié)點WIR算法影響力得分/*通過互動方式和次數(shù)計算各用戶在快照內互動強度*/
(1) forCviinCido
(2)使用式(2)計算WC(Ai,Aj)
(3) end for
(4) forAviinAido
(5)使用式(3)計算WA(Ai,Aj)
(6) end for
(7)forviinGi
(8)使用式(7)計算IS(Ai,Aj)
(9)end for
/*使用計算的用戶互動強度重新定義節(jié)點間影響力貢獻方式, 改進PageRank算法*/
(10) forviinGi
(11) 使用式(8)計算WIR(Ai)
end for
(13) 輸出快照網絡用戶節(jié)點WIR算法影響力得分
在線社交網絡的網絡輿情傳播過程中,用戶影響力都會在記憶效應下向事件后期產生影響,而且隨著事件發(fā)展,早期用戶影響力記憶效應呈現(xiàn)衰減的趨勢。本文引入了快照間的記憶效應參數(shù),令時序網絡中第j期快照在第i期快照上的記憶效應參數(shù)計算方式如式(9)所示
(9)
式中:Ti為第i期快照,Tj為第j期快照,且j
網絡輿情傳播過程中,各快照用戶互動規(guī)模的不同導致各快照在整個事件中重要程度不同,本文引入快照活躍度,計算各快照在整個事件中的重要程度,體現(xiàn)不同快照間的差異性,計算方式如式(10)所示
(10)
其中,Ei表示第i期快照網絡的用戶互動次數(shù),E表示整個時序網絡中所有用戶互動次數(shù)。
本文對時序網絡以快照網絡用戶影響力記憶效應加權聚合[14]的方式,計算網絡輿情發(fā)展至不同階段的用戶節(jié)點影響力,并根據(jù)其值進行排名,實現(xiàn)意見領袖的動態(tài)識別。
本文使用WIR算法計算用戶在各快照內的影響力,引入記憶效應參數(shù)得到意見領袖動態(tài)識別算法——Dynamic-WebInteractionRank(Ti,Am)(以下稱DWIR(Ti,Am)), 其計算方式如式(11)所示
WIR(Tj,Am)
(11)
式中:Am表示用戶節(jié)點m,Ti表示第i期快照,Tj表示第j期快照(j≤i), Memory(Ti,Tj) 表示第j快照對第i快照的記憶效應參數(shù), d(Tj) 表示當前快照活躍度。
本文使用工具“八爪魚”進行微博數(shù)據(jù)的爬取,選取主題“棲霞礦井爆炸”爬取了2021年1月12日至2021年1月31日共計20日間的主題微博搜索結果,根據(jù)爬取到的微博數(shù)據(jù)將沒有得到轉發(fā)、評論行為的用戶節(jié)點作為孤立節(jié)點進行剔除,并根據(jù)時間跨度將其劃分為5個快照,使用網絡工具“Gephi”進行快照網絡數(shù)據(jù)統(tǒng)計,經統(tǒng)計整個事件共有31 950名用戶參與互動,共產生119 195次互動關系。
本文使用的微博數(shù)據(jù)包含了用戶j對用戶i的評論與轉發(fā),在快照網絡中可表示為:就轉發(fā)關系而言,若用戶進行了轉發(fā),則轉發(fā)用戶與原用戶之間會產生一條用戶互動關系連線,用戶節(jié)點間的連線方向表示用戶影響力的傳遞方向,其方向是由轉發(fā)用戶指向原用戶;就評論關系而言,若用戶進行了評論,則評論用戶與原用戶之間也會產生一條用戶互動關系連線,用戶節(jié)點間的連線方向表示用戶影響力的傳遞方向,其方向是由評論用戶指向原用戶。
本文選取用戶作為節(jié)點,基于用戶之間的互動關系作為連接用戶節(jié)點的邊生成網絡。通過時間戳對微博數(shù)據(jù)進行時間窗口切分,所有快照Gi(i=1,2,3…5) 的集合 {G1,G2,G3,G4,G5} 構成微博數(shù)據(jù)的在線社交時序網絡[15]。
在復雜網絡中,PageRank算法、HITS算法與網絡拓撲結構值排名在意見領袖識別中有較寬廣的使用范圍和較為準確的識別結果,是較為公認的具有良好識別效果的意見領袖識別算法。
對于DWIR算法得到的意見領袖動態(tài)識別結果,本文選取前5名在其它靜態(tài)網絡經典意見領袖影響力排序算法中的排名進行比較,見表1。
表1 微博數(shù)據(jù)意見領袖排名結果
通過表1可以看出DWIR算法意見領袖的識別結果在其它算法中的排名同樣靠前,各個算法對于影響力較為突出的意見領袖的識別結果具有一致性,說明DWIR的意見領袖識別結果在其它算法中有較高的認可度。
本文分別選擇PageRank算法、HITS算法與DWIR算法的意見領袖識別結果進行比較[16],驗證DWIR算法意見領袖動態(tài)識別結果的用戶重要度排序準確性。本文分別對3種算法在每個快照的意見領袖識別結果進行對比,在其它學者研究的基礎上,計算每種算法在各個快照意見領袖識別結果的準確率和召回率,進而得到每種算法在各快照的F-Measure指標[17],并以此判斷每種算法意見領袖識別結果的準確度,其計算方式如式(12)所示
Ranks=(RankDWIR∩RankPR)∪(RankDWIR∩RankHITS)∪
(RankPR∩RankHITS)
(12)
式中:Ranks表示所有算法識別的共有意見領袖集合;RankDWIR表示DWIR算法的意見領袖識別結果集合;RankPR表示PageRank算法的意見領袖識別結果集合;RankHITS表示HITS算法的意見領袖識別結果集合。
令model表示進行比較的各個算法,各算法識別結果準確率(Precision)的計算方式如式(13)所示
(13)
各算法識別結果召回率(Recall)的計算方式如式(14)所示
(14)
各算法識別結果F-Measure指標的計算方式如式(15)所示
(15)
本文在每一快照選取TOP20-TOP1000的不同意見領袖識別區(qū)間對各個算法的意見領袖識別結果進行F-Measure指標計算,分別得到各個快照的各算法F-Measure指標對比折線圖,如圖1所示。
圖1 各階段意見領袖識別結果F-Measure指標對比折線
通過事件各階段不同算法之間意見領袖識別結果F-Measure值對比折線圖可以看出,在每個階段的意見領袖識別結果中,3種算法的F-Measure值均取得較高值,說明3種算法對于意見領袖的識別具有較為一致的結果,且隨著事件的階段進展,在各意見領袖識別區(qū)間上,DWIR識別結果的F-Measure值與PageRank和HITS算法的F-Measure值的差距逐漸增大,說明在記憶效應影響下,DWIR算法的意見領袖識別結果式中保持較為出色的準確度,在各階段意見領袖動態(tài)識別過程中,DWIR算法在前400名意見領袖識別區(qū)間內準確率平均高達94%,明顯高于PageRank算法的平均值90%和HITS算法的平均值88%,在幾種算法中意見領袖識別結果的準確率最高。通過匯總各階段的意見領袖識別結果對比,DWIR算法可準確實現(xiàn)事件發(fā)展過程中意見領袖動態(tài)識別的效果。
此外,為了確定DWIR算法中記憶效應的變化對于意見領袖識別結果準確度的影響,本文從集合 {0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9} 中選取不同記憶效應衰減率σ值進行意見領袖動態(tài)識別,與PageRank算法、HITS算法進行比較計算F-Measure值,并選取最后階段DWIR算法相較于PageRank算法和HITS算法的F-Measure值的最大差值作為DWIR算法意見領袖識別優(yōu)度,并統(tǒng)計各快照在相同記憶效應衰減率和相同識別區(qū)間下的意見領袖識別平均優(yōu)度,其計算方式如式(16)所示。制作了記憶效應參數(shù)變化意見領袖動態(tài)識別平均優(yōu)度對比表,見表2。
表2 記憶效應參數(shù)變化意見領袖動態(tài)識別平均優(yōu)度
(16)
經過各快照不同記憶效應參數(shù)作用下意見領袖識別平均優(yōu)度的對比,可以看到在不同記憶效應下,各意見領袖識別區(qū)間之間的DWIR算法意見領袖識別優(yōu)度變化趨勢較為一致;且在同一意見領袖區(qū)間上,不同記憶效應作用的DWIR意見領袖識別優(yōu)度的波動較大,說明記憶效應作用力的選取對于意見領袖識別結果的準確度有較為明顯的影響,通過對比各快照各意見領袖區(qū)間的DWIR算法意見領袖識別優(yōu)度,可以看出記憶效應衰減率σ=0.3時,隨著意見領袖識別區(qū)間的擴大,DWIR算法意見領袖識別優(yōu)度較其它兩種算法逐漸提高,隨著σ取值區(qū)間的不同,DWIR算法的意見領袖識別優(yōu)度有較為顯著的影響,本文令0.3作為記憶效應衰減率計算記憶效應參數(shù),并以此進行意見領袖的動態(tài)識別具有較好的準確度。
本文提出的DWIR算法通過建立快照時序網絡,在快照網絡內使用用戶的轉發(fā)和評論關系改進了PageRank算法計算快照內用戶影響力,并引入快照的記憶效應,實現(xiàn)了網絡輿情意見領袖的動態(tài)識別。本文通過計算每一快照DWIR算法與PageRank算法、HITS算法的意見領袖識別結果之間的F-Measure指標,經過對比,驗證得到DWIR算法意見領袖動態(tài)識別結果具有更高的準確度。并通過選取不同記憶效應參數(shù),比較得出記憶效應衰減率的不同取值對該意見領袖動態(tài)識別算法準確率有顯著影響。
本算法的意見領袖識別結果準確實現(xiàn)了不同快照的意見領袖動態(tài)識別。通過對比意見領袖的動態(tài)識別結果,可以得到不同快照意見領袖的變化趨勢,并結合意見領袖在不同快照的活躍度,從而根據(jù)網絡輿情傳播趨勢的特點制定相應的網絡輿情監(jiān)管與引導措施,使得網絡輿情監(jiān)管手段更加靈活,更具針對性[18]。