摘 要:通過(guò)改進(jìn)的標(biāo)簽傳播算法研究了輿情社交網(wǎng)絡(luò)中的社交主題發(fā)現(xiàn)。針對(duì)傳統(tǒng)算法容易陷入局部最優(yōu)的問(wèn)題,依據(jù)節(jié)點(diǎn)間相似度選擇標(biāo)簽傳播時(shí)的鄰居節(jié)點(diǎn);針對(duì)傳統(tǒng)算法標(biāo)簽更新時(shí)的隨機(jī)性問(wèn)題,通過(guò)結(jié)合輿論動(dòng)力學(xué)模型HK的觀點(diǎn)交互過(guò)程,依據(jù)節(jié)點(diǎn)影響力的大小更新標(biāo)簽。實(shí)驗(yàn)結(jié)果表明,該方法在最好情況下(k=0.9)相較于原算法,在穩(wěn)定性和模塊度指標(biāo)兩方面分別提高了31%和78%,并且優(yōu)于其他幾種改進(jìn)算法。由此可見(jiàn),該算法相較于原算法及其他改進(jìn)算法在輿情社交網(wǎng)絡(luò)的主題社區(qū)發(fā)現(xiàn)中表現(xiàn)更好。
關(guān)鍵詞:標(biāo)簽傳播算法;輿情社交網(wǎng)絡(luò);HK模型;主題社區(qū)發(fā)現(xiàn)
中圖分類號(hào):TP391.1"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號(hào):1001-3695(2025)01-007-0048-08
doi: 10.19734/j.issn.1001-3695.2024.06.0194
Community discovery of public opinion social network based on improved label propagation algorithm
Abstract: This paper studied the discovery of social topics in social networks using an improved label propagation algorithm. To address the problem of traditional algorithms easily falling into local optima, it selected neighbor nodes during label propagation based on the similarity between nodes. To solve the randomness issue in label updates of traditional algorithms, it used the node influence to update labels by incorporating the opinion interaction process from the HK opinion dynamics model. The experimental results show that the proposed method, in the best case (k=0.9), improves stability by 31% and modularity by 78% compared to the original algorithm and outperforms several other improved algorithms. It demonstrates that the proposed algorithm performs better in discovering topic communities in social opinion networks compared to the original algorithm and other improved algorithms.
Key words:label propagation algorithm; public opinion social network; HK model; topic community discovery
0 引言
隨著計(jì)算機(jī)科學(xué)和信息科學(xué)的不斷發(fā)展,互聯(lián)網(wǎng)已經(jīng)全面跨入以用戶生成內(nèi)容為主要特征的時(shí)代。在此趨勢(shì)下,各種移動(dòng)社交應(yīng)用使得人們所發(fā)布的信息以極快的速度傳播到社會(huì)各個(gè)角落,因此社交網(wǎng)絡(luò)輿情的發(fā)生已經(jīng)成為了不可忽視的社會(huì)事實(shí)。以2023年為例,截至12月21日影響力較高的輿論事件包括體育、民生、消費(fèi)等社會(huì)熱點(diǎn)事件38起、時(shí)政熱點(diǎn)事件19起、自然災(zāi)害或突發(fā)事故類事件13起、國(guó)際事務(wù)11起[1],這些事件的傳播速度和影響范圍之廣,凸顯了社交媒體在現(xiàn)代社會(huì)中的重要作用。為了系統(tǒng)地分析輿情,了解當(dāng)前輿情的形勢(shì),就需要準(zhǔn)確獲悉當(dāng)前社交網(wǎng)絡(luò)輿情中存在哪些主要討論的主題。在突發(fā)事件或危機(jī)發(fā)生時(shí),識(shí)別出輿情社交網(wǎng)絡(luò)中的主題社區(qū),政府和公共安全機(jī)構(gòu)就可以針對(duì)當(dāng)前社交網(wǎng)絡(luò)輿情中大家最為關(guān)心的問(wèn)題,進(jìn)行疏導(dǎo)和解答,這有助于采取預(yù)防措施,制定有效的應(yīng)對(duì)策略,減少不良信息的傳播,維護(hù)社會(huì)秩序。
1 研究綜述
1.1 社交網(wǎng)絡(luò)中的社區(qū)發(fā)現(xiàn)算法
社區(qū)發(fā)現(xiàn)是社交網(wǎng)絡(luò)的一個(gè)重要研究?jī)?nèi)容。所謂社區(qū),就是指一組在網(wǎng)絡(luò)中內(nèi)部連接緊密、外部連接稀疏的節(jié)點(diǎn),它們往往擁有相同的特性或功能。社區(qū)發(fā)現(xiàn)的概念最早由Girvan等人[2]提出,并基于邊介數(shù)提出了著名的GN算法。在此以后,來(lái)自各領(lǐng)域的研究學(xué)者提出了許多新的思想與算法,并用于解決各學(xué)科領(lǐng)域的具體問(wèn)題。輿情網(wǎng)絡(luò)作為一種社交網(wǎng)絡(luò),其具有社交網(wǎng)絡(luò)所具有的普遍屬性——社區(qū)結(jié)構(gòu),網(wǎng)絡(luò)輿情中的主題就是社交網(wǎng)絡(luò)中的社區(qū),要識(shí)別社交網(wǎng)絡(luò)輿情中的主題,就需要對(duì)輿情社交網(wǎng)絡(luò)這樣一個(gè)大規(guī)模的社交網(wǎng)絡(luò)進(jìn)行社區(qū)發(fā)現(xiàn)?,F(xiàn)有的社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)研究方法主要包括以下三類。
1.1.1 基于相似性聚類的社區(qū)發(fā)現(xiàn)方法
這種方法基于網(wǎng)絡(luò)節(jié)點(diǎn)間的相似性對(duì)節(jié)點(diǎn)執(zhí)行聚類操作。在計(jì)算得到節(jié)點(diǎn)間的相似性指標(biāo)之后,便能利用各類聚類技術(shù)(如層次聚類、譜聚類等)根據(jù)既定的判斷準(zhǔn)則,將節(jié)點(diǎn)分配到對(duì)應(yīng)的社區(qū)中去。Li等人[3]通過(guò)構(gòu)建節(jié)點(diǎn)屬性圖,并在此基礎(chǔ)上進(jìn)行相似性增強(qiáng)隨機(jī)游走,以更好地區(qū)分和捕捉節(jié)點(diǎn)的群落結(jié)構(gòu)。Agrawal等人[4]基于K-medoids框架,使用協(xié)同相似性度量檢測(cè)社區(qū),該度量采用平衡屬性相似性和距離函數(shù)。Wu等人[5]提出了一種有效的層次聚類方法HCNN,該方法利用數(shù)據(jù)集最近鄰圖中的兩種結(jié)構(gòu)相似性,將相似數(shù)據(jù)分組為聚類, 將最大相似性視為兩個(gè)聚類之間的傳遞和閉合關(guān)系,通過(guò)應(yīng)用高級(jí)數(shù)據(jù)結(jié)構(gòu),可以更有效地合并聚類。Paul等人[6]提出了局部群體同化(LGA)算法,該算法通過(guò)鄰域相似性度量比較兩個(gè)相鄰節(jié)點(diǎn),并選取最高值對(duì),然后以這樣一種方式組合在一起,以生成各種大小的初始聚類,最后以迭代方式進(jìn)一步合并,從而最大化它們之間的簇間邊緣密度。劉井蓮等人[7]采用模糊關(guān)系來(lái)描述兩個(gè)節(jié)點(diǎn)之間的相似度,然后通過(guò)極大連通子圖算法計(jì)算節(jié)點(diǎn)所屬的社區(qū)。Jiang等人[8]為了應(yīng)對(duì)現(xiàn)有基于相似性的社區(qū)劃分算法存在的節(jié)點(diǎn)區(qū)分度低、社區(qū)聚合參數(shù)選擇復(fù)雜、劃分結(jié)果具有隨機(jī)性等問(wèn)題,提出了一種基于公共鄰居聚類熵節(jié)點(diǎn)相似性的靜態(tài)社區(qū)劃分算法。Sahu等人[9]提出了一種基于鄰域相似性的社區(qū)檢測(cè)算法NBCD ,該算法基于兩種新的相似度量,使用相似性參數(shù) α和一組基本規(guī)則,該算法是一個(gè)兩步過(guò)程,即社區(qū)檢測(cè)和節(jié)點(diǎn)移動(dòng)。
1.1.2 基于模塊度優(yōu)化的社區(qū)發(fā)現(xiàn)方法
模塊度函數(shù)的概念最初是由Newman等人[10]提出的, 基于模塊度優(yōu)化的方法旨在最大化模塊度函數(shù)Q,以此來(lái)實(shí)現(xiàn)更優(yōu)的社區(qū)劃分。模塊度函數(shù)Q的得分較高,意味著檢測(cè)到的社區(qū)結(jié)構(gòu)更加接近于實(shí)際情況。Sobolevsky等人[11]針對(duì)大多數(shù)可用的模塊化優(yōu)化方法都依賴于特定的離散優(yōu)化啟發(fā)式方法,將其構(gòu)建為連續(xù)二次優(yōu)化,提出了一種循環(huán)圖神經(jīng)網(wǎng)絡(luò)算法,通過(guò)模塊化優(yōu)化進(jìn)行無(wú)監(jiān)督網(wǎng)絡(luò)社區(qū)檢測(cè)。Gibson等人[12]基于模塊化最大化的目標(biāo)函數(shù)與特定度校正種植分區(qū) SBM 的統(tǒng)計(jì)推斷之間存在的等價(jià)性,將模塊度優(yōu)化與可接受模塊化分區(qū)凸包 (CHAMP)算法相結(jié)合,提出了一種新的社區(qū)發(fā)現(xiàn)算法。Rustamaji等人[13]基于模塊度優(yōu)化的思想提出了一種反匯編策略的社區(qū)發(fā)現(xiàn)算法,該算法首先將每個(gè)節(jié)點(diǎn)初始化為一個(gè)社區(qū),然后在每次迭代中通過(guò)開(kāi)發(fā)和探索來(lái)增加模塊度。在每次迭代中探索和開(kāi)發(fā)的可能性以百分比表示。Shang等人[14]提出了基于模塊化和改進(jìn)的遺傳的社區(qū)劃分算法(MIGA),該算法采用基于模塊度Q優(yōu)化的遺傳算法,并針對(duì)爬坡算法存在的易陷入局部最優(yōu)解的缺點(diǎn),使用模擬退火來(lái)幫助尋找更優(yōu)解,盡量跳出局部最優(yōu)解的局限。
1.1.3 基于標(biāo)簽傳播的社區(qū)發(fā)現(xiàn)方法
標(biāo)簽傳播算法(LPA)[15]是基于傳播的方法,它首先給每個(gè)節(jié)點(diǎn)標(biāo)記唯一的標(biāo)簽,然后以隨機(jī)順序遍歷所有節(jié)點(diǎn)。當(dāng)每個(gè)節(jié)點(diǎn)與其大多數(shù)鄰居具有相同的標(biāo)簽時(shí),LPA停止傳播。劉鑄等人[16]針對(duì)消費(fèi)者網(wǎng)絡(luò)的局部性特點(diǎn),從節(jié)點(diǎn)的相似度判斷和標(biāo)簽傳播距離兩方面對(duì)LPA進(jìn)行了改進(jìn),研究了消費(fèi)者的類別劃分。付立東等人[17]通過(guò)刻畫(huà)節(jié)點(diǎn)局部相似性指標(biāo),并用此度量節(jié)點(diǎn)間距離和解決標(biāo)簽的隨機(jī)選擇問(wèn)題,然后通過(guò)引入密度峰值聚類算法由中心向外圍節(jié)點(diǎn)傳播標(biāo)簽,最終得到社區(qū)劃分結(jié)果。Liu等人[18]針對(duì)傳統(tǒng)標(biāo)簽傳播算法中隨機(jī)性導(dǎo)致的社區(qū)劃分穩(wěn)定性差、準(zhǔn)確率低的問(wèn)題,提出一種結(jié)合種子節(jié)點(diǎn)影響力和鄰域相似性的社區(qū)發(fā)現(xiàn)算法。Douadi等人[19]定義了一種新的基于中心性和共同鄰居的相似性度量指標(biāo)并基于標(biāo)簽傳播算法來(lái)提取社區(qū)結(jié)構(gòu)。高兵等人[20]結(jié)合 node2vec模型對(duì)節(jié)點(diǎn)進(jìn)行低維向量表示,構(gòu)建節(jié)點(diǎn)之間的權(quán)重值矩陣,根據(jù)權(quán)重值計(jì)算標(biāo)簽歸屬系數(shù),據(jù)此選擇標(biāo)簽,避免了隨機(jī)選擇問(wèn)題,大幅提高了算法的穩(wěn)定性。
基于相似性的聚類方法依據(jù)節(jié)點(diǎn)間相似度將它們歸入不同的社區(qū),忽略了節(jié)點(diǎn)本身的屬性及其相互影響,而應(yīng)該借鑒一些用于計(jì)算空間物體相互作用的方法?;谀K度優(yōu)化的方法通常受到分辨率限制的影響,這意味著在某些情況下,它們可能無(wú)法識(shí)別小規(guī)模的社區(qū)?;谀K度指標(biāo),可以有效地將社區(qū)發(fā)現(xiàn)問(wèn)題轉(zhuǎn)換為最優(yōu)解問(wèn)題,但當(dāng)網(wǎng)絡(luò)的社區(qū)規(guī)模較大時(shí),算法中需計(jì)算的解空間也十分巨大?;跇?biāo)簽傳播的社區(qū)發(fā)現(xiàn)方法僅是基于網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)信息進(jìn)行社區(qū)結(jié)構(gòu)的劃分,缺乏對(duì)于網(wǎng)絡(luò)現(xiàn)實(shí)場(chǎng)景的考量,但是該方法更適合模擬輿情交互的動(dòng)態(tài)過(guò)程。
2 LPA及其改進(jìn)策略
標(biāo)簽傳播算法最初由Zhu等人[21]提出,它的主要思路是使用已標(biāo)注的實(shí)例來(lái)預(yù)測(cè)那些未標(biāo)注的實(shí)例,即利用已經(jīng)標(biāo)記的節(jié)點(diǎn)標(biāo)簽信息來(lái)推斷那些尚未標(biāo)記節(jié)點(diǎn)的標(biāo)簽。在2007年,Raghavan等人[15]將此算法首次運(yùn)用于圖數(shù)據(jù)的社區(qū)檢測(cè)領(lǐng)域。該算法速度快、邏輯簡(jiǎn)單、時(shí)間效率高,可用于分析大規(guī)模網(wǎng)絡(luò),目前已經(jīng)成為社交網(wǎng)絡(luò)領(lǐng)域主流的社區(qū)發(fā)現(xiàn)算法。
2.1 LPA及其不足分析
2.1.1 LPA
標(biāo)簽傳播算法是一種基于圖的半監(jiān)督學(xué)習(xí)方法,算法的核心思想是: 每個(gè)節(jié)點(diǎn)會(huì)根據(jù)其鄰接節(jié)點(diǎn)標(biāo)簽出現(xiàn)的頻率來(lái)更新自己的標(biāo)簽,即選擇最常見(jiàn)的標(biāo)簽作為自己的新標(biāo)簽。
算法1 傳統(tǒng)標(biāo)簽傳播算法LPA
輸入:社交網(wǎng)絡(luò)G=(V,E)。
輸出:社區(qū)發(fā)現(xiàn)C。
a)每個(gè)節(jié)點(diǎn)被賦予一個(gè)唯一的標(biāo)簽(通常是一個(gè)數(shù)字或顏色),這個(gè)標(biāo)簽代表該節(jié)點(diǎn)的初始社區(qū)歸屬。
b)在每次迭代中,節(jié)點(diǎn)會(huì)根據(jù)其鄰居節(jié)點(diǎn)的標(biāo)簽更新自己的標(biāo)簽。具體來(lái)說(shuō),任取一個(gè)節(jié)點(diǎn),該節(jié)點(diǎn)選擇鄰居標(biāo)簽中出現(xiàn)次數(shù)最高的標(biāo)簽作為自己的標(biāo)簽。若鄰居節(jié)點(diǎn)使用的標(biāo)簽一樣多,采用隨機(jī)原則。
c)當(dāng)所有節(jié)點(diǎn)的標(biāo)簽在數(shù)次迭代之后保持不變,則算法停止執(zhí)行。在這個(gè)階段,那些擁有同一個(gè)標(biāo)簽的節(jié)點(diǎn)被視作構(gòu)成一個(gè)共同的社區(qū)。
2.1.2 LPA算法不足分析
1)標(biāo)簽傳播的節(jié)點(diǎn)選擇方式的不足
學(xué)界在對(duì)輿情社交網(wǎng)絡(luò)關(guān)系的構(gòu)建中,一般采用的是以相互關(guān)注、博文轉(zhuǎn)發(fā)或相互@的關(guān)系數(shù)據(jù)構(gòu)建網(wǎng)絡(luò),并由此分析網(wǎng)絡(luò)結(jié)構(gòu)與群體屬性,該方法能夠直接呈現(xiàn)結(jié)果。但是基于關(guān)注或轉(zhuǎn)發(fā)等構(gòu)建的網(wǎng)絡(luò)更多地反映了社交關(guān)系和信息傳播的過(guò)程,可能無(wú)法充分捕捉到語(yǔ)義內(nèi)容層面的深層次聯(lián)系,并不適用于輿情社交網(wǎng)絡(luò)中的主題社區(qū)發(fā)現(xiàn)研究。而基于語(yǔ)義相似度構(gòu)建的網(wǎng)絡(luò)更加關(guān)注內(nèi)容本身的相似性,而非僅僅依賴社交關(guān)系,它可以跨越不同的社交群體,識(shí)別出跨群體的共同關(guān)注點(diǎn)和觀點(diǎn),即使這些文本的作者之間沒(méi)有直接的社交聯(lián)系。基于語(yǔ)義相似度構(gòu)建的網(wǎng)絡(luò)又稱為語(yǔ)義社交網(wǎng)絡(luò)[22]。
LPA作為一種啟發(fā)式算法,僅是依據(jù)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征進(jìn)行社區(qū)發(fā)現(xiàn),節(jié)點(diǎn)標(biāo)簽的傳播對(duì)象為所有的鄰居節(jié)點(diǎn)。選擇性接觸理論在社會(huì)學(xué)實(shí)踐中指出,人們通常會(huì)傾向于依據(jù)自身已有的觀點(diǎn)和興趣來(lái)選擇接觸大眾信息,這種有目的性地選擇那些與自己信念相符的信息會(huì)導(dǎo)致接收到的信息變得片面化,并進(jìn)一步強(qiáng)化個(gè)人先前的觀點(diǎn)。根據(jù)該理論,當(dāng)人們接觸到能增強(qiáng)其原有觀點(diǎn)的信息時(shí),他們會(huì)產(chǎn)生積極的情感,然而盡管個(gè)體傾向于與觀點(diǎn)相近的個(gè)體交互,但社交平臺(tái)的開(kāi)放性和信息的海量性意味著個(gè)體還會(huì)不可避免地接觸到很多不同的觀點(diǎn),這種信息的多樣性可能會(huì)對(duì)個(gè)體原有的觀點(diǎn)產(chǎn)生影響,使得個(gè)體的觀點(diǎn)發(fā)生改變。LPA的標(biāo)簽傳播方式忽略了現(xiàn)實(shí)社交網(wǎng)絡(luò)輿情中個(gè)體隨機(jī)選擇性接觸的影響,使得算法缺乏探索性和適應(yīng)性,容易陷入局部最優(yōu),因此還需要對(duì)LPA標(biāo)簽傳播的節(jié)點(diǎn)選擇方式進(jìn)行改進(jìn)。
2)標(biāo)簽更新隨機(jī)性的不足
受身份地位的影響不同,不同的實(shí)體或個(gè)人的影響力很顯然是不同的,如政府、主流媒體、權(quán)威專家和當(dāng)事人的影響力較高,而一般個(gè)人觀點(diǎn)的影響力則較低。LPA在標(biāo)簽傳播過(guò)程中隨機(jī)確定節(jié)點(diǎn)標(biāo)簽更新的順序,沒(méi)有考慮到輿情社交網(wǎng)絡(luò)中不同節(jié)點(diǎn)的重要性對(duì)標(biāo)簽更新過(guò)程的影響,可能會(huì)導(dǎo)致“逆流”現(xiàn)象[23],即不太重要的節(jié)點(diǎn)依次影響到一些重要的節(jié)點(diǎn)。另外,在輿情社交網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)都會(huì)持有對(duì)某輿情事件的一個(gè)觀點(diǎn)。在傳統(tǒng)的LPA中,節(jié)點(diǎn)在標(biāo)簽更新階段會(huì)傾向于選擇其鄰居節(jié)點(diǎn)中出現(xiàn)次數(shù)最多的標(biāo)簽作為其更新后的標(biāo)簽,如果有多個(gè)標(biāo)簽出現(xiàn)次數(shù)相同,則節(jié)點(diǎn)會(huì)隨機(jī)選取一個(gè)作為新的標(biāo)簽,這也被稱為標(biāo)簽傳播算法的“平局”問(wèn)題[27]。該問(wèn)題已被確定為不穩(wěn)定的來(lái)源之一,因?yàn)殡S機(jī)更新會(huì)導(dǎo)致每次運(yùn)行時(shí)產(chǎn)生不同的結(jié)果,甚至可能還會(huì)產(chǎn)生“雪崩效應(yīng)”,即傳播初期一個(gè)小的錯(cuò)誤被不斷放大,最終影響社區(qū)發(fā)現(xiàn)的質(zhì)量。因此,在標(biāo)簽更新時(shí)為每個(gè)節(jié)點(diǎn)提供一個(gè)觀點(diǎn)值,標(biāo)簽需要依據(jù)節(jié)點(diǎn)的觀點(diǎn)值進(jìn)行更新,能最大限度地避免隨機(jī)更新帶來(lái)的影響。
綜上所述,傳統(tǒng)LPA無(wú)復(fù)雜的目標(biāo)函數(shù)、具有接近線性的復(fù)雜度[15],但LPA標(biāo)簽傳播的對(duì)象為所有的鄰居節(jié)點(diǎn),而在社交網(wǎng)絡(luò)輿情的交互過(guò)程中節(jié)點(diǎn)更愿意與觀點(diǎn)相近的節(jié)點(diǎn)接觸,同時(shí)受社交平臺(tái)的開(kāi)放性和信息的海量性影響,又不可避免地接觸其他不同的觀點(diǎn),只有具有接觸的節(jié)點(diǎn)間才可能發(fā)生標(biāo)簽的傳播。此外,算法標(biāo)簽更新時(shí)具有隨機(jī)性,但在輿情社交網(wǎng)絡(luò)中,每個(gè)節(jié)點(diǎn)不同的影響力和對(duì)輿情事件持有的觀點(diǎn)對(duì)于標(biāo)簽的更新,也是一個(gè)重要的影響因素。因此,在進(jìn)行輿情社交網(wǎng)絡(luò)的主題社區(qū)發(fā)現(xiàn)時(shí)還需要結(jié)合輿情網(wǎng)絡(luò)的現(xiàn)實(shí)場(chǎng)景,對(duì)LPA標(biāo)簽傳播的節(jié)點(diǎn)選擇方式以及標(biāo)簽更新時(shí)的隨機(jī)性進(jìn)行改進(jìn)。
2.2 改進(jìn)LPA
2.2.1 標(biāo)簽傳播的節(jié)點(diǎn)選擇方式改進(jìn)
1)節(jié)點(diǎn)選擇方式改進(jìn)
doc2vec 是由Le等人[24]提出的一種無(wú)監(jiān)督訓(xùn)練模型,它能夠?qū)⒉煌L(zhǎng)度的文本內(nèi)容映射到一個(gè)固定長(zhǎng)度的向量空間中。這種方法能有效地提取文本的語(yǔ)義特征,并簡(jiǎn)化文本的內(nèi)容表示,目前它已經(jīng)在短文本的向量化表示方面得到了廣泛應(yīng)用。
基于doc2vec模型對(duì)文本進(jìn)行向量化,采用余弦相似度公式計(jì)算兩個(gè)文本的內(nèi)容相似度,如下:
其中:X和Y分別表示節(jié)點(diǎn)u和節(jié)點(diǎn)v的文本;Suv表示節(jié)點(diǎn)u和節(jié)點(diǎn)v之間的內(nèi)容相似度。
根據(jù)前述隨機(jī)選擇性接觸分析可知,在社交網(wǎng)絡(luò)輿情交互過(guò)程中,每個(gè)節(jié)點(diǎn)都會(huì)持有對(duì)輿情事件的一個(gè)觀點(diǎn)傾向,受觀點(diǎn)相似程度的影響,節(jié)點(diǎn)更愿意與觀點(diǎn)相近的節(jié)點(diǎn)接觸,因此標(biāo)簽傳播的可能性相應(yīng)較大,同時(shí)又不可避免地接觸其他不同的觀點(diǎn),只有發(fā)生接觸的鄰居節(jié)點(diǎn)間才可能發(fā)生標(biāo)簽的傳播。假設(shè)節(jié)點(diǎn)v按照與鄰居節(jié)點(diǎn)u的內(nèi)容相似度的大小進(jìn)行標(biāo)簽傳播,節(jié)點(diǎn)v選擇鄰居節(jié)點(diǎn)ui作為標(biāo)簽傳播對(duì)象的概率表示如下:
其中:Puiv為節(jié)點(diǎn)v選擇與鄰居節(jié)點(diǎn)ui進(jìn)行標(biāo)簽傳播的概率;N(v)表示節(jié)點(diǎn)v的鄰居節(jié)點(diǎn)集合;Suiv表示節(jié)點(diǎn)v和ui的相似度。
同時(shí),設(shè)RN(v)表示選擇作為標(biāo)簽傳播的鄰居節(jié)點(diǎn)集,其定義如下:
RN(v)={ui∈N(v)|random()∈Jui}(3)
其中:random()是一個(gè)隨機(jī)函數(shù),它能夠根據(jù)節(jié)點(diǎn)v的度值產(chǎn)生k(0lt;k≤1)倍鄰居數(shù)的節(jié)點(diǎn),該比例參數(shù)k表示選擇接觸的隨機(jī)性特點(diǎn)。Jui表示每個(gè)鄰居節(jié)點(diǎn)ui被選擇的區(qū)間,Jui的定義如下:
2)標(biāo)簽傳播方式對(duì)傳統(tǒng)LPA社區(qū)模塊度的影響分析
傳統(tǒng)LPA將所有鄰居節(jié)點(diǎn)作為標(biāo)簽傳播的對(duì)象,這種標(biāo)簽傳播方式忽略了隨機(jī)選擇性接觸的影響。所提出的方法基于節(jié)點(diǎn)的內(nèi)容相似度構(gòu)建輿情社交網(wǎng)絡(luò),以鄰居節(jié)點(diǎn)間文本的內(nèi)容相似程度作為標(biāo)簽傳播的節(jié)點(diǎn)選擇依據(jù),不同相似程度的節(jié)點(diǎn)具有不同的標(biāo)簽傳播概率,越相似的節(jié)點(diǎn)越有可能被選擇作為標(biāo)簽傳播的對(duì)象,符合個(gè)體的同質(zhì)性和選擇性接觸理論。同時(shí),對(duì)于相似度高的節(jié)點(diǎn)具有較小的可能性不發(fā)生交互,而對(duì)于相似度較小的鄰居節(jié)點(diǎn)依然具有較小的可能性發(fā)生交互,符合實(shí)際個(gè)體觀點(diǎn)交互過(guò)程中多方面采集信息的不確定性。該標(biāo)簽傳播的節(jié)點(diǎn)選擇方式更加真實(shí)地模擬了社交網(wǎng)絡(luò)輿情中標(biāo)簽傳播的過(guò)程,在選擇性接觸時(shí)引入了隨機(jī)的因素,這樣可以保證即使不是最優(yōu)的節(jié)點(diǎn)也有一定概率被選中, 這種隨機(jī)性在一定程度上增加了搜索空間的多樣性,在一定程度上可以避免算法陷入局部最優(yōu)解,增強(qiáng)了算法的探索性和適應(yīng)性。
為驗(yàn)證標(biāo)簽傳播時(shí)節(jié)點(diǎn)選擇方式對(duì)傳統(tǒng)LPA的影響,這里以模塊度函數(shù)Q作為社區(qū)發(fā)現(xiàn)質(zhì)量的評(píng)價(jià)指標(biāo),在輿情社交網(wǎng)絡(luò)數(shù)據(jù)集上對(duì)應(yīng)不同的節(jié)點(diǎn)選擇比例k運(yùn)行一百次取平均值。參數(shù)k表示選擇用于進(jìn)行標(biāo)簽傳播的鄰居節(jié)點(diǎn)的比例,其取值位于0~1。統(tǒng)計(jì)分析可知輿情社交網(wǎng)絡(luò)的節(jié)點(diǎn)平均度值為8,表明網(wǎng)絡(luò)平均度較小,由于用于進(jìn)行標(biāo)簽傳播的鄰居節(jié)點(diǎn)個(gè)數(shù)以整數(shù)計(jì),若參數(shù)k取值間隔過(guò)小,則用于進(jìn)行標(biāo)簽傳播的鄰居節(jié)點(diǎn)的數(shù)量甚至?xí)嗤?,?dǎo)致實(shí)驗(yàn)對(duì)比不明顯,若間隔過(guò)大則可能會(huì)遺漏最佳參數(shù)值,所以這里參數(shù)k的取值間隔取0.05為宜。關(guān)于網(wǎng)絡(luò)數(shù)據(jù)集以及模塊度指標(biāo)的介紹將分別在4.1節(jié)和4.2節(jié)中詳細(xì)闡述,這里分別統(tǒng)計(jì)出了平均模塊度Qavg和標(biāo)準(zhǔn)差Qstd的變化,如圖1所示。
由于k值小于0.3時(shí)算法或多數(shù)無(wú)法收斂,故不再對(duì)其進(jìn)行統(tǒng)計(jì)分析。由圖1可知,當(dāng)k值為0.85和0.9時(shí),模塊度平均值Qavg分別為0.476和0.485,比k值為1(傳統(tǒng)LPA采用的節(jié)點(diǎn)選擇方式)時(shí)的模塊度平均值0.471要高,這說(shuō)明適當(dāng)?shù)膋值在滿足現(xiàn)實(shí)交互情景的同時(shí),在一定程度上可以避免傳統(tǒng)LPA陷入局部最優(yōu)解,提高社區(qū)的劃分質(zhì)量。由于在此引入了隨機(jī)性,為驗(yàn)證其所帶來(lái)的穩(wěn)定性問(wèn)題,對(duì)應(yīng)不同的k值統(tǒng)計(jì)了一百次實(shí)驗(yàn)的Qstd,實(shí)驗(yàn)發(fā)現(xiàn)不同k值所對(duì)應(yīng)的Qstd相較于k值為1時(shí)的Qstd接近,說(shuō)明節(jié)點(diǎn)選擇方式對(duì)于傳統(tǒng)算法的穩(wěn)定性并無(wú)明顯的影響。同時(shí)發(fā)現(xiàn),不同的k值所對(duì)應(yīng)的Qstd較大,可知這種不穩(wěn)定性更多來(lái)源于LPA標(biāo)簽更新時(shí)的隨機(jī)性。
2.2.2 標(biāo)簽更新的隨機(jī)性改進(jìn)
1)節(jié)點(diǎn)標(biāo)簽更新順序的確定
在輿情社交網(wǎng)絡(luò)中,個(gè)體并不是一個(gè)單純的節(jié)點(diǎn),而是擁有許多屬性,比如粉絲數(shù),發(fā)表博文的點(diǎn)贊、轉(zhuǎn)發(fā)、評(píng)論數(shù)。為避免標(biāo)簽更新過(guò)程中“逆流”現(xiàn)象的影響,首先結(jié)合節(jié)點(diǎn)的屬性特征,節(jié)點(diǎn)粉絲數(shù)、博文的點(diǎn)贊數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)四個(gè)指標(biāo)采用層次分析法計(jì)算節(jié)點(diǎn)的屬性指標(biāo)權(quán)重,最后結(jié)合各指標(biāo)數(shù)據(jù)計(jì)算節(jié)點(diǎn)的屬性值m。
根據(jù)數(shù)據(jù)場(chǎng)理論,網(wǎng)絡(luò)可以被視為一個(gè)眾多節(jié)點(diǎn)相互作用的系統(tǒng),其中每個(gè)節(jié)點(diǎn)都會(huì)對(duì)其一定范圍內(nèi)(拓?fù)鋱?chǎng))的節(jié)點(diǎn)施加拓?fù)鋭?shì),這些節(jié)點(diǎn)的拓?fù)鋭?shì)會(huì)隨著與該節(jié)點(diǎn)網(wǎng)絡(luò)距離的增加而迅速衰減。節(jié)點(diǎn)的拓?fù)鋭?shì)可以反映該節(jié)點(diǎn)在網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中受到自身以及附近節(jié)點(diǎn)影響的大小,根據(jù)拓?fù)鋭?shì)值可細(xì)分復(fù)雜網(wǎng)絡(luò)中節(jié)點(diǎn)的重要程度。給定一個(gè)無(wú)向網(wǎng)絡(luò)G=(V,E),V表示節(jié)點(diǎn)集,E表示邊集,節(jié)點(diǎn)v的拓?fù)鋭?shì)公式如下:
其中:mu≥0,代表節(jié)點(diǎn)v影響范圍內(nèi)的節(jié)點(diǎn)u的質(zhì)量,在此處表示節(jié)點(diǎn)的屬性值;duv表示兩個(gè)節(jié)點(diǎn)u和v之間的最短路徑長(zhǎng)度;σ為影響因子,用于控制節(jié)點(diǎn)的影響范圍,可根據(jù)節(jié)點(diǎn)拓?fù)鋭?shì)熵進(jìn)行優(yōu)選。
有研究表明,最后更新的節(jié)點(diǎn)傳播其標(biāo)簽的概率較?。?5]。根據(jù)計(jì)算出的節(jié)點(diǎn)屬性值結(jié)合節(jié)點(diǎn)的拓?fù)鋭?shì)公式計(jì)算出節(jié)點(diǎn)影響力ω,最后按照影響力大小降序排列作為節(jié)點(diǎn)標(biāo)簽更新的順序。
2)標(biāo)簽更新的隨機(jī)性改進(jìn)
為貼合社交網(wǎng)絡(luò)輿情的現(xiàn)實(shí)場(chǎng)景,在對(duì)輿情社交網(wǎng)絡(luò)進(jìn)行社區(qū)發(fā)現(xiàn)研究時(shí),離不開(kāi)對(duì)于網(wǎng)絡(luò)中節(jié)點(diǎn)觀點(diǎn)演化的研究,輿情的觀點(diǎn)演化和節(jié)點(diǎn)的標(biāo)簽更新具有密不可分的聯(lián)系。目前研究者們提出了許多的輿論動(dòng)力學(xué)模型,這類模型關(guān)注的核心是在社會(huì)環(huán)境普遍無(wú)序的背景下,探討信息如何傳播以及觀點(diǎn)如何演化,其目標(biāo)是理解和預(yù)測(cè)個(gè)體在社交互動(dòng)中觀點(diǎn)如何隨時(shí)間變化并最終形成共識(shí)或分歧的過(guò)程。HK模型作為一種連續(xù)型輿論動(dòng)力學(xué)模型,已被廣泛應(yīng)用于社交網(wǎng)絡(luò)輿情的觀點(diǎn)演化研究中。HK模型的表達(dá)式如式(6)所示。
其中:Ou(t)表示鄰居u在時(shí)間t的觀點(diǎn);Nv(t)表示節(jié)點(diǎn)v可以與之通信的鄰居集合,Nv(t)={u‖Ov(t)-Ou(t)|≤ε,v≠u},在這種情況下,節(jié)點(diǎn)只會(huì)考慮那些意見(jiàn)在它自己信任范圍ε內(nèi)的鄰居。
由該輿論動(dòng)力學(xué)公式可知,節(jié)點(diǎn)通過(guò)平均鄰居的觀點(diǎn)來(lái)更新它的觀點(diǎn)。同時(shí)該輿論動(dòng)力學(xué)模型假設(shè)節(jié)點(diǎn)在下一時(shí)刻的觀點(diǎn)與它當(dāng)前持有的觀點(diǎn)沒(méi)有任何關(guān)系,從認(rèn)知角度來(lái)看,代表了場(chǎng)依存的認(rèn)知方式,在這種情況下,場(chǎng)獨(dú)立的認(rèn)知風(fēng)格就被忽略了,這是對(duì)真實(shí)社會(huì)現(xiàn)象的過(guò)分簡(jiǎn)化,不符合真實(shí)的社會(huì)和生活中觀點(diǎn)的影響過(guò)程;另外,該模型在交互過(guò)程中認(rèn)為交互節(jié)點(diǎn)的影響力相同,節(jié)點(diǎn)的觀點(diǎn)總是更新至其信任閾值內(nèi)的所有觀點(diǎn)的平均值,沒(méi)有考慮鄰居節(jié)點(diǎn)之間的差異,實(shí)際上節(jié)點(diǎn)會(huì)考慮觀點(diǎn)提供者的可信度,面對(duì)各種海量的網(wǎng)絡(luò)信息,信任影響的是節(jié)點(diǎn)在觀點(diǎn)交互過(guò)程中對(duì)于其他節(jié)點(diǎn)的真實(shí)觀點(diǎn)的接受程度。為獲得節(jié)點(diǎn)更加真實(shí)的觀點(diǎn)值,根據(jù)以上描述對(duì)HK模型作出適當(dāng)?shù)膬?yōu)化,社區(qū)標(biāo)簽在更新時(shí)將會(huì)參照鄰居節(jié)點(diǎn)的觀點(diǎn)進(jìn)行更新。對(duì)HK模型優(yōu)化后的公式如下:
其中:RN(v)表示節(jié)點(diǎn)v用作標(biāo)簽傳播的鄰居節(jié)點(diǎn)集合;Wuv表示節(jié)點(diǎn)v對(duì)u的影響力;λ∈(0,1)表示場(chǎng)獨(dú)立系數(shù)且服從標(biāo)準(zhǔn)正態(tài)分布。同時(shí),在觀點(diǎn)交互過(guò)程中考慮到節(jié)點(diǎn)傾向于與同一社區(qū)結(jié)構(gòu)內(nèi)的其他節(jié)點(diǎn)交互,而不是與社區(qū)結(jié)構(gòu)外的節(jié)點(diǎn)交互。因此,節(jié)點(diǎn)v對(duì)u的信任權(quán)重Wuv定義如下:
其中:ωu(t)表示節(jié)點(diǎn)的影響力;labelv(t)表示在t時(shí)刻節(jié)點(diǎn)v的標(biāo)簽;labelu(t)表示在t時(shí)刻節(jié)點(diǎn)v的鄰居交互節(jié)點(diǎn)u的標(biāo)簽。
基于以上交互過(guò)程在得到節(jié)點(diǎn)觀點(diǎn)后,節(jié)點(diǎn)v的標(biāo)簽根據(jù)標(biāo)簽傳播節(jié)點(diǎn)u∈RN(v)的觀點(diǎn)進(jìn)行動(dòng)態(tài)更新。每次選擇標(biāo)簽傳播節(jié)點(diǎn)中與其觀點(diǎn)值平均更接近的標(biāo)簽作為自己的標(biāo)簽。節(jié)點(diǎn)v的標(biāo)簽更新如下:
3)標(biāo)簽更新方式對(duì)傳統(tǒng)LPA社區(qū)模塊度的影響分析在無(wú)向網(wǎng)絡(luò)中,網(wǎng)絡(luò)的拓?fù)鋭?shì)熵為
拓?fù)鋭?shì)熵的大小與節(jié)點(diǎn)位置差異不確定性的程度有關(guān),能夠反映節(jié)點(diǎn)在網(wǎng)絡(luò)中的拓?fù)浣Y(jié)構(gòu)特征,當(dāng)各節(jié)點(diǎn)的拓?fù)鋭?shì)值均不相等時(shí),節(jié)點(diǎn)位置差異具有最小的不確定性,勢(shì)熵達(dá)到最小;當(dāng)各節(jié)點(diǎn)的拓?fù)鋭?shì)值均相等時(shí),節(jié)點(diǎn)位置差異具有最大的不確定性,勢(shì)熵也達(dá)到最大。
該輿情社交網(wǎng)絡(luò)中的拓?fù)鋭?shì)熵與影響因子的關(guān)系如圖2所示。由圖2可知熵值H先減小后增大,存在一個(gè)最優(yōu)的影響因子σ′為0.858 1,使得勢(shì)熵達(dá)到最小,此時(shí)節(jié)點(diǎn)拓?fù)鋭?shì)分布最不均勻,同時(shí)具有最小的不確定性。在得到最優(yōu)影響因子σ′后,依據(jù)節(jié)點(diǎn)的屬性值m結(jié)合節(jié)點(diǎn)的拓?fù)鋭?shì)公式可以計(jì)算出網(wǎng)絡(luò)中各節(jié)點(diǎn)之間的影響力。
為了評(píng)估標(biāo)簽更新方式對(duì)傳統(tǒng)LPA的影響,這里同樣將LPA在輿情社交網(wǎng)絡(luò)數(shù)據(jù)集上運(yùn)行一百次,統(tǒng)計(jì)出模塊度平均值Qavg和模塊度標(biāo)準(zhǔn)差Qstd,同時(shí)給出了使用改進(jìn)標(biāo)簽更新方式的LPA的模塊度Q。
表1顯示,傳統(tǒng)LPA的社區(qū)模塊度平均值為0.469,改進(jìn)標(biāo)簽更新方式的LPA在輿情主題社區(qū)發(fā)現(xiàn)時(shí)模塊度的模塊度為0.602,模塊度值得到了顯著提高,這是由于:首先,此時(shí)的改進(jìn)算法采用的仍是傳統(tǒng)算法的節(jié)點(diǎn)選擇方式(k=1),由圖1可知該節(jié)點(diǎn)選擇方式僅稍遜于k值為0.85和0.9的情況;其次,該方法結(jié)合了節(jié)點(diǎn)本身的外部屬性信息和網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息衡量節(jié)點(diǎn)的影響力,通過(guò)影響力確定節(jié)點(diǎn)的標(biāo)簽更新順序,在標(biāo)簽更新時(shí)按照節(jié)點(diǎn)影響力大小的先后順序進(jìn)行更新;最后,改進(jìn)的標(biāo)簽更新方式在節(jié)點(diǎn)標(biāo)簽的更新時(shí)考慮了鄰居的觀點(diǎn),節(jié)點(diǎn)每次選擇與其觀點(diǎn)最接近的鄰居標(biāo)簽作為自己的標(biāo)簽,可以有效避免標(biāo)簽更新過(guò)程中隨機(jī)性帶來(lái)的誤差放大的問(wèn)題,同時(shí)節(jié)點(diǎn)觀點(diǎn)在更新時(shí)也考慮了當(dāng)前時(shí)刻節(jié)點(diǎn)標(biāo)簽的影響,標(biāo)簽的傳播伴隨著群體觀點(diǎn)的演變,兩者相互影響使得標(biāo)簽的更新更加具有準(zhǔn)確性。同時(shí)LPA的Qstd為0.045,這也進(jìn)一步說(shuō)明了LPA的不穩(wěn)定性主要是由于標(biāo)簽更新的隨機(jī)性引起的,使用改進(jìn)的標(biāo)簽更新方式可以完全避免標(biāo)簽更新時(shí)隨機(jī)性帶來(lái)的影響。
3 基于改進(jìn)LPA的輿情社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法
該研究首先使用基于情感詞典的SnowNLP對(duì)文本進(jìn)行情感分析。SnowNLP是一個(gè)基于Python寫的工具庫(kù),它將給定文本中的單詞與情感詞典中的單詞配對(duì),并計(jì)算它們的情感值,情感值位于0~1,權(quán)重越接近1表示情緒是積極的,越接近0表示情緒是消極的。鑒于用戶的情緒可以直觀地反映其對(duì)輿論事件的立場(chǎng)[26],故將這些情緒評(píng)分作為用戶對(duì)事件觀點(diǎn)的數(shù)值指標(biāo)。
3.1 算法步驟
基于改進(jìn)LPA的輿情社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)過(guò)程如下:
輸入:輿情社交網(wǎng)絡(luò)G=(V,E);節(jié)點(diǎn)選擇比例k;觀點(diǎn)差距閾值ε。
輸出:社區(qū)發(fā)現(xiàn)C。
a)為網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)賦予一個(gè)唯一的標(biāo)簽和觀點(diǎn)值。
b)根據(jù)2.2.2節(jié)1)中提出的方法,依據(jù)節(jié)點(diǎn)的屬性特征和拓?fù)鋭?shì)計(jì)算各節(jié)點(diǎn)的影響力,按照節(jié)點(diǎn)的影響力大小確定標(biāo)簽的更新順序,并按降序存儲(chǔ)到更新列表中。
c)選取標(biāo)簽更新列表未處理節(jié)點(diǎn)中優(yōu)先級(jí)最高的節(jié)點(diǎn),根據(jù)2.2.1節(jié)1)中提出的方法,依據(jù)節(jié)點(diǎn)的度值按照與鄰居節(jié)點(diǎn)的相似度大小選擇比例為k的鄰居節(jié)點(diǎn)作為標(biāo)簽傳播的對(duì)象。
d)依據(jù)選擇出的鄰居節(jié)點(diǎn),根據(jù)2.2.2節(jié)2)中提出的優(yōu)化后輿論動(dòng)力學(xué)模型HK的式(7)和(8)更新節(jié)點(diǎn)的觀點(diǎn);根據(jù)選擇出的鄰居節(jié)點(diǎn)的觀點(diǎn)值依據(jù)式(9)選擇出距離其觀點(diǎn)平均最接近的節(jié)點(diǎn)標(biāo)簽作為自身的標(biāo)簽,并將該節(jié)點(diǎn)標(biāo)記為已處理。
e)重復(fù)步驟c)d),直至列表中的節(jié)點(diǎn)全部被標(biāo)記為已處理。
f)當(dāng)所有節(jié)點(diǎn)的觀點(diǎn)演化前后觀點(diǎn)差距都小于某個(gè)閾值ε,且所有節(jié)點(diǎn)的標(biāo)簽都不在變化時(shí),迭代結(jié)束,否則轉(zhuǎn)步驟c)。
改進(jìn)的LPA在社區(qū)發(fā)現(xiàn)中引入了節(jié)點(diǎn)觀點(diǎn)交互機(jī)制,更加真實(shí)地模擬了社交網(wǎng)絡(luò)輿情中的個(gè)體交互過(guò)程,可以同時(shí)揭示輿情社交網(wǎng)絡(luò)的最終意見(jiàn)模式和社區(qū)結(jié)構(gòu)。其流程如圖3所示。
3.2 算法分析
3.2.1 時(shí)間復(fù)雜度分析
步驟a)中為每個(gè)節(jié)點(diǎn)賦予一個(gè)觀點(diǎn)值和一個(gè)標(biāo)簽,時(shí)間復(fù)雜度為O(n)。步驟b)中節(jié)點(diǎn)影響力的計(jì)算時(shí)間復(fù)雜度主要取決于拓?fù)鋭?shì)的計(jì)算,最壞情況為O(n2),根據(jù)計(jì)算出的節(jié)點(diǎn)影響力采用快速排序算法進(jìn)行降序排序,在平均情況下,快速排序的時(shí)間復(fù)雜度為O(n·log n)。因此,在初始化階段的時(shí)間復(fù)雜度為O(n+n2+n·log n),總的時(shí)間復(fù)雜度為O(n2)。步驟c)~f)中,步驟c)和d)每循環(huán)一次,時(shí)間復(fù)雜度為k·d,k表示交互節(jié)點(diǎn)選擇的比例,d表示節(jié)點(diǎn)的平均度,迭代結(jié)束時(shí)間復(fù)雜度為L(zhǎng)nkd,其中L表示總的迭代次數(shù)。因此,算法總的時(shí)間復(fù)雜度為O(n2+Lnkd)。
3.2.2 收斂性分析
推理1 設(shè)數(shù)列滿足遞推公式xn+1=f(xn),若f(x)可微分,且存在常數(shù)r∈(0,1)使得|f′(x)|≤r,則數(shù)列{xn}收斂。
證明 由于f(x)可微,由拉格朗日中值定理可得|f(xn)-f(a)|=|f′(ξ)|·|xn-a|,由于|f′(x)|≤r,故|f′(ξ)|·|xn-a|≤r|xn-a|,由定理1可知數(shù)列{xn}收斂。
收斂性證明:根據(jù)改進(jìn)的輿論動(dòng)力學(xué)公式(7)可將其簡(jiǎn)化為如下形式:
Ov(t+1)=λOv(t)+b(12)
f(x)=λx+b(13)
對(duì)式(12)兩邊取極限可知,存在常數(shù)a=b/(1-λ)使得f(a)=a。同時(shí),顯然式(13)是可微的,且f′(x)=λ,由前可知0lt;λlt;1,由推理1可知節(jié)點(diǎn)v的觀點(diǎn)序列O收斂。根據(jù)標(biāo)簽更新式(9)可知,節(jié)點(diǎn)的標(biāo)簽在向著相近觀點(diǎn)的節(jié)點(diǎn)標(biāo)簽變化,當(dāng)任意節(jié)點(diǎn)在觀點(diǎn)更新前后的意見(jiàn)差值小于閾值,并且所有節(jié)點(diǎn)的標(biāo)簽都與距離其觀點(diǎn)值最近的鄰居節(jié)點(diǎn)的標(biāo)簽相同時(shí),迭代結(jié)束。此時(shí)節(jié)點(diǎn)相應(yīng)的標(biāo)簽即為節(jié)點(diǎn)所屬社區(qū),同一社區(qū)的節(jié)點(diǎn)將會(huì)具有相近的觀點(diǎn)值,通過(guò)觀察觀點(diǎn)的分布情況也可自然地揭示出主題社區(qū)的分布。
4 實(shí)證研究
4.1 數(shù)據(jù)集
目前在社交網(wǎng)絡(luò)輿情領(lǐng)域并沒(méi)有權(quán)威的公開(kāi)數(shù)據(jù)集,因此使用Python爬蟲(chóng)工具從新浪微博平臺(tái)獲取實(shí)驗(yàn)數(shù)據(jù),對(duì)該研究?jī)?nèi)容進(jìn)行驗(yàn)證。2022年6月10日凌晨,中國(guó)河北省唐山市一家燒烤店發(fā)生一起暴力毆打他人事件,隨后在微博上引發(fā)熱議。針對(duì)該起事件搜集了從10日至30日共計(jì)78 401條相關(guān)微博數(shù)據(jù)。針對(duì)該實(shí)驗(yàn)研究,選取了24日至30日輿情發(fā)展后期的文本數(shù)據(jù)共達(dá)4 374條,將熱度較高的博文作為輿情社交網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的文本集,選擇標(biāo)準(zhǔn)為文本的點(diǎn)贊轉(zhuǎn)發(fā)以及評(píng)論數(shù)較高的文本,依據(jù)該標(biāo)準(zhǔn)最終選取了1 526條文本。
為了方便構(gòu)建網(wǎng)絡(luò),對(duì)式(1)計(jì)算出的結(jié)果進(jìn)行標(biāo)準(zhǔn)化:
其中:du,v為網(wǎng)絡(luò)中節(jié)點(diǎn)u和節(jié)點(diǎn)v的距離,如果du,vgt;1, 則記為無(wú)窮大,相當(dāng)于兩點(diǎn)之間不可達(dá);N為文本集合;n為文本數(shù)量。生成的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖4所示。
4.2 評(píng)價(jià)指標(biāo)
1)模塊度函數(shù)
模塊度函數(shù)是在真實(shí)社區(qū)結(jié)構(gòu)未知的情況下進(jìn)行社區(qū)質(zhì)量評(píng)價(jià)的關(guān)鍵指標(biāo),因此這里采用模塊度函數(shù) Q作為所提算法社區(qū)發(fā)現(xiàn)結(jié)果的評(píng)價(jià)指標(biāo),Q的取值是[0,1],其定義公式為
其中:M是網(wǎng)絡(luò)中邊的數(shù)量;A代表網(wǎng)絡(luò)構(gòu)成的鄰接矩陣,當(dāng)節(jié)點(diǎn)vi和vj間存在連接邊時(shí),Aij的值為1,否則其值為0;deg(vi)和deg(vj)分別為節(jié)點(diǎn)vi和節(jié)點(diǎn)vj的度數(shù);Li和Lj分別表示節(jié)點(diǎn)vi和vj所屬的社區(qū)標(biāo)簽;δ(Li,Lj)為Kronecker函數(shù),當(dāng)節(jié)點(diǎn)vi和節(jié)點(diǎn)vj位于同一個(gè)社區(qū)時(shí),δ(Li,Lj)的值為1,否則為0。
2)標(biāo)準(zhǔn)化互信息(NMI)
標(biāo)準(zhǔn)化互信息是一種相似性度量方法,其源于信息論。這種方法認(rèn)為如果兩個(gè)劃分越相似,則需要越少的附加信息來(lái)推斷另一個(gè)劃分的分配。它的定義如下:
其中:I(X;Y)表示劃分X和Y之間的互信息;H(X)表示X的熵;NMI的取值是0~1。當(dāng)預(yù)測(cè)的社區(qū)劃分完全獨(dú)立于真實(shí)的社區(qū)劃分時(shí),NMI=0;相反,當(dāng)預(yù)測(cè)的社區(qū)與真實(shí)社區(qū)劃分完全匹配時(shí),NMI=1。
3)ARI指標(biāo)
ARI指標(biāo)是兩個(gè)聚類之間相似性的另一種衡量標(biāo)準(zhǔn),定義如下:
其中:RI是兩個(gè)劃分之間的相似性度量,它考慮了所有樣本對(duì)。通過(guò)計(jì)算分配給預(yù)測(cè)的社區(qū)劃分和真實(shí)的社區(qū)劃分的相同和不同樣本對(duì)的數(shù)量來(lái)評(píng)價(jià)社區(qū)發(fā)現(xiàn)的質(zhì)量。具體表現(xiàn)形式如下:
4.3 實(shí)驗(yàn)結(jié)果分析
4.3.1 改進(jìn)LPA社區(qū)劃分質(zhì)量對(duì)節(jié)點(diǎn)選擇比例k的敏感度分析
為研究節(jié)點(diǎn)選擇比例參數(shù)k對(duì)改進(jìn)算法的社區(qū)模塊度的影響,針對(duì)不同參數(shù)k實(shí)驗(yàn)一百次統(tǒng)計(jì)結(jié)果如圖5所示,其中,誤差棒表示標(biāo)準(zhǔn)差,同時(shí)由于無(wú)法獲悉該輿情社交網(wǎng)絡(luò)真實(shí)的社區(qū)結(jié)構(gòu),這里NMI和ARI指標(biāo)均以Louvain算法的劃分結(jié)果作為真實(shí)的社區(qū)標(biāo)準(zhǔn)。
由圖5可知,隨著k的增大,模塊度Q、NMI和ARI指標(biāo)值不斷提高,當(dāng)達(dá)到臨界值0.7左右時(shí),之后的增長(zhǎng)變化較為緩慢。這是因?yàn)楫?dāng)k較小時(shí),交互節(jié)點(diǎn)的數(shù)量是影響社區(qū)發(fā)現(xiàn)的主要因素,較小的節(jié)點(diǎn)選擇比例限制了節(jié)點(diǎn)之間的交流,導(dǎo)致觀點(diǎn)交互和標(biāo)簽傳播只發(fā)生在較少的節(jié)點(diǎn)之間,社區(qū)發(fā)現(xiàn)質(zhì)量并不理想,提高節(jié)點(diǎn)的選擇比例可以顯著提高社區(qū)發(fā)現(xiàn)質(zhì)量,當(dāng)k逐漸增加到一個(gè)臨界值之后,節(jié)點(diǎn)之間達(dá)到了充分的交互使得模塊度增長(zhǎng)緩慢。同時(shí)無(wú)論k值為多少,改進(jìn)算法的各指標(biāo)值的標(biāo)準(zhǔn)差都很接近,這說(shuō)明節(jié)點(diǎn)選擇的隨機(jī)性對(duì)算法穩(wěn)定性的影響有限,而且節(jié)點(diǎn)的更新順序和基于輿論動(dòng)力學(xué)模型HK的觀點(diǎn)交互機(jī)制能夠很大程度上提高算法的穩(wěn)定性。當(dāng)k等于0.85和0.9時(shí)社區(qū)模塊度Q、NMI和ARI指標(biāo)均高于其他情況,以模塊度指標(biāo)為例,當(dāng)k等于0.85和0.9時(shí),模塊度平均值分別達(dá)到0.616和0.629均高于其他情況(k等于1時(shí)的模塊度值為0.602),這也進(jìn)一步驗(yàn)證了適當(dāng)?shù)墓?jié)點(diǎn)選擇比例可以提高社區(qū)的發(fā)現(xiàn)質(zhì)量,避免了算法陷入局部最優(yōu)的情形。
4.3.2 改進(jìn)LPA的社區(qū)劃分質(zhì)量對(duì)比分析
由4.3.1節(jié)的實(shí)驗(yàn)分析可知,當(dāng)k值取0.85或者0.9時(shí),三種評(píng)價(jià)指標(biāo)均達(dá)到最好的效果,因此這里將參數(shù)k等于0.85和0.9時(shí)提出的算法與傳統(tǒng)LPA和其他三種改進(jìn)算法ITSLR[27]、WILPAS[28]、TS[29]進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖6所示。
從圖6中可知,當(dāng)k取值0.85和0.9時(shí),所提算法的社區(qū)發(fā)現(xiàn)質(zhì)量明顯好于傳統(tǒng)的LPA算法以及ITSLR、WILPAS、TS三種改進(jìn)算法,穩(wěn)定性和另外三種改進(jìn)算法一樣顯著優(yōu)于傳統(tǒng)的LPA算法。所提算法在穩(wěn)定性方面的提升主要源于標(biāo)簽更新時(shí)確定的節(jié)點(diǎn)更新順序和節(jié)點(diǎn)的觀點(diǎn)值;社區(qū)發(fā)現(xiàn)質(zhì)量方面的提升主要源于適當(dāng)?shù)墓?jié)點(diǎn)選擇方式和標(biāo)簽更新時(shí)結(jié)合了觀點(diǎn)交互的機(jī)制,而傳統(tǒng)算法和ITSLR、WILPAS、TS三種改進(jìn)算法僅是依據(jù)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)特征進(jìn)行社區(qū)發(fā)現(xiàn),缺乏輿情網(wǎng)絡(luò)現(xiàn)實(shí)場(chǎng)景的考量,因此表現(xiàn)并不理想。其中由于ITSLR算法完全排除了算法隨機(jī)性的影響,所以算法的模塊度值、NMI和ARI值均不再變化。所提算法與ITSLR算法最主要的區(qū)別就在于所提算法在標(biāo)簽傳播時(shí)引入了隨機(jī)性,因此算法并不穩(wěn)定,但是相較于傳統(tǒng)算法標(biāo)簽傳播方式(k=1)在社區(qū)發(fā)現(xiàn)質(zhì)量上有所提升,避免了算法陷入局部最優(yōu),這里從圖5也可以看出。此外,k等于0.9時(shí)的社區(qū)發(fā)現(xiàn)質(zhì)量要稍好于k等于0.85時(shí)的社區(qū)發(fā)現(xiàn)質(zhì)量,但穩(wěn)定性方面要稍遜色于后者。
4.4 社區(qū)發(fā)現(xiàn)與觀點(diǎn)分布情況分析
為研究改進(jìn)算法迭代結(jié)束時(shí),輿情社交網(wǎng)絡(luò)中社區(qū)發(fā)現(xiàn)結(jié)果與節(jié)點(diǎn)觀點(diǎn)真實(shí)分布情關(guān)系,針對(duì)每組參數(shù)k在相同條件下實(shí)驗(yàn)一百次,統(tǒng)計(jì)出實(shí)驗(yàn)結(jié)果最頻繁獲得的數(shù)據(jù),如圖7所示,其中φ表示社區(qū)發(fā)現(xiàn)的數(shù)量,δ表示觀點(diǎn)一致的社區(qū)數(shù)量,這里假設(shè)若兩個(gè)節(jié)點(diǎn)之間的觀點(diǎn)值不超過(guò)0.01,則認(rèn)為它們屬于同一社區(qū),誤差棒表示社區(qū)數(shù)量的標(biāo)準(zhǔn)差。圖7顯示,隨著k的增加,社區(qū)在達(dá)到穩(wěn)定狀態(tài)后,社區(qū)數(shù)量呈減少趨勢(shì)。當(dāng)k達(dá)到臨界值時(shí),社區(qū)數(shù)量保持一致。此外,實(shí)驗(yàn)結(jié)果還顯示,k值在達(dá)到0.8以后社區(qū)數(shù)量保持一致且不再變化,這表明在社區(qū)演化達(dá)到穩(wěn)定后,屬于同一社區(qū)的節(jié)點(diǎn)持有近乎相同的觀點(diǎn)。
這里選取了k值為0.85和0.9的社區(qū)發(fā)現(xiàn)結(jié)果如圖8(a)和(b)所示。其社區(qū)發(fā)現(xiàn)個(gè)數(shù)均為四個(gè),其中,紫色、黃色、藍(lán)色、綠色社區(qū)(見(jiàn)電子版)分別表示主題①、②、③、④,具體來(lái)說(shuō):①指責(zé)此次暴力打人事件,要求嚴(yán)懲;②對(duì)警方通報(bào)中的受害者“輕傷”認(rèn)定表示質(zhì)疑;③黑惡勢(shì)力活動(dòng)頻繁,批評(píng)地方“保護(hù)傘”的存在;④女性安全成為焦點(diǎn),討論女性如何能有效地自我保護(hù)。以圖8(b)為例,主題①約占網(wǎng)絡(luò)規(guī)模的29%,其社區(qū)觀點(diǎn)值穩(wěn)定在0.17附近;主題②約占網(wǎng)絡(luò)規(guī)模的24%,其社區(qū)觀點(diǎn)值穩(wěn)定在0.32附近;主題③約占網(wǎng)絡(luò)規(guī)模的26%,其社區(qū)觀點(diǎn)值穩(wěn)定在0.21附近;主題④約占網(wǎng)絡(luò)規(guī)模的21%,其社區(qū)觀點(diǎn)值穩(wěn)定在0.43附近。分析來(lái)看,網(wǎng)民主題比較尖銳且觀點(diǎn)呈現(xiàn)消極情緒,急需相關(guān)部門下場(chǎng)維護(hù)社會(huì)和網(wǎng)絡(luò)生態(tài)環(huán)境穩(wěn)定。針對(duì)本算法的實(shí)驗(yàn)分析,進(jìn)一步給出如下建議:
a)識(shí)別關(guān)鍵主題,把握輿情發(fā)展態(tài)勢(shì)。圖5實(shí)驗(yàn)分析表明,綜合了適當(dāng)?shù)墓?jié)點(diǎn)選擇比例和觀點(diǎn)交互機(jī)制的LPA算法相較于傳統(tǒng)算法可以顯著地提高主題社區(qū)發(fā)現(xiàn)的質(zhì)量,這有助于準(zhǔn)確了解公眾關(guān)注的核心問(wèn)題和觀點(diǎn)。政府和相關(guān)機(jī)構(gòu)應(yīng)密切關(guān)注這些關(guān)鍵主題,并針對(duì)性地制定引導(dǎo)策略。對(duì)于積極正面的主題社區(qū),可以通過(guò)增加相關(guān)信息的傳播力度來(lái)強(qiáng)化其影響力,鼓勵(lì)公眾參與討論,形成正面的社會(huì)氛圍。對(duì)于負(fù)面情緒較多的主題社區(qū),如指責(zé)暴力事件或批評(píng)現(xiàn)象,需要通過(guò)有效的溝通和引導(dǎo),將公眾情緒轉(zhuǎn)換為建設(shè)性的意見(jiàn),促進(jìn)社會(huì)問(wèn)題的解決。
b)減少信息不對(duì)稱,促進(jìn)形成和諧的社會(huì)共識(shí)。輿情事件發(fā)生后,網(wǎng)民受非理性因素的影響,網(wǎng)絡(luò)空間中最初往往充斥著各種言論,通過(guò)對(duì)不同參數(shù)k的觀點(diǎn)分布情況的實(shí)驗(yàn)分析可知,充分的交互是輿論達(dá)成共識(shí)的關(guān)鍵,要控制輿情朝向有利的方向發(fā)展就需要在尊重民意和信息自由的基礎(chǔ)上,確保信息的真實(shí)性和公正性,避免以訛傳訛。因此,應(yīng)建立官方核實(shí)渠道,通過(guò)權(quán)威機(jī)構(gòu)對(duì)輿論焦點(diǎn)或熱點(diǎn)問(wèn)題進(jìn)行及時(shí)、準(zhǔn)確的信息發(fā)布與澄清,減少信息不對(duì)稱。例如,針對(duì)網(wǎng)民提到的如對(duì)警方通報(bào)的質(zhì)疑等負(fù)面情緒,相關(guān)部門應(yīng)及時(shí)作出回應(yīng),提供準(zhǔn)確信息,減少誤解和猜疑,維護(hù)社會(huì)穩(wěn)定。
5 結(jié)束語(yǔ)
通過(guò)以上實(shí)驗(yàn)分析可知,本算法能對(duì)輿情社交網(wǎng)絡(luò)中的主題社區(qū)進(jìn)行有效發(fā)現(xiàn)并能夠反映出節(jié)點(diǎn)間的觀點(diǎn)分布情況,對(duì)于社交網(wǎng)絡(luò)輿情的治理能夠提供有力的參考,但還存在以下問(wèn)題:a)算法無(wú)法識(shí)別出具有重疊的節(jié)點(diǎn),即對(duì)于多個(gè)主題均具有討論的節(jié)點(diǎn);b)在解決原算法容易陷入局部最優(yōu)問(wèn)題的過(guò)程中,為了增強(qiáng)算法的探索性,引入了一定的隨機(jī)因素,導(dǎo)致本文算法的不穩(wěn)定性無(wú)法完全避免,但相較于原算法,本文算法的穩(wěn)定性依然得到了較大的提升,這里從圖6中也可以明顯看到。
參考文獻(xiàn):
[1]祝華新, 潘宇峰, 廖燦亮. 2023年中國(guó)互聯(lián)網(wǎng)輿情分析報(bào)告 [M]// 李培林, 陳光金, 王春光, 等. 2024年中國(guó)社會(huì)形勢(shì)分析與預(yù)測(cè). 北京: 社會(huì)科學(xué)文獻(xiàn)出版社, 2023: 262-277. (Zhu Huaxin, Pan Yufeng, Liao Canliang. China Internet public opinion analysis report 2023 [M]// Li Peilin, Chen Guangjin, Wang Chunguang, et al. Analysis and Forecast of China’s Social Situation in 2024. Beijing: Social Sciences Academic Press, 2023: 262-277.)
[2]Girvan M, Newman M E J. Community structure in social and biological networks [J]. Proceedings of the National Academy of Sciences, 2002, 99(12): 7821-7826.
[3]Li Qingqing, Ma Huifang, Li Ju, et al. Attributed multi-query community search via random walk similarity [J]. Information Sciences, 2023, 631: 91-107.
[4]Agrawal S, Patel A. SAG cluster: an unsupervised graph clustering based on collaborative similarity for community detection in complex networks [J]. Physica A: Statistical Mechanics and its Applications, 2021, 563: 125459.
[5]Wu Chunrong, Peng Qinglan, Lee Jia, et al. Effective hierarchical clustering based on structural similarities in nearest neighbor graphs [J]. Knowledge-Based Systems, 2021, 228: 107295.
[6]Paul A, Dutta A. Community detection using local group assimilation [J]. Expert Systems with Applications, 2022, 206: 117794.
[7]劉井蓮, 王大玲, 馮時(shí), 等. 一種基于模糊相似關(guān)系的局部社區(qū)發(fā)現(xiàn)方法 [J]. 軟件學(xué)報(bào), 2020, 31(11): 3481-3491. (Liu Jinglian, Wang Daling, Feng Shi, et al. Local community discovery approach based on fuzzy similarity relation [J]. Journal of Software, 2020, 31(11): 3481-3491.)
[8]Jiang Wanchang, Zhang Xiaoxi, Zhu Weihua. Community detection using closeness similarity based on common neighbor node clustering entropy [J]. KSII Trans on Internet amp; Information Systems, 2022, 16(8):2587-2605.
[9]Sahu S, Rani T S. A neighbour-similarity based community discovery algorithm [J]. Expert Systems with Applications, 2022, 206: 117822.
[10]Newman M E J, Girvan M. Finding and evaluating community structure in networks [J]. Physical Review E, 2004, 69(2): 026113.
[11]Sobolevsky S, Belyi A. Graph neural network inspired algorithm for unsupervised network community detection [J]. Applied Network Science, 2022, 7(1):00500.
[12]Gibson R A, Mucha P J. Finite-state parameter space maps for pru-ning partitions in modularity-based community detection [J]. Scien-tific Reports, 2022, 12(1): 15928.
[13]Rustamaji H C, Kusuma W A, Nurdiati S, et al. Community detection with greedy modularity disassembly strategy [J]. Scientific Reports, 2024, 14(1): 4694.
[14]Shang Ronghua, Bai Jing, Jiao Lichen, et al. Community detection based on modularity and an improved genetic algorithm [J]. Physica A: Statistical Mechanics and its Applications, 2013, 392(5): 1215-1231.
[15]Raghavan U N, Albert R, Kumara S. Near linear time algorithm to detect community structures in large-scale networks [J]. Physical Review E, 2007, 76(3): 036106.
[16]劉鑄, 錢曉東. 基于改進(jìn)LPA算法的去中心化電子商務(wù)網(wǎng)絡(luò)消費(fèi)者類別劃分算法 [J]. 數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn), 2023, 7(10): 25-36. (Liu Zhu, Qian Xiaodong. A decentralized classification algorithm for online consumers based on improved LPA [J]. Data Analysis and Knowledge Discovery, 2023, 7(10): 25-36.)
[17]付立東, 劉佳會(huì), 王秋紅. 基于密度峰值的標(biāo)簽傳播社區(qū)發(fā)現(xiàn)算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(8): 2323-2328. (Fu Lidong, Liu Jiahui, Wang Qiuhong. Label propagation community discovery algorithm based on density peak [J]. Application Research of Computers, 2023, 40(8): 2323-2328.)
[18]Liu Miaomiao, Yang Jinyun, Guo Jingfeng, et al. A label propagation community discovery algorithm combining seed node influence and neighborhood similarity [J]. Knowledge and Information Systems, 2024, 66(4): 2625-2649.
[19]Douadi A, Kamel N, Sais L. Label propagation algorithm for community discovery based on centrality and common neighbours [J]. The Journal of Supercomputing, 2024,80(8):11816-11842.
[20]高兵, 宋敏, 鄒啟杰, 等. 基于圖嵌入和多標(biāo)簽傳播的重疊社區(qū)檢測(cè)算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41(5): 1428-1433. (Gao Bing, Song Min, Zou Qijie, et al. Overlapping community detection based on graph embedding and multi-label propagation algorithm [J]. Application Research of Computers, 2024, 41(5): 1428-1433.)
[21]Zhu Xiaojin, Ghahramani Z. Learning from labeled and unlabeled data with label propagation [EB/OL]. (2002). https://www.semanticscholar.org/paper/Learning-from-labeled-and-unlabeled-data-with-label-Zhu-Ghahramani/2a4ca461fa847e8433bab67e7bfe4620371c1-f77?p2df.
[22]辛宇, 謝志強(qiáng), 楊靜. 基于話題概率模型的語(yǔ)義社區(qū)發(fā)現(xiàn)方法研究 [J]. 自動(dòng)化學(xué)報(bào), 2015, 41(10): 1693-1710. (Xin Yu, Xie Zhiqiang, Yang Jing. Semantic community detection research based on topic probability models [J]. Acta Automatica Sinica, 2015, 41(10): 1693-1710.)
[23]Yan Rong, Yuan Wei, Su Xiangdong, et al. FLPA: a fast label propagation algorithm for detecting overlapping community structure [J]. Expert Systems with Applications, 2023, 234: 120971.
[24]Le Q, Mikolov T. Distributed representations of sentences and documents [C]// Proc of International Conference on Machine Learning. 2014: 1188-1196.
[25]ubelj L, Bajec M. Robust network community detection using ba-lanced propagation [J]. The European Physical Journal B, 2011, 81: 353-362.
[26]蘇辀恒, 張敏, 王錦. 圖書(shū)情報(bào)領(lǐng)域情感研究現(xiàn)狀述評(píng) [J]. 圖書(shū)情報(bào)工作, 2022, 66(6): 137-147. (Su Zhouheng, Zhang Min, Wang Jin. Review on the current status of emotion research in the field of library and information science [J]. Library and Information Service, 2022, 66(6): 137-147.)
[27]Liu Miaomiao, Yang Jinyun, Guo Jingfeng, et al. An improved two-stage label propagation algorithm based on LeaderRank [J]. PeerJ Computer Science, 2022, 8: 981.
[28]Arab M, Hasheminezhad M. Efficient community detection algorithm with label propagation using node importance and link weight [J]. International Journal of Advanced Computer Science and Applications, 2018, 9(5): 090566.
[29]You Xuemei, Ma Yinghong, Liu Zhiyuan. A three-stage algorithm on community detection in social networks [J]. Knowledge-Based Systems, 2020, 187: 104822.