盧天旭,余正濤,黃于欣+
(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500; 2.昆明理工大學(xué) 云南省人工智能重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
涉案輿情由于其涉案的特殊性,通常具備敏感性和易爆發(fā)性,如何有效地進(jìn)行涉案輿情監(jiān)管是一個(gè)關(guān)鍵問(wèn)題。而涉案話題包含了涉案輿情信息的準(zhǔn)確凝練和大多數(shù)網(wǎng)民的關(guān)注點(diǎn),及時(shí)發(fā)現(xiàn)涉案新聞的話題并疏導(dǎo)涉案輿情對(duì)于維護(hù)社會(huì)穩(wěn)定而言至關(guān)重要。涉案新聞話題發(fā)現(xiàn)是指在司法案件相關(guān)的新聞信息中,針對(duì)同一案件把描述相同話題的新聞信息歸到同一個(gè)話題簇中,可以轉(zhuǎn)化為一個(gè)話題級(jí)的聚類任務(wù)。目前現(xiàn)有的話題發(fā)現(xiàn)模型主要是通過(guò)對(duì)文檔進(jìn)行表征和使用聚類算法計(jì)算文檔相似度度量這兩個(gè)問(wèn)題上實(shí)現(xiàn)的。通過(guò)研究[1-3]發(fā)現(xiàn)這些方法在處理大規(guī)模涉案新聞?wù)Z料數(shù)據(jù)時(shí)依賴詞頻統(tǒng)計(jì)信息,表征質(zhì)量不高,對(duì)于同一案件不同話題下的新聞文檔,無(wú)法區(qū)分共現(xiàn)詞較少但屬于同一話題的情況,且使用的聚類方法對(duì)數(shù)據(jù)輸入順序敏感。此外,應(yīng)用主題模型在話題檢測(cè)發(fā)現(xiàn)、熱點(diǎn)主題挖掘以及子話題關(guān)聯(lián)等相關(guān)研究任務(wù)上也取得了一定的效果。但通過(guò)研究[4,5]發(fā)現(xiàn),這些方法捕獲的主題信息由于相似度過(guò)高而被歸為同一個(gè)主題下,同樣不能夠很好地區(qū)分同一案件不同話題下的新聞文檔,這些研究表明了話題發(fā)現(xiàn)任務(wù)很大程度上依賴于文檔的表征能力。因此,認(rèn)為提高涉案新聞文本表征的能力才能得到質(zhì)量更好的涉案新聞話題簇,從而提高話題發(fā)現(xiàn)的準(zhǔn)確性。
近年來(lái)國(guó)內(nèi)外學(xué)者針對(duì)涉案領(lǐng)域話題發(fā)現(xiàn)研究較少,在通用領(lǐng)域,目前話題發(fā)現(xiàn)方法集中于使用傳統(tǒng)聚類模型、主題模型以及改進(jìn)型的聚類模型等方法實(shí)現(xiàn)。
基于傳統(tǒng)聚類模型的話題發(fā)現(xiàn)方法旨在利用基于劃分、密度、增量等經(jīng)典的聚類算法來(lái)計(jì)算文檔樣本之間的歐氏距離,根據(jù)相似度度量實(shí)現(xiàn)話題發(fā)現(xiàn)。Nur'aini等[6]使用經(jīng)典K-means聚類算法實(shí)現(xiàn)了Twitter社交媒體話題發(fā)現(xiàn);Mustakim等[7]使用基于密度的應(yīng)用程序空間聚類DBSCAN(density-based spatial clustering of applications with noise)算法對(duì)Twitter文本數(shù)據(jù)進(jìn)行聚類,挖掘社交媒體中用戶近期感興趣的熱點(diǎn)話題;Zhang等[8]提出了一種基于多視圖文本語(yǔ)義和Single-Pass聚類算法的話題發(fā)現(xiàn)方法, 在財(cái)經(jīng)新聞數(shù)據(jù)集中,通過(guò)融合模型的特征可以實(shí)現(xiàn)從海量數(shù)據(jù)中獲取對(duì)投資者有效的話題信息。
基于主題模型的話題發(fā)現(xiàn)方法通過(guò)LDA(latent dirichlet allocation)等常見(jiàn)的主題模型以及衍生模型,基于詞袋模型考慮詞條的共現(xiàn),生成新聞文檔的主題分布。Rortais等[9]使用LDA主題模型快速檢測(cè)媒體中特定的食品欺詐事件,通過(guò)探索大量文檔,發(fā)現(xiàn)與欺詐事件相關(guān)的話題,并組織和總結(jié)識(shí)別其中包含的話題的文本文檔;Kumar等[10]提出了一種用于短文本流聚類的在線語(yǔ)義增強(qiáng)Dirichlet主題模型,將語(yǔ)義信息集成到一個(gè)新的圖形模型中,并在每個(gè)輸入的短文本中自動(dòng)聚類,解決話題發(fā)現(xiàn)中短文本語(yǔ)義稀疏問(wèn)題;Fan等[11]提出了一種基于分層貝葉斯非參數(shù)框架在線新聞話題發(fā)現(xiàn)和跟蹤方法,該方法允許在語(yǔ)料庫(kù)中的不同新聞故事之間共享話題,應(yīng)用于在線新聞數(shù)據(jù)流上取得了一定的效果。
基于改進(jìn)型聚類模型的話題發(fā)現(xiàn)方法是在經(jīng)典的聚類算法的基礎(chǔ)上,融入其它模塊以增強(qiáng)數(shù)據(jù)的表示,解決經(jīng)典聚類算法自身的缺陷。Li等[12]提出了一種基于時(shí)間窗口的改進(jìn)的基于密度的DBSCAN算法,以實(shí)現(xiàn)更加準(zhǔn)確的話題發(fā)現(xiàn),并具有降低時(shí)間復(fù)雜度的輔助優(yōu)勢(shì);Xiao等[13]提出了一種基于圖形分解的新型文檔表示方法,將每個(gè)新聞文檔分解為不同的語(yǔ)義單元,然后構(gòu)建語(yǔ)義單元之間的關(guān)系以形成膠囊語(yǔ)義圖,最后通過(guò)Single-Pass算法實(shí)現(xiàn)新聞文檔的話題發(fā)現(xiàn);Wu等[14]基于BTM(bayesian sparseto-pic model)和GloVe(global vectors)相似性線性融合的方法,將微博短文本分別使用BTM模型和GloVe詞向量建模,計(jì)算兩種不同的相似度,將兩種相似度線性融合作為距離函數(shù),實(shí)現(xiàn)K-means聚類,提高了微博短文本話題發(fā)現(xiàn)精度。
已有的話題發(fā)現(xiàn)方法在處理通用領(lǐng)域的任務(wù)時(shí)已經(jīng)取得了不錯(cuò)的效果,但是在涉案領(lǐng)域的話題發(fā)現(xiàn)任務(wù)上效果表現(xiàn)較差,這是由于這些方法所使用相似度度量方法在計(jì)算高維數(shù)據(jù)時(shí)效率偏低,且不具備較強(qiáng)的涉案新聞表征能力。
近年來(lái)深度學(xué)習(xí)在大規(guī)模數(shù)據(jù)表征和處理方面表現(xiàn)突出,在聚類算法上融入深度學(xué)習(xí)強(qiáng)大的表征能力越來(lái)越受到重視。Xie等提出模型的聚類不是從數(shù)據(jù)本身來(lái)聚類,而是學(xué)習(xí)到數(shù)據(jù)到隱空間的映射,然后設(shè)置了聚類優(yōu)化目標(biāo)來(lái)學(xué)習(xí)隱空間的聚類;Yang等[15]未采用以往方法的先降維再進(jìn)行聚類的模式,認(rèn)為聯(lián)合這兩個(gè)過(guò)程可以得到更好的聚類效果,提出一種基于深度網(wǎng)絡(luò)降維和K-means聚類的聯(lián)合優(yōu)化準(zhǔn)則。這些方法在涉案新聞表征能力上都明顯強(qiáng)于以往的話題發(fā)現(xiàn)方法,因此本文考慮將深度學(xué)習(xí)融入聚類算法,并應(yīng)用到涉案新聞話題發(fā)現(xiàn)任務(wù)中以提高模型的準(zhǔn)確性。本文在學(xué)習(xí)數(shù)據(jù)樣本的表征中考慮到了數(shù)據(jù)樣本之間關(guān)系的重要性,提出一種融合近鄰標(biāo)題圖的涉案新聞話題發(fā)現(xiàn)方法,既考慮到新聞文檔數(shù)據(jù)自身的特征,又學(xué)習(xí)到標(biāo)題關(guān)系間的潛在相似性,通過(guò)深度網(wǎng)絡(luò)和圖卷積網(wǎng)絡(luò)學(xué)習(xí)的表征融合,來(lái)提高涉案新聞話題發(fā)現(xiàn)聚類的準(zhǔn)確性。
針對(duì)已有的話題發(fā)現(xiàn)方法在涉案新聞話題發(fā)現(xiàn)任務(wù)中準(zhǔn)確度不高,難以區(qū)分同一案件話題下新聞信息的問(wèn)題,本文提出融合近鄰標(biāo)題圖的涉案新聞話題發(fā)現(xiàn)模型,模型框架如圖1所示。該模型主要分為5部分,分別為標(biāo)題編碼模塊、近鄰標(biāo)題圖的構(gòu)建、文檔特征提取模塊、標(biāo)題結(jié)構(gòu)信息提取模塊和指導(dǎo)模塊。
圖1 融合近鄰標(biāo)題圖的涉案新聞話題發(fā)現(xiàn)模型
標(biāo)題編碼模塊用于編碼涉案新聞話題數(shù)據(jù)集中標(biāo)題部分,通過(guò)BERT(bidirectional encoder representation from transformers)預(yù)訓(xùn)練模型[16]訓(xùn)練完成后能夠獲得標(biāo)題的表征,以便接下來(lái)構(gòu)建近鄰標(biāo)題圖。BERT模型是由多個(gè)Transformer模型[17]組合而成的,其訓(xùn)練方式分為兩個(gè)任務(wù):
其一是隨機(jī)選擇15%的詞用于預(yù)測(cè),其中80%采用MASK符號(hào)遮蓋,10%用隨機(jī)詞替換,其余保持不變,這使得模型傾向于依賴上下文來(lái)預(yù)測(cè)詞匯,具備一定的糾錯(cuò)能力;其二是預(yù)測(cè)兩句話是否為連貫文本。因此BERT模型在結(jié)束訓(xùn)練后能夠獲得涉案新聞標(biāo)題的單詞表征和句子表征。Transformer模型結(jié)構(gòu)如圖2所示。
具體如下,設(shè)涉案新聞話題數(shù)據(jù)集中標(biāo)題Title數(shù)量為N,Title={title1,title2,…,titleN}, 每條涉案新聞標(biāo)題長(zhǎng)度為S,E={e1,e2,…,eS} 為每條標(biāo)題中詞向量的集合,將標(biāo)題的詞向量輸入到BERT模型中進(jìn)行編碼,可以得到每條標(biāo)題的向量表征。以編碼一條標(biāo)題為例,編碼過(guò)程如圖3所示。
BERT模型要求每條標(biāo)題輸入的詞元表征必須含有3種類型的嵌入,即詞元嵌入rwordi、片段嵌入rA和位置嵌入ri,每條標(biāo)題的詞元前都有一個(gè)[CLS]標(biāo)記用來(lái)表示整個(gè)標(biāo)題句子。將詞向量集合E輸入到BERT模型中,經(jīng)過(guò)多層Transformer網(wǎng)絡(luò)得到每個(gè)詞元各自的表征。其中位于輸出起始位置的[CLS]表征Ti即為整個(gè)標(biāo)題句子的向量表征。將所有標(biāo)題的詞向量分別輸入到BERT模型中編碼,最終得到融合語(yǔ)義信息后的標(biāo)題向量表征集合T,T={T1,T2,…,TN}。
圖2 Transformer模型結(jié)構(gòu)
圖3 BERT編碼涉案新聞標(biāo)題模型結(jié)構(gòu)
近鄰標(biāo)題圖構(gòu)建模塊采用K近鄰算法構(gòu)建近鄰標(biāo)題圖來(lái)提取標(biāo)題的全局特征。設(shè)標(biāo)題數(shù)據(jù)T∈RN×a, 其中每行Ti代表第i個(gè)標(biāo)題樣本,N是樣本數(shù),a代表維度。對(duì)于每個(gè)標(biāo)題樣本,首先找到它的前K個(gè)相似度最高的鄰居作為鄰居節(jié)點(diǎn),并通過(guò)邊來(lái)連接,以構(gòu)成近鄰標(biāo)題圖。利用向量的點(diǎn)積運(yùn)算來(lái)計(jì)算任意兩個(gè)標(biāo)題之間的相似度矩陣Sij,它是一個(gè)N×N維矩陣,如式(1)所示
(1)
對(duì)于任意兩個(gè)標(biāo)題節(jié)點(diǎn)ti和tj,令wij為節(jié)點(diǎn)之間的權(quán)重。如果節(jié)點(diǎn)之間有邊相連,則wij>0,若沒(méi)有邊相連,則wij=0。由于我們構(gòu)建的近鄰標(biāo)題圖是無(wú)向權(quán)重圖,因此wij=wji。圖中任意節(jié)點(diǎn)的度為和它連接的所有邊的權(quán)重之和,定義如式(2)所示
(2)
通過(guò)計(jì)算每個(gè)節(jié)點(diǎn)的度,得到一個(gè)只有主對(duì)角線有值的節(jié)點(diǎn)度矩陣D∈RN×N, 如式(3)所示
(3)
主對(duì)角線的值表示第i行第i個(gè)點(diǎn)的度數(shù)。計(jì)算所有節(jié)點(diǎn)之間的權(quán)重,得到N×N維的鄰接矩陣M,其第i行第j個(gè)元素就是權(quán)重wij,wij=sij。
文檔特征提取模塊的作用是提取涉案新聞話題數(shù)據(jù)集中文檔的局部特征,本文使用深度神經(jīng)網(wǎng)絡(luò)自編碼器來(lái)學(xué)習(xí)有效的數(shù)據(jù)表征。自編碼器是一種表示模型,利用輸入數(shù)據(jù)作為參考,不利用標(biāo)簽監(jiān)督,以用來(lái)提取特征和降維。自編碼器將輸入映射到特征空間,再映射回輸入空間進(jìn)行數(shù)據(jù)重構(gòu)。設(shè)自編碼器有L層,編碼器學(xué)到的第L層的表征如式(4)所示
H(l)=σ(Wenc(l)H(l-1)+benc(l))
(4)
其中,σ為relu函數(shù),Wenc(l)為編碼器中第l層的變換矩陣,benc(l)為偏置。H(0)表示為原始文檔數(shù)據(jù)X。
H(l)=σ(Wdec(l)H(l-1)+bdec(l))
(5)
文檔特征提取模塊的損失函數(shù)如式(6)所示
(6)
通過(guò)最小化重構(gòu)誤差和梯度下降算法不斷優(yōu)化網(wǎng)絡(luò)參數(shù)進(jìn)行訓(xùn)練。
圖神經(jīng)網(wǎng)絡(luò)GNN(graph neural network)是一類處理圖結(jié)構(gòu)信息的方法的統(tǒng)稱,其中代表方法是圖卷積神經(jīng)網(wǎng)絡(luò)。圖卷積神經(jīng)網(wǎng)絡(luò)是一個(gè)對(duì)圖數(shù)據(jù)進(jìn)行特征提取的多層神經(jīng)網(wǎng)絡(luò)。傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)可以處理有規(guī)則空間結(jié)構(gòu)的數(shù)據(jù),這些數(shù)據(jù)的結(jié)構(gòu)可以用一維和二維的矩陣來(lái)表示。然而許多數(shù)據(jù)是不具備規(guī)則的空間結(jié)構(gòu)的,傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)就不能處理這些數(shù)據(jù)。在不規(guī)則空間結(jié)構(gòu)的圖數(shù)據(jù)中,每個(gè)節(jié)點(diǎn)有屬于自己的特征信息,每個(gè)節(jié)點(diǎn)還具有結(jié)構(gòu)信息且圖的形狀不規(guī)則,鄰居節(jié)點(diǎn)也不固定。圖卷積網(wǎng)絡(luò)可以從這類數(shù)據(jù)中提取特征,得到圖的嵌入表示,從而實(shí)現(xiàn)邊預(yù)測(cè)、節(jié)點(diǎn)分類等任務(wù)。在模型計(jì)算過(guò)程中,圖卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 圖卷積網(wǎng)絡(luò)結(jié)構(gòu)
網(wǎng)絡(luò)首先對(duì)節(jié)點(diǎn)的特征進(jìn)行抽取,將每個(gè)節(jié)點(diǎn)自身的屬性信息變換后傳送給鄰居節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)收集鄰居節(jié)點(diǎn)的特征,融合局部結(jié)構(gòu)信息,聚集結(jié)構(gòu)信息和屬性信息后做非線性變換以增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力。圖卷積網(wǎng)絡(luò)處理圖數(shù)據(jù)具有以下優(yōu)勢(shì),首先網(wǎng)絡(luò)中節(jié)點(diǎn)的表征與下游任務(wù)具有很好的適應(yīng)性,節(jié)點(diǎn)表征與下游任務(wù)被統(tǒng)一到一個(gè)模型端到端訓(xùn)練,監(jiān)督信號(hào)可以同時(shí)指導(dǎo)卷積層與分類層更新參數(shù)。其次圖卷積網(wǎng)絡(luò)可以同時(shí)學(xué)習(xí)節(jié)點(diǎn)的屬性信息與結(jié)構(gòu)信息,使它們協(xié)同影響節(jié)點(diǎn)的最終表征。
2.4節(jié)提到的文檔特征提取模塊能夠從涉案新聞話題數(shù)據(jù)集的文檔中提取有用的表征,但自編碼器只提取到了文檔局部特征,不能提取到樣本之間的關(guān)聯(lián)關(guān)系。2.3節(jié)構(gòu)建的近鄰標(biāo)題圖蘊(yùn)含了大量的標(biāo)題全局結(jié)構(gòu)信息,使用圖卷積網(wǎng)絡(luò)提取近鄰標(biāo)題圖中的結(jié)構(gòu)特征,并將自編碼器提取到的文檔局部特征集成到圖卷積網(wǎng)絡(luò)中,這樣模型就可以同時(shí)提取到數(shù)據(jù)的兩種不同特征。圖卷積網(wǎng)絡(luò)第l層提取的表征通過(guò)卷積運(yùn)算得到,如式(7)所示
(7)
本文為了使圖卷積網(wǎng)絡(luò)學(xué)習(xí)到的涉案新聞話題數(shù)據(jù)特征同時(shí)具有標(biāo)題的全局特征和文檔的局部特征,將兩種表征U(l-1)和H(l-1)通過(guò)融合因子結(jié)合在一起,得到一種更全面的數(shù)據(jù)表征,如式(8)所示
(8)
(9)
以此類推得到圖卷積網(wǎng)絡(luò)最后一層輸出的表征U(L)。網(wǎng)絡(luò)的輸出端連接了一個(gè)softmax多分類器,最終輸出的結(jié)果如式(10)所示
(10)
模型得到的結(jié)果U是一個(gè)概率分布,其元素uij表示涉案新聞樣本i屬于簇中心j的概率。
在上一節(jié)中已經(jīng)將自編碼器和圖卷積網(wǎng)絡(luò)學(xué)習(xí)到的表征通過(guò)融合因子結(jié)合了起來(lái),并且得到了概率分布U。但是自編碼器的作用主要是用來(lái)學(xué)習(xí)文檔的局部表征,是一種無(wú)監(jiān)督的學(xué)習(xí),而圖卷積網(wǎng)絡(luò)主要用來(lái)學(xué)習(xí)標(biāo)題的關(guān)系特征,它們都不是直接用來(lái)做聚類任務(wù)的,需要在表征中引入聚類信號(hào)。因此本文使用指導(dǎo)模塊將兩個(gè)模塊統(tǒng)一到一個(gè)框架中同時(shí)進(jìn)行端到端的聚類優(yōu)化訓(xùn)練。
對(duì)于第i個(gè)樣本和第j個(gè)簇,引用自由度為1的student-t分布作為核函數(shù)衡量自編碼器的表征hi和簇心μi之間的距離,如式(11)所示
(11)
其中,hi表示H(L)的第i行,μi是經(jīng)過(guò)K-means算法初始化后的簇心。我們將q視為文檔樣本i被分配到簇j的概率,Q即為所有文檔樣本分配到簇的分布。
為了得到高置信度的分配來(lái)迭代聚類結(jié)果,提高聚類準(zhǔn)確度,構(gòu)造一個(gè)目標(biāo)分布P來(lái)輔助模型訓(xùn)練,如式(12)所示
(12)
在目標(biāo)分布P中,每一個(gè)在文檔樣本分配分布Q中的聚類分配都被先平方再歸一化處理,這樣可以獲得更高置信度的聚類分配,迫使簇內(nèi)的樣本更加接近簇心,簇與簇間的距離最大化,分配更加清晰。指導(dǎo)模塊的損失函數(shù)之一為分布Q和目標(biāo)分布P之間的KL散度損失,如式(13)所示
(13)
通過(guò)最小化損失函數(shù)更新參數(shù),目標(biāo)分布P使自編碼器學(xué)習(xí)到更接近簇心的樣本文檔聚類表征。
為了使標(biāo)題全局特征提取模塊和文檔特征提取模塊在訓(xùn)練迭代過(guò)程中趨于一致,需要將兩個(gè)模塊統(tǒng)一在同一目標(biāo)分布中,因此也可以使用目標(biāo)分布P指導(dǎo)圖卷積網(wǎng)絡(luò)輸出的蘊(yùn)含標(biāo)題全局特征的樣本分布U。指導(dǎo)模塊的損失函數(shù)之二為分布U和目標(biāo)分布P之間的KL散度(Kullback-Leibler divergence)損失,如式(14)所示
(14)
通過(guò)指導(dǎo)模塊的不同權(quán)重參數(shù)可以將兩種不同表征的聚類分配統(tǒng)一在同一個(gè)損失函數(shù)中,模型的整體損失函數(shù)如式(15)所示
(15)
β為平衡損失函數(shù)一和損失函數(shù)二的權(quán)重參數(shù)。整個(gè)模型經(jīng)過(guò)訓(xùn)練達(dá)到穩(wěn)定后,可以將圖卷積網(wǎng)絡(luò)最終輸出的聚類分布U作為涉案新聞話題發(fā)現(xiàn)的最終結(jié)果。
涉案新聞話題發(fā)現(xiàn)任務(wù)屬于針對(duì)司法案件特定領(lǐng)域的任務(wù),目前尚未有公開的涉案新聞話題數(shù)據(jù)集。因此本文在自行構(gòu)建的涉案新聞話題數(shù)據(jù)集的基礎(chǔ)上開展具體工作。
本文通過(guò)分析“百度新聞”、“新浪新聞”、“今日頭條”等各大新聞網(wǎng)站和公眾號(hào)平臺(tái)近年來(lái)的涉案重點(diǎn)新聞,選取了“奔馳車主維權(quán)案”、“孫小果涉黑案”等十余個(gè)網(wǎng)民關(guān)注度較高的案件進(jìn)行涉案新聞話題數(shù)據(jù)集的構(gòu)建。使用爬蟲技術(shù)根據(jù)新聞網(wǎng)站上的案件相關(guān)話題和案件關(guān)鍵詞爬取有關(guān)的新聞數(shù)據(jù),通過(guò)對(duì)爬取的新聞進(jìn)行分析使每條涉案新聞只屬于一個(gè)案件話題,人工標(biāo)注新聞與哪個(gè)案件話題相關(guān),經(jīng)過(guò)數(shù)據(jù)篩選和預(yù)處理,保存為json格式的文件。數(shù)據(jù)的篩選和預(yù)處理過(guò)程包括對(duì)新聞數(shù)據(jù)和案件話題相關(guān)性的人工校準(zhǔn),去除非案件話題相關(guān)的數(shù)據(jù)和重復(fù)的數(shù)據(jù),去除特殊符號(hào)和鏈接等。最終得到每條清晰、準(zhǔn)確的涉案新聞標(biāo)題和文檔,構(gòu)建出涉案新聞話題數(shù)據(jù)集。數(shù)據(jù)集的具體信息見(jiàn)表1。
表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)信息
對(duì)涉案新聞話題發(fā)現(xiàn)的結(jié)果進(jìn)行評(píng)估,本文使用準(zhǔn)確率(Accuracy,ACC)、標(biāo)準(zhǔn)化互信息(normalized mutual information,NMI)和調(diào)整蘭德系數(shù)(adjusted rand index,ARI)作為模型的評(píng)價(jià)指標(biāo)。
準(zhǔn)確率(ACC)是衡量話題發(fā)現(xiàn)算法對(duì)話題簇劃分準(zhǔn)確程度的評(píng)價(jià)指標(biāo)。具體計(jì)算如式(16)所示
(16)
其中,TP,TN,F(xiàn)P,F(xiàn)N為混淆矩陣中的每一項(xiàng),TP和TN分別表示模型與真實(shí)標(biāo)簽同時(shí)判定樣本為正或負(fù),即聚類準(zhǔn)確的樣本,反之FP和FN為聚類錯(cuò)誤的樣本。ACC的取值在0到1之間,取值越大代表話題發(fā)現(xiàn)準(zhǔn)確率越高?;煜仃囈?jiàn)表2。
表2 樣本混淆矩陣
標(biāo)準(zhǔn)化互信息(NMI)是衡量話題發(fā)現(xiàn)聚類結(jié)果與真實(shí)樣本分布之間的熵,NMI的取值在0到1之間,取值越大代表話題發(fā)現(xiàn)聚類效果好,如式(17)所示
(17)
其中,Y表示真實(shí)的樣本分布,C表示話題簇的分布,I(Y;C) 表示Y分布與C分布之間的互信息,H(Y) 與H(C) 表示信息熵。
調(diào)整蘭德系數(shù)(ARI)是衡量話題簇分布和真實(shí)分布的重疊程度的評(píng)價(jià)指標(biāo)。ARI取值在-1到1之間,取值越大代表話題模型效果越好。其計(jì)算公式如式(18)所示
(18)
其中,RI為蘭德系數(shù),E(RI)為蘭德系數(shù)的期望值,計(jì)算公式如式(19)所示
(19)
式中:a,b,c,d為表3中的變量。蘭德系數(shù)變量見(jiàn)表3。
表3 蘭德系數(shù)變量
在模型的參數(shù)設(shè)置方面,本文通過(guò)預(yù)先訓(xùn)練的BERT中文語(yǔ)料庫(kù)來(lái)表征涉案新聞話題數(shù)據(jù)集中的標(biāo)題,詞表為BERT模型自帶詞表,BERT模型包含12層Transformer網(wǎng)絡(luò),每層網(wǎng)絡(luò)包含12個(gè)注意力頭,模型參數(shù)為110 M,隱藏層維數(shù)為768;文檔特征提取模塊中自編碼器的維數(shù)為“輸入-768-768-2000-10”,標(biāo)題全局特征提取模塊中使用了4層圖卷積神經(jīng)網(wǎng)絡(luò)來(lái)迭代近鄰標(biāo)題圖的關(guān)系特征,近鄰標(biāo)題圖中K的個(gè)數(shù)取值為10,話題簇初始簇心由K-means算法經(jīng)過(guò)20次初始化獲得,融合因子中平衡系數(shù)α設(shè)置為0.5;模型訓(xùn)練輪次為200,學(xué)習(xí)率為1e-3,優(yōu)化器采用Adam。
為了驗(yàn)證融合近鄰標(biāo)題圖聯(lián)合標(biāo)題和文檔進(jìn)行話題建模對(duì)提高涉案新聞話題發(fā)現(xiàn)任務(wù)聚類效果的有效性,本文選取8個(gè)模型作為基線模型,分別在涉案新聞話題數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),其基線模型為:經(jīng)典K-means算法、LDA、AE+Kmeans、DeepLDA、DEC、DCN、IDEC和NMC。
(1)K-means[6]是一種經(jīng)典的聚類算法,在給定數(shù)據(jù)和聚類數(shù)目k的基礎(chǔ)上,根據(jù)某個(gè)距離函數(shù)將數(shù)據(jù)分入k個(gè)簇中。
(2)LDA是一種經(jīng)典的主題模型,可將每篇文檔的主題以概率分布的形式給出,可根據(jù)主題分布進(jìn)行聚類。
(3)AE+K-means是一種同時(shí)利用自編碼器的表征和數(shù)據(jù)重構(gòu)并結(jié)合K-means算法的聚類模型。
(4)DeepLDA[18]是一種融合深度神經(jīng)網(wǎng)絡(luò)的主題模型,將文檔的詞袋表示輸入深度神經(jīng)網(wǎng)絡(luò)中,將LDA的輸出作為一個(gè)標(biāo)簽,對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,使神經(jīng)網(wǎng)絡(luò)既能學(xué)習(xí)主題文檔分布,又能學(xué)習(xí)主題詞分布。
(5)DEC利用深度網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)降維,通過(guò)軟分配構(gòu)造數(shù)據(jù)樣本的簇分布,構(gòu)造輔助目標(biāo)分布計(jì)算其與樣本分布的KL散度。
(6)DCN[15]聯(lián)合優(yōu)化降維和聚類任務(wù),利用深度神經(jīng)網(wǎng)絡(luò)逼近任何非線性函數(shù)的能力的同時(shí),保持降維和聚類共同優(yōu)化的優(yōu)勢(shì)。
(7)IDEC[19]考慮到保留數(shù)據(jù)的結(jié)構(gòu),并利用聚類損失作為指導(dǎo),操控特征空間分散數(shù)據(jù)點(diǎn),即模型可以聯(lián)合聚類并學(xué)習(xí)代表性特征。
(8)NMC[20]是一種神經(jīng)主題模型,利用伽馬分布的重參數(shù)化和泊松分布的高斯逼近,開發(fā)了神經(jīng)變分推理算法來(lái)推斷模型參數(shù),在大規(guī)模數(shù)據(jù)和特征稀疏的短文本數(shù)據(jù)上具有優(yōu)勢(shì)。基線模型性能比較見(jiàn)表4。
表4 基線模型性能比較
從表4的實(shí)驗(yàn)結(jié)果中能夠看出,經(jīng)典K-means算法在處理涉案新聞話題數(shù)據(jù)時(shí)效果最差,因?yàn)樗褂迷紨?shù)據(jù),不能很好地進(jìn)行表征,且易受孤立點(diǎn)的影響。LDA主題模型應(yīng)用于通用領(lǐng)域的話題發(fā)現(xiàn)任務(wù)可以取得不錯(cuò)的效果,但是由于涉案新聞數(shù)據(jù)的特殊性,LDA依賴于統(tǒng)計(jì)特征,聚類結(jié)果經(jīng)常出現(xiàn)同類不同案的現(xiàn)象,準(zhǔn)確率仍然不高。AE+K-means方法通過(guò)自編碼器對(duì)數(shù)據(jù)降維后,得到數(shù)據(jù)的表征,再利用K-means算法進(jìn)行聚類,話題簇的準(zhǔn)確性得到了較為明顯的提高,說(shuō)明構(gòu)造準(zhǔn)確有效的表征對(duì)提升聚類準(zhǔn)確率非常重要。DeepLDA方法通過(guò)深度網(wǎng)絡(luò)加強(qiáng)表征,并將LDA作為監(jiān)督信號(hào)后,模型的計(jì)算效率大幅提升,但是由于缺乏標(biāo)題信息等外部知識(shí)和聚類監(jiān)督信號(hào)對(duì)主題分布的幫助,模型的內(nèi)聚性仍然不高。DEC和DCN模型相比較以上基線模型取得了更好的效果,因?yàn)檫@兩種模型都引入了損失函數(shù)或目標(biāo)分布作為監(jiān)督信號(hào),可以同時(shí)學(xué)習(xí)數(shù)據(jù)表征和聚類分配,并優(yōu)化聚類樣本使其更加接近話題簇心。IDEC模型相較于DEC和DCN模型效果又有了一定提升,因?yàn)槟P鸵肓酥貥?gòu)損失可以學(xué)習(xí)到數(shù)據(jù)中具有局部結(jié)構(gòu)保護(hù)的代表性特征。NMC模型是一個(gè)比較新型的神經(jīng)主題模型,相較于其它基線模型,NMC在準(zhǔn)確性指標(biāo)上具有優(yōu)勢(shì),可以較好地模擬具有過(guò)度分散和層次依賴特征的隨機(jī)變量,但受限于數(shù)據(jù)規(guī)模和涉案新聞的特點(diǎn),通過(guò)統(tǒng)計(jì)分布學(xué)習(xí)文檔局部特征仍然具有主題不一致問(wèn)題。
本文方法與其它基準(zhǔn)模型相比取得了更優(yōu)的性能,與NMC基線模型相比,ACC提升了4.33%,NMI提升了2.73%,ARI提升了3.93%。這是因?yàn)榛€方法在做涉案新聞話題發(fā)現(xiàn)任務(wù)時(shí),通常只著重提取文檔自身的局部特征,而同一涉案新聞不同話題下的新聞文檔包含了許多相似案件要素信息,基線方法不能很好地區(qū)分。本文的模型利用圖卷積網(wǎng)絡(luò)提取了近鄰標(biāo)題間的關(guān)聯(lián)關(guān)系,并將其與文檔的局部特征融合起來(lái)以增強(qiáng)標(biāo)題的表征,從而實(shí)現(xiàn)話題建模更好的效果。這也證明了通過(guò)融入近鄰標(biāo)題圖,聯(lián)合標(biāo)題與文檔進(jìn)行話題建模是有效的。
為了驗(yàn)證本文模型各個(gè)模塊的有效性,將模型拆解為主模型去除文檔特征模塊和主模型去除標(biāo)題全局特征模塊兩個(gè)子模型,3個(gè)評(píng)價(jià)指標(biāo)保持不變,最優(yōu)結(jié)果用加粗表示。消融實(shí)驗(yàn)結(jié)果見(jiàn)表5。
表5 簡(jiǎn)化模型性能分析
從消融實(shí)驗(yàn)結(jié)果可以看出,去除模型中的標(biāo)題特征部分,只利用文檔局部特征和指導(dǎo)模塊進(jìn)行建模效果最差,ACC下降了13.7%,NMI下降了11.9%,ARI下降了15.7%。雖然文檔中包含了大量的案件要素信息,但是同一案件下不同話題的新聞文檔要素有很多相似之處,噪聲數(shù)據(jù)多,容易出現(xiàn)同一案件下劃分為同一話題簇的數(shù)據(jù)卻本該屬于不同話題,或?qū)儆谕活愋偷陌讣s不是同一案件的情況。只利用標(biāo)題全局特征和指導(dǎo)模塊建模,效果比僅用文檔特征要好一些,ACC下降了9.3%,NMI下降了7.5%,ARI下降了11.9%。因?yàn)槟P吞崛〉搅私彉?biāo)題間的結(jié)構(gòu)關(guān)系,但是由于標(biāo)題篇幅的限制,所涵蓋案件話題信息的內(nèi)容有限,容易出現(xiàn)標(biāo)題的信息偏置。將標(biāo)題特征與文檔特征結(jié)合起來(lái)建模,即本文主模型,效果提升明顯。在獲取涉案新聞之間的關(guān)聯(lián)關(guān)系的基礎(chǔ)上,同時(shí)引入文檔表征增強(qiáng)標(biāo)題的表示避免偏置可以更好地實(shí)現(xiàn)涉案新聞話題發(fā)現(xiàn),這也從側(cè)面驗(yàn)證了本文模型的有效性。
為了驗(yàn)證調(diào)整融合因子的權(quán)重系數(shù),即式(8)中權(quán)重系數(shù)α是否對(duì)模型性能有提升,本文做了如下實(shí)驗(yàn)。取步長(zhǎng)為0.2的多個(gè)α值分別做對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 不同融合因子權(quán)重系數(shù)對(duì)模型的影響分析
從實(shí)驗(yàn)結(jié)果中可以看出,當(dāng)α取0.5時(shí),本文模型達(dá)到了最好的效果,而當(dāng)α取值比0.5大或者比0.5小時(shí),模型的性能都有所下降。因?yàn)棣潦侨诤弦蜃拥钠胶鈾?quán)重系數(shù),起到平衡標(biāo)題全局特征和文檔局部特征的作用。當(dāng)α過(guò)大時(shí),文檔的局部特征權(quán)重就被削弱,模型只能學(xué)習(xí)到近鄰標(biāo)題圖的關(guān)聯(lián)關(guān)系,缺乏文檔的內(nèi)容信息,容易產(chǎn)生標(biāo)題的信息偏置,圖卷積網(wǎng)絡(luò)容易產(chǎn)生過(guò)度平滑,同時(shí)模型失去了自編碼器的重構(gòu)損失,涉案新聞話題發(fā)現(xiàn)的準(zhǔn)確性會(huì)降低;當(dāng)α過(guò)小時(shí),標(biāo)題的全局特征權(quán)重被削弱,模型學(xué)習(xí)到的表征幾乎全部來(lái)自文檔自身,相似要素不能得到很好的區(qū)分,涉案新聞話題發(fā)現(xiàn)的準(zhǔn)確性同樣會(huì)降低。因此,將融合因子的權(quán)重系數(shù)α設(shè)置為0.5可以很好地融合兩種特征。
為了驗(yàn)證時(shí)間指標(biāo)對(duì)本文模型性能的影響,選取了DEC、IDEC、NMC這3個(gè)在基線對(duì)比實(shí)驗(yàn)中表現(xiàn)較好的模型和本文模型,在時(shí)間指標(biāo)上進(jìn)一步對(duì)比模型的準(zhǔn)確率,如圖6所示。
圖6 不同模型隨訓(xùn)練時(shí)間增加準(zhǔn)確率的變化分析
從訓(xùn)練模型的收斂時(shí)間上可以看出,DEC模型收斂的時(shí)間最快,在模型訓(xùn)練4個(gè)小時(shí)左右即達(dá)到了該模型準(zhǔn)確率的最優(yōu)值,但是準(zhǔn)確率最高僅有0.7602,不能滿足準(zhǔn)確性的要求。而NMC和IDEC模型在準(zhǔn)確性上要比DEC好很多,但受限于模型復(fù)雜程度的影響,需要訓(xùn)練16個(gè)小時(shí)以上才能達(dá)到收斂并達(dá)到最佳準(zhǔn)確率,在實(shí)際應(yīng)用中可操作性較差,不能及時(shí)發(fā)現(xiàn)涉案輿情話題。本文模型雖然沒(méi)有DEC收斂速度快,但是相比另外兩個(gè)對(duì)比模型,僅需一半的時(shí)間就可以達(dá)到收斂,且準(zhǔn)確率可以達(dá)到0.89以上,在實(shí)際應(yīng)用中非常適用于涉案輿情新聞早期傳播的話題發(fā)現(xiàn),對(duì)于有關(guān)部門開展輿情監(jiān)管具有實(shí)際意義,也印證了本文方法的實(shí)用性。
為了進(jìn)一步驗(yàn)證本文方法模型的效果,通過(guò)實(shí)例分析對(duì)比了不同方法話題詞的效果。以涉案話題“孫小果被判處死刑”為例,本文通過(guò)提取不同方法生成的話題簇中新聞文檔的關(guān)鍵詞,來(lái)直觀地展示模型效果。實(shí)驗(yàn)結(jié)果見(jiàn)表6。
表6 實(shí)例分析
從話題詞的質(zhì)量上可以看出,傳統(tǒng)的聚類方法和主題模型方法以及它們的改進(jìn)型方法的話題詞中混入了同類型案件話題詞,提取出了與“孫小果被判處死刑”話題同類型的“操場(chǎng)埋尸案杜少平被判處死刑”的話題詞,說(shuō)明使用原始數(shù)據(jù)以及依賴統(tǒng)計(jì)特征不能區(qū)分涉案新聞的要素信息,導(dǎo)致同類不同案的情況發(fā)生。而使用融入深度學(xué)習(xí)表征的聚類方法的話題詞雖然描述的是同一案件,但是摻雜了同一案件下不同話題的詞語(yǔ),比如“孫小果被判處死刑”的話題詞摻雜了“孫小果案掛牌督辦”的話題詞,這是因?yàn)榇祟惙椒ㄔ谠掝}發(fā)現(xiàn)的過(guò)程中只重視文檔自身的表征,沒(méi)有考慮文檔之間的關(guān)聯(lián),也沒(méi)有融入外部信息指導(dǎo)。本文方法的話題詞全部來(lái)自同一話題,話題發(fā)現(xiàn)準(zhǔn)確率較高,充分說(shuō)明引入標(biāo)題的關(guān)聯(lián)關(guān)系以及聚類指導(dǎo)模塊,適用于涉案新聞話題發(fā)現(xiàn)任務(wù)??梢匀〉幂^好的效果,也驗(yàn)證了本文方法的有效性。
本文針對(duì)涉案新聞話題發(fā)現(xiàn)任務(wù),提出一種融合近鄰標(biāo)題圖,聯(lián)合標(biāo)題和文檔的表征進(jìn)行話題建模的方法。解決了同一案件下話題新聞要素信息較為接近,表征不理想的問(wèn)題,并提升了話題發(fā)現(xiàn)的準(zhǔn)確性指標(biāo)?;谏姘感侣勗掝}數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文方法不僅可以得到質(zhì)量更高的話題簇,而且在模型訓(xùn)練的時(shí)間指標(biāo)上也有優(yōu)勢(shì)。
在未來(lái)的工作中,將探索如何從話題簇中得到準(zhǔn)確的話題表示,并考慮話題關(guān)鍵信息的摘要抽取,以及長(zhǎng)文本的處理工作,來(lái)進(jìn)一步提高話題模型的性能。