楊春霞,馬文文,陳啟崗,桂 強(qiáng)
1.南京信息工程大學(xué) 自動化學(xué)院,南京 210044
2.江蘇省大數(shù)據(jù)分析技術(shù)重點實驗室,南京 210044
3.江蘇省大氣環(huán)境與裝備技術(shù)協(xié)同創(chuàng)新中心,南京 210044
多標(biāo)簽文本分類(multi-label text classification,MLTC)作為自然語言處理(natural language processing,NLP)文本分類的核心任務(wù)之一,旨在從文本內(nèi)容中快速、準(zhǔn)確地挖掘出更為詳細(xì)的標(biāo)簽信息,其在情感分析、新聞分類、問答任務(wù)等應(yīng)用場景均有廣泛應(yīng)用。伴隨著移動社交平臺與互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)絡(luò)文本的數(shù)量爆發(fā)式增長,大量未經(jīng)規(guī)范化的文本數(shù)據(jù)與用戶交互數(shù)據(jù)無疑增加了分類研究的難度。因此,為了更高效地分析處理文本數(shù)據(jù),滿足用戶需求,需要進(jìn)一步完善和提高分類技術(shù)的研究。
相比于單標(biāo)簽文本分類任務(wù)而言,MLTC任務(wù)就是根據(jù)文本數(shù)據(jù)信息,為其自動分配出與之相關(guān)聯(lián)的多個標(biāo)簽,如一篇體育新聞可能同時屬于“籃球”“足球”和“乒乓球”等多個主題,準(zhǔn)確分類的關(guān)鍵在于是否能從上下文語義信息中準(zhǔn)確挖掘出與主題相關(guān)的關(guān)鍵特征。目前針對文本主要特征的提取常使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[1-2]或注意力機(jī)制[3-4]模型,并且均取得不錯的分類效果。然而CNN在利用卷積層提取信息時,只考慮其局部鄰近詞匯的語義信息,忽略了文本單詞之間長距離信息依賴關(guān)系。相反,注意力機(jī)制可以很好捕捉全局詞與詞之間的依賴關(guān)系,為文本中每個詞賦予相應(yīng)的權(quán)重,突出文本中關(guān)鍵詞信息的表示,但缺乏局部上下文語義信息之間的聯(lián)系,這表明單一地從局部或者全局捕獲文本信息并不是最優(yōu)的。
除了對文本信息的提取,最近,肖琳等人[5]將特定文本標(biāo)注的標(biāo)簽信息融入文本信息中,并取得不錯的效果,這初步表明基于語義聯(lián)系的標(biāo)簽信息的融入對提高多標(biāo)簽分類效果有一定幫助,從而也進(jìn)一步驗證了Zhang等人[6]所提出不同標(biāo)簽之間的關(guān)聯(lián)性可以有效提升模型的分類性能的結(jié)論。但是僅僅局限于特定文本標(biāo)簽之間的語義聯(lián)系,一方面部分標(biāo)簽之間存在的緊密連接關(guān)系可能會丟失,另一方面也不能體現(xiàn)出不同標(biāo)簽之間的關(guān)聯(lián)程度。因此,如何挖掘全局標(biāo)簽之間的依賴關(guān)系是目前需要盡快解決的一個問題。
針對以上兩個問題,本文提出融合CNN-自注意力機(jī)制(self attention mechanism,SAM)與圖注意力網(wǎng)絡(luò)(graph attention network,GAT)的多標(biāo)簽文本分類模型(CS-GAT),主要貢獻(xiàn)如下:
(1)本文利用多層CNN與SAM分別提取文本的局部與全局特征信息并進(jìn)行融合,獲取更為全面的特征向量表示。
(2)本文將不同文本標(biāo)簽之間的關(guān)聯(lián)性轉(zhuǎn)變?yōu)榫哂腥中畔⒌倪吋訖?quán)圖,然后利用多層GAT充分挖掘全局標(biāo)簽之間的關(guān)聯(lián)程度。
(3)模型在三個公開英文數(shù)據(jù)集上進(jìn)行實驗,并與相關(guān)的五個主流基線模型作對比,實驗結(jié)果表明,本文提出的CS-GAT模型的分類效果明顯優(yōu)于基線模型。
由于早期機(jī)器學(xué)習(xí)方法效率不高,近年來MLTC任務(wù)的研究更青睞于深度學(xué)習(xí)中神經(jīng)網(wǎng)絡(luò)的研究方法。
文本的類別特征通常由上下文中某幾個短語或詞語來確定,CNN通過對文本連續(xù)詞序列信息進(jìn)行卷積、池化操作來獲取文本局部主要特征信息,如Kim[7]首次利用CNN的卷積、池化層對文本特征進(jìn)行最大化提取,提高了文本在多個領(lǐng)域的分類效果。Liu等人[8]在考慮樣本標(biāo)簽數(shù)量大、數(shù)據(jù)稀疏等問題后利用CNN解決MLTC問題,將動態(tài)池化層從不同角度提取文本主要特征,使得提取效果有了顯著提升。雖然CNN在以上分類任務(wù)的研究中均取得不錯的效果,但缺乏對文本全局信息的考量,如“大量溫室氣體的排放導(dǎo)致全球氣候變暖,隨著美國退出了《巴黎協(xié)定》,這可能會進(jìn)一步加劇這個問題”,CNN可以將其捕獲為“氣候變暖”“美國退出《巴黎協(xié)定》”等局部信息。但從全局來看,如“大量”“退出”“可能”和“加劇”等詞語既可以更加突出文本的主要特征信息,又能在一定程度上削弱無關(guān)信息所帶來的影響,而CNN卻無法將這些全局權(quán)重信息分配給對應(yīng)的特征。
對于全局信息的捕獲,在早期的機(jī)器翻譯模型中,Attention機(jī)制通過重點關(guān)注與當(dāng)前翻譯詞相關(guān)的詞匯信息來提高當(dāng)前詞翻譯的準(zhǔn)確度,從而提高模型的性能?;诖嗽?,You等人[9]使用SAM提取文本特征,Yang等人[10]利用SAM作為編碼器提取文本全局交互信息,均驗證了SAM可以有效捕獲文本內(nèi)容貢獻(xiàn)的差異性。然而SAM只考慮全局詞之間的依賴關(guān)系,卻忽略了局部鄰近詞匯之間的語義聯(lián)系。于此,本文同時利用多層CNN與SAM對文本信息進(jìn)行提取、融合,充分獲取具有文本局部與全局特征的向量表示。
在考慮文本內(nèi)容信息的同時,Xiao等人[11]將文本標(biāo)注的標(biāo)簽信息融入文本信息中,雖然取得不錯的效果,卻忽略了全局標(biāo)簽之間的依賴關(guān)系。在此基礎(chǔ)上,You等人[12]提出AttentionXML,通過構(gòu)建淺而寬的概率標(biāo)簽樹來捕獲與每個標(biāo)簽最相關(guān)的文本部分。Huang等人[13]提出隨機(jī)游走模型,采用廣度優(yōu)先游走和深度優(yōu)先游走對標(biāo)簽節(jié)點進(jìn)行采樣。Xiao等人[14]提出頭-尾網(wǎng)絡(luò),將文本中出現(xiàn)頻率高的標(biāo)簽信息轉(zhuǎn)移到出現(xiàn)頻率低的標(biāo)簽信息,提高了尾部分類器的泛化能力。以上方法雖然考慮了全局標(biāo)簽之間的相關(guān)性,但主要有效解決了尾部標(biāo)簽所產(chǎn)生的影響,而對于不同標(biāo)簽之間的關(guān)聯(lián)程度仍沒有得到很好的處理。在單標(biāo)簽文本分類任務(wù)中,Yao等人[15]依據(jù)文檔-詞、詞-詞之間的聯(lián)系構(gòu)建一個異構(gòu)圖,然后利用圖卷積神經(jīng)網(wǎng)絡(luò)很好地捕獲了全局詞共現(xiàn)關(guān)系。受此啟發(fā),本文將不同文本標(biāo)簽-標(biāo)簽之間的關(guān)聯(lián)性轉(zhuǎn)變?yōu)榫哂腥中畔⒌倪吋訖?quán)圖,然后利用GAT的注意力機(jī)制代替圖卷積神經(jīng)網(wǎng)絡(luò)的靜態(tài)歸一化卷積運算來挖掘全局標(biāo)簽之間的相關(guān)聯(lián)程度。
本文提出的CS-GAT模型分別由文本與標(biāo)簽詞嵌入層、BiLSTM層、融合局部與全局的文本特征提取層、標(biāo)簽圖注意力層、標(biāo)簽文本交互層,自適應(yīng)融合層、模型訓(xùn)練組成,其總體框架如圖1所示。
圖1 模型框架Fig.1 Framework of model
給定訓(xùn)練集{(C1,y1),(C2,y2),…,(Cm,ym)},其中Cm表示第m個文本,每個文本由一系列詞向量{w1,w2,…,wn}所表示,ym為第m個文本對應(yīng)的標(biāo)簽類別,ym∈{0,1}k,其中k表示所有文本包含的標(biāo)簽種類總數(shù)。本文的MLTC任務(wù)是通過訓(xùn)練集對CS-GAT模型的訓(xùn)練,能夠?qū)⑿碌奈礃?biāo)記的樣本分類到k個語義標(biāo)簽中。
本文采用Glove[16]預(yù)訓(xùn)練詞向量對文本與標(biāo)簽中的詞進(jìn)行初始化向量表示,對于文本Cm,N∈Rn×d即將文本信息經(jīng)過詞嵌入層后被映射為一個低維稠密向量矩陣,矩陣的大小為n×d,其中n表示文本中詞的數(shù)量,d表示每個詞向量的維度。同理,標(biāo)簽也由詞嵌入向量矩陣l∈Rk×d表示。根據(jù)Glove模型的共現(xiàn)特性,文本與標(biāo)簽初始化后詞向量之間仍具備一定的語義聯(lián)系。
雙向長短期記憶網(wǎng)絡(luò)(bi-directional long shortterm memory,BiLSTM)可以捕捉文本上下文雙向語義依賴關(guān)系。當(dāng)t時刻輸入的文本詞向量為wt,則單向LSTM序列中t時刻的隱層狀態(tài)ht計算過程如下:
式中,ft、it、ct、ct、ot分別為t時刻遺忘門、輸入門、臨時細(xì)胞狀態(tài)、細(xì)胞狀態(tài)與輸出門值,W與b分別為對應(yīng)的權(quán)重矩陣與偏差項,σ為sigmoid激活函數(shù),tanh為雙曲正切激活函數(shù)。
刻詞向量正反向信息表示與進(jìn)行拼接,得到BiLSTM的輸出表示H,使每個單詞獲取具有上下文語義信息的表示,計算式為:
為了更全面地提取文本特征信息,本文集成了多層CNN與SAM各自的優(yōu)勢,分別從局部與全局兩個角度對文本信息進(jìn)行建模。
2.4.1 局部信息提取層
CNN憑借其適應(yīng)性強(qiáng)[17]、結(jié)構(gòu)簡單、計算復(fù)雜度低等優(yōu)勢廣泛應(yīng)用于NLP各個領(lǐng)域中,本文也將利用其提取文本局部主要特征信息,模型結(jié)構(gòu)如圖2所示。
圖2 CNN模型Fig.2 CNN model
本文選用3個不同長度,寬度均與詞向量長度相同的卷積核通過滑動窗口的移動對BiLSTM的輸出H進(jìn)行局部特征提取,特征圖表示為:
式中,wc為權(quán)重矩陣,m為卷積核的滑動步長,表示從詞向量矩陣第i個位置開始移動m個詞向量所組成的矩陣表示,b為偏差項,f為sigmoid激活函數(shù),vi表示第i個位置的卷積特征值。
為提取文本中的N-gram主要特征,將利用最大池化層對特征圖壓縮并提取其主要特征信息,然后將不同卷積核提取到的特征向量進(jìn)行拼接,形成特征序列ec。
由于考慮最終的輸出與SAM輸出進(jìn)行融合,因此將拼接后的向量ec經(jīng)過全連接層改變其維度,獲取文本最終局部特征表示ec=linear(ec)∈Rn′×2dh。
2.4.2 全局信息提取層
在MLTC任務(wù)中,SAM實質(zhì)是在權(quán)衡上下文全局信息后為文本中每個詞賦予相應(yīng)的權(quán)重,權(quán)重值越大的詞在分類任務(wù)中發(fā)揮的作用就越大,分類效果也就越好。
本文將BiLSTM的輸出H作為SAM的輸入,然后將其分別與三個待訓(xùn)練的參數(shù)矩陣WQ、WK、WV相乘得到查詢矩陣Query、被查詢矩陣Key以及實際特征信息矩陣Value:
然后將Query與Key矩陣做內(nèi)積運算并進(jìn)行歸一化處理,得到每個詞向量對應(yīng)的得分。接著使softmax激活函數(shù)處理得到的每個詞的權(quán)重比例與實際特征信息Value矩陣相乘,獲取具有全局信息的詞向量表示ea。
式中,dk為向量的維度,主要為了防止內(nèi)積值隨著向量的維度增大而增加,進(jìn)而使梯度趨于穩(wěn)定。
2.4.3 特征融合
在獲取文本局部、全局特征表示后,本文將兩者進(jìn)行融合,得到包含局部和全局的語義特征向量X:
將局部與全局特征點組合成特征向量X∈Rn′×2dh作為多標(biāo)簽文本分類實例特征表示,既可以從融合的特征向量中獲得最具差異性的信息表示,又可以增強(qiáng)模型的特征表達(dá)能力。
由于每個文本均包含兩個及以上的標(biāo)簽,不同文本的標(biāo)簽之間可能存在依賴關(guān)系或相關(guān)性。基于此,根據(jù)共現(xiàn)原理,本文由圖G=(V,E)來挖掘標(biāo)簽-標(biāo)簽之間存在的關(guān)聯(lián)性。其中V為標(biāo)簽的節(jié)點表示,E表示標(biāo)簽-標(biāo)簽之間的關(guān)聯(lián)程度。因此,由圖G的拓?fù)浣Y(jié)構(gòu)所構(gòu)成的鄰接矩陣表示為:
式中,nij為兩個標(biāo)簽節(jié)點i、j在所有文檔中共同出現(xiàn)的次數(shù),Cm表示第m個文本。Aij表示將矩陣Xij的對角線元素全部設(shè)置為1,即每個標(biāo)簽節(jié)點的自循環(huán)操作。D為矩陣Aij的度矩陣,即將矩陣Aij進(jìn)行歸一化處理。
圖3 GAT模型Fig.3 GAT model
式中,α為注意力機(jī)制,即標(biāo)簽節(jié)點j對節(jié)點i的重要程度;ω為權(quán)值參數(shù)向量,W為權(quán)重參數(shù)矩陣。LeakyReLU為非線性激活函數(shù),αij為標(biāo)簽j相對于標(biāo)簽i的歸一化注意系數(shù)。k∈Ni表示節(jié)點i的所有一階鄰域節(jié)點,j∈Ni表示節(jié)點i的某一個一階鄰域節(jié)點,其中k、j均包含自身節(jié)點i,σ為非線性激活函數(shù)。
為了更全面地提取標(biāo)簽信息,本文將兩層圖注意力網(wǎng)絡(luò)獲取的標(biāo)簽信息表示進(jìn)行拼接,得到標(biāo)簽特征Gi:
其中,t表示GAT的層數(shù),“||”為拼接符號,αtij為第t次GAT運算中標(biāo)簽j相對于標(biāo)簽i的歸一化注意力系數(shù),Wt為第t次GAT運算中權(quán)重矩陣參數(shù)。
交互注意力機(jī)制(interactive attention mechanism,IAM)通過對兩個句子關(guān)聯(lián)的相似特征進(jìn)行提取,從而捕捉到對應(yīng)句子內(nèi)部重要的語義信息。因此,為了進(jìn)一步加強(qiáng)標(biāo)簽之間的語義聯(lián)系,本文將緊密連接的全局標(biāo)簽信息表示與文本上下文語義信息表示做交互注意力計算,獲取基于文本語義聯(lián)系的全局標(biāo)簽特征表示。
如圖4所示,首先將標(biāo)簽矩陣G與BiLSTM輸出H進(jìn)行點乘運算得到信息交互矩陣M,M中的每個值表示標(biāo)簽與文本信息的相關(guān)性;接著利用soft max激活函數(shù)分別對M的行與列作歸一化處理,獲取文本對標(biāo)簽和標(biāo)簽對文本的注意力分?jǐn)?shù)αij和βij,計算過程如式(22)~(24)所示:
圖4 交互注意力機(jī)制模型Fig.4 Interactive attention mechanism model
式中,⊙為點乘運算,Mij表示文本上下文中第i個詞對第j個標(biāo)簽的相關(guān)性,αij表示上下文中第i個詞對第j個標(biāo)簽的注意力權(quán)重,βij表示第i標(biāo)簽對上下文中第j個詞的注意力權(quán)重。
然后對βij的列取平均得到文本級注意力,接著取標(biāo)簽注意力權(quán)重向量αij與文本級注意力向量-βT的點乘結(jié)果作為交互注意力向量γ。最后將其與標(biāo)簽矩陣G經(jīng)過點乘運算獲取具有文本語義聯(lián)系的全局標(biāo)簽向量表示L,計算過程如下:
在獲取文本特征信息表示X與基于文本語義聯(lián)系的全局標(biāo)簽表示L后,本文采用自適應(yīng)融合策略對兩者進(jìn)行融合操作,從而提高模型的泛化能力。具體做法如下:
首先將文本特征信息表示X與標(biāo)簽信息表示L分別經(jīng)過sigmoid函數(shù)得到分配權(quán)重矩陣θ1與θ2:
式中,θ1、θ2分別表示文本信息、標(biāo)簽信息對預(yù)測標(biāo)簽j所構(gòu)成最終文本表示的重要程度,W1、W2為待訓(xùn)練的參數(shù)矩陣,因此預(yù)測的標(biāo)簽j信息最終表示為:
模型最后將E通過多層感知器對其進(jìn)行預(yù)測:
式中,W3、W4為待訓(xùn)練參數(shù)矩陣,f為Re LU激活函數(shù),通過sigmoid函數(shù)做歸一化處理,將其轉(zhuǎn)化為對應(yīng)的標(biāo)簽預(yù)測概率,接著通過交叉熵?fù)p失函數(shù)計算出損失值L:
其中,m為標(biāo)簽種類數(shù)目,n為文檔數(shù),yij表示第i個文檔中標(biāo)簽j的真實值,yij表示第i個文檔中標(biāo)簽j的預(yù)測值。
本文實驗基于Pytorch深度學(xué)習(xí)框架,具體實驗環(huán)境如表1。
表1 實驗環(huán)境Table 1 Experimental platform
本文選用AAPD、RCV1-V2與EUR-Lex三個英文公開數(shù)據(jù)集進(jìn)行模型性能評估,其中AAPD數(shù)據(jù)集從ArXiv計算機(jī)科學(xué)領(lǐng)域搜集的論文摘要及相應(yīng)的主題;RCV1-V2數(shù)據(jù)集由路透社有限公司提供的80多萬篇人工分類的新聞報道組成;EUR-Lex數(shù)據(jù)集是由歐盟法律文件所組成。三個數(shù)據(jù)集詳細(xì)分布情況如表2所示。
表2 數(shù)據(jù)集信息Table 2 Statistics for dataset
本文使用Glove模型對文本與標(biāo)簽信息進(jìn)行詞嵌入表示,詞向量的維度均為300。使用Adam優(yōu)化器對訓(xùn)練參數(shù)進(jìn)行優(yōu)化,使用Dropout來防止過擬合。具體參數(shù)設(shè)置如表3所示。
表3 實驗參數(shù)設(shè)置Table 3 Setting of experimental parameters
本文采用精度(precision at K,P@K)和歸一化折損累計增益(normalized discounted cumulative gain at K,nDCG@K)作為模型評估指標(biāo)。具體公式如下:
式中,l∈rankk(y)為真實標(biāo)簽在預(yù)測標(biāo)簽的前k個索引,||y||0表示真實標(biāo)簽向量y中相關(guān)標(biāo)簽的個數(shù)。
本文選取以下五種主流且較新的基線模型作對比實驗:
(1)XML-CNN[8]:利用CNN可以從不同角度對文本的詞序列信息做處理的特點,設(shè)計一個動態(tài)池化層對文本特征進(jìn)行多角度的提取,提高標(biāo)簽預(yù)測的準(zhǔn)確性。
(2)EXAM[18]:利用交互注意力機(jī)制計算文本信息與標(biāo)簽信息匹配得分,將聚合的分?jǐn)?shù)作為每個類別預(yù)測的概率。
(3)SGM[19]:基于不同標(biāo)簽之間的相關(guān)性,將MLTC任務(wù)看作序列生成問題,利用LSTM對文本所含標(biāo)簽類別逐一預(yù)測。
(4)AttentionXML[9]:將文本信息的初始化向量表示依次通過BiLSTM、注意力機(jī)制挖掘出標(biāo)簽所對應(yīng)的文本內(nèi)容,最后根據(jù)概率鏈規(guī)則預(yù)測出對應(yīng)的標(biāo)簽類別。
(5)LSAN[11]:主要將標(biāo)簽信息與文本信息通過自適應(yīng)融合的方式來實現(xiàn)對文本內(nèi)容的預(yù)測。
本文提出的CS-GAT模型與五個基線模型的實驗結(jié)果如表4~6所示。在三個數(shù)據(jù)集上,CS-GAT模型相較于最好的LSAN模型P@K分別提升了1.02、1.18、0.94;1.29、1.44、0.66;2.33、1.14、1.29個百分點。nDCG@K分別提升了1.02、0.88、0.68;1.29、2.09、1.71;2.33、1.60、1.36個百分點,可以體現(xiàn)出CS-GAT模型是優(yōu)越的。
表4 在AAPD上的結(jié)果對比Table 4 Comparison of results on AAPD單位:%
表5 在RCV1-V2上的結(jié)果對比Table 5 Comparison of results on RCV1-V2單位:%
表6 在EUR-Lex上的結(jié)果對比Table 6 Comparison of results on EUR-Lex單位:%
從總體上來看,XML-CNN、EXAM、SGM與AttentionXML四個模型相比于LSAN與CS-GAT模型較差,原因在于這四個模型均沒有單獨地將文本標(biāo)注的標(biāo)簽信息考慮進(jìn)去,盡管SGM與AttentionXML試圖建立文本與標(biāo)簽之間的聯(lián)系,但僅僅局限于對文本內(nèi)容的訓(xùn)練與學(xué)習(xí),就會降低尾部標(biāo)簽的預(yù)測能力。除此之外,這四個基線模型,XML-CNN在AAPD與EUR-Lex數(shù)據(jù)集上性能最差,原因是其只考慮文本局部語義信息,其他模型均通過注意力機(jī)制從全局的角度考慮了不同文本內(nèi)容對標(biāo)簽的影響,突出了關(guān)鍵語句或詞的特征表示,所以模型的學(xué)習(xí)能力會更好一點。相反,在RCV1-V2數(shù)據(jù)集上,雖然各模型的分類效果都顯著提升,但XMLCNN卻優(yōu)于EXAM與SGM模型,主要因為EXAM與SGM更側(cè)重捕獲文本與標(biāo)簽的關(guān)聯(lián)性,然而RCV1-V2數(shù)據(jù)集總詞數(shù)少、類別較為明確,在挖掘文本深層次語義信息與標(biāo)簽的關(guān)聯(lián)程度的過程中容易造成過擬合,導(dǎo)致在測試集上降低了文本的預(yù)測精度。因此對于更側(cè)重于文本語義挖掘的XML-CNN與AttentionXML在RCV1-V2數(shù)據(jù)集上學(xué)習(xí)效率更高。
縱觀對比實驗結(jié)果,XML-CNN、EXAM、SGM與AttentionXML四個模型在數(shù)據(jù)集上的表現(xiàn)有好有差。LSAN相比于其他基線模型在三個數(shù)據(jù)集上均取得了更好的結(jié)果,這是因為LSAN通過自適應(yīng)融合策略自動調(diào)整融合文本與標(biāo)簽信息的權(quán)重比例θ,提高了模型在各個數(shù)據(jù)集上的適應(yīng)能力,同樣本文的CS-GAT模型也考慮到了這一點。而本文的CS-GAT模型相比于LSAN有進(jìn)一步的提升,是因為一方面通過CNN與SAM對文本局部與全局特征信息進(jìn)行提取、融合,增強(qiáng)了模型的特征表達(dá)能力;另一方面標(biāo)簽之間的聯(lián)系不再局限于特定文本的語義聯(lián)系,通過多層GAT充分挖掘全局標(biāo)簽之間的聯(lián)系以及關(guān)聯(lián)程度。從整體上看,信息的融合與標(biāo)簽的關(guān)聯(lián)有著更為緊密的聯(lián)系,因為有效地提取文本特征信息的同時也能學(xué)習(xí)標(biāo)簽之間存在的緊密連接關(guān)系,所以CS-GAT是優(yōu)越的。
3.6.1 CS-GAT模型的有效性驗證
為了對CS-GAT模型的整體效果研究,本文從局部與全局信息、標(biāo)簽圖注意力兩個模塊進(jìn)行有效性驗證。本文構(gòu)建C-Label、S-Label、CS-Label、CS-Label+CNN與CS-GAT模型,其中C-Label表示僅融合局部信息,S-Label表示僅融合全局信息,CS-Label表示同時融合局部與全局信息,CS-Label+CNN表示在CS-Label的基礎(chǔ)上將初始化后的標(biāo)簽信息通過CNN獲取連續(xù)標(biāo)簽之間的局部聯(lián)系,CS-GAT則表示在CS-Label的基礎(chǔ)上通過GAT捕捉全局標(biāo)簽之間的圖結(jié)構(gòu)信息。以AAPD數(shù)據(jù)集為例,將以上模型進(jìn)行對比,實驗結(jié)果如表7所示。
表7 CS-GAT模型有效性實驗Table 7 CS-GAT model validity experiment單位:%
由表7可知,融合局部與全局信息、引入標(biāo)簽圖注意力兩種方式均可使得模型效果有所改善,而將兩者相結(jié)合的效果取得了進(jìn)一步提升,說明本文的CS-GAT模型在整體上是更有效的。因為標(biāo)簽是文本的表現(xiàn)形式,文本是標(biāo)簽的具體內(nèi)容,兩者相互依存有著緊密聯(lián)系,所以同時優(yōu)化文本與標(biāo)簽更有利于文本特征的劃分。
分模塊來看,相比于CS-Label而言,僅提取局部信息P@K與nDCG@K分別降低1.20、1.07、0.80;1.20、1.45、1.53個百分點,僅提取全局信息分別降低0.60、0.94、?0.08;0.60、1.11、0.35個百分點。這表明融合局部與全局信息對模型的分類性能有一定幫助作用。融合了局部與全局信息從文本特征角度來說,CS-Label集成了CNN與SAM各自的優(yōu)勢,得到更為全面的特征向量表示;從文本信息角度來說,一方面使原有維度下的信息量增強(qiáng),另一方面從融合的特征向量中獲得最具差異性的信息表示,提高了模型的分類效果。除此之外,SLabel較C-Label模型P@K與nDCG@K分別提升了0.60、0.13、0.88;0.60、0.34、1.18個百分點。因為CNN只關(guān)注于文本的局部信息,而SAM一方面可以捕獲文本的全局信息,另一方面也可以學(xué)習(xí)到不同文本內(nèi)容對標(biāo)簽的依賴程度,從而更好地劃分文本的特征信息,同時也進(jìn)一步驗證了XML-CNN在AAPD與EUR-Lex數(shù)據(jù)集上的分類效果次于其他對比模型。
對于引入標(biāo)簽圖注意力,與CS-GAT相比,CS-Label模型P@K與nDCG@K分別降低0.80、1.13、1.40;0.80、0.89、1.13個百分點,CS-Label+CNN模型降低了0.40、1.20、1.10;0.40、0.76、0.62個百分點。這表明GAT模塊通過注意力機(jī)制對圖結(jié)構(gòu)數(shù)據(jù)中每個標(biāo)簽節(jié)點與其一階鄰域標(biāo)簽節(jié)點做聚合操作,促進(jìn)了全局標(biāo)簽之間的緊密連接關(guān)系,更好地學(xué)習(xí)出標(biāo)簽特征信息表示,從而提高模型的整體性能。通過以上實驗,驗證了本文所提模型的優(yōu)越性與有效性。
3.6.2 GAT層數(shù)設(shè)置實驗
為了進(jìn)一步驗證GAT的層數(shù)對CS-GAT模型的影響,本文依舊以AAPD數(shù)據(jù)集為例在兩個評估指標(biāo)上進(jìn)行對比,實驗結(jié)果如圖5、圖6所示。
圖5 不同GAT層數(shù)的P@K值Fig.5 P@K of different layers of GAT
圖6 不同GAT層數(shù)的nDCG@K值Fig.6 nDCG@K of different layers of GAT
為了防止GAT的層數(shù)過大導(dǎo)致實驗結(jié)果出現(xiàn)過擬合,實驗中取GAT層數(shù)范圍為{1,2,3,4,5,6},圖中橫坐標(biāo)代表GAT的層數(shù),縱坐標(biāo)分別為P@K與nDCG@K。從圖5與圖6中可以清晰看出,當(dāng)GAT層數(shù)設(shè)置為2的時候,P@K與nDCG@K的值均達(dá)到最高,驗證了本文GAT層數(shù)設(shè)置為2的合理性。當(dāng)層數(shù)為3、4、5與6時,模型性能評估指標(biāo)值雖有起伏,但總體呈下降趨勢,主要因為隨著訓(xùn)練參數(shù)增加,負(fù)載過大導(dǎo)致CS-GAT模型變得難以訓(xùn)練,所以GAT的層數(shù)設(shè)置為2為最佳。
為了解決文本特征信息丟失與全局標(biāo)簽之間的依賴關(guān)系,本文提出了CS-GAT模型來解決多標(biāo)簽文本分類任務(wù):通過CNN與SAM分別提取文本局部與全局特征信息并進(jìn)行融合,得到更為全面的特征向量表示;同時將不同文本標(biāo)簽之間的關(guān)聯(lián)性轉(zhuǎn)變?yōu)榫哂腥中畔⒌倪吋訖?quán)圖,然后利用多層GAT充分挖掘不同標(biāo)簽之間的關(guān)聯(lián)程度,接著將其與文本上下文語義信息進(jìn)行交互,獲取具有文本語義聯(lián)系的全局標(biāo)簽特征表示;最后通過自適應(yīng)融合策略進(jìn)一步提取兩者信息,提高模型的泛化能力。通過在三個數(shù)據(jù)集上的對比實驗,驗證了CS-GAT模型的優(yōu)越性,同時也驗證了融合局部與全局信息、引入標(biāo)簽圖注意力的有效性與合理性。
雖然本文提出的模型在三個數(shù)據(jù)集上均取得不錯效果,但是在EUR-Lex這樣包含大量標(biāo)簽數(shù)據(jù)集上的分類效果還有待進(jìn)一步提升,下一階段將針對大量標(biāo)簽之間的緊密連接關(guān)系,挖掘其更深層次的語義聯(lián)系;同時進(jìn)一步調(diào)整模型參數(shù),降低模型計算的復(fù)雜度,提高訓(xùn)練速度。