張文軒,殷雁君,智 敏
(內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,內(nèi)蒙古 呼和浩特 010022)
文本分類是自然語言處理NLP(Natural Language Processing)的基本任務(wù)之一,其目的是組織和分類文本資源,為句子、段落和文章等文本單位分配標(biāo)簽[1],為包括垃圾郵件過濾[2]、情感分析[3]、意圖識別[4]等自然語言處理任務(wù)提供了廣泛的技術(shù)支持。文本分類任務(wù)的關(guān)鍵步驟之一是文本表示學(xué)習(xí),即如何從表示為向量的文本中提取對分類任務(wù)有利的特征信息。
早期的文本分類模型大多基于機(jī)器學(xué)習(xí)方法,包括樸素貝葉斯、K近鄰和支持向量機(jī)等[5]。然而這類方法通常依靠人工提取文本特征,需要耗費(fèi)大量時(shí)間和人力資源。同時(shí)對高維數(shù)據(jù)的處理和泛化能力較差,并忽視了詞與詞之間的關(guān)系,難以對文本進(jìn)行有效建模。
隨著深度學(xué)習(xí)的發(fā)展,神經(jīng)網(wǎng)絡(luò)模型因其出色的特征提取能力而被廣泛應(yīng)用于自然語言處理領(lǐng)域。Kim等[6]提出了基于卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)的文本分類模型TextCNN,該模型利用多尺寸的一維卷積核從文本中提取局部語義信息,并利用池化操作得到文本表示并用于分類。Liu等[7]使用長短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)對文本序列進(jìn)行建模,并將網(wǎng)絡(luò)輸出的最后一個(gè)隱藏狀態(tài)作為文本表示參與分類。這類模型大多將文本視為詞語組成的序列進(jìn)行特征學(xué)習(xí),難以捕捉潛在和非連續(xù)的詞語間的依賴關(guān)系。
注意力機(jī)制[8]是一種為潛在和非連續(xù)依賴關(guān)系進(jìn)行建模的有效方法。Vaswani等[9]提出的Transformer模型應(yīng)用多頭自注意力機(jī)制來處理詞語間的依賴關(guān)系,極大地促進(jìn)了詞語間的信息交互。然而在文本序列中,并非所有的詞語間都存在語義關(guān)聯(lián),因此使所有的詞語都參與到注意力中會引入過多的噪聲。
近年來,基于圖神經(jīng)網(wǎng)絡(luò)GNN(Graph Neural Networks)的方法逐漸成為文本表示學(xué)習(xí)的研究熱點(diǎn),逐漸在文本分類[10]、機(jī)器翻譯[11]和語義角色標(biāo)注[12]等眾多自然語言處理任務(wù)中得到應(yīng)用?;趫D神經(jīng)網(wǎng)絡(luò)的文本分類模型將文本當(dāng)作一組共同出現(xiàn)的詞,從全局角度對詞語間的依賴關(guān)系進(jìn)行建模,在促進(jìn)信息交互的同時(shí)有效減少了噪聲。然而,當(dāng)前基于GNN的方法在實(shí)際應(yīng)用中依然存在一定缺陷。第一,由于文本數(shù)量的持續(xù)增長,利用詞和文本作為節(jié)點(diǎn)構(gòu)建異構(gòu)文本圖的方法最終會導(dǎo)致圖的尺寸過大,難以存儲和訓(xùn)練,也導(dǎo)致模型在面對新文本時(shí)難以做出相應(yīng)調(diào)整[13];第二,現(xiàn)有的基于GNN的方法雖然能夠?qū)φ麄€(gè)語料庫中的全局依賴關(guān)系進(jìn)行建模,但對于如何描述這種依賴關(guān)系,及其是否適用于分類任務(wù)缺乏充分探索。
為彌補(bǔ)以上缺陷,本文提出了一種基于概率分布的圖卷積網(wǎng)絡(luò)模型PDGCN(Probability Distribution based Graph Convolution Network)并將其應(yīng)用于文本分類任務(wù)。不同于過去的基于GNN的方法,本文模型重點(diǎn)關(guān)注語料庫中的詞與標(biāo)簽之間的依賴關(guān)系,構(gòu)建了文本-詞關(guān)系圖和標(biāo)簽-詞異構(gòu)關(guān)系圖。其中,文本-詞關(guān)系圖由文本和詞構(gòu)成,反映文本對詞的包含關(guān)系。標(biāo)簽-詞異構(gòu)關(guān)系圖則以詞和標(biāo)簽為節(jié)點(diǎn)構(gòu)成,反映詞-詞關(guān)系和標(biāo)簽-詞關(guān)系。此外,在圖的構(gòu)建階段,提出利用概率分布描述節(jié)點(diǎn)間的關(guān)系,即基于詞在各標(biāo)簽上的概率分布定義圖中詞節(jié)點(diǎn)和標(biāo)簽節(jié)點(diǎn)之間的邊權(quán)重,并利用概率分布間的相似度定義詞節(jié)點(diǎn)之間的邊權(quán)重。在模型訓(xùn)練階段,本文提出利用得到的標(biāo)簽-詞異構(gòu)關(guān)系圖進(jìn)行圖卷積操作以學(xué)習(xí)詞節(jié)點(diǎn)和標(biāo)簽節(jié)點(diǎn)的特征表示。
本文的主要貢獻(xiàn)有:
(1) 針對當(dāng)前基于GNN的文本分類方法中文本圖的構(gòu)建方法中存在的問題,即圖尺寸難以控制和節(jié)點(diǎn)間依賴關(guān)系的定義方式不完全適用于分類任務(wù),提出構(gòu)建文本-詞關(guān)系圖和標(biāo)簽-詞異構(gòu)關(guān)系圖,以增強(qiáng)基于GNN的文本分類方法在面對新文本時(shí)的可擴(kuò)展性;
(2) 為探尋更適用于分類任務(wù)的圖節(jié)點(diǎn)間依賴關(guān)系的定義方式,提出利用詞在標(biāo)簽上的概率分布定義節(jié)點(diǎn)間的邊權(quán)重,相比于當(dāng)前常用的基于詞共現(xiàn)關(guān)系的定義方式,本文方法能更有效地捕捉節(jié)點(diǎn)間潛在的依賴關(guān)系;
(3) 在5個(gè)公開數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)驗(yàn)證了本文模型所用的文本表示方法的有效性,以及本文模型的可解釋性。
圖作為一種非歐氏數(shù)據(jù)結(jié)構(gòu),由一系列的對象(節(jié)點(diǎn))和關(guān)系類型(邊)組成。圖神經(jīng)網(wǎng)絡(luò)則是一種基于圖域分析的深度學(xué)習(xí)方法,可以有效地對非歐氏空間的數(shù)據(jù)進(jìn)行建模,并捕獲數(shù)據(jù)內(nèi)部的依賴關(guān)系[14]。盡管傳統(tǒng)深度模型在處理歐氏結(jié)構(gòu)數(shù)據(jù)時(shí)展現(xiàn)出優(yōu)秀的特征提取能力,然而現(xiàn)實(shí)生活中存在大量非歐氏結(jié)構(gòu)的數(shù)據(jù),如社交網(wǎng)絡(luò)[15]、化學(xué)分子結(jié)構(gòu)[16]、知識圖譜[17]等,更適合利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取。GNN的基本思想是利用消息傳遞機(jī)制進(jìn)行節(jié)點(diǎn)表示學(xué)習(xí),即圖中節(jié)點(diǎn)基于一些確定性的規(guī)則將自身信息傳播至其鄰域,同時(shí)從鄰域聚集信息以更新自身。例如,Hamilton等[18]提出的GraphSAGE模型通過對鄰域信息進(jìn)行隨機(jī)采樣和聚集以學(xué)習(xí)節(jié)點(diǎn)表示。Kipf和Welling等[19]則結(jié)合了卷積操作的局部感知和參數(shù)共享思想,提出了圖卷積網(wǎng)絡(luò)GCN(Graph Convolutional Networks)并將其用于半監(jiān)督分類任務(wù)中,以簡便的形式將卷積操作擴(kuò)展到圖結(jié)構(gòu)數(shù)據(jù)上。在節(jié)點(diǎn)信息的聚合與傳播階段,GCN采用的規(guī)則如式(1)所示。
(1)
在Kipf和Welling等[19]的研究基礎(chǔ)上,Yao等[21]提出了TextGCN模型,正式將圖卷積網(wǎng)絡(luò)引入文本分類任務(wù)。該模型基于詞語間的共現(xiàn)關(guān)系以語料庫中的詞和文本為節(jié)點(diǎn)共同構(gòu)建了一個(gè)異構(gòu)文本圖,并利用該異構(gòu)文本圖進(jìn)行圖卷積操作,使得詞節(jié)點(diǎn)與文本節(jié)點(diǎn)能夠在全局范圍內(nèi)進(jìn)行信息交互,并將文本分類問題轉(zhuǎn)化為圖節(jié)點(diǎn)分類問題。
盡管TextGCN已經(jīng)在文本分類任務(wù)中取得較為先進(jìn)的結(jié)果,但其采用的構(gòu)圖方法具有圖尺寸不可控和難以適應(yīng)新文本等缺陷,導(dǎo)致分類模型的可擴(kuò)展性較差。為解決以上問題,Zhang等[22]提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的歸納文本分類模型TextING(Text classification method for INductive word representations via Graph neural networks)。該模型基于詞共現(xiàn)關(guān)系,能夠?yàn)檎Z料庫中的每篇文檔建立一個(gè)獨(dú)立的文本圖并進(jìn)行歸納分類,有效縮減了數(shù)據(jù)規(guī)模,使得模型對新文本的適應(yīng)能力大大增強(qiáng)。
此外,TextGCN基于詞共現(xiàn)關(guān)系對節(jié)點(diǎn)間依賴關(guān)系進(jìn)行建模,其本質(zhì)上依然是基于文本中詞語的局部語序建立依賴關(guān)系,而這種依賴關(guān)系對文本分類任務(wù)的作用缺乏可解釋性。為探索描述節(jié)點(diǎn)間依賴關(guān)系的新方法,Liu等[23]提出的TensorGCN模型分別利用詞共現(xiàn)關(guān)系、語義相似度和語法依存關(guān)系定義詞節(jié)點(diǎn)間的邊權(quán)重,以此建立起三通道文本圖,并取得了先進(jìn)的分類性能。
因此,提高基于GNN的文本分類模型可擴(kuò)展性的重點(diǎn)在于改進(jìn)傳統(tǒng)的文本圖構(gòu)建方法,使得圖尺寸規(guī)??煽兀π挛谋揪哂休^強(qiáng)的適應(yīng)能力。同時(shí),為進(jìn)一步增強(qiáng)基于GNN的文本分類模型的分類性能,仍需繼續(xù)探索更加適用于分類任務(wù)的節(jié)點(diǎn)間依賴關(guān)系的描述方法。
本文提出的基于概率分布的圖卷積文本分類模型PDGCN包含三個(gè)關(guān)鍵部分,分別是構(gòu)建關(guān)系圖、圖卷積神經(jīng)網(wǎng)絡(luò)和標(biāo)簽匹配模塊。本節(jié)將詳細(xì)介紹如何實(shí)現(xiàn)這三者以及它們的運(yùn)行流程。
在以往的基于圖卷積的文本分類研究中,通常以將文本和詞作為節(jié)點(diǎn)的方式構(gòu)建統(tǒng)一的文本-詞異構(gòu)關(guān)系圖,并基于詞共現(xiàn)關(guān)系在節(jié)點(diǎn)間建立圖結(jié)構(gòu),隨后利用圖卷積操作進(jìn)行特征學(xué)習(xí)。考慮到這種構(gòu)圖方法具有難以適應(yīng)新文本的缺陷,本文在肖馳等[13]的研究基礎(chǔ)上,提出將詞-詞關(guān)系和文本-詞關(guān)系拆解,根據(jù)詞是否在文本中出現(xiàn)來構(gòu)建文本-詞關(guān)系圖,提高了模型的可擴(kuò)展性。為探索更加適合分類任務(wù)的圖節(jié)點(diǎn)間邊權(quán)重的定義方法,本文同時(shí)將詞和標(biāo)簽作為節(jié)點(diǎn),通過統(tǒng)計(jì)每個(gè)詞在各個(gè)標(biāo)簽上的概率分布以定義標(biāo)簽節(jié)點(diǎn)與詞節(jié)點(diǎn)間的邊權(quán)重,并利用概率分布間的相似性定義詞節(jié)點(diǎn)間的邊權(quán)重,構(gòu)建標(biāo)簽-詞異構(gòu)關(guān)系圖。
給定一包含M篇文本的文本集合Doc={D1,D2,…,DM}和包含L類標(biāo)簽的標(biāo)簽集合Y={Y1,Y2,…,YL}的文本分類語料庫,語料庫中的每篇文本Di∈Doc都具有標(biāo)簽yk∈Y,其中k∈[1,L]。通過統(tǒng)計(jì)語料庫中所有不重復(fù)的單詞,可以獲得包含N個(gè)不重復(fù)詞語的詞表集合V={w1,w2,…,wN}。本文將基于以上信息分別構(gòu)建文本-詞關(guān)系圖和基于概率分布的標(biāo)簽-詞異構(gòu)關(guān)系圖。
2.1.1 文本-詞關(guān)系圖
本文根據(jù)詞語在文本中出現(xiàn)與否來構(gòu)建文本-詞關(guān)系圖G∈RM×N,其流程如圖1所示。
圖1 文本-詞關(guān)系圖構(gòu)建流程
文本-詞關(guān)系圖G中的任意元素gi,j表示文本Di∈Doc和詞wj∈V之間的關(guān)系,其定義如式(2)所示。
(2)
這種構(gòu)圖方法的優(yōu)點(diǎn)是,當(dāng)模型面對未登記的新文本時(shí),只需要根據(jù)詞表為其構(gòu)建文本-詞關(guān)系圖,無須更改或重新訓(xùn)練模型就可以對新文本進(jìn)行分類,大大提高了模型的可擴(kuò)展性。
2.1.2 標(biāo)簽-詞異構(gòu)關(guān)系圖
標(biāo)簽作為對某一類型文本的概括性定義,必然與相應(yīng)文本中的某些詞語存在一定的語義關(guān)聯(lián)。例如,當(dāng)提到詞語“足球”時(shí),顯然更容易聯(lián)想到“體育”標(biāo)簽,而不太可能聯(lián)想到“金融”標(biāo)簽。換言之,相較于出現(xiàn)在標(biāo)簽為“金融”的文本中的概率,詞語“足球”出現(xiàn)在標(biāo)簽為“體育”的文本中的概率顯然更大。
為了探究詞語和標(biāo)簽間潛在的語義關(guān)聯(lián),本文提出如下假設(shè): 一個(gè)詞語基于一定的概率分布出現(xiàn)在具有不同標(biāo)簽的文本中。為了驗(yàn)證這一假設(shè),本文以詞和標(biāo)簽為節(jié)點(diǎn)構(gòu)建了基于概率分布的標(biāo)簽-詞異構(gòu)關(guān)系圖A∈R(N+L)×(N+L),構(gòu)建流程如圖2所示。
圖2 標(biāo)簽-詞異構(gòu)關(guān)系圖構(gòu)建流程
本文將根據(jù)以下步驟實(shí)現(xiàn)基于概率分布的標(biāo)簽-詞異構(gòu)關(guān)系圖的構(gòu)建:
(1)定義詞表: 根據(jù)語料庫中的訓(xùn)練樣本及測試樣本構(gòu)建已知詞詞表Vknown和未知詞詞表Vunknown,其中,已知詞指在訓(xùn)練樣本中出現(xiàn)的詞,未知詞則指未在訓(xùn)練樣本中出現(xiàn)而只在測試樣本中出現(xiàn)的詞。
(2)構(gòu)建共現(xiàn)關(guān)系圖: 對于具有大小為N1的已知詞詞表Vknown和大小為N2的未知詞詞表Vunknown的語料庫,其中,N1+N2=N,統(tǒng)計(jì)所有未知詞與所有已知詞的共現(xiàn)關(guān)系并建立關(guān)系圖U∈RN2×N1,并使用逐點(diǎn)互信息(PMI)定義詞節(jié)點(diǎn)間的邊權(quán)重。具體來說,對于未知詞wi∈Vunknown和已知詞wj∈Vknown,U中的相應(yīng)邊ui,j定義如式(3)~式(5)所示。
其中,#Doc(wi)指語料庫中包含wi的文本數(shù)量,#Doc(wi,wj)則指同時(shí)包含wi和wj的文本數(shù)量。
(6)
(4)構(gòu)建未知詞的概率分布矩陣: 由于無法得知測試數(shù)據(jù)的標(biāo)簽信息,無法直接獲取未知詞在各標(biāo)簽上的分布概率,因此本文利用已知詞的概率分布矩陣Pknown以及未知詞同已知詞的共現(xiàn)關(guān)系圖U來擬合未知詞在各標(biāo)簽上的近似分布概率。未知詞在各標(biāo)簽上的概率分布矩陣Punknown∈RN2×L的形式化定義如式(7)所示。
Punknown=UPknown
(7)
(10)
(7)定義詞-標(biāo)簽關(guān)系: 將P中相應(yīng)的隨機(jī)向量進(jìn)行單位化處理,用于定義詞節(jié)點(diǎn)與標(biāo)簽節(jié)點(diǎn)之間的邊權(quán)重。對于A中元素ai+N,j及ai,j+N,其形式化定義如式(11)所示。
(11)
(8)定義標(biāo)簽-標(biāo)簽關(guān)系: 標(biāo)簽節(jié)點(diǎn)間除自連接之外沒有其他連接。對于A中元素ai+N,j+N,其形式化定義如式(12)所示。
(12)
(9)構(gòu)建標(biāo)簽-詞異構(gòu)關(guān)系圖: 由步驟(6)~步驟(8)對標(biāo)簽-詞異構(gòu)關(guān)系圖中三種關(guān)系的定義可知,利用概率分布矩陣P快速生成標(biāo)簽-詞異構(gòu)關(guān)系圖A的方式如式(13)、式(14)所示。
本文采用兩層圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)進(jìn)行圖節(jié)點(diǎn)的表示學(xué)習(xí),其流程如圖3所示。
在完成文本圖的構(gòu)建后,本文參考Kipf和Welling等[19]提出的GCN架構(gòu),將標(biāo)簽-詞異構(gòu)關(guān)系圖送入一個(gè)兩層的GCN中學(xué)習(xí)節(jié)點(diǎn)表示。首先利用一個(gè)線性映射層對節(jié)點(diǎn)表示進(jìn)行線性變換,再利用圖完成節(jié)點(diǎn)信息的聚合與傳播,并在每個(gè)GCN層中加入殘差連接[24]以緩解GCN中存在的過平滑現(xiàn)象。本文的GCN層的形式化定義如式(15)~式(17)所示。
(15)
(16)
(17)
圖3 圖卷積神經(jīng)網(wǎng)絡(luò)流程
2.3 標(biāo)簽匹配模塊
為達(dá)到分類目的,本文設(shè)計(jì)了一個(gè)標(biāo)簽匹配模塊,用于為每個(gè)文本生成預(yù)測結(jié)果,其流程如圖4所示。
圖4 標(biāo)簽匹配流程
該模塊首先將兩層GCN輸出的節(jié)點(diǎn)表示H2按照節(jié)點(diǎn)類型進(jìn)行分割,得到詞節(jié)點(diǎn)表示向量HW和標(biāo)簽節(jié)點(diǎn)表示向量HY。隨后將文本-詞關(guān)系圖G和詞節(jié)點(diǎn)表示向量HW相乘得到文本表示向量HD,如式(18)所示。
HD=GHW
(18)
計(jì)算文本表示向量與標(biāo)簽節(jié)點(diǎn)表示向量的內(nèi)積,并將其送入softmax分類器,得到文本和標(biāo)簽的匹配結(jié)果,具體實(shí)現(xiàn)如式(19)所示。
(19)
本文使用所有標(biāo)記文檔的交叉熵?fù)p失作為模型的分類損失函數(shù)Lc,如式(20)所示。
(20)
其中,ZDi是模型對文本Di∈Doc的預(yù)測標(biāo)簽,yi是文本Di的真實(shí)標(biāo)簽。
為使得不同的標(biāo)簽節(jié)點(diǎn)間具有可區(qū)分性,本文添加了正交化損失Lorth對更新后的標(biāo)簽節(jié)點(diǎn)表示向量HY進(jìn)行監(jiān)督,使得HY中的節(jié)點(diǎn)向量能夠趨于相互正交。利用均方誤差損失定義正交化損失Lorth,如式(21)~式(23)所示。
(21)
(22)
(23)
模型訓(xùn)練的最終損失Ltotal定義如式(24)所示。
Ltotal=Lc+λLorth
(24)
其中,λ為用于調(diào)節(jié)損失函數(shù)平衡性的超參數(shù)。
本文在多個(gè)公開文本分類數(shù)據(jù)集上對提出的PDGCN模型進(jìn)行了實(shí)驗(yàn)。本文主要關(guān)注實(shí)驗(yàn)結(jié)果的兩個(gè)方面: 一是本文模型相對于其他分類模型的性能優(yōu)勢;二是本文模型的可解釋性。
為保證實(shí)驗(yàn)具有參考價(jià)值,本文在常用的5個(gè)文本分類數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),包括R8,R52(1)https://www.cs.umb.edu/~smimarog/textmining/datasets/,Ohsumed(2)http://disi.unitn.it/moschitti/corpora.htm,20NG(3)http://qwone.com/jason /20Newsgroups/和MR(4)http://www.cs.cornell.edu/people/pabo/movie-review-data/。其中,MR數(shù)據(jù)集是對電影評論的二元情感分類,R8、R52和20NG數(shù)據(jù)集均為新聞分類,Ohsumed數(shù)據(jù)集則是醫(yī)學(xué)文獻(xiàn)分類。對于上述所有數(shù)據(jù)集,本文參照Yao等[21]對數(shù)據(jù)集的處理方法,從訓(xùn)練集中隨機(jī)選擇10%的文本來構(gòu)建驗(yàn)證集。數(shù)據(jù)集的詳細(xì)信息如表1所示。
表1 文本分類數(shù)據(jù)集統(tǒng)計(jì)信息
實(shí)驗(yàn)將本文的基于概率分布的圖卷積文本分類模型與多種具有代表性的基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的或基于圖卷積的文本分類方法進(jìn)行了比較。相關(guān)方法介紹如下:
CNN: Kim等[6]將CNN引入文本分類領(lǐng)域,利用一維卷積核對文本中的詞序列特征向量進(jìn)行整行的卷積操作以提取文本的局部特征,利用池化得到文本的向量表示并用于分類。
LSTM: Liu等[7]提出使用LSTM網(wǎng)絡(luò)對文本序列信息建模,并將輸出的最后一個(gè)隱藏狀態(tài)作為整個(gè)文本的向量表示用于分類。
Bi-LSTM: 雙向LSTM模型,常用于自然語言處理領(lǐng)域。
fastText: Joulin等[25]提出的一種簡單有效的文本分類方法,將文本詞向量的平均值視為文本表示向量并用于分類。
Transformer: Vaswani等[9]提出的一種基于多頭自注意力機(jī)制的編解碼器模型,添加了一個(gè)全連接層用于文本分類。
TextGCN: Yao等[21]提出的文本圖卷積分類模型,將語料庫中的詞和文本作為節(jié)點(diǎn)參與圖的構(gòu)建,利用詞共現(xiàn)關(guān)系和TF-IDF描述節(jié)點(diǎn)間的依賴關(guān)系,并使用圖卷積神經(jīng)網(wǎng)絡(luò)對文本節(jié)點(diǎn)進(jìn)行分類。
TensorGCN: Liu等[23]提出的對TextGCN的改進(jìn)方案,分別利用詞共現(xiàn)關(guān)系、語義相似關(guān)系和語法依存關(guān)系定義詞節(jié)點(diǎn)間的邊權(quán)重以建立三通道文本圖,使用圖卷積神經(jīng)網(wǎng)絡(luò)對文本節(jié)點(diǎn)進(jìn)行分類。
LCGCN: 肖馳等[13]提出的松耦合圖卷積文本分類模型,以語料庫中的詞和標(biāo)簽作為節(jié)點(diǎn)參與圖的構(gòu)建,使用詞共現(xiàn)關(guān)系和TF-IDF描述節(jié)點(diǎn)間的依賴關(guān)系,采用圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)節(jié)點(diǎn)表示,并利用訓(xùn)練得到的標(biāo)簽節(jié)點(diǎn)表示輔助分類。
本文設(shè)置了兩組不同的節(jié)點(diǎn)初始表示方式對提出的PDGCN模型進(jìn)行實(shí)驗(yàn)。一組使用預(yù)訓(xùn)練的300維GloVe詞向量(5)http://nlp.stanford.edu/data/glove.6B.zip作為初始表示。另一組則使用one-hot編碼作為初始表示,以保證節(jié)點(diǎn)表示之間,尤其是標(biāo)簽節(jié)點(diǎn)之間的可區(qū)分性。
GCN層的中間層維度設(shè)置為200,并在每個(gè)GCN層中設(shè)置dropout為0.5。值得注意的是,本文將第二層GCN的輸出維度設(shè)置為dL,其中d為大于1的整數(shù),這種設(shè)計(jì)能夠增強(qiáng)后續(xù)的標(biāo)簽匹配模塊得到的分類結(jié)果的穩(wěn)定性。在實(shí)驗(yàn)過程中,對于給定的L分類任務(wù),設(shè)置d=10。此外,設(shè)置損失函數(shù)的平衡參數(shù)λ=1.0。在每個(gè)數(shù)據(jù)集上,設(shè)置學(xué)習(xí)率為0.01,并使用Adam優(yōu)化器進(jìn)行訓(xùn)練。
關(guān)于對比模型,本文使用其原研究中默認(rèn)的參數(shù)設(shè)置,并選擇預(yù)訓(xùn)練的300維GloVe詞向量作為對比模型的初始向量表示。
表2展示了本文提出的PDGCN模型相對于其他對比模型的結(jié)果,其中對比模型的實(shí)驗(yàn)結(jié)果來自Liu等[23]、肖馳等[13]和Li等[26]的研究,PDGCN和PDGCN*分別表示使用GloVe詞向量和獨(dú)熱編碼作為初始表示的本文模型。表2中的數(shù)據(jù)是各模型在數(shù)據(jù)集上分別進(jìn)行了10次實(shí)驗(yàn)得到的平均準(zhǔn)確率。
表2 模型分類準(zhǔn)確率
從表2中可以觀察到,使用GloVe作為節(jié)點(diǎn)初始表示的PDGCN幾乎難以收斂,而使用one-hot編碼的PDGCN*則在全部5個(gè)數(shù)據(jù)集上取得了較為先進(jìn)的性能。本文認(rèn)為原因如下: 一是基于one-hot編碼的節(jié)點(diǎn)表示具有很強(qiáng)的可區(qū)分性,而這是預(yù)訓(xùn)練GloVe詞向量所不具備的。二是使用預(yù)訓(xùn)練GloVe詞向量的模型參數(shù)量相對較少,不能充分對文本信息進(jìn)行擬合。
實(shí)驗(yàn)結(jié)果顯示,TextGCN等基于圖結(jié)構(gòu)的模型分類性能明顯優(yōu)于以CNN、LSTM為代表的傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型和以Transformer為代表的基于注意力機(jī)制的模型,說明基于圖結(jié)構(gòu)的模型更加適合文本分類任務(wù)。
同時(shí)可以看出,PDGCN*在Ohsumed和20NG數(shù)據(jù)集上均達(dá)到了最先進(jìn)的水準(zhǔn),且相較于對比模型取得顯著的性能提升。本文認(rèn)為,這是由于Ohsumed和20NG數(shù)據(jù)集中測試樣本數(shù)量較大,未知詞數(shù)量較多,為分類任務(wù)帶來困難。本文模型則在構(gòu)建標(biāo)簽-詞關(guān)系圖的過程中有效擬合了未知詞和標(biāo)簽間的關(guān)系,有力提高了模型在陌生文本數(shù)據(jù)上的分類性能。這說明相較于其他模型,本文模型在面對大量未知文本時(shí)具有更強(qiáng)的魯棒性。
為進(jìn)一步驗(yàn)證利用概率分布描述節(jié)點(diǎn)間依賴關(guān)系的節(jié)點(diǎn)表示方法在分類任務(wù)中的有效性,本文設(shè)計(jì)了兩個(gè)用于消融實(shí)驗(yàn)的對比模型,分別記為PDGCNcol和PDGCNnone。
PDGCNnone模型則將原PDGCN模型中的標(biāo)簽-詞異構(gòu)關(guān)系圖替換為一個(gè)維度相同的單位矩陣,即去除了利用圖進(jìn)行信息聚合與傳播的過程。
PDGCNcol和PDGCNnone同樣使用one-hot編碼作為初始節(jié)點(diǎn)表示,并分別在全部5個(gè)數(shù)據(jù)集上進(jìn)行10次實(shí)驗(yàn)。表3展示了兩種對比模型和PDGCN*模型的實(shí)驗(yàn)結(jié)果。
表3 消融實(shí)驗(yàn)準(zhǔn)確率
如表3中所示,PDGCN*和PDGCNcol在所有數(shù)據(jù)集上的分類性能均超過PDGCNnone,證明了基于圖的信息聚合與傳播過程對于特征表示學(xué)習(xí)的貢獻(xiàn)作用。同時(shí),PDGCN*在大部分?jǐn)?shù)據(jù)集上的表現(xiàn)也優(yōu)于PDGCNcol,特別是在Ohsumed和20NG數(shù)據(jù)集上。這表明相較于傳統(tǒng)的基于詞共現(xiàn)關(guān)系的構(gòu)圖方法,本文提出的構(gòu)圖方法更加契合分類任務(wù),并能夠在未知樣本數(shù)量較多的情況下保持較高的分類準(zhǔn)確率。
為驗(yàn)證本文模型有效改善了圖尺寸過大且不可控的問題,基于全部5個(gè)數(shù)據(jù)集將TextGCN模型、肖馳等[13]的LSGCN模型和本文的PDGCN模型所需存儲的圖尺寸大小進(jìn)行了對比。如2.1.2節(jié)所述,本文所使用的標(biāo)簽-詞異構(gòu)關(guān)系圖A可由概率分布矩陣P快速生成,因此分別考慮了存儲標(biāo)簽-詞異構(gòu)關(guān)系圖PDGCN-A和概率分布矩陣PDGCN-P兩種情況,結(jié)果如表4所示。
表4 圖尺寸對比
從表4中不難看出,相較于TextGCN模型的圖尺寸,LSGCN和本文PDGCN模型的標(biāo)簽-詞異構(gòu)關(guān)系圖的尺寸均明顯縮減,且語料庫中文本數(shù)目越多,縮減效果越明顯。具體來說,對于給定的文本數(shù)量為M,詞表大小為N,標(biāo)簽類別數(shù)為L的語料庫,TextGCN模型構(gòu)建的文本-詞異構(gòu)圖大小為(M+N)×(M+N),而LSGCN和本文模型所構(gòu)建的標(biāo)簽-詞異構(gòu)關(guān)系圖大小則均為(N+L)×(N+L)。另外可以觀察到,本文構(gòu)建的概率分布矩陣的尺寸縮減效果更為明顯,尤其是在標(biāo)簽類別數(shù)較少時(shí),其尺寸僅為(N+L)×L,大大節(jié)省了存儲空間。
在實(shí)際應(yīng)用中,詞表和標(biāo)簽集合的規(guī)模往往變化幅度有限,而文本數(shù)量則時(shí)刻保持增長。對于本文模型所構(gòu)建的標(biāo)簽-詞異構(gòu)關(guān)系圖和概率分布矩陣,其尺寸只取決于詞表大小和標(biāo)簽類別數(shù),數(shù)據(jù)規(guī)模較為穩(wěn)定,因而具有更高的應(yīng)用價(jià)值。
3.7 參數(shù)研究3.7.1 輸出維度參數(shù)d
如3.3節(jié)所述,本文模型中的圖卷積神經(jīng)網(wǎng)絡(luò)的輸出維度由當(dāng)前語料庫的標(biāo)簽類別數(shù)L和超參數(shù)d共同決定。這種設(shè)計(jì)使得每個(gè)標(biāo)簽類別平均可以保存d位信息參與分類。若d的取值過小,可能導(dǎo)致節(jié)點(diǎn)無法保留足夠的分類信息。若d的取值過大,可能因信息稀疏導(dǎo)致文本表示與標(biāo)簽節(jié)點(diǎn)表示難以匹配。以上兩種情況均會對分類性能產(chǎn)生不利影響。
為探究本文模型輸出的節(jié)點(diǎn)表示維度對分類性能的具體影響,本文在PDGCN*的基礎(chǔ)上設(shè)置不同的d取值并分別在R8、R52和Ohsumed數(shù)據(jù)集上進(jìn)行了10次實(shí)驗(yàn),結(jié)果如表5所示。
從表5可以觀察到,對于R8、R52和Ohsumed數(shù)據(jù)集,分別在d=12、10、8時(shí)達(dá)到最高分類準(zhǔn)確率。這說明對于不同的分類任務(wù),最合適的節(jié)點(diǎn)表示維度是不同的。
表5 參數(shù)d對分類準(zhǔn)確率的影響
3.7.2 正交化損失系數(shù)λ
如2.3節(jié)所述,本文模型同時(shí)使用分類損失Lc與正交化損失Lorth進(jìn)行訓(xùn)練。為探究正交化損失系數(shù)λ對模型分類性能的具體影響,本文在PDGCN*的基礎(chǔ)上設(shè)置不同λ的取值并分別在R8,R52和Ohsumed數(shù)據(jù)集上進(jìn)行了10次實(shí)驗(yàn),結(jié)果如表6所示。
表6 參數(shù)λ對分類準(zhǔn)確率的影響
從表6中不難看出,在全部3個(gè)數(shù)據(jù)集上都存在λ=0.0時(shí)模型分類性能最差的現(xiàn)象,證明了正交化損失在本文模型中的必要性,即具有區(qū)分性的標(biāo)簽節(jié)點(diǎn)表示更有利于分類任務(wù)。此外,對于R8數(shù)據(jù)集,當(dāng)λ=1.0時(shí)分類性能最好。對于R52和Ohsumed數(shù)據(jù)集,則在λ=1.5時(shí)達(dá)到最高分類準(zhǔn)確率。這可能是由于相較于R8數(shù)據(jù)集,R52和Ohsumed數(shù)據(jù)集的標(biāo)簽類別數(shù)更多,使得標(biāo)簽節(jié)點(diǎn)表示趨于相互正交的難度更大,因此需要更高的λ值才能為模型學(xué)習(xí)到滿足分類任務(wù)的標(biāo)簽節(jié)點(diǎn)表示提供充分的監(jiān)督。
本文提出了一種基于概率分布的圖卷積文本分類網(wǎng)絡(luò)PDGCN,該模型將文本與詞的關(guān)系分離,利用語料庫中的詞和標(biāo)簽共同構(gòu)建了標(biāo)簽-詞異構(gòu)關(guān)系圖,能夠在保證分類性能的基礎(chǔ)上,有效縮減圖尺寸大小,并且對未知文本的適應(yīng)性更強(qiáng),提升了基于圖卷積網(wǎng)絡(luò)的文本分類模型的可擴(kuò)展性。此外,為探究更適合于分類任務(wù)的圖節(jié)點(diǎn)間依賴關(guān)系的描述方法,該模型首次利用詞語在標(biāo)簽上的概率分布及其相似度來描述節(jié)點(diǎn)間的依賴關(guān)系,有效提升了基于圖卷積的文本分類模型的分類性能。在5個(gè)常用數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了本文模型在分類任務(wù)上的有效性和可解釋性。
本文所采用的網(wǎng)絡(luò)結(jié)構(gòu)是較為基礎(chǔ)的圖卷積網(wǎng)絡(luò),未來的工作中,希望探索將這種新的構(gòu)圖方法與其他更加先進(jìn)的圖神經(jīng)網(wǎng)絡(luò)架構(gòu)相結(jié)合,并將其運(yùn)用于更復(fù)雜的文本分類任務(wù),如多標(biāo)簽分類和細(xì)粒度情感分析任務(wù)當(dāng)中。