亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

融合BiLSTM的雙圖神經(jīng)網(wǎng)絡(luò)文本分類模型

2023-05-30 10:48:04宋婷婷吳賽君裴頌文

上海理工大學(xué)學(xué)報(bào) 2023年2期

宋婷婷吳賽君裴頌文

摘要：采用圖神經(jīng)網(wǎng)絡(luò)模型為整個(gè)語料庫(kù)構(gòu)建異構(gòu)圖處理文本分類任務(wù)時(shí)，存在難以泛化到新樣本和詞序信息缺失的問題。針對(duì)上述問題，提出了一種融合雙圖特征和上下文語義信息的文本分類模型。首先，為每個(gè)文本獨(dú)立構(gòu)建共現(xiàn)圖和句法依存圖，從而實(shí)現(xiàn)對(duì)新樣本的歸納式學(xué)習(xí)，從雙圖角度捕獲文本特征，解決忽略單詞間依存關(guān)系的問題；其次，利用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)（ bi-directional long short-term memory，BiLSTM）編碼文本，解決忽略詞序特征和難以捕捉上下文語義信息的問題；最后，融合雙圖特征，增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)模型的分類性能。在MR，Ohsumed，R8．R52數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，相較于經(jīng)典的文本分類模型，該模型能夠提取更豐富的文本特征，在準(zhǔn)確率上平均提高了2.17%，5.38%，0.61%，2.48%。

關(guān)鍵詞：文本分類；圖神經(jīng)網(wǎng)絡(luò)；雙向長(zhǎng)短期記憶網(wǎng)絡(luò)；句法依存圖；共現(xiàn)圖

中圖分類號(hào)：TP 391

文獻(xiàn)標(biāo)志碼：A

文本分類是自然語言處理的重要內(nèi)容，旨在將無標(biāo)簽的文本分類到預(yù)先定義的類別中，被廣泛應(yīng)用于情感分析、意圖識(shí)別等領(lǐng)域。傳統(tǒng)的文本分類方法使用詞袋模型、詞頻一逆文檔頻率指數(shù)表示文本，忽略了單詞間的語義聯(lián)系，同時(shí)存在數(shù)據(jù)稀疏的問題。隨著深度學(xué)習(xí)的發(fā)展，神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于文本分類中，如卷積神經(jīng)網(wǎng)絡(luò)（ CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、長(zhǎng)短期記憶網(wǎng)絡(luò)（ ISTM）等。CNN和RNN能夠捕捉文本局部信息，但由于模型的局部性和序列性特點(diǎn)，難以有效地捕捉非連續(xù)和遠(yuǎn)距離語義信息。進(jìn)而衍生出一些變體如雙向長(zhǎng)短期記憶網(wǎng)絡(luò)（ BiLSTM）、DPCNN模型[1]、雙通道RNN模型[2]等。Devlin等[3]在2018年提出雙向模型BERT，其核心組成是Transformer編碼器[4]。BERT采用多任務(wù)預(yù)訓(xùn)練技術(shù)在大型語料庫(kù)上訓(xùn)練。上述模型在文本分類中表現(xiàn)良好，但無法對(duì)單詞的全局共現(xiàn)關(guān)系建模。

圖神經(jīng)網(wǎng)絡(luò)技術(shù)在圖結(jié)構(gòu)數(shù)據(jù)上具有強(qiáng)大的處理能力，吸引眾多研究者將其應(yīng)用于文本分類[5]。2019年Yao等[6]根據(jù)詞共現(xiàn)關(guān)系和單詞文本關(guān)系為整個(gè)語料庫(kù)構(gòu)建一張異構(gòu)圖，之后使用圖卷積神經(jīng)網(wǎng)絡(luò)（ graph convolutional network．GCN）[7]提取圖特征。為了豐富圖信息，Hu等[8]在構(gòu)圖時(shí)引入主題節(jié)點(diǎn)，Xin等[9]引入了標(biāo)簽信息。2020年Liu等㈠提出構(gòu)建詞共現(xiàn)圖、語義圖、句法圖，從多個(gè)角度捕捉文本信息。但以上研究是轉(zhuǎn)導(dǎo)式學(xué)習(xí)，構(gòu)圖時(shí)使用了測(cè)試樣本。當(dāng)有新樣本加入時(shí)，就要重新構(gòu)建圖和訓(xùn)練模型，這會(huì)浪費(fèi)時(shí)間且不適用于現(xiàn)實(shí)情況[11]。因此，歸納式文本分類模型不斷涌現(xiàn)，其能夠解決上述圖神經(jīng)網(wǎng)絡(luò)存在的問題。InducT-GCN文本分類模型[12]基于訓(xùn)練樣本構(gòu)建圖，在測(cè)試樣本上執(zhí)行一維圖卷積。一些學(xué)者提出為每個(gè)文本構(gòu)建圖。例如：Huang等[13]使用邊共享矩陣捕捉全局信息，采用消息傳遞機(jī)制捕獲文本特征；Zhang等[14]提出為每個(gè)文本構(gòu)建單詞共現(xiàn)圖，并使用門控圖神經(jīng)網(wǎng)絡(luò)（gatedgraph neural networks，GGNN）[15]傳播信息。上述模型僅使用詞共現(xiàn)信息構(gòu)建文本圖，未考慮語義等其他類型信息。Li等[16]提出一種使用語義圖和句法圖的方法，用于方面級(jí)情感分析。Dai等[11]使用共現(xiàn)信息和預(yù)訓(xùn)練詞嵌入構(gòu)建4種不同類型的文本圖，在不重構(gòu)整個(gè)文本圖的情況下，學(xué)習(xí)系統(tǒng)也能夠?qū)π挛谋具M(jìn)行推理。為彌補(bǔ)單圖信息不足的缺陷，本文探索多種構(gòu)圖方式，從多維度捕獲文本特征，提升文本分類的性能。同時(shí)圖神經(jīng)網(wǎng)絡(luò)文本分類模型僅關(guān)注文本的同交互，忽略了文本的詞序信息[14，17]，不能充分捕捉上下文語義特征。針對(duì)上述問題，本文提出了融合BiLSTM的雙圖神經(jīng)網(wǎng)絡(luò)（dual graph neural networks withBiLSTM，簡(jiǎn)稱DGNN-B）模型，通過結(jié)合不同的語義信息實(shí)現(xiàn)歸納式文本分類。

本文通過DGNN-B模型為每個(gè)文本獨(dú)立構(gòu)圖，將文本分類問題轉(zhuǎn)換為圖分類問題，實(shí)現(xiàn)了對(duì)新文本的歸納式學(xué)習(xí)。針對(duì)模型獲取信息不足的問題，為文本構(gòu)建共現(xiàn)圖、句法依存圖，從雙圖角度提取文本特征[18]。引入雙向長(zhǎng)短期記憶網(wǎng)絡(luò)（ BiLSTM）提高模型捕捉上下文語義信息的能力。在4個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，所提方法優(yōu)于經(jīng)典模型，在文本分類任務(wù)中具有較高的分類精度。

1 DGNN-B文本分類模型

針對(duì)為整個(gè)語料庫(kù)構(gòu)建異構(gòu)圖的文本分類模型無法輕易泛化到新樣本的問題，本文提出了DGNN-B模型，模型架構(gòu)如

所示。通過DGNN-B模型為每個(gè)文本構(gòu)建詞圖，可以對(duì)新文本進(jìn)行歸納式分類，無需從頭訓(xùn)練。為豐富構(gòu)圖質(zhì)量，基于單詞共現(xiàn)和依存關(guān)系構(gòu)建文本圖，充分捕捉共現(xiàn)信息和句法依賴特征，提高文本分類性能。本文模型還利用BiLSTM捕捉文本的詞序信息。

DGNN-B模型的關(guān)鍵部分是：構(gòu)建文本圖、嵌入層、BiLSTM深層特征提取模塊、圖特征提取模塊、融合分類層。

1.1 構(gòu)建文本圖

本文為每個(gè)文本獨(dú)立構(gòu)建共現(xiàn)圖和句法依存圖，專注于文本自身結(jié)構(gòu)，當(dāng)有新樣本加入時(shí)，模型不需要重新訓(xùn)練，同時(shí)有效地利用了文本的多維度語義信息。現(xiàn)介紹如何基于單詞間的關(guān)系將文本構(gòu)建成圖結(jié)構(gòu)。擁有n個(gè)單詞的文本T={W1，…，wi，…，wn}，wi是文本中的第f個(gè)單詞。通過嵌入層，使用預(yù)訓(xùn)練的Glove詞向量將單詞映射為d維向量。對(duì)于文本丁，以單詞為節(jié)點(diǎn)，單詞間的關(guān)系為邊，為其構(gòu)建文本圖Gt- （Vt，Et），Vt，Et為文本圖的節(jié)點(diǎn)集和邊集。文本圖的特征矩陣墨∈Rntd，第f個(gè)節(jié)點(diǎn)的向量表示記作Xi∈L：～d，nt是文本圖Gt的節(jié)點(diǎn)數(shù)，nt= |vt|。文本圖的鄰接矩陣At∈Rntnt。本文為每個(gè)文本構(gòu)建2種不同類型的圖：共現(xiàn)圖和句法依存圖?，F(xiàn)介紹這2種文本圖的構(gòu)建過程。

1.1.1 共現(xiàn)圖

單詞共現(xiàn)關(guān)系描述單詞局部共現(xiàn)的語言特征，被多位學(xué)者用于文本構(gòu)圖，是一種經(jīng)典的構(gòu)圖方法。共現(xiàn)圖Gi=（V1，E1），將文本中的單詞視作節(jié)點(diǎn)，單詞之間的共現(xiàn)關(guān)系視作邊。使用固定尺寸的窗口在文本序列上從左至右滑動(dòng)，在同一窗口內(nèi)出現(xiàn)的單詞存在共現(xiàn)關(guān)系，如圖2所示。

局部滑動(dòng)窗口可以在圖構(gòu)建期間有效地捕捉詞與詞的局部共現(xiàn)特征。共現(xiàn)圖構(gòu)建完成后，本文使用GGNN網(wǎng)絡(luò)傳播和融合詞特征。

1.1.2 句法依存圖

基于共現(xiàn)關(guān)系構(gòu)建的文本圖可以捕捉局部關(guān)聯(lián)，但缺乏豐富的語義信息。通過對(duì)文本構(gòu)建句法依存圖，從雙圖角度提取文本特征。依存分析[19-20]深入理解句子內(nèi)部結(jié)構(gòu)，分析句子成分，提取單詞間的依存關(guān)系如主謂關(guān)系、定狀關(guān)系等，幫助理解文本語言結(jié)構(gòu)和含義。首先，對(duì)于語料庫(kù)中的文本，使用StanfordNLP工具包[21]提取單詞間的依賴關(guān)系。對(duì)于給定的文本通過解析器得到的分析結(jié)果如圖3所示。雖然提取的依賴關(guān)系是定向的，但本文將其視作無向關(guān)系，以便后續(xù)文本圖的構(gòu)建和特征提取。對(duì)于一個(gè)文本，其依存關(guān)系解析結(jié)果為：表示文本中單詞wi和wjra-]的依存關(guān)系。依存關(guān)系提取完成之后，以詞為節(jié)點(diǎn)、依存關(guān)系為邊，構(gòu)建句法依存圖，記作G2= （V2，E2），其中，E2={eij rij∈DP}，eij為單詞wi和wj之間的邊。由此構(gòu)建的句法依存圖包含豐富的語義和句法特征。

將每個(gè)文本轉(zhuǎn)換為獨(dú)立圖結(jié)構(gòu)進(jìn)行文本分類時(shí)，模型遇到新樣本不需要從頭訓(xùn)練，能夠?qū)ξ谋具M(jìn)行歸納式學(xué)習(xí)。與構(gòu)建單一文本圖相比，構(gòu)建2種不同類型的文本圖，可以捕捉到更加豐富的特征，在圖上進(jìn)行信息傳播和卷積操作時(shí)，可以從2個(gè)方面提取特征，相互補(bǔ)充。

1.2 BiLSTM深層特征提取模塊

將文本構(gòu)建成圖結(jié)構(gòu)，聚合鄰居可以有效地捕捉遠(yuǎn)距離詞節(jié)點(diǎn)，但忽略了文本的詞序信息。因此，利用BiLSTM捕捉文本的雙向上下文語義信息并保留文本的詞序特征。

通過BiLSTM對(duì)文本序列進(jìn)行雙向編碼表示，然后利用GCN網(wǎng)絡(luò)進(jìn)一步優(yōu)化。不同于共現(xiàn)圖使用Glove詞向量技術(shù)初始化節(jié)點(diǎn)的嵌入表示，句法依存圖通過BiLSTM捕捉上下文信息，提取更深層次的文本特征。一方面，文本是一種非歐幾里德結(jié)構(gòu)的數(shù)據(jù)，BiLSTM可以保留文本的位置信息，捕獲文本的詞序特征；另一方面，BiLSTM的雙向機(jī)制通過充分考慮上下文，保證每個(gè)單詞獲得豐富的語義信息。

1.3 圖特征提取模塊

為了捕獲單詞之間的依賴關(guān)系，采用圖卷積神經(jīng)網(wǎng)絡(luò)提取句法依存圖特征。GCN可以出色地捕捉節(jié)點(diǎn)間關(guān)系，被廣泛應(yīng)用于自然語言處理。聚合鄰居時(shí)為了選擇重要的節(jié)點(diǎn)信息、遺忘不重要的信息，并捕捉較遠(yuǎn)距離的節(jié)點(diǎn)，使用門控圖神經(jīng)網(wǎng)絡(luò)提取共現(xiàn)圖的特征。該網(wǎng)絡(luò)采用門控循環(huán)單元選擇性地聚合或丟失鄰居信息，從而增強(qiáng)了網(wǎng)絡(luò)的長(zhǎng)期記憶能力。

對(duì)于構(gòu)建的句法依存圖，其鄰接矩陣記為A2，BiLSTM捕捉到的節(jié)點(diǎn)表示作為句法依存圖的特征矩陣。在圖上使用經(jīng)典的GCN，具體的卷積過程見文獻(xiàn)[7]。不同的數(shù)據(jù)集設(shè)置相應(yīng)的卷積層數(shù)，最終得到句法依存圖的嵌入表示，記為日d?！蔙n2d2，d2為句法依存圖嵌入表示的維度。

在構(gòu)建的共現(xiàn)圖上，使用GGNN網(wǎng)絡(luò)更新節(jié)點(diǎn)特征。在消息傳遞過程中，一個(gè)節(jié)點(diǎn)接受來自鄰域節(jié)點(diǎn)的信息后，與上一時(shí)間點(diǎn)的表示融合起來，更新節(jié)點(diǎn)自身的隱藏表示。GGNN具有長(zhǎng)期記憶的能力，并且不再需要通過約束參數(shù)的方式來確保模型的收斂。在t時(shí)刻模型的傳播過程如下：

設(shè)置HO=X1，X1為共現(xiàn)圖的初始化嵌入矩陣。最終共現(xiàn)圖的嵌入表示記作He?！蔙nIdi，di為共現(xiàn)圖嵌入表示的維度。

1.4 融合分類層

詞節(jié)點(diǎn)信息被傳播后，聚合生成圖表示。然后通過拼接操作融合共現(xiàn)圖和句法依存圖的圖表示，從雙圖角度提取文本特征。

首先，使用軟注意力、最大池化及平均池化聚合句法依存圖、共現(xiàn)圖的節(jié)點(diǎn)生成圖級(jí)表示為

式（6）闡述了采用軟注意力機(jī)制衡量節(jié)點(diǎn)Hv，co對(duì)當(dāng)前文本的重要性。在計(jì)算文本特征時(shí)，使用加權(quán)平均詞特征，而不是簡(jiǎn)單的平均詞特征，能夠關(guān)注對(duì)文本重要的單詞，學(xué)習(xí)更精準(zhǔn)的文本表示。此外使用最大池化操作能夠捕捉到節(jié)點(diǎn)集的不同方面。最終得到共現(xiàn)圖的圖表示HG-co。同理，可求得句法依存圖的圖表示HG-dp。

其次，采用拼接方式融合雙圖文本特征，文本的最終表示為

HG= HG-co||HG_dp

（10）

最后，通過全連接層和softmax函數(shù)對(duì)文本表示HG進(jìn)行分類。損失函數(shù)用于量化模型預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽之間的差異[22]。本文使用交叉熵函數(shù)作為損失函數(shù)。通過反向傳播算法對(duì)模型進(jìn)行訓(xùn)練以最小化損失函數(shù)。式中：WG，bG為權(quán)重和偏差；y為預(yù)測(cè)的標(biāo)簽；gi為第i個(gè)文本真實(shí)標(biāo)簽的one-hot表示；L為交叉熵?fù)p失。

2 實(shí)驗(yàn)結(jié)果和分析

為了驗(yàn)證上述模型的有效性，在4個(gè)基準(zhǔn)數(shù)據(jù)集上評(píng)估DGNN-B模型，并通過消融實(shí)驗(yàn)驗(yàn)證各模塊對(duì)文本分類的作用。

2.1 數(shù)據(jù)集

為了保持一致性，本研究所使用的數(shù)據(jù)集包括MR，Ohsumed，R8，R52[6]。MR是典型的情感二分類任務(wù)，將電影評(píng)論分為積極或消極；Ohsumed選自MEDLINE數(shù)據(jù)庫(kù)，本文僅關(guān)注單標(biāo)簽文本分類，因此，只使用其中7400篇摘要，進(jìn)行23種疾病分類；R8和R52是Reuters數(shù)據(jù)集的子集，分別有8個(gè)類別和52個(gè)類別。數(shù)據(jù)集的信息如表1所示。

2.2 基準(zhǔn)方法

為了評(píng)估本文模型的有效性，選取多個(gè)經(jīng)典文本分類模型與本文模型進(jìn)行對(duì)比分析。基于開源代碼重現(xiàn)TextING的實(shí)驗(yàn)結(jié)果，其他模型的結(jié)果取自文獻(xiàn)[6，10，11，13]。現(xiàn)介紹本文選取的經(jīng)典文本分類模型。

a．CNN：在文本序列上執(zhí)行卷積操作和最大池化操作，得到文本的嵌入表示。

b．BiLSTM：由前向LSTM與后向LSTM組合而成。

c．TextGCN：將文檔和單詞作為節(jié)點(diǎn)，構(gòu)建一張異構(gòu)圖，利用圖卷積網(wǎng)絡(luò)捕捉文本特征[6]。

d．TensorGCN：提出張量圖卷積網(wǎng)絡(luò)，構(gòu)建基于語義的圖、基于句法的圖和基于序列的圖。使用圖內(nèi)傳播、圖間傳播策略協(xié)調(diào)和整合多個(gè)圖的異構(gòu)信息[10]。

e．Text-Ievel：為文本獨(dú)立構(gòu)建圖，圖中參數(shù)取自全局共享矩陣，使用消息傳遞機(jī)制學(xué)習(xí)文本的圖表示[13]。

f．TextNG：提出基于GGNN的文本分類模型，為每個(gè)文本構(gòu)建單詞共現(xiàn)圖，實(shí)現(xiàn)新單詞的歸納學(xué)習(xí)[14]。

g．GFN：提出4種不同文本圖的構(gòu)建方式，然后利用多頭融合模塊集成文本表示[11]。

2.3 實(shí)驗(yàn)參數(shù)

針對(duì)上述提及的數(shù)據(jù)集，以9：1的比例將訓(xùn)練集劃分為真實(shí)的訓(xùn)練數(shù)據(jù)和驗(yàn)證數(shù)據(jù)。實(shí)驗(yàn)中，通過Glove初始化詞向量時(shí)，將嵌入維度設(shè)置為300。BiLSTM的嵌入維度設(shè)置為100。采用Adam優(yōu)化器，學(xué)習(xí)率設(shè)置為0.01。為防止過擬合，將隨機(jī)激活dropout方法的節(jié)點(diǎn)保留率設(shè)置為0.5。

2.4 實(shí)驗(yàn)結(jié)果和分析

在4個(gè)數(shù)據(jù)集上，對(duì)比分析DGNN-B模型與基準(zhǔn)模型的分類性能，結(jié)果如表2所示。

與傳統(tǒng)的CNN和BiLSTM模型相比，本文模型性能顯著。實(shí)驗(yàn)結(jié)果表明，將文本構(gòu)建成圖結(jié)構(gòu)，能較好地挖掘出文本中隱藏的結(jié)構(gòu)信息。依據(jù)單詞的共現(xiàn)關(guān)系建立邊，通過共同鄰居實(shí)現(xiàn)信息傳播，可以捕捉遠(yuǎn)距離詞特征。

相較于TextGCN和TensorGCN，本文利用DGNN-B為每個(gè)文本獨(dú)立構(gòu)圖，實(shí)現(xiàn)對(duì)新樣本的歸納式分類。因此，當(dāng)有新樣本加入時(shí)，無需重新訓(xùn)練整個(gè)模型。DGNN-B在4個(gè)數(shù)據(jù)集上的準(zhǔn)確率相較于TextGCN分別提升了2.97%，0.87%，0.63%，1.6%。這是因?yàn)門extGCN關(guān)注文本的全局特征，忽略了文本中的重要信息如細(xì)粒度詞交互及上下文語義特征，而DGNN-B為文本獨(dú)立構(gòu)圖，關(guān)注文本自身的結(jié)構(gòu)特征，同時(shí)利用BiLSTM學(xué)習(xí)上下文語義特征，保留了詞序信息。在MR數(shù)據(jù)集上，DGNN-B相較于TextGCN模型性能提高幅度最大。由于MR的文本長(zhǎng)度較短，導(dǎo)致TextGCN構(gòu)建的圖密度較低，這限制了文本節(jié)點(diǎn)之間的標(biāo)簽信息傳遞，與之不同的是本文的文本圖專注于自身結(jié)構(gòu)，不依賴于這種標(biāo)簽信息傳遞機(jī)制。

與使用單個(gè)文本圖方法相比，DGNN-B的準(zhǔn)確率有所提升。這是因?yàn)樵撃Ｐ蜆?gòu)建雙圖，從多角度捕捉文本信息；同時(shí)使用BiLSTM捕捉文本的雙向上下文語義信息，彌補(bǔ)圖神經(jīng)網(wǎng)絡(luò)忽略文本詞序特征的不足。實(shí)驗(yàn)結(jié)果表明，雙圖特征和語義特征對(duì)文本分類具有重要作用，這與GFN[11]的研究一致。相較于GFN，DGNN-B缺少了對(duì)全局特征的捕捉，但亦取得了不錯(cuò)的性能。綜合上述分析，相較于其他模型，DGNN-B模型在文本分類中具有優(yōu)越性。

2.5 消融實(shí)驗(yàn)

現(xiàn)通過消融實(shí)驗(yàn)驗(yàn)證雙圖機(jī)制和BiLSTM對(duì)文本分類的有效性。DGNN-B以及移除不同組件的準(zhǔn)確率如表3所示。

a．CoGraph：基于共現(xiàn)圖的文本分類模型。

b．DpGraph：基于句法依存圖的文本分類模型。

c．BiLSTM（w/o）：融合共現(xiàn)圖和句法依存圖的文本分類模型。

d．CoGraph（w/o）：融合句法依存圖和BiLSTM的文本分類模型。

e．DpGraph（w/o）：融合共現(xiàn)圖和BiLSTM的文本分類模型。

為了驗(yàn)證雙圖機(jī)制在多個(gè)維度上捕捉文本信息的能力，構(gòu)建了單圖模型CoGraph，DpGraph，CoGraph（w/o），DpGraph（w/o）和雙圖神經(jīng)網(wǎng)絡(luò)融合模型BiLSTM（w/o），DGNN-B。如表3所示，雙圖模型在文本分類任務(wù)上優(yōu)于各自的基礎(chǔ)模型。DGNN-B模型與單圖模型CoGraph（w/o），DpGraph（w/o）相比，在4個(gè)數(shù)據(jù)集上的準(zhǔn)確率平均提高了0.27%，3.02%，0.22%．0.43%。實(shí)驗(yàn)結(jié)果表明，共現(xiàn)圖特征和句法依存圖特征相互補(bǔ)充，豐富文本信息。

如表3所示，移除共現(xiàn)圖模塊或句法依存圖模塊時(shí)，DGNN-B模型的性能不同。根據(jù)數(shù)據(jù)分析得出結(jié)論，2個(gè)模塊在不同的數(shù)據(jù)集上扮演的角色不同。共現(xiàn)圖模塊在Ohsumed．R52數(shù)據(jù)集上表現(xiàn)優(yōu)于句法依存圖模塊，而在MR，R8數(shù)據(jù)集上相反。因?yàn)?，MR數(shù)據(jù)集文本長(zhǎng)度較短且句式簡(jiǎn)單、句法結(jié)構(gòu)明顯，句法依存圖可以有效地捕捉文本句法特征。Ohsumed文本較長(zhǎng)，通過單詞共現(xiàn)圖可以將不同句子的單詞通過共同鄰居連接，使用GGNN網(wǎng)絡(luò)可以捕捉跨句上下文概念，獲得更加豐富的表示。CoGraph（w/o）模型在Ohsumed數(shù)據(jù)集上的性能與其他模型差異較大。通過實(shí)驗(yàn)驗(yàn)證，CoGraph（w/o）模型表現(xiàn)不佳的原因與其使用的圖特征提取器GCN有關(guān)。因此，可以進(jìn)一步從可解釋性方面探索該模型。

為了驗(yàn)證BiLSTM對(duì)文本詞序信息的學(xué)習(xí)能力，對(duì)比移除BiLSTM的模型CoGraph，DpGraph，BiLSTM（w/o）與未移除BiLSTM的模型DpGraph（w/o），CoGraph（w/o），DGNN-B。如表3所示，使用BiLSTM模型在文本分類任務(wù)上優(yōu)于各自的基礎(chǔ)模型。與BiLSTM（w/o）模型相比，DGNN-B在MR．Ohsumed．R8，R52數(shù)據(jù)集上的準(zhǔn)確率分別提升0.51%．0.29%，0.29%．0.15%。因?yàn)椋谋纠斫獾年P(guān)鍵是語義表示，在一定“作用域”中的詞語對(duì)表達(dá)同一主題具有一定的共性，BiLSTM可以有效地捕捉文本詞序和雙向上下文信息。MR數(shù)據(jù)集是一種典型的短文本情感數(shù)據(jù)集，文本詞序不同，表達(dá)的含義就會(huì)相差甚遠(yuǎn)，從而影響文本情感分析的準(zhǔn)確度。Ohsumed，R8，R52的文本較長(zhǎng)，BiLSTM可以有效地捕捉雙向上下文語義。實(shí)驗(yàn)結(jié)果表明，通過BiLSTM使得DGNN-B模型更好地保留文本詞序，捕捉上下文語義信息。

除了將準(zhǔn)確率作為評(píng)價(jià)指標(biāo)之外，在MR，R8數(shù)據(jù)集上進(jìn)一步將精確率、召回率、調(diào)和平均值作為衡量模型優(yōu)劣的評(píng)價(jià)指標(biāo)。模型的多指標(biāo)性能對(duì)比如網(wǎng)4所示。實(shí)驗(yàn)結(jié)果表明，DGNN-B模型在多個(gè)指標(biāo)上都取得了較優(yōu)的效果。在MR數(shù)據(jù)集上，DGNN-B相較于其他模型，精確率、召回率和調(diào)和平均值平均提高了0.5g%，0.56%．0.56%。調(diào)和平均值是精確率和召回率的調(diào)和平均。調(diào)和平均值越高，表示模型的質(zhì)量越好。DGNN-B的調(diào)和平均值相較于其他模型偏大，進(jìn)一步驗(yàn)證了DGNN-B模型的有效性。

經(jīng)過分析可知，DGNN-B模型的優(yōu)勢(shì)主要表現(xiàn)在以下兩個(gè)方面：通過構(gòu)建雙圖，該模型能夠捕獲多維度文本信息；利用BiLSTM保留文本詞序，提升模型捕捉上下文信息的能力。

2.6 參數(shù)分析

在4個(gè)數(shù)據(jù)集上，GGNN層數(shù)、GCN層數(shù)對(duì)模型性能的影響如圖5和圖6所示。通過堆疊圖神經(jīng)網(wǎng)絡(luò)層數(shù)，模型能夠接收高階鄰居的特征信息，進(jìn)而獲得更精確的表示。堆疊層數(shù)過多會(huì)導(dǎo)致過平滑現(xiàn)象，即不同節(jié)點(diǎn)的特征趨于同質(zhì)化，使得節(jié)點(diǎn)難以區(qū)分，從而影響模型性能。因此，在4個(gè)數(shù)據(jù)集上，隨著層數(shù)的增加，模型的準(zhǔn)確率呈現(xiàn)先增大而后減小的趨勢(shì)。由于R8，R52數(shù)據(jù)集文本分類較為簡(jiǎn)單，因此，GCN層數(shù)設(shè)置為1便能較好地捕獲文本特征。

滑動(dòng)窗口的尺寸對(duì)模型性能的影響如圖7所示。太小的滑動(dòng)窗口不能反映單詞間的聯(lián)系，太大的滑動(dòng)窗口導(dǎo)致不必要的節(jié)點(diǎn)連接。適當(dāng)?shù)剡x擇窗口尺寸可以有效地傳播局部語義信息。實(shí)驗(yàn)結(jié)果表明，在MR．Ohsumed，R8，R52數(shù)據(jù)集上，最優(yōu)的滑動(dòng)窗口大小為3，3，7，7。

3 結(jié)束語

提出了融合BiLSTM的雙圖神經(jīng)網(wǎng)絡(luò)模型（ DGNN-B）用于文本分類。該模型引入BiLSTM捕捉上下文語義信息并保留文本詞序特征。同時(shí)為文本構(gòu)建共現(xiàn)圖、句法依存圖，有效地利用文本的多維度信息。在4個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，DGNN-B的性能優(yōu)于許多先進(jìn)方法。同時(shí)通過消融實(shí)驗(yàn)，驗(yàn)證不同的文本圖是互補(bǔ)的，以及BiLSTM捕捉的語義信息可以進(jìn)一步提高模型性能。本文不足之處在于構(gòu)建的是靜態(tài)文本圖，未來可以探索構(gòu)建動(dòng)態(tài)文本圖，靈活地捕捉文本特征，以及進(jìn)一步研究在整個(gè)語料庫(kù)上構(gòu)建文本圖并實(shí)現(xiàn)歸納式文本分類。

參考文獻(xiàn)：

[1] JOffNSON R，ZHANG T.Deep pyramid convolutionalneural networks for text categorization[C]//Proceedings ofthe 55th Annual Meeting of the Association forComputational Linguistics. Vancouver： Association forComputational Linguistics. 2017： 562-570.

[2] XU C，HUANG W R，WANG H W. et al.Modeling localdependence in natural language with multi-channelrecurrent neural networks[C]//Proceedings of the 33rdAAAI Conference on Artificial Intelligence and 3lstInnovative Applications of Artificial IntelligenceConference and Ninth AAAI Symposium on EducationalAdvances in Artificial Intelligence. Honolulu： AAAI Press，2019： 677.

[3] DEVLIN J，CHANG M W. LEE K，et al.BERT： pre-training of deep bidirectional transformers for languageunderstanding[C]//Proceedings of the 2019 Conference ofthe North American Chapter of the Associationfor Computational Linguistics：

Human LanguageTechnologies. Minneapolis： Association for ComputationalLinguistics， 2019： 4171-4186.

[4] VASWANI A，SHAZEER N，PARMAR N，et al.Attentionis all you need[C]//Proceedings of the 3lst IntemationalConference on Neural Information Processing System.Long Beach： Curran Associates Inc.， 2017： 6000-6010.

[5] SI Y H，ZHOU Y C.Deep graph neural networks for textclassification task[C]//Proceedings of the 7th IntemationalConference on Cyber Security and InformationEngineering. Brisbane： Association for ComputingMachinery， 2022： 272-275.

[6] YAO L，MAO C S，LUO Y.Graph convolutional networksfor text classification[C]//Proceedings of the 33rd AAAIConference on Artificial Intelligence. Palo Alto： AAAIPress， 2019： 7370-7377.

[7] KIPF T N， WELLING M. Semi-supervised classificationwith graph convolutional networks[C]//Proceedings of theSth Intemational Conference on Leaming Representations.Toulon： OpenReview. net， 2017： 266-285.

[8] HU L M， YANG T C. SHI C. et al. Heterogeneous graphattention networks for semi-supervised short textclassification[C]//Proceedings of 2019 Conference onEmpirical Methods in Natural Language Processing and the9th Intemational Joint Conference on Natural LanguageProcessing. Hong Kong， China： Association forComputational Linguistics， 2019： 482 1-4830.

[9] XIN Y， XU L L， GUO J L， et al. Label incorporated graphneural networks for text classification[C]//Proceedings ofthe 25th International Conference on Pattem Recognition.Milan： IEEE. 2021： 8892-8898.

[10] LIU X E. YOU X X， ZHANG X. et al. Tensor graphconvolutional networks for text classification[C]//Proceedings of the 34th AAAI Conference on ArtificialIntelligence. Palo Alto， CA： AAAI Press， 2020， 34：8409-8416.

[11] DAI Y， SHOU L J. GONG M， et al. Graph fusion networkfor text classification[J]. Knowledge-Based Systems， 2022，236： 107659.

[12] WANG K Z. HAN S C. POON J. InducT-GCN： Inductivegraph convolutional networks for text classification[C]//Proceedings of 2022 26th International Conference onPattern Recognition. Montreal： IEEE， 2022： 1243-1249.

[13] HUANG L Z， MA D H， LI S J. et al. Text level graphneural network for text classification[C]//Proceedings of2019 Conference on Empirical Methods in NaturalLanguage Processing and the 9th Intemational JointConference on Natural Language Processing. Hong Kong，China： Association for Computational Linguistics， 2019：3444-3450.

[14] ZHANG Y F. YU X L， CUI Z Y， et al. Every documentowns its structure： inductive text classification via graphneural networks[C]//Proceedings of the 58th AnnualMeeting of the Association for Computational Linguistics.Stroudsburg： Association for Computational Linguistics，2020： 334-339.

[15] BECK D. HAFFARI G， COHN T. Graph-to-sequenceleaming using gated graph neural networks[C]//Proceedings of the 56th Annual Meeting of the Associationfor Computational Linguistics. Melbourne： Association forComputational Linguistics， 2018 ： 273-283.

[16] LI R F，CHEN H，F(xiàn)ENG F X，et al Dual graphconvolutional networks for aspect-based sentimentanalysis[C]//Proceedings of the 59th Annual Meeting of theAssociation for Computational Linguistics and the llthIntemational Joint Conference on Natural LanguageProcessing. Stroudsburg： ACL， 2021： 63 19-6329

[171 WEI X D，HUANG H，MA L X，et al Recurrent graphneural networks for text classification[C]//Proceedings ofthe IEEE llth International Conference on SoftwareEngineering and Service Science. New York： IEEE. 2020：91-97

[18]閆佳丹，賈彩燕.基于雙圖神經(jīng)網(wǎng)絡(luò)信息融合的文本分類方法[J]計(jì)算機(jī)科學(xué)，2022. 49（8）： 230-236

[19]范國(guó)鳳，劉璟，姚紹文，等基于語義依存分析的圖網(wǎng)絡(luò)文本分類模型[J].計(jì)算機(jī)應(yīng)用研究，2020， 37（12）：3594-3598

[20]邵黨國(guó)，張潮，黃初升，等.結(jié)合ONLSTM-GCN和注意力機(jī)制的中文評(píng)論分類模型[J]小型微型計(jì)算機(jī)系統(tǒng)，2021. 42（7）： 1377-1381

[21] QI P，DOZAT T，ZHANG Y H，et al Universaldependency parsing from scratch[C]//Proceedings of theCoNLL 2018 Shared Task： Multilingual Parsing from RawText to Universal Dependencies. Brussels： Association forComputational Linguistics. 2018： 160-170

[22]閆育銘，李峰，羅德名，等.基于深度遷移學(xué)習(xí)的糖尿病視網(wǎng)膜病變的檢測(cè)[J].光學(xué)儀器，2020. 42（5）： 33-42.

（編輯：石瑛）

上海理工大學(xué)學(xué)報(bào)2023年2期

上海理工大學(xué)學(xué)報(bào)的其它文章: 基于潛在因子多樣性的非負(fù)矩陣分解協(xié)同過濾模型; 摻硅羥基磷灰石微球的微流控制備及其體外生物活性研究; 亞麻籽粕對(duì)小麥面團(tuán)特性的影響; 一種適用于質(zhì)量交換網(wǎng)絡(luò)優(yōu)化的節(jié)點(diǎn)非結(jié)構(gòu)模型; 基于肌電信號(hào)的人體下肢運(yùn)動(dòng)意圖映射研究進(jìn)展; 基于數(shù)據(jù)編解碼的時(shí)空交通流預(yù)測(cè)方法