亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于雙向長短記憶網(wǎng)絡(luò)和門控注意力的文本分類網(wǎng)絡(luò)

2022-03-31 15:03:44童根梅朱敏

華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年2期

童根梅朱敏

摘要：首先，提出構(gòu)建雙向的全連接結(jié)構(gòu)用于更好提取上下文的信息;然后，利用雙向的注意力機(jī)制將包含豐富文本特征的矩陣壓縮成一個(gè)向量;最后，將雙向的全連接結(jié)構(gòu)和門控制結(jié)構(gòu)相結(jié)合. 通過實(shí)驗(yàn)驗(yàn)證了上述結(jié)構(gòu)對于提升文本分類的準(zhǔn)確率具有積極的作用.將這3 種結(jié)構(gòu)和雙向的循環(huán)網(wǎng)絡(luò)進(jìn)行結(jié)合，組成了所提出的文本分類模型. 通過在7 個(gè)常用的文本分類數(shù)據(jù)集（AG、DBP、Yelp.P、Yelp.F、Yah.A、 Ama.F、Ama.P）上進(jìn)行的實(shí)驗(yàn) ，得到了具有競爭性的結(jié)果并且在其中5 個(gè)數(shù)據(jù)集（AG、DBP、Yelp.P、 Ama.F、Ama.P）上獲得了較好的實(shí)驗(yàn)效果. 通過實(shí)驗(yàn)表明，所提出的文本分類模型能顯著降低分類錯(cuò)誤率.

關(guān)鍵詞：文本分類;? 注意力機(jī)制;? 長短記憶網(wǎng)絡(luò)

中圖分類號： TP399??? 文獻(xiàn)標(biāo)志碼： A??? DOI： 10.3969/j.issn.1000-5641.2022.02.008

Bi-directional long short-term memory and bi-directional gated attention networks for text classification

TONG Genmei1 ，? ZHU Min2

（1. School of Computer Science and Technology， East China Normal University， Shanghai? 200062， China;

2. School of Data Science and Engineering， East China Normal University， Shanghai? 200062， China）

Abstract： In this paper， we propose the construction of a bi-directional fully connected structure for better extraction of context information. We also propose the construction of a bi-directional attention structure for compressing matrices containing rich text features into a vector. The bi-directional fully connected structure and the gated structure are then combined. This research demonstrates that the proposed combined structure has a net positive effect on text classification accuracy. Finally， by combining these three structures and a bi-direction long short-term memory， we propose a new text classification model. Using this model， we obtained competitive results on seven commonly used text classification datasets and achieved state-of-the-art results on five of them. Experiments showed that the combination of these structures can significantly reduce classification errors.

Keywords： text classification;? attention;? long short-term memory

0? 引言

互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展產(chǎn)生了海量的數(shù)據(jù)信息，使得人們進(jìn)入了大數(shù)據(jù)時(shí)代，互聯(lián)網(wǎng)也成為人們獲取信息的主要渠道之一.通過互聯(lián)網(wǎng)可以傳遞各種形式的信息，其中絕大部分信息都以文本的形式存在，文本形式的信息能夠讓用戶快速、便利地獲取.面對海量的信息，用戶如何能從其中精準(zhǔn)地獲取對自己有價(jià)值的信息變得越來越難，這就對于信息檢索和信息分類技術(shù)的要求越來越高.因此，如何讓用戶從互聯(lián)網(wǎng)的海量信息中快速、精準(zhǔn)地獲取對自己有用的信息，尋找一種能對文本信息進(jìn)行準(zhǔn)確分類的方法變得尤為重要.

自然語言處理的目的是讓計(jì)算機(jī)能成功地處理大量的自然語言數(shù)據(jù). 文本分類是自然語言處理的一個(gè)基本任務(wù) ，同時(shí)也是自然語言處理任務(wù)中一個(gè)非常重要的環(huán)節(jié). 文本分類是指計(jì)算機(jī)按照預(yù)先定義好的分類標(biāo)準(zhǔn) ，根據(jù)文本的內(nèi)容自動地將文本數(shù)據(jù)集中的每一個(gè)文本劃分到某一個(gè)類別中，整個(gè)系統(tǒng)輸入的是需要進(jìn)行分類的大量文本數(shù)據(jù)集，輸出的是每個(gè)文本所屬的類別. 相對于傳統(tǒng)手動獲取文本特征進(jìn)行分類的方法，通過計(jì)算機(jī)對文本的自動處理，不僅提升了分類的效率，而且能進(jìn)一步提高分類的準(zhǔn)確性. 如今，文本分類被廣泛應(yīng)用，比如，情感分析、問答系統(tǒng)和垃圾郵件檢測等.

LEAM （Label-Embedding Attention Model）認(rèn)為一個(gè)典型的文本分類方法包含3 個(gè)步驟[1]：第 1步，將文本通過詞嵌入轉(zhuǎn)化為矩陣 V，其中 Word2vec 和 GloVe 是2種常用的詞向量生成方法[2] ，目前用得比較多的還有動態(tài)詞向量，它是將輸入的文本，經(jīng)過預(yù)訓(xùn)練的模型后，輸出相應(yīng)單詞的詞向量表示，這類詞嵌入的預(yù)訓(xùn)練語言模型主要有 ELMo （Embedding from Language Models）[3] ， BERT （Bidirectional Encoder Representations from Transformers）[4] ， GPT-2（Generative Pre-Training-2）[5]等.第 2步，通過不同的方法將詞嵌入形式的矩陣 V 轉(zhuǎn)化成固定長度的向量表示 Z，該過程的目的是從文本的分布式表達(dá)中提取特征.第 3步，設(shè)計(jì)一個(gè)分類器對固定長度的向量表示 Z 標(biāo)記標(biāo)簽，該過程的分類器通常是由一個(gè)全連接層和 softmax 函數(shù)構(gòu)成.雖然很多研究人員在設(shè)計(jì)各種不同的特征提取方法時(shí) ，將文本的分布式表達(dá)矩陣 V 轉(zhuǎn)化為固定長度的向量表示 Z，但這些方法在提取文本的上下文信息上仍然存在局限性. 卷積神經(jīng)網(wǎng)絡(luò) CNN （Convolutional Neural Network）和循環(huán)神經(jīng)網(wǎng)絡(luò) RNN （Recurrent Neural Network）是最為常見的2 種特征提取方法. Kim[6]首先提出了采用 CNN 進(jìn)行文本分類并且實(shí)現(xiàn)了超越傳統(tǒng)方法的效果. 但是該方法只是通過使用不同尺寸的卷積核和不同的池化操作來考慮短語的重要性，不具有聯(lián)系上下文的能力. 為了解決這個(gè)問題，文獻(xiàn)[7-8]提出了使用 Deep- CNN 進(jìn)行文本分類，雖然這種方法具有聯(lián)系上下文的能力，但是會導(dǎo)致參數(shù)的增加，使得模型訓(xùn)練過程更加困難. RNN 具有更強(qiáng)的聯(lián)系上下文的能力，但是它是具有偏向性的模型，很難聯(lián)系長距離的依賴關(guān)系.為此， Hochreiter 等[9]提出了 LSTM （Long Short-Term Memory）和門控循環(huán)單元 GRU （Gate Recurrent Unit），它們能較好地解決傳統(tǒng) RNN 的弊端. 文獻(xiàn)[10-11]提出了將 CNN 和 RNN進(jìn)行結(jié)合的方法，這種方法首先利用 RNN 來提取上下文信息，然后通過 CNN 構(gòu)造更深層的特征表達(dá) ，最后使用最大池化操作進(jìn)行特征選取，從而提取到一些重要的特征.

為了解決 RNN 在聯(lián)系長距離依賴關(guān)系中存在不足的問題，本文所提出的結(jié)構(gòu)從2個(gè)方向上對特征矩陣進(jìn)行特征提取.實(shí)驗(yàn)表明這種方法能更好地提取上下文信息.同時(shí) ，將該方法和循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合，進(jìn)一步強(qiáng)化了整個(gè)模型對上下文的理解，其中，循環(huán)神經(jīng)網(wǎng)絡(luò)主要負(fù)責(zé)提取局部的信息，雙向的全連接網(wǎng)絡(luò)則將局部的信息整合成包含全文信息的特征.此外，本文還提出了一種雙向的注意力機(jī)制，這種方法能從2個(gè)方向上將富含文本特征的矩陣融合為一個(gè)向量，嘗試將 LSTM 中的門控制結(jié)構(gòu)和本文所提出的雙向的全連接結(jié)構(gòu)進(jìn)行結(jié)合，以提升分類模型在文本分類運(yùn)用中的效果.在 7個(gè)通用的文本分類數(shù)據(jù)集（AG、DBP、Yelp.P、Yelp.F、Yah.A、Ama.F、Ama.P）上進(jìn)行了實(shí)驗(yàn) ，得到了具有競爭力的結(jié)果，在其中的5 個(gè)數(shù)據(jù)集（AG、DBP、Yelp.P、Ama.F、Ama.P）中，本文所提出的模型達(dá)到了最低的測試錯(cuò)誤率，特別是在2個(gè)較大的數(shù)據(jù)集（Ama.F、Ama.P）中，本文所提出的組合模型使得測試錯(cuò)誤率相比于之前最好實(shí)驗(yàn)效果的錯(cuò)誤率降低了約17.47%.

1? 相關(guān)工作和模型算法

1.1? 模型

本文所提出的模型結(jié)構(gòu)由5 個(gè)部分組成：輸入層、雙向 LSTM 層、門控制和雙向全連接層、雙向注意力層及輸出層，模型結(jié)構(gòu)如圖 1所示.

1.2? 雙向 LSTM 層

為了解決梯度消失和梯度爆炸問題， Hochreiter 等[9]首先提出了 LSTM.其主要思想是采用當(dāng)前的輸入信息和門控制結(jié)構(gòu)決定之前狀態(tài)的保留程度. 將輸入的文本表示成 X =（x1; x2; ·· ·; xl）. 其中 l 是輸入文本的長度， xi 表示文本中的第 i 個(gè)詞向量. 式（1）是 LSTM 的基本單元，用于更新t 時(shí)刻的記憶Ct和隱藏層的狀態(tài) ，具體表示為

式（1）中： W ∈ R4n? （n+m）， m 是詞向量的長度， n 是隱藏單元的個(gè)數(shù); b ∈ R4n 是一個(gè)偏置項(xiàng);[ht ; xt]是一個(gè)級聯(lián)的操作;? 是一個(gè)sigmoid 函數(shù) ，表示輸入門 t 、忘記門ft 和輸出門ot 的激活函數(shù); tanh 表示候選狀態(tài) t 的激活函數(shù)是雙曲正切函數(shù) ，當(dāng)前的狀態(tài)Ct用于存儲上下文的信息，忘記門ft 和輸入門? t用于過濾上一時(shí)刻的狀態(tài)Ct? 1和當(dāng)前時(shí)刻的候選狀態(tài) t并將它們組合成當(dāng)前的狀態(tài)Ct ，具體輸出的內(nèi)容由輸出門ot控制;?表示向量對應(yīng)元素進(jìn)行數(shù)乘運(yùn)算，通過相應(yīng)的門控制結(jié)構(gòu)控制相關(guān)內(nèi)容的刪除和保留. Hochreiter 等[9]通過連接相反時(shí)間順序流中每個(gè)時(shí)刻的信息，將無向的 LSTM 網(wǎng)絡(luò)擴(kuò)展為雙向的 BLSTM （Bidirectional Long Short-Term Memory），因此該模型能考慮過去和未來的信息.在本文中， BLSTM 用于捕捉過去和未來的信息， BLSTM 在每個(gè)時(shí)刻的輸出主要考慮了較小范圍內(nèi)的信息.在 BLSTM 中t 時(shí)刻的輸出ht 可以表示為

1.3? 門控制和雙向全連接層

從 LSTM 的網(wǎng)絡(luò)結(jié)構(gòu)中可以知道， LSTM 通過門控制結(jié)構(gòu)能從模型的輸入、輸出以及上下文中篩選出有效信息.這個(gè)方法的核心是在全連接層利用 sigmoid 和 tanh 作為激活函數(shù)來獲取文本特征，并將所得到的結(jié)果進(jìn)行點(diǎn)乘.

門控制結(jié)構(gòu)能選擇更有效的信息以及消除一些無用的信息，因此，本文將雙向的全連接結(jié)構(gòu)和門控制結(jié)構(gòu)進(jìn)行了組合，提出了門控制的雙向全連接結(jié)構(gòu). 雙向的全連接結(jié)構(gòu)經(jīng)過激活函數(shù)之后，將2 個(gè)輸入矩陣進(jìn)行點(diǎn)乘，如圖 2所示.

1.4? 雙向注意力層

在介紹雙向注意力結(jié)構(gòu)之前，首先對注意力機(jī)制進(jìn)行介紹. Pappas 等[12]第一次提出了一種將 GRU 網(wǎng)絡(luò)和注意力機(jī)制相結(jié)合的方法，并在文本分類中進(jìn)行運(yùn)用. 注意力機(jī)制表示為

（3）

式（3）中： H 表示一個(gè)特征圖矩陣; Ws表示該全連接層的特征向量; bs表示對應(yīng)的偏置項(xiàng); tanh 表示所對應(yīng)的激活函數(shù);? 表示權(quán)重矩陣; T 表示轉(zhuǎn)置. H 由 GRU 網(wǎng)絡(luò)在各個(gè)時(shí)刻的輸出組成，例如， i 時(shí)刻的輸出即為 hi .首先，將 GRU 網(wǎng)絡(luò)中每一時(shí)刻的輸出經(jīng)過一個(gè)全連接層，再將一個(gè)隨機(jī)初始化上下文向量us（T）和上一步所得到的結(jié)果進(jìn)行相乘，得到 hi 和上下文的相似度值Si;然后，將每個(gè)得分利用 softmax 函數(shù)進(jìn)行正則化，得到歸一化的權(quán)重矩形 ;最后，對每個(gè)輸入利用相應(yīng)的得分進(jìn)行加權(quán)求和得到對應(yīng)句子向量v .這是一個(gè)自注意力機(jī)制，通過自身的輸入確定自身的權(quán)重，對所有的輸入進(jìn)行加權(quán)求和得到模型的輸出.如果將所有的輸入組合成一個(gè)矩陣，那么這個(gè)過程可以看成是將一個(gè)矩陣融合成一個(gè)向量的過程.式（3）表示的注意力機(jī)制通過對特征向量進(jìn)行加權(quán)求和，得到包含豐富文本信息的文本向量.因此，也可以采用對相同特征維度、不同時(shí)間維度的向量進(jìn)行加權(quán)求和的方法，以得到最適合的句子表示向量，這也是一種將矩陣融合為向量并且通過輸出層對文本進(jìn)行分類的方法.本文對這種方法進(jìn)行了測試，式（4）展示了該方法的定義，用時(shí)間維度的向量表示替代式（3）中的特征維度向量表示，具體為

最后，本文將特征維度注意力機(jī)制所獲得的向量v 和時(shí)間維度注意力機(jī)制所獲得的向量連接成一個(gè)向量 V .

式（5）表示將向量v 和連接成一個(gè)向量，最后將連接后的向量作為輸出層的輸入.

1.5? 輸出層

在輸出層中，本文采用了一個(gè)全連接層和 softmax 函數(shù)來預(yù)測文本所屬的類別. 式（6）表示選擇最高概率值所對應(yīng)的標(biāo)簽作為文本的標(biāo)簽，具體為

式（6）中： Ws為該全連接層的特征向量; bs為對應(yīng)的偏置項(xiàng); 是利用 softmax 函數(shù)計(jì)算得到對應(yīng)的輸出值; 表示該文本標(biāo)簽值.

2? 實(shí)驗(yàn)準(zhǔn)備

2.1? 實(shí)驗(yàn)數(shù)據(jù)集和設(shè)置

為了方便和之前的模型進(jìn)行比較，本文采用了7 個(gè)常用的數(shù)據(jù)集（表1）.這 7個(gè)數(shù)據(jù)集是由 Zhang 等[13]收集得到的. AG （AG_news）數(shù)據(jù)集是有關(guān)新聞（news）的，它包含了4 個(gè)類別. 數(shù)據(jù)集中句子的平均長度是45個(gè)詞，訓(xùn)練集和測試集數(shù)據(jù)相對都比較小. DBP （DBPedia）是一個(gè)關(guān)于 Ontology 的具有 14個(gè)類別的分類數(shù)據(jù)集. 該數(shù)據(jù)集中文本的平均長度是55. Yelp 和 Ama 是2 個(gè)有關(guān)評價(jià)的數(shù)據(jù)集.“.P”表示“Polarity”意味著是他們是二分類的數(shù)據(jù)集.“.F”是“Full”的縮寫意味著該數(shù)據(jù)集是對評論更為細(xì)致的劃分，具有更多的類別. Yelp.F 和 Ama.F 的類別數(shù)都是5. Yah.A 是一個(gè)10分類的數(shù)據(jù)集，數(shù)據(jù)來源于 https：//answers.yahoo.com/. 表1展示了每個(gè)數(shù)據(jù)集的統(tǒng)計(jì)信息.

表 1中： SA 表示情感分析（Sentiment Analysis）; QA 表示問答（Question Answering）;#s 表示句子的數(shù)量;#w 表示每個(gè)文檔中詞的平均數(shù)量; k 表示計(jì)數(shù)單位千; M 表示計(jì)數(shù)單位兆.

在文本數(shù)據(jù)預(yù)處理過程中，首先，使用空格將標(biāo)點(diǎn)符號與句子中的單詞分開，本文認(rèn)為標(biāo)點(diǎn)符號在分類中扮演非常重要的角色，因此保留了各種標(biāo)點(diǎn)符號. 然后，使用 NLTK （Natural Language Toolkit）的標(biāo)記器工具來劃分句子. 最后，將所有大寫字母轉(zhuǎn)換為小寫字母. 為了使模型的輸入具有相同的大小，對于相同的數(shù)據(jù)集，將所有句子的長度限制為固定長度. 對于簡短的句子，添加特殊詞“PADDING”. 數(shù)據(jù)集中出現(xiàn)了大量單詞，有些單詞很罕見，這些罕見的單詞中有些是拼寫錯(cuò)誤導(dǎo)致的.因此，刪除這些罕見的單詞，有效地減少了詞匯量，對分類準(zhǔn)確性幾乎沒有影響.

對于模型的參數(shù)設(shè)置和訓(xùn)練，本文實(shí)驗(yàn)使用未標(biāo)記的數(shù)據(jù)訓(xùn)練單詞向量，這樣操作可以顯著提高神經(jīng)網(wǎng)絡(luò)的泛化能力，并防止數(shù)據(jù)稀疏[14]. 在模型訓(xùn)練過程中，對詞向量進(jìn)行微調(diào)可以有效提高分類的準(zhǔn)確性， Pennington 等[2]使用 GloVe 模型訓(xùn)練本文中所使用的詞向量. GloVe.42B 向量的維數(shù)為300.對于沒有預(yù)訓(xùn)練詞向量的詞，本文實(shí)驗(yàn)將其隨機(jī)初始化，隨機(jī)生成向量中的每個(gè)元素的值都在區(qū)間[–0.5， 0.5]上.雙向 LSTM 網(wǎng)絡(luò)中的隱藏單元數(shù)為305，在雙向完全連接結(jié)構(gòu)中，第1—2步中的隱藏單元數(shù)都為305.對于不同的分類任務(wù) ，本文所選擇文本的平均單詞量如表 2所示.

在雙向注意機(jī)制中，第1 步隱藏單元的大小選擇為152，第2 步隱藏單元的大小選擇為?l/2? ，其中 l 為句子長度， “??”表示向上取整.從文本矩陣的輸入，到 BLSTM 網(wǎng)絡(luò)的輸出，本文對所有任務(wù)都采用 dropout 方法來避免梯度消失現(xiàn)象的出現(xiàn). 本文還使用 Adam 訓(xùn)練模型[15] ，初始學(xué)習(xí)率為0.001.學(xué)習(xí)率以指數(shù)方式衰減，經(jīng)過一個(gè)時(shí)期的訓(xùn)練，學(xué)習(xí)率變?yōu)樽詈笠粋€(gè)時(shí)期的94%.

2.2? 實(shí)驗(yàn)基準(zhǔn)

Linear model[13]：運(yùn)行步驟為，首先，進(jìn)行人工提取特征;然后，進(jìn)行多項(xiàng)邏輯回歸;最后，得到相應(yīng)文本的類別. 常見的人工特征工程包括詞袋和詞頻逆文檔頻率.

Char-level CNN/Word-level CNN： Zhang 等[13]設(shè)計(jì)了一個(gè)9 層的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類. 使用字符級和詞級進(jìn)行詞嵌入來考慮其對文本分類的影響，其中，詞級輸入由預(yù)訓(xùn)練的詞向量表示.

Char-RCNN[16]：在此模型中，使用字符級嵌入方式，輸入的字符級嵌入，首先，通過卷積網(wǎng)絡(luò)層;然后，通過 LSTM 網(wǎng)絡(luò);最后，通過輸出層獲得不同標(biāo)簽的預(yù)測概率.

FastText[17]：該模型結(jié)構(gòu) ，首先，將文本轉(zhuǎn)換為由 Word2vec 訓(xùn)練的詞向量;然后，對文本的詞向量進(jìn)行平均池化操作;最后，使用線性分類器獲得最終的輸出結(jié)果.此模型結(jié)構(gòu)不僅簡單，而且訓(xùn)練速度非?？?

VDCNN （Very Deep Convolutional Neural Networks）[7]： VDCNN 是由 29個(gè)卷積層組成的網(wǎng)絡(luò) ，它可以獲取更深層次的文本表示，增強(qiáng)了模型理解上下文的能力，在大型數(shù)據(jù)集上取得了非常好的實(shí)驗(yàn)結(jié)果.

DPCNN （Deep Pyramid Convolutional Neural Networks）[8]：這是一個(gè)具有15個(gè)卷積層的深度神經(jīng)網(wǎng)絡(luò). 通過使用下采樣，縮短模型的訓(xùn)練時(shí)間，使用短連接解決梯度消失和梯度爆炸問題.

Region.emb[18]：文獻(xiàn)[18]提出了一種新的與任務(wù)相關(guān)的“局部嵌入”模型，以分布式 n-gram 表示文本，可以有效地捕獲重要的句法細(xì)節(jié) ，從而提高文本分類準(zhǔn)確性.

LEAM[1]：該模型提出了一種用于分類標(biāo)簽的詞嵌入新方法以及一種新的注意力機(jī)制，從而優(yōu)化了分類效果.

3? 實(shí)驗(yàn)結(jié)果

3.1? 每個(gè)模塊對模型的影響

構(gòu)建整個(gè)模型的過程是，先構(gòu)建出每個(gè)對分類具有積極意義的模塊，再將各個(gè)模塊通過合適的方式拼成一個(gè)大的模型.為了確保實(shí)驗(yàn)的科學(xué)性，在所有的模型上進(jìn)行的實(shí)驗(yàn)所采用的實(shí)驗(yàn)參數(shù)和條件都保持一致.

3.1.1? 雙向注意力機(jī)制

假設(shè)在輸入的文本矩陣中，每一個(gè)列向量代表一個(gè)特征向量，通常對該特征向量進(jìn)行加權(quán)求和只能得到 y 維度的注意力值. 本文從2個(gè)方向運(yùn)用了注意力機(jī)制，對輸入矩陣的行向量進(jìn)行加權(quán)求和，記為 x 維度的注意力值，對輸入矩陣的列向量進(jìn)行加權(quán)求和，記為 y 維度的注意力值. 通過一個(gè)簡單的實(shí)驗(yàn)驗(yàn)證了二維的注意力結(jié)構(gòu)比單個(gè)維度更為有效.本文實(shí)驗(yàn)對文本的特征矩陣添加注意力機(jī)制，利用一個(gè)輸出層和 softmax 函數(shù)對所屬標(biāo)簽進(jìn)行預(yù)測， ATTx 表示文本矩陣 x 維度的注意力機(jī)制， ATTy 表示文本矩陣 y 維度的注意力機(jī)制， ATTxy 表示對文本矩陣2 個(gè)維度的向量都使用了注意力機(jī)制.由表3可知，即使只對 x 維度添加注意力機(jī)制，仍然可獲得不錯(cuò)的分類效果，而在 y 維度的基礎(chǔ)上添加 x 維度注意力機(jī)制，能夠使得模型在各文本分類數(shù)據(jù)集上的分類錯(cuò)誤率進(jìn)一步降低.由此可知，該模型對于提升文本分類的準(zhǔn)確率具有積極意義.

3.1.2? 雙向全連接層

本文所提出的雙向全連接結(jié)構(gòu) ，通過增加一個(gè)維度的全連接層使得模型具有更強(qiáng)的聯(lián)系上下文能力. 本文對只有一個(gè)維度上的全連接層網(wǎng)絡(luò)和2 個(gè)維度的全連接層網(wǎng)絡(luò)在相同的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)（表4）.首先， FC （Fully Connected）對輸入的文本矩陣經(jīng)過一個(gè)普通的全連接層;然后， FC 再利用 y 維度的注意力機(jī)制對矩陣進(jìn)行壓縮;最后， FC 利用輸出層獲得其對每個(gè)標(biāo)簽的預(yù)測概率. BFC （Bidirectional Fully Connected）相對于 FC 從一個(gè)維度的全連接層換成了2 個(gè)維度的全連接層. 通過比較 FC 和 ATTy 可知，增加簡單的全連接層能使得分類的準(zhǔn)確率有所提升，這和構(gòu)建深層的卷積網(wǎng)絡(luò)用于文本分類具有類似的作用.對比 BFC 和 FC 的結(jié)果可知，增加另一個(gè)維度的全連接層對提升文本分類準(zhǔn)確率是一種有效的方法.

3.1.3? 門控結(jié)構(gòu)

為了驗(yàn)證 LSTM 的門控制結(jié)構(gòu)對于提升模型的分類效果具有積極的意義，本文在 BFC 的基礎(chǔ)上增加了門控制機(jī)制，注意力結(jié)構(gòu)仍然采用的是 y 維度的注意力（表5）.由表5可知，增加門控制機(jī)制，降低了在 AG、Yelp.P 和 Yah.A 3個(gè)數(shù)據(jù)集上的錯(cuò)誤率.

3.1.4?? BLSTM-ATTy

為了驗(yàn)證在 BLSTM 的基礎(chǔ)上，增加雙向注意力機(jī)制能有效提升文本分類的效果，本文構(gòu)造了 BLSTM 增加一個(gè)維度的注意力機(jī)制的模型. 表 5展示了將 BLSTM 與注意力結(jié)構(gòu)相結(jié)合的方法. 通過該實(shí)驗(yàn)可以發(fā)現(xiàn) ，該結(jié)構(gòu)在測試集上已經(jīng)能取得非常高的準(zhǔn)確率，但是和表 6中最好的結(jié)果相比仍然還有差距.

3.2? 實(shí)驗(yàn)結(jié)果

本文驗(yàn)證了整個(gè)模型中不同的組成部分對于提高文本分類準(zhǔn)確率具有積極意義. 本文最后將所有的結(jié)構(gòu)組合成一個(gè)更加完整的模型. 為了便于比較，表6列出了不同的模型在測試集上的錯(cuò)誤率. 由表6可知，在所有的7 個(gè)數(shù)據(jù)集（AG、DBP、Yelp.P、Yelp.F、Yah.A、Ama.F、Ama.P）上，本文所提出的模型在其中的5 個(gè)數(shù)據(jù)集（AG、DBP、Yelp.P、Ama.F、Ama.P）上得到了較好的結(jié)果，在剩余的2 個(gè)數(shù)據(jù)集上也能得到非常具有競爭力的結(jié)果.

在 AG 和 DBP 2個(gè)較小的數(shù)據(jù)集上，本文的結(jié)果相比于其他模型所得到的結(jié)果在測試集上的錯(cuò)誤率分別降低了12.37%和 14.77%.在 Ama.F 和 Ama.P 這2個(gè)較大的數(shù)據(jù)集上，本文的模型使得錯(cuò)誤率分別降低了13.76%和 17.47%.本文所提出的模型不僅擁有較強(qiáng)的聯(lián)系上下文的能力，同時(shí)添加了雙向注意力機(jī)制，使得文本特征的提取更加精確.雖然每個(gè)組成部分在文本分類任務(wù)中沒有取得足夠好的結(jié)果，但是本文將所有的結(jié)構(gòu)組合在一起使文本分類的效果有了很大的提升.為了得到類似的效果， DPCNN 和 VDCNN 都是通過不斷地增加網(wǎng)絡(luò)的結(jié)構(gòu) ，本文的模型只包含了5 層結(jié)構(gòu)就得到比 DPCNN 和 VDCNN 更好的實(shí)驗(yàn)結(jié)果.對于 DPCNN 和 VDCNN 結(jié)構(gòu) ，只有更高層次的卷積核才能獲得更大范圍的上下文信息，底層的卷積核只能獲得非常有限范圍的信息.本文通過引入雙向的全連接結(jié)構(gòu)能將不同位置的單詞信息聯(lián)系起來.

4? 結(jié)論

本文提出了雙向全連接結(jié)構(gòu)、雙向注意力結(jié)構(gòu)以及增加門控制機(jī)制的雙向全連接結(jié)構(gòu) ，在驗(yàn)證了這 3種結(jié)構(gòu)有助于降低文本分類錯(cuò)誤率的情況下，通過一定的方式將這3 種結(jié)構(gòu)和雙向 LSTM 進(jìn)行組合，構(gòu)建了一種新的文本分類組合模型.在 7個(gè)通用的文本分類數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn) ，獲得了具有競爭力的結(jié)果，證明了將本文所提出的3 種結(jié)構(gòu)與雙向 LSTM 進(jìn)行組合所形成的新的模型能顯著降低在測試集上分類的錯(cuò)誤率. 和其他深層的 CNN 模型相比，在包含輸出層的情況下本文只采用了5 層的結(jié)構(gòu) ，證明了將不同結(jié)構(gòu)進(jìn)行合理的組合相比于不斷重復(fù)單一的結(jié)構(gòu)更加有效.

[參考文獻(xiàn)]

[1] WANG G， LI C， WANG W， et al. Joint embedding of words and labels for text classification [C]// Proceedings of the 56th AnnualMeeting of the Association for Computational Linguistics.2018：2321-2331.

[2] PENNINGTON J， SOCHER R， MANNING C. GloVe： Global vectors for word representation [C]// Conference on Empirical Methodsin Natural Language Processing.2014：1532-1543.

[3] PETERS? M，? NEUMANN? M，? IYYER? M，? et? al. Deep? contextualized? word? representations [EB/OL]. （2018-03-22）[2020-10-16].https：//arxiv.org/pdf/1802.05365v2.pdf.

[4] DEVLIN J， CHANG M W， LEE K， et al. BERT： Pre-training of deep bidirectional transformers for language understanding [EB/OL].（2019-03-24）[2020-10-16]. https：//arxiv.org/pdf/1810.04805.pdf.

[5] RADFORD A， WU J， CHILD R， et al. Language models are unsupervised multitask learners [EB/OL].（2019-01-08）[2020-10-16].https：//d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf.

[6] KIM Y. Convolutional neural networks for sentence classification [EB/OL].（2014-09-03）[2020-10-16]. https：//arxiv.org/pdf/1408.5882v2.pdf.

[7] CONNEAU A， SCHWENK H， BARRAULT L， et al. Very deep convolutional networks for text classification [EB/OL].（2017-01-27）[2020-10-16]. https：//arxiv.org/pdf/1606.01781v2.pdf.

[8] JOHNSON R， TONG Z. Deep pyramid convolutional neural networks for text categorization [C]// Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics.2017：562-570.

[9] HOCHREITER S， SCHMIDHUBER J. Long short-term memory [J]. Neural Computation， 1997， 9（8）：1735-1780.

[10] LAI S， XU L， LIU K， et al. Recurrent convolutional neural networks for text classification [C]// Proceeding of the 25th InternationalJoint Conference on Artificial Intelligence.2015：2267-2273.

[11] PENG Z， QI Z， ZHENG S， et al. Text classification improved by integrating bidirectional LSTM with two-dimensional max pooling[EB/OL].（2016-11-21）[2020-10-22]. https：//arxiv.org/pdf/1611.06639.pdf.

[12] PAPPAS? N，? POPESCU-BELIS? A. Multilingual? hierarchical? attention? networks? for? document? classification [EB/OL]. （2017-09-15）[2020-09-14]. https：//arxiv.org/pdf/1707.00896v4.pdf.

[13] ZHANG X， ZHAO J， LECUN Y. Character-level convolutional networks for text classification [EB/OL].（2015-09-10）[2020-09-11].https：//arxiv.org/pdf/1509.01626v2.pdf.

[14] TURIAN J P， RATINOV L A， BENGIO Y. Word representations： A simple and general method for semi-supervised learning [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.2010：384-394.

[15] KINGMA D， BA J. Adam： A method for stochastic optimization [EB/OL].（2015-07-30）[2020-10-16]. https：//arxiv.org/pdf/1412.6980v8.pdf.

[16] XIAO Y， CHO K. Efficient character-level document classification by combining convolution and recurrent layers [EB/OL].（2016-02-01）[2020-10-16]. https：//arxiv.org/pdf/1602.00367v1.pdf.

[17] JOULIN A， GRAVE E， BOJANOWSKI P， et al. Bag of tricks for efficient text classification [EB/OL].（2016-08-09）[2020-10-13].https：//arxiv.org/pdf/1607.01759v3.pdf.

[18] QIAO C， HUANG B， NIU G， et al. A new method of region embedding for text classification [EB/OL].（2018-01-30）[2020-10-16].https：//openreview.net/pdf？id=BkSDMA36Z.

（責(zé)任編輯：陳麗貞）

華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年2期

華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版)的其它文章: 一種可重構(gòu)有源濾波器芯片設(shè)計(jì); 主動關(guān)聯(lián)馬赫-曾德爾干涉儀中多參數(shù)相位估值的極限; 雙色光絕熱冷卻原子數(shù)值優(yōu)化的研究; 偏振光誘導(dǎo)的[Pt/Co]3MnIr 薄膜中的電子自旋動力學(xué)研究; 等離子體包圍的球?qū)ΨQ黑洞解; 光力場中粒子運(yùn)動軌跡的計(jì)算