亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

上下文感知與層級注意力網(wǎng)絡(luò)的文檔分類方法

2021-02-05 18:10:54任建華孟祥福

計算機與生活 2021年2期

任建華，李靜，孟祥福

遼寧工程技術(shù)大學(xué)電子與信息工程學(xué)院,遼寧葫蘆島 125105

文本分類是機器學(xué)習(xí)領(lǐng)域最經(jīng)典，最重要的任務(wù)之一。文檔分類屬于文本分類問題。文本分類的主要任務(wù)是將給定的文本集合劃分到已知的一個或者多個類別集合中。文檔分類是組織文檔進行檢索、分析和整理所必需的，目的是為文檔分配標(biāo)簽。近年來，由于深度學(xué)習(xí)的有效性，分層結(jié)構(gòu)在自然語言處理（natural language processing，NLP）領(lǐng)域得到廣泛的應(yīng)用。它們被用于各種各樣的任務(wù)中，例如語言建模[1]、情感分析[2]和主題分類[3]。從詞匯角度來看，單詞內(nèi)部的深層結(jié)構(gòu)為更深層次地處理和更好地理解整個句子提供了額外的信息[4]。所有的分層結(jié)構(gòu)都有一個共同點：分別在單詞級和句子級兩個層次上使用編碼器，按照自底向上的方式學(xué)習(xí)對輸入文本的表示。

最近NLP 的一個趨勢是使用注意機制來建模信息依賴關(guān)系，而不考慮輸入序列中單詞之間的距離。深度學(xué)習(xí)中的注意機制具有選擇特性，它通過降低數(shù)據(jù)維度，讓任務(wù)處理系統(tǒng)更專注于找到輸入數(shù)據(jù)中與當(dāng)前輸出顯著相關(guān)的有用信息，從而提高輸出的質(zhì)量[5]。例如，Yang 等人[3]提出了分層注意力網(wǎng)絡(luò)，用分層結(jié)構(gòu)反映文本結(jié)構(gòu)，在單詞和句子級分別使用注意力機制，捕捉不同層次的重要信息，提升了文本分類的性能和準(zhǔn)確度。Zhou 等人[6]提出混合注意力網(wǎng)絡(luò)來解決短文本分類問題。Pappas等人[7]基于多語言層次注意力網(wǎng)絡(luò)研究文本分類問題。Tarnpradab 等人[8]基于層次注意力網(wǎng)絡(luò)來研究在線論壇的摘要提交問題。這些模型背后的根據(jù)是，并非文本的所有部分都同等重要。此外，確定相關(guān)部分涉及到建模單詞之間的交互和重要性，而不僅僅是它們在文本中的存在。

然而，在大多數(shù)用于文檔分類的NLP 任務(wù)中，所提出的模型并沒有有效地將文檔結(jié)構(gòu)知識整合到體系結(jié)構(gòu)中，文檔中的每個句子被獨立編碼，并沒有充分考慮上下文信息。也就是說，當(dāng)處理一篇文檔中給定的一個句子時，忽略了其他的句子，沒有充分考慮句子與句子之間的信息。這種缺乏聯(lián)系的選擇顯然不是最好的。例如，經(jīng)典的分層注意網(wǎng)絡(luò)（hierarchical attention networks，HAN）在處理一篇包含很多條句子的文檔時，其中每個句子的開頭都重復(fù)了相同的高度負面的特征（如，“terrible weather”），因為它獨立地對每個句子進行編碼，沒有充分考慮句子與句子之間的信息，所以HAN 每次都把大部分的注意力預(yù)算花在最突出的地方，即對于文檔中的每條句子都會捕獲高度負面的特征“terrible weather”，結(jié)果重復(fù)捕獲了文檔中很多相同的信息，而忽略了文檔的其他方面。事實上，在HAN 中，位于第二級的句子編碼器通過為句子分配重要性得分，已經(jīng)捕獲了一些上下文的概念。但是，由于第二級的句子向量早已經(jīng)形成，再對它們修改已經(jīng)太晚。因此，句子編碼器僅能對句子表示進行排序，不能解決類似高冗余的問題。在這種情況下，無論句子得分怎么樣，都不會發(fā)現(xiàn)文檔中重要的子主題或細節(jié)。

受以上研究啟發(fā)，本文提出了一種用于文檔分類的新方法，上下文感知與層級注意力網(wǎng)絡(luò)的文檔分類方法（document classification method based on context awareness and hierarchical attention network，CAHAN）。該方法通過在單詞級注意機制中引入上下文向量使單詞級編碼器基于上下文信息做出注意決策，從而所生成的句子向量全面捕獲了句子之間的上下文信息，而不僅僅依賴于雙向的句子編碼器，采用門控機制來明確地決定應(yīng)該考慮多少上下文信息，使用GRU 解決了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network，RNN）在對序列數(shù)據(jù)進行編碼時經(jīng)常會遇到的長距離依賴消失的問題，同時采用單詞-句子層次的注意機制有選擇地將注意集中于文本句子的關(guān)鍵部分來提高模型的性能。本文對所提出的方法進行了評估，并將其結(jié)果與經(jīng)典的模型進行了比較，在對比實驗結(jié)果上展示出本文提出模型的有效性。

1 相關(guān)工作

1.1 門控遞歸單元

近年來隨著深度學(xué)習(xí)在計算機視覺[9]和語音識別[10]等領(lǐng)域的成功應(yīng)用，基于深度學(xué)習(xí)的模型越來越成為NLP 領(lǐng)域中的文本分類的主流方法。卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural networks，CNN）能夠通過不同窗口大小的濾波器從局部文本中提取深層特征。Kim[11]提出了TextCNN 模型，利用CNN 來提取句子中類似N-grams 的關(guān)鍵信息。盡管它們在很多NLP任務(wù)里都有不錯的表現(xiàn)，但是CNN的局限在于卷積尺寸是固定的，對定長句子的處理是非常有幫助的，而對變長句子處理不夠理想。RNN通過使用帶自反饋的神經(jīng)元，能夠處理任意長度的序列。長短時記憶網(wǎng)絡(luò)（long short-term memory，LSTM）是一種特殊的RNN，能夠根據(jù)全局上下文記憶或忽略特征[12]。門控遞歸單元（gate recurrent unit，GRU）[13]是LSTM的一種變體，能夠很好地處理遠距離依賴問題。在NLP 領(lǐng)域中，文本往往具有時序信息，在獲取文本語義特征時結(jié)合了時序特征通常會在一定程度上促進分類性能的提升。為了克服遞歸單元不能很好地處理遠距離依賴問題，本文引入如圖1 所示的GRU[14]。

Fig.1 Gate recurrent unit圖1 門控遞歸單元

GRU 是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種。它是為了解決長期記憶和反向傳播中的梯度等問題而提出來的。GRU 的輸入輸出結(jié)構(gòu)與普通的RNN 相似，其中的內(nèi)部思想與LSTM 相似。不同于LSTM 的是GRU 內(nèi)部少了一個門控，參數(shù)比LSTM 少，結(jié)構(gòu)上GRU 比LSTM 簡單，但是也能夠達到與LSTM 相當(dāng)?shù)墓δ堋？紤]到硬件的計算能力和時間成本，實驗中選擇GRU，并且相比之下更容易進行訓(xùn)練，訓(xùn)練速度更快，更容易收斂，能夠在很大程度上提升訓(xùn)練效率。

如圖1 所示的GRU 使用一個門控機制跟蹤序列狀態(tài)。通過使用重置門控rt和更新門控zt共同控制如何將信息更新到狀態(tài)。在時刻t，GRU 計算得到的新狀態(tài)為：

式中，⊙表示對應(yīng)元素相乘，通過之前單元狀態(tài)ht-1和當(dāng)前單元狀態(tài)之間的線性插值，計算得到新的序列信息ht。更新門控zt不僅決定了可以保留多少過去的信息，還決定了可以添加多少新的信息。更新門控zt的計算式為：

其中，σ為sigmoid 函數(shù)，通過此函數(shù)可以將數(shù)據(jù)變換為[0,1]范圍內(nèi)的數(shù)值，從而來充當(dāng)門控信號。當(dāng)輸出值為0 時表示沒有信息通過，當(dāng)輸出值為1 時表示所有信息都通過。xt是時刻t的序列向量。當(dāng)前單元狀態(tài)的計算方式類似于傳統(tǒng)的遞歸神經(jīng)網(wǎng)絡(luò)：

其中，重置門控rt用于控制忽略前一個單元狀態(tài)信息的程度。重置門控的值越小，先前的單元信息越容易被忽略。如果rt為0，那么它將忘記之前的所有狀態(tài)。重置門控的計算式為：

1.2 注意力機制

深度學(xué)習(xí)中的注意力機制具有選擇性。注意力機制的研究動機來源于人類的注意力機制，最初是應(yīng)用在圖像處理領(lǐng)域，目的是為了讓神經(jīng)網(wǎng)絡(luò)在處理數(shù)據(jù)時能將重點集中于某些信息。在圖像和NLP問題中，可以看成圖像或者文本中不同部分的重要性體現(xiàn)。

注意力機制首次在機器翻譯模型中被引入，采用編碼器譯碼器框架和注意機制，對外文單詞進行翻譯前的原語言參考詞的選擇，之后注意力機制在NLP 領(lǐng)域得到廣泛的應(yīng)用。胡朝舉等人[15]將注意力機制和LSTM 結(jié)合解決特定主題的情感分析任務(wù)。Wang 等人[16]基于分層注意力網(wǎng)絡(luò)來研究視頻的行為識別。Wang 等人[17]提出了實體增強層次注意力神經(jīng)網(wǎng)絡(luò)，從生物醫(yī)學(xué)文本中挖掘出蛋白質(zhì)的相互作用。Gao 等人[18]基于分層注意力網(wǎng)絡(luò)，改善了非結(jié)構(gòu)化癌癥病理報告中的多信息提取任務(wù)的效果。Yan等人[19]提出了分層多尺度注意力網(wǎng)絡(luò)，解決了計算機視覺領(lǐng)域的動作識別問題。由此可見，注意力機制能夠有效地突出重點，改善了傳統(tǒng)模型對于輸入數(shù)據(jù)同等看待的弊端，加入注意力機制的模型只保留對于當(dāng)前任務(wù)有用的關(guān)鍵信息同時舍棄無用的信息，能夠更加深入挖掘文本深層語義，有效地優(yōu)化了文本特征向量。

2 CAHAN 模型

本文提出模型的體系結(jié)構(gòu)如圖2 所示。該模型由多個層次組成：輸入層、單詞級編碼器、單詞級注意機制、句子級編碼器、句子級注意機制和輸出層。接下來的部分將對各個不同的層次進行詳細闡釋。

Fig.2 Architecture of CAHAN model圖2 CAHAN 模型的體系結(jié)構(gòu)

2.1 輸入層

假設(shè)一篇文檔中有L條句子si，每個句子中包含Ti個單詞，wit表示第i個句子中的第t(t∈[1,T])個單詞。即有：定義文檔X∈RL×Ti×d為L個句子(s1,s2,…,sL)的序列，每個句子si是一個Ti×d維的單詞向量(xi1,xi2,…,xiTi∈RTi×d)序列。

為了得到模型可以識別的輸入，需要對輸入文檔進行向量化。因此，首先對文檔進行分詞處理，然后使用Word2Vec 預(yù)訓(xùn)練的模型嵌入詞向量，得到低維稠密的詞向量。這樣，可以得到每個單詞的輸入向量。給出一個有單詞wit的句子，通過一個嵌入矩陣We將單詞嵌入到低維向量中，得到每個單詞的嵌入向量：

2.2 單詞級編碼器

基于單詞級的Bi-GRU 層的任務(wù)是實現(xiàn)單詞的序列化表示。為了融合序列的上下文信息，模型采用Bi-GRU 獲取單詞的高層語義表示。Bi-GRU 能夠很好地處理遠距離依賴。例如，冀文光[20]利用Bi-GRU 解決了傳統(tǒng)RNN 在對序列數(shù)據(jù)進行編碼時常常會面臨長距離依賴消失的問題，GRU 能夠有效地處理文本序列數(shù)據(jù)，Bi-GRU 則充分地兼顧了文本的上下文信息。將GRU 作為序列編碼器的基本構(gòu)建模塊，通過單詞的嵌入向量xit和之前的隱狀態(tài)ht-1可以得到當(dāng)前的狀態(tài)ht，如式（6）所示。通過將xit輸入到Bi-GRU 網(wǎng)絡(luò)獲得每個單詞的隱藏狀態(tài)構(gòu)造單詞級編碼器，最后第i個句子中的第t個單詞的表示為兩個方向輸出的連接，如式（7）。此時的hit總結(jié)了以單詞wit為中心的整個句子的信息：

其中，GRU(,,)函數(shù)為編碼過程的縮寫，θ表示GRU的所有參數(shù)。

單詞級雙向GRU 對輸入句子si進行處理，返回隱藏狀態(tài)序列(hi1,hi2,…,hiTi)。

2.3 單詞級注意機制

基于單詞級的注意力層使用注意力機制得到每個單詞與任務(wù)的相關(guān)程度，以得到相應(yīng)的句子表示。具體來說：該模型將單詞的重要性作為對齊向量eit與單詞級上下文向量uw∈R2ds的相似性進行度量，并通過softmax 函數(shù)學(xué)習(xí)歸一化的重要性權(quán)重αit，如式（8）和式（9）所示。之后，通過對基于權(quán)重的單詞表示加權(quán)求和得到句子向量si，如式（10）所示。

其中，tanh 函數(shù)將值域壓縮到[-1,1]中，softmax 函數(shù)對eit進行數(shù)值轉(zhuǎn)化，通過歸一化，將原始計算數(shù)值整理成所有元素權(quán)重之和為1 的概率分布，同時也通過softmax 的內(nèi)在機制更加突出重要元素的權(quán)重，uw是一個隨機初始化的單詞級上下文向量，模型利用它計算出對應(yīng)每個單詞的任務(wù)權(quán)重αit，以此來體現(xiàn)單詞與任務(wù)的相關(guān)程度。

正如前面所闡述的，文檔中的每個句子被獨立編碼，沒有考慮任何上下文信息。雙向編碼器雖然能考慮到所編碼句子的相鄰句子，但它仍然集中于當(dāng)前所編碼的句子，并沒有有效地將文檔結(jié)構(gòu)知識整合到體系結(jié)構(gòu)中。為了解決這一問題，在單詞級注意機制中引入一個上下文向量ci，將其整合進eit的求解中，即在計算單詞對齊系數(shù)時引導(dǎo)模型：

這里，采用遞歸法（CAHAN-RNN）和求和法（CAHAN-SUM）兩種方式來求解上下文向量ci，接下來的2.3.1 節(jié)和2.3.2 節(jié)將分別闡述這兩種求解方法。

2.3.1 CAHAN-RNN 求解ci

遞歸求解法就是在時間步長上簡單地使用句子級編碼器的表示作為上下文向量。例如，在生成第i條句子的表示時，將前面的i-1 條句子的信息考慮進來。

通過合理的設(shè)計，hi-1概括了句子向量(s1,s2,…,si-1)的所有信息，特別是最近時間步長上的信息。如果句子足夠長，那么最終GRU 也將忘記開始句子向量的信息。然而，在實驗中，使用的都是相對較短的文檔，因此可以假設(shè)句子級編碼器生成的表示能夠成功地對整個序列進行表示。

2.3.2 CAHAN-SUM 求解ci

從信息論的角度來看，求和可以跟蹤所有的信息。為了獲取更為完整的上下文信息，采用求和法求解上下文向量ci。求和法求解上下文向量ci就是在求解當(dāng)前句子si的向量表示時，將前面生成句子向量(s1,s2,…,si-1)的表示考慮進來，并對它們進行求和作為當(dāng)前句子的上下文向量，即：

2.4 門控機制

門控給了注意力機制更多的表現(xiàn)力。事實上，上下文信息并不總是同等重要的，需要視具體的情況而定。為了讓模型在做出對齊決策時能夠明確地決定應(yīng)該考慮多少上下文信息，進一步對式（11）進行了修改：

其中，λ是由以單詞的表示和上下文向量為輸入的可訓(xùn)練機制生成的，sigmoid 激活函數(shù)起到過濾作用，確保將其所有實體壓入[0,1]區(qū)間內(nèi)。

從優(yōu)化的角度來看，λ防止它將tanh 推到非常小的梯度區(qū)域，也有調(diào)節(jié)上下文向量大小的理想效果。因為上下文向量ci在文檔的開頭或末尾會變大，所以這對于CAHAN-SUM 特別有用。

2.5 句子級編碼器

基于句子級的Bi-GRU 層的任務(wù)是通過GRU 實現(xiàn)句子的序列化表示。Bi-GRU 神經(jīng)網(wǎng)絡(luò)實現(xiàn)從兩個相反的方向獲取信息，有利于從整體上捕捉句子的長依賴關(guān)系以及文本的深層語義表達。類似于單詞級編碼器，在句子級，將單詞級編碼器的輸出（L為文檔中句子的數(shù)量）輸入Bi-GRU，并連接i∈[1,L]）得到第i個句子的表示hi，即：

2.6 句子級注意機制

由于不同的句子對一份文檔的組成有不同的貢獻，因此有必要為它們分配不同重要性。為了達到這個目標(biāo)，再一次使用注意機制，得到每個句子與任務(wù)的相關(guān)程度，進而以對應(yīng)的文檔表示，即文檔向量：

其中，該模型將句子的重要性作為對齊向量eit與句子級上下文向量us的相似性進行度量，并通過softmax 函數(shù)學(xué)習(xí)歸一化的任務(wù)權(quán)重αi，如式（17）和式（18）所示。式（19）表明，文檔向量v是通過基于注意力機制的加權(quán)求和得到的，它總結(jié)了文檔中所有句子的信息。

2.7 輸出層

通過式（19）得到的文檔向量v可以看作文檔的高級表示，它可以作為最終文檔特征向量用于文檔分類。通過softmax 函數(shù)對這些向量進行文檔分類，得到分類標(biāo)簽的概率分布。softmax 分類器的前向傳播和訓(xùn)練損失函數(shù)分別如式（20）和式（21）所示：

訓(xùn)練過程中，使用交叉熵損失函數(shù)作為優(yōu)化目標(biāo)函數(shù)：

其中，N表示分類的類標(biāo)簽數(shù)目，yj表示第j個位置上的真實文檔類別概率分布,lb表示以2 為底的對數(shù)函數(shù)，Pj表示第j個位置上模型預(yù)測的文檔類別概率分布。

3 實驗

本文實驗環(huán)境為Ubuntu 16.04 LTS 操作系統(tǒng)，Intel?Corei7-6800K@3.40 GHz CPU，16 GB 內(nèi)存，顯卡GIGABYTE GeForceGTX1080Ti。實驗基于深度學(xué)習(xí)框架Tensorflow1.12.0 實現(xiàn)，實驗所用開發(fā)語言為Python3.6。為了驗證本文所提出模型的分類性能，實驗中使用IMDB 和Yelp2013 的公開數(shù)據(jù)集進行了測試。在本章中，首先介紹模型使用的數(shù)據(jù)集，然后介紹對數(shù)據(jù)集的預(yù)處理以及參數(shù)的設(shè)置，最后介紹本文提出的模型與現(xiàn)有一些模型的對比，并對結(jié)果進行分析。

3.1 數(shù)據(jù)集

本文使用兩個來自不同領(lǐng)域的公開數(shù)據(jù)集驗證CAHAN 模型的性能。各個數(shù)據(jù)集的統(tǒng)計信息如表1所示。本文將80%的數(shù)據(jù)用作訓(xùn)練集，10%的數(shù)據(jù)用作驗證集，剩余10%的數(shù)據(jù)用作測試集。

Table 1 Statistical information of data sets表1 數(shù)據(jù)集統(tǒng)計信息

IMDB（Internet Movie Data Base）是英文影評數(shù)據(jù)集：來自Diao 等人[21]使用的數(shù)據(jù)集，由英文電影評論構(gòu)成，總共包含5 萬條評論，分為積極和消極兩類，屬于二分類的情感分類問題。IMDB 情感分類的任務(wù)就是給定一條文本，預(yù)測它的情感是積極的還是消極的。

Yelp2013：評論文本來自2013 年Yelp 評論挑戰(zhàn)賽，與Tang 等人[2]使用的Yelp2013 數(shù)據(jù)集信息一致，其中評論級別總共有5 個：1～5，級別越高越好。數(shù)據(jù)集統(tǒng)計信息如表1 所示。

3.2 數(shù)據(jù)集的預(yù)處理

在實驗中，本文對數(shù)據(jù)集進行了預(yù)處理操作。由于在文檔分類中，停用詞的作用非常小，幾乎不會影響整個句子的含義。因此，將類似the、a、an、of 等的停用詞刪除。本文在讀取文檔時，將每一篇文檔切分成句子集合，并使用斯坦福的CoreNLP[22]工具標(biāo)記每個句子。在構(gòu)建詞匯表時，只保留出現(xiàn)次數(shù)超過5 次的單詞，將低于5 次的單詞采用一個特殊的字符“UNK”替換。通過在訓(xùn)練集和驗證集上訓(xùn)練一個無監(jiān)督的word2vec 模型得到詞嵌入，然后使用詞嵌入來初始化向量空間We。

3.3 評價指標(biāo)

為了驗證本文所提算法的有效性，使用精準(zhǔn)率Precision、召回率Recall、F1-score 和Accuracy 作為評價指標(biāo)，來衡量分類的整體效果。用r表示預(yù)測為正例，實際為正例；s表示預(yù)測為負例，實際為正例；t表示預(yù)測為正例，實際為負例；z表示預(yù)測為負例，實際為負例。如表2 所示。

Table 2 Confusion matrix of classification results表2 分類結(jié)果混淆矩陣

根據(jù)表2，可以得到如下計算式：

3.4 參數(shù)設(shè)置

實驗過程中模型的超參數(shù)在驗證集上進行微調(diào)，而最終的算法性能比較在測試集中進行。本文中，GRU 網(wǎng)絡(luò)的單元個數(shù)設(shè)置為50，那么Bi-GRU 網(wǎng)絡(luò)生成的向量維數(shù)為100。隨機初始化的單詞上下文向量uw和句子上下文向量us的維度設(shè)置為100。對于模型的訓(xùn)練，將詞嵌入的維度設(shè)置為100，采用大小為64 的批處理，采用動量為0.9 的隨機梯度下降法（stochastic gradient descent，SGD）來訓(xùn)練所有的模型，并且在驗證集上使用網(wǎng)格搜索來選擇最佳學(xué)習(xí)率。此外，為了防止網(wǎng)絡(luò)神經(jīng)元出現(xiàn)共同適應(yīng)性，本文還使用大小為0.5 的dropout 來隨機丟棄網(wǎng)絡(luò)中的神經(jīng)元。經(jīng)過多次調(diào)整，選取一組最優(yōu)模型參數(shù)，如表3 所示。

Table 3 Model parameter setting表3 模型參數(shù)設(shè)置

3.5 對比實驗

將提出的模型與以下多種基線模型進行對比：

（1）TextFeatures：基于傳統(tǒng)方法的模型，人工設(shè)計文本情感特征，輸入到分類器SVM（support vector machine）中[23]。

（2）TextCNN-word：基于單詞的CNN 模型，該模型采用不同大小的卷積內(nèi)核來處理文檔，模型的濾波器數(shù)目和濾波器大小是固定的[11]。

（3）LSTM：將整個文檔作為一個單獨的序列，所有單詞隱藏狀態(tài)的平均值作為分類的特征。

（4）Attention-based LSTM：基于注意力機制的LSTM。

（5）Attention-based Bi-LSTM：基于注意力機制的雙向LSTM。

（6）HAN：分層注意神經(jīng)網(wǎng)絡(luò)模型，分別基于注意力機制和GRU 構(gòu)建句子水平和文檔水平的層次特征向量表示[3]。

（7）MHAN：用于多語言文檔分類的層次注意網(wǎng)絡(luò)[3]。

（8）HAN*：表示根據(jù)HAN 所提出的方法，通過層次注意網(wǎng)絡(luò)對在線論壇討論進行提取總結(jié)[3]。

3.6 實驗結(jié)果及分析

本文的模型和現(xiàn)有的模型在所有數(shù)據(jù)集上的實驗結(jié)果在表4 和表5 中給出。從實驗數(shù)據(jù)可以看出，本文設(shè)計的CAHAN-RNN 和CAHAN-SUM 模型可以有效地提高文檔分類的效果。CAHAN-RNN 和CAHAN-SUM 采用的分別是遞歸法和求和法求解上下文向量的上下文感知與層級注意力網(wǎng)絡(luò)方法。這些結(jié)果表明，本文方法在所有的數(shù)據(jù)集上給出了最好的性能。

Table 4 Classification results of data set IMDB表4 數(shù)據(jù)集IMDB 的分類結(jié)果%

Table 5 Classification results of data set Yelp2013表5 數(shù)據(jù)集Yelp2013 的分類結(jié)果%

下面對表4 和表5 中的實驗結(jié)果做具體分析。

在兩個數(shù)據(jù)集上，本文提出的模型都顯示出了相當(dāng)大的改進。對于比較小的數(shù)據(jù)集IMDB，本文所提出模型的精度比基線模型TextFeatures、CNN、LSTM、Attention-based Bi-LSTM 和MHAN 至少高出了8.2 個百分點、5.4 個百分點、7.1 個百分點、4.9 個百分點和2.6 個百分點。基線模型HAN*的效果最好，但本文所提出模型效果至少超過了它1.4 個百分點。對于大數(shù)據(jù)集Yelp2013，本文提出的模型的精度比基線模型TextFeatures、CNN、LSTM、Attention-based Bi-LSTM 和HAN*至少高出了8.3 個百分點、4.9 個百分點、7.5 個百分點、3.8 個百分點和1.4 個百分點，比基線模型中表現(xiàn)最好的MHAN 高出了1.0 個百分點。同時，本文所提出模型的精準(zhǔn)率Precision、召回率Recall和F1-score也有很大的提高。

從表4 實驗數(shù)據(jù)可以看出，與傳統(tǒng)機器學(xué)習(xí)模型TextFeatures相比，基于淺層神經(jīng)網(wǎng)絡(luò)的模型TextCNNword、TextCNN-char、LSTM 所占優(yōu)勢并不那么明顯，它們的Accuracy值相差并不大，尤其是在大文本分類方面體現(xiàn)更為明顯。例如，TextCNN-word、TextCNNchar 與LSTM 在IMDB 數(shù)據(jù)集上的Accuracy 值分別為82.2%、81.1%、80.5%，在Yelp2013 數(shù)據(jù)集上的Accuracy 值分別為83.6%、82.3%、81.0%。而Text-Features 方法在兩個數(shù)據(jù)集上的Accuracy 值分別為79.4%和80.2%。

通過表4、表5 觀察到，分層表示模型對于模型性能改善起到非常大的作用。例如，TextCNN-word、TextCNN-char 與LSTM 三個沒有應(yīng)用分層表示特征的模型與應(yīng)用分層表示網(wǎng)絡(luò)的模型HAN*進行對比，Accuracy 值得到明顯提升。具體來說，HAN*較TextCNN-word 在IMDB 數(shù)據(jù)集和Yelp2013 數(shù)據(jù)集上的Accuracy 值分別提升了4.0 個百分點和3.5 個百分點。這表明利用詞語-句層次結(jié)構(gòu)，更有效地利用了文檔的組織結(jié)構(gòu)。對于時序特征以及層級注意力機制的性能改善也可以通過表4、表5 中對應(yīng)模型對比發(fā)現(xiàn)，這同時也表明模型采用詞語級注意力機制和句子級注意力機制有效地提取了強相關(guān)關(guān)系，提升了文檔分類的準(zhǔn)確度。

在兩個數(shù)據(jù)集中，本文提出的上下文感知與層級注意力網(wǎng)絡(luò)的方法CAHAN-RNN 和CAHAN-SUM較層級注意力網(wǎng)絡(luò)HAN、MHAN 和HAN*都顯示出了相當(dāng)大的改進。例如，模型CAHAN-RNN 在IMDB數(shù)據(jù)集和Yelp2013 數(shù)據(jù)集上的Accuracy 值分別為87.6%和88.5%，CAHAN-SUM 在兩個數(shù)據(jù)集上的Accuracy 值分別為91.9%和93.2%。而在IMDB 數(shù)據(jù)集上，分層注意網(wǎng)絡(luò)中表現(xiàn)最好的模型HAN*的Accuracy 值為86.2%。在Yelp2013 數(shù)據(jù)集上，分層注意網(wǎng)絡(luò)中表現(xiàn)最好的模型MHAN 的Accuracy 值為87.5%?？梢钥闯?，在兩個數(shù)據(jù)集上，引入上下文感知層級注意力網(wǎng)絡(luò)的方法較傳統(tǒng)的分層注意力網(wǎng)絡(luò)模型MHAN 和HAN*至少提高了1.0 個百分點和1.4個百分點。這些積極的結(jié)果提供了一個線索，即引入上下文向量ci并調(diào)節(jié)其大小確實是有益的。在單詞級注意力機制中引入上下文向量ci使得在求解當(dāng)前句子的表示時更全面地捕獲了文檔的上下文信息，門控使得注意力機制準(zhǔn)確地決定應(yīng)該考慮多少上下文信息，給模型提供了更多的表現(xiàn)力，也很有幫助。

針對本文提出的模型CAHAN-RNN 和CAHANSUM，可以看到模型CAHAN-RNN 的表現(xiàn)相對較差，CAHAN-SUM 取得了最佳的性能。例如，在IMDB數(shù)據(jù)集和Yelp2013 數(shù)據(jù)集上模型CAHAN-SUM 比CAHAN-RNN 分別高出了4.3 個百分點和4.7 個百分點。在此之前，相同的方法曾被用于對話行為分類，并獲得了很好的結(jié)果。這可能是因為：與語音轉(zhuǎn)錄中的話語不同，文檔中的句子不是按時間順序排列的。換句話說，距離當(dāng)前句子很遠的句子并不一定比距離較近的句子更不相關(guān)。因此，平均考慮每個句子比通過RNN 強加一個隱式時間衰減要好。因此，CAHAN-SUM 的性能要更好。

分類的準(zhǔn)確度是評價模型效果最重要的指標(biāo)，但是訓(xùn)練過程中的消耗也是一個重要的指標(biāo)。因此，實驗過程中還比較了幾種具有較高分類精度的模型的訓(xùn)練時間，如表6 所示。

Fig.6 Training time of model表6 模型的訓(xùn)練時間h

訓(xùn)練時間實驗是在單機下操作的，系統(tǒng)為Ubuntu 16.04 LTS，Intel?Corei7-6800K@3.40 GHz CPU，顯卡GIGABYTE GeForceGTX1080Ti。由表6 可知，對于IMDB 數(shù)據(jù)集，基線模型至少需要訓(xùn)練2.00 h 才能實現(xiàn)模型收斂，而本文提出的模型CAHAN-RNN 和CAHAN-SUM 分別需要1.00 h 和1.25 h。類似地，對于Yelp2013 數(shù)據(jù)集，本文所采用的基線模型至少需要訓(xùn)練3.45 h 才能實現(xiàn)模型收斂，而本文提出的模型CAHAN-RNN 和CAHAN-SUM 分別需要2.00 h和3.00 h。由此可見，本文提出的模型在訓(xùn)練階段具有較快的收斂速度，可以有效地減少訓(xùn)練時間的消耗。

4 結(jié)束語

本文針對文檔分類問題，提出了一個新的上下文感知與層級注意力網(wǎng)絡(luò)的文檔分類方法（CAHAN），通過在單詞級注意力機制中引入句子上下文向量全面地捕獲了句子之間的信息，并利用門控機制來準(zhǔn)確地決定上下文信息的多少，提高了文檔分類的準(zhǔn)確度。采用Bi-GRU 表示文檔中上下文和單詞序列的語義信息，同時利用注意力機制考慮文本中不同單詞和句子的重要性。實驗結(jié)果表明，該模型在現(xiàn)有的公開可用的數(shù)據(jù)集中均優(yōu)于所比較的模型。此外，訓(xùn)練時間大大減少。CAHAN 模型性能有待繼續(xù)提升，后續(xù)的研究工作將進一步在此基礎(chǔ)上對網(wǎng)絡(luò)結(jié)構(gòu)進行優(yōu)化。