亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

CGGA：一種CNN與并行門控機(jī)制混合的文本分類模型

2021-03-22 01:37:22馬建紅劉亞培劉言東陶永才

小型微型計(jì)算機(jī)系統(tǒng) 2021年3期

馬建紅，劉亞培，劉言東，陶永才，石磊，衛(wèi) 琳

1(鄭州大學(xué) 軟件學(xué)院，鄭州 450002) 2(鄭州大學(xué) 信息工程學(xué)院，鄭州 450001) 3(河南省國(guó)土資源電子政務(wù)中心，鄭州 450002)

1 引言

新聞通過公開媒體傳播，隨著網(wǎng)絡(luò)的快速發(fā)展，紙質(zhì)新聞時(shí)代迅速轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)媒體時(shí)代，隨之新聞文本數(shù)量呈指數(shù)級(jí)增長(zhǎng).如何在海量信息中對(duì)文本正確、高效地分類，是自然語(yǔ)言處理發(fā)展中一個(gè)重要的問題.相比國(guó)外文本分類技術(shù)的發(fā)展，國(guó)內(nèi)文本分類技術(shù)起步較晚，且中英文表述方式不同，因此兩者在文本分類技術(shù)研究中會(huì)面臨不同的問題[1].

傳統(tǒng)的文本分類方法是將特征工程與分類方法結(jié)合進(jìn)行文本分類[2].特征工程中，文本通過詞袋模型、n-grams詞袋模型、向量空間模型等，將文本轉(zhuǎn)化為計(jì)算機(jī)可理解的方式.之后，利用布爾權(quán)重計(jì)算、TF-IDF權(quán)重計(jì)算、基于熵概念的權(quán)重計(jì)算等方法，進(jìn)行特征選擇.最后利用樸素貝葉斯算法(Naive Bayesian algorithm)、K近鄰算法(k-Nearest Neighbor，KNN)、決策樹方法、支持向量機(jī)分類等分類方法，對(duì)文本進(jìn)行分類.這些分類方法特征表達(dá)能力差，序列捕捉能力弱，很難深層次的表征文本信息.而對(duì)于文本數(shù)據(jù)，最重要的是如何更好的選取特征，以及快速捕捉到上下文等信息.

隨著深度學(xué)習(xí)的發(fā)展，利用神經(jīng)網(wǎng)絡(luò)來處理文本分文本類問題成為研究熱點(diǎn).基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks，CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)的方法可以有效的緩解詞語(yǔ)特征表征能力弱，序列捕捉能力差等問題.卷積神經(jīng)網(wǎng)絡(luò)[3]通過稀疏交互和權(quán)值共享，來進(jìn)行特征提取，并能有效的減少學(xué)習(xí)參數(shù)的參數(shù)量，從而提高運(yùn)算效率.循環(huán)神經(jīng)網(wǎng)絡(luò)通過上一時(shí)刻的信息和當(dāng)前時(shí)刻的輸入，來確定當(dāng)前時(shí)刻的信息，保持了數(shù)據(jù)中的依賴關(guān)系，有效的解決了序列數(shù)據(jù)的處理問題.但是隨著卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)在文本處理上的研究越來越深入，關(guān)于以上兩種網(wǎng)絡(luò)處理序列型數(shù)據(jù)的缺點(diǎn)也隨之暴露.CNN會(huì)出現(xiàn)忽略局部與整體之間的關(guān)聯(lián)性的問題，RNN則存在隨著遞歸，權(quán)重指數(shù)級(jí)爆炸或消失、難以捕捉長(zhǎng)期時(shí)間關(guān)聯(lián)等問題.并且，對(duì)于中文文本分類研究中，存在文本分類準(zhǔn)確率不高、容易出現(xiàn)忽視上下文信息特征問題.

現(xiàn)有的神經(jīng)網(wǎng)絡(luò)文本分類模型大多是幾個(gè)模型的簡(jiǎn)單堆疊，沒有很好的對(duì)模型的缺點(diǎn)針對(duì)性的優(yōu)化，并且對(duì)于中文的文本分類研究較少，且中文文本分類仍存在分類準(zhǔn)確率低、缺少多方面特征提取等問題.為了解決以上問題，本文在卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基礎(chǔ)上引入雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit，BiGRU)來學(xué)習(xí)上下文信息，增強(qiáng)局部與整體之間關(guān)聯(lián)性，彌補(bǔ)卷積網(wǎng)絡(luò)提取特征多樣性的不足；利用門控Tanh-ReLU單元(Gated Tanh-ReLU Units，GTRU)控制信息流動(dòng)，并緩解梯度彌散的問題；使用多頭注意力機(jī)制(Multi-Head Attention)來優(yōu)化模型，提高模型文本分類準(zhǔn)確率.

2 相關(guān)工作

Kim Y等人[4]使用CNN進(jìn)行句子級(jí)文本分類任務(wù)，其融合多個(gè)不同大小的卷積核進(jìn)行卷積操作來進(jìn)行特征提取，并利用Max-over-time pooling來選出每個(gè)特征映射中的最大值，之后傳遞給一個(gè)完全連接的softmax層，其輸出是標(biāo)簽上的概率分布，該模型在多個(gè)基準(zhǔn)上取得了很好的效果.Lai等人[5]提出了循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(RCNN)分類方法，將左側(cè)上下文向量、詞嵌入、右側(cè)上下文向量進(jìn)行拼接，來得到上下文信息，利用線性變換和tanh激活函數(shù)得到最大池化層的輸入，然后自動(dòng)判斷哪些單詞在文本分類中扮演關(guān)鍵角色，從而進(jìn)行文本分類任務(wù).Johnson 等人[6]提出了一種低復(fù)雜度的詞級(jí)深度卷積神經(jīng)網(wǎng)絡(luò)文本分類體系結(jié)構(gòu)，將卷積層與步長(zhǎng)為2 的池化構(gòu)成疊加模塊，可以有效地表示文本中的長(zhǎng)距離關(guān)系，并加入殘差模塊來進(jìn)行深層網(wǎng)絡(luò)的訓(xùn)練.

隨著網(wǎng)絡(luò)的加深，會(huì)出現(xiàn)梯度彌散的現(xiàn)象，以至于難以訓(xùn)練深層次的網(wǎng)絡(luò).Dauphin等人[7]第一次將門限控制引入到CNN中，介紹了門控線性單元(Gated Linear Units，GLU)和門控雙曲正切單元(Gated Tanh Units，GTU)，并在其論文中構(gòu)建了門控卷積網(wǎng)絡(luò)的語(yǔ)言建模體系結(jié)構(gòu)，利用門控線性單元(GLU)，來控制層次結(jié)構(gòu)中信息的傳遞，該模型在WikiText-103上實(shí)現(xiàn)了一個(gè)新的技術(shù)狀態(tài)，并在谷歌億字基準(zhǔn)上實(shí)現(xiàn)了一個(gè)新的最佳單gpu結(jié)果.Gehring等人[8]提出完全基于卷積神經(jīng)網(wǎng)絡(luò)的序列到序列(ConvS2S)的翻譯模型，分別在編碼與解碼的卷積操作之后，引入GLU激活單元作為非線性運(yùn)算以優(yōu)化梯度傳播，證明了其有效性.Xue等人[9]建立了方面嵌入的門控卷積網(wǎng)絡(luò)(GCAE)，將詞嵌入經(jīng)過卷積操作之后經(jīng)門控Tanh-ReLU單元(Gated Tanh-ReLU Units，GTRU)來控制情感特征和方面特征的傳播，從而進(jìn)行方面級(jí)情感分類.這里我們將門控Tanh-ReLU單元進(jìn)行簡(jiǎn)化并應(yīng)用到中文新聞文本分類處理的問題中，來進(jìn)行文本特征選取，優(yōu)化文本分類模型.

由于RNN的迭代性會(huì)造成梯度消失問題和梯度爆炸問題[10]，Hochreiter等人[11]提出長(zhǎng)短期記憶(Long Short-Term Memory，LSTM)解決了梯度反向傳播過程中梯度消失問題，并能夠保持?jǐn)?shù)據(jù)中的長(zhǎng)期依賴關(guān)系，其表現(xiàn)優(yōu)于RNN，之后經(jīng)改良和推廣到廣泛應(yīng)用.Cho等人[12]提出門控循環(huán)單元(Gated Recurrent Unit，GRU)，GRU是LSTM的一種簡(jiǎn)化結(jié)構(gòu)，與LSTM性能相當(dāng)，但參數(shù)更少，收斂速度更快，不容易過擬合[13]，Cho等將其應(yīng)用到機(jī)器翻譯領(lǐng)域，并取得不錯(cuò)的效果.鄭誠(chéng)等人[14]提出了一種基于密集連接循環(huán)門控單元卷積網(wǎng)絡(luò)的混合模型(DC-BiGRU_CNN)用于處理短文本分類，在多個(gè)公開數(shù)據(jù)集上，該模型的文本分類準(zhǔn)確率有顯著提升.

注意力機(jī)制(Attention Mechanism)來源于人類的視覺，人類可以將有限的視覺資源進(jìn)行有效的分配，從而來關(guān)注比較重要的信息.Vaswani等人[15]利用多個(gè)相同的放縮點(diǎn)積注意力(Scaled Dot-Product Attention)構(gòu)成多頭注意力(Multi-Head Attention)，并提出一種完全基于注意力機(jī)制的翻譯模型，在兩個(gè)機(jī)器翻譯任務(wù)上取得了更優(yōu)的效果，證明了注意力機(jī)制的有效性.Zehui等人[16]提出了多任務(wù)多頭部注意記憶網(wǎng)絡(luò)(MMAM)，用多頭文檔注意機(jī)制作為內(nèi)存對(duì)共享文檔特征進(jìn)行編碼，用多任務(wù)注意機(jī)制來提取特定類別的特征，在餐廳領(lǐng)域和汽車領(lǐng)域的兩個(gè)中文細(xì)粒度情感分析數(shù)據(jù)集上的結(jié)果優(yōu)于其他細(xì)粒度情感分析模型.王吉俐等人[17]利用循環(huán)神經(jīng)捕捉文本的上下文信息，通過引入注意力機(jī)制得到文本類別的特征向量矩陣后，運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)模型完成文本的分類.

在學(xué)習(xí)與探索了前人在中文文本分類方面的研究上，本文構(gòu)建了一種基于卷積神經(jīng)網(wǎng)絡(luò)的混合門控文本分類模型(CGGA).將預(yù)先處理好的字符級(jí)詞向量作為卷積層的輸入，利用卷積進(jìn)行局部特征提取，從而得到特征向量；與雙向門控循環(huán)單元(BiGRU)結(jié)合，來獲取數(shù)據(jù)內(nèi)部聯(lián)系以進(jìn)行上下文建模，來提取數(shù)據(jù)間的關(guān)系特征；利用門控Tanh-ReLU單元(GTRU)進(jìn)一步篩選上層的輸出特征，并減輕模型的梯度彌散問題；之后利用多頭注意力機(jī)制來關(guān)注不同子空間信息，對(duì)權(quán)重進(jìn)行更新計(jì)算；最后用softmax多分類器進(jìn)行文本類別分類.本文構(gòu)建的CGGA中文文本分類模型在 THUCNews數(shù)據(jù)集、搜狐數(shù)據(jù)集(SogouCS)上取得了較好的效果，證明該模型在結(jié)構(gòu)和提高分類準(zhǔn)確率等方面具有一定的實(shí)用性與創(chuàng)新性.

3 模型實(shí)現(xiàn)

本文結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)、門控Tanh-ReLU單元(GTRU)、雙向門控循環(huán)單元(BiGRU)和多頭注意力機(jī)制(Multi-Head Attention)，構(gòu)建一個(gè)中文文本分類模型，具體工作如下.

3.1 門控Tanh-ReLU單元(Gated Tanh-ReLU Units，GTRU)

門控線性單元(Gated Linear Units，GLU)表示為fl-GLU(X)=(X*W+b)?σ(X*V+c)，即將卷積后的結(jié)果分別經(jīng)過線性映射和S形門控，并將兩者的輸出相乘，作為下一層的輸入.門控雙曲正切單元(Gated Tanh Units，GTU)表示為fl-GTU(X)=tanh(X*W+b)?σ(X*V+c)，即將卷積后的結(jié)果分別經(jīng)過tanh門控和S形門控，并將兩者的輸出相乘，作為下一層的輸入.其中σ是sigmoid函數(shù)，?是矩陣間的元素相乘.

在本文中，我們引入門控Tanh-ReLU單元(Gated Tanh-ReLU Units，GTRU)[9]，并去掉式子relu(X*W+Vv+b)中方面類別的嵌入向量v，將GTRU簡(jiǎn)化表示，如公式(1)所示：

fl-GTRU(X)=relu(X*W+b)?tanh(X*V+c)

(1)

其中，X∈RN×m是l層的輸入，其是單詞嵌入或是前一層的輸出，N為詞序列的長(zhǎng)度，m為詞向量的維度，W∈Rk×m×n、V∈Rk×m×n表示不同的卷積核，k為卷積核的大小，n表示輸出維度，b∈RN、c∈RN表示偏置參數(shù).

GTRU將卷積后的輸出分別經(jīng)過一次線性映射relu(X*W+b)和門tanh(X*W+c)控制，將兩者的輸出相乘作為下一層的輸入，從而控制信息向下層流動(dòng)的力度.Sigmoid函數(shù)與tanh函數(shù)線性相關(guān)，Sigmoid在輸入處于[-1，1]時(shí)，其函數(shù)值變化比tanh函數(shù)更敏感，一旦接近或超出區(qū)間就失去敏感性，使處于飽和狀態(tài)，影響神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的精度值；而tanh函數(shù)的輸出和輸入能夠保持非線性單調(diào)上升和下降關(guān)系，其收斂速度快、容錯(cuò)性好、有界，且其飽和期晚于Sigmoid函數(shù)[20].GTRU和GLU只有一個(gè)衰減項(xiàng)，相比GTU可以較好地減輕梯度彌散，且GTRU和GLU都擁有線性的通道，可以使梯度很容易通過激活的單元，反向傳播且不會(huì)減小，但在相同的訓(xùn)練時(shí)間下，GTRU比GLU、GTU獲得更高的精度.因此，采用GTRU來構(gòu)建文本分類模型，以提高文本分類性能.

3.2 雙向門控循環(huán)單元(BiGRU)

LSTM 解決了傳統(tǒng)RNN中反向傳播過程中出現(xiàn)的梯度消失等問題，而GRU 保持了 LSTM 效果，具有更加簡(jiǎn)單的結(jié)構(gòu)，更少的參數(shù)，更好的收斂性.門控循環(huán)單元(GRU)由兩個(gè)門組成，分別為重置門r(reset gate)與更新門z(update gate)，這兩個(gè)門控機(jī)制能夠保存長(zhǎng)期序列中的信息，且不會(huì)隨時(shí)間而清除或因?yàn)榕c預(yù)測(cè)不相關(guān)而移除.其結(jié)構(gòu)如圖 1所示.

圖1 GRU模型Fig.1 Gated Recurrent Unit model

GRU模型的計(jì)算過程如公式(2)～公式(5)所示：

rt=σ(Wr·[ht-1，xt])

(2)

zt=σ(Wi·[ht-1，xt])

(3)

(4)

(5)

雙向門控循環(huán)單元(BiGRU)在文本序列建模時(shí)，在每一時(shí)刻，輸入會(huì)同時(shí)提供兩個(gè)方向相反的GRU，而輸出則由這兩個(gè)單向GRU共同決定.BiGRU的具體結(jié)構(gòu)如圖2所示.

圖2 雙向門控循環(huán)單元模型結(jié)構(gòu)(BiGRU)Fig.2 Bidirectional Gated Recurrent Unit model structure

其具體計(jì)算過程如公式(6)～公式(8)所示：

(6)

(7)

(8)

3.3 多頭注意力機(jī)制(Multi-Head Attention)

(9)

在多頭注意力操作之前，先將Q、K、V進(jìn)行線性變換，之后將其映射到h個(gè)不同的子空間，在每個(gè)子空間中進(jìn)行放縮點(diǎn)積注意力計(jì)算，以關(guān)注不同子空間的重要信息.之后將以上子空間上的注意力的輸出進(jìn)行拼接.多頭注意力總體架構(gòu)如圖3所示.

圖3 多頭注意力Fig.3 Multi-Head Attention

多頭注意力機(jī)制的計(jì)算如公式(10)所示.

(10)

圖4 CGGA模型Fig.4 CGGA model

3.4 CGGA中文文本分類模型

本文的所構(gòu)建的CGGA中文文本分類模型結(jié)構(gòu)如圖4所示.已有研究表明，字符嵌入可以最大程度的保持原文本信息，故實(shí)驗(yàn)中將字符級(jí)詞向量作為卷積層的輸入.在數(shù)據(jù)預(yù)處理階段，將原始中文序列文本按字符劃分為單個(gè)漢字與符號(hào)，再構(gòu)建大小為5000的詞匯表，使用one-hot編碼對(duì)每個(gè)字符進(jìn)行量化，之后將輸入的中文序列轉(zhuǎn)化為相應(yīng)的向量序列.這里字符向量序列最大長(zhǎng)度設(shè)置為700，輸入序列長(zhǎng)度不足700或字符不在詞匯表中的用零向量表示，超過設(shè)置長(zhǎng)度的字符都忽略.

模型中，首先將字符級(jí)詞向量輸入到卷積層進(jìn)行卷積操作，得到局部特征矩陣；然后將特征矩陣分別輸入到GTRU和BiGRU，對(duì)整個(gè)輸入特征進(jìn)行上下文建模，學(xué)習(xí)數(shù)據(jù)上下文之間的聯(lián)系；之后將兩者的輸出結(jié)果進(jìn)行拼接，作為全局平均池化(Global Average Pooling，GAP)的輸入，這里使用全局平均池化替代全連接層，以進(jìn)行特征壓縮并防止過擬合；然后利用多頭注意力機(jī)制進(jìn)行特征權(quán)重更新計(jì)算，使模型在相應(yīng)文本類別上有著更高的輸出；最后利用softmax進(jìn)行中文文本分類.

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)環(huán)境

本文的實(shí)驗(yàn)環(huán)境及其配置如表1所示.

表1 實(shí)驗(yàn)環(huán)境配置Table 1 Experimental environment configuration

4.2 實(shí)驗(yàn)數(shù)據(jù)集

1)THUCNews數(shù)據(jù)集，是由清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室推出的中文新聞文本分類數(shù)據(jù)集，包含74萬(wàn)篇新聞文檔，分為14個(gè)新聞?lì)悇e.本文選取其中的10個(gè)類別，每個(gè)類別包含6500篇新聞文檔，其中5000為訓(xùn)練集、500驗(yàn)證集、1000為測(cè)試集.

2)搜狐新聞數(shù)據(jù)集(SogouCS)，是搜狐實(shí)驗(yàn)室推出的中文新聞文本數(shù)據(jù)集，本文選取其中的12個(gè)類別，每個(gè)類別大約包含3000篇新聞文檔，其中2000左右為訓(xùn)練集、500驗(yàn)證集、500為測(cè)試集.

4.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

本文使用宏平均精確率(Macro average precision，MAP)、宏平均召回率(Macro average recall，MAR)、宏平均F1-Score(Macro average F1-Score，MAF1)來作為文本分類評(píng)測(cè)指標(biāo)，它們分別是指每個(gè)類別的精確率、召回率、F1-Score的算術(shù)平均.各評(píng)價(jià)指標(biāo)的計(jì)算公式如式(11)～式(13)所示：

(11)

(12)

(13)

其中，n為總分類數(shù)，Pk為第k類的精確率，Rk為第k類的召回率，F(xiàn)1k為第k類的F1-Score.

4.4 實(shí)驗(yàn)參數(shù)設(shè)置

在實(shí)驗(yàn)中，模型的參數(shù)值的設(shè)置會(huì)影響到實(shí)驗(yàn)的最終結(jié)果，這里列出本文實(shí)驗(yàn)中的部分參數(shù)，以此為基準(zhǔn)進(jìn)行實(shí)驗(yàn).本實(shí)驗(yàn)的模型參數(shù)設(shè)置如表2所示.

表2 模型參數(shù)設(shè)置Table 2 Model parameter setting

4.5 實(shí)驗(yàn)結(jié)果對(duì)比與分析

使用單一的字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)(CCNN)作為基線文本分類模型.這里字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)包括：輸入層、卷積層、激勵(lì)層、全局平均池化層、輸出層.

4.5.1 不同優(yōu)化操作對(duì)比

在CCNN模型中，分別使用ReLU激活函數(shù)、門控線性單元(GLU)、門控雙曲正切單元(GTU)和門控Tanh-ReLU單元(GTRU)來對(duì)比不同激活操作對(duì)文本分類性能的影響.其中，以最常用的ReLU激活函數(shù)作為基礎(chǔ)，進(jìn)行測(cè)試對(duì)比.

圖5 不同激活層對(duì)比1Fig.5 Different activationlayers were compared by 1圖6 不同激活層對(duì)比2Fig.6 Different activationlayers were compared by 2

圖5和圖6是分別在THUCNews數(shù)據(jù)集和在搜狐數(shù)據(jù)集(SogouCS)上，具有不同激活操作的CCNN模型的宏平均F1-Score(MAF1).從兩個(gè)圖中可以看出，使用GLU和GTRU的CCNN模型文本分類結(jié)果的MAF1值均高于使用ReLU激活函數(shù)，且使用GTRU的結(jié)果更好.使用GTU的文本分類結(jié)果MAF1值低于使用ReLU激活函數(shù).其中，使用門控Tanh-ReLU單元(GTRU)的模型MAF1值比使用ReLU激活函數(shù)在THUCNews數(shù)據(jù)集和在搜狐數(shù)據(jù)集(SogouCS)上分別高1.24%、6.28%.由此證明了門控Tanh-ReLU單元(GTRU)在卷積網(wǎng)絡(luò)中的優(yōu)化效果更好.

4.5.2 不同并行結(jié)構(gòu)模型對(duì)比

CCNN-BiGRU模型：將字符級(jí)向量分別作為單一的CCNN模型和BiGRU模型的輸入，之后將兩者的輸出拼接，然后進(jìn)行分類實(shí)驗(yàn)；CCNN(GTRU)-BiGRU模型：將字符級(jí)向量分別作為使用GTRU的CCNN模型和BiGRU模型的輸入，之后將兩者的輸出拼接，然后進(jìn)行分類實(shí)驗(yàn)；CGG模型.將本文所構(gòu)建的CGGA模型(如圖4所示)去掉注意力機(jī)制，這里簡(jiǎn)寫為CGG模型.將這3個(gè)具有并行結(jié)構(gòu)的模型進(jìn)行實(shí)驗(yàn)對(duì)比.

表3為3個(gè)不同的并行結(jié)構(gòu)在兩個(gè)數(shù)據(jù)集上的宏平均召回率(MAR).在THUCNews數(shù)據(jù)集上和搜狐數(shù)據(jù)集(SogouCS)上，模型CNN(GTRU)-BiGRU比模型CNN-BiGRU的宏平均召回率(MAR)分別高0.08%、0.20%，說明使用GTRU優(yōu)化的CCNN模型與BiGRU并行的分類結(jié)果更好，且證明了GTRU的有效性.模型CGG比模型CNN(GTRU)-BiGRU的MAR分別高0.32%、0.05%，比模型CNN-BiGRU的MAR分別高0.40%、0.25%，證明本文的并行結(jié)構(gòu)分類效果更好.

表3 并行結(jié)構(gòu)模型對(duì)比Table 3 Parallel structure model comparison

4.5.3 不同分類模型對(duì)比

表4為5個(gè)模型分別在THUCNews數(shù)據(jù)集和搜狐數(shù)據(jù)集(SogouCS)上分類的宏平均精確率(MAP)，這5個(gè)模型分別為：字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)(CCNN)、雙向門控循環(huán)單元(BiGRU)、增加了多頭注意力的字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)(CCNN-A)、CGG模型、本文構(gòu)建的分類模型CGGA.由CCNN模型和CCNN-A模型、CGG模型和CGGA模型兩組對(duì)比模型的宏平均精確率(MAP)值可以看出，增加了多頭注意力機(jī)制后的模型在兩個(gè)數(shù)據(jù)集上的MAP更高，這證明了多頭注意力機(jī)制可以優(yōu)化模型，使模型的分類精確率更高.在THUCNews數(shù)據(jù)集上CGGA模型分類的宏平均精確率比單一的CCNN模型和BiGRU模型的分別高2.24%、0.76%；在搜狐數(shù)據(jù)集上CGGA模型分類的宏平均精確率比單一的CCNN模型和BiGRU模型的分別高6.78%、0.92%.從實(shí)驗(yàn)結(jié)果可以看出，本文構(gòu)建的CGGA模型可以有效的提高文本分類的精確率.

表4 模型分類精確率對(duì)比Table 4 Model classification precision rate comparison

4.5.4 不同卷積核尺寸大小對(duì)比

這里本文將分別測(cè)試尺寸大小分別為3、4、5、6、7的卷積核對(duì)CGGA模型文本分類的影響.

由圖7可以看出，在兩個(gè)數(shù)據(jù)集上的宏平均精確率(MAP)的折線走向，先下降后上升再下降，在卷積核尺寸為6時(shí)取得最高的宏平均精確率.由此說明了在CGGA模型上，卷積核尺寸的不同會(huì)影響模型的分類效果.

圖7 CGGA模型不同卷積核大小對(duì)比Fig.7 CGGA model is compared with different convolution kernel sizes

5 結(jié) 論

本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的并行門控混合文本分類模型，即CGGA模型.在字符級(jí)卷積網(wǎng)絡(luò)的基礎(chǔ)上引入了雙向門控單元(BiGRU)和門控Tanh-ReLU單元，學(xué)習(xí)數(shù)據(jù)間的依賴關(guān)系，有效的彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)忽略局部與整體之間的關(guān)聯(lián)性的缺陷，提高卷積網(wǎng)絡(luò)的性能；并引入多頭注意力機(jī)制(Multi-Head Attention)來關(guān)注不同子空間的重要信息，以提高模型文本分類的準(zhǔn)確率.CGGA模型在THUCNews數(shù)據(jù)集和搜狐數(shù)據(jù)集(SogouCS)上分別進(jìn)行訓(xùn)練和測(cè)試，其實(shí)驗(yàn)結(jié)果證明，中文文本分類任務(wù)中，在卷積神經(jīng)網(wǎng)絡(luò)中使用并行的門控機(jī)制和注意力機(jī)制有利于文本分類任務(wù)的研究.由于本文中模型使用的卷積神經(jīng)網(wǎng)絡(luò)較簡(jiǎn)單，在接下來的學(xué)習(xí)與研究中，來探索如何使用深層的卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)一步提高分類準(zhǔn)確率.