亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        CGGA:一種CNN與并行門控機(jī)制混合的文本分類模型

        2021-03-22 01:37:22馬建紅劉亞培劉言東陶永才
        關(guān)鍵詞:字符注意力卷積

        馬建紅,劉亞培,劉言東,陶永才,石 磊,衛(wèi) 琳

        1(鄭州大學(xué) 軟件學(xué)院,鄭州 450002) 2(鄭州大學(xué) 信息工程學(xué)院,鄭州 450001) 3(河南省國(guó)土資源電子政務(wù)中心,鄭州 450002)

        1 引 言

        新聞通過公開媒體傳播,隨著網(wǎng)絡(luò)的快速發(fā)展,紙質(zhì)新聞時(shí)代迅速轉(zhuǎn)變?yōu)榫W(wǎng)絡(luò)媒體時(shí)代,隨之新聞文本數(shù)量呈指數(shù)級(jí)增長(zhǎng).如何在海量信息中對(duì)文本正確、高效地分類,是自然語(yǔ)言處理發(fā)展中一個(gè)重要的問題.相比國(guó)外文本分類技術(shù)的發(fā)展,國(guó)內(nèi)文本分類技術(shù)起步較晚,且中英文表述方式不同,因此兩者在文本分類技術(shù)研究中會(huì)面臨不同的問題[1].

        傳統(tǒng)的文本分類方法是將特征工程與分類方法結(jié)合進(jìn)行文本分類[2].特征工程中,文本通過詞袋模型、n-grams詞袋模型、向量空間模型等,將文本轉(zhuǎn)化為計(jì)算機(jī)可理解的方式.之后,利用布爾權(quán)重計(jì)算、TF-IDF權(quán)重計(jì)算、基于熵概念的權(quán)重計(jì)算等方法,進(jìn)行特征選擇.最后利用樸素貝葉斯算法(Naive Bayesian algorithm)、K近鄰算法(k-Nearest Neighbor,KNN)、決策樹方法、支持向量機(jī)分類等分類方法,對(duì)文本進(jìn)行分類.這些分類方法特征表達(dá)能力差,序列捕捉能力弱,很難深層次的表征文本信息.而對(duì)于文本數(shù)據(jù),最重要的是如何更好的選取特征,以及快速捕捉到上下文等信息.

        隨著深度學(xué)習(xí)的發(fā)展,利用神經(jīng)網(wǎng)絡(luò)來處理文本分文本類問題成為研究熱點(diǎn).基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的方法可以有效的緩解詞語(yǔ)特征表征能力弱,序列捕捉能力差等問題.卷積神經(jīng)網(wǎng)絡(luò)[3]通過稀疏交互和權(quán)值共享,來進(jìn)行特征提取,并能有效的減少學(xué)習(xí)參數(shù)的參數(shù)量,從而提高運(yùn)算效率.循環(huán)神經(jīng)網(wǎng)絡(luò)通過上一時(shí)刻的信息和當(dāng)前時(shí)刻的輸入,來確定當(dāng)前時(shí)刻的信息,保持了數(shù)據(jù)中的依賴關(guān)系,有效的解決了序列數(shù)據(jù)的處理問題.但是隨著卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)在文本處理上的研究越來越深入,關(guān)于以上兩種網(wǎng)絡(luò)處理序列型數(shù)據(jù)的缺點(diǎn)也隨之暴露.CNN會(huì)出現(xiàn)忽略局部與整體之間的關(guān)聯(lián)性的問題,RNN則存在隨著遞歸,權(quán)重指數(shù)級(jí)爆炸或消失、難以捕捉長(zhǎng)期時(shí)間關(guān)聯(lián)等問題.并且,對(duì)于中文文本分類研究中,存在文本分類準(zhǔn)確率不高、容易出現(xiàn)忽視上下文信息特征問題.

        現(xiàn)有的神經(jīng)網(wǎng)絡(luò)文本分類模型大多是幾個(gè)模型的簡(jiǎn)單堆疊,沒有很好的對(duì)模型的缺點(diǎn)針對(duì)性的優(yōu)化,并且對(duì)于中文的文本分類研究較少,且中文文本分類仍存在分類準(zhǔn)確率低、缺少多方面特征提取等問題.為了解決以上問題,本文在卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基礎(chǔ)上引入雙向門控循環(huán)單元(Bidirectional Gated Recurrent Unit,BiGRU)來學(xué)習(xí)上下文信息,增強(qiáng)局部與整體之間關(guān)聯(lián)性,彌補(bǔ)卷積網(wǎng)絡(luò)提取特征多樣性的不足;利用門控Tanh-ReLU單元(Gated Tanh-ReLU Units,GTRU)控制信息流動(dòng),并緩解梯度彌散的問題;使用多頭注意力機(jī)制(Multi-Head Attention)來優(yōu)化模型,提高模型文本分類準(zhǔn)確率.

        2 相關(guān)工作

        Kim Y等人[4]使用CNN進(jìn)行句子級(jí)文本分類任務(wù),其融合多個(gè)不同大小的卷積核進(jìn)行卷積操作來進(jìn)行特征提取,并利用Max-over-time pooling來選出每個(gè)特征映射中的最大值,之后傳遞給一個(gè)完全連接的softmax層,其輸出是標(biāo)簽上的概率分布,該模型在多個(gè)基準(zhǔn)上取得了很好的效果.Lai等人[5]提出了循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(RCNN)分類方法,將左側(cè)上下文向量、詞嵌入、右側(cè)上下文向量進(jìn)行拼接,來得到上下文信息,利用線性變換和tanh激活函數(shù)得到最大池化層的輸入,然后自動(dòng)判斷哪些單詞在文本分類中扮演關(guān)鍵角色,從而進(jìn)行文本分類任務(wù).Johnson 等人[6]提出了一種低復(fù)雜度的詞級(jí)深度卷積神經(jīng)網(wǎng)絡(luò)文本分類體系結(jié)構(gòu),將卷積層與步長(zhǎng)為2 的池化構(gòu)成疊加模塊,可以有效地表示文本中的長(zhǎng)距離關(guān)系,并加入殘差模塊來進(jìn)行深層網(wǎng)絡(luò)的訓(xùn)練.

        隨著網(wǎng)絡(luò)的加深,會(huì)出現(xiàn)梯度彌散的現(xiàn)象,以至于難以訓(xùn)練深層次的網(wǎng)絡(luò).Dauphin等人[7]第一次將門限控制引入到CNN中,介紹了門控線性單元(Gated Linear Units,GLU)和門控雙曲正切單元(Gated Tanh Units,GTU),并在其論文中構(gòu)建了門控卷積網(wǎng)絡(luò)的語(yǔ)言建模體系結(jié)構(gòu),利用門控線性單元(GLU),來控制層次結(jié)構(gòu)中信息的傳遞,該模型在WikiText-103上實(shí)現(xiàn)了一個(gè)新的技術(shù)狀態(tài),并在谷歌億字基準(zhǔn)上實(shí)現(xiàn)了一個(gè)新的最佳單gpu結(jié)果.Gehring等人[8]提出完全基于卷積神經(jīng)網(wǎng)絡(luò)的序列到序列(ConvS2S)的翻譯模型,分別在編碼與解碼的卷積操作之后,引入GLU激活單元作為非線性運(yùn)算以優(yōu)化梯度傳播,證明了其有效性.Xue等人[9]建立了方面嵌入的門控卷積網(wǎng)絡(luò)(GCAE),將詞嵌入經(jīng)過卷積操作之后經(jīng)門控Tanh-ReLU單元(Gated Tanh-ReLU Units,GTRU)來控制情感特征和方面特征的傳播,從而進(jìn)行方面級(jí)情感分類.這里我們將門控Tanh-ReLU單元進(jìn)行簡(jiǎn)化并應(yīng)用到中文新聞文本分類處理的問題中,來進(jìn)行文本特征選取,優(yōu)化文本分類模型.

        由于RNN的迭代性會(huì)造成梯度消失問題和梯度爆炸問題[10],Hochreiter等人[11]提出長(zhǎng)短期記憶(Long Short-Term Memory,LSTM)解決了梯度反向傳播過程中梯度消失問題,并能夠保持?jǐn)?shù)據(jù)中的長(zhǎng)期依賴關(guān)系,其表現(xiàn)優(yōu)于RNN,之后經(jīng)改良和推廣到廣泛應(yīng)用.Cho等人[12]提出門控循環(huán)單元(Gated Recurrent Unit,GRU),GRU是LSTM的一種簡(jiǎn)化結(jié)構(gòu),與LSTM性能相當(dāng),但參數(shù)更少,收斂速度更快,不容易過擬合[13],Cho等將其應(yīng)用到機(jī)器翻譯領(lǐng)域,并取得不錯(cuò)的效果.鄭誠(chéng)等人[14]提出了一種基于密集連接循環(huán)門控單元卷積網(wǎng)絡(luò)的混合模型(DC-BiGRU_CNN)用于處理短文本分類,在多個(gè)公開數(shù)據(jù)集上,該模型的文本分類準(zhǔn)確率有顯著提升.

        注意力機(jī)制(Attention Mechanism)來源于人類的視覺,人類可以將有限的視覺資源進(jìn)行有效的分配,從而來關(guān)注比較重要的信息.Vaswani等人[15]利用多個(gè)相同的放縮點(diǎn)積注意力(Scaled Dot-Product Attention)構(gòu)成多頭注意力(Multi-Head Attention),并提出一種完全基于注意力機(jī)制的翻譯模型,在兩個(gè)機(jī)器翻譯任務(wù)上取得了更優(yōu)的效果,證明了注意力機(jī)制的有效性.Zehui等人[16]提出了多任務(wù)多頭部注意記憶網(wǎng)絡(luò)(MMAM),用多頭文檔注意機(jī)制作為內(nèi)存對(duì)共享文檔特征進(jìn)行編碼,用多任務(wù)注意機(jī)制來提取特定類別的特征,在餐廳領(lǐng)域和汽車領(lǐng)域的兩個(gè)中文細(xì)粒度情感分析數(shù)據(jù)集上的結(jié)果優(yōu)于其他細(xì)粒度情感分析模型.王吉俐等人[17]利用循環(huán)神經(jīng)捕捉文本的上下文信息,通過引入注意力機(jī)制得到文本類別的特征向量矩陣后,運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)模型完成文本的分類.

        在學(xué)習(xí)與探索了前人在中文文本分類方面的研究上,本文構(gòu)建了一種基于卷積神經(jīng)網(wǎng)絡(luò)的混合門控文本分類模型(CGGA).將預(yù)先處理好的字符級(jí)詞向量作為卷積層的輸入,利用卷積進(jìn)行局部特征提取,從而得到特征向量;與雙向門控循環(huán)單元(BiGRU)結(jié)合,來獲取數(shù)據(jù)內(nèi)部聯(lián)系以進(jìn)行上下文建模,來提取數(shù)據(jù)間的關(guān)系特征;利用門控Tanh-ReLU單元(GTRU)進(jìn)一步篩選上層的輸出特征,并減輕模型的梯度彌散問題;之后利用多頭注意力機(jī)制來關(guān)注不同子空間信息,對(duì)權(quán)重進(jìn)行更新計(jì)算;最后用softmax多分類器進(jìn)行文本類別分類.本文構(gòu)建的CGGA中文文本分類模型在 THUCNews數(shù)據(jù)集、搜狐數(shù)據(jù)集(SogouCS)上取得了較好的效果,證明該模型在結(jié)構(gòu)和提高分類準(zhǔn)確率等方面具有一定的實(shí)用性與創(chuàng)新性.

        3 模型實(shí)現(xiàn)

        本文結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)、門控Tanh-ReLU單元(GTRU)、雙向門控循環(huán)單元(BiGRU)和多頭注意力機(jī)制(Multi-Head Attention),構(gòu)建一個(gè)中文文本分類模型,具體工作如下.

        3.1 門控Tanh-ReLU單元(Gated Tanh-ReLU Units,GTRU)

        門控線性單元(Gated Linear Units,GLU)表示為fl-GLU(X)=(X*W+b)?σ(X*V+c),即將卷積后的結(jié)果分別經(jīng)過線性映射和S形門控,并將兩者的輸出相乘,作為下一層的輸入.門控雙曲正切單元(Gated Tanh Units,GTU)表示為fl-GTU(X)=tanh(X*W+b)?σ(X*V+c),即將卷積后的結(jié)果分別經(jīng)過tanh門控和S形門控,并將兩者的輸出相乘,作為下一層的輸入.其中σ是sigmoid函數(shù),?是矩陣間的元素相乘.

        在本文中,我們引入門控Tanh-ReLU單元(Gated Tanh-ReLU Units,GTRU)[9],并去掉式子relu(X*W+Vv+b)中方面類別的嵌入向量v,將GTRU簡(jiǎn)化表示,如公式(1)所示:

        fl-GTRU(X)=relu(X*W+b)?tanh(X*V+c)

        (1)

        其中,X∈RN×m是l層的輸入,其是單詞嵌入或是前一層的輸出,N為詞序列的長(zhǎng)度,m為詞向量的維度,W∈Rk×m×n、V∈Rk×m×n表示不同的卷積核,k為卷積核的大小,n表示輸出維度,b∈RN、c∈RN表示偏置參數(shù).

        GTRU將卷積后的輸出分別經(jīng)過一次線性映射relu(X*W+b)和門tanh(X*W+c)控制,將兩者的輸出相乘作為下一層的輸入,從而控制信息向下層流動(dòng)的力度.Sigmoid函數(shù)與tanh函數(shù)線性相關(guān),Sigmoid在輸入處于[-1,1]時(shí),其函數(shù)值變化比tanh函數(shù)更敏感,一旦接近或超出區(qū)間就失去敏感性,使處于飽和狀態(tài),影響神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)的精度值;而tanh函數(shù)的輸出和輸入能夠保持非線性單調(diào)上升和下降關(guān)系,其收斂速度快、容錯(cuò)性好、有界,且其飽和期晚于Sigmoid函數(shù)[20].GTRU和GLU只有一個(gè)衰減項(xiàng),相比GTU可以較好地減輕梯度彌散,且GTRU和GLU都擁有線性的通道,可以使梯度很容易通過激活的單元,反向傳播且不會(huì)減小,但在相同的訓(xùn)練時(shí)間下,GTRU比GLU、GTU獲得更高的精度.因此,采用GTRU來構(gòu)建文本分類模型,以提高文本分類性能.

        3.2 雙向門控循環(huán)單元(BiGRU)

        LSTM 解決了傳統(tǒng)RNN中反向傳播過程中出現(xiàn)的梯度消失等問題,而GRU 保持了 LSTM 效果,具有更加簡(jiǎn)單的結(jié)構(gòu),更少的參數(shù),更好的收斂性.門控循環(huán)單元(GRU)由兩個(gè)門組成,分別為重置門r(reset gate)與更新門z(update gate),這兩個(gè)門控機(jī)制能夠保存長(zhǎng)期序列中的信息,且不會(huì)隨時(shí)間而清除或因?yàn)榕c預(yù)測(cè)不相關(guān)而移除.其結(jié)構(gòu)如圖 1所示.

        圖1 GRU模型Fig.1 Gated Recurrent Unit model

        GRU模型的計(jì)算過程如公式(2)~公式(5)所示:

        rt=σ(Wr·[ht-1,xt])

        (2)

        zt=σ(Wi·[ht-1,xt])

        (3)

        (4)

        (5)

        雙向門控循環(huán)單元(BiGRU)在文本序列建模時(shí),在每一時(shí)刻,輸入會(huì)同時(shí)提供兩個(gè)方向相反的GRU,而輸出則由這兩個(gè)單向GRU共同決定.BiGRU的具體結(jié)構(gòu)如圖2所示.

        圖2 雙向門控循環(huán)單元模型結(jié)構(gòu)(BiGRU)Fig.2 Bidirectional Gated Recurrent Unit model structure

        其具體計(jì)算過程如公式(6)~公式(8)所示:

        (6)

        (7)

        (8)

        3.3 多頭注意力機(jī)制(Multi-Head Attention)

        (9)

        在多頭注意力操作之前,先將Q、K、V進(jìn)行線性變換,之后將其映射到h個(gè)不同的子空間,在每個(gè)子空間中進(jìn)行放縮點(diǎn)積注意力計(jì)算,以關(guān)注不同子空間的重要信息.之后將以上子空間上的注意力的輸出進(jìn)行拼接.多頭注意力總體架構(gòu)如圖3所示.

        圖3 多頭注意力Fig.3 Multi-Head Attention

        多頭注意力機(jī)制的計(jì)算如公式(10)所示.

        (10)

        圖4 CGGA模型Fig.4 CGGA model

        3.4 CGGA中文文本分類模型

        本文的所構(gòu)建的CGGA中文文本分類模型結(jié)構(gòu)如圖4所示.已有研究表明,字符嵌入可以最大程度的保持原文本信息,故實(shí)驗(yàn)中將字符級(jí)詞向量作為卷積層的輸入.在數(shù)據(jù)預(yù)處理階段,將原始中文序列文本按字符劃分為單個(gè)漢字與符號(hào),再構(gòu)建大小為5000的詞匯表,使用one-hot編碼對(duì)每個(gè)字符進(jìn)行量化,之后將輸入的中文序列轉(zhuǎn)化為相應(yīng)的向量序列.這里字符向量序列最大長(zhǎng)度設(shè)置為700,輸入序列長(zhǎng)度不足700或字符不在詞匯表中的用零向量表示,超過設(shè)置長(zhǎng)度的字符都忽略.

        模型中,首先將字符級(jí)詞向量輸入到卷積層進(jìn)行卷積操作,得到局部特征矩陣;然后將特征矩陣分別輸入到GTRU和BiGRU,對(duì)整個(gè)輸入特征進(jìn)行上下文建模,學(xué)習(xí)數(shù)據(jù)上下文之間的聯(lián)系;之后將兩者的輸出結(jié)果進(jìn)行拼接,作為全局平均池化(Global Average Pooling,GAP)的輸入,這里使用全局平均池化替代全連接層,以進(jìn)行特征壓縮并防止過擬合;然后利用多頭注意力機(jī)制進(jìn)行特征權(quán)重更新計(jì)算,使模型在相應(yīng)文本類別上有著更高的輸出;最后利用softmax進(jìn)行中文文本分類.

        4 實(shí) 驗(yàn)

        4.1 實(shí)驗(yàn)環(huán)境

        本文的實(shí)驗(yàn)環(huán)境及其配置如表1所示.

        表1 實(shí)驗(yàn)環(huán)境配置Table 1 Experimental environment configuration

        4.2 實(shí)驗(yàn)數(shù)據(jù)集

        1)THUCNews數(shù)據(jù)集,是由清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室推出的中文新聞文本分類數(shù)據(jù)集,包含74萬(wàn)篇新聞文檔,分為14個(gè)新聞?lì)悇e.本文選取其中的10個(gè)類別,每個(gè)類別包含6500篇新聞文檔,其中5000為訓(xùn)練集、500驗(yàn)證集、1000為測(cè)試集.

        2)搜狐新聞數(shù)據(jù)集(SogouCS),是搜狐實(shí)驗(yàn)室推出的中文新聞文本數(shù)據(jù)集,本文選取其中的12個(gè)類別,每個(gè)類別大約包含3000篇新聞文檔,其中2000左右為訓(xùn)練集、500驗(yàn)證集、500為測(cè)試集.

        4.3 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)

        本文使用宏平均精確率(Macro average precision,MAP)、宏平均召回率(Macro average recall,MAR)、宏平均F1-Score(Macro average F1-Score,MAF1)來作為文本分類評(píng)測(cè)指標(biāo),它們分別是指每個(gè)類別的精確率、召回率、F1-Score的算術(shù)平均.各評(píng)價(jià)指標(biāo)的計(jì)算公式如式(11)~式(13)所示:

        (11)

        (12)

        (13)

        其中,n為總分類數(shù),Pk為第k類的精確率,Rk為第k類的召回率,F(xiàn)1k為第k類的F1-Score.

        4.4 實(shí)驗(yàn)參數(shù)設(shè)置

        在實(shí)驗(yàn)中,模型的參數(shù)值的設(shè)置會(huì)影響到實(shí)驗(yàn)的最終結(jié)果,這里列出本文實(shí)驗(yàn)中的部分參數(shù),以此為基準(zhǔn)進(jìn)行實(shí)驗(yàn).本實(shí)驗(yàn)的模型參數(shù)設(shè)置如表2所示.

        表2 模型參數(shù)設(shè)置Table 2 Model parameter setting

        4.5 實(shí)驗(yàn)結(jié)果對(duì)比與分析

        使用單一的字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)(CCNN)作為基線文本分類模型.這里字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)包括:輸入層、卷積層、激勵(lì)層、全局平均池化層、輸出層.

        4.5.1 不同優(yōu)化操作對(duì)比

        在CCNN模型中,分別使用ReLU激活函數(shù)、門控線性單元(GLU)、門控雙曲正切單元(GTU)和門控Tanh-ReLU單元(GTRU)來對(duì)比不同激活操作對(duì)文本分類性能的影響.其中,以最常用的ReLU激活函數(shù)作為基礎(chǔ),進(jìn)行測(cè)試對(duì)比.

        圖5 不同激活層對(duì)比1Fig.5 Different activationlayers were compared by 1圖6 不同激活層對(duì)比2Fig.6 Different activationlayers were compared by 2

        圖5和圖6是分別在THUCNews數(shù)據(jù)集和在搜狐數(shù)據(jù)集(SogouCS)上,具有不同激活操作的CCNN模型的宏平均F1-Score(MAF1).從兩個(gè)圖中可以看出,使用GLU和GTRU的CCNN模型文本分類結(jié)果的MAF1值均高于使用ReLU激活函數(shù),且使用GTRU的結(jié)果更好.使用GTU的文本分類結(jié)果MAF1值低于使用ReLU激活函數(shù).其中,使用門控Tanh-ReLU單元(GTRU)的模型MAF1值比使用ReLU激活函數(shù)在THUCNews數(shù)據(jù)集和在搜狐數(shù)據(jù)集(SogouCS)上分別高1.24%、6.28%.由此證明了門控Tanh-ReLU單元(GTRU)在卷積網(wǎng)絡(luò)中的優(yōu)化效果更好.

        4.5.2 不同并行結(jié)構(gòu)模型對(duì)比

        CCNN-BiGRU模型:將字符級(jí)向量分別作為單一的CCNN模型和BiGRU模型的輸入,之后將兩者的輸出拼接,然后進(jìn)行分類實(shí)驗(yàn);CCNN(GTRU)-BiGRU模型:將字符級(jí)向量分別作為使用GTRU的CCNN模型和BiGRU模型的輸入,之后將兩者的輸出拼接,然后進(jìn)行分類實(shí)驗(yàn);CGG模型.將本文所構(gòu)建的CGGA模型(如圖4所示)去掉注意力機(jī)制,這里簡(jiǎn)寫為CGG模型.將這3個(gè)具有并行結(jié)構(gòu)的模型進(jìn)行實(shí)驗(yàn)對(duì)比.

        表3為3個(gè)不同的并行結(jié)構(gòu)在兩個(gè)數(shù)據(jù)集上的宏平均召回率(MAR).在THUCNews數(shù)據(jù)集上和搜狐數(shù)據(jù)集(SogouCS)上,模型CNN(GTRU)-BiGRU比模型CNN-BiGRU的宏平均召回率(MAR)分別高0.08%、0.20%,說明使用GTRU優(yōu)化的CCNN模型與BiGRU并行的分類結(jié)果更好,且證明了GTRU的有效性.模型CGG比模型CNN(GTRU)-BiGRU的MAR分別高0.32%、0.05%,比模型CNN-BiGRU的MAR分別高0.40%、0.25%,證明本文的并行結(jié)構(gòu)分類效果更好.

        表3 并行結(jié)構(gòu)模型對(duì)比Table 3 Parallel structure model comparison

        4.5.3 不同分類模型對(duì)比

        表4為5個(gè)模型分別在THUCNews數(shù)據(jù)集和搜狐數(shù)據(jù)集(SogouCS)上分類的宏平均精確率(MAP),這5個(gè)模型分別為:字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)(CCNN)、雙向門控循環(huán)單元(BiGRU)、增加了多頭注意力的字符級(jí)卷積神經(jīng)網(wǎng)絡(luò)(CCNN-A)、CGG模型、本文構(gòu)建的分類模型CGGA.由CCNN模型和CCNN-A模型、CGG模型和CGGA模型兩組對(duì)比模型的宏平均精確率(MAP)值可以看出,增加了多頭注意力機(jī)制后的模型在兩個(gè)數(shù)據(jù)集上的MAP更高,這證明了多頭注意力機(jī)制可以優(yōu)化模型,使模型的分類精確率更高.在THUCNews數(shù)據(jù)集上CGGA模型分類的宏平均精確率比單一的CCNN模型和BiGRU模型的分別高2.24%、0.76%;在搜狐數(shù)據(jù)集上CGGA模型分類的宏平均精確率比單一的CCNN模型和BiGRU模型的分別高6.78%、0.92%.從實(shí)驗(yàn)結(jié)果可以看出,本文構(gòu)建的CGGA模型可以有效的提高文本分類的精確率.

        表4 模型分類精確率對(duì)比Table 4 Model classification precision rate comparison

        4.5.4 不同卷積核尺寸大小對(duì)比

        這里本文將分別測(cè)試尺寸大小分別為3、4、5、6、7的卷積核對(duì)CGGA模型文本分類的影響.

        由圖7可以看出,在兩個(gè)數(shù)據(jù)集上的宏平均精確率(MAP)的折線走向,先下降后上升再下降,在卷積核尺寸為6時(shí)取得最高的宏平均精確率.由此說明了在CGGA模型上,卷積核尺寸的不同會(huì)影響模型的分類效果.

        圖7 CGGA模型不同卷積核大小對(duì)比Fig.7 CGGA model is compared with different convolution kernel sizes

        5 結(jié) 論

        本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的并行門控混合文本分類模型,即CGGA模型.在字符級(jí)卷積網(wǎng)絡(luò)的基礎(chǔ)上引入了雙向門控單元(BiGRU)和門控Tanh-ReLU單元,學(xué)習(xí)數(shù)據(jù)間的依賴關(guān)系,有效的彌補(bǔ)了卷積神經(jīng)網(wǎng)絡(luò)忽略局部與整體之間的關(guān)聯(lián)性的缺陷,提高卷積網(wǎng)絡(luò)的性能;并引入多頭注意力機(jī)制(Multi-Head Attention)來關(guān)注不同子空間的重要信息,以提高模型文本分類的準(zhǔn)確率.CGGA模型在THUCNews數(shù)據(jù)集和搜狐數(shù)據(jù)集(SogouCS)上分別進(jìn)行訓(xùn)練和測(cè)試,其實(shí)驗(yàn)結(jié)果證明,中文文本分類任務(wù)中,在卷積神經(jīng)網(wǎng)絡(luò)中使用并行的門控機(jī)制和注意力機(jī)制有利于文本分類任務(wù)的研究.由于本文中模型使用的卷積神經(jīng)網(wǎng)絡(luò)較簡(jiǎn)單,在接下來的學(xué)習(xí)與研究中,來探索如何使用深層的卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)一步提高分類準(zhǔn)確率.

        猜你喜歡
        字符注意力卷積
        尋找更強(qiáng)的字符映射管理器
        讓注意力“飛”回來
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        字符代表幾
        一種USB接口字符液晶控制器設(shè)計(jì)
        電子制作(2019年19期)2019-11-23 08:41:50
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        消失的殖民村莊和神秘字符
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        国产不卡精品一区二区三区| 国产精品反差婊在线观看| 亚洲高清在线视频网站| 性感女教师在线免费观看| 久久婷婷人人澡人人爽人人爱| 国产亚洲精久久久久久无码77777| 天堂Av无码Av一区二区三区 | 精品中文字幕久久久人妻| 成人看片黄a免费看那个网址| 日本a级特黄特黄刺激大片| 伊人精品无码AV一区二区三区| 蜜芽尤物原创AV在线播放| 日日噜噜噜夜夜狠狠久久蜜桃 | 无码国产激情在线观看| 欧美亚洲高清日韩成人| 免费在线日韩| 午夜理论片日本中文在线| 国产午夜手机精彩视频| 亚洲欧洲∨国产一区二区三区 | 日本一区二区在线播放观看| 久久一区二区视频在线观看| 国产亚洲精品久久久久久国模美| 亚洲精品国产福利一二区| 免费在线观看一区二区| 成人免费av高清在线| 极品少妇小泬50pthepon| 久久免费国产精品| 一个人的视频免费播放在线观看| 青青手机在线观看视频| 亚洲婷婷五月综合狠狠爱| 午夜无码大尺度福利视频| 亚洲欧美变态另类综合| 久久精品国产亚洲av蜜臀久久| 女人被狂躁的高潮免费视频| 色老头在线一区二区三区| 亚洲中文字幕无码卡通动漫野外| 精品一区二区三区老熟女少妇| 丁香婷婷在线成人播放视频| 人人爽久久涩噜噜噜av| 欧美激情αv一区二区三区| 久草视频在线视频手机在线观看 |