亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力機(jī)制的雙通道DAC-RNN文本分類模型

        2022-08-19 08:24:30李啟行孟靜雯
        關(guān)鍵詞:注意力準(zhǔn)確率卷積

        李啟行,廖 薇,孟靜雯

        上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620

        隨著手機(jī)、電腦等智能設(shè)備的大范圍普及,人們的日常交流也逐步從線下轉(zhuǎn)移到各種網(wǎng)絡(luò)社交平臺(tái),互聯(lián)網(wǎng)作為主要的信息傳播途徑,每天都會(huì)增加大量的文本數(shù)據(jù)。面對(duì)這些數(shù)量龐大的文本數(shù)據(jù),如何對(duì)數(shù)據(jù)進(jìn)行有效的分類,是當(dāng)前自然語(yǔ)言處理領(lǐng)域研究的重點(diǎn)問(wèn)題。

        近年來(lái),隨著國(guó)內(nèi)外學(xué)者對(duì)文本分類研究的不斷深入,許多分類算法涌現(xiàn)而出,目前提出的文本分類方法主要可分為兩大類:第一類是傳統(tǒng)的機(jī)器學(xué)習(xí)分類方法,主要包括K最鄰近(K-nearest neighbor,KNN)[1]分類算法、支持向量機(jī)(support vector machine,SVM)[2]、隱含狄利克雷分布(latent Dirichlet allocation,LDA)[3]等。這些算法在目前來(lái)看較為成熟,但在進(jìn)行文本分類過(guò)程中,其分類效果主要依賴于人工提取文本特征,整個(gè)過(guò)程較為耗時(shí)。第二類是基于深度學(xué)習(xí)的分類方法,在文本分類中使用較為廣泛的有卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)[4]、遞歸神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)以及各種CNN 與RNN 的混合網(wǎng)絡(luò)。CNN可以通過(guò)卷積層與池化層對(duì)文本進(jìn)行局部特征提取,但是不能有效地提取文本數(shù)據(jù)的全局序列信息。RNN 是一種序列模型,相對(duì)于CNN 的優(yōu)勢(shì)在于其具有“記憶”能力,可以捕獲文本的全局序列信息,但是當(dāng)序列信息過(guò)長(zhǎng)或者文本過(guò)于復(fù)雜時(shí),RNN 會(huì)變得沒(méi)有那么敏感。在文本分類模型中引入注意力機(jī)制,可以獲取文本中每一個(gè)詞在整個(gè)文本中的重要程度,對(duì)重要的詞分配較大的比重分值,增強(qiáng)模型對(duì)這些特征的重視程度[5]。但注意力機(jī)制也存在一定的缺點(diǎn),不可以捕捉位置信息,不能學(xué)習(xí)到文本序列中的順序關(guān)系。

        為了優(yōu)化深度學(xué)習(xí)模型提取文本關(guān)鍵特征的能力,提出一種基于注意力機(jī)制的雙通道文本分類模型DACRNN(dual-channel AC-RNN)。該模型以Bi-LSTM+Attention作為第一通道,提取文本序列的上下文關(guān)聯(lián)信息;以CNN+Attention 作為第二通道,提取文本序列的局部特征。同時(shí),在CNN通道中,將原始輸入向量與各層CNN 的輸出向量進(jìn)行選擇性融合,有效利用原始特征,避免特征在網(wǎng)絡(luò)層間傳遞過(guò)程中的丟失問(wèn)題。

        1 研究基礎(chǔ)

        文本分類技術(shù)是自然語(yǔ)言處理領(lǐng)域最核心、最基礎(chǔ)的內(nèi)容之一,目前深度學(xué)習(xí)結(jié)合文本分類的應(yīng)用取得了很大的進(jìn)展[6],它在輿情分析、意圖識(shí)別、問(wèn)答系統(tǒng)等多個(gè)領(lǐng)域發(fā)揮著重要的作用。其中常用的深度神經(jīng)網(wǎng)絡(luò)模型有遞歸神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制、卷積神經(jīng)網(wǎng)絡(luò)。

        在自然語(yǔ)言處理任務(wù)中,卷積神經(jīng)網(wǎng)絡(luò)主要被用于文本的靜態(tài)分類任務(wù)。Kim[7]提出使用多個(gè)卷積核結(jié)合最大池化對(duì)文本進(jìn)行關(guān)鍵特征提取,并用預(yù)訓(xùn)練的詞向量對(duì)輸入向量進(jìn)行更新。夏從零等[8]利用事件本身具有的特點(diǎn),提出一種運(yùn)用文本間的關(guān)系提取事件集合,進(jìn)而在CNN 中進(jìn)行事件特征提取的文本分類方法,通過(guò)實(shí)驗(yàn)證明了方法的有效性。句子中的長(zhǎng)距離依賴在單層CNN 中不能被很好地表達(dá)出來(lái),一些多層網(wǎng)絡(luò)結(jié)構(gòu)被提出。Wang等[9]提出一種具有多層網(wǎng)絡(luò)結(jié)構(gòu)的CNN模型來(lái)獲取Web 數(shù)據(jù)中的關(guān)鍵特征,運(yùn)用SVM 進(jìn)行分類預(yù)測(cè),雖然該模型取得了好的結(jié)果,但是增加網(wǎng)絡(luò)會(huì)使模型的參數(shù)增加,導(dǎo)致模型訓(xùn)練速度慢,穩(wěn)定性不足,模型訓(xùn)練難度增大。Pham等[10]使用不同的卷積核來(lái)提取文本數(shù)據(jù)的特征,并將提取的特征向量進(jìn)行融合,然后進(jìn)行分類,通過(guò)這種方式可以準(zhǔn)確提取文本的局部特征,但是不能有效地獲取文本的全局序列信息,這也是CNN所具有的缺點(diǎn)。

        RNN 可以有效地處理上下文數(shù)據(jù),提取文本數(shù)據(jù)的全局序列信息,但是當(dāng)文本序列過(guò)長(zhǎng)時(shí)容易出現(xiàn)梯度消失問(wèn)題。為了解決這一問(wèn)題,相關(guān)研究人員在RNN 的基礎(chǔ)上提出了長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM),并由此延伸出雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-LSTM),Bi-LSTM可以同時(shí)從兩個(gè)方向提取文本的序列信息。但是RNN在文本局部特征提取方面存在不足,可以對(duì)RNN 與CNN 進(jìn)行組合,利用彼此的優(yōu)勢(shì)提取更加豐富的文本特征。Zhang 等[11]提出一種混合LSTM和CNN的分類模型,通過(guò)LSTM獲取上下文中的依賴關(guān)系,使用CNN獲取文本的局部特征,最后將獲取的信息進(jìn)行融合,輸入到分類器,最終驗(yàn)證了RNN 與CNN進(jìn)行組合的有效性。李洋等[12]提出一種將Bi-LSTM與CNN 相融合的網(wǎng)絡(luò)模型,通過(guò)雙向傳播機(jī)制獲取文本中完整的上下文信息,相對(duì)于文獻(xiàn)[11],該模型克服了LSTM不能準(zhǔn)確獲取詞后特征的不足,提高了特征融合在文本分類上的準(zhǔn)確性。

        注意力機(jī)制可以對(duì)文本的關(guān)鍵特征進(jìn)行聚焦操作,對(duì)特征提取有一定的積極作用。陶志勇等[13]將注意力機(jī)制引入Bi-LSTM 用于短文本分類,利用Bi-LSTM 提取文本的語(yǔ)義特征,通過(guò)注意力層對(duì)更深層的語(yǔ)義特征進(jìn)行向量表示,可以提取到短文本的關(guān)鍵特征。Liu等[14]提出一種用于文本分類的AC-BiLSTM模型,在CNN與Bi-LSTM 結(jié)合的基礎(chǔ)上,引入注意力機(jī)制,使模型更加關(guān)注與文本情感相關(guān)的詞語(yǔ),可以幫助理解句子的語(yǔ)義,同時(shí)通過(guò)實(shí)驗(yàn)得出合理使用兩個(gè)注意力機(jī)制層比具有單注意力機(jī)制層模型的性能更好。但注意力機(jī)制忽略了詞序信息,不能用來(lái)捕捉文本的位置信息[15]。

        2 DAC-RNN模型的構(gòu)建

        2.1 模型結(jié)構(gòu)

        在CNN 與Bi-LSTM 的基礎(chǔ)上,本文提出一種基于注意力機(jī)制的DAC-RNN文本分類模型,以中文文本作為輸入,樣本種類作為輸出,實(shí)現(xiàn)端對(duì)端的中文文本分類任務(wù)。DAC-RNN模型結(jié)構(gòu)如圖1所示。

        圖1 DAC-RNN文本分類模型Fig.1 DAC-RNN text classification model

        整個(gè)模型分為四部分:詞嵌入層,將分詞后的文本向量化表示;Bi-LSTM+Attention通道,獲取文本序列的上下文關(guān)聯(lián)語(yǔ)義;CNN+Attention通道,獲取文本序列的局部特征;Softmax 層,對(duì)兩通道融合后的輸出進(jìn)行分類,獲取分類結(jié)果。

        2.2 文本表示

        在自然語(yǔ)言處理任務(wù)中,因?yàn)橛?jì)算機(jī)不能直接理解人類的語(yǔ)言,所以在文本處理時(shí)首先需要將文本轉(zhuǎn)換成計(jì)算機(jī)能夠識(shí)別的數(shù)值形式,即將每個(gè)詞語(yǔ)都表示成一個(gè)向量。獨(dú)熱編碼(one-hot encoding)是一種傳統(tǒng)的文本表示方法,這種方法非常簡(jiǎn)單,但是當(dāng)詞語(yǔ)的數(shù)量過(guò)多時(shí),特征空間會(huì)變得非常大。同時(shí),獨(dú)熱編碼的值只有0和1,這就默認(rèn)兩個(gè)詞語(yǔ)孤立存在,從而忽略了上下文的語(yǔ)義信息,不能體現(xiàn)兩個(gè)詞語(yǔ)之間的關(guān)系。近年來(lái),詞向量一詞得到了很好的應(yīng)用,Mikolov 等人于2013 年提出一種Word2Vec 模型,通過(guò)將初始特征值映射到實(shí)數(shù)低維向量,解決了詞向量維度過(guò)大的問(wèn)題,在詞向量生成過(guò)程中也將詞語(yǔ)與詞語(yǔ)之間的關(guān)系進(jìn)行了連接。

        本文利用Google開源推出的Word2Vec工具包進(jìn)行詞向量訓(xùn)練,將中文文本數(shù)據(jù)庫(kù)中的文本通過(guò)結(jié)巴進(jìn)行分詞處理后,使用Word2Vec中的Skip-gram模型進(jìn)行詞向量預(yù)訓(xùn)練。Skip-gram模型通過(guò)上下文預(yù)測(cè)目標(biāo)詞來(lái)訓(xùn)練語(yǔ)義嵌入,也可以捕獲詞語(yǔ)之間的語(yǔ)義關(guān)系。假設(shè)一個(gè)句子S的長(zhǎng)度為N,整個(gè)文本可以向量化表示為式(1):

        2.3 Bi-LSTM+Attention通道

        LSTM由3個(gè)門組成:遺忘門、輸入門和輸出門。首先,遺忘門決定從單元狀態(tài)中刪除掉哪些信息,然后輸入門決定將哪些信息更新為單元狀態(tài),當(dāng)遺忘門與輸入門確定以后,單元狀態(tài)可以隨之更新。最后輸出門決定網(wǎng)絡(luò)的最終輸出。整個(gè)過(guò)程中每個(gè)節(jié)點(diǎn)的狀態(tài)由式(2)~(7)決定。

        其中,σ表示Sigmoid 函數(shù),ft、ot、it分別表示t時(shí)刻的遺忘門、輸出門與輸入門的節(jié)點(diǎn)操作,Wf、Wi、Wc、Wo為參數(shù)矩陣,bf、bi、bc、bo為偏置項(xiàng),xt為時(shí)間t的輸入向量,ht-1表示前一步產(chǎn)生的狀態(tài),ht表示最后輸出的狀態(tài),ct-1表示上一步輸出的單元狀態(tài),ct是當(dāng)前單元的狀態(tài),運(yùn)算符?表示逐元素乘法。

        標(biāo)準(zhǔn)的LSTM是單向網(wǎng)絡(luò),這就說(shuō)明當(dāng)前狀態(tài)只能按從前向后的順序在文本序列中獲取信息,但是對(duì)于文本數(shù)據(jù),特別是對(duì)于文本分類任務(wù),其結(jié)果主要取決于過(guò)去與將來(lái)的整體信息。為了解決這個(gè)問(wèn)題,本文選擇使用Bi-LSTM來(lái)處理兩個(gè)方向的序列,其結(jié)構(gòu)如圖2所示。Bi-LSTM包含前向隱藏層和后向隱藏層,當(dāng)前輸出不僅取決于當(dāng)前輸入,還受到歷史信息與未來(lái)信息的影響。其中前向隱藏層的輸出為,后向隱藏層的輸出為Bi-LSTM隱藏層的輸出Ht可表示為式(8)。

        圖2 Bi-LSTM模型圖Fig.2 Bi-LSTM model diagram

        Bi-LSTM 的作用是建立文本級(jí)詞語(yǔ)向量表示。因?yàn)槊總€(gè)詞語(yǔ)對(duì)文本類別都有不同的貢獻(xiàn),所以為每個(gè)詞語(yǔ)分配不同的權(quán)重能夠區(qū)分詞語(yǔ)間的貢獻(xiàn)程度。注意機(jī)制可以為詞語(yǔ)分配不同的權(quán)重,把注意力集中到對(duì)文本較重要的詞語(yǔ)上,進(jìn)一步提高對(duì)整個(gè)文本的理解。引入注意力機(jī)制后的計(jì)算過(guò)程如下。

        其中,ui為Ht的注意力隱層表示,Ws為權(quán)值矩陣,bs為偏置項(xiàng),αi是ui通過(guò)Softmax 函數(shù)得到的歸一化權(quán)值,最后將Bi-LSTM 隱藏層的輸出與注意力權(quán)重值進(jìn)行點(diǎn)乘與累加操作,得到該通道的輸出T。

        2.4 CNN+Attention通道

        常用的CNN 模型主要由卷積層、池化層和全連接層構(gòu)成,卷積層是CNN的核心,可以看作一種特征提取器,用于從文本中提取局部特征,因?yàn)楣蚕頇?quán)重,所以模型的參數(shù)更少。池化層位于卷積運(yùn)算之后,用于自然語(yǔ)言處理中的特征選擇,捕獲最突出的特征。池化操作大致分為最大值池化、平均池化以及K-max池化三種,本文采用最大值池化。全連接層一般與輸出層進(jìn)行連接,主要作用是將輸送來(lái)的特征整合到一起,減少特征信息丟失對(duì)分類帶來(lái)的影響。

        為了提取到更加豐富的局部特征,本文使用雙層CNN,結(jié)構(gòu)如圖1 所示,將CNN1 的輸出與原輸入的詞向量矩陣進(jìn)行融合,用于CNN2 的輸入,接著對(duì)CNN1與CNN2 的輸出進(jìn)行融合,重新利用原始特征,確保更多的特征參與到模型的學(xué)習(xí)過(guò)程中,增強(qiáng)特征對(duì)分類結(jié)果的積極影響。在進(jìn)行卷積計(jì)算過(guò)程中,為了保證每層CNN 輸入向量的維度與輸出向量的維度保持一致,使每個(gè)卷積層中的Padding參數(shù)都選擇SAME模式。

        將向量矩陣S=[x1,x2,…,xN]輸入,xi∈Rd表示一個(gè)文本中第i個(gè)詞語(yǔ)對(duì)應(yīng)詞向量,參數(shù)d表示詞向量的維度。取卷積核W=[w0,w1,…,wβ-1] ,卷積核中詞語(yǔ)的個(gè)數(shù)為β,卷積計(jì)算公式如下。

        式中,f是非線性激活函數(shù),本文使用ReLU 作為激活函數(shù),Xt:t+β-1表示輸入詞向量矩陣S的第t列到第t+β-1 列,b表示偏置項(xiàng)。

        詞向量矩陣S經(jīng)過(guò)式(12)進(jìn)行卷積計(jì)算,可以得到CNN1 的輸出矩陣C1=[ ]c1,c2,…,cN ,N為詞向量個(gè)數(shù)。將原始輸入矩陣S與CNN1的輸出矩陣C1通過(guò)Concat函數(shù)進(jìn)行融合,得到融合后的特征矩陣S2=[c1,c2,…,cN,x1,x2,…,xN],將其作為CNN2的輸入,通過(guò)式(12)進(jìn)行卷積運(yùn)算,得到CNN2的輸出矩陣C2=[k1,k2,…,kj],j為詞向量個(gè)數(shù)。最后,將CNN1的輸出C1與CNN2的輸出C2進(jìn)行Concat 融合,得到下層網(wǎng)絡(luò)的輸入矩陣C3=[c1,c2,…,cN,k1,k2,…,kj] ,Concat融合公式如式(13)。其中,axis=1 表示將C1與C2進(jìn)行橫向拼接的過(guò)程,只改變了詞向量的個(gè)數(shù),詞向量的維度d未發(fā)生改變,從而大大減小了融合操作給整個(gè)模型帶來(lái)的負(fù)面影響。

        下一步對(duì)卷積操作的輸出矩陣C3進(jìn)行Attention與池化層處理,用于篩選并提取出更突出的特征,其中注意力機(jī)制引入過(guò)程見式(14)~式(16)。池化層對(duì)特征向量進(jìn)行降維操作,通過(guò)最大值池化獲取更豐富的特征信息。

        其中,Ct是t時(shí)刻通過(guò)雙層CNN學(xué)習(xí)到的特征表示,ut為Ct的注意力隱層表示,Ws為權(quán)值矩陣,bs為偏置項(xiàng),αt是ut通過(guò)Softmax 函數(shù)得到的歸一化權(quán)值。

        2.5 Softmax層

        上述兩通道通過(guò)不同的網(wǎng)絡(luò)結(jié)構(gòu)捕獲到了文本序列的局部特征與全局序列信息,在進(jìn)行分類前需要對(duì)兩個(gè)通道提取的特征進(jìn)行融合。由于在第二通道中池化層對(duì)特征向量進(jìn)行降維操作,使得兩個(gè)通道的輸出呈現(xiàn)不同的維度,需要對(duì)兩個(gè)通道輸出的特征矩陣進(jìn)行一定的處理,然后將融合后的特征保存在outputs中,作為全連接層的輸入,全連接層中使用ReLU激活函數(shù)。

        在全連接層之后引入Dropout 機(jī)制,使權(quán)值更新不只依賴部分特征,這樣做是為了防止訓(xùn)練過(guò)程中出現(xiàn)過(guò)擬合。最后將處理后的outputs輸送到Softmax分類器,本文通過(guò)Softmax 分類器輸出類別的概率分布。將x分類為類別j的概率為:

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        本文使用兩種不同類型的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),來(lái)測(cè)試DAC-RNN 文本分類模型的分類效果。數(shù)據(jù)集包括THUCNews新聞文本數(shù)據(jù)集、今日頭條新聞文本數(shù)據(jù)集。

        THUCNews 新聞文本數(shù)據(jù)集是由清華大學(xué)提供并公開的一種大規(guī)模文本數(shù)據(jù)集,該數(shù)據(jù)集是根據(jù)新浪新聞的某個(gè)訂閱頻道6年間的歷史數(shù)據(jù)篩選生成,共有74萬(wàn)余篇新聞文檔,包含14個(gè)新聞?lì)悇e,常用于長(zhǎng)文本分類任務(wù)。本文選用其中10 個(gè)類別的樣本,每類取5 000條作為訓(xùn)練集,1 000條作為測(cè)試集,500條作為驗(yàn)證集。

        今日頭條新聞文本數(shù)據(jù)集由今日頭條提供,共有38 萬(wàn)余條新聞,包含15個(gè)新聞?lì)悇e,數(shù)據(jù)中的新聞標(biāo)題很短,不超過(guò)50個(gè)字,可用于進(jìn)行短文本分類任務(wù)。實(shí)驗(yàn)中提取其中的8 個(gè)類別,類別及數(shù)量關(guān)系如表1 所示。在每個(gè)類別的數(shù)據(jù)中抽取80%作為訓(xùn)練集,剩余的數(shù)據(jù)中各取一半作為測(cè)試集與驗(yàn)證集。

        表1 今日頭條數(shù)據(jù)統(tǒng)計(jì)Table 1 Statistics of Toutiao

        3.2 實(shí)驗(yàn)平臺(tái)與參數(shù)設(shè)置

        實(shí)驗(yàn)環(huán)境配置如表2所示。

        表2 實(shí)驗(yàn)平臺(tái)設(shè)置Table 2 Setting of experimental platform

        本文采用mini-batch梯度下降法對(duì)模型進(jìn)行批量訓(xùn)練,采用Adam 作為模型優(yōu)化器,兩個(gè)CNN 使用卷積核的大小由kernel_size定義。模型的具體參數(shù)設(shè)置如表3所示。

        表3 實(shí)驗(yàn)參數(shù)設(shè)置Table 3 Experimental parameter setting

        3.3 實(shí)驗(yàn)結(jié)果及分析

        3.3.1 性能分析

        分類模型的評(píng)價(jià)指標(biāo)主要包括準(zhǔn)確率(Acc)、精確率(P)、召回率(R)和F1 值。

        為了驗(yàn)證DAC-RNN模型的分類效果,對(duì)DAC-RNN模型及其變體DC-RNN模型進(jìn)行測(cè)試,兩者的區(qū)別在于后者未引入注意力機(jī)制。兩模型在THUCNews數(shù)據(jù)集上的測(cè)試結(jié)果如圖3所示,在今日頭條數(shù)據(jù)集上的測(cè)試結(jié)果如圖4 所示。其中縱坐標(biāo)表示這些類別在測(cè)試集上的準(zhǔn)確率(Acc),單位為%。

        圖3 THUCNews數(shù)據(jù)集測(cè)試結(jié)果Fig.3 Test results of THUCNews dataset

        圖4 今日頭條數(shù)據(jù)集測(cè)試結(jié)果Fig.4 Test results of Toutiao dataset

        通過(guò)圖3 和圖4 可以看出,DAC-RNN 模型在兩個(gè)測(cè)試集的不同類別中都得到了很好的分類效果。圖3中顯示只有房產(chǎn)類的準(zhǔn)確率低于95%,造成房產(chǎn)類準(zhǔn)確率偏低的原因是房產(chǎn)內(nèi)有些數(shù)據(jù)與其他類的數(shù)據(jù)相似,并且數(shù)據(jù)中其他類別詞語(yǔ)的權(quán)重較高所致。圖4 中有一半類別的準(zhǔn)確率達(dá)到90%以上,其中體育類的準(zhǔn)確率更是高達(dá)93.8%。此外,從兩圖中很明顯可以看出,加入注意力機(jī)制的DAC-RNN 模型比未加入注意力機(jī)制的DC-RNN模型有更好的分類效果,其中圖3的房產(chǎn)類引入注意力后準(zhǔn)確率提高了2.55個(gè)百分點(diǎn),而圖4中體育類引入注意力后準(zhǔn)確率更是提高了3.03 個(gè)百分點(diǎn)。以上結(jié)果不僅證明了在模型中加入Attention 機(jī)制提高了模型的分類效果,更是體現(xiàn)了所提模型在長(zhǎng)、短文本的實(shí)際應(yīng)用中均具有良好的分類性能。

        3.3.2 卷積核尺寸對(duì)模型性能的影響

        卷積核的尺寸對(duì)模型的分類效果有顯著的影響,為了使模型發(fā)揮出更好的性能,本文通過(guò)實(shí)驗(yàn)對(duì)卷積核的尺寸選擇進(jìn)行調(diào)優(yōu),實(shí)驗(yàn)結(jié)果如圖5所示。由于本文搭建的模型使用了兩個(gè)CNN層,需要研究各種CNN尺寸組合對(duì)模型性能的影響。圖5 中橫坐標(biāo)表示CNN 尺寸組合,例如(2,3)表示模型中CNN1 的卷積核尺寸為2,CNN2的卷積核尺寸為3。

        圖5 卷積核尺寸組合對(duì)性能的影響Fig.5 Effect of convolution kernel size combination on performance

        實(shí)驗(yàn)結(jié)果表明,在今日頭條數(shù)據(jù)集中卷積核尺寸組合為(2,3)時(shí),模型取得最佳分類效果,在THUCNews新聞文本數(shù)據(jù)集中卷積核尺寸組合為(3,5)時(shí),模型取得最佳分類效果。卷積核尺寸過(guò)小會(huì)導(dǎo)致模型的特征提取能力降低,進(jìn)而影響分類性能。隨著卷積核尺寸的增大,模型的特征提取能力也會(huì)增大,與此同時(shí),模型的各類參數(shù)也會(huì)隨之變得更多,使模型變得復(fù)雜化,從而影響分類效果。

        3.3.3 各通道對(duì)模型性能的影響

        為了探究模型中兩個(gè)通道對(duì)模型性能的影響,本文在今日頭條與THUCNews兩個(gè)新聞文本數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn):選擇單獨(dú)的Bi-LSTM+Att通道作為通道1模型,選擇CNN+Att通道作為通道2模型。得到的結(jié)果如表4所示。

        表4 各通道對(duì)模型性能的影響Table 4 Effect of channels on model performance

        從表4中可以看出,使用單個(gè)通道的模型對(duì)文本進(jìn)行分類時(shí)準(zhǔn)確率偏低,而同時(shí)使用兩個(gè)通道進(jìn)行文本特征提取則取得了良好的分類效果。因此,使用兩個(gè)通道分別提取文本序列的上下文關(guān)聯(lián)語(yǔ)義與局部特征能夠進(jìn)一步改進(jìn)文本分類的性能。

        3.3.4 對(duì)比實(shí)驗(yàn)分析

        為了進(jìn)一步驗(yàn)證本文所提出的DAC-RNN 模型在文本分類方面的有效性,在THUCNews 新聞文本數(shù)據(jù)集、今日頭條新聞數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)。本文不僅與單模型進(jìn)行對(duì)比,也與其他的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行了對(duì)比,同時(shí)引用了在相同數(shù)據(jù)集上具有代表性的網(wǎng)絡(luò)模型?;€模型包括CNN[7]、LSTM、Bi-LSTM、C-LSTM[16]、Bi-LSTM+Att、字詞融合+CNN[17]、Bi-LSTM-CNN+Att[18],結(jié)果如表5所示。

        表5 各模型準(zhǔn)確率對(duì)比Table 5 Comparison of accuracy of each model %

        從表5中可以看出,與經(jīng)典的單模型分類方法相比,本文所提模型DAC-RNN 在兩個(gè)數(shù)據(jù)集上的分類準(zhǔn)確率分別提高了7.53個(gè)百分點(diǎn)以及4.13個(gè)百分點(diǎn),由此可以證明,CNN 與RNN 結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)更能有效地提取文本中的關(guān)鍵特征。通過(guò)比較模型Bi-LSTM與Bi-LSTM+Att的分類準(zhǔn)確率以及模型Bi-LSTM-CNN+Att與C-LSTM的分類準(zhǔn)確率,注意力機(jī)制的引入使模型的性能得到了進(jìn)一步的提升。將本文所提模型與單通道的Bi-LSTMCNN+At模型的分類進(jìn)行比較,準(zhǔn)確率提高了1.15個(gè)百分點(diǎn),這表明本文通過(guò)使用雙通道的方法,能夠更充分地發(fā)揮出CNN 與LSTM 對(duì)文本特征的提取能力,并且在CNN 通道中通過(guò)特征融合的方法增強(qiáng)了特征的重用,更是進(jìn)一步提高了CNN 提取文本局部特征的能力。字詞粒度融合+CNN 模型在THUCNews 數(shù)據(jù)集上與其他模型相比取得了很高的準(zhǔn)確率,但是在表5中可以發(fā)現(xiàn),本文所提模型在THUCNews 數(shù)據(jù)集上的分類準(zhǔn)確率高達(dá)97.59%,比字詞粒度融合+CNN模型的準(zhǔn)確率更高。綜上所述,通過(guò)在不同數(shù)據(jù)集上與基線模型的分類準(zhǔn)確率進(jìn)行對(duì)比,證明了本文所提出的DAC-RNN模型在文本分類任務(wù)的精度上取得了一定提升。

        表6為DAC-RNN 模型在THUCNews 數(shù)據(jù)集上測(cè)試實(shí)驗(yàn)的三項(xiàng)評(píng)價(jià)指標(biāo),從表中可以看出,除了房產(chǎn)類的三項(xiàng)評(píng)價(jià)指標(biāo)略低,其他各類的三項(xiàng)指標(biāo)都取得了很高的結(jié)果,其中體育類、時(shí)尚類、游戲類以及娛樂(lè)類的三項(xiàng)指標(biāo)更是高于0.98。表7 為分類結(jié)果混淆矩陣,展示了每個(gè)類別1 000條新聞文本的測(cè)試結(jié)果。結(jié)果顯示有7 個(gè)類別分類正確的條數(shù)在980 條之上,體育類和游戲類更是高于990條??傮w而言,各主題類別分錯(cuò)類的情況非常少。

        表6 三項(xiàng)評(píng)價(jià)指標(biāo)Table 6 Three evaluation index

        表7 分類結(jié)果混淆矩陣Table 7 Confusion matrix of classification results

        對(duì)比上述各項(xiàng)實(shí)驗(yàn)結(jié)果,本文提出的DAC-RNN模型在長(zhǎng)文本分類任務(wù)與短文本分類任務(wù)中具有較好的分類效果,有效地提高了分類準(zhǔn)確率。

        4 結(jié)束語(yǔ)

        本文結(jié)合CNN、RNN、Attention 的優(yōu)點(diǎn),提出一種基于注意力機(jī)制的雙通道DAC-RNN 文本分類模型。該模型通過(guò)兩個(gè)通道分別提取文本不同層次的全局序列信息與局部特征,使模型提取到更加全面的文本特征。將原始輸入向量與各層CNN的輸出向量進(jìn)行選擇性融合,通過(guò)特征重利用的方法減少局部特征的損失。實(shí)驗(yàn)結(jié)果顯示,本文所提出的文本分類模型在長(zhǎng)文本分類數(shù)據(jù)集與短文本分類數(shù)據(jù)集中均取得了比較好的分類結(jié)果。在接下來(lái)的研究中,著重從注意力機(jī)制算法、整體模型結(jié)構(gòu)以及模型的參數(shù)三方面進(jìn)行優(yōu)化與改進(jìn),從而進(jìn)一步提高模型對(duì)中文文本數(shù)據(jù)的分類性能,減少訓(xùn)練過(guò)程的時(shí)間消耗。

        猜你喜歡
        注意力準(zhǔn)確率卷積
        讓注意力“飛”回來(lái)
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
        2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        高速公路車牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        日本另类αv欧美另类aⅴ| 国产黑色丝袜在线观看视频| 亚洲www视频| 国产精品99久久精品女同| 国产精品自拍盗摄自拍| 末成年人av一区二区| 国产精品无码v在线观看| 精品欧洲av无码一区二区三区| 日韩精品国产自在欧美| 日本久久精品在线播放| 亚洲国产av综合一区| 亚洲国产婷婷香蕉久久久久久 | 国产熟妇另类久久久久| 亚洲爱婷婷色婷婷五月| 欧美激情国产亚州一区二区| 蜜桃成人精品一区二区三区| 亚洲国产综合久久天堂| 亚洲av综合av成人小说| 日韩好片一区二区在线看| 亚洲中字幕永久在线观看| 日本一区二区偷拍视频| 中文字幕亚洲综合久久天堂av | 国产情侣久久久久aⅴ免费| 国产亚洲精品日韩综合网| 少妇高潮太爽了免费网站| 精品国内日本一区二区| 久久天天躁狠狠躁夜夜av| 欧美喷潮久久久xxxxx| 日本熟妇精品一区二区三区| 丁香婷婷六月综合缴清| 波多野结衣绝顶大高潮| 风韵饥渴少妇在线观看| 国产成人亚洲综合小说区| 精品久久中文字幕一区| 久久aaaa片一区二区| 精品人妻少妇一区二区三区不卡| 国产成人cao在线| 少妇人妻系列中文在线| 亚洲国产日韩a在线乱码| 性生交大片免费看淑女出招 | 东北妇女肥胖bbwbbwbbw|