亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        密集池化連接和短語注意力下的文本分類算法

        2021-07-19 09:58:14黃衛(wèi)春陶自強(qiáng)熊李艷
        科學(xué)技術(shù)與工程 2021年17期
        關(guān)鍵詞:池化短語梯度

        黃衛(wèi)春,陶自強(qiáng)*,熊李艷

        (1.華東交通大學(xué)軟件學(xué)院,南昌 330013;2.華東交通大學(xué)信息學(xué)院,南昌 330013)

        文本分類任務(wù)是自然語言處理中的基礎(chǔ)性任務(wù),該問題初期被視作是一些簡單的匹配性問題,例如,數(shù)據(jù)集中存在不同類別的文本,只要事先搜集一些與每個類別相關(guān)的詞匯,當(dāng)新樣本中有這個詞語,就判定它是對應(yīng)類別即可。但是這種做法顯然忽略了句子的整體語義和語境,從而導(dǎo)致文本分類的準(zhǔn)確率低等問題。同時,文本分類又是組合了語義信息、語序信息和語境信息的復(fù)合型任務(wù),傳統(tǒng)的機(jī)器學(xué)習(xí)方法難以對非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行理解[1-2]。而文本表示方法同樣對分類效果有很大影響,李舟軍等[3]針對自然語言處理中詞語的分布式表示進(jìn)行了說明。近年來,由于深度學(xué)習(xí)算法針對非結(jié)構(gòu)化數(shù)據(jù)處理的優(yōu)勢逐漸明顯,開始成為解決文本分類問題的熱門選擇。

        卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)在語音識別、自然語言處理和計算機(jī)視覺等領(lǐng)域都有很大的應(yīng)用,并且取得了很好的效果。Kim[4]首次提出將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于文本分類處理之中。陶永才等[5]構(gòu)建了一種基于壓縮激發(fā)塊的卷積神經(jīng)網(wǎng)絡(luò)文本分類模型,可以結(jié)合文本整體與局部關(guān)聯(lián)性進(jìn)行語義分析。Wang等[6]提出了一個基于卷積神經(jīng)網(wǎng)絡(luò)的框架,該框架結(jié)合了兩種不同的詞語表示方法進(jìn)行分類。Conneau等[7]提出了一種文本處理體系結(jié)構(gòu),使用小規(guī)模卷積和池化操作,并且證明該模型的性能隨卷積深度而增加。Duque等[8]對卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行壓縮,評估了時間深度可分離卷積和全局平均池對結(jié)果的影響。但是使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類未能解決卷積神經(jīng)網(wǎng)絡(luò)在深度增加時所造成的梯度彌散現(xiàn)象,從而導(dǎo)致深層卷積網(wǎng)絡(luò)訓(xùn)練效果不好。

        為了解決CNN模型在深度增加時,信息缺失程度越來越重,訓(xùn)練誤差反而隨深度增加而增加的情況。He等[9]提出了一種稱為殘差網(wǎng)絡(luò)的架構(gòu),這種方法可以有效地防止信息的缺失,同時也可以緩解過擬合問題。同時,許多研究人員提出了將注意力機(jī)制運(yùn)用于文本分類模型中,在自然語言處理中,Bahdanau等[10]首次將注意力機(jī)制在encode-decode的基礎(chǔ)上應(yīng)用到機(jī)器翻譯。姚苗等[11]加入了堆疊雙向LSTM和自注意力機(jī)制的方法,優(yōu)化了文本表示。Yin等[12]提出通用的基于注意力的卷積神經(jīng)網(wǎng)絡(luò),通過三種注意力機(jī)制方案,將句子之間的影響整合于CNN。但是,現(xiàn)有作用于文本的注意力機(jī)制只能得出句子中詞語和詞語之間的聯(lián)系,卻無法靈活地得到不同階短語之間的聯(lián)系,導(dǎo)致短語維度不匹配問題,從而干擾分類效果。

        為了有效進(jìn)行特征選擇,解決梯度消失問題,降低冗余特征干擾分類結(jié)果,同時可以靈活捕捉不同層次短語之間的聯(lián)系,從而獲得更好的分類效果,現(xiàn)采用密集池化連接解決模型特征丟失以及梯度消失的問題,以及對序列信息特征提取不敏感做出優(yōu)化。改進(jìn)傳統(tǒng)注意力機(jī)制,采用短語注意力模型靈活地得到不同階短語信息,解決傳統(tǒng)注意力機(jī)制短語維度不匹配問題,重新組合關(guān)系密切的短語信息提高分類準(zhǔn)確率。以新聞分類數(shù)據(jù)集為例,設(shè)置三組對比實驗,對模型收斂性和測試集評估指標(biāo)進(jìn)行分析,以證明模型的有效性。對實驗部分的超參數(shù)進(jìn)行優(yōu)化調(diào)整,以使得模型結(jié)果達(dá)到最優(yōu)值。

        1 模型設(shè)計

        密集池化連接和短語注意力機(jī)制(dense-pool convolutional neural networks with phrase attention,DPCNN-PAtt)模型由詞嵌入層,密集池化連接層,短語注意力機(jī)制層,全連接層由4個部分組成,模型總體結(jié)構(gòu)如圖1所示。

        圖1 模型整體框架

        1.1 詞嵌入層

        詞向量Glove[13]用于詞語的表示,Glove融合了全局矩陣分解和局部上下文窗口兩種方法,在加快訓(xùn)練速度的同時,也可以控制詞語權(quán)重,代價函數(shù)為

        (1)

        (2)

        xmax=100,α=0.75時的效果最好,直接使用語料庫進(jìn)行訓(xùn)練。針對集外詞(out of vocabulary, OOV)詞匯,隨機(jī)化相同維度TOKEN加入詞典隨網(wǎng)絡(luò)訓(xùn)練。

        1.2 密集連接池化層

        密集池化連接分為殘差網(wǎng)絡(luò)和池化層兩個部分,殘差網(wǎng)絡(luò)內(nèi)進(jìn)行多次卷積,同時可防止梯度消失,之后使用池化層保留權(quán)重大的特征值,實現(xiàn)特征復(fù)用。假設(shè)殘差網(wǎng)絡(luò)卷積結(jié)構(gòu)式為

        (3)

        在殘差網(wǎng)絡(luò)之后卷積短語特征,再在層與層之間使用池化,表達(dá)式為

        (4)

        式(4)中:Xl∈Rn×k;Wl∈Rw×k為單個卷積核維度;w為卷積窗口大小,共有k個卷積核,每次僅在此時對卷積窗口w個詞語進(jìn)行卷積,池化后得到第l層的輸出結(jié)果Xl,in。

        網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,隨著密集池化連接層數(shù)的增加,其提取的短語維度ngram也不斷增加,圖中第一層只能表示單個詞語的語義信息,而第二層通過卷積可表示相鄰兩個詞語組合的短語信息。

        圖2 密集連接池化結(jié)構(gòu)圖

        之前的研究者在使用卷積神經(jīng)網(wǎng)絡(luò)時,一般直接使用上一層的輸出作為輸入。這種方式會隨著卷積層數(shù)的增加而導(dǎo)致梯度消失,從而使參數(shù)無法有效更新。

        假設(shè)層內(nèi)采用常規(guī)網(wǎng)絡(luò),梯度更新表示為

        (5)

        (6)

        當(dāng)連乘部分為若干個(0,1)區(qū)間內(nèi)的數(shù),則梯度會趨向于0,又由于學(xué)習(xí)率的限制,梯度會變得更小,以至于后面的參數(shù)無法獲得有效梯度。

        在層內(nèi)加入殘差連接以后,可得

        (7)

        (8)

        通過改變梯度傳播方式,從連續(xù)乘積變成了累加形式,這樣梯度可以穩(wěn)定地從第M層傳入第m層,從而緩解梯度消失的情況,密集連接池化流程如圖3所示。

        圖3 密集連接池化流程圖

        1.3 多尺度短語注意力機(jī)制層

        如圖4所示,圖4(a)中“奇妙”為正向情感詞,而“枯燥”為負(fù)向情感詞,因為常規(guī)注意力機(jī)制只能提取出詞與詞之間的關(guān)系,無法得出否定詞“不”和“枯燥”的短語含義,則無法很好地理解兩個詞對主語的情感傾向。如圖4(b)和圖4(c)所示,先通過卷積獲得高階短語維度特征信息,再使用注意力機(jī)制組合短語特征,可正確理解語義信息。

        圖4 注意力機(jī)制對比

        如圖2所示,由于每一層所提取的短語信息維度不同,由低維逐漸轉(zhuǎn)向高維。通過短語注意力機(jī)制可以利用不同維度短語信息,從而表示出它們的關(guān)系。具體過程如圖5所示,分為兩部分,首先是短語特征重構(gòu),其次是短語特征注意力關(guān)系矩陣提取。

        圖5 短語注意力機(jī)制示意圖

        在短語特征重構(gòu)部分,先對不同卷積層的短語特征進(jìn)行降維,這有利于后續(xù)注意力機(jī)制處理,公式為

        (9)

        (10)

        (11)

        (12)

        圖6 短語特征注意力矩陣構(gòu)造

        在得到不同層之間權(quán)重矩陣以后,將每一層輸出的短語特征與權(quán)重參數(shù)相乘,再累加獲得組合不同階的短語特征信息,公式為

        (13)

        由于將不同層之間的特征相加,為了防止維度過大,需要除標(biāo)度L進(jìn)行限制。通過這樣的方式,可以求得不同層之間的關(guān)聯(lián),從而有指向地處理關(guān)聯(lián)度高的短語特征向量。

        1.4 全連接層

        (14)

        訓(xùn)練的目標(biāo)是最小化損失函數(shù),損失函數(shù)采用交叉熵(cross entropy)為損失函數(shù),同時加入L2正則化防止過擬合,公式為

        (15)

        2 實驗與分析

        2.1 數(shù)據(jù)集

        使用的實驗數(shù)據(jù)集為新聞分類數(shù)據(jù)集(AG),以新聞文章作為樣本,劃分為4種不同的新聞類別,分別為World、Sports、Business、Sci/Tech,具體信息如表1所示。

        表1 數(shù)據(jù)集信息

        2.2 實驗設(shè)置

        實驗環(huán)境配置和參數(shù)設(shè)置分別如表2、表3所示。

        表2 實驗環(huán)境配置

        表3 參數(shù)設(shè)置

        2.3 實驗結(jié)果對比

        分類效果評估標(biāo)準(zhǔn)采用準(zhǔn)確率(precision,P)、召回率(recall,R)和F1值進(jìn)行衡量,定義如下。

        (16)

        (17)

        (18)

        根據(jù)分類結(jié)果所建立的混淆矩陣如表4所示。

        表4 混淆矩陣

        2.4 實驗對比及分析

        為了對比在不同情況下模型的效果,設(shè)置了3組對照實驗?zāi)P?,實驗設(shè)置與2.2節(jié)介紹一致,以新聞數(shù)據(jù)集(AG)為實驗數(shù)據(jù)集進(jìn)行對比。

        (1)僅使用卷積神經(jīng)網(wǎng)絡(luò)CNN。

        (2)使用密集池化連接(dense-pool connection convolutional neural network, DPCNN),但是不使用短語注意力機(jī)制。

        (3)使用短語注意力機(jī)制(convolutional neural network with phrase attention,CNN-PAtt),但是不使用密集池化連接網(wǎng)絡(luò)。

        通過對比3種不同模型的loss下降程度以及準(zhǔn)確率,結(jié)果如圖7所示。

        圖7 4種模型的準(zhǔn)確率和損失值對比試驗圖

        通過圖7(a)對比發(fā)現(xiàn),在相同實驗條件下,本文模型準(zhǔn)確率均高于3種對比模型,模型準(zhǔn)確率比CNN-PAtt模型高0.9%~1.5%,比DPCNN高0.5%~0.8%,比CNN高2.5%~3%。通過圖7(b)可以發(fā)現(xiàn),本文模型loss值下降較快,相對穩(wěn)定,取得了很好的收斂結(jié)果,而對比模型收斂性相對較差,尤其是CNN-PAtt和CNN模型,這也是因為沒有加入密集池化連接從而產(chǎn)生梯度消失的緣故,但是CNN模型在迭代次數(shù)變高時準(zhǔn)確率和損失值表現(xiàn)均比CNN-PAtt模型更好。綜上可得,本文模型可以有效緩解梯度消失,同時提高準(zhǔn)確率,降低損失值。

        通過實驗具體對比了4種模型的準(zhǔn)確率、召回率和F1值,不僅對總體性能指標(biāo)進(jìn)行計算,還對新聞數(shù)據(jù)集4個不同類別分別計算其分類效果,結(jié)果如表5所示。

        表5 對比實驗結(jié)果

        由于準(zhǔn)確率和召回率只能表達(dá)部分模型性能,通過F1值綜合考量,DPCNN-PAtt模型的F1值比以上3個對比模型分別高出3.34、0.81和2.69,模型性能得到有效提升,具體如圖8所示。

        圖8 F1值比較

        2.5 超參數(shù)設(shè)置

        2.5.1 網(wǎng)絡(luò)層數(shù)對結(jié)果影響對比

        結(jié)果如圖9所示,可以看出網(wǎng)絡(luò)層數(shù)選取第4層時,數(shù)據(jù)集準(zhǔn)確率最高。也并非層數(shù)越深,分類結(jié)果越好,網(wǎng)絡(luò)層數(shù)偏高時提取出的短語語義偏差會增加。

        圖9 網(wǎng)絡(luò)層數(shù)對結(jié)果的影響

        2.5.2 不同池化方式對比

        比較最大池化和平均池化兩種池化方式對結(jié)果的影響,密集連接層數(shù)以2、4、6、8層進(jìn)行實驗,結(jié)果如圖10所示。對比可得,采用最大池化精度提升更大,平均池化最優(yōu)準(zhǔn)確率為0.922,而最大池化方式可以達(dá)到0.927。這也是因為最大池化可以提取出特征區(qū)域中最重要的特征,而當(dāng)使用平均池化提取特征時,重要特征的權(quán)重會因為層數(shù)的增加而變小,所以其語義特征也相應(yīng)弱化,從而引起分類效果變差。

        圖10 不同池化方式對準(zhǔn)確率影響

        2.5.3 句子長度對結(jié)果影響

        由于數(shù)據(jù)集中樣本長度不一致,需要將樣本處理成統(tǒng)一長度進(jìn)行處理。首先需要得出數(shù)據(jù)集中樣本長短的分布情況,對新聞分類數(shù)據(jù)集(AG)進(jìn)行分析,圖11為數(shù)據(jù)集樣本長度分布。

        由圖11分析可知,樣本中詞語數(shù)在[40,60]區(qū)間內(nèi)較多。取句子長度為30開始實驗,在[30,80]區(qū)間內(nèi)進(jìn)行實驗,實驗結(jié)果如圖12所示,取60表現(xiàn)最優(yōu)。

        圖11 AG數(shù)據(jù)集樣本長度分布

        3 結(jié)論

        通過對比模型實驗結(jié)果得出以下結(jié)論。

        (1)在密集池化連接中通過殘差網(wǎng)絡(luò)防止由于層數(shù)增加而導(dǎo)致的梯度消失問題,并在殘差網(wǎng)絡(luò)后加入池化層復(fù)用重要特征,可以有效緩解梯度消失的問題。

        (2)同時改進(jìn)常規(guī)注意力機(jī)制,使用短語注意力機(jī)制可以更充分地利用不同尺度的短語特征信息,并且對其進(jìn)行組合,獲得不同階短語之間的關(guān)系,并通過對比實驗得出模型的有效性。

        但對于深層次信息語義信息的提取,以及上下文序列信息處理,還存在一定局限性??梢試L試使用更好的詞向量預(yù)處理模型,比如Bert模型,也可以加入循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行實驗,這可以作為之后的研究方向。

        猜你喜歡
        池化短語梯度
        基于緊湊型雙線性網(wǎng)絡(luò)的野生茵識別方法研究
        無線電工程(2024年8期)2024-09-16 00:00:00
        基于Sobel算子的池化算法設(shè)計
        卷積神經(jīng)網(wǎng)絡(luò)中的自適應(yīng)加權(quán)池化
        一個改進(jìn)的WYL型三項共軛梯度法
        一種自適應(yīng)Dai-Liao共軛梯度法
        基于卷積神經(jīng)網(wǎng)絡(luò)和池化算法的表情識別研究
        一類扭積形式的梯度近Ricci孤立子
        河南科技(2014年3期)2014-02-27 14:05:45
        国产精品后入内射日本在线观看| 粗大猛烈进出白浆视频| 久久人妻少妇嫩草av无码专区| 小荡货奶真大水真多紧视频| 久久韩国漫画无删减漫画歪歪漫画| 国产精品亚洲一区二区无码国产| 婷婷第四色| 国产精品人成在线观看| av免费在线观看在线观看| 蜜乳一区二区三区亚洲国产| 亚洲av区,一区二区三区色婷婷| 深夜爽爽动态图无遮无挡| 男女做爰猛烈啪啪吃奶动| 色老头在线一区二区三区| 国产亚洲第一精品| 蜜桃视频在线免费观看完整版| 熟女一区二区中文字幕| 成人片黄网站a毛片免费| 亚洲男同志网站| 日本香蕉久久一区二区视频 | 日本在线中文字幕一区| 青青草大香蕉视频在线观看| 男人扒开添女人下部免费视频| 成人欧美一区二区三区1314| 国产精品亚洲成在人线| japanese色国产在线看视频| 亚洲女同av在线观看| 国产老熟妇精品观看| 伦人伦xxxx国语对白| 国产免费一级在线观看| 日本视频一区二区三区三州| 狠色人妻丝袜中文字幕| 精品国产拍国产天天人| 国产午夜亚洲精品理论片不卡| 麻豆成年视频在线观看| 精品国产亚洲av高清大片| 亚洲熟妇av一区| 成年女人永久免费看片| 激情 一区二区| 亚洲精品中文字幕乱码三区99| 国产精品国产三级野外国产|