亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ALBERT-AFSFN的中文短文本情感分析

        2022-06-23 06:24:46葉星鑫羅夢詩
        計算機工程與應(yīng)用 2022年12期
        關(guān)鍵詞:參數(shù)設(shè)置注意力準確率

        葉星鑫,徐 楊,2,羅夢詩

        1.貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴陽 550025

        2.貴陽鋁鎂設(shè)計研究院有限公司,貴陽 550009

        情感分析任務(wù)屬于自然語言處理領(lǐng)域中重要的文本分類任務(wù)[1-3]。情感分析任務(wù)在不同的領(lǐng)域中扮演著不同的角色,也發(fā)揮著不同的作用。對于電商商家而言,可以給他們提高自身競爭力提供合理建議;對于消費者而言,可以給他們選擇物美價廉且適合自己商品提供重要參考;對于政府而言,通過對公眾輿論進行情感分析是他們把握輿論動態(tài)、調(diào)整政策的重要依據(jù)。目前無論是在電商領(lǐng)域,還是在政府平臺情感分析都有著實際且廣泛應(yīng)用,但是受到語言多樣性、隨機性,以及不斷出現(xiàn)的新鮮詞匯等因素的影響,中文短文本情感分析任務(wù)仍然具有挑戰(zhàn)性且具有極大的研究價值。

        情感分析任務(wù)包含兩個重要的步驟[4],分別是文本特征提取與表示和文本特征分析與分類。針對文本特征的提取與表示,許多研究者花費了大量的時間和工作進行研究。Mikolov等[5-6]在2013年提出了Word2Vec模型對文本特征進行表示,Pennington等[7]在2014年提出了Glove(global vectors)模型對文本特征進行表示,以上兩種方法雖然解決了維度災(zāi)難問題,但是它們均采用靜態(tài)方式對文本特征進行表示,并未考慮文本的位置信息,也不能解決一詞多義問題。隨著預(yù)訓(xùn)練語言模型在自然語言處理領(lǐng)域的發(fā)展,Peters等[8]提出了ELMO(embeddings from language models)、Radford等[9]提出了GPT(generative pre-training)、Devlin等[10]提出了基于Transformers的雙向編碼器表示預(yù)訓(xùn)練模型BERT(bidirectional encoder representations from transformers)、Lan等[11]在2019年提出了輕量化的BERT模型ALBERT(a lite BERT),該模型在BERT的基礎(chǔ)上,采用雙向Transformer作為特征提取器獲得文本的特征表示,有效利用了文本的語義信息和位置信息,并且將NSP任務(wù)升級為SOP任務(wù),在提升各個任務(wù)的準確的同時也通過因式分解與參數(shù)共享兩個技術(shù)減少了模型的參數(shù)量,縮短了訓(xùn)練時間。

        情感分析的文本特征分析方式一般包含三種,分別是基于情感詞典和規(guī)則[12-13]的方法、基于傳統(tǒng)機器學(xué)習(xí)[14-15]的方法和基于深度學(xué)習(xí)的方法。前兩種方法實現(xiàn)簡單,容易理解但是泛化能力和遷移能力差,準確度不高,因此基于深度學(xué)習(xí)的情感分析方法越來越受關(guān)注。Mikolov[16]、Kim[17]、Zhou[18]等先后提出了循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network)、文本卷積神經(jīng)網(wǎng)絡(luò)TextCNN(text convolutional neural network)、基于注意力的雙向長短期記憶網(wǎng)絡(luò)Att-BiLSTM(attention-based long short-term memory networks),提高了文本分類的準確率,但是它們遷移能力弱,針對不同的應(yīng)用領(lǐng)域需要重新訓(xùn)練和學(xué)習(xí),這將會花費大量的人力、物力和財力,因此也限制了文本情感分析的進一步發(fā)展。

        綜上所述,為了更好地應(yīng)用文本的語義信息、位置信息以及通道間的關(guān)聯(lián)信息,提升模型對文本的情感分析能力,本文提出了結(jié)合ALBERT和注意力特征分割融合網(wǎng)絡(luò)(ALBERT-attention feature split fusion network,ALBERT-AFSFN),在文獻[19]的分割注意力網(wǎng)絡(luò)(split attention network)中嵌入文獻[20]的注意力特征融合(attention feature fusion,AFF)策略,從而提升其在不同通道間的特征提取和融合的能力。本文的主要貢獻如下:

        (1)對分割注意力模塊進行改進,在分割注意力模塊中嵌入有效的注意力特征融合模塊,解決不同尺度特征的融合問題,并使其更適合用于捕獲文本中不同通道間的情感信息。

        (2)把改進的模塊結(jié)合到ALBERT網(wǎng)絡(luò)結(jié)構(gòu)中,使其有效利用文本的語義信息和位置信息,提高文本的分類準確率。

        (3)模型在三個數(shù)據(jù)集Chnsenticorp、waimai-10k和weibo-100k上實現(xiàn)了具有競爭力的性能。

        1 ALBERT預(yù)訓(xùn)練語言模型概述

        ALBERT本質(zhì)上是一個輕量化的BERT模型。如圖1所示,其主要由輸入層、詞嵌入層、特征編碼層和輸出層組成。詞嵌入層主要將輸入的向量化文本的內(nèi)容信息、位置信息和句子信息進行融合;特征提取層主要采用了雙向的Transformer編碼器對語料庫進行特征提取表示,該編碼器的核心是多頭注意力機制。

        圖1 ALBERT預(yù)訓(xùn)練語言模型結(jié)構(gòu)Fig.1 Structure of ALBERT

        ALBERT除了保留BERT模型結(jié)構(gòu)的優(yōu)點外,還在此基礎(chǔ)上做了兩點改進:(1)通過使用嵌入層因式分解(embedding factorized embedding parameterization)和跨層參數(shù)共享(cross-layer parameter sharing)兩個技術(shù)減少了BERT模型的參數(shù)量,縮短了訓(xùn)練時間。(2)將任務(wù)NSP(next sentence prediction)換成更出色的SOP(sentence-order prediction)任務(wù),在避免了話題預(yù)測的同時迫使模型學(xué)習(xí)更細粒度的語篇層次連貫性差異,提升了模型的效果。

        綜上所述,ALBERT相對于BERT而言,其參數(shù)更少,對語義特征提取能力更強,更加適合于本文的短文本情感分析任務(wù)。

        2 本文模型

        2.1 模型概述和工作流程

        本文提出了結(jié)合ALBERT和注意力特征分割融合網(wǎng)絡(luò)模型。如圖2所示,其主要由輸入層、ALBERT層、注意力特征分割融合網(wǎng)絡(luò)層、全連接層和Softmax層組成,該模型的主要工作流程如下:

        圖2 ALBERT-AFSFN模型結(jié)構(gòu)示意圖Fig.2 Structure of ALBERT-AFSFN module

        (1)對輸入的數(shù)據(jù)進行預(yù)處理,并在輸入文本的開頭和結(jié)尾分別加上特殊字符[CLS]和[SEP],通過輸入層將輸入文本內(nèi)容表示成序列化的情感文本信息,最后將其輸入到ALBERT網(wǎng)絡(luò)中。

        (2)ALBERT網(wǎng)絡(luò)層通過雙向的Transformer對輸入序列的內(nèi)容特征和位置特征進行提取,最終得到文本的特征表示。

        (3)對ALBERT層輸出的文本特征進行訓(xùn)練,首先將文本特征分為兩組,再將這兩組特征輸入到注意力特征融合(AFF)層得到融合的特征表示,之后再將其繼續(xù)通過全局池化層,全連接層得到特征矩陣,這個特征矩陣再拆分為兩部分分別通過softmax層得到權(quán)重矩陣,最后再將權(quán)重矩陣與兩組輸入分別相乘后通過AFF層進行融合,得到最終的輸出。

        (4)將特征融合分割注意力網(wǎng)絡(luò)層提取的特征通過兩次全連接層,第一次全連接層輸出的維度與ALBERT隱藏層維度大小相同,第二次全連接層輸出的維度是情感文本的類別數(shù),最后對輸出結(jié)果進行Softmax歸一化,得到情感文本的每一類的概率分布矩陣,按最大值進行索引,得到最終的文本情感分類標簽。

        2.2 改進的AFSFN網(wǎng)絡(luò)

        基本的分割注意力網(wǎng)絡(luò)(split-attention networks,SAN)是一個計算單元,它由特征圖組(feature-map group)和分割注意操作(split attention operations)組成,其首先將輸入分割為幾個特征組,之后再根據(jù)其簡單的相加融合策略將分割后的幾個特征組進行相加融合,之后在經(jīng)過池化、全連接、激活函數(shù)激活等一系列操作后得到兩個權(quán)重矩陣,最后將這兩個權(quán)重矩陣與切割后的輸入特征進行簡單相加融合得到最終的輸出。本文對分割注意力網(wǎng)絡(luò)的特征融合策略進行了改進,即將其融合方式從簡單的相加連接改為AFF方式連接,最大程度保留了不同通道之間的語義關(guān)聯(lián)信息,加強了其特征提取和融合能力。從而得到了改進后的網(wǎng)絡(luò)結(jié)構(gòu)AFSFN,其結(jié)構(gòu)如圖3所示。

        圖3 改進的AFSFN模型結(jié)構(gòu)圖Fig.3 Imporved Structure of AFSFN

        本文首先將輸入特征分為兩個組R(i∈1,2),用Ui(i∈1,2)表示,每組特征的通道數(shù)是c=C/2,之后再將兩個組的特征進行注意特征融合,即將分割后的兩個特征Ui(i∈1,2)輸入到注意力特征融合網(wǎng)絡(luò)AFF中進行融合并得到融合后的輸出,輸出的結(jié)果用F表示,計算公式如式(1)所示。通過分割注意力網(wǎng)絡(luò)的最終輸出Vc如式(2)所示。其中ai(c)是指在通道上通過r-Softmax的計算得出的權(quán)重系數(shù),其由式(3)計算得出。

        ai(c)中g(shù)c i是指通過兩個全連接層和ReLU激活函數(shù)將s∈Rc參數(shù)化的注意力權(quán)重函數(shù),s表示輸入該網(wǎng)絡(luò)的向量特征表示,其在c通道上的計算如式(4)所示:

        在改進的AFSFN模型中,最主要的模塊是注意力特征融合模塊,其結(jié)構(gòu)如圖4所示。AFF的核心結(jié)構(gòu)是多尺度通道注意模塊(multi-scale channel attention module,MS-CAM),核心思想是通過改變空間池的大小,在多個尺度上實現(xiàn)通道注意融合。其計算公式如式(5)所示:

        圖4 注意力特征融合模塊結(jié)構(gòu)圖Fig.4 Structure of attention feature fusion

        其 中X∈RC×H×W與Y∈RC×H×W表 示 輸 入 特 征,Z∈RC×H×W表示通道注意力權(quán)重矩陣,M(?)表示MSCAM模塊的運算和操作,C是特征的通道數(shù),H×W是特征的尺寸大小,⊕是指將向量擴展成相同的維度后再進行加法運算,?是指將對應(yīng)向量進行乘法運算。

        為了使網(wǎng)絡(luò)盡可能輕量化,MS-CAM模塊僅僅聚合了局部上下文(local context)網(wǎng)絡(luò)和全局上下文(global context)網(wǎng)絡(luò)。其中局部上下文聚合層的計算如式(6)所示:

        其主要采用了逐點卷積(PWConv)作為聚合器,利用了輸入特征的每個空間位置的點式通道交互作用。全局上下文聚合層的計算方法與局部上下文聚合層類似,不同之處在于其一開始對輸入進行了全局平均池化。

        3 實驗結(jié)果和分析

        本文使用的框架是PyTorch1.6.0,操作系統(tǒng)是Ubuntu18.04,操作系統(tǒng)的顯卡是NVDIA GeForce GTX 1080Ti,顯存有11 GB。

        3.1 數(shù)據(jù)集介紹

        為了驗證本文模型的優(yōu)越性,本文選取了三個公共的數(shù)據(jù)集ChnSentiCorp、waimai-10k和weibo-100k進行驗證。其中ChnSentiCorp語料庫涉及酒店、筆記本與書籍三個領(lǐng)域的評論;waimai-10k語料庫是取自百度外賣平臺的評論,總共包含11 992條評論,其中正向評論3 900條,負向評論8 092條;weibo-100k是新浪微博上采集的大規(guī)模情感分析數(shù)據(jù)集,包含119 988條評論,正負向各59 994條。這些數(shù)據(jù)集正負情感傾向分布極為不均,因此本文使用下采樣對文本進行了均衡處理,同時數(shù)據(jù)中存在大量的無關(guān)內(nèi)容,如用戶名、轉(zhuǎn)發(fā)標記和URL等,本文使用正則表達式對數(shù)據(jù)進行過濾處理,得到的處理前及處理后的數(shù)據(jù)如表1所示。

        表1 數(shù)據(jù)預(yù)處理展示Table 1 Display of preprocessing data

        3.2 參數(shù)設(shè)置

        本文模型主要參數(shù)包括兩個部分,一部分是基礎(chǔ)模型ALBERT的參數(shù),本文采用谷歌發(fā)布的ALBERTBASE模型及其參數(shù)設(shè)置,另一部分是AFSFN部分的參數(shù),本文將其卷積核大小設(shè)置為3×Embedding size,通道數(shù)設(shè)置為64。本文所有參數(shù)設(shè)置如表2所示。

        表2 總體參數(shù)設(shè)置Tabel 2 Settings of total paraments

        3.3 模型對比實驗

        為了對比模型的效果,評估模型的競爭性和優(yōu)越性,本文采用以下三個模型與本文模型進行對比,各個模型的詳情如下:

        (1)TextCnn模型:采用文獻[16]的TextCnn模型,本文使用了三個尺度不同的卷積核,其大小分別是3、4、5,通數(shù)都設(shè)置為64。

        (2)Att-BiLSTM模型:采用文獻[18]的Attention+BiLSTM模型,該模型是由注意力機制和雙向長短期記憶網(wǎng)絡(luò)組成。本文將隱藏層節(jié)點設(shè)置為768。

        (3)ALBERT模型:采用文獻[15]的ALBERT-BASE模型,該模型的參數(shù)設(shè)置與本文模型的參數(shù)設(shè)置相同。

        (4)ALBERT-SAN:采用文獻[15]與文獻[19]的網(wǎng)絡(luò)相結(jié)合,即將ALBERT與未改進的分割注意力網(wǎng)絡(luò)SAN相結(jié)合。ALBERT模型的參數(shù)設(shè)置與本文其他模型相同,分割注意力網(wǎng)絡(luò)SAN的特征圖組(feature-map group)參數(shù)設(shè)置為1,基本組(cardinal group)參數(shù)設(shè)置為2。

        (5)ALBERT-AFSFN模型:本文提出的結(jié)合ALBERT和改進的分割注意力網(wǎng)絡(luò)的中文短文本情感分析模型。

        同時本文選取了準確率(accuracy,A)、召回率(recall,R)和F1值作為驗證指標。實驗結(jié)果如表3所示。

        通過表3的對比實驗可以看出,結(jié)合ALBERT與原始分割注意力網(wǎng)絡(luò)(ALBERT-SAN)的模型在三個數(shù)據(jù)集上的準確率、召回率和F1值均都有所提升,且在ChnSentiCorp數(shù)據(jù)集上得到了最好的準確率,在waimai-10k數(shù)據(jù)集上得到了最好的召回率,表明ALBERT-SAN網(wǎng)絡(luò)是有優(yōu)勢的。為了進一步提升模型的表現(xiàn)力,本文對原始的分割注意力網(wǎng)絡(luò)進行了改進,得到模型ALBERT-AFSFN。通過表3的實驗結(jié)果可以看出該模型與傳統(tǒng)的Att-BiLSTM、TextCnn網(wǎng)絡(luò)相比有了大幅度提升,尤其是在小樣本數(shù)據(jù)集ChnSentiCorp和waimai-10k上提升幅度較大,準確率的提升能達到3%左右,在大樣本數(shù)據(jù)集weibo-100k上也能提升1%左右;相比于基本的ALBERT,本文提出的網(wǎng)絡(luò)ALBERT-AFSFN無論是在準確率上,召回率上還是F1值上均提升1%左右,表明本文模型的優(yōu)秀能力;相比于ALBERT-SAN網(wǎng)絡(luò),本文網(wǎng)絡(luò)ALBERT-AFSFN在數(shù)據(jù)集ChnSentiCorp上的召回率和F1值是有優(yōu)勢的;在數(shù)據(jù)集waimai-10k上的準確率和F1值是有進步的;在數(shù)據(jù)集weibo-100k上的準確率、召回率和F1值均是有提升的,這些結(jié)果也進一步證明了通過AFF改進分割注意力網(wǎng)絡(luò),并讓其與ALBERT相連接是有效果的,也是非常有必要的。

        表3 模型對比實驗結(jié)果Table 3 Experimental results of compared modules %

        為了更加直觀地觀察本文提出的模型與傳統(tǒng)網(wǎng)絡(luò)模型的準確率和F1值的變化趨勢以及模型的收斂情況,現(xiàn)將各個模型在ChnSentiCorp數(shù)據(jù)集上的準確率、F1值和Loss在訓(xùn)練中的變換情況繪制成如圖5~7所示的折線圖。

        圖5 各模型的準確率變化趨勢折線圖Fig.5 Accuracy line chart of each model

        圖6 各模型的F1值變化趨勢折線圖Fig.6 F1 line chart of each model

        圖7 各模型的Loss變化情況折線圖Fig.7 Loss line chart of each model

        由圖5~7所示的準確率、F1值以及Loss變化情況可以看出,Accuracy和F1值在訓(xùn)練步數(shù)10步左右時,均有所波動,20步左右時開始趨于平緩,且本文模型的結(jié)果都明顯優(yōu)于其他模型,表明本文模型能夠取得更優(yōu)秀的成績。同時訓(xùn)練步數(shù)在10步左右時Loss下降速度開始減慢,20步左右時,Loss開始趨于平緩,但是本文提出的模型的Loss一直是最小的,表明了其收斂性更好,收斂速度更快。也證明其在中文短文本情感分析中的有效性和優(yōu)越性。

        同時為了直觀觀察和對比通過AFF改進后的分割注意力網(wǎng)絡(luò)和基本的分割注意力網(wǎng)絡(luò)在中文短文本情感分析中的效果,現(xiàn)將其在訓(xùn)練中的準確率、召回率和F1值變化趨勢繪制成如圖8~10所示的曲線圖。

        圖8 改進前后的AFSFN模型準確率變化趨勢折線圖Fig.8 AFSFN model accuracy change trend line chart before and after improvement

        圖9 改進前后的AFSFN模型召回率變化趨勢折線圖Fig.9 AFSFN model recall rate change trend line chart before and after improvement

        由圖8~10所示的準確率、召回率和F1值變化情況可以直觀看出通過AFF改進后的分割注意力網(wǎng)絡(luò)得到的結(jié)果明顯優(yōu)于基本的分割注意力網(wǎng)絡(luò),并且其訓(xùn)練穩(wěn)定程度也優(yōu)于基本的分割注意力網(wǎng)絡(luò),說明了通過AFF融合策略改進后的分割注意力網(wǎng)絡(luò)具有優(yōu)秀效果和表現(xiàn)力。

        3.4 訓(xùn)練方法對比實驗

        訓(xùn)練方法一般也會影響結(jié)果的準確性,本文運用了兩種訓(xùn)練方法對模型進行驗證。一種是凍結(jié)預(yù)訓(xùn)練語言模型的參數(shù),僅對下層模型的參數(shù)進行訓(xùn)練更新;一種是無論是預(yù)訓(xùn)練語言模型還是下層模型都對其參數(shù)進行更新。

        本文在三個數(shù)據(jù)集上都進行了不同訓(xùn)練方法訓(xùn)練的實驗,且凍結(jié)參數(shù)訓(xùn)練方法和不凍結(jié)參數(shù)訓(xùn)練方法的學(xué)習(xí)率、訓(xùn)練步數(shù)以及優(yōu)化器等參數(shù)設(shè)置均相同,其結(jié)果如表4所示,從表中可看出將全部參數(shù)進行訓(xùn)練會得到更高的準確率、召回率和F1值,并且在情感分類任務(wù)中該種方法的分類效果也更好,可靠性也更高。

        圖10 改進前后的AFSFN模型F1值變化趨勢折線圖Fig.10 Straight line graph of F1 value change trend of AFSFN model before and after improvement

        表4 訓(xùn)練方法對比實驗結(jié)果Table 4 Experiments results of compared trainning-way %

        4 結(jié)束語

        本文提出了一種ALBERT-AFSFN模型,用于中文短文本情感分析。模型首先對網(wǎng)絡(luò)Split-Attention Network的特征融合策略進行了改進,將其從簡單的相加連接改為AFF連接,加強了該網(wǎng)絡(luò)通道間的聯(lián)系,最大程度保留了通道間的語義信息及其關(guān)聯(lián)信息。除此之外模型還采用ALBERT預(yù)訓(xùn)練語言模型訓(xùn)練得出動態(tài)詞向量的特征表示,在保證提取到語料庫內(nèi)容信息的同時,也保證提取到了語料庫的位置信息。實驗結(jié)果表明,該模型在不同實驗數(shù)據(jù)上相較于傳統(tǒng)的Att-BiLSTM網(wǎng)絡(luò)和TextCNN神經(jīng)網(wǎng)絡(luò),都具有較高準確度和F1值,且其收斂性也更好,表明其能夠適應(yīng)不同領(lǐng)域的中文文本數(shù)據(jù),證明了本模型的優(yōu)越性和競爭力。

        在未來的工作中,將進一步考慮如何有效地融合更多通道的信息,提升模型特征提取和融合的能力,從而將本文所提出的模型應(yīng)用到更廣泛的領(lǐng)域中,甚至將其應(yīng)用到自然語言處理的其他任務(wù)中,例如方面級情感分類任務(wù)、觀點提取任務(wù)和命名體識別任務(wù)等。

        猜你喜歡
        參數(shù)設(shè)置注意力準確率
        讓注意力“飛”回來
        乳腺超聲檢查診斷乳腺腫瘤的特異度及準確率分析
        健康之家(2021年19期)2021-05-23 11:17:39
        不同序列磁共振成像診斷脊柱損傷的臨床準確率比較探討
        2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
        高速公路車牌識別標識站準確率驗證法
        “揚眼”APP:讓注意力“變現(xiàn)”
        傳媒評論(2017年3期)2017-06-13 09:18:10
        蟻群算法求解TSP中的參數(shù)設(shè)置
        A Beautiful Way Of Looking At Things
        動車環(huán)境下U900異頻切換參數(shù)設(shè)置探討
        基于MATLAB仿真的井下變壓器參數(shù)設(shè)置研究
        伊人婷婷综合缴情亚洲五月| 视频在线播放观看免费| 99久久免费精品高清特色大片| 免费人妻精品一区二区三区| 中国妇女做爰视频| 日本精品少妇一区二区三区| 欧美变态另类刺激| 一本一道av无码中文字幕| 无码精品黑人一区二区三区| ā片在线观看免费观看| 自慰无码一区二区三区 | 亚洲国产区男人本色| 91亚洲国产三上悠亚在线播放| 永久免费无码av在线网站| 妺妺窝人体色www在线图片 | 久久精品国产精品亚洲艾| 久久久精品亚洲人与狗| 黄片免费观看视频播放| 国产伦一区二区三区久久| 婷婷久久亚洲中文字幕| 亚洲精品第四页中文字幕 | 人妻少妇看a偷人无码精品| 99精品一区二区三区无码吞精| 欧美日韩中文国产一区发布| 精品无码一区二区三区爱欲九九 | 亚洲视频网站大全免费看| 97人伦影院a级毛片| 免费人妻精品一区二区三区| 日韩成人极品在线内射3p蜜臀| 真多人做人爱视频高清免费| 日本熟妇hdsex视频| 成片免费观看视频大全| 国产精品免费久久久久影院| 亚洲另类激情专区小说婷婷久 | 日韩极品视频在线观看| 国产亚洲一区二区毛片| 精品人妻av一区二区三区麻豆| 成人高清在线播放视频| 亚洲av午夜一区二区三| 亚洲高清在线天堂精品| 白白白在线视频免费播放|