亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Bert-A-BiR神經(jīng)網(wǎng)絡(luò)的文本情感分類(lèi)模型

        2021-12-13 06:32:00李明超張壽明
        電視技術(shù) 2021年10期
        關(guān)鍵詞:微調(diào)集上注意力

        李明超,張壽明

        (昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)

        0 引言

        文本情感分析是自然語(yǔ)言處理領(lǐng)域(Natural Language Processing,NLP)一個(gè)重要的研究方向,是利用計(jì)算機(jī)手段對(duì)帶有情感傾向的文本進(jìn)行處理、分析、歸納及推斷的過(guò)程。

        在基于深度學(xué)習(xí)的文本情感分析研究方向上,KALCHBRENNER等人[1]提出了第一個(gè)基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)的TC模型,該模型使用動(dòng)態(tài)-max-pooling,稱(chēng)為動(dòng)態(tài)CNN(DCNN);此后又出現(xiàn)了循環(huán)神經(jīng)網(wǎng)絡(luò)[2](Rerrent Neural Network,RNN)及其各種變體,如長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)和門(mén)控循環(huán)網(wǎng)絡(luò)(Gated Recurrent neural network,GRU)[3],都是旨在更好地捕獲長(zhǎng)期依賴(lài)關(guān)系。隨著訓(xùn)練模型復(fù)雜度不斷提升和模型處理語(yǔ)料日益龐大,研究人員提出了預(yù)訓(xùn)練模型(Bidirectional Encoder Representations from Transformers,BERT)[4]。 通過(guò)大量基準(zhǔn)語(yǔ)料對(duì)模型預(yù)訓(xùn)練,使模型能夠?qū)o定語(yǔ)句中的詞語(yǔ)嵌入更豐富語(yǔ)義,這些嵌入將被應(yīng)用到相關(guān)模型后續(xù)任務(wù)中,極大地改善模型情感分 析性能。

        但是,在以上的單一神經(jīng)網(wǎng)絡(luò)模型中依然存在各種問(wèn)題:卷積神經(jīng)網(wǎng)絡(luò)無(wú)法提取文本時(shí)序特征,而LSTM和GRU雖能提取到時(shí)序特征,但只能利用到當(dāng)前和過(guò)去信息,不能利用未來(lái)信息;另外,BERT模型的輸入長(zhǎng)度是固定的,被截取的超出部分可能包含有價(jià)值信息,因此還有提升空間。

        針對(duì)上述問(wèn)題,本文提出Bert-BiR-A模型架構(gòu),利用訓(xùn)練集對(duì)BERT模型進(jìn)行微調(diào),然后利用預(yù)訓(xùn)練BERT模型對(duì)文本序列進(jìn)行詞嵌入,使詞語(yǔ)獲得更豐富表征;利用雙向GRU對(duì)文本進(jìn)行雙向特征提取,并引入注意力機(jī)制對(duì)提取特征賦予不同權(quán)重,給予關(guān)鍵信息更高關(guān)注度,更有利于情感分析,提取語(yǔ)句深層語(yǔ)義;為驗(yàn)證不同BERT模型對(duì)整個(gè)模型框架的影響,設(shè)計(jì)了6組模型進(jìn)行試驗(yàn)獲得最優(yōu)模型。

        1 Bert-BiR-A模型構(gòu)建

        Bert-BiR-A模型結(jié)構(gòu)包括BERT預(yù)訓(xùn)練層、雙向循環(huán)網(wǎng)絡(luò)層、注意力層以及輸出層4個(gè)信息處理層,如圖1所示。

        圖1 Bert-BiR-A模型結(jié)構(gòu)圖

        1.1 訓(xùn)練BERT詞向量

        輸入詞向量序列記為X={w1,w2,…,wm},將X輸入BERT模型中進(jìn)行訓(xùn)練,最終獲得相應(yīng)詞向量表示,如式(1)所示:

        式中:X'為BERT詞嵌入后的向量,W'為轉(zhuǎn)置矩陣,b'為偏置值。

        1.2 BIGRU層特征提取

        對(duì)于任意一條給定的評(píng)論S={t1,t2,…,ti,ti+1,…,tm},經(jīng)過(guò)BERT網(wǎng)絡(luò)模型訓(xùn)練后轉(zhuǎn)化為序列X'。BIGRU網(wǎng)絡(luò)使用了雙向GRU模型,其中一路GRU向前傳播建模,一路向后傳播建模,使得每個(gè)詞對(duì)應(yīng)的輸出能夠同時(shí)提取到基于上下文兩個(gè)方向的信息,獲得信息更充分。在進(jìn)行建模的過(guò)程中,前向GRU與后向GRU參數(shù)不進(jìn)行共享,兩者的表 達(dá)式為:

        最后將每個(gè)詞向量對(duì)應(yīng)的前向GRU輸出值和后向GRU輸出值進(jìn)行拼接,結(jié)果即為BIGRU網(wǎng)絡(luò)的模型的輸出,如式(4)所示:

        1.3 注意力目標(biāo)詞向量

        將從BiGRU層的輸出連接到Attention層,然后加入注意力機(jī)制算出其注意力值。從BiGRU層輸出的句子為S={t1,t2,…,ti,ti+1,…,tm},計(jì)算目標(biāo)詞向量t2注意力,通過(guò)Attention層將t2訓(xùn)練出其基于注意力機(jī)制的序列t2'。然后可以按照對(duì)t2的計(jì)算方式推出整個(gè)文本序列的詞向量訓(xùn)練。通過(guò)分析詞與詞之間的相關(guān)性及詞與序列之間的重要程度,利用注意力機(jī)制算出其權(quán)重值,構(gòu)建出上下文向量,最后將構(gòu)建出的向量連接到對(duì)應(yīng)詞上。訓(xùn)練詞向量的具體步驟如式(5)、式(6)所示:

        式中:tju和tjv代表第j條語(yǔ)句中任意兩個(gè)不同的詞的向量,αju,jv代表權(quán)重系數(shù)。

        對(duì)輸入詞矩陣進(jìn)行多次遍歷以上計(jì)算步驟后,計(jì)算出每個(gè)詞所對(duì)應(yīng)的權(quán)重,最終生成權(quán)重矩陣A,最后將權(quán)重矩陣與后續(xù)BIGRU網(wǎng)絡(luò)的輸出進(jìn)行 拼接。

        1.4 輸出層

        將經(jīng)過(guò)注意力機(jī)制的得到的輸出Ai連接到輸出層,然后送入softmax分類(lèi)器中進(jìn)行感情極性分類(lèi),最終的分類(lèi)結(jié)果如式(7)所示:

        式中:W0為輸出層權(quán)重矩陣,bo為偏置值。

        利用交叉熵定義損失函數(shù)如式(8)所示:

        2 實(shí)驗(yàn)與分析

        2.1 實(shí)驗(yàn)設(shè)置

        為了能夠?qū)Ρ菊滤岢龅哪P虰ERT-A-BIR進(jìn)行更好的評(píng)估,本章選用了兩個(gè)在文本情感分析領(lǐng)域廣泛應(yīng)用的公開(kāi)數(shù)據(jù)集IMDB和SST-5。其中,IMDB數(shù)據(jù)集主要用于二分類(lèi),情感極性分為積極和消極,訓(xùn)練集包括25000條評(píng)論,測(cè)試集包含 25000條評(píng)論;SST-5數(shù)據(jù)集主要應(yīng)用于情感分析五分類(lèi),情感極性分為非常消極、消極、中立、積極以及非常積極,訓(xùn)練集包含157918條評(píng)論,測(cè)試集包含2210條評(píng)論。

        2.2 評(píng)估指標(biāo)

        用被分對(duì)的樣本數(shù)除以總的樣本數(shù)得出正確率(Accuarcy)。在通常情況下,正確率越高,代表分類(lèi)效果越好,其計(jì)算方法如式(9)所示:

        式中:FP是指實(shí)際積極的樣本被判別為消極的樣本;TP是指實(shí)際積極的樣本被判定積極樣本;TN是指實(shí)際消極的樣本被判別為消極的樣本;FN是指實(shí)際消極樣本被判別為消極的樣本。

        2.3 對(duì)比實(shí)驗(yàn)

        模型分別在數(shù)據(jù)集IMDB和數(shù)據(jù)集SST-5上進(jìn)行情感分析任務(wù),同時(shí)設(shè)置多組對(duì)照實(shí)驗(yàn)。

        2.3.1 分類(lèi)模型對(duì)比實(shí)驗(yàn)

        不同模型的預(yù)測(cè)準(zhǔn)確率結(jié)果如表1所示。由表1可以看出,在IMDB數(shù)據(jù)集上,單一神經(jīng)網(wǎng)絡(luò)中CNN的準(zhǔn)確率最高,為87.6%,但是本文提出的BERT-A-BiR模型均優(yōu)于其他模型,且相對(duì)CNN提升了7.1個(gè)百分點(diǎn);在SST-5數(shù)據(jù)集上進(jìn)行單句預(yù)測(cè),CNN相對(duì)BiLSTM準(zhǔn)確率降低1.1個(gè)百分點(diǎn),但本文提出的模型與BiLSTM相比提升了1.8個(gè)百分點(diǎn);BERT-A-BiR與BERT-BiR相比在兩個(gè)數(shù)據(jù)集上準(zhǔn)確率都更高,說(shuō)明了引入注意力機(jī)制的有效性。整體而言,本文的模型在了IMDB和SST-5數(shù)據(jù)集上都取得了不俗的表現(xiàn)。

        表1 不同模型的預(yù)測(cè)準(zhǔn)確率

        2.3.2 不同BERT對(duì)比實(shí)驗(yàn)

        為了提升整體模型性能,研究不同BERT對(duì)本章提出的BERT-A-BiR模型架構(gòu)的影響,在模型的BERT模塊分別采用BERT_base、RoBERTa[5]及DistillBERT[6]三種BERT,同時(shí)雙向循環(huán)網(wǎng)絡(luò)模塊(BiR)采用了BiGRU和BiLSTM兩種循環(huán)網(wǎng)絡(luò)的變體模型,共設(shè)計(jì)了6個(gè)模型,相關(guān)實(shí)驗(yàn)組的結(jié)果如表2所示。

        表2 6組不同模型在IMDB和SST-5數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

        對(duì)比1、2、3組實(shí)驗(yàn)可以發(fā)現(xiàn),當(dāng)BiR模塊同為BiLSTM時(shí),RoBERTa在兩個(gè)數(shù)據(jù)集上表現(xiàn)最優(yōu);同理,對(duì)比4、5、6實(shí)驗(yàn)組可以發(fā)現(xiàn),當(dāng)BiR模塊同為BiGRU時(shí),RoBERTa在兩個(gè)數(shù)據(jù)集上表現(xiàn)最優(yōu),故在BERT模塊上RoBERTa最優(yōu)。通過(guò)對(duì)比1和4、2和5、3和6可以發(fā)現(xiàn),當(dāng)BERT相同時(shí),整體上而言,BiGRU更優(yōu),最終最優(yōu)模型為RoBERTa-A-BiR_(BiGRU),在SST-5上取得了53.30%的準(zhǔn)確率,在IMDB上取得93.66%的成績(jī)。

        2.3.3 微調(diào)實(shí)驗(yàn)

        為了提升BERT模型的效果,利用訓(xùn)練集Dtrain對(duì)BERTbase進(jìn)行微調(diào)。為了驗(yàn)證微調(diào)的效果,首先利用Dtest對(duì)沒(méi)有經(jīng)過(guò)微調(diào)的BERTbase進(jìn)行測(cè)試,BERTbase經(jīng)過(guò)微調(diào)后再次使用Dtest對(duì)其測(cè)試,實(shí)驗(yàn)結(jié)果如圖2所示:

        圖2 BERTbase在IMDB數(shù)據(jù)集上的微調(diào)效果

        在對(duì)IMDB影評(píng)數(shù)據(jù)集上進(jìn)行情感二分類(lèi)的過(guò)程中,對(duì)BERTbase進(jìn)行微調(diào)后的準(zhǔn)確率、召回率和F1值比沒(méi)有微調(diào)前分別高出0.54、0.39和0.46。結(jié)合BERT預(yù)訓(xùn)練后在兩個(gè)數(shù)據(jù)上的準(zhǔn)確率、召回率及F1值可以看出,對(duì)BERT進(jìn)行微調(diào)后的效果都要優(yōu)于未對(duì)BERT進(jìn)行微調(diào)的效果。這說(shuō)明對(duì)BERT進(jìn)行微調(diào)應(yīng)用于特定任務(wù),要優(yōu)于不進(jìn)行微調(diào)的BERT模型,證明了BERT微調(diào)的有效性。

        3 結(jié)語(yǔ)

        本文針對(duì)文本情感分析任務(wù)提出了BERT-ABiR模型架構(gòu),通過(guò)對(duì)BERT微調(diào)后利用其預(yù)訓(xùn)練模型進(jìn)行詞嵌入,然后通過(guò)雙向RNN變體LSTM或GRU進(jìn)行特征提取,此后引入注意力機(jī)制讓模型對(duì)與當(dāng)前任務(wù)相關(guān)的信息賦予更多關(guān)注度,提升模型情感分析能力。在不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與其他對(duì)照組相比,提出的模型準(zhǔn)確率最高,證明了該模型的可行性。同時(shí),為進(jìn)一步提升模型架構(gòu)性能,基于不同BERT對(duì)模型框架的影響設(shè)計(jì)了6組模型,通過(guò)實(shí)驗(yàn)選出最優(yōu)模型。最終在IMDB數(shù)據(jù)集上取得了93.66%的成績(jī),在SST-5數(shù)據(jù)集上取得了53.3%的成績(jī)。模型還有一定的優(yōu)化空間,將在未來(lái)工作中進(jìn)一步優(yōu)化。

        猜你喜歡
        微調(diào)集上注意力
        讓注意力“飛”回來(lái)
        Cookie-Cutter集上的Gibbs測(cè)度
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        一種新型微調(diào)擠塑模具的設(shè)計(jì)及應(yīng)用
        復(fù)扇形指標(biāo)集上的分布混沌
        靈活易用,結(jié)合自動(dòng)和手動(dòng)微調(diào)達(dá)到好效果 StormAudio ISP 3D.16 ELITE/PA 16 ELITE
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        全國(guó)大部省份結(jié)束2014高考 多地高考模式微調(diào)
        幾道導(dǎo)數(shù)題引發(fā)的解題思考
        国产一区二区黄色录像| 日韩精品永久免费播放平台| 99久久国语露脸国产精品| 亚洲av男人免费久久| 东北老熟女被弄的嗷嗷叫高潮| 中文区中文字幕免费看 | 亚洲av综合永久无码精品天堂| 全免费a级毛片| 欧美在线成人免费国产| 女同同成片av免费观看| 日本黑人乱偷人妻在线播放| 伊甸园亚洲av久久精品| 白又丰满大屁股bbbbb| 亚洲欧美另类精品久久久| 久久精品网站免费观看| 久久国产精品一区av瑜伽| 在线观看老湿视频福利| 夜夜躁狠狠躁2021| 精品国产福利片在线观看| 亚洲高清av一区二区| 日本一区二区视频高清| 亚洲日韩中文字幕无码一区| 久久久久久国产精品美女| 亚洲Av无码专区尤物| 亚洲一区二区三区免费av| 熟女人妻中文字幕av| 国产乱子伦农村xxxx| 久久国产精品波多野结衣av| 亚洲精品一区二区在线播放| 毛片在线播放亚洲免费中文网| 国产精品国产三级国产av品爱网 | 丰满少妇人妻无码超清| 精品人妻一区二区三区狼人 | 成年女人免费视频播放体验区 | 中日韩欧美成人免费播放| 中文字幕丰满人妻被公强| 日本女优在线一区二区三区| 69一区二三区好的精华| 99精品成人片免费毛片无码| 亚洲天堂色婷婷一区二区| av在线免费观看网站免费|