亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合BERT和BiSRU-AT的中文文本情感分類*

        2021-09-22 13:27:24黃澤民吳曉鸰吳迎崗
        關(guān)鍵詞:注意力向量矩陣

        黃澤民,吳曉鸰,吳迎崗,凌 捷

        (廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,廣東 廣州 510006)

        1 引言

        通信領(lǐng)域的快速發(fā)展,促進(jìn)了社交平臺(tái)和網(wǎng)絡(luò)運(yùn)營商的發(fā)展,參與其中的網(wǎng)絡(luò)用戶越來越多,用戶在各種平臺(tái)上評(píng)論熱點(diǎn)事件,發(fā)表自己的意見,從而產(chǎn)生海量的帶有情感傾向的文本信息,而這些情感傾向?qū)浾摫O(jiān)控、社會(huì)風(fēng)氣的分析、市場(chǎng)營銷和政府部門有很大的作用[1]。但是,要利用這些情感文本,僅靠人工處理存在工作程序繁雜和實(shí)時(shí)性較差等問題[2]。自然語言處理領(lǐng)域的文本情感分析[3]又稱意見挖掘,就是通過計(jì)算機(jī)來幫助人們自動(dòng)獲取、整理、歸納和推理文本,對(duì)評(píng)論文本進(jìn)行傾向性分析,從而得到文本的情感傾向。

        情感分析方法主要有基于機(jī)器學(xué)習(xí)和基于神經(jīng)網(wǎng)絡(luò)的方法?;跈C(jī)器學(xué)習(xí)的文本情感分類方法,通過分析文本來構(gòu)造結(jié)構(gòu)化的特征數(shù)據(jù),采用多種機(jī)器學(xué)習(xí)算法進(jìn)行情感分析,如Pang等人[4]利用SVM(Support Vector Machine)、樸素貝葉斯、貝葉斯和最大熵等機(jī)器學(xué)習(xí)算法來對(duì)評(píng)論文本進(jìn)行情感極性預(yù)測(cè)。但是,機(jī)器學(xué)習(xí)方法過多地依賴人工標(biāo)注和領(lǐng)域知識(shí)去構(gòu)造規(guī)范化的文本,使得遷移性差且耗費(fèi)人力物力?;谏窠?jīng)網(wǎng)絡(luò)的文本情感分類方法,就是將文本編碼成向量,然后應(yīng)用到下游的神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型中。Salur等人[5]將不同的詞向量化方法(如FastText、word2vec和字符級(jí)嵌入)與不同的深度學(xué)習(xí)方法(如CNN(Convolutional Neural Networks)、GRU(Gated Recurrent Unit)、LSTM(Long Short-Term Mermory network)、BiLSTM(Bi-directional Long Short-Term Mermory network)等)策略性地級(jí)聯(lián)在一起,用不同的模型提取不同的特征,然后結(jié)合這些特征得到文本的情感極性。諶志群等人[6]采用了BERT(Bidirectional Encoder Representations from Transformers)模型生成文本的向量表征,然后將這些詞向量輸入到雙向 LSTM 網(wǎng)絡(luò)中進(jìn)行情感分類,在測(cè)試集上取得了不錯(cuò)的預(yù)測(cè)結(jié)果。Zhou等人[7]在雙層LSTM基礎(chǔ)上使用雙層的注意力機(jī)制,在句子級(jí)別上提取特征,取得了不錯(cuò)的預(yù)測(cè)效果。Wang 等人[8]將注意力機(jī)制融合到神經(jīng)網(wǎng)絡(luò)中,對(duì)反映實(shí)體關(guān)系的詞語給予更大的權(quán)重,結(jié)合改進(jìn)的目標(biāo)函數(shù)來提高關(guān)系提取的效果。Baziotis等人[9]將glove預(yù)訓(xùn)練學(xué)習(xí)到的詞向量輸入到2層的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)LSTM后,注入注意力機(jī)制來提升模型的預(yù)測(cè)能力。

        自然語言預(yù)訓(xùn)練模型[10]包括靜態(tài)模型和動(dòng)態(tài)模型,靜態(tài)模型有word2vec模型[11,12]和glove模型等,動(dòng)態(tài)模型有ELMO(Embedding from Language MOdels)模型[13]、GPT(Generative Pre-Training)模型[14]和BERT[15,16]模型等。雖然自然語言處理領(lǐng)域因靜態(tài)預(yù)訓(xùn)練技術(shù)得到了極大發(fā)展,但是靜態(tài)詞向量無法較好地表征多義詞,比如“蘋果”一詞,由于語境不同,可以理解為水果,或者蘋果公司,還有可能是指書名或者電影名稱,如果利用靜態(tài)詞嵌入技術(shù),只會(huì)用一種向量來表示這3種含義。2018年,動(dòng)態(tài)詞向量技術(shù)ELMO的出現(xiàn)有效地解決了多義詞問題,隨后,基于Transformer模型的GPT和BERT等新型預(yù)訓(xùn)練模型的相繼提出,尤其是BERT模型的提出,使自然語言處理領(lǐng)域的很多任務(wù)有了強(qiáng)有力的預(yù)訓(xùn)練工具,是自然語言處理領(lǐng)域的一個(gè)重要突破。ELMO預(yù)訓(xùn)練模型的網(wǎng)絡(luò)結(jié)構(gòu)采用了雙層雙向LSTM,它能根據(jù)當(dāng)前的上下文信息對(duì)詞嵌入進(jìn)行動(dòng)態(tài)調(diào)整,但其特征融合能力相比BERT模型較弱;GPT模型雖然采用特征提取能力強(qiáng)的Transformer模型,但是只關(guān)注上文信息卻拋棄了下文信息,使之無法充分結(jié)合文本上下文語義信息;BERT模型的提出彌補(bǔ)了ELMO和GPT存在的問題,它是以字為級(jí)別的向量,通過參考上下文,進(jìn)行語義提取,故不存在一詞多義的問題。

        最早把注意力機(jī)制應(yīng)用在自然語言處理任務(wù)中的是Bahdanau等人[17],他們將注意力機(jī)制應(yīng)用在機(jī)器翻譯模型上,構(gòu)造了當(dāng)時(shí)翻譯效果最好的機(jī)器翻譯模型。隨后,有研究人員對(duì)注意力機(jī)制進(jìn)行改造和加強(qiáng),如Tang等人[18]提出了一種漸進(jìn)地自監(jiān)督注意力的學(xué)習(xí)算法,能在模型參數(shù)估計(jì)過程中約束注意力機(jī)制的學(xué)習(xí),使模型能夠漸進(jìn)地挖掘文本中重要的監(jiān)督信息,從而解決了對(duì)高頻詞過度關(guān)注,而忽略了低頻詞的問題,在實(shí)踐中證明了該模型提出的漸進(jìn)注意力機(jī)制應(yīng)用在多個(gè)前沿模型上能取得顯著的性能提升。文本情感分類任務(wù)中應(yīng)用注意力機(jī)制是提高模型預(yù)測(cè)能力的一種有效方法,孫小婉等人[19]使用多頭注意力機(jī)制對(duì)上游模型的輸出進(jìn)行多次不同的線性變換后,得到特定方面詞語的注意力信息和結(jié)合上下文的自注意力信息,實(shí)現(xiàn)了特定方面情感極性的預(yù)測(cè);韓萍等人[20]提出了結(jié)合情感融合和多頭自注意力機(jī)制的文本情感分析模型來進(jìn)行文本情感極性的預(yù)測(cè)。

        使用基于機(jī)器學(xué)習(xí)的方法雖然提高了準(zhǔn)確率,但需要先驗(yàn)知識(shí)來結(jié)構(gòu)化數(shù)據(jù)集,才能將其作為模型訓(xùn)練的語料集合,大大降低了效率。完成基于神經(jīng)網(wǎng)絡(luò)技術(shù)的自然語言處理任務(wù)的一個(gè)關(guān)鍵是如何將文字符號(hào)編碼為融合文本語境的數(shù)字特征,若以word2vec和glove學(xué)習(xí)到的詞向量作為詞表征,學(xué)習(xí)到的只是靜態(tài)向量,即不能學(xué)習(xí)到多義詞的多重語義,會(huì)降低文本情感傾向的預(yù)測(cè)準(zhǔn)確率,故本文提出了結(jié)合BERT和BiSRU-AT的文本情感分類模型BERT-BiSRU-AT(model combined with BERT and Bidirectional Simple Recurrent Unit with ATtention),使用BERT預(yù)訓(xùn)練模型生成語料的詞向量,以解決多義詞表征問題。本文不采用BERT模型的句首標(biāo)志[CLS]來預(yù)測(cè)情感極性,而是引入了注意力機(jī)制來對(duì)雙向簡(jiǎn)單循環(huán)網(wǎng)絡(luò)每個(gè)時(shí)間步的輸出分配權(quán)重,對(duì)情感分析貢獻(xiàn)大的詞將賦予更高的權(quán)重,讓模型分析出句子中每個(gè)詞語對(duì)準(zhǔn)確預(yù)測(cè)情感傾向的貢獻(xiàn),以突出重點(diǎn)信息,進(jìn)而提高模型預(yù)測(cè)性能。

        Figure 1 Model combined with BERT and BiSRU-AT圖1 結(jié)合BERT和BiSRU-AT的文本情感分類模型

        2 結(jié)合BERT和BiSRU-AT的文本情感分類模型

        結(jié)合BERT和BiSRU-AT(Bidirectional Simple Recurrent Unit with ATtention)的文本情感分類模型如圖1所示,該模型共有6層,分別是數(shù)據(jù)預(yù)處理層、詞嵌入層、BERT層、文本上下文語義二次提取層、注意力機(jī)制層和預(yù)測(cè)層。其中,數(shù)據(jù)預(yù)處理是對(duì)數(shù)據(jù)集去噪和分詞,只保留含有語義信息的文本;文本詞匯的向量化利用預(yù)訓(xùn)練模型得到對(duì)應(yīng)分詞的靜態(tài)向量表示;BERT層對(duì)靜態(tài)詞向量進(jìn)一步學(xué)習(xí)獲得融合語境的動(dòng)態(tài)向量表示;BiSRU二次提取句子的上下文信息;注意力機(jī)制層能得到每個(gè)分詞對(duì)句子情感分析的貢獻(xiàn),以側(cè)重有價(jià)值的詞語并獲取到句子級(jí)別的整體語義信息;最后加權(quán)求和得出句子的情感極性概率分布。

        2.1 數(shù)據(jù)預(yù)處理和詞靜態(tài)向量表示

        由于評(píng)論文本存在大量的噪聲數(shù)據(jù),需對(duì)評(píng)論文本利用正則表達(dá)式進(jìn)行去噪,如去除標(biāo)點(diǎn)符號(hào)、表情和俚語等;然后對(duì)數(shù)據(jù)集的每一個(gè)句子進(jìn)行字符級(jí)別的分詞,并且去除停用詞,分詞后的句子只包含具有語義信息的字符,且保證句子最大長(zhǎng)度不超過設(shè)置的句子長(zhǎng)度減2,因?yàn)槭O碌?個(gè)位置需用來存放句首標(biāo)志([CLS])和分句標(biāo)志([SEP]);預(yù)處理后會(huì)對(duì)句子的每個(gè)字符進(jìn)行向量映射,得到淺層向量表示,此時(shí)的詞向量還是靜態(tài)向量,不能解決多義詞的表征問題,該詞向量作為BERT預(yù)訓(xùn)練模型的輸入之一,訓(xùn)練完成后會(huì)得到融合文本語境的動(dòng)態(tài)詞向量。

        2.2 BERT預(yù)訓(xùn)練模型

        BERT模型采用了融合文本能力強(qiáng)大的Transformer模型,通過結(jié)合自注意力機(jī)制考慮了每個(gè)詞語對(duì)其他詞語的重要程度,預(yù)訓(xùn)練出來的向量表示效果更好。BERT預(yù)訓(xùn)練模型如圖2所示,其中e1,…,en為BERT模型的輸入向量,T1,…,Tn為BERT模型的輸出向量。

        Figure 2 Network structure of BERT model圖2 BERT模型的網(wǎng)絡(luò)結(jié)構(gòu)

        輸入向量ei的形成過程如圖3所示,ei由3種不同的向量對(duì)應(yīng)元素相加而成。每個(gè)句子的第1個(gè)向量是[CLS]標(biāo)志,可以用于下游的分類任務(wù),句尾向量[SEP]標(biāo)志用作不同句子的分隔符,由于本文是句子級(jí)別的情感分析,即輸入是一個(gè)句子,故僅使用一個(gè)句向量;詞嵌入向量是詞的靜態(tài)編碼;位置向量PE記錄分詞在句子中的位置,計(jì)算公式如式(1)和式(2)所示。

        PE(pos,2i)=sin(pos/100002i/d)

        (1)

        PE(pos,2i+1)=cos(pos/100002i/d)

        (2)

        其中,pos表示分詞在句子中的位置;2i、2i+1分別表示詞向量的偶數(shù)維度和奇數(shù)維度;d表示分詞向量的維度,也是輸出向量PE的維度。

        Figure 3 Input structure of BERT model圖3 BERT模型的輸入結(jié)構(gòu)

        BERT預(yù)訓(xùn)練模型的Transformer結(jié)構(gòu)如圖4所示。Transformer包括1個(gè)編碼器和1個(gè)解碼器,編碼器由6個(gè)Encoder堆疊組成,解碼器由6個(gè)Decoder連續(xù)堆疊而成。

        Figure 4 Structure of Transformer model圖4 Transformer模型結(jié)構(gòu)

        BERT在實(shí)際操作中是基于矩陣計(jì)算的,將全部輸入拼接成向量矩陣E={e1,…,en},輸入到編碼器。多頭注意力機(jī)制由8個(gè)自注意力機(jī)制組成,自注意力的輸入為3個(gè)不同的向量矩陣:Query查詢矩陣(Q)、Key鍵矩陣(K)和Value值矩陣(V),由向量矩陣E分別乘以3個(gè)線性變陣矩陣WQ、WK和WV得到。利用Q,K,V這3個(gè)向量矩陣通過式(3)可計(jì)算自注意力機(jī)制的輸出:

        (3)

        得到自注意力的輸出后,通過式(4)和式(5)可以計(jì)算出多頭注意力機(jī)制的輸出X。

        X=MultiHead(Q,K,V)=

        concat(Attention1,…,Attentioni,…,Attentiong)·WO

        (4)

        (5)

        多頭注意力的輸出X經(jīng)過殘差和層標(biāo)準(zhǔn)化運(yùn)算后得到Z(如圖4的虛線所示),將Z輸入到全連接前饋網(wǎng)絡(luò)(FFNN),F(xiàn)FNN由2層全連接層組成,計(jì)算公式如式(6)所示:

        (6)

        全連接前饋神經(jīng)的輸出經(jīng)過殘差和層標(biāo)準(zhǔn)化運(yùn)算后,將其結(jié)果輸入到下一個(gè)Encoder。第一個(gè)Encoder的輸入為句子詞向量矩陣,后續(xù) Encoder的輸入是前一個(gè)Encoder的輸出,最后一個(gè) Encoder輸出就是編碼器編碼后的矩陣,這一矩陣將會(huì)作用到每個(gè)Decoder。Decoder的計(jì)算過程類似于Encoder,但加了一層Masked的多頭注意力機(jī)制,其輸出的Masked矩陣作為下一子層的輸入之一。將BERT最后一層的輸出矩陣記為Tr={T1,…,Tn},Tr矩陣行列維度與BERT輸入矩陣相同,每個(gè)行向量表示分詞的無歧義深度向量,作為下游任務(wù)的輸入。

        2.3 上下文語義提取BiSRU層和注意力機(jī)制

        長(zhǎng)短期記憶網(wǎng)絡(luò)LSTM的出現(xiàn),解決了傳統(tǒng)循環(huán)網(wǎng)絡(luò)RNN的梯度消失[21]和歷史連接問題,但LSTM無法實(shí)現(xiàn)并行化訓(xùn)練,導(dǎo)致參數(shù)估計(jì)速度太慢。SRU(Simple Rucurrent Unit)[22]不僅擁有與LSTM網(wǎng)絡(luò)相同的能力,而且還能實(shí)現(xiàn)訓(xùn)練的并行化,縮短了文本分析時(shí)間,其網(wǎng)絡(luò)模型如圖5所示。

        Figure 5 Network structure of SRU model圖5 SRU模型的網(wǎng)絡(luò)結(jié)構(gòu)

        在圖5中,Tt表示在時(shí)刻t的輸入,是BERT層輸出矩陣Tr的一個(gè)詞向量;ft,rt,At,At-1分別表示遺忘門、重置門、當(dāng)前時(shí)刻t的隱藏狀態(tài)和前一時(shí)刻t-1的隱藏狀態(tài);ht表示時(shí)刻t的輸出;σ和g代表Sigmoid函數(shù)和激活函數(shù);⊙表示矩陣對(duì)應(yīng)元素的乘法運(yùn)算。

        在SRU模型中,當(dāng)前時(shí)刻的輸入不再依賴ht-1了。式(7)~式(11)是SRU模型的計(jì)算公式:

        ft=σ(WfTt+bf)

        (7)

        rt=σ(WrTt+br)

        (8)

        yt=σ(W*Tt)

        (9)

        At=ft⊙At-1+(1-ft)⊙yt

        (10)

        ht=rt⊙g(At)+(1-rt)⊙Tt

        (11)

        其中,Wf,Wr和W*是參數(shù)矩陣,bf和br是偏置,都是訓(xùn)練時(shí)要學(xué)習(xí)的參數(shù)向量。

        從式(7)~式(9)可以看出,輸入沒有了ht-1,從而式(10)和式(11)可以實(shí)現(xiàn)并行化計(jì)算,以提高訓(xùn)練速度。

        句子語義信息不僅與文本的上文信息有關(guān),還與下文信息有關(guān),故利用雙向SRU進(jìn)一步提取語義信息。BiSRU模型是由2個(gè)SRU網(wǎng)絡(luò)上下疊加構(gòu)成的,每一個(gè)時(shí)間步存在方向相反的2個(gè)SRU,將BERT層輸出矩陣Tr的每個(gè)詞向量分別輸入到每個(gè)時(shí)間步的正反序SRU,將同一個(gè)時(shí)間步的正序和反序輸出進(jìn)行拼接,得到每個(gè)時(shí)間步的輸出。每一個(gè)時(shí)間步的輸出結(jié)果Ht的計(jì)算公式如式(12)所示:

        (12)

        將BiSRU層的輸出送入注意力機(jī)制層,其原理是先對(duì)每個(gè)時(shí)間步的輸出Ht都乘以矩陣Wg得到ut,Wg是訓(xùn)練過程需要學(xué)習(xí)的參數(shù);用激活函數(shù)tanh對(duì)ut去線性化;再進(jìn)行權(quán)重計(jì)算得到句子中每個(gè)分詞的權(quán)重值αt;Softmax函數(shù)能將權(quán)重αt概率化在[0,1];最后將每個(gè)時(shí)間步的Ht與對(duì)應(yīng)權(quán)重αt相乘,再將所有時(shí)間步加權(quán)后的結(jié)果相加,得到注意力特征表示R。具體原理如式(13)~式(15)所示:

        ut=tanh(WgHt+bg)

        (13)

        (14)

        (15)

        其中,Wg和bg分別表示參數(shù)向量和偏置,是要在訓(xùn)練時(shí)學(xué)習(xí)的;exp()為指數(shù)函數(shù)。

        經(jīng)過注意力機(jī)制處理后,將R映射到情感分類空間S,用Softmax函數(shù)得到句子級(jí)別的情感概率分布PR。具體如式(16)所示:

        PR=Softmax(WSR+bS)

        (16)

        其中,WS和bS分別表示參數(shù)向量和偏置,是要在訓(xùn)練時(shí)學(xué)習(xí)的。

        得到情感概率分布后,取概率值最大的為預(yù)測(cè)結(jié)果。

        3 實(shí)驗(yàn)與結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)集

        本文實(shí)驗(yàn)的開發(fā)環(huán)境為Keras,開發(fā)工具為Jupter notebook,開發(fā)語言為Python,使用CPU運(yùn)行程序。采用的實(shí)驗(yàn)數(shù)據(jù)集為中文版本的Twitter數(shù)據(jù)集和酒店評(píng)論數(shù)據(jù)集,其中Twitter數(shù)據(jù)集包含20 000多條中文標(biāo)注評(píng)論語料,訓(xùn)練集包含積極情感句子8 600多個(gè),消極句子8 300多個(gè),測(cè)試集有2 111多條語料,驗(yàn)證集有2 111條語料;酒店評(píng)論訓(xùn)練集包含積極情感句子2 400多個(gè),消極句子2 400個(gè),測(cè)試集有600條語料,驗(yàn)證集有600條語料。由于訓(xùn)練集各類情感樣本的數(shù)目不一致,數(shù)據(jù)不平衡會(huì)導(dǎo)致分類器偏向樣本多的類別,使模型的綜合性能大大下降,因此,本文在訓(xùn)練分類器時(shí)會(huì)保證2類樣本數(shù)目的一致。

        3.2 實(shí)驗(yàn)評(píng)價(jià)標(biāo)準(zhǔn)

        為驗(yàn)證本文模型在文本情感分析中的有效性,使用的評(píng)價(jià)標(biāo)準(zhǔn)有準(zhǔn)確率(Precision)、召回率(Recall)和F1,其計(jì)算公式如式(17)~式(19)所示:

        (17)

        (18)

        (19)

        其中,s表示積極類預(yù)測(cè)為積極類的數(shù)目;m為消極類預(yù)測(cè)為積極類的數(shù)目;tp為積極類預(yù)測(cè)為消極類數(shù)目。由于準(zhǔn)確率和召回率經(jīng)常矛盾,故引入F1值作為平均指標(biāo)。

        3.3 實(shí)驗(yàn)參數(shù)選擇

        實(shí)驗(yàn)參數(shù)的設(shè)置對(duì)實(shí)驗(yàn)結(jié)果具有很大的影響,經(jīng)過實(shí)驗(yàn)對(duì)比后,模型參數(shù)取值如下:句子最大長(zhǎng)度為128;預(yù)訓(xùn)練詞向量維度為768維;BiSRU隱藏層的輸出維數(shù)為128維;隨機(jī)參數(shù)更新比例dropout率為0.5;損失函數(shù)為交叉熵函數(shù);優(yōu)化器為Adam,學(xué)習(xí)率為1E-5; Twitter數(shù)據(jù)集和酒店評(píng)論數(shù)據(jù)集的訓(xùn)練epoch都設(shè)置為10,Batch_size都為32。

        3.4 實(shí)驗(yàn)對(duì)比及分析

        為驗(yàn)證本文模型的有效性,在相同的實(shí)驗(yàn)環(huán)境下,將本文情感分析模型分別與其他情感分析模型進(jìn)行對(duì)比,在中文版本的Twitter訓(xùn)練集上進(jìn)行訓(xùn)練,最后在測(cè)試集上的預(yù)測(cè)結(jié)果如表1所示。

        Table 1 Comparison of model results on the Twitter test set表1 在Twitter測(cè)試集上的模型結(jié)果對(duì)比 %

        表1中,模型1將BERT模型輸出的句首分類標(biāo)志[CLS]向量輸入到Softmax層得到預(yù)測(cè)結(jié)果;模型2用word2vec工具得到文本的詞向量,再將詞向量輸入到下游模型BiSRU-AT中得到預(yù)測(cè)結(jié)果;模型3用ELMO預(yù)訓(xùn)練技術(shù)得到文本的詞向量,再將詞向量輸入到下游模型BiSRU-AT中得到預(yù)測(cè)結(jié)果;模型4用BERT預(yù)訓(xùn)練技術(shù)得到文本的詞向量,再將詞向量輸入到下游模型BiSRU中得到預(yù)測(cè)結(jié)果;模型5用BERT預(yù)訓(xùn)練技術(shù)得到文本的詞向量,再將詞向量輸入到下游模型BiRNN-AT(Bidirectional Recurrent Neural Network with ATtention)中得到預(yù)測(cè)結(jié)果;模型6用BERT預(yù)訓(xùn)練技術(shù)得到文本的詞向量,再將詞向量輸入到下游模型BiLSTM-AT中得到預(yù)測(cè)結(jié)果;模型7為本文模型。由表1可知,本文引入的雙向循環(huán)網(wǎng)絡(luò)和注意力機(jī)制使模型準(zhǔn)確率上升了近3個(gè)百分點(diǎn);為了驗(yàn)證BERT的有效性,與模型2、模型3進(jìn)行了對(duì)比。使用基于word2vec獲得的詞向量表示方法在測(cè)試集的各個(gè)指標(biāo)明顯最低,因?yàn)槠錈o法解決多義詞問題,且無法感知長(zhǎng)距離語義信息;基于ELMO的詞向量表征雖然解決了多義詞問題,實(shí)現(xiàn)了詞向量的動(dòng)態(tài)表征,但是ELMO是基于LSTM網(wǎng)絡(luò)的,其融合文本能力比基于注意力的Transformer網(wǎng)絡(luò)模型弱;對(duì)比模型4是為了對(duì)比利用句首標(biāo)志[CLS]與利用注意力機(jī)制分別預(yù)測(cè)情感傾向的效果,從表1中得知,在各個(gè)指標(biāo)中,利用注意力機(jī)制的預(yù)測(cè)效果略優(yōu)于利用句首標(biāo)志[CLS]的,注意力機(jī)制的引入可以使模型聚焦到對(duì)情感分析更為重要的詞語,進(jìn)一步提升模型的預(yù)測(cè)性能。對(duì)比模型5和模型6是為了驗(yàn)證BiSRU模型的有效性,由于LSTM網(wǎng)絡(luò)和SRU網(wǎng)絡(luò)能對(duì)歷史信息進(jìn)行策略性的保留和過濾以保留有利信息,使得語義學(xué)習(xí)能力更強(qiáng),而RNN網(wǎng)絡(luò)很難學(xué)習(xí)到有效的參數(shù)來處理長(zhǎng)期依賴問題。

        為了進(jìn)一步驗(yàn)證本文模型的性能,在相同的實(shí)驗(yàn)環(huán)境下,將本文情感分析模型分別與其它情感分析模型在酒店評(píng)論訓(xùn)練集上進(jìn)行訓(xùn)練,最后在測(cè)試集上的預(yù)測(cè)結(jié)果如表2所示,表中數(shù)據(jù)進(jìn)一步驗(yàn)證了本文模型的有效性。

        將本文模型分別與BERT-BiLSTM-AT、BERT-LSTM-AT和BERT-SRU-AT等模型的每一個(gè)epoch的訓(xùn)練時(shí)間進(jìn)行比較,每個(gè)對(duì)比模型所使用的參數(shù)都為3.3節(jié)中的參數(shù),并使用Twitter數(shù)據(jù)集訓(xùn)練,對(duì)比結(jié)果如圖6所示。在使用雙向循環(huán)網(wǎng)絡(luò)的條件下,本文采用的雙向SRU網(wǎng)絡(luò)相比雙向LSTM網(wǎng)絡(luò)訓(xùn)練時(shí)間明顯減少,在不利用雙向循環(huán)網(wǎng)絡(luò)前提下,SRU網(wǎng)絡(luò)的訓(xùn)練速度也優(yōu)于LSTM的。BERT預(yù)訓(xùn)練模型總參數(shù)大小為110 MB,如果利用計(jì)算復(fù)雜度高的LSTM網(wǎng)絡(luò)作為下游任務(wù)的模型,無疑會(huì)導(dǎo)致模型訓(xùn)練時(shí)間大大增加,故本文利用了SRU網(wǎng)絡(luò)的并行化計(jì)算能力,在保證準(zhǔn)確率的前提下,能有效減少訓(xùn)練時(shí)間。

        Table 2 Comparison of model resultson the hotel comment test set表2 在酒店評(píng)論測(cè)試集上模型結(jié)果對(duì)比 %

        Figure 6 Training time of each epoch圖6 每個(gè)epoch訓(xùn)練時(shí)間

        綜上所述,相比其它模型,本文提出的模型在各種評(píng)價(jià)指標(biāo)上的表現(xiàn)更好。本文利用BERT預(yù)訓(xùn)練模型解決多義詞表征問題和利用雙向SRU更深層次地挖掘文本語義并利用其并行化能力來加快模型的訓(xùn)練速度;本文引入的注意力機(jī)制使模型對(duì)能準(zhǔn)確預(yù)測(cè)文本情感的詞語給予更高的權(quán)重,以側(cè)重有價(jià)值的詞語。本文使用了谷歌的預(yù)訓(xùn)練模型Chinese_L-12_H-768_A-12,BERT的輸入向量是任務(wù)語料在大語料集合中映射出來的,而非在任務(wù)語料中學(xué)習(xí)得到的,使BERT模型訓(xùn)練出來的向量具有更高的泛化程度。BERT預(yù)訓(xùn)練模型也存在不足,BERT模型主要聚焦原始語言內(nèi)部信號(hào),對(duì)語義知識(shí)單元較少建模,導(dǎo)致模型很難獲取到語義知識(shí)單元的整體語義,這個(gè)缺陷在訓(xùn)練中文語料時(shí)較為明顯,且BERT預(yù)訓(xùn)練模型在下游任務(wù)微調(diào)時(shí)并不會(huì)使用到掩碼機(jī)制,致使在訓(xùn)練階段和模型使用階段會(huì)存在數(shù)據(jù)偏差,對(duì)實(shí)際預(yù)測(cè)效果有一定影響。

        4 結(jié)束語

        本文提出的結(jié)合BERT和BiSRU-AT的文本情感分析模型實(shí)現(xiàn)了句子級(jí)別的情感分類,利用BERT預(yù)訓(xùn)練模型得到融合語境的詞向量表征,使網(wǎng)絡(luò)模型能更好地理解文本語義信息,再通過微調(diào)模型來完成下游任務(wù)。在測(cè)試集上的實(shí)驗(yàn)結(jié)果表明,本文提出的模型在各種評(píng)價(jià)指標(biāo)上都得到了預(yù)期效果,且在訓(xùn)練速度上有著明顯的提升。本文模型考慮了情感二分類問題,在接下來的工作中,將會(huì)考慮使用BERT的優(yōu)化模型和XLNet(transformer—XL Network)[23]等新型預(yù)訓(xùn)練模型去分析多元情感傾向文本,得到更為豐富的情感傾向。

        猜你喜歡
        注意力向量矩陣
        向量的分解
        讓注意力“飛”回來
        聚焦“向量與三角”創(chuàng)新題
        “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
        A Beautiful Way Of Looking At Things
        初等行變換與初等列變換并用求逆矩陣
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        矩陣
        南都周刊(2015年4期)2015-09-10 07:22:44
        矩陣
        南都周刊(2015年3期)2015-09-10 07:22:44
        日日噜噜夜夜狠狠久久丁香五月| 亚洲一区二区高清精品| 高清av一区二区三区在线| 少妇高潮久久蜜柚av| 美女露内裤扒开腿让男人桶无遮挡| 亚洲精品无码mv在线观看| 亚洲天天综合色制服丝袜在线| 国产精品中文字幕日韩精品 | 亚洲人成网站色7799| 亚洲国产无套无码av电影| 91福利国产在线观一区二区| 青青草成人原视频在线播放视频| 浓毛老太交欧美老妇热爱乱| 亚洲处破女av日韩精品| ZZIJZZIJ亚洲日本少妇| 神马不卡影院在线播放| 人妻丝袜中文无码av影音先锋专区| 丰满老熟妇好大bbbbb| 亚欧免费视频一区二区三区| 日本一区二区三区女优在线| 国内精品久久久久久久97牛牛| 97免费人妻在线视频| 日本一区二区亚洲三区| 久久人妻一区二区三区免费| 亚洲色大成网站www久久九九| 亚洲男女免费视频| 国产91大片在线观看| 欧美性猛交99久久久久99按摩| 亚洲日韩国产精品第一页一区| 国产伦码精品一区二区| 日本乱码一区二区三区在线观看| 人妻体体内射精一区二区| 国产白丝在线| 国产自产精品露脸刺激91在线| av在线手机中文字幕| 亚洲av福利天堂一区二区三| 97se亚洲国产综合自在线| 久久夜色精品国产噜噜噜亚洲av| 极品尤物在线精品一区二区三区| 国产精品乱码一区二区三区| 色窝窝无码一区二区三区2022|