董慧潔 楊林楠
摘? 要:針對序列標注標簽預測空間大導致模型預測效果較差的問題,提出一種基于BERT-BiLSTM-Fusion的多方面抽取及情感分析模型。采用跨度預測的方法進行方面詞抽取與方面詞情感預測分類并聯(lián)合訓練,通過Bert預訓練語言模型得到文本嵌入表示,使用BiLSTM學習觀測序列上的依賴關(guān)系增強學習位置信息,提高模型抽取效果。對Bert預訓練語言模型的每一層輸出特征進行特征融合,提高模型的情感極性分類效果,并且在三個公開數(shù)據(jù)集Laptop、Restaurant、Twitter上設(shè)計對比實驗以及消融實驗。實驗結(jié)果顯示,BERT-BiLSTM-Fusion模型的F1值分別達到了66.72%、78.44%、62.10%,且高于對比模型,表明了所提出模型的有效性。
關(guān)鍵詞:方面抽?。磺楦蟹治?;特征融合;聯(lián)合訓練;Bert
中圖分類號:TP391? 文獻標識碼:A? 文章編號:2096-4706(2023)23-0111-05
Multi-aspect Extraction and Sentiment Analysis Based on Feature Fusion
DONG Huijie1,2, YANG Linnan1,2
(1.School of Big Data, Yunnan Agricultural University, Kunming? 650201, China;
2.Agricultural Big Data Engineering Technology Research Center of Yunnan Province, Kunming? 650201, China)
Abstract: Aiming at the problem that the prediction effect of the model is poor due to the large prediction space of the sequence annotation label, a multi-aspect extraction and sentiment analysis model based on Bert_Bilstm_Fusion is proposed. The method of span prediction is used for joint training of aspect words extraction and aspect words sentiment prediction and classification. The text embedding representation is obtained by using the Bert pre-trained language model. It uses the dependency relationship on the Bilstm learning observation sequence to enhance the learning position information to improve the model extraction effect. It conducts the feature fusion of output features of each layer for the Bert pre-trained language model, improves the sentiment polarity classification effect of the model, and designs comparison experiments and ablation experiments on three public data sets Laptop, Restaurant and Twitter. The experimental results show that the F1 values of the Bert_Bilstm_Fusion model reach 66.72%, 78.44% and 62.10%, respectively, which are higher than those of the comparison model, indicating the effectiveness of the proposed model.
Keywords: aspect extraction; sentiment analysis; feature fusion; joint training; Bert
0? 引? 言
現(xiàn)實場景中,不僅僅需要模型自動化識別文檔或句子整體的情感傾向,同時也需要挖掘句子中具體方面的評價對象以及其所對應的情感傾向,從文本中獲取更加細致的信息[1,2],該任務(wù)即方面抽取及情感分析。其模型方法從機器學習方法逐漸向深度學習發(fā)展,近幾年,基于預訓練語言模型的方法取得了更好的結(jié)果[3,4]。文獻[5]的模型在給定方面詞任務(wù)上表現(xiàn)良好,其中輸入為方面詞和文本句子,是一個分類任務(wù),本文所研究方面抽取及情感分析任務(wù)是抽取加分類的任務(wù),要從文本中自動識別和提取描述特定屬性的方面詞片段[6]。文獻[7]提出一種多任務(wù)的方面抽取與情感分析模型,只能處理文本中只含有一個方面詞的情況。研究中使用的BIOES與情感組合標簽,使模型預測搜索空間大,且會出現(xiàn)同一方面詞中情感標簽不一致現(xiàn)象[8-10],從而導致模型效果較差。針對上述問題,本文構(gòu)建BERT-BiLSTM-Fusion模型進行改進。
1? 總體模型結(jié)構(gòu)
所提出模型BERT-BiLSTM-Fusion主要由嵌入表示層、動態(tài)融合層、位置信息增強層和匹配算法組成,其結(jié)構(gòu)如圖1所示。
1.1? 嵌入表示層
BERT [11](Bidirectional Encoder Representation from Transformers)由多層的雙向Transformer編碼器[12]組成,其結(jié)構(gòu)如圖2所示。Transformer編碼器結(jié)構(gòu),主要包括多頭自注意力層和前饋神經(jīng)網(wǎng)絡(luò)兩部分,如式(1)(2)(3)(4)所示。在大規(guī)模語料上,對Bert進行預訓練,應用到具體任務(wù)中時,精調(diào)參數(shù)獲得輸入文本的語義向量表示。本文通過Bert將輸入文本編碼成向量表示,選擇12層的編碼器,輸入包括原始文本包括兩個特殊符號[CLS]、[SEP],字嵌入(Token embedding)就是對所有輸入詞匯根據(jù)詞表映射成相應的向量表示,段嵌入(Segment embedding)是區(qū)別句子是否為同一段,位置嵌入(Position embedding)首先初始化位置信息而后讓模型學習位置信息表示,將三個嵌入相加得到Bert的輸入向量表示h0,將其輸入到模型中得到每一層的hi。
其中,W均表示可訓練的參數(shù)矩陣,b表示偏置項。
經(jīng)過每一層Transformer模塊時的輸出如式(5)所示,L = 12:
1.2? 特征融合層
本文選取的Bert模型共有12層,一般使用CLS向量表示進行下游任務(wù)的文本分類,或者使用BERT最后一層輸出作為其最終輸出。文獻[13]對BERT結(jié)構(gòu)探究發(fā)現(xiàn)隨著層數(shù)的增加,模型獲得短語(span)信息能力受到限制。底層網(wǎng)絡(luò)主要學習表層特征,中間層網(wǎng)絡(luò)則更多的關(guān)注句法信息特征,而高層網(wǎng)絡(luò)則主要學習語義信息特征。因此,本文選擇將BERT不同層特征進行動態(tài)融合,獲取不同層面的文本特征信息,以增強模型效果。
獲取每一層transformer模塊輸出的相應特征hi,hi后接全連接層將特征768維度映射成1維ki,將每一層的輸出特征在最后一個維度上做拼接操作,接著得到的結(jié)果輸入到Softmax函數(shù)中,獲取每一層的輸出特征對應的權(quán)重lg。通過將每一層的輸出hi在第三維度進行拼接得到融合后的特征,與對應的權(quán)重張量相乘得到最終動態(tài)融合結(jié)果。計算過程如式(6)(7)(8)所示:
其中dense表示全連接層,cat表示張量拼接。
1.3? 位置信息增強層
由于下游任務(wù)需要提取方面詞的首尾位置,因此,位置信息對于模型十分重要,考慮到文本在經(jīng)過BERT一系列的注意力層之后會弱化位置的信息,本文通過雙向長短時記憶網(wǎng)絡(luò)(Bidirectional Long Short Term Memory Network, BiLSTM)來訓練觀測序列上的位置依賴信息。長短時記憶網(wǎng)絡(luò)主要由三個門控單元和一個記憶管道ct組成,每個單元的輸入包括兩個狀態(tài),即當前單元的序列狀態(tài)和隱藏狀態(tài)。通過輸入門、遺忘門和輸出門三種門控機制控制對輸入信號的存儲、利用和丟棄。輸入門it決定當前時刻記憶管道ct的信息保留多少,遺忘門ft確定在前一步ct-1中需要保留哪些信息,輸出門ot用于輸出當前時刻存儲單元內(nèi)部的狀態(tài)信息百分比,以確定下一個隱藏狀態(tài)的值,計算公式為:
單向長短時記憶網(wǎng)絡(luò)從左到右處理輸入序列,只能捕獲序列的上文依賴信息,而雙向的網(wǎng)絡(luò)可以同時捕捉下文依賴信息,更進一步促進模型建模上下文關(guān)系的能力。將動態(tài)特征融合的結(jié)果輸入到雙向長短時記憶網(wǎng)絡(luò)中,計算過程為:
其中N表示文本句子長度,ei表示動態(tài)特征融合中第i個字符的特征表示, 和? 表示正向和反向的輸出。
1.4? 匹配算法
通過全連接層將位置信息增強層后獲得的輸出狀態(tài)Li映射成Star向量gs和end向量ge,公式為:
Ws和We表示可訓練參數(shù)矩陣。
在解碼的過程中使用文獻[8]的多跨度解碼算法將gs和ge作為開始位置和結(jié)束位置的得分概率向量,從中選取K個概率最大的位置,而后對得到的位置進行篩選將不符合條件的進行剔除,得到抽取部分的結(jié)果。
1.5? 解碼分類層
通過匹配算法得到方面詞開始位置和結(jié)束位置索引之后,根據(jù)得到的索引從特征融合的輸出中取出對應跨度的向量表示。為了對齊同一批次中的方面詞的寬度,選取同一批次中最大的寬度作為跨度表示的統(tǒng)一寬度進行,針對小于最大寬度的跨度表示進行填充,同時采取掩碼策略掩蓋掉無效的內(nèi)容,得到最終的方面詞跨度編碼表示si,分類的計算過程如下:
其中,tanh表示激活函數(shù),classify表示使用全連接層進行三分類映射。
模型訓練過程中方面詞首尾指針抽取部分采用負對數(shù)似然損失函數(shù),情感極性分類使用交叉熵損失函數(shù),最后,將兩者損失相加進行整體模型的聯(lián)合訓練。
2? 方法實現(xiàn)
2.1? 數(shù)據(jù)集與評價指標
將模型在三個公開領(lǐng)域的英文評論數(shù)據(jù)集Laptop、Restaurant、Twitter進行實驗。首先對數(shù)據(jù)集的總數(shù)與標簽總數(shù)進行分析如圖3所示,通過分析圖3中數(shù)據(jù)可知最長的方面詞跨度值為6,如圖4所示。因此,將匹配算法中抽取的最大的Span長度設(shè)為該值。
分析數(shù)據(jù)發(fā)現(xiàn)數(shù)據(jù)類別標簽存在不均衡現(xiàn)象,因此,本文采用精確率(Precision)、召回率(Recall)和F1值評估模型的性能表現(xiàn),計算公式如下:
2.2? 實驗參數(shù)設(shè)置
實驗使用Linux環(huán)境下的Ubuntu系統(tǒng)顯卡為英偉達3090 Ti,CUDA版本為11.0,神經(jīng)網(wǎng)絡(luò)模型使用PyTorch框架構(gòu)建,版本為1.7.1,對應的python版本為3.8。實驗過程中涉及的靜態(tài)詞向量使用的是Glove 300維的詞向量,使用transformers框架加載預訓練語言模型的權(quán)重參數(shù),模型的超參數(shù)設(shè)置如表1所示。
2.3? 對比實驗
實驗過程中使用huggingface transformers框架[14]載入預訓練語言模型參數(shù),非預訓練語言模型采用Glove靜態(tài)詞向量初始化嵌入表示,選取經(jīng)典模型LSTM-CRF、LM-LSTM-CRF[15]、LSTM-TBSA[16]、BERT-GRU、BERT-CRF[17]和Span-Joint[8]結(jié)果對比,其中/左邊表示原論文的結(jié)果數(shù)據(jù),/右邊表示重新實驗的結(jié)果,-表示原論文中并未實驗。由表2可知,在Laptop數(shù)據(jù)集上可以得出本文的BERT-BiLSTM-Fusion模型相較于對比模型在F1值上分別提升了12.48%、10.53%、12.94%、5.81%、7.26%、1.74%。
分析表3可以得出在Restaurant數(shù)據(jù)集上本文的BERT-BiLSTM-Fusion模型相較于對比模型在F1值上分別提升了12.24%、12.26%、14.79%、5.48%、4.29%、1.83%。
Twitter數(shù)據(jù)集實驗結(jié)果表4中本文的BERT-BiLSTM-Fusion模型相較于對比模型在F1值上分別提升了14.58%、14.75%、13.1%、2.08%、3.59%、5.28%。
綜上,本文的BERT-BiLSTM-Fusion模型在三個數(shù)據(jù)集上的F1評價指標均比對比模型有較好的表現(xiàn)效果,達到相對較好的泛化能力,且相比于不含有預訓練語言模型的深度學習網(wǎng)絡(luò),本文的模型有較大幅度的提升,反映出了預訓練語言模型的優(yōu)勢,同時LSTM-CRF、LM-LSTM-CRF、LSTM-TBSA、BERT-GRU、BERT-CRF使用的是序列標注的方式解碼預測的是BIOES標簽,而Span-joint與本文Bert-BiLSTM-Fusion模型使用的是指針標注方式預測的是首尾指針,從結(jié)果上來看使用首尾指針的方式效果較好一定程度上緩解了BIOES解碼空間大導致的模型效果不佳的問題。
2.4? 消融實驗
為了驗證模型中模塊的有效型,選取Bert-Span作為基線模型,針對模型整體在twitter數(shù)據(jù)集上設(shè)計消融實驗,實驗結(jié)果如表5所示。分析表5可以得出BERT-BiLSTM-Fusion模型在去掉特征融合Fusion模塊的情況下F1指標下降了1.75%,在去掉位置信息增強BiLSTM模塊的情況下F1指標下降了0.91%,模型性能呈下降的趨勢,這表明了所提出模塊的有效性,同時可以看出特征融合模塊對模型的影響較大,側(cè)面反映了充分提取特征的重要性。相比基線模型,BERT-BiLSTM-Fusion模型的F1指標提升了1.79%,這也表明了本文所提模型針對多方面抽取及情感分析任務(wù)是有效的。
3? 結(jié)? 論
本文圍繞方面抽取與情感分析任務(wù)進行建模研究,并且提出了基于BERT-BiLSTM-Fusion的多方面抽取及情感分析模型。使用動態(tài)融合的方法加強預訓練語言模型的多層次特征提取能力,同時使用雙向長短時記憶網(wǎng)絡(luò)訓練序列間依賴關(guān)系,為模型注入位置信息,使用跨度匹配預測的方式實現(xiàn)多方面詞抽取。在三個領(lǐng)域的評論數(shù)據(jù)集上進行實驗,實驗結(jié)果證明了BERT-BiLSTM-Fusion模型在方面詞抽取與情感分析任務(wù)上有效,且比對比模型的表現(xiàn)效果好,為該任務(wù)提供了模型參考。在接下來研究中將考慮引入語法信息進一步提高模型抽取和分類的正確率,并且嘗試將模型嵌入到農(nóng)產(chǎn)品電子商務(wù)系統(tǒng)中。
參考文獻:
[1] 王璐,馬宏偉,呂歡歡.方面級文本情感分析綜述 [J].計算機應用,2022,42(S2):1-9.
[2] 譚翠萍.文本細粒度情感分析研究綜述 [J].大學圖書館學報,2022,40(4):85-99+119.
[3] 劉培玉,盧強,張殿元,等.基于深度學習的方面級情感分析方法研究進展 [J].山東師范大學學報:自然科學版,2022,37(1):10-21.
[4] ZHANG W,LI X,DENG Y,et al. A Survey on Aspect-Based Sentiment Analysis:Tasks,Methods,and Challenges [J].IEEE Transactions on Knowledge & Data Engineering,2022 ,35(11):11019-11038.
[5] XU H,LIU B,SHU L,et al. BERT Post-Training for Review Reading Comprehension and Aspect-based Sentiment Analysis[C]//Proceedings of NAACL-HLT.Minneapolis:ACL,2019:2324-2335.
[6] 徐慶婷,洪宇,潘雨晨,等.屬性抽取研究綜述 [J].軟件學報,2023,34(2):690-711.
[7] YANG H,ZENG B,YANG J H,et al. A multi-task learning model for chinese-oriented aspect polarity classification and aspect term extraction [J].Neurocomputing,2021,419:344-356.
[8] HU M,PENG Y,HUANG Z,et al. Open-Domain Targeted Sentiment Analysis via Span-Based Extraction and Classification [C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.Florence:ACL,2019:537-546.
[9] LV Y,WEI F,ZHENG Y,et al. A span-based model for aspect terms extraction and aspect sentiment classification [J].Neural Computing and Applications,2021,33:3769-3779.
[10] ZHOU Y,HUANG L,GUO T,et al. A Span-based Joint Model for Opinion Target Extraction and Target Sentiment Classification [C]//Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence Main track.Macao:IJCAI,2019:5485-5491.
[11] DEVLIN J,CHANG M W,LEE K,et al. Bert:Pre-training of deep bidirectional transformers for language understanding [J/OL].arXiv:1810.04805 [cs.CL].(2018-10-11).https://doi.org/10.48550/arXiv.1810.04805.
[12] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need [C]//NIPS'17:Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook:Curran Associates Inc,2017:6000-6010.
[13] JAWAHAR G,SAGOT B,SEDDAH D. What does BERT learn about the structure of language? [C]//ACL 2019-57th Annual Meeting of the Association for Computational Linguistics.Florence:ACL,2019:3651-3657.
[14] WOLF T,DEBUT L,SANH V,et al. Huggingface's transformers:State-of-the-art natural language processing [J].arXiv:1910.03771 [cs.CL].(2019-10-09).https://arxiv.org/abs/1910.03771.
[15] LIU L Y,SHANG J B,REN X,et al. Empower sequence labeling with task-aware neural language model [C]//Proceedings of the 32nd AAAI Conference on Artificial Intelligence.Menlo Park:AAAI,2018:5253-5260.
[16] LI X,BING L,LI P,et al. A unified model for opinion target extraction and target sentiment prediction [C]//Proceedings of the AAAI conference on artificial intelligence.Honolulu:AAAI,2019:6714-6721.
[17] LI X,BING L,ZHANG W,et al. Exploiting BERT for End-to-End Aspect-based Sentiment Analysis [C]//Proceedings of the 5th Workshop on Noisy User-generated Text (W-NUT 2019).Hong Kong:ACL,2019:34-41.
作者簡介:董慧潔(1998—),女,漢族,河南周口人,碩士研究生在讀,研究方向:自然語言處理;通迅作者:楊林楠(1964—),男,漢族,云南保山人,教授,博士,研究方向:農(nóng)業(yè)信息化。