潘梅
摘要:為幫助政府等相關部門及時掌握大眾對特定公共事件的主要情感傾向,針對基于詞向量的深度學習方法實現(xiàn)網(wǎng)民情緒識別,存在高度依賴分詞準確性、一詞多義等問題,提出基于BERT-BiLSTM的網(wǎng)民情緒識別方法。首先,基于BERT預訓練模型獲取預處理后的待識別文本詞向量;然后,利用BiLSTM提取上下文相關特征進行學習;最后,通過分類器獲得文本的情感極性,包括積極和消極兩類。通過對疫情期間網(wǎng)民情緒識別數(shù)據(jù)集實驗表明,基于BERT-BiLSTM的網(wǎng)民情緒識別模型P值為88.98%,R值為92.72%,F(xiàn)1值為90.81%,相比于LSTM和BiLSTM模型性能更優(yōu)。本識別方法可為網(wǎng)民情緒識別研究提供借鑒,識別結果可為政府決策分析和輿情引導提供參考。
關鍵詞:網(wǎng)民;情緒識別;BERT;BiLSTM
中圖分類號:TP391? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2021)18-0074-03
開放科學(資源服務)標識碼(OSID):
Emotion Recognition of Internet Users based on BERT-BiLSTM
PAN Mei
(Chengdu Normal University, Chengdu 611130, China)
Abstract: In order to help the government and other relevant departments grasp the main emotional tendencies of the public on specific public events in time, aiming at the problems of high dependence on word segmentation accuracy and polysemy in deep learning method based on word vector to realize internet users emotion recognition, this paper proposes ainternet users emotion recognition method based on BERT-BiLSTM. Firstly, the text word vector with preprocessed and to be recognized is obtained based on the BERT; secondly, the context sensitive features are extracted by the BiLSTM for learning; finally, the emotional polarity of the text, including positive and negative, is obtained through the classifier. The experiments of internet users emotion recognition data set during the epidemic period shows that the Precision is 88.98%, Recall is 92.72%, and F1 is 90.81%based on BERT-BiLSTM, which is better than LSTM and BiLSTM. The recognition method can provide reference for the research of internet users emotion recognition, and the recognition results can provide reference for government decision-making analysis and public opinion guidance.
Key words: internet users; emotion recognition; BERT; BiLSTM
1 引言
隨著互聯(lián)網(wǎng)技術和移動通信技術的高速發(fā)展,普通大眾均可便捷地在網(wǎng)絡上對公共事件發(fā)表評論和分享觀點,通過網(wǎng)絡表達對各種社會事件的情感態(tài)度。該方式可以迅速傳播和延伸至網(wǎng)絡各區(qū)域,引發(fā)公眾關注和熱議,形成網(wǎng)絡社會輿論,網(wǎng)絡輿論通常會產(chǎn)生巨大的輿論動向和影響。公共事件爆發(fā)后,政府須盡快掌握人們對該話題的關心程度和發(fā)展趨勢,有效提高其公信力和應急管理能力。如新型冠狀病毒(COVID-19)感染的肺炎疫情,迅速引發(fā)國內(nèi)和國際輿論的持續(xù)關注,眾多網(wǎng)民參與疫情相關話題討論。政府部門需要掌握公眾在該事件傳播過程中的情感狀況和社會輿論情況,科學高效地做好防控宣傳和輿情引導工作。因此,對網(wǎng)民發(fā)表的評論進行情緒識別分析,把握大眾對特定事件的主要情感傾向,是輔助政府進行決策分析和輿論引導的重要手段。本文通過對特定公共事件傳播期間網(wǎng)民情緒識別方法進行研究,為及時準確掌握網(wǎng)絡大眾情感提供參考。
網(wǎng)民情緒識別的核心是對網(wǎng)民評論的短文本進行情感分析,其主要分為基于情感詞典的方法[1]、基于傳統(tǒng)機器學習的方法[2]和基于深度學習的方法[3]?;谏疃葘W習的方法在建模、解釋、學習和表達等方面較優(yōu),但主流的深度學習分析方法大多都是基于詞向量的分類,該類模型存在高度依賴分詞準確性、一詞多義等問題。因此,本文提出基于字向量的BERT-BiLSTM深度學習模型進行網(wǎng)民情緒識別方法研究和實驗。
2 BERT-BiLSTM情緒識別模型
2.1整體設計
本文提出的基于BERT-BiLSTM的網(wǎng)民情緒識別方法主要由3部分組成:BERT預訓練、BiLSTM和情感極性判別,具體如圖1所示。
首先,將待識別分析的文本進行去停用詞、去亂碼等文本預處理;然后,基于BERT預訓練模型獲取包含上下文語義信息的文本詞向量;接著,利用BiLSTM提取上下文相關特征進行學習;最后,通過分類器進行情感極性判別獲得文本情感類別,包括積極和消極2類。該識別方法的關鍵為BERT預訓練和BiLSTM循環(huán)神經(jīng)網(wǎng)絡。
2.2 BERT預訓練
BERT(Bidirectional Encoder Representations from Transformers)是Devlin J[4]等提出的一種采用多層雙向Transformer 的自然語言處理(NLP)預訓練模型。該模型主要由輸入層、編碼層和輸出層3部分構成,如圖2所示。其中, [E1,E2,…En]為模型的輸入;[Trm]為自注意力(Self-attention)機制編碼轉(zhuǎn)換器;[T1,T2,…Tn]為模型的輸出[4]。
BERT模型采用多層雙向Transformer和Self-attention機制,其具有雙向功能;該模型聯(lián)合了兩種語義表征方法:一是掩碼語言模型(Masked LM),二是下句預測(Next Sentence Prediction)方法,通過聯(lián)合訓練實現(xiàn)了雙向LM模型預訓練。BERT預訓練模型是基于字符實現(xiàn)文本向量化,能充分利用上下文特征,不依賴分詞準確性,可有效解決一詞多義等問題。
本文經(jīng)過BRET向量化后的網(wǎng)民評論文本[X]如式(1)所示:
[X∈{x1,x2,…xn}]? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
式中,[n]為文本[X]的長度。
2.3 BiLSTM循環(huán)神經(jīng)網(wǎng)絡
雙向長短時記憶(Bi-directional Long Short-Term Memory, BiLSTM)網(wǎng)絡是Graves A[5]等提出的一種由前向LSTM(Long Short-Term Memory)和后向LSTM兩個方向疊加而成的循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN),該網(wǎng)絡可以分析到文本的上文和下文信息,有效解決LSTM僅能分析文本上文信息的單向性問題。BiLSTM網(wǎng)絡結構如圖3所示。
BiLSTM的輸入為BERT模型的詞向量[X∈{x1,x2,…xn}],F(xiàn)orward LSTM按[x1,x2,…xn]順序讀取,輸出向量集合[h1,h2,h3,…h(huán)n];Backward LSTM按[xn,…x2,x1]順序讀取,輸出向量集合[{h1,h2,h3,…h(huán)n}];其中,[hn]和[hn]分別為最后時刻前向隱層和后向隱層的特征向量。拼接[hn]和[hn]獲取文本最終的特征向量[hn],即BiLSTM輸出如式(2)所示:
[hi={hi,hi}]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (2)
式中,[i]為文本[X]的第[i]([i≤n])個詞。
3 網(wǎng)民情緒識別實驗
3.1 實驗平臺
本網(wǎng)民情緒識別方法研究所需實驗平臺為:計算機、Windows 10操作系統(tǒng)和Pycharm 2019軟件,利用Python編程語言實現(xiàn),具體參數(shù)如表1所示:
3.2 實驗數(shù)據(jù)
本網(wǎng)民情緒識別實驗數(shù)據(jù)為疫情期間網(wǎng)民情緒識別數(shù)據(jù)集[6],約100000條,分為積極、中性和消極3類。其中,積極評論(標記為1)25392條,消極評論(標記為-1)16902條。實驗首先對數(shù)據(jù)進行去無關符號等預處理操作,再將數(shù)據(jù)集按7:3的比例分成訓練集和測試集。
3.3 實驗結果與分析
為驗證本文設計的網(wǎng)民情緒識別模型的有效性,實驗選取了LSTM和BiLSTM兩種方法與BERT-BiLSTM進行對比,采用精確率P(Precision)、召回率R(Recall)和F1值三個指標來評估模型的性能。實驗結果如表2所示:
對比3種方法的實驗結果可知,相比于LSTM和BiLSTM模型,BERT-BiLSTM模型的P值、R值和F1值均有較大幅度提升:P值分別提升2.8%和2.57%,R值分別提升6.35%和6.45%,F(xiàn)1值分別提升4.54%和4.47%。由BiLSTM模型值高于LSTM模型值可知,BiLSTM模型在獲取文本上下文特征上的性能更優(yōu),能提取到更多上下文信息;由BERT-BiLSTM模型值高于BiLSTM模型值可知,BERT模型的字符向量比詞向量在獲取文本特征上的性能更優(yōu),能提取到更多文本信息??傊?,本文提出的結合BERT模型和BiLSTM模型的網(wǎng)民情緒識別方法對疫情期間網(wǎng)民情緒識別數(shù)據(jù)集有更優(yōu)的性能。
4 結束語
本文提出的BERT-BiLSTM算法模型,可以有效實現(xiàn)網(wǎng)民情緒識別。在特定公共事件傳播過程中,政府可以采用該方法及時掌握大眾的主要情感傾向,為其決策分析和輿情引導提供參考,輔助其實現(xiàn)科學化高效率辦公。同時,該情緒識別方法也可以為網(wǎng)民情緒識別分析研究提供參考。
參考文獻:
[1] 馮超,梁循,李亞平,等.基于詞向量的跨領域中文情感詞典構建方法[J].數(shù)據(jù)采集與處理,2017,32(3):579-587.
[2] 洪巍,李敏.文本情感分析方法研究綜述[J].計算機工程與科學,2019,41(4):750-757.
[3] 金志剛,胡博宏,張瑞.融合情感特征的深度學習微博情感分析[J].南開大學學報(自然科學版),2020,53(5):77-81,86.
[4] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding. arXiv: 1810.04805, 2019.
[5] Graves A, Schmidhuber J. Framewise phoneme classification with bidirectional LSTM and other neural network architectures[J]. Neural Network, 2005, 18(5): 602–610.
[6] 北京市政務數(shù)據(jù)資源網(wǎng). data.beijing.gov.cn
【通聯(lián)編輯:王力】