亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于BERT與BiLSTM混合方法的網(wǎng)絡(luò)輿情非平衡文本情感分析*

2022-04-28 08:58:52顧鳳云

情報(bào)雜志 2022年4期

劉繼顧鳳云

(新疆財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)學(xué)院烏魯木齊 830012)

隨著大數(shù)據(jù)時(shí)代的來臨，不同用戶通過社交媒體平臺(tái)(如微博、論壇等)產(chǎn)生了海量的情緒化數(shù)據(jù)，而輿情文本情感分析發(fā)揮著非同小可的作用。目前，文本情感分析作為突發(fā)公共事件管理與控制的重要范疇，通過識(shí)別輿情文本情感傾向，由此發(fā)掘出網(wǎng)民產(chǎn)生情感極性的原因。網(wǎng)民情緒的表達(dá)會(huì)影響輿論傳播的廣度及其深度，若負(fù)面情緒快速傳播則不利于事件解決，還會(huì)惡化事態(tài)的發(fā)展形勢(shì)。因此，在重大突發(fā)事件管理中，輿情文本情感分析對(duì)輿情預(yù)警、有效引導(dǎo)及良性發(fā)展具有重大的意義[1]。

1 相關(guān)研究

情感分析是對(duì)主觀性文本中的情感和態(tài)度進(jìn)行分類，主要方法為機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法。從機(jī)器學(xué)習(xí)的視角出發(fā)，基于機(jī)器學(xué)習(xí)[2]的文本傾向性分析方法需要使用語料庫，訓(xùn)練分類模型。如朱軍等人[3]對(duì)文本數(shù)據(jù)使用詞袋模型進(jìn)行分類，考慮Word2Vec建立新的詞向量；在集成算法樸素貝葉斯與SVM[2]中，精準(zhǔn)率和召回率都有所提升。在文本分類上神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)取得顯著成效，利用搭建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，構(gòu)成不同的神經(jīng)網(wǎng)絡(luò)算法如CNN、雙向LSTM、文本CNN等。Y.Kim[4]最早提出將CNN應(yīng)用于文本的傾向性分析，并得到較好的效果；在Y.Kim分析的基礎(chǔ)上，Conneau等人[5]采用了深度卷積網(wǎng)絡(luò)方法提出VDCNN模型。隨后預(yù)訓(xùn)練模型開始興起，在NLP領(lǐng)域有了重大突破；Vaswani等人[6]提出的BERT模型在評(píng)價(jià)指標(biāo)中得到更好的提升。Devlin等人[7]主要介紹BERT模型的實(shí)際價(jià)值，并在11個(gè)自然語言處理任務(wù)上獲得了較好的研究成果。段丹丹[8]用BERT模型對(duì)正負(fù)平衡的短文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練，用特征向量來表示語言模型，隨后將獲得的特征向量輸入Softmax進(jìn)行分類，利用F1值作為評(píng)價(jià)指標(biāo)。李可悅等[9]采用BERT模型的預(yù)訓(xùn)練完成單條文本的特征向量表示,隨后有區(qū)別性地將特征向量輸入分類器,采用電商文本的樣本進(jìn)行算法驗(yàn)證。宋明等[10]通過爬蟲獲得微博非平衡文本數(shù)據(jù)，將BERT模型的損失函數(shù)換為Focal Loss進(jìn)行情感分析；分類結(jié)果在準(zhǔn)確性上進(jìn)行驗(yàn)證，中性偏高但是負(fù)向偏低。

由于單模型的局限性，研究者開始探索混合模型。國顯達(dá)等人[11]利用混合CNN與雙向LSTM做文本情感分析，通過比較得出CNN與雙向LSTM[12]模型的優(yōu)越性。諶志群等[13]對(duì)文獻(xiàn)[12]進(jìn)一步優(yōu)化，將BERT與雙向LSTM結(jié)合優(yōu)于CNN與雙向LSTM，采用平衡數(shù)據(jù)得到較好的評(píng)測(cè)效果。Cai等[14]對(duì)網(wǎng)民的情緒取向利用統(tǒng)計(jì)方法進(jìn)行分類，然后使用BERT與BiLSTM的雙向編碼組合的預(yù)測(cè)方法，對(duì)用戶所表達(dá)的情緒傾向進(jìn)行建模和預(yù)測(cè)。趙亞歐等[15]對(duì)不同類別的平衡樣本利用ELMo和Transformer的混合模型進(jìn)行情感分類，在評(píng)價(jià)指標(biāo)上得到了提升。莊穆妮等[16]主要采用LDA主題模型與BERT模型，通過改進(jìn)BERT預(yù)訓(xùn)練任務(wù)與詞向量深度融合的方式，多次累加深度預(yù)訓(xùn)練任務(wù)進(jìn)而提高模型在情感分類中的精確度。

上述研究中樣本數(shù)據(jù)基本屬于正負(fù)平衡數(shù)據(jù)，但在實(shí)際爬取的文本數(shù)據(jù)中很少出現(xiàn)正負(fù)數(shù)據(jù)平衡的情況。非平衡文本數(shù)據(jù)會(huì)出現(xiàn)評(píng)測(cè)失衡的問題，小樣本數(shù)據(jù)易出現(xiàn)過擬合問題，基于此,本文提出了M2BERT-BiLSTM模型進(jìn)行情感分析，對(duì)輿情非平衡文本進(jìn)行有效分析。

2M2BERT-BiLSTM模型構(gòu)建

BERT[6]是從Transformer中衍生出來的預(yù)訓(xùn)練模型，可將其沿用至自然語言處理任務(wù)。Transformer是Google Brain中Ashish Vaswani等在Attention Is All You Need[6]中所提出的sequence2sequence模型，應(yīng)用方式主要是先進(jìn)行預(yù)訓(xùn)練語言模型，然后適當(dāng)?shù)胤峙浣o下游任務(wù)如分類、標(biāo)記等。

由于BERT是從Transformer中衍生的模型，Transformers模型包括encoder和decoder。此處主要說明encoder部分，考慮摒棄時(shí)間循環(huán)結(jié)構(gòu)，主要依賴位置編碼來輔助建模。

圖1Transformer模型結(jié)構(gòu)編碼器部分

圖1為Transformer模型的編碼器部分。第1部分Transformer模型中沒有使用序列的順序信息，“位置編碼”提供每個(gè)字的位置信息給Transformer, 才能識(shí)別出語言中的順序關(guān)系。第2部分多頭自注意力機(jī)制實(shí)際上是由h個(gè)self-attention并行組成。輸入為Tembedding經(jīng)過線性變換得到Q、K、V(Q = linear_q(Tembedding)、K = linear_k(Tembedding)、V = linear_v(Tembedding))后同時(shí)經(jīng)過h次的放縮點(diǎn)積attention，得到多頭信息。將(1)式結(jié)果進(jìn)行拼接，再通過線性變換得到的值作為多頭attention的輸出。

(1)

MultiHead(Q,K,V)=Concat(head1,…，headh)Wo

(2)

第3部分殘差連接，即在上步中注意力機(jī)制進(jìn)行轉(zhuǎn)置使其維度與Tembedding一致，將兩者相加的作用是隱藏層可歸一為標(biāo)準(zhǔn)正態(tài)分布。在反向傳播時(shí)，為避免構(gòu)建BERT模型層次太深或出現(xiàn)梯度消失等問題，訓(xùn)練時(shí)常用的方法為殘差連接。

Thidden=Activate(Linear(Linear(Tattention)))

(3)

第4部分前向傳播，即為兩層線性映射并用激活函數(shù)。

BERT模型應(yīng)用方式主要是先進(jìn)行預(yù)訓(xùn)練語言模型，然后適當(dāng)?shù)嘏浣o下游任務(wù)如分類、標(biāo)記等(見圖2)。BERT模型通過兩種無監(jiān)督方法相結(jié)合進(jìn)行預(yù)訓(xùn)練；Masked LM主要為隨機(jī)遮蓋或替換單條文本里面任意字或詞，模型通過對(duì)剩余詞匯的理解，預(yù)測(cè)出被遮蓋或替換的詞。具體為以下內(nèi)容:

圖2 語言模型任務(wù)

a. 80%被替換成[mask]; 例如我喜歡小貓?！蚁矚g小[mask]。

b. 10%被替換成任意其他token;例如我喜歡小貓?！蚁矚g小米。

c. 10%原封不動(dòng).例如我喜歡小貓—我喜歡小貓。

另一種無監(jiān)督方法為Next Sentence Prediction。句子以[CLS]開始, 在兩句話之間和句末加[SEP], 此目的是讓模型理解兩個(gè)句子之間的聯(lián)系。訓(xùn)練輸入句子A和B，模型預(yù)測(cè)A的下句是不是為B。

輸入文本數(shù)據(jù)的第一個(gè)標(biāo)記都是[CLS]，對(duì)應(yīng)的是 Transformer 的輸出，是用來表示整個(gè)句子的，可用于下游的分類任務(wù)。

原模型(圖3)隱藏層的計(jì)算結(jié)果里只要取出C(維度是Thidden∈R[batch size,sequence length,embedding dimension])進(jìn)行混合模型的計(jì)算。現(xiàn)沿著sequence length的維度分別求Maxpooling、Meanpooling、M2pooling。M2pooling即均值與最大池化進(jìn)行鏈接(兩者鏈接是將兩者前后鏈接)，Meanpooling即沿著句子長度維度只求均值，Maxpooling沿著句子長度維度只求最大值。均值池化會(huì)將大多數(shù)總體信息特征均等處理；最大值池化獲取的特征較稀疏，但會(huì)保留極化特征；均值與最大池化拼接會(huì)在保留多數(shù)總體信息特征的基礎(chǔ)上突出極化特征。

(4)

(5)

M2pooling=concatenate(Meanpooling&Maxpooling)

(6)

圖3M2BERT-BiLSTM模型

其中N表示embedding dimension維度； Thidden(1)表示Thidden中sequence length維度位置為1；M2pooling∈R[batch size ,embedding dimension*2]；均值與最大池化拼接的方法就相當(dāng)于DOC2VEC的方法，將單條評(píng)論轉(zhuǎn)換成一條向量,轉(zhuǎn)換出向量的維度是一致的。因此通過gt作為BiLSTM的輸入，表示如下：

gt=S1(Wg*Mt+bg)

(7)

其中t={1,2,…，Y},Wg(矩陣調(diào)整成與級(jí)聯(lián)后的維度相同)Wg∈Rdg*Y，bg為gt的偏置，Mt為最大值與均值拼接后的特征向量，S1為激活函數(shù)Sigmoid函數(shù)。

輸入向量后需進(jìn)到隱含層中，由于BiLSTM模型的隱含層分為向前隱含層與向后隱含層。向前隱含層h↑是通過t時(shí)刻從正向計(jì)算，而向后隱含層h↓是從反向計(jì)算，計(jì)算如下：

(8)

(9)

隱含層在t時(shí)刻輸出的向量為Vt，計(jì)算如下：

Vt=ht↑⊕ht↓

(10)

將進(jìn)行隱含層ht↑與隱含層ht↓連接組合成特征向量H, 全連接層使用ReLU作為激活函數(shù),利用特征向量H的輸出作為輸出層，并采用Softmax函數(shù)進(jìn)行分類。

本文采用M2BERT-BiLSTM方法構(gòu)建模型，預(yù)測(cè)微博評(píng)論的情緒傾向。M2BERT作為上游部分，BiLSTM作為下游部分；混合模型不是簡(jiǎn)單的權(quán)值組合模型，計(jì)算復(fù)雜度有所增加，但計(jì)算的準(zhǔn)確性上升。M2BERT具有學(xué)習(xí)附近單詞統(tǒng)計(jì)特征的能力，而BiLSTM具有學(xué)習(xí)上下文信息的能力，這符合人類語言系統(tǒng)的邏輯。

3 “新型冠狀病毒肺炎”微博數(shù)據(jù)的測(cè)試分析

3.1數(shù)據(jù)選取本文使用VG瀏覽器以“新型冠狀病毒肺炎”為關(guān)鍵詞采集有關(guān)話題的內(nèi)容，總共采集微博13 077條數(shù)據(jù)，內(nèi)容為用戶名、正文、UID、評(píng)論內(nèi)容、bid。數(shù)據(jù)未帶傾向性的標(biāo)注，但要確保數(shù)據(jù)有效性，首先對(duì)文本內(nèi)容進(jìn)行SnowNLP(自然語言處理)分類，再進(jìn)行人工標(biāo)注(標(biāo)注分為正向、中性、負(fù)向三類)。通過人工與機(jī)器算法的對(duì)比分析，進(jìn)一步調(diào)整得出較為準(zhǔn)確的正負(fù)語料。鑒于本文只研究情感二分類(即正向與負(fù)向)，正向評(píng)論以1表示，負(fù)向評(píng)論以0表示。選取數(shù)據(jù)集80%作為訓(xùn)練集，20%作為測(cè)試集(見表1)。

表1 微博的評(píng)論數(shù)據(jù)集合

3.2參數(shù)設(shè)置在易用性與速度方面，PyTorch較優(yōu)，因此本文模型利用PyTorch搭建。通常采用CPU，特殊樣本可以通過GPU加速。BERT模型中的動(dòng)態(tài)學(xué)習(xí)率和提前終止(early stop)可以確定參數(shù)Num_epochs和Learning_rate。設(shè)置Num_epochs =7表明本文模型進(jìn)行了7期訓(xùn)練；主要是根據(jù)記錄Num_epochs的AUC，如果當(dāng)前的AUC比上一個(gè)epoch沒有提升，則降低當(dāng)前的學(xué)習(xí)率，該測(cè)試中的AUC在7個(gè)epoch都沒有提升，即停止訓(xùn)練；則模型的學(xué)習(xí)率為5e-5。Batch表示每次輸入模型中訓(xùn)練的部分?jǐn)?shù)據(jù)，Batch_size為每個(gè)Batch中訓(xùn)練樣本的數(shù)量。Batch_size可以設(shè)置為16、32、64、128、256等，Batch_size=16、32、64的時(shí)候迭代次數(shù)增加，但訓(xùn)練速度過慢；Batch_size越大越能夠表現(xiàn)出全體數(shù)據(jù)的特征，確定的梯度下降方向越準(zhǔn)確；在設(shè)置為256的時(shí)候迭代次數(shù)減少，但造成參數(shù)修正緩慢；則Batch_size設(shè)置為128。Pad_size表示短評(píng)論文本進(jìn)行填補(bǔ)，長評(píng)論文本進(jìn)行切分處理；微博評(píng)論文本屬于短文本，因此將每條評(píng)論處理長度為20。在BERT[6]模型中Hidden_size設(shè)置為768，它表示模型隱藏層神經(jīng)元數(shù)，在混合模型中沒有改變，將Hidden_size設(shè)置為768(見表2)。

表2 參數(shù)設(shè)置

3.3結(jié)果分析本文從準(zhǔn)確率(Precision_score)、召回率(Recall_score)、F1(F1-score)三個(gè)方面作為評(píng)價(jià)指標(biāo)。Precision是判別模型對(duì)負(fù)樣本的區(qū)分能力；Recall體現(xiàn)模型對(duì)正樣本的識(shí)別能力；只有當(dāng)精確率與召回率的數(shù)值同為1時(shí)F1值達(dá)到最大。若正負(fù)數(shù)據(jù)集為非平衡文本，在計(jì)算精確率與召回率時(shí)會(huì)出現(xiàn)差距。F1-score結(jié)合Precision與Recall兩個(gè)評(píng)價(jià)指標(biāo)可以更加全面的反映分類性能。F1值評(píng)估分類器性能時(shí)，分類器的性能越好F1值越接近于1，因此作為本文衡量實(shí)驗(yàn)效果主要評(píng)價(jià)指標(biāo)。

①W2V-SVM：使用Jieba進(jìn)行分詞并將數(shù)據(jù)轉(zhuǎn)換成list in list形式，初始化word2vec模型和詞表，各個(gè)詞向量用平均的方式生成整句對(duì)應(yīng)的向量。用矩陣生成建模，用轉(zhuǎn)換后的矩陣擬合SVM模型，對(duì)評(píng)論進(jìn)行模型訓(xùn)練。

②W2V-Logistic：以上方法擬合Logistic模型，對(duì)評(píng)論進(jìn)行模型訓(xùn)練。

③LSTM：將文本語料貼上標(biāo)簽并分詞，統(tǒng)計(jì)詞出現(xiàn)次數(shù)調(diào)用Keras中LSTM，計(jì)算預(yù)測(cè)值進(jìn)行評(píng)價(jià)。

④W2V-TextCNN：將句子進(jìn)行切分,去掉停用詞與標(biāo)點(diǎn)符號(hào)。Embedding層調(diào)用google開發(fā)的Word2Vec方法將文本向量映射為數(shù)字向量；經(jīng)過一維卷積層與最大池化層，最后接一層全連接的softmax層輸出每個(gè)類別的概率。

⑤BiLSTM：定義超參數(shù)大小，定義兩層雙向LSTM的模型結(jié)構(gòu)，最后使用全連接層在經(jīng)過softmax輸出結(jié)果。

⑥BERT：數(shù)據(jù)預(yù)處理是中文數(shù)據(jù)集，所以使用預(yù)處理模型BERT-base，參數(shù)為原始參數(shù)，利用預(yù)訓(xùn)練文本特征后輸入BERT模型分類。

⑦M(jìn)ean-BERT: 從BERT模型隱藏層輸出的T沿著sequence length維度的序列使用、即均值池化

⑧Max-BERT:隱藏層輸出的T沿著sequence length維度使用即最大池化。

⑨M2BERT:對(duì)從隱藏層輸出的T沿著sequence length維度使用即均值與最大池化進(jìn)行拼接。

⑩M2BERT-BiLSTM:最大與均值池化的拼接后輸入到BiLSTM的模型中。

在BERT模型中數(shù)據(jù)集要shuffle，為防止過擬合加入dropout機(jī)制、L2正則等。

從以上整體結(jié)果分析，非平衡文本數(shù)據(jù)的問題導(dǎo)致整體的分類效果偏向于對(duì)負(fù)樣本的區(qū)分；由于數(shù)據(jù)特殊性負(fù)面情緒比較明顯，正面情緒比較中性化則在判別的過程中出現(xiàn)了明顯區(qū)分。比較BERT與W2V-SVM模型的準(zhǔn)確率，W2V-SVM模型達(dá)到80.46%，與BERT模型僅差1.67%，說明在評(píng)價(jià)指標(biāo)準(zhǔn)確率上兩者的差距??；但是在召回率相差9.02%。W2V-Logistic在準(zhǔn)確率與召回率相對(duì)穩(wěn)定，但F1值比BERT模型低4.04%。LSTM與BiLSTM兩者相比，BiLSTM模型各項(xiàng)指標(biāo)均有不同程度的提升，說明前后兩個(gè)方向獲取文本信息將會(huì)更有優(yōu)勢(shì)，BiLSTM學(xué)習(xí)能力比單向的LSTM強(qiáng)。雙向LSTM模型雖然考慮了前后文本信息，但神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力加上詞向量的組合會(huì)更好一些；相比于BERT模型，W2V-TextCNN模型的F1值相差0.79%(見表3)。

表3 基本模型結(jié)果比較

Mean-BERT的測(cè)試結(jié)果受到樣本的影響，本文通過篩選出語義不明確的樣本進(jìn)行測(cè)試，評(píng)價(jià)結(jié)果中Precision與Recall的得分相差較大；語義不明確的樣本信息特征均等處理，導(dǎo)致極化特征未凸顯，在非平衡文本數(shù)據(jù)的情況下忽略特征的情感含義造成模型難以識(shí)別計(jì)劃特征。從以上結(jié)果來看，Max-BERT模型提取出極化特征，但小樣本只將關(guān)鍵詞信息提取出來會(huì)使得文本信息大量丟失；評(píng)價(jià)指標(biāo)F1值達(dá)到79.88%，比BERT模型降低了0.52%，說明此模型比BERT略差。均值與最大化拼接不僅考慮當(dāng)前文本極化特征，而且不會(huì)丟失大部分文本信息，BERT模型與此模型F1值相差0.13%；F1值相比于均值池化與最大值池化有所提高(見表4)。在圖4中，根據(jù)AUC做出比較并選擇較優(yōu)模型進(jìn)行集成處理。M2BERT-BiLSTM模型不僅在F1值上有較高的提升，并且在評(píng)判正負(fù)樣本分類的結(jié)果上也沒有太大的差距。在可控范圍之內(nèi)達(dá)到較優(yōu)的效果，在非平衡文本數(shù)據(jù)的情況下選擇M2BERT-BiLSTM模型進(jìn)行情感分類。

表4BERT改進(jìn)模型結(jié)果比較

圖4 不同模型的AUC比較

圖4為BERT和M2BERT-BiLSTM模型訓(xùn)練集與測(cè)試集的AUC值比較。根據(jù)圖4可以分析出從epoch1到epoch5的過程中，M2BERT-BiLSTM模型訓(xùn)練集與測(cè)試集的AUC差距從12.55%逐漸縮小至1.07%；而相比于M2BERT-BiLSTM模型，BERT模型訓(xùn)練集與測(cè)試集的效果較差。因此在準(zhǔn)確性上M2BERT-BiLSTM模型比BERT模型有較好的效果。

4 “新型冠狀病毒肺炎”事件的文本情感詞網(wǎng)分析

通過M2BERT-BiLSTM模型對(duì)“新型冠狀病毒肺炎”事件的文本數(shù)據(jù)進(jìn)行分類，分類后得到的正負(fù)向文本進(jìn)行詞網(wǎng)分析。為增強(qiáng)正向與負(fù)向的特征詞顯示度，提取出每行評(píng)論文本特征詞后刪除事件名稱(新型冠狀病毒肺炎等)，然后利用Gephi軟件進(jìn)行繪圖。情感特征詞網(wǎng)可以更加直觀地反映出原文本語料的內(nèi)容，例如：“武漢”與“醫(yī)護(hù)”分開時(shí)，在不同的語境中表達(dá)不同的含義。正向可表達(dá)為“武漢的醫(yī)護(hù)人員辛苦了”，還可以表示“保護(hù)好奔赴于武漢的醫(yī)護(hù)人員”；負(fù)向可以表達(dá)“武漢醫(yī)護(hù)人員的隔離問題怎么辦”，還可能表達(dá)“武漢醫(yī)護(hù)人民出門要戴口罩”。

圖5 新型冠狀病毒肺炎正面情緒文本特征詞網(wǎng)

通過圖5可以得出，正面情緒特征詞網(wǎng)聚集較為明顯，其中主要聚集點(diǎn)有7部分。聚點(diǎn)1“保護(hù)”為出發(fā)點(diǎn)，網(wǎng)民正面情緒主要來自于醫(yī)護(hù)人員、社會(huì)工作者、物資及時(shí)的送達(dá)、“逆行者”等。在疫情期間各地醫(yī)護(hù)人員勇敢逆行，火速馳援湖北武漢，奮戰(zhàn)于一線的醫(yī)護(hù)人員積極帶領(lǐng)公眾共度難關(guān)，因此保護(hù)醫(yī)護(hù)人員的安全成為公眾所期盼的愿望。聚點(diǎn)2“武漢”為中心點(diǎn)信息主要為相信國家和政府“封城”的措施是有效的，在家自行隔離能有效控制疫情傳播。聚點(diǎn)3“加油”為中心點(diǎn)信息希望全國各地疫情早日散去，堅(jiān)持就是勝利，可以聽到好消息。聚點(diǎn)4以“接觸”為起點(diǎn)較為零散，主要展示出的信息為不能歡度春節(jié)，但人們盡量做好防護(hù)措施。聚點(diǎn)5為小團(tuán)體，主要表達(dá)為燃眉之急的事務(wù)為企業(yè)復(fù)工；由于疫情的原因居家隔離沒有經(jīng)濟(jì)來源。還說明此次疫情表現(xiàn)出科技的重要性，大數(shù)據(jù)技術(shù)可以提升疫情的有效管理。聚點(diǎn)6主要是網(wǎng)民希望出行盡快恢復(fù)正常；大多網(wǎng)民從未有過長時(shí)間的居家隔離，因此群眾們還未適應(yīng)。聚點(diǎn)7為我國在第一時(shí)間防止疫情擴(kuò)散，萬眾一心抗擊疫情。其余為散落詞團(tuán)，可先不作為重點(diǎn)考慮。

圖6 新型冠狀病毒肺炎負(fù)面情緒文本特征詞網(wǎng)

從圖6整體可以得出，負(fù)面情緒特征詞網(wǎng)中言語離散，說明負(fù)向的語言較為單一且不聚集。負(fù)面情緒成團(tuán)較少，但是明顯成團(tuán)的地方需要特別關(guān)注，其中主要聚集點(diǎn)有5部分。聚點(diǎn)1“野生”“海鮮”“市場(chǎng)”等詞可知疫情發(fā)現(xiàn)地在海鮮市場(chǎng)，得出野生海鮮市場(chǎng)會(huì)造成公眾負(fù)面情緒高漲，而北京新發(fā)地市場(chǎng)的三文魚等水產(chǎn)品檢測(cè)出新冠病毒，將會(huì)引起公眾情緒的二次爆發(fā)。為防止引起公眾負(fù)面情緒波動(dòng)，相關(guān)單位應(yīng)對(duì)各地所有海鮮市場(chǎng)等易發(fā)生疫情的市場(chǎng)做出規(guī)范的防控措施；加強(qiáng)對(duì)肉類、海鮮等貨物的監(jiān)測(cè)監(jiān)管，掌握其來源和流向；加強(qiáng)工作人員的健康管理，外來人員的體溫檢測(cè)等措施；通過官方平臺(tái)將采取的措施及時(shí)公布，使公眾輿論不產(chǎn)生大幅度上升。聚點(diǎn)2“武漢”為中心點(diǎn)，“造謠”“報(bào)道”“軌跡”為環(huán)繞點(diǎn)可知，疫情得到有效防控，但各地陸續(xù)出現(xiàn)無癥狀感染者。通過各大平臺(tái)，相關(guān)單位應(yīng)將感染患者的行動(dòng)軌跡及時(shí)公布、對(duì)于疫情制定的措施及時(shí)有效報(bào)道，以免公民隨意猜測(cè)，容易形成謠言無限擴(kuò)散從而造成不必要的恐慌。通過聚點(diǎn)3以“隔離”為出發(fā)點(diǎn)，“外地”“檢測(cè)”“謠言”“傳播”為輔助點(diǎn)分析，各地區(qū)對(duì)于外來人員首先做核酸檢測(cè)，并且對(duì)于有疑似癥狀者采取恰當(dāng)?shù)尼t(yī)學(xué)觀察；對(duì)于外來人員的核酸檢測(cè)給予證明，防止人員行動(dòng)不便。聚點(diǎn)4為“醫(yī)類方面”“口罩”的原因主要可以從兩個(gè)角度出發(fā)：一是在疫情初發(fā)階段口罩的稀缺；二是在全國各地仍有感染患者，口罩負(fù)面情緒上漲，從側(cè)面反映出疫情情況好轉(zhuǎn)已有人放松警惕。關(guān)于醫(yī)藥的傳言，相關(guān)單位要及時(shí)回應(yīng)，以防止公眾盲目相信并出現(xiàn)搶購的情況。聚點(diǎn)5為分散點(diǎn)，主要討論病毒的潛伏期、公布航班的情況等。

5 結(jié) 語

本文緊緊圍繞“新型冠狀病毒肺炎”事件的相關(guān)話題，根據(jù)有關(guān)的知識(shí)探討了輿情非平衡文本數(shù)據(jù)的情感分析。對(duì)微博相關(guān)的內(nèi)容進(jìn)行抓取，通過人工與機(jī)器算法的對(duì)比分析得出較為準(zhǔn)確的語料，在通過M2BERT-BiLSTM模型對(duì)輿情非平衡文本數(shù)據(jù)進(jìn)行情感分類。運(yùn)用正負(fù)向評(píng)論分別計(jì)算行特征詞與共現(xiàn)矩陣，利用Gephi中模塊度畫出正向情緒特征詞網(wǎng)與負(fù)向情緒特征詞網(wǎng)，更加清晰了解輿情的情感特征；根據(jù)輿情文本的特征詞網(wǎng)分析出事件產(chǎn)生正面情緒與負(fù)面情緒的主要原因，有助于相關(guān)部門通過相關(guān)的分析及時(shí)采取措施。本研究也存在不足之處，采集的數(shù)據(jù)集不大以至于未能挖掘更多的情感特征以供情感分析,在后續(xù)研究中將擴(kuò)大數(shù)據(jù)范圍進(jìn)行深入的研究，為輿情的分析與引導(dǎo)提供更好的建議。