劉 繼 顧鳳云
(新疆財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)學(xué)院 烏魯木齊 830012)
隨著大數(shù)據(jù)時(shí)代的來(lái)臨,不同用戶通過(guò)社交媒體平臺(tái)(如微博、論壇等)產(chǎn)生了海量的情緒化數(shù)據(jù),而輿情文本情感分析發(fā)揮著非同小可的作用。目前,文本情感分析作為突發(fā)公共事件管理與控制的重要范疇,通過(guò)識(shí)別輿情文本情感傾向,由此發(fā)掘出網(wǎng)民產(chǎn)生情感極性的原因。網(wǎng)民情緒的表達(dá)會(huì)影響輿論傳播的廣度及其深度,若負(fù)面情緒快速傳播則不利于事件解決,還會(huì)惡化事態(tài)的發(fā)展形勢(shì)。因此,在重大突發(fā)事件管理中,輿情文本情感分析對(duì)輿情預(yù)警、有效引導(dǎo)及良性發(fā)展具有重大的意義[1]。
情感分析是對(duì)主觀性文本中的情感和態(tài)度進(jìn)行分類,主要方法為機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法。從機(jī)器學(xué)習(xí)的視角出發(fā),基于機(jī)器學(xué)習(xí)[2]的文本傾向性分析方法需要使用語(yǔ)料庫(kù),訓(xùn)練分類模型。如朱軍等人[3]對(duì)文本數(shù)據(jù)使用詞袋模型進(jìn)行分類,考慮Word2Vec建立新的詞向量;在集成算法樸素貝葉斯與SVM[2]中,精準(zhǔn)率和召回率都有所提升。在文本分類上神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)取得顯著成效,利用搭建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)成不同的神經(jīng)網(wǎng)絡(luò)算法如CNN、雙向LSTM、文本CNN等。Y.Kim[4]最早提出將CNN應(yīng)用于文本的傾向性分析,并得到較好的效果;在Y.Kim分析的基礎(chǔ)上,Conneau等人[5]采用了深度卷積網(wǎng)絡(luò)方法提出VDCNN模型。隨后預(yù)訓(xùn)練模型開(kāi)始興起,在NLP領(lǐng)域有了重大突破;Vaswani等人[6]提出的BERT模型在評(píng)價(jià)指標(biāo)中得到更好的提升。Devlin等人[7]主要介紹BERT模型的實(shí)際價(jià)值,并在11個(gè)自然語(yǔ)言處理任務(wù)上獲得了較好的研究成果。段丹丹[8]用BERT模型對(duì)正負(fù)平衡的短文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,用特征向量來(lái)表示語(yǔ)言模型,隨后將獲得的特征向量輸入Softmax進(jìn)行分類,利用F1值作為評(píng)價(jià)指標(biāo)。李可悅等[9]采用BERT模型的預(yù)訓(xùn)練完成單條文本的特征向量表示,隨后有區(qū)別性地將特征向量輸入分類器,采用電商文本的樣本進(jìn)行算法驗(yàn)證。宋明等[10]通過(guò)爬蟲(chóng)獲得微博非平衡文本數(shù)據(jù),將BERT模型的損失函數(shù)換為Focal Loss進(jìn)行情感分析;分類結(jié)果在準(zhǔn)確性上進(jìn)行驗(yàn)證,中性偏高但是負(fù)向偏低。
由于單模型的局限性,研究者開(kāi)始探索混合模型。國(guó)顯達(dá)等人[11]利用混合CNN與雙向LSTM做文本情感分析,通過(guò)比較得出CNN與雙向LSTM[12]模型的優(yōu)越性。諶志群等[13]對(duì)文獻(xiàn)[12]進(jìn)一步優(yōu)化,將BERT與雙向LSTM結(jié)合優(yōu)于CNN與雙向LSTM,采用平衡數(shù)據(jù)得到較好的評(píng)測(cè)效果。Cai等[14]對(duì)網(wǎng)民的情緒取向利用統(tǒng)計(jì)方法進(jìn)行分類,然后使用BERT與BiLSTM的雙向編碼組合的預(yù)測(cè)方法,對(duì)用戶所表達(dá)的情緒傾向進(jìn)行建模和預(yù)測(cè)。趙亞歐等[15]對(duì)不同類別的平衡樣本利用ELMo和Transformer的混合模型進(jìn)行情感分類,在評(píng)價(jià)指標(biāo)上得到了提升。莊穆妮等[16]主要采用LDA主題模型與BERT模型,通過(guò)改進(jìn)BERT預(yù)訓(xùn)練任務(wù)與詞向量深度融合的方式,多次累加深度預(yù)訓(xùn)練任務(wù)進(jìn)而提高模型在情感分類中的精確度。
上述研究中樣本數(shù)據(jù)基本屬于正負(fù)平衡數(shù)據(jù),但在實(shí)際爬取的文本數(shù)據(jù)中很少出現(xiàn)正負(fù)數(shù)據(jù)平衡的情況。非平衡文本數(shù)據(jù)會(huì)出現(xiàn)評(píng)測(cè)失衡的問(wèn)題,小樣本數(shù)據(jù)易出現(xiàn)過(guò)擬合問(wèn)題,基于此,本文提出了M2BERT-BiLSTM模型進(jìn)行情感分析,對(duì)輿情非平衡文本進(jìn)行有效分析。
2M2BERT-BiLSTM模型構(gòu)建
BERT[6]是從Transformer中衍生出來(lái)的預(yù)訓(xùn)練模型,可將其沿用至自然語(yǔ)言處理任務(wù)。Transformer是Google Brain中Ashish Vaswani等在Attention Is All You Need[6]中所提出的sequence2sequence模型,應(yīng)用方式主要是先進(jìn)行預(yù)訓(xùn)練語(yǔ)言模型,然后適當(dāng)?shù)胤峙浣o下游任務(wù)如分類、標(biāo)記等。
由于BERT是從Transformer中衍生的模型,Transformers模型包括encoder和decoder。此處主要說(shuō)明encoder部分,考慮摒棄時(shí)間循環(huán)結(jié)構(gòu),主要依賴位置編碼來(lái)輔助建模。
圖1Transformer模型結(jié)構(gòu)編碼器部分
圖1為T(mén)ransformer模型的編碼器部分。第1部分Transformer模型中沒(méi)有使用序列的順序信息,“位置編碼”提供每個(gè)字的位置信息給Transformer, 才能識(shí)別出語(yǔ)言中的順序關(guān)系。第2部分多頭自注意力機(jī)制實(shí)際上是由h個(gè)self-attention并行組成。輸入為T(mén)embedding經(jīng)過(guò)線性變換得到Q、K、V(Q = linear_q(Tembedding)、K = linear_k(Tembedding)、V = linear_v(Tembedding))后同時(shí)經(jīng)過(guò)h次的放縮點(diǎn)積attention,得到多頭信息。將(1)式結(jié)果進(jìn)行拼接,再通過(guò)線性變換得到的值作為多頭attention的輸出。
(1)
MultiHead(Q,K,V)=Concat(head1,…,headh)Wo
(2)
第3部分殘差連接,即在上步中注意力機(jī)制進(jìn)行轉(zhuǎn)置使其維度與Tembedding一致,將兩者相加的作用是隱藏層可歸一為標(biāo)準(zhǔn)正態(tài)分布。在反向傳播時(shí),為避免構(gòu)建BERT模型層次太深或出現(xiàn)梯度消失等問(wèn)題,訓(xùn)練時(shí)常用的方法為殘差連接。
Thidden=Activate(Linear(Linear(Tattention)))
(3)
第4部分前向傳播,即為兩層線性映射并用激活函數(shù)。
BERT模型應(yīng)用方式主要是先進(jìn)行預(yù)訓(xùn)練語(yǔ)言模型,然后適當(dāng)?shù)嘏浣o下游任務(wù)如分類、標(biāo)記等(見(jiàn)圖2)。BERT模型通過(guò)兩種無(wú)監(jiān)督方法相結(jié)合進(jìn)行預(yù)訓(xùn)練;Masked LM主要為隨機(jī)遮蓋或替換單條文本里面任意字或詞,模型通過(guò)對(duì)剩余詞匯的理解,預(yù)測(cè)出被遮蓋或替換的詞。具體為以下內(nèi)容:
圖2 語(yǔ)言模型任務(wù)
a. 80%被替換成[mask]; 例如 我喜歡小貓。—我喜歡小[mask]。
b. 10%被替換成任意其他token;例如 我喜歡小貓。—我喜歡小米。
c. 10%原封不動(dòng).例如 我喜歡小貓—我喜歡小貓。
另一種無(wú)監(jiān)督方法為Next Sentence Prediction。句子以[CLS]開(kāi)始, 在兩句話之間和句末加[SEP], 此目的是讓模型理解兩個(gè)句子之間的聯(lián)系。訓(xùn)練輸入句子A和B,模型預(yù)測(cè)A的下句是不是為B。
輸入文本數(shù)據(jù)的第一個(gè)標(biāo)記都是[CLS],對(duì)應(yīng)的是 Transformer 的輸出,是用來(lái)表示整個(gè)句子的,可用于下游的分類任務(wù)。
原模型(圖3)隱藏層的計(jì)算結(jié)果里只要取出C(維度是Thidden∈R[batch size,sequence length,embedding dimension])進(jìn)行混合模型的計(jì)算?,F(xiàn)沿著sequence length的維度分別求Maxpooling、Meanpooling、M2pooling。M2pooling即均值與最大池化進(jìn)行鏈接(兩者鏈接是將兩者前后鏈接),Meanpooling即沿著句子長(zhǎng)度維度只求均值,Maxpooling沿著句子長(zhǎng)度維度只求最大值。均值池化會(huì)將大多數(shù)總體信息特征均等處理;最大值池化獲取的特征較稀疏,但會(huì)保留極化特征;均值與最大池化拼接會(huì)在保留多數(shù)總體信息特征的基礎(chǔ)上突出極化特征。
(4)
(5)
M2pooling=concatenate(Meanpooling&Maxpooling)
(6)
圖3M2BERT-BiLSTM模型
其中N表示embedding dimension維度; Thidden(1)表示Thidden中sequence length維度位置為1;M2pooling∈R[batch size ,embedding dimension*2];均值與最大池化拼接的方法就相當(dāng)于DOC2VEC的方法,將單條評(píng)論轉(zhuǎn)換成一條向量,轉(zhuǎn)換出向量的維度是一致的。因此通過(guò)gt作為BiLSTM的輸入,表示如下:
gt=S1(Wg*Mt+bg)
(7)
其中t={1,2,…,Y},Wg(矩陣調(diào)整成與級(jí)聯(lián)后的維度相同)Wg∈Rdg*Y,bg為gt的偏置,Mt為最大值與均值拼接后的特征向量,S1為激活函數(shù)Sigmoid函數(shù)。
輸入向量后需進(jìn)到隱含層中,由于BiLSTM模型的隱含層分為向前隱含層與向后隱含層。向前隱含層h↑是通過(guò)t時(shí)刻從正向計(jì)算,而向后隱含層h↓是從反向計(jì)算,計(jì)算如下:
(8)
(9)
隱含層在t時(shí)刻輸出的向量為Vt,計(jì)算如下:
Vt=ht↑⊕ht↓
(10)
將進(jìn)行隱含層ht↑與隱含層ht↓連接組合成特征向量H, 全連接層使用ReLU作為激活函數(shù),利用特征向量H的輸出作為輸出層,并采用Softmax函數(shù)進(jìn)行分類。
本文采用M2BERT-BiLSTM方法構(gòu)建模型,預(yù)測(cè)微博評(píng)論的情緒傾向。M2BERT作為上游部分,BiLSTM作為下游部分;混合模型不是簡(jiǎn)單的權(quán)值組合模型,計(jì)算復(fù)雜度有所增加,但計(jì)算的準(zhǔn)確性上升。M2BERT具有學(xué)習(xí)附近單詞統(tǒng)計(jì)特征的能力,而B(niǎo)iLSTM具有學(xué)習(xí)上下文信息的能力,這符合人類語(yǔ)言系統(tǒng)的邏輯。
3.1數(shù)據(jù)選取本文使用VG瀏覽器以“新型冠狀病毒肺炎”為關(guān)鍵詞采集有關(guān)話題的內(nèi)容,總共采集微博13 077條數(shù)據(jù),內(nèi)容為用戶名、正文、UID、評(píng)論內(nèi)容、bid。數(shù)據(jù)未帶傾向性的標(biāo)注,但要確保數(shù)據(jù)有效性,首先對(duì)文本內(nèi)容進(jìn)行SnowNLP(自然語(yǔ)言處理)分類,再進(jìn)行人工標(biāo)注(標(biāo)注分為正向、中性、負(fù)向三類)。通過(guò)人工與機(jī)器算法的對(duì)比分析,進(jìn)一步調(diào)整得出較為準(zhǔn)確的正負(fù)語(yǔ)料。鑒于本文只研究情感二分類(即正向與負(fù)向),正向評(píng)論以1表示,負(fù)向評(píng)論以0表示。選取數(shù)據(jù)集80%作為訓(xùn)練集,20%作為測(cè)試集(見(jiàn)表1)。
表1 微博的評(píng)論數(shù)據(jù)集合
3.2參數(shù)設(shè)置在易用性與速度方面,PyTorch較優(yōu),因此本文模型利用PyTorch搭建。通常采用CPU,特殊樣本可以通過(guò)GPU加速。BERT模型中的動(dòng)態(tài)學(xué)習(xí)率和提前終止(early stop)可以確定參數(shù)Num_epochs和Learning_rate。設(shè)置Num_epochs =7表明本文模型進(jìn)行了7期訓(xùn)練;主要是根據(jù)記錄Num_epochs的AUC,如果當(dāng)前的AUC比上一個(gè)epoch沒(méi)有提升,則降低當(dāng)前的學(xué)習(xí)率,該測(cè)試中的AUC在7個(gè)epoch都沒(méi)有提升,即停止訓(xùn)練;則模型的學(xué)習(xí)率為5e-5。Batch表示每次輸入模型中訓(xùn)練的部分?jǐn)?shù)據(jù),Batch_size為每個(gè)Batch中訓(xùn)練樣本的數(shù)量。Batch_size可以設(shè)置為16、32、64、128、256等,Batch_size=16、32、64的時(shí)候迭代次數(shù)增加,但訓(xùn)練速度過(guò)慢;Batch_size越大越能夠表現(xiàn)出全體數(shù)據(jù)的特征,確定的梯度下降方向越準(zhǔn)確;在設(shè)置為256的時(shí)候迭代次數(shù)減少,但造成參數(shù)修正緩慢;則Batch_size設(shè)置為128。Pad_size表示短評(píng)論文本進(jìn)行填補(bǔ),長(zhǎng)評(píng)論文本進(jìn)行切分處理;微博評(píng)論文本屬于短文本,因此將每條評(píng)論處理長(zhǎng)度為20。在BERT[6]模型中Hidden_size設(shè)置為768,它表示模型隱藏層神經(jīng)元數(shù),在混合模型中沒(méi)有改變,將Hidden_size設(shè)置為768(見(jiàn)表2)。
表2 參數(shù)設(shè)置
3.3結(jié)果分析本文從準(zhǔn)確率(Precision_score)、召回率(Recall_score)、F1(F1-score)三個(gè)方面作為評(píng)價(jià)指標(biāo)。Precision是判別模型對(duì)負(fù)樣本的區(qū)分能力;Recall體現(xiàn)模型對(duì)正樣本的識(shí)別能力;只有當(dāng)精確率與召回率的數(shù)值同為1時(shí)F1值達(dá)到最大。若正負(fù)數(shù)據(jù)集為非平衡文本,在計(jì)算精確率與召回率時(shí)會(huì)出現(xiàn)差距。F1-score結(jié)合Precision與Recall兩個(gè)評(píng)價(jià)指標(biāo)可以更加全面的反映分類性能。F1值評(píng)估分類器性能時(shí),分類器的性能越好F1值越接近于1,因此作為本文衡量實(shí)驗(yàn)效果主要評(píng)價(jià)指標(biāo)。
①W2V-SVM:使用Jieba進(jìn)行分詞并將數(shù)據(jù)轉(zhuǎn)換成list in list形式,初始化word2vec模型和詞表,各個(gè)詞向量用平均的方式生成整句對(duì)應(yīng)的向量。用矩陣生成建模,用轉(zhuǎn)換后的矩陣擬合SVM模型,對(duì)評(píng)論進(jìn)行模型訓(xùn)練。
②W2V-Logistic:以上方法擬合Logistic模型,對(duì)評(píng)論進(jìn)行模型訓(xùn)練。
③LSTM:將文本語(yǔ)料貼上標(biāo)簽并分詞,統(tǒng)計(jì)詞出現(xiàn)次數(shù)調(diào)用Keras中LSTM,計(jì)算預(yù)測(cè)值進(jìn)行評(píng)價(jià)。
④W2V-TextCNN:將句子進(jìn)行切分,去掉停用詞與標(biāo)點(diǎn)符號(hào)。Embedding層調(diào)用google開(kāi)發(fā)的Word2Vec方法將文本向量映射為數(shù)字向量;經(jīng)過(guò)一維卷積層與最大池化層,最后接一層全連接的softmax層輸出每個(gè)類別的概率。
⑤BiLSTM:定義超參數(shù)大小,定義兩層雙向LSTM的模型結(jié)構(gòu),最后使用全連接層在經(jīng)過(guò)softmax輸出結(jié)果。
⑥BERT:數(shù)據(jù)預(yù)處理是中文數(shù)據(jù)集,所以使用預(yù)處理模型BERT-base,參數(shù)為原始參數(shù),利用預(yù)訓(xùn)練文本特征后輸入BERT模型分類。
⑦M(jìn)ean-BERT: 從BERT模型隱藏層輸出的T沿著sequence length維度的序列使用、即均值池化
⑧Max-BERT:隱藏層輸出的T沿著sequence length維度使用即最大池化。
⑨M2BERT:對(duì)從隱藏層輸出的T沿著sequence length維度使用即均值與最大池化進(jìn)行拼接。
⑩M2BERT-BiLSTM:最大與均值池化的拼接后輸入到BiLSTM的模型中。
在BERT模型中數(shù)據(jù)集要shuffle,為防止過(guò)擬合加入dropout機(jī)制、L2正則等。
從以上整體結(jié)果分析,非平衡文本數(shù)據(jù)的問(wèn)題導(dǎo)致整體的分類效果偏向于對(duì)負(fù)樣本的區(qū)分;由于數(shù)據(jù)特殊性負(fù)面情緒比較明顯,正面情緒比較中性化則在判別的過(guò)程中出現(xiàn)了明顯區(qū)分。比較BERT與W2V-SVM模型的準(zhǔn)確率,W2V-SVM模型達(dá)到80.46%,與BERT模型僅差1.67%,說(shuō)明在評(píng)價(jià)指標(biāo)準(zhǔn)確率上兩者的差距?。坏窃谡倩芈氏嗖?.02%。W2V-Logistic在準(zhǔn)確率與召回率相對(duì)穩(wěn)定,但F1值比BERT模型低4.04%。LSTM與BiLSTM兩者相比,BiLSTM模型各項(xiàng)指標(biāo)均有不同程度的提升,說(shuō)明前后兩個(gè)方向獲取文本信息將會(huì)更有優(yōu)勢(shì),BiLSTM學(xué)習(xí)能力比單向的LSTM強(qiáng)。雙向LSTM模型雖然考慮了前后文本信息,但神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力加上詞向量的組合會(huì)更好一些;相比于BERT模型,W2V-TextCNN模型的F1值相差0.79%(見(jiàn)表3)。
表3 基本模型結(jié)果比較
Mean-BERT的測(cè)試結(jié)果受到樣本的影響,本文通過(guò)篩選出語(yǔ)義不明確的樣本進(jìn)行測(cè)試,評(píng)價(jià)結(jié)果中Precision與Recall的得分相差較大;語(yǔ)義不明確的樣本信息特征均等處理,導(dǎo)致極化特征未凸顯,在非平衡文本數(shù)據(jù)的情況下忽略特征的情感含義造成模型難以識(shí)別計(jì)劃特征。從以上結(jié)果來(lái)看,Max-BERT模型提取出極化特征,但小樣本只將關(guān)鍵詞信息提取出來(lái)會(huì)使得文本信息大量丟失;評(píng)價(jià)指標(biāo)F1值達(dá)到79.88%,比BERT模型降低了0.52%,說(shuō)明此模型比BERT略差。均值與最大化拼接不僅考慮當(dāng)前文本極化特征,而且不會(huì)丟失大部分文本信息,BERT模型與此模型F1值相差0.13%;F1值相比于均值池化與最大值池化有所提高(見(jiàn)表4)。在圖4中,根據(jù)AUC做出比較并選擇較優(yōu)模型進(jìn)行集成處理。M2BERT-BiLSTM模型不僅在F1值上有較高的提升,并且在評(píng)判正負(fù)樣本分類的結(jié)果上也沒(méi)有太大的差距。在可控范圍之內(nèi)達(dá)到較優(yōu)的效果,在非平衡文本數(shù)據(jù)的情況下選擇M2BERT-BiLSTM模型進(jìn)行情感分類。
表4BERT改進(jìn)模型結(jié)果比較
圖4 不同模型的AUC比較
圖4為BERT和M2BERT-BiLSTM模型訓(xùn)練集與測(cè)試集的AUC值比較。根據(jù)圖4可以分析出從epoch1到epoch5的過(guò)程中,M2BERT-BiLSTM模型訓(xùn)練集與測(cè)試集的AUC差距從12.55%逐漸縮小至1.07%;而相比于M2BERT-BiLSTM模型,BERT模型訓(xùn)練集與測(cè)試集的效果較差。因此在準(zhǔn)確性上M2BERT-BiLSTM模型比BERT模型有較好的效果。
通過(guò)M2BERT-BiLSTM模型對(duì)“新型冠狀病毒肺炎”事件的文本數(shù)據(jù)進(jìn)行分類,分類后得到的正負(fù)向文本進(jìn)行詞網(wǎng)分析。為增強(qiáng)正向與負(fù)向的特征詞顯示度,提取出每行評(píng)論文本特征詞后刪除事件名稱(新型冠狀病毒肺炎等),然后利用Gephi軟件進(jìn)行繪圖。情感特征詞網(wǎng)可以更加直觀地反映出原文本語(yǔ)料的內(nèi)容,例如:“武漢”與“醫(yī)護(hù)”分開(kāi)時(shí),在不同的語(yǔ)境中表達(dá)不同的含義。正向可表達(dá)為“武漢的醫(yī)護(hù)人員辛苦了”,還可以表示“保護(hù)好奔赴于武漢的醫(yī)護(hù)人員”;負(fù)向可以表達(dá)“武漢醫(yī)護(hù)人員的隔離問(wèn)題怎么辦”,還可能表達(dá)“武漢醫(yī)護(hù)人民出門(mén)要戴口罩”。
圖5 新型冠狀病毒肺炎正面情緒文本特征詞網(wǎng)
通過(guò)圖5可以得出,正面情緒特征詞網(wǎng)聚集較為明顯,其中主要聚集點(diǎn)有7部分。聚點(diǎn)1“保護(hù)”為出發(fā)點(diǎn),網(wǎng)民正面情緒主要來(lái)自于醫(yī)護(hù)人員、社會(huì)工作者、物資及時(shí)的送達(dá)、“逆行者”等。在疫情期間各地醫(yī)護(hù)人員勇敢逆行,火速馳援湖北武漢,奮戰(zhàn)于一線的醫(yī)護(hù)人員積極帶領(lǐng)公眾共度難關(guān),因此保護(hù)醫(yī)護(hù)人員的安全成為公眾所期盼的愿望。聚點(diǎn)2“武漢”為中心點(diǎn)信息主要為相信國(guó)家和政府“封城”的措施是有效的,在家自行隔離能有效控制疫情傳播。聚點(diǎn)3“加油”為中心點(diǎn)信息希望全國(guó)各地疫情早日散去,堅(jiān)持就是勝利,可以聽(tīng)到好消息。聚點(diǎn)4以“接觸”為起點(diǎn)較為零散,主要展示出的信息為不能歡度春節(jié),但人們盡量做好防護(hù)措施。聚點(diǎn)5為小團(tuán)體,主要表達(dá)為燃眉之急的事務(wù)為企業(yè)復(fù)工;由于疫情的原因居家隔離沒(méi)有經(jīng)濟(jì)來(lái)源。還說(shuō)明此次疫情表現(xiàn)出科技的重要性,大數(shù)據(jù)技術(shù)可以提升疫情的有效管理。聚點(diǎn)6主要是網(wǎng)民希望出行盡快恢復(fù)正常;大多網(wǎng)民從未有過(guò)長(zhǎng)時(shí)間的居家隔離,因此群眾們還未適應(yīng)。聚點(diǎn)7為我國(guó)在第一時(shí)間防止疫情擴(kuò)散,萬(wàn)眾一心抗擊疫情。其余為散落詞團(tuán),可先不作為重點(diǎn)考慮。
圖6 新型冠狀病毒肺炎負(fù)面情緒文本特征詞網(wǎng)
從圖6整體可以得出,負(fù)面情緒特征詞網(wǎng)中言語(yǔ)離散,說(shuō)明負(fù)向的語(yǔ)言較為單一且不聚集。負(fù)面情緒成團(tuán)較少,但是明顯成團(tuán)的地方需要特別關(guān)注,其中主要聚集點(diǎn)有5部分。聚點(diǎn)1“野生”“海鮮”“市場(chǎng)”等詞可知疫情發(fā)現(xiàn)地在海鮮市場(chǎng),得出野生海鮮市場(chǎng)會(huì)造成公眾負(fù)面情緒高漲,而北京新發(fā)地市場(chǎng)的三文魚(yú)等水產(chǎn)品檢測(cè)出新冠病毒,將會(huì)引起公眾情緒的二次爆發(fā)。為防止引起公眾負(fù)面情緒波動(dòng),相關(guān)單位應(yīng)對(duì)各地所有海鮮市場(chǎng)等易發(fā)生疫情的市場(chǎng)做出規(guī)范的防控措施;加強(qiáng)對(duì)肉類、海鮮等貨物的監(jiān)測(cè)監(jiān)管,掌握其來(lái)源和流向;加強(qiáng)工作人員的健康管理,外來(lái)人員的體溫檢測(cè)等措施;通過(guò)官方平臺(tái)將采取的措施及時(shí)公布,使公眾輿論不產(chǎn)生大幅度上升。聚點(diǎn)2“武漢”為中心點(diǎn),“造謠”“報(bào)道”“軌跡”為環(huán)繞點(diǎn)可知,疫情得到有效防控,但各地陸續(xù)出現(xiàn)無(wú)癥狀感染者。通過(guò)各大平臺(tái),相關(guān)單位應(yīng)將感染患者的行動(dòng)軌跡及時(shí)公布、對(duì)于疫情制定的措施及時(shí)有效報(bào)道,以免公民隨意猜測(cè),容易形成謠言無(wú)限擴(kuò)散從而造成不必要的恐慌。通過(guò)聚點(diǎn)3以“隔離”為出發(fā)點(diǎn),“外地”“檢測(cè)”“謠言”“傳播”為輔助點(diǎn)分析,各地區(qū)對(duì)于外來(lái)人員首先做核酸檢測(cè),并且對(duì)于有疑似癥狀者采取恰當(dāng)?shù)尼t(yī)學(xué)觀察;對(duì)于外來(lái)人員的核酸檢測(cè)給予證明,防止人員行動(dòng)不便。聚點(diǎn)4為“醫(yī)類方面”“口罩”的原因主要可以從兩個(gè)角度出發(fā):一是在疫情初發(fā)階段口罩的稀缺;二是在全國(guó)各地仍有感染患者,口罩負(fù)面情緒上漲,從側(cè)面反映出疫情情況好轉(zhuǎn)已有人放松警惕。關(guān)于醫(yī)藥的傳言,相關(guān)單位要及時(shí)回應(yīng),以防止公眾盲目相信并出現(xiàn)搶購(gòu)的情況。聚點(diǎn)5為分散點(diǎn),主要討論病毒的潛伏期、公布航班的情況等。
本文緊緊圍繞“新型冠狀病毒肺炎”事件的相關(guān)話題,根據(jù)有關(guān)的知識(shí)探討了輿情非平衡文本數(shù)據(jù)的情感分析。對(duì)微博相關(guān)的內(nèi)容進(jìn)行抓取,通過(guò)人工與機(jī)器算法的對(duì)比分析得出較為準(zhǔn)確的語(yǔ)料,在通過(guò)M2BERT-BiLSTM模型對(duì)輿情非平衡文本數(shù)據(jù)進(jìn)行情感分類。運(yùn)用正負(fù)向評(píng)論分別計(jì)算行特征詞與共現(xiàn)矩陣,利用Gephi中模塊度畫(huà)出正向情緒特征詞網(wǎng)與負(fù)向情緒特征詞網(wǎng),更加清晰了解輿情的情感特征;根據(jù)輿情文本的特征詞網(wǎng)分析出事件產(chǎn)生正面情緒與負(fù)面情緒的主要原因,有助于相關(guān)部門(mén)通過(guò)相關(guān)的分析及時(shí)采取措施。本研究也存在不足之處,采集的數(shù)據(jù)集不大以至于未能挖掘更多的情感特征以供情感分析,在后續(xù)研究中將擴(kuò)大數(shù)據(jù)范圍進(jìn)行深入的研究,為輿情的分析與引導(dǎo)提供更好的建議。