亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT與BiLSTM混合方法的網(wǎng)絡(luò)輿情非平衡文本情感分析*

        2022-04-28 08:58:52顧鳳云
        情報(bào)雜志 2022年4期
        關(guān)鍵詞:特征詞維度分類

        劉 繼 顧鳳云

        (新疆財(cái)經(jīng)大學(xué)統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)學(xué)院 烏魯木齊 830012)

        隨著大數(shù)據(jù)時(shí)代的來(lái)臨,不同用戶通過(guò)社交媒體平臺(tái)(如微博、論壇等)產(chǎn)生了海量的情緒化數(shù)據(jù),而輿情文本情感分析發(fā)揮著非同小可的作用。目前,文本情感分析作為突發(fā)公共事件管理與控制的重要范疇,通過(guò)識(shí)別輿情文本情感傾向,由此發(fā)掘出網(wǎng)民產(chǎn)生情感極性的原因。網(wǎng)民情緒的表達(dá)會(huì)影響輿論傳播的廣度及其深度,若負(fù)面情緒快速傳播則不利于事件解決,還會(huì)惡化事態(tài)的發(fā)展形勢(shì)。因此,在重大突發(fā)事件管理中,輿情文本情感分析對(duì)輿情預(yù)警、有效引導(dǎo)及良性發(fā)展具有重大的意義[1]。

        1 相關(guān)研究

        情感分析是對(duì)主觀性文本中的情感和態(tài)度進(jìn)行分類,主要方法為機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等方法。從機(jī)器學(xué)習(xí)的視角出發(fā),基于機(jī)器學(xué)習(xí)[2]的文本傾向性分析方法需要使用語(yǔ)料庫(kù),訓(xùn)練分類模型。如朱軍等人[3]對(duì)文本數(shù)據(jù)使用詞袋模型進(jìn)行分類,考慮Word2Vec建立新的詞向量;在集成算法樸素貝葉斯與SVM[2]中,精準(zhǔn)率和召回率都有所提升。在文本分類上神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)取得顯著成效,利用搭建神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)成不同的神經(jīng)網(wǎng)絡(luò)算法如CNN、雙向LSTM、文本CNN等。Y.Kim[4]最早提出將CNN應(yīng)用于文本的傾向性分析,并得到較好的效果;在Y.Kim分析的基礎(chǔ)上,Conneau等人[5]采用了深度卷積網(wǎng)絡(luò)方法提出VDCNN模型。隨后預(yù)訓(xùn)練模型開(kāi)始興起,在NLP領(lǐng)域有了重大突破;Vaswani等人[6]提出的BERT模型在評(píng)價(jià)指標(biāo)中得到更好的提升。Devlin等人[7]主要介紹BERT模型的實(shí)際價(jià)值,并在11個(gè)自然語(yǔ)言處理任務(wù)上獲得了較好的研究成果。段丹丹[8]用BERT模型對(duì)正負(fù)平衡的短文本數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練,用特征向量來(lái)表示語(yǔ)言模型,隨后將獲得的特征向量輸入Softmax進(jìn)行分類,利用F1值作為評(píng)價(jià)指標(biāo)。李可悅等[9]采用BERT模型的預(yù)訓(xùn)練完成單條文本的特征向量表示,隨后有區(qū)別性地將特征向量輸入分類器,采用電商文本的樣本進(jìn)行算法驗(yàn)證。宋明等[10]通過(guò)爬蟲(chóng)獲得微博非平衡文本數(shù)據(jù),將BERT模型的損失函數(shù)換為Focal Loss進(jìn)行情感分析;分類結(jié)果在準(zhǔn)確性上進(jìn)行驗(yàn)證,中性偏高但是負(fù)向偏低。

        由于單模型的局限性,研究者開(kāi)始探索混合模型。國(guó)顯達(dá)等人[11]利用混合CNN與雙向LSTM做文本情感分析,通過(guò)比較得出CNN與雙向LSTM[12]模型的優(yōu)越性。諶志群等[13]對(duì)文獻(xiàn)[12]進(jìn)一步優(yōu)化,將BERT與雙向LSTM結(jié)合優(yōu)于CNN與雙向LSTM,采用平衡數(shù)據(jù)得到較好的評(píng)測(cè)效果。Cai等[14]對(duì)網(wǎng)民的情緒取向利用統(tǒng)計(jì)方法進(jìn)行分類,然后使用BERT與BiLSTM的雙向編碼組合的預(yù)測(cè)方法,對(duì)用戶所表達(dá)的情緒傾向進(jìn)行建模和預(yù)測(cè)。趙亞歐等[15]對(duì)不同類別的平衡樣本利用ELMo和Transformer的混合模型進(jìn)行情感分類,在評(píng)價(jià)指標(biāo)上得到了提升。莊穆妮等[16]主要采用LDA主題模型與BERT模型,通過(guò)改進(jìn)BERT預(yù)訓(xùn)練任務(wù)與詞向量深度融合的方式,多次累加深度預(yù)訓(xùn)練任務(wù)進(jìn)而提高模型在情感分類中的精確度。

        上述研究中樣本數(shù)據(jù)基本屬于正負(fù)平衡數(shù)據(jù),但在實(shí)際爬取的文本數(shù)據(jù)中很少出現(xiàn)正負(fù)數(shù)據(jù)平衡的情況。非平衡文本數(shù)據(jù)會(huì)出現(xiàn)評(píng)測(cè)失衡的問(wèn)題,小樣本數(shù)據(jù)易出現(xiàn)過(guò)擬合問(wèn)題,基于此,本文提出了M2BERT-BiLSTM模型進(jìn)行情感分析,對(duì)輿情非平衡文本進(jìn)行有效分析。

        2M2BERT-BiLSTM模型構(gòu)建

        BERT[6]是從Transformer中衍生出來(lái)的預(yù)訓(xùn)練模型,可將其沿用至自然語(yǔ)言處理任務(wù)。Transformer是Google Brain中Ashish Vaswani等在Attention Is All You Need[6]中所提出的sequence2sequence模型,應(yīng)用方式主要是先進(jìn)行預(yù)訓(xùn)練語(yǔ)言模型,然后適當(dāng)?shù)胤峙浣o下游任務(wù)如分類、標(biāo)記等。

        由于BERT是從Transformer中衍生的模型,Transformers模型包括encoder和decoder。此處主要說(shuō)明encoder部分,考慮摒棄時(shí)間循環(huán)結(jié)構(gòu),主要依賴位置編碼來(lái)輔助建模。

        圖1Transformer模型結(jié)構(gòu)編碼器部分

        圖1為T(mén)ransformer模型的編碼器部分。第1部分Transformer模型中沒(méi)有使用序列的順序信息,“位置編碼”提供每個(gè)字的位置信息給Transformer, 才能識(shí)別出語(yǔ)言中的順序關(guān)系。第2部分多頭自注意力機(jī)制實(shí)際上是由h個(gè)self-attention并行組成。輸入為T(mén)embedding經(jīng)過(guò)線性變換得到Q、K、V(Q = linear_q(Tembedding)、K = linear_k(Tembedding)、V = linear_v(Tembedding))后同時(shí)經(jīng)過(guò)h次的放縮點(diǎn)積attention,得到多頭信息。將(1)式結(jié)果進(jìn)行拼接,再通過(guò)線性變換得到的值作為多頭attention的輸出。

        (1)

        MultiHead(Q,K,V)=Concat(head1,…,headh)Wo

        (2)

        第3部分殘差連接,即在上步中注意力機(jī)制進(jìn)行轉(zhuǎn)置使其維度與Tembedding一致,將兩者相加的作用是隱藏層可歸一為標(biāo)準(zhǔn)正態(tài)分布。在反向傳播時(shí),為避免構(gòu)建BERT模型層次太深或出現(xiàn)梯度消失等問(wèn)題,訓(xùn)練時(shí)常用的方法為殘差連接。

        Thidden=Activate(Linear(Linear(Tattention)))

        (3)

        第4部分前向傳播,即為兩層線性映射并用激活函數(shù)。

        BERT模型應(yīng)用方式主要是先進(jìn)行預(yù)訓(xùn)練語(yǔ)言模型,然后適當(dāng)?shù)嘏浣o下游任務(wù)如分類、標(biāo)記等(見(jiàn)圖2)。BERT模型通過(guò)兩種無(wú)監(jiān)督方法相結(jié)合進(jìn)行預(yù)訓(xùn)練;Masked LM主要為隨機(jī)遮蓋或替換單條文本里面任意字或詞,模型通過(guò)對(duì)剩余詞匯的理解,預(yù)測(cè)出被遮蓋或替換的詞。具體為以下內(nèi)容:

        圖2 語(yǔ)言模型任務(wù)

        a. 80%被替換成[mask]; 例如 我喜歡小貓。—我喜歡小[mask]。

        b. 10%被替換成任意其他token;例如 我喜歡小貓。—我喜歡小米。

        c. 10%原封不動(dòng).例如 我喜歡小貓—我喜歡小貓。

        另一種無(wú)監(jiān)督方法為Next Sentence Prediction。句子以[CLS]開(kāi)始, 在兩句話之間和句末加[SEP], 此目的是讓模型理解兩個(gè)句子之間的聯(lián)系。訓(xùn)練輸入句子A和B,模型預(yù)測(cè)A的下句是不是為B。

        輸入文本數(shù)據(jù)的第一個(gè)標(biāo)記都是[CLS],對(duì)應(yīng)的是 Transformer 的輸出,是用來(lái)表示整個(gè)句子的,可用于下游的分類任務(wù)。

        原模型(圖3)隱藏層的計(jì)算結(jié)果里只要取出C(維度是Thidden∈R[batch size,sequence length,embedding dimension])進(jìn)行混合模型的計(jì)算?,F(xiàn)沿著sequence length的維度分別求Maxpooling、Meanpooling、M2pooling。M2pooling即均值與最大池化進(jìn)行鏈接(兩者鏈接是將兩者前后鏈接),Meanpooling即沿著句子長(zhǎng)度維度只求均值,Maxpooling沿著句子長(zhǎng)度維度只求最大值。均值池化會(huì)將大多數(shù)總體信息特征均等處理;最大值池化獲取的特征較稀疏,但會(huì)保留極化特征;均值與最大池化拼接會(huì)在保留多數(shù)總體信息特征的基礎(chǔ)上突出極化特征。

        (4)

        (5)

        M2pooling=concatenate(Meanpooling&Maxpooling)

        (6)

        圖3M2BERT-BiLSTM模型

        其中N表示embedding dimension維度; Thidden(1)表示Thidden中sequence length維度位置為1;M2pooling∈R[batch size ,embedding dimension*2];均值與最大池化拼接的方法就相當(dāng)于DOC2VEC的方法,將單條評(píng)論轉(zhuǎn)換成一條向量,轉(zhuǎn)換出向量的維度是一致的。因此通過(guò)gt作為BiLSTM的輸入,表示如下:

        gt=S1(Wg*Mt+bg)

        (7)

        其中t={1,2,…,Y},Wg(矩陣調(diào)整成與級(jí)聯(lián)后的維度相同)Wg∈Rdg*Y,bg為gt的偏置,Mt為最大值與均值拼接后的特征向量,S1為激活函數(shù)Sigmoid函數(shù)。

        輸入向量后需進(jìn)到隱含層中,由于BiLSTM模型的隱含層分為向前隱含層與向后隱含層。向前隱含層h↑是通過(guò)t時(shí)刻從正向計(jì)算,而向后隱含層h↓是從反向計(jì)算,計(jì)算如下:

        (8)

        (9)

        隱含層在t時(shí)刻輸出的向量為Vt,計(jì)算如下:

        Vt=ht↑⊕ht↓

        (10)

        將進(jìn)行隱含層ht↑與隱含層ht↓連接組合成特征向量H, 全連接層使用ReLU作為激活函數(shù),利用特征向量H的輸出作為輸出層,并采用Softmax函數(shù)進(jìn)行分類。

        本文采用M2BERT-BiLSTM方法構(gòu)建模型,預(yù)測(cè)微博評(píng)論的情緒傾向。M2BERT作為上游部分,BiLSTM作為下游部分;混合模型不是簡(jiǎn)單的權(quán)值組合模型,計(jì)算復(fù)雜度有所增加,但計(jì)算的準(zhǔn)確性上升。M2BERT具有學(xué)習(xí)附近單詞統(tǒng)計(jì)特征的能力,而B(niǎo)iLSTM具有學(xué)習(xí)上下文信息的能力,這符合人類語(yǔ)言系統(tǒng)的邏輯。

        3 “新型冠狀病毒肺炎”微博數(shù)據(jù)的測(cè)試分析

        3.1數(shù)據(jù)選取本文使用VG瀏覽器以“新型冠狀病毒肺炎”為關(guān)鍵詞采集有關(guān)話題的內(nèi)容,總共采集微博13 077條數(shù)據(jù),內(nèi)容為用戶名、正文、UID、評(píng)論內(nèi)容、bid。數(shù)據(jù)未帶傾向性的標(biāo)注,但要確保數(shù)據(jù)有效性,首先對(duì)文本內(nèi)容進(jìn)行SnowNLP(自然語(yǔ)言處理)分類,再進(jìn)行人工標(biāo)注(標(biāo)注分為正向、中性、負(fù)向三類)。通過(guò)人工與機(jī)器算法的對(duì)比分析,進(jìn)一步調(diào)整得出較為準(zhǔn)確的正負(fù)語(yǔ)料。鑒于本文只研究情感二分類(即正向與負(fù)向),正向評(píng)論以1表示,負(fù)向評(píng)論以0表示。選取數(shù)據(jù)集80%作為訓(xùn)練集,20%作為測(cè)試集(見(jiàn)表1)。

        表1 微博的評(píng)論數(shù)據(jù)集合

        3.2參數(shù)設(shè)置在易用性與速度方面,PyTorch較優(yōu),因此本文模型利用PyTorch搭建。通常采用CPU,特殊樣本可以通過(guò)GPU加速。BERT模型中的動(dòng)態(tài)學(xué)習(xí)率和提前終止(early stop)可以確定參數(shù)Num_epochs和Learning_rate。設(shè)置Num_epochs =7表明本文模型進(jìn)行了7期訓(xùn)練;主要是根據(jù)記錄Num_epochs的AUC,如果當(dāng)前的AUC比上一個(gè)epoch沒(méi)有提升,則降低當(dāng)前的學(xué)習(xí)率,該測(cè)試中的AUC在7個(gè)epoch都沒(méi)有提升,即停止訓(xùn)練;則模型的學(xué)習(xí)率為5e-5。Batch表示每次輸入模型中訓(xùn)練的部分?jǐn)?shù)據(jù),Batch_size為每個(gè)Batch中訓(xùn)練樣本的數(shù)量。Batch_size可以設(shè)置為16、32、64、128、256等,Batch_size=16、32、64的時(shí)候迭代次數(shù)增加,但訓(xùn)練速度過(guò)慢;Batch_size越大越能夠表現(xiàn)出全體數(shù)據(jù)的特征,確定的梯度下降方向越準(zhǔn)確;在設(shè)置為256的時(shí)候迭代次數(shù)減少,但造成參數(shù)修正緩慢;則Batch_size設(shè)置為128。Pad_size表示短評(píng)論文本進(jìn)行填補(bǔ),長(zhǎng)評(píng)論文本進(jìn)行切分處理;微博評(píng)論文本屬于短文本,因此將每條評(píng)論處理長(zhǎng)度為20。在BERT[6]模型中Hidden_size設(shè)置為768,它表示模型隱藏層神經(jīng)元數(shù),在混合模型中沒(méi)有改變,將Hidden_size設(shè)置為768(見(jiàn)表2)。

        表2 參數(shù)設(shè)置

        3.3結(jié)果分析本文從準(zhǔn)確率(Precision_score)、召回率(Recall_score)、F1(F1-score)三個(gè)方面作為評(píng)價(jià)指標(biāo)。Precision是判別模型對(duì)負(fù)樣本的區(qū)分能力;Recall體現(xiàn)模型對(duì)正樣本的識(shí)別能力;只有當(dāng)精確率與召回率的數(shù)值同為1時(shí)F1值達(dá)到最大。若正負(fù)數(shù)據(jù)集為非平衡文本,在計(jì)算精確率與召回率時(shí)會(huì)出現(xiàn)差距。F1-score結(jié)合Precision與Recall兩個(gè)評(píng)價(jià)指標(biāo)可以更加全面的反映分類性能。F1值評(píng)估分類器性能時(shí),分類器的性能越好F1值越接近于1,因此作為本文衡量實(shí)驗(yàn)效果主要評(píng)價(jià)指標(biāo)。

        ①W2V-SVM:使用Jieba進(jìn)行分詞并將數(shù)據(jù)轉(zhuǎn)換成list in list形式,初始化word2vec模型和詞表,各個(gè)詞向量用平均的方式生成整句對(duì)應(yīng)的向量。用矩陣生成建模,用轉(zhuǎn)換后的矩陣擬合SVM模型,對(duì)評(píng)論進(jìn)行模型訓(xùn)練。

        ②W2V-Logistic:以上方法擬合Logistic模型,對(duì)評(píng)論進(jìn)行模型訓(xùn)練。

        ③LSTM:將文本語(yǔ)料貼上標(biāo)簽并分詞,統(tǒng)計(jì)詞出現(xiàn)次數(shù)調(diào)用Keras中LSTM,計(jì)算預(yù)測(cè)值進(jìn)行評(píng)價(jià)。

        ④W2V-TextCNN:將句子進(jìn)行切分,去掉停用詞與標(biāo)點(diǎn)符號(hào)。Embedding層調(diào)用google開(kāi)發(fā)的Word2Vec方法將文本向量映射為數(shù)字向量;經(jīng)過(guò)一維卷積層與最大池化層,最后接一層全連接的softmax層輸出每個(gè)類別的概率。

        ⑤BiLSTM:定義超參數(shù)大小,定義兩層雙向LSTM的模型結(jié)構(gòu),最后使用全連接層在經(jīng)過(guò)softmax輸出結(jié)果。

        ⑥BERT:數(shù)據(jù)預(yù)處理是中文數(shù)據(jù)集,所以使用預(yù)處理模型BERT-base,參數(shù)為原始參數(shù),利用預(yù)訓(xùn)練文本特征后輸入BERT模型分類。

        ⑦M(jìn)ean-BERT: 從BERT模型隱藏層輸出的T沿著sequence length維度的序列使用、即均值池化

        ⑧Max-BERT:隱藏層輸出的T沿著sequence length維度使用即最大池化。

        ⑨M2BERT:對(duì)從隱藏層輸出的T沿著sequence length維度使用即均值與最大池化進(jìn)行拼接。

        ⑩M2BERT-BiLSTM:最大與均值池化的拼接后輸入到BiLSTM的模型中。

        在BERT模型中數(shù)據(jù)集要shuffle,為防止過(guò)擬合加入dropout機(jī)制、L2正則等。

        從以上整體結(jié)果分析,非平衡文本數(shù)據(jù)的問(wèn)題導(dǎo)致整體的分類效果偏向于對(duì)負(fù)樣本的區(qū)分;由于數(shù)據(jù)特殊性負(fù)面情緒比較明顯,正面情緒比較中性化則在判別的過(guò)程中出現(xiàn)了明顯區(qū)分。比較BERT與W2V-SVM模型的準(zhǔn)確率,W2V-SVM模型達(dá)到80.46%,與BERT模型僅差1.67%,說(shuō)明在評(píng)價(jià)指標(biāo)準(zhǔn)確率上兩者的差距?。坏窃谡倩芈氏嗖?.02%。W2V-Logistic在準(zhǔn)確率與召回率相對(duì)穩(wěn)定,但F1值比BERT模型低4.04%。LSTM與BiLSTM兩者相比,BiLSTM模型各項(xiàng)指標(biāo)均有不同程度的提升,說(shuō)明前后兩個(gè)方向獲取文本信息將會(huì)更有優(yōu)勢(shì),BiLSTM學(xué)習(xí)能力比單向的LSTM強(qiáng)。雙向LSTM模型雖然考慮了前后文本信息,但神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力加上詞向量的組合會(huì)更好一些;相比于BERT模型,W2V-TextCNN模型的F1值相差0.79%(見(jiàn)表3)。

        表3 基本模型結(jié)果比較

        Mean-BERT的測(cè)試結(jié)果受到樣本的影響,本文通過(guò)篩選出語(yǔ)義不明確的樣本進(jìn)行測(cè)試,評(píng)價(jià)結(jié)果中Precision與Recall的得分相差較大;語(yǔ)義不明確的樣本信息特征均等處理,導(dǎo)致極化特征未凸顯,在非平衡文本數(shù)據(jù)的情況下忽略特征的情感含義造成模型難以識(shí)別計(jì)劃特征。從以上結(jié)果來(lái)看,Max-BERT模型提取出極化特征,但小樣本只將關(guān)鍵詞信息提取出來(lái)會(huì)使得文本信息大量丟失;評(píng)價(jià)指標(biāo)F1值達(dá)到79.88%,比BERT模型降低了0.52%,說(shuō)明此模型比BERT略差。均值與最大化拼接不僅考慮當(dāng)前文本極化特征,而且不會(huì)丟失大部分文本信息,BERT模型與此模型F1值相差0.13%;F1值相比于均值池化與最大值池化有所提高(見(jiàn)表4)。在圖4中,根據(jù)AUC做出比較并選擇較優(yōu)模型進(jìn)行集成處理。M2BERT-BiLSTM模型不僅在F1值上有較高的提升,并且在評(píng)判正負(fù)樣本分類的結(jié)果上也沒(méi)有太大的差距。在可控范圍之內(nèi)達(dá)到較優(yōu)的效果,在非平衡文本數(shù)據(jù)的情況下選擇M2BERT-BiLSTM模型進(jìn)行情感分類。

        表4BERT改進(jìn)模型結(jié)果比較

        圖4 不同模型的AUC比較

        圖4為BERT和M2BERT-BiLSTM模型訓(xùn)練集與測(cè)試集的AUC值比較。根據(jù)圖4可以分析出從epoch1到epoch5的過(guò)程中,M2BERT-BiLSTM模型訓(xùn)練集與測(cè)試集的AUC差距從12.55%逐漸縮小至1.07%;而相比于M2BERT-BiLSTM模型,BERT模型訓(xùn)練集與測(cè)試集的效果較差。因此在準(zhǔn)確性上M2BERT-BiLSTM模型比BERT模型有較好的效果。

        4 “新型冠狀病毒肺炎”事件的文本情感詞網(wǎng)分析

        通過(guò)M2BERT-BiLSTM模型對(duì)“新型冠狀病毒肺炎”事件的文本數(shù)據(jù)進(jìn)行分類,分類后得到的正負(fù)向文本進(jìn)行詞網(wǎng)分析。為增強(qiáng)正向與負(fù)向的特征詞顯示度,提取出每行評(píng)論文本特征詞后刪除事件名稱(新型冠狀病毒肺炎等),然后利用Gephi軟件進(jìn)行繪圖。情感特征詞網(wǎng)可以更加直觀地反映出原文本語(yǔ)料的內(nèi)容,例如:“武漢”與“醫(yī)護(hù)”分開(kāi)時(shí),在不同的語(yǔ)境中表達(dá)不同的含義。正向可表達(dá)為“武漢的醫(yī)護(hù)人員辛苦了”,還可以表示“保護(hù)好奔赴于武漢的醫(yī)護(hù)人員”;負(fù)向可以表達(dá)“武漢醫(yī)護(hù)人員的隔離問(wèn)題怎么辦”,還可能表達(dá)“武漢醫(yī)護(hù)人民出門(mén)要戴口罩”。

        圖5 新型冠狀病毒肺炎正面情緒文本特征詞網(wǎng)

        通過(guò)圖5可以得出,正面情緒特征詞網(wǎng)聚集較為明顯,其中主要聚集點(diǎn)有7部分。聚點(diǎn)1“保護(hù)”為出發(fā)點(diǎn),網(wǎng)民正面情緒主要來(lái)自于醫(yī)護(hù)人員、社會(huì)工作者、物資及時(shí)的送達(dá)、“逆行者”等。在疫情期間各地醫(yī)護(hù)人員勇敢逆行,火速馳援湖北武漢,奮戰(zhàn)于一線的醫(yī)護(hù)人員積極帶領(lǐng)公眾共度難關(guān),因此保護(hù)醫(yī)護(hù)人員的安全成為公眾所期盼的愿望。聚點(diǎn)2“武漢”為中心點(diǎn)信息主要為相信國(guó)家和政府“封城”的措施是有效的,在家自行隔離能有效控制疫情傳播。聚點(diǎn)3“加油”為中心點(diǎn)信息希望全國(guó)各地疫情早日散去,堅(jiān)持就是勝利,可以聽(tīng)到好消息。聚點(diǎn)4以“接觸”為起點(diǎn)較為零散,主要展示出的信息為不能歡度春節(jié),但人們盡量做好防護(hù)措施。聚點(diǎn)5為小團(tuán)體,主要表達(dá)為燃眉之急的事務(wù)為企業(yè)復(fù)工;由于疫情的原因居家隔離沒(méi)有經(jīng)濟(jì)來(lái)源。還說(shuō)明此次疫情表現(xiàn)出科技的重要性,大數(shù)據(jù)技術(shù)可以提升疫情的有效管理。聚點(diǎn)6主要是網(wǎng)民希望出行盡快恢復(fù)正常;大多網(wǎng)民從未有過(guò)長(zhǎng)時(shí)間的居家隔離,因此群眾們還未適應(yīng)。聚點(diǎn)7為我國(guó)在第一時(shí)間防止疫情擴(kuò)散,萬(wàn)眾一心抗擊疫情。其余為散落詞團(tuán),可先不作為重點(diǎn)考慮。

        圖6 新型冠狀病毒肺炎負(fù)面情緒文本特征詞網(wǎng)

        從圖6整體可以得出,負(fù)面情緒特征詞網(wǎng)中言語(yǔ)離散,說(shuō)明負(fù)向的語(yǔ)言較為單一且不聚集。負(fù)面情緒成團(tuán)較少,但是明顯成團(tuán)的地方需要特別關(guān)注,其中主要聚集點(diǎn)有5部分。聚點(diǎn)1“野生”“海鮮”“市場(chǎng)”等詞可知疫情發(fā)現(xiàn)地在海鮮市場(chǎng),得出野生海鮮市場(chǎng)會(huì)造成公眾負(fù)面情緒高漲,而北京新發(fā)地市場(chǎng)的三文魚(yú)等水產(chǎn)品檢測(cè)出新冠病毒,將會(huì)引起公眾情緒的二次爆發(fā)。為防止引起公眾負(fù)面情緒波動(dòng),相關(guān)單位應(yīng)對(duì)各地所有海鮮市場(chǎng)等易發(fā)生疫情的市場(chǎng)做出規(guī)范的防控措施;加強(qiáng)對(duì)肉類、海鮮等貨物的監(jiān)測(cè)監(jiān)管,掌握其來(lái)源和流向;加強(qiáng)工作人員的健康管理,外來(lái)人員的體溫檢測(cè)等措施;通過(guò)官方平臺(tái)將采取的措施及時(shí)公布,使公眾輿論不產(chǎn)生大幅度上升。聚點(diǎn)2“武漢”為中心點(diǎn),“造謠”“報(bào)道”“軌跡”為環(huán)繞點(diǎn)可知,疫情得到有效防控,但各地陸續(xù)出現(xiàn)無(wú)癥狀感染者。通過(guò)各大平臺(tái),相關(guān)單位應(yīng)將感染患者的行動(dòng)軌跡及時(shí)公布、對(duì)于疫情制定的措施及時(shí)有效報(bào)道,以免公民隨意猜測(cè),容易形成謠言無(wú)限擴(kuò)散從而造成不必要的恐慌。通過(guò)聚點(diǎn)3以“隔離”為出發(fā)點(diǎn),“外地”“檢測(cè)”“謠言”“傳播”為輔助點(diǎn)分析,各地區(qū)對(duì)于外來(lái)人員首先做核酸檢測(cè),并且對(duì)于有疑似癥狀者采取恰當(dāng)?shù)尼t(yī)學(xué)觀察;對(duì)于外來(lái)人員的核酸檢測(cè)給予證明,防止人員行動(dòng)不便。聚點(diǎn)4為“醫(yī)類方面”“口罩”的原因主要可以從兩個(gè)角度出發(fā):一是在疫情初發(fā)階段口罩的稀缺;二是在全國(guó)各地仍有感染患者,口罩負(fù)面情緒上漲,從側(cè)面反映出疫情情況好轉(zhuǎn)已有人放松警惕。關(guān)于醫(yī)藥的傳言,相關(guān)單位要及時(shí)回應(yīng),以防止公眾盲目相信并出現(xiàn)搶購(gòu)的情況。聚點(diǎn)5為分散點(diǎn),主要討論病毒的潛伏期、公布航班的情況等。

        5 結(jié) 語(yǔ)

        本文緊緊圍繞“新型冠狀病毒肺炎”事件的相關(guān)話題,根據(jù)有關(guān)的知識(shí)探討了輿情非平衡文本數(shù)據(jù)的情感分析。對(duì)微博相關(guān)的內(nèi)容進(jìn)行抓取,通過(guò)人工與機(jī)器算法的對(duì)比分析得出較為準(zhǔn)確的語(yǔ)料,在通過(guò)M2BERT-BiLSTM模型對(duì)輿情非平衡文本數(shù)據(jù)進(jìn)行情感分類。運(yùn)用正負(fù)向評(píng)論分別計(jì)算行特征詞與共現(xiàn)矩陣,利用Gephi中模塊度畫(huà)出正向情緒特征詞網(wǎng)與負(fù)向情緒特征詞網(wǎng),更加清晰了解輿情的情感特征;根據(jù)輿情文本的特征詞網(wǎng)分析出事件產(chǎn)生正面情緒與負(fù)面情緒的主要原因,有助于相關(guān)部門(mén)通過(guò)相關(guān)的分析及時(shí)采取措施。本研究也存在不足之處,采集的數(shù)據(jù)集不大以至于未能挖掘更多的情感特征以供情感分析,在后續(xù)研究中將擴(kuò)大數(shù)據(jù)范圍進(jìn)行深入的研究,為輿情的分析與引導(dǎo)提供更好的建議。

        猜你喜歡
        特征詞維度分類
        分類算一算
        淺論詩(shī)中“史”識(shí)的四個(gè)維度
        分類討論求坐標(biāo)
        基于改進(jìn)TFIDF算法的郵件分類技術(shù)
        數(shù)據(jù)分析中的分類討論
        產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
        教你一招:數(shù)的分類
        光的維度
        燈與照明(2016年4期)2016-06-05 09:01:45
        “五個(gè)維度”解有機(jī)化學(xué)推斷題
        面向文本分類的特征詞選取方法研究與改進(jìn)
        无码中文字幕色专区| 国产在线第一区二区三区| 最近2019年好看中文字幕视频 | 中文字幕综合一区二区三区| 亚洲av成人无遮挡网站在线观看| a级毛片毛片免费观看久潮喷| 人妻精品一区二区三区视频| 成人亚洲av网站在线看| aaa日本高清在线播放免费观看| 性色av一区二区三区| 成人午夜免费无码视频在线观看| 国产成人精品一区二区日出白浆| 91精品国产92久久久| 国产精品久久久久久亚洲av| 国产精品原创巨作av无遮| 亚洲中文字幕一区高清在线| 一边摸一边抽搐一进一出视频| 午夜男女爽爽爽在线视频| 一区二区在线亚洲av蜜桃| 懂色av一区二区三区网久久| 超碰色偷偷男人的天堂| 四虎国产精品永久在线无码| 一区二区三区四区亚洲综合| 邻居人妻的肉欲满足中文字幕| 把女邻居弄到潮喷的性经历| 日韩成人精品在线| 国内国外日产一区二区| 日韩精品无码熟人妻视频| 精品国产三级在线观看| 久久精品国产亚洲AⅤ无码剧情| 美丽小蜜桃1一3在线观看| 亚洲国产成人精品无码区二本| 热久久这里只有| 国产精品自拍网站在线| 亚洲人成网线在线播放va蜜芽 | 色综合久久加勒比高清88| 亚洲国产精品成人一区二区在线| 日韩日韩日韩日韩日韩| 秋霞午夜无码鲁丝片午夜精品| 免费观看在线一区二区| 成午夜福利人试看120秒|