基于BERT預(yù)處理模型的網(wǎng)絡(luò)輿情細(xì)粒度情感分析

2023-06-22 11:30:36徐子昂

現(xiàn)代信息科技 2023年3期

摘? 要：自互聯(lián)網(wǎng)誕生以來(lái)，因其便利性、傳播性和高自由度逐漸成為輿論的主要發(fā)酵地，也引起了網(wǎng)絡(luò)空間中的輿論治理問(wèn)題。在越來(lái)越多的社會(huì)事件中，輿論影響了整個(gè)事件的走向或者處理方式，甚至對(duì)事件中的相關(guān)人員產(chǎn)生影響，因此對(duì)輿情監(jiān)控已然成為一個(gè)急需解決的問(wèn)題。但輿情的負(fù)面性、矛盾性和復(fù)雜性也為監(jiān)管增加了難度。為了推進(jìn)輿情監(jiān)控發(fā)展，研究使用基于BERT預(yù)處理模型的E2E-ABSA，通過(guò)比較其他模型的表現(xiàn)來(lái)判斷模型的可靠性，并與其他研究中使用的情感分析模型進(jìn)行比較，并得出結(jié)論細(xì)粒度情感分析在評(píng)論攜帶多個(gè)主題且觀點(diǎn)不一致的場(chǎng)景下具有明顯優(yōu)勢(shì)。

關(guān)鍵詞：BERT；E2E-ABSA；神經(jīng)網(wǎng)絡(luò)；深度學(xué)習(xí)；輿情監(jiān)控；網(wǎng)絡(luò)治理

中圖分類號(hào)：TP391? 文獻(xiàn)標(biāo)識(shí)碼：A? 文章編號(hào)：2096-4706（2023）03-0014-06

Network Public Opinion Fine-Grained Emotion Analysis Based on BERT Preprocessing Model

XU Ziang

（Shenzhen Campus， Jinan University， Shenzhen? 518053， China）

Abstract： Since the birth of the internet， because of its convenience， communication and high degree of freedom， it has gradually become the main fermentation place of public opinion， which has also caused problems of public opinion governance in cyberspace. In more and more social events， public opinion has affected the trend or handling method of the whole event， and even affected the relevant personnel in the event. Therefore， the monitoring of public opinion has become an urgent problem to be solved. However， the negative， contradictory and complex features of public opinion also increase the difficulty of supervision. In order to promote the development of public opinion monitoring， this paper researches and uses E2E-ABSA based on BERT preprocessing model. It judges the reliability of this model by comparing the performance with other models， and compares with the emotion analysis model used in other researches， and concludes that fine-grained emotion analysis in comments with multiple topics and scenario of inconsistent views has obvious advantages.

Keywords： BERT; E2E-ABSA; neural network; deep learning; public opinion monitoring; network governance

0? 引? 言

中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心CNNIC發(fā)布的第49次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示截至2021年12月，我國(guó)網(wǎng)民規(guī)模達(dá)到了10.32億，網(wǎng)絡(luò)普及率達(dá)73%?；ヂ?lián)網(wǎng)的規(guī)模越來(lái)越大，中國(guó)互聯(lián)網(wǎng)出現(xiàn)了如微博、知乎、百度貼吧、抖音等信息交流的平臺(tái)，互聯(lián)網(wǎng)用戶可以借助這些平臺(tái)表達(dá)自己對(duì)實(shí)事的看法，互聯(lián)網(wǎng)也因此具有一定的輿論價(jià)值，在群體性事件發(fā)生、發(fā)展過(guò)程中，網(wǎng)絡(luò)媒體有關(guān)群體性事件的報(bào)道、評(píng)論及相關(guān)信息傳播，會(huì)形成較具社會(huì)影響力的網(wǎng)絡(luò)輿情，使群體性事件進(jìn)一步聚集、擴(kuò)大，從而加大了相關(guān)機(jī)構(gòu)預(yù)防與處置群體性事件的難度。例如在2021年5月9日發(fā)生的“成都四十九中學(xué)生墜樓”事件：事件經(jīng)過(guò)發(fā)酵，在網(wǎng)絡(luò)上迅速傳播，并出現(xiàn)了不同版本的事件猜測(cè)。在新浪微博平臺(tái)，該事件登上熱搜。三人成虎，許多不明真相的群眾以傳播的非事實(shí)為據(jù)，聲討甚至網(wǎng)暴與此事無(wú)關(guān)的人員。最后警方通報(bào)認(rèn)定49中學(xué)高二學(xué)生林某某系高墜死亡，排除刑事案件，并告知家屬，家屬對(duì)調(diào)查結(jié)論無(wú)異議。至此輿論平息，但是此次事件也對(duì)許多無(wú)關(guān)人員造成了身心傷害，一定程度上損害了社會(huì)穩(wěn)定性和政府公信力。由此，準(zhǔn)確把握群體性事件網(wǎng)絡(luò)輿情的特征，加強(qiáng)網(wǎng)絡(luò)輿情監(jiān)控與引導(dǎo)，既有利于當(dāng)事人著手社會(huì)擴(kuò)散性事件的處理，也有利于社會(huì)整體的安定。

本研究旨在應(yīng)用以BERT預(yù)處理模型的基礎(chǔ)建立的針對(duì)網(wǎng)絡(luò)平臺(tái)熱搜的端到端的細(xì)粒度情感分析（End to End Aspect-Based Sentiment Analysis， E2E-ABSA）模型，這種模型提取數(shù)據(jù)中的方面項(xiàng)和其感情極性，輸出數(shù)據(jù)中包含的情緒是正面或負(fù)面和程度大小，預(yù)期訓(xùn)練處具有準(zhǔn)確性和魯棒性，能較為準(zhǔn)確、快速地生成細(xì)粒度情感分析詞條的模型。在此基礎(chǔ)上，對(duì)研究過(guò)程進(jìn)行分析，討論ABSA在輿情監(jiān)控方面的作用，分析其的優(yōu)點(diǎn)和不足，并嘗試給出解決方向。

1? 背景分析

1.1? 細(xì)粒度情感分析研究現(xiàn)狀

對(duì)于細(xì)粒度情感分析來(lái)說(shuō)，早期的情感細(xì)粒度分析任務(wù)主要為單一的ABSA任務(wù)。單一任務(wù)有方面項(xiàng)抽?。ˋspect Term Extraction， ATE）、方面類別識(shí)別（Aspect Category

Detection， ACD）、觀點(diǎn)項(xiàng)抽?。∣pinoin Term Extraction， OTE）

和方面情感分類（Aspect Sentiment Classificatio， ASC）。例如Xue等人的文章中使用ATE抽取文本中的方面項(xiàng)，使用ASC提取方面項(xiàng)中的情感極性。后來(lái)預(yù)訓(xùn)練模型（PLMs）問(wèn)世，例如基于Transformer的雙向編碼器特征（Bidirectional Encoder Representations from Transformer， BERT）和RoBERTa，使得ABSA模型的魯棒性和泛用性得到了大幅提高，Lee等人首次使用BERT在E2E-ABSA中取得了SOTA的效果。自PLMs問(wèn)世，其對(duì)于ABSA任務(wù)的提升得到了學(xué)界廣泛認(rèn)可，因此預(yù)訓(xùn)練成了NLP領(lǐng)域的主流方法，后來(lái)的復(fù)合ABSA任務(wù)大部分都是基于PLMs。復(fù)合的ABSA任務(wù)的目標(biāo)涉及多個(gè)情感元素，因此復(fù)合的ABSA任務(wù)可以認(rèn)為是單一ABSA任務(wù)的組合與關(guān)聯(lián)。本文采用一種復(fù)合的ABSA任務(wù)：E2E-ABSA，同時(shí)提取方面項(xiàng)和其感情極性，其方法有三種：流水線（Pipeline）、聯(lián)合（Joint）和統(tǒng)一（Unified），其中Pipeline方法是獨(dú)立地提取兩個(gè)情感元素，在最后耦合，如同上述的AOPE，Joint和Unified方法則進(jìn)行聯(lián)合訓(xùn)練，Unified方法特別地消除了兩個(gè)任務(wù)的邊界，三種方法都具有良好的性能。而且無(wú)論采用哪種方法，都要考慮方面邊界和情感極性之間的關(guān)系，而且由于意見(jiàn)項(xiàng)為方面術(shù)語(yǔ)和情感取向提供了指示性線索，意見(jiàn)術(shù)語(yǔ)的提取已經(jīng)成為E2E-ABSA的一個(gè)輔助任務(wù)。

1.2? 輿情監(jiān)控研究現(xiàn)狀

對(duì)于輿情監(jiān)控方面，研究已經(jīng)從快速發(fā)展階段轉(zhuǎn)為穩(wěn)定發(fā)展階段，楊應(yīng)全對(duì)研究現(xiàn)狀做出了較為全面的概括，提出“在目前的研究中，學(xué)者引入了大數(shù)據(jù)、云計(jì)算、系統(tǒng)動(dòng)力學(xué)、情感傾向、意見(jiàn)領(lǐng)袖等技術(shù)與理念，涉及管理學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、心理學(xué)、社會(huì)學(xué)等多個(gè)學(xué)科。多學(xué)科的交叉融合是該領(lǐng)域研究的發(fā)展方向”。曲成義提出“在信息化高速發(fā)展的情況下，必須對(duì)突發(fā)事件網(wǎng)絡(luò)輿情進(jìn)行治理，維護(hù)社會(huì)穩(wěn)定，從而提升政府的執(zhí)政能力”。徐曉日認(rèn)為“如果對(duì)網(wǎng)絡(luò)輿情處置不當(dāng)，可能會(huì)激起網(wǎng)民的負(fù)面情緒，進(jìn)而影響社會(huì)秩序的穩(wěn)定”。在以往的研究中，突發(fā)事件、新媒體、網(wǎng)絡(luò)輿情治理和輿情監(jiān)測(cè)與預(yù)測(cè)是熱門關(guān)鍵詞。

1.3? 應(yīng)用于輿情監(jiān)控的情感分析研究現(xiàn)狀

而對(duì)于相對(duì)粗略的情感分析，目前輿情監(jiān)控應(yīng)用方面的研究，史偉概括性地提出“近年來(lái)，國(guó)內(nèi)外網(wǎng)絡(luò)輿情相關(guān)的研究成果主要分為基礎(chǔ)理論、支持技術(shù)和應(yīng)用研究三個(gè)層次，所分析的領(lǐng)域已經(jīng)從在線產(chǎn)品評(píng)論轉(zhuǎn)向社交媒體文本”，曾子明利用改進(jìn)后的情感詞典提出一種融合深層演化特征、淺層詞性特征和情感特征的多層次特征組合模型，將情感進(jìn)行正負(fù)性分類并且準(zhǔn)確度達(dá)到85%，栗雨晴構(gòu)建雙語(yǔ)情感詞典將微博文本情感分為社會(huì)關(guān)愛(ài)、高興、悲傷、憤怒、恐懼五類，解決了情感分析基于單一語(yǔ)種的問(wèn)題。

但是對(duì)于細(xì)粒度情感分析來(lái)說(shuō)，目前較少研究其輿情監(jiān)控方面的應(yīng)用。但也有如孫雷研究提出“基于分詞的預(yù)訓(xùn)練模型在進(jìn)行中文下游任務(wù)情感分析能取得更好的結(jié)果”為未來(lái)細(xì)粒度情感分析應(yīng)用提供研究基礎(chǔ)。

1.4? 研究意義

在互聯(lián)網(wǎng)規(guī)模日益增大，互聯(lián)網(wǎng)影響力隨之增大的情況下，網(wǎng)絡(luò)輿情的力量是不容忽視的。網(wǎng)絡(luò)空間給予互聯(lián)網(wǎng)中的人們極大的自由度和包容性，這對(duì)于網(wǎng)民來(lái)說(shuō)是表達(dá)自己意見(jiàn)絕佳的場(chǎng)所。而觀點(diǎn)則是大眾對(duì)于某一發(fā)生的社會(huì)事件在不同的視角下持有的態(tài)度。當(dāng)一件社會(huì)事件發(fā)生時(shí)，互聯(lián)網(wǎng)時(shí)代帶來(lái)的信息浪潮是不可與紙媒時(shí)代同日而語(yǔ)的，人們持有的觀點(diǎn)蘊(yùn)藏著巨大的應(yīng)用價(jià)值和潛在危害。對(duì)于這些觀點(diǎn)進(jìn)行監(jiān)測(cè)并對(duì)大眾輿情做出正確的反應(yīng)，可以有效減少輿情的潛在危害，發(fā)揮其應(yīng)用價(jià)值；如果不能及時(shí)精確地監(jiān)測(cè)輿情，對(duì)輿情進(jìn)行正確的引導(dǎo)，不僅會(huì)對(duì)當(dāng)事人造成傷害，妨礙社會(huì)事件的處理，還會(huì)降低政府公信力，甚至出現(xiàn)輿情錯(cuò)誤引導(dǎo)群眾對(duì)無(wú)關(guān)人員進(jìn)行攻擊的現(xiàn)象。提高輿情治理能力是網(wǎng)絡(luò)時(shí)代的必然要求，特別是重大突發(fā)事件發(fā)生期間輿論密度會(huì)加劇，政府、企業(yè)和網(wǎng)絡(luò)自媒體等應(yīng)改進(jìn)網(wǎng)絡(luò)輿情的治理方式，現(xiàn)有單一的治理體系并不能有效地引導(dǎo)輿情，政府應(yīng)加強(qiáng)網(wǎng)絡(luò)環(huán)境建設(shè)，與企業(yè)和網(wǎng)絡(luò)媒體等主體形成協(xié)同治理格局。

此外，對(duì)于輿情監(jiān)控來(lái)說(shuō)，交叉學(xué)科是其未來(lái)研究方向。目前基于情感分析的研究相對(duì)較多，但是將ABSA應(yīng)用到輿情監(jiān)控方面的相對(duì)較少。情感分析往往只能對(duì)一個(gè)事件的整體得出極性詞，當(dāng)其應(yīng)用于輿情監(jiān)控時(shí)，會(huì)有一定的局限性，例如輿情監(jiān)控人員無(wú)法得到事件中大眾對(duì)某一主體的詳細(xì)觀點(diǎn)，而且網(wǎng)絡(luò)輿情評(píng)論一般較為簡(jiǎn)短，上下文關(guān)聯(lián)性強(qiáng)，普通的情感分析與ABSA比較不能較好地針對(duì)這些特點(diǎn)進(jìn)行處理。相較于一般的情感分析來(lái)說(shuō)，ABSA可以得出主體中某一方面的極性詞，特別地，E2E-ABSA能較好地處理文本較短、上下文關(guān)聯(lián)強(qiáng)的數(shù)據(jù)集，并且能適應(yīng)多個(gè)主題、攜帶情感不一致的復(fù)雜情況。而此研究對(duì)于輿情監(jiān)控方面的應(yīng)用，也可以較好地補(bǔ)充此方面的空白，拓展ABSA的應(yīng)用領(lǐng)域。

2? 方法介紹

鑒于上文中提到的，對(duì)于輿情監(jiān)控，有大量非細(xì)粒度情感分析的模型應(yīng)用，但是對(duì)于細(xì)粒度情感分析模型的應(yīng)用少之又少。輿情中蘊(yùn)含的情緒具有復(fù)雜、多元和程度的區(qū)別，對(duì)于ABSA來(lái)說(shuō)，由于其能提取數(shù)據(jù)中更詳細(xì)的方面項(xiàng)，筆者相信其在輿情監(jiān)控方面能提供更全面的輿論分析，補(bǔ)足非細(xì)粒度情感分析只能對(duì)輿情整體而無(wú)法對(duì)輿情中某個(gè)主體進(jìn)行分析的空白。

本研究將使用基于BERT的E2E-ABSA模型，收集某段時(shí)間內(nèi)新浪微博上熱搜的評(píng)論，并對(duì)其進(jìn)行人工標(biāo)注，形成訓(xùn)練數(shù)據(jù)集，研究的模型將在此數(shù)據(jù)集的基礎(chǔ)上進(jìn)行訓(xùn)練。訓(xùn)練出來(lái)的模型將使用未參與訓(xùn)練的數(shù)據(jù)集進(jìn)行測(cè)試，得出當(dāng)時(shí)輿情的情況，并進(jìn)行任務(wù)的評(píng)估。除此之外，本研究還將測(cè)試模型的參數(shù)，并與其他已有的ABSA模型進(jìn)行比對(duì)，最后得出本研究使用的模型是否適用于輿情監(jiān)控。

2.1? BERT預(yù)訓(xùn)練模型

BERT模型的全稱是Bidirectional Encoder Representations from Transformer，基于Transformer的雙向編碼器特征，是一個(gè)預(yù)訓(xùn)練的語(yǔ)言表征模型，它強(qiáng)調(diào)了不再像以往一樣采用傳統(tǒng)的單向語(yǔ)言模型或者把兩個(gè)單向語(yǔ)言模型進(jìn)行淺層拼接的方法進(jìn)行預(yù)訓(xùn)練，而是采用新的Masked Language Model（MLM），以致能生成深度的雙向語(yǔ)言表征。Li等人的實(shí)驗(yàn)證實(shí)了BERT預(yù)處理模型的優(yōu)越性，BERT模型加上具體的任務(wù)層在各個(gè)方面都優(yōu)于LSTM-CRF和現(xiàn)有其他模型。因此本研究使用的BERT預(yù)訓(xùn)練模型將會(huì)使最后的模型在測(cè)試和應(yīng)用方面表現(xiàn)得更加出色。

與基于Word2Vec或GloVe的嵌入層相比，BERT嵌入層會(huì)以句子作為輸入，而不是整段文章，并用整個(gè)句子計(jì)算token級(jí)特征，如圖1所示。

BERT會(huì)針對(duì)兩個(gè)任務(wù)進(jìn)行預(yù)訓(xùn)練：語(yǔ)言建模和下一句預(yù)測(cè)。BERT預(yù)訓(xùn)練結(jié)果是使模型學(xué)習(xí)了詞的上下文嵌入?；诖?，模型可以在較小的數(shù)據(jù)集上使用更少的資源進(jìn)行微調(diào)，以優(yōu)化其在特定任務(wù)上的性能。例如圖1給出的句子“My dog is cute”BERT會(huì)先將輸入特征打包為H0={e1，…，eT}，

其中eT（t∈[1，T]）是與輸入特征xt相關(guān)聯(lián)的Token Embedding、Position Embedding和Segment Embedding的組合。然后引入L個(gè)Transformer層，逐層細(xì)化token級(jí)的特征。最后BERT輸出對(duì)應(yīng)token的Transformer輸出。

2.2? E2E-ABSA模型

端到端的ABSA（E2E-ABSA）是本研究模型的主體，用來(lái)同時(shí)提取輿情評(píng)論中方面項(xiàng)和它相應(yīng)的情感極性，抽取數(shù)據(jù)中的（a， p）pairs。其可以看作是ATE和ASCE兩個(gè)任務(wù)的結(jié)合。E2E-ABSA有三種方法：Pipeline、Joint和Unified，鑒于三種方法訓(xùn)練出的模型都具有良好的性能，本研究將采用Unified方法。這種方法將上述兩個(gè)任務(wù)的邊界抹除，并用“Unified”標(biāo)簽標(biāo)記情感元素?；诖耍珽2E-ABSA可以通過(guò)標(biāo)準(zhǔn)序列標(biāo)記器（Standard Sequence Tagger）使用TokenClass范式處理。

本研究借鑒了Li等人的模型，在BERT模型的基礎(chǔ)上假設(shè)了E2E-ABSA模型，以執(zhí)行研究需要的E2E-ABSA任務(wù)。該模型分為四個(gè)部分：線性層、循環(huán)神經(jīng)網(wǎng)絡(luò)、自注意力網(wǎng)絡(luò)和條件隨機(jī)場(chǎng)。

2.2.1? 線性層

BERT預(yù)訓(xùn)練輸出的token特征可以直接運(yùn)用到線性層中，利用softmax激活函數(shù)計(jì)算出token級(jí)的預(yù)測(cè)，其表示如式（1）所示：

（1）

其中線性層的可學(xué)習(xí)參數(shù) 。

2.2.2? 循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）是E2E-ABSA任務(wù)絕佳的解決方案，本研究采用Cho等人提出的GRU，Jozefowicz等人驗(yàn)證過(guò)了其相比于LSTM和一般的RNN具有優(yōu)越性。第t步特定任務(wù)的隱藏特征? 計(jì)算公式如式（2）、式（3）和式（4）所示：

（2）

（3）

（4）

其中σ表示sigmoid激活函數(shù)，rt，zt，nt分別表示reset gate，update gate和new gate，和? ?是GRU的參數(shù)。在Transformer的輸出上直接使用RNN，BERT輸出的特征? 可能會(huì)使訓(xùn)練結(jié)果不能達(dá)到理想的水平。因此計(jì)算gate時(shí)在原本基礎(chǔ)上添加一層Layer-Normalization（LN）。加入softmax層得到預(yù)測(cè)結(jié)果：

（5）

2.2.3? 自注意力網(wǎng)絡(luò)

自注意力機(jī)制是深度學(xué)習(xí)領(lǐng)域的又一大有力工具。自注意力網(wǎng)絡(luò)（SAN）以其在訓(xùn)練模型中優(yōu)越的表現(xiàn)被廣泛地運(yùn)用在RNN和CNN中。本研究使用兩種SAN的變種構(gòu)建特定任務(wù)的token特征。

其中一種包含一層簡(jiǎn)單的自注意力層和一層殘差網(wǎng)絡(luò)，其計(jì)算公式如式（6）和式（7）所示：

H T=LN（H L+SLFATT（Q， K， V））? ? ? ? ? ? ? ? ? （6）

Q， K， V=H LW Q， H LW K，H LW V? ? ? ? ? ? ? ? ? （7）

其中SLFATT表示Self-Attentive Scaled Dot-Product Attention，H表示前文h的向量，Q、K、V分別表示三個(gè)矩陣，Q表示注意力矩陣，K表示鍵，V表示值。

另一種是一層與BERT中Encoder層類似的Transformer層，其計(jì)算公式如式（8）和式（9）所示：

（8）

（9）

其中FFN表示Point-Wise Feed-Forward Networks。

最后將一層與2.2.1中相同的線性層堆疊在本層上，用于輸出預(yù)測(cè)結(jié)果。

2.2.4? 條件隨機(jī)場(chǎng)

條件隨機(jī)場(chǎng)（Conditional Random Fields， CRF）被廣泛應(yīng)用于序列標(biāo)記的任務(wù)中，其被證實(shí)是在序列建模中較為有效的方法。本研究采用一種在BERT嵌入層上的線性鏈CRF層。本層用于全局尋找最符合的標(biāo)簽序列，y={y1， …， yT}的可能性p（y|x）與序列級(jí)分?jǐn)?shù)s（x， y）計(jì)算公式如式（10）和式（11）所示：

（10）

p（x| y）=softmax（s（x， y））? ? ? ? ? ? ? ? ? ? ?（11）

其中? 是用來(lái)建立預(yù)測(cè)之間依賴關(guān)系模型的隨機(jī)初始化轉(zhuǎn)移矩陣，是根據(jù)BERT特征HL線性變換得來(lái)的發(fā)射矩陣。此處的softmax函數(shù)針對(duì)所有可能的標(biāo)簽序列，解碼時(shí)則將得分最高的標(biāo)簽序列輸出：

y*=argmaxy s（x， y）? ? ? ? ? ? ? ? ? ? ? ? ?（12）

3? 實(shí)驗(yàn)結(jié)果與分析

3.1? 數(shù)據(jù)收集和處理

數(shù)據(jù)收集是一項(xiàng)極其重要的工作，收集數(shù)據(jù)的質(zhì)量決定了訓(xùn)練出的模型的質(zhì)量。本研究以新浪微博為數(shù)據(jù)抓取對(duì)象，對(duì)微博熱搜頁(yè)下的實(shí)時(shí)評(píng)論進(jìn)行抓取，獲得原始數(shù)據(jù)，部分原始數(shù)據(jù)如圖2所示。

在抓取的過(guò)程中，將會(huì)設(shè)置相關(guān)的屏蔽條件，例如抓取用戶等級(jí)較高的用戶評(píng)論，盡可能排除網(wǎng)絡(luò)水軍的冗雜數(shù)據(jù)，為后續(xù)數(shù)據(jù)處理減少工作量。

利用瀏覽器自帶開(kāi)發(fā)者工具對(duì)微博熱搜頁(yè)進(jìn)行觀察發(fā)現(xiàn)，熱搜頁(yè)有共計(jì)50條熱搜，每條熱搜的元素中有熱搜詳情頁(yè)的url。熱搜詳情頁(yè)的url默認(rèn)為熱門微博，而熱門微博大部分為官方媒體通稿，不符合數(shù)據(jù)采集要求。觀察發(fā)現(xiàn)熱搜詳情頁(yè)旁導(dǎo)航欄有實(shí)時(shí)動(dòng)態(tài)，對(duì)其url解析后發(fā)現(xiàn)熱門頁(yè)面與實(shí)時(shí)頁(yè)面url結(jié)構(gòu)為“熱搜頁(yè)面域名”+“熱門/實(shí)時(shí)”+“熱搜詞條”+“熱門/實(shí)時(shí)”。因此可以對(duì)新浪服務(wù)器請(qǐng)求得到頁(yè)面，然后用xpath表達(dá)式獲得指定url，并對(duì)url進(jìn)行修改獲得實(shí)時(shí)頁(yè)面url，從而獲得實(shí)時(shí)評(píng)論數(shù)據(jù)。

在實(shí)際數(shù)據(jù)抓取中，秉持爬蟲(chóng)網(wǎng)站友好原則，對(duì)數(shù)據(jù)的抓取頻率為4次/小時(shí)。之后將收集的數(shù)據(jù)整理成模型能夠識(shí)別的數(shù)據(jù)集。對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的清洗，人工去除微博評(píng)論中的非評(píng)論元素。之后對(duì)數(shù)據(jù)進(jìn)行人工標(biāo)注，部分?jǐn)?shù)據(jù)集如圖3所示。

標(biāo)注格式是OT。其中O標(biāo)記表示token不屬于任何塊?！癟-”前綴是標(biāo)記一個(gè)在另一個(gè)塊之后且之間沒(méi)有O標(biāo)記的塊的開(kāi)始，“T-NEG”表示負(fù)面的感情極性而“T-POS”表示正面，“T-NEU”表示中性。

3.2? 模型訓(xùn)練

在模型中，研究將上游部分BERT的Transformer層數(shù)設(shè)置為12，dimh為768。而對(duì)于下游的E2E-ABSA組件，研究使用單層架構(gòu)并且設(shè)置維度同樣為dimh。學(xué)習(xí)率為2e-5[16]。數(shù)據(jù)集的批處理大小設(shè)置為16。模型的訓(xùn)練迭代次數(shù)設(shè)置為1 000。在模型訓(xùn)練完后，使用未參與訓(xùn)練的數(shù)據(jù)集進(jìn)行測(cè)試。

3.3? 基于BERT的E2E-ABSA效果

3.3.1? 模型效果

在得到訓(xùn)練的模型后，對(duì)采集的未參與模型訓(xùn)練的數(shù)據(jù)進(jìn)行測(cè)試。測(cè)試數(shù)據(jù)主要采集于2022年8月3日。測(cè)試主要數(shù)據(jù)為TP（True Positive）：正確的正例，一個(gè)實(shí)例是正類并且也被判定成正類；FN（False Negative）：錯(cuò)誤的反例，漏報(bào)，本為正類但判定為假類；FP（False Positive）：錯(cuò)誤的正例，誤報(bào)，本為假類但判定為正類；TN（True Negative）：正確的反例，一個(gè)實(shí)例是假類并且也被判定成假類。利用上述樣本計(jì)算樣本的精確率P、召回率R和F1值進(jìn)行測(cè)量，并與已有研究的實(shí)驗(yàn)結(jié)果進(jìn)行比對(duì)，結(jié)果如表1所示。

其中，精確率P計(jì)算公式如式（13）所示：

（13）

召回率R計(jì)算公式如式（14）所示：

（14）

F1值為P和R的加權(quán)調(diào)和平均數(shù)，計(jì)算公式如式（15）表示：

（15）

P、R和F1均為越大則模型在測(cè)試中表現(xiàn)越好。從表格中的數(shù)據(jù)可以看到，本次實(shí)驗(yàn)的模型精確率P、召回率R和F1值在所有已有實(shí)驗(yàn)數(shù)據(jù)的中下游，但是都超過(guò)了不同于本實(shí)驗(yàn)的Unified Model和LSTM-CRF，而且精確率P較于BERT+GRU更為優(yōu)秀，召回率R較于BERT+SAN和BERT+TFM更高，F(xiàn)1值超過(guò)了BERT+Linear，證明本研究的模型測(cè)試表現(xiàn)亦有可取之處?？紤]到模型測(cè)試的數(shù)據(jù)依概率收斂于其真實(shí)性能，且本次實(shí)驗(yàn)數(shù)據(jù)集較少且測(cè)試任務(wù)的數(shù)據(jù)跨度相較已有模型較大，可以推斷此模型達(dá)到了預(yù)期的要求。且本研究采用的BERT預(yù)訓(xùn)練模型為基礎(chǔ)的E2E-ABSA相較于其他方法，如Unified Model和LSTM-CRF均有明顯優(yōu)勢(shì)，證明本研究采用的模型相較于一些其他的模型在測(cè)試的表現(xiàn)中更好，在未來(lái)實(shí)際運(yùn)用過(guò)程中可能更加適合。

3.3.2? 輿情監(jiān)控效果

在模型經(jīng)過(guò)測(cè)試后，得到了2022年10月3日某時(shí)間段內(nèi)微博熱搜實(shí)時(shí)評(píng)論的細(xì)粒度感情極性輸出，利用Python中的wordcloud庫(kù)將其可視化并做成詞云，如圖4和圖5所示，圖4為正面詞云，圖5為負(fù)面詞云，其中詞的大小表示頻度，顏色的深淺表示情緒的強(qiáng)烈程度。

可以從詞云看到當(dāng)天的某時(shí)間段內(nèi)，微博用戶主要對(duì)國(guó)慶和北溪管道被破壞事件關(guān)注度比較高。在圖4正面詞云中，“國(guó)慶”一詞大小最大，顏色最深，表明其討論度最高、在用戶評(píng)論中出現(xiàn)頻率最高且正面的情感詞性最強(qiáng)烈，“生日”一詞大小較小，顏色深度較淺，表明其在用戶評(píng)論中出現(xiàn)頻率較少且正面情感詞性較弱，猜測(cè)可能是因?yàn)橛行┯脩籼峒啊吧铡睍r(shí)并表達(dá)正面情緒較少或反映出負(fù)面情緒。在圖5負(fù)面詞云中，“疫情”一詞大小最大，顏色深度較深，表明了用戶在提及“疫情”一詞的頻率較高，且?guī)в休^大的負(fù)面情緒，對(duì)于“天然氣”一詞其大小較大但是顏色深度在次云中并不突出，表明用戶提及“天然氣”頻率較高但是負(fù)面情緒雖然不強(qiáng)烈但也有一定量級(jí)。而從整體來(lái)看，正面詞云顏色深度較于負(fù)面詞云較深，表明當(dāng)天某時(shí)間段內(nèi)用戶的情感極性普遍表現(xiàn)為正面。

由上述分析與普通的應(yīng)用于輿情監(jiān)控的情感分析作對(duì)比，可以看出ABSA可以將輿情中的某一個(gè)客體剝離出來(lái)，或者是更進(jìn)一步將這個(gè)客體的兩種不同的感情極性剝離出來(lái)，這為輿情監(jiān)控提供了更加細(xì)化的分析。這些特點(diǎn)使得模型在公眾對(duì)一個(gè)事件持有不同態(tài)度、情感極性程度不同的情況下對(duì)輿情的測(cè)量更為準(zhǔn)確。王巍提出“在網(wǎng)絡(luò)空間治理過(guò)程中公眾的情緒和觀點(diǎn)如果凌駕于事實(shí)之上，擴(kuò)大化的涉警網(wǎng)絡(luò)輿情危機(jī)將沖擊公平正義。公安機(jī)關(guān)在處置輿情危機(jī)的過(guò)程中稍有不慎，尤其是在突發(fā)事件發(fā)生的同期，將會(huì)影響事件的發(fā)展和演變更為嚴(yán)重的后果，將導(dǎo)致狂風(fēng)暴雨式的蝴蝶效應(yīng)”。

4? 結(jié)? 論

本研究使用了基于BERT預(yù)處理模型的E2E-ABSA建立模型，并使用某一時(shí)間段內(nèi)新浪微博平臺(tái)上熱點(diǎn)事件用戶評(píng)論進(jìn)行測(cè)試。模型訓(xùn)練的成果達(dá)到預(yù)期要求，各項(xiàng)指標(biāo)均在預(yù)期范圍之內(nèi)。研究結(jié)果證明，該模型可以對(duì)于在公眾對(duì)一個(gè)事件持有不同態(tài)度、情感極性程度不同的情況下可以獨(dú)立地提取不同方面的感情極性，輿情監(jiān)控的效果相較傳統(tǒng)情感分析模型具有相當(dāng)?shù)膬?yōu)勢(shì)，精確性和可信度較高。

同時(shí)，本研究也存在著一定的問(wèn)題。本研究使用的訓(xùn)練數(shù)據(jù)集為筆者自己收集和標(biāo)注，并且相較于ABSA一般的應(yīng)用場(chǎng)景——商品或服務(wù)評(píng)論，事件的評(píng)論會(huì)隨著事件變化較大，同一個(gè)方面詞在不同的事件中可能會(huì)表現(xiàn)出不同的感情極性。鑒于此訓(xùn)練出的模型效果可能并不會(huì)和一般應(yīng)用場(chǎng)景中的好，模型測(cè)試的數(shù)據(jù)也證實(shí)了這一點(diǎn)。此外，E2E-ABSA模型雖然可以給出方面項(xiàng)和對(duì)應(yīng)的感情極性，但是其感情極性分為正面和負(fù)面兩種，在實(shí)際生活中人們對(duì)事件的態(tài)度是多維的，可能是憤怒、悲傷、開(kāi)心等甚至是兩種以上的情感結(jié)合，E2E-ABSA任務(wù)只能提取正面或負(fù)面的感情極性，因此對(duì)于應(yīng)用于輿情監(jiān)控的情感分析還存在著改善的空間。另一方面，目前研究應(yīng)用于輿情監(jiān)控的ABSA較少，在此領(lǐng)域存在較大空白，因此本研究可以比較和參考的文獻(xiàn)較少，可能存在潛在的問(wèn)題。對(duì)于這些問(wèn)題，可能的解決方向如下：使用更加完善的數(shù)據(jù)集、使用更加全面和完善的ABSA模型和持續(xù)學(xué)習(xí)的ABSA。

互聯(lián)網(wǎng)由于其時(shí)域性、互動(dòng)性和低成本性，成了當(dāng)下網(wǎng)絡(luò)輿論的主要發(fā)酵地。網(wǎng)絡(luò)輿情已經(jīng)和社會(huì)穩(wěn)定密切相關(guān)，網(wǎng)絡(luò)輿情的監(jiān)控有利于國(guó)家平穩(wěn)發(fā)展，預(yù)防可能存在的公共事件導(dǎo)致的輿情危機(jī)，幫助分析輿情中的演變機(jī)制等。本研究也持這樣的目的，希望推進(jìn)網(wǎng)絡(luò)輿情監(jiān)控方面的發(fā)展，減少輿情對(duì)社會(huì)帶來(lái)的負(fù)面沖擊。此外，本研究也希望推進(jìn)ABSA應(yīng)用場(chǎng)景的擴(kuò)展，不再局限于商品和服務(wù)的評(píng)論。

參考文獻(xiàn)：

[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.CNNIC發(fā)布第49次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》 [J].新聞潮，2022（2）：3.

[2] 彭知輝. 論群體性事件與網(wǎng)絡(luò)輿情 [J].公安理論與實(shí)踐：上海公安高等?？茖W(xué)校學(xué)報(bào)，2008（1）：46-50.

[3] XUE W，ZHOU W B，LI T，et al. MTNA：A Neural Multi-Task Model for Aspect Category Classification and Aspect Term Extraction on Restaurant Reviews [C]//the Eighth International Joint Conference on Natural Language Processing.Taipei：IJCNLP，2017，2：151-156.

[4] DEVLIN J，CHANG M W，LEE K，et al. BERT：Pre-Training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv：1810.04805 [cs.CL].[2022-08-09].https：//arxiv.org/abs/1810.04805v1.

[5] KAPIL P. A Novel Neural Network Architecture for Sentiment-Oriented Aspect-Opinion Pair Extraction [D].Bangalore：Indian Institute of Science，2021.

[6] ZHANG W X，LI X，DENG Y，et al. A Survey on Aspect-Based Sentiment Analysis：Tasks，Methods，and Challenges [J/OL].arXiv：2203.01054 [cs.CL].[2022-08-07].https：//arxiv.org/abs/2203.01054.

[7] FAN F F，F(xiàn)ENG Y S，ZHAO D Y. Multi-Grained Attention Network for Aspect-Level Sentiment Classification [C]//the 2018 Conference on Empirical Methods in Natural Language Processing.Brussels：EMNLP，2018：3433-3442.

[8] 楊應(yīng)全，劉子輝.我國(guó)突發(fā)事件網(wǎng)絡(luò)輿情研究綜述 [J].重慶科技學(xué)院學(xué)報(bào)：社會(huì)科學(xué)版，2022（2）：40-48+71.

[9] 曲成義.網(wǎng)絡(luò)突發(fā)事件的應(yīng)急對(duì)策與治理環(huán)境的建設(shè) [J].信息化建設(shè)，2005（10）：16-17.

[10] 徐曉日.網(wǎng)絡(luò)輿情事件的應(yīng)急處理研究 [J].華北電力大學(xué)學(xué)報(bào)：社會(huì)科學(xué)版，2007（1）：89-93.

[11] 史偉，薛廣聰，何紹義.情感視角下的網(wǎng)絡(luò)輿情研究綜述 [J].圖書(shū)情報(bào)知識(shí)，2022，39（1）：105-118.

[12] 曾子明，萬(wàn)品玉.融合演化特征的公共安全事件微博情感分析 [J].情報(bào)科學(xué)，2018，36（12）：3-8+51.

[13] 栗雨晴，禮欣，韓煦，等.基于雙語(yǔ)詞典的微博多類情感分析方法 [J].電子學(xué)報(bào)，2016，44（9）：2068-2073.

[14] 孫雷.基于主題模型的微博評(píng)論細(xì)粒度情感分析研究 [D].邯鄲：河北工程大學(xué)，2021.

[15] SANG E F T K，VEENSTRA J. Representing Text Chunks [J/OL].arXiv：cs/9907006 [cs.CL].[2022-08-08].https：//arxiv.org/abs/cs/9907006.

[16] DEVLIN J，CHANG M W，LEE K，et al. BERT：Pre-training of Deep Bidirectional Transformers for Language Understanding [J/OL].arXiv：1810.04805 [cs.CL].[2022-08-09].https：//arxiv.org/abs/1810.04805v1.

[17] LI X，BING L D，ZHANG W X，et al. Exploiting BERT for End-to-End Aspect-Based Sentiment Analysis [J/OL].arXiv：1910.00883 [cs.CL].[2022-08-06].https：//arxiv.org/abs/1910.00883.

[18] CHO K，MERRIENBOER B V，GULCEHRE C，et al. Learning Phrase Representations Using RNN Encoder-Decoder for Statistical Machine Translation [J/OL].arXiv：1406.1078 [cs.CL].[2022-08-06].https：//arxiv.org/abs/1406.1078.

[19] JOZEFOWICZ R，ZAREMBA W，SUTSKEVER I. An Empirical Exploration of Recurrent Network Architectures [C]//the 32nd International Conference on Machine Learning.Lille：ICML，2015，37：2342-2350.

[20] CHENG J P，DONG L，LAPATA M. Long Short-Term Memory-Networks for Machine Reading [J/OL].arXiv：1601.06733 [cs.CL].[2022-08-06].https：//arxiv.org/abs/1601.06733v5.

[21] VASWANI A，SHAZEER N，PARMAR N，et al. Attention is all You Need [J/OL].arXiv：1706.03762 [cs.CL].[2022-08-08].https：//arxiv.org/abs/1706.03762.

[22] HUANG Z H，XU W，YU K. Bidirectional LSTM-CRF Models for Sequence Tagging [J/OL].arXiv：1508.01991 [cs.CL].[2022-08-09].https：//arxiv.org/abs/1508.01991.

[23] LI X，BING L D，LI P J，et al. A Unified Model for Opinion Target Extraction and Target Sentiment Prediction [J/OL].arXiv：1811.05082 [cs.CL].[2022-08-09].https：//arxiv.org/abs/1811.05082.

[24] LAMPLE G，BALLESTEROS M，SUBRAMANIAN S，et al. Neural architectures for Named Entity Recognition [J/OL].arXiv：1603.01360 [cs.CL].[2022-08-05].https：//arxiv.org/abs/1603.01360.

[25] 譚翠萍.文本細(xì)粒度情感分析研究綜述 [J].大學(xué)圖書(shū)館學(xué)報(bào)，2022，40（4）：85-99+119.

[26] 張繼東，張慧迪.融合注意力機(jī)制的多模態(tài)突發(fā)事件用戶情感分析 [J].情報(bào)理論與實(shí)踐，2022，45（11）：170-177.

[27] 楊曉晨.基于深度學(xué)習(xí)的文本情感分類方法研究 [D].天津：天津理工大學(xué)，2022.

[28] LI X，BING L D，LI P J，et al. A Unified Model for Opinion Target Extraction and Target Sentiment Prediction [J/OL].arXiv：1811.05082 [cs.CL].[2022-08-07].https：//arxiv.org/abs/1811.05082.

[29] 華瑋，吳思洋，俞超，吳婕洵，徐健.面向網(wǎng)絡(luò)輿情事件的多層次情感分歧度分析方法 [J/OL].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)，2022：1-23[2022-07-09].http：//kns.cnki.net/kcms/detail/10.1478.g2.20220613.1153.008.html.

[30] 王宇琪，鄭安琪，郝川艷.基于細(xì)粒度情感分析的情感目標(biāo)過(guò)程性評(píng)價(jià)機(jī)理與路徑研究 [J].計(jì)算機(jī)時(shí)代，2022（7）：94-97+100.

[31] 蘇紅旗，聶金慧，曾志.基于特征聚類的網(wǎng)絡(luò)評(píng)論信息挖掘研究 [J].信息網(wǎng)絡(luò)安全，2013（12）：51-54.

[32] 趙宏，傅兆陽(yáng)，王樂(lè).基于特征融合的中文文本情感分析方法 [J].蘭州理工大學(xué)學(xué)報(bào)，2022，48（3）：94-102.

[33] DO H H，PRASAD P W C，MAAG A，et al. Deep Learning for Aspect-Based Sentiment Analysis：A Comparative Review [J].Expert Systems with Applications，2019，118：272-299.

[34] MINAEE S，KALCHBRENNER N，CAMBRIA E，et al. Deep Learning Based Text Classification：A Comprehensive Review [J/OL].arXiv：2004.03705 [cs.CL].[2022-08-11].https：//arxiv.org/abs/2004.03705.

[35] XU H，LIU B，SHU L，et al. BERT Post-Training for Review Reading Comprehension and Aspect-Based Sentiment Analysis [J/OL].arXiv：1904.02232 [cs.CL].[2022-08-12].https：//arxiv.org/abs/1904.02232.

[36] PHAN M H，OGUNBONA P O. Modelling Context and Syntactical Features for Aspect-Based Sentiment Analysis [C]//Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics.ACL，2020：3211-3220.

[37] RAMSHAW L A，MARCUS M P. Text Chunking Using Transformation-Based Learning [M]//ARMSTRONG S，CHURCH K，ISABELLE P. Natural Language Processing Using very Large Corpora.Dordrecht：Springer，1999：157-176.

[38] 王巍.解析網(wǎng)絡(luò)輿情下官民互動(dòng)的蝴蝶效應(yīng) [J].武警學(xué)院學(xué)報(bào)，2017，33（11）：81-84.

[39] 于龍.涉警網(wǎng)絡(luò)輿情危機(jī)的治理對(duì)策 [J].中國(guó)人民警察大學(xué)學(xué)報(bào)，2022，38（6）：25-30.

作者簡(jiǎn)介：徐子昂（2001.03—），男，漢族，河南信陽(yáng)人，本科在讀，研究方向：自然語(yǔ)言處理。

收稿日期：2022-09-13

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于BERT預(yù)處理模型的網(wǎng)絡(luò)輿情細(xì)粒度情感分析