亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT-BiLSTM的水利新聞情感分析研究

        2022-07-02 06:08:50蘇天龔炳江
        電腦知識(shí)與技術(shù) 2022年15期

        蘇天 龔炳江

        摘要:BERT是谷歌AI團(tuán)隊(duì)近年來(lái)新發(fā)布的自然語(yǔ)言預(yù)訓(xùn)練模型,在11種不同的NLP測(cè)試中創(chuàng)出最佳成績(jī),被認(rèn)為是NLP領(lǐng)域中里程碑式的進(jìn)步,因此利用BERT進(jìn)行文本情感分析是一個(gè)很熱門(mén)的研究方向,該文中水利輿情分析主要是對(duì)水利新聞進(jìn)行情感分析。該文對(duì)基于詞典、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的情感分類(lèi)技術(shù)進(jìn)行了分析,并提出了基于完整句分割的BERT-BiLSTM水利新聞文本情感分類(lèi)模型。該課題可以為水利行業(yè)從業(yè)人員和其他領(lǐng)域的情感分類(lèi)研究提供較高的指導(dǎo)意義。

        關(guān)鍵詞:水利輿情系統(tǒng);NLP;情感分析;BERT-BiLSTM模型;文本分類(lèi)

        中圖分類(lèi)號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

        文章編號(hào):1009-3044(2022)15-0004-03

        1 引言

        我國(guó)是一個(gè)水災(zāi)多發(fā)的國(guó)家,水災(zāi)的發(fā)生往往會(huì)給人們帶來(lái)很多不利的影響。近年來(lái),隨著互聯(lián)網(wǎng)的發(fā)展,人們能夠越來(lái)越方便地在網(wǎng)絡(luò)上發(fā)表和水利有關(guān)的新聞和言論,但往往有些新聞或者言論是不正確的,甚至?xí)o社會(huì)帶來(lái)巨大的負(fù)面影響。因此,利用情感分類(lèi)技術(shù)檢測(cè)負(fù)面新聞的傳播來(lái)維護(hù)社會(huì)穩(wěn)定是非常有實(shí)用價(jià)值的。

        情感分析主要從分析網(wǎng)絡(luò)輿情發(fā)展而來(lái)。國(guó)內(nèi)外的學(xué)者研究網(wǎng)絡(luò)輿情焦距情感分析、話題識(shí)別、關(guān)鍵詞提取等方面。早期的輿情分析并不是直接用于情感分析,而是用于調(diào)查民意、觀察輿論動(dòng)向等方面。1996年,美國(guó)國(guó)防高級(jí)研究計(jì)劃局DARPA提出了話題檢測(cè)與跟蹤技術(shù)TDT的概念,即讓計(jì)算機(jī)自動(dòng)識(shí)別文本中的話題。由于國(guó)外的互聯(lián)網(wǎng)發(fā)展早于國(guó)內(nèi),中文互聯(lián)網(wǎng)也是從這個(gè)世紀(jì)才開(kāi)始發(fā)展起來(lái),因此中文輿情分析是伴隨著互聯(lián)網(wǎng)的發(fā)展才出現(xiàn)的。當(dāng)今時(shí)代,水利輿情對(duì)社會(huì)生活的影響越來(lái)越大,利用輿情分析技術(shù)進(jìn)行水利新聞情感分析的需求也越來(lái)越迫切。

        2 情感分析技術(shù)的比較

        2.1 基于詞典的方法

        基于詞典的情感分析是通過(guò)分析文章中的情感詞對(duì)文章做情感分析。詞典方法通過(guò)規(guī)則來(lái)獲取文章的情感信息,然后以情感詞典中的情感詞去判斷文章的情感表達(dá)程度。這種做法就是建立情感詞典過(guò)分依賴(lài)人工,并且不能根據(jù)詞之間的聯(lián)系進(jìn)行情感分析。

        2.2 基于機(jī)器學(xué)習(xí)的方法

        隨著機(jī)器學(xué)習(xí)的發(fā)展Pang[1]等人于2002年率先將機(jī)器學(xué)習(xí)的方法用到文本情感分析中,他們使用各種不同的機(jī)器學(xué)習(xí)分類(lèi)器分別對(duì)從互聯(lián)網(wǎng)上的抓取到的影評(píng)信息文本進(jìn)行情感分析。實(shí)驗(yàn)結(jié)果表明,進(jìn)行特征組合的機(jī)器學(xué)習(xí)算法得到的準(zhǔn)確率高達(dá)82.9%。此后,研究者將研究重點(diǎn)放在特征組合上。Mullen和Collier[2]基于前人研究基礎(chǔ)之上,通過(guò)更好的特征組合,使用SVM分類(lèi)器進(jìn)行文本情感分析,這種方式所使用的特征主要有詞匯和互信息特征、主題相似特征和句法關(guān)系特征。但是機(jī)器學(xué)習(xí)的方式依賴(lài)于特征的組合[3],如果特征提取不好,最后分析結(jié)果也會(huì)不太合理。

        2.3 基于深度學(xué)習(xí)的方法

        2006年,Hinton等人提出了深度學(xué)習(xí)的概念,深度學(xué)習(xí)逐漸被應(yīng)用到NLP中,并且在NLP方面取得了令人滿(mǎn)意的進(jìn)步。在對(duì)文本的編碼方面。2013年,Tomas Mikolov[5]等人提出了Word2Vec,用于處理one-hot編碼文本向量化后維度過(guò)高的問(wèn)題。2015年,Zhu[6]等人提出采用LSTM將中文評(píng)論語(yǔ)句建模成詞序列來(lái)解決情感分類(lèi)問(wèn)題,LSTM可以捕捉到評(píng)論語(yǔ)句中的長(zhǎng)依賴(lài)關(guān)系,可以從整體上分析評(píng)論的情感語(yǔ)義。2019年,Raghavendra[7]使用BERT進(jìn)行長(zhǎng)文本編碼時(shí),采用了滑動(dòng)窗口的方式分割長(zhǎng)文本。文獻(xiàn)[8]中Sun等人使用截?cái)嗪头謱拥姆绞綄?duì)長(zhǎng)文本進(jìn)行預(yù)處理,再使用BERT進(jìn)行編碼。近年各種詞向量技術(shù)和深度學(xué)習(xí)算法不斷涌現(xiàn),但是大部分的研究都集中在短文本領(lǐng)域,對(duì)長(zhǎng)文本進(jìn)行合理向量化進(jìn)行情感分類(lèi)是一個(gè)值得研究的方向。

        3 水利新聞情感分析的實(shí)現(xiàn)方案

        3.1 實(shí)驗(yàn)環(huán)境

        實(shí)驗(yàn)采取的環(huán)境見(jiàn)表1。

        3.2 數(shù)據(jù)集制作

        情感分類(lèi)算法需要大量的數(shù)據(jù)來(lái)進(jìn)行算法模型的訓(xùn)練,但是在水利輿情方面又沒(méi)有專(zhuān)門(mén)的水利輿情數(shù)據(jù),因此本文使用的數(shù)據(jù)來(lái)源于百度新聞和新浪新聞,直接抓取了與水利相關(guān)新聞的URL,在對(duì)具體新聞url進(jìn)行內(nèi)容抓取時(shí),對(duì)URL進(jìn)行了去重,以防止抓取到重復(fù)的新聞數(shù)據(jù)。在請(qǐng)求URL連接的時(shí)獲取到的是頁(yè)面代碼和新聞內(nèi)容混合在一起的信息,需要將新聞內(nèi)容從這些雜亂的代碼中提取出來(lái),這里使用BeautifulSoup從爬取的網(wǎng)頁(yè)信息中提取新聞標(biāo)題和內(nèi)容,然后把新聞內(nèi)容保存下來(lái)。因?yàn)椴煌男侣劸W(wǎng)站的頁(yè)面結(jié)構(gòu)是不一樣的,因此需要寫(xiě)不同的新聞抓取代碼來(lái)對(duì)應(yīng)不同的新聞網(wǎng)站。在新聞抓取時(shí)為了提高爬取效率,使用了IP代理池技術(shù)防止單一IP爬取被禁止訪問(wèn)數(shù)據(jù)。獲取的內(nèi)容主要是新聞標(biāo)題和文章內(nèi)容。文章標(biāo)題中通常蘊(yùn)含了文章的關(guān)鍵信息和新聞的性質(zhì),因此文章標(biāo)題也是必須獲取的內(nèi)容。后續(xù)通過(guò)算法對(duì)文章標(biāo)題和內(nèi)容的分析來(lái)判斷文章具體情感內(nèi)容。由于條件限制,本文一共抓取了1869條新聞數(shù)據(jù),然后對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注,分為負(fù)面新聞和正面新聞,負(fù)面新聞標(biāo)為0,正面新聞標(biāo)為1。然后將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,對(duì)算法模型進(jìn)行訓(xùn)練。

        3.3 實(shí)現(xiàn)方案技術(shù)的選擇

        1)文本編碼技術(shù)

        文本編碼技術(shù)就是將新聞文本轉(zhuǎn)化為文本向量。因?yàn)樗惴P蜔o(wú)法直接處理新聞文本,所以需要通過(guò)文本編碼技術(shù)將新聞文本轉(zhuǎn)化為文本向量輸入算法模型中進(jìn)行處理。One-Hot編碼是一種常見(jiàn)的文本編碼方式。它對(duì)于每一個(gè)特征,如果它有m個(gè)可能值,那么經(jīng)過(guò)獨(dú)熱編碼后,就變成了m個(gè)二元特征。并且,這些特征互斥,每次只有一個(gè)激活。因此,數(shù)據(jù)會(huì)變成稀疏的。在文本處理中就是將每個(gè)詞作為一個(gè)特征進(jìn)行編碼。但是這樣的編碼形式無(wú)法表征語(yǔ)義信息,并且過(guò)多的特征也會(huì)使編碼之后的文本向量維度非常高,造成維度災(zāi)難。Word2Vec是一種常用的文本編碼模型,它在編碼中可以考慮詞語(yǔ)上下文之間的關(guān)系,維度比較少,速度也比較快,通用性很強(qiáng),可以用在各種NLP任務(wù)中。但是它無(wú)法解決文章中一詞多義的問(wèn)題。BERT模型解決了一詞多義的問(wèn)題。BERT是谷歌AI部門(mén)的研究人員近年來(lái)新發(fā)布的文本預(yù)訓(xùn)練模型,在11種不同的NLP測(cè)試中創(chuàng)出最佳成績(jī),在NLP業(yè)引起巨大反響,認(rèn)為是NLP領(lǐng)域里程碑式的進(jìn)步。與最近的其他語(yǔ)言模型不同,BERT旨在聯(lián)合調(diào)節(jié)所有層中的上下文來(lái)預(yù)先訓(xùn)練深度雙向表示[9]。BERT可以通過(guò)一個(gè)額外的輸出層進(jìn)行微調(diào),可以應(yīng)用到大部分自然語(yǔ)言處理任務(wù)中,不需要針對(duì)具體的任務(wù)進(jìn)行很大改動(dòng),BERT模型如圖1所示。E63E06ED-28E4-4968-AF81-22528AF55FC4

        由于輸入BERT中的文本長(zhǎng)度最長(zhǎng)為512,而有些新聞文本長(zhǎng)度卻超過(guò)了這個(gè)數(shù)字,文獻(xiàn)[8]中的研究人員直接使用截?cái)辔谋局槐A?12個(gè)文本或者以512為一段截成多段,但是這樣會(huì)丟失數(shù)據(jù)或者破壞文本之間的關(guān)系。本文基于完整句分割的形式,在不超過(guò)512長(zhǎng)度的基礎(chǔ)之上每次分割出完整句,然后放入BERT進(jìn)行編碼,同新聞的多段編碼之后拼接到一起。主要算法流程如圖2所示。

        2)深度學(xué)習(xí)算法

        深度學(xué)習(xí)算法比較著名的是CNN卷積神經(jīng)網(wǎng)絡(luò)算法,在卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)的每一層都接收來(lái)自其前一層的輸出作為其輸入,并將其輸出作為輸入傳遞給下一層。一般的卷積神經(jīng)網(wǎng)絡(luò)中都會(huì)有輸入層、卷積層、池化層、全連接層,最后是一個(gè)分類(lèi)層進(jìn)行分類(lèi)。RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的神經(jīng)元接受的輸入除了前一層網(wǎng)絡(luò)的輸出,還有自身的狀態(tài)信息,其狀態(tài)信息在網(wǎng)絡(luò)中循環(huán)傳遞。但是RNN存在一個(gè)主要問(wèn)題是梯度消失。因?yàn)樯窠?jīng)網(wǎng)絡(luò)的反向傳播算法基于梯度下降的,也就是在目標(biāo)的負(fù)梯度方向上對(duì)參數(shù)進(jìn)行調(diào)整。如此一來(lái)就要對(duì)激活函數(shù)求梯度。又因?yàn)?RNN 存在循環(huán)結(jié)構(gòu),因此激活函數(shù)的梯度會(huì)乘上多次,這就導(dǎo)致:如果梯度小于1,那么隨著層數(shù)增多,梯度快速減小,即發(fā)生了梯度消失(Gradient Vanishing);如果梯度大于1,那么隨著層數(shù)增多,梯度更新將以指數(shù)形式膨脹,即發(fā)生梯度爆炸(Gradient Exploding)。LSTM是由RNN演化而來(lái)的。

        長(zhǎng)短期記憶模型(LSTM)繼承了RNN處理文本序列模型的特點(diǎn),在訓(xùn)練時(shí)能夠控制梯度的收斂性,并在一定程度解決了梯度爆炸和梯度消失的問(wèn)題,同時(shí)也能夠保持長(zhǎng)期的記憶性。為了更好地處理序列信息,研究者提出了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bi-directional LSTM,BiLSTM)。BiLSTM模型相對(duì)于LSTM兼顧了上下文信息,可以提取文本中更深層次的語(yǔ)義信息。BiLSTM結(jié)構(gòu)如圖3所示。

        3)激活函數(shù)

        在使用BiLSTM進(jìn)行文本特征提取后,需要使用分類(lèi)器對(duì)文本特征進(jìn)行分類(lèi),這里使用Softmax分類(lèi)器進(jìn)行分類(lèi)。Softmax分類(lèi)器就是將上層的輸出通過(guò)Softmax函數(shù)映射成0到1范圍內(nèi)的值,所有映射結(jié)果的累計(jì)和為1。因?yàn)槊恳粋€(gè)映射的結(jié)果相當(dāng)于分類(lèi)成對(duì)應(yīng)值的概率,就可以選擇概率最大的值作為最終結(jié)果。Softmax函數(shù)又稱(chēng)歸一化指數(shù)函數(shù),函數(shù)表達(dá)式為:

        Softmax函數(shù)本身針對(duì)多項(xiàng)分布提出,當(dāng)類(lèi)別數(shù)是2時(shí),它退化為二項(xiàng)分布。由于Softmax函數(shù)先拉大了輸入向量元素之間的差異(通過(guò)指數(shù)函數(shù)),然后才歸一化為一個(gè)概率分布,在應(yīng)用到分類(lèi)問(wèn)題時(shí),使得各個(gè)類(lèi)別的概率差異比較顯著,最大值產(chǎn)生的概率更接近1,這樣輸出分布的形式更接近真實(shí)分布。所以這里使用Softmax進(jìn)行分類(lèi)。在使用BiLSTM提取了深層次的語(yǔ)義信息之后,將句子的特征向量輸入到Softmax函數(shù)中,然后計(jì)算得到對(duì)應(yīng)的結(jié)果。

        3.4? 算法評(píng)價(jià)準(zhǔn)則

        為驗(yàn)證模型的有效性,使用機(jī)器學(xué)習(xí)中比較常用的算法評(píng)價(jià)標(biāo)準(zhǔn):準(zhǔn)確率(Precision)、召回率(Recall)和F1值(F-Measure)來(lái)衡量[10],計(jì)算公式如式(2)~式(4)。

        其中TP(True Positive)表示正面新聞?lì)A(yù)測(cè)為正面新聞的數(shù)量;FP(False Positive)表示負(fù)面新聞?lì)A(yù)測(cè)為正面新聞的數(shù)量;FN(False Negative)表示正面新聞?lì)A(yù)測(cè)為負(fù)面新聞的數(shù)量。之所以選擇這個(gè)算法評(píng)價(jià)指標(biāo)是因?yàn)樵谳浨榉治鲋?,?fù)面新聞所占的比例是非常小的。如果把所有的水利新聞都預(yù)測(cè)成非負(fù)面新聞,那么準(zhǔn)確率也是非常高的,這樣的準(zhǔn)確率是沒(méi)有任何意義的。因此準(zhǔn)確地將負(fù)面新聞識(shí)別出來(lái)才能說(shuō)這個(gè)算法模型是合理的,所以在關(guān)注準(zhǔn)確率的同時(shí),也要關(guān)注召回率。而F1值可以同時(shí)考慮準(zhǔn)確率和召回率,讓兩者同時(shí)達(dá)到最高,取得平衡。

        4 對(duì)比實(shí)驗(yàn)

        由于數(shù)據(jù)集條件的限制,這里采用了80%的新聞文章作為訓(xùn)練集,20%新聞文章作為測(cè)試集。為了展現(xiàn)提出的算法模型的優(yōu)勢(shì),算法模型對(duì)照實(shí)驗(yàn)分別采取了BERT-LSTM、BERT-BiLSTM和本文提出的基于完整句分割的BERT-BiLSTM三種算法模型進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果數(shù)據(jù)如表2所示。

        5 實(shí)驗(yàn)結(jié)果及分析

        通過(guò)對(duì)比實(shí)驗(yàn)中的結(jié)果數(shù)據(jù)可以看出,基于完整句分割的BERT-BiLSTM模型相較于BERT-BiLSTM和BERT-LSTM的準(zhǔn)確率和召回率更高,F(xiàn)1值也更高。

        6 結(jié)束語(yǔ)

        本文分析了目前情感分析算法的優(yōu)劣,提出了基于完整句分割的BERT-BiLSTM新聞文本情感分析算法模型。算法模型首先基于完整句對(duì)新聞文本進(jìn)行分割,然后使用BERT模型將新聞文本編碼為文本向量,之后將文本向量輸入到BiLSTM中進(jìn)行文本特征提取,最終用Softmax對(duì)提取的文本特征向量分類(lèi)得到結(jié)果數(shù)據(jù)。實(shí)驗(yàn)結(jié)果表明,本文提出的算法相較于之前的效果較好,但是由于數(shù)據(jù)來(lái)源較少,算法的整體識(shí)別率還有待提高,因此在后續(xù)工作中,可以增加數(shù)據(jù)并進(jìn)一步優(yōu)化算法以達(dá)到更好的效果。

        參考文獻(xiàn):

        [1] Pang B,Lee L,Vaithyanathan S.Thumbs up:sentiment classification using machine learning techniques[C]//Proceedings of the ACL-02 conference on Empirical methods in natural language processing - EMNLP '02.Not Known.Morristown,NJ,USA:Association for Computational Linguistics,2002.

        [2] Zainuddin N,Selamat A.Sentiment analysis using Support Vector Machine[C]//2014 International Conference on Computer,Communications,and Control Technology (I4CT).September 2-4,2014,Langkawi,Malaysia.IEEE,2014:333-337.E63E06ED-28E4-4968-AF81-22528AF55FC4

        [3] 陳龍,管子玉,何金紅,等.情感分類(lèi)研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2017,54(6):1150-1170.

        [4] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554.

        [5] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Advances in neural information processing systems. 2013: 3111-3119.

        [6] Zhu X D,Sobhani P,Guo H Y.Long short-term memory over recursive structures[C]//ICML'15:Proceedings of the 32nd International Conference on International Conference on Machine Learning - Volume 37.2015:1604-1612.

        [7] Pappagari R,Zelasko P,Villalba J,et al.Hierarchical transformers for long document classification[C]//2019 IEEE Automatic Speech Recognition and Understanding Workshop.December 14-18,2019,Singapore.IEEE,2019:838-844.

        [8] Sun C,Qiu X P,Xu Y G,et al.How to fine-tune BERT for text classification?[C]//Chinese Computational Linguistics,2019.

        [9] 劉思琴,馮胥睿瑞.基于BERT的文本情感分析[J].信息安全研究,2020,6(3):220-227.

        [10] 陳才.NLP技術(shù)在農(nóng)業(yè)輿情分析系統(tǒng)中的應(yīng)用研究[D].北京:北京工業(yè)大學(xué),2019.

        【通聯(lián)編輯:唐一東】E63E06ED-28E4-4968-AF81-22528AF55FC4

        国产欧美日韩综合在线一区二区| 欧美成人猛片aaaaaaa| 成人免费xxxxx在线观看| 99re久久精品国产| 国产桃色精品网站| 一区二区三区四区亚洲免费| 妺妺窝人体色www看人体| 亚洲av永久无码一区| 男女高潮免费观看无遮挡| 深夜福利国产精品中文字幕| 人妻精品久久久久中文字幕69| 日日av拍夜夜添久久免费| 国产日韩欧美视频成人| 亚洲精品一区二区三区在线观| 人人做人人爽人人爱| 色欲av亚洲一区无码少妇| 国产真实乱XXXⅩ视频| 一区二区午夜视频在线观看| 在教室伦流澡到高潮hgl动漫| 亚洲av无码资源在线观看| 亚洲日韩国产精品不卡一区在线| 91精品国产91综合久久蜜臀 | 亚洲 卡通 欧美 制服 中文| 日韩久久一级毛片| 热门精品一区二区三区| 久久精品国产亚洲av精东| 无码午夜成人1000部免费视频 | 三男一女吃奶添下面| 成人亚洲欧美久久久久| 日本久久久精品免费免费理论| 精品视频一区二区三区在线观看 | 无遮无挡爽爽免费毛片| 久久精品国产亚洲AV无码不| 国产主播一区二区三区在线观看| 夜夜躁日日躁狠狠久久av| 国产乱妇乱子视频在播放| 亚洲无码美韩综合| 国产三级视频不卡在线观看| 麻豆果冻传媒在线观看| 国产精品九九久久一区hh| 日本精品中文字幕人妻|