亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多模型融合的微博文本情感分析模型

        2022-04-12 07:18:46徐洪學汪安祺車偉偉杜英魁孫萬有王陽陽
        沈陽大學學報(自然科學版) 2022年2期
        關鍵詞:參數設置博文向量

        徐洪學, 汪安祺, 車偉偉, 杜英魁, 孫萬有, 王陽陽

        (1. 沈陽大學 信息工程學院, 遼寧 沈陽 110044; 2. 青島大學 自動化學院, 山東 青島 266071)

        AI(artificial intelligence)時代的來臨,讓人們的生活變得更加智能化和信息化。社交平臺成為當代生活“必需品”,每天都有大量網民通過微博等社交平臺獲取或者傳播各類信息。民眾的一些不當的言論經常會引發(fā)一場輿論風波,甚至會影響社會的安定團結。對微博文本進行情感分析可以幫助相關工作人員實時地監(jiān)測輿論風向,有效地避免一些輿論風波。如何有效分析微博文本情感信息、并準確判斷出人們對某個事件的情感傾向是微博文本情感分析研究工作的重點。

        文本情感分析大都通過詞典和傳統機器學習等方法處理情感分析分類任務[1]。微博文本數量龐大且大多是短文本類型,使用基于詞典的方法和基于機器學習的文本情感分析方法需要耗費精力構建詞典和文本特征,將這2種方法運用到微博文本情感分析任務中將會耗時又耗力。微博文本里口語化文本較多,具有分析困難等特點。近幾年深度學習在各個領域里嶄露頭角,針對微博文本情感分析的研究逐漸開始嘗試使用深度學習的方法解決問題[2]。深度學習的多模型融合方法在微博文本情感分析任務中可以獲得較好的預期。因為,深度學習的多模型融合方法可以利用每個深度學習模型的特點完成各自的自動學習任務,因而將使得其整體效果比傳統方法更好。因此,針對微博文本類型眾多等因素,在對不同類型的文本進行情感分析時,需要融合不同深度學習模型以達到較好的效果。

        針對以上特點,本文提出了ALBERT-BiLSTM-ATT微博文本情感分析模型。為了驗證模型的可行性,共設計了8組對比實驗。經過實驗驗證,ALBERT-BiLSTM-ATT模型在微博文本情感分析中可以達到較高的精確率、召回率和F1值。

        1 相關研究工作

        情感分析中有一項重要任務就是將文本轉化為詞向量。這是由于機器設備不能直接認識文本,需要通過將文本轉化為詞向量,以使機器設備能夠識別文本。

        在研究初期, 研究者們使用獨熱編碼(one-hot)來完成文本詞向量轉化。 但是在使用的過程中發(fā)現one-hot不能使相似的詞之間產生關聯。 因此科學家們嘗試使用高維矩陣, 如co-occurrence矩陣等, 但是隨著文本信息量的增加,矩陣的維度也會隨之增加。 隨后,研究者們將研究方向轉移到既能降低詞向量的維度也能表示出詞之間語義關系上, 最終得到了文本詞向量的經典之作Word2Vec[3]和Glove(global vectors)[4]。 其中Word2Vec包括了Skip-Gram和CBOW(continuous bag-of-words)2種模型。

        Kim[5]在2014年提出了將文本卷積神經網絡TextCNN(text convolutional neural network)用于情感分析的任務中,利用卷積神經網絡提取局部特征的方式對文本進行訓練,實驗結果表明這種方法可以在文本分類任務上取得較好的效果;Vaswani等[6]提出了編碼器-解碼器組合的Transformer結構;ELMo(embeddings from language models)[7]、GPT(generative pre-training)[8]和BERT(bidirectional encoder representations from transformers)[9]等在2018年皆是以Transformer結構為基礎得到的預訓練模型。

        楊杰等[10]提出利用BERT模型提取詞向量的文本評論情感分析方法,設計對比實驗與傳統的Word2Vec詞向量作對比,實驗結果顯示基于BERT的文本特征表示方法在實驗集上的精確率比傳統Word2Vec詞向量提高了5.56%;段丹丹等[11]提出利用BERT模型提取中文短文本句子級別的文本向量表示,與基于TextCNN模型的短文本分類方法相比較,BERT模型的整體F1值提升了6%。謝思雅等[12]選擇Word2Vec詞向量中的Skip-Gram模型,通過使用負采樣方法完成文本詞向量轉化的訓練,利用BiLSTM(bi-directional long short-term memory)模型和Attention機制相結合的方法獲取詞向量中的情感信息,并在NLPCC2013數據集上測試,精確率達到0.814。

        2 ALBERT-BiLSTM-ATT模型

        為了進一步提高微博文本情感分析質量,本文結合BERT的改進版本----ALBERT的特點,并將其融入到BiLSTM-ATT模型,提出了ALBERT-BiLSTM-ATT模型。

        ALBERT-BiLSTM-ATT模型由輸入層、ALBERT層、BiLSTM-ATT層和SoftMax層構成。模型結構如圖1所示。

        圖1 ALBERT-BiLSTM-ATT模型結構

        ALBERT-BiLSTM-ATT模型的工作流程包括:1)對微博文本數據進行分詞和去停用詞等預處理操作,處理完的文本數據作為輸入層數據輸入模型;2)文本數據經過ALBERT預訓練模型得到文本動態(tài)詞向量;3)將動態(tài)詞向量輸入到基于BiLSTM和Attention結合的模型中進一步獲取文本語義特征;4)經過SoftMax層最終得到微博文本情感傾向。

        ALBERT-BiLSTM-ATT模型的主要層次及其融合過程描述如下。

        2.1 ALBERT層

        2018年,自然語言處理(natural language processing, NLP)應用領域內11種任務的記錄被預訓練模型BERT刷新。NLP應用領域由此開始步入了預訓練的時代。預訓練模型主要有2種使用方式,可以直接解決文本分類任務或者使用預訓練模型獲得動態(tài)詞向量接入下游任務中。

        預訓練模型的產生促進了人們對詞向量的進一步研究,研究的重點從靜態(tài)詞向量轉為了動態(tài)詞向量,從而使得詞向量能學習到句子級的語義信息。Transformer編碼器由Encoder和Decoder兩個部分組成。多個Transformer編碼器的Encoder組合在一起則構成了BERT模型。Transformer編碼器中Encoder部分的結構如圖2所示。

        圖2 Transformer Encoder結構

        雖然BERT模型在NLP應用領域中完成任務效果很好,但是BERT模型的不足是參數量非常大。ALBERT(a lite BERT)預訓練模型[13]與BERT模型一樣,都是采用Transformer Encoder結構。ALBERT模型是BERT模型的輕量版,在不影響模型效果的前提下,主要對BERT模型詞嵌入的因式分解、層間參數共享、段落間連貫性3個方面做出了改進。ALBERT模型不僅降低了BERT模型的參數,同時模型運行的速度也加快了。

        ALBERT模型結構如圖3所示,其中E1…En是文本中的單個字符,將其輸入到多層雙向Transformer編碼器中,最后得到文本向量化表示。

        圖3 ALBERT模型結構

        本文選用ALBERT模型作為ALBERT-BiLSTM-ATT模型的預訓練層。

        2.2 BiLSTM層

        BiLSTM層是ALBERT-BiLSTM-ATT模型的核心層。BiLSTM模型[14]是由循環(huán)神經網絡模型LSTM(long short-term memory)[15]改進得到的一種新模型。

        LSTM模型由單向網絡組成。該模型解決了以往在文本序列學習時不能獲得長期依賴關系的缺點,特別是在長序列學習時效果更好。LSTM模型結構如圖4所示。

        圖4 LSTM模型結構

        LSTM模型的結構特點是擁有3個“門”單元,分別是遺忘門、輸入門和輸出門。LSTM模型中的主要計算公式如下。

        遺忘門計算公式為

        ft=σ(Wf[ht -1,xt]+bf)。

        式中:ht -1表示前一個輸出;xt表示當前輸入;Wf和bf分別表示遺忘門層的權重和閾值;ft表示遺忘層的輸出。

        輸入門計算公式為

        更新的公式為

        式中:Ct是輸出狀態(tài);Ct -1為舊狀態(tài)。

        輸出門計算公式為

        式中:[ht -1,xt]是判斷輸出哪些狀態(tài)特征;Wo和bo分別表示輸出門層的權重和閾值;ht為最終的輸出。

        BiLSTM模型由2個LSTM模型組合而成,一個是前向網絡、另一個則是后向網絡。BiLSTM模型的最后輸出結果是由雙向計算結果疊加而成。使用BiLSTM模型進行任務分類時內部結構如圖5所示。

        圖5 BiLSTM模型結構

        其中,x0,x1,…,xn -1,xn表示句中第n個詞文本特征表示,hL0,hL1,…,hL(n -1),hLn和hR0,hR1,…,hR(n -1),hRn表示第n個位置的前向和后向輸出,LSTML和LSTMR表示BiLSTM的傳遞方向,L代表前項,R代表后向。[hRn,hLn]由前向和后向結果拼接而成,最后經過SoftMax層輸出分類結果。

        由于LSTM模型只是從前到后單向的輸出,缺乏從后到前的編碼信息,本文選用了能夠獲得雙向語義信息的BiLSTM模型作為ALBERT-BiLSTM-ATT模型中BiLSTM-ATT層的底層。

        2.3 Attention層

        人們在表達情感時,每句話中所使用詞的側重點是不一樣的。因而每個中文微博文本中的情感信息皆可以被劃分為重要信息和非重要信息。

        在NLP應用領域里,2017年開始引入了Attention機制[16]。Attention特點是賦予重點程度不同的信息不同的權重,重要信息會被分配較大的權重而非重要信息則被分配較小的權重。通過計算會得到這些信息的向量,然后將這些向量信息組合在一起作為Attention層的輸出結果。Attention層中主要的計算公式如下:

        式中:wd和bd分別是Attention層的權重和偏置;ud是隨機的初始化向量;αx代表文本中第x個詞的重要程度;Z是Attention層的最終結果;hx是BiLSTM層的輸出結果。

        為了能讓ALBERT-BiLSTM-ATT模型獲得更有意義的信息,使模型可以更多關注重要信息,而忽略一些非重要信息,本文在BiLSTM模型的上層設計增加了一層Attention層,構成一個完整的BiLSTM-ATT層。

        3 對比實驗分析

        3.1 實驗數據集

        本文實驗數據集選用公開發(fā)布的數據集“微博2018”。該數據集是帶情感標注的中文微博文本語料庫,正面情感標注為1,負面情感標注為0。數據集共有10 500條微博文本,分為10 000條訓練集(train.txt)和500條測試集(test.txt)數據。

        為了保證實驗的準確性和有效性,本實驗重新劃分了訓練集與測試集,劃分比例為7∶3。該數據集已對與實驗無關的數據進行預處理操作,太短或太長以及意義表達不明確等的微博文本信息已被排除。

        “微博2018”數據集樣例如表1所示。

        表1 “微博2018”數據集樣例

        3.2 評價標準

        文中實驗選用的模型預測結果分類方法如表2所示。

        表2 模型預測結果分類

        文中實驗選用的評價指標包括:精確率(P)、召回率(R)和F1值(F1)。

        精確率是指TP的數量NTP在NTP與FP數量NFP之和中的占比。其計算公式為

        召回率是指NTP在NTP與FN數量NFN之和中的占比。其計算公式為

        F1值是精確率和召回率的調和均值,相當于精確率和召回率的綜合評價指標。其計算公式為

        3.3 對比實驗模型和相關參數設置

        在本文的實驗中,為了驗證ALBERT層更能有效的捕捉文本特征,設置將Word2Vec詞向量模型和FastText詞向量模型(Facebook開發(fā)的一款快速文本分類器模型)與ALBERT模型對比。

        對比實驗中模型參數設置情況如下:

        1) 基于Word2Vec模型訓練生成詞向量,分別將得到的文本詞向量輸入TextCNN、BiLSTM和BiLSTM-ATT模型中實現微博文本情感分析;

        2) 利用FastText模型訓練生成詞向量,分別將得到的文本詞向量輸入TextCNN、BiLSTM和BiLSTM-ATT模型中實現微博文本情感分析;

        3) 使用ALBERT預訓練模型提取文本特征作為文本向量,將其分別輸入到BiLSTM模型和基于Attention機制的BiLSTM模型中實現情感二分類。

        實驗參數設置主要針對4個模型,分別為Word2Vec模型、FastText模型、ALBERT模型和BiLSTM-ATT模型。

        其中,Word2vec詞向量模型的參數設置為:詞向量維度為100,最低詞頻為3,上下文窗口大小為5。FastText詞向量模型的參數設置與Word2vec詞向量模型參數設置保持一致。ALBERT預訓練模型選用ALBERT_tiny模型,其詳細參數設置為:層數為4層,隱藏層大小為312,詞向量維度為128,參數量為4M。BiLSTM-ATT模型實驗參數設置為:隱藏層為128,Droupout為0.5,激活函數為ReLu。

        3.4 對比實驗結果與分析

        對比實驗結果如表3所示。

        表3 對比實驗結果

        由對比實驗結果可以發(fā)現:

        1) 在基于Word2Vec和FastTtext詞向量上,TextCNN、BiLSTM和BiLSTM-ATT三個模型之間比較,TextCNN模型的效果略遜于其他2個模型;

        2) 傳統詞向量Word2Vec和FastTtext模型得到的詞向量是靜態(tài)的,雖然在詞語相似度上能達到很好的效果,但在一詞多義的情況下效果并不好,所以基于Word2Vec和FastTtext的模型效果沒有ALBERT預訓練動態(tài)詞向量好,相較于Word2Vec和FastTtext的模型,由ALBERT模型生成的動態(tài)詞向量的模型在數據集上達到的精確率均有提高;

        3) 相比單獨的BiLSTM模型,融合BiLSTM和Attention模型精確率效果更佳,對比Word2Vec詞向量模型、FastTtext詞向量模型和ALBERT模型,BiLSTM-ATT模型精確率分別到達65.0%、80.5%、86.0%,召回率分別達到65.0%、78.5%、87.0%,F1值分別達到64.5%、79.0%、86.0%,而ALBERT-BiLSTM-ATT模型在數據集上達到的效果更佳,精確率為86.0%,召回率為87.0%,F1值為86.0%。

        對比實驗結果表明,將ALBERT-BiLSTM-ATT模型應用在微博文本情感分析上是可行的,并且可以達到更高的精確率、召回率和F1值。

        4 結 論

        由于人類情感的復雜性,人們面對大量的微博文本,很難準確且快速地識別出文本屬于積極情感還是消極情感。本文提出一種基于多模型融合的微博文本情感分析模型ALBERT-BiLSTM-ATT。該模型通過引入ALBERT模型層生成文本特征表示,解決傳統微博文本情感分析不能獲得一詞多義的關鍵信息,并通過融合BiLSTM和Attention的BiLSTM-ATT層對文本局部特征進行提取。通過8組對比實驗進行微博文本情感分析實驗驗證,對比實驗結果表明ALBERT-BiLSTM-ATT模型的微博文本情感分析質量更高,其精確率達到了86.0%,召回率達到87.0%,F1值達到86.0%。

        ALBERT-BiLSTM-ATT模型在微博情感分析實驗中達到了好的效果,可以為相關的網絡輿情分析工作奠定較好的基礎。但相較于BERT模型,雖然在ALBERT模型中進行了參數化等問題的改進,但其參數數量仍然很大,這將導致盡管其訓練過程比BERT模型用時短、但卻比傳統機器學習模型用時長的問題。因此,在接下來的研究中將針對上述問題進行改進,以期進一步探索新的方法,并提出新的模型。

        猜你喜歡
        參數設置博文向量
        向量的分解
        第一次掙錢
        聚焦“向量與三角”創(chuàng)新題
        誰和誰好
        蟻群算法求解TSP中的參數設置
        向量垂直在解析幾何中的應用
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        向量五種“變身” 玩轉圓錐曲線
        動車環(huán)境下U900異頻切換參數設置探討
        打電話2
        国产日产久久福利精品一区| 人妻无码aⅴ不卡中文字幕| 亚洲一区二区三区日本久久九| 91精品国产91热久久p| 手机在线国产福利av| 性欧美丰满熟妇xxxx性久久久| 黑人巨大av在线播放无码 | 欧美日韩中文字幕久久伊人| 久久伊人久久伊人久久| 日本xxxx色视频在线观看免费| 亚洲精品无码久久久久秋霞| 伊人久久亚洲综合影院首页| 亚洲精品国产二区在线观看| 免费午夜爽爽爽www视频十八禁 | 老太婆性杂交视频| 欧美日韩中文国产一区发布 | 久久精品国产91精品亚洲| 女人被狂c躁到高潮视频| 亚洲一区综合精品狠狠爱| 国产精品三级自产拍av| 国产一区国产二区亚洲精品| 97人妻碰碰视频免费上线| 国产欧美久久久另类精品| 青青草视频在线观看视频免费| 体验区试看120秒啪啪免费| 免费观看又色又爽又黄的韩国| yy111111少妇影院| 成人av综合资源在线| 色拍自拍亚洲综合图区| 国产综合自拍| 人妖系列在线免费观看| 女人的精水喷出来视频| 丰满女人又爽又紧又丰满| 亚洲αv在线精品糸列| 日本视频一区二区三区在线观看| 国产男女无遮挡猛进猛出| 中年人妻丰满AV无码久久不卡| 亚洲一区二区岛国高清| 日本爽快片100色毛片| 玩弄放荡人妻一区二区三区| 玩弄极品少妇被弄到高潮|