亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于注意力與Bi-LSTM 混合算法的車企輿情情感分析*

2021-01-27 02:43:58李宸嚴

網(wǎng)絡(luò)安全與數(shù)據(jù)管理 2021年1期

李宸嚴，劉繼

(新疆財經(jīng)大學(xué) 統(tǒng)計與數(shù)據(jù)科學(xué)學(xué)院，新疆烏魯木齊830012)

0 引言

2020 年7 月，習(xí)近平總書記在一汽研發(fā)總院調(diào)研時指出：汽車制造業(yè)國際競爭激烈，要把民族汽車品牌搞上去，如何提升品牌的形象和溢價效應(yīng)是首要問題。隨著互聯(lián)網(wǎng)的發(fā)展，車企的發(fā)展規(guī)劃、車輛品質(zhì)、創(chuàng)新水平都受到廣泛關(guān)注[1]。網(wǎng)絡(luò)評論暗含網(wǎng)民豐富的情感，通過對評論情感的挖掘，車企可了解近期的網(wǎng)絡(luò)輿情，從而采取相應(yīng)的應(yīng)對措施。因此研究車企網(wǎng)絡(luò)輿情情感，對提高車企形象、維護車企利益具有十分重要的意義。

輿情情感識別的關(guān)鍵在于對文本情感的識別[2]。當前情感識別方法有兩類：基于情感詞典的方法、基于機器學(xué)習(xí)的方法?；谇楦性~典的方法利用情感詞能映射情感傾向的特點，通過測度單詞與情感標簽的關(guān)聯(lián)度來構(gòu)建情感詞典，依據(jù)文本中的情感詞判斷其情感類別[3]。此方法雖能實現(xiàn)文本的情感分類，但存在三方面問題：(1)網(wǎng)絡(luò)用語的盛行對情感詞典的構(gòu)建和維護提出了新的挑戰(zhàn)；(2)處理二義性的詞語時分類效果不佳；(3)無法考慮上下文的語義信息。基于機器學(xué)習(xí)的方法逐步成了情感識別領(lǐng)域的主旋律。 PANG B 等[4]人最先在電影評論的情感分析中應(yīng)用了最大熵、SVM、樸素貝葉斯三種機器學(xué)習(xí)方法。大量實驗證明，基于機器學(xué)習(xí)的方法在解決情感識別問題時的性能優(yōu)秀。

1 文獻綜述

文獻[5-6]提出的Word2vec 模型將單詞映射到低維空間，降低了詞向量的使用代價，實現(xiàn)了深度學(xué)習(xí)在文本分析上的應(yīng)用，明顯提高了情感識別算法的效果。KIM Y 等[7]通過CNN 為區(qū)分文檔中每個句子的情感傾向，并改進詞向量的映射規(guī)則，提升了詞向量的效率。 CAO Y 等[8]在原卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上，在分類層用SVM 算法處理卷積核提取的語義信息進行分類，結(jié)合了傳統(tǒng)機器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的優(yōu)點。梁斌等[9]利用基于注意力機制的CNN 標識文本，擺脫了模型對外部知識的依賴,與CNN 相比，該模型的分類效果有了大幅的提升。馮興杰等[10]利用CNN 和注意力機制的局部分析能力學(xué)習(xí)文本的情感表達方式。張玉環(huán)等[11]將一種變形的GRU 結(jié)構(gòu)融入到句子級LSTM 情感識別模型中，在反向傳播時應(yīng)用偽梯度下降來更新權(quán)值，提高了模型的效率和準確率。

單詞對文本情感的貢獻不盡相同，情感可能僅受個別詞匯影響。目前基于深度學(xué)習(xí)的情感識別模型雖有提升，但以發(fā)掘詞匯語義信息為主的傳統(tǒng)神經(jīng)模型無法將強情感詞區(qū)別對待。因此，如何找到并重點分析強情感詞是下一步研究方向。雖然馮興杰等人[10]應(yīng)用了注意力機制，但是沒有直接提取詞語的情感權(quán)重，依然是在編碼整個文本時學(xué)習(xí)的。本文提出了一種基于注意力機制與Bi-LSTM 的混合分類算法——At-Bi-LSTM 算法，利用注意力機制在詞向量階段計算詞匯對情感的貢獻權(quán)重,弱化長文本中無關(guān)詞對分類的影響，以增強Bi-LSTM 的分類效果。

2 網(wǎng)絡(luò)模型

At-Bi-LSTM 模型如圖1 所示。首先對輿情文本預(yù)處理，將得到的向量輸入到Bi-LSTM 層。通過雙向LSTM 模型學(xué)習(xí)單詞在文本序列中的關(guān)系，從而掌握單詞的語義及在序列的情感表達模式。并利用注意力機制，關(guān)注重點詞匯對文本的情感貢獻，從而使模型對文本情感的學(xué)習(xí)更加高效和準確。然后，在輿情判斷層使用邏輯回歸，將輸出值歸一化為輿情傾向的概率，把概率值最大的類別確定為文本的輿情傾向。

圖1 At-Bi-LSTM 模型示意圖

2.1 語義學(xué)習(xí)層

文本中的單詞成序列結(jié)構(gòu)。為使模型根據(jù)單詞間的序列關(guān)系，學(xué)習(xí)評論的語義表達模式,本文采用Bi-LSTM 模型作為語義學(xué)習(xí)層，對網(wǎng)絡(luò)文本的語義信息進行處理。 Bi-LSTM 由兩個順序相反的LSTM模型組成。LSTM 是改進的循環(huán)神經(jīng)網(wǎng)絡(luò)，能夠攜帶序列信息跨越多個時間步，使信息靈活出現(xiàn)在需要的位置，防止在數(shù)據(jù)處理中丟失早期的信號[12-13]。LSTM 的基本結(jié)構(gòu)如圖2 所示，共有四個單元：

(1)輸入單元，處理當前序列位置的輸入

(2)遺忘單元，遺棄信息

(3)更新單元，更新遺棄信息后的狀態(tài)

(4)輸出單元，確定輸出值

圖2 LSTM 結(jié)構(gòu)

2.2 注意力層

在網(wǎng)絡(luò)文本中并非每個單詞都與整體情感有較強的相關(guān)性，因此對文本情感做分類時，只需著重關(guān)注部分單詞的情感表達[14]。依據(jù)這種處理思路，注意力機制應(yīng)為重要的強情感詞分配更多關(guān)注，即賦予較大的權(quán)重。把詞向量的加權(quán)融入注意力層的輸出，即注意力層會自動學(xué)習(xí)最優(yōu)參數(shù)，如式(1)、式(2)所示。

其中，αi是文本語料中第i 個單詞的注意力分配系數(shù)，代表對文本情感的影響程度，V、W 均為權(quán)重矩陣，b 為偏置。

2.3 輿情傾向?qū)?/h3>
判斷輿情傾向的類別是項分類任務(wù)，因此輿情判斷層實際上是一個分類層。將注意力層的輸出作為輸入，利用邏輯回歸函數(shù)(solftmax)對每一輿情類別估算一個概率值，所有概率值組成的向量作為輿情判斷層的輸出。向量的每個維度對應(yīng)類別的概率，將概率值最大的那個類別作為模型的最終結(jié)果。假設(shè)一j 維數(shù)組V，vi表示V 中的第i 個元素，那么vi的邏輯回歸值為

3 數(shù)據(jù)分析

3.1 結(jié)構(gòu)分析

本文數(shù)據(jù)來自第四屆全國應(yīng)用統(tǒng)計專業(yè)案例大賽，內(nèi)容為各大門戶網(wǎng)站有關(guān)汽車及車企的資訊，包括騰訊網(wǎng)、搜狐網(wǎng)、一點資訊、汽車頭條等有代表性的主流汽車媒體。每條數(shù)據(jù)均為4 部分：

(1)標題表明評論人論述的主旨，能預(yù)判評論的觀點，為后面的精確判斷奠定基礎(chǔ)，因此標題所涵蓋信息對整篇文章的情感分析有極高的價值。

(2)正文是評論人情感抒發(fā)的載體。目前網(wǎng)絡(luò)資源龐雜，標題多為奪人眼球，可能與正文情感并非完全一致。在區(qū)分評論人對于某款汽車或車企的態(tài)度時，不可單純依賴標題，通讀全文才能準確判斷。

(3)網(wǎng)址可說明評論來源。因為門戶網(wǎng)站的發(fā)聲立場不同會導(dǎo)致同一網(wǎng)站的評論咨訊出現(xiàn)某種傾向。因此來源網(wǎng)站可以提供一個評論情感的先驗信息。

(4)情感類別。評論咨訊的情感類別，可以使用有監(jiān)督的機器學(xué)習(xí)方法進行處理。

3.2 類別分析

數(shù)據(jù)可根據(jù)情感類別分為三類：積極評論、中性評論、消極評論。其中：積極評論13 439 條，占14%；消極評論14 762 條，占15%；中性評論71 176條，占72%；這三類共99 377 條，占99.99%。此外，數(shù)據(jù)中還有一類特殊數(shù)據(jù)——因缺失情感標簽，被稱為情感空白數(shù)據(jù)，本文將人工標注這11 條評論的類別。

4 實驗分析

4.1 分詞

中文文本有其特殊的語法規(guī)則，計算機無法直接辨別出句子的詞語結(jié)構(gòu)，故在驗證模型效果之前，需對評論文本進行分詞。本文選用jieba 庫對句子分詞，它作為目前最主流的Python 中文分詞組件，針對不同的需求有三種分詞方案：精確方案、全方案和搜索引擎方案。既能將文本的詞語進行精確劃分，避免了數(shù)據(jù)冗余，還能得出文本中所有可能的詞語。

4.2 數(shù)據(jù)清洗及詞云描述

在分詞之后，對“,”、“。 ”等詞頻較高的符號和虛詞，做進一步處理。這些符號及虛詞在詞語序列中占據(jù)著較大比例，但本身又不代表任何含義，為避免這些標點對模型的計算結(jié)果產(chǎn)生影響，在將數(shù)據(jù)喂入LSTM 模型之前，要把它們一一剔除。本文采用Python 的string 庫對所有分詞結(jié)果進行掃描，將無用分詞全部剔除，最終得到數(shù)據(jù)清洗的詞云圖如圖3 所示。

圖3 詞云展示

分析詞云圖可知，自動、動力、新能源是網(wǎng)友主要關(guān)注的功能。車企須對這些主要需求進行專攻，加大科技研發(fā)力度和宣傳，及時推出相應(yīng)車型，增加品牌知名度和科技感，提升市場份額。最關(guān)注的汽車品牌有：奔馳、寶馬、現(xiàn)代、大眾、國產(chǎn)。 “電動車”、“自行車”、“汽車”、“發(fā)動機”反映出汽車正逐步回歸代步工具的初衷，綠色出行和環(huán)保意識深入人心。通過“中國”、“新車”、“國產(chǎn)”等詞能發(fā)現(xiàn)國產(chǎn)汽車越來越成為人們關(guān)注的焦點。

4.3 模型驗證與對比分析

通過十折交叉驗證，將輿情數(shù)據(jù)劃分為10 個分區(qū)，模型在其中的9 個分區(qū)上訓(xùn)練，并在剩余的一個分區(qū)上進行評估，模型的驗證分數(shù)等于10 個驗證分數(shù)的平均值。圖4 是LSTM 模型和At-Bi-LSTM模型20 輪訓(xùn)練的表現(xiàn)。

圖4 LSTM 和At-Bi-LSTM 的20 輪訓(xùn)練表現(xiàn)

如圖4(a)所示，LSTM 模型在驗證集的損失值在第2 輪到達最低值，之后不斷升高；At-Bi-LSTM模型在第4 輪到達谷值，因此LSTM 比At-Bi-LSTM更早過擬合。如圖4(b)所示，隨訓(xùn)練輪次的增加，網(wǎng)絡(luò)在訓(xùn)練集上的預(yù)測能力越來越強。 LSTM 的準確率在第7 輪基本穩(wěn)定在89.4%，At-Bi-LSTM 在第10 輪到達峰值，且準確率比LSTM 高0.029。在之后的訓(xùn)練中，模型的準確度雖略有波動，但總體保持平穩(wěn)。

本文將實驗結(jié)果按評論的傾向類型進一步細化，使用準確率(Accuracy)和召回率(Recall)兩個指標衡量模型的性能，并且又加入了與樸素貝葉斯和SVM 模型的對比。對比結(jié)果見表1。

表1 顯示At-Bi-LSTM 作為情感分析模型，可以最高達到92.3%的準確率、91.2%的召回率，效果明顯好于樸素貝葉斯、SVM 及LSTM 模型。

表1 四種模型對比結(jié)果

為對汽車領(lǐng)域提出針對性建議，模型通過注意力機制對積極評論和消極評論分別篩選出部分注意力權(quán)重大的關(guān)鍵詞，結(jié)果如圖5 所示。

圖5 評論中高注意力詞匯的權(quán)重分布

高注意力詞匯能體現(xiàn)評論的重點，對情感類別影響較大。圖5(a)顯示積極評論一般關(guān)注空間、內(nèi)飾等舒適性元素。圖5(b)顯示消極評論一般關(guān)注駕駛體驗及安全等汽車最基本的元素，這印證了4.2小節(jié)的結(jié)論：對于消費者來說，汽車已經(jīng)逐步回歸于代步工具的初衷。綜合而言消費者十分在意車輛的安全性、舒適性及操縱性，車企應(yīng)下一步加大對這三方面的研發(fā)和宣傳力度，更精準地滿足消費者需求，從而提高銷量。

5 結(jié)論

本文提出的At-Bi-LSTM 車企輿情分類模型，在Bi-LSTM 模型基礎(chǔ)上加入注意力機制，對單詞序列有著較好理解和分析能力，通過對注意力機制提取的強情感詞序列進行建模，關(guān)注文本中反映情感的標志，生成更準確的情感表示。實驗證明At-Bi-LSTM 模型分類結(jié)果較好，能夠關(guān)注輿情生態(tài)系統(tǒng)下的用戶負面情緒，為加強車企輿情應(yīng)對能力提供有效的幫助。通過分析大量的網(wǎng)絡(luò)評論，車企今后的工作重點應(yīng)關(guān)注用戶的駕駛體驗，提高自身的科技實力和影響力。

本文模型對中性評論的識別更加準確，積極和消極評論的準確度相對較低，因此應(yīng)在后續(xù)研究中提取評論更精準的情感特征。可以考慮更多情感影響因素，如文本發(fā)布源等，進一步提高模型應(yīng)對不同評論時的效果。