李宸嚴(yán),劉 繼
(新疆財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,新疆 烏魯木齊830012)
2020 年7 月,習(xí)近平總書記在一汽研發(fā)總院調(diào)研時(shí)指出:汽車制造業(yè)國際競爭激烈,要把民族汽車品牌搞上去,如何提升品牌的形象和溢價(jià)效應(yīng)是首要問題。 隨著互聯(lián)網(wǎng)的發(fā)展,車企的發(fā)展規(guī)劃、車輛品質(zhì)、創(chuàng)新水平都受到廣泛關(guān)注[1]。 網(wǎng)絡(luò)評(píng)論暗含網(wǎng)民豐富的情感,通過對(duì)評(píng)論情感的挖掘,車企可了解近期的網(wǎng)絡(luò)輿情,從而采取相應(yīng)的應(yīng)對(duì)措施。 因此研究車企網(wǎng)絡(luò)輿情情感,對(duì)提高車企形象、維護(hù)車企利益具有十分重要的意義。
輿情情感識(shí)別的關(guān)鍵在于對(duì)文本情感的識(shí)別[2]。當(dāng)前情感識(shí)別方法有兩類:基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法?;谇楦性~典的方法利用情感詞能映射情感傾向的特點(diǎn),通過測度單詞與情感標(biāo)簽的關(guān)聯(lián)度來構(gòu)建情感詞典,依據(jù)文本中的情感詞判斷其情感類別[3]。 此方法雖能實(shí)現(xiàn)文本的情感分類,但存在三方面問題:(1)網(wǎng)絡(luò)用語的盛行對(duì)情感詞典的構(gòu)建和維護(hù)提出了新的挑戰(zhàn);(2)處理二義性的詞語時(shí)分類效果不佳;(3)無法考慮上下文的語義信息。 基于機(jī)器學(xué)習(xí)的方法逐步成了情感識(shí)別領(lǐng)域的主旋律。 PANG B 等[4]人最先在電影評(píng)論的情感分析中應(yīng)用了最大熵、SVM、樸素貝葉斯三種機(jī)器學(xué)習(xí)方法。 大量實(shí)驗(yàn)證明,基于機(jī)器學(xué)習(xí)的方法在解決情感識(shí)別問題時(shí)的性能優(yōu)秀。
文獻(xiàn)[5-6]提出的Word2vec 模型將單詞映射到低維空間,降低了詞向量的使用代價(jià),實(shí)現(xiàn)了深度學(xué)習(xí)在文本分析上的應(yīng)用,明顯提高了情感識(shí)別算法的效果。KIM Y 等[7]通過CNN 為區(qū)分文檔中每個(gè)句子的情感傾向,并改進(jìn)詞向量的映射規(guī)則,提升了詞向量的效率。 CAO Y 等[8]在原卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上, 在分類層用SVM 算法處理卷積核提取的語義信息進(jìn)行分類,結(jié)合了傳統(tǒng)機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)。梁斌等[9]利用基于注意力機(jī)制的CNN 標(biāo)識(shí)文本,擺脫了模型對(duì)外部知識(shí)的依賴,與CNN 相比,該模型的分類效果有了大幅的提升。 馮興杰等[10]利用CNN 和注意力機(jī)制的局部分析能力學(xué)習(xí)文本的情感表達(dá)方式。 張玉環(huán)等[11]將一種變形的GRU 結(jié)構(gòu)融入到句子級(jí)LSTM 情感識(shí)別模型中,在反向傳播時(shí)應(yīng)用偽梯度下降來更新權(quán)值,提高了模型的效率和準(zhǔn)確率。
單詞對(duì)文本情感的貢獻(xiàn)不盡相同,情感可能僅受個(gè)別詞匯影響。 目前基于深度學(xué)習(xí)的情感識(shí)別模型雖有提升,但以發(fā)掘詞匯語義信息為主的傳統(tǒng)神經(jīng)模型無法將強(qiáng)情感詞區(qū)別對(duì)待。 因此,如何找到并重點(diǎn)分析強(qiáng)情感詞是下一步研究方向。 雖然馮興杰等人[10]應(yīng)用了注意力機(jī)制,但是沒有直接提取詞語的情感權(quán)重,依然是在編碼整個(gè)文本時(shí)學(xué)習(xí)的。本文提出了一種基于注意力機(jī)制與Bi-LSTM 的混合分類算法——At-Bi-LSTM 算法,利用注意力機(jī)制在詞向量階段計(jì)算詞匯對(duì)情感的貢獻(xiàn)權(quán)重,弱化長文本中無關(guān)詞對(duì)分類的影響,以增強(qiáng)Bi-LSTM 的分類效果。
At-Bi-LSTM 模型如圖1 所示。 首先對(duì)輿情文本預(yù)處理,將得到的向量輸入到Bi-LSTM 層。 通過雙向LSTM 模型學(xué)習(xí)單詞在文本序列中的關(guān)系,從而掌握單詞的語義及在序列的情感表達(dá)模式。 并利用注意力機(jī)制,關(guān)注重點(diǎn)詞匯對(duì)文本的情感貢獻(xiàn),從而使模型對(duì)文本情感的學(xué)習(xí)更加高效和準(zhǔn)確。 然后,在輿情判斷層使用邏輯回歸,將輸出值歸一化為輿情傾向的概率,把概率值最大的類別確定為文本的輿情傾向。
圖1 At-Bi-LSTM 模型示意圖
文本中的單詞成序列結(jié)構(gòu)。 為使模型根據(jù)單詞間的序列關(guān)系,學(xué)習(xí)評(píng)論的語義表達(dá)模式,本文采用Bi-LSTM 模型作為語義學(xué)習(xí)層,對(duì)網(wǎng)絡(luò)文本的語義信息進(jìn)行處理。 Bi-LSTM 由兩個(gè)順序相反的LSTM模型組成。LSTM 是改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò),能夠攜帶序列信息跨越多個(gè)時(shí)間步,使信息靈活出現(xiàn)在需要的位置,防止在數(shù)據(jù)處理中丟失早期的信號(hào)[12-13]。LSTM 的基本結(jié)構(gòu)如圖2 所示,共有四個(gè)單元:
(1)輸入單元,處理當(dāng)前序列位置的輸入
(2)遺忘單元,遺棄信息
(3)更新單元,更新遺棄信息后的狀態(tài)
(4)輸出單元,確定輸出值
圖2 LSTM 結(jié)構(gòu)
在網(wǎng)絡(luò)文本中并非每個(gè)單詞都與整體情感有較強(qiáng)的相關(guān)性,因此對(duì)文本情感做分類時(shí),只需著重關(guān)注部分單詞的情感表達(dá)[14]。 依據(jù)這種處理思路,注意力機(jī)制應(yīng)為重要的強(qiáng)情感詞分配更多關(guān)注,即賦予較大的權(quán)重。 把詞向量的加權(quán)融入注意力層的輸出,即注意力層會(huì)自動(dòng)學(xué)習(xí)最優(yōu)參數(shù),如式(1)、式(2)所示。
其中,αi是文本語料中第i 個(gè)單詞的注意力分配系數(shù),代表對(duì)文本情感的影響程度,V、W 均為權(quán)重矩陣,b 為 偏 置。
判斷輿情傾向的類別是項(xiàng)分類任務(wù),因此輿情判斷層實(shí)際上是一個(gè)分類層。將注意力層的輸出作為輸入,利用邏輯回歸函數(shù)(solftmax)對(duì)每一輿情類別估算一個(gè)概率值,所有概率值組成的向量作為輿情判斷層的輸出。 向量的每個(gè)維度對(duì)應(yīng)類別的概率,將概率值最大的那個(gè)類別作為模型的最終結(jié)果。 假設(shè)一j 維數(shù)組V,vi表示V 中的第i 個(gè)元素,那么vi的邏輯回歸值為
本文數(shù)據(jù)來自第四屆全國應(yīng)用統(tǒng)計(jì)專業(yè)案例大賽,內(nèi)容為各大門戶網(wǎng)站有關(guān)汽車及車企的資訊,包括騰訊網(wǎng)、搜狐網(wǎng)、一點(diǎn)資訊、汽車頭條等有代表性的主流汽車媒體。 每條數(shù)據(jù)均為4 部分:
(1)標(biāo)題表明評(píng)論人論述的主旨,能預(yù)判評(píng)論的觀點(diǎn),為后面的精確判斷奠定基礎(chǔ),因此標(biāo)題所涵蓋信息對(duì)整篇文章的情感分析有極高的價(jià)值。
(2)正文是評(píng)論人情感抒發(fā)的載體。目前網(wǎng)絡(luò)資源龐雜,標(biāo)題多為奪人眼球,可能與正文情感并非完全一致。在區(qū)分評(píng)論人對(duì)于某款汽車或車企的態(tài)度時(shí),不可單純依賴標(biāo)題,通讀全文才能準(zhǔn)確判斷。
(3)網(wǎng)址可說明評(píng)論來源。 因?yàn)殚T戶網(wǎng)站的發(fā)聲立場不同會(huì)導(dǎo)致同一網(wǎng)站的評(píng)論咨訊出現(xiàn)某種傾向。因此來源網(wǎng)站可以提供一個(gè)評(píng)論情感的先驗(yàn)信息。
(4)情感類別。 評(píng)論咨訊的情感類別,可以使用有監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)行處理。
數(shù)據(jù)可根據(jù)情感類別分為三類:積極評(píng)論、中性評(píng)論、消極評(píng)論。 其中:積極評(píng)論13 439 條,占14%;消極評(píng)論14 762 條,占15%;中性評(píng)論71 176條,占72%;這三類共99 377 條,占99.99%。 此外,數(shù)據(jù)中還有一類特殊數(shù)據(jù)——因缺失情感標(biāo)簽,被稱為情感空白數(shù)據(jù), 本文將人工標(biāo)注這11 條評(píng)論的類別。
中文文本有其特殊的語法規(guī)則,計(jì)算機(jī)無法直接辨別出句子的詞語結(jié)構(gòu),故在驗(yàn)證模型效果之前,需對(duì)評(píng)論文本進(jìn)行分詞。本文選用jieba 庫對(duì)句子分詞,它作為目前最主流的Python 中文分詞組件,針對(duì)不同的需求有三種分詞方案:精確方案、全方案和搜索引擎方案。 既能將文本的詞語進(jìn)行精確劃分,避免了數(shù)據(jù)冗余,還能得出文本中所有可能的詞語。
在分詞之后,對(duì)“,”、“。 ”等詞頻較高的符號(hào)和虛詞,做進(jìn)一步處理。 這些符號(hào)及虛詞在詞語序列中占據(jù)著較大比例,但本身又不代表任何含義,為避免這些標(biāo)點(diǎn)對(duì)模型的計(jì)算結(jié)果產(chǎn)生影響,在將數(shù)據(jù)喂入LSTM 模型之前,要把它們一一剔除。 本文采用Python 的string 庫對(duì)所有分詞結(jié)果進(jìn)行掃描,將無用分詞全部剔除,最終得到數(shù)據(jù)清洗的詞云圖如圖3 所示。
圖3 詞云展示
分析詞云圖可知,自動(dòng)、動(dòng)力、新能源是網(wǎng)友主要關(guān)注的功能。 車企須對(duì)這些主要需求進(jìn)行專攻,加大科技研發(fā)力度和宣傳, 及時(shí)推出相應(yīng)車型,增加品牌知名度和科技感,提升市場份額。 最關(guān)注的汽車品牌有:奔馳、寶馬、現(xiàn)代、大眾、國產(chǎn)。 “電動(dòng)車”、“自行車”、“汽車”、“發(fā)動(dòng)機(jī)”反映出汽車正逐步回歸代步工具的初衷,綠色出行和環(huán)保意識(shí)深入人心。 通過“中國”、“新車”、“國產(chǎn)”等詞能發(fā)現(xiàn)國產(chǎn)汽車越來越成為人們關(guān)注的焦點(diǎn)。
通過十折交叉驗(yàn)證,將輿情數(shù)據(jù)劃分為10 個(gè)分區(qū),模型在其中的9 個(gè)分區(qū)上訓(xùn)練,并在剩余的一個(gè)分區(qū)上進(jìn)行評(píng)估,模型的驗(yàn)證分?jǐn)?shù)等于10 個(gè)驗(yàn)證分?jǐn)?shù)的平均值。圖4 是LSTM 模型和At-Bi-LSTM模型20 輪訓(xùn)練的表現(xiàn)。
圖4 LSTM 和At-Bi-LSTM 的20 輪訓(xùn)練表現(xiàn)
如圖4(a)所示,LSTM 模型在驗(yàn)證集的損失值在第2 輪到達(dá)最低值,之后不斷升高;At-Bi-LSTM模型在第4 輪到達(dá)谷值,因此LSTM 比At-Bi-LSTM更早過擬合。 如圖4(b)所示,隨訓(xùn)練輪次的增加,網(wǎng)絡(luò)在訓(xùn)練集上的預(yù)測能力越來越強(qiáng)。 LSTM 的準(zhǔn)確率在第7 輪基本穩(wěn)定在89.4%,At-Bi-LSTM 在第10 輪到達(dá)峰值,且準(zhǔn)確率比LSTM 高0.029。 在之后的訓(xùn)練中,模型的準(zhǔn)確度雖略有波動(dòng),但總體保持平穩(wěn)。
本文將實(shí)驗(yàn)結(jié)果按評(píng)論的傾向類型進(jìn)一步細(xì)化,使用準(zhǔn)確率(Accuracy)和召回率(Recall)兩個(gè)指標(biāo)衡量模型的性能,并且又加入了與樸素貝葉斯和SVM 模型的對(duì)比。 對(duì)比結(jié)果見表1。
表1 顯示At-Bi-LSTM 作為情感分析模型,可以最高達(dá)到92.3%的準(zhǔn)確率、91.2%的召回率,效果明顯好于樸素貝葉斯、SVM 及LSTM 模型。
表1 四種模型對(duì)比結(jié)果
為對(duì)汽車領(lǐng)域提出針對(duì)性建議,模型通過注意力機(jī)制對(duì)積極評(píng)論和消極評(píng)論分別篩選出部分注意力權(quán)重大的關(guān)鍵詞,結(jié)果如圖5 所示。
圖5 評(píng)論中高注意力詞匯的權(quán)重分布
高注意力詞匯能體現(xiàn)評(píng)論的重點(diǎn),對(duì)情感類別影響較大。 圖5(a)顯示積極評(píng)論一般關(guān)注空間、內(nèi)飾等舒適性元素。圖5(b)顯示消極評(píng)論一般關(guān)注駕駛體驗(yàn)及安全等汽車最基本的元素,這印證了4.2小節(jié)的結(jié)論:對(duì)于消費(fèi)者來說,汽車已經(jīng)逐步回歸于代步工具的初衷。 綜合而言消費(fèi)者十分在意車輛的安全性、舒適性及操縱性,車企應(yīng)下一步加大對(duì)這三方面的研發(fā)和宣傳力度,更精準(zhǔn)地滿足消費(fèi)者需求,從而提高銷量。
本文提出的At-Bi-LSTM 車企輿情分類模型,在Bi-LSTM 模型基礎(chǔ)上加入注意力機(jī)制,對(duì)單詞序列有著較好理解和分析能力,通過對(duì)注意力機(jī)制提取的強(qiáng)情感詞序列進(jìn)行建模,關(guān)注文本中反映情感的標(biāo)志,生成更準(zhǔn)確的情感表示。 實(shí)驗(yàn)證明At-Bi-LSTM 模型分類結(jié)果較好,能夠關(guān)注輿情生態(tài)系統(tǒng)下的用戶負(fù)面情緒,為加強(qiáng)車企輿情應(yīng)對(duì)能力提供有效的幫助。 通過分析大量的網(wǎng)絡(luò)評(píng)論,車企今后的工作重點(diǎn)應(yīng)關(guān)注用戶的駕駛體驗(yàn),提高自身的科技實(shí)力和影響力。
本文模型對(duì)中性評(píng)論的識(shí)別更加準(zhǔn)確,積極和消極評(píng)論的準(zhǔn)確度相對(duì)較低,因此應(yīng)在后續(xù)研究中提取評(píng)論更精準(zhǔn)的情感特征。 可以考慮更多情感影響因素,如文本發(fā)布源等,進(jìn)一步提高模型應(yīng)對(duì)不同評(píng)論時(shí)的效果。