亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于注意力與Bi-LSTM 混合算法的車企輿情情感分析*

        2021-01-27 02:43:58李宸嚴(yán)
        關(guān)鍵詞:分詞類別輿情

        李宸嚴(yán),劉 繼

        (新疆財(cái)經(jīng)大學(xué) 統(tǒng)計(jì)與數(shù)據(jù)科學(xué)學(xué)院,新疆 烏魯木齊830012)

        0 引言

        2020 年7 月,習(xí)近平總書記在一汽研發(fā)總院調(diào)研時(shí)指出:汽車制造業(yè)國際競爭激烈,要把民族汽車品牌搞上去,如何提升品牌的形象和溢價(jià)效應(yīng)是首要問題。 隨著互聯(lián)網(wǎng)的發(fā)展,車企的發(fā)展規(guī)劃、車輛品質(zhì)、創(chuàng)新水平都受到廣泛關(guān)注[1]。 網(wǎng)絡(luò)評(píng)論暗含網(wǎng)民豐富的情感,通過對(duì)評(píng)論情感的挖掘,車企可了解近期的網(wǎng)絡(luò)輿情,從而采取相應(yīng)的應(yīng)對(duì)措施。 因此研究車企網(wǎng)絡(luò)輿情情感,對(duì)提高車企形象、維護(hù)車企利益具有十分重要的意義。

        輿情情感識(shí)別的關(guān)鍵在于對(duì)文本情感的識(shí)別[2]。當(dāng)前情感識(shí)別方法有兩類:基于情感詞典的方法、基于機(jī)器學(xué)習(xí)的方法?;谇楦性~典的方法利用情感詞能映射情感傾向的特點(diǎn),通過測度單詞與情感標(biāo)簽的關(guān)聯(lián)度來構(gòu)建情感詞典,依據(jù)文本中的情感詞判斷其情感類別[3]。 此方法雖能實(shí)現(xiàn)文本的情感分類,但存在三方面問題:(1)網(wǎng)絡(luò)用語的盛行對(duì)情感詞典的構(gòu)建和維護(hù)提出了新的挑戰(zhàn);(2)處理二義性的詞語時(shí)分類效果不佳;(3)無法考慮上下文的語義信息。 基于機(jī)器學(xué)習(xí)的方法逐步成了情感識(shí)別領(lǐng)域的主旋律。 PANG B 等[4]人最先在電影評(píng)論的情感分析中應(yīng)用了最大熵、SVM、樸素貝葉斯三種機(jī)器學(xué)習(xí)方法。 大量實(shí)驗(yàn)證明,基于機(jī)器學(xué)習(xí)的方法在解決情感識(shí)別問題時(shí)的性能優(yōu)秀。

        1 文獻(xiàn)綜述

        文獻(xiàn)[5-6]提出的Word2vec 模型將單詞映射到低維空間,降低了詞向量的使用代價(jià),實(shí)現(xiàn)了深度學(xué)習(xí)在文本分析上的應(yīng)用,明顯提高了情感識(shí)別算法的效果。KIM Y 等[7]通過CNN 為區(qū)分文檔中每個(gè)句子的情感傾向,并改進(jìn)詞向量的映射規(guī)則,提升了詞向量的效率。 CAO Y 等[8]在原卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上, 在分類層用SVM 算法處理卷積核提取的語義信息進(jìn)行分類,結(jié)合了傳統(tǒng)機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的優(yōu)點(diǎn)。梁斌等[9]利用基于注意力機(jī)制的CNN 標(biāo)識(shí)文本,擺脫了模型對(duì)外部知識(shí)的依賴,與CNN 相比,該模型的分類效果有了大幅的提升。 馮興杰等[10]利用CNN 和注意力機(jī)制的局部分析能力學(xué)習(xí)文本的情感表達(dá)方式。 張玉環(huán)等[11]將一種變形的GRU 結(jié)構(gòu)融入到句子級(jí)LSTM 情感識(shí)別模型中,在反向傳播時(shí)應(yīng)用偽梯度下降來更新權(quán)值,提高了模型的效率和準(zhǔn)確率。

        單詞對(duì)文本情感的貢獻(xiàn)不盡相同,情感可能僅受個(gè)別詞匯影響。 目前基于深度學(xué)習(xí)的情感識(shí)別模型雖有提升,但以發(fā)掘詞匯語義信息為主的傳統(tǒng)神經(jīng)模型無法將強(qiáng)情感詞區(qū)別對(duì)待。 因此,如何找到并重點(diǎn)分析強(qiáng)情感詞是下一步研究方向。 雖然馮興杰等人[10]應(yīng)用了注意力機(jī)制,但是沒有直接提取詞語的情感權(quán)重,依然是在編碼整個(gè)文本時(shí)學(xué)習(xí)的。本文提出了一種基于注意力機(jī)制與Bi-LSTM 的混合分類算法——At-Bi-LSTM 算法,利用注意力機(jī)制在詞向量階段計(jì)算詞匯對(duì)情感的貢獻(xiàn)權(quán)重,弱化長文本中無關(guān)詞對(duì)分類的影響,以增強(qiáng)Bi-LSTM 的分類效果。

        2 網(wǎng)絡(luò)模型

        At-Bi-LSTM 模型如圖1 所示。 首先對(duì)輿情文本預(yù)處理,將得到的向量輸入到Bi-LSTM 層。 通過雙向LSTM 模型學(xué)習(xí)單詞在文本序列中的關(guān)系,從而掌握單詞的語義及在序列的情感表達(dá)模式。 并利用注意力機(jī)制,關(guān)注重點(diǎn)詞匯對(duì)文本的情感貢獻(xiàn),從而使模型對(duì)文本情感的學(xué)習(xí)更加高效和準(zhǔn)確。 然后,在輿情判斷層使用邏輯回歸,將輸出值歸一化為輿情傾向的概率,把概率值最大的類別確定為文本的輿情傾向。

        圖1 At-Bi-LSTM 模型示意圖

        2.1 語義學(xué)習(xí)層

        文本中的單詞成序列結(jié)構(gòu)。 為使模型根據(jù)單詞間的序列關(guān)系,學(xué)習(xí)評(píng)論的語義表達(dá)模式,本文采用Bi-LSTM 模型作為語義學(xué)習(xí)層,對(duì)網(wǎng)絡(luò)文本的語義信息進(jìn)行處理。 Bi-LSTM 由兩個(gè)順序相反的LSTM模型組成。LSTM 是改進(jìn)的循環(huán)神經(jīng)網(wǎng)絡(luò),能夠攜帶序列信息跨越多個(gè)時(shí)間步,使信息靈活出現(xiàn)在需要的位置,防止在數(shù)據(jù)處理中丟失早期的信號(hào)[12-13]。LSTM 的基本結(jié)構(gòu)如圖2 所示,共有四個(gè)單元:

        (1)輸入單元,處理當(dāng)前序列位置的輸入

        (2)遺忘單元,遺棄信息

        (3)更新單元,更新遺棄信息后的狀態(tài)

        (4)輸出單元,確定輸出值

        圖2 LSTM 結(jié)構(gòu)

        2.2 注意力層

        在網(wǎng)絡(luò)文本中并非每個(gè)單詞都與整體情感有較強(qiáng)的相關(guān)性,因此對(duì)文本情感做分類時(shí),只需著重關(guān)注部分單詞的情感表達(dá)[14]。 依據(jù)這種處理思路,注意力機(jī)制應(yīng)為重要的強(qiáng)情感詞分配更多關(guān)注,即賦予較大的權(quán)重。 把詞向量的加權(quán)融入注意力層的輸出,即注意力層會(huì)自動(dòng)學(xué)習(xí)最優(yōu)參數(shù),如式(1)、式(2)所示。

        其中,αi是文本語料中第i 個(gè)單詞的注意力分配系數(shù),代表對(duì)文本情感的影響程度,V、W 均為權(quán)重矩陣,b 為 偏 置。

        2.3 輿情傾向?qū)?/h3>

        判斷輿情傾向的類別是項(xiàng)分類任務(wù),因此輿情判斷層實(shí)際上是一個(gè)分類層。將注意力層的輸出作為輸入,利用邏輯回歸函數(shù)(solftmax)對(duì)每一輿情類別估算一個(gè)概率值,所有概率值組成的向量作為輿情判斷層的輸出。 向量的每個(gè)維度對(duì)應(yīng)類別的概率,將概率值最大的那個(gè)類別作為模型的最終結(jié)果。 假設(shè)一j 維數(shù)組V,vi表示V 中的第i 個(gè)元素,那么vi的邏輯回歸值為

        3 數(shù)據(jù)分析

        3.1 結(jié)構(gòu)分析

        本文數(shù)據(jù)來自第四屆全國應(yīng)用統(tǒng)計(jì)專業(yè)案例大賽,內(nèi)容為各大門戶網(wǎng)站有關(guān)汽車及車企的資訊,包括騰訊網(wǎng)、搜狐網(wǎng)、一點(diǎn)資訊、汽車頭條等有代表性的主流汽車媒體。 每條數(shù)據(jù)均為4 部分:

        (1)標(biāo)題表明評(píng)論人論述的主旨,能預(yù)判評(píng)論的觀點(diǎn),為后面的精確判斷奠定基礎(chǔ),因此標(biāo)題所涵蓋信息對(duì)整篇文章的情感分析有極高的價(jià)值。

        (2)正文是評(píng)論人情感抒發(fā)的載體。目前網(wǎng)絡(luò)資源龐雜,標(biāo)題多為奪人眼球,可能與正文情感并非完全一致。在區(qū)分評(píng)論人對(duì)于某款汽車或車企的態(tài)度時(shí),不可單純依賴標(biāo)題,通讀全文才能準(zhǔn)確判斷。

        (3)網(wǎng)址可說明評(píng)論來源。 因?yàn)殚T戶網(wǎng)站的發(fā)聲立場不同會(huì)導(dǎo)致同一網(wǎng)站的評(píng)論咨訊出現(xiàn)某種傾向。因此來源網(wǎng)站可以提供一個(gè)評(píng)論情感的先驗(yàn)信息。

        (4)情感類別。 評(píng)論咨訊的情感類別,可以使用有監(jiān)督的機(jī)器學(xué)習(xí)方法進(jìn)行處理。

        3.2 類別分析

        數(shù)據(jù)可根據(jù)情感類別分為三類:積極評(píng)論、中性評(píng)論、消極評(píng)論。 其中:積極評(píng)論13 439 條,占14%;消極評(píng)論14 762 條,占15%;中性評(píng)論71 176條,占72%;這三類共99 377 條,占99.99%。 此外,數(shù)據(jù)中還有一類特殊數(shù)據(jù)——因缺失情感標(biāo)簽,被稱為情感空白數(shù)據(jù), 本文將人工標(biāo)注這11 條評(píng)論的類別。

        4 實(shí)驗(yàn)分析

        4.1 分詞

        中文文本有其特殊的語法規(guī)則,計(jì)算機(jī)無法直接辨別出句子的詞語結(jié)構(gòu),故在驗(yàn)證模型效果之前,需對(duì)評(píng)論文本進(jìn)行分詞。本文選用jieba 庫對(duì)句子分詞,它作為目前最主流的Python 中文分詞組件,針對(duì)不同的需求有三種分詞方案:精確方案、全方案和搜索引擎方案。 既能將文本的詞語進(jìn)行精確劃分,避免了數(shù)據(jù)冗余,還能得出文本中所有可能的詞語。

        4.2 數(shù)據(jù)清洗及詞云描述

        在分詞之后,對(duì)“,”、“。 ”等詞頻較高的符號(hào)和虛詞,做進(jìn)一步處理。 這些符號(hào)及虛詞在詞語序列中占據(jù)著較大比例,但本身又不代表任何含義,為避免這些標(biāo)點(diǎn)對(duì)模型的計(jì)算結(jié)果產(chǎn)生影響,在將數(shù)據(jù)喂入LSTM 模型之前,要把它們一一剔除。 本文采用Python 的string 庫對(duì)所有分詞結(jié)果進(jìn)行掃描,將無用分詞全部剔除,最終得到數(shù)據(jù)清洗的詞云圖如圖3 所示。

        圖3 詞云展示

        分析詞云圖可知,自動(dòng)、動(dòng)力、新能源是網(wǎng)友主要關(guān)注的功能。 車企須對(duì)這些主要需求進(jìn)行專攻,加大科技研發(fā)力度和宣傳, 及時(shí)推出相應(yīng)車型,增加品牌知名度和科技感,提升市場份額。 最關(guān)注的汽車品牌有:奔馳、寶馬、現(xiàn)代、大眾、國產(chǎn)。 “電動(dòng)車”、“自行車”、“汽車”、“發(fā)動(dòng)機(jī)”反映出汽車正逐步回歸代步工具的初衷,綠色出行和環(huán)保意識(shí)深入人心。 通過“中國”、“新車”、“國產(chǎn)”等詞能發(fā)現(xiàn)國產(chǎn)汽車越來越成為人們關(guān)注的焦點(diǎn)。

        4.3 模型驗(yàn)證與對(duì)比分析

        通過十折交叉驗(yàn)證,將輿情數(shù)據(jù)劃分為10 個(gè)分區(qū),模型在其中的9 個(gè)分區(qū)上訓(xùn)練,并在剩余的一個(gè)分區(qū)上進(jìn)行評(píng)估,模型的驗(yàn)證分?jǐn)?shù)等于10 個(gè)驗(yàn)證分?jǐn)?shù)的平均值。圖4 是LSTM 模型和At-Bi-LSTM模型20 輪訓(xùn)練的表現(xiàn)。

        圖4 LSTM 和At-Bi-LSTM 的20 輪訓(xùn)練表現(xiàn)

        如圖4(a)所示,LSTM 模型在驗(yàn)證集的損失值在第2 輪到達(dá)最低值,之后不斷升高;At-Bi-LSTM模型在第4 輪到達(dá)谷值,因此LSTM 比At-Bi-LSTM更早過擬合。 如圖4(b)所示,隨訓(xùn)練輪次的增加,網(wǎng)絡(luò)在訓(xùn)練集上的預(yù)測能力越來越強(qiáng)。 LSTM 的準(zhǔn)確率在第7 輪基本穩(wěn)定在89.4%,At-Bi-LSTM 在第10 輪到達(dá)峰值,且準(zhǔn)確率比LSTM 高0.029。 在之后的訓(xùn)練中,模型的準(zhǔn)確度雖略有波動(dòng),但總體保持平穩(wěn)。

        本文將實(shí)驗(yàn)結(jié)果按評(píng)論的傾向類型進(jìn)一步細(xì)化,使用準(zhǔn)確率(Accuracy)和召回率(Recall)兩個(gè)指標(biāo)衡量模型的性能,并且又加入了與樸素貝葉斯和SVM 模型的對(duì)比。 對(duì)比結(jié)果見表1。

        表1 顯示At-Bi-LSTM 作為情感分析模型,可以最高達(dá)到92.3%的準(zhǔn)確率、91.2%的召回率,效果明顯好于樸素貝葉斯、SVM 及LSTM 模型。

        表1 四種模型對(duì)比結(jié)果

        為對(duì)汽車領(lǐng)域提出針對(duì)性建議,模型通過注意力機(jī)制對(duì)積極評(píng)論和消極評(píng)論分別篩選出部分注意力權(quán)重大的關(guān)鍵詞,結(jié)果如圖5 所示。

        圖5 評(píng)論中高注意力詞匯的權(quán)重分布

        高注意力詞匯能體現(xiàn)評(píng)論的重點(diǎn),對(duì)情感類別影響較大。 圖5(a)顯示積極評(píng)論一般關(guān)注空間、內(nèi)飾等舒適性元素。圖5(b)顯示消極評(píng)論一般關(guān)注駕駛體驗(yàn)及安全等汽車最基本的元素,這印證了4.2小節(jié)的結(jié)論:對(duì)于消費(fèi)者來說,汽車已經(jīng)逐步回歸于代步工具的初衷。 綜合而言消費(fèi)者十分在意車輛的安全性、舒適性及操縱性,車企應(yīng)下一步加大對(duì)這三方面的研發(fā)和宣傳力度,更精準(zhǔn)地滿足消費(fèi)者需求,從而提高銷量。

        5 結(jié)論

        本文提出的At-Bi-LSTM 車企輿情分類模型,在Bi-LSTM 模型基礎(chǔ)上加入注意力機(jī)制,對(duì)單詞序列有著較好理解和分析能力,通過對(duì)注意力機(jī)制提取的強(qiáng)情感詞序列進(jìn)行建模,關(guān)注文本中反映情感的標(biāo)志,生成更準(zhǔn)確的情感表示。 實(shí)驗(yàn)證明At-Bi-LSTM 模型分類結(jié)果較好,能夠關(guān)注輿情生態(tài)系統(tǒng)下的用戶負(fù)面情緒,為加強(qiáng)車企輿情應(yīng)對(duì)能力提供有效的幫助。 通過分析大量的網(wǎng)絡(luò)評(píng)論,車企今后的工作重點(diǎn)應(yīng)關(guān)注用戶的駕駛體驗(yàn),提高自身的科技實(shí)力和影響力。

        本文模型對(duì)中性評(píng)論的識(shí)別更加準(zhǔn)確,積極和消極評(píng)論的準(zhǔn)確度相對(duì)較低,因此應(yīng)在后續(xù)研究中提取評(píng)論更精準(zhǔn)的情感特征。 可以考慮更多情感影響因素,如文本發(fā)布源等,進(jìn)一步提高模型應(yīng)對(duì)不同評(píng)論時(shí)的效果。

        猜你喜歡
        分詞類別輿情
        結(jié)巴分詞在詞云中的應(yīng)用
        值得重視的分詞的特殊用法
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        服務(wù)類別
        新校長(2016年8期)2016-01-10 06:43:59
        論類別股東會(huì)
        商事法論集(2014年1期)2014-06-27 01:20:42
        中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
        微博的輿情控制與言論自由
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        中文字幕无码不卡免费视频 | 亚洲精品国产v片在线观看| 视频一区精品自拍| 91华人在线| 白丝美女扒开内露出内裤视频| 久久精品人妻中文av| 国产成人一区二区三区影院| 国语自产精品视频在线看| 性一交一乱一透一a级| 无遮挡十八禁在线视频国产制服网站| 国产午夜无码视频免费网站| 日本a在线免费观看| 久久老熟女乱色一区二区| 国产亚洲精品久久久久5区| 精品亚洲成a人无码成a在线观看 | 无码不卡免费一级毛片视频| 国产成人综合久久精品推荐免费 | 脱了老师内裤猛烈进入| 午夜福利麻豆国产精品| 精品中文字幕久久久久久| 亚洲五月天中文字幕第一页| 在线视频夫妻内射| 日日av拍夜夜添久久免费 | 亚洲青涩在线不卡av| 99久久婷婷亚洲综合国产| 少妇精品无码一区二区三区| 国内精品一区二区三区| 人妻中出精品久久久一区二| 日韩人妻有码中文字幕| 最新国产不卡在线视频| 国产精品免费精品自在线观看| 久99久热只有精品国产男同| 网红极品女神精品视频在线| 中文字幕东京热一区二区人妻少妇| 人妻中文字幕在线中文字幕| 香港三级精品三级在线专区| 亚洲男人的天堂精品一区二区| 国产成人自拍小视频在线| 丰满的少妇av一区二区三区| 熟女体下毛毛黑森林| 久久久噜噜噜久久中文字幕色伊伊|