亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

車企輿情正負(fù)面情感識(shí)別與預(yù)測(cè)

2022-05-07 02:38:10胡二琴

湖北工業(yè)大學(xué)學(xué)報(bào) 2022年2期

秦苗，胡二琴

(湖北工業(yè)大學(xué)理學(xué)院，湖北武漢 430068)

文本挖掘和分析已經(jīng)成為各行各業(yè)研究數(shù)據(jù)模式的核心問題。對(duì)于企業(yè)來(lái)說(shuō)，通過對(duì)互聯(lián)網(wǎng)中與自身企業(yè)有關(guān)的輿情進(jìn)行分析，能幫助其獲得更多的信息，進(jìn)一步了解客戶，預(yù)測(cè)和增強(qiáng)客戶體驗(yàn)，合理改進(jìn)產(chǎn)品性能[1-2]。HU等[3]通過情感分析挖掘出用戶對(duì)產(chǎn)品的情感傾向；Dasgupta等[4]通過對(duì)三星手機(jī)用戶評(píng)論進(jìn)行情感分析，得到消費(fèi)者對(duì)手機(jī)信息特征的反饋；李琴等[5]基于情感詞典對(duì)在線景區(qū)評(píng)論進(jìn)行情感分析得到情感類別傾向性與門票波動(dòng)之間客觀存在的聯(lián)系。

目前，汽車制造行業(yè)競(jìng)爭(zhēng)激烈，有效提高汽車的品牌形象和溢價(jià)效應(yīng)對(duì)于企業(yè)來(lái)說(shuō)至關(guān)重要。伴隨著互聯(lián)網(wǎng)的發(fā)展，汽車行業(yè)的品牌質(zhì)量、發(fā)展規(guī)劃、創(chuàng)新水平等受到了越來(lái)越多的關(guān)注[6-7]，大量的網(wǎng)絡(luò)評(píng)論中蘊(yùn)含著廣大網(wǎng)民的情感和觀點(diǎn)，通過對(duì)評(píng)論情感進(jìn)行研究，車企可以深入了解到近期網(wǎng)絡(luò)輿論傾向，從而進(jìn)行相應(yīng)的調(diào)整和改進(jìn)[8-9]。因此，對(duì)汽車行業(yè)輿情情感進(jìn)行研究，將會(huì)有助于提高車企形象，而對(duì)文本情感進(jìn)行識(shí)別是輿情分析的關(guān)鍵。目前，情感識(shí)別主要有兩類方法：基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法[10]。李宸嚴(yán)[11]等利用注意力與Bi-LSTM混合算法進(jìn)行了車企輿情的情感分析。本文主要通過情感詞典來(lái)對(duì)汽車行業(yè)的網(wǎng)絡(luò)輿情進(jìn)行分析與預(yù)測(cè)，利用分詞繪制詞云圖、情感分類、主題分析來(lái)了解廣大網(wǎng)民對(duì)汽車行業(yè)的關(guān)注重點(diǎn)以及正負(fù)面情感聚焦。

1 數(shù)據(jù)來(lái)源與數(shù)據(jù)預(yù)處理

本文數(shù)據(jù)來(lái)自“第四屆全國(guó)應(yīng)用統(tǒng)計(jì)專業(yè)學(xué)位研究生案例大賽”C題，數(shù)據(jù)分為訓(xùn)練集與測(cè)試集，共99842 條，其文本數(shù)據(jù)部分展示見圖1。

圖 1 部分?jǐn)?shù)據(jù)展示

該數(shù)據(jù)的第1列是文本小標(biāo)題，第2列是正文，第3列是用戶ID，第4列是文本的網(wǎng)頁(yè)鏈接，第5列是其給定的情感類別。

數(shù)據(jù)的預(yù)處理對(duì)本文的分析十分重要，對(duì)后續(xù)結(jié)果分析有很大影響。我們首先依據(jù)對(duì)文章有高度概括性的標(biāo)題進(jìn)行刪除，去除與車企無(wú)關(guān)的輿情。在網(wǎng)上查詢與汽車相關(guān)的詞匯大全，利用該詞匯大全計(jì)算標(biāo)題得分，若累積得分為0，則認(rèn)為該標(biāo)題是與車企完全無(wú)關(guān)的報(bào)道，需要?jiǎng)h除。繼而去除文本中的重復(fù)數(shù)據(jù)，認(rèn)為標(biāo)題和正文均相同的為重復(fù)數(shù)據(jù)予以刪除，最終保留與車企相關(guān)的輿情有45324條。然后進(jìn)行數(shù)據(jù)清洗，去除數(shù)據(jù)中無(wú)用、停用詞和出現(xiàn)頻率極高但無(wú)實(shí)際情感意義的詞匯，如“汽車”等。

2 車企輿情熱點(diǎn)分析

在數(shù)據(jù)預(yù)處理和“Jieba”分詞后，提取分詞中的名詞詞匯，統(tǒng)計(jì)詞匯出現(xiàn)的頻率，將詞頻按降序排列，選擇前100個(gè)詞繪制詞云來(lái)直觀反映人們的關(guān)注點(diǎn)和關(guān)注度。

圖 2 輿情熱點(diǎn)詞云圖

由圖2可見，在與汽車行業(yè)相關(guān)的輿情中，人們關(guān)注較多的是駕駛、新能源、車型、上市、新款，以及豐田、奧迪、吉利等品牌。對(duì)測(cè)試集進(jìn)行相同的操作，發(fā)現(xiàn)兩者在熱點(diǎn)詞匯上沒有太大差異，只是對(duì)奧迪的關(guān)注減少了而對(duì)大眾的關(guān)注度增加了，另外還增加了對(duì)車主的關(guān)注。

為進(jìn)一步了解車企輿情中人們對(duì)汽車品牌和汽車功能、配件的關(guān)注熱點(diǎn)，我們查找了汽車品牌詞庫(kù)大全以及汽車相關(guān)配件詞匯大全(https:∥pinyin.sogou.com/dict/ cate/index/432)。將文本分詞分別與這兩組詞匯進(jìn)行匹配，計(jì)算頻率，取排名前十來(lái)分析車企輿情關(guān)注最多的汽車品牌和汽車配件，其結(jié)果如圖3、圖4所示。

圖 3 車企輿情熱點(diǎn)關(guān)注品牌Top10

圖 4 車企輿情熱點(diǎn)關(guān)注配件Top10

由圖可見，訓(xùn)練集中關(guān)注最多的汽車品牌依次是豐田、奧迪、吉利、大眾等；關(guān)注最多的汽車配件依次是輪胎、發(fā)動(dòng)機(jī)、方向盤、輪轂等。對(duì)測(cè)試集進(jìn)行相同處理，可見測(cè)試集中關(guān)注最多的汽車品牌與訓(xùn)練集中大體相同，只是測(cè)試集輿情關(guān)注的汽車品牌前10少了寶馬，多了紅旗；在對(duì)汽車配件的關(guān)注中，兩個(gè)數(shù)據(jù)集也大體相同，只是測(cè)試集多了轉(zhuǎn)向燈，少了離合器。

3 車企輿情情感傾向分析

文本情感分析可以被視為一類特殊的文本分類問題。目前絕大多數(shù)研究將文本的情感傾向性分為正向、負(fù)向兩種類別。文本情感分類方法主要有機(jī)器學(xué)習(xí)方法、詞典匹配方法。機(jī)器學(xué)習(xí)方法中主要用到的是支持向量模型、樸素貝葉斯模型以及神經(jīng)網(wǎng)絡(luò)等。這些方法各有優(yōu)劣。而本文是要進(jìn)行正、中、負(fù)3級(jí)分類，不適合用針對(duì)二分類的支持向量模型，所以采取情感詞典匹配的方法來(lái)對(duì)情感進(jìn)行標(biāo)記。

3.1 提取文本情感特征

在以情感詞典為基礎(chǔ)的情感分析中，情感詞庫(kù)的選擇占據(jù)十分重要的地位。高質(zhì)量的情感詞庫(kù)往往可得到更好的情感分析效果，通常情況下所選取的情感詞庫(kù)是網(wǎng)上下載的正負(fù)面情感詞匯和正負(fù)面評(píng)論詞匯。但本文的輿情數(shù)據(jù)并非評(píng)論數(shù)據(jù)而是類似網(wǎng)絡(luò)小文章形式，這類數(shù)據(jù)的正負(fù)往往在其中帶有事件特征，比如文中沒有太多的情感性詞匯，但由于描述的是一件正面事件，故最終也會(huì)評(píng)為正向情感。因此若是基于傳統(tǒng)的情感詞庫(kù)進(jìn)行分類效果并不會(huì)理想，本文經(jīng)嘗試后發(fā)現(xiàn)準(zhǔn)確率只有23.19%，故考慮重新提取情感特征構(gòu)建新的詞庫(kù)再進(jìn)行情感匹配。

本文通過詞頻來(lái)選擇特征。利用詞頻對(duì)處理后的文本分詞分別計(jì)算權(quán)重，并根據(jù)權(quán)重的大小對(duì)分詞進(jìn)行排序，然后剔除一些與文章主題雖直接聯(lián)系但無(wú)實(shí)際意義的無(wú)用詞，如 “汽車”“年”“拉”等。然后統(tǒng)計(jì)分詞的總詞頻，從中選取若干個(gè)出現(xiàn)頻率最高的詞匯組成該類別的特征詞集；最后去掉每一類中都出現(xiàn)了的詞，形成3種類別各自特有的特征詞集(即我們用到的特征集合)。特征項(xiàng)的構(gòu)建步驟見圖5。

圖 5 特征項(xiàng)的構(gòu)建流程

由于中立面的詞匯沒有明顯的實(shí)際特征，所以我們只進(jìn)行正面詞匯和負(fù)面詞匯的選取。按詞頻降序排列后發(fā)現(xiàn)，正面詞匯中排名在第500的詞匯出現(xiàn)頻率只有2次，負(fù)面詞匯中排名在第300的詞匯出現(xiàn)頻率為5次，表2分別展示了正向詞匯排名前100、300、500的末尾詞以及負(fù)向詞匯排名前100、200、300的末尾詞。

表2 正向詞匯局部展示

表3 負(fù)向詞匯局部展示

可見，正負(fù)向中前300的詞頻詞匯的情感分級(jí)都比較明顯，初步選擇構(gòu)建的情感詞典正負(fù)向均取300個(gè)詞匯。

3.2 文本特征表示

計(jì)算詞權(quán)值的方式有傳統(tǒng)的用權(quán)重賦值法以及TF-IDF等，TF-IDF的主要思想是：如果某個(gè)詞在一篇文章中出現(xiàn)頻率很高，但在其他文章中極少出現(xiàn)，那么這個(gè)詞就能很好地區(qū)分類別，適合用來(lái)作為分類的特征。其公式為：

其中：wik為特征詞ik的權(quán)重，tfik為特征詞ik在文本di中出現(xiàn)的頻率，N為總的訓(xùn)練文本數(shù)，nk為訓(xùn)練集中詞ik出現(xiàn)了的文本數(shù)。

實(shí)踐中發(fā)現(xiàn)，用此方法賦以權(quán)重比較繁瑣，且其不區(qū)分正負(fù)語(yǔ)料庫(kù)，而是直接依據(jù)每個(gè)詞在正、負(fù)、中性文本中出現(xiàn)的頻率來(lái)判斷其在不同情感中的權(quán)重，因此本文采用簡(jiǎn)單的權(quán)重賦值方法，即將所有正向詞匯賦以+1的權(quán)重，所有負(fù)向詞匯賦以-1的權(quán)重。這樣的優(yōu)點(diǎn)是操作起來(lái)比較簡(jiǎn)單便捷，缺點(diǎn)是忽略了不同詞匯在情感程度上的差異。

3.3 文本情感分類

本文利用情感詞典來(lái)對(duì)文本情感進(jìn)行標(biāo)注。對(duì)具有積極情感的詞語(yǔ)賦于+1的權(quán)重，對(duì)具有消極情感的詞語(yǔ)賦于-1的權(quán)重，并假定情感賦值可以線性相加。由于標(biāo)題對(duì)文章內(nèi)容具有高度概括作用，所以選擇利用標(biāo)題來(lái)對(duì)文章進(jìn)行情感分類。首先對(duì)標(biāo)題進(jìn)行分詞，然后對(duì)分詞中包含的情感詞加上對(duì)應(yīng)+1或-1的權(quán)重。此外，本文加上了否定詞和程度副詞對(duì)情感的影響，最終將得分為正的文本劃分為正面情感，得分為負(fù)的文本劃分為負(fù)面情感，其余文本記為中立情感。對(duì)訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集分別隨機(jī)抽取10 000條進(jìn)行情感劃分，其準(zhǔn)確率達(dá)到85.73%，整體效果較好，其混淆矩陣如表4所示。

表4 訓(xùn)練集情感劃分混淆矩陣

可見，負(fù)向情感正確劃分的概率為83.75%，正向情感正確劃分的概率為89.19%，對(duì)中立情感的文本劃分準(zhǔn)確率相對(duì)低一點(diǎn)?？紤]到整體準(zhǔn)確率為85.73%，且正向負(fù)向情感劃分的準(zhǔn)確率均不錯(cuò)，故此方法有效。

將同樣的方法用于測(cè)試集的情感劃分，得到準(zhǔn)確率為83.62%，整體效果較好，其混淆矩陣如表5所示。

表5 測(cè)試集情感劃分混淆矩陣

可見，負(fù)向情感正確劃分的概率為83.77%，中立情感被正確分類的概率為68.68%，正向情感正確劃分的概率為89.16%，總體準(zhǔn)確率為83.62%。

在此基礎(chǔ)上對(duì)訓(xùn)練集分類后的正負(fù)向情感文本分詞統(tǒng)計(jì)詞頻，按頻率降序排列選取前100名的詞匯繪制詞云圖見圖6、7。

圖 6 訓(xùn)練集正向情感文本詞云

圖 7 訓(xùn)練集負(fù)向情感文本詞云

對(duì)訓(xùn)練集分類后，其正向輿情信息中關(guān)注較多的是上市、車型、魅力等，負(fù)面輿情信息中關(guān)注較多的是銷量、二手車、投訴、事故、下滑等，說(shuō)明分類后的分詞效果比較好，有利于后續(xù)分析。

對(duì)測(cè)試集情感劃分正負(fù)之后也分別提取了正負(fù)面的主要詞匯，將其與訓(xùn)練集對(duì)比并無(wú)太大差異，我們將兩個(gè)數(shù)據(jù)集正負(fù)面提取的詞匯取前6個(gè)綜合為表6。

表6 兩個(gè)數(shù)據(jù)集正負(fù)面熱詞對(duì)比

可見訓(xùn)練集與測(cè)試集在正面情感熱詞上相差不大，只是訓(xùn)練集中正面輿情增加了對(duì)豐田的關(guān)注；兩個(gè)數(shù)據(jù)集在負(fù)面情感熱詞上相差也不大，只是測(cè)試集中的負(fù)面輿情減少了對(duì)疫情的關(guān)注，增加了對(duì)達(dá)利桑、德羅的關(guān)注。

4 車企輿情主題分析

4.1 LDA主題分析模型

LDA模型也叫3層貝葉斯概率模型。它由3層結(jié)構(gòu)組成，分別是文檔(d)、主題(z)和詞(w)。該模型能夠有效挖掘潛藏在數(shù)據(jù)中的主題，進(jìn)而分析數(shù)據(jù)中的主要關(guān)注點(diǎn)。

3層貝葉斯結(jié)構(gòu)包括兩部分，分別是“文檔—主題”和“主題—詞”，其中“文檔—主題”表示以一定概率來(lái)通過文檔d生成主題z；“主題—詞”表示以一定概率來(lái)通過主題z生成詞w。若要生成一個(gè)文檔，文檔中每個(gè)詞出現(xiàn)的條件概率可以分為兩部分：

式中，p(w|d)表示文檔中分詞出現(xiàn)的概率；p(w|z)表示主題中分詞出現(xiàn)的概率；p(z|d)表示文檔中主題出現(xiàn)的概率。LDA模型則是利用“文檔—詞語(yǔ)”矩陣來(lái)進(jìn)行訓(xùn)練，由此推測(cè)出文檔的主題。

4.2 尋找最優(yōu)主題數(shù)

由于中立情感的文本對(duì)主題分析沒有太大價(jià)值，并不能反映一些關(guān)鍵性看法和態(tài)度，所以本文選擇只對(duì)測(cè)試集中情感為正向和負(fù)向的文本進(jìn)行主題分析。LDA模型可以用相對(duì)較少的迭代就找到最優(yōu)的主題數(shù)。圖8展示了不同主題數(shù)下的平均余弦相似度，可見無(wú)論是正向情感還是負(fù)向情感都在主題數(shù)選2時(shí)，平均余弦相似度最低。因此，對(duì)正面數(shù)據(jù)和負(fù)面數(shù)據(jù)均選擇主題數(shù)為2來(lái)進(jìn)行主題分析。對(duì)測(cè)試集進(jìn)行相同的步驟，發(fā)現(xiàn)選擇的最優(yōu)主題數(shù)也是2。

(a)正面

(b)負(fù)面圖 8 主題間平均余弦相似度

4.3 LDA主題分析

根據(jù)概率，在每個(gè)主題下生成10個(gè)最有可能出現(xiàn)的詞語(yǔ)。表7反映了訓(xùn)練集中正面情感數(shù)據(jù)潛在的主題。主題1中的高頻詞(即關(guān)注點(diǎn))主要是上市、魅力、車型、比亞迪、奧迪等主要反映人們對(duì)車的車型、特質(zhì)等關(guān)注多的方面。主題2中的高頻詞(即關(guān)注點(diǎn))主要是新款、動(dòng)力、新能源、吉利等，說(shuō)明人們對(duì)新款的車比較關(guān)注，且對(duì)它的動(dòng)力、新能源方面關(guān)注較多且好評(píng)度較高。

表7 訓(xùn)練集正面輿情數(shù)據(jù)中的潛在主題

表8反映了訓(xùn)練集中負(fù)面情感數(shù)據(jù)潛在的主題。主題1中的高頻詞主要是銷量、同比、下降、新車、召回、投訴、司機(jī)之類，說(shuō)明很多關(guān)于車企的負(fù)面輿情都較多提到新車召回、銷量下降以及服務(wù)投訴。主題2中的高頻詞主要是二手車、優(yōu)信、駕駛、自動(dòng)之類，說(shuō)明人們對(duì)二手車的滿意度并不是很高。廣大網(wǎng)民對(duì)一些新興的自動(dòng)駕駛持懷疑態(tài)度，對(duì)其安全性存在一些顧慮。

表8 訓(xùn)練集負(fù)面輿情數(shù)據(jù)中的潛在主題

對(duì)測(cè)試集同樣提取了兩個(gè)主題的關(guān)鍵詞，其結(jié)果與訓(xùn)練數(shù)據(jù)集主題所體現(xiàn)的關(guān)注點(diǎn)相似，只是正面中主題2增加了對(duì)設(shè)計(jì)、品牌、高顏值的關(guān)注，也就是對(duì)汽車的外形設(shè)計(jì)上關(guān)注較多；負(fù)面中測(cè)試集增加了對(duì)日產(chǎn)和豐田的關(guān)注。

5 結(jié)論

本文利用情感詞典識(shí)別和預(yù)測(cè)汽車行業(yè)的輿情情感，并對(duì)正面情感和負(fù)面情感分別進(jìn)行主題分析。從分析結(jié)果可知，廣大網(wǎng)民對(duì)汽車行業(yè)現(xiàn)狀的態(tài)度和關(guān)注點(diǎn)，發(fā)現(xiàn)人們對(duì)汽車的車型、魅力等聚焦較多，且對(duì)新款車尤為關(guān)注；對(duì)汽車的動(dòng)力、新能源等方面具有一定的關(guān)注度和好評(píng)度，對(duì)新車的召回率、部分汽車銷量下降情況以及出租車司機(jī)因服務(wù)不當(dāng)而遭受投訴等方面帶有一定的負(fù)面情緒；對(duì)二手車的滿意度不高，對(duì)于新興的自動(dòng)駕駛也持懷疑觀望態(tài)度。