秦 苗, 胡二琴
(湖北工業(yè)大學(xué)理學(xué)院, 湖北 武漢 430068)
文本挖掘和分析已經(jīng)成為各行各業(yè)研究數(shù)據(jù)模式的核心問題。對(duì)于企業(yè)來(lái)說(shuō),通過對(duì)互聯(lián)網(wǎng)中與自身企業(yè)有關(guān)的輿情進(jìn)行分析,能幫助其獲得更多的信息,進(jìn)一步了解客戶,預(yù)測(cè)和增強(qiáng)客戶體驗(yàn),合理改進(jìn)產(chǎn)品性能[1-2]。HU等[3]通過情感分析挖掘出用戶對(duì)產(chǎn)品的情感傾向;Dasgupta等[4]通過對(duì)三星手機(jī)用戶評(píng)論進(jìn)行情感分析,得到消費(fèi)者對(duì)手機(jī)信息特征的反饋;李琴等[5]基于情感詞典對(duì)在線景區(qū)評(píng)論進(jìn)行情感分析得到情感類別傾向性與門票波動(dòng)之間客觀存在的聯(lián)系。
目前,汽車制造行業(yè)競(jìng)爭(zhēng)激烈,有效提高汽車的品牌形象和溢價(jià)效應(yīng)對(duì)于企業(yè)來(lái)說(shuō)至關(guān)重要。伴隨著互聯(lián)網(wǎng)的發(fā)展,汽車行業(yè)的品牌質(zhì)量、發(fā)展規(guī)劃、創(chuàng)新水平等受到了越來(lái)越多的關(guān)注[6-7],大量的網(wǎng)絡(luò)評(píng)論中蘊(yùn)含著廣大網(wǎng)民的情感和觀點(diǎn),通過對(duì)評(píng)論情感進(jìn)行研究,車企可以深入了解到近期網(wǎng)絡(luò)輿論傾向,從而進(jìn)行相應(yīng)的調(diào)整和改進(jìn)[8-9]。因此,對(duì)汽車行業(yè)輿情情感進(jìn)行研究,將會(huì)有助于提高車企形象,而對(duì)文本情感進(jìn)行識(shí)別是輿情分析的關(guān)鍵。目前,情感識(shí)別主要有兩類方法:基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法[10]。李宸嚴(yán)[11]等利用注意力與Bi-LSTM混合算法進(jìn)行了車企輿情的情感分析。本文主要通過情感詞典來(lái)對(duì)汽車行業(yè)的網(wǎng)絡(luò)輿情進(jìn)行分析與預(yù)測(cè),利用分詞繪制詞云圖、情感分類、主題分析來(lái)了解廣大網(wǎng)民對(duì)汽車行業(yè)的關(guān)注重點(diǎn)以及正負(fù)面情感聚焦。
本文數(shù)據(jù)來(lái)自“第四屆全國(guó)應(yīng)用統(tǒng)計(jì)專業(yè)學(xué)位研究生案例大賽”C題,數(shù)據(jù)分為訓(xùn)練集與測(cè)試集,共99842 條,其文本數(shù)據(jù)部分展示見圖1。
圖 1 部分?jǐn)?shù)據(jù)展示
該數(shù)據(jù)的第1列是文本小標(biāo)題,第2列是正文,第3列是用戶ID,第4列是文本的網(wǎng)頁(yè)鏈接,第5列是其給定的情感類別。
數(shù)據(jù)的預(yù)處理對(duì)本文的分析十分重要,對(duì)后續(xù)結(jié)果分析有很大影響。我們首先依據(jù)對(duì)文章有高度概括性的標(biāo)題進(jìn)行刪除,去除與車企無(wú)關(guān)的輿情。在網(wǎng)上查詢與汽車相關(guān)的詞匯大全,利用該詞匯大全計(jì)算標(biāo)題得分,若累積得分為0,則認(rèn)為該標(biāo)題是與車企完全無(wú)關(guān)的報(bào)道,需要?jiǎng)h除。繼而去除文本中的重復(fù)數(shù)據(jù),認(rèn)為標(biāo)題和正文均相同的為重復(fù)數(shù)據(jù)予以刪除,最終保留與車企相關(guān)的輿情有45324條。然后進(jìn)行數(shù)據(jù)清洗,去除數(shù)據(jù)中無(wú)用、停用詞和出現(xiàn)頻率極高但無(wú)實(shí)際情感意義的詞匯,如“汽車”等。
在數(shù)據(jù)預(yù)處理和“Jieba”分詞后,提取分詞中的名詞詞匯,統(tǒng)計(jì)詞匯出現(xiàn)的頻率,將詞頻按降序排列,選擇前100個(gè)詞繪制詞云來(lái)直觀反映人們的關(guān)注點(diǎn)和關(guān)注度。
圖 2 輿情熱點(diǎn)詞云圖
由圖2可見,在與汽車行業(yè)相關(guān)的輿情中,人們關(guān)注較多的是駕駛、新能源、車型、上市、新款,以及豐田、奧迪、吉利等品牌。對(duì)測(cè)試集進(jìn)行相同的操作,發(fā)現(xiàn)兩者在熱點(diǎn)詞匯上沒有太大差異,只是對(duì)奧迪的關(guān)注減少了而對(duì)大眾的關(guān)注度增加了,另外還增加了對(duì)車主的關(guān)注。
為進(jìn)一步了解車企輿情中人們對(duì)汽車品牌和汽車功能、配件的關(guān)注熱點(diǎn),我們查找了汽車品牌詞庫(kù)大全以及汽車相關(guān)配件詞匯大全(https:∥pinyin.sogou.com/dict/ cate/index/432)。將文本分詞分別與這兩組詞匯進(jìn)行匹配,計(jì)算頻率,取排名前十來(lái)分析車企輿情關(guān)注最多的汽車品牌和汽車配件,其結(jié)果如圖3、圖4所示。
圖 3 車企輿情熱點(diǎn)關(guān)注品牌Top10
圖 4 車企輿情熱點(diǎn)關(guān)注配件Top10
由圖可見,訓(xùn)練集中關(guān)注最多的汽車品牌依次是豐田、奧迪、吉利、大眾等;關(guān)注最多的汽車配件依次是輪胎、發(fā)動(dòng)機(jī)、方向盤、輪轂等。對(duì)測(cè)試集進(jìn)行相同處理,可見測(cè)試集中關(guān)注最多的汽車品牌與訓(xùn)練集中大體相同,只是測(cè)試集輿情關(guān)注的汽車品牌前10少了寶馬,多了紅旗;在對(duì)汽車配件的關(guān)注中,兩個(gè)數(shù)據(jù)集也大體相同,只是測(cè)試集多了轉(zhuǎn)向燈,少了離合器。
文本情感分析可以被視為一類特殊的文本分類問題。目前絕大多數(shù)研究將文本的情感傾向性分為正向、負(fù)向兩種類別。文本情感分類方法主要有機(jī)器學(xué)習(xí)方法、詞典匹配方法。機(jī)器學(xué)習(xí)方法中主要用到的是支持向量模型、樸素貝葉斯模型以及神經(jīng)網(wǎng)絡(luò)等。這些方法各有優(yōu)劣。而本文是要進(jìn)行正、中、負(fù)3級(jí)分類,不適合用針對(duì)二分類的支持向量模型,所以采取情感詞典匹配的方法來(lái)對(duì)情感進(jìn)行標(biāo)記。
在以情感詞典為基礎(chǔ)的情感分析中,情感詞庫(kù)的選擇占據(jù)十分重要的地位。高質(zhì)量的情感詞庫(kù)往往可得到更好的情感分析效果,通常情況下所選取的情感詞庫(kù)是網(wǎng)上下載的正負(fù)面情感詞匯和正負(fù)面評(píng)論詞匯。但本文的輿情數(shù)據(jù)并非評(píng)論數(shù)據(jù)而是類似網(wǎng)絡(luò)小文章形式,這類數(shù)據(jù)的正負(fù)往往在其中帶有事件特征,比如文中沒有太多的情感性詞匯,但由于描述的是一件正面事件,故最終也會(huì)評(píng)為正向情感。因此若是基于傳統(tǒng)的情感詞庫(kù)進(jìn)行分類效果并不會(huì)理想,本文經(jīng)嘗試后發(fā)現(xiàn)準(zhǔn)確率只有23.19%,故考慮重新提取情感特征構(gòu)建新的詞庫(kù)再進(jìn)行情感匹配。
本文通過詞頻來(lái)選擇特征。利用詞頻對(duì)處理后的文本分詞分別計(jì)算權(quán)重,并根據(jù)權(quán)重的大小對(duì)分詞進(jìn)行排序,然后剔除一些與文章主題雖直接聯(lián)系但無(wú)實(shí)際意義的無(wú)用詞,如 “汽車”“年”“拉”等。然后統(tǒng)計(jì)分詞的總詞頻,從中選取若干個(gè)出現(xiàn)頻率最高的詞匯組成該類別的特征詞集;最后去掉每一類中都出現(xiàn)了的詞,形成3種類別各自特有的特征詞集(即我們用到的特征集合)。特征項(xiàng)的構(gòu)建步驟見圖5。
圖 5 特征項(xiàng)的構(gòu)建流程
由于中立面的詞匯沒有明顯的實(shí)際特征,所以我們只進(jìn)行正面詞匯和負(fù)面詞匯的選取。按詞頻降序排列后發(fā)現(xiàn),正面詞匯中排名在第500的詞匯出現(xiàn)頻率只有2次,負(fù)面詞匯中排名在第300的詞匯出現(xiàn)頻率為5次,表2分別展示了正向詞匯排名前100、300、500的末尾詞以及負(fù)向詞匯排名前100、200、300的末尾詞。
表2 正向詞匯局部展示
表3 負(fù)向詞匯局部展示
可見,正負(fù)向中前300的詞頻詞匯的情感分級(jí)都比較明顯,初步選擇構(gòu)建的情感詞典正負(fù)向均取300個(gè)詞匯。
計(jì)算詞權(quán)值的方式有傳統(tǒng)的用權(quán)重賦值法以及TF-IDF等,TF-IDF的主要思想是:如果某個(gè)詞在一篇文章中出現(xiàn)頻率很高,但在其他文章中極少出現(xiàn),那么這個(gè)詞就能很好地區(qū)分類別,適合用來(lái)作為分類的特征。其公式為:
其中:wik為特征詞ik的權(quán)重,tfik為特征詞ik在文本di中出現(xiàn)的頻率,N為總的訓(xùn)練文本數(shù),nk為訓(xùn)練集中詞ik出現(xiàn)了的文本數(shù)。
實(shí)踐中發(fā)現(xiàn),用此方法賦以權(quán)重比較繁瑣,且其不區(qū)分正負(fù)語(yǔ)料庫(kù),而是直接依據(jù)每個(gè)詞在正、負(fù)、中性文本中出現(xiàn)的頻率來(lái)判斷其在不同情感中的權(quán)重,因此本文采用簡(jiǎn)單的權(quán)重賦值方法,即將所有正向詞匯賦以+1的權(quán)重,所有負(fù)向詞匯賦以-1的權(quán)重。這樣的優(yōu)點(diǎn)是操作起來(lái)比較簡(jiǎn)單便捷,缺點(diǎn)是忽略了不同詞匯在情感程度上的差異。
本文利用情感詞典來(lái)對(duì)文本情感進(jìn)行標(biāo)注。對(duì)具有積極情感的詞語(yǔ)賦于+1的權(quán)重,對(duì)具有消極情感的詞語(yǔ)賦于-1的權(quán)重,并假定情感賦值可以線性相加。由于標(biāo)題對(duì)文章內(nèi)容具有高度概括作用,所以選擇利用標(biāo)題來(lái)對(duì)文章進(jìn)行情感分類。首先對(duì)標(biāo)題進(jìn)行分詞,然后對(duì)分詞中包含的情感詞加上對(duì)應(yīng)+1或-1的權(quán)重。此外,本文加上了否定詞和程度副詞對(duì)情感的影響,最終將得分為正的文本劃分為正面情感,得分為負(fù)的文本劃分為負(fù)面情感,其余文本記為中立情感。對(duì)訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集分別隨機(jī)抽取10 000條進(jìn)行情感劃分,其準(zhǔn)確率達(dá)到85.73%,整體效果較好,其混淆矩陣如表4所示。
表4 訓(xùn)練集情感劃分混淆矩陣
可見,負(fù)向情感正確劃分的概率為83.75%,正向情感正確劃分的概率為89.19%,對(duì)中立情感的文本劃分準(zhǔn)確率相對(duì)低一點(diǎn)??紤]到整體準(zhǔn)確率為85.73%,且正向負(fù)向情感劃分的準(zhǔn)確率均不錯(cuò),故此方法有效。
將同樣的方法用于測(cè)試集的情感劃分,得到準(zhǔn)確率為83.62%,整體效果較好,其混淆矩陣如表5所示。
表5 測(cè)試集情感劃分混淆矩陣
可見,負(fù)向情感正確劃分的概率為83.77%,中立情感被正確分類的概率為68.68%,正向情感正確劃分的概率為89.16%,總體準(zhǔn)確率為83.62%。
在此基礎(chǔ)上對(duì)訓(xùn)練集分類后的正負(fù)向情感文本分詞統(tǒng)計(jì)詞頻,按頻率降序排列選取前100名的詞匯繪制詞云圖見圖6、7。
圖 6 訓(xùn)練集正向情感文本詞云
圖 7 訓(xùn)練集負(fù)向情感文本詞云
對(duì)訓(xùn)練集分類后,其正向輿情信息中關(guān)注較多的是上市、車型、魅力等,負(fù)面輿情信息中關(guān)注較多的是銷量、二手車、投訴、事故、下滑等,說(shuō)明分類后的分詞效果比較好,有利于后續(xù)分析。
對(duì)測(cè)試集情感劃分正負(fù)之后也分別提取了正負(fù)面的主要詞匯,將其與訓(xùn)練集對(duì)比并無(wú)太大差異,我們將兩個(gè)數(shù)據(jù)集正負(fù)面提取的詞匯取前6個(gè)綜合為表6。
表6 兩個(gè)數(shù)據(jù)集正負(fù)面熱詞對(duì)比
可見訓(xùn)練集與測(cè)試集在正面情感熱詞上相差不大,只是訓(xùn)練集中正面輿情增加了對(duì)豐田的關(guān)注;兩個(gè)數(shù)據(jù)集在負(fù)面情感熱詞上相差也不大,只是測(cè)試集中的負(fù)面輿情減少了對(duì)疫情的關(guān)注,增加了對(duì)達(dá)利桑、德羅的關(guān)注。
LDA模型也叫3層貝葉斯概率模型。它由3層結(jié)構(gòu)組成,分別是文檔(d)、主題(z)和詞(w)。該模型能夠有效挖掘潛藏在數(shù)據(jù)中的主題,進(jìn)而分析數(shù)據(jù)中的主要關(guān)注點(diǎn)。
3層貝葉斯結(jié)構(gòu)包括兩部分,分別是“文檔—主題”和“主題—詞”,其中“文檔—主題”表示以一定概率來(lái)通過文檔d生成主題z;“主題—詞”表示以一定概率來(lái)通過主題z生成詞w。若要生成一個(gè)文檔,文檔中每個(gè)詞出現(xiàn)的條件概率可以分為兩部分:
式中,p(w|d)表示文檔中分詞出現(xiàn)的概率;p(w|z)表示主題中分詞出現(xiàn)的概率;p(z|d)表示文檔中主題出現(xiàn)的概率。LDA模型則是利用“文檔—詞語(yǔ)”矩陣來(lái)進(jìn)行訓(xùn)練,由此推測(cè)出文檔的主題。
由于中立情感的文本對(duì)主題分析沒有太大價(jià)值,并不能反映一些關(guān)鍵性看法和態(tài)度,所以本文選擇只對(duì)測(cè)試集中情感為正向和負(fù)向的文本進(jìn)行主題分析。LDA模型可以用相對(duì)較少的迭代就找到最優(yōu)的主題數(shù)。圖8展示了不同主題數(shù)下的平均余弦相似度,可見無(wú)論是正向情感還是負(fù)向情感都在主題數(shù)選2時(shí),平均余弦相似度最低。因此,對(duì)正面數(shù)據(jù)和負(fù)面數(shù)據(jù)均選擇主題數(shù)為2來(lái)進(jìn)行主題分析。對(duì)測(cè)試集進(jìn)行相同的步驟,發(fā)現(xiàn)選擇的最優(yōu)主題數(shù)也是2。
(a)正面
(b)負(fù)面圖 8 主題間平均余弦相似度
根據(jù)概率,在每個(gè)主題下生成10個(gè)最有可能出現(xiàn)的詞語(yǔ)。表7反映了訓(xùn)練集中正面情感數(shù)據(jù)潛在的主題。主題1中的高頻詞(即關(guān)注點(diǎn))主要是上市、魅力、車型、比亞迪、奧迪等主要反映人們對(duì)車的車型、特質(zhì)等關(guān)注多的方面。主題2中的高頻詞(即關(guān)注點(diǎn))主要是新款、動(dòng)力、新能源、吉利等,說(shuō)明人們對(duì)新款的車比較關(guān)注,且對(duì)它的動(dòng)力、新能源方面關(guān)注較多且好評(píng)度較高。
表7 訓(xùn)練集正面輿情數(shù)據(jù)中的潛在主題
表8反映了訓(xùn)練集中負(fù)面情感數(shù)據(jù)潛在的主題。主題1中的高頻詞主要是銷量、同比、下降、新車、召回、投訴、司機(jī)之類,說(shuō)明很多關(guān)于車企的負(fù)面輿情都較多提到新車召回、銷量下降以及服務(wù)投訴。主題2中的高頻詞主要是二手車、優(yōu)信、駕駛、自動(dòng)之類,說(shuō)明人們對(duì)二手車的滿意度并不是很高。廣大網(wǎng)民對(duì)一些新興的自動(dòng)駕駛持懷疑態(tài)度,對(duì)其安全性存在一些顧慮。
表8 訓(xùn)練集負(fù)面輿情數(shù)據(jù)中的潛在主題
對(duì)測(cè)試集同樣提取了兩個(gè)主題的關(guān)鍵詞,其結(jié)果與訓(xùn)練數(shù)據(jù)集主題所體現(xiàn)的關(guān)注點(diǎn)相似,只是正面中主題2增加了對(duì)設(shè)計(jì)、品牌、高顏值的關(guān)注,也就是對(duì)汽車的外形設(shè)計(jì)上關(guān)注較多;負(fù)面中測(cè)試集增加了對(duì)日產(chǎn)和豐田的關(guān)注。
本文利用情感詞典識(shí)別和預(yù)測(cè)汽車行業(yè)的輿情情感,并對(duì)正面情感和負(fù)面情感分別進(jìn)行主題分析。從分析結(jié)果可知,廣大網(wǎng)民對(duì)汽車行業(yè)現(xiàn)狀的態(tài)度和關(guān)注點(diǎn),發(fā)現(xiàn)人們對(duì)汽車的車型、魅力等聚焦較多,且對(duì)新款車尤為關(guān)注;對(duì)汽車的動(dòng)力、新能源等方面具有一定的關(guān)注度和好評(píng)度,對(duì)新車的召回率、部分汽車銷量下降情況以及出租車司機(jī)因服務(wù)不當(dāng)而遭受投訴等方面帶有一定的負(fù)面情緒;對(duì)二手車的滿意度不高,對(duì)于新興的自動(dòng)駕駛也持懷疑觀望態(tài)度。