亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        車企輿情正負(fù)面情感識(shí)別與預(yù)測(cè)

        2022-05-07 02:38:10胡二琴
        關(guān)鍵詞:分詞負(fù)面輿情

        秦 苗, 胡二琴

        (湖北工業(yè)大學(xué)理學(xué)院, 湖北 武漢 430068)

        文本挖掘和分析已經(jīng)成為各行各業(yè)研究數(shù)據(jù)模式的核心問題。對(duì)于企業(yè)來(lái)說(shuō),通過對(duì)互聯(lián)網(wǎng)中與自身企業(yè)有關(guān)的輿情進(jìn)行分析,能幫助其獲得更多的信息,進(jìn)一步了解客戶,預(yù)測(cè)和增強(qiáng)客戶體驗(yàn),合理改進(jìn)產(chǎn)品性能[1-2]。HU等[3]通過情感分析挖掘出用戶對(duì)產(chǎn)品的情感傾向;Dasgupta等[4]通過對(duì)三星手機(jī)用戶評(píng)論進(jìn)行情感分析,得到消費(fèi)者對(duì)手機(jī)信息特征的反饋;李琴等[5]基于情感詞典對(duì)在線景區(qū)評(píng)論進(jìn)行情感分析得到情感類別傾向性與門票波動(dòng)之間客觀存在的聯(lián)系。

        目前,汽車制造行業(yè)競(jìng)爭(zhēng)激烈,有效提高汽車的品牌形象和溢價(jià)效應(yīng)對(duì)于企業(yè)來(lái)說(shuō)至關(guān)重要。伴隨著互聯(lián)網(wǎng)的發(fā)展,汽車行業(yè)的品牌質(zhì)量、發(fā)展規(guī)劃、創(chuàng)新水平等受到了越來(lái)越多的關(guān)注[6-7],大量的網(wǎng)絡(luò)評(píng)論中蘊(yùn)含著廣大網(wǎng)民的情感和觀點(diǎn),通過對(duì)評(píng)論情感進(jìn)行研究,車企可以深入了解到近期網(wǎng)絡(luò)輿論傾向,從而進(jìn)行相應(yīng)的調(diào)整和改進(jìn)[8-9]。因此,對(duì)汽車行業(yè)輿情情感進(jìn)行研究,將會(huì)有助于提高車企形象,而對(duì)文本情感進(jìn)行識(shí)別是輿情分析的關(guān)鍵。目前,情感識(shí)別主要有兩類方法:基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法[10]。李宸嚴(yán)[11]等利用注意力與Bi-LSTM混合算法進(jìn)行了車企輿情的情感分析。本文主要通過情感詞典來(lái)對(duì)汽車行業(yè)的網(wǎng)絡(luò)輿情進(jìn)行分析與預(yù)測(cè),利用分詞繪制詞云圖、情感分類、主題分析來(lái)了解廣大網(wǎng)民對(duì)汽車行業(yè)的關(guān)注重點(diǎn)以及正負(fù)面情感聚焦。

        1 數(shù)據(jù)來(lái)源與數(shù)據(jù)預(yù)處理

        本文數(shù)據(jù)來(lái)自“第四屆全國(guó)應(yīng)用統(tǒng)計(jì)專業(yè)學(xué)位研究生案例大賽”C題,數(shù)據(jù)分為訓(xùn)練集與測(cè)試集,共99842 條,其文本數(shù)據(jù)部分展示見圖1。

        圖 1 部分?jǐn)?shù)據(jù)展示

        該數(shù)據(jù)的第1列是文本小標(biāo)題,第2列是正文,第3列是用戶ID,第4列是文本的網(wǎng)頁(yè)鏈接,第5列是其給定的情感類別。

        數(shù)據(jù)的預(yù)處理對(duì)本文的分析十分重要,對(duì)后續(xù)結(jié)果分析有很大影響。我們首先依據(jù)對(duì)文章有高度概括性的標(biāo)題進(jìn)行刪除,去除與車企無(wú)關(guān)的輿情。在網(wǎng)上查詢與汽車相關(guān)的詞匯大全,利用該詞匯大全計(jì)算標(biāo)題得分,若累積得分為0,則認(rèn)為該標(biāo)題是與車企完全無(wú)關(guān)的報(bào)道,需要?jiǎng)h除。繼而去除文本中的重復(fù)數(shù)據(jù),認(rèn)為標(biāo)題和正文均相同的為重復(fù)數(shù)據(jù)予以刪除,最終保留與車企相關(guān)的輿情有45324條。然后進(jìn)行數(shù)據(jù)清洗,去除數(shù)據(jù)中無(wú)用、停用詞和出現(xiàn)頻率極高但無(wú)實(shí)際情感意義的詞匯,如“汽車”等。

        2 車企輿情熱點(diǎn)分析

        在數(shù)據(jù)預(yù)處理和“Jieba”分詞后,提取分詞中的名詞詞匯,統(tǒng)計(jì)詞匯出現(xiàn)的頻率,將詞頻按降序排列,選擇前100個(gè)詞繪制詞云來(lái)直觀反映人們的關(guān)注點(diǎn)和關(guān)注度。

        圖 2 輿情熱點(diǎn)詞云圖

        由圖2可見,在與汽車行業(yè)相關(guān)的輿情中,人們關(guān)注較多的是駕駛、新能源、車型、上市、新款,以及豐田、奧迪、吉利等品牌。對(duì)測(cè)試集進(jìn)行相同的操作,發(fā)現(xiàn)兩者在熱點(diǎn)詞匯上沒有太大差異,只是對(duì)奧迪的關(guān)注減少了而對(duì)大眾的關(guān)注度增加了,另外還增加了對(duì)車主的關(guān)注。

        為進(jìn)一步了解車企輿情中人們對(duì)汽車品牌和汽車功能、配件的關(guān)注熱點(diǎn),我們查找了汽車品牌詞庫(kù)大全以及汽車相關(guān)配件詞匯大全(https:∥pinyin.sogou.com/dict/ cate/index/432)。將文本分詞分別與這兩組詞匯進(jìn)行匹配,計(jì)算頻率,取排名前十來(lái)分析車企輿情關(guān)注最多的汽車品牌和汽車配件,其結(jié)果如圖3、圖4所示。

        圖 3 車企輿情熱點(diǎn)關(guān)注品牌Top10

        圖 4 車企輿情熱點(diǎn)關(guān)注配件Top10

        由圖可見,訓(xùn)練集中關(guān)注最多的汽車品牌依次是豐田、奧迪、吉利、大眾等;關(guān)注最多的汽車配件依次是輪胎、發(fā)動(dòng)機(jī)、方向盤、輪轂等。對(duì)測(cè)試集進(jìn)行相同處理,可見測(cè)試集中關(guān)注最多的汽車品牌與訓(xùn)練集中大體相同,只是測(cè)試集輿情關(guān)注的汽車品牌前10少了寶馬,多了紅旗;在對(duì)汽車配件的關(guān)注中,兩個(gè)數(shù)據(jù)集也大體相同,只是測(cè)試集多了轉(zhuǎn)向燈,少了離合器。

        3 車企輿情情感傾向分析

        文本情感分析可以被視為一類特殊的文本分類問題。目前絕大多數(shù)研究將文本的情感傾向性分為正向、負(fù)向兩種類別。文本情感分類方法主要有機(jī)器學(xué)習(xí)方法、詞典匹配方法。機(jī)器學(xué)習(xí)方法中主要用到的是支持向量模型、樸素貝葉斯模型以及神經(jīng)網(wǎng)絡(luò)等。這些方法各有優(yōu)劣。而本文是要進(jìn)行正、中、負(fù)3級(jí)分類,不適合用針對(duì)二分類的支持向量模型,所以采取情感詞典匹配的方法來(lái)對(duì)情感進(jìn)行標(biāo)記。

        3.1 提取文本情感特征

        在以情感詞典為基礎(chǔ)的情感分析中,情感詞庫(kù)的選擇占據(jù)十分重要的地位。高質(zhì)量的情感詞庫(kù)往往可得到更好的情感分析效果,通常情況下所選取的情感詞庫(kù)是網(wǎng)上下載的正負(fù)面情感詞匯和正負(fù)面評(píng)論詞匯。但本文的輿情數(shù)據(jù)并非評(píng)論數(shù)據(jù)而是類似網(wǎng)絡(luò)小文章形式,這類數(shù)據(jù)的正負(fù)往往在其中帶有事件特征,比如文中沒有太多的情感性詞匯,但由于描述的是一件正面事件,故最終也會(huì)評(píng)為正向情感。因此若是基于傳統(tǒng)的情感詞庫(kù)進(jìn)行分類效果并不會(huì)理想,本文經(jīng)嘗試后發(fā)現(xiàn)準(zhǔn)確率只有23.19%,故考慮重新提取情感特征構(gòu)建新的詞庫(kù)再進(jìn)行情感匹配。

        本文通過詞頻來(lái)選擇特征。利用詞頻對(duì)處理后的文本分詞分別計(jì)算權(quán)重,并根據(jù)權(quán)重的大小對(duì)分詞進(jìn)行排序,然后剔除一些與文章主題雖直接聯(lián)系但無(wú)實(shí)際意義的無(wú)用詞,如 “汽車”“年”“拉”等。然后統(tǒng)計(jì)分詞的總詞頻,從中選取若干個(gè)出現(xiàn)頻率最高的詞匯組成該類別的特征詞集;最后去掉每一類中都出現(xiàn)了的詞,形成3種類別各自特有的特征詞集(即我們用到的特征集合)。特征項(xiàng)的構(gòu)建步驟見圖5。

        圖 5 特征項(xiàng)的構(gòu)建流程

        由于中立面的詞匯沒有明顯的實(shí)際特征,所以我們只進(jìn)行正面詞匯和負(fù)面詞匯的選取。按詞頻降序排列后發(fā)現(xiàn),正面詞匯中排名在第500的詞匯出現(xiàn)頻率只有2次,負(fù)面詞匯中排名在第300的詞匯出現(xiàn)頻率為5次,表2分別展示了正向詞匯排名前100、300、500的末尾詞以及負(fù)向詞匯排名前100、200、300的末尾詞。

        表2 正向詞匯局部展示

        表3 負(fù)向詞匯局部展示

        可見,正負(fù)向中前300的詞頻詞匯的情感分級(jí)都比較明顯,初步選擇構(gòu)建的情感詞典正負(fù)向均取300個(gè)詞匯。

        3.2 文本特征表示

        計(jì)算詞權(quán)值的方式有傳統(tǒng)的用權(quán)重賦值法以及TF-IDF等,TF-IDF的主要思想是:如果某個(gè)詞在一篇文章中出現(xiàn)頻率很高,但在其他文章中極少出現(xiàn),那么這個(gè)詞就能很好地區(qū)分類別,適合用來(lái)作為分類的特征。其公式為:

        其中:wik為特征詞ik的權(quán)重,tfik為特征詞ik在文本di中出現(xiàn)的頻率,N為總的訓(xùn)練文本數(shù),nk為訓(xùn)練集中詞ik出現(xiàn)了的文本數(shù)。

        實(shí)踐中發(fā)現(xiàn),用此方法賦以權(quán)重比較繁瑣,且其不區(qū)分正負(fù)語(yǔ)料庫(kù),而是直接依據(jù)每個(gè)詞在正、負(fù)、中性文本中出現(xiàn)的頻率來(lái)判斷其在不同情感中的權(quán)重,因此本文采用簡(jiǎn)單的權(quán)重賦值方法,即將所有正向詞匯賦以+1的權(quán)重,所有負(fù)向詞匯賦以-1的權(quán)重。這樣的優(yōu)點(diǎn)是操作起來(lái)比較簡(jiǎn)單便捷,缺點(diǎn)是忽略了不同詞匯在情感程度上的差異。

        3.3 文本情感分類

        本文利用情感詞典來(lái)對(duì)文本情感進(jìn)行標(biāo)注。對(duì)具有積極情感的詞語(yǔ)賦于+1的權(quán)重,對(duì)具有消極情感的詞語(yǔ)賦于-1的權(quán)重,并假定情感賦值可以線性相加。由于標(biāo)題對(duì)文章內(nèi)容具有高度概括作用,所以選擇利用標(biāo)題來(lái)對(duì)文章進(jìn)行情感分類。首先對(duì)標(biāo)題進(jìn)行分詞,然后對(duì)分詞中包含的情感詞加上對(duì)應(yīng)+1或-1的權(quán)重。此外,本文加上了否定詞和程度副詞對(duì)情感的影響,最終將得分為正的文本劃分為正面情感,得分為負(fù)的文本劃分為負(fù)面情感,其余文本記為中立情感。對(duì)訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集分別隨機(jī)抽取10 000條進(jìn)行情感劃分,其準(zhǔn)確率達(dá)到85.73%,整體效果較好,其混淆矩陣如表4所示。

        表4 訓(xùn)練集情感劃分混淆矩陣

        可見,負(fù)向情感正確劃分的概率為83.75%,正向情感正確劃分的概率為89.19%,對(duì)中立情感的文本劃分準(zhǔn)確率相對(duì)低一點(diǎn)??紤]到整體準(zhǔn)確率為85.73%,且正向負(fù)向情感劃分的準(zhǔn)確率均不錯(cuò),故此方法有效。

        將同樣的方法用于測(cè)試集的情感劃分,得到準(zhǔn)確率為83.62%,整體效果較好,其混淆矩陣如表5所示。

        表5 測(cè)試集情感劃分混淆矩陣

        可見,負(fù)向情感正確劃分的概率為83.77%,中立情感被正確分類的概率為68.68%,正向情感正確劃分的概率為89.16%,總體準(zhǔn)確率為83.62%。

        在此基礎(chǔ)上對(duì)訓(xùn)練集分類后的正負(fù)向情感文本分詞統(tǒng)計(jì)詞頻,按頻率降序排列選取前100名的詞匯繪制詞云圖見圖6、7。

        圖 6 訓(xùn)練集正向情感文本詞云

        圖 7 訓(xùn)練集負(fù)向情感文本詞云

        對(duì)訓(xùn)練集分類后,其正向輿情信息中關(guān)注較多的是上市、車型、魅力等,負(fù)面輿情信息中關(guān)注較多的是銷量、二手車、投訴、事故、下滑等,說(shuō)明分類后的分詞效果比較好,有利于后續(xù)分析。

        對(duì)測(cè)試集情感劃分正負(fù)之后也分別提取了正負(fù)面的主要詞匯,將其與訓(xùn)練集對(duì)比并無(wú)太大差異,我們將兩個(gè)數(shù)據(jù)集正負(fù)面提取的詞匯取前6個(gè)綜合為表6。

        表6 兩個(gè)數(shù)據(jù)集正負(fù)面熱詞對(duì)比

        可見訓(xùn)練集與測(cè)試集在正面情感熱詞上相差不大,只是訓(xùn)練集中正面輿情增加了對(duì)豐田的關(guān)注;兩個(gè)數(shù)據(jù)集在負(fù)面情感熱詞上相差也不大,只是測(cè)試集中的負(fù)面輿情減少了對(duì)疫情的關(guān)注,增加了對(duì)達(dá)利桑、德羅的關(guān)注。

        4 車企輿情主題分析

        4.1 LDA主題分析模型

        LDA模型也叫3層貝葉斯概率模型。它由3層結(jié)構(gòu)組成,分別是文檔(d)、主題(z)和詞(w)。該模型能夠有效挖掘潛藏在數(shù)據(jù)中的主題,進(jìn)而分析數(shù)據(jù)中的主要關(guān)注點(diǎn)。

        3層貝葉斯結(jié)構(gòu)包括兩部分,分別是“文檔—主題”和“主題—詞”,其中“文檔—主題”表示以一定概率來(lái)通過文檔d生成主題z;“主題—詞”表示以一定概率來(lái)通過主題z生成詞w。若要生成一個(gè)文檔,文檔中每個(gè)詞出現(xiàn)的條件概率可以分為兩部分:

        式中,p(w|d)表示文檔中分詞出現(xiàn)的概率;p(w|z)表示主題中分詞出現(xiàn)的概率;p(z|d)表示文檔中主題出現(xiàn)的概率。LDA模型則是利用“文檔—詞語(yǔ)”矩陣來(lái)進(jìn)行訓(xùn)練,由此推測(cè)出文檔的主題。

        4.2 尋找最優(yōu)主題數(shù)

        由于中立情感的文本對(duì)主題分析沒有太大價(jià)值,并不能反映一些關(guān)鍵性看法和態(tài)度,所以本文選擇只對(duì)測(cè)試集中情感為正向和負(fù)向的文本進(jìn)行主題分析。LDA模型可以用相對(duì)較少的迭代就找到最優(yōu)的主題數(shù)。圖8展示了不同主題數(shù)下的平均余弦相似度,可見無(wú)論是正向情感還是負(fù)向情感都在主題數(shù)選2時(shí),平均余弦相似度最低。因此,對(duì)正面數(shù)據(jù)和負(fù)面數(shù)據(jù)均選擇主題數(shù)為2來(lái)進(jìn)行主題分析。對(duì)測(cè)試集進(jìn)行相同的步驟,發(fā)現(xiàn)選擇的最優(yōu)主題數(shù)也是2。

        (a)正面

        (b)負(fù)面圖 8 主題間平均余弦相似度

        4.3 LDA主題分析

        根據(jù)概率,在每個(gè)主題下生成10個(gè)最有可能出現(xiàn)的詞語(yǔ)。表7反映了訓(xùn)練集中正面情感數(shù)據(jù)潛在的主題。主題1中的高頻詞(即關(guān)注點(diǎn))主要是上市、魅力、車型、比亞迪、奧迪等主要反映人們對(duì)車的車型、特質(zhì)等關(guān)注多的方面。主題2中的高頻詞(即關(guān)注點(diǎn))主要是新款、動(dòng)力、新能源、吉利等,說(shuō)明人們對(duì)新款的車比較關(guān)注,且對(duì)它的動(dòng)力、新能源方面關(guān)注較多且好評(píng)度較高。

        表7 訓(xùn)練集正面輿情數(shù)據(jù)中的潛在主題

        表8反映了訓(xùn)練集中負(fù)面情感數(shù)據(jù)潛在的主題。主題1中的高頻詞主要是銷量、同比、下降、新車、召回、投訴、司機(jī)之類,說(shuō)明很多關(guān)于車企的負(fù)面輿情都較多提到新車召回、銷量下降以及服務(wù)投訴。主題2中的高頻詞主要是二手車、優(yōu)信、駕駛、自動(dòng)之類,說(shuō)明人們對(duì)二手車的滿意度并不是很高。廣大網(wǎng)民對(duì)一些新興的自動(dòng)駕駛持懷疑態(tài)度,對(duì)其安全性存在一些顧慮。

        表8 訓(xùn)練集負(fù)面輿情數(shù)據(jù)中的潛在主題

        對(duì)測(cè)試集同樣提取了兩個(gè)主題的關(guān)鍵詞,其結(jié)果與訓(xùn)練數(shù)據(jù)集主題所體現(xiàn)的關(guān)注點(diǎn)相似,只是正面中主題2增加了對(duì)設(shè)計(jì)、品牌、高顏值的關(guān)注,也就是對(duì)汽車的外形設(shè)計(jì)上關(guān)注較多;負(fù)面中測(cè)試集增加了對(duì)日產(chǎn)和豐田的關(guān)注。

        5 結(jié)論

        本文利用情感詞典識(shí)別和預(yù)測(cè)汽車行業(yè)的輿情情感,并對(duì)正面情感和負(fù)面情感分別進(jìn)行主題分析。從分析結(jié)果可知,廣大網(wǎng)民對(duì)汽車行業(yè)現(xiàn)狀的態(tài)度和關(guān)注點(diǎn),發(fā)現(xiàn)人們對(duì)汽車的車型、魅力等聚焦較多,且對(duì)新款車尤為關(guān)注;對(duì)汽車的動(dòng)力、新能源等方面具有一定的關(guān)注度和好評(píng)度,對(duì)新車的召回率、部分汽車銷量下降情況以及出租車司機(jī)因服務(wù)不當(dāng)而遭受投訴等方面帶有一定的負(fù)面情緒;對(duì)二手車的滿意度不高,對(duì)于新興的自動(dòng)駕駛也持懷疑觀望態(tài)度。

        猜你喜歡
        分詞負(fù)面輿情
        結(jié)巴分詞在詞云中的應(yīng)用
        負(fù)面清單之后的電改
        能源(2018年8期)2018-09-21 07:57:22
        遠(yuǎn)離負(fù)面情緒
        值得重視的分詞的特殊用法
        輿情
        輿情
        輿情
        微博的輿情控制與言論自由
        高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
        論英語(yǔ)不定式和-ing分詞的語(yǔ)義傳承
        精品人伦一区二区三区蜜桃麻豆| 成午夜精品一区二区三区| 国产成人av片在线观看| 国产成人无码精品久久99| 国产精品三级自产拍av| av在线免费观看网站免费| 国产好大好硬好爽免费不卡| 欧美日韩在线观看免费| 日本经典中文字幕人妻| 激情在线一区二区三区视频| 亚洲国产精品无码专区影院| 欧美激情五月| 日本一区二区精品色超碰| 久久777国产线看观看精品 | 国产女主播福利在线观看| 色婷婷五月综合激情中文字幕| 久久精品国产亚洲一区二区| 成人无码a级毛片免费| av在线播放中文专区| 波多野结衣久久精品99e| 色综合久久久久久久久五月| 久久久久久国产精品mv| 一本一本久久a久久精品综合麻豆| 精品久久亚洲一级α| av中文字幕在线直播| 国产人妻熟女高跟丝袜图片| 这里只有久久精品| 精品一区二区三区女同免费 | 特级婬片国产高清视频| 青青草综合在线观看视频| 白嫩少妇高潮喷水av| 国产激情综合在线观看| 久草视频国产| 日本成年少妇人妻中文字幕 | 久久综合狠狠色综合伊人| 丝袜美女污污免费观看的网站| 日本老熟女一区二区三区| 高h喷水荡肉爽文np肉色学校| av大片在线无码免费| 久久色悠悠亚洲综合网| 天堂资源中文网|