Research on User Perception of New Energy Vehicles Based on Data Mining
ZENGRuochen1SHI Dingxin2 (1.SILC Business School, University, 2Ol8OO,China;2.SPDBank, 2OOl2O,China)
Abstract: Electric vehicle have shown explosive growth in recent years,but the growing electric vehicle industry has also led to many problems, such as uneven product quality and poor user experience. Therefore,in the increasingly competitive market, how to timely and accurately grasp the consumer demand,understand the consumer evaluation information on various aspects of the product,to bring better products and services for consumers is crucial. Traditional methods such as questionnaire surveys to obtain consumer demand and quality evaluation obviously can no longer meet the current needs. In this paper, the market information of electric vehicle was analyzed through data mining technology to explore user needs and pain points. The study finds that users’concerns about electric vehicle are mainly focused on cost-effectiveness,interior,space and other aspects.At the same time, the study also finds that users are generally more satisfied with the appearance of electric vehicle,and generally less satisfied with the comfort.
Key words: electric vehicle; data mining;user perception
0 引言
本文利用汽車網(wǎng)站中新能源汽車用戶的在線評論,從消費(fèi)者的角度出發(fā),基于產(chǎn)品的不同維度獲取用戶評論。通過聚類算法,將具有相似內(nèi)容和特征的評論歸為一類,從而發(fā)現(xiàn)用戶關(guān)注的主題。進(jìn)一步針對確定的主題,構(gòu)建情感分類模型,并得出了用戶對新能源汽車感知不同維度的滿意程度以及關(guān)注程度。同時,通過對滿意度和關(guān)注度的相關(guān)性分析,研究揭示了消費(fèi)者在購買新能源汽車過程中,可能面臨的挑戰(zhàn)和痛點(diǎn)。
1文獻(xiàn)綜述
針對新能源汽車用戶偏好和用戶感知方面的研究,國內(nèi)外學(xué)者進(jìn)行了廣泛的調(diào)查和實(shí)證分析。Bennett等(2016)對影響新能源汽車推廣的因素進(jìn)行過探究;Jena(2020)基于印度電動汽車消費(fèi)者數(shù)據(jù),運(yùn)用機(jī)器學(xué)習(xí)等方法進(jìn)行了情感分析;Ferguson等(2018)利用加拿大消費(fèi)者的調(diào)查結(jié)果,探究了消費(fèi)者對電動汽車的態(tài)度和偏好程度;Singh等(2020)對現(xiàn)有文獻(xiàn)進(jìn)行了元分析,進(jìn)一步研究了購買新能源汽車的影響因素;余帆(2022)從8個維度出發(fā),針對國內(nèi)用戶評論進(jìn)行了情感分析,研究發(fā)現(xiàn),消費(fèi)者對新能源汽車的購買意愿受到多種因素影響,如價格、續(xù)航里程、充電設(shè)施、環(huán)保意識等。
為深入挖掘用戶感知,不同研究采用情感分析和用戶畫像等方法對在線評論進(jìn)行分析。情感分析主要通過自然語言處理技術(shù),對用戶評論中的情感傾向進(jìn)行量化分析。用戶畫像是通過挖掘用戶評論中的關(guān)鍵信息,構(gòu)建用戶特征模型,以便更精確地了解用戶需求和喜好。通過數(shù)據(jù)挖掘技術(shù),可以從海量數(shù)據(jù)中獲取描述用戶的標(biāo)簽,這些用戶標(biāo)簽被廣泛應(yīng)用于推薦系統(tǒng)和產(chǎn)品運(yùn)營(張彩紅等,2023)。
傳統(tǒng)汽油車用戶研究經(jīng)過多年的積累和發(fā)展已經(jīng)形成了比較完善的評價體系,例如中國汽車技術(shù)研究中心有限公司從2012年起已經(jīng)連續(xù)7年開展汽油車消費(fèi)者滿意度調(diào)研工作,從產(chǎn)品、銷售、售后三個方面,進(jìn)行評價指標(biāo)下沉,形成了完備的測量用戶滿意度的指標(biāo)體系和研究模型。然而,新能源汽車與傳統(tǒng)汽油車在產(chǎn)品特性、使用情境、維修保養(yǎng)等方面存在著顯著差異。新能源汽車面臨著不同的市場環(huán)境和用戶群體。根據(jù)消費(fèi)者行為學(xué)的理論,不同的用戶群體對產(chǎn)品滿意度的評判方式也不盡相同。因此,對于新能源汽車用戶滿意度的影響因素以及滿意度的影響機(jī)制,仍需要進(jìn)一步深入研究。
過去的研究較多依賴于傳統(tǒng)的問卷調(diào)查和訪談等方式,而較少利用在線評論等大數(shù)據(jù)方法。此外,現(xiàn)有研究主要關(guān)注購買前消費(fèi)者行為的影響因素,而較少對購買后行為和消費(fèi)者滿意度的影響因素進(jìn)行研究。相比之下,基于網(wǎng)絡(luò)評論的文本挖掘研究相對較少,即使在研究消費(fèi)者滿意度的影響因素時,也很少對這些因素進(jìn)行排序,以找出它們的重要程度。本文基于在線評論挖掘,深入研究新能源汽車用戶感知、用戶偏好、情感分類等方面。
2 研究方法
2.1數(shù)據(jù)采集與預(yù)處理
本文采用的數(shù)據(jù)來自頭部汽車垂直門戶網(wǎng)站的汽車用戶口碑?dāng)?shù)據(jù)。用戶可以在該網(wǎng)站上查找汽車相關(guān)的新聞、信息、評測以及購車指南等內(nèi)容。同時,該網(wǎng)站也提供了用戶口碑評論的功能,讓用戶可以分享自己的購車、使用經(jīng)驗(yàn)以及對特定汽車的評價和看法。該網(wǎng)站的用戶口碑評論有以下特征:用戶口碑評論數(shù)量龐大,涉及的汽車品牌和車型繁多,覆蓋了幾乎所有的主流汽車品牌和車型;用戶口碑評論包含的內(nèi)容多種多樣,包括購車經(jīng)驗(yàn)、車輛性能、外觀設(shè)計(jì)、內(nèi)飾配置、油耗表現(xiàn)、車輛故障、售后服務(wù)等方面。
為了收集新能源汽車的用戶評論,本文采用爬蟲技術(shù),從目標(biāo)網(wǎng)站收集相關(guān)數(shù)據(jù)。我們設(shè)置目標(biāo)車型ID,以便針對特定新能源汽車品牌和型號抓取用戶評論,目標(biāo)涉及市面主流新能源汽車品牌與型號。
本文共采集到16900余條關(guān)于新能源汽車的用戶評論,包括用戶對于各個新能源車系的各個車型的具體評價。數(shù)據(jù)內(nèi)容主要是“車系、滿意一評論詳情、不滿意一評論詳情、空間一評論詳情、駕駛感受一評論詳情、續(xù)航一評論詳情、外觀一評論詳情、內(nèi)飾一評論詳情、性價比一評論詳情、操控一評論詳情、舒適性一評論詳情、智能化一評論詳情”。其中“最滿意一評論詳情”與“最不滿意一評論詳情”代表了用戶對于該款車系最強(qiáng)烈的正面與負(fù)面評價。而“空間一評論詳情、駕駛感受一評論詳情、續(xù)航一評論詳情、外觀一評論詳情、內(nèi)飾一評論詳情、性價比一評論詳情、操控一評論詳情、舒適性一評論詳情、智能化一評論詳情”則是用戶對于車系這些具體方面的評價。
對數(shù)據(jù)進(jìn)行預(yù)處理主要包括分詞、去除空值和選取停用詞。首先是去除一些常見的停用詞,比如數(shù)字、符號,同時還包括一些無意義的語氣詞和一些不包含信息量的詞匯,比如“新能源”“車子”等,因此將這些無關(guān)的主題詞加入停用詞。根據(jù)采集的數(shù)據(jù)集特性,數(shù)據(jù)標(biāo)注主要分為兩類:第一類是標(biāo)注為“最滿意”和“最不滿意”的評論數(shù)據(jù);第二類是標(biāo)注為“空間、駕駛感受、續(xù)航、外觀、內(nèi)飾、性價比、操控、舒適性和智能化”這些指標(biāo)的評論數(shù)據(jù)。通過使用第二類標(biāo)簽的數(shù)據(jù)集訓(xùn)練情感分類模型,然后使用訓(xùn)練好的模型對標(biāo)注“滿意”與“不滿意”兩個標(biāo)簽的口碑?dāng)?shù)據(jù)進(jìn)行分類,得到用戶對新能源汽車各個方面的具體滿意程度以及關(guān)注程度。
2.2主題聚類及情感分類模型
LDA(LatentDirichletAllocation)是一種基于概率分布的主題模型,主要用于從大量文檔中提取潛在主題。LDA的基本思想是認(rèn)為文檔是由多個主題組成的,而每個主題則是由多個詞匯組成的。通過LDA模型,可以獲得文檔中的潛在主題。本文使用LDA聚類模型對標(biāo)注為“滿意/不滿意”的在線評論數(shù)據(jù)進(jìn)行聚類,通過主題詞判斷需要研究的指標(biāo)。LDA模型可以有效地幫助發(fā)現(xiàn)用戶評論中的關(guān)鍵主題,從而指導(dǎo)后續(xù)的情感分析研究。
在情感分析中,本文根據(jù)主題詞篩選出相關(guān)評論,然后利用機(jī)器學(xué)習(xí)方法訓(xùn)練模型,以實(shí)現(xiàn)對評論情感的自動分類。我們采用三種模型包括樸素貝葉斯、TextCNN和MLP(多層感知器)來進(jìn)行預(yù)測,最后通過投票分類的策略得到最終結(jié)果。樸素貝葉斯分類器是基于貝葉斯定理的一種分類方法,具有簡潔、訓(xùn)練速度快的特性。TextCNN是一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的文本分類模型,TextCNN能夠自動捕捉文本的局部特征,提取有用的信息,降低了特征工程的復(fù)雜性并且其訓(xùn)練速度較快,適用于大規(guī)模數(shù)據(jù)集。MLP是一種多層感知機(jī)模型,屬于前饋神經(jīng)網(wǎng)絡(luò)的一種。MLP能夠捕捉數(shù)據(jù)中的非線性關(guān)系,適用于復(fù)雜問題,并且通過增加網(wǎng)絡(luò)層數(shù)和神經(jīng)元數(shù)量,可以更準(zhǔn)確地挖掘評論中的潛在信息。為了綜合利用三個模型的優(yōu)點(diǎn),本文采用了投票分類的策略,將三種模型預(yù)測結(jié)果作為投票分類器的輸入得出最后的結(jié)果。投票分類是一種集成學(xué)習(xí)方法,它依賴于不同的機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測,并根據(jù)所有模型的預(yù)測結(jié)果進(jìn)行投票。具體步驟是將每一條評論都使用三個模型進(jìn)行預(yù)測,三個模型會分別給出每條評論屬于每個分類維度的概率,然后將三個模型給出的概率加權(quán)平均,就能得出最終的每條評論屬于每個分類維度的概率。通過采用投票分類的方式,我們可以充分利用各種模型的優(yōu)勢,避免依賴單一模型可能帶來的風(fēng)險,從而在新能源汽車用戶感知的研究中獲得更準(zhǔn)確和全面的結(jié)果。
2.3 模型構(gòu)建
本文使用Gensim庫構(gòu)建詞典和語料庫訓(xùn)練LDA模型。為了確定最佳的主題數(shù)量,我們采用了一致性評分來評估不同主題數(shù)量下LDA模型的表現(xiàn)。嘗試了從1到10的主題數(shù)量,并計(jì)算了對應(yīng)的一致性評分。這個過程涉及了對每種主題數(shù)量下的LDA模型進(jìn)行訓(xùn)練,并使用CoherenceModel計(jì)算對應(yīng)的一致性評分。通過圖1一致性評分與主題數(shù)量之間的關(guān)系,可發(fā)現(xiàn)當(dāng)主題數(shù)量為9時,一致性評分達(dá)到最高。
樸素貝葉斯分類模型構(gòu)建
本文采用CountVectorizer將文本轉(zhuǎn)換為詞頻矩陣表示。CountVectorizer會計(jì)算每個單詞在文檔中出現(xiàn)的次數(shù),并生成一個稀疏矩陣。這種表示方法可以有效地將文本數(shù)據(jù)轉(zhuǎn)換為適合樸素貝葉斯分類器處理的數(shù)值格式。為了評估模型的性能,我們將數(shù)據(jù)集劃分為訓(xùn)練集( 80% 和測試集0 20% )。為確保訓(xùn)練集和測試集的類別分布與總體相似,我們采用了分層抽樣的方法進(jìn)行劃分。對于超參數(shù)的選取,通過分析訓(xùn)練集和測試集的準(zhǔn)確率隨alpha變化的曲線,我們確定了最佳的alpha值為O.3。基于選定alpha值,構(gòu)建MultinomialNB分類器,并使用訓(xùn)練集對其進(jìn)行了訓(xùn)練。
TextCNN分類模型構(gòu)建
通過構(gòu)建詞匯表,將每個詞映射為一個唯一的整數(shù)值。詞匯表的構(gòu)建是通過統(tǒng)計(jì)所有文本中出現(xiàn)的詞及其頻率來實(shí)現(xiàn)的。進(jìn)一步定義了一個將文本轉(zhuǎn)換為固定長度整數(shù)序列的函數(shù),以便將其輸入到TextCNN模型中。在本研究中,我們將 20% 的數(shù)據(jù)劃分為測試集,剩余的 80% 用于訓(xùn)練。TextCNN模型的關(guān)鍵超參數(shù)包括詞向量維度、類別數(shù)、卷積核數(shù)量、卷積核尺寸以及Dropout比率。分別設(shè)置這些超參數(shù)為128、9、100、[3,4,5]和0.5。此外,我們還設(shè)置了學(xué)習(xí)率為0.001、批處理大小為64以及訓(xùn)練輪數(shù)為10。在TextCNN類的構(gòu)造函數(shù)中,我們創(chuàng)建了詞嵌入層、卷積層列表、Dropout層和全連接層。根據(jù)上述超參數(shù)構(gòu)建了TextCNN模型。圖2展示了訓(xùn)練模型的準(zhǔn)確率。
MLP分類模型構(gòu)建
使用TF—IDF(Term Frequency—InverseDocumentFrequency)特征提取方法將文本轉(zhuǎn)換為稀疏矩陣表示。TF一IDF是一種常用于文本挖掘的特征權(quán)重計(jì)算方法,它考慮了詞匯在文檔中的頻率以及在整個語料庫中的逆文檔頻率。這種表示方式可以有效地將文本數(shù)據(jù)轉(zhuǎn)換為適合多層感知機(jī)(MLP)分類器處理的數(shù)值格式。將 20% 的數(shù)據(jù)劃分為測試集,剩余的 80% 用于訓(xùn)練。本文使用sklearn庫構(gòu)建了一個MLP分類器,其中包含兩個隱藏層(分別包含64個和32個神經(jīng)元),激活函數(shù)為ReLU,優(yōu)化器為Adam。在訓(xùn)練過程中,我們還使用了 10% 的驗(yàn)證集來監(jiān)控模型性能并防止過擬合。
投票分類器構(gòu)建
首先加載預(yù)訓(xùn)練好的樸素貝葉斯、TextCNN和MLP模型,以及它們對應(yīng)的特征提取器。接著,對于每個輸入的文本,我們分別用三個模型進(jìn)行預(yù)測,并得到它們的分類概率。然后將這三個模型的概率結(jié)果加權(quán)平均,得到最終的概率分布。這種方法能夠充分利用不同模型的特點(diǎn),增強(qiáng)整體分類性能。
此外,在“滿意”與“不滿意\"的評論數(shù)據(jù)當(dāng)中,未必只設(shè)計(jì)“空間、駕駛感受、續(xù)航、外觀、內(nèi)飾、性價比、操控、舒適性和智能化\"當(dāng)中的單獨(dú)一類,同一條“滿意\"或者“不滿意\"的評論當(dāng)中,可能同時涉及“空間、駕駛感受、續(xù)航、外觀、內(nèi)飾、性價比、操控、舒適性和智能化\"當(dāng)中的多個類型。而傳統(tǒng)的單標(biāo)簽分類方法可能無法充分捕捉這種多樣性。為了更準(zhǔn)確地反映評論中包含的各個方面,我們決定采用基于概率的分類方法。在分類過程中,我們設(shè)置了0.3的閾值。如果數(shù)據(jù)落在一個類當(dāng)中的概率超過0.3,則歸為這個類。也就是說一個數(shù)據(jù)可能被歸為多個類,在計(jì)算不同類的滿意度時,這樣的數(shù)據(jù)會被重復(fù)計(jì)算。
3 結(jié)果與討論
3.1 聚類結(jié)果
通過構(gòu)建LDA模型,我們將評論數(shù)據(jù)聚類為不同的主題并獲取了相應(yīng)的主題詞。通過對主題詞的研究與歸納,分析了主題詞與評論類型的內(nèi)在邏輯聯(lián)系,同時抽選了數(shù)條評論進(jìn)行對比。我們發(fā)現(xiàn)這些主題詞可以與特定類型的評論相對應(yīng)。表1顯示了聚類主題詞與對應(yīng)評論類型。新能源汽車用戶在撰寫在線評論時,主要關(guān)注車輛的空間、駕駛感受、續(xù)航、外觀、內(nèi)飾、性價比、操控、舒適性和智能化等方面。這些方面反映了用戶在評價新能源汽車時的核心關(guān)切點(diǎn)。
3.2 分類結(jié)果
圖3展示了各分類維度的總體滿意度。
在所有車系的綜合評價中,外觀和性價比方面的總體滿意度最高。這意味著消費(fèi)者對新能源汽車的外觀設(shè)計(jì)大體上感到滿意,新能源汽車通常具有獨(dú)特的設(shè)計(jì)和形象,相比傳統(tǒng)燃油車更顯新穎和個性。性價比的高滿意度則表明,消費(fèi)者普遍認(rèn)為新能源汽車在價格、配置和性能方面達(dá)到了較好的平衡。緊隨其后的是駕駛感受,得益于新能源汽車的加速性能、穩(wěn)定性等因素,消費(fèi)者在駕駛新能源汽車時體驗(yàn)較滿意。續(xù)航和智能化的滿意度也相對較高,反映了新能源汽車在這些領(lǐng)域取得的進(jìn)展符合消費(fèi)者期望。
然而,操控、空間、內(nèi)飾、舒適性等方面的滿意度較低,其中舒適性的滿意度最低。這意味著新能源汽車在舒適性方面存在相當(dāng)大的提升空間。對于新能源汽車來說,座椅舒適度、噪聲控制和乘坐空間等因素的表現(xiàn)顯然還有待提升。同時,內(nèi)飾和空間的滿意度也相對較低,這可能說明消費(fèi)者對新能源汽車在這些方面的表現(xiàn)有更高的期待。
圖4展示了各分類的關(guān)注度,關(guān)注度按分類評論的個數(shù)來判別。消費(fèi)者在評價新能源汽車時,關(guān)注度的排名如下:性價比、內(nèi)飾、空間、續(xù)航、外觀、智能化、舒適性和駕駛感受,最后是操控。
性價比是消費(fèi)者在評價新能源汽車時最為重視的部分。其次是內(nèi)飾,消費(fèi)者對新能源汽車的內(nèi)部裝飾和設(shè)計(jì)有著顯著的關(guān)注。接下來是空間,消費(fèi)者關(guān)心新能源汽車的內(nèi)部空間,這包括乘坐空間和儲物空間。足夠的空間可以提供更高的舒適度和實(shí)用性,無論是日常通勤還是長途旅行,都能滿足消費(fèi)者的需求;續(xù)航能力也是消費(fèi)者的一大關(guān)注點(diǎn),尤其是對于電動汽車來說,足夠的續(xù)航里程能減少充電次數(shù),提高使用便利性。同時,消費(fèi)者也關(guān)心充電設(shè)施的便利程度,包括充電站的分布、充電速度等。舒適性和駕駛感受的關(guān)注度接近,消費(fèi)者希望新能源汽車在行駛過程中提供穩(wěn)定且舒適的駕駛體驗(yàn)。操控性是消費(fèi)者關(guān)注最低的一項(xiàng)。
綜合以上分析,我們可以看出,雖然消費(fèi)者在選擇新能源汽車時關(guān)注的重點(diǎn)各有不同,但他們共同關(guān)心的是汽車的整體性能和價值。
4總結(jié)
本文采集并分析了新能源汽車用戶在線評論數(shù)據(jù),利用了LDA聚類模型、樸素貝葉斯、TextCNN和MLP等多種情感分類模型,旨在深入挖掘消費(fèi)者對新能源汽車不同方面的滿意程度以及對新能源汽車不同方面的重視程度。
首先,通過LDA主題聚類,研究發(fā)現(xiàn)用戶的關(guān)注度主要集中在新能源汽車的性價比、內(nèi)飾、空間和續(xù)航等方面,而對于操控等方面的關(guān)注度相對較低。
其次,通過用戶的評價滿意度分類,研究發(fā)現(xiàn)在新能源汽車的各個方面中,外觀獲得了最高的滿意度,而舒適性的滿意度最低。這意味著當(dāng)前的新能源汽車市場在外觀設(shè)計(jì)方面已經(jīng)滿足用戶需求,但在舒適性方面仍有很大的提升空間。
本研究揭示了消費(fèi)者對新能源汽車的真實(shí)需求和期望,為汽車制造商提供了有益建議。此外,本研究還提供了解市場動態(tài)和消費(fèi)者行為變化的重要途徑。通過對新能源汽車用戶評論的情感分析,揭示了消費(fèi)者對新能源汽車不同方面的滿意程度以及對新能源汽車不同方面的重視程度。這些發(fā)現(xiàn)對于汽車制造商、政府和企業(yè)制定更加合理有效的產(chǎn)品改進(jìn)策略、市場推廣策略以及政策支持措施具有重要指導(dǎo)意義。
參考文獻(xiàn)
[1] 涂宇,牛盼強(qiáng).碳中和背景下上海車展助力汽車產(chǎn)業(yè)新能 源化路徑研究[J].上海管理科學(xué),2023,45(01):50-53.
[2] BENNETT R,KOTTASZ R,SHAWS.Factorspoten tiallyaffecting the successful promotion of electric vehicles [J]. Journal of Social Marketing,2016.
[3] JENAR.An empirical case study on Indian consumers’sentiment towards electric vehicles:A big data analytics approach [J].Industrial Marketing Management,2O2O,9O:605-616.
[4] FERGUSONM,MOHAMED M,HIGGINSCD,etal. Howopenare Canadianhouseholdsto electricvehicles?A na tional latent class choice analysis with willingness-to-pay and metropolitan characterization[J]. Transportation Research PartD: Transport and Environment,2018,58:208-224.
[5] SINGHV,VAIBHAV S.A reviewand simplemeta-analysis offactors influencing adoption of electric vehicles[J].Trans portation Research Part D: Transport and Environment, 2020,86:102436.
[6] 余帆.基于文本挖掘的新能源轎車用戶情感分析[J].物流工 程與管理,2022,44(1):137-140.
[7] 張彩紅,李想,周雪俠,等.基于情感分析的突發(fā)公共衛(wèi)生事 件微博評論用戶畫像構(gòu)建[J].醫(yī)學(xué)信息學(xué)雜志,2023,44(3): 18-22.