王澤興,韓博洋,藺會光,呂馮婧,張 煬
基于大數(shù)據(jù)分析的新能源汽車畫像研究進展
王澤興,韓博洋*,藺會光,呂馮婧,張 煬
(國家新能源汽車技術(shù)創(chuàng)新中心,北京 100176)
大數(shù)據(jù)技術(shù)與新能源汽車的融合是未來發(fā)展的必然趨勢,在軟件和場景定義汽車的大背景下,明確用戶群體,構(gòu)建清晰的產(chǎn)品畫像,已成為汽車企業(yè)在數(shù)字化轉(zhuǎn)型期的發(fā)展趨勢之一。文章首先分析了常用大數(shù)據(jù)處理框架的技術(shù)特征,對大數(shù)據(jù)基本處理流程及其對應(yīng)原理進行了梳理,同時闡述了大數(shù)據(jù)統(tǒng)計分析的方法及過程。其次結(jié)合大數(shù)據(jù)分析技術(shù)分別梳理了用戶特征分析、用戶及產(chǎn)品畫像挖掘的相關(guān)新能源汽車畫像研究及應(yīng)用,并對基于K-means聚類的汽車用戶及產(chǎn)品畫像實例進行了分析。最后,對大數(shù)據(jù)分析技術(shù)在新能源汽車畫像研究的應(yīng)用前景進行了總結(jié),并提出了部分思考及未來展望。
新能源汽車;用戶畫像挖掘;大數(shù)據(jù)分析;K-means聚類
在“四個革命、一個合作”的能源安全新戰(zhàn)略指導(dǎo)下,國家制定了“雙碳”目標(biāo),并積極推動新能源汽車產(chǎn)業(yè)鏈發(fā)展。在汽車企業(yè)數(shù)字化轉(zhuǎn)型背景下,借助車輛數(shù)據(jù)和用戶數(shù)據(jù)的整合分析,持續(xù)推動新能源汽車研究與發(fā)展[1]。同時最大化利用大數(shù)據(jù)分析技術(shù)挖掘數(shù)據(jù)背后的價值,為新能源汽車產(chǎn)品的制造、服務(wù)、創(chuàng)新等提供數(shù)據(jù)支持[2]。
目前,以人為本的新型服務(wù)模式探索進度正在加快,同時傳統(tǒng)車企在產(chǎn)品更新、商業(yè)模式探索和數(shù)字化服務(wù)等方面加快應(yīng)用大數(shù)據(jù)技術(shù)[3]。研究表明,更多的個性化選擇會增強消費者的購買欲,更有利于商家銷售產(chǎn)品[4]。因此,許多汽車生產(chǎn)企業(yè)開始趨向于為消費者提供定制且個性化的汽車產(chǎn)品。在大數(shù)據(jù)背景下,通過調(diào)研市場及用戶需求,并結(jié)合數(shù)據(jù)挖掘、數(shù)據(jù)分析的方式,采取數(shù)據(jù)驅(qū)動營銷策略進行新能源汽車用戶研究。構(gòu)建用戶畫像、更好地把握用戶訴求,為汽車企業(yè)提供滿足消費者需求的產(chǎn)品或服務(wù),有利于提升產(chǎn)品的質(zhì)量,優(yōu)化用戶體驗。根據(jù)新能源汽車消費群體的相關(guān)數(shù)據(jù)進行產(chǎn)品畫像研究,精準(zhǔn)定位產(chǎn)品,讓不同車型迅速匹配到目標(biāo)消費者群體,實現(xiàn)企業(yè)與用戶雙贏[5]。
大數(shù)據(jù)分析技術(shù)是當(dāng)下熱門的研究領(lǐng)域之一,依靠大數(shù)據(jù)分析技術(shù)可以并行高效地處理對文本、圖片和視頻等非結(jié)構(gòu)化數(shù)據(jù)進行價值挖掘以及統(tǒng)計分析[2]。
現(xiàn)代大數(shù)據(jù)處理框架主要包括Hadoop、Storm、Samza、Spark、Flink等,其中Hadoop框架僅適用于批處理,即需要操作大容量靜態(tài)數(shù)據(jù)集;Storm和Samza屬于流處理框架,會對隨時進入系統(tǒng)的數(shù)據(jù)進行計算,更適用于近實時處理需求的任務(wù);Spark和Flink屬于混合處理框架,可以同時進行批處理和流處理的工作負載。Spark可提供高速批處理和微批處理模式的流處理,而Flink 提供了低延遲的流處理并具備批處理能力,通過深度優(yōu)化也可運行其他平臺編寫的任務(wù)。
大數(shù)據(jù)預(yù)處理技術(shù)主要包括數(shù)據(jù)清洗、數(shù)據(jù)降維、數(shù)據(jù)變換等[6]。由于搜集的車輛數(shù)據(jù)涉及不同的使用場景,導(dǎo)致原始數(shù)據(jù)種類混雜,同時各參數(shù)的格式、標(biāo)量都不盡相同,需要對原始數(shù)據(jù)進行預(yù)處理,并使用相應(yīng)算法對數(shù)據(jù)進行篩選及降維,再進行計算和分析。
1.2.1數(shù)據(jù)清洗
數(shù)據(jù)清洗是對原始數(shù)據(jù)中涉及正負、精度的異常數(shù)據(jù)進行清洗過濾的預(yù)處理操作,通過填補缺失值、光滑噪聲數(shù)據(jù),平滑或刪除離群點,以解決數(shù)據(jù)的不一致性問題。處理缺失值時,根據(jù)缺失比例,選擇刪除變量或者進行變量填充,一般選擇采用均值法或中位數(shù)進行填充。離散值處理是根據(jù)離群點數(shù)量和影響,對該條記錄刪除或使用均值、中位數(shù)等方式替換離群數(shù)據(jù)。噪聲處理是對數(shù)據(jù)進行分組操作,然后使用每組的平均數(shù)、中位數(shù)或者邊界值進行替代,起到平滑噪聲數(shù)據(jù)的作用。
1.2.2數(shù)據(jù)降維及變換
數(shù)據(jù)降維的目的是在保證數(shù)據(jù)信息完整性的前提下,降低數(shù)據(jù)維度,減少后續(xù)數(shù)據(jù)處理復(fù)雜度,提升數(shù)據(jù)挖掘建模效率。數(shù)據(jù)降維的主要使用方法為主成分分析(Principal ComponentPCA)、因子分析(Factor Analysis, FA)及奇異值分解(Singular Value Decomposition, SVD)等。
數(shù)據(jù)變換主要對數(shù)據(jù)進行規(guī)范化處理,由于數(shù)據(jù)中各特征的量綱不同,因此,需要將數(shù)據(jù)規(guī)范縮放到一定的數(shù)值區(qū)間內(nèi)(例如0~1),便于進行綜合分析。一般進行規(guī)范化處理的方式有歸一化(Min-Max標(biāo)準(zhǔn)化)、Z-Score標(biāo)準(zhǔn)化等。
大數(shù)據(jù)的統(tǒng)計分析是判斷最終信息是否有價值的決定性因素,通過提煉數(shù)據(jù)中的特征信息,找出數(shù)據(jù)間的內(nèi)在關(guān)系和變化規(guī)律[7],包括相關(guān)性分析、分類分析、聚類分析、回歸分析和可視化分析[8]。
1.3.1相關(guān)性分析
相關(guān)性分析是針對不同特征或數(shù)據(jù)間的關(guān)系,總結(jié)數(shù)據(jù)變化規(guī)律,以及對不確定數(shù)據(jù)結(jié)果進行預(yù)測[9]。衡量數(shù)據(jù)間相關(guān)性可以使用相關(guān)系數(shù)反映變量之間關(guān)系的密切程度,一般是通過計算協(xié)方差及協(xié)方差矩陣,協(xié)方差為正、負時分別對應(yīng)變量變化趨勢的正、負相關(guān)。相關(guān)系數(shù)從-1到1分別代表變量完全負相關(guān)到完全正相關(guān),兩個變量相互獨立時相關(guān)系數(shù)為0。比較常用的是皮爾森(Pearson)相關(guān)系數(shù)和斯皮爾曼(Spearman)相關(guān)系數(shù),其計算公式分別為
式中,為兩個成對且分別按照順序編秩的變量;R為x的秩次;Q為y的秩次。
1.3.2分類分析
分類分析是基于包含對某一類別成員標(biāo)簽已知的訓(xùn)練數(shù)據(jù)集來識別新數(shù)據(jù)所屬類別的分析方法。以分類算法支持向量機(Support Vector Mach- ines, SVM)為例,其是一種二分類模型,可以將問題化為一個求解凸二次規(guī)劃的問題,如圖1所示。通過將輸入的特征數(shù)據(jù)映射到特征空間,并構(gòu)建一個分類超平面方式,利用超平面在映射空間對原來難以使用線性直接劃分的數(shù)據(jù)進行劃分。對于能夠進行線性劃分的數(shù)據(jù)集來講,有且僅有一個具有最大幾何間隔的分離超平面。
圖1 SVM分類超平面
1.3.3聚類分析
聚類(Clustering)分析是按照某個或某幾個特定特征標(biāo)準(zhǔn),將數(shù)據(jù)集進行分類或簇,使得類或簇間的距離盡可能大,同時類或簇內(nèi)樣本與中心的距離盡可能小,聚類后同一類或簇的數(shù)據(jù)盡可能聚集在一起,不同類或簇數(shù)據(jù)盡量遠離。
K-means聚類,也被稱為K均值算法,是最常用的一種基于劃分的聚類方法,通過計算樣本點與質(zhì)心的距離,與質(zhì)心距離近即相似度高的樣本點被劃分為同一類簇。K均值通過樣本間的距離(一般使用歐幾里的距離計算)來衡量樣本間的相似度,兩個樣本距離越近,代表相似度越高。K-means算法流程如圖2所示。
圖2 K-means算法流程
1.3.4回歸分析
回歸分析是一種為了研究因變量和自變量之間關(guān)系的統(tǒng)計分析方法,通常用于預(yù)測以及發(fā)現(xiàn)變量之間的因果關(guān)系。在進行回歸分析時(見圖3),如果僅使用一次線性回歸容易出現(xiàn)欠擬合的情況,導(dǎo)致模型建立后回歸效果差。針對欠擬合一般考慮使用更多項或增加參數(shù)和特征進行擬合,但是多項式回歸也存在因加入過多,而出現(xiàn)過擬合的情況,從而導(dǎo)致模型訓(xùn)練后的泛用性不夠,無法應(yīng)用至更大場景。針對過擬合的情況可以考慮使用帶有正則化算法的回歸模型(例如Ridge嶺回歸)對數(shù)據(jù)進行擬合。
1.3.5可視化分析
可視化分析通過結(jié)合計算機高效的數(shù)據(jù)處理分析能力以及人對抽象化信息的認知優(yōu)勢,輔助洞悉數(shù)據(jù)背后的規(guī)律[10]。數(shù)據(jù)可視化可以方便用戶直觀地理解數(shù)據(jù),常用的可視化分析圖表有折線圖、柱狀圖、餅圖以及雷達圖等。通過可視化的圖表可以將抽象的數(shù)據(jù)內(nèi)容整合、轉(zhuǎn)變?yōu)榫呦笾庇^的結(jié)果,更有利于了解數(shù)據(jù)價值。
高度信息化的新能源汽車包含大量具有豐富科研價值的數(shù)據(jù),分析研究這些數(shù)據(jù)可以為車企提供明確的用戶畫像、車輛運行性能信息、行駛過程中的特點及缺點,幫助車企在后續(xù)產(chǎn)品的個性化或定制化功能配置時進行優(yōu)化決策[11]?;谟脩敉茝V、定制化服務(wù)最早興起于互聯(lián)網(wǎng)公司,通過分析用戶特征向用戶推送符合自身喜好的內(nèi)容、提供定制化的服務(wù),并對用戶關(guān)系網(wǎng)絡(luò)進行管理。綜上所述,在新用戶首次登錄時,快速、準(zhǔn)確的用戶定位十分重要[12]。
新能源汽車是未來智能化交通中的重要組成部分[13],通過結(jié)合車輛行駛數(shù)據(jù)對用戶行為及需求進行分析,既可以滿足用戶的個性化定制需求,也可以構(gòu)建用戶畫像為精準(zhǔn)營銷、場景定義等提供支持。研究表明,影響消費者選擇電動汽車的主要因素包括出行距離、身份特性、家庭收入[14]等。KIECKHAFER等[15]主要基于德國電動汽車市場數(shù)據(jù)進行分析研究,結(jié)果表明,在電動汽車市場份額估計中消費者的特性因素扮演著極其重要的角色,其中消費者選擇行為尤其與興趣偏好、性能、服務(wù)質(zhì)量等因素高度相關(guān)。
從多源數(shù)據(jù)中獲取的對汽車產(chǎn)品用戶消費行為有所影響的群體屬性被稱為汽車用戶產(chǎn)品群體特征。在復(fù)雜的汽車產(chǎn)業(yè)中,采用各種方法收集用戶數(shù)據(jù),并通過對其進行大數(shù)據(jù)分析。因涉及大量的結(jié)構(gòu)化/非結(jié)構(gòu)化數(shù)據(jù),以及多樣復(fù)雜的場景和系統(tǒng),數(shù)據(jù)的清洗、轉(zhuǎn)化、融合是一項重要挑戰(zhàn)[16]。
用戶畫像是通過搜集與用戶相關(guān)的多維度數(shù)據(jù),對用戶特征屬性進行描繪,并進一步分析挖掘特征信息的潛在價值。用戶的基本屬性標(biāo)簽包含年齡、性別、職業(yè)、收入等;興趣偏好標(biāo)簽包含喜歡游戲,美食、社交等。這些標(biāo)簽集合可以抽象出用戶的大致輪廓,對于進行產(chǎn)品精準(zhǔn)營銷和用戶分析有重要作用。在互聯(lián)網(wǎng)行業(yè),通過建模分析用戶安裝、卸載、經(jīng)常使用或很久未使用的 App 類型,能夠挖掘用戶的興趣愛好,利于廣告投放或應(yīng)用推薦等業(yè)務(wù)更好的開展[17]。根據(jù)汽車產(chǎn)品特性,汽車產(chǎn)品的用戶群體特征可大致分為用戶基本屬性、駕駛習(xí)慣屬性、充電習(xí)慣屬性、社交偏好屬性、用戶關(guān)注點屬性、消費習(xí)慣屬性等。
薛海濤等[16]通過對某品牌新能源汽車的購買行為進行分析,對已購車和未購車人群分別進行聚類分析,區(qū)分出了5類特征差異明顯的人群,其中包括已購車的用戶兩類(高學(xué)歷高收人群和經(jīng)濟適用年輕人),以及未購車用戶三類(高需求中等收入家庭、低需求中等收入家庭及低需求年輕人),如圖4所示。
圖4 聚類結(jié)果
通過對不同分類的用戶購買行為進行分析,為精準(zhǔn)營銷提供出幾點建議:首先,篩選體驗用戶學(xué)歷、收入、年齡、婚姻狀況、出行需求等方面的特征分析數(shù)據(jù),結(jié)果表明,擁有本科以上學(xué)歷,且家庭燃油車車價15萬以上,擁有便利充電條件的用戶更容易轉(zhuǎn)化為潛在用戶、更有可能發(fā)生新能源汽車購買行為。其次,針對家庭擁有5~15 萬左右燃油車及30~40歲的已婚人群,可以考慮制定有效轉(zhuǎn)化方案,增加其購買新能源車的可能,例如推出一定優(yōu)惠策略或者增加購買配置方案等。最后,優(yōu)先考慮為學(xué)歷水平達到本科的20~30歲人群發(fā)放體驗,針對這一部分人群,當(dāng)其預(yù)期單次出行距離在16 km以上時,且家庭燃油車車價在 15 萬以下,甚至無車的用戶更容易被轉(zhuǎn)化為購買對象。
產(chǎn)品畫像是一種基于用戶畫像而引申出來的大數(shù)據(jù)畫像技術(shù)[18]。楊美婷等[19]在2017年提出由用戶畫像的研究對象延伸至產(chǎn)品,就可以構(gòu)建出“產(chǎn)品畫像”。王穎[20]對產(chǎn)品畫像的概念進行了細化,通過合理的組織、關(guān)聯(lián)產(chǎn)品相關(guān)信息,挖掘產(chǎn)品信息和用戶評論形成的標(biāo)簽化信息模型可以得出產(chǎn)品畫像。
與用戶畫像類似,產(chǎn)品畫像具有多維度的特征,產(chǎn)品畫像要綜合產(chǎn)品靜態(tài)參數(shù)信息和用戶動態(tài)評價信息,多維度地展示產(chǎn)品專業(yè)知識、產(chǎn)品參數(shù)、產(chǎn)品相關(guān)網(wǎng)站信息和用戶評價相關(guān)聯(lián)的信息。同時,產(chǎn)品畫像也具有抽象化的特征,在建立產(chǎn)品畫像標(biāo)簽化模型時,由于涉及眾多包含產(chǎn)品和用戶的信息,因此,要提煉有價值的信息作為產(chǎn)品畫像標(biāo)簽,并表示為抽象化的標(biāo)簽?zāi)P?。產(chǎn)品畫像還具有結(jié)構(gòu)化特征,即從產(chǎn)品多維度的數(shù)據(jù)中抽取出信息模型,需要轉(zhuǎn)化大量的文本、圖像等信息為結(jié)構(gòu)化數(shù)據(jù),形成標(biāo)準(zhǔn)的數(shù)據(jù)結(jié)構(gòu)形式。
多維汽車產(chǎn)品畫像構(gòu)建流程如圖5所示。在數(shù)據(jù)獲取與預(yù)處理階段,根據(jù)汽車各項參數(shù)與汽車性能間的關(guān)系使用網(wǎng)絡(luò)爬蟲技術(shù)爬取車型參數(shù)信息、用戶評分和用戶口碑評價,并對最終獲取的汽車相關(guān)數(shù)據(jù)進行處理。在產(chǎn)品畫像標(biāo)簽體系設(shè)計階段,使用TF-IDF(Term Frequency–Inverse Document Frequency)技術(shù)從用戶興趣角度提取各車型評論的興趣方面特征詞,計算評論文本中提及較多的方面詞和權(quán)重,并通過對比汽車專業(yè)領(lǐng)域評價指標(biāo)選定方面詞設(shè)計產(chǎn)品畫像標(biāo)簽體系。在多維度汽車產(chǎn)品畫像的構(gòu)建階段,依據(jù)上一階段選定的特征標(biāo)簽建立多維度的車型特征向量模型,形成汽車產(chǎn)品畫像框架,并使用可視化工具繪制各級別車型的多維汽車產(chǎn)品畫像。
圖5 多維汽車產(chǎn)品畫像構(gòu)建流程圖
在數(shù)據(jù)驅(qū)動場景下,黃嘉祥[21]基于充電站點數(shù)據(jù)、能耗數(shù)據(jù)和出行數(shù)據(jù),研究以新能源車輛為主體的主題畫像建模。在不斷復(fù)雜豐富的數(shù)據(jù)和場景中,得出了與新能源汽車的畫像建模與充電、出行、能耗使用、駕駛行為和出行風(fēng)險相關(guān)的結(jié)論,構(gòu)建了以新能源汽車為主體的畫像?;谠摲N畫像研究[22]方法,能夠有效地刻畫對于未來充電站點的選址規(guī)劃、車輛出行習(xí)慣以及駕駛的安全性等的新能源汽車產(chǎn)品畫像。
祝偲博[22]通過實驗的對比研究對K均值聚類算法進行了設(shè)計改進,并通過SPSS(Statistical Product and Service Solutions)軟件對P2SOM-K均值算法、DM-K均值算法這兩種改進的K均值聚類算法聚類效果進行了驗證及對比分析。根據(jù)駕駛姿態(tài)特征參數(shù)歸納總結(jié)出了五類汽車用戶的駕駛姿態(tài)畫像:第一類汽車用戶為了在駕駛過程中使駕駛視野更加開闊、儀表盤信息更清晰,因此,方向盤相對垂直高度需調(diào)整至最低;第二類用戶為方便在駕駛過程中獲得靈活的方向盤操控體驗,方向盤相對水平距離需調(diào)整最近;第三類用戶由于在駕駛時坐姿比較松弛,不容易發(fā)生疲勞駕駛;第四類用戶需要更多的腿部空間,對于方向盤相對垂直高度的調(diào)整是五類用戶中最高的;最后一類用戶駕駛時的手臂狀態(tài)緊繃,導(dǎo)致方向盤操控空間偏小,同時在駕駛過程中坐姿挺拔,疲勞駕駛的風(fēng)險較高。根據(jù)聚類特征進行合理推測,這一類用戶的駕駛態(tài)度在五類用戶中最為認真謹慎。通過應(yīng)用汽車用戶駕駛姿態(tài)畫像,可以對五類汽車用戶的駕駛姿態(tài)調(diào)整提出了相關(guān)建議,并結(jié)合科學(xué)且安全的駕駛原則,為用戶表明安全注意事項。
肖揚[18]對汽車產(chǎn)品和購車用戶進行了分析和研究,提出了基于產(chǎn)品畫像的汽車推薦算法,實現(xiàn)了針對不同用戶群體的汽車推薦。通過爬取、處理分析汽車之家的汽車產(chǎn)品參數(shù)和用戶口碑?dāng)?shù)據(jù),構(gòu)建多維度的汽車產(chǎn)品畫像模型,提高對用戶進行汽車產(chǎn)品推薦的精度,并以此構(gòu)建了基于產(chǎn)品畫像的混合推薦算法CPP-HR,尋找滿足用戶群體特征需求的最近鄰車型,生成車型推薦列表,實現(xiàn)基于產(chǎn)品畫像的汽車推薦。通過引入產(chǎn)品畫像技術(shù)到傳統(tǒng)推薦算法中,CPP-HR流程圖(見圖6)可以根據(jù)豐富的物品參數(shù)信息和用戶語義信息,精準(zhǔn)地計算用戶-物品之間以及物品-物品之間的相關(guān)性,從而實現(xiàn)對用戶、汽車企業(yè)的推薦和指導(dǎo)。
圖6 基于產(chǎn)品畫像的混合推薦算法CPP-HR流程圖
本文闡述了大數(shù)據(jù)分析的相關(guān)原理及方法,并展示了在用戶特征分析、用戶畫像挖掘、產(chǎn)品畫像挖掘方向上涉及大數(shù)據(jù)技術(shù)的新能源汽車畫像研究,同時基于K-means改進算法的畫像研究應(yīng)用。綜上所述,大數(shù)據(jù)分析技術(shù)在新能源汽車行業(yè)未來有廣泛的應(yīng)用前景,尤其在軟件定義汽車、場景定義汽車的大發(fā)展環(huán)境下,對于汽車的使用場景挖掘、用戶需求提取及營銷精準(zhǔn)化都有著很大的發(fā)展空間。但考慮到新能源汽車近年來的高速發(fā)展,涉及的數(shù)據(jù)規(guī)模龐大且結(jié)構(gòu)格式多樣,傳統(tǒng)的數(shù)據(jù)處理方法需要在此基礎(chǔ)上進行優(yōu)化和改進。特別是在越來越多的新興技術(shù)逐漸搭載、應(yīng)用到新能源汽車的過程中,包括虛擬現(xiàn)實(Virtual Reality, VR)、增強現(xiàn)實(Augmented Reality, AR)等新技術(shù)的應(yīng)用都會改變傳統(tǒng)的汽車購買及營銷模式。
針對新能源汽車畫像研究,目前收集統(tǒng)計的數(shù)據(jù)大部分來自問卷、訪談等主觀影響較大的方式,需要考量更多的特征情況才能構(gòu)建更加完善的用戶及產(chǎn)品畫像,同時,在構(gòu)建過程中結(jié)合不同方式收集類型多樣的數(shù)據(jù),更有利于提升畫像的精確度以及泛用性。未來,應(yīng)更多考慮將用戶主觀給出的內(nèi)容數(shù)據(jù)轉(zhuǎn)化成客觀的解決方案,并以此直接指導(dǎo)系統(tǒng)的優(yōu)化升級以及產(chǎn)品的迭代更新。通過引入腦電檢測、眼動儀等心理測量設(shè)備,并結(jié)合大數(shù)據(jù)分析技術(shù)對測量數(shù)據(jù)進行整合統(tǒng)計,可以在一定程度上為新能源汽車相關(guān)的畫像研究提供直觀的用戶體驗數(shù)據(jù),更客觀地反映用戶感受。
[1] 新能源汽車國家大數(shù)據(jù)聯(lián)盟,中國汽車技術(shù)研究中心有限公司,重慶長安新能源汽車科技有限公司.中國新能源汽車大數(shù)據(jù)研究報告(2019)[M].北京:社會科學(xué)出版社,2019.
[2] 佘承其,張照生,劉鵬,等.大數(shù)據(jù)分析技術(shù)在新能源汽車行業(yè)的應(yīng)用綜述:基于新能源汽車運行大數(shù)據(jù)[J].機械工程學(xué)報,2019,55(20):3-16.
[3] DREMEL C,HERTERICH M,WULF J,et al.How AUDI AG Established Big Data Analytics in its Digital Transformation[J].Mis Quarterly Executive,2017,16(2): 81-100.
[4] DAWKINS S,TIAN A W,NEWMAN A,et al.Psychol- ogical Ownership:A Review and Research Agenda[J]. Journal of Organizational Behavior,2017,38(2):163- 183.
[5] 田朝輝.基于大數(shù)據(jù)的汽車精準(zhǔn)營銷研究分析:以構(gòu)建奧迪汽車用戶畫像為例[J].福建工程學(xué)院學(xué)報, 2019,17(4):391-397.
[6] GARCíA S,LUENGO J,HERRERA F.Data Preproces- sing in Data Mining[M].Berlin:Springer International Publishing,2016.
[7] 張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計算機研究與發(fā)展,2013,50(S2):216-233.
[8] 黃亞娟.大數(shù)據(jù)分析技術(shù)在新能源汽車行業(yè)的運用[J].時代汽車,2020(7):69-70.
[9] 姚柳成,鄒智宏.基于數(shù)據(jù)降維與聚類的車聯(lián)網(wǎng)數(shù)據(jù)分析應(yīng)用[J].汽車實用技術(shù),2022,47(4):24-28.
[10] 任磊,杜一,馬帥,等.大數(shù)據(jù)可視分析綜述[J].軟件學(xué)報,2014,25(9):1909-1936.
[11] 張帥領(lǐng),張宇,王婷,等.新能源汽車大數(shù)據(jù)技術(shù)分析與應(yīng)用場景研究[J].汽車博覽, 2020(7):126-127.
[12] ELKAHKY A M,SONG Y,HE X.A Multi-view Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems[C]//The 24th Internati- onal Conference International World Wide Web Conf- erences.Washington:USA,2015:152-159.
[13] YANG L.Security and Privacy in the Internet of Things [D].Lawrence:University of Kansas,2017.
[14] HIGGINS A,PAEVERE P,GARDNER J,et al.Combi- ning Choice Modelling and Multi-criteria Analysis for Technology Diffusion:An Application to the Uptake of Electric Vehicles[J].Technological Forecasting and Social Change,2012,79(8):1399-1412.
[15] KIECKHAEFER K,VOLLING T,SPENGLER T S.A Hybrid Simulation Approach for Estimating the Market Share Evolution of Electric Vehicles[J].Tran- sportation Science, 2014,48(4):651-670.
[16] 薛海濤,何浩宇,陳延展,等.五菱新能源汽車精準(zhǔn)營銷策略研究[J].時代汽車,2023(1):184-187.
[17] ZHANG J,BAI B,LIN Y,et al.General-purpose User Embeddings Based on Mobile App Usage[J].Journal of the ACM,2020:3403334.
[18] 肖揚.基于產(chǎn)品畫像的汽車推薦研究[D].大連:大連外國語大學(xué),2022.
[19] 楊美婷,劉蓓琳,王韻博.基于“產(chǎn)品畫像”的乳制品安全預(yù)警系統(tǒng)研究[J].黑龍江畜牧獸醫(yī),2017(12):27-29.
[20] 王穎.基于知識圖譜的產(chǎn)品畫像構(gòu)建研究[D].南京:南京理工大學(xué),2018.
[21] 黃嘉祥.數(shù)據(jù)驅(qū)動的新能源車輛主體畫像建模與分析[D].上海:華東師范大學(xué),2022.
[22] 祝偲博.基于改進的K均值聚類算法的汽車用戶畫像研究與應(yīng)用[D].長春:吉林大學(xué),2022.
Progress of Research on New Energy Vehicle Portraits Based on Big Data Analysis
WANG Zexing, HAN Boyang*, LIN Huiguang, LV Fengjing, ZHANG Yang
( National New Energy Vehicle Technology Innovation Center, Beijing 100176, China )
The integration of big data technology and new energy vehicles is the inevitable trend of the future.In the context of software and scenario-defined vehicles, clarifying user profiles and establishing clear product portraits have become one of the development trends for automotive companies in the phase of digital transformation.Firstly, an analyse of the technical features of commonly used big data processing frameworks, the basic processing flow of big data and its corresponding principles are sorted out, and the methods and processes of statistical analysis of big data are described.Secondly, combined with big data analysis technology, the paper respectively sorts out the research and application of new energy vehicle portrait of user characteristics analysis and user and product portrait mining, and analyzes the examples of vehicle users and product portrait based on K-means clustering.Finally, the application prospect of big data analysis technology in new energy vehicle profiling research is summarized and some reflections and future prospects are put forward.
New energy vehicle;User persona mining;Big data analysis; K-means clustering
U469.7
A
1671-7988(2023)19-194-07
10.16638/j.cnki.1671-7988.2023.019.038
王澤興(1983-),男,博士,高級工程師,研究方向為新能源汽車、汽車數(shù)字化,E-mail:wangzexing@nevc. com.cn。
韓博洋(1998-),男,碩士,研究方向為計算科學(xué)、虛擬現(xiàn)實,E-mail:hanboyang@nevc.com.cn。