楊 進(jìn),李 慧,張雨晗
(貴州財(cái)經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計(jì)學(xué)院,貴州 貴陽(yáng) 550025)
隨著社會(huì)經(jīng)濟(jì)發(fā)展步伐的加快和民眾消費(fèi)偏好的逐漸轉(zhuǎn)變,汽車已經(jīng)成為人們出行的主要工具,但是汽車尾氣的排放和能源的消耗給人們的生活帶來(lái)了一系列負(fù)面影響。例如,臭氧層的破壞、溫室效應(yīng)和酸雨的形成等環(huán)境問(wèn)題,這不僅會(huì)對(duì)人類造成巨大的影響,而且給動(dòng)植物也帶來(lái)了較大的危害。隨著生活質(zhì)量的提高,人們對(duì)自己生存環(huán)境的要求越來(lái)越高,降低汽車尾氣排放量的呼聲也與日俱增。新能源的出現(xiàn)使得汽車行業(yè)穩(wěn)步前進(jìn),汽車行業(yè)的良性發(fā)展改善著消費(fèi)經(jīng)濟(jì)結(jié)構(gòu),其中電動(dòng)汽車消費(fèi)市場(chǎng)潛力巨大。面對(duì)資源緊缺與環(huán)境保護(hù)問(wèn)題,電動(dòng)汽車的發(fā)展成為汽車行業(yè)的主流趨勢(shì)。
近幾年,電動(dòng)汽車領(lǐng)域發(fā)展迅速,發(fā)展電動(dòng)汽車能帶動(dòng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)、促進(jìn)節(jié)能減排。然而,根據(jù)中國(guó)汽車工業(yè)協(xié)會(huì)的調(diào)查顯示,我國(guó)電動(dòng)汽車售價(jià)普遍偏高,2019年上半年燃油車的平均售價(jià)比電動(dòng)汽車的平均售價(jià)要低81%,造成消費(fèi)者對(duì)電動(dòng)汽車售價(jià)的接受程度較低。蔡秋茹(2020)運(yùn)用XGBoost分類和預(yù)測(cè)模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行價(jià)格預(yù)測(cè),并且與支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)等算法做了對(duì)比實(shí)驗(yàn),最終得出XGBoost分類算法的預(yù)測(cè)準(zhǔn)確率效果最佳,因此用XGBoost算法預(yù)測(cè)的結(jié)果作為最終的預(yù)測(cè)結(jié)果[1]。林倩云、邱國(guó)玉、曾惠等(2019)運(yùn)用“學(xué)習(xí)曲線”方法對(duì)“特斯拉”和“比亞迪”的電動(dòng)汽車未來(lái)價(jià)格進(jìn)行了預(yù)測(cè),并將其與傳統(tǒng)燃油汽車的價(jià)格進(jìn)行對(duì)比,為純電動(dòng)汽車價(jià)格在未來(lái)的動(dòng)態(tài)走勢(shì)提供了一種基于經(jīng)驗(yàn)的估計(jì)[2]。李寶勝和秦傳東(2020)先對(duì)數(shù)據(jù)進(jìn)行獲取和相關(guān)處理,接著對(duì)電動(dòng)汽車的20個(gè)特征進(jìn)行主成分分析,將得到的數(shù)據(jù)在支持向量機(jī)的基礎(chǔ)之上,用粒子群算法對(duì)支持向量機(jī)模型的參數(shù)進(jìn)行優(yōu)化選擇,從而實(shí)現(xiàn)對(duì)電動(dòng)汽車的價(jià)格預(yù)測(cè)[3]。張曉宇、趙海斌、周小柯等(2010)對(duì)我國(guó)新能源汽車在發(fā)展過(guò)程中存在的一系列問(wèn)題進(jìn)行了研究并提出了相應(yīng)的建議措施[4]。
黃瑩和任偉(2020)對(duì)允讓構(gòu)式用多分類邏輯斯蒂回歸方法來(lái)進(jìn)行分析,發(fā)現(xiàn)允讓構(gòu)式具有統(tǒng)計(jì)性先占特征[5]。閆兆煒(2012)分別從技術(shù)因素、市場(chǎng)因素、產(chǎn)業(yè)化發(fā)展因素等方面對(duì)中國(guó)新能源汽車產(chǎn)業(yè)發(fā)展進(jìn)行了研究[6]。
本文通過(guò)挖掘特征與價(jià)格之間的關(guān)系,利用所給出的20個(gè)特征對(duì)價(jià)格進(jìn)行預(yù)測(cè),但通過(guò)這樣的預(yù)測(cè)得到的準(zhǔn)確率并不是很高。于是,在20個(gè)特征進(jìn)行處理和篩選后,選出較重要的10個(gè)特征,使用多種機(jī)器學(xué)習(xí)方法在測(cè)試集上建立模型,并比較各種方法在測(cè)試集上的精確度[7],選擇準(zhǔn)確率最高的模型對(duì)電動(dòng)汽車價(jià)格進(jìn)行預(yù)測(cè)。將電動(dòng)汽車的20個(gè)特征進(jìn)行預(yù)測(cè)的準(zhǔn)確率與將20個(gè)特征進(jìn)行處理之后預(yù)測(cè)的準(zhǔn)確率進(jìn)行對(duì)比,發(fā)現(xiàn)對(duì)特征進(jìn)行處理和篩選之后可以得出更高的準(zhǔn)確率。其中,在特征重要性的選取上采用了決策樹(shù)、隨機(jī)森林、Adaboost等多種機(jī)器學(xué)習(xí)方法,最終選出10個(gè)重要的特征對(duì)價(jià)格進(jìn)行預(yù)測(cè),同時(shí)采用多種機(jī)器學(xué)習(xí)方法在測(cè)試集上進(jìn)行建模,通過(guò)模型層層篩選,最終達(dá)到提高價(jià)格預(yù)測(cè)準(zhǔn)確率的目的,最后利用測(cè)試集上的數(shù)據(jù)進(jìn)行檢驗(yàn)。傳統(tǒng)的統(tǒng)計(jì)學(xué)預(yù)測(cè)方法對(duì)預(yù)測(cè)者個(gè)人經(jīng)驗(yàn)的依賴度高,帶有一定的個(gè)人主觀因素。在大數(shù)據(jù)背景下,一系列機(jī)器學(xué)習(xí)具有準(zhǔn)確率高、魯棒性好的特點(diǎn),因此機(jī)器學(xué)習(xí)也逐漸成為解決預(yù)測(cè)分類問(wèn)題的最佳選擇。
本文采用的數(shù)據(jù)是源于上海財(cái)經(jīng)大學(xué)首屆研究生工業(yè)與金融大數(shù)據(jù)建模與計(jì)算邀請(qǐng)賽的比賽數(shù)據(jù),數(shù)據(jù)給出了某品牌電動(dòng)汽車不同規(guī)格的電動(dòng)汽車特征與價(jià)格數(shù)據(jù)作為訓(xùn)練集,以另一批未知價(jià)格的電動(dòng)汽車特征數(shù)據(jù)作為測(cè)試集。兩組數(shù)據(jù)集均有20個(gè)特征,其中有14個(gè)定量指標(biāo),包括feat1[電池可以一次性存儲(chǔ)的總能量(mAh)]、feat3(微處理器執(zhí)行速度)、feat5(前置攝像頭百萬(wàn)像素)、feat7[內(nèi)存(以GB為單位)]、feat8[移動(dòng)深度(cm)]、feat9(重量)、feat10(處理器核心數(shù))、feat11(主要相機(jī)百萬(wàn)像素)、feat12(像素分辨率高度)、feat13(像素分辨率寬度)、feat14(以兆字節(jié)為單位的隨機(jī)存取存儲(chǔ)器)、feat15[屏幕高度(以cm為單位)]、feat16[屏幕寬度(以cm為單位)]、feat17(單個(gè)電池充電時(shí)間最長(zhǎng)的時(shí)間);6個(gè)定性指標(biāo),包括feat2(是否有藍(lán)牙)、feat4(是否支持雙SIM卡)、feat6(是否支持4G)、feat18(是否有3G)、feat19(是否有觸摸屏)、feat20(是否有wifi);電動(dòng)汽車價(jià)格(price)分為0、1、2、3這4個(gè)檔次。用于訓(xùn)練模型中的訓(xùn)練集共有15 000組數(shù)據(jù)和用于測(cè)試模型中的測(cè)試集共有5 000組數(shù)據(jù)。
數(shù)據(jù)的質(zhì)量分析主要用于檢查數(shù)據(jù)中是否存在缺失值和異常值等骯臟數(shù)據(jù)。通過(guò)運(yùn)用檢測(cè)代碼檢查電動(dòng)汽車價(jià)格的訓(xùn)練集數(shù)據(jù)并沒(méi)有發(fā)現(xiàn)缺失數(shù)據(jù)。異常值是指樣本中的一些數(shù)據(jù)明顯偏離其他數(shù)值的樣本點(diǎn)。首先,對(duì)整個(gè)樣本數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì),找出數(shù)據(jù)的最大值、最小值、四分位值等,判斷各樣本點(diǎn)的取值是否超出合理的范圍。其次,箱線圖很適合鑒別異常值,判斷標(biāo)準(zhǔn)是計(jì)算出數(shù)據(jù)中的最小估計(jì)值和最大估計(jì)值。如果數(shù)據(jù)超過(guò)這一范圍,說(shuō)明該值可能為異常值。箱線圖會(huì)自動(dòng)標(biāo)出此范圍,異常值則用圓圈表示。在這里對(duì)定量指標(biāo)的數(shù)據(jù)繪制箱線圖。由于各個(gè)屬性的單位量綱不一致,因此先對(duì)數(shù)據(jù)進(jìn)行歸一化處理,再繪出定量指標(biāo)的箱線圖(如圖1所示)。
由圖1可看出,feat5(前置攝像頭百萬(wàn)像素)有3個(gè)離群點(diǎn),feat12(像素分辨率高度)有2個(gè)離群點(diǎn)。由于這幾個(gè)異常值高于正常值的范圍,因此采用正常范圍內(nèi)的最大值替代。對(duì)feat5=19、18、17的點(diǎn),均使用feat5=16進(jìn)行替代,對(duì)feat12=1 949,1 920的點(diǎn),均用feat12=1 901替代。
觀測(cè)數(shù)據(jù)的分布特點(diǎn)及分布類型可以進(jìn)行探索性數(shù)據(jù)分析。對(duì)于定量變量進(jìn)行相關(guān)處理之后得出20個(gè)特征的分布直方圖(略)。
對(duì)于各個(gè)特征的相關(guān)性分析,本文運(yùn)用Pearson(皮爾遜)相關(guān)進(jìn)行分析,如果相關(guān)性值大于0.5,說(shuō)明兩個(gè)特征之間的相關(guān)性很強(qiáng),其實(shí)際意義相似,可以只保留其中一個(gè)特征或者將兩個(gè)特征進(jìn)行合并,這樣可以避免出現(xiàn)多重共性。電動(dòng)汽車的20個(gè)特征的相關(guān)熱力圖如圖2所示。
圖2 特征之間相關(guān)熱力圖
由于20個(gè)特征進(jìn)行價(jià)格預(yù)測(cè)的準(zhǔn)確率并不是很高,因此對(duì)這20個(gè)特征進(jìn)行特征的相關(guān)處理之后,再對(duì)價(jià)格進(jìn)行預(yù)測(cè)。由圖2可以得出特征5和特征11、特征12和特征13、特征15和特征16及特征6和特征18這4對(duì)特征的相關(guān)性值均大于0.5,說(shuō)明其實(shí)際意義相似,可以只保留一個(gè)特征或?qū)蓚€(gè)特征合并。本文在特征5和特征11中選擇了特征11,在特征6和特征18中選擇了特征6,將特征12和特征13、特征15和特征16進(jìn)行合并處理。然后,用機(jī)器學(xué)習(xí)方法對(duì)17個(gè)特征進(jìn)行重要性排列,最終選擇排名前10的特征進(jìn)行再預(yù)測(cè),預(yù)測(cè)效果評(píng)價(jià)見(jiàn)表1。由表1可知,其預(yù)測(cè)結(jié)果準(zhǔn)確率明顯高于特征處理之前。
表1 各算法的預(yù)測(cè)效果評(píng)價(jià)
為了有效判斷預(yù)測(cè)模型效果,用一批沒(méi)有參與預(yù)測(cè)模型建立的測(cè)試數(shù)據(jù)集來(lái)評(píng)價(jià)預(yù)測(cè)模型的準(zhǔn)確率。分別計(jì)算出它們的準(zhǔn)確度(accuracy),計(jì)算公式如下:
公式(1)中,TP、TN、FP、FN分別為二分類中的真正例、真反例、假正例、假反例?;煜仃囉糜诿枥L樣本數(shù)據(jù)的真實(shí)屬性與識(shí)別結(jié)果類型之間的關(guān)系。對(duì)角線元素表示各模式能夠被分類器正確識(shí)別的百分率,非對(duì)角線元素則表示發(fā)生錯(cuò)誤判斷的百分率。
邏輯回歸(Logistic Regression)是用于處理因變量為分類變量的回歸問(wèn)題,常見(jiàn)的是二分類或二項(xiàng)分布問(wèn)題,也可以處理多分類問(wèn)題,它實(shí)際上屬于一種分類方法,用于估計(jì)某種事物的可能性;K近鄰法(K-Nearest neighbor,KNN)是一種常用的監(jiān)督學(xué)習(xí)方法,其工作機(jī)制如下:給定測(cè)試樣本,基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本,然后基于這k個(gè)“鄰居”的信息來(lái)進(jìn)行預(yù)測(cè);隨機(jī)森林(Random Forest)是利用多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器;支持向量機(jī)(Support Vector Machine,SVM)是一類按監(jiān)督的方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面,SVM可以通過(guò)核方法進(jìn)行非線性分類的核學(xué)習(xí)方法之一;XGBoost是一種集成學(xué)習(xí)算法,屬于Boosting算法的一種,其中心思想是集成許多弱分類器,以迭代的方式形成一個(gè)強(qiáng)分類器;隨機(jī)梯度下降(SGDC)是一種用于在線性分類器下的線性分類的判別學(xué)習(xí)方法。
基于以上幾種方法,將處理好的電動(dòng)汽車價(jià)格數(shù)據(jù)導(dǎo)入分類模型和結(jié)果可視化代碼中,通過(guò)利用機(jī)器學(xué)習(xí)中的邏輯回歸、K近鄰法、隨機(jī)森林、支持向量機(jī)、XGBoost、隨機(jī)梯度下降6種模型算法進(jìn)行訓(xùn)練,最后將6種算法的預(yù)測(cè)效果進(jìn)行對(duì)比。由于對(duì)20個(gè)特征進(jìn)行價(jià)格預(yù)測(cè)的準(zhǔn)確率不是很高,因此為了能夠得出更高的準(zhǔn)確率,本文還進(jìn)行了特征篩選,將篩選之后的數(shù)據(jù)再次導(dǎo)入6種模型算法,得到表1中的評(píng)價(jià)結(jié)果。由表1可以看出,特征處理及篩選之后用支持向量機(jī)進(jìn)行預(yù)測(cè)的準(zhǔn)確率為97%,明顯高于其他模型的準(zhǔn)確率。所以,本文采用支持向量機(jī)模型預(yù)測(cè)電動(dòng)汽車價(jià)格具有一定的優(yōu)勢(shì)。
通過(guò)SVM(支持向量機(jī))得到了高于其他模型的準(zhǔn)確率,因此利用支持向量機(jī)對(duì)測(cè)試集的電動(dòng)汽車價(jià)格進(jìn)行預(yù)測(cè)。
通過(guò)支持向量機(jī)得到電動(dòng)汽車的預(yù)測(cè)價(jià)格,值得注意的是,影響電動(dòng)汽車價(jià)格的因素還有很多,比如電動(dòng)汽車的供求關(guān)系、汽車的成本、社會(huì)的政策措施、消費(fèi)者的心理因素等涉及各個(gè)領(lǐng)域的特征。但是,本文主要是針對(duì)電動(dòng)汽車的20個(gè)物理特征,利用機(jī)器學(xué)習(xí)的各種算法對(duì)電動(dòng)汽車的測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè),并選擇準(zhǔn)確率較高的算法,最后得出支持向量機(jī)的準(zhǔn)確率最高,因此選擇支持向量機(jī)的預(yù)測(cè)結(jié)果為最后的價(jià)格預(yù)測(cè)結(jié)果。