亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于支持向量機(jī)對(duì)電動(dòng)汽車價(jià)格進(jìn)行預(yù)測(cè)

2022-03-28 14:02:12張雨晗

企業(yè)科技與發(fā)展 2022年1期

楊進(jìn)，李慧，張雨晗

（貴州財(cái)經(jīng)大學(xué) 大數(shù)據(jù)統(tǒng)計(jì)學(xué)院，貴州貴陽(yáng) 550025）

0 引言

隨著社會(huì)經(jīng)濟(jì)發(fā)展步伐的加快和民眾消費(fèi)偏好的逐漸轉(zhuǎn)變，汽車已經(jīng)成為人們出行的主要工具，但是汽車尾氣的排放和能源的消耗給人們的生活帶來(lái)了一系列負(fù)面影響。例如，臭氧層的破壞、溫室效應(yīng)和酸雨的形成等環(huán)境問(wèn)題，這不僅會(huì)對(duì)人類造成巨大的影響，而且給動(dòng)植物也帶來(lái)了較大的危害。隨著生活質(zhì)量的提高，人們對(duì)自己生存環(huán)境的要求越來(lái)越高，降低汽車尾氣排放量的呼聲也與日俱增。新能源的出現(xiàn)使得汽車行業(yè)穩(wěn)步前進(jìn)，汽車行業(yè)的良性發(fā)展改善著消費(fèi)經(jīng)濟(jì)結(jié)構(gòu)，其中電動(dòng)汽車消費(fèi)市場(chǎng)潛力巨大。面對(duì)資源緊缺與環(huán)境保護(hù)問(wèn)題，電動(dòng)汽車的發(fā)展成為汽車行業(yè)的主流趨勢(shì)。

近幾年，電動(dòng)汽車領(lǐng)域發(fā)展迅速，發(fā)展電動(dòng)汽車能帶動(dòng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)、促進(jìn)節(jié)能減排。然而，根據(jù)中國(guó)汽車工業(yè)協(xié)會(huì)的調(diào)查顯示，我國(guó)電動(dòng)汽車售價(jià)普遍偏高，2019年上半年燃油車的平均售價(jià)比電動(dòng)汽車的平均售價(jià)要低81%，造成消費(fèi)者對(duì)電動(dòng)汽車售價(jià)的接受程度較低。蔡秋茹（2020）運(yùn)用XGBoost分類和預(yù)測(cè)模型對(duì)測(cè)試集數(shù)據(jù)進(jìn)行價(jià)格預(yù)測(cè)，并且與支持向量機(jī)和神經(jīng)網(wǎng)絡(luò)等算法做了對(duì)比實(shí)驗(yàn)，最終得出XGBoost分類算法的預(yù)測(cè)準(zhǔn)確率效果最佳，因此用XGBoost算法預(yù)測(cè)的結(jié)果作為最終的預(yù)測(cè)結(jié)果[1]。林倩云、邱國(guó)玉、曾惠等（2019）運(yùn)用“學(xué)習(xí)曲線”方法對(duì)“特斯拉”和“比亞迪”的電動(dòng)汽車未來(lái)價(jià)格進(jìn)行了預(yù)測(cè)，并將其與傳統(tǒng)燃油汽車的價(jià)格進(jìn)行對(duì)比，為純電動(dòng)汽車價(jià)格在未來(lái)的動(dòng)態(tài)走勢(shì)提供了一種基于經(jīng)驗(yàn)的估計(jì)[2]。李寶勝和秦傳東（2020）先對(duì)數(shù)據(jù)進(jìn)行獲取和相關(guān)處理，接著對(duì)電動(dòng)汽車的20個(gè)特征進(jìn)行主成分分析，將得到的數(shù)據(jù)在支持向量機(jī)的基礎(chǔ)之上，用粒子群算法對(duì)支持向量機(jī)模型的參數(shù)進(jìn)行優(yōu)化選擇，從而實(shí)現(xiàn)對(duì)電動(dòng)汽車的價(jià)格預(yù)測(cè)[3]。張曉宇、趙海斌、周小柯等（2010）對(duì)我國(guó)新能源汽車在發(fā)展過(guò)程中存在的一系列問(wèn)題進(jìn)行了研究并提出了相應(yīng)的建議措施[4]。

黃瑩和任偉（2020）對(duì)允讓構(gòu)式用多分類邏輯斯蒂回歸方法來(lái)進(jìn)行分析，發(fā)現(xiàn)允讓構(gòu)式具有統(tǒng)計(jì)性先占特征[5]。閆兆煒（2012）分別從技術(shù)因素、市場(chǎng)因素、產(chǎn)業(yè)化發(fā)展因素等方面對(duì)中國(guó)新能源汽車產(chǎn)業(yè)發(fā)展進(jìn)行了研究[6]。

本文通過(guò)挖掘特征與價(jià)格之間的關(guān)系，利用所給出的20個(gè)特征對(duì)價(jià)格進(jìn)行預(yù)測(cè)，但通過(guò)這樣的預(yù)測(cè)得到的準(zhǔn)確率并不是很高。于是，在20個(gè)特征進(jìn)行處理和篩選后，選出較重要的10個(gè)特征，使用多種機(jī)器學(xué)習(xí)方法在測(cè)試集上建立模型，并比較各種方法在測(cè)試集上的精確度[7]，選擇準(zhǔn)確率最高的模型對(duì)電動(dòng)汽車價(jià)格進(jìn)行預(yù)測(cè)。將電動(dòng)汽車的20個(gè)特征進(jìn)行預(yù)測(cè)的準(zhǔn)確率與將20個(gè)特征進(jìn)行處理之后預(yù)測(cè)的準(zhǔn)確率進(jìn)行對(duì)比，發(fā)現(xiàn)對(duì)特征進(jìn)行處理和篩選之后可以得出更高的準(zhǔn)確率。其中，在特征重要性的選取上采用了決策樹(shù)、隨機(jī)森林、Adaboost等多種機(jī)器學(xué)習(xí)方法，最終選出10個(gè)重要的特征對(duì)價(jià)格進(jìn)行預(yù)測(cè)，同時(shí)采用多種機(jī)器學(xué)習(xí)方法在測(cè)試集上進(jìn)行建模，通過(guò)模型層層篩選，最終達(dá)到提高價(jià)格預(yù)測(cè)準(zhǔn)確率的目的，最后利用測(cè)試集上的數(shù)據(jù)進(jìn)行檢驗(yàn)。傳統(tǒng)的統(tǒng)計(jì)學(xué)預(yù)測(cè)方法對(duì)預(yù)測(cè)者個(gè)人經(jīng)驗(yàn)的依賴度高，帶有一定的個(gè)人主觀因素。在大數(shù)據(jù)背景下，一系列機(jī)器學(xué)習(xí)具有準(zhǔn)確率高、魯棒性好的特點(diǎn)，因此機(jī)器學(xué)習(xí)也逐漸成為解決預(yù)測(cè)分類問(wèn)題的最佳選擇。

1 數(shù)據(jù)處理與分析

1.1 數(shù)據(jù)來(lái)源及描述

本文采用的數(shù)據(jù)是源于上海財(cái)經(jīng)大學(xué)首屆研究生工業(yè)與金融大數(shù)據(jù)建模與計(jì)算邀請(qǐng)賽的比賽數(shù)據(jù)，數(shù)據(jù)給出了某品牌電動(dòng)汽車不同規(guī)格的電動(dòng)汽車特征與價(jià)格數(shù)據(jù)作為訓(xùn)練集，以另一批未知價(jià)格的電動(dòng)汽車特征數(shù)據(jù)作為測(cè)試集。兩組數(shù)據(jù)集均有20個(gè)特征，其中有14個(gè)定量指標(biāo)，包括feat1[電池可以一次性存儲(chǔ)的總能量（mAh）]、feat3（微處理器執(zhí)行速度）、feat5（前置攝像頭百萬(wàn)像素）、feat7[內(nèi)存（以GB為單位）]、feat8[移動(dòng)深度（cm）]、feat9（重量）、feat10（處理器核心數(shù)）、feat11（主要相機(jī)百萬(wàn)像素）、feat12（像素分辨率高度）、feat13（像素分辨率寬度）、feat14（以兆字節(jié)為單位的隨機(jī)存取存儲(chǔ)器）、feat15[屏幕高度（以cm為單位）]、feat16[屏幕寬度（以cm為單位）]、feat17（單個(gè)電池充電時(shí)間最長(zhǎng)的時(shí)間）；6個(gè)定性指標(biāo)，包括feat2（是否有藍(lán)牙）、feat4（是否支持雙SIM卡）、feat6（是否支持4G）、feat18（是否有3G）、feat19（是否有觸摸屏）、feat20（是否有wifi）；電動(dòng)汽車價(jià)格（price）分為0、1、2、3這4個(gè)檔次。用于訓(xùn)練模型中的訓(xùn)練集共有15 000組數(shù)據(jù)和用于測(cè)試模型中的測(cè)試集共有5 000組數(shù)據(jù)。

1.2 數(shù)據(jù)的分析及處理

數(shù)據(jù)的質(zhì)量分析主要用于檢查數(shù)據(jù)中是否存在缺失值和異常值等骯臟數(shù)據(jù)。通過(guò)運(yùn)用檢測(cè)代碼檢查電動(dòng)汽車價(jià)格的訓(xùn)練集數(shù)據(jù)并沒(méi)有發(fā)現(xiàn)缺失數(shù)據(jù)。異常值是指樣本中的一些數(shù)據(jù)明顯偏離其他數(shù)值的樣本點(diǎn)。首先，對(duì)整個(gè)樣本數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì)，找出數(shù)據(jù)的最大值、最小值、四分位值等，判斷各樣本點(diǎn)的取值是否超出合理的范圍。其次，箱線圖很適合鑒別異常值，判斷標(biāo)準(zhǔn)是計(jì)算出數(shù)據(jù)中的最小估計(jì)值和最大估計(jì)值。如果數(shù)據(jù)超過(guò)這一范圍，說(shuō)明該值可能為異常值。箱線圖會(huì)自動(dòng)標(biāo)出此范圍，異常值則用圓圈表示。在這里對(duì)定量指標(biāo)的數(shù)據(jù)繪制箱線圖。由于各個(gè)屬性的單位量綱不一致，因此先對(duì)數(shù)據(jù)進(jìn)行歸一化處理，再繪出定量指標(biāo)的箱線圖（如圖1所示）。

由圖1可看出，feat5（前置攝像頭百萬(wàn)像素）有3個(gè)離群點(diǎn)，feat12（像素分辨率高度）有2個(gè)離群點(diǎn)。由于這幾個(gè)異常值高于正常值的范圍，因此采用正常范圍內(nèi)的最大值替代。對(duì)feat5=19、18、17的點(diǎn)，均使用feat5=16進(jìn)行替代，對(duì)feat12=1 949，1 920的點(diǎn)，均用feat12=1 901替代。

1.3 數(shù)據(jù)探索及相關(guān)性分析

觀測(cè)數(shù)據(jù)的分布特點(diǎn)及分布類型可以進(jìn)行探索性數(shù)據(jù)分析。對(duì)于定量變量進(jìn)行相關(guān)處理之后得出20個(gè)特征的分布直方圖（略）。

對(duì)于各個(gè)特征的相關(guān)性分析，本文運(yùn)用Pearson（皮爾遜）相關(guān)進(jìn)行分析，如果相關(guān)性值大于0．5，說(shuō)明兩個(gè)特征之間的相關(guān)性很強(qiáng)，其實(shí)際意義相似，可以只保留其中一個(gè)特征或者將兩個(gè)特征進(jìn)行合并，這樣可以避免出現(xiàn)多重共性。電動(dòng)汽車的20個(gè)特征的相關(guān)熱力圖如圖2所示。

圖2 特征之間相關(guān)熱力圖

由于20個(gè)特征進(jìn)行價(jià)格預(yù)測(cè)的準(zhǔn)確率并不是很高，因此對(duì)這20個(gè)特征進(jìn)行特征的相關(guān)處理之后，再對(duì)價(jià)格進(jìn)行預(yù)測(cè)。由圖2可以得出特征5和特征11、特征12和特征13、特征15和特征16及特征6和特征18這4對(duì)特征的相關(guān)性值均大于0．5，說(shuō)明其實(shí)際意義相似，可以只保留一個(gè)特征或?qū)蓚€(gè)特征合并。本文在特征5和特征11中選擇了特征11，在特征6和特征18中選擇了特征6，將特征12和特征13、特征15和特征16進(jìn)行合并處理。然后，用機(jī)器學(xué)習(xí)方法對(duì)17個(gè)特征進(jìn)行重要性排列，最終選擇排名前10的特征進(jìn)行再預(yù)測(cè)，預(yù)測(cè)效果評(píng)價(jià)見(jiàn)表1。由表1可知，其預(yù)測(cè)結(jié)果準(zhǔn)確率明顯高于特征處理之前。

表1 各算法的預(yù)測(cè)效果評(píng)價(jià)

2 相關(guān)模型的評(píng)估及選擇

2.1 模型算法評(píng)價(jià)

為了有效判斷預(yù)測(cè)模型效果，用一批沒(méi)有參與預(yù)測(cè)模型建立的測(cè)試數(shù)據(jù)集來(lái)評(píng)價(jià)預(yù)測(cè)模型的準(zhǔn)確率。分別計(jì)算出它們的準(zhǔn)確度（accuracy），計(jì)算公式如下：

公式（1）中，TP、TN、FP、FN分別為二分類中的真正例、真反例、假正例、假反例?；煜仃囉糜诿枥L樣本數(shù)據(jù)的真實(shí)屬性與識(shí)別結(jié)果類型之間的關(guān)系。對(duì)角線元素表示各模式能夠被分類器正確識(shí)別的百分率，非對(duì)角線元素則表示發(fā)生錯(cuò)誤判斷的百分率。

2.2 模型選擇

邏輯回歸（Logistic Regression）是用于處理因變量為分類變量的回歸問(wèn)題，常見(jiàn)的是二分類或二項(xiàng)分布問(wèn)題，也可以處理多分類問(wèn)題，它實(shí)際上屬于一種分類方法，用于估計(jì)某種事物的可能性；K近鄰法（K-Nearest neighbor，KNN）是一種常用的監(jiān)督學(xué)習(xí)方法，其工作機(jī)制如下：給定測(cè)試樣本，基于某種距離度量找出訓(xùn)練集中與其最靠近的k個(gè)訓(xùn)練樣本，然后基于這k個(gè)“鄰居”的信息來(lái)進(jìn)行預(yù)測(cè)；隨機(jī)森林（Random Forest）是利用多棵樹(shù)對(duì)樣本進(jìn)行訓(xùn)練并預(yù)測(cè)的一種分類器；支持向量機(jī)（Support Vector Machine，SVM）是一類按監(jiān)督的方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器，其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面，SVM可以通過(guò)核方法進(jìn)行非線性分類的核學(xué)習(xí)方法之一；XGBoost是一種集成學(xué)習(xí)算法，屬于Boosting算法的一種，其中心思想是集成許多弱分類器，以迭代的方式形成一個(gè)強(qiáng)分類器；隨機(jī)梯度下降（SGDC）是一種用于在線性分類器下的線性分類的判別學(xué)習(xí)方法。

基于以上幾種方法，將處理好的電動(dòng)汽車價(jià)格數(shù)據(jù)導(dǎo)入分類模型和結(jié)果可視化代碼中，通過(guò)利用機(jī)器學(xué)習(xí)中的邏輯回歸、K近鄰法、隨機(jī)森林、支持向量機(jī)、XGBoost、隨機(jī)梯度下降6種模型算法進(jìn)行訓(xùn)練，最后將6種算法的預(yù)測(cè)效果進(jìn)行對(duì)比。由于對(duì)20個(gè)特征進(jìn)行價(jià)格預(yù)測(cè)的準(zhǔn)確率不是很高，因此為了能夠得出更高的準(zhǔn)確率，本文還進(jìn)行了特征篩選，將篩選之后的數(shù)據(jù)再次導(dǎo)入6種模型算法，得到表1中的評(píng)價(jià)結(jié)果。由表1可以看出，特征處理及篩選之后用支持向量機(jī)進(jìn)行預(yù)測(cè)的準(zhǔn)確率為97%，明顯高于其他模型的準(zhǔn)確率。所以，本文采用支持向量機(jī)模型預(yù)測(cè)電動(dòng)汽車價(jià)格具有一定的優(yōu)勢(shì)。

3 結(jié)果

通過(guò)SVM（支持向量機(jī)）得到了高于其他模型的準(zhǔn)確率，因此利用支持向量機(jī)對(duì)測(cè)試集的電動(dòng)汽車價(jià)格進(jìn)行預(yù)測(cè)。

通過(guò)支持向量機(jī)得到電動(dòng)汽車的預(yù)測(cè)價(jià)格，值得注意的是，影響電動(dòng)汽車價(jià)格的因素還有很多，比如電動(dòng)汽車的供求關(guān)系、汽車的成本、社會(huì)的政策措施、消費(fèi)者的心理因素等涉及各個(gè)領(lǐng)域的特征。但是，本文主要是針對(duì)電動(dòng)汽車的20個(gè)物理特征，利用機(jī)器學(xué)習(xí)的各種算法對(duì)電動(dòng)汽車的測(cè)試數(shù)據(jù)集進(jìn)行預(yù)測(cè)，并選擇準(zhǔn)確率較高的算法，最后得出支持向量機(jī)的準(zhǔn)確率最高，因此選擇支持向量機(jī)的預(yù)測(cè)結(jié)果為最后的價(jià)格預(yù)測(cè)結(jié)果。