李富強,彭海麗,楊 熙,張文靜
(工業(yè)和信息化部 裝備工業(yè)發(fā)展中心,北京 100846 )
隨著我國居民消費觀念的改變,二手車在人們日常生活中扮演著越來越重要的角色[1]。近年來,我國二手車市場顯現(xiàn)出蓬勃的發(fā)展勢頭,越來越多的人意識到二手車市場巨大的發(fā)展?jié)摿2]。隨著人工智能的飛速發(fā)展,基于機器學習和深度學習的算法已用于二手車的研究。楊波[3]針對二手車交易中的評估定價問題,構建了BP神經(jīng)網(wǎng)絡進行了實例分析,結果表明,所建預測模型比現(xiàn)有預測模型更為準確、穩(wěn)定。毛攀等[4]基于BP神經(jīng)網(wǎng)絡對二手車價格評估影響因素進行了探究,計算結果顯示模型預測價格與實際價格相關系數(shù)達到0.96。CHEN Daoping[5]基于ARIMA模型,建立了中國汽車需求預測模型,并對模型進行了預測性能評價,結果表明模型的預測效果很好。謝楊等[6]利用聚類、多元回歸等算法,將車輛的上牌時間、表征里程、所屬地區(qū)等因子作為自變量,成新率作為因變量建立模型,通過實際評估,模型具有較好的評估效果。王棟[7]基于灰度關聯(lián)分析與BP神經(jīng)網(wǎng)絡對汽車保有量進行了預測,結果顯示模型具有較好的評估效果。曹潔[8]基于隨機森林算法,建立了二手車價值評估模型,在降低評估成本、提高評估效率的同時,為二手車價值評估提供一種新的思路。張曉東[9]基于長短時記憶神經(jīng)網(wǎng)絡模型,實現(xiàn)了可以應用于二手車行業(yè)的貸前審批風險控制模型,結果表明,其數(shù)據(jù)處理方法在XGBoost等機器學習模型的評價指標上都有了3%左右的提升。侍艷華等[10]基于MFCC和CNN算法對汽車鳴笛聲進行了識別,識別準確率能夠達到97.6%以上。劉聰?shù)萚11]將自適應提升算法應用于二手車價值的評估,提出一種以決策樹樁作為弱分類器的集成方法,試驗表明,自適應提升算法相比傳統(tǒng)的決策樹方法,準確率提高7.1%。蔣翠清等[12]構建了Attention LSTM模型對汽車銷量進行了預測,結果表明,Attention LSTM模型較ARIMA、SVR、BP神經(jīng)網(wǎng)絡和LSTM模型平均百分比誤差低。張遠森[13]基于人工神經(jīng)網(wǎng)絡模型,建立了二手車估計模型,并從宏觀和微觀兩個角度分析了二手車價格的影響因素,為二手車市場交易提供了一個很好的價格指導。雖然眾多學者對二手車價值評估及影響因素分析等方面開展了研究,但利用深度學習模型對二手車成交價格影響因素重要性程度進行分析方面仍缺乏相關研究。
本研究介紹了我國二手車研究現(xiàn)狀,構建了深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)模型并介紹了模型評估方法。利用模型的評價指標值分析了DNN模型的預測精度,基于DNN模型分析了我國二手車成交價格影響因素的重要性程度,根據(jù)分析闡明了本研究的關鍵結論。
2015~2019年我國二手車市場交易量[14]及增速[15]如圖1所示:從2015年至2019年,二手車市場交易量逐年增加。其中,2017年增速最快,為19.3%,2018年、2019年增速雖然有所減緩,但仍保持了較高水平的增長,2019年交易量達到了1 490萬輛??梢钥闯?,我國二手車市場具有較好的發(fā)展前景。
圖1 2015 ~2019年我國二手車市場交易量及增速
現(xiàn)有的二手車市場交易研究可分為:(1)二手車價值評估,包括影響因素、評估模型、評估應用等研究[16]。(2)二手車預測,包括保值率預測、銷量預測等研究。早期研究人員常采用傳統(tǒng)方法開展研究。馮秀榮[17]采用因子分析法,研究了影響二手車價值的重要影響因子。她通過數(shù)據(jù)收集及資料調研,選取了15個影響因子,利用SPSS軟件進行了分析。魏冬梅等[18]對重置成本法進行了改進,分析了二手車價格的影響因素,建立了評估二手車的評估模型并對其進行了運用。KIHM等[19]研究了燃油消耗量對汽車價格的影響,證實了燃油消耗量對新舊汽車的價格影響起關鍵作用。丁海波等[20]建立了AHP-Fuzzy的二手車性能綜合評估模型,通過改進傳統(tǒng)AHP方法,在一定程度上解決了二手車性能評估的模糊性問題。傳統(tǒng)研究方法在一定程度上推動了二手車市場評估體系的建立,但傳統(tǒng)研究方法往往存在程序繁冗復雜、依賴從業(yè)人員經(jīng)驗、評估誤差大等缺點。隨著人工智能的興起,研究人員利用機器學習與深度學習的方法開展了一系列研究。曹靜嫻[21]采用決策樹、線性回歸以及神經(jīng)網(wǎng)絡三種人工智能方法對大量二手車數(shù)據(jù)進行了分析,對影響二手車性能的多種因素進行了定量分析。呂勁[22]采用對比分析的方法,對比了原始變量數(shù)據(jù)與經(jīng)過PCA、隨機森林、GBDT算法特征提取和轉換后的數(shù)據(jù)在SVM中的預測效果,結果表明,原始數(shù)據(jù)在SVM中進行價格預測的效果是最差的,利用PCA特征優(yōu)化后的數(shù)據(jù)在SVM預測中表現(xiàn)最好。NEUMANN等[23]研究了5種機器學習算法:決策樹、多層感知器、AdaBoost、邏輯回歸和梯度提升在汽車駕駛員發(fā)生交通事故后更換車輛的決策,預測精度達到80%以上。李釗慧等[24]比較了BP神經(jīng)網(wǎng)絡模型與LSTM模型在汽車銷售預測方面的性能, 發(fā)現(xiàn)LSTM模型對于受季節(jié)因素影響的汽車銷售數(shù)據(jù)在銷售臺數(shù)和銷售金額趨勢預測方面更為有效合理,在模型預測的精度上比BP模型效果更優(yōu)。深度神經(jīng)網(wǎng)絡在處理大量、非線性等方面的數(shù)據(jù)時,其性能幾乎優(yōu)于其他所有傳統(tǒng)機器學習算法。因此,本研究選取DNN模型對我國二手車開展價格預測及影響因素重要性程度研究。
深度神經(jīng)網(wǎng)絡算法是一種有監(jiān)督式的學習算法。它的學習規(guī)則是梯度下降法,通過反向傳播來不斷調整神經(jīng)網(wǎng)絡的權值和偏置值,使網(wǎng)絡的損失函數(shù)值達到最小,從而實現(xiàn)網(wǎng)絡預測值逼近真實值[25]。
DNN模型拓撲結構包括輸入層、隱層以及輸出層。隱層一般在3層及3層以上,每一層的神經(jīng)元個數(shù)都應該合理地選取。深度神經(jīng)網(wǎng)絡結構如圖3所示,正向傳播過程接收輸入數(shù)據(jù)進行正向擬合預測,反向傳播及權值修正過程通過梯度下降調整層間權值,提高模型擬合精度。
影響二手車成交價格的因素眾多,本文選取省份、汽車品牌、新車指導價、已使用時間及已行駛距離這5個關鍵影響因素進行研究,所以構建的DNN模型輸入層神經(jīng)元個數(shù)為5。研究的因變量是二手車成交價格,所以輸出層神經(jīng)元個數(shù)為1。以均方根誤差(Root Mean Square Error,RMSE)作為模型的評價標準,通過訓練過程中合理地調參,得到了能夠較高精度地擬合二手車成交價格的隱含層層數(shù)等相關參數(shù),選定隱含層層數(shù)為3層且每層神經(jīng)元個數(shù)為70個;選取學習率為0.000 1;選取神經(jīng)網(wǎng)絡的激活函數(shù)為ReLU函數(shù);選取優(yōu)化算法為自適應矩估計算法(Adaptive Moment Estimation,Adam)。
圖2 深度神經(jīng)網(wǎng)絡結構
同時,本研究為避免DNN模型過擬合等問題,在第1隱含層后設置了一層批標準化層(Batch Normalization,BN)。
本研究選取RMSE、R2(RSquared)、平均絕對誤差(Mean Absolute Error,MAE)來評估模型的優(yōu)劣。
基于安徽省、廣東省、福建省以及重慶市的二手車成交數(shù)據(jù)進行DNN模型的訓練及測試,汽車品牌為奧迪、大眾、奔馳、寶馬。為了將輸入數(shù)據(jù)統(tǒng)一為數(shù)字型數(shù)據(jù),以數(shù)字1、2、3、4依次表示安徽省、廣東省、福建省、重慶市,以數(shù)字5、6、7、8依次表示奧迪車、大眾車、奔馳車、寶馬車。收集了共計22 385組二手車成交數(shù)據(jù),取70%為訓練集,共計14 924組成交數(shù)據(jù);取30%為測試集,共計7 461組成交數(shù)據(jù)。
深度神經(jīng)網(wǎng)絡訓練損失值Loss如圖3所示,通過300次迭代訓練后,損失值Loss降得很低。DNN模型在訓練集上的預測效果如圖4所示,可以看到,模型高精度地擬合了二手車成交價格,DNN模型訓練完成。
圖3 深度神經(jīng)網(wǎng)絡訓練Loss圖
圖4 深度神經(jīng)網(wǎng)絡訓練集擬合曲線與實際曲線
將測試集數(shù)據(jù)輸入進訓練好的DNN模型,得到二手車成交價格預測值,與實際成交價格擬合曲線對比,如圖5所示。可以看出,訓練好的DNN模型能夠較高精度地擬合測試集上的數(shù)據(jù)。
圖5 深度神經(jīng)網(wǎng)絡測試集擬合曲線與實際曲線
選取年限估計法與重置成本法[26]兩種經(jīng)典的二手車價格預測方法作為對照方法。隨機選取測試集中的10輛二手車,其實際價格與各方法預測價格對比如圖6所示??梢钥闯?,3種方法都擬合了10輛二手車價格的變化趨勢,但重置成本法相對于DNN模型與年限估計法的擬合效果更差,重置成本法的預測價格偏低,DNN模型與年限估計法預測的價格圍繞著實際價格上下波動。
圖6 實際價格與各方法預測價格對比
采用DNN模型方法、年限估計法以及重置成本法在整個測試集上計算RMSE、R2、MAE值,其結果見表1。可以看出,采用DNN模型預測的價格RMSE值與MAE值是3種方法中最低的,分別為6.04與3.44,R2值是3種方法中最高的,為0.85。3項評估指標表明:相較于傳統(tǒng)方法,DNN模型預測的二手車成交價格精度更高。
表1 三種預測方法的評估指標值
采用控制變量法分析二手車成交價格影響因素重要性程度。如表1所示,通過逐一去掉省份、汽車品牌、新車指導價、已使用時間、已行駛距離數(shù)據(jù)的方式,利用深度神經(jīng)網(wǎng)絡進行成交價格預測,得到RMSE。分別與全影響因素的RMSE對比,記錄各自的RMSE增長值。RMSE增長值反映了被去掉項的重要性程度。計算各影響因素RMSE增長值比值,得到每項影響因素的重要性程度具體數(shù)值。
考慮深度神經(jīng)網(wǎng)絡初始化權值等隨機性影響,本研究做了20組如表2所示的重要性程度數(shù)據(jù),所得二手車成交價格影響因素最小、最大比例如圖7所示??梢钥闯?,新車指導價是影響二手車成交價格的決定性因素,已使用時間與已行駛距離是影響二手車成交價格的重要性因素。相對來說,省份與汽車品牌對二手車成交價格的影響較小。
表2 基于DNN模型控制變量分析二手車影響因素的重要性程度
圖7 二手車成交價格影響因素的重要性程度最小、最大比例
將20組重要性程度數(shù)據(jù)取平均值,得到二手車成交價格影響因素的重要性程度,如圖8所示??梢钥闯觯绊懳覈周嚦山粌r格的決定性因素是新車指導價,重要性占比67%;重要因素是已使用時間與已行駛距離,分別占比13.06%和9.08%;次要因素是汽車品牌與省份,分別占比6.22%、4.64%。
圖8 二手車成交價格影響因素的重要性程度
本文介紹了我國二手車研究現(xiàn)狀,構建了DNN模型并介紹了模型評估方法,通過與年限估值法、重置成本法兩種傳統(tǒng)方法做比較,分析了DNN模型的預測精度,基于DNN模型分析了我國二手車成交價格影響因素的重要性程度。結果表明:(1)相較于兩種傳統(tǒng)價格預測方法,DNN模型預測的二手車成交價格精度更高。(2)影響我國二手車成交價格的決定性因素是新車指導價,重要性占比67%;已使用時間與已行駛距離是影響二手車成交價格的重要因素,占比13.06%和9.08%;次要因素是汽車品牌與省份,分別占比6.22%、4.64%。本研究尚存不足之處,如僅基于4個省份的4種車型二手車成交數(shù)據(jù)進行研究,但對于深入探究利用深度學習預測二手車價格及分析二手車價格影響因素的重要性程度提供了一定的借鑒。