李 鈺,張蝶依
(1.河北地質大學信息工程學院,石家莊 050031;2.駐馬店職業(yè)技術學院,駐馬店 463000)
據公安部統計,截至2021年6月全國機動車保有量達到3.84億輛,機動車駕駛人卻高達4.69億人,且機動車駕駛人數還在不斷增長,僅2021年上半年便新增領證駕駛人1390萬人[1]。機動車保有量和駕駛人人數的巨大差異,使得國內汽車市場十分火熱。但是由于芯片的短缺導致新車的供給下滑,使得更多的購車者把目光投入二手車市場,同時國家也大力支持二手車市場的發(fā)展。從2020年五月份起,二手車增值稅從2%下降到0.5%[2],使得二手車交易的稅負成本降低;同時公安部等也先后取消二手車限遷政策,進一步增加了二手車市場的活力。
但是在二手車交易中,眾多的二手車線上交易網站和線下機構對二手車的定價各不相同,給二手車的交易帶來極大困難。針對二手車交易中中介平臺等的肆意標價,需要從二手車本身的數據出發(fā),對二手車進行精確的估價,從而保護消費者的合法權益。然而國內對于二手車價值評估模型的研究并不多,呂勁[3]提出了基于特征優(yōu)化的SVM價格預測模型,利用GBDT模型對特征進行優(yōu)化組合,再使用SVM模型進行預測。張遠森[4]提出了基于神經網絡的二手車價格評估模型,與多元線性回歸模型做對比得到了小幅提升。上述兩種模型的預測精度都不是非常理想。
綜上,本文提出了一種基于LightGBM的二手車價值評估模型,通過特征優(yōu)化選擇出對二手車價格影響較大的特征,從而縮減了特征維度也使得模型對價值的評估更加精確。
LightGBM[5]是微軟提出的一種GBDT的高效實現框架,它解決了GBDT無法處理大規(guī)模數據的問題。LightGBM基本原理如下:
(1)初始化k棵決策樹,將訓練樣本的權重設為1/k;
(2)訓練子模型f(x);
(3)決定該子模型的權重β;
(4)更新權重ε;
(5)得到最終的模型:
本文提出一種基于LightGBM的二手車價值評估模型,通過特征工程對原始數據進行處理,填補缺失值、刪除異常值、構造對回歸有益的新特征等,從而降低數據的不平衡性,使得數據更加符合待訓練模型。
本文使用的數據來自天池河北高校邀請賽——二手車交易價格預測的數據集。其中訓練集含有200000條數據,測試集含有50000條數據,每條數據包含SaleID、name、regDate等共31個特征字段,其中name、model、brand和regionCode等信息已進行脫敏。
表1 數據集字段表
數據集處理過程:
(1)統計各字段的缺失值,“bodyType”“fu?elType”“gearbox”三個字段有缺失值,對缺失值進行填充;
(2)統計各字段的值的分布情況,發(fā)現“seller”“offerType”兩個字段傾斜嚴重,故刪除;
(3)刪除對回歸無意義的字段“SaleID”;
(4)構造新特征“usedDate”,由于原數據中只有汽車注冊日期和汽車售賣登記時間,兩個時間單獨對回歸任務的意義不大,故構造更有意義的汽車使用時間作為新特征。
輸入為訓練集Train、測試數據集Test和LightGBM初始參數X;輸出為Test的預測結果
步驟1:對數據進行特征工程,對進行特征工程之后的數據集進行聚類;
步驟2:將每一類擬合一個嶺回歸,并預測出每一個樣本的價格,把聚類后預測價格作為新特征加入到LightGBM的特征中;
步驟3:使用LightGBM進行預測。
本文使用MAE作為評價指標,MAE定義如下:
本算法與傳統二手車價格預測算法進行比較,結果如下:
通過表2,不難看出本文算法在二手車價格預測任務中取得最優(yōu)結果,可以對二手車交易定價起到合理的建議作用。
表2 本算法與兩種傳統模型在MAE上的對比
本文介紹了目前求解二手車估價存在的問題,構建了基于LightGBM的融合模型,通過與兩種具有代表性的二手車價格預測模型進行比較,提升效果均超過10%。
本研究尚有不足之處,如二手車定價僅考慮到車輛本身因素,并沒有結合當下政策以及買家信息,不能做到更加實時個性化的定價。但對于二手車價格預測任務仍具有一定借鑒價值。