李 鈺,張蝶依
(1.河北地質(zhì)大學(xué)信息工程學(xué)院,石家莊 050031;2.駐馬店職業(yè)技術(shù)學(xué)院,駐馬店 463000)
據(jù)公安部統(tǒng)計,截至2021年6月全國機(jī)動車保有量達(dá)到3.84億輛,機(jī)動車駕駛?cè)藚s高達(dá)4.69億人,且機(jī)動車駕駛?cè)藬?shù)還在不斷增長,僅2021年上半年便新增領(lǐng)證駕駛?cè)?390萬人[1]。機(jī)動車保有量和駕駛?cè)巳藬?shù)的巨大差異,使得國內(nèi)汽車市場十分火熱。但是由于芯片的短缺導(dǎo)致新車的供給下滑,使得更多的購車者把目光投入二手車市場,同時國家也大力支持二手車市場的發(fā)展。從2020年五月份起,二手車增值稅從2%下降到0.5%[2],使得二手車交易的稅負(fù)成本降低;同時公安部等也先后取消二手車限遷政策,進(jìn)一步增加了二手車市場的活力。
但是在二手車交易中,眾多的二手車線上交易網(wǎng)站和線下機(jī)構(gòu)對二手車的定價各不相同,給二手車的交易帶來極大困難。針對二手車交易中中介平臺等的肆意標(biāo)價,需要從二手車本身的數(shù)據(jù)出發(fā),對二手車進(jìn)行精確的估價,從而保護(hù)消費(fèi)者的合法權(quán)益。然而國內(nèi)對于二手車價值評估模型的研究并不多,呂勁[3]提出了基于特征優(yōu)化的SVM價格預(yù)測模型,利用GBDT模型對特征進(jìn)行優(yōu)化組合,再使用SVM模型進(jìn)行預(yù)測。張遠(yuǎn)森[4]提出了基于神經(jīng)網(wǎng)絡(luò)的二手車價格評估模型,與多元線性回歸模型做對比得到了小幅提升。上述兩種模型的預(yù)測精度都不是非常理想。
綜上,本文提出了一種基于LightGBM的二手車價值評估模型,通過特征優(yōu)化選擇出對二手車價格影響較大的特征,從而縮減了特征維度也使得模型對價值的評估更加精確。
LightGBM[5]是微軟提出的一種GBDT的高效實現(xiàn)框架,它解決了GBDT無法處理大規(guī)模數(shù)據(jù)的問題。LightGBM基本原理如下:
(1)初始化k棵決策樹,將訓(xùn)練樣本的權(quán)重設(shè)為1/k;
(2)訓(xùn)練子模型f(x);
(3)決定該子模型的權(quán)重β;
(4)更新權(quán)重ε;
(5)得到最終的模型:
本文提出一種基于LightGBM的二手車價值評估模型,通過特征工程對原始數(shù)據(jù)進(jìn)行處理,填補(bǔ)缺失值、刪除異常值、構(gòu)造對回歸有益的新特征等,從而降低數(shù)據(jù)的不平衡性,使得數(shù)據(jù)更加符合待訓(xùn)練模型。
本文使用的數(shù)據(jù)來自天池河北高校邀請賽——二手車交易價格預(yù)測的數(shù)據(jù)集。其中訓(xùn)練集含有200000條數(shù)據(jù),測試集含有50000條數(shù)據(jù),每條數(shù)據(jù)包含SaleID、name、regDate等共31個特征字段,其中name、model、brand和regionCode等信息已進(jìn)行脫敏。
表1 數(shù)據(jù)集字段表
數(shù)據(jù)集處理過程:
(1)統(tǒng)計各字段的缺失值,“bodyType”“fu?elType”“gearbox”三個字段有缺失值,對缺失值進(jìn)行填充;
(2)統(tǒng)計各字段的值的分布情況,發(fā)現(xiàn)“seller”“offerType”兩個字段傾斜嚴(yán)重,故刪除;
(3)刪除對回歸無意義的字段“SaleID”;
(4)構(gòu)造新特征“usedDate”,由于原數(shù)據(jù)中只有汽車注冊日期和汽車售賣登記時間,兩個時間單獨(dú)對回歸任務(wù)的意義不大,故構(gòu)造更有意義的汽車使用時間作為新特征。
輸入為訓(xùn)練集Train、測試數(shù)據(jù)集Test和LightGBM初始參數(shù)X;輸出為Test的預(yù)測結(jié)果
步驟1:對數(shù)據(jù)進(jìn)行特征工程,對進(jìn)行特征工程之后的數(shù)據(jù)集進(jìn)行聚類;
步驟2:將每一類擬合一個嶺回歸,并預(yù)測出每一個樣本的價格,把聚類后預(yù)測價格作為新特征加入到LightGBM的特征中;
步驟3:使用LightGBM進(jìn)行預(yù)測。
本文使用MAE作為評價指標(biāo),MAE定義如下:
本算法與傳統(tǒng)二手車價格預(yù)測算法進(jìn)行比較,結(jié)果如下:
通過表2,不難看出本文算法在二手車價格預(yù)測任務(wù)中取得最優(yōu)結(jié)果,可以對二手車交易定價起到合理的建議作用。
表2 本算法與兩種傳統(tǒng)模型在MAE上的對比
本文介紹了目前求解二手車估價存在的問題,構(gòu)建了基于LightGBM的融合模型,通過與兩種具有代表性的二手車價格預(yù)測模型進(jìn)行比較,提升效果均超過10%。
本研究尚有不足之處,如二手車定價僅考慮到車輛本身因素,并沒有結(jié)合當(dāng)下政策以及買家信息,不能做到更加實時個性化的定價。但對于二手車價格預(yù)測任務(wù)仍具有一定借鑒價值。