亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于LightGBM的二手車價值評估的研究

2023-01-11 15:24:50張蝶依

現代計算機 2022年20期

李鈺，張蝶依

（1.河北地質大學信息工程學院，石家莊 050031；2.駐馬店職業(yè)技術學院，駐馬店 463000）

0 引言

據公安部統計，截至2021年6月全國機動車保有量達到3.84億輛，機動車駕駛人卻高達4.69億人，且機動車駕駛人數還在不斷增長，僅2021年上半年便新增領證駕駛人1390萬人［1］。機動車保有量和駕駛人人數的巨大差異，使得國內汽車市場十分火熱。但是由于芯片的短缺導致新車的供給下滑，使得更多的購車者把目光投入二手車市場，同時國家也大力支持二手車市場的發(fā)展。從2020年五月份起，二手車增值稅從2%下降到0.5%［2］，使得二手車交易的稅負成本降低；同時公安部等也先后取消二手車限遷政策，進一步增加了二手車市場的活力。

但是在二手車交易中，眾多的二手車線上交易網站和線下機構對二手車的定價各不相同，給二手車的交易帶來極大困難。針對二手車交易中中介平臺等的肆意標價，需要從二手車本身的數據出發(fā)，對二手車進行精確的估價，從而保護消費者的合法權益。然而國內對于二手車價值評估模型的研究并不多，呂勁［3］提出了基于特征優(yōu)化的SVM價格預測模型，利用GBDT模型對特征進行優(yōu)化組合，再使用SVM模型進行預測。張遠森［4］提出了基于神經網絡的二手車價格評估模型，與多元線性回歸模型做對比得到了小幅提升。上述兩種模型的預測精度都不是非常理想。

綜上，本文提出了一種基于LightGBM的二手車價值評估模型，通過特征優(yōu)化選擇出對二手車價格影響較大的特征，從而縮減了特征維度也使得模型對價值的評估更加精確。

1 相關方法

LightGBM［5］是微軟提出的一種GBDT的高效實現框架，它解決了GBDT無法處理大規(guī)模數據的問題。LightGBM基本原理如下：

（1）初始化k棵決策樹，將訓練樣本的權重設為1/k；

（2）訓練子模型f（x）；

（3）決定該子模型的權重β；

（4）更新權重ε；

（5）得到最終的模型：

2 基于LightGBM的二手車價值評估模型

本文提出一種基于LightGBM的二手車價值評估模型，通過特征工程對原始數據進行處理，填補缺失值、刪除異常值、構造對回歸有益的新特征等，從而降低數據的不平衡性，使得數據更加符合待訓練模型。

2.1 數據準備與特征工程

本文使用的數據來自天池河北高校邀請賽——二手車交易價格預測的數據集。其中訓練集含有200000條數據，測試集含有50000條數據，每條數據包含SaleID、name、regDate等共31個特征字段，其中name、model、brand和regionCode等信息已進行脫敏。

表1 數據集字段表

數據集處理過程：

（1）統計各字段的缺失值，“bodyType”“fu?elType”“gearbox”三個字段有缺失值，對缺失值進行填充；

（2）統計各字段的值的分布情況，發(fā)現“seller”“offerType”兩個字段傾斜嚴重，故刪除；

（3）刪除對回歸無意義的字段“SaleID”；

（4）構造新特征“usedDate”，由于原數據中只有汽車注冊日期和汽車售賣登記時間，兩個時間單獨對回歸任務的意義不大，故構造更有意義的汽車使用時間作為新特征。

2.2 二手車價值評估算法流程

輸入為訓練集Train、測試數據集Test和LightGBM初始參數X；輸出為Test的預測結果

步驟1：對數據進行特征工程，對進行特征工程之后的數據集進行聚類；

步驟2：將每一類擬合一個嶺回歸，并預測出每一個樣本的價格，把聚類后預測價格作為新特征加入到LightGBM的特征中；

步驟3：使用LightGBM進行預測。

3 實驗結果與分析

本文使用MAE作為評價指標，MAE定義如下：

本算法與傳統二手車價格預測算法進行比較，結果如下：

通過表2，不難看出本文算法在二手車價格預測任務中取得最優(yōu)結果，可以對二手車交易定價起到合理的建議作用。

表2 本算法與兩種傳統模型在MAE上的對比

4 結語

本文介紹了目前求解二手車估價存在的問題，構建了基于LightGBM的融合模型，通過與兩種具有代表性的二手車價格預測模型進行比較，提升效果均超過10%。

本研究尚有不足之處，如二手車定價僅考慮到車輛本身因素，并沒有結合當下政策以及買家信息，不能做到更加實時個性化的定價。但對于二手車價格預測任務仍具有一定借鑒價值。