亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于XGboost和LightGBM線性加權(quán)模型對(duì)二手車價(jià)格預(yù)測(cè)的研究

        2021-04-18 00:13:19楊康
        科技研究·理論版 2021年22期
        關(guān)鍵詞:二手車

        楊康

        摘要:為解決二手車交易價(jià)格的預(yù)測(cè)問(wèn)題,本文建立了基于XGboost和LightGBM的線性融合模型對(duì)二手車交易價(jià)格進(jìn)行預(yù)測(cè)。首先對(duì)數(shù)據(jù)進(jìn)行清洗,包括異常值檢驗(yàn)和缺失值處理。由于交易價(jià)格頻率分布呈現(xiàn)右偏情況,因此對(duì)交易價(jià)格進(jìn)行對(duì)數(shù)調(diào)整使其呈現(xiàn)正態(tài)分布。模型對(duì)于時(shí)間變量學(xué)習(xí)效果較差,本文將時(shí)間變量轉(zhuǎn)換為數(shù)值變量進(jìn)行模型學(xué)習(xí)。根據(jù)不同離散數(shù)據(jù)的特點(diǎn)分別采用獨(dú)熱編碼和目標(biāo)編碼進(jìn)行編碼處理。模型調(diào)優(yōu)采用5折交叉驗(yàn)證和網(wǎng)格搜索對(duì)模型的參數(shù)進(jìn)行優(yōu)化,最后將XGboost與LightGBM以0.55:0.45的比例進(jìn)行模型融合,并在測(cè)試集上的評(píng)分為0.5915,為二手車平臺(tái)的定價(jià)提供了重要依據(jù)。

        關(guān)鍵詞:XGboost模型; LightGBM模型;數(shù)據(jù)編碼;二手車;模型融合

        0 引言

        隨著我國(guó)經(jīng)濟(jì)的飛速發(fā)展以及人們生活水平的提高,機(jī)動(dòng)車的數(shù)量也不斷升高。對(duì)于一些資金不足的賣家來(lái)說(shuō),二手車是一個(gè)不錯(cuò)的選擇,同時(shí)二手車也能夠使得資源得到更大限度的利用。到2014年,中國(guó)成為世界上第二大二手車市場(chǎng),僅次于美國(guó);到2020年,中國(guó)二手車銷量達(dá)到2230萬(wàn)輛[1]。隨著二手車需求的增加,二手車的定價(jià)問(wèn)題成為了二手車交易平臺(tái)需要考慮的問(wèn)題。如果定價(jià)過(guò)低會(huì)使得二手車銷售平臺(tái)的利益得到損失定價(jià)過(guò)高會(huì)導(dǎo)致二手車滯銷消耗更多的倉(cāng)儲(chǔ)費(fèi)用,也同樣會(huì)影響二手車平臺(tái)的收益。

        1數(shù)據(jù)預(yù)處理

        1.1異常值處理

        計(jì)算全部數(shù)據(jù)二手車交易價(jià)格上四分位數(shù)、中位數(shù)、下四分位數(shù)以及均值,分析數(shù)據(jù)分布發(fā)現(xiàn)一個(gè)明顯的離群值109000,查找該組數(shù)據(jù)的所對(duì)應(yīng)的新車價(jià)為15.28萬(wàn)元,合理推測(cè)該離群值可能單位錯(cuò)誤將其轉(zhuǎn)換為萬(wàn)元對(duì)應(yīng)10.90萬(wàn)元,修改該數(shù)據(jù)為10.90萬(wàn)元。

        1.2缺失值處理

        數(shù)據(jù)集為門店二手車交易數(shù)據(jù),存在缺失值。計(jì)算各特征的缺失率(缺失率=有缺失值得樣本數(shù)/總樣本數(shù)),其中匿名15得缺失率甚至達(dá)到了92%,缺失值的存在會(huì)影響后續(xù)模型的建立,對(duì)于缺失率較高的特征予以剔除,其他缺失數(shù)值特征采用均值填充,離散特征采用出現(xiàn)頻率最高的變量填充,對(duì)于離散特征需進(jìn)行編碼[2],本文采用目標(biāo)編碼和獨(dú)熱編碼處理。

        1.4數(shù)值特征正太化處理

        計(jì)算得知二手車的交易價(jià)格的平均值為14.04萬(wàn)元,標(biāo)準(zhǔn)差為14.007,在1到10萬(wàn)所占的比例較大,數(shù)據(jù)呈現(xiàn)有右偏情況,因此需要對(duì)數(shù)據(jù)進(jìn)行對(duì)數(shù)調(diào)整,與此同時(shí)對(duì)價(jià)格數(shù)據(jù)做對(duì)數(shù)變換后還會(huì)防止模型的預(yù)測(cè)數(shù)據(jù)出現(xiàn)小于0的情況,根據(jù)下式對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換。

        經(jīng)過(guò)對(duì)數(shù)調(diào)整后的交易價(jià)格的頻率分布服從正太分布。

        2模型的建立

        2.1 模型的評(píng)價(jià)標(biāo)準(zhǔn)

        以平均相對(duì)誤差以及誤差準(zhǔn)確率作為對(duì)模型評(píng)價(jià)的標(biāo)準(zhǔn),其中平均相對(duì)誤差為訓(xùn)練集中所有樣本的預(yù)測(cè)值與真實(shí)值相對(duì)誤差的平均值,公式為

        2.2 XGboost模型建立及調(diào)優(yōu)

        XGboost(Extreme Gradient Boosting)由華盛頓大學(xué)的陳天奇博士提出,最開始作為分布式機(jī)器學(xué)校研究社區(qū)小組的研究項(xiàng)目之一,后來(lái)在數(shù)據(jù)科學(xué)應(yīng)用種廣泛應(yīng)用[3]。XGboost對(duì)各類任務(wù)都具有良好的學(xué)習(xí)能力,因此本文選用XGboost模型進(jìn)行建模。

        對(duì)應(yīng)XGboost模型參數(shù)的調(diào)優(yōu),本文采用留出法和5折交叉驗(yàn)證混合的方式對(duì)XGboost模型進(jìn)行調(diào)參和評(píng)估。

        留出法的驗(yàn)證方式最為簡(jiǎn)單直接,在訓(xùn)練過(guò)程中僅分割一次數(shù)據(jù),模型調(diào)參過(guò)程過(guò)分依賴于數(shù)據(jù)劃分情況。5折交叉驗(yàn)證將訓(xùn)練集的數(shù)據(jù)劃分為5個(gè)數(shù)量相等數(shù)據(jù)塊,每次使用第i(i=1,2…5)個(gè)數(shù)據(jù)塊作為模型的驗(yàn)證數(shù)據(jù),而其余數(shù)據(jù)塊作為模型的訓(xùn)練數(shù)據(jù),反復(fù)5次,得到5個(gè)不同的評(píng)分,將其取平均值作為該參數(shù)的評(píng)分。

        留出法和5折交叉驗(yàn)證混合進(jìn)行調(diào)參和評(píng)估的思路是:首先使用5折交叉驗(yàn)證對(duì)模型參數(shù)進(jìn)行逐個(gè)調(diào)參,確定最優(yōu)參數(shù)后,在最初始劃分的訓(xùn)練集中計(jì)算模型的最終評(píng)分并展示其預(yù)測(cè)效果。本方法的優(yōu)點(diǎn)是保證一部分?jǐn)?shù)據(jù)始終未參與模型的訓(xùn)練,使用這部分?jǐn)?shù)據(jù)對(duì)模型進(jìn)行評(píng)估,得到評(píng)估結(jié)果更加接近于真實(shí)預(yù)測(cè)情況。同時(shí),本方法也大大增加了模型的泛化能力。

        經(jīng)過(guò)網(wǎng)格搜索和5折交叉驗(yàn)證,n_estimators在取值 [1000,1200,1500,2000]和learning_rate在取值 [0.05,0.06,0.1,0.15,0.2] 中確定最優(yōu)的 n_estimators為1500,learning_rate為0.15。此時(shí)模型在訓(xùn)練集的得分為0.5697。

        使用XGboost模型,計(jì)算其在測(cè)試集的評(píng)分為0.5650與訓(xùn)練集的0.5697相差無(wú)幾,證明該模型泛化能力較強(qiáng),具有良好的預(yù)測(cè)效果。

        2.3 LightGBM模型的建立和調(diào)優(yōu)

        對(duì)于LightGBM模型的超參數(shù)調(diào)整同xgboost模型一樣采用5折交叉驗(yàn)證和網(wǎng)格搜索算法,最后使用訓(xùn)練集對(duì)模型預(yù)測(cè)效果進(jìn)行評(píng)估。經(jīng)過(guò)交叉驗(yàn)證和網(wǎng)格搜索確定最優(yōu)超參數(shù)為n_estimators:200,learning_rate:6,num_leaves:64,min_gain_to_split:5,使用測(cè)試集計(jì)算模型評(píng)分得 0.5674 略差于xgboost模型。

        2.4 XGoost和LightGBM模型融合

        XGboost在測(cè)試集的評(píng)分為0.5650,LightGBM在測(cè)試集的評(píng)分為0.5599。觀察xgboost和LightGBM的預(yù)測(cè)特點(diǎn),發(fā)現(xiàn)xgboost為對(duì)二手車價(jià)格較低的數(shù)據(jù)具有良好的預(yù)測(cè)效果,但對(duì)于離群的價(jià)格較高的數(shù)據(jù)預(yù)測(cè)能力較差,相反LightGBM對(duì)離群值具有較好的預(yù)測(cè)能力,但對(duì)價(jià)格較低的數(shù)據(jù)預(yù)測(cè)效果不如xgboost。因此本文采用線性融合的辦法來(lái)提高模型整體的預(yù)測(cè)能力。

        經(jīng)過(guò)不斷迭代模型融合的線性參數(shù),最終得到以0.65:0.35融合模型,在測(cè)試集上具有較高的評(píng)分為0.5915,相較于融合前的兩個(gè)模型預(yù)測(cè)能力具有較高的提升。

        3結(jié)語(yǔ)

        本文創(chuàng)造性的運(yùn)用了機(jī)器學(xué)習(xí)領(lǐng)域的XGboost和Lightgbm模型并對(duì)其線性加權(quán)從而建立預(yù)測(cè)效果更叫良好的融合模型。本文對(duì)二手車價(jià)格的預(yù)測(cè)準(zhǔn)確率較高,對(duì)二手車平臺(tái)及其銷售門店提供了良好的理論支撐。

        參考文獻(xiàn)

        [1]. 寧利濤,分析預(yù)測(cè)我國(guó)二手車銷量 2020年將超新車,https://auto.163.com/11/0330/17/70DL9NAH00084IKG.html,20210105

        [2]焦岑.基于隨機(jī)森林與神經(jīng)網(wǎng)絡(luò)的汽車價(jià)格影響因素的研究[D].蘇州大學(xué),2020.

        [3]何龍,深入理解XGBoost[M].北京:機(jī)械工業(yè)出版社。2020

        猜你喜歡
        二手車
        2017年9月數(shù)據(jù)二手車
        汽車縱橫(2017年12期)2017-12-25 17:46:14
        數(shù)據(jù)二手車
        汽車縱橫(2017年6期)2017-06-17 21:50:43
        數(shù)據(jù)二手車
        汽車縱橫(2017年3期)2017-03-18 12:28:21
        數(shù)據(jù)二手車
        汽車縱橫(2017年1期)2017-02-17 19:01:20
        數(shù)據(jù)—二手車
        汽車縱橫(2016年9期)2016-10-27 12:49:13
        數(shù)據(jù) 二手車
        汽車縱橫(2016年8期)2016-09-24 15:39:49
        數(shù)據(jù)—二手車
        汽車縱橫(2014年9期)2014-11-10 23:42:08
        數(shù)據(jù)—二手車
        汽車縱橫(2014年7期)2014-09-09 23:54:35
        數(shù)據(jù)-二手車
        汽車縱橫(2014年5期)2014-08-27 23:54:12
        數(shù)據(jù)- 二手車
        汽車縱橫(2014年3期)2014-04-17 23:37:09
        亚洲最新版无码AV| 国产亚洲美女精品久久久2020| 论理视频二区三区四区在线观看| 久久国产在线精品观看| 国产特黄级aaaaa片免| 国产老熟女狂叫对白| 老太脱裤让老头玩ⅹxxxx| 亚洲熟妇一区无码| 青青草免费在线手机视频| 中文字幕一区二区三区| 日本精品免费看99久久| 精品成在人线av无码免费看| 肥臀熟女一区二区三区| 少妇内射高潮福利炮| 五月综合高清综合网| 久久dvd| h视频在线免费观看视频| 国产精品二区一区二区aⅴ污介绍| 欧洲熟妇色xxxx欧美老妇软件| 婷婷五月综合丁香在线| 亚洲欧美偷拍视频| 思思99热| 久久精品国产成人午夜福利| 亚洲一区二区三区资源| av一区二区在线网站| 日韩乱码中文字幕在线| 乱子轮熟睡1区| 婷婷成人基地| 中文字幕有码高清| 国产在线av一区二区| 国产精品美女一区二区视频| 国产午夜精品一区二区三区| 日韩中文网| 亚洲av成人久久精品| 色播视频在线观看麻豆| 久久综合亚洲色hezyo国产 | 国产成人无码综合亚洲日韩| 成人免费看吃奶视频网站| 久久久久久一级毛片免费无遮挡| 亚洲乱码中文字幕综合69堂| 久久精品国产亚洲综合av|