亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機(jī)森林的二手摩托車殘值率預(yù)估模型

        2023-01-11 15:24:46梅培楠
        現(xiàn)代計(jì)算機(jī) 2022年20期
        關(guān)鍵詞:殘值二手車決策樹(shù)

        牟 嬌,梅培楠

        (1.貴州大學(xué)人民武裝學(xué)院,貴陽(yáng) 550025;2.貴州中安云網(wǎng)科技有限公司,貴陽(yáng) 550003)

        0 引言

        隨著國(guó)民經(jīng)濟(jì)的發(fā)展與人民物質(zhì)生活的提高,摩托車從傳統(tǒng)的代步工具逐步向個(gè)性化、性能化、科技化發(fā)展,摩托車受眾越來(lái)越廣,二手摩托車演變成了個(gè)性化的二手摩托車交易,二手摩托車交易市場(chǎng)發(fā)展呈現(xiàn)大好前景[1]。

        歐美日等國(guó)家的二手車已形成了一個(gè)體系成熟的市場(chǎng),二手車價(jià)格評(píng)估由具有評(píng)估資格的相關(guān)部門根據(jù)二手車市場(chǎng)行情制定評(píng)估規(guī)則[2]。與國(guó)外成熟的二手車市場(chǎng)相比,國(guó)內(nèi)二手車交易評(píng)估體系不健全,對(duì)車輛進(jìn)行合理、準(zhǔn)確的估值成為二手車交易亟待解決的問(wèn)題。學(xué)者針對(duì)二手車的估值研究早已進(jìn)行,二手車的估值影響因素維度多、且非線性,難以使用規(guī)律的方法進(jìn)行評(píng)估,隨著大數(shù)據(jù)與人工智能技術(shù)的發(fā)展,學(xué)者逐漸將機(jī)器學(xué)習(xí)方法應(yīng)用于二手車評(píng)估問(wèn)題,以其計(jì)算快、智能化、數(shù)據(jù)處理量大等優(yōu)勢(shì)成為研究的新熱點(diǎn)[3-5]。

        周凌云[3]早在2012年使用決策樹(shù)進(jìn)行汽車評(píng)測(cè),具有良好的預(yù)測(cè)準(zhǔn)確率;曹靜嫻[4]利用決策樹(shù)、logistic回歸和神經(jīng)網(wǎng)絡(luò)建立了不同的二手車性能評(píng)估模型,實(shí)現(xiàn)了對(duì)二手車性能的多種復(fù)雜混合因素在一定程度上的定量分析;劉聰?shù)龋?]將自適應(yīng)提升方法(AdaBoost)應(yīng)用于二手車價(jià)值的評(píng)估,提出一種以決策樹(shù)樁作為弱分類器的集成方法,其準(zhǔn)確率較傳統(tǒng)決策樹(shù)方法得到提高。

        本文參考二手車估值模型的建立方法,收集二手摩托車交易數(shù)據(jù),通過(guò)隨機(jī)森林算法進(jìn)行統(tǒng)計(jì)建模,建立二手摩托車殘值率估值模型,以其對(duì)二手摩托車交易估值起到指導(dǎo)作用。

        1 隨機(jī)森林算法

        隨機(jī)森林(random forest,RF)方法是美國(guó)科學(xué)家Breiman[6]于2001年提出的一種統(tǒng)計(jì)學(xué)習(xí)方法,它是由并行式集成學(xué)習(xí)的Bagging方法與隨機(jī)子空間方法(random subspace)相結(jié)合而形成[7]。隨機(jī)森林是基于決策樹(shù)的隨機(jī)屬性選擇訓(xùn)練算法,隨機(jī)森林算法具有抗噪性強(qiáng)、計(jì)算開(kāi)銷小等優(yōu)點(diǎn),可用于分類和回歸任務(wù)[8]。二手車殘值率輸出為連續(xù)值,屬于回歸問(wèn)題。近年來(lái),國(guó)內(nèi)外學(xué)者在眾多領(lǐng)域中都使用了隨機(jī)森林回歸模型。許允之等[9]將隨機(jī)森林算法應(yīng)用于徐州霧霾預(yù)測(cè)研究,建立徐州空氣質(zhì)量指數(shù)回歸預(yù)測(cè)模型,均方根誤差在6左右,為徐州霧霾的形成原因以及治理措施提供了參考;王仁超等[10]基于隨機(jī)森林回歸方法建立了爆破塊度預(yù)測(cè)模型,為堆石壩爆破施工管理與控制提供了科學(xué)指導(dǎo);Osman等[11]使用隨機(jī)森林回歸模型進(jìn)行機(jī)械鉆速預(yù)測(cè),指導(dǎo)鉆井從業(yè)者以最小的時(shí)間和成本完成鉆井項(xiàng)目;Ramalingam等[12]采用混合Harris Hawk優(yōu)化隨機(jī)森林算法(HHO-RF)建立了分散光伏電站的有效數(shù)據(jù)預(yù)測(cè)模型。

        如圖1所示,基于隨機(jī)森林的二手摩托車殘值率預(yù)估模型的預(yù)測(cè)步驟如下:

        圖1 基于隨機(jī)森林的二手摩托車殘值率預(yù)估模型的預(yù)測(cè)步驟

        (1)構(gòu)建訓(xùn)練數(shù)據(jù)集:將二手摩托車的成交殘值率作為模型的輸出變量(標(biāo)簽值),摩托車機(jī)身參數(shù)、使用參數(shù)及審核參數(shù)作為模型的輸入變量(屬性值),標(biāo)簽值及屬性值組成訓(xùn)練數(shù)據(jù)集D。

        (2)構(gòu)建隨機(jī)森林:對(duì)數(shù)據(jù)量為m的訓(xùn)練集D進(jìn)行m次隨機(jī)采樣,得到樣本量為m的采樣集D';在所有屬性中隨機(jī)選擇K個(gè)屬性特征,建立決策樹(shù)回歸模型;重復(fù)以上步驟T次,建立T棵回歸決策樹(shù),構(gòu)成隨機(jī)森林。

        (3)預(yù)測(cè)二手摩托車殘值率:將預(yù)測(cè)集中的屬性值輸入到訓(xùn)練完成的模型中,模型將會(huì)計(jì)算T棵決策樹(shù)的回歸結(jié)果平均值作為其輸出結(jié)果,得到摩托車殘值率。

        2 模型特征選取與預(yù)處理

        影響二手摩托車殘值率的主要變量有:機(jī)身參數(shù)、使用參數(shù)及審核參數(shù)。

        2.1 摩托車機(jī)身參數(shù)

        發(fā)動(dòng)機(jī)參數(shù)選擇發(fā)動(dòng)機(jī)型號(hào)、排量、環(huán)保標(biāo)準(zhǔn)、供油方式作為輸入特征;車體參數(shù)選擇座高、油箱、整備質(zhì)量、abs、冷卻類型作為輸入特征。

        2.2 摩托車使用參數(shù)

        摩托車使用參數(shù)包括:車齡、行駛里程、上牌城市。上牌城市對(duì)二手摩托車價(jià)格有顯著影響。

        2.3 摩托車審核參數(shù)

        摩托車審核參數(shù)包括:車況等級(jí)、車主報(bào)價(jià),車況等級(jí)由人工標(biāo)注,分為優(yōu)秀、良好、一般、較差、很差。

        本文數(shù)據(jù)來(lái)源于某二手車交易網(wǎng)站數(shù)據(jù)庫(kù),數(shù)據(jù)存在異常值、缺失值、重復(fù)值等問(wèn)題,在數(shù)據(jù)進(jìn)行模型訓(xùn)練前針對(duì)不同特征進(jìn)行數(shù)據(jù)預(yù)處理,如行駛里程單位統(tǒng)一為km;為車身顏色、座高、整備質(zhì)量等缺省值補(bǔ)上該車型的默認(rèn)配置;若某一數(shù)據(jù)缺省特征值超過(guò)1/3,刪除該數(shù)據(jù)。數(shù)據(jù)預(yù)處理后,剩余有效數(shù)據(jù)約6975條,隨機(jī)劃分測(cè)試集與訓(xùn)練集,1/4數(shù)據(jù)作為測(cè)試集,3/4數(shù)據(jù)作為訓(xùn)練集。數(shù)據(jù)預(yù)處理后的部分特征數(shù)據(jù)集見(jiàn)表1。

        表1 部分特征數(shù)據(jù)集

        數(shù)據(jù)預(yù)處理后,存在特征為屬性值、特征值需縮放等不同特征處理問(wèn)題,使得進(jìn)入模型訓(xùn)練的特征更加精確,提高模型訓(xùn)練的效率,選取特征不同的處理方式見(jiàn)表2。

        表2 特征處理

        3 訓(xùn)練過(guò)程與結(jié)果分析

        此模型選取二手摩托車殘值率作為輸出值(標(biāo)簽值),殘值率計(jì)算公式如下:

        本文采用平均絕對(duì)誤差(mean absolute er?ror,MAE)和R方(R-squared,R2)作為模型評(píng)價(jià)指標(biāo),MAE用來(lái)描述模型預(yù)測(cè)值的準(zhǔn)確率,R2用來(lái)描述預(yù)測(cè)值與實(shí)測(cè)值之間的相關(guān)程度,計(jì)算公式如下:

        式中:m為訓(xùn)練集個(gè)數(shù);y為殘值率預(yù)測(cè)值,f(x)為殘值率真實(shí)值,T為殘值率真實(shí)值的平均值。

        3.1 不同參數(shù)對(duì)預(yù)測(cè)準(zhǔn)確度的影響

        本文從200棵決策樹(shù)到2000棵決策樹(shù),依次遞增200棵;內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)選擇2至8,依次遞增2;葉子節(jié)點(diǎn)最少樣本數(shù)選擇1至4,依次遞增1。不同排列組合下進(jìn)行回歸預(yù)測(cè),部分預(yù)測(cè)結(jié)果見(jiàn)表3。

        表3 部分預(yù)測(cè)結(jié)果

        從實(shí)驗(yàn)結(jié)果初步可看出,決策樹(shù)的數(shù)目越多,平均誤差越小,擬合程度越好,但決策樹(shù)達(dá)到一定數(shù)量后,增加決策樹(shù)的數(shù)量對(duì)模型準(zhǔn)確度提升效果不佳。在數(shù)據(jù)量樣本不多時(shí),內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)及葉子節(jié)點(diǎn)最少樣本數(shù)越小,模型預(yù)測(cè)結(jié)果擬合程度較好。決策樹(shù)數(shù)目1200,內(nèi)部節(jié)點(diǎn)再劃分所需最小樣本數(shù)2,葉子節(jié)點(diǎn)最少樣本數(shù)1的時(shí)候誤差最小,預(yù)測(cè)值與實(shí)際值的擬合度如圖2所示。通過(guò)實(shí)驗(yàn)結(jié)果得知,基于隨機(jī)森林回歸的二手摩托車殘值率預(yù)測(cè)模型整體效果良好,MAE值大都在5%以內(nèi),預(yù)測(cè)準(zhǔn)確度較高;R2值大都在90%以上,預(yù)測(cè)值與實(shí)際值相關(guān)性強(qiáng)。

        圖2 預(yù)測(cè)值與實(shí)際值的擬合度

        3.2 特征重要性

        隨機(jī)森林算法提供特征重要性的計(jì)算,計(jì)算過(guò)程如下:

        (1)針對(duì)隨機(jī)森林中建立的決策回歸樹(shù),計(jì)算袋外數(shù)據(jù)(OOB)的誤差,記作errOOB1;

        (2)對(duì)袋外數(shù)據(jù)OOB所有樣本的特征X隨機(jī)加入噪聲干擾,再次計(jì)算袋外數(shù)據(jù)誤差,記作errOOB2;

        (3)對(duì)隨機(jī)森林中的所有決策樹(shù)計(jì)算上述兩個(gè)誤差值,特征X的重要性計(jì)算公式為

        式中,n表示決策樹(shù)的個(gè)數(shù)。

        通過(guò)給決策樹(shù)特征隨機(jī)加入噪聲,袋外準(zhǔn)確度大幅度降低,表示該特征對(duì)決策樹(shù)影響很大,對(duì)所有決策樹(shù)取平均值,得到特征的最后重要性。特征重要性結(jié)果見(jiàn)圖3??梢钥闯?,車齡、行駛里程及上牌城市三個(gè)特征重要程度較高,符合市場(chǎng)規(guī)律。

        圖3 特征重要性

        4 算法對(duì)比分析

        為進(jìn)一步驗(yàn)證隨機(jī)森林模型在二手摩托車估值模型上的優(yōu)劣,采用交叉驗(yàn)證法選取貝葉斯嶺回歸[13](BayesianRidge)、普通線性回歸[14](LinearRegression)、彈性網(wǎng)絡(luò)回歸[15](Elastic?Net)、支持向量機(jī)回歸[16](SVR)、神經(jīng)網(wǎng)絡(luò)[17](BP-NN)預(yù)測(cè)模型構(gòu)建預(yù)測(cè)模型,進(jìn)行實(shí)驗(yàn)對(duì)比分析。計(jì)算上述模型的MAE、R2、訓(xùn)練時(shí)間三個(gè)評(píng)價(jià)指標(biāo),各模型的對(duì)比結(jié)果見(jiàn)表4和圖4。

        表4 模型預(yù)測(cè)結(jié)果對(duì)比

        圖4 預(yù)測(cè)值與實(shí)際值的擬合度

        根據(jù)對(duì)比結(jié)果,可以看出在預(yù)測(cè)模型準(zhǔn)確性上,RF、BP-NN模型預(yù)測(cè)準(zhǔn)確性明顯優(yōu)于其他回歸模型,RF、BP-NN的MAE均值均在0.035以下,R2能達(dá)到0.90以上。在運(yùn)行效率上,RF、BP-NN的運(yùn)行效率遠(yuǎn)低于其他模型,但RF的運(yùn)行效率與BP-NN相比仍具有一定優(yōu)勢(shì)。綜合比較上述結(jié)果,RF在高維度的回歸預(yù)測(cè)問(wèn)題上,準(zhǔn)確性表現(xiàn)優(yōu)秀,且具有良好的運(yùn)行效率。

        5 結(jié)語(yǔ)

        二手摩托車估值模型成功建立,能帶來(lái)以下應(yīng)用價(jià)值:促進(jìn)二手摩托車行業(yè)定價(jià)透明規(guī)范化——二手摩托車出售者能夠通過(guò)模型來(lái)預(yù)測(cè)自己的二手摩托車能夠賣多少錢,使價(jià)格定在一個(gè)合理區(qū)間,更容易售賣出去。購(gòu)買者在市場(chǎng)里只需考慮自己想要的摩托車配置和能夠接受的折舊度,利用模型來(lái)確定二手摩托車價(jià)格,更容易買到性價(jià)比較高的商品。為相關(guān)研究者提供研究思路——本文從影響因素分析、數(shù)據(jù)預(yù)處理、模型參數(shù)選擇來(lái)逐步建立二手摩托車殘值率估值模型,希望能夠?yàn)橄嚓P(guān)研究者提供一些研究思路。

        猜你喜歡
        殘值二手車決策樹(shù)
        淺析高校固定資產(chǎn)報(bào)廢處置方式的利與弊
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        ●企業(yè)所得稅中固定資產(chǎn)的預(yù)計(jì)凈殘值能否變更?
        稅收征納(2018年12期)2018-04-01 04:41:07
        數(shù)據(jù)二手車
        汽車縱橫(2017年1期)2017-02-17 19:01:20
        數(shù)據(jù)—二手車
        汽車縱橫(2016年9期)2016-10-27 12:49:13
        數(shù)據(jù) 二手車
        汽車縱橫(2016年8期)2016-09-24 15:39:49
        基于決策樹(shù)的出租車乘客出行目的識(shí)別
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        車輛損失險(xiǎn)中保險(xiǎn)標(biāo)的殘值的歸屬——兼談《保險(xiǎn)法》第59條的理解與適用
        国产欧美日韩在线观看| 蜜桃一区二区三区视频网址| 人人妻人人澡人人爽超污| 无码人妻精一区二区三区| 免费无遮挡无码视频在线观看| 久久精品国产视频在热| 亚洲精品在线视频一区二区| 亚洲第一最快av网站| 放荡的闷骚娇妻h| 久久久精品中文无码字幕| 高清国产国产精品三级国产av| 国产精品福利一区二区| 精品成人乱色一区二区| 亚洲加勒比无码一区二区在线播放| 国产二区中文字幕在线观看| 妺妺跟我一起洗澡没忍住| 人妻影音先锋啪啪av资源| 免费 无码 国产精品| 亚洲中文中文字幕乱码| 国产av国片精品jk制服| 艳妇乳肉豪妇荡乳av无码福利| 伊人色综合九久久天天蜜桃 | 亚洲av一区二区网址| 午夜视频在线观看视频在线播放| 国产亚洲精品久久777777| 91久久精品无码人妻系列| 福利视频在线一区二区三区| 人妻丝袜中文无码av影音先锋专区| 亚洲欧美日韩一区二区三区在线| 国产av无码专区亚洲草草| 国产精品视频白浆免费视频| 人妻少妇精品视频专区| 2021国产视频不卡在线| 久久99精品免费国产| 亚洲精品中文字幕免费专区| 国产精品老熟女露脸视频| 青春草在线视频精品| 中国男女黄色完整视频| 亚洲熟妇无码一区二区三区导航| 四虎国产精品视频免费看| 9l国产自产一区二区三区|