亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘技術(shù)的二手車性能評(píng)估模型研究

        2014-10-28 18:46:36曹靜嫻
        商場(chǎng)現(xiàn)代化 2014年24期
        關(guān)鍵詞:決策樹(shù)數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)

        摘 要:近來(lái)年我國(guó)二手車市場(chǎng)發(fā)展迅速,但市場(chǎng)不夠規(guī)范,主要依靠人為判斷,評(píng)估不客觀,甚至在鑒定評(píng)估過(guò)程中,有故意隱瞞車輛質(zhì)量問(wèn)題、以次充好等欺騙消費(fèi)者現(xiàn)象,給二手車市場(chǎng)造成不良影響。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)、logistic回歸和神經(jīng)網(wǎng)絡(luò)對(duì)205個(gè)二手車數(shù)據(jù)進(jìn)行分析,利用相關(guān)數(shù)據(jù)資料分別建立不同的二手車性能評(píng)估模型,實(shí)現(xiàn)了對(duì)二手車性能的多種復(fù)雜混合因素一定程度上的定量分析。

        關(guān)鍵詞:二手車性能評(píng)估;數(shù)據(jù)挖掘;決策樹(shù);logisticl回歸;神經(jīng)網(wǎng)絡(luò)

        一、二手車評(píng)估的現(xiàn)狀和發(fā)展

        雖然2011年的二手車銷量為433萬(wàn)輛,是2000年25萬(wàn)的16.3倍。但是還不到新車銷量的1/4,這說(shuō)明我國(guó)二手車市場(chǎng)還存在很大的發(fā)展空間。而鑒定評(píng)估缺乏科學(xué)統(tǒng)一的標(biāo)準(zhǔn),對(duì)二手車市場(chǎng)的發(fā)展都有較大影響。與傳統(tǒng)主觀簡(jiǎn)單的評(píng)估方法相比,評(píng)估模型優(yōu)勢(shì)明顯。在數(shù)據(jù)挖掘技術(shù)中主要的預(yù)測(cè)模型有決策樹(shù)、Logistic回歸和神經(jīng)網(wǎng)絡(luò)三種。決策樹(shù)模型是一個(gè)逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經(jīng)網(wǎng)絡(luò)模型提供了一個(gè)靈活的擬合形式。

        二、二手車性能評(píng)估模型的構(gòu)建

        1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理

        數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)有一定要求,所以要先進(jìn)行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預(yù)處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉(zhuǎn)換、數(shù)據(jù)約減等三個(gè)過(guò)程。本文所用205個(gè)實(shí)驗(yàn)數(shù)據(jù)、包含11個(gè)變量,數(shù)據(jù)量較少。

        表 原始實(shí)驗(yàn)數(shù)據(jù)屬性

        下面對(duì)表中各變量進(jìn)行分析處理:

        (1)數(shù)據(jù)特征探索:利用insight節(jié)點(diǎn),對(duì)各變量及目標(biāo)變量進(jìn)行可視化分析,探索各變量的關(guān)系、含義和特點(diǎn),為建模做準(zhǔn)備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設(shè)定目標(biāo)變量。建立target,當(dāng)Performance Cost等于1時(shí)表示這是一個(gè)性能高的二手車;Performance Cost等于0時(shí)表示該二手車的性能比較低。建模的目標(biāo)就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過(guò)程中能自動(dòng)將二者區(qū)分開(kāi)來(lái);(3)變量price與Performance Cost高度線性相關(guān),因此rejected。highway mpg與city mpg高度相關(guān),重復(fù)了,因此拒絕其中一個(gè),本模型是拒絕的highway mpg;(4)觀察目標(biāo)變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時(shí)候選擇用分層抽樣;(5)分層抽樣。訓(xùn)練集與驗(yàn)證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉(zhuǎn)換。通過(guò)觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對(duì)其進(jìn)行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴(yán)謹(jǐn),還是添加了replacement節(jié)點(diǎn),用決策樹(shù)方法對(duì)缺失的數(shù)據(jù)進(jìn)行處理。

        2.模型的建立

        (1)決策樹(shù)

        因?yàn)闆Q策樹(shù)本身具有處理缺失值的能力,可直接將未經(jīng)過(guò)缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點(diǎn)劃分標(biāo)準(zhǔn),采用二叉樹(shù)進(jìn)行建模,設(shè)置樹(shù):j最大深度為6,最小葉子觀測(cè)數(shù)為5。從模型輸出結(jié)果得,SAS自動(dòng)設(shè)置的模型中當(dāng)生成有6個(gè)葉子節(jié)點(diǎn)的決策樹(shù)時(shí),訓(xùn)練樣本集細(xì)分誤分率為9.09%,檢驗(yàn)樣本集細(xì)分誤分率為7.14%。

        決策樹(shù)模型的綜合評(píng)價(jià):輸出結(jié)果得出在“性能高的二手車”歷史記錄中有87.5%的預(yù)測(cè)值為“性能高的二手車”。在“性能高的二手車”紀(jì)錄中有12.5%的預(yù)測(cè)值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預(yù)測(cè)為“性能高的二手車”;將歷史紀(jì)錄中96.154%的“性能低的二手車”預(yù)測(cè)為“性能低的二手車”。由評(píng)價(jià)結(jié)果可知,該決策樹(shù)對(duì)性能低的二手車的正確判斷率達(dá)了96.154%的較高水平,而對(duì)性能高的二手車的正確判斷率也達(dá)到了87.5%,該決策樹(shù)對(duì)性能低的二手車的預(yù)測(cè)準(zhǔn)確率更理想。

        (2)logistic回歸建模

        借助回歸節(jié)點(diǎn)建立模型,采用logistic回歸方法,回歸方式設(shè)置為backward,input coding選擇GLM。從模型輸出結(jié)果圖得出,誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集誤分率為9.92%,檢驗(yàn)樣本集誤分率為11.9%。

        Logistic模型的預(yù)測(cè)準(zhǔn)確率:模型將84.375%的“性能好的二手車”預(yù)測(cè)為“性能好的二手車”,將15.625%的“性能好的二手車”預(yù)測(cè)為“性能差的二手車”。有90.385%的“性能差的二手車”被預(yù)測(cè)為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預(yù)測(cè)為“性能好的二手車”??梢?jiàn)回歸模型對(duì)性能好的二手車預(yù)測(cè)的準(zhǔn)確率沒(méi)有決策樹(shù)模型高。

        (3)神經(jīng)網(wǎng)絡(luò)建模

        神經(jīng)網(wǎng)絡(luò)建模:借助神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)建立模型,網(wǎng)絡(luò)采用輸入、隱層、輸出三層結(jié)構(gòu),其中隱層節(jié)點(diǎn)設(shè)置3個(gè)變量,其他設(shè)置采用軟件默認(rèn)設(shè)置。從模型輸出結(jié)果圖可以看出各種模型評(píng)價(jià)標(biāo)準(zhǔn),其中誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集細(xì)分誤分率為7.43%,檢驗(yàn)樣本集細(xì)分誤分率為8.33%。從訓(xùn)練過(guò)程得知訓(xùn)練誤差隨訓(xùn)練次數(shù)單調(diào)減少。選擇最佳的訓(xùn)練次數(shù)為7,此時(shí)的驗(yàn)證誤差最小。

        神經(jīng)網(wǎng)絡(luò)模型的預(yù)側(cè)準(zhǔn)確率:模型將87.5%的“性能好的二手車”預(yù)測(cè)為“性能好的二手車”,將12.5%的“性能好的二手車”預(yù)測(cè)為“性能差的二手車”。有94.23%的“性能差的二手車”被預(yù)測(cè)為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預(yù)測(cè)為“性能好的二手車”?;貧w模型一樣,對(duì)性能差的二手車的預(yù)測(cè)的準(zhǔn)確率比對(duì)性能好的二手車的預(yù)測(cè)的準(zhǔn)確率高。

        3.模型的比較評(píng)估

        由于數(shù)據(jù)挖掘模型有時(shí)會(huì)造成過(guò)度擬合,所以要對(duì)模型的正確性進(jìn)行判斷,保證預(yù)測(cè)可靠。在選擇解釋變量的時(shí)候,注重的是它們解釋目標(biāo)變量的能力。但是當(dāng)有很多的解釋變量時(shí),并不能斷定出總體的性質(zhì)。因此有必要對(duì)于模型的有效性進(jìn)行評(píng)估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓(xùn)練,驗(yàn)證兩部分結(jié)果有一定差距。盡管如此,我們?nèi)钥梢詮膶?shí)驗(yàn)的結(jié)果中獲得一些有意義的結(jié)論。

        決策樹(shù),logistic回歸,神經(jīng)網(wǎng)絡(luò)模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

        綜合訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集的結(jié)果,對(duì)三個(gè)模型進(jìn)行比較評(píng)價(jià)。從誤差率基于數(shù)據(jù)挖掘技術(shù)的二手車性能評(píng)估研究的比較表中可以看出,決策樹(shù)模型和神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上誤分率低,但在驗(yàn)證集上誤分率增大比較多,有“過(guò)擬合”的現(xiàn)象。從lift圖上來(lái)看,幾個(gè)模型的效果都比較好。綜合來(lái)看,選擇決策樹(shù)模型。

        最后得到的規(guī)則是:

        性能好的二手車:

        (1)horsepower>=94.5 &engine size>=158.5

        (2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

        i&city mpg<22

        (3)horsepower>=94.5 &engine size<158.5&fuel system=mp

        fi &city mpg>=22 &Compression ratio>=9.45

        然而以上都不是最好的評(píng)價(jià)標(biāo)準(zhǔn),原因是沒(méi)有考慮到類型I錯(cuò)誤和類型II錯(cuò)誤的代價(jià)不同。如果兩者代價(jià)相同,則考慮誤分率是最佳的標(biāo)準(zhǔn),但現(xiàn)實(shí)中往往不是如此。

        三、總結(jié)

        二手車模型評(píng)估應(yīng)建立在大量數(shù)據(jù)的統(tǒng)計(jì)結(jié)果之上,才具有準(zhǔn)確性和可靠性。它通過(guò)賣家填寫的有關(guān)二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實(shí)現(xiàn)二手車較為公平的交易。另外,通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進(jìn)一步調(diào)整客戶二手車模型評(píng)估體系,從而為將來(lái)完善二手車模型評(píng)估體系起著重要作用。隨著我國(guó)二手車各項(xiàng)制度的建立、相應(yīng)法律環(huán)境的完善、信息化建設(shè)的發(fā)展、信息資源共享的實(shí)現(xiàn),數(shù)據(jù)挖掘技術(shù)將成為二手車交易管理的重要工具。

        參考文獻(xiàn):

        [1]張輝,鄭安文.中國(guó)二手車市場(chǎng)現(xiàn)狀分析及發(fā)展對(duì)策[J].汽車工業(yè)研究,2012(7):10-13.

        [2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險(xiǎn)索賠頻率預(yù)測(cè)[J].統(tǒng)計(jì)研究,2012(3): 22-26.

        作者簡(jiǎn)介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院

        摘 要:近來(lái)年我國(guó)二手車市場(chǎng)發(fā)展迅速,但市場(chǎng)不夠規(guī)范,主要依靠人為判斷,評(píng)估不客觀,甚至在鑒定評(píng)估過(guò)程中,有故意隱瞞車輛質(zhì)量問(wèn)題、以次充好等欺騙消費(fèi)者現(xiàn)象,給二手車市場(chǎng)造成不良影響。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)、logistic回歸和神經(jīng)網(wǎng)絡(luò)對(duì)205個(gè)二手車數(shù)據(jù)進(jìn)行分析,利用相關(guān)數(shù)據(jù)資料分別建立不同的二手車性能評(píng)估模型,實(shí)現(xiàn)了對(duì)二手車性能的多種復(fù)雜混合因素一定程度上的定量分析。

        關(guān)鍵詞:二手車性能評(píng)估;數(shù)據(jù)挖掘;決策樹(shù);logisticl回歸;神經(jīng)網(wǎng)絡(luò)

        一、二手車評(píng)估的現(xiàn)狀和發(fā)展

        雖然2011年的二手車銷量為433萬(wàn)輛,是2000年25萬(wàn)的16.3倍。但是還不到新車銷量的1/4,這說(shuō)明我國(guó)二手車市場(chǎng)還存在很大的發(fā)展空間。而鑒定評(píng)估缺乏科學(xué)統(tǒng)一的標(biāo)準(zhǔn),對(duì)二手車市場(chǎng)的發(fā)展都有較大影響。與傳統(tǒng)主觀簡(jiǎn)單的評(píng)估方法相比,評(píng)估模型優(yōu)勢(shì)明顯。在數(shù)據(jù)挖掘技術(shù)中主要的預(yù)測(cè)模型有決策樹(shù)、Logistic回歸和神經(jīng)網(wǎng)絡(luò)三種。決策樹(shù)模型是一個(gè)逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經(jīng)網(wǎng)絡(luò)模型提供了一個(gè)靈活的擬合形式。

        二、二手車性能評(píng)估模型的構(gòu)建

        1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理

        數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)有一定要求,所以要先進(jìn)行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預(yù)處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉(zhuǎn)換、數(shù)據(jù)約減等三個(gè)過(guò)程。本文所用205個(gè)實(shí)驗(yàn)數(shù)據(jù)、包含11個(gè)變量,數(shù)據(jù)量較少。

        表 原始實(shí)驗(yàn)數(shù)據(jù)屬性

        下面對(duì)表中各變量進(jìn)行分析處理:

        (1)數(shù)據(jù)特征探索:利用insight節(jié)點(diǎn),對(duì)各變量及目標(biāo)變量進(jìn)行可視化分析,探索各變量的關(guān)系、含義和特點(diǎn),為建模做準(zhǔn)備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設(shè)定目標(biāo)變量。建立target,當(dāng)Performance Cost等于1時(shí)表示這是一個(gè)性能高的二手車;Performance Cost等于0時(shí)表示該二手車的性能比較低。建模的目標(biāo)就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過(guò)程中能自動(dòng)將二者區(qū)分開(kāi)來(lái);(3)變量price與Performance Cost高度線性相關(guān),因此rejected。highway mpg與city mpg高度相關(guān),重復(fù)了,因此拒絕其中一個(gè),本模型是拒絕的highway mpg;(4)觀察目標(biāo)變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時(shí)候選擇用分層抽樣;(5)分層抽樣。訓(xùn)練集與驗(yàn)證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉(zhuǎn)換。通過(guò)觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對(duì)其進(jìn)行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴(yán)謹(jǐn),還是添加了replacement節(jié)點(diǎn),用決策樹(shù)方法對(duì)缺失的數(shù)據(jù)進(jìn)行處理。

        2.模型的建立

        (1)決策樹(shù)

        因?yàn)闆Q策樹(shù)本身具有處理缺失值的能力,可直接將未經(jīng)過(guò)缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點(diǎn)劃分標(biāo)準(zhǔn),采用二叉樹(shù)進(jìn)行建模,設(shè)置樹(shù):j最大深度為6,最小葉子觀測(cè)數(shù)為5。從模型輸出結(jié)果得,SAS自動(dòng)設(shè)置的模型中當(dāng)生成有6個(gè)葉子節(jié)點(diǎn)的決策樹(shù)時(shí),訓(xùn)練樣本集細(xì)分誤分率為9.09%,檢驗(yàn)樣本集細(xì)分誤分率為7.14%。

        決策樹(shù)模型的綜合評(píng)價(jià):輸出結(jié)果得出在“性能高的二手車”歷史記錄中有87.5%的預(yù)測(cè)值為“性能高的二手車”。在“性能高的二手車”紀(jì)錄中有12.5%的預(yù)測(cè)值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預(yù)測(cè)為“性能高的二手車”;將歷史紀(jì)錄中96.154%的“性能低的二手車”預(yù)測(cè)為“性能低的二手車”。由評(píng)價(jià)結(jié)果可知,該決策樹(shù)對(duì)性能低的二手車的正確判斷率達(dá)了96.154%的較高水平,而對(duì)性能高的二手車的正確判斷率也達(dá)到了87.5%,該決策樹(shù)對(duì)性能低的二手車的預(yù)測(cè)準(zhǔn)確率更理想。

        (2)logistic回歸建模

        借助回歸節(jié)點(diǎn)建立模型,采用logistic回歸方法,回歸方式設(shè)置為backward,input coding選擇GLM。從模型輸出結(jié)果圖得出,誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集誤分率為9.92%,檢驗(yàn)樣本集誤分率為11.9%。

        Logistic模型的預(yù)測(cè)準(zhǔn)確率:模型將84.375%的“性能好的二手車”預(yù)測(cè)為“性能好的二手車”,將15.625%的“性能好的二手車”預(yù)測(cè)為“性能差的二手車”。有90.385%的“性能差的二手車”被預(yù)測(cè)為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預(yù)測(cè)為“性能好的二手車”。可見(jiàn)回歸模型對(duì)性能好的二手車預(yù)測(cè)的準(zhǔn)確率沒(méi)有決策樹(shù)模型高。

        (3)神經(jīng)網(wǎng)絡(luò)建模

        神經(jīng)網(wǎng)絡(luò)建模:借助神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)建立模型,網(wǎng)絡(luò)采用輸入、隱層、輸出三層結(jié)構(gòu),其中隱層節(jié)點(diǎn)設(shè)置3個(gè)變量,其他設(shè)置采用軟件默認(rèn)設(shè)置。從模型輸出結(jié)果圖可以看出各種模型評(píng)價(jià)標(biāo)準(zhǔn),其中誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集細(xì)分誤分率為7.43%,檢驗(yàn)樣本集細(xì)分誤分率為8.33%。從訓(xùn)練過(guò)程得知訓(xùn)練誤差隨訓(xùn)練次數(shù)單調(diào)減少。選擇最佳的訓(xùn)練次數(shù)為7,此時(shí)的驗(yàn)證誤差最小。

        神經(jīng)網(wǎng)絡(luò)模型的預(yù)側(cè)準(zhǔn)確率:模型將87.5%的“性能好的二手車”預(yù)測(cè)為“性能好的二手車”,將12.5%的“性能好的二手車”預(yù)測(cè)為“性能差的二手車”。有94.23%的“性能差的二手車”被預(yù)測(cè)為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預(yù)測(cè)為“性能好的二手車”?;貧w模型一樣,對(duì)性能差的二手車的預(yù)測(cè)的準(zhǔn)確率比對(duì)性能好的二手車的預(yù)測(cè)的準(zhǔn)確率高。

        3.模型的比較評(píng)估

        由于數(shù)據(jù)挖掘模型有時(shí)會(huì)造成過(guò)度擬合,所以要對(duì)模型的正確性進(jìn)行判斷,保證預(yù)測(cè)可靠。在選擇解釋變量的時(shí)候,注重的是它們解釋目標(biāo)變量的能力。但是當(dāng)有很多的解釋變量時(shí),并不能斷定出總體的性質(zhì)。因此有必要對(duì)于模型的有效性進(jìn)行評(píng)估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓(xùn)練,驗(yàn)證兩部分結(jié)果有一定差距。盡管如此,我們?nèi)钥梢詮膶?shí)驗(yàn)的結(jié)果中獲得一些有意義的結(jié)論。

        決策樹(shù),logistic回歸,神經(jīng)網(wǎng)絡(luò)模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

        綜合訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集的結(jié)果,對(duì)三個(gè)模型進(jìn)行比較評(píng)價(jià)。從誤差率基于數(shù)據(jù)挖掘技術(shù)的二手車性能評(píng)估研究的比較表中可以看出,決策樹(shù)模型和神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上誤分率低,但在驗(yàn)證集上誤分率增大比較多,有“過(guò)擬合”的現(xiàn)象。從lift圖上來(lái)看,幾個(gè)模型的效果都比較好。綜合來(lái)看,選擇決策樹(shù)模型。

        最后得到的規(guī)則是:

        性能好的二手車:

        (1)horsepower>=94.5 &engine size>=158.5

        (2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

        i&city mpg<22

        (3)horsepower>=94.5 &engine size<158.5&fuel system=mp

        fi &city mpg>=22 &Compression ratio>=9.45

        然而以上都不是最好的評(píng)價(jià)標(biāo)準(zhǔn),原因是沒(méi)有考慮到類型I錯(cuò)誤和類型II錯(cuò)誤的代價(jià)不同。如果兩者代價(jià)相同,則考慮誤分率是最佳的標(biāo)準(zhǔn),但現(xiàn)實(shí)中往往不是如此。

        三、總結(jié)

        二手車模型評(píng)估應(yīng)建立在大量數(shù)據(jù)的統(tǒng)計(jì)結(jié)果之上,才具有準(zhǔn)確性和可靠性。它通過(guò)賣家填寫的有關(guān)二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實(shí)現(xiàn)二手車較為公平的交易。另外,通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進(jìn)一步調(diào)整客戶二手車模型評(píng)估體系,從而為將來(lái)完善二手車模型評(píng)估體系起著重要作用。隨著我國(guó)二手車各項(xiàng)制度的建立、相應(yīng)法律環(huán)境的完善、信息化建設(shè)的發(fā)展、信息資源共享的實(shí)現(xiàn),數(shù)據(jù)挖掘技術(shù)將成為二手車交易管理的重要工具。

        參考文獻(xiàn):

        [1]張輝,鄭安文.中國(guó)二手車市場(chǎng)現(xiàn)狀分析及發(fā)展對(duì)策[J].汽車工業(yè)研究,2012(7):10-13.

        [2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險(xiǎn)索賠頻率預(yù)測(cè)[J].統(tǒng)計(jì)研究,2012(3): 22-26.

        作者簡(jiǎn)介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院

        摘 要:近來(lái)年我國(guó)二手車市場(chǎng)發(fā)展迅速,但市場(chǎng)不夠規(guī)范,主要依靠人為判斷,評(píng)估不客觀,甚至在鑒定評(píng)估過(guò)程中,有故意隱瞞車輛質(zhì)量問(wèn)題、以次充好等欺騙消費(fèi)者現(xiàn)象,給二手車市場(chǎng)造成不良影響。本文利用數(shù)據(jù)挖掘技術(shù)中的決策樹(shù)、logistic回歸和神經(jīng)網(wǎng)絡(luò)對(duì)205個(gè)二手車數(shù)據(jù)進(jìn)行分析,利用相關(guān)數(shù)據(jù)資料分別建立不同的二手車性能評(píng)估模型,實(shí)現(xiàn)了對(duì)二手車性能的多種復(fù)雜混合因素一定程度上的定量分析。

        關(guān)鍵詞:二手車性能評(píng)估;數(shù)據(jù)挖掘;決策樹(shù);logisticl回歸;神經(jīng)網(wǎng)絡(luò)

        一、二手車評(píng)估的現(xiàn)狀和發(fā)展

        雖然2011年的二手車銷量為433萬(wàn)輛,是2000年25萬(wàn)的16.3倍。但是還不到新車銷量的1/4,這說(shuō)明我國(guó)二手車市場(chǎng)還存在很大的發(fā)展空間。而鑒定評(píng)估缺乏科學(xué)統(tǒng)一的標(biāo)準(zhǔn),對(duì)二手車市場(chǎng)的發(fā)展都有較大影響。與傳統(tǒng)主觀簡(jiǎn)單的評(píng)估方法相比,評(píng)估模型優(yōu)勢(shì)明顯。在數(shù)據(jù)挖掘技術(shù)中主要的預(yù)測(cè)模型有決策樹(shù)、Logistic回歸和神經(jīng)網(wǎng)絡(luò)三種。決策樹(shù)模型是一個(gè)逐層分隔的形式,而Logistic回歸屬于廣義線性模型,神經(jīng)網(wǎng)絡(luò)模型提供了一個(gè)靈活的擬合形式。

        二、二手車性能評(píng)估模型的構(gòu)建

        1.數(shù)據(jù)預(yù)處理、數(shù)據(jù)探索與數(shù)據(jù)清理

        數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)有一定要求,所以要先進(jìn)行不完整數(shù)據(jù)、噪音數(shù)據(jù)、不一致數(shù)據(jù)的預(yù)處理。主要有數(shù)據(jù)清洗、數(shù)據(jù)集成與轉(zhuǎn)換、數(shù)據(jù)約減等三個(gè)過(guò)程。本文所用205個(gè)實(shí)驗(yàn)數(shù)據(jù)、包含11個(gè)變量,數(shù)據(jù)量較少。

        表 原始實(shí)驗(yàn)數(shù)據(jù)屬性

        下面對(duì)表中各變量進(jìn)行分析處理:

        (1)數(shù)據(jù)特征探索:利用insight節(jié)點(diǎn),對(duì)各變量及目標(biāo)變量進(jìn)行可視化分析,探索各變量的關(guān)系、含義和特點(diǎn),為建模做準(zhǔn)備。發(fā)現(xiàn)各變量缺失比例在2%以下,因此缺失變量可以忽視;(2)設(shè)定目標(biāo)變量。建立target,當(dāng)Performance Cost等于1時(shí)表示這是一個(gè)性能高的二手車;Performance Cost等于0時(shí)表示該二手車的性能比較低。建模的目標(biāo)就是要從數(shù)據(jù)中挖掘出性能高與低的二手車的不同特征,在模型審批過(guò)程中能自動(dòng)將二者區(qū)分開(kāi)來(lái);(3)變量price與Performance Cost高度線性相關(guān),因此rejected。highway mpg與city mpg高度相關(guān),重復(fù)了,因此拒絕其中一個(gè),本模型是拒絕的highway mpg;(4)觀察目標(biāo)變量的分布,可以看到性能高的二手車與性能低的二手車的比例分別為62%與38%。因此在數(shù)據(jù)分區(qū)的時(shí)候選擇用分層抽樣;(5)分層抽樣。訓(xùn)練集與驗(yàn)證集的比例分別為60%,40%;(6)數(shù)據(jù)的轉(zhuǎn)換。通過(guò)觀察數(shù)據(jù)的分布可以看到engine size,Compression ratio,horsepower,price變量不是類似于正態(tài)分布的,因此對(duì)其進(jìn)行正態(tài)化處理;(7)雖然缺失數(shù)據(jù)比例很小,但是為了建模的嚴(yán)謹(jǐn),還是添加了replacement節(jié)點(diǎn),用決策樹(shù)方法對(duì)缺失的數(shù)據(jù)進(jìn)行處理。

        2.模型的建立

        (1)決策樹(shù)

        因?yàn)闆Q策樹(shù)本身具有處理缺失值的能力,可直接將未經(jīng)過(guò)缺失數(shù)據(jù)替換的原始數(shù)據(jù)作為輸入數(shù)據(jù)。本文采用熵不純性的降低作為節(jié)點(diǎn)劃分標(biāo)準(zhǔn),采用二叉樹(shù)進(jìn)行建模,設(shè)置樹(shù):j最大深度為6,最小葉子觀測(cè)數(shù)為5。從模型輸出結(jié)果得,SAS自動(dòng)設(shè)置的模型中當(dāng)生成有6個(gè)葉子節(jié)點(diǎn)的決策樹(shù)時(shí),訓(xùn)練樣本集細(xì)分誤分率為9.09%,檢驗(yàn)樣本集細(xì)分誤分率為7.14%。

        決策樹(shù)模型的綜合評(píng)價(jià):輸出結(jié)果得出在“性能高的二手車”歷史記錄中有87.5%的預(yù)測(cè)值為“性能高的二手車”。在“性能高的二手車”紀(jì)錄中有12.5%的預(yù)測(cè)值為“性能低的二手車”。模型將3.846%的“性能低的二手車”預(yù)測(cè)為“性能高的二手車”;將歷史紀(jì)錄中96.154%的“性能低的二手車”預(yù)測(cè)為“性能低的二手車”。由評(píng)價(jià)結(jié)果可知,該決策樹(shù)對(duì)性能低的二手車的正確判斷率達(dá)了96.154%的較高水平,而對(duì)性能高的二手車的正確判斷率也達(dá)到了87.5%,該決策樹(shù)對(duì)性能低的二手車的預(yù)測(cè)準(zhǔn)確率更理想。

        (2)logistic回歸建模

        借助回歸節(jié)點(diǎn)建立模型,采用logistic回歸方法,回歸方式設(shè)置為backward,input coding選擇GLM。從模型輸出結(jié)果圖得出,誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集誤分率為9.92%,檢驗(yàn)樣本集誤分率為11.9%。

        Logistic模型的預(yù)測(cè)準(zhǔn)確率:模型將84.375%的“性能好的二手車”預(yù)測(cè)為“性能好的二手車”,將15.625%的“性能好的二手車”預(yù)測(cè)為“性能差的二手車”。有90.385%的“性能差的二手車”被預(yù)測(cè)為“性能差的二手車”,剩下9.615%的“性能差的二手車”被預(yù)測(cè)為“性能好的二手車”??梢?jiàn)回歸模型對(duì)性能好的二手車預(yù)測(cè)的準(zhǔn)確率沒(méi)有決策樹(shù)模型高。

        (3)神經(jīng)網(wǎng)絡(luò)建模

        神經(jīng)網(wǎng)絡(luò)建模:借助神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)建立模型,網(wǎng)絡(luò)采用輸入、隱層、輸出三層結(jié)構(gòu),其中隱層節(jié)點(diǎn)設(shè)置3個(gè)變量,其他設(shè)置采用軟件默認(rèn)設(shè)置。從模型輸出結(jié)果圖可以看出各種模型評(píng)價(jià)標(biāo)準(zhǔn),其中誤分率標(biāo)準(zhǔn)表明,訓(xùn)練樣本集細(xì)分誤分率為7.43%,檢驗(yàn)樣本集細(xì)分誤分率為8.33%。從訓(xùn)練過(guò)程得知訓(xùn)練誤差隨訓(xùn)練次數(shù)單調(diào)減少。選擇最佳的訓(xùn)練次數(shù)為7,此時(shí)的驗(yàn)證誤差最小。

        神經(jīng)網(wǎng)絡(luò)模型的預(yù)側(cè)準(zhǔn)確率:模型將87.5%的“性能好的二手車”預(yù)測(cè)為“性能好的二手車”,將12.5%的“性能好的二手車”預(yù)測(cè)為“性能差的二手車”。有94.23%的“性能差的二手車”被預(yù)測(cè)為“性能差的二手車”,剩下5.77%的“性能差的二手車”被預(yù)測(cè)為“性能好的二手車”?;貧w模型一樣,對(duì)性能差的二手車的預(yù)測(cè)的準(zhǔn)確率比對(duì)性能好的二手車的預(yù)測(cè)的準(zhǔn)確率高。

        3.模型的比較評(píng)估

        由于數(shù)據(jù)挖掘模型有時(shí)會(huì)造成過(guò)度擬合,所以要對(duì)模型的正確性進(jìn)行判斷,保證預(yù)測(cè)可靠。在選擇解釋變量的時(shí)候,注重的是它們解釋目標(biāo)變量的能力。但是當(dāng)有很多的解釋變量時(shí),并不能斷定出總體的性質(zhì)。因此有必要對(duì)于模型的有效性進(jìn)行評(píng)估,以保證模型的可靠穩(wěn)健。本文所用數(shù)據(jù)只有205條,在分拆后建模難度增大,訓(xùn)練,驗(yàn)證兩部分結(jié)果有一定差距。盡管如此,我們?nèi)钥梢詮膶?shí)驗(yàn)的結(jié)果中獲得一些有意義的結(jié)論。

        決策樹(shù),logistic回歸,神經(jīng)網(wǎng)絡(luò)模型的比較:不同模型在不同數(shù)據(jù)集上的誤差率比較和lift圖

        綜合訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集的結(jié)果,對(duì)三個(gè)模型進(jìn)行比較評(píng)價(jià)。從誤差率基于數(shù)據(jù)挖掘技術(shù)的二手車性能評(píng)估研究的比較表中可以看出,決策樹(shù)模型和神經(jīng)網(wǎng)絡(luò)模型的準(zhǔn)確率最高。神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上誤分率低,但在驗(yàn)證集上誤分率增大比較多,有“過(guò)擬合”的現(xiàn)象。從lift圖上來(lái)看,幾個(gè)模型的效果都比較好。綜合來(lái)看,選擇決策樹(shù)模型。

        最后得到的規(guī)則是:

        性能好的二手車:

        (1)horsepower>=94.5 &engine size>=158.5

        (2)horsepower>=94.5 &enginesize<158.5 &fuelsystem=mpf

        i&city mpg<22

        (3)horsepower>=94.5 &engine size<158.5&fuel system=mp

        fi &city mpg>=22 &Compression ratio>=9.45

        然而以上都不是最好的評(píng)價(jià)標(biāo)準(zhǔn),原因是沒(méi)有考慮到類型I錯(cuò)誤和類型II錯(cuò)誤的代價(jià)不同。如果兩者代價(jià)相同,則考慮誤分率是最佳的標(biāo)準(zhǔn),但現(xiàn)實(shí)中往往不是如此。

        三、總結(jié)

        二手車模型評(píng)估應(yīng)建立在大量數(shù)據(jù)的統(tǒng)計(jì)結(jié)果之上,才具有準(zhǔn)確性和可靠性。它通過(guò)賣家填寫的有關(guān)二手車的資料,可以快速、有效地辨別和劃分二手策劃的優(yōu)劣,實(shí)現(xiàn)二手車較為公平的交易。另外,通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)的一些新模式,可以進(jìn)一步調(diào)整客戶二手車模型評(píng)估體系,從而為將來(lái)完善二手車模型評(píng)估體系起著重要作用。隨著我國(guó)二手車各項(xiàng)制度的建立、相應(yīng)法律環(huán)境的完善、信息化建設(shè)的發(fā)展、信息資源共享的實(shí)現(xiàn),數(shù)據(jù)挖掘技術(shù)將成為二手車交易管理的重要工具。

        參考文獻(xiàn):

        [1]張輝,鄭安文.中國(guó)二手車市場(chǎng)現(xiàn)狀分析及發(fā)展對(duì)策[J].汽車工業(yè)研究,2012(7):10-13.

        [2]孟生旺.神經(jīng)網(wǎng)絡(luò)模型與車險(xiǎn)索賠頻率預(yù)測(cè)[J].統(tǒng)計(jì)研究,2012(3): 22-26.

        作者簡(jiǎn)介:曹靜嫻,女,于2010年9月至2014年7月就讀于西南財(cái)經(jīng)大學(xué)經(jīng)濟(jì)信息工程學(xué)院

        猜你喜歡
        決策樹(shù)數(shù)據(jù)挖掘神經(jīng)網(wǎng)絡(luò)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
        電子制作(2019年19期)2019-11-23 08:42:00
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        基于決策樹(shù)的出租車乘客出行目的識(shí)別
        基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        白白色视频这里只有精品| 免费观看的a级毛片的网站| 麻豆国产原创视频在线播放| 国产精品人妻一区夜夜爱| 国产精品视频免费的| 亚洲一区二区三在线播放| 在线观看国产自拍视频| 国产自拍成人免费视频| 国产精品极品美女自在线观看免费| 真人做爰片免费观看播放| 色爱区综合五月激情| 亚洲精品成人国产av| 亚洲成生人免费av毛片| 北条麻妃在线中文字幕| 18禁黄污吃奶免费看网站| 香蕉久久人人97超碰caoproen| 日韩欧美第一区二区三区| 黑丝美女喷水在线观看| 就爱射视频在线视频在线| 国产又a又黄又潮娇喘视频| 成年女人毛片免费视频| 人妻无码中文专区久久AV| 亚洲av色精品国产一区二区三区| 加勒比色老久久爱综合网| 亚洲精品午夜无码专区| 国产精品一区高清在线观看| 国产福利小视频91| 成人爽a毛片免费网站中国| 国产在线播放一区二区不卡| 国内成+人 亚洲+欧美+综合在线| 日产无人区一线二线三线新版| WWW拍拍拍| 亚洲中文字幕第一页免费| 日韩一区二区三区无码影院| 精品国模一区二区三区| 国产免费专区| 国内国外日产一区二区| 欧洲熟妇色xxxx欧美老妇软件 | 久久99精品国产麻豆| 亚洲国产精品国自产电影| 日本二区三区视频在线观看|