周寶建 林佳慧 廈門大學(xué)嘉庚學(xué)院
2020年1月,新冠疫情席卷全球,我國(guó)疫情在第二季度得到較好的控制,疊加產(chǎn)業(yè)刺激政策和廠商促銷,汽車消費(fèi)需求得到了回補(bǔ),乘用車市場(chǎng)也已呈現(xiàn)“V”型反轉(zhuǎn)。[2]作為中國(guó)汽車市場(chǎng)的重要組成部分——二手車市場(chǎng)恢復(fù)較為迅速,1-7月累計(jì)交易759萬(wàn)輛,同比增長(zhǎng)3.5%。雖然交易增速不及前幾年水平,但整體市場(chǎng)規(guī)模穩(wěn)步擴(kuò)張,我國(guó)二手車市場(chǎng)已進(jìn)入一個(gè)新發(fā)展階段,行業(yè)持續(xù)向好的態(tài)勢(shì)十分明朗,2020全年交易量有望達(dá)到1400萬(wàn)輛的歷史高位。[3]
二手車的自由交易和流通使得二手車市場(chǎng)逐漸活躍起來(lái),二手車交易也越來(lái)越受到人們的青睞。[4]此時(shí),二手車保值率成為衡量二手車市場(chǎng)的重要指標(biāo)。其中,汽車的上牌時(shí)間、行駛里程、排量、變速類型、品牌及有無(wú)過(guò)戶等,是影響二手車保值率高低的重要指標(biāo)。瓜子二手車是近年來(lái)較為熱門的二手車交易網(wǎng)站,本文通過(guò)分析其2020年4月6000條二手車交易信息并使用多元線性回歸進(jìn)行分析,使數(shù)據(jù)更加清晰易懂,讓行業(yè)參與者明晰二手車保值率的影響因素,優(yōu)化決策。
近二十年來(lái),我國(guó)二手車交易數(shù)量急劇增加,截至2019年上半年,二手車的交易量達(dá)到了1382萬(wàn)輛,但是隨著交易量的增多,二手車的交易市場(chǎng)也開始出現(xiàn)一系列的問(wèn)題。這些問(wèn)題的原因是因?yàn)橘I賣雙方的信息不對(duì)稱,導(dǎo)致二手車的價(jià)格不明確,車輛信息存在不準(zhǔn)確或者不清晰的情況。對(duì)于二手車的買家來(lái)說(shuō),如何利用賣家提供的車輛信息準(zhǔn)確地評(píng)估,了解目標(biāo)車輛的詳盡狀況,掌握更多的不同品牌不同車況在資料,更加接近買家的需求。只有這樣,買家才有機(jī)會(huì)用合適的價(jià)格買到心儀的車輛。
二手車常用的評(píng)估方式,有現(xiàn)行市場(chǎng)法、重置成本法,神經(jīng)網(wǎng)絡(luò)、基于特征價(jià)格理論分析等等算法。其中重置成本法應(yīng)用較為廣泛,它具有實(shí)用性強(qiáng),應(yīng)用廣,技術(shù)發(fā)展成熟等優(yōu)點(diǎn),但是同時(shí)也有著工作量大,計(jì)算時(shí)考慮因素單一,缺乏規(guī)?;涂陀^性以及信息不對(duì)稱等缺點(diǎn)。本文則利用多元線性回歸方程,試圖給二手車買家提供更多的可行的建議。
對(duì)爬取的二手車數(shù)據(jù)進(jìn)行清洗,對(duì)其中的缺失值以及噪聲數(shù)據(jù)等進(jìn)行處理,進(jìn)而得到干凈的數(shù)據(jù),并對(duì)部分?jǐn)?shù)據(jù)進(jìn)行轉(zhuǎn)換,使其成為可以適應(yīng)數(shù)據(jù)挖掘需求的形式。通過(guò)可視化展示,對(duì)數(shù)據(jù)的分布情況有一個(gè)初步的了解。
瓜子二手車直賣網(wǎng)于2015年 9月27日正式上線。實(shí)時(shí)在售個(gè)人車源量超過(guò)15 萬(wàn)臺(tái),業(yè)務(wù)覆蓋面廣,增長(zhǎng)速度蟬聯(lián)數(shù)年行業(yè)第一,并于2015年11 月,斬獲“2015中國(guó)汽車金引擎獎(jiǎng)之最佳C2C二手車電商平臺(tái)”。[5]
本文收集了來(lái)自瓜子二手車直賣網(wǎng)交易平臺(tái)截至2020年4月16日的6000輛二手車數(shù)據(jù),經(jīng)過(guò)清洗后,最終剩余5478條數(shù)據(jù)。其中包含的樣本量n=5478輛車。因變量由汽車的原價(jià)和報(bào)價(jià)兩個(gè)部分構(gòu)成,定義保值率=車主報(bào)價(jià)/新車指導(dǎo)價(jià),將自變量分為五個(gè)部分,即車齡、使用里程、動(dòng)力情況、品牌和過(guò)戶情況。
數(shù)據(jù)挖掘中所使用的數(shù)據(jù)基本都是來(lái)自日常的生產(chǎn)、生活以及商業(yè)上的實(shí)際數(shù)據(jù),并且這些數(shù)據(jù)通常情況下是不完整的、含噪聲的、存在上下不一致的狀況,因此,使用這樣的數(shù)據(jù)之前,需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,剔除數(shù)據(jù)中的噪聲,恢復(fù)其完整性和一致性。本文主要利用刪除法和插補(bǔ)法處理數(shù)據(jù)集中的空缺值,插補(bǔ)法利用了均值插補(bǔ)和回歸插補(bǔ)。在噪聲數(shù)據(jù)處理上則主要利用離群點(diǎn)分析和小波去噪去除了數(shù)據(jù)集中的異常值,在合理的范圍內(nèi)盡可能的降低分析中會(huì)造成的誤差。
其中離群點(diǎn)分析,是剔除所有數(shù)據(jù)中與其他數(shù)據(jù)一般的行為和特征不一致的離群點(diǎn),這些離群點(diǎn)往往是測(cè)量或者執(zhí)行誤差以及數(shù)據(jù)本身的可變性、彈性所導(dǎo)致的。將其剔除可以避免其對(duì)后續(xù)數(shù)據(jù)分析的干擾。
對(duì)于收集到的數(shù)據(jù),通常使用統(tǒng)計(jì)圖表來(lái)探索其規(guī)律。在對(duì)二手車保值率的影響因素進(jìn)行建模之前,首先對(duì)各變量進(jìn)行描述性統(tǒng)計(jì)分析,以初步判斷二手車保值率。
數(shù)據(jù)集中,主要涉及30個(gè)品牌,數(shù)目最多的品牌是大眾,有867輛二手車在售,超過(guò)100輛在售的品牌有13個(gè),其中位于前五的分別是:大眾、奔馳、本田、別克、寶馬。
車輛過(guò)戶即變更車輛所屬人名稱,汽車戶口主要登記汽車所有者和住址,以及相關(guān)的一些汽車參數(shù),成功過(guò)戶的汽車證明此輛汽車沒(méi)有肇事和違章,這是購(gòu)買二手車輛的必經(jīng)環(huán)節(jié)。而0過(guò)戶車輛表示該車屬于個(gè)人一手車,一般而言車況會(huì)好于有過(guò)戶次數(shù)的車輛,所以在二手市場(chǎng)上也相對(duì)更為受到歡迎。該數(shù)據(jù)集中非0過(guò)戶車輛占比57.2%平均保值率58.91%,而0過(guò)戶占比42.7%,平均保值率為61.75%.
大多數(shù)情況是,購(gòu)買年限稱為車齡,是在購(gòu)買二手車首要參考的要素之一。由數(shù)據(jù)可視化結(jié)果可知,在二手車市場(chǎng)中,在售車輛的購(gòu)買年限以4-6年為主,且由中位數(shù)和平均數(shù)結(jié)果可知,主要集中在5年左右。
接下來(lái)要探索的是汽車的動(dòng)力情況與保值率高低之間的關(guān)系,動(dòng)力情況主要由排放標(biāo)準(zhǔn)、汽車排量、最大馬力和動(dòng)力類型組成,具體情況由下圖4二手車動(dòng)力情況分布圖所示。通過(guò)描述性統(tǒng)計(jì)分析可以發(fā)現(xiàn),汽油車保值率要高于電動(dòng)汽車等其他二手車的保值率,擁有國(guó)五排放標(biāo)準(zhǔn)的二手車保值率高于其他排放標(biāo)準(zhǔn)的二手車,這大概是由于國(guó)五排放標(biāo)準(zhǔn)的車輛更容易外遷入其他省市,同時(shí)國(guó)五排放標(biāo)準(zhǔn)的汽車也更加環(huán)保,這也體現(xiàn)了人們對(duì)環(huán)保問(wèn)題的重視。
事實(shí)上,一種現(xiàn)象常常是與多個(gè)因素相聯(lián)系的,由多個(gè)自變量的最優(yōu)組合共同來(lái)預(yù)測(cè)或者估計(jì)因變量,比只用一個(gè)自變量進(jìn)行預(yù)測(cè)和估計(jì)更有效更符合實(shí)際。[6]
在二手車市場(chǎng),一輛二手車的保值率可能與多個(gè)因素相關(guān),假設(shè)保值率與二手車車齡、使用歷程、變速方式品牌、上牌時(shí)間等因素有關(guān),就需要用多元線性回歸對(duì)保值率進(jìn)行相關(guān)分析與預(yù)測(cè)。
通常用普通最小二乘法求解回歸系數(shù),其原理是使各個(gè)觀測(cè)點(diǎn)處的偏差平方和達(dá)到最小,即:
解之可得
將數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,按80%和20%的比例進(jìn)行劃分。并通過(guò)python多元線性回歸模型,運(yùn)行代碼得到圖5以及系數(shù)與截距:
系數(shù):[[-1.39006833e-03 4.48794761e+00-6.87926757e-01-4.49983546e+00]]
截距:[82.94606317]
對(duì)多元線性回歸模型進(jìn)行顯著性F檢驗(yàn),以此來(lái)判斷全體自變量是否在總體上對(duì)因變量產(chǎn)生顯著的影響。構(gòu)造F檢驗(yàn)統(tǒng)計(jì)量對(duì)總體進(jìn)行顯著性檢驗(yàn)。
結(jié)果顯示,該線性回歸模型的擬合優(yōu)度為。0.778,說(shuō)明擬合的該模型擬合效果較好,模型中各個(gè)變量均通過(guò)了顯著性檢驗(yàn),并且變量的系數(shù)也與經(jīng)濟(jì)意義相符,其中上牌時(shí)間、行駛里程、過(guò)戶次數(shù)等變量的系數(shù)為負(fù),說(shuō)明這幾個(gè)變量與二手車保值率之間是負(fù)相關(guān)的,二手車保值率隨上述幾個(gè)變量的增加而降低。
車輛的變速器主要分為自動(dòng)和手動(dòng),購(gòu)車的首要考慮的是個(gè)人喜好問(wèn)題,另外還要從維修角度考慮,如果是手動(dòng)變速器且質(zhì)量好一點(diǎn)的汽車,十年之內(nèi)變速器一般不會(huì)壞,只要定期更換變速器油即可。[8]但自動(dòng)變速器車除了更換自動(dòng)變速器油,可能其內(nèi)部零件已磨損嚴(yán)重,所以購(gòu)買以前一定要了解清楚維修情況。
一般情況下,使用3年左右的汽車已經(jīng)度過(guò)了磨合期,[9]且較大部分的汽車已經(jīng)做了保養(yǎng),適宜購(gòu)買。
一般暢銷和口碑較好的汽車保值率較高,如德系里的大眾,日系里的豐田,韓系里的現(xiàn)代等。
一般來(lái)說(shuō),行駛里程數(shù)與車況成反比,一年行駛2萬(wàn)千米是較為正常的。
汽車的排量與油耗直接相關(guān),一般情況下購(gòu)買二手車時(shí)性價(jià)比是重要參考因素,因此選擇排量較小的車更為合適,且汽車的排量越大則車船稅務(wù)就會(huì)越大,這也需要考慮在內(nèi)。[10]
近十年來(lái),隨著國(guó)民生活水平不斷提高,家用汽車更新?lián)Q代頻率顯著提高,二手車市場(chǎng)交易非?;钴S,合理科學(xué)地確定二手車的保值率對(duì)購(gòu)買二手汽車的客戶來(lái)說(shuō)意義重大。[7]本文從大數(shù)據(jù)角度出發(fā),以瓜子二手車直賣網(wǎng)上的在售二手車作為研究對(duì)象,利用描述性統(tǒng)計(jì)與多元線性的方法對(duì)二手車保值率的影響因素進(jìn)行了深入研究,得到如下結(jié)論:
從使用狀況層面上來(lái)看,車齡和行駛里程對(duì)二手車保值率的高低有著重要的影響,車齡1-5年的二手車和里程數(shù)九萬(wàn)公里以下的二手車擁有較好的保值率。從基本屬性層面來(lái)看,汽車品牌、是否過(guò)戶都會(huì)對(duì)保值率的高低產(chǎn)生一定的影響,例如汽車品牌變量,人們對(duì)品牌的偏愛(ài)會(huì)促使人們買特定品牌的汽車。從動(dòng)力情況,排放標(biāo)準(zhǔn)、汽車排量、最大馬力、動(dòng)力類型、變速等對(duì)保值率的高低有著一定的影響,人們更樂(lè)意購(gòu)買排放標(biāo)準(zhǔn)更高的二手車。排量決定了汽車的油耗,這也是普通家庭在購(gòu)車中需要考慮的因素。