周亞林,葉琴,郭杰,王雪成
(1.交通運(yùn)輸部科學(xué)研究院,北京 100029;2.新疆交通科學(xué)研究院有限責(zé)任公司,新疆 烏魯木齊 830011;3.干旱荒漠區(qū)公路工程技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830011)
隨著經(jīng)濟(jì)的發(fā)展,我國私人汽車保有量在不斷增加。從2000 年到2021 年,我國私人汽車保有量從625 萬輛增加到2.6 億輛,增長了41倍[1-2]。私人汽車保有量的高速增長帶來了城市交通擁堵、空氣污染等一系列問題。對(duì)私人汽車保有量的影響因素進(jìn)行分析進(jìn)而科學(xué)地預(yù)測私人汽車保有量,對(duì)于測算私人汽車的二氧化碳排放量、評(píng)估私人汽車對(duì)能源和環(huán)境的影響、科學(xué)規(guī)劃城市道路、制定交通擁堵緩解措施等非常重要。
目前,已有不少文獻(xiàn)對(duì)汽車保有量的影響因素及預(yù)測進(jìn)行了研究。孫璐等[3]基于主成分分析法,Cao等[4]、Yang等[5]基于固定效應(yīng)和隨機(jī)效應(yīng)模型、林耿堃等[6]基于多元線性回歸模型分析了汽車保有量的影響因素。Ha等[7]進(jìn)一步拓展了研究方法,基于柬埔寨金邊市數(shù)據(jù),運(yùn)用多元Logit模型以及機(jī)器學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林方法,分析家庭汽車保有量影響因素,發(fā)現(xiàn)家庭收入是最重要的影響變量,其次是16歲以上家庭成員的數(shù)量和工作出行次數(shù)。以上研究發(fā)現(xiàn)私人汽車保有量會(huì)受到多類因素的影響,包括宏觀經(jīng)濟(jì)因素、公共交通服務(wù)水平、汽油價(jià)格、交通管理政策等,而經(jīng)濟(jì)增長是汽車保有量增長的一個(gè)重要驅(qū)動(dòng)因素。在分析汽車保有量影響因素的基礎(chǔ)上,很多學(xué)者對(duì)未來汽車保有量進(jìn)行了預(yù)測,其中最常用的是計(jì)量經(jīng)濟(jì)學(xué)法。如李瑞敏等[8]、劉愷[9]、萬芳[10]基于計(jì)量經(jīng)濟(jì)學(xué)模型,蔣艷梅等[11]基于新產(chǎn)品擴(kuò)散Logistic 模型及兩種參數(shù)估計(jì)方法,諶小麗等[12]基于指數(shù)平滑模型對(duì)我國汽車保有量進(jìn)行了預(yù)測。也有部分學(xué)者探索了其他汽車保有量預(yù)測方法,如Huo等[13]構(gòu)建了燃料經(jīng)濟(jì)性和環(huán)境影響(FEEI)模型,Hao等[14]建立了包含3個(gè)子模型的混合模型對(duì)我國私家車保有量進(jìn)行了預(yù) 測;Wu等[15],Lu等[16]基于Gompertz曲線,Hsieh等[17]基于蒙特卡洛模擬,F(xiàn)eng等[18]基于Cui-Lawson 模型預(yù)測了未來我國的汽車保有量。另外,還有部分學(xué)者采用神經(jīng)網(wǎng)絡(luò)方法對(duì)汽車保有量進(jìn)行了預(yù)測。例如,夏鈺等[19]基于神經(jīng)網(wǎng)絡(luò)BP算法對(duì)出租汽車保有量進(jìn)行預(yù)測,結(jié)果表明神經(jīng)網(wǎng)絡(luò)預(yù)測模型在交通預(yù)測方面具有較高的計(jì)算精度;吳文青等[20]基于Simpson 改進(jìn)的灰色神經(jīng)網(wǎng)絡(luò)預(yù)測了汽車保有量,證明基于Simpson 公式的灰色神經(jīng)網(wǎng)絡(luò)預(yù)測精度高于灰色神經(jīng)網(wǎng)絡(luò)模型和單一預(yù)測模型。
整體而言,目前汽車保有量的影響因素分析和預(yù)測研究主要是基于傳統(tǒng)的統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)和宏觀經(jīng)濟(jì)學(xué)模型,較少采用機(jī)器學(xué)習(xí)方法,相應(yīng)缺少強(qiáng)大的模式識(shí)別能力,難以很好地?cái)M合變量之間的復(fù)雜關(guān)系。而少數(shù)基于機(jī)器學(xué)習(xí)的汽車保有量影響因素分析或預(yù)測研究,或是以家庭為研究對(duì)象開展影響因素分析[7],或是直接基于機(jī)器學(xué)習(xí)模型進(jìn)行預(yù)測而忽略了對(duì)汽車保有量影響因素的分析[19-20]?;诖?,本研究將構(gòu)建基于機(jī)器學(xué)習(xí)的私人汽車保有量影響因素分析及預(yù)測模型,通過極度梯度提升樹(Extreme Gradient Boosting,XGBoost)提取私人汽車保有量最重要的影響因素,并在比較不同機(jī)器學(xué)習(xí)方法預(yù)測精度的基礎(chǔ)上,篩選出預(yù)測效果最好的方法對(duì)私人汽車保有量進(jìn)行預(yù)測,從而為測算私人汽車碳排放量、制定私人汽車管理政策提供依據(jù)。
隨著人工智能的發(fā)展,機(jī)器學(xué)習(xí)被廣泛應(yīng)用于各領(lǐng)域的因素識(shí)別和預(yù)測。機(jī)器學(xué)習(xí)研究如何利用學(xué)習(xí)經(jīng)驗(yàn)改善模型自身的性能,其主要從輸入的數(shù)據(jù)中產(chǎn)生模型的算法,挖掘輸入數(shù)據(jù)之間的關(guān)系,即“學(xué)習(xí)算法”[21]。機(jī)器學(xué)習(xí)的具體方法有很多,包括XGBoost、隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等。在交通運(yùn)輸領(lǐng)域,已有大量研究采用了機(jī)器學(xué)習(xí)方法,如基于隨機(jī)森林方法對(duì)交通出行方式選擇進(jìn)行預(yù)測[22],基于k 鄰近算法和支持向量回歸模型對(duì)交通流進(jìn)行預(yù)測[23],基于神經(jīng)網(wǎng)絡(luò)方法對(duì)公路貨運(yùn)量[24]、鐵路貨運(yùn)量[25]、鐵路客流發(fā)送量[26]、貨車交通流量需求[27]以及城市軌道交通客流[28]等進(jìn)行預(yù)測,均具有良好的預(yù)測效果。
為更準(zhǔn)確地識(shí)別私人汽車保有量的影響因素并預(yù)測未來的私人汽車保有量,本研究將構(gòu)建基于機(jī)器學(xué)習(xí)的私人汽車保有量影響因素及預(yù)測模型。該模型首先基于歷史數(shù)據(jù),采用XGBoost 方法識(shí)別出影響私人汽車保有量的主要影響因素。然后通過比較預(yù)測精度篩選出機(jī)器學(xué)習(xí)中預(yù)測效果最好的方法,并將識(shí)別出的主要影響因素納入預(yù)測模型,從而對(duì)未來的私人汽車保有量進(jìn)行預(yù)測。模型具體結(jié)構(gòu)如圖1所示。
本研究擬采用機(jī)器學(xué)習(xí)中的Boosting 方法分析私人汽車影響因素。Boosting 是機(jī)器學(xué)習(xí)中一種常用的集成學(xué)習(xí)方法,其主要思想是通過多個(gè)弱學(xué)習(xí)器的組合來得到一個(gè)強(qiáng)學(xué)習(xí)器,從而提升性能。XGBoost 方法[29]是一種典型的Boosting 算法,在學(xué)習(xí)器模型選擇、算法運(yùn)行效率優(yōu)化、算法魯棒性等方面,均比以往方法有較大提升,因此被廣泛應(yīng)用于各種分類或回歸任務(wù)中。XGBoost中常用的底層學(xué)習(xí)器為決策樹,假設(shè)集成模型中共有K個(gè)決策樹,其中第k個(gè)決策樹的輸出結(jié)果為fk(xi),則XGBoost方法的最終輸出為:
式(1)中:xi為第i個(gè)輸入樣本;yi為對(duì)該樣本的預(yù)測值。
XGBoost模型的優(yōu)化目標(biāo)L為:
式(2)中:為真實(shí)輸出值;l(yi,)為損失函數(shù),用于計(jì)算預(yù)測值和真實(shí)值之間的誤差;γ和α為加權(quán)系數(shù);T為葉子節(jié)點(diǎn)個(gè)數(shù);w為決策樹對(duì)應(yīng)的權(quán)重;M為樣本數(shù)量。
在優(yōu)化過程中,通過不斷構(gòu)建決策樹來得到最終的XGBoost模型。具體而言,在第t次迭代優(yōu)化過程中,需尋找對(duì)預(yù)測誤差降低最多的決策樹ft加入到集成模型中,第t次迭代的優(yōu)化目標(biāo)L(t)如式(3)所示。
通過迭代優(yōu)化以上損失函數(shù),即可讓XGBoost訓(xùn)練得到較好的預(yù)測模型。
模型的解釋性是XGBoost 方法的一項(xiàng)重要優(yōu)勢。由于XGBoost 的底層是由決策樹實(shí)現(xiàn)的,因此對(duì)于最終訓(xùn)練得到的模型,可進(jìn)行決策過程解釋,有助于深入了解模型做出預(yù)測的邏輯。同時(shí),XGBoost 方法可得到不同輸入特征的重要性度量,因此可有效篩選出重要的影響因素。
神經(jīng)網(wǎng)絡(luò)是一種模仿生物神經(jīng)網(wǎng)絡(luò)系統(tǒng)的機(jī)器學(xué)習(xí)模型,可有效擬合不同的函數(shù)。神經(jīng)網(wǎng)絡(luò)可創(chuàng)建自主學(xué)習(xí)系統(tǒng),相比其他機(jī)器學(xué)習(xí)算法,其學(xué)習(xí)能力更強(qiáng)且具有較強(qiáng)的數(shù)據(jù)處理能力,因此被廣泛應(yīng)用于預(yù)測領(lǐng)域。
神經(jīng)網(wǎng)絡(luò)由多個(gè)層疊加組成,主要包括一層輸入節(jié)點(diǎn)、一層輸出節(jié)點(diǎn)、一個(gè)或多個(gè)中間層。在每一層中,由多個(gè)神經(jīng)元的共同作用得到輸出結(jié)果[30]:
式(4)中:fi為該層第i個(gè)神經(jīng)元的輸入;wi為該神經(jīng)元的權(quán)重,通過訓(xùn)練得到;b為偏置量;o為該層的輸出。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練主要依賴反向傳播算法,通過尋找使輸出損失函數(shù)最快下降的方向,來調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)重。對(duì)于多層神經(jīng)網(wǎng)絡(luò),需利用鏈?zhǔn)椒▌t計(jì)算得到每一層中權(quán)重參數(shù)的求導(dǎo)結(jié)果。一旦訓(xùn)練完成,神經(jīng)網(wǎng)絡(luò)的形式就固定下來,通過對(duì)神經(jīng)網(wǎng)絡(luò)的前向推導(dǎo),可得到最終的輸出結(jié)果。
2000 年以來,新疆私人汽車保有量不斷提升,年均增長率超過18%(見圖2)。本文將運(yùn)用前文介紹的模型對(duì)新疆私人汽車保有量進(jìn)行影響因素分析及預(yù)測。基于新疆2000—2020年的統(tǒng)計(jì)數(shù)據(jù),首先識(shí)別影響私人汽車保有量的影響因素,然后在此基礎(chǔ)上預(yù)測到2030年新疆私人汽車保有量。
根據(jù)不同學(xué)者的研究(見表1),私人汽車保有量的影響因素主要分為4 類:(1)宏觀經(jīng)濟(jì)因素,包括人均GDP、產(chǎn)業(yè)結(jié)構(gòu)、城鎮(zhèn)化率、居民人均可支配收入等;宏觀經(jīng)濟(jì)因素是影響私人汽車保有量的主要因素,GDP 的增長和生活水平的提高會(huì)提升人民對(duì)出行質(zhì)量的需求;在發(fā)展中國家,隨著人均GDP、人均收入等的增加,私人汽車保有量一般會(huì)相應(yīng)增長;(2)公共交通因素,主要指標(biāo)為城市人均公共交通運(yùn)營數(shù)或客運(yùn)量,包括人均公共汽電車數(shù)量或公共汽車載客量、出租車數(shù)量等,完善的公共交通設(shè)施可使公共交通出行更具吸引力,從而對(duì)私人汽車出行形成一定替代;(3)道路條件因素,包括人均道路面積、人均公路里程等,一般而言,良好的行車條件會(huì)使居民傾向于私人汽車出行;(4)汽油價(jià)格因素,燃油價(jià)格的增長會(huì)提高私人汽車使用成本,從而會(huì)影響消費(fèi)者對(duì)私人汽車的購買意愿。
表1 私人汽車保有量影響因素相關(guān)研究
表1 (續(xù))
在相關(guān)文獻(xiàn)研究成果的基礎(chǔ)上,考慮數(shù)據(jù)的可得性,本研究選取了9 個(gè)可能影響私人汽車擁有量的因素,包括人均GDP、城鎮(zhèn)化率、第三產(chǎn)業(yè)占比、城鎮(zhèn)居民人均可支配收入、人均道路面積、每萬人公路里程、每萬人公共汽電車數(shù)量、每萬人出租汽車數(shù)量以及汽油價(jià)格。人均GDP、城鎮(zhèn)化率、第三產(chǎn)業(yè)占比、城鎮(zhèn)居民人均可支配收入、人均道路面積、每萬人公路里程、每萬人公共汽電車數(shù)量、每萬人出租汽車數(shù)量等指標(biāo)所需原始數(shù)據(jù)均來源于國家統(tǒng)計(jì)局,汽油價(jià)格選取了烏魯木齊92號(hào)清潔汽油年均價(jià)格數(shù)據(jù),來源于CEIC數(shù)據(jù)庫。
由于輸入的因素較多,且不同因素對(duì)最終預(yù)測的影響不同,某些因素可能與最終預(yù)測結(jié)果相關(guān)性很低,因此在對(duì)私人汽車保有量進(jìn)行預(yù)測時(shí),首先需要對(duì)影響私人汽車保有量的因素進(jìn)行篩選和分析,從而提高最終預(yù)測的準(zhǔn)確性。本研究基于2003—2020年新疆私人汽車保有量及其影響因素相關(guān)數(shù)據(jù),將樣本劃分為訓(xùn)練集和測試集,其中訓(xùn)練集為2003—2016年的數(shù)據(jù),測試集為2017—2020 年的數(shù)據(jù)。本研究采用XGBoost 模型在訓(xùn)練集中學(xué)習(xí),從而得到新疆私人汽車保有量影響因素的分析結(jié)果。
在應(yīng)用XGBoost 模型過程中,通過逐次剔除每個(gè)輸入特征后觀察其對(duì)最終結(jié)果的影響,可以得到每個(gè)特征的重要性分值。圖3 所示為基于XGBoost 模型學(xué)習(xí)到的不同輸入變量(新疆私人汽車保有量影響因素)的重要性程度的可視化。從圖中可看出,人均GDP 及城鎮(zhèn)化率兩個(gè)因素對(duì)于新疆私人汽車保有量具有最重要的影響。
為更清晰地理解XGboost 模型的工作過程,本研究對(duì)XGBoost 模型進(jìn)行更多的可視化,展示XGBoost模型中的兩個(gè)決策樹推理過程,如圖4所示。對(duì)于輸入的變量,在每個(gè)節(jié)點(diǎn)中,根據(jù)條件來判斷選擇左右子節(jié)點(diǎn),直至到達(dá)最終的葉子節(jié)點(diǎn),則得到該決策樹的輸出。通過綜合多個(gè)決策樹的輸出結(jié)果,即可得到模型最終的預(yù)測值。由圖4 可看出,XGBoost 模型會(huì)首先根據(jù)人均GDP來決定預(yù)測模型的走向,這也驗(yàn)證了人均GDP 這一因素對(duì)于私人汽車保有量的影響尤為重要。
基于XGBoost 方法計(jì)算結(jié)果,本研究篩選出重要的影響因素,構(gòu)建預(yù)測模型,對(duì)未來新疆的私人汽車保有量進(jìn)行預(yù)測。
在機(jī)器學(xué)習(xí)方法中,XGBoost 方法、隨機(jī)森林方法、神經(jīng)網(wǎng)絡(luò)方法等均可應(yīng)用于預(yù)測。本研究基于已有數(shù)據(jù),首先對(duì)以上3 種方法的預(yù)測效果進(jìn)行對(duì)比。圖5 展示了不同方法在訓(xùn)練集中的擬合效果。由圖5可看出,XGBoost、神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林模型均能很好地在訓(xùn)練集中對(duì)輸入變量進(jìn)行學(xué)習(xí)和擬合,得到的預(yù)測值和真實(shí)值基本一致。
本研究進(jìn)一步在測試集中評(píng)估了模型的效果,如圖6 所示。神經(jīng)網(wǎng)絡(luò)方法在測試集中的表現(xiàn)達(dá)到了較好的水平,預(yù)測值和真實(shí)值最接近。同時(shí),XGBoost 方法和隨機(jī)森林方法雖然在訓(xùn)練集的擬合中取得了良好效果,但在測試集中的表現(xiàn)劣于神經(jīng)網(wǎng)絡(luò)方法。另外,在2020 年,基于3種方法的預(yù)測結(jié)果和真實(shí)值均有較大差異。2020年,受新冠肺炎疫情影響,新疆人均GDP 相比2019年有所下降,基于模型預(yù)測得到的2020年新疆私人汽車保有量也有所下降。但實(shí)際上2020年新疆私人汽車保有量相比2019 年仍保持了7.7%的增長,這可能是由于公共交通服務(wù)受限激發(fā)了居民對(duì)私人汽車的需求。
本研究進(jìn)一步對(duì)3 種方法的預(yù)測效果進(jìn)行定量評(píng)估。均方根誤差(Root Mean Square Error,RMSE)常被用于評(píng)價(jià)預(yù)測的精度,其計(jì)算公式為:
式(5)中:yi為對(duì)該樣本的預(yù)測值;為真實(shí)值。
RMSE 越小表示模型預(yù)測精度越高。表2 展示了XGBoost、神經(jīng)網(wǎng)絡(luò)以及隨機(jī)森林3種方法的RMSE 值??梢钥闯觯窠?jīng)網(wǎng)絡(luò)方法的RMSE 指標(biāo)數(shù)據(jù)小于其他兩種方法,顯示神經(jīng)網(wǎng)絡(luò)模型具有更好的預(yù)測精度。
表2 不同方法的RMSE值
基于上文的分析結(jié)果,本研究將以新疆私人汽車保有量最重要的兩個(gè)影響因素,即人均GDP和城鎮(zhèn)化率作為預(yù)測模型的輸入,運(yùn)用預(yù)測效果更好的神經(jīng)網(wǎng)絡(luò)方法來對(duì)未來新疆私人汽車保有量進(jìn)行預(yù)測。本研究對(duì)未來宏觀經(jīng)濟(jì)發(fā)展設(shè)置了低、中、高3 種情景。根據(jù)《新疆維吾爾自治區(qū)國民經(jīng)濟(jì)和社會(huì)發(fā)展第十四個(gè)五年規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》[31],到2025 年新疆常住人口城鎮(zhèn)化率將不低于60%;根據(jù)《新疆城鎮(zhèn)體系規(guī)劃(2012—2030)》,到2030 年新疆城鎮(zhèn)化率將達(dá)66%~68%[32],因此,本研究設(shè)定在低、中、高3個(gè)發(fā)展情景下,到2025 年新疆城鎮(zhèn)化率分別為60%,61%和63%,到2030 年新疆城鎮(zhèn)化率分別為66%,67%和68%。不同情景下2022—2030 年新疆人均GDP 增長率則分別參考不同機(jī)構(gòu)或?qū)W者對(duì)于未來我國人均GDP 增長率的預(yù)測數(shù)據(jù)進(jìn)行設(shè)定[33-35],詳見表3。
表3 新疆未來不同發(fā)展情景相關(guān)參數(shù)設(shè)定
基于神經(jīng)網(wǎng)絡(luò)的新疆私人汽車保有量預(yù)測結(jié)果如圖7、表4 所示。根據(jù)預(yù)測結(jié)果,隨著未來新疆人均GDP 及城鎮(zhèn)化率的提升,新疆的私人汽車保有量將繼續(xù)保持不斷增長態(tài)勢。在低發(fā)展情景下,未來新疆私人汽車保有量年均增長率為5%,到2025 年,新疆私人汽車保有量將達(dá)到516.5萬輛,到2030年將達(dá)到650.2萬輛;在中發(fā)展情景下,新疆私人汽車保有量年均增長率為5.6%,到2025 年和2030 年保有量將分別達(dá)到525 萬輛和687.7 萬輛;在高發(fā)展情景下,新疆私人汽車保有量年均增長率將達(dá)到6.4%,到2025年和2030 年保有量預(yù)計(jì)將分別達(dá)到541.2 萬輛和734.3萬輛。
表4 不同情景下2021—2030年新疆私人汽車保有量預(yù)測結(jié)果
本研究基于機(jī)器學(xué)習(xí)方法構(gòu)建了私人汽車保有量影響因素分析及預(yù)測模型。以新疆2003—2020 年數(shù)據(jù)為基礎(chǔ),采用機(jī)器學(xué)習(xí)中的XGBoost方法分析了影響私人汽車保有量的因素,結(jié)果顯示人均GDP 和城鎮(zhèn)化率是對(duì)私人汽車保有量影響最大的因素。在此基礎(chǔ)上,通過對(duì)比XGboost、隨機(jī)森林以及神經(jīng)網(wǎng)絡(luò)3 種方法的預(yù)測效果,采用預(yù)測效果最好的神經(jīng)網(wǎng)絡(luò)方法建立新疆私人汽車保有量預(yù)測模型,對(duì)2021—2030年新疆私人汽車保有量進(jìn)行了預(yù)測。在本研究中,因樣本數(shù)據(jù)量有限,在少量數(shù)據(jù)上訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)的泛化能力略差,即雖然在已知的數(shù)據(jù)集(訓(xùn)練集)上擬合效果較好,但在對(duì)訓(xùn)練數(shù)據(jù)之外的私人汽車保有量進(jìn)行預(yù)測時(shí),精度可能會(huì)下降,故未來的研究中需進(jìn)一步豐富樣本數(shù)據(jù)量。另外,基于2003—2016 年的數(shù)據(jù)分析顯示,人均GDP 和城鎮(zhèn)化率是對(duì)私人汽車保有量影響最大的兩個(gè)因素,但在一些特殊年份(如2020 年),其他因素如公共交通服務(wù)水平等相比而言對(duì)私人汽車保有量可能有更大的影響。因此,本研究的預(yù)測方法仍有一定的局限性,未來在對(duì)機(jī)動(dòng)車保有量進(jìn)行長期預(yù)測時(shí),可考慮將基于歷史數(shù)據(jù)的定量分析與政策等定性分析結(jié)合,或根據(jù)不同的增長階段提出更詳細(xì)的模型,從而更好地捕捉影響私人汽車保有量的因素,實(shí)現(xiàn)更科學(xué)準(zhǔn)確的預(yù)測。