亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于因果分析和相似日選擇的共享單車需求量預(yù)測組合模型

        2021-04-16 06:44:58徐長興汪偉平昌錫銘包旭吳建軍
        山東科學(xué) 2021年2期
        關(guān)鍵詞:格蘭杰需求量關(guān)聯(lián)度

        徐長興,汪偉平*,昌錫銘,包旭,吳建軍

        (1.北京交通大學(xué) 軌道交通控制與安全國家重點(diǎn)實驗室,北京 100044;2.淮陰工學(xué)院 交通工程學(xué)院,江蘇 淮安 223000)

        無樁式共享單車是在共享經(jīng)濟(jì)和物聯(lián)網(wǎng)等技術(shù)浪潮下產(chǎn)生的一種新的慢行交通模式,是城市公共自行車系統(tǒng)的重要組成部分[1]。共享單車取消了傳統(tǒng)公共自行車固定的停車樁,解決了因停車樁數(shù)量少而造成的“還車難”等問題。共享單車的出現(xiàn)在有效解決城市居民出行“最后一公里”問題的同時,也對減少大氣污染和緩解城市交通擁堵等起到了積極作用。

        雖然目前無樁式共享單車呈現(xiàn)出良好的發(fā)展態(tài)勢,但是在特定時間段的某些區(qū)域仍存在借還車次不平衡、車輛投放數(shù)量不合理、車輛調(diào)度不及時等問題。人們出行特征的時空非均衡性,特別是早晚高峰客流的潮汐現(xiàn)象導(dǎo)致了共享單車系統(tǒng)在時空上分布的不均衡[2]。區(qū)域內(nèi)單車需求大于供給,會導(dǎo)致無車可借,產(chǎn)生“借車難”等問題,反之會導(dǎo)致大量單車無人使用而長時間閑置,占用公共空間。

        高效及時的單車調(diào)度是單車系統(tǒng)時空分布再平衡的重要途徑,而準(zhǔn)確的短時出行需求預(yù)測是單車科學(xué)調(diào)度的基礎(chǔ)。若采取人工巡查的方式或者監(jiān)測平臺利用GPS定位監(jiān)控到不平衡之后再派卡車執(zhí)行單車的調(diào)配,缺乏對未來需求量的預(yù)判,會造成嚴(yán)重的滯后和效率低下[3]。因此,準(zhǔn)確地預(yù)測區(qū)域內(nèi)各時段的需求量是進(jìn)行車輛調(diào)度和共享單車系統(tǒng)布局優(yōu)化的基礎(chǔ),也是提高企業(yè)服務(wù)質(zhì)量和用戶體驗的關(guān)鍵環(huán)節(jié)。

        從預(yù)測模型發(fā)展角度,共享單車的需求預(yù)測方法可以分為傳統(tǒng)的統(tǒng)計學(xué)和機(jī)器學(xué)習(xí)兩大類。統(tǒng)計學(xué)方法如差分整合移動平均自回歸模型(autoregressive integrated moving average model,ARIMA)、多元回歸分析、馬爾可夫鏈[4]等傳統(tǒng)統(tǒng)計推斷模型,是最早被應(yīng)用到共享單車需求預(yù)測的一類方法。Kaltenbrunner等[5]基于巴塞羅那社區(qū)自行車項目某站點(diǎn)的數(shù)據(jù),運(yùn)用ARIMA模型,對可用自行車的數(shù)量進(jìn)行了預(yù)測。閆廈[6]根據(jù)單車需求量的時序性,建立了考慮季節(jié)周期的ARIMA模型,該模型可以刻畫出行需求的周期性和趨勢性。盡管ARIMA等統(tǒng)計推斷模型在時間序列建模中顯示出一定的有效性,但是無法刻畫需求量與各影響因素之間的時空依賴性等復(fù)雜非線性關(guān)系。而且,實際應(yīng)用中數(shù)據(jù)的噪聲會降低參數(shù)估計的可靠性,因而預(yù)測效果不是特別理想。近年來,隨著海量出行數(shù)據(jù)的積累和計算能力的提高,利用機(jī)器學(xué)習(xí)方法發(fā)現(xiàn)交通系統(tǒng)的動態(tài)特性逐漸成為一個研究熱點(diǎn)。支持向量回歸(support vector regression, SVR)、隨機(jī)森林(random forest, RF)和神經(jīng)網(wǎng)絡(luò)(neural networks, NN)的模型已廣泛用于共享單車的短時需求預(yù)測。根據(jù)無樁式共享單車需求量的時間序列特征,孔靜[3]建立了基于BP神經(jīng)網(wǎng)絡(luò)的預(yù)測方法模型,由于缺乏對天氣、位置等外部影響因素的建模,預(yù)測效果并不理想。機(jī)器學(xué)習(xí)算法能夠綜合考慮出行需求的時間序列特征和外部影響因素。研究表明影響單車需求量的外部因素主要包括天氣因素(溫度、降水量、風(fēng)速等)[7]和位置因素[8],此外還受到人口統(tǒng)計特征、建筑環(huán)境特征[9]和交通事件等[10]因素的影響。種穎珊等[11]基于2015年美國灣區(qū)70號站點(diǎn)的自行車需求量數(shù)據(jù),研究了時間因子、氣象因子以及關(guān)聯(lián)站點(diǎn)對需求量的影響,建立了基于隨機(jī)森林與時空聚類的模型,實現(xiàn)了對有樁自行車需求量的預(yù)測。Li等[12]提出了一種分層預(yù)測模型,運(yùn)用二分聚類算法和漸變增強(qiáng)回歸樹模型來預(yù)測站點(diǎn)的借還車數(shù)量。

        盡管機(jī)器學(xué)習(xí)算法可以有效地對共享單車短時出行需求的時間趨勢進(jìn)行識別和預(yù)測,但是很多機(jī)器學(xué)習(xí)算法都是黑箱模型,無法刻畫需求量與影響因素之間的關(guān)系,從而使得預(yù)測結(jié)果的可解釋性較低。在實際建模中,由于數(shù)據(jù)噪聲、數(shù)據(jù)量小等原因,單個機(jī)器學(xué)習(xí)算法的預(yù)測性能往往不高,對于不同預(yù)測任務(wù)的泛化性能差[13]。集成學(xué)習(xí)通過構(gòu)建并結(jié)合多個學(xué)習(xí)器來完成學(xué)習(xí)任務(wù),可獲得比單一學(xué)習(xí)器顯著優(yōu)越的泛化性能。Stacking策略是一種典型的集成學(xué)習(xí)方法[14],將初級學(xué)習(xí)器的輸出作為次級學(xué)習(xí)器的輸入,從而實現(xiàn)融合多個學(xué)習(xí)器的預(yù)測結(jié)果。相較于對弱學(xué)習(xí)器的結(jié)果做平均或者投票等簡單的邏輯處理,Stacking策略能夠結(jié)合多個模型的優(yōu)點(diǎn),降低泛化誤差,提升預(yù)測的準(zhǔn)確性。作為刻畫兩變量之間因果關(guān)系的分析模型之一,格蘭杰因果關(guān)系模型可以刻畫共享單車的出行需求與天氣指標(biāo)之間的因果關(guān)系?;疑P(guān)聯(lián)分析通過關(guān)聯(lián)度指標(biāo),可以對共享單車系統(tǒng)中不同日期之間的相似程度進(jìn)行量化分析。

        因此,本文基于北京市共享單車用戶的騎行數(shù)據(jù)和天氣數(shù)據(jù),將研究區(qū)域劃分為若干網(wǎng)格單元,提出了一種基于Stacking策略的共享單車需求組合預(yù)測模型,構(gòu)建了以神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林回歸、支持向量回歸等算法為基模型的不確定性集成模型。該框架通過將多個學(xué)習(xí)器進(jìn)行結(jié)合,在無樁式共享單車分區(qū)域的短時需求量預(yù)測任務(wù)中可獲得比單一學(xué)習(xí)器顯著優(yōu)越的準(zhǔn)確性和泛化性能。本文的貢獻(xiàn)在于:一是將格蘭杰因果檢驗方法應(yīng)用到篩選影響單車需求量的天氣指標(biāo)中,相較傳統(tǒng)的僅僅依靠皮爾遜相關(guān)系數(shù)等相關(guān)性指標(biāo),更加合理;二是充分考慮了待預(yù)測日各時段與歷史日的天氣特征向量間的相似性,采用灰色關(guān)聯(lián)度指標(biāo),篩選出具有高度相似性的相似日樣本集,該方法可以對訓(xùn)練樣本進(jìn)行有效約簡,減少了模型的訓(xùn)練時間;三是基于神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林回歸、支持向量回歸等算法建立組合預(yù)測模型,提高了單車需求量預(yù)測模型的預(yù)測精度和泛化性能。

        1 數(shù)據(jù)來源和影響因子分析

        1.1 數(shù)據(jù)來源

        同一區(qū)域有多個品牌的共享單車,目前各個單車運(yùn)營企業(yè)的車輛調(diào)度工作環(huán)節(jié)是相互獨(dú)立的,因此需要針對各個品牌共享單車的需求量分別進(jìn)行預(yù)測??紤]到市場份額、用戶黏性等因素,本文選用北京市摩拜單車用戶騎行數(shù)據(jù)進(jìn)行研究,時間范圍是2017年5月10日—31日。北京市是全國共享單車投放數(shù)量最多的城市之一,摩拜單車在共享單車投放總量中占比最大。因此選擇北京市摩拜單車用戶騎行數(shù)據(jù)來研究共享單車的需求預(yù)測問題,具有一定的典型性和代表性。通過對單車空間分布的初步研究,發(fā)現(xiàn)北京城郊區(qū)的單車密度較低,而四環(huán)內(nèi)單車投放密度、出行需求較大,因此選取該區(qū)域作為研究對象。研究區(qū)域的具體位置為東經(jīng)116.278°—116.499°,北緯39.836°—39.997°。主要的字段名稱和描述統(tǒng)計見表1。

        表1 字段描述

        氣象數(shù)據(jù)和空氣質(zhì)量數(shù)據(jù)主要從國家氣象科學(xué)數(shù)據(jù)中心和相關(guān)天氣網(wǎng)站(http://rp5.ru)(2017年5月10日—31日)收集得到。獲得的數(shù)據(jù)包括地面2 m處的溫度和相對濕度、氣象站水平的大氣壓、地面高度10 m處的風(fēng)速、水平能見度等。將下雨、霧霾、大風(fēng)、晴天四類天氣事件分別賦值為0、1、2、3。對于殘缺的數(shù)據(jù),采用線性插值法進(jìn)行補(bǔ)全數(shù)據(jù)。表2匯總了所考慮變量的描述統(tǒng)計量。

        表2 天氣指標(biāo)的描述性統(tǒng)計分析

        1.2 影響因素分析

        1.2.1 時間因素的影響

        1.2.2 天氣因素的影響

        共享單車相比于地鐵、公交等更容易受到天氣、空氣質(zhì)量等因素的影響。通過計算各天氣指標(biāo)與需求量的皮爾遜相關(guān)系數(shù)可知,需求量與溫度、風(fēng)速、能見度、露點(diǎn)、云量、天氣事件、PM2.5的皮爾遜相關(guān)系數(shù)分別為0.38、0.21、0.07、0.03、0.09、0.11、0.07,均大于0,因此呈正相關(guān)關(guān)系;需求量與氣壓、濕度、降水量的皮爾遜相關(guān)系數(shù)分別為-0.22、-0.26、-0.04,因此呈負(fù)相關(guān)關(guān)系。通過對天氣數(shù)據(jù)進(jìn)行統(tǒng)計分析,發(fā)現(xiàn)不同日期的天氣狀況差異較大。本文采用的數(shù)據(jù)中包含了下雨、霧霾、大風(fēng)、晴天等常見的天氣狀況,因此具有一定的代表性和典型性。

        2 出行需求預(yù)測模型

        2.1 基于因果檢驗的天氣指標(biāo)選擇

        天氣因素是影響需求量的一個重要因素,然而刻畫天氣因素的指標(biāo)有很多,如何科學(xué)地選取指標(biāo)對提高預(yù)測模型的準(zhǔn)確度至關(guān)重要。有學(xué)者從相關(guān)性的角度出發(fā),借助皮爾遜相關(guān)系數(shù)等選取與出行需求相關(guān)性較大的天氣指標(biāo)。然而辛普森悖論的存在證明了相關(guān)性的不足,該悖論證明存在隨機(jī)變量X和變量Y在邊緣上正相關(guān),但是給定另外一個變量Z后,在Z的每一個水平上,X和Y都具有負(fù)相關(guān)的可能性[15]。因此僅僅依靠皮爾遜相關(guān)系數(shù)等相關(guān)性指標(biāo)去篩選天氣指標(biāo)顯然是不合適的。如何從數(shù)據(jù)中發(fā)現(xiàn)其蘊(yùn)藏的內(nèi)在因果關(guān)系,是近年來數(shù)據(jù)科學(xué)研究領(lǐng)域的熱點(diǎn)之一。因此,共享單車的出行需求與天氣指標(biāo)之間的因果關(guān)系及其背后的因果機(jī)制需要進(jìn)一步挖掘。

        格蘭杰因果關(guān)系模型是由諾貝爾經(jīng)濟(jì)學(xué)獎得主格蘭杰于1969年首次提出的一種刻畫二變量之間因果關(guān)系的分析模型,是數(shù)據(jù)科學(xué)、金融分析、醫(yī)學(xué)等領(lǐng)域挖掘數(shù)據(jù)間內(nèi)在因果關(guān)系的重要工具。其基本思想是:若序列X有助于解釋序列Y的未來變化趨勢,即在序列Y關(guān)于自身歷史信息的回歸模型中,添加X的歷史信息會顯著地提升回歸模型的解釋能力,那么序列X是序列Y的格蘭杰原因[16]。另外,為了避免非平穩(wěn)序列帶來的虛假因果,必須保證檢驗的序列是平穩(wěn)的。

        檢驗天氣指標(biāo)X是否為引起需求量Y變化的格蘭杰原因的步驟如下。

        首先,建立如下兩個向量自回歸模型:

        (1)

        (2)

        式中:α0表示常數(shù)項;αi和βi是模型的系數(shù);p和q分別為變量需求量Y和天氣指標(biāo)X的最大滯后期數(shù),可以采用赤池信息準(zhǔn)則(Akaike information criterion,AIC)進(jìn)行確定;εt為白噪聲。若天氣指標(biāo)X不是引起需求量Y變化的格蘭杰原因,則自回歸模型中系數(shù)βi應(yīng)該為0,因此檢驗的原假設(shè)設(shè)定為H0:β1=β2=…=βq=0。采用的檢驗統(tǒng)計量分別為兩個自回歸模型,即公式(1)和(2)的殘差平方和R1和R2構(gòu)造的F統(tǒng)計量。

        (3)

        式中,R1、R2分別為公式(1)和公式(2)的殘差平方和,n為樣本容量。如果滿足F>Fα(q,n-p-q-1),表明天氣指標(biāo)X和需求量Y存在統(tǒng)計意義下的格蘭杰因果關(guān)系,即天氣指標(biāo)X有助于預(yù)測需求量Y。

        2.2 基于灰色關(guān)聯(lián)分析的相似日確定

        當(dāng)前的需求量預(yù)測模型往往會選擇與待預(yù)測日相鄰的歷史數(shù)據(jù)或者依據(jù)人工經(jīng)驗選取的相似日作為輸入,具有一定的盲目性和不合理性。預(yù)測的效果往往不理想,尤其是待預(yù)測日的天氣狀況與前若干天差別較大時,需求量會發(fā)生明顯的波動變化。因此,為了提高需求量的預(yù)測精度,合理有效地選取預(yù)測相似日非常重要[17]。

        通過計算待預(yù)測時段與歷史時段的灰色關(guān)聯(lián)度指標(biāo),確定與待預(yù)測日各時段相似程度最高且日期屬性(工作日或非工作日)相同的樣本集數(shù)據(jù)。相似日的灰色關(guān)聯(lián)度指標(biāo)計算步驟如下。

        首先選取溫度、風(fēng)速等m個通過格蘭杰因果檢驗的天氣因素構(gòu)建因素矩陣,則第i時段樣本的天氣特征向量和待預(yù)測時段的天氣特征向量可以表示為:

        Xi=[xi1,xi2,…,xim],i=1,2,…,N,

        (4)

        X0=[x01,x02,…,x0m],

        (5)

        式中,N為歷史同時段樣本總數(shù),xim為第i個樣本的第m個天氣因素值,x0m為待預(yù)測時段特征向量的第m個影響因素值。經(jīng)過無量綱化后得到灰色關(guān)聯(lián)判斷矩陣,將相同日期屬性的天氣特征向量作為比較序列,然后計算每個比較序列與待預(yù)測參考序列對應(yīng)元素的關(guān)聯(lián)系數(shù)ρik,計算關(guān)聯(lián)系數(shù)的表達(dá)式為:

        (6)

        式中,分辨系數(shù)p∈[0,1],分辨系數(shù)p值越大,計算出的關(guān)聯(lián)系數(shù)方差越小,區(qū)分能力越弱。本文的p值取0.5,并且將比較序列與待預(yù)測時段參考序列對應(yīng)元素關(guān)聯(lián)系數(shù)的均值作為關(guān)聯(lián)度指標(biāo)。關(guān)聯(lián)度指標(biāo)可以反映各歷史時間段與待預(yù)測時段參考序列的關(guān)聯(lián)關(guān)系。關(guān)聯(lián)度指標(biāo)的計算公式為:

        (7)

        依據(jù)關(guān)聯(lián)度指標(biāo)ri,選取與待預(yù)測日各時段關(guān)聯(lián)度較大的時段數(shù)據(jù)作為預(yù)測模型的輸入。

        2.3 基于Stacking策略的機(jī)器學(xué)習(xí)組合預(yù)測模型

        Stacking策略是一種典型的集成學(xué)習(xí)方法,能夠綜合各單一模型的特點(diǎn)而具有一定的優(yōu)越性。Stacking策略的原理如圖2所示。在初始訓(xùn)練集上訓(xùn)練得到初級學(xué)習(xí)器的預(yù)測值,然后在包含初級學(xué)習(xí)器預(yù)測值的新數(shù)據(jù)集中訓(xùn)練次級學(xué)習(xí)器,最后將次級學(xué)習(xí)器的結(jié)果輸出作為最終的預(yù)測結(jié)果。相較于對弱學(xué)習(xí)器的結(jié)果做平均或者投票等簡單的邏輯處理,Stacking策略是通過訓(xùn)練一個次級學(xué)習(xí)器將初級弱學(xué)習(xí)器組合起來,從而能夠降低泛化誤差,提升預(yù)測的準(zhǔn)確性。

        圖2 Stacking策略的原理Fig.2 The principle of Stacking strategy

        Stacking策略中初級弱學(xué)習(xí)器的預(yù)測性能對最終輸出結(jié)果的準(zhǔn)確性有著重要的影響,按照多樣性和準(zhǔn)確性的原則,本文選取支持向量回歸(SVR)、隨機(jī)森林回歸(RF)、神經(jīng)網(wǎng)絡(luò)(NN)和多元線性回歸(multiple linear regression, MLR)作為第一層的初級學(xué)習(xí)器,在初始訓(xùn)練集上訓(xùn)練得到初級學(xué)習(xí)器的預(yù)測值。常見的次級學(xué)習(xí)器有多元線性回歸模型和擬合優(yōu)度法。擬合優(yōu)度法根據(jù)模型的均方誤差(RMSE)的大小來確定各模型的權(quán)重系數(shù)。模型的權(quán)重計算方式如下:

        (8)

        式中,M為初級學(xué)習(xí)器的個數(shù)。本文提出的Stacking框架集成了多種不同的算法,而且利用灰色關(guān)聯(lián)度對每個初級學(xué)習(xí)器的輸入特征集進(jìn)行了優(yōu)化,可獲得比單一學(xué)習(xí)器顯著優(yōu)越的預(yù)測精度和泛化性能。

        2.4 共享單車出行需求組合預(yù)測模型

        綜上所述,本文提出了基于因果檢驗和灰色關(guān)聯(lián)分析的需求量組合預(yù)測模型,模型結(jié)構(gòu)如圖3所示。模型算法的步驟如下:

        (1)對天氣指標(biāo)和共享單車需求量進(jìn)行因果關(guān)系檢驗。在特征選擇環(huán)節(jié),采用2.1節(jié)中的格蘭杰因果檢驗方法,對影響單車需求量的天氣指標(biāo)進(jìn)行格蘭杰因果檢驗,篩選出通過檢驗的天氣指標(biāo),然后對歷史樣本集進(jìn)行相似日選取。

        (2)基于篩選出的天氣指標(biāo),采用灰色關(guān)聯(lián)分析法來得到與待預(yù)測日各時段相似程度最高且日期屬性相同的相似日,形成具有高度相似性的相似日樣本集。

        (3)在基于Stacking策略的組合模型中,將與待預(yù)測日各時段灰色關(guān)聯(lián)度最高的若干相似日的需求量作為輸入數(shù)據(jù)。組合預(yù)測模型可以選取支持向量回歸、隨機(jī)森林回歸、神經(jīng)網(wǎng)絡(luò)和多元線性回歸等作為第一層的初級學(xué)習(xí)器。Stacking 框架集成了多種不同的算法,能夠綜合各單一模型所具有的特點(diǎn)而具有一定的優(yōu)越性。該框架利用灰色關(guān)聯(lián)度對每個初級學(xué)習(xí)器的輸入進(jìn)行了優(yōu)化,提高了初級學(xué)習(xí)器的預(yù)測性能。

        圖3 預(yù)測模型框架圖Fig.3 Predictive model framework

        對于評估預(yù)測方法效果的指標(biāo),采用均方誤差(RMSE)、均方根誤差(RRMSE)、平均絕對誤差(RMAE)和平均絕對百分比誤差(RMAPE)來衡量預(yù)測值與真實值之間的偏差,其計算公式如下:

        (9)

        (10)

        (11)

        (12)

        3 實例分析

        本文采用北京市2017年5月10日—31日的共計3 214 096條共享單車出行數(shù)據(jù),對提出的組合模型進(jìn)行驗證,其中70%的數(shù)據(jù)為訓(xùn)練集。為了考察共享單車出行需求的空間特性,本文將原始數(shù)據(jù)根據(jù)位置信息進(jìn)行網(wǎng)格化處理,即將網(wǎng)格單元作為需求量預(yù)測模型的基本空間單位。將研究區(qū)域劃分成了1482個邊長為500 m的正方形網(wǎng)格單元。

        3.1 需求的空間特性

        共享單車的出行需求受地理位置的影響,同一時間不同區(qū)域的需求量是不同的。共享單車在某工作日的出行需求的空間分布特征如圖4(a)所示。網(wǎng)格單元的顏色越深,表示該區(qū)域需求量越大。同一時間,不同區(qū)域的需求量差異較大,共享單車的出行需求具有時空性。圖4(b)是共享單車需求量分布的直方圖,網(wǎng)格單元中共享單車一天的需求量集中在40~100,不同網(wǎng)格區(qū)域內(nèi)出行需求量差異較大。

        圖4 共享單車出行需求量的分布Fig.4 Distribution of demand for shared bikes

        根據(jù)騰訊企鵝情報對中國共享單車發(fā)展情況的調(diào)查,62.90%的客戶通常在最后一公里使用共享單車[18]?;谡鎸嵉墓蚕韱诬嚦鲂袛?shù)據(jù)分析,單次騎行距離的分布如圖5所示,90%的騎行距離小于1244 m,說明了共享單車主要用于短途出行,是解決“最后一公里”的主要出行方式。

        圖5 共享單車出行距離分布Fig.5 Distribution of shared bike travel distance

        3.2 相似日確定

        在對天氣指標(biāo)格進(jìn)行格蘭杰因果檢驗之前,采用單位根方法進(jìn)行平穩(wěn)性檢驗。對于非平穩(wěn)序列,進(jìn)行差分化處理,直到通過平穩(wěn)性檢驗。表3中是在顯著性水平α=0.1下,最終通過格蘭杰因果檢驗的指標(biāo)。

        表3 因果分析結(jié)果

        檢驗的結(jié)果表明,溫度、風(fēng)速、濕度和氣壓4個天氣指標(biāo)與共享單車出行需求存在統(tǒng)計意義下的格蘭杰 因果關(guān)系,即有助于預(yù)測共享單車出行需求量。利用已通過格蘭杰因果檢驗的天氣指標(biāo)數(shù)據(jù),計算待預(yù)測日各時段與歷史數(shù)據(jù)之間的灰色關(guān)聯(lián)度,通過灰色關(guān)聯(lián)度的大小來選取待預(yù)測日各時段的相似日訓(xùn)練集。圖6是采樣時刻為5月31日8時與前14個工作日8時的樣本集之間的灰色關(guān)聯(lián)度??梢钥闯?,與5月31日8時關(guān)聯(lián)度最大的是5月23日8時的數(shù)據(jù),灰色關(guān)聯(lián)度達(dá)到0.946。關(guān)聯(lián)度最小的是5月25日同時期的數(shù)據(jù),僅為0.66。本文依據(jù)關(guān)聯(lián)度指標(biāo),各預(yù)測時段分別選取5個相似日的歷史數(shù)據(jù)作為預(yù)測模型的輸入。

        圖6 相似日的灰色關(guān)聯(lián)度Fig.6 Gray relevance of similar days

        3.3 模型預(yù)測精度分析

        初級學(xué)習(xí)器和次級學(xué)習(xí)器的選擇對組合模型的預(yù)測精度有著重要影響。本文首先比較了不同組合策略下模型的預(yù)測精度。

        為了比較不同組合策略的預(yù)測精度,確定最優(yōu)組合模型的結(jié)構(gòu),本文運(yùn)用多種組合策略,分別建立需求量預(yù)測模型。如表4所示,不同組合策略下的模型預(yù)測精度差異較大。策略2采用隨機(jī)森林和支持向量回歸作為初級學(xué)習(xí)器,策略3在策略2的基礎(chǔ)上,初級學(xué)習(xí)器將隨機(jī)森林變?yōu)榱松窠?jīng)網(wǎng)絡(luò),并新增了線性回歸模型。相較策略2,由于初級學(xué)習(xí)器的不同,策略3的RMSE下降了20.1%。策略4的初級學(xué)習(xí)器與策略3相同,但是次級學(xué)習(xí)器采用擬合優(yōu)度法。相較策略4,由于次級學(xué)習(xí)器的不同,策略3的RMSE下降了28%。初級學(xué)習(xí)器的預(yù)測精度對組合模型的預(yù)測精度有著重要影響。若初級學(xué)習(xí)器預(yù)測性能較差,可能會造成組合模型的預(yù)測精度降低。如相較策略3,策略9新增了隨機(jī)森林作為初級學(xué)習(xí)器,但是策略9的RMSE反而增加了6%。說明組合模型的預(yù)測精度與學(xué)習(xí)器的個數(shù)沒有必然聯(lián)系,需要深入探究不同學(xué)習(xí)器的組合策略。由于組合策略3的預(yù)測誤差最小,因此本文采用的最優(yōu)組合模型以神經(jīng)網(wǎng)絡(luò)、線性回歸和支持向量回歸為初級學(xué)習(xí)器,線性回歸為次級學(xué)習(xí)器。

        表4 組合模型的預(yù)測精度

        為了驗證相似日選擇方法的有效性,本文按照是否采取基于相似日選取的方法,將模型訓(xùn)練輸入分為樣本集1和樣本集2。除了ARIMA模型以外,其余機(jī)器學(xué)習(xí)算法均是選取的與待預(yù)測日相同日期屬性的樣本集。樣本集1是基于待預(yù)測日相鄰前5 d的歷史數(shù)據(jù),樣本集2是基于本文提出的相似日方法選取的關(guān)聯(lián)度最大的5 d歷史數(shù)據(jù)。不同樣本輸入下的模型預(yù)測精度如表5所示。可以看出,相較樣本集1,采用樣本集2作為輸入,隨機(jī)森林、神經(jīng)網(wǎng)絡(luò)、多元線性回歸、支持向量回歸的預(yù)測誤差都明顯降低,說明采用本文提出的相似日選取方法可以顯著提高傳統(tǒng)模型的預(yù)測精度。另外,相較初級學(xué)習(xí)器中預(yù)測精度最高的神經(jīng)網(wǎng)絡(luò)預(yù)測模型,本文提出的組合模型的RMAPE下降了9.1%。表明與其他預(yù)測基礎(chǔ)模型相比,本文提出的組合模型具有更高的預(yù)測精度,可為實際車輛調(diào)度提供參考依據(jù)。

        表5 預(yù)測精度比較

        4 結(jié)論

        共享單車的需求量預(yù)測是提高企業(yè)服務(wù)質(zhì)量、效益和用戶體驗的關(guān)鍵環(huán)節(jié)。為了篩選出影響單車需求量的關(guān)鍵天氣指標(biāo),本文引入了格蘭杰因果檢驗方法。為了衡量待預(yù)測日各時段與歷史日的天氣特征向量間的相似性,本文采用灰色關(guān)聯(lián)分析法篩選出了具有高度相似性的相似日樣本集。該方法可以有效地對訓(xùn)練樣本進(jìn)行特征選擇,減少了模型的計算訓(xùn)練時間并提高模型的泛化能力。在基于Stacking策略的組合模型中,以神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林回歸、支持向量回歸等算法作為初級學(xué)習(xí)器,運(yùn)用多種組合策略,確定的最優(yōu)組合預(yù)測模型綜合了各單一模型所具有優(yōu)勢,降低了預(yù)測誤差并提高了模型的泛化性能。最后以北京市共享單車用戶的騎行數(shù)據(jù)為實驗數(shù)據(jù)進(jìn)行實例分析,驗證了本文模型的準(zhǔn)確性。本研究可以用于實際大規(guī)模需求預(yù)測,為優(yōu)化共享單車系統(tǒng)布局、實現(xiàn)車輛合理調(diào)度提供參考。

        猜你喜歡
        格蘭杰需求量關(guān)聯(lián)度
        從數(shù)學(xué)角度看“彈性”
        基于灰色關(guān)聯(lián)度的水質(zhì)評價分析
        格蘭杰因果關(guān)系在神經(jīng)科學(xué)領(lǐng)域的發(fā)展及缺陷
        電子科技(2015年8期)2015-12-18 13:17:56
        基于灰關(guān)聯(lián)度的鋰電池組SOH評價方法研究
        2017年我國汽車軟管需求量將達(dá)6.4億m
        橡膠科技(2015年3期)2015-02-26 14:45:02
        榜單
        基于BP神經(jīng)網(wǎng)絡(luò)人均豬肉需求量預(yù)測
        基于灰色關(guān)聯(lián)度的公交線網(wǎng)模糊評價
        河南科技(2014年16期)2014-02-27 14:13:25
        格蘭杰因果關(guān)系在復(fù)雜網(wǎng)絡(luò)中的應(yīng)用*
        2013年日本國內(nèi)紙與紙板市場需求量預(yù)計減少1.5%
        无码人妻丰满熟妇啪啪网不卡 | 未满十八勿入av网免费| 久久99久久99精品免观看不卡| 日韩精品av在线一区二区| 麻豆精品一区二区三区| 三个男吃我奶头一边一个视频| 无码人妻久久一区二区三区免费 | 夹得好湿真拔不出来了动态图| 强行无套内谢大学生初次| 国产精品免费久久久免费| 一片内射视频在线观看| 亚洲免费在线视频播放| 色噜噜亚洲男人的天堂| 在线高清理伦片a| 中文字幕亚洲综合久久菠萝蜜| 激情内射亚洲一区二区| 日本精品一级二区三级| 国产精品美女一区二区视频| 亚洲色大成网站www久久九| 国产精品网站夜色| 久久亚洲精品成人av观看| 美女丝袜美腿玉足视频| 大地资源网高清在线播放| 人妻少妇av无码一区二区 | av在线免费播放网站| 国产av熟女一区二区三区密桃| 中国女人内谢69xxxxxa片| 国产尤物精品福利视频| 69天堂国产在线精品观看| 免费av在线 国产精品| 东北女人啪啪对白| 国产如狼似虎富婆找强壮黑人| 精品亚洲午夜久久久久| 久久本道久久综合一人| 中文字幕在线乱码一区| 高清不卡一区二区三区| 男人的天堂在线无码视频| 国产精品成人久久a级片| 亚洲高清在线天堂精品| 久久无码av中文出轨人妻| 国产艳妇av在线出轨|