亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向分布式EMDN-GRU模型的乘客等待時(shí)間預(yù)測(cè)

        2020-07-09 22:56:59白宇鄭永玲蔣順英楊楠
        現(xiàn)代信息科技 2020年21期
        關(guān)鍵詞:等待時(shí)間

        白宇 鄭永玲 蔣順英 楊楠

        摘 ?要:面對(duì)移動(dòng)軌跡大數(shù)據(jù)難以使用傳統(tǒng)數(shù)據(jù)處理平臺(tái)進(jìn)行處理,乘客等待時(shí)間難以預(yù)測(cè),以及GPS數(shù)據(jù)無法明確給出車輛行駛方向的問題。文章提出一種基于Spark的坐標(biāo)軸車輛方向判別法,并建立了EMDN-GRU模型對(duì)乘客等待時(shí)間進(jìn)行預(yù)測(cè),并且與LSTM、GRU、EMD-LSTM與EMD-GRU進(jìn)行比較。案例研究表明:EMDN-GRU模型明顯優(yōu)于比較模型,其中MAPE最少提高了8.183%,最大提高了25.729%;在乘客等待時(shí)間預(yù)測(cè)方面具有良好的效果。

        關(guān)鍵詞:等待時(shí)間;EMD算法;GRU;Spark;車輛方向

        中圖分類號(hào):O211.61;TP301.6 ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)21-0059-08

        Passenger Waiting Time Prediction for Distributed EMDN-GRU Model

        BAI Yu,ZHENG Yongling,JIANG Shunying,YANG Nan

        (School of Data Science and Information Engineering,Guizhou Minzu University,Guiyang ?550025,China)

        Abstract:Facing with the problems that it is difficult to use traditional data processing platforms to process big data of moving trajectories,it is difficult to predict the waiting time of passengers,and GPS data cannot clearly give the vehicle driving direction. The article proposes a method for judging the vehicle direction of the coordinate axis based on Spark,and establishes the EMDN-GRU model to predict passenger waiting time,and compares it with LSTM,GRU,EMD-LSTM and EMD-GRU. The case study shows that the EMDN-GRU model is significantly better than the comparison model. The MAPE is increased by at least 8.183% and the largest by 25.729%;it has a good effect on passenger waiting time prediction.

        Keywords:waiting time;EMD algorithm;GRU;Spark;vehicle direction

        0 ?引 ?言

        隨著信息技術(shù)的發(fā)展,傳統(tǒng)數(shù)據(jù)分析平臺(tái)難以對(duì)如今的數(shù)據(jù)量進(jìn)行分析[1,2]。大數(shù)據(jù)已成為科技界、產(chǎn)業(yè)界、政府部門高度關(guān)注的焦點(diǎn),而移動(dòng)軌跡大數(shù)據(jù)分析正成為城市計(jì)算、智慧城市領(lǐng)域的研究熱點(diǎn)[3,4]。當(dāng)前,嚴(yán)峻的交通狀況影響著乘客出行時(shí)間規(guī)劃,如何為乘客提供精準(zhǔn)信息以便于乘客出行,已成智慧城市的研究熱點(diǎn)之一。

        乘客等待時(shí)間預(yù)測(cè)在交通領(lǐng)域方面起著重要作用。然而時(shí)間序列一般為非平穩(wěn)序列,在進(jìn)行處理與分析中常常難以得到理想結(jié)果。因此,可引入經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)算法進(jìn)行非平穩(wěn)序列處理,將序列分解為多個(gè)本征模函數(shù)(IMF)與一個(gè)趨勢(shì)項(xiàng)(Res)[5]。

        1 ?研究背景

        乘客等待時(shí)間預(yù)測(cè)吸引著越來越多的國(guó)內(nèi)外學(xué)者研究。齊觀德等人2012年提出泊松分布對(duì)等待時(shí)間進(jìn)行模擬[6];Qi等人于2013年,提出基于非齊次泊松分布的乘客等待時(shí)間預(yù)測(cè)[7];Xu等人提出一種出租車搜尋系統(tǒng),并將符合系統(tǒng)條件的出租車到達(dá)時(shí)間作為等待時(shí)間[8];Hwang等人求出每個(gè)地點(diǎn)的平均等待時(shí)間并作為乘客等待時(shí)間進(jìn)行預(yù)測(cè)[9];Qiu等人結(jié)合道路、氣候以及泊松過程(NPPCRW)對(duì)等待時(shí)間進(jìn)行預(yù)測(cè)[10];王詔遠(yuǎn)等人使用經(jīng)驗(yàn)分布對(duì)等待時(shí)間進(jìn)行模擬,并采用增量學(xué)習(xí)模型對(duì)模型進(jìn)行更新[11]。

        然而,對(duì)于出租車等待時(shí)間的預(yù)測(cè)研究,基本上都傾向于使用傳統(tǒng)統(tǒng)計(jì)方法,對(duì)神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法并未進(jìn)行深入研究。除此以外,對(duì)于等待時(shí)間的預(yù)測(cè),也有不少學(xué)者進(jìn)行了關(guān)于公交車的預(yù)測(cè)。陸俊天等人通過特征相關(guān)性處理數(shù)據(jù)后,帶入門控循環(huán)神經(jīng)網(wǎng)絡(luò)(GRU)進(jìn)行公交車時(shí)間按預(yù)測(cè)[12]。Chen等人提出通過使用高斯伯努利的限制玻爾茲曼機(jī),對(duì)DBN模型進(jìn)行構(gòu)造并對(duì)公交車到達(dá)時(shí)間進(jìn)行預(yù)測(cè)[13]。Ma等人提出一種基于路況的SVM||KNN||ANN模型,進(jìn)行等待時(shí)間預(yù)測(cè)[14]。He等人將公交車路線劃為多段式,并基于此提出一種歷史平均法以預(yù)測(cè)公交車到達(dá)時(shí)間[15]。然而,學(xué)者對(duì)于公交車等待時(shí)間的預(yù)測(cè),主要采用分段式方法進(jìn)行預(yù)測(cè),即:將公交路線按站臺(tái)進(jìn)行劃分,并分別預(yù)測(cè)時(shí)間,再進(jìn)行相加。尤其是,對(duì)于類似出租車乘客等具有一定流動(dòng)性的乘客而言,雖然有一定的可參考性,但若直接引用,效果并不友好。

        時(shí)間序列的預(yù)測(cè),必然會(huì)面對(duì)序列的非平穩(wěn)性問題。Empirical Mode EMD自提出以來,在非線性,非平穩(wěn)信號(hào)的處理中具有良好的效果[16],因此常與一些預(yù)測(cè)模型結(jié)合使用。比如戴昭武等人使用EMD-LSTM[17]預(yù)測(cè)工程問題中的時(shí)間序列;Bian等人使用AR-DWT-EMD模型進(jìn)行船舶運(yùn)動(dòng)短期預(yù)測(cè)[18];姚洪剛等人使用EMD-LSTM[19]與張可等人PCA-LSTM[20]進(jìn)行金融方面的預(yù)測(cè);Zhao等人使用EMD-LSTM進(jìn)行網(wǎng)絡(luò)流量方面的預(yù)測(cè)[21];Jing等人使用EMD-PSO-SVM算法對(duì)安全狀況進(jìn)行預(yù)測(cè)[22]。以上學(xué)者在使用EMD算法與預(yù)測(cè)模型結(jié)合進(jìn)行實(shí)驗(yàn)研究的過程中得到論證:經(jīng)由EMD算法處理后的序列比未經(jīng)過處理的原始序列展現(xiàn)出的性能更佳。因此,使用EMD算法進(jìn)行非平穩(wěn),非線性信號(hào)處理更有助于提高精度。

        綜上所述,針對(duì)具有乘客的流動(dòng)性(如:出租車乘客),以及經(jīng)緯度數(shù)據(jù)存在的偏差難以對(duì)具體的地點(diǎn)進(jìn)行數(shù)據(jù)挑選的問題,本文選取一段道路進(jìn)行乘客等待時(shí)間預(yù)測(cè)研究。

        研究過程中,針對(duì)數(shù)據(jù)的缺失情況,本文首先采用零值對(duì)缺失值進(jìn)行補(bǔ)充,以保證程序的正常運(yùn)行;

        其次,數(shù)據(jù)缺失一般分為以下兩種情況:(1)針對(duì)缺失數(shù)據(jù)處于兩個(gè)有效值中間的情況,取上下兩個(gè)有效值的均值作為缺失值的填充,替換零值;(2)針對(duì)缺失值處于開頭或結(jié)尾的情況,使用其臨近的有效值減去5作為其值得填充,替換缺失值。

        最后,得到完整的時(shí)間序列。針對(duì)乘客等待時(shí)間預(yù)測(cè):首先,采用EMD算法將時(shí)間序列分解為有限個(gè)IMF與一個(gè)Res;其次,對(duì)每一個(gè)IMF序列與Res序列進(jìn)行歸一化,將數(shù)值映射到[0,1]之間;最后,將EMD算法與歸一化方法在循環(huán)中不斷地使用帶有Dropout機(jī)制的GRU模型進(jìn)行結(jié)果預(yù)測(cè),再將每個(gè)序列進(jìn)行反歸一化得到原來的數(shù)值,并且求總和,將預(yù)測(cè)值與實(shí)際值進(jìn)行對(duì)比。

        作者采用由數(shù)據(jù)堂提供的2012年11月北京市12 000輛出租車所產(chǎn)生的GPS數(shù)據(jù)進(jìn)行研究。對(duì)原始GPS數(shù)據(jù)進(jìn)行預(yù)處理得出等待時(shí)間序列。由作者提出一種改進(jìn)的EMDN-GRU模型(Empirical Mode Decomposition and Normalization for Gated Recurrent Unit)以及一種創(chuàng)新的坐標(biāo)車輛判別方法。研究過程中,作者實(shí)現(xiàn)了雙向車道的車輛方向判別,提高了等待時(shí)間預(yù)測(cè)的精度。

        2 ?乘客等待時(shí)間預(yù)測(cè)模型

        2.1 ?數(shù)據(jù)預(yù)處理

        在數(shù)據(jù)預(yù)處理中,首先提取出租車GPS軌跡數(shù)據(jù)(如2012年11月5日),其次判斷車輛運(yùn)行軌跡是否在目標(biāo)路段區(qū)域,之后將數(shù)據(jù)按相同ID與時(shí)間進(jìn)行排序,并取出相同車牌下的狀態(tài)連續(xù)為(0,1,1)的車輛,再將最后一個(gè)狀態(tài)為1的車輛數(shù)據(jù)進(jìn)行保存。最后,將數(shù)據(jù)按照行進(jìn)方向進(jìn)行劃分,實(shí)現(xiàn)雙車道數(shù)據(jù)分離,并將數(shù)據(jù)按30分鐘為間隔取其出租車到達(dá)時(shí)間均值作為等待時(shí)間。其處理過程如圖1所示。

        針對(duì)數(shù)據(jù)處理過程中的數(shù)據(jù)缺失問題,進(jìn)行以下處理:首先,將確實(shí)數(shù)據(jù)按數(shù)值為0進(jìn)行填充,以確保預(yù)處理程序能夠順利運(yùn)行;其次,針對(duì)缺失數(shù)據(jù)處于兩個(gè)有效值中間的情況,取上下兩個(gè)有效值的均值作為缺失值的填充,替換零值;最后,針對(duì)缺失值處于開頭或結(jié)尾的情況,使用其臨近的有效值減去5作為其值得填充,替換缺失值。

        2.2 ?模型構(gòu)建

        GRU作為L(zhǎng)STM的變體,既可以解決長(zhǎng)期依賴關(guān)系的時(shí)間問題,也可以解決RNN存在的梯度爆炸和梯度消失的問題,且結(jié)構(gòu)比LSTM簡(jiǎn)單,且所需參數(shù)比LSTM少,訓(xùn)練過程中更易收斂。GRU將忘記門和輸入門合成了一個(gè)單一的更新門。除此以外,還混合了細(xì)胞狀態(tài)和隱藏狀態(tài)。其神經(jīng)網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)如圖2所示。

        其中,xt為時(shí)間序列在t時(shí)刻的輸入,ht-1為t-1時(shí)刻的輸出值,與LSTM一樣,首先GRU計(jì)算更新門(zt)與重置門(rt)的門值,并經(jīng)過Sigmid函數(shù)σ激活。隨后rt作用于(xt,ht-1),同樣,更新門(zt)的值作用于(xt,ht-1),并且,值經(jīng)過tanh函數(shù),得到新的 ?,而1-門值會(huì)作用在ht-1上。W為權(quán)重矩陣,σ和tanh為激活函數(shù)。則最后GRU的輸出可以表示為:

        zt=σ(Wz·[ht,xt])

        rt=σ(Wr·[ht-1,xt])

        =tanh(W·[rt*ht-1,xt])

        ht=(1-zt)*ht-1+zt*

        神經(jīng)網(wǎng)絡(luò)模型中,除了需要確認(rèn)epoch參數(shù)與batch_size外,還需要確定神經(jīng)網(wǎng)絡(luò)層數(shù)以及每層的神經(jīng)元個(gè)數(shù),batch_size為一次訓(xùn)練時(shí)神經(jīng)網(wǎng)絡(luò)的讀入數(shù)據(jù)大小。合適的batch_size不僅可以增加梯度下降方向的準(zhǔn)確度,且能減小訓(xùn)練震蕩,加快收斂。epoch參數(shù)為模型訓(xùn)練次數(shù),換言之,epoch參數(shù)即在模型不斷地根據(jù)訓(xùn)練集反復(fù)調(diào)整權(quán)重的過程中,給模型一個(gè)終止條件;而神經(jīng)網(wǎng)絡(luò)的層數(shù)以及每層的神經(jīng)元個(gè)數(shù)作為模型的構(gòu)成部分,直接影響著模型的訓(xùn)練效果。以上參數(shù)皆需要在訓(xùn)練前確認(rèn)數(shù)值并輸入,通常由實(shí)驗(yàn)中進(jìn)行不斷的調(diào)試所得,本文中,神經(jīng)網(wǎng)絡(luò)的batch_size設(shè)置為4,epoch參數(shù)設(shè)置為180;神經(jīng)網(wǎng)絡(luò)層數(shù)設(shè)置為2,神經(jīng)元個(gè)數(shù)設(shè)置為432。

        EMD依據(jù)數(shù)據(jù)自身的時(shí)間尺度特征來進(jìn)行信號(hào)分解,不需要事先預(yù)定或強(qiáng)制給定基函數(shù)。可將非平穩(wěn)時(shí)間序列分解為有限個(gè)IMF。在此過程中,對(duì)于本文所對(duì)應(yīng)的非平穩(wěn)時(shí)間序列,EMD分解后的數(shù)據(jù)序列為:有限個(gè)IMF與Res序列。此時(shí)對(duì)于神經(jīng)網(wǎng)絡(luò)層數(shù)以及神經(jīng)元固定的GRU而言,預(yù)測(cè)精度將大大降低。

        基于上述原因,本文對(duì)由EMD所得的數(shù)值進(jìn)行歸一化處理,將值映射為[0,1]之間,待使用GRU完成每一個(gè)序列的預(yù)測(cè)后,再分別將歸一化數(shù)值返回為原來的數(shù)值,并求和,此時(shí)的總和就是我們的最終預(yù)測(cè)值。EMDN-GRU模型構(gòu)建過程如圖3所示。

        EMDN-GRU的構(gòu)建步驟為:(1)采用EMD算法將得到的時(shí)間序列數(shù)據(jù)分解為有限個(gè)IMF序列與Res序列;(2)采用歸一化方法將IMF序列與殘差序列映射到[0,1]之間,并將每一個(gè)歸一化后的數(shù)據(jù)帶入GRU模型進(jìn)行預(yù)測(cè);(3)將預(yù)測(cè)后的數(shù)值進(jìn)行反歸一化,并將數(shù)值相加,得到最終預(yù)測(cè)序列。

        2.3 ?模型實(shí)現(xiàn)

        為了降低預(yù)測(cè)應(yīng)用的計(jì)算成本和內(nèi)存消耗,在基于Spark并行處理框架的Hadoop分布式計(jì)算平臺(tái)中實(shí)現(xiàn)EMDN-GRU模型,實(shí)現(xiàn)乘客等待時(shí)間的并行預(yù)測(cè)。Spark框架下實(shí)現(xiàn)EMDN-GRU優(yōu)化模型,主要包括以下步驟:(1)讀取HDFS文件,創(chuàng)建RDD數(shù)據(jù)集,并按照車輛ID與時(shí)間排序;(2)將出租車狀態(tài)排序?yàn)椋?,1,1)后,提取最后一個(gè)狀態(tài)為“1”的數(shù)據(jù),根據(jù)經(jīng)緯度數(shù)據(jù)提取出車輛在目標(biāo)路段的數(shù)據(jù);(3)屬于目標(biāo)路段的車輛僅保留GPS時(shí)間數(shù)據(jù),并將數(shù)據(jù)按30分鐘進(jìn)行劃分;(4)使用下一個(gè)時(shí)間點(diǎn)的數(shù)據(jù)減去上一個(gè)時(shí)間點(diǎn)的數(shù)據(jù),并在劃分好的時(shí)間區(qū)域內(nèi),將其求均值,得到在該路段每隔30分鐘等到一輛出租車的時(shí)間;(5)使用EMD算法將得到的時(shí)間序列數(shù)據(jù)分解為IMF序列與Res序列;(6)采用歸一化方法將IMF序列與Res序列映射到[0,1]之間;(7)配置參數(shù)導(dǎo)入GRU模型,帶入上述IMF與Res序列進(jìn)行預(yù)測(cè);(8)將每一個(gè)預(yù)測(cè)值反歸一化,并且求其總和,作為最終預(yù)測(cè);(9)將最終預(yù)測(cè)值與真實(shí)值進(jìn)行對(duì)比,得出模型評(píng)價(jià)值。

        3 ?案例研究與結(jié)果分析

        3.1 ?實(shí)驗(yàn)數(shù)據(jù)

        采用本文使用的真實(shí)軌跡數(shù)據(jù)集。此外,本章選取北京市王府井的一條繁華路段:朝陽(yáng)門南小街 進(jìn)行開展研究。GPS軌跡點(diǎn)的密度分布如圖4所示。從圖中可看到,路段選取主要為雙向車道?;疑珵榈谝宦范危咨珵榈诙范?。本文實(shí)驗(yàn)數(shù)據(jù)主要采用第一路段,運(yùn)用第一路段的歷史數(shù)據(jù)預(yù)測(cè)未來等待時(shí)間。

        實(shí)驗(yàn)中,將道路劃為坐標(biāo)軸,如圖5所示。

        假設(shè)90°為出租車在道路一上行駛的筆直方向,與假設(shè)相對(duì),出租車在道路二上行駛的筆直方向,為270°。當(dāng)方向?yàn)?°時(shí),認(rèn)為出租車已轉(zhuǎn)方向,準(zhǔn)備駛?cè)胗疫叺男÷?,但此點(diǎn)進(jìn)行數(shù)據(jù)預(yù)處理時(shí)已表明為上客點(diǎn),如圖4所示,因此仍可認(rèn)為在此點(diǎn)有乘客搭車并且搭車成功,只是之后的前行方向并未在目標(biāo)道路上,并不影響乘客的等待行為。同理,出租車行駛方向?yàn)?80°時(shí)認(rèn)為有乘客在此點(diǎn)搭車成功。

        總的來說,出租車的車頭在一二象限時(shí)可認(rèn)為出租車行駛方向一致?,F(xiàn)實(shí)中,出租車會(huì)在干道上進(jìn)行超車,靠左行駛以及靠右行駛等變換方向的行為,但車頭都不會(huì)進(jìn)行掉頭操作,因此在0°~180°內(nèi)認(rèn)為出租車在道路一行駛,以坐標(biāo)軸的象限來說,此時(shí)出租車的車頭在三四象限。同理,車頭在180°~360°內(nèi)認(rèn)為出租車在道路二行駛。數(shù)據(jù)集按照行駛方位的定義劃分為兩個(gè)數(shù)據(jù)集,一個(gè)為道路一的數(shù)據(jù)集,另一個(gè)為道路二的數(shù)據(jù)集。

        道路數(shù)據(jù)集劃分開后,再對(duì)時(shí)間數(shù)據(jù)進(jìn)行劃分,首先,將一天的時(shí)間按30分鐘進(jìn)行劃分;其次,對(duì)已劃分完畢的30分鐘內(nèi)的時(shí)間點(diǎn)進(jìn)行兩兩相減,求其時(shí)間間隔,最后將時(shí)間段內(nèi)的數(shù)據(jù)進(jìn)行求均值操作,作為等待時(shí)間數(shù)據(jù)進(jìn)行處理。

        3.2 ?評(píng)價(jià)指標(biāo)

        為了驗(yàn)證所提出的EMDN-GRU模型的準(zhǔn)確性,我們將使用平均絕對(duì)百分比誤差(MAPE),均方根誤差(RMSE),平均絕對(duì)誤差(MAE),與最大誤差(ME)對(duì)模型的準(zhǔn)確性進(jìn)行評(píng)估,上述指標(biāo)的計(jì)算公式分別為:

        其中,Xt是由EMDN-GRU當(dāng)前路段在時(shí)間段內(nèi)的實(shí)際值, 為同一時(shí)段內(nèi)當(dāng)前路段由EMDN-GRU模型得到的預(yù)測(cè)值,n為預(yù)測(cè)時(shí)間段內(nèi)總的數(shù)據(jù)值。

        在大多數(shù)預(yù)測(cè)研究中,主要使用MAPE進(jìn)行模型精確度驗(yàn)證,MAPE值越低,預(yù)測(cè)精度越高。

        3.3 ?高峰時(shí)間段選取

        本實(shí)驗(yàn)將2012年11月的時(shí)間數(shù)據(jù)分為一整天與早晚高峰期進(jìn)行預(yù)測(cè),對(duì)模型精確度進(jìn)行檢測(cè)。早晚高峰期時(shí)間段從折線圖中選取。其中,以時(shí)間(Time)為橫軸,將時(shí)間按小時(shí)劃分,則04為凌晨四點(diǎn),16為下午四點(diǎn),以此類推;以乘客上客數(shù)(Pick-up-Number)為縱軸,將乘客在某一地點(diǎn),一整天的上客數(shù)進(jìn)行直觀展示,以此推出乘客高峰期。本文將時(shí)間分為工作日與周日。工作日選擇11月28日(星期三)與11月20日(星期二)進(jìn)行展示,如圖6所示。

        11月28日較于11月20日明顯,早高峰時(shí)間為08:00~10:00;晚高峰時(shí)間為16:00~18:00;11月20日早高峰時(shí)間為07:00~10:30;晚高峰時(shí)間為16:00~19:00。選取兩張圖形的共有時(shí)間段進(jìn)行早晚高峰期定義,最終早高峰時(shí)間段為08:00~10:00;晚高峰時(shí)間段為16:00~18:00。

        周末數(shù)據(jù)則選取11月03日(星期六)與11月25日(星期日)進(jìn)行展示,如圖7所示。

        周末與工作日的乘客出行特征顯然存在很大的區(qū)別,周末的折線圖高峰期主要集中在06:00~18:00與06:00~19:00,乘客上客數(shù)在此期間下降并不明顯且時(shí)間間隔短。但是圖7(a)中,最后的20:00~22:00有一個(gè)小高峰期。圖7(b)11月25日則是19:00~22:00,在此時(shí)間段內(nèi),乘客上客數(shù)十分明顯為一個(gè)高峰期,接近凌晨時(shí)的高峰期與現(xiàn)代人生活規(guī)律的改變有關(guān)。結(jié)合以上分析,確認(rèn)最終周末高峰期為:06:00~18:00與20:00~22:00。

        3.4 ?實(shí)驗(yàn)驗(yàn)證與結(jié)果分析

        3.4.1 ?周末高峰期預(yù)測(cè)

        我們首先對(duì)周末數(shù)據(jù)進(jìn)行序列分解,分解后序列的總和如圖8所示,由于原始序列為非平穩(wěn)序列,所以最初尋求極值點(diǎn)時(shí),兩點(diǎn)間的數(shù)值差額較大,基于此,IMF1序列總體走勢(shì)較為陡峭。接下來使用原始時(shí)間序列減去IMF1序列,再次進(jìn)行EMD算法,直至沒有IMF序列產(chǎn)生為止。為了驗(yàn)證EMD算法得到的序列與初始數(shù)據(jù)的擬合程度,將由EMD算法所得到的序列進(jìn)行求和,并與原始時(shí)間序列進(jìn)行擬合,圖8為EMD算法所有序列的總和與原始時(shí)間序列的擬合情況圖。顯然,序列的總和與原始數(shù)據(jù)擬合效果很好,說明并未缺失初始數(shù)據(jù)。

        在接下來的步驟中,使用周末數(shù)據(jù)進(jìn)行預(yù)測(cè),并且使用11月3日至11月4日的數(shù)據(jù)預(yù)測(cè)11月24日至11月25日,使用跨度較大的數(shù)據(jù)以檢驗(yàn)EMDN-GRU模型是否能準(zhǔn)確提取出序列的分布特征,檢驗(yàn)?zāi)P途?。并將EMDN-GRU與LSTM、EMD-LSTM、GRU、EMD-GRU進(jìn)行對(duì)比。其各項(xiàng)指標(biāo)對(duì)比結(jié)果如表1所示,模型擬合程度如圖9所示,其中,實(shí)線為測(cè)試集,虛線為預(yù)測(cè)值。

        表1中,由LSTM與GRU模型的指標(biāo)可知,GRU各個(gè)指標(biāo)確實(shí)均低于LSTM,因此改進(jìn)模型選為GRU。使用EMD算法進(jìn)行數(shù)據(jù)分解后,顯然波動(dòng)較大的數(shù)據(jù)擬合效果有很大提升,ME數(shù)值明顯下降,但造成了總體的預(yù)測(cè)精度下降。針對(duì)此情況,考慮是由于EMD算法得到的序列間數(shù)值相差較大,因此采用歸一化,將數(shù)據(jù)映射到[0,1]之間,再進(jìn)行預(yù)測(cè),最后得出EMDN-GRU模型預(yù)測(cè)結(jié)果。首先圖9(e)中,預(yù)測(cè)值與真實(shí)值擬合情況理想,結(jié)合表1,其各項(xiàng)評(píng)價(jià)指標(biāo)明顯低于前四項(xiàng)模型。其中,與LSTM,GRU,EMD-LSTM,EMD-GRU相比,MAPE最少提高了4.571%,提高最大數(shù)值為19.085%;MAE最少提高了25.136,提高最大數(shù)值為49.541;RMSE最少提高了59.844,提高最大值為74.607;ME最少提高了187.484,提高最大值為375.727。

        3.4.2 ?工作日高峰期預(yù)測(cè)

        由圖6與圖7可知,周末與工作日的分布規(guī)律存在很大的差別。為了更進(jìn)一步驗(yàn)證驗(yàn)證本文提出的EMDN-GRU模型的預(yù)測(cè)精度,本節(jié)將使用工作日數(shù)據(jù)預(yù)測(cè)下一工作日。選擇11月20日、11月21日與11月22日預(yù)測(cè)11月27日、11月28日與11月29日,并且取早高峰時(shí)間段為:08:00~

        10:00;晚高峰時(shí)間段為:16:00~18:00。

        同樣的,首先使用EMD算法將11月27日至11月29日的數(shù)據(jù)進(jìn)行分解,11月20日至11月22日的數(shù)據(jù)在模型訓(xùn)練時(shí)已完成所有EMD與歸一化過程。11月27日至11月29日的時(shí)間序列使用EMD算法可得到分解序列,圖10為由EMD算法得到的所有序列的總和。

        由圖10可直觀看出,EMD算法與原始序列的數(shù)值擬合程度很好,并未造成數(shù)據(jù)缺失等現(xiàn)象。

        圖11分別為L(zhǎng)STM、GRU、EMD-GRU、EMD-LSTM與EMDN-GRU模型的運(yùn)行結(jié)果圖,實(shí)線為測(cè)試集,虛線為模型預(yù)測(cè)結(jié)果。表2為各項(xiàng)模型的評(píng)價(jià)指標(biāo)。

        由圖可直觀地看到,首先對(duì)于LSTM與GRU模型,預(yù)測(cè)值與真實(shí)數(shù)據(jù)之間差距較大,雖然對(duì)于波動(dòng)幅度較小的數(shù)據(jù)預(yù)測(cè)效果較理想,但是一旦波動(dòng)較大,就會(huì)失去準(zhǔn)確性,雖然GRU各項(xiàng)指標(biāo)優(yōu)于LSTM,但總體而言預(yù)測(cè)效果并不理想。而EMD-LSTM與EMD-GRU模型雖然預(yù)測(cè)的高低峰趨向與測(cè)試集大體走勢(shì)呈相同趨勢(shì),但預(yù)測(cè)值與測(cè)試集之間仍然存在一定的數(shù)值差異。因此表2中,雖然EMD-LSTM與EMD-GRU的MAPE數(shù)值比LSTM與GRU模型分別高出4.856與17.546。但是其余三個(gè)指標(biāo)卻明顯低于LSTM與GRU模型的指標(biāo),尤其是ME指標(biāo),最低提高了190.533秒。最后,對(duì)于EMDN-GRU模型,可從圖10(e)中看到,無論是波動(dòng)較高的數(shù)據(jù),還是波動(dòng)較低的數(shù)據(jù),模型都能夠進(jìn)行準(zhǔn)確預(yù)測(cè)。更進(jìn)一步,從表2中的各項(xiàng)數(shù)值可以看出,MAPE數(shù)值最少提高了8.183%,提高數(shù)值最大為25.729%;MAE數(shù)值最少提高了30.907,提高數(shù)值最大為47.094;RMSE數(shù)值最少提高了32.469,提高數(shù)值最大為78.792;ME數(shù)值最少提高了91.569,提高數(shù)值最大為344.691。

        4 ?結(jié) ?論

        本文基于Spark并行框架提出一種EMDN-GRU模型,預(yù)測(cè)乘客等待時(shí)間。首先,使用EMD算法對(duì)非平穩(wěn)時(shí)間序列進(jìn)行序列分解,分解為有限個(gè)IMF序列與Res序列;其次,通過對(duì)每一個(gè)序列進(jìn)行歸一化,使得每一個(gè)序列的值都在[0,1]范圍內(nèi);最后,實(shí)現(xiàn)EMDN-GRU的預(yù)測(cè),并與GRU、LSTM、EMD-LSTM與EMD-GRU比較預(yù)測(cè)結(jié)果。實(shí)驗(yàn)結(jié)果顯示,EMDN-GRU模型預(yù)測(cè)結(jié)果明顯優(yōu)于其余四項(xiàng)模型,其中,周末的預(yù)測(cè),EMDN-GRU與GRU、LSTM、EMD-LSTM與EMD-GRU相較而言,MAPE分別降低8.260%、4.571%、19.085%與18.144%。工作日的數(shù)據(jù),MAPE分別降低10.123%、8.183%、14.979%與25.729%。實(shí)驗(yàn)結(jié)果表明,本文提出的基于Spark并行框架的分布式EMDN-GRU模型能夠更為準(zhǔn)確地提供乘客等待時(shí)間。

        參考文獻(xiàn):

        [1] YANG C,CHEN J J. A Scalable Data Chunk Similarity Based Compression Approach for Efficient Big Sensing Data Processing on Cloud [J].IEEE Transactions on Knowledge and Data Engineering,2017,29(6):1144-1157.

        [2] BASANTA-VAL P,AUDSLEY N C,WELLINGS A J,et al. Architecting Time-Critical Big-Data Systems [J].IEEE Transactions on Big Data,2016,2(4):310-324.

        [3] 夏大文.基于MapReduce的移動(dòng)軌跡大數(shù)據(jù)挖掘方法與應(yīng)用研究 [D].重慶:西南大學(xué),2016.

        [4] LU R Q,JIN X L,ZHANG S M,et al. A Study on Big Knowledge and Its Engineering Issues [J].IEEE Transactions on Knowledge and Data Engineering,2019,31(9):1630-1644.

        [5] NUNES J,YASMINA B,DEL?CHELLE E,et al. Image analysis by bidimensional empirical mode decomposition [J].Image and Vision Computing,2003,21(12):1019-1026.

        [6] 齊觀德,李石堅(jiān),潘遙,等.基于出租車軌跡數(shù)據(jù)挖掘的乘客候車時(shí)間預(yù)測(cè) [C]//第八屆和諧人機(jī)環(huán)境聯(lián)合學(xué)術(shù)會(huì)議(HHME2012)論文集PCC.廣州:中國(guó)計(jì)算機(jī)學(xué)會(huì)多媒體技術(shù)專業(yè)委員會(huì),2012:18-23.

        [7] QI G D,PAN G,LI S J,et al. How Long a Passenger Waits for a Vacant Taxi--Large-Scale Taxi Trace Mining for Smart Cities [C]//Proceedings of the 2013 IEEE International Conference on Green Computing and Communications and IEEE Internet of Things and IEEE Cyber,Physical and Social Computing.Washington:IEEE Computer Society,2013:1029-1036.

        [8] XU X J,ZHOU J Y,LIU Y,et al. Taxi-RS:Taxi-Hunting Recommendation System Based on Taxi GPS Data [J].IEEE Transactions on Intelligent Transportation Systems,2015,16(4):1716-1727.

        [9] HWANG R H,HSUEH Y L,CHEN Y T. An effective taxi recommender system based on a spatio-temporal factor analysis model [J].Information Sciences,2015,314:28-40.

        [10] QIU Z,LI H Y,HONG S D,et al. Finding Vacant Taxis Using Large Scale GPS Traces [C]//Web-Age Information Management.IEEE,2014:793-804.

        [11] 王詔遠(yuǎn),李天瑞,程堯,等.基于經(jīng)驗(yàn)分布的打車概率和等待時(shí)間預(yù)測(cè) [J].計(jì)算機(jī)工程與應(yīng)用,2015,51(24):254-259.

        [12] 陸俊天,孫玲,施佺.基于門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)的公交到站時(shí)間預(yù)測(cè) [J].南通大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,19(2):43-49.

        [13] CHEN C,WANG H,YUAN F,et al. Bus travel time prediction based on deep belief network with back-propagation [J].Neural Computing and Applications,2020,32(14):10435-10449.

        [14] MA J M,CHAN J,RISTANOSKI G,et al. Bus travel time prediction with real-time traffic information [J].Transportation Research Part C:Emerging Technologies,2019,105:536-549.

        [15] HE P L,JIANG G Y,LAM S K,et al. Travel-Time Prediction of Bus Journey With Multiple Bus Trips [J].IEEE Transactions on Intelligent Transportation Systems,2019,20(11):4192-4205.

        [16] HUANG N E,SHEN Z,LONG S R,et al. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis [J].Proceedings of the Royal Society A:Mathematical,Physical and Engineering Sciences,1998,454(1971):903-995.

        [17] 戴邵武,陳強(qiáng)強(qiáng),劉志豪,等.基于EMD-LSTM的時(shí)間序列預(yù)測(cè)方法 [J].深圳大學(xué)學(xué)報(bào)(理工版),2020,37(3):265-270.

        [18] BIAN D J,QIN S Q,WU W .A hybrid AR-DWT-EMD model for the short-term prediction of nonlinear and non-stationary ship motion [C]//Chinese Control and Decision Conference(CCDC),IEEE,2016:4042-4047.

        [19] 姚洪剛,沐年國(guó).EMD-LSTM模型對(duì)金融時(shí)間序列的預(yù)測(cè) [J/OL].計(jì)算機(jī)工程與應(yīng)用,2020:1-6(2020-12-02).http://kns.cnki.net/kcms/detail/11.2127.TP.20201202.1130.002.html.

        [20] 張可,崔樂.基于PCA-LSTM模型的多元時(shí)間序列分類算法研究 [J].統(tǒng)計(jì)與決策,2020(15):44-49.

        [21] ZHAO W,YANG H F,LI J Q,et al. Network Traffic Prediction in Network Security Based on EMD and LSTM [C]//Proceedings of the 9th International Conference on Computer Engineering and Networks(CENet2019).湖南:南京中愛教育科技有限公司,2020:830-836.

        [22] JIANG T J,ZHOU C G,ZHANG H Q. Time Series Forecasting with an EMD-LSSVM-PSO Ensemble Adaptive Learning Paradigm [C]//Proceedings of the 2018 International Conference on Computational Intelligence and Intelligent Systems.New York:Association for Computing Machinery,2018:44-50.

        作者簡(jiǎn)介:白宇(1994—),女,漢族,貴州仁懷人,碩士研究生,研究方向:統(tǒng)計(jì)學(xué)、海量數(shù)據(jù)統(tǒng)計(jì)與分析;鄭永玲(1995—),女,漢族,貴州畢節(jié)人,碩士研究生,研究方向:統(tǒng)計(jì)學(xué)、海量數(shù)據(jù)統(tǒng)計(jì)與分析;蔣順英(1996—),女,漢族,貴州興義人,碩士研究生,研究方向:統(tǒng)計(jì)學(xué)、海量數(shù)據(jù)統(tǒng)計(jì)與分析;楊楠(1997—),女,漢族,貴州盤縣人,碩士研究生,研究方向:統(tǒng)計(jì)學(xué)、海量數(shù)據(jù)統(tǒng)計(jì)與分析。

        猜你喜歡
        等待時(shí)間
        給學(xué)生適宜的等待時(shí)間
        ——國(guó)外課堂互動(dòng)等待時(shí)間研究的現(xiàn)狀與啟示
        河南省備孕婦女妊娠等待時(shí)間的影響因素分析
        你承受不起讓每個(gè)客戶都滿意
        不同排隊(duì)方式下服務(wù)公平感知差異研究
        淺析教師課堂提問中“等待時(shí)間”的“等待”內(nèi)涵
        小區(qū)開放對(duì)道路通行能力影響的評(píng)價(jià)研究
        科技視界(2016年26期)2016-12-17 19:54:41
        論延長(zhǎng)提問“等待時(shí)間”的教育意義
        意大利:反腐敗沒有等待時(shí)間
        公民與法治(2016年2期)2016-05-17 04:08:28
        顧客等待心理的十條原則
        視野(2015年14期)2015-07-28 00:01:44
        顧客等待心理的十條原則
        讀者(2015年12期)2015-06-19 16:09:14
        中文字字幕在线中文乱码解| 久草午夜视频| 亚洲AV无码AV色| 人妻少妇精品视中文字幕国语| 亚洲av色香蕉一区二区三区av | 挺进邻居丰满少妇的身体| 成人精品视频一区二区三区尤物 | 国产成年人毛片在线99| 中文字幕久久波多野结衣av不卡| 国产av麻豆mag剧集| 欧美自拍区| 99色网站| 亚洲中文字幕高清乱码毛片| 亚洲男人综合久久综合天堂| 人人妻人人狠人人爽天天综合网| 全部孕妇毛片| 精品88久久久久88久久久| 久久精品国产亚洲AV高清wy| 国产精品自产拍在线18禁 | 99精品国产在热久久无码| 99re热视频这里只精品| 亚洲成a人片在线播放观看国产| 国产免费一区二区三区在线观看| 久久精品国产亚洲av影院毛片| 久久久久久久综合综合狠狠| 亚洲欧洲偷自拍图片区| 国产喷水在线观看| 日本二区三区视频免费观看| 午夜免费观看一区二区三区| 文字幕精品一区二区三区老狼| 国产二级一片内射视频插放| 亚洲精品无码久久毛片| 中文字幕久久久人妻无码| 免费国产不卡在线观看| 日韩精品人妻久久久一二三| 肉体裸交137日本大胆摄影| 欧美伊人网| 国产一区二区在线观看我不卡| 日本免费播放一区二区| 免费欧洲毛片a级视频老妇女| 亚洲爆乳无码专区|