亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        UCTB:時(shí)空人群流動(dòng)預(yù)測(cè)工具箱

        2022-04-13 02:40:26陳李越王樂業(yè)
        計(jì)算機(jī)與生活 2022年4期
        關(guān)鍵詞:工具箱時(shí)空站點(diǎn)

        陳李越,柴 迪,王樂業(yè)+

        1.高可信軟件技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室(北京大學(xué)),北京100871

        2.北京大學(xué) 信息科學(xué)技術(shù)學(xué)院 計(jì)算機(jī)科學(xué)技術(shù)系,北京100871

        3.香港科技大學(xué) 計(jì)算機(jī)科學(xué)與工程系,香港999077

        人群流動(dòng)預(yù)測(cè)是城市計(jì)算中的關(guān)鍵問題,在城市資源調(diào)度、城市規(guī)劃與安全預(yù)警等場(chǎng)景有著諸多應(yīng)用,人群流動(dòng)預(yù)測(cè)技術(shù)對(duì)優(yōu)化社會(huì)資源作用明顯,對(duì)社會(huì)穩(wěn)定與繁榮的意義重大。與此同時(shí),傳感器網(wǎng)絡(luò)、移動(dòng)智能終端的普及和位置獲取技術(shù)的發(fā)展帶來了海量具有時(shí)間和地理信息的數(shù)據(jù),例如車速、供需強(qiáng)度與人群流量數(shù)據(jù)等,這些具有時(shí)間和空間屬性的數(shù)據(jù)被稱為時(shí)空數(shù)據(jù)。大量豐富的時(shí)空數(shù)據(jù)為預(yù)測(cè)人群的流動(dòng)提供了良好的數(shù)據(jù)基礎(chǔ)。

        人群流動(dòng)預(yù)測(cè)應(yīng)用范圍廣泛,如預(yù)先調(diào)度空閑車輛至熱點(diǎn)需求區(qū)域、預(yù)測(cè)地鐵站峰值人流等。事實(shí)上,城市范圍內(nèi)與人群的遷移、流動(dòng)相關(guān)的應(yīng)用問題都可以被稱為人群流動(dòng)預(yù)測(cè)問題。人群流動(dòng)預(yù)測(cè)問題因具有非線性、受多種因素影響等特點(diǎn),難以實(shí)現(xiàn)精準(zhǔn)的預(yù)測(cè)。

        歷經(jīng)多年的研究與發(fā)展,國內(nèi)外學(xué)者在時(shí)空人群流動(dòng)預(yù)測(cè)領(lǐng)域做了大量的努力。早期研究將人群流動(dòng)預(yù)測(cè)問題作為經(jīng)典的時(shí)間序列預(yù)測(cè)問題,如整合移動(dòng)平均自回歸模型(autoregressive integrated moving average,ARIMA)和歷史均值法(historical mean,HM)。線性模型ARIMA 和HM 不能很好地建模人群流動(dòng)的非線性特性。后來有許多非線性算法被運(yùn)用在時(shí)空人群流動(dòng)預(yù)測(cè)問題上,如馬爾可夫隨機(jī)場(chǎng)(Markov random field,MRF)、決策樹方法等。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度學(xué)習(xí)技術(shù)被廣泛運(yùn)用于交通流量的預(yù)測(cè),循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)及其變種,主要包括LSTM(long shortterm memory)與GRU(gated recurrent network),因其具有良好的捕獲序列信息的能力,被廣泛運(yùn)用于交通預(yù)測(cè)中。然而上述模型通常只考慮了預(yù)測(cè)值與過去值在時(shí)間維度上的依賴性,并沒有很好地利用空間依賴。

        空間跨度上的依賴也是人群流動(dòng)的一大特性,例如相鄰的站點(diǎn)更可能具有相似的流量,具有相似功能的站點(diǎn)的流量模式相似等。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在人臉識(shí)別、目標(biāo)檢測(cè)等領(lǐng)域大放異彩,已被證實(shí)能夠很好地提取歐式數(shù)據(jù)(例如圖像)的特征,學(xué)者們將城市劃分大小為×的圖像,然后使用CNN 捕獲空間依賴,CNN 可以通過殘差單元(residual unit)被堆疊得十分深,進(jìn)而能夠捕獲長(zhǎng)距離依賴。對(duì)于社交網(wǎng)絡(luò)等非歐式數(shù)據(jù),CNN 無法直接使用,圖卷積神經(jīng)網(wǎng)絡(luò)(graph convolutional network,GCN)應(yīng)運(yùn)而生,許多基于GCN 的時(shí)空模型被應(yīng)用于交通流量預(yù)測(cè)。例如DCRNN(diffusion convolution recurrent neural network)將圖卷積視作雙向圖上的擴(kuò)散過程,以捕獲交流流量的空間依賴。ST-MGCN(spatio-temporal multi-graph convolution network)將多種空間知識(shí)與循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合起來捕獲流量特征。隨著注意力機(jī)制的發(fā)展,越來越多的基于注意力機(jī)制的模型被提出,許多帶有自注意力(self-attention)與多端注意力機(jī)制(multi-head attention mechanism)的模型也被用于預(yù)測(cè)人群流動(dòng),例如Liang 等人利用多層次注意力機(jī)制捕獲傳感器網(wǎng)絡(luò)的時(shí)空依賴,Wang等人利用圖注意網(wǎng)絡(luò)捕獲流量的空間依賴,同時(shí)使用transformer模型捕獲長(zhǎng)期時(shí)間依賴。

        上述研究廣泛地探究了人群流動(dòng)的時(shí)間和空間依賴(也被稱為時(shí)空先驗(yàn)知識(shí)),這些知識(shí)能夠幫助模型更好地捕獲人群的流動(dòng)模式,但時(shí)空知識(shí)種類繁多,全面地利用這些知識(shí)是一件十分困難的事情。另一方面,許多新穎的模型都被冠以“先進(jìn)”的標(biāo)簽,證實(shí)這一點(diǎn)最直接的方法就是與其他基準(zhǔn)模型進(jìn)行對(duì)比,但對(duì)這些模型進(jìn)行復(fù)現(xiàn)是一件費(fèi)時(shí)而困難的事情。雖然深度學(xué)習(xí)社區(qū)一直在倡導(dǎo)著開源,也有許多相關(guān)的源代碼被開源出來(https://github.com/lehaifeng/T-GCN,https://github.com/xiaochus/TrafficFlowPrediction),但這些代碼通常較為分散,只包含了一種或少許幾種模型,且不同作者在深度學(xué)習(xí)框架的選擇上與數(shù)據(jù)的組織上各不相同,因此,很難直接利用這些開源代碼在同一個(gè)環(huán)境下進(jìn)行實(shí)驗(yàn)。針對(duì)上述痛點(diǎn),本文基于TensorFlow實(shí)現(xiàn)了一款面向時(shí)空人群流動(dòng)預(yù)測(cè)應(yīng)用的工具箱(urban computing tool box,UCTB),旨在為研究、從業(yè)人員提供如下便利:

        (1)工具箱集成了時(shí)空人群流動(dòng)領(lǐng)域常用的時(shí)空知識(shí),提供了統(tǒng)一的數(shù)據(jù)處理接口以便利用不同類型的時(shí)空先驗(yàn)知識(shí)。同時(shí)由于數(shù)據(jù)接口的統(tǒng)一,工具箱內(nèi)集成的各類模型能夠直接進(jìn)行比較。

        (2)工具箱既集成了經(jīng)典預(yù)測(cè)模型,也集成了先進(jìn)的深度學(xué)習(xí)模型,以便快速復(fù)現(xiàn)各類模型,同時(shí)工具箱還提供了許多可復(fù)用的高級(jí)模型層,以加速用戶對(duì)新模型的開發(fā)。

        (3)為了便于用戶快速上手,還編寫了詳細(xì)易懂的配套文檔,所有的模型與自定義模塊均有示例以供參考。UCTB 工具箱的網(wǎng)址是https://github.com/uctb/UCTB,配套文檔的網(wǎng)址是https://uctb.github.io/UCTB/。

        1 框架設(shè)計(jì)

        機(jī)器學(xué)習(xí)算法執(zhí)行的一般流程是:讀取與預(yù)處理數(shù)據(jù)、構(gòu)建模型、訓(xùn)練以及評(píng)估模型。與這一基本思路相對(duì)應(yīng),UCTB 工具箱由數(shù)據(jù)處理、模型構(gòu)建、模型訓(xùn)練與評(píng)估三大模塊組成(見圖1)。

        圖1 UCTB 整體框架Fig.1 Framework of UCTB

        在數(shù)據(jù)處理模塊中,定義了一種可被運(yùn)用于各類人群流動(dòng)預(yù)測(cè)應(yīng)用的通用數(shù)據(jù)集?;谕ㄓ脭?shù)據(jù)集,利用時(shí)空先驗(yàn)知識(shí)設(shè)計(jì)了時(shí)空特征提取接口;在模型構(gòu)建模塊當(dāng)中,對(duì)經(jīng)典的人群流動(dòng)預(yù)測(cè)模型進(jìn)行了實(shí)現(xiàn),同時(shí)解耦了一些可被復(fù)用的高級(jí)的模型層;在訓(xùn)練與評(píng)估模塊,對(duì)UCTB 中的訓(xùn)練與評(píng)估機(jī)制進(jìn)行了介紹。

        1.1 數(shù)據(jù)處理

        UCTB 工具箱對(duì)原始數(shù)據(jù)的處理分為兩大階段完成:第一階段將不同的原始數(shù)據(jù)轉(zhuǎn)化為UCTB 通用數(shù)據(jù)集格式;第二階段基于時(shí)空先驗(yàn)知識(shí)從通用數(shù)據(jù)集中提取不同類型的時(shí)空特征。

        人群流動(dòng)的原始數(shù)據(jù)來源于種類繁多的傳感器,例如地鐵站的閘機(jī)記錄了進(jìn)出站數(shù)據(jù),公路上的速度傳感器記錄了當(dāng)前車流速度,來自于多種應(yīng)用場(chǎng)景的數(shù)據(jù)處理過程無法統(tǒng)一。針對(duì)這一問題,本文設(shè)計(jì)了一種統(tǒng)一的數(shù)據(jù)集格式,作為原始數(shù)據(jù)和特征的“中間件”,用戶只需要先將不同數(shù)據(jù)處理成該格式,進(jìn)而能夠利用UCTB 工具箱提取不同特征。UCTB 通用數(shù)據(jù)集是原始數(shù)據(jù)與特征的“中間件”,以鍵值對(duì)(key-value pair)的形式通過pickle 協(xié)議(https://docs.python.org/3/library/pickle.html)存儲(chǔ),主要的鍵值對(duì)信息列于表1。

        表1 UCTB 通用數(shù)據(jù)集格式Table 1 Datasets format in UCTB

        特征提取是利用先驗(yàn)知識(shí)將流量轉(zhuǎn)化為各種特征,使得預(yù)測(cè)模型能夠更好地捕獲人群流量的各種模式,這些專家知識(shí)主要包括時(shí)間知識(shí)和空間知識(shí)。時(shí)間知識(shí)從不同視角反映了未來的流量值與過去哪些時(shí)刻的流量值相關(guān),按照不同的時(shí)間知識(shí)對(duì)數(shù)據(jù)按照不同時(shí)間間隔進(jìn)行采樣便能提取出時(shí)間特征(見圖2)。

        圖2 時(shí)序特征采樣示意圖Fig.2 Schematic diagram of generating temporal features by sampling time serials data

        常用的時(shí)間知識(shí)主要有以下三類。

        (1)鄰近時(shí)刻相似:相鄰時(shí)刻的流量一般而言不會(huì)發(fā)生太大的突變,也即過去若干個(gè)時(shí)刻的流量值與未來的預(yù)測(cè)值是相關(guān)的。

        (2)日相似:未來的流量值通常與前幾天同一時(shí)刻的值相關(guān),這對(duì)應(yīng)了人類活動(dòng)的日周期性。

        (3)周相似:本周六的流量與本周五和上周六相比,流量會(huì)與后者更為相似,周相似與日相似只是時(shí)間間隔有區(qū)別。

        人群流動(dòng)還有著空間上的相關(guān)性,空間知識(shí)反映了預(yù)測(cè)站點(diǎn)和其他站點(diǎn)流量的關(guān)系。在基于深度學(xué)習(xí)的人群流量預(yù)測(cè)模型中,對(duì)不同類型的數(shù)據(jù)的空間特征提取技術(shù)不同。對(duì)于網(wǎng)格型數(shù)據(jù),通常使用卷積技術(shù)提取空間依賴(如ST-ResNet);對(duì)于節(jié)點(diǎn)型數(shù)據(jù),通?;谙闰?yàn)知識(shí)構(gòu)建出不同的鄰接圖,使用圖卷積技術(shù)提取空間依賴。圖卷積技術(shù)主要分為頻域方法(如ChebNet)和空域方法(如DCRNN)。不同類型的鄰接圖反映了不同類型的空間知識(shí),例如基于地理位置構(gòu)建出距離圖,根據(jù)流量的相似程度構(gòu)建出區(qū)域功能圖等。

        除了時(shí)空特征,人群流動(dòng)還受外部因素的影響,例如氣溫會(huì)影響共享單車的使用,暴雨和大風(fēng)會(huì)減少出租車的需求。外部特征通常需要收集額外的氣候、節(jié)假日數(shù)據(jù)集得到,UCTB 通用數(shù)據(jù)集中的鍵值對(duì)被用于存儲(chǔ)外部特征。

        在數(shù)據(jù)處理階段,UCTB 工具箱除了能夠提取數(shù)據(jù)集的時(shí)空特征之外,還會(huì)對(duì)數(shù)據(jù)進(jìn)行歸一化(normalization)和劃分訓(xùn)練集、驗(yàn)證集與測(cè)試集等操作,便于后續(xù)接口的調(diào)用。UCTB 提供了對(duì)應(yīng)的數(shù)據(jù)預(yù)處理接口,細(xì)節(jié)見2.1 節(jié)。

        1.2 通用模型的設(shè)計(jì)

        UCTB 工具箱需要集成許多經(jīng)典的模型,主要包括統(tǒng)計(jì)學(xué)習(xí)模型和深度學(xué)習(xí)模型兩大類。統(tǒng)計(jì)學(xué)習(xí)模型和深度學(xué)習(xí)模型的構(gòu)建與訓(xùn)練過程存在區(qū)別,但為了便于用戶使用,UCTB 為不同的模型進(jìn)行了封裝,并提供了相似的使用接口。例如在UCTB 集成的各模型內(nèi)部均實(shí)現(xiàn)了訓(xùn)練方法fit和預(yù)測(cè)方法predict。

        值得注意的是,在實(shí)現(xiàn)深度學(xué)習(xí)模型時(shí),一些訓(xùn)練和預(yù)測(cè)以及模型的存儲(chǔ)接口是相似的,為了盡可能地復(fù)用代碼,UCTB 中設(shè)計(jì)了基礎(chǔ)模型類,該類集成了訓(xùn)練、預(yù)測(cè)、斷點(diǎn)續(xù)訓(xùn)等功能,具體的深度學(xué)習(xí)模型只需繼承這一基礎(chǔ)類,然后定義自己的模型結(jié)構(gòu)并設(shè)置相應(yīng)的特征輸入函數(shù)即可。

        1.3 模型的訓(xùn)練與評(píng)估

        統(tǒng)計(jì)學(xué)習(xí)模型的訓(xùn)練較為簡(jiǎn)單,不多贅述。在訓(xùn)練深度學(xué)習(xí)模型時(shí),通常會(huì)將訓(xùn)練數(shù)據(jù)分為若干個(gè)批次(batch),然后選取小批次(mini batch)數(shù)據(jù)用于更新梯度進(jìn)行訓(xùn)練,UCTB 工具箱也集成了這種機(jī)制。在訓(xùn)練過程中,UCTB 還會(huì)根據(jù)驗(yàn)證集誤差評(píng)估模型的收斂性以確定是否訓(xùn)練完成,即UCTB 在模型訓(xùn)練中融入了早停機(jī)制(early stopping)。

        當(dāng)模型訓(xùn)練和預(yù)測(cè)完成后,還需要對(duì)測(cè)試結(jié)果進(jìn)行相應(yīng)的評(píng)估。評(píng)估是將真實(shí)值與預(yù)測(cè)值進(jìn)行比較,在時(shí)空人群流動(dòng)預(yù)測(cè)問題中,均方根誤差(root mean square error,RMSE)和平均絕對(duì)百分比誤差(mean absolute percentage error,MAPE)都是常用的評(píng)估函數(shù),UCTB 也提供了相應(yīng)的評(píng)估接口。

        2 框架實(shí)現(xiàn)與接口參數(shù)

        上述介紹了UCTB 數(shù)據(jù)處理、模型構(gòu)建和訓(xùn)練及預(yù)測(cè)三大模塊的基本功能,本章主要對(duì)UCTB 工具箱中的三大模塊的實(shí)現(xiàn)和相關(guān)接口進(jìn)行介紹。

        2.1 數(shù)據(jù)處理接口

        UCTB 提供了對(duì)通用數(shù)據(jù)集的處理接口(表2)。其中GridTrafficLoader 和NodeTrafficLoader 接口根據(jù)輸入的數(shù)據(jù)集相關(guān)參數(shù)(如數(shù)據(jù)集名稱、數(shù)據(jù)合并參數(shù)、訓(xùn)練集/測(cè)試集劃分比例和歸一化等)分別用于讀取網(wǎng)格型和節(jié)點(diǎn)型數(shù)據(jù),然后根據(jù)時(shí)空先驗(yàn)知識(shí)提取出不同的特征。ST_MoveSample 接口按照不同的時(shí)間間隔對(duì)流量數(shù)據(jù)進(jìn)行采樣得到不同的時(shí)間特征。GraphGenerator 接口產(chǎn)生不同類型的空間圖得到不同類型的空間特征。

        表2 UCTB 中的數(shù)據(jù)處理接口Table 2 Data processing interface in UCTB

        與1.1.2 小節(jié)中提及的三種時(shí)間先驗(yàn)相對(duì)應(yīng),ST_MoveSample 的采樣間隔主要有三種,分別代表了不同間隔時(shí)間特征的采樣數(shù)目。例如鄰近相似為6,日相似為7,周相似為4 表示將預(yù)測(cè)時(shí)刻的前6 個(gè)時(shí)刻,預(yù)測(cè)時(shí)刻最近7 天同時(shí)刻的和最近4 周的同時(shí)刻的流量共同作為時(shí)間特征。

        GraphGenerator 接口接收?qǐng)D名稱并根據(jù)相應(yīng)的圖閾值生成圖的鄰接矩陣和拉普拉斯矩陣。例如距離圖的閾值參數(shù)可被設(shè)置為6 500 m,GraphGenerator會(huì)根據(jù)各站點(diǎn)的歐式距離生成鄰接矩陣,然后將距離小于閾值6 500 m 的站點(diǎn)在鄰接矩陣中置為1,大于閾值6 500 m 的站點(diǎn)置為0,也即大于閾值的站點(diǎn)沒有關(guān)聯(lián),小于閾值的站點(diǎn)有關(guān)聯(lián)。閾值選取的好壞也決定了空間知識(shí)能否被很好地提取。根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn),較好的閾值一般能使得每個(gè)節(jié)點(diǎn)平均與其他20%的節(jié)點(diǎn)有聯(lián)系。

        2.2 模型接口

        UCTB 工具箱提供了兩類模型接口:第一類是完整的模型,這類接口是對(duì)人群流動(dòng)預(yù)測(cè)模型的復(fù)現(xiàn);第二類接口是可復(fù)用的模型層,這一類接口是人群流動(dòng)預(yù)測(cè)領(lǐng)域常使用到的高級(jí)模型層,用戶能夠利用可復(fù)用的模型層快速實(shí)現(xiàn)自定義的新模型。

        UCTB內(nèi)實(shí)現(xiàn)了很多經(jīng)典模型,如ARIMA、HM、XGBoost(extreme gradient Boosting)、ST-ResNet、DCRNN、ST-MGCN和STMeta等(表3),這些模型均被封裝成了模型類,類內(nèi)部實(shí)現(xiàn)了訓(xùn)練函數(shù)fit和預(yù)測(cè)函數(shù)predict。表3 同時(shí)還列出了這些模型所考慮到的時(shí)空先驗(yàn)知識(shí)。

        表3 UCTB 中集成的模型Table 3 Implemented models in UCTB

        在統(tǒng)計(jì)學(xué)習(xí)方法中,ARIMA 是被廣泛使用的時(shí)間序列預(yù)測(cè)模型,主要考慮了最近幾個(gè)時(shí)刻的流量值;歷史均值HM 使用過去若干時(shí)刻流量的平均值作為未來的預(yù)測(cè)值,歷史均值不僅僅考慮最近幾個(gè)時(shí)刻的流量值,最近幾天相同時(shí)刻和最近幾周相同時(shí)刻的流量值也會(huì)被考慮;GBRT(gradient boosted regression trees)利用過去的流量值作為特征,UCTB實(shí)現(xiàn)GBRT 時(shí)也利用了多種時(shí)間知識(shí),例如鄰近時(shí)刻相似、日相似和周相似;XGBoost 與GBRT 相似,具有更高的執(zhí)行效率。

        在深度學(xué)習(xí)方法中,DCRNN是先進(jìn)的深度圖模型之一。DCRNN 將擴(kuò)散卷積和RNN 結(jié)合,用以同時(shí)捕獲時(shí)間和空間特征,原始DCRNN 模型只利用了鄰近時(shí)刻相似特征和空間距離圖;ST-MGCN 利用圖卷積技術(shù)去捕獲多種空間特征,同時(shí)將不同的時(shí)間特征連接到一個(gè)序列向量中以利用多種時(shí)間特征;STMeta 是一種可以整合時(shí)間和空間特征的預(yù)測(cè)框架,其利用時(shí)空建模單元同時(shí)捕獲不同類型的時(shí)空特征(常用的時(shí)空建模單元包括GCLSTM和DCGRU),然后利用時(shí)空聚合單元將不同類型的時(shí)空特征聚合起來(常用的時(shí)空聚合單元有圖注意層和特征連接),最終得到時(shí)空特征的隱表示。

        UCTB 中實(shí)現(xiàn)的第二類高級(jí)模型層見表4,其中DCGRU 與GCLSTM 均為時(shí)空建模單元,其主體架構(gòu)分別為GRU 和LSTM,內(nèi)部將乘積更新操作替換成了圖卷積操作,時(shí)空建模單元能夠同時(shí)捕獲時(shí)間和空間特征。ChebNet基于圖拉普拉斯矩陣使用切比雪夫多項(xiàng)式進(jìn)行圖卷積操作。圖注意層(graph attention layer,GAL)對(duì)圖中的節(jié)點(diǎn)使用注意力機(jī)制進(jìn)行更新,常用于聚合多圖特征。

        表4 UCTB 中的高級(jí)模型層Table 4 High-level layers in UCTB

        2.3 訓(xùn)練與評(píng)估接口

        UCTB 集成的訓(xùn)練與評(píng)估接口見表5。在訓(xùn)練深度學(xué)習(xí)模型時(shí),通常訓(xùn)練數(shù)據(jù)較大,無法一次性讀入內(nèi)存,UCTB會(huì)依次從全部數(shù)據(jù)中取mini-batch大小的數(shù)據(jù)用于更新梯度,并執(zhí)行多輪(epoch)。MiniBatch-FeedDict接口具體實(shí)現(xiàn)了這一功能,該類通過不斷調(diào)用內(nèi)部的get_batch 方法產(chǎn)生批數(shù)據(jù)用于訓(xùn)練。

        表5 UCTB 中的訓(xùn)練與評(píng)估接口Table 5 Training and evaluating interface in UCTB

        UCTB 中實(shí)現(xiàn)了兩種早停機(jī)制,分別是樸素方法和檢驗(yàn)方法(t-test),樸素方法能夠容忍若干步?jīng)]有獲得更低的驗(yàn)證集誤差;t-test 方法將最近的2輪的驗(yàn)證集誤差等分為兩組獨(dú)立樣本,每組個(gè),并執(zhí)行獨(dú)立樣本的t-test 方法。原假設(shè)是這兩個(gè)樣本的均值是相同的,當(dāng)假設(shè)檢驗(yàn)的值小于閾值(通常是0.10或0.05),表示拒絕兩分布的均值相等的假設(shè),也即模型還沒有達(dá)到收斂標(biāo)準(zhǔn),反之則代表模型收斂,停止訓(xùn)練。UCTB 中還集成了兩種人群流量預(yù)測(cè)中最為常見的評(píng)估函數(shù),分別是RMSE 和MAPE。

        3 案例研究

        為了展示UCTB 工具箱的效果,收集了4 個(gè)場(chǎng)景8 個(gè)城市的真實(shí)數(shù)據(jù)集,利用UCTB 中集成的模型進(jìn)行相應(yīng)的實(shí)驗(yàn),所有的實(shí)驗(yàn)代碼均已開源。原始記錄分別被處理成30 min與60 min粒度的數(shù)據(jù)集,目標(biāo)是預(yù)測(cè)下一個(gè)時(shí)刻的流量。將這些數(shù)據(jù)集按照時(shí)間順序以8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。

        3.1 實(shí)驗(yàn)數(shù)據(jù)

        共享單車數(shù)據(jù)集來源于美國開放數(shù)據(jù)網(wǎng)站,包含了紐約(https://www.citibikenyc.com/system-data)、華盛頓特區(qū)和芝加哥3 個(gè)城市的數(shù)據(jù)。原始數(shù)據(jù)的時(shí)間范圍超過了4 年,每條有效數(shù)據(jù)都包含了開始站點(diǎn)、開始時(shí)間、停止站點(diǎn)、停止時(shí)間等信息。預(yù)測(cè)的值是每個(gè)站點(diǎn)下一個(gè)時(shí)刻共享單車的需求數(shù)量。

        網(wǎng)約車數(shù)據(jù)集來自滴滴出行“蓋亞”數(shù)據(jù)開放計(jì)劃(https://outreach.didichuxing.com/app-vue/),包含了西安市和成都市兩個(gè)月的網(wǎng)約車記錄。每條網(wǎng)約車記錄都包含開始位置、開始時(shí)間、結(jié)束位置和結(jié)束時(shí)間等信息。由于開始和結(jié)束位置包含了經(jīng)緯度,將整個(gè)城市劃分成了16×16 的網(wǎng)格,每個(gè)網(wǎng)格的大小都是0.5 km×0.5 km,預(yù)測(cè)目標(biāo)是每個(gè)網(wǎng)格下一時(shí)刻的需求值。

        地鐵數(shù)據(jù)集包含了上海市和重慶市的地鐵人群流量數(shù)據(jù),時(shí)間跨度是3 個(gè)月,每個(gè)地鐵記錄都包含了進(jìn)站時(shí)間、進(jìn)站站名、出站時(shí)間和出站站名。同樣收集了各個(gè)地鐵站點(diǎn)的地理信息數(shù)據(jù)。預(yù)測(cè)目標(biāo)是每個(gè)站點(diǎn)下一時(shí)刻的進(jìn)站人數(shù)。

        電動(dòng)汽車充電站數(shù)據(jù)集是北京充電站的使用情況數(shù)據(jù),原始數(shù)據(jù)來源于國內(nèi)最大的充電樁公司之一。數(shù)據(jù)集的時(shí)間跨度是6 個(gè)月,有效的記錄數(shù)超過100 萬。預(yù)測(cè)目標(biāo)是每個(gè)充電站點(diǎn)下一時(shí)刻充電樁的使用數(shù)量。

        3.2 部分模型調(diào)用過程

        分別展示統(tǒng)計(jì)學(xué)習(xí)模型ARIMA(過程1)和深度學(xué)習(xí)模型STMeta(過程2)的完整調(diào)用代碼。

        ARIMA是經(jīng)典的時(shí)間序列模型,其收斂較快,對(duì)于每個(gè)站點(diǎn)使用單獨(dú)的ARIMA 模型,值得注意的是,并不是所有站點(diǎn)的數(shù)據(jù)都具有平穩(wěn)特性,對(duì)于不具有平穩(wěn)性的站點(diǎn),UCTB 會(huì)使用前一時(shí)刻的值作為預(yù)測(cè)值。

        STMeta 是一種元框架模型,其利用了多種時(shí)空先驗(yàn)知識(shí),STMeta 會(huì)將時(shí)空知識(shí)兩兩組合,然后使用時(shí)空建模單元捕獲不同類型的時(shí)空依賴,接著利用時(shí)空聚合單元將不同類型的時(shí)空特征聚合起來,最后將聚合后的特征表示通過全連接層輸出預(yù)測(cè)目標(biāo)。

        ARIMA 模型的示例調(diào)用過程

        其余模型運(yùn)行代碼與ARIMA 或STMeta 的運(yùn)行代碼相似。上述實(shí)例代碼的執(zhí)行順序和結(jié)構(gòu)與在第1 章框架設(shè)計(jì)階段所預(yù)設(shè)的“數(shù)據(jù)的讀取與處理、模型的定義、模型的訓(xùn)練及評(píng)估”三大模塊相吻合。

        STMeta模型的示例調(diào)用過程

        3.3 實(shí)驗(yàn)結(jié)果

        圖3 中的4 幅子圖分別展示了3 種模型HM、XGBoost 和STMeta 在上海地鐵與西安網(wǎng)約車30 min和60 min 粒度數(shù)據(jù)集的預(yù)測(cè)結(jié)果。上海地鐵數(shù)據(jù)集中的12 號(hào)站點(diǎn)和西安網(wǎng)約車252 號(hào)站點(diǎn)均為數(shù)據(jù)集中流量最大的站點(diǎn)。圖3 中藍(lán)線代表了預(yù)測(cè)時(shí)刻的真實(shí)值(ground truth),橙線代表的HM 模型和真實(shí)值相差較大,綠色代表的STMeta 模型較HM 與XGBoost而言更為接近真實(shí)值。

        圖3 HM、STMeta、XGBoost在不同數(shù)據(jù)集上的預(yù)測(cè)結(jié)果Fig.3 Prediction results of HM,STMeta,XGBoost on different datasets

        還在其他數(shù)據(jù)集以及其他粒度進(jìn)行了大量的實(shí)驗(yàn)。從方法上來說,統(tǒng)計(jì)學(xué)習(xí)方法(ARIMA、HM、XGBoost、GBRT)在各數(shù)據(jù)集上的最佳準(zhǔn)確率不優(yōu)于深度學(xué)習(xí)方法(ST-ResNet、ST-MGCN 與STMeta 等)。這主要有兩大原因:一方面是因?yàn)樯疃葘W(xué)習(xí)模型對(duì)時(shí)空特征的建模能力較強(qiáng),另一方面是因?yàn)樯疃葘W(xué)習(xí)方法通常融合了更多的特征知識(shí),統(tǒng)計(jì)學(xué)習(xí)方法通常只考慮模型的時(shí)間特征,而深度學(xué)習(xí)方法通常會(huì)融合時(shí)空特征。

        將圖3 中30 min 粒度與60 min 粒度的結(jié)果進(jìn)行對(duì)比,不難發(fā)現(xiàn)時(shí)間粒度越小,深度學(xué)習(xí)方法相較于統(tǒng)計(jì)學(xué)習(xí)方法的優(yōu)勢(shì)就越小。這是因?yàn)楫?dāng)時(shí)間粒度越小時(shí),時(shí)間特征相較于空間特征就更為重要,因此僅考慮時(shí)間特征的統(tǒng)計(jì)學(xué)習(xí)系列方法與同時(shí)建模時(shí)空特征的深度學(xué)習(xí)系列方法的差距便越小。

        以上展示了目前UCTB 中集成的模型的測(cè)試結(jié)果,基于這些結(jié)果,觀察出了一些有價(jià)值的結(jié)論。未來,相關(guān)的研究、從業(yè)人員能夠利用本文提出的工具箱,發(fā)掘出更多有關(guān)人群流動(dòng)的規(guī)律,最終能快速地將新穎的想法轉(zhuǎn)化為實(shí)際的模型。

        3.4 可視化接口

        為了便于用戶深層次地了解數(shù)據(jù)集與實(shí)驗(yàn)結(jié)果,設(shè)計(jì)了兩類可視化接口。第一類是數(shù)據(jù)集站點(diǎn)可視化接口,用于顯示各站點(diǎn)的空間位置,在數(shù)據(jù)接口NodeTrafficLoader 和GridTrafficLoader 中集成了這一功能,通過調(diào)用其中的st_map 方法展示,效果如圖4(a)。第二類是實(shí)驗(yàn)結(jié)果可視化接口,主要用于展示不同模型實(shí)驗(yàn)運(yùn)行的結(jié)果,本文基于HTML(hypertext markup language)和JavaScript 實(shí)現(xiàn)了這一功能,效果如圖4(b)。目前可視化接口功能尚不完善,主要存在功能分散、交互體驗(yàn)不夠友好等問題,未來將聚焦這些問題,進(jìn)一步優(yōu)化。

        圖4 UCTB 中的可視化工具Fig.4 Visualization tools in UCTB

        4 結(jié)束語

        為加速相關(guān)研究、從業(yè)人員對(duì)時(shí)空人群流動(dòng)預(yù)測(cè)領(lǐng)域時(shí)空先驗(yàn)知識(shí)的利用,快速地進(jìn)行復(fù)現(xiàn)或?qū)崿F(xiàn)模型,基于TensorFlow 設(shè)計(jì)并實(shí)現(xiàn)了時(shí)空人群流動(dòng)預(yù)測(cè)工具箱UCTB。該工具箱集成了大量時(shí)空人群流動(dòng)預(yù)測(cè)領(lǐng)域的研究和多種經(jīng)典模型,能夠被廣泛用于人群流動(dòng)相關(guān)的場(chǎng)景。UCTB 相關(guān)代碼及文檔已完全開源,供研究、從業(yè)人員使用。同時(shí),也期待著用戶們?cè)谑褂煤筇岢鰧氋F意見,將及時(shí)跟進(jìn),持續(xù)改進(jìn)UCTB 工具箱。

        猜你喜歡
        工具箱時(shí)空站點(diǎn)
        跨越時(shí)空的相遇
        鏡中的時(shí)空穿梭
        基于Web站點(diǎn)的SQL注入分析與防范
        電子制作(2019年14期)2019-08-20 05:43:42
        2017~2018年冬季西北地區(qū)某站點(diǎn)流感流行特征分析
        玩一次時(shí)空大“穿越”
        首屆歐洲自行車共享站點(diǎn)協(xié)商會(huì)召開
        中國自行車(2017年1期)2017-04-16 02:53:52
        怕被人認(rèn)出
        時(shí)空之門
        Matlab曲線擬合工具箱在地基沉降預(yù)測(cè)模型中的應(yīng)用
        搜狗分號(hào)工具箱 輸入更便捷
        国产如狼似虎富婆找强壮黑人| 久久精品国产精品亚洲艾| 丝袜美腿一区二区在线观看| 蜜桃视频第一区免费观看| 蜜臀av色欲a片无码精品一区| 亚洲午夜福利在线观看| 岛国大片在线免费观看| 免费人妻精品区一区二区三| 日韩亚洲精品国产第二页| 48久久国产精品性色aⅴ人妻| 精品视频一区二区三三区四区| 国产对白刺激在线观看| 精品极品视频在线观看| 久久午夜羞羞影院免费观看| 中国一 片免费观看| 亚洲乱在线播放| 久久99人妖视频国产| 久久无码人妻一区二区三区午夜| 久久精品国内一区二区三区| 国产在线天堂av| 青青草视频在线观看入口| 久久久久无码国产精品一区| 亚洲av无码资源在线观看| 免費一级欧美精品| 开心激情视频亚洲老熟女| 欧美老熟妇喷水| 在线视频你懂的国产福利| 男子把美女裙子脱了摸她内裤| 中文字幕一区二区三区的| 欧洲freexxxx性少妇播放| 四虎影视久久久免费| 一区二区三区在线乱码| 色88久久久久高潮综合影院| 两个人看的www高清视频中文| 久久HEZYO色综合| 亚洲中文字幕久久在线| 久久久精品国产sm调教网站| 国产精品天堂avav在线| 国产自拍三级黄片视频| 久久精品国产精品亚洲| 国产精品一区二区久久精品|