殷瑋川,何世偉,李玉斌,侯吉,周芳杰
?
基于云計(jì)算的地鐵大數(shù)據(jù)分析方法研究
殷瑋川,何世偉,李玉斌,侯吉,周芳杰
(北京交通大學(xué) 城市交通復(fù)雜系統(tǒng)理論與技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100044)
提出一種基于云計(jì)算的地鐵大數(shù)據(jù)分析方法,將地鐵大數(shù)據(jù)的處理分析劃分為數(shù)據(jù)讀取、數(shù)據(jù)存儲、數(shù)據(jù)清洗、數(shù)據(jù)分析和數(shù)據(jù)可視化5個階段,數(shù)據(jù)分析主要以車站客流規(guī)模情況、乘客出行時間情況等為例進(jìn)行說明。并以阿里云計(jì)算服務(wù)大數(shù)據(jù)平臺為工具,測試云計(jì)算技術(shù)與傳統(tǒng)數(shù)據(jù)庫的運(yùn)算效率,證明云計(jì)算具有處理速度快和不占用本地資源的優(yōu)點(diǎn)。最后,以成都地鐵AFC 1周刷卡數(shù)據(jù)為案例,對比實(shí)際情況與數(shù)據(jù)分析所得結(jié)論,驗(yàn)證了所提出的大數(shù)據(jù)分析方法具有較好的普適性,對于今后的地鐵大數(shù)據(jù)分析研究有很好的借鑒意義。
地鐵;云計(jì)算;客流分析;大數(shù)據(jù);AFC數(shù)據(jù)
近幾年來,我國各個城市的地鐵迅猛發(fā)展,建設(shè)運(yùn)營總里程不斷增加[1]。對于地鐵運(yùn)營企業(yè)來說,客流分析是線網(wǎng)規(guī)劃和運(yùn)營組織的重要參考之一,而隨著計(jì)算機(jī)和信息技術(shù)的迅猛發(fā)展和普及,地鐵領(lǐng)域積淀了海量的乘客出行信息等數(shù)據(jù),因此,結(jié)合海量地鐵AFC刷卡數(shù)據(jù)分析客流特征,實(shí)現(xiàn)資源的合理配置,進(jìn)而更好地服務(wù)地鐵客流的出行需求,對降低乃至消除供需不平衡情況有顯著研究價值。在處理此類問題上,大數(shù)據(jù)處理技術(shù)和方法支持具有強(qiáng)大優(yōu)勢,隨著決策需求的日益復(fù)雜,地鐵大數(shù)據(jù)的應(yīng)用場景也越來越廣泛[2]。當(dāng)前關(guān)于地鐵客流大數(shù)據(jù)分析的研究主要偏重于大數(shù)據(jù)分析的政策性、前沿性綜述方面以及客流出行特征分析。陸化普等[3]指出交通大數(shù)據(jù)與傳統(tǒng)交通數(shù)據(jù)的不同主要體現(xiàn)在特征中。當(dāng)前對大數(shù)據(jù)特征的描述主要有:3V,4V和5V等。結(jié)合交通大數(shù)據(jù)的基本類型,認(rèn)為交通大數(shù)據(jù)具有6V特征:體量巨大;處理快速;模態(tài)多樣;真假共存;價值;可視化。陳歡等[4]基于2014 年上海市第5次綜合交通調(diào)查結(jié)果,綜述上海市交通大數(shù)據(jù)資源現(xiàn)狀和基于大數(shù)據(jù)的城市綜合交通特征挖掘分析技術(shù)方法及主要成果。軌道交通大數(shù)據(jù)的應(yīng)用研究方面主要有:CHEN等[5]對基于大數(shù)據(jù)的乘客出行行為研究進(jìn)行系統(tǒng)和前瞻性的綜述分析。Van[6]通過烏特勒支的輕軌大數(shù)據(jù)對其運(yùn)營組織進(jìn)行分析。Kuhlman等[7]在收集荷蘭的輕軌和公共交通乘客出行數(shù)據(jù)基礎(chǔ)上,對乘客的出行行為進(jìn)行分析。JIANG等[8]利用乘客出行大數(shù)據(jù)對軌道交通的運(yùn)營時刻表進(jìn)行評估分析。而在大數(shù)據(jù)的技術(shù)方法層面的研究有:朱建生等[9]提出鐵路客票實(shí)名制信息綜合分析系統(tǒng)的技術(shù)架構(gòu),并設(shè)計(jì)反向索引以構(gòu)建客票實(shí)名制乘車信息的查詢策略和查詢流程,通過性能測試,驗(yàn)證了NoSQL數(shù)據(jù)庫技術(shù)在處理大數(shù)據(jù)查詢和分析中的高可用性。蔡昌俊等[10]利用AFC數(shù)據(jù),提出一種適用于路網(wǎng)結(jié)構(gòu)變化條件下的城軌站間客流量分布預(yù)測模型,并用廣州地鐵6號線開通前后的AFC數(shù)據(jù)進(jìn)行檢驗(yàn)。ZHOU等[11]通過挖掘不同數(shù)據(jù)源的信息研究公共交通客流量與天氣因素間的關(guān)系。DONG等[12]基于手機(jī)基站大數(shù)據(jù)的信息采用-means聚類算法對交通小區(qū)劃分方法進(jìn)了研究。目前研究中,雖然已有采用AFC數(shù)據(jù)對地鐵客流進(jìn)行分析或預(yù)測的文獻(xiàn),如文獻(xiàn)[10],但其數(shù)據(jù)量和相關(guān)數(shù)據(jù)處理分析方法都沒有涉及到大數(shù)據(jù)和云計(jì)算的范疇。綜上,針對地鐵大數(shù)據(jù)分析的研究還存在以下不足:1) 大部分的地鐵客流分析研究還停留在傳統(tǒng)的本地數(shù)據(jù)庫處理層面;2) 地鐵大數(shù)據(jù)的研究并沒有相應(yīng)的創(chuàng)新性和普適性方法,如針對地鐵大數(shù)據(jù)的分析處理方法還沒有涉及到云端分布式計(jì)算技術(shù),數(shù)據(jù)可視化技術(shù)應(yīng)用還有待深入研究。針對上述研究中的不足,本文以云計(jì)算技術(shù)為基礎(chǔ),提出一種地鐵大數(shù)據(jù)的分析處理方法,并以成都地鐵AFC大數(shù)據(jù)為例進(jìn)行驗(yàn)證,分析地鐵客流特征和波動規(guī)律,同時也驗(yàn)證了提出的大數(shù)據(jù)分析方法具有良好的精準(zhǔn)性和普適性。
本文提出的基于云計(jì)算的地鐵大數(shù)據(jù)分析方法分為數(shù)據(jù)讀取、數(shù)據(jù)存儲、數(shù)據(jù)清洗、數(shù)據(jù)分析和數(shù)據(jù)可視化5個階段,其中,數(shù)據(jù)分析主要包括車站客流規(guī)模情況、乘客出行時間情況、卡類型比例情況以及車站客流規(guī)模聚類方案等。該方法的流程示意圖如圖1所示,具體的操作步驟如下所述。
Step 1:數(shù)據(jù)讀取方法。在本地編程軟件如Java開發(fā)工具平臺上編寫代碼對原始數(shù)據(jù)集的數(shù)據(jù)結(jié)構(gòu)進(jìn)行讀取,獲取包括行分隔符和列分隔符的信息,從而可以保證順利將數(shù)據(jù)集上傳云端數(shù)據(jù)庫,如存在數(shù)據(jù)結(jié)構(gòu)“2aa2a04|N|104.063028|30.508351|雙流縣|1|104.127465|30.26802|雙流縣|1|27459.749617”,則列分隔符為“|”,行分隔符為“ ”。
Step 2:數(shù)據(jù)存儲方法。在云端數(shù)據(jù)庫新建與Step1獲得的數(shù)據(jù)結(jié)構(gòu)相對應(yīng)的表結(jié)構(gòu),利用云客戶端的MapReduce分布式上傳功能完成云端數(shù)據(jù)庫讀取大數(shù)據(jù)的操作,即將大數(shù)據(jù)存儲在云端數(shù)據(jù)庫中。
Step 3:數(shù)據(jù)清洗方法。在云平臺完成數(shù)據(jù)的清洗工作,包括將String類型的值轉(zhuǎn)換成Int類型以方便后期匹配計(jì)算,將一些列中帶不規(guī)則字符的數(shù)值重新統(tǒng)一格式。篩除無效數(shù)據(jù),如統(tǒng)計(jì)客流情況時,員工卡的進(jìn)出站記錄就屬于無效數(shù)據(jù)。再對部分缺失或空白的數(shù)據(jù)記錄進(jìn)行自動填充。
Step 4:數(shù)據(jù)分析方法。在云平臺對清洗后的數(shù)據(jù)進(jìn)行SQL分析操作,可從地鐵AFC數(shù)據(jù)記錄中篩選計(jì)算出各地鐵站的客流情況、進(jìn)出站斷面情況、乘客出行時間分布情況、OD量情況和卡類型情 況等。
以乘客出行時間分布為例,數(shù)據(jù)分析方法的具體偽代碼實(shí)現(xiàn)如下。Records為記錄總數(shù),Travel_ Time[i]為第條記錄的出行時間,Out_Station_ Time[i]為第條記錄的出站時刻,In_Station_time[i] 為第條記錄的進(jìn)站時刻,K_TimePattern為統(tǒng)計(jì)乘客出行時間比例而劃分的出行時段,K_Time Pattern. count為劃分時段數(shù)量,K_TimePattern[k].Time為第個時段對應(yīng)的出行時間上限值,K_TimePattern [k]. Cnt為第個時段客流數(shù)。
For(int i=0;i< Records;i++){
Travel_Time[i]=Out_Station_Time[i]-In_Station_time[i];
For (int k=1;k If (Travel_Time[i]<=K_TimePattern[k].Time) { K_ TimePattern [k].Cnt++; } } } Step 5:數(shù)據(jù)可視化方法。將前述步驟中求出的各類數(shù)據(jù)結(jié)果進(jìn)行保存,并在云端利用百度地圖API進(jìn)行程序開發(fā)實(shí)現(xiàn)可視化分析。 圖1 大數(shù)據(jù)分析方法流程圖 當(dāng)分析的數(shù)據(jù)規(guī)模較大時,本地數(shù)據(jù)庫處理速度會降低,本地計(jì)算資源占用率也會提高,云計(jì)算本身不占用本地資源的模式也讓用戶更好地分配了資源,節(jié)省了成本,提高了效率。相比傳統(tǒng)數(shù)據(jù)庫技術(shù),云計(jì)算具有很好的適應(yīng)性和應(yīng)用前景。采用云計(jì)算處理方法可以有效避免資源的集中消耗,分布式的處理機(jī)制也可以有效提升數(shù)據(jù)的處理速度。本節(jié)以阿里云計(jì)算服務(wù)大數(shù)據(jù)平臺為工具,測試對比其與傳統(tǒng)數(shù)據(jù)庫在數(shù)據(jù)處理方面的效率差別。阿里云大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute)[13]支持SQL,MapReduce,Graph等計(jì)算模型,是阿里集團(tuán)唯一大數(shù)據(jù)處理云平臺。能在更短的時間內(nèi)完成計(jì)算任務(wù),有效降低用戶成本。Tunnel服務(wù)支持每天TB/PB級別數(shù)據(jù)的傳輸,一般用于歷史數(shù)據(jù)、全量數(shù)據(jù)的導(dǎo)入導(dǎo)出,具有吞吐量高、水平可擴(kuò)展的特點(diǎn),適用于批量、歷史數(shù)據(jù)的上傳及下載,而且所有數(shù)據(jù)均以表格式壓縮存儲,不會暴露文件系統(tǒng),占用更少的存儲空間,可以降低用戶成本,唯一的缺點(diǎn)是數(shù)據(jù)延遲較高。MaxCompute SQL采用標(biāo)準(zhǔn)的SQL語法,以更高效的計(jì)算框架支持SQL計(jì)算模型,執(zhí)行效率比普通的MapReduce模型[14]更高,通過多時間維度的離線任務(wù)調(diào)度、在線運(yùn)維、監(jiān)控報警等功能為大數(shù)據(jù)開發(fā)提供穩(wěn)定的離線調(diào)度能力,可以支持超過百萬級的離線調(diào)度任務(wù)量。 在內(nèi)存4G,AMD雙核處理器(主頻2.2GHz)的電腦上對阿里云MaxCompute和傳統(tǒng)SQL Server2008數(shù)據(jù)庫處理大數(shù)據(jù)的SQL運(yùn)算速度進(jìn)行測試對比,測試數(shù)據(jù)集為成都地鐵AFC刷卡數(shù)據(jù)。如表1所示,可以看出,阿里云MaxCompute的整體運(yùn)算速率要優(yōu)于傳統(tǒng)SQL Server數(shù)據(jù)庫,且隨著SQL語句復(fù)雜度的提高或數(shù)據(jù)規(guī)模擴(kuò)大其運(yùn)算優(yōu)勢性體現(xiàn)越明顯。 第1次SQL運(yùn)算阿里云MaxCompute需要4 s,但是SQL Server數(shù)據(jù)庫只需要1 s,有2點(diǎn)原因,一是因?yàn)楸镜赜?jì)算機(jī)提交SQL請求到阿里云計(jì)算平臺會存在網(wǎng)絡(luò)傳輸和SQL語句讀取初始化的時間,二是阿里云計(jì)算平臺將MaxCompute拆成一個分布式的任務(wù)去調(diào)用,MapReduce初始化時的反應(yīng)速度會比較慢,所以即使是復(fù)雜度很低的SQL語句,也會需要一定的時間。而后3次不同規(guī)模的SQL運(yùn)算中,SQL Server 數(shù)據(jù)庫的運(yùn)算時間成倍增長,阿里云MaxCompute的運(yùn)算時間卻保持相對穩(wěn)定。這說明隨著計(jì)算數(shù)據(jù)規(guī)模的擴(kuò)大和SQL復(fù)雜度的提高,云計(jì)算平臺初始化的時間相比于總計(jì)算時間所占的比重降低,基于云計(jì)算平臺的分布式調(diào)用方法相比傳統(tǒng)數(shù)據(jù)庫技術(shù)的優(yōu)勢性就顯現(xiàn)出來。 表1 云計(jì)算與傳統(tǒng)數(shù)據(jù)庫計(jì)算效率對比 本文的地鐵AFC數(shù)據(jù)由中國地鐵工程咨詢有限責(zé)任公司提供,包含2016?03?21~03?27 1周的成都地鐵AFC刷卡數(shù)據(jù),涉及70多萬名乘客3條地鐵線路的共計(jì)7 872 314條AFC數(shù)據(jù)記錄。其中將03?21~03?25為工作日,03?26~03?27為非工作日。 AFC數(shù)據(jù)結(jié)構(gòu)如表2所示,首先讀取原始數(shù)據(jù)中的行、列分隔符,通過云客戶端進(jìn)行拆分后上傳云端數(shù)據(jù)庫。再對AFC數(shù)據(jù)格式進(jìn)行統(tǒng)一,原始AFC數(shù)據(jù)中String類型的數(shù)值都含有雙引號,如進(jìn)站站名顯示為“火車北站”,因此,需利用Split_apart函數(shù)文本中的引號格式統(tǒng)一進(jìn)行刪除,將需要數(shù)值匹配計(jì)算的列進(jìn)行String轉(zhuǎn)Int型的操作,最后再對員工卡進(jìn)出站這些無效數(shù)據(jù)進(jìn)行篩除,對部分缺失或空白記錄自動填充。 在云端數(shù)據(jù)庫編寫SQL腳本語言分別對AFC數(shù)據(jù)從各站客流情況、客流斷面情況、卡類型情況、乘客出行情況和車站客流規(guī)模聚類進(jìn)行分析,最后利用百度地圖API進(jìn)行程序開發(fā)實(shí)現(xiàn)可視化分析,以此驗(yàn)證本文提出的基于云計(jì)算的大數(shù)據(jù)分析 方法。 表2 成都AFC數(shù)據(jù)表結(jié)構(gòu) 統(tǒng)計(jì)分析工作日和非工作日成都地鐵各車站的客流量情況,包括進(jìn)出站客流,如圖2~3所示。其中,春熙路、犀浦、成都東客站、天府廣場以及火車北站這5個車站在工作日和非工作日的客流量都很大,其中春熙路和犀浦相對更為繁忙。龍泉驛和非遺博覽園在非工作日客流較多,累計(jì)客流量能夠排入非工作日的前10。而世紀(jì)城站的客流量情況較為特殊,是因?yàn)?016?03?24~26在世紀(jì)城新國際會展中心舉行了成都春季全國糖酒會,因此該站客流量在那一周的工作日和非工作日均進(jìn)入前10,其中03?24客流量更是超過14萬人次。根據(jù)不同客流量規(guī)模的車站數(shù)量數(shù)據(jù)可以看出,工作日中客流量規(guī)模在2~5萬的車站數(shù)量最多,非工作日中客流量規(guī)模小于2萬的車站數(shù)量最多,這有可能是工作日中乘客大都往返于居住地和工作地之間,而非工作日中乘客由于出行目的的不同導(dǎo)致車站客流量規(guī)模分布較為分散。 圖2 工作日前10車站客流量 圖3 非工作日前10車站客流量 圖4 工作日和非工作日不同客流量規(guī)模的車站數(shù)量 統(tǒng)計(jì)分析工作日和非工作日成都地鐵路網(wǎng)的進(jìn)站斷面客流情況,如圖5~6所示。地鐵的進(jìn)站斷面客流在 7點(diǎn)~9點(diǎn)和17~19點(diǎn)均有明顯的上升并達(dá)到高峰值,較為符合城市工作群體上下班出行的規(guī)律。進(jìn)站斷面客流的第1個高峰頂部較為尖銳,而第2個高峰頂部相對平緩,分析為在早晨上班時段乘客大都處于急迫狀態(tài),對于擁擠程度考慮較少,而在下班時段乘客的急迫程度下降,因此當(dāng)進(jìn)站人數(shù)達(dá)到一定擁堵程度時,便不再繼續(xù)進(jìn)站,而是選擇等待或者其他交通方式出行,故進(jìn)站客流的第2個高峰頂部較為平緩。分析非工作日的進(jìn)站斷面客流,可知在7~8點(diǎn)、12~13點(diǎn)和17~18點(diǎn)這3個時間段,進(jìn)站斷面客流都有明顯的上升并到達(dá)一個局部的高峰,較為符合乘客非工作日出行的規(guī)律。因此,乘客AFC刷卡數(shù)據(jù)分析的結(jié)果都較符合工作日和非工作日乘客的實(shí)際出行情況。 圖5 工作日進(jìn)站斷面客流 圖6 非工作日進(jìn)站斷面客流 統(tǒng)計(jì)分析工作日和非工作日成都地鐵乘客出行時間和OD對出行時間的分布情況,如圖7~8所示。工作日和非工作日的乘客出行時段在15~30 min的均為最多,其次為30~45 min,但是工作日的乘客出行時段在15~30 min和30~45 min內(nèi)的客流量均高于非工作日中的同樣出行時段內(nèi)的乘客量,工作日和非工作日出行時段在45 min內(nèi)的乘客量占比均超過80%。在OD對出行時間分布上,工作日和非工作日在各個時出行段的OD對數(shù)分布相差不大,出行時間在15~30 min內(nèi)的OD對數(shù)依然最多,工作日和非工作日出行時段在45 min內(nèi)的OD對數(shù)占比均超過75%??芍啥嫉罔F的乘客出行時間大部分都在45 min以內(nèi),以15~30 min時段居多,工作日和非工作日的區(qū)別并不大,從而也可推知成都居民的交通出行半徑大都在地鐵45 min覆蓋圈內(nèi)。 圖7 工作日和非工作日乘客出行時間 圖8 工作日和非工作日OD對出行時間分布 利用百度地圖API進(jìn)行程序開發(fā)實(shí)現(xiàn)可視化分析,對主要車站客流規(guī)模情況和地鐵OD量情況進(jìn)行可視化分析。如圖9~10所示??芍?,工作日和非工作日下的部分主要車站客流規(guī)模存在差別,如世紀(jì)城站在工作日和非工作日的客流量差別較大,前文已經(jīng)分析。可視化展示效果由于地圖視角原因主要車站客流規(guī)模情況存在部分車站文字重疊現(xiàn)象,主要OD量情況也存在同一站點(diǎn)多支流入流出OD重疊現(xiàn)象,但是通過鼠標(biāo)放縮可以對地圖進(jìn)行鉆取放大,在局部放大視角下并不會再出現(xiàn)此類問題,限于篇幅,本節(jié)不再贅述。 圖9 工作日主要車站客流規(guī)模情況可視化展示 圖10 非工作日主要車站客流規(guī)模情況可視化展示 1) 成都居民的交通出行半徑大都在地鐵45 min覆蓋圈內(nèi),工作日和非工作日的地鐵乘客出行時間大都集中在15~30 min時間段,其次在30~45 min時間段。 2) 城市中客流規(guī)模最大的地鐵車站無論在工作日和非工作日都具有很高的客流水平,運(yùn)營管理部門應(yīng)重點(diǎn)加強(qiáng)這些車站的管理和監(jiān)控,制定相關(guān)緊急疏解方案。 3) 可視化分析技術(shù)可以很好地與云計(jì)算、云存儲方法進(jìn)行融合,為數(shù)據(jù)分析提供有力支撐,增強(qiáng)數(shù)據(jù)分析的直觀表達(dá)。 4) 基于云計(jì)算的數(shù)據(jù)處理技術(shù)相比傳統(tǒng)本地數(shù)據(jù)庫處理技術(shù),具有效率高,不占用本地計(jì)算機(jī)資源的優(yōu)勢,對基于大數(shù)據(jù)的地鐵客流分析研究有很好的適用性和應(yīng)用前景。 5) 大數(shù)據(jù)離不開云計(jì)算,云計(jì)算平臺為大數(shù)據(jù)提供了彈性可拓展的基礎(chǔ)設(shè)備,是處理分析大數(shù)據(jù)的平臺之一。對于云計(jì)算供應(yīng)商和用戶雙方來說都做到了資源的高效分配和節(jié)省成本。 [1] 中國城市軌道交通協(xié)會. 城市軌道交通2015年度統(tǒng)計(jì)和分析報告(2016?05?31)[2017?03?21][EB/OL]. http:// mp.weixin.qq.com/s?__biz=MzI3NzMwODY3OQ==&mid=100000100&idx=1&sn=6f089f36dc56a6f4864f31b5db191c32&scene=23&srcid=0810AqoCzzK9F0cf6bfduK9D#rd. China Urban Rail Transit Association. Statistics and analysis report of urban rail transit in 2015 (2016?05?31) [2017?03?21][EB/OL]. http://mp.weixin.qq.com/s?__biz =MzI3NzMwODY3OQ==&mid=100000100&idx=1&sn=6f089f36dc56a6f4864f31b5db191c32&scene=23&srcid=0810AqoCzzK9F0cf6bfduK9D#rd. [2] 楊東援. 大數(shù)據(jù): 城市交通系統(tǒng)的感知—認(rèn)知—洞察[J]. 交通與港航, 2015, 2(6): 4?7. YANG Dongyuan. Big data: Perception, cognition, and insight into the urban traffic system[J]. Communication & Shipping, 2015, 2(6): 4?7. [3] 陸化普, 孫智源, 屈聞聰. 大數(shù)據(jù)及其在城市智能交通系統(tǒng)中的應(yīng)用綜述[J]. 交通運(yùn)輸系統(tǒng)工程與信息, 2015, 15(5): 45?52. LU Huapu, SUN Zhiyuan, QU Wencong. Big data and its applications in urban intelligent transportation system[J]. Journal of Transportation Systems Engineering and Information Technology, 2015, 15(5): 45?52. [4] 陳歡, 薛美根. 大數(shù)據(jù)環(huán)境下上海市綜合交通特征分析[J]. 城市交通, 2016, 14(1): 24?29. CHEN Huan, XUE Meigen. Analysis on the characteristics of comprehensive traffic in shanghai city under the environment of big data[J]. Urban Transport of China, 2016, 14(1): 24?29. [5] CHEN C, MA J, Susilo Y, et al. The promises of big data and small data for travel behavior (aka human mobility) analysis[J]. Transportation Research Part C: Emerging Technologies, 2016, 68: 285. [6] Van Oort N. Big data supports light rail in utrecht[J]. International Railway Journal, 2014, 54(3): 32?34. [7] Kuhlman W, Kiel J. What big data do not tell us: What we can learn from travel survey for bus and lightrail in the Netherlands[J]. Journal of Nanoscience & Nanotechnology, 2014, 14(6): 4245?4250. [8] JIANG Z, Hsu C H, ZHANG D, et al. Evaluating rail transit timetable using big passengers’ data[J]. Journal of Computer & System Sciences, 2015, 82(1): 144?155. [9] 朱建生, 汪健雄, 張軍鋒. 基于NoSQL數(shù)據(jù)庫的大數(shù)據(jù)查詢技術(shù)的研究與應(yīng)用[J]. 中國鐵道科學(xué), 2014, 35(1): 135?141. ZHU Jiansheng, WANG Jianxiong, ZHANG Junfeng. Research and application of large data query technology based on NoSQL database[J]. China Railway Science, 2014, 35(1): 135?141. [10] 蔡昌俊, 姚恩建, 張永生, 等. 基于AFC數(shù)據(jù)的城軌站間客流量分布預(yù)測[J]. 中國鐵道科學(xué), 2015, 36(1): 126?132. CAI Changjun, YAO Enjian, ZHANG Yongsheng, et al. Forecasting of passenger flow’s distribution among urban rail transit stations based on AFC data[J]. China Railway Science, 2015, 36(1): 126?132. [11] ZHOU M, WANG D, LI Q, et al. Impacts of weather on public transport ridership: Results from mining data from different sources[J]. Transportation Research Part C: Emerging Technologies, 2017, 75: 17?29. [12] DONG H, WU M, DING X, et al. Traffic zone division based on big data from mobile phone base stations[J]. Transportation Research Part C: Emerging Technologies, 2015, 58: 278?291. [13] MA X, WU Y J, WANG Y, et al. Mining smart card data for transit riders’ travel patterns[J]. Transportation Research Part C: Emerging Technologies, 2013, 36: 1?12. [14] 阿里云計(jì)算有限公司.大數(shù)據(jù)計(jì)算服務(wù)(2016?03 ?10)[2016?04?20][EB/OL].https://www.aliyun.com/product/odps/?spm=5176.7960203.1907008.5.gt0hoi. Alibaba Cloud. Big data computing service(2016?03 ?10)[2016?04?20][EB/OL].https://www.aliyun.com/product/odps/?spm=5176.7960203.1907008.5.gt0hoi. [15] Langville A N, Meyer C D. Google’s PageRank and beyond: The science of search engine rankings[M]. Princeton University Press, 2011. An analysis method of subway big data based on cloud computing YIN Weichuan, HE Shiwei, LI Yubin, HOU Ji, ZHOU Fangjie (MOE Key Laboratory for Urban Transportation Complex Systems Theory and Technology, Beijing Jiaotong University, Beijing 100044, China) This paper proposed an analysis method of subway big data based on cloud computing, which divided the rail transit big data analysis into data acquisition, data cleaning, data analysis and data visualization in five stages, and station passenger flow, passenger travel time were included in data analysis contents as an example. Ali cloud computing services platform for big data was used as a tool to test the efficiency between cloud computing technology and traditional database, which proves that cloud computing has many advantages in speed and occupation of local resources. Finally, a case study was carried out based on the Chengdu subway AFC card data, the proposed method has good universality verified through the comparative analysis of data and actual situation, there is a good reference for subway big data analysis and research in the future. subway; cloud computing; passenger flow analysis; big data; AFC card data 10.19713/j.cnki.43?1423/u.2018.11.033 U291.69 A 1672 ? 7029(2018)11 ? 2995 ? 08 2017?09?04 中國鐵路總公司科技研究開發(fā)計(jì)劃項(xiàng)目(2017X004-D,2017X004-E);國家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2018YFB1201402) 何世偉(1969?),男,重慶人,教授,博士,從事交通運(yùn)輸規(guī)劃與管理和軌道交通大數(shù)據(jù)應(yīng)用等方面研究;E?mail:shwhe@bjtu.edu.cn (編輯 陽麗霞)2 云計(jì)算技術(shù)效率測試
3 實(shí)例分析
3.1 各站客流情況
3.2 客流斷面情況
3.3 乘客出行情況
3.4 可視化展示分析
4 結(jié)論