林珠+吳佩珊
摘要:現(xiàn)階段交通數(shù)據(jù)呈指數(shù)增長,并具有結(jié)構(gòu)類型復(fù)雜、信息價值較大的特點(diǎn),為更好地促進(jìn)交通數(shù)據(jù)與現(xiàn)在服務(wù)業(yè)的結(jié)合,充分利用其價值為人類生活的便利創(chuàng)造條件,本文研究交通大數(shù)據(jù)與其它信息平臺交互過程中遇到的問題。通過對交通大數(shù)據(jù)的采集、標(biāo)準(zhǔn)轉(zhuǎn)換、數(shù)據(jù)流處理等多方面進(jìn)行研究,建設(shè)了面向交通大數(shù)據(jù)的智能處理平臺,提高了數(shù)據(jù)與其它信息系統(tǒng)的交互能力,為交通數(shù)據(jù)的深度挖掘做充分準(zhǔn)備。
關(guān)鍵字:交通大數(shù)據(jù);數(shù)據(jù)處理平臺;HDFS
中圖分類號:TP274文獻(xiàn)標(biāo)識碼:A
Abstract:
The traffic data increase exponentially at this stage,and has the characteristics of complex structure types and larger value of information.
For combing the traffic data with services,making full use of its value and creating conditions for the convenience of human life,this paper to research the traffic data interaction and other problems in the process of information platform.Based on the research of traffic data collection,conversion,data stream processing and other aspects,the construction of intelligent processing platform for traffic data,improve the ability to interact with data and other information system,make full preparations for the traffic data mining.
Key words:traffic big data;data processing platform;HDFS
0引言
交通大數(shù)據(jù)包括結(jié)構(gòu)化、非結(jié)構(gòu)化的各類交通數(shù)據(jù),包括交通工具GPS地理位置、線圈、微波、智能卡、視頻、電子地圖、路網(wǎng)、調(diào)度資料、基礎(chǔ)設(shè)施、班次、航班、地鐵、氣象、從業(yè)人員資料……數(shù)以千計的數(shù)據(jù)類別,每日以GB級別增長,海量、動態(tài)、實時是重要特征[1]。而不同群體對數(shù)據(jù)的訴求又體現(xiàn)出不同要求,例如交通主管部門關(guān)注交通擁堵狀況,車輛異常集結(jié),行業(yè)性平均收入等宏觀數(shù)據(jù);企業(yè)關(guān)注車輛調(diào)度準(zhǔn)確,經(jīng)用收入等關(guān)乎運(yùn)營收入數(shù)據(jù);公眾關(guān)注交通運(yùn)輸?shù)姆?wù)是否便利,交通是否順暢,以及能夠隨時隨地獲取交通信息;研究部門希望獲得多樣化的交通數(shù)據(jù),構(gòu)筑立體的城市交通分析模型等;城市應(yīng)急處理部門更希望得到事故地點(diǎn)的交通情況以便組織應(yīng)急救援;公安部門需要從交通視頻獲得辦案證據(jù)等[2]。為解決這一系統(tǒng)的問題,交通大數(shù)據(jù)的研究成為關(guān)注的熱點(diǎn),如何充分利用這些數(shù)據(jù)為各類交通信息系統(tǒng)服務(wù),建設(shè)面向交通大數(shù)據(jù)的處理平臺已成為迫切的需求[3]。
1國內(nèi)外研究現(xiàn)狀
在國外,發(fā)達(dá)國家對城市交通基礎(chǔ)設(shè)施建設(shè)非常重視并已基本完成,在此基礎(chǔ)上,開展了一系列的智能交通信息系統(tǒng)搭建,用以實現(xiàn)交通數(shù)據(jù)的采信、整理、共享、應(yīng)用,以推動交通有序運(yùn)營,促進(jìn)社會民生的全面發(fā)展。英國國家交通控制中心研究的ERTICO項目中,通過開發(fā)共用規(guī)范實現(xiàn)了不同運(yùn)輸方式的多模式交通之間的數(shù)據(jù)交換與共享;近期英國DETR組織開展UTMC(Urban Traffic Management&Control)項目,通過建立交通數(shù)據(jù)的處理平臺全面推動城市智能交通系統(tǒng)的研發(fā)和建設(shè)[4]。
在國內(nèi),北京已建成了綜合交通信息平臺,包含了交通數(shù)據(jù)的采集、整合、標(biāo)準(zhǔn)制定、加工處理和發(fā)布的全過程,是一項復(fù)雜的交通領(lǐng)域集成信息化工程,北京市專設(shè)數(shù)據(jù)處理平臺,開展對交通數(shù)據(jù)進(jìn)行預(yù)處理、存儲和加工等[5]。綜觀我國各大城市的智能交通發(fā)展現(xiàn)狀,交通信息化已得到較大的重視并具有一定的地位和作用,普遍的研究著眼于根據(jù)用戶的實現(xiàn)需求進(jìn)行信息系統(tǒng)的建設(shè),重點(diǎn)在于數(shù)據(jù)挖掘技術(shù)的決策支持,為交通出行提供便利。
然而,在大量的交通數(shù)據(jù)應(yīng)用中,往往容易忽視對數(shù)據(jù)的預(yù)處理研究[6],傳統(tǒng)的交通數(shù)據(jù)預(yù)處理需要對數(shù)據(jù)源到應(yīng)用的整個流程進(jìn)行修改,通過ETL的方式再加載和計算,其適應(yīng)變化的周期較長,在交通大數(shù)據(jù)應(yīng)用中,這種模式將難以適應(yīng)新的需求,智能交通大數(shù)據(jù)已經(jīng)突破了以前所限定的結(jié)構(gòu)化數(shù)據(jù)范疇,具有數(shù)據(jù)類型多樣化、規(guī)?;透咚倩奶攸c(diǎn),數(shù)據(jù)類型包括了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)多種類型,尤以非結(jié)構(gòu)化數(shù)據(jù)為主,因此,需要專門建設(shè)面向交通大數(shù)據(jù)的智能處理平臺。
2數(shù)據(jù)處理平臺架構(gòu)設(shè)計
面向交通大數(shù)據(jù)的處理平臺采用Hadoop分布式基礎(chǔ)框架解決數(shù)據(jù)的動態(tài)擴(kuò)展和彈性增長問題,面對大規(guī)模的數(shù)據(jù),該框架能夠?qū)ζ溥M(jìn)行分割與合并,然后結(jié)合MapReduce 技術(shù)進(jìn)行并行處理,通過任務(wù)的分配解決數(shù)據(jù)量巨大的問題。平臺由三層架構(gòu)組成,分別是訪問層、處理層和展示層組成,三個層次相互連接,通過HDFS 分布式文件系統(tǒng)、HBase 分布式數(shù)據(jù)庫和MapReduceAPI進(jìn)行結(jié)合。通過該平臺的構(gòu)建,可以將采集的各種原始交通數(shù)據(jù)進(jìn)行導(dǎo)入、規(guī)范化、數(shù)據(jù)流處理等,最后通過接口或定制數(shù)據(jù),為各類型的交通系統(tǒng)提供服務(wù),充分利用分布式處理技術(shù)提高數(shù)據(jù)處理效率,同時也保障了數(shù)據(jù)的安全。簡化后的平臺三層架構(gòu)如圖1所示。
其中,數(shù)據(jù)訪問層是處理平臺的最底層,包括數(shù)據(jù)模式設(shè)計模塊和數(shù)據(jù)錄入、導(dǎo)出模塊,主要用于外部數(shù)據(jù)與該處理平臺的交互,數(shù)據(jù)錄入、導(dǎo)出模塊能夠?qū)⑼獠康年P(guān)系型數(shù)據(jù)進(jìn)行導(dǎo)入,同時也能將經(jīng)過處理平臺后的數(shù)據(jù)導(dǎo)出到別的系統(tǒng)。對于非結(jié)構(gòu)化的數(shù)據(jù),采用數(shù)據(jù)模式設(shè)計,將交通數(shù)據(jù)中的一系統(tǒng)特征指標(biāo),如經(jīng)緯度、時速、車輛號、線路號等存入Hbase數(shù)據(jù)庫。endprint
數(shù)據(jù)處理層是平臺的核心層,包括數(shù)據(jù)查詢模塊、數(shù)據(jù)加載模塊、計算模塊。數(shù)據(jù)加載模塊主要處理數(shù)據(jù)訪問層接收過來的信息,并轉(zhuǎn)化為數(shù)據(jù)處理層可以直接運(yùn)用的數(shù)據(jù),加載過程中主要采用特定的數(shù)據(jù)表模式將數(shù)據(jù)存入分布式的Hbase數(shù)據(jù)庫。數(shù)據(jù)查詢模塊則將加載后的數(shù)據(jù)進(jìn)行并行計算,通過MapReduce技術(shù)快速進(jìn)行數(shù)據(jù)查詢,不僅可以對處理前的數(shù)據(jù)進(jìn)行查詢,也可以對處理后的數(shù)據(jù)進(jìn)行查詢,并最終展示給前端用戶,同時,該模塊也為計算模塊服務(wù),為更快速的數(shù)據(jù)計算和處理提供保障[7]。
數(shù)據(jù)計算模塊與查詢模塊相結(jié)合,采用MapReduce框架進(jìn)行并行計算,充分調(diào)動Hbase中存儲的數(shù)據(jù),保障平臺的可靠性和數(shù)據(jù)存府的一致性。
3采用關(guān)鍵技術(shù)
31平臺數(shù)據(jù)采集與存儲
從交通引入信息化技術(shù)改善管理開始,交通數(shù)據(jù)的處理經(jīng)歷了從文本文件,到平面數(shù)據(jù)庫,到關(guān)系型數(shù)據(jù)庫廣泛應(yīng)用,這些應(yīng)用均及時地處理了數(shù)據(jù)的存儲和操作所面監(jiān)的一系列問題[8]。然而,隨著交通數(shù)據(jù)量的與日劇增,已經(jīng)不能單純采用關(guān)系型數(shù)據(jù)庫進(jìn)行處理,而需要采用能夠適應(yīng)數(shù)據(jù)動態(tài)、高速增長的新型技術(shù),同時,交通信息系統(tǒng)多種多樣,面向不同的應(yīng)用采用不同類型的數(shù)據(jù)分析,因此也需要采用能夠適應(yīng)其動態(tài)擴(kuò)展的技術(shù)[9]。
平臺的具體數(shù)據(jù)采集和存儲如下圖2所示:
平臺采用Hadoop分布式文件系統(tǒng)與HBase分布式數(shù)據(jù)庫相結(jié)合的方式進(jìn)行交通數(shù)據(jù)的存儲,在Hadoop基礎(chǔ)上構(gòu)建HBase例存儲系統(tǒng)[10]。主要包括GPS數(shù)據(jù)、城市一卡通數(shù)據(jù)、結(jié)算清分?jǐn)?shù)據(jù)、設(shè)施管理數(shù)據(jù)、交通地理信息、從業(yè)人員資料信息等。
一方面,Hbase存儲方式能夠滿足大規(guī)模的擴(kuò)展,列存儲的方式有利于數(shù)據(jù)的并發(fā)查詢,特別是交通大數(shù)據(jù)在利用方面更注重數(shù)據(jù)的查詢和讀取,在此基礎(chǔ)上進(jìn)行數(shù)據(jù)的分析與應(yīng)用,而較少用于數(shù)據(jù)的修改,因此列存儲的方式更適合交通大數(shù)據(jù)的存儲和管理[11];另一方面,該存儲模式可以實現(xiàn)動態(tài)數(shù)據(jù)的擴(kuò)展和時間戳版本的管理,特別是交通實時數(shù)據(jù),依賴于車載的GPRS模塊上傳GPS數(shù)據(jù)(移動終端),一個移動終端識別號總會在不同的時間向同一個基站發(fā)送數(shù)據(jù)。此外,該存儲方式有利于對大規(guī)模數(shù)據(jù)進(jìn)行分割計算且最后進(jìn)行結(jié)果合并。
32規(guī)范化的數(shù)據(jù)流處理
在數(shù)據(jù)庫設(shè)計上,充分考慮業(yè)務(wù)差異性與數(shù)據(jù)共性,由近20個部分組成,分別是:公交 GPS 數(shù)據(jù),出租GPS數(shù)據(jù),重點(diǎn)營運(yùn)車輛GPS數(shù)據(jù),視頻管理數(shù)據(jù),客運(yùn)票務(wù)數(shù)據(jù),一卡通刷卡數(shù)據(jù),和交通服務(wù)數(shù)據(jù)等等。原始的數(shù)據(jù)通過信息手段采集后,進(jìn)入Hbase分布式數(shù)據(jù)庫,通過數(shù)據(jù)的分類處理API進(jìn)行分類處理,并根據(jù)需求進(jìn)行數(shù)據(jù)展示和服務(wù)定制。在收到接入系統(tǒng)的數(shù)據(jù)后,對接入的數(shù)據(jù)進(jìn)行有效性的檢驗,保證進(jìn)入平臺的交通信息數(shù)據(jù)是準(zhǔn)確有效的,并將經(jīng)過驗證的數(shù)據(jù)入庫,具體數(shù)據(jù)流處理過程如圖3所示。
根據(jù)業(yè)務(wù)規(guī)則,對不同來源的數(shù)據(jù)間建立關(guān)聯(lián)并進(jìn)行融合,對融合后的數(shù)據(jù)進(jìn)行匯總及分析。例如線圈、微波、視頻、文件等非結(jié)構(gòu)化數(shù)據(jù),與其他信息的融合,得出立體化的,更準(zhǔn)確的交通態(tài)勢分析等,具體工作內(nèi)容如圖4所示。
33數(shù)據(jù)標(biāo)準(zhǔn)格式
數(shù)據(jù)標(biāo)準(zhǔn)化處理系統(tǒng)從數(shù)據(jù)庫中取出經(jīng)過清洗后的數(shù)據(jù),根據(jù)業(yè)務(wù)規(guī)則將外部系統(tǒng)的數(shù)據(jù)格式轉(zhuǎn)化為平臺定義的標(biāo)準(zhǔn)格式。格式轉(zhuǎn)化流程如下圖5所示,并例舉部分規(guī)則,如圖6所示。
4數(shù)據(jù)處理平臺主要功能
交通信息接入平臺的功能是從政府管理部門、科研機(jī)構(gòu)等不同機(jī)構(gòu)接入數(shù)據(jù),對多源異構(gòu)的信息數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理后在平臺內(nèi)進(jìn)行一體化存儲。信息接入需遵循統(tǒng)一的數(shù)據(jù)交換規(guī)范,也遵循統(tǒng)一的數(shù)據(jù)控制策略,以及安全機(jī)制。平臺主要實現(xiàn)對四類交通信息的接入,即交通基礎(chǔ)信息、交通實時信息、交通歷史信息、交通視頻信息。獲取數(shù)據(jù)的方式包括FTP、socket、webservice、直接數(shù)據(jù)庫獲取等多種方式,主要功能如圖7所示。
5總結(jié)與展望
本文通過對交通大數(shù)據(jù)現(xiàn)狀的分析,提出建設(shè)面向交通大數(shù)據(jù)的處理平臺的必要性,對該平臺進(jìn)行架構(gòu)設(shè)計,并介紹其采用的關(guān)鍵技術(shù)和主要功能。在現(xiàn)階段交通大數(shù)據(jù)的越來越復(fù)雜,其應(yīng)用越來越廣泛,因此,建設(shè)該處理平臺具有深刻的社會意義。
參考文獻(xiàn)
[1]何承,朱揚(yáng)勇.城市交通大數(shù)據(jù)[M].上??茖W(xué)技術(shù)出版社,2015.
[2]王文靜.大數(shù)據(jù)時代下智能交通系統(tǒng)發(fā)展機(jī)遇和挑戰(zhàn)[J].交通企業(yè)管理,2016,31(10):3-5.
[3]曹星艷.基于交通行業(yè)的大數(shù)據(jù)處理平臺應(yīng)用[J].鐵路通信信號工程技術(shù),2016,13(2):74-79.
[4]邵志驊,崔林山,盧夢奇.基于Hadoop集群的公安交通信息云共享技術(shù)應(yīng)用研究[J].中國公共安全:學(xué)術(shù)版,2016,(1):65-69.
[5]劉成,李劍仕.北京市高速公路泵站監(jiān)控系統(tǒng)架構(gòu)設(shè)計與研究[J].中國交通信息化,2016,(2):124-125.
[6]王冰楊,鄧亞.城市軌道交通網(wǎng)絡(luò)信息平臺的研究[J].數(shù)碼世界,2016,(3).
[7]ANJALI P P,BINU A.A Comparative Survey Based on Processing Network Traffic Data Using Hadoop Pig and Typical Mapreduce[J].International Journal of Computer Science & Engineering Survey,2014,5(1):1-9.
[8]張昕,曾鵬,張瑞,等.交通大數(shù)據(jù)的特征及價值[J].軟件導(dǎo)刊,2016,15(3):130-132.
[9]盧彪,李悅,張萬禮.基于大數(shù)據(jù)技術(shù)的智能交通數(shù)據(jù)分析平臺系統(tǒng)的研究與設(shè)計[J].湖北科技學(xué)院學(xué)報,2016,36(5):6-9.
[10]LIU J,LIU F,ANSARI N.Monitoring and analyzing big traffic data of a largescale cellular network with Hadoop[J].IEEE Network,2014,28(4):32-39.
[11]PARK H W,YEO I Y,LEE J R,et al.Study on Big Data Center Traffic Management Based on the Separation of LargeScale Data Stream[C]// International Conference on Innovative Mobile & Internet Services in Ubiquitous Computing.IEEE Computer Society,2013:591-594.endprint