鄭紹振 遼寧金洋集團信息技術有限公司
近年來,隨著信息技術的發(fā)展,互聯(lián)網(wǎng)絡應用的普及,人們的生活、工作方式發(fā)生了改變。智能手機帶來的技術革命,每天在各行各業(yè)產(chǎn)生海量的數(shù)據(jù)。城市交通、高速公路、鐵路、航空等交通運輸業(yè)從傳感器、感測移動設備、照相機等各種設備采集大量的交通數(shù)據(jù)。智能交通系統(tǒng)(Intelligent Traffic Systems, ITS)是將先進的信息技術、數(shù)據(jù)通信技術、傳感器技術、電子控制技術以及計算機技術等有效地綜合運用于整個交通運輸管理體系,從而建立起一種大范圍內(nèi)、全方位發(fā)揮作用的,實時、準確、高效的綜合運輸和管理系統(tǒng)[1]。智能交通系統(tǒng)需要處理各種設備收集的大量數(shù)據(jù),以進行分析處理,為交通運輸、道路規(guī)劃等提供輔助決策。
車輛的增多,使得城市交通擁堵日益嚴重,二氧化碳排放量嚴重超標,交通事故、環(huán)境污染等問題已經(jīng)成為亟待解決的問題,傳統(tǒng)的交通管理方式已不能滿足現(xiàn)代交通發(fā)展的需求。智能交通系統(tǒng)利用現(xiàn)代信息技術、基于交通大數(shù)據(jù)分析,改善城市交通網(wǎng)絡的效率,緩解城市交通問題,減少不必要的損失并改善公共交通效率[2]。目前,車輛中的新型傳感器和通信功能交通基礎設施的建設,現(xiàn)代信息應用和通信技術等運用在智能交通領域中,使得實時監(jiān)控車輛行駛速度、行駛路徑成為可能,使用這些數(shù)據(jù)實時評估城市道路交通狀況得以實現(xiàn)[3]。感測移動設備、空中傳感技術、軟件日志、相機、麥克風、射頻識別讀取器和無線傳感器網(wǎng)絡等設備無處不在的收集著各種信息,數(shù)據(jù)爆炸式地增長,如何處理和建模這些非結構化的大量數(shù)據(jù),為智能交通系統(tǒng)提出了挑戰(zhàn)。
大數(shù)據(jù)一詞用于表示非常大和復雜的數(shù)據(jù)集,使用傳統(tǒng)的方法和工具無法正確處理。大數(shù)據(jù)代表資產(chǎn)具有高容量,高速度和多樣化的特點,需要特定的技術和分析方法將其轉化為價值[4]。
智能交通系統(tǒng)融合了很多先進技術包括電子傳感器技術,數(shù)據(jù)傳輸技術和運輸系統(tǒng)的智能控制技術等。智能交通系統(tǒng)包括六個基本組成部分:先進的運輸管理系統(tǒng)、智能出行信息系統(tǒng),先進的車輛控制系統(tǒng),商務車輛管理、先進的公共交通系統(tǒng)和先進的城市交通系統(tǒng)。智能交通系統(tǒng)的數(shù)據(jù)每天在數(shù)以萬億的產(chǎn)生,而且數(shù)據(jù)越來越復雜,綜合各種異構數(shù)據(jù)源的數(shù)據(jù)來看,可以從數(shù)據(jù)種類、數(shù)據(jù)量和速率三個方面來表示交通領域大數(shù)據(jù)的特點。
數(shù)據(jù)種類是指交通大數(shù)據(jù)的數(shù)據(jù)格式和協(xié)議具有多樣性、異構性。交通數(shù)據(jù)采集設備種類繁多,包括傳感器、探測器、社交軟件等等,都能提供交通運輸相關的數(shù)據(jù),并且數(shù)據(jù)質(zhì)量不一、類型不同,這為如何融合及協(xié)調(diào)交通大數(shù)據(jù)帶來了困難。
數(shù)據(jù)量即數(shù)據(jù)體積,從收集到的不斷增加的數(shù)據(jù)中得出數(shù)據(jù)數(shù)量。各種軟硬件設備數(shù)據(jù)源采集的數(shù)據(jù)仍在不斷地增長,隨著交通工具、傳感器等數(shù)量的增長,運輸數(shù)據(jù)也已經(jīng)大大地增長。此外,當定位裝置被使用時,旅客、貨物、車輛會生成更多的數(shù)據(jù)。來自基礎設施、環(huán)境、氣象等方面監(jiān)測的數(shù)據(jù)也作為交通大數(shù)據(jù)中重要的一部分,為決策者提供數(shù)據(jù)支持。
速率指隨著通訊技術的發(fā)展交通數(shù)據(jù)采集的速度增快,數(shù)據(jù)采集、檢測和處理的能力和速度也增強。比如,目前應用的電子售票及收費交易系統(tǒng),可以立即生成記錄和報告,而傳統(tǒng)的人工紙質(zhì)售票,需要人工處理才能匯總交易數(shù)據(jù)。當前的智能交通系統(tǒng)極大地提高了各種數(shù)據(jù)的處理效率。
智能交通系統(tǒng)能夠處理和建模大量原始流量數(shù)據(jù),其系統(tǒng)體系結構需要考慮到數(shù)據(jù)質(zhì)量,適應交通領域的現(xiàn)有數(shù)據(jù)標準,保證數(shù)據(jù)之間的協(xié)調(diào),并且提供強大且可擴展的存儲系統(tǒng)。開發(fā)大數(shù)據(jù)融合和協(xié)調(diào)異構數(shù)據(jù)、動態(tài)的智能交通平臺,共享各部門提供的交通運輸數(shù)據(jù)流,解決數(shù)據(jù)互操作性是智能交通系統(tǒng)架構首要解決的問題。
目前大數(shù)據(jù)技術應用較為廣泛的框架是來自Apache的Hadoop,Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,它運用一種可靠、高效、可擴展的方式進行數(shù)據(jù)處理。Hadoop的并行工作方式、多個工作數(shù)據(jù)副本、依賴社區(qū)服務等特點,使用戶可以輕松、便捷地在Hadoop上開發(fā)、處理、運行海量數(shù)據(jù)的應用程序。Apache Spark是一個高級且完整的通用內(nèi)存并行計算框架,它包含Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等組件。它運行在Hadoop上,但使用了另一種工作數(shù)據(jù)集,以及彈性分布式數(shù)據(jù)集(RDD),RDD可在發(fā)生故障后提供有效的恢復。Spark的另一個巨大優(yōu)勢是可以在內(nèi)存中運行,在某些操作中效率更高。Apache Storm是一種免費的開源實時分布式計算系統(tǒng),專注于數(shù)據(jù)流處理或者一些調(diào)用復雜的事件處理。Storm用于實時分析,在線機器學習,連續(xù)計算,分布式RPC,ETL等。Storm 速度非???,并且可擴展,確保數(shù)據(jù)得到實時處理,易于設置和操作。關于數(shù)據(jù)存儲,常規(guī)SQL關系數(shù)據(jù)庫并不支持當今的大數(shù)據(jù),通常采用NoSQL技術。大數(shù)據(jù)存儲方面,常用的工具有Hive,Cloudera,Cassandra和MongoDB。前兩個是基于Hadoop,后兩個基于NoSQL。
CRISP-DM是1999年首次發(fā)布的較為成熟的跨行業(yè)標準數(shù)據(jù)挖掘過程的方法論。它分為六個步驟,(1)業(yè)務理解:主要理解業(yè)務需求,理解數(shù)據(jù)采集目標和要求,及相關業(yè)務術語和技術術語。(2)數(shù)據(jù)理解:主要工作是數(shù)據(jù)收集,檢查數(shù)據(jù)質(zhì)量,發(fā)掘隱藏數(shù)據(jù)信息。對數(shù)據(jù)進行可用性評估,確定數(shù)據(jù)源級別。(3)數(shù)據(jù)準備:最終數(shù)據(jù)的選擇和準備數(shù)據(jù)集。此階段包括許多任務,例如記錄,表和屬性選擇以及數(shù)據(jù)清理和數(shù)據(jù)轉換。(4)建模:選擇和應用建模技術,針對具體問題設置不同的參數(shù),構建不同的模型。(5)評估:評估所建模型和決策的準確性及效率,給出模型算法使用結果,評估其是否實現(xiàn)了預期目標。(6)部署:確定獲取的可能用到的知識和結果。這個階段還著重于組織,報告和展示發(fā)現(xiàn)的知識。
及時準確的交通流信息為運輸管理提供有價值的數(shù)據(jù)參考。智能交通系統(tǒng)中的大數(shù)據(jù)分析能夠進行交通流量預測。本文以交通流量擁堵計算模型為應用場景,提出一種有效提取、轉換和存儲數(shù)據(jù)的體系結構,體系結構滿足以下技術要求:(1)能夠處理多種格式和大小的原始數(shù)據(jù);(2)確保數(shù)據(jù)質(zhì)量;(3)高效的大數(shù)據(jù)轉換和存儲;(4)能夠在數(shù)據(jù)級別解決互操作性;(5)強大而高效的分布式存儲系統(tǒng),可擴展,以便處理來自其他交通傳感器的數(shù)據(jù)。
本模型的原始數(shù)據(jù)集來源于交通部門,數(shù)據(jù)集上傳到Hadoop數(shù)據(jù)系統(tǒng),并使用Hive數(shù)據(jù)轉換以進行分析。本模型使用Python和Pandas庫完成對6268個JSON文件的解析,導出兩個CSV表文件,并將文件上傳到Hadoop文件系統(tǒng),使用HiveQL創(chuàng)建表結構,對數(shù)據(jù)進行清洗,為數(shù)據(jù)分析和采樣創(chuàng)建匯總表,以便預測和輸出結果。大數(shù)據(jù)預測及分析的體系結構如圖1所示。
圖1 大數(shù)據(jù)預測及分析體系結構
輸出文件被下載到本地計算機后,能夠可視化顯示交通事故或交通擁堵狀態(tài)。在預測模型中,需要對上傳的樣本數(shù)據(jù)集進行應用數(shù)據(jù)轉換,并將數(shù)據(jù)集切分為訓練集和測試集,建模,預測及評估模型準確性。大數(shù)據(jù)預測及分析的體系結構如圖2所示。
解析后的文件,上傳并存儲到Hadoop分布式文件系統(tǒng)中,用于數(shù)據(jù)分析。但是此時的數(shù)據(jù)文件中存在不準確、不完整或不合理數(shù)據(jù),需要在數(shù)據(jù)集中發(fā)現(xiàn)并對這些數(shù)據(jù)進行修補或移除以提高數(shù)據(jù)質(zhì)量。本體系結構中,分為五步完成交通領域數(shù)據(jù)清洗工作,首先定義錯誤類型,其次搜索并標識錯誤實例,然后改正錯誤,再次文檔記錄錯誤實例和錯誤類型,最后修改數(shù)據(jù)、錄入程序。在數(shù)據(jù)清洗的過程中,特別注意數(shù)據(jù)格式檢查、數(shù)據(jù)完整性檢查、數(shù)據(jù)合理性檢查和極限檢查。
比如,采集的交通警報信息和個體車輛信息,兩者具有不同的數(shù)據(jù)格式,因為交通警報信息可能是通過交通部門的應用程序采集,例如道路擁堵、道路封閉、危險路況、交通事故等數(shù)據(jù);另一個信息可能通過用戶的移動設備采集,比如車輛的位置、速度、路線等。兩者設備和程序采集的信息格式不同,參數(shù)屬性不同,因此需要進一步進行數(shù)據(jù)清洗,以便后續(xù)進行數(shù)據(jù)分析。本系統(tǒng)使用正則表達式,條件語句,子字符串,表聯(lián)接,日期和時間格式以及時間轉換等,清理并清除無關字段,使數(shù)據(jù)規(guī)范可用。此外,本體系結構中還創(chuàng)建了一個摘要表來描繪有關流量的基本信息,匯總表來顯示按時間,天數(shù)交通擁堵的程度。
清洗后的數(shù)據(jù)用于準備進一步分析,本系統(tǒng)采用Microsoft Excel和Power BI進行數(shù)據(jù)可視化顯示。在設計可視化顯示過程中考慮不同的交互式視覺效果,來顯示交通事件。包括3D地理地圖顯示,通過帶有時間軸的動畫地圖和熱圖來顯示交通堵塞情況,并報告事故數(shù)量和封路情況等。通過使用時間軸,我們建立一個隨時間變化的動態(tài)地理地圖,顯示時間線在地圖上的流量。通過分析不同設備采集的數(shù)據(jù),可以顯示用戶端設備跟蹤的交通擁堵情況,交通事故報告;也可以按周或者按小時來顯示交通狀況??梢暬@示交通狀況讓用戶更直觀地了解交通情況。
智能交通系統(tǒng)中,交通堵塞數(shù)據(jù)集是從用戶設備的GPS中捕獲的,擁有超過9800萬行數(shù)據(jù)。使用這個采樣數(shù)據(jù)集訓練機器學習模型,數(shù)據(jù)集大小為10MB,以CSV格式保存,將訓練數(shù)據(jù)集上傳到預測模型中。
對上傳后的樣本數(shù)據(jù)集計算和過濾不必要的列,選擇一個標簽列用來記錄擁堵水平,用數(shù)字1―5來表示,1表示暢通無阻,5表示紅色飽和,此標簽類用來建立分類模型。采用數(shù)據(jù)中存在數(shù)據(jù)不平衡情況,即水平1到水平5所占數(shù)據(jù)比例差距大,導致預測模型不準確,因此對5類數(shù)據(jù)進行分組,分組后數(shù)據(jù)如果還存在偏差,則補充特殊時段采集的數(shù)據(jù)到數(shù)據(jù)集中。
在進行模型訓練之前,我們分別選擇數(shù)據(jù)集中90%的數(shù)據(jù)作為訓練集,10%的數(shù)據(jù)作為測試集;和80%的數(shù)據(jù)作為訓練集,20%的數(shù)據(jù)作為測試集。經(jīng)過多次迭代模型和訓練,得出90%數(shù)據(jù)作為訓練集預測更為準確。通過調(diào)整模型參數(shù),確定參數(shù)最優(yōu)值。在評估驗證階段,選取了分類精度、精度/靈敏度、召回率三個指標來驗證模型預測結果。
通過介紹大數(shù)據(jù)特征,及大數(shù)據(jù)平臺的相關技術,本文介紹了智能交通系統(tǒng)體系結構搭建過程,數(shù)據(jù)分析和預測過程。通過智能交通系統(tǒng),用戶能夠了解城市公路及高速公路上交通更擁擠時間;識別交通早、晚高峰時間,識別易擁堵道路和路段。智能交通系統(tǒng)的數(shù)據(jù)集是不斷變化的,因此本文智能交通平臺支持擴展數(shù)據(jù)集,兵提供交互式工具,用于數(shù)據(jù)分析、處理和數(shù)據(jù)預測。未來進一步的工作是豐富更大的數(shù)據(jù)集和更多的分類模型,以便更準確地分析和預測交通情況。隨著移動應用設備的普及,網(wǎng)絡基礎設施的升級換代,大數(shù)據(jù)處理和挖掘技術在智能交通領域的應用將會越來越廣泛和深入,智能交通產(chǎn)業(yè)化發(fā)展將是未來的發(fā)展趨勢。