□ 文/ 吉靜 王天瑞
隨著智慧城市建設的推進及智能交通系統(tǒng)的發(fā)展,交通數(shù)據分析需求愈加急迫。一方面,交通數(shù)據采集的范圍、廣度和深度急劇增加,正在形成以微波、線圈、GPS、車牌等交通流檢測數(shù)據,交通監(jiān)控視頻數(shù)據,以及系統(tǒng)數(shù)據和服務數(shù)據等為主體的海量交通數(shù)據。另一方面,在大數(shù)據環(huán)境下開展研判應用的數(shù)據分析需求急迫,研判應用將有利于整合多種類型的交通數(shù)據,深入挖掘分析各業(yè)務條線情報,洞悉交通環(huán)境演變軌跡和機理,有利于最大程度地發(fā)揮交通數(shù)據的效能,提高交通運輸系統(tǒng)的運行效率和服務水平,為公眾提供高效、安全、便捷、舒適的出行服務。
如何以一種有序的方式迅速有效地管理交通大數(shù)據,進而能對研判應用進行標準化建設變得越來越關鍵。本文結合上海市交通大數(shù)據建設以及研判應用建設的具體實踐經驗,研究大數(shù)據環(huán)境下的數(shù)據標準化、數(shù)據應用的標準化流程,并根據實際案例,分析車輛研判應用中的黑車問題。
數(shù)據標準化主要是對數(shù)據基本單元的標識、分類編碼、含義、表示格式等各個方面進行規(guī)范和統(tǒng)一。經過標準化的數(shù)據是信息系統(tǒng)的基石,它可以確保各項業(yè)務以完整、有效、高效的方式運行。對數(shù)據進行標準化有利于數(shù)據的查詢檢索以及與其他用戶的數(shù)據交換,可加強數(shù)據在系統(tǒng)間及環(huán)境間的實用性和共享性,提高數(shù)據的長期使用價值。可以說,數(shù)據標準化工作是信息化建設最基礎的工作。
數(shù)據標準化活動主要采用“確定數(shù)據需求—提取數(shù)據元—確定數(shù)據標準化要素”的方法。首先梳理各業(yè)務領域的數(shù)據需求,采用“自底向上”的方法,分類、匯總數(shù)據項,并抽象實體類,構建實體類的層次關系和數(shù)據模型。采用“自頂向下”的方法,通過對實體類定義、屬性的規(guī)范化描述,提煉出標準化的數(shù)據元素,并將其實例化為實體元數(shù)據、數(shù)據元素元數(shù)據、類屬元素元數(shù)據。
數(shù)據集成環(huán)境以數(shù)據對象層為核心,包含多種來源的數(shù)據,也包括對人、車、路的描述。數(shù)據集成環(huán)境統(tǒng)一建設基礎數(shù)據集、規(guī)范化數(shù)據庫、中間研判數(shù)據集,為各研判應用提供標準化、一致的基礎數(shù)據源。
數(shù)據集成環(huán)境中的數(shù)據如圖1所示,包括:路網數(shù)據、設備數(shù)據、其他數(shù)據等。路網數(shù)據主要指快速路網、地面道路網、高速公路網數(shù)據;設備數(shù)據主要指各種采集源數(shù)據,包括:線圈數(shù)據、SCATS數(shù)據、卡口數(shù)據、GPS數(shù)據等;其他數(shù)據包括天氣數(shù)據、事故數(shù)據、違法數(shù)據等。各數(shù)據之間存在著相應的關聯(lián)關系。
▲圖1:數(shù)據集成環(huán)境
路網數(shù)據以及設備點位需要在GIS圖層中進行配置,建立相應的關聯(lián)關系。上海市浦東新區(qū)的道路圖層與卡口圖層如圖2、圖3所示。
▲圖2:道路圖層
▲圖3:卡口圖層
數(shù)據組織是溝通輸入數(shù)據和輸出數(shù)據之間的橋梁,是數(shù)據標準化建設中的關鍵階段,是整個研判應用開展的基礎條件。將各自管轄范圍內的人、車和路數(shù)據按照應用方向進行組織,形成數(shù)據組織的標準化。
數(shù)據組織模型不僅關注數(shù)據的含義和表示,還關注數(shù)據中的各對象間的關聯(lián)關系、拓撲關系等,包括設備和道路對象從屬關系,道路對象層次關系和道路拓撲關系等。人、車、路的數(shù)據組織模型如圖4所示。
▲圖4:數(shù)據組織模型
由于大數(shù)據存在領域廣泛、存儲處理產品眾多,不僅大數(shù)據的定義、相關術語、分類、 架構等方面缺乏統(tǒng)一描述,各種大數(shù)據產品的技術要求也不盡相同, 這種現(xiàn)狀一定程度上阻礙了大數(shù)據產業(yè)的良性發(fā)展。對于交通領域的大數(shù)據發(fā)展,針對研判應用,需要建立相應的標準化建設流程。
研判應用根據研究對象的不同分為人、車、路三個方面。研判應用分析框架如圖5所示。
對車的研究主要是車牌快速檢索、車牌數(shù)據分析、車牌屬地分析、套牌分析、非法運營車輛分析、區(qū)域出行分析、虛假號牌分析;對人的研究主要是人群密度中宏觀分析、人群密度OD分析、軌道客流分析;對路的研究主要是道路指數(shù)分析、快速路擁堵狀態(tài)分析。
▲圖5∶研判應用分析內容
建立適用于城市交通領域的大數(shù)據分析流程和方法,能夠實現(xiàn)簡單的數(shù)據分析到工程化應用的過渡。無論是對人、車、路進行研究時,研判應用都需要進行標準化研究。
在對這些研判應用進行研究時的標準化流程如圖6所示。
▲圖6:研判應用標準化建設流程
數(shù)據配置
依托數(shù)據集成環(huán)境,抽取研判專題的個性化路網基礎配置、對象配置及數(shù)據表結構和地址,生成專題配置文件。
數(shù)據預處理及質量監(jiān)控
研判系統(tǒng)保存原始數(shù)據不進行數(shù)據質量檢查,但在研判應用環(huán)節(jié),將根據精度需求對各類數(shù)據進行預處理及質量監(jiān)控和修補,對接入數(shù)據的完整性、一致性和有效性進行檢查,通過數(shù)據碰撞及數(shù)據質量算法過濾異常數(shù)據,標識并剔除異常數(shù)據。數(shù)據預處理及質量監(jiān)控的流程如圖7所示。
▲圖7:數(shù)據預處理及質量監(jiān)控
分類與聚合
研判應用所服務的業(yè)務條線,都存在按照主題、業(yè)務、時間、空間及對象分類的特征,在進行個性化專題分析中,數(shù)據分類是前置條件;有些數(shù)據分類過于分散的情況,需要進行歸類聚合,此功能是開展統(tǒng)計和挖掘的前置功能單元。
參數(shù)提取
通過原始數(shù)據“物理變化”提取基礎模型參數(shù),如20s流量生成1min流量,單元段車速生成發(fā)布段車速等,基礎參數(shù)提取與研判應用需求相關,是算法模型及指標計算的前置功能單元。
算法模型
研判指標計算和結果輸出需要構建獨立的算法模型,如擁堵分析、路口指數(shù)等,算法單元將完成基礎數(shù)據的“化學變化”,得到特定目標參數(shù)。
統(tǒng)計分析
按照時間維度對參數(shù)、指標及輸出結果進行統(tǒng)計,如按照天、周、月和年,早高峰、晚高峰等,以及按照地域、空間、人群、類型進行分類統(tǒng)計,統(tǒng)計分析功能是所有研判應用的必備功能單元。
挖掘分析
挖掘分析為通過海量歷史數(shù)據創(chuàng)建規(guī)律,按照時間維度、空間維度識別規(guī)律的差異性,常規(guī)特征及異常特征,發(fā)現(xiàn)數(shù)據背后的現(xiàn)實情況,該功能是連續(xù)數(shù)據類研判應用的必備功能單元。
關聯(lián)分析
通過數(shù)據碰撞發(fā)現(xiàn)新問題和新特征,是研判系統(tǒng)的主要工作,關聯(lián)分析依托數(shù)據集成環(huán)境,對與目標分析對象的研判應用建立關聯(lián)分析,是研判應用進行業(yè)務方向轉換與主題遷移的必備功能單元。
可視化展示
所有的研判應用都將創(chuàng)建可視化展示,直觀反應研判應用的分析結果,便于相關部門進行執(zhí)法管理。
根據以上的研判應用標準化建設流程,以車輛研判應用作為具體實例,分析數(shù)據應用情況。本節(jié)將詳細描述黑車研判應用的流程,以及可視化展示的具體功能。
以車輛出行數(shù)據為基礎,分析交通出行行為?;谝阎獨v史黑車軌跡行為,創(chuàng)建黑車識別算法模型,對卡口歷史過車數(shù)據進行疑似黑車識別與挖掘,并將黑車疑似名單交由相關部門進行緝查。黑車研判應用分析流程如圖8所示。
▲圖8:黑車研判應用分析流程
黑車研判應用可視化展示分為3個部分:疑似黑車信息、黑車活動規(guī)律、黑車過車記錄。
疑似黑車信息
以月為單位,根據已查黑車及軌跡分析確認疑似黑車清單,并按照疑似度排序。疑似黑車信息如圖9所示。
▲圖9:可疑黑車清單
黑車活動規(guī)律
黑車活動規(guī)律顯示黑車出現(xiàn)的小時統(tǒng)計表、月統(tǒng)計表、周統(tǒng)計表、黑車經過卡口次數(shù)前十排行,如圖10所示。
按小時統(tǒng)計規(guī)律:以小時為單位,統(tǒng)計黑車在一天中主要活動時間的小時分布,后續(xù)補充同類車輛的主分布時間規(guī)律,對比觀察黑車異常出行時間特征。
按天統(tǒng)計規(guī)律:以月為單位,分析疑似黑車的活動天數(shù),黑車出行活動具有不規(guī)律性和偶然高發(fā)日期特性。
按周統(tǒng)計規(guī)律:以周為單位,分析工作日及雙休日期間,黑車出行活動規(guī)律不同常規(guī)車輛。
按抓拍次數(shù)由高到低(卡口前10)統(tǒng)計:以卡口斷面為對象,提取被抓拍位置,按照由高到低排序。
▲圖10:黑車分析結果
黑車過車記錄顯示該車輛最近一周的過車記錄,具體包括黑車經過地點、經過時間以及過車圖片,如圖11所示。
▲圖11:黑車識別結果
本文分析大數(shù)據環(huán)境下的研判應用標準化建設,包括數(shù)據標準化、和研判應用標準化建設流程。根據實例,對車輛研判中的黑車進行分析,分析了黑車的可疑識別清單,以及黑車的活動行為,為相關部門的管理、派警緝查等提供了有效幫助。大數(shù)據標準化是大數(shù)據行業(yè)良性發(fā)展的基礎之一,本文研究的標準化建設將為大數(shù)據的研判應用提供技術支持。