陸 璐
(廣西交通科學(xué)研究院有限公司,廣西 南寧 530007)
大數(shù)據(jù)時(shí)代的來(lái)臨,引發(fā)了各行業(yè)各領(lǐng)域的創(chuàng)新變革,擁有海量數(shù)據(jù)資產(chǎn)并對(duì)其進(jìn)行挖掘分析和應(yīng)用已然成為各行業(yè)的潮流。大數(shù)據(jù)也催生了交通大數(shù)據(jù)這一概念,智能交通系統(tǒng)生成的數(shù)據(jù)與傳統(tǒng)的交通數(shù)據(jù)不同:在數(shù)據(jù)來(lái)源上,交通大數(shù)據(jù)不僅包括了聯(lián)網(wǎng)收費(fèi)系統(tǒng)的通行記錄、外場(chǎng)的智能設(shè)備記錄的視頻圖像、傳感器設(shè)備的動(dòng)態(tài)檢測(cè)數(shù)據(jù),還包括了氣象檢測(cè)環(huán)境數(shù)據(jù);在數(shù)據(jù)分類上,交通大數(shù)據(jù)不僅有結(jié)構(gòu)化數(shù)據(jù),更包括了海量的、實(shí)時(shí)的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)體量大、種類多,產(chǎn)生的速度也非???,是一種豐富獨(dú)特的數(shù)據(jù)資源。大數(shù)據(jù)的生命周期包括了數(shù)據(jù)采集、數(shù)據(jù)集成、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理和數(shù)據(jù)可視化等。要挖掘出這些數(shù)據(jù)的隱含價(jià)值,提升交通服務(wù)質(zhì)量,需要從數(shù)據(jù)采集入手。面對(duì)海量交通數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理方法已不能滿足需求,因此,我們應(yīng)研究主流的大數(shù)據(jù)采集技術(shù),并結(jié)合廣西高速公路信息化系統(tǒng)的實(shí)際需求,構(gòu)建交通大數(shù)據(jù)平臺(tái)的數(shù)據(jù)采集方案。
交通大數(shù)據(jù)的數(shù)據(jù)采集是指將各個(gè)系統(tǒng)或設(shè)備生成的結(jié)構(gòu)化數(shù)據(jù)或非結(jié)構(gòu)化數(shù)據(jù)傳輸?shù)酱髷?shù)據(jù)平臺(tái)加以存儲(chǔ)。從業(yè)務(wù)角度劃分,數(shù)據(jù)可以分為業(yè)務(wù)數(shù)據(jù)和監(jiān)控?cái)?shù)據(jù):
(1)業(yè)務(wù)數(shù)據(jù):聯(lián)網(wǎng)收費(fèi)系統(tǒng)相關(guān)的數(shù)據(jù),包括車輛通行出入口時(shí)間、通行費(fèi)用、車輛類型、貨車稱重、站點(diǎn)信息等結(jié)構(gòu)化數(shù)據(jù)。一般存儲(chǔ)在Oracle、MySQL等關(guān)系型數(shù)據(jù)庫(kù)中。
(2)監(jiān)控?cái)?shù)據(jù):視頻監(jiān)控網(wǎng)絡(luò)相關(guān)的數(shù)據(jù),包括卡口攝像頭所拍攝的視頻、車檢器的采集信號(hào)、交通調(diào)查站的過往車輛統(tǒng)計(jì)等非結(jié)構(gòu)化數(shù)據(jù)。一般存儲(chǔ)以文件的形式存儲(chǔ)在前端設(shè)備。
傳統(tǒng)的數(shù)據(jù)采集技術(shù)來(lái)源比較單一,通常是使用中間件傳輸將數(shù)據(jù)通過網(wǎng)絡(luò)傳輸?shù)綌?shù)據(jù)中心并存儲(chǔ)到關(guān)系型數(shù)據(jù)庫(kù)中,并使用大規(guī)模并行處理(Massive Parallel Processing)技術(shù)來(lái)提升處理效率。但大規(guī)模并行處理技術(shù)追求高度一致性和可靠性,可用性和擴(kuò)展性相對(duì)較低,不足以應(yīng)對(duì)交通大數(shù)據(jù)體量快速增長(zhǎng)的需求。
新一代的數(shù)據(jù)采集方法通常以高可用、高性能和易擴(kuò)展為主要設(shè)計(jì)目標(biāo),多數(shù)采用分布式計(jì)算架構(gòu)。為了保證數(shù)據(jù)的可靠性,數(shù)據(jù)存儲(chǔ)也會(huì)使用分布式存儲(chǔ)系統(tǒng)。目前主流的數(shù)據(jù)采集平臺(tái)包括Apache Flume、Fluentd、Apache Kafka等。
Apacheflume[1]:Flume是高性能、高可用的分布式日志收集系統(tǒng),是Cloudera公司的開源項(xiàng)目,于2011年重構(gòu)后成為Apache的頂級(jí)項(xiàng)目。Flume的優(yōu)點(diǎn)除了高可靠、可擴(kuò)展性強(qiáng)之外,也提供了通用的接口。在文件格式匹配的情況下,僅需配置即可搭建起數(shù)據(jù)采集應(yīng)用,而不需要開發(fā)封裝接口。在交通監(jiān)控系統(tǒng)中,監(jiān)測(cè)設(shè)備如車檢器會(huì)產(chǎn)生大量的監(jiān)測(cè)數(shù)據(jù),這類數(shù)據(jù)類似于日志,分布在各個(gè)前端設(shè)備中,可以使用Flume進(jìn)行采集加以分析。
Fluentd[2]:Fluentd是一個(gè)開源的數(shù)據(jù)采集框架,使用JSON文件來(lái)統(tǒng)一日志數(shù)據(jù)。其架構(gòu)特性是可插拔的,支持各種不同種類和格式的數(shù)據(jù)源和數(shù)據(jù)輸出,同時(shí)提供了高可靠和很好的擴(kuò)展性。
Apache Kafka[3]:Kafka主要用于處理實(shí)時(shí)流式數(shù)據(jù),是2010年12月LinkedIn公司的開源項(xiàng)目。它在大數(shù)據(jù)平臺(tái)中起到數(shù)據(jù)分發(fā)中間件的作用。在大數(shù)據(jù)分析的使用場(chǎng)景中,在數(shù)據(jù)采集上來(lái)以后,需要傳輸?shù)胶蠖诉M(jìn)行下一步處理。由于采集前端與處理后端通常是一對(duì)多的關(guān)系,所以需要數(shù)據(jù)分發(fā)中間件來(lái)負(fù)責(zé)消息轉(zhuǎn)發(fā),以保證消息的可靠性,平衡前后端的速度差[4]。
廣西高速公路信息化系統(tǒng)的相關(guān)業(yè)務(wù)擁有不同的數(shù)據(jù)源及應(yīng)用場(chǎng)景,因此其具體的數(shù)據(jù)采集需求要結(jié)合實(shí)際的數(shù)據(jù)源及應(yīng)用場(chǎng)景做進(jìn)一步的分析。
聯(lián)網(wǎng)收費(fèi)是高速公路管理的核心業(yè)務(wù)之一,因此收費(fèi)數(shù)據(jù)是重點(diǎn)分析的對(duì)象。收費(fèi)數(shù)據(jù)的原始記錄產(chǎn)生于收費(fèi)車道前置的收費(fèi)設(shè)備,并通過網(wǎng)絡(luò)傳輸?shù)綌?shù)據(jù)清分中心,存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中。聯(lián)網(wǎng)收費(fèi)的基本需求是在不影響業(yè)務(wù)處理性能的情況下,保留歷史數(shù)據(jù)以備數(shù)據(jù)挖掘與分析。在這個(gè)業(yè)務(wù)處理場(chǎng)景中,收費(fèi)數(shù)據(jù)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中,可伸縮性較差,又需要滿足查詢與其他數(shù)據(jù)操作的實(shí)時(shí)性,需要定期清除部分歷史數(shù)據(jù)。但是在大數(shù)據(jù)場(chǎng)景下,這些看似無(wú)用的歷史數(shù)據(jù)又可能是具有極高的隱含價(jià)值。因而需要將關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)同步到大數(shù)據(jù)平臺(tái)的分布式存儲(chǔ)系統(tǒng)HDFS中,讓HDFS備份完整數(shù)據(jù)的冗余存儲(chǔ)。
高速公路上的視頻監(jiān)控通常是為了應(yīng)對(duì)路面上的交通事件,為應(yīng)急處理提供事實(shí)依據(jù)。視頻監(jiān)控?cái)?shù)據(jù)的基本需求是提取特征數(shù)據(jù),重點(diǎn)保留交通事件的視頻記錄。針對(duì)視頻文件的大數(shù)據(jù)處理,需要在采集提取階段加載圖片后,根據(jù)某種識(shí)別算法,識(shí)別并提取圖片的特征信息,并將其轉(zhuǎn)換為應(yīng)急救援和緊急預(yù)案需要的數(shù)據(jù)模型。這個(gè)場(chǎng)景中數(shù)據(jù)采集的難點(diǎn)是,數(shù)據(jù)提取的耗時(shí)相對(duì)較長(zhǎng),也需要較多的內(nèi)存資源,容易成為整個(gè)數(shù)據(jù)處理流程的瓶頸[5]。
車檢器是布設(shè)在路上檢測(cè)車流量的設(shè)備,其數(shù)據(jù)是周期性采集統(tǒng)計(jì)的車輛統(tǒng)計(jì)值。實(shí)時(shí)車流量信息是高速公路信息化管理中關(guān)注的重點(diǎn),這關(guān)系到收費(fèi)站資源調(diào)配、應(yīng)急事件處理等工作源。車檢器數(shù)據(jù)的基本需求是數(shù)據(jù)要實(shí)時(shí)采集。由于車檢器數(shù)量較多,而且在未來(lái)還可能會(huì)增加,因此需要在采集方法上能夠提供高可用性和易擴(kuò)展性。
交通大數(shù)據(jù)的采集涉及數(shù)據(jù)的產(chǎn)生、處理和存儲(chǔ)三個(gè)階段,基于高速公路信息化系統(tǒng)的數(shù)據(jù)需求及其應(yīng)用場(chǎng)景,智能交通大數(shù)據(jù)平臺(tái)的數(shù)據(jù)采集既要兼容傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),又要支持新型的非結(jié)構(gòu)化數(shù)據(jù)。
為了合理利用資源,交通大數(shù)據(jù)平臺(tái)從聯(lián)網(wǎng)收費(fèi)清分中心獲取收費(fèi)清分?jǐn)?shù)據(jù)。而對(duì)于視頻監(jiān)控的視頻數(shù)據(jù)和車檢器數(shù)據(jù)的采集與處理,則通過集成目前開源的日志采集技術(shù)、數(shù)據(jù)流處理技術(shù)、消息隊(duì)列技術(shù)和分布式存儲(chǔ)技術(shù),實(shí)現(xiàn)交通大數(shù)據(jù)的收集、傳輸與存儲(chǔ)。平臺(tái)架構(gòu)如圖1所示。
圖1 智能交通大數(shù)據(jù)平臺(tái)架構(gòu)設(shè)計(jì)示意圖
為了不影響聯(lián)網(wǎng)收費(fèi)業(yè)務(wù)的處理性能,聯(lián)網(wǎng)收費(fèi)數(shù)據(jù)采用Kafka訂閱-發(fā)布的方式進(jìn)行傳輸,直接存儲(chǔ)到大數(shù)據(jù)平臺(tái)的分布式文件系統(tǒng)HDFS中,完成歷史數(shù)據(jù)的冗余備份。
視頻數(shù)據(jù)由于體量極大,需要先進(jìn)行特征提取再進(jìn)行分類存儲(chǔ),以便數(shù)據(jù)的后續(xù)處理與使用。視頻流存儲(chǔ)到視頻服務(wù)器后,通過Kafka將數(shù)據(jù)傳輸?shù)教幚矸?wù)器,在處理服務(wù)器進(jìn)行特征提取和視頻壓縮,將結(jié)果使用Kafka傳到大數(shù)據(jù)平臺(tái)。
車檢器數(shù)據(jù)使用Flume將數(shù)據(jù)以日志的形式傳回到大數(shù)據(jù)平臺(tái)進(jìn)行存儲(chǔ)展示,由于車檢器數(shù)量很多,F(xiàn)lume部署以集群的方式,保證數(shù)據(jù)采集傳輸?shù)目煽啃耘c穩(wěn)定性。
交通大數(shù)據(jù)平臺(tái)的存儲(chǔ)設(shè)計(jì)以分布式存儲(chǔ)HDFS為主,同時(shí)支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)。收費(fèi)數(shù)據(jù)這類傳統(tǒng)數(shù)據(jù)庫(kù)移植過來(lái)的數(shù)據(jù),用HBase建立相應(yīng)的數(shù)據(jù)結(jié)構(gòu),最大程度與源數(shù)據(jù)保持一致。視頻數(shù)據(jù)要對(duì)特征值建立索引,并存儲(chǔ)壓縮后的視頻文件,以減少存儲(chǔ)壓力。
分布式存儲(chǔ)平臺(tái)中的一部分?jǐn)?shù)據(jù)可通過ETL將處理過的信息存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,以便上層應(yīng)用的快速搜索查詢。例如,收費(fèi)數(shù)據(jù)的原始記錄在進(jìn)行統(tǒng)計(jì)后形成報(bào)表,報(bào)表記錄可按照按業(yè)務(wù)需求分類存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,上層應(yīng)用即能快速提取所需數(shù)據(jù),提高系統(tǒng)效率。
本文對(duì)大數(shù)據(jù)的采集技術(shù)進(jìn)行了研究,分析了交通大數(shù)據(jù)平臺(tái)中高速公路信息化系統(tǒng)的數(shù)據(jù)特點(diǎn)和需求,對(duì)智能交通大數(shù)據(jù)平臺(tái)的數(shù)據(jù)采集系統(tǒng)架構(gòu)進(jìn)行了構(gòu)想。智能交通大數(shù)據(jù)的應(yīng)用是交通數(shù)據(jù)轉(zhuǎn)化為數(shù)據(jù)資產(chǎn),提升競(jìng)爭(zhēng)力的必然趨勢(shì),對(duì)于提高智能交通信息化水平、提升交通服務(wù)質(zhì)量、提高決策效率具有重要意義。數(shù)據(jù)采集作為大數(shù)據(jù)應(yīng)用的基礎(chǔ),其意義不言而喻。