杜圣東,楊燕,滕飛
西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031
交通大數(shù)據(jù):一種基于微服務(wù)的敏捷處理架構(gòu)設(shè)計(jì)
杜圣東,楊燕,滕飛
西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院,四川 成都 610031
面對(duì)智慧交通廣泛的大數(shù)據(jù)應(yīng)用場(chǎng)景和技術(shù)需求,一般大數(shù)據(jù)系統(tǒng)難以適應(yīng)多種處理情況并做出快速響應(yīng)。針對(duì)這一問(wèn)題,首次提出了敏捷大數(shù)據(jù)方法論,對(duì)其概念、處理流程、核心原則與關(guān)鍵技術(shù)等進(jìn)行了研究和探索?;跀?shù)據(jù)科學(xué)迭代性本質(zhì),設(shè)計(jì)了面向微服務(wù)的敏捷大數(shù)據(jù)架構(gòu),對(duì)交通大數(shù)據(jù)微服務(wù)化、交通大數(shù)據(jù)融合等關(guān)鍵環(huán)節(jié)進(jìn)行了詳細(xì)設(shè)計(jì)和論述。敏捷大數(shù)據(jù)架構(gòu)的提出為交通大數(shù)據(jù)環(huán)境下的高效、靈活數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)提供了新思路、新方法。
agile big data, micro service, big data architecture, container, big data fusion
近年來(lái),隨著大數(shù)據(jù)、云計(jì)算、人工智能、物聯(lián)網(wǎng)等前沿信息技術(shù)的高速發(fā)展,人們已然邁入大數(shù)據(jù)時(shí)代[1]。數(shù)據(jù)被喻為大數(shù)據(jù)時(shí)代的石油,如何擁有繼陸權(quán)、海權(quán)、空權(quán)之后的數(shù)權(quán),已經(jīng)上升為各國(guó)的重大科技戰(zhàn)略。隨著我國(guó)高鐵、地鐵、輕軌和高速公路等交通基礎(chǔ)設(shè)施建設(shè)和城市化進(jìn)程的日益提速,交通擁堵、排放污染、能源消耗等問(wèn)題日益嚴(yán)重,交通事故、交通緊急事件頻繁發(fā)生,交通管控風(fēng)險(xiǎn)加大,這些都是智慧交通和城市計(jì)算[2]亟待解決的關(guān)鍵問(wèn)題。由于現(xiàn)代交通涉及經(jīng)濟(jì)、環(huán)境、社會(huì)和安全等多個(gè)方面,大數(shù)據(jù)時(shí)代的到來(lái)為綜合交通一體化、智能化管理提供了新的機(jī)遇和廣闊的應(yīng)用前景,同時(shí)也對(duì)交通數(shù)據(jù)感知、交通大數(shù)據(jù)管理和時(shí)空大數(shù)據(jù)機(jī)器學(xué)習(xí)等方面的關(guān)鍵技術(shù)和架構(gòu)設(shè)計(jì)提出了新的挑戰(zhàn)。當(dāng)前的交通規(guī)劃設(shè)計(jì)、運(yùn)營(yíng)管控、安全維護(hù)等受到跨地域、跨行業(yè)等限制,各類管理主體的分割造成了交通數(shù)據(jù)的條塊分割和碎片化,使得傳統(tǒng)信息技術(shù)難以支撐交通大數(shù)據(jù)的綜合管理和挖掘分析。所以通過(guò)不斷獲取、整合和分析交通大數(shù)據(jù)解決上述挑戰(zhàn),通過(guò)大數(shù)據(jù)機(jī)器學(xué)習(xí)和城市計(jì)算技術(shù)提升智慧交通管理水平,應(yīng)用潛力巨大;另外,交通海量數(shù)據(jù)的多源異構(gòu)、時(shí)空關(guān)聯(lián)、多模態(tài)、動(dòng)態(tài)性等特點(diǎn),大數(shù)據(jù)的集成性、可預(yù)測(cè)性等技術(shù)特征,更是凸顯了大數(shù)據(jù)技術(shù)在智慧交通中的深層應(yīng)用價(jià)值。
隨著交通大數(shù)據(jù)的急速增長(zhǎng),各類數(shù)據(jù)在時(shí)空關(guān)聯(lián)、跨模態(tài)和動(dòng)態(tài)處理方面都呈現(xiàn)出不斷增長(zhǎng)的復(fù)雜性,一般信息技術(shù)和傳統(tǒng)數(shù)據(jù)挖掘技術(shù)越來(lái)越難以處理。如何有效支持交通大數(shù)據(jù)敏捷處理,是交通大數(shù)據(jù)應(yīng)用要解決的關(guān)鍵問(wèn)題。近年來(lái),以微服務(wù)、構(gòu)件化和數(shù)據(jù)融合等為代表的大數(shù)據(jù)架構(gòu)和關(guān)鍵技術(shù)研究備受關(guān)注。針對(duì)軟件架構(gòu)的復(fù)用性,楊芙清院士等人[3]很早就開(kāi)創(chuàng)性地提出了構(gòu)件化軟件設(shè)計(jì)理論與方法,對(duì)軟件復(fù)用技術(shù)作了全面綜述及關(guān)鍵技術(shù)分析,為近年來(lái)的服務(wù)化和容器化技術(shù)打下了堅(jiān)實(shí)的基礎(chǔ);王珊等人[4]對(duì)大數(shù)據(jù)架構(gòu)設(shè)計(jì)的挑戰(zhàn)和現(xiàn)狀做了分析和展望,為了設(shè)計(jì)適合大數(shù)據(jù)分析的數(shù)據(jù)倉(cāng)庫(kù)架構(gòu),探討了大數(shù)據(jù)平臺(tái)需要具備的重要特性,并對(duì)當(dāng)前的主流大數(shù)據(jù)框架進(jìn)行了深入研究,指出了各自的優(yōu)勢(shì)及不足。孟小峰等人[5]闡述了大數(shù)據(jù)處理的基本框架,并就云計(jì)算技術(shù)對(duì)大數(shù)據(jù)時(shí)代數(shù)據(jù)管理產(chǎn)生的作用進(jìn)行分析。Chen H M等人[6]提出了以架構(gòu)為中心的敏捷大數(shù)據(jù)開(kāi)發(fā)方法,初步引入了傳統(tǒng)軟件工程中的敏捷開(kāi)發(fā)思想。在交通大數(shù)據(jù)處理方面,鄭宇[2]提出了城市計(jì)算的定義、框架和主要研究問(wèn)題,并概述了城市計(jì)算的典型應(yīng)用和所需的技術(shù)。在微服務(wù)方面[7],亞馬遜、谷歌 、FaceBook、阿里巴巴等企業(yè)進(jìn)行了大量研究和應(yīng)用,通過(guò)微服務(wù)技術(shù)將大型、復(fù)雜的應(yīng)用程序構(gòu)建為一組相對(duì)獨(dú)立和協(xié)同聯(lián)系的微小服務(wù),以提高大型復(fù)雜系統(tǒng)的穩(wěn)定性、敏捷性和研發(fā)維護(hù)效率。從上述分析可以看出,雖然已有針對(duì)大數(shù)據(jù)架構(gòu)的探討和主流大數(shù)據(jù)框架比較研究,但在大數(shù)據(jù)架構(gòu)設(shè)計(jì)的方法論和關(guān)鍵技術(shù)支撐體系,特別是結(jié)合微服務(wù)、敏捷方法論的大數(shù)據(jù)架構(gòu)研究方面,暫時(shí)還是空白。
本文探討了交通大數(shù)據(jù)應(yīng)用面臨的關(guān)鍵問(wèn)題和技術(shù)挑戰(zhàn),闡述了大數(shù)據(jù)技術(shù)在智慧交通中的關(guān)鍵地位和相互之間的關(guān)聯(lián)關(guān)系。從4個(gè)層面系統(tǒng)分析了交通大數(shù)據(jù)處理涉及的共性關(guān)鍵技術(shù)。由于交通大數(shù)據(jù)涉及技術(shù)面十分廣泛,大數(shù)據(jù)計(jì)算模式和處理數(shù)據(jù)模態(tài)的不同,決定了其采取的技術(shù)也會(huì)不同,面對(duì)交通大數(shù)據(jù)分析廣泛的應(yīng)用場(chǎng)景和特定技術(shù)需求,一般大數(shù)據(jù)分析系統(tǒng)難以適應(yīng)所有的處理情況,其他領(lǐng)域的大數(shù)據(jù)應(yīng)用也面臨著同樣的難題。因此,提出了敏捷大數(shù)據(jù)的方法論,并對(duì)其概念、原理、處理原則與關(guān)鍵支撐技術(shù)進(jìn)行了深入研究和分析。并基于大數(shù)據(jù)多粒度信息融合、計(jì)算微服務(wù)化、云計(jì)算和容器等技術(shù),從采集、存儲(chǔ)、計(jì)算和應(yīng)用4個(gè)層面設(shè)計(jì)了面向智慧交通的敏捷大數(shù)據(jù)處理架構(gòu),為交通大數(shù)據(jù)應(yīng)用研究提供了新的思路、方法和技術(shù)。
面對(duì)海量的多源異構(gòu)交通大數(shù)據(jù),如何從中根據(jù)用戶需求提取有效特征,并挖掘出有價(jià)值的信息進(jìn)行決策支持,是智慧交通要解決的關(guān)鍵問(wèn)題。通過(guò)對(duì)交通大數(shù)據(jù)的分析處理和預(yù)測(cè)預(yù)警,可以輔助交通管理者制定出更好的解決方案,提升交通監(jiān)控、預(yù)測(cè)和安全保障水平,并提高交通網(wǎng)絡(luò)的運(yùn)行效率,這是智慧交通的核心目標(biāo)。大數(shù)據(jù)技術(shù)和智慧交通是互為支撐的關(guān)系(如圖11所示),交通大數(shù)據(jù)系統(tǒng)在智慧交通應(yīng)用的中心地位凸顯。首先,為了解決數(shù)據(jù)孤島問(wèn)題,大數(shù)據(jù)分析和決策需要基于統(tǒng)一的交通大數(shù)據(jù)中心,交通環(huán)境中的人、路、車和相關(guān)時(shí)空感知數(shù)據(jù),通過(guò)采集、抽取、匯聚進(jìn)入大數(shù)據(jù)中心進(jìn)行分布式存儲(chǔ),各類管理信息系統(tǒng)也需要數(shù)據(jù)集成,為大數(shù)據(jù)挖掘分析提供數(shù)據(jù)源;其次,大數(shù)據(jù)分析技術(shù)除了提供獨(dú)立的智慧交通決策支持服務(wù)之外,還要能對(duì)所有相關(guān)交通管理信息系統(tǒng)和對(duì)外信息發(fā)布方面提供數(shù)據(jù)分析服務(wù),業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)為大數(shù)據(jù)系統(tǒng)提供數(shù)據(jù)來(lái)源,大數(shù)據(jù)系統(tǒng)為業(yè)務(wù)系統(tǒng)提供海量數(shù)據(jù)處理架構(gòu)下的匯總統(tǒng)計(jì)、探索分析、多維分析和決策指導(dǎo)等大數(shù)據(jù)分析支持。圖11是交通大數(shù)據(jù)在智慧交通應(yīng)用中的定位和相互關(guān)系示意。
圖1 交通大數(shù)據(jù)在智慧交通應(yīng)用中的定位與相互關(guān)系示意
交通大數(shù)據(jù)分析作為智慧交通的關(guān)鍵支撐技術(shù),其應(yīng)用面臨著巨大挑戰(zhàn)。大數(shù)據(jù)技術(shù)的關(guān)鍵詞是預(yù)測(cè)、迭代和優(yōu)化,技術(shù)模型和系統(tǒng)設(shè)計(jì)不同于傳統(tǒng)信息化領(lǐng)域,特別是大數(shù)據(jù)很多技術(shù)采用的是全新技術(shù)范型,核心技術(shù)的突破短期仍受限于理論、技術(shù)成熟度和研發(fā)能力,具有復(fù)雜性和不確定性。另外,根據(jù)交通大數(shù)據(jù)的特點(diǎn),需對(duì)數(shù)據(jù)采集、多模態(tài)數(shù)據(jù)融合、數(shù)據(jù)質(zhì)量監(jiān)控、隱私信息清洗和機(jī)器學(xué)習(xí)模型的有效性、穩(wěn)定性等方面,進(jìn)行持續(xù)深入研究和驗(yàn)證。一般來(lái)講,交通大數(shù)據(jù)應(yīng)用主要面臨如下挑戰(zhàn)。
(1)數(shù)據(jù)孤島和集成共享問(wèn)題
全面、及時(shí)、準(zhǔn)確地采集和獲取交通各類源數(shù)據(jù)是交通大數(shù)據(jù)分析的基礎(chǔ)。傳統(tǒng)交通規(guī)劃設(shè)計(jì)、運(yùn)營(yíng)管控的跨地域、跨行業(yè)等限制問(wèn)題,造成了各類管理主體的分割,從而導(dǎo)致了各類交通信息的條塊分割和碎片化,交通數(shù)據(jù)碎片化地分散在不同的信息系統(tǒng)中,數(shù)據(jù)孤島問(wèn)題嚴(yán)重。而交通大數(shù)據(jù)的集成性、可預(yù)測(cè)性必須基于海量數(shù)據(jù)的集成和融合,才能實(shí)現(xiàn)智能化、一體化的智慧交通管理,所以解決數(shù)據(jù)孤島和實(shí)現(xiàn)數(shù)據(jù)集成共享是交通大數(shù)據(jù)應(yīng)用面臨的首要挑戰(zhàn)。
(2)多源異構(gòu)和時(shí)空關(guān)聯(lián)問(wèn)題
交通大數(shù)據(jù)橫跨多個(gè)行業(yè)領(lǐng)域,結(jié)構(gòu)化和半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)混合并存,不同系統(tǒng)或平臺(tái)的數(shù)據(jù)呈離散化、碎片化分布,面對(duì)交通大數(shù)據(jù)多源異構(gòu)、時(shí)空關(guān)聯(lián)復(fù)雜耦合和相互影響等特點(diǎn),傳統(tǒng)數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)難以直接應(yīng)用,這給交通大數(shù)據(jù)的處理帶來(lái)了巨大挑戰(zhàn)。如何針對(duì)交通大數(shù)據(jù)的時(shí)空關(guān)聯(lián)性、互補(bǔ)性及其動(dòng)態(tài)變化規(guī)律進(jìn)行深入解析,并在此基礎(chǔ)上構(gòu)建合理有效的機(jī)器學(xué)習(xí)模型,是交通大數(shù)據(jù)關(guān)聯(lián)分析要解決的關(guān)鍵問(wèn)題。
(3)多模態(tài)數(shù)據(jù)和多任務(wù)處理問(wèn)題
交通大數(shù)據(jù)隨著時(shí)間和空間的動(dòng)態(tài)變化常常呈現(xiàn)出多模態(tài)和動(dòng)態(tài)性特點(diǎn),由于多模態(tài)交通大數(shù)據(jù)處理固有的復(fù)雜性、相關(guān)性、動(dòng)態(tài)性等問(wèn)題,需分析從單模態(tài)數(shù)據(jù)機(jī)器學(xué)習(xí)到多模態(tài)關(guān)聯(lián)機(jī)器學(xué)習(xí)的高階相關(guān)性原理,并且研究交通大數(shù)據(jù)中不同層次之間信息的關(guān)聯(lián)集成與融合機(jī)理。結(jié)合多模態(tài)數(shù)據(jù)源的互補(bǔ)信息,分析數(shù)據(jù)源之間的各類特征關(guān)聯(lián)關(guān)系和語(yǔ)義關(guān)系,構(gòu)建面向多源異構(gòu)數(shù)據(jù)的多粒度信息融合模型,建立統(tǒng)一數(shù)據(jù)融合層和標(biāo)準(zhǔn)數(shù)據(jù)集來(lái)處理和共享交通大數(shù)據(jù),并設(shè)計(jì)基于多模態(tài)交通大數(shù)據(jù)處理的跨模態(tài)機(jī)器學(xué)習(xí)和多任務(wù)集成學(xué)習(xí)方法,是交通大數(shù)據(jù)建模要解決的關(guān)鍵問(wèn)題。
要實(shí)現(xiàn)交通大數(shù)據(jù)分析目標(biāo),需明確所需數(shù)據(jù)源和關(guān)鍵技術(shù),針對(duì)分析目標(biāo),進(jìn)行交通多個(gè)維度數(shù)據(jù)(人、車、路、時(shí)間、空間等)的采集和存儲(chǔ)。通過(guò)交互式分析技術(shù)、可視化分析技術(shù)和數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù),對(duì)海量交通數(shù)據(jù)進(jìn)行大規(guī)模建模計(jì)算,最后對(duì)分析結(jié)果進(jìn)行展示評(píng)價(jià),并在實(shí)際系統(tǒng)中進(jìn)行應(yīng)用評(píng)估和反饋、優(yōu)化,從而科學(xué)指導(dǎo)和輔助交通管理決策支持。由于大數(shù)據(jù)技術(shù)生態(tài)體系龐雜[8],基礎(chǔ)技術(shù)覆蓋數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)脫敏、分布式計(jì)算、NoSQL數(shù)據(jù)存儲(chǔ)、多模式(離線、實(shí)時(shí)、流、內(nèi)存)計(jì)算、多模態(tài)(圖片、視頻、音頻、網(wǎng)頁(yè)、傳感器)數(shù)據(jù)處理、并行計(jì)算、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、數(shù)據(jù)可視化等各個(gè)層級(jí),應(yīng)用場(chǎng)景更是涉及交通流分析、交通擁堵分析、污染排放分析、交通風(fēng)險(xiǎn)分析、交通誘導(dǎo)分析、交通軌跡分析等各個(gè)方面。要支撐基于大數(shù)據(jù)技術(shù)的智慧交通管理,需對(duì)交通大數(shù)據(jù)的基礎(chǔ)性共性關(guān)鍵技術(shù)進(jìn)行深入研究,包括應(yīng)用環(huán)節(jié)、方法原理和關(guān)鍵技術(shù)等方面。本文從4個(gè)層面對(duì)交通大數(shù)據(jù)分析的共性關(guān)鍵技術(shù)進(jìn)行研究。
(1)交通大數(shù)據(jù)采集與集成融合技術(shù)
隨著城市交通、鐵路、航空、水運(yùn)等各領(lǐng)域物聯(lián)網(wǎng)、車聯(lián)網(wǎng)傳感采集和智能終端設(shè)備的普及應(yīng)用,交通數(shù)據(jù)采集的范圍、廣度和深度進(jìn)一步加強(qiáng),為實(shí)現(xiàn)跨行業(yè)與跨地域的智慧交通大數(shù)據(jù)分析提供了海量的全樣本數(shù)據(jù)。類型繁多、結(jié)構(gòu)多樣、體量巨大的交通數(shù)據(jù)決定了其采集的復(fù)雜性,需研究大數(shù)據(jù)條件下的跨行業(yè)、跨地域的交通動(dòng)、靜態(tài)數(shù)據(jù)采集,數(shù)據(jù)交換共享以及預(yù)處理關(guān)鍵技術(shù),主要支撐對(duì)靜態(tài)、動(dòng)態(tài)兩大類交通數(shù)據(jù)的采集、抽取和融合集成,包括公路、鐵路、航空、水運(yùn)等多行業(yè)的設(shè)施(如路網(wǎng))、設(shè)備(如車輛)、人員、安全保障等基礎(chǔ)數(shù)據(jù),還有綜合交通網(wǎng)絡(luò)中人、車、路、環(huán)境等相互間作用的關(guān)系數(shù)據(jù),如速度、密度、流量、位置、票價(jià)等。需要研究移動(dòng)式動(dòng)態(tài)交通數(shù)據(jù)采集技術(shù)、固定式交通數(shù)據(jù)采集技術(shù)、基于Hadoop的關(guān)系數(shù)據(jù)抽取技術(shù)、大規(guī)模交通數(shù)據(jù)預(yù)處理技術(shù)等,為智慧交通的時(shí)空感知和綜合管控提供數(shù)據(jù)支撐。
(2)交通大數(shù)據(jù)云存儲(chǔ)與資源管理調(diào)度技術(shù)
面對(duì)現(xiàn)代綜合交通的信息化、物聯(lián)網(wǎng)化發(fā)展,其數(shù)據(jù)呈現(xiàn)幾何增長(zhǎng)的趨勢(shì),數(shù)據(jù)庫(kù)技術(shù)已經(jīng)不能僅依靠單臺(tái)或幾臺(tái)機(jī)器進(jìn)行縱向擴(kuò)展( scale up)的升級(jí)來(lái)滿足存儲(chǔ)需求。必須采用基于大數(shù)據(jù)架構(gòu)的分布式云存儲(chǔ)技術(shù),基于Hadoop的 分布式文件系統(tǒng)(Hadoop distributed file system,HDFS),高可用數(shù)據(jù)存儲(chǔ),結(jié)合HBase、Redis等面向列的數(shù)據(jù)存儲(chǔ)模型,解決海量數(shù)據(jù)存儲(chǔ)擴(kuò)展的問(wèn)題。需針對(duì)具有時(shí)空特性的地理空間數(shù)據(jù),如全球定位、衛(wèi)星圖像、地理軌跡等多種形式的交通大數(shù)據(jù),分析各數(shù)據(jù)實(shí)體之間的物理和邏輯關(guān)系,設(shè)計(jì)相關(guān)分布式存儲(chǔ)索引。另外,云存儲(chǔ)作為交通海量數(shù)據(jù)處理的基礎(chǔ)設(shè)施,面臨節(jié)點(diǎn)龐雜、負(fù)載不均衡、數(shù)據(jù)實(shí)時(shí)性響應(yīng)等問(wèn)題,需對(duì)云集群的資源調(diào)度、集群性能、負(fù)載均衡等關(guān)鍵技術(shù)進(jìn)行深入研究。
(3)交通大數(shù)據(jù)挖掘建模與機(jī)器學(xué)習(xí)技術(shù)
針對(duì)交通大數(shù)據(jù)多源、異構(gòu)、海量等特征,傳統(tǒng)的數(shù)據(jù)挖掘、處理、分析方式已經(jīng)無(wú)法滿足大數(shù)據(jù)的要求。以數(shù)據(jù)計(jì)算效率和計(jì)算復(fù)雜性理論為基礎(chǔ),研究基于云計(jì)算和分布式集群的大數(shù)據(jù)多模式計(jì)算(包括批處理、實(shí)時(shí)流處理、內(nèi)存處理等)和多模態(tài)計(jì)算(包括圖像、文本、視頻、傳感器數(shù)據(jù)等)方法。圍繞交通大數(shù)據(jù)分析目標(biāo),對(duì)需要用到的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)(如預(yù)測(cè)、聚類、分類、相關(guān)性模型)模型和算法展開(kāi)應(yīng)用研究,針對(duì)超大規(guī)模數(shù)據(jù)量級(jí),可利用深度學(xué)習(xí)和分布式集群等前沿大數(shù)據(jù)技術(shù)進(jìn)行挖掘分析。利用大數(shù)據(jù)機(jī)器學(xué)習(xí)技術(shù),融合碎片化、離散化數(shù)據(jù),提升交通管理主動(dòng)性、及時(shí)性和預(yù)見(jiàn)性。
(4)交通大數(shù)據(jù)可視化與輔助決策支持技術(shù)
交通大數(shù)據(jù)應(yīng)用要落地,對(duì)挖掘分析結(jié)果的直觀理解和形成輔助決策知識(shí)很關(guān)鍵?;诖髷?shù)據(jù)分析的綜合交通決策支持以交通管理、運(yùn)籌控制等為基礎(chǔ),以大數(shù)據(jù)挖掘、可視化、仿真等技術(shù)為手段,以先進(jìn)的人機(jī)交互方式輔助管理者進(jìn)行科學(xué)決策。交通大數(shù)據(jù)具有多源異構(gòu)、多維度、時(shí)空動(dòng)態(tài)及海量的特征,這對(duì)現(xiàn)有可視化技術(shù)提出更高的要求,需基于地理信息系統(tǒng)(geographic information system,GIS)/全球定位系統(tǒng)(global positioning system,GPS)/衛(wèi)星圖像的大規(guī)模交通空間路網(wǎng)可視化、動(dòng)態(tài)數(shù)據(jù)流可視化等關(guān)鍵技術(shù),研究大數(shù)據(jù)可視化互動(dòng)操作(鉆取、多層次、多視角)。針對(duì)交通大數(shù)據(jù)分析結(jié)果的數(shù)據(jù)形態(tài)和邏輯關(guān)系,進(jìn)行知識(shí)庫(kù)建設(shè),并設(shè)計(jì)基于大數(shù)據(jù)分析的智慧交通決策支持系統(tǒng)。
根據(jù)上述交通大數(shù)據(jù)共性關(guān)鍵技術(shù)的分析,可以看到,交通大數(shù)據(jù)的復(fù)雜性和分析目標(biāo)的多樣性,對(duì)傳統(tǒng)的數(shù)據(jù)挖掘分析模式和大數(shù)據(jù)技術(shù)架構(gòu)提出了挑戰(zhàn)。例如,針對(duì)海量交通歷史靜態(tài)數(shù)據(jù),需采用離線批處理技術(shù),而動(dòng)態(tài)實(shí)時(shí)流交通數(shù)據(jù)則需要流式計(jì)算框架進(jìn)行處理。另外,對(duì)文本、圖像、視頻、傳感器等多模態(tài)數(shù)據(jù)需采用不同的機(jī)器學(xué)習(xí)模型進(jìn)行處理,如何進(jìn)行跨模態(tài)的融合計(jì)算分析也是研究熱點(diǎn)和難點(diǎn)。針對(duì)交通大數(shù)據(jù)分析需求的變更和擴(kuò)展,大數(shù)據(jù)系統(tǒng)如何進(jìn)行快速響應(yīng)和功能、模型的擴(kuò)充和調(diào)整,是交通大數(shù)據(jù)架構(gòu)設(shè)計(jì)要解決的關(guān)鍵問(wèn)題。針對(duì)這一問(wèn)題,本文首次提出了敏捷大數(shù)據(jù)方法論,并基于信息融合、微服務(wù)化、容器等技術(shù)設(shè)計(jì)了具有快速響應(yīng)、快速迭代、持續(xù)優(yōu)化的敏捷大數(shù)據(jù)處理架構(gòu),為構(gòu)建交通大數(shù)據(jù)分析平臺(tái)提供有力支撐。
4.1 敏捷大數(shù)據(jù)方法論
4.1.1 大數(shù)據(jù)要具有敏捷性的原因
大數(shù)據(jù)分析的核心目標(biāo)是:面向過(guò)去,發(fā)現(xiàn)數(shù)據(jù)規(guī)律,歸納已知;面向未來(lái),挖掘數(shù)據(jù)趨勢(shì),預(yù)測(cè)未知。通過(guò)大數(shù)據(jù)分析提高對(duì)事物的理解和決策處置能力,最終實(shí)現(xiàn)智能化。不管是商業(yè)智能、機(jī)器智能、人工智能,還是智能客服、智能問(wèn)答、智能推薦、智慧醫(yī)療、智慧交通等相關(guān)技術(shù)和系統(tǒng),其本質(zhì)都是朝著這一目標(biāo)演進(jìn)。隨著云計(jì)算平臺(tái)和開(kāi)源大數(shù)據(jù)系統(tǒng)(如Hadoop、Spark、Storm等)的高速發(fā)展,獲得大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)相關(guān)技術(shù)和支持越來(lái)越容易。同時(shí),移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)具備的全面數(shù)據(jù)采集能力客觀上促進(jìn)了大數(shù)據(jù)的積累和爆發(fā)。但是,大數(shù)據(jù)應(yīng)用落地還面臨如下幾個(gè)關(guān)鍵瓶頸。
● 信息技術(shù)(information technology, IT)向數(shù)據(jù)技術(shù)(data technology,DT)轉(zhuǎn)變,使得傳統(tǒng)軟件技術(shù)架構(gòu)面臨挑戰(zhàn)。現(xiàn)階段各種大數(shù)據(jù)相關(guān)的開(kāi)源技術(shù)和系統(tǒng)百花齊放,大數(shù)據(jù)技術(shù)生態(tài)體系龐雜,如云計(jì)算、機(jī)器學(xué)習(xí)、微服務(wù)、容器、分布式存儲(chǔ)、分布式集群、深度學(xué)習(xí)等。如何在掌握有限技術(shù)的條件下(或已有技術(shù)不夠成熟的條件下),快速敏捷地進(jìn)行大數(shù)據(jù)研究和落地應(yīng)用,需要從技術(shù)架構(gòu)角度進(jìn)行深入探討和研究。
● 傳統(tǒng)商業(yè)智能(business intelligence,BI)應(yīng)用的失敗教訓(xùn)太多,項(xiàng)目周期漫長(zhǎng),考驗(yàn)客戶耐性,應(yīng)用成本高,最終成果是昂貴的豪華報(bào)表難以達(dá)到預(yù)期目標(biāo),其失敗的本質(zhì)原因是缺乏敏捷性。大數(shù)據(jù)分析如何從BI項(xiàng)目中總結(jié)失敗教訓(xùn)和獲得經(jīng)驗(yàn),大數(shù)據(jù)應(yīng)用如何與傳統(tǒng)BI系統(tǒng)融合,傳統(tǒng)企業(yè)的大數(shù)據(jù)應(yīng)用如何與發(fā)源于互聯(lián)網(wǎng)公司的主流大數(shù)據(jù)技術(shù)框架進(jìn)行有機(jī)統(tǒng)一等問(wèn)題,也需要從大數(shù)據(jù)架構(gòu)層面進(jìn)行研究和解決。
● 大數(shù)據(jù)應(yīng)用標(biāo)準(zhǔn)化問(wèn)題。特別是針對(duì)如交通大數(shù)據(jù)這樣的多源異構(gòu)、動(dòng)態(tài)性、關(guān)聯(lián)性等特點(diǎn),對(duì)大數(shù)據(jù)分析流程和應(yīng)用進(jìn)行標(biāo)準(zhǔn)化、敏捷化管理,對(duì)離線分析、在線分析、實(shí)時(shí)分析、內(nèi)存分析等計(jì)算框架進(jìn)行快速切換處理,對(duì)圖像、文本、視頻、音頻、網(wǎng)頁(yè)、關(guān)系數(shù)據(jù)庫(kù)等多源異構(gòu)數(shù)據(jù)進(jìn)行多模態(tài)融合處理,對(duì)大數(shù)據(jù)分析結(jié)果的應(yīng)用效果進(jìn)行快速量化與評(píng)價(jià)等問(wèn)題,也需要敏捷架構(gòu)的支持。
從大數(shù)據(jù)應(yīng)用過(guò)程和特點(diǎn)來(lái)看,數(shù)據(jù)科學(xué)的本質(zhì)是迭代,就好比嬰兒的學(xué)習(xí)一樣,輸入—回應(yīng)—反饋—學(xué)習(xí)—再輸入,持續(xù)訓(xùn)練和學(xué)習(xí)才會(huì)產(chǎn)生智能,大數(shù)據(jù)分析系統(tǒng)是一樣的道理,自適應(yīng)優(yōu)化和持續(xù)改進(jìn)是大數(shù)據(jù)系統(tǒng)的必備特征。大數(shù)據(jù)時(shí)代,各種新興技術(shù)和計(jì)算框架層出不窮,加之分析需求的不斷變化,如何使大數(shù)據(jù)架構(gòu)能靈活調(diào)整以適應(yīng)業(yè)務(wù)變化需求,并跟上技術(shù)快速迭代更新的步伐,是大數(shù)據(jù)應(yīng)用要解決的關(guān)鍵問(wèn)題,這是本文提出敏捷大數(shù)據(jù)架構(gòu)的本質(zhì)原因,相比傳統(tǒng)信息處理架構(gòu),大數(shù)據(jù)架構(gòu)需要極強(qiáng)的靈活性、可擴(kuò)展性,或者說(shuō)敏捷性。
4.1.2 敏捷大數(shù)據(jù)定義與處理流程
什么是敏捷大數(shù)據(jù)?本文給出一個(gè)初步定義:“敏捷大數(shù)據(jù)是基于數(shù)據(jù)科學(xué)的迭代性本質(zhì),利用高效構(gòu)件化和服務(wù)化技術(shù),對(duì)大數(shù)據(jù)架構(gòu)和關(guān)鍵組件等進(jìn)行服務(wù)化設(shè)計(jì),實(shí)現(xiàn)多粒度數(shù)據(jù)的融合處理和計(jì)算模型的標(biāo)準(zhǔn)化配置和管理,從而能根據(jù)特定分析需求快速搭建原型系統(tǒng),快速迭代大數(shù)據(jù)分析結(jié)果,快速將原型轉(zhuǎn)化為生產(chǎn)系統(tǒng),提升大數(shù)據(jù)分析效率和數(shù)據(jù)決策價(jià)值”。敏捷大數(shù)據(jù)的核心要素遵從 SFV(small-fast-validation)原則:從小的業(yè)務(wù)分析目標(biāo)切入,快速出原型,快速迭代,證明有效之后再擴(kuò)張。根據(jù)SFV原則,筆者對(duì)傳統(tǒng)的跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程(cross-industry standard process for data mining,CRISP-DM)[9]進(jìn)行了改進(jìn),提出了基于微服務(wù)的敏捷大數(shù)據(jù)處理流程(agile big data processing based on micro-services),如圖22所示。
敏捷大數(shù)據(jù)處理流程相比傳統(tǒng)數(shù)據(jù)挖掘流程,從兩個(gè)層面進(jìn)行了擴(kuò)展:首先是架構(gòu)上采用基于容器的微服務(wù)技術(shù)進(jìn)行支撐;其次,針對(duì)傳統(tǒng)數(shù)據(jù)挖掘模型、系統(tǒng)和現(xiàn)實(shí)決策反饋的脫節(jié)問(wèn)題,根據(jù)數(shù)據(jù)科學(xué)迭代性本質(zhì)特點(diǎn),對(duì)模型系統(tǒng)和現(xiàn)實(shí)決策反饋兩個(gè)過(guò)程分別進(jìn)行自適應(yīng)迭代升級(jí)和決策優(yōu)化支持。通過(guò)這種擴(kuò)展,使得敏捷大數(shù)據(jù)方法論與傳統(tǒng)數(shù)據(jù)挖掘技術(shù)以及新興的主流大數(shù)據(jù)框架能在架構(gòu)和流程上進(jìn)行互補(bǔ)和融合。
4.2 敏捷大數(shù)據(jù)關(guān)鍵技術(shù)初探
圖2 CRISP-DM流程與基于微服務(wù)的敏捷大數(shù)據(jù)處理流程
(1)多粒度信息融合技術(shù)
針對(duì)大數(shù)據(jù)呈現(xiàn)的關(guān)聯(lián)性、動(dòng)態(tài)性、多源異構(gòu)性等特點(diǎn),如何對(duì)其進(jìn)行標(biāo)準(zhǔn)化的融合處理,是敏捷大數(shù)據(jù)要解決的首要問(wèn)題。與一般的大數(shù)據(jù)融合目標(biāo)不同[10],本文主要從構(gòu)建標(biāo)準(zhǔn)數(shù)據(jù)集的角度進(jìn)行大數(shù)據(jù)多粒度融合,通過(guò)構(gòu)建統(tǒng)一 數(shù)據(jù)單元(unified data unit,UD U)來(lái)支持多模態(tài)特征融合和多種類型、結(jié)構(gòu)數(shù)據(jù)集的封裝融合。將多源異構(gòu)數(shù)據(jù)進(jìn)行抽取、融合、集成,形成支持不同計(jì)算模型處理的UDU數(shù)據(jù)集,是多粒度信息融合技術(shù)的核心目標(biāo)。統(tǒng)一數(shù)據(jù)單元是獨(dú)立、靈活的實(shí)體數(shù)據(jù)集,可隨數(shù)據(jù)源和分析需求的變化進(jìn)行快速重組、調(diào)整和更新。通過(guò)信息融合形成的UDU標(biāo)準(zhǔn)數(shù)據(jù)集,是進(jìn)行敏捷大數(shù)據(jù)處理的基礎(chǔ)。
(2)微服務(wù)與構(gòu)件化技術(shù)
由于數(shù)據(jù)科學(xué)的迭代性本質(zhì),大數(shù)據(jù)分析即服務(wù)成為研究熱點(diǎn)[11],而微服務(wù)與容器技術(shù)能有效支持本文提出的敏捷大數(shù)據(jù)SFV核心原則。近年來(lái),微服務(wù)成為互聯(lián)網(wǎng)和大數(shù)據(jù)企業(yè)的研究和設(shè)計(jì)熱點(diǎn),諸如谷歌、亞馬遜、Facebook、百度、京東、攜程等公司都在采用微服務(wù)理論和技術(shù)進(jìn)行產(chǎn)品的設(shè)計(jì)、研發(fā)和部署。Netflix公司的Ad rian Cockcroft將微服務(wù)稱為“細(xì)化面向 服務(wù)的架構(gòu)(service oriented architecture,SOA)”,并認(rèn)為這是一套具備開(kāi)創(chuàng)意義的新型架構(gòu)。敏捷開(kāi)發(fā)方法創(chuàng)始人Martin Fowler在他的《Micro services》一文中給出了微服務(wù)的定義①http:// martinfowler. com/articles/ microservices. html,概括來(lái)說(shuō),微服務(wù)設(shè)計(jì)思想是一種使用若干小服務(wù)開(kāi)發(fā)龐大應(yīng)用的方法,每個(gè)服務(wù)運(yùn)行在自己的進(jìn)程中,通過(guò)輕量級(jí)的通信機(jī)制進(jìn)行信息交互,每個(gè)微服務(wù)的粒度基于業(yè)務(wù)能力大小進(jìn)行構(gòu)建,并可以由不同的程序語(yǔ)言實(shí)現(xiàn),構(gòu)建的服務(wù)鏈能夠通過(guò)容器等技術(shù)進(jìn)行自動(dòng)化部署。
從上述定義可以看到,去中心化、原子化、獨(dú)立自治、快速組合、自動(dòng)部署等特性是微服務(wù)技術(shù)的核心要素,中心思想是將一個(gè)單體應(yīng)用架構(gòu)打散,把原來(lái)龐大的應(yīng)用層功能切分成粒度較小的微服務(wù)模塊,數(shù)據(jù)庫(kù)也按微服務(wù)功能單元進(jìn)行相應(yīng)的拆分(如圖33所示),采用基于云的容器技術(shù)單獨(dú)運(yùn)行這些服務(wù)模塊,通過(guò)網(wǎng)絡(luò)和輕量級(jí)通信機(jī)制將這些分解的服務(wù)模塊協(xié)同連接起來(lái),形成微服務(wù)簇和網(wǎng)絡(luò),完成大型復(fù)雜任務(wù),這種通過(guò)將復(fù)雜系統(tǒng)切分成若干小的微服務(wù)模塊的方式,其分布式、低耦合架構(gòu)能極大地適應(yīng)大數(shù)據(jù)分布式處理特性。
(3)容器技術(shù)
微服務(wù)技術(shù)采用類似搭積木的構(gòu)建方法,使得服務(wù)之間不相互影響,而且同一個(gè)系統(tǒng)的微服務(wù)可以采用不同的開(kāi)發(fā)語(yǔ)言和數(shù)據(jù)庫(kù)技術(shù)。但是面對(duì)大型企業(yè)動(dòng)輒數(shù)十、上百個(gè)信息系統(tǒng),如何通過(guò)跨物理、虛擬、公共和私有云環(huán)境實(shí)現(xiàn)一致性、互操作性和可移植性,對(duì)IT基礎(chǔ)設(shè)施來(lái)講是極大的挑戰(zhàn),所以容器技術(shù)應(yīng)運(yùn)而生。容器最早由Docker公司提出并應(yīng)用于自家的PaaS云服務(wù)平臺(tái),近年來(lái)獲得廣泛認(rèn)可,很多大型企業(yè)開(kāi)始將單體應(yīng)用系統(tǒng)微服務(wù)化,并部署在容器中。容器基于操作系統(tǒng)之上能實(shí)現(xiàn)相比傳統(tǒng)虛擬化技術(shù)(如VMware)更輕量級(jí)的虛擬化[12],而且完全使用沙箱機(jī) 制,相互之間沒(méi)有接口。Hadoop的子系統(tǒng)Kubernetes已經(jīng)能支持基于云計(jì)算和Docker容器技術(shù)的微服務(wù)開(kāi)發(fā)和部署[13],容器技術(shù)與云計(jì)算的天然結(jié)合及其快速的研發(fā)、部署、維護(hù)優(yōu)勢(shì),對(duì)于微服務(wù)和敏捷大數(shù)據(jù)架構(gòu)的設(shè)計(jì)和實(shí)現(xiàn)具有重要支撐作用。
如何根據(jù)不同的交通大數(shù)據(jù)分析需求設(shè)計(jì)靈活的處理架構(gòu)進(jìn)行支持,或者說(shuō)大數(shù)據(jù)架構(gòu)能否從采集、存儲(chǔ)、計(jì)算、應(yīng)用多個(gè)層面,滿足不同分析需求的變更或擴(kuò)張,是交通大數(shù)據(jù)分析要解決的關(guān)鍵問(wèn)題?;诿艚荽髷?shù)據(jù)方法論及其關(guān)鍵技術(shù)的分析和研究,從數(shù)據(jù)采集集成、大規(guī)模數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)融合、多模式/多模態(tài)計(jì)算微服務(wù)、數(shù)據(jù)應(yīng)用4個(gè)層面進(jìn)行了敏捷大數(shù)據(jù)架構(gòu)設(shè)計(jì)。通過(guò)基于多粒度大數(shù)據(jù)集成融合構(gòu)建統(tǒng)一數(shù)據(jù)單元,形成標(biāo)準(zhǔn)數(shù)據(jù)集,通過(guò)基于微服務(wù)的計(jì)算模型抽象和匯聚層處理,實(shí)現(xiàn)交通大數(shù)據(jù)挖掘的敏捷化、服務(wù)化。對(duì)大數(shù)據(jù)主流處理框架(如Hadoop、Spark、Storm等)進(jìn)行統(tǒng)一配置管理,基于即插即用的構(gòu)件化和服務(wù)化設(shè)計(jì),各層子系統(tǒng)和組件可根據(jù)分析目標(biāo)進(jìn)行快速選型、靈活配置,構(gòu)建原型和迭代升級(jí)(如圖44中根據(jù)兩條虛線不同的設(shè)計(jì)路徑,可以快速配置實(shí)現(xiàn)歷史數(shù)據(jù)庫(kù)數(shù)據(jù)的批處理分析,或公網(wǎng)采集數(shù)據(jù)的流處理分析),總體架構(gòu)設(shè)計(jì)如圖44所示。
圖3 傳統(tǒng)單體應(yīng)用架構(gòu)與微服務(wù)架構(gòu)的區(qū)別
圖4 面向交通的敏捷大數(shù)據(jù)總體架構(gòu)設(shè)計(jì)
● 數(shù)據(jù)采集層:分3個(gè)層面的采集技術(shù)進(jìn)行支持,一是傳統(tǒng)業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù)和半結(jié)構(gòu)化、結(jié)構(gòu)化數(shù)據(jù)的采集和集成,如采用Sqoo p技術(shù)進(jìn)行關(guān)系數(shù)據(jù)庫(kù)和Hadoop系統(tǒng)之間的數(shù)據(jù)抽取和交換;二是交通實(shí)時(shí)流數(shù)據(jù)的采集,包括實(shí)時(shí)傳感器數(shù)據(jù)、定位軌跡數(shù)據(jù)和其他實(shí)時(shí)流數(shù)據(jù);三是交通公共數(shù)據(jù)的采集,包括公網(wǎng)的數(shù)據(jù)爬取、開(kāi)放平臺(tái)的數(shù)據(jù)接口、行業(yè)公共數(shù)據(jù)庫(kù)的數(shù)據(jù)交換等。對(duì)采集到的數(shù)據(jù)需進(jìn)行提取、轉(zhuǎn) 換和加載(extract-transformload,ETL)處理,包括數(shù)據(jù)抽取、轉(zhuǎn)換、清洗和隱私脫敏等預(yù)處理工作,預(yù)處理集成后的數(shù)據(jù)進(jìn)入交通大數(shù)據(jù)云存儲(chǔ)中心。
● 數(shù)據(jù)存儲(chǔ)層:交通領(lǐng)域數(shù)據(jù)規(guī)模巨大,數(shù)據(jù)存儲(chǔ)層需設(shè)計(jì)基于云計(jì)算的分布式云存儲(chǔ)系統(tǒng),以支持海量數(shù)據(jù)的存儲(chǔ)擴(kuò)展。提供基于云的列式存儲(chǔ)、NoSQL存儲(chǔ)或數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)能力;根據(jù)業(yè)務(wù)需求和快速配置,可切換相應(yīng)的分布式存儲(chǔ)模式,還可根據(jù)需要對(duì)傳統(tǒng)BI系統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)集市進(jìn)行集成。利用Hadoop集群提供PB級(jí)存儲(chǔ)能力擴(kuò)展,同時(shí)Hadoop Yarn和Spark Mesos等集群資源管理框架可支持多種存儲(chǔ)模式和計(jì)算模式(主要對(duì)存儲(chǔ)和計(jì)算兩個(gè)層面資源進(jìn)行管理,如圖44中雙向箭頭所示)的云資源調(diào)度。在此基礎(chǔ)上,對(duì)各類存儲(chǔ)數(shù)據(jù)進(jìn)行多粒度信息融合,構(gòu)建統(tǒng)一數(shù)據(jù)處理單元,為計(jì)算服務(wù)層提供標(biāo)準(zhǔn)化的分析數(shù)據(jù)集。
● 數(shù)據(jù)計(jì)算層:針對(duì)交通大數(shù)據(jù)多源、異構(gòu)、海量等特征,傳統(tǒng)的計(jì)算模型難以直接處理。數(shù)據(jù)計(jì)算層需滿足主流大數(shù)據(jù)處理框架的各種計(jì)算模型與方法實(shí)現(xiàn),如基于云計(jì)算并行框架,實(shí)現(xiàn)基于Hadoop批處理、Storm流處理、Spark內(nèi)存處理的高效數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。數(shù)據(jù)計(jì)算層采用基于統(tǒng)一數(shù)據(jù)處理單元和計(jì)算模式、模型微服務(wù)化的大數(shù)據(jù)分析框架,通過(guò)構(gòu)建多種微服務(wù)簇網(wǎng)絡(luò)(主要分為計(jì)算微服務(wù)、數(shù)據(jù)微服務(wù)和流程微服務(wù),涵蓋存儲(chǔ)和計(jì)算兩個(gè)層面,如圖44中雙向箭頭所示),為應(yīng)用層提供支持MapReduce、Storm、Spark等多種計(jì)算模式下的多種數(shù)據(jù)挖掘模型與方法(如分類、聚類、序列等);根據(jù)大數(shù)據(jù)分析需求和數(shù)據(jù)特征,可基于組件配置和服務(wù)治理技術(shù)進(jìn)行各類服務(wù)的快速切換和靈活管理。
● 數(shù)據(jù)應(yīng)用層:數(shù)據(jù)應(yīng)用層首先要滿足智慧交通各類大數(shù)據(jù)分析需求,包括基本的可視化與查詢、展示、探索等,分析結(jié)果能結(jié)合知識(shí)庫(kù)應(yīng)用于決策支持。另外,在大數(shù)據(jù)系統(tǒng)本身管理方面,針對(duì)構(gòu)件化和微服務(wù)設(shè)計(jì)這個(gè)特點(diǎn),需對(duì)相關(guān)中間件進(jìn)行設(shè)計(jì),實(shí)現(xiàn)服務(wù)治理、組件配置、安全、接口等功能,以支撐存儲(chǔ)層和計(jì)算層各類微服務(wù)的敏捷管理。
5.1 交通大數(shù)據(jù)多粒度信息融合設(shè)計(jì)
針對(duì)機(jī)器學(xué)習(xí)各類模型的數(shù)據(jù)適配特點(diǎn),本文提出了一種標(biāo)準(zhǔn)數(shù)據(jù)集定義:統(tǒng)一數(shù)據(jù)單元對(duì)交通大數(shù)據(jù)多個(gè)層次和粒度的信息進(jìn)行融合處理。特別是對(duì)多模態(tài)數(shù)據(jù),通過(guò)統(tǒng)一數(shù)據(jù)單元設(shè)計(jì)方法能實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)優(yōu)化和機(jī)器學(xué)習(xí)模型數(shù)據(jù)輸入的標(biāo)準(zhǔn)化,以統(tǒng)一數(shù)據(jù)單元作為敏捷大數(shù)據(jù)系統(tǒng)的基本數(shù)據(jù)組織和處理單元,能提高大數(shù)據(jù)分析模型和算法的適應(yīng)性和敏捷性,提升大數(shù)據(jù)處理能力。多粒度信息融合設(shè)計(jì)如圖55所示。
設(shè)計(jì)和構(gòu)造大數(shù)據(jù)統(tǒng)一數(shù)據(jù)單元,需進(jìn)行如下3個(gè)環(huán)節(jié)的處理。
● 特征抽?。簩?duì)交通領(lǐng)域的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行數(shù)據(jù)集成和特征抽取,抽取出數(shù)據(jù)中的各類不同特征,包括時(shí)間特征、空間特征或其他全局特征等,實(shí)現(xiàn)對(duì)數(shù)據(jù)相關(guān)的位置屬性、時(shí)間空間關(guān)聯(lián)屬性和其他觀測(cè)屬性等的特征描述。
● 融合封裝:抽取出來(lái)的各類數(shù)據(jù)特征,或者初步預(yù)處理后的數(shù)據(jù),根據(jù)不同的計(jì)算模型數(shù)據(jù)處理特點(diǎn)和要求,封裝成結(jié)構(gòu)和格式統(tǒng)一的數(shù)據(jù)處理單元,形成標(biāo)準(zhǔn)分析數(shù)據(jù)集,為上層的挖掘計(jì)算服務(wù)提供快速數(shù)據(jù)適配。本文通過(guò)元數(shù)據(jù)定義方法和JSON數(shù) 據(jù)交換技術(shù),實(shí)現(xiàn)不同種類的統(tǒng)一數(shù)據(jù)單元定義,對(duì)每類統(tǒng)一數(shù)據(jù)單元進(jìn)行基本信息和各類屬性定義和描述,包括標(biāo)識(shí)ID、基本屬性、語(yǔ)義屬性、結(jié)構(gòu)屬性等內(nèi)容。
● 服務(wù)接口:封裝好的統(tǒng)一數(shù)據(jù)單元數(shù)據(jù)集,針對(duì)不同的挖掘計(jì)算服務(wù)模型實(shí)現(xiàn)快速數(shù)據(jù)適配,設(shè)計(jì)統(tǒng)一的數(shù)據(jù)單元調(diào)用接口,通過(guò)接口定義和參數(shù)設(shè)置對(duì)封裝數(shù)據(jù)單元進(jìn)行解析,并對(duì)數(shù)據(jù)集各類屬性特征、結(jié)構(gòu)信息等進(jìn)行提取。
圖5 交通大數(shù)據(jù)多粒度信息融合設(shè)計(jì)
5.2 交通大數(shù)據(jù)計(jì)算微服務(wù)化設(shè)計(jì)
實(shí)現(xiàn)基于統(tǒng)一數(shù)據(jù)單元的標(biāo)準(zhǔn)數(shù)據(jù)單元的敏捷大數(shù)據(jù)挖掘分析,還有一個(gè)關(guān)鍵環(huán)節(jié)就是對(duì)多種計(jì)算模式框架和不同計(jì)算模型的微服務(wù)化設(shè)計(jì),包括計(jì)算框架、模型和算法的微服務(wù)化,數(shù)據(jù)獲取調(diào)用的微服化和分析流程的微服務(wù)化3個(gè)層面。其核心是計(jì)算微服務(wù),如MapReduce批處理服務(wù)、Storm流處理服務(wù)、Spark內(nèi)存處理服務(wù),每種大的計(jì)算框架微服務(wù)下包含具體挖掘模型等小粒度的計(jì)算微服務(wù)支持(如分類模型服務(wù)、序列模型服務(wù))等,交通大數(shù)據(jù)微服務(wù)化架構(gòu)設(shè)計(jì)如圖66所示。
大數(shù)據(jù)微服務(wù)化的核心理念是一個(gè)服務(wù)只專注做好一類或一個(gè)分析,服務(wù)的粒度和分析功能大小、邊界要匹配,服務(wù)方(計(jì)算微服務(wù))和消費(fèi)方(基于微服務(wù)的分析功能)要能解耦,即調(diào)整或升級(jí)一個(gè)微服務(wù)不能影響其他微服務(wù)。由于微服務(wù)詳細(xì)技術(shù)涉及面比較廣,包括微服務(wù)的注冊(cè)、定位、發(fā)現(xiàn)和搜索(基于分布式一致算法Paxos和Zookeeper框架等);微服務(wù)的輕量級(jí)通信機(jī)制,如表述性狀態(tài)傳遞(representational state transfer,REST)、遠(yuǎn)程過(guò)程調(diào)用協(xié)議(remoteprocedure call protocol,RPC)、進(jìn)程間通信(inter-process communication,IPC)等;微服務(wù)的容錯(cuò)處理(熔斷、限流、負(fù)載均衡等);微服務(wù)依賴的容器技術(shù);服務(wù)的自動(dòng)測(cè)試和部署等方面。由于篇幅原因和架構(gòu)設(shè)計(jì)主題,各方面的技術(shù)細(xì)節(jié)這里不做贅述,在交通大數(shù)據(jù)敏捷處理總體架構(gòu)和數(shù)據(jù)融合統(tǒng)一數(shù)據(jù)單元基礎(chǔ)上,進(jìn)行了交通大數(shù)據(jù)計(jì)算的微服務(wù)設(shè)計(jì)(如圖66所示),主要設(shè)計(jì)內(nèi)容包括如下幾個(gè)方面。
(1)交通大數(shù)據(jù)分析業(yè)務(wù)抽象和微服務(wù)劃分
按多模式計(jì)算框架劃分,有MapReduce批處理框架、Storm流式處理框架、Spark內(nèi)存處理框架、圖計(jì)算框架等;按挖掘模型劃分,有分類、聚類、序列、多模態(tài)、多任務(wù)等不同種類計(jì)算模型。針對(duì)交通大數(shù)據(jù)各類分析需求和數(shù)據(jù)處理特點(diǎn),進(jìn)行大數(shù)據(jù)業(yè)務(wù)分析和抽象建模,并選擇相應(yīng)的計(jì)算模型和計(jì)算框架進(jìn)行支撐,再?zèng)Q定需要哪些微服務(wù),并實(shí)現(xiàn)微服務(wù)的劃分和組合,設(shè)定好微服務(wù)網(wǎng)絡(luò)的總體設(shè)計(jì)目標(biāo),并通過(guò)統(tǒng)一的微服務(wù)接口(microservices API gateway)進(jìn)行調(diào)用。
(2)微服務(wù)簇設(shè)計(jì)及契約接口定義
針對(duì)大數(shù)據(jù)處理特點(diǎn),服務(wù)層中的微服務(wù)分3類進(jìn)行規(guī)劃設(shè)計(jì),數(shù)據(jù)微服務(wù)簇負(fù)責(zé)從UDU標(biāo)準(zhǔn)數(shù)據(jù)集中進(jìn)行數(shù)據(jù)獲取、數(shù)據(jù)同步和更新等操作;計(jì)算微服務(wù)簇是敏捷大數(shù)據(jù)處理的核心,按多模式計(jì)算框架和多類計(jì)算模型兩個(gè)維度進(jìn)行挖掘分析服務(wù)的統(tǒng)籌設(shè)計(jì);流程微服務(wù)簇負(fù)責(zé)數(shù)據(jù)微服務(wù)、計(jì)算微服務(wù)的協(xié)同處理,同時(shí)對(duì)系統(tǒng)組件的配置管理和調(diào)度進(jìn)行支持。各類微服務(wù)通過(guò)REST、RPC等輕量級(jí)通信機(jī)制和MessageBroker等消息服務(wù)進(jìn)行交互和聯(lián)系[14],構(gòu)建微服務(wù)簇網(wǎng)絡(luò),并通過(guò)服務(wù)路由進(jìn)行統(tǒng)一管理和調(diào)度。
(3)微服務(wù)治理和容器部署
由各類微服務(wù)簇連接成的微服務(wù)網(wǎng)絡(luò),其高效協(xié)調(diào)工作離不開(kāi)微服務(wù)治理技術(shù)和容器管理技術(shù)。通過(guò)服務(wù)路由和服務(wù)治理負(fù)責(zé)各種大小微服務(wù)的注冊(cè)、搜索、發(fā)現(xiàn)、通信和統(tǒng)一配置,最后基于云計(jì)算和容器技術(shù)進(jìn)行微服務(wù)的自動(dòng)部署和動(dòng)態(tài)管理。
圖6 交通大數(shù)據(jù)微服務(wù)化設(shè)計(jì)
本文提出的敏捷大數(shù)據(jù)架構(gòu)在一定程度上實(shí)現(xiàn)了大數(shù)據(jù)融合處理和挖掘計(jì)算的服務(wù)化、標(biāo)準(zhǔn)化和流程化。基于統(tǒng)一數(shù)據(jù)單元和計(jì)算、流程微服務(wù)設(shè)計(jì)思想,對(duì)微服務(wù)的構(gòu)建和管理進(jìn)行快速實(shí)現(xiàn),通過(guò)各種微服務(wù)的劃分、組合、編排和動(dòng)態(tài)配置,能構(gòu)建模塊化、可配置、可復(fù)用、可擴(kuò)展的敏捷大數(shù)據(jù)分析系統(tǒng)。相比傳統(tǒng)大數(shù)據(jù)處理架構(gòu),敏捷大數(shù)據(jù)架構(gòu)在如下幾個(gè)方面具有明顯優(yōu)勢(shì)(見(jiàn)表11)。
從上述各項(xiàng)特性的比較分析可以看到,敏捷大數(shù)據(jù)架構(gòu)除了支持大規(guī)模數(shù)據(jù)增長(zhǎng)之外,更重要的是能適應(yīng)大數(shù)據(jù)分析業(yè)務(wù)的擴(kuò)展和變化,由于采用容器和服務(wù)化技術(shù),具備高容錯(cuò)性和穩(wěn)定性,能支持大數(shù)據(jù)分析的失敗處理和自動(dòng)恢復(fù)等,能在海量數(shù)據(jù)條件下快速完成多種計(jì)算模型和分析處理,能基于數(shù)據(jù)融合單元和計(jì)算服務(wù)化技術(shù),支持多模態(tài)計(jì)算和多模式計(jì)算任務(wù)處理,能在有限的成本條件下提高大數(shù)據(jù)分析效率。
在實(shí)踐方面,結(jié)合正在規(guī)劃建設(shè)的綜合交通大數(shù)據(jù)分析云服務(wù)平臺(tái),以本文提出的敏捷大數(shù)據(jù)架構(gòu)設(shè)計(jì)作為關(guān)鍵技術(shù)選型和技術(shù)路線實(shí)現(xiàn)的指導(dǎo)思想,進(jìn)行了初步應(yīng)用。綜合交通大數(shù)據(jù)分析云服務(wù)平臺(tái)的主要目標(biāo)是通過(guò)大數(shù)據(jù)技術(shù)解決交通資源的供需智能匹配和瓶頸預(yù)測(cè)分析問(wèn)題。應(yīng)用多粒度信息融合和多模態(tài)計(jì)算微服務(wù)技術(shù),對(duì)交通大數(shù)據(jù)進(jìn)行集成、融合和挖掘;采用定量分析和定性分析相結(jié)合的機(jī)器學(xué)習(xí)進(jìn)行供求配置預(yù)測(cè),為智能出行推薦、交通樞紐瓶頸分析、多模接駁換乘、實(shí)時(shí)交通管控等智慧交通關(guān)鍵環(huán)節(jié)提供大數(shù)據(jù)分析和決策支持。由于綜合交通大數(shù)據(jù)多源異構(gòu)、時(shí)空關(guān)聯(lián)和動(dòng)態(tài)處理等特點(diǎn),傳統(tǒng)大數(shù)據(jù)架構(gòu)面臨擴(kuò)展性、兼容性、穩(wěn)定性諸多問(wèn)題。基于敏捷大數(shù)據(jù)方法論,設(shè)計(jì)了面向智慧交通的具有構(gòu)件化、云服務(wù)化、容器化特性的敏捷大數(shù)據(jù)架構(gòu),為綜合交通大數(shù)據(jù)分析云服務(wù)平臺(tái)的研發(fā)提供了切實(shí)參考和應(yīng)用指導(dǎo),并在一定程度上提高了開(kāi)發(fā)效率,控制了技術(shù)風(fēng)險(xiǎn)。
表1 敏捷大數(shù)據(jù)架構(gòu)與傳統(tǒng)大數(shù)據(jù)架構(gòu)比較分析
本文論述了交通大數(shù)據(jù)在智慧交通應(yīng)用中的核心地位與相互關(guān)系,探討了交通大數(shù)據(jù)關(guān)鍵技術(shù)和面臨的挑戰(zhàn)。針對(duì)交通大數(shù)據(jù)特點(diǎn)及其分析瓶頸問(wèn)題,首次提出了敏捷大數(shù)據(jù)方法論及其關(guān)鍵技術(shù)和核心原則,通過(guò)分析敏捷大數(shù)據(jù)的設(shè)計(jì)緣由,基于傳統(tǒng)數(shù)據(jù)挖掘流程改進(jìn),設(shè)計(jì)了面向微服務(wù)的敏捷大數(shù)據(jù)處理流程,并對(duì)其關(guān)鍵支撐技術(shù)進(jìn)行了初步研究和探索。構(gòu)建了基于微服務(wù)和多粒度信息融合技術(shù)的敏捷大數(shù)據(jù)架構(gòu),并對(duì)交通大數(shù)據(jù)微服務(wù)化、交通大數(shù)據(jù)融合等關(guān)鍵技術(shù)環(huán)節(jié)進(jìn)行了詳細(xì)設(shè)計(jì)和論述。敏捷大數(shù)據(jù)架構(gòu)的提出是基于數(shù)據(jù)科學(xué)迭代性本質(zhì)的,為交通大數(shù)據(jù)環(huán)境下的高效、靈活機(jī)器學(xué)習(xí)和知識(shí)發(fā)現(xiàn)提供了新方法、新思路和新的技術(shù)架構(gòu),從而最大程度地發(fā)揮交通大數(shù)據(jù)的應(yīng)用價(jià)值,相比傳統(tǒng)大數(shù)據(jù)處理 技術(shù)和架構(gòu),本設(shè)計(jì)的重要意義和參考價(jià)值不言而喻。當(dāng)然,敏捷大數(shù)據(jù)作為一個(gè)新的涵蓋多種前沿信息技術(shù)的跨領(lǐng)域研究問(wèn)題,還需要在設(shè)計(jì)方法、關(guān)鍵技術(shù)和系統(tǒng)架構(gòu)等方面進(jìn)行深入研究和應(yīng)用實(shí)踐。
[1] 李國(guó)杰, 程學(xué)旗. 大數(shù)據(jù)研究: 未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J]. 中國(guó)科學(xué)院院刊, 2012(6): 647-657. LI G J, CHENG X Q. Research status and scientific thinking of big data[J]. Bulletin of the Chinese Academy of Sciences, 2012(6): 647-657.
[2] 鄭宇. 城市計(jì)算概述[J]. 武漢大學(xué)學(xué)報(bào)(信息科學(xué)版), 2015(1): 1-13. ZHENG Y. Introduction to urban computing[J]. Geomatics and Information Science of Wuhan University, 2015(1): 1-13.
[3] 楊芙清, 梅宏, 李克勤. 軟件復(fù)用與軟件構(gòu)件技術(shù)[J]. 電子學(xué)報(bào), 1999(2): 69-76. YANG F Q, MEI H, LI K Q. Software reuse and software component technology[J]. Acta Electronica Sinica, 1999(2): 69-76.
[4] 王珊, 王會(huì)舉, 覃雄派, 等. 架構(gòu)大數(shù)據(jù): 挑戰(zhàn)、現(xiàn)狀與展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2011(10): 1741-1752. WANG S, WANG H J, QIN X P, et al. Architecting big data: challenges, studies and forecasts[J]. Chinese Journal of Computers, 2011(10): 1741-1752.
[5] 孟小峰, 慈祥. 大數(shù)據(jù)管理: 概念、技術(shù)與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2013, 50(1): 146-169. MENG X F, CI X. Big data management: concepts, techniques and challenges[J]. Journal of Computer Research and Development, 2013, 50(1): 146-169.
[6] CHEN H M, KAZMAN R, HAZIYEV S. Agile big data analytics development: an architecture-centric approach[C]// Hawaii International Conference on System Sciences, Jan 5-8, 2016, Koloa, HI, USA. New Jersey: IEEE Press, 2016: 5378-5387.
[7] NAMIOT D, SNEPS-SNEPPE M. On micro-services architecture[J]. International Journal of Open Information Technologies, 2014, 2(9): 24-27.
[8] 程學(xué)旗, 靳小龍, 王元卓, 等. 大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J]. 軟件學(xué)報(bào), 2014(9): 1889-1908. CHENG X Q, JIN X L, WANG Y Z, et al. Survey on big data system and analytic technology[J]. Journal of Software, 2014(9): 1889-1908.
[9] WIRTH R, HIPP J. CRISP-DM: towards a standard process model for data mining[C]// The Fourth International Conference on the Practical Application of Knowledge Discovery and Data Mining, April 18-20, 2000, Kyoto, Japan. [S.l.:s.n.], 2000: 1-11.
[10] 孟小峰, 杜治娟. 大數(shù)據(jù)融合研究: 問(wèn)題與挑戰(zhàn)[J]. 計(jì)算機(jī)研究與發(fā)展, 2016(2): 231-246. MENG X F, DU Z J. Research on the big data fusion: issues and challenges[J]. Journal of Computer Research and Development, 2016(2): 231-246.
[11] ZHENG Z, ZHU J, LYU M R. Servicegenerated big data and big data-asa-service: an overview[C]//IEEE International Congress on Big Data, June 27- July 2, 2013, Santa Clara, CA, USA. New Jersey: IEEE Press, 2013: 403-410.
[12] FELTER W, FERREIRA A, RAJAMONY R,et al. An updated performance comparison of virtual machines and Linux containers[J]. Lecture Notes in Computer Science, 2014(1140): 438-453.
[13] BREWER E A. Kubernetes and the path to cloud native[C]// The Sixth ACM Symposium on Cloud Computing, August 27-29, 2015, Kohala Coast, Hawaii, USA. New York: ACM Press, 2015: 167-167.
[14] LI L, TANG T, WU C. A REST service framework for fine-grained resource management in container-based cloud[C]// IEEE International Conference on Cloud Computing, June 27-July 2, 2015, New York, NY, USA. New Jersey: IEEE Press, 2015: 645-652.
Traffi c big data: an agile architecture design based on micro service
DU Shengdong, YANG Yan, TENG Fei
School of Information Science and Technology, Southwest Jiaotong University, Chengdu 610031, China
Faced with a wide range of intelligent transportation application scenarios and technical requirements, the general big data system is difficult to adapt to a variety of processing and make a quick response. In order to solve this problem, the methodology of agile big data for the first time was put forward. Based on the iterative nature of data science, the agile big data architecture based on micro service was designed, and the key points of the traffic oriented micro service and data fusion technology were discussed. The agile big data architecture provides new idea and method for efficient and flexible data mining and machine learning under the environment of traffic big data.
s: The National Key Research and Development Program of China(No. 2016YFC0802209), The National Science and Technology Support Program of China(No. 2015BAH19F02)
TP274
A
10.11959/j.issn.2096-0271.2017030
?
杜圣東(1981-),男,西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院講師,中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)和國(guó)際計(jì)算機(jī)學(xué)會(huì)(ACM)會(huì)員,主要研究方向?yàn)閿?shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、交通大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)等。
楊燕(1964-),女,西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院教授、博士生導(dǎo)師,主要研究方向?yàn)榇髷?shù)據(jù)分析與挖掘、人工智能、教學(xué)管理等。
滕飛(1984-),女,博士,西南交通大學(xué)信息科學(xué)與技術(shù)學(xué)院講師,CCF和ACM會(huì)員,主要研究方向?yàn)樵朴?jì)算、工業(yè)大數(shù)據(jù)等。
2017-03-27
楊燕,yyang@swjtu.edu.cn
國(guó)家重點(diǎn)研發(fā)計(jì)劃基金資助項(xiàng)目(No. 2016YFC0802209);國(guó)家科技支撐計(jì)劃基金資助項(xiàng)目(No. 2015BAH19F02)
敏捷大數(shù)據(jù);微服務(wù);大數(shù)據(jù)架構(gòu);容器;大數(shù)據(jù)融合