秦曙光,吳文茂,梁 暉,楊 程
(廣西交通投資集團有限公司,廣西 南寧 530022)
在大數(shù)據(jù)時代,大數(shù)據(jù)正被越來越多的企業(yè)視為重塑及打造核心競爭力的重要戰(zhàn)略資源,“數(shù)據(jù)即資產(chǎn)”被廣泛認可,但數(shù)據(jù)本身并不具有資產(chǎn)屬性。依據(jù)財務(wù)上的資產(chǎn)定義,數(shù)據(jù)資產(chǎn)可理解為企業(yè)或組織擁有或控制的,能帶來未來經(jīng)濟利益的數(shù)據(jù)資源,即數(shù)據(jù)資產(chǎn)應(yīng)具備可控制、可計量、可變現(xiàn)的屬性。因此,從數(shù)據(jù)到數(shù)據(jù)資產(chǎn)必然需要一個有效的數(shù)據(jù)資產(chǎn)管理系統(tǒng)來支持完成數(shù)據(jù)的采集、處理、分析、應(yīng)用、開放、連接、整合等一系列流程,有效支持企業(yè)利用數(shù)據(jù)資源創(chuàng)造業(yè)務(wù)價值和企業(yè)效益。對于高速公路運營企業(yè)來說,利用已建立的規(guī)模龐大的高速公路網(wǎng)以及支撐路網(wǎng)建設(shè)、運營、管理的大量信息化基礎(chǔ),已積累和形成PB級規(guī)模的多源異構(gòu)數(shù)據(jù),數(shù)據(jù)本身蘊含著巨大的應(yīng)用和分析價值,迫切需要對這些數(shù)據(jù)進行科學高效的資產(chǎn)化管理,以便更好地利用大數(shù)據(jù)分析支持日益繁重的高速公路運營管理工作。
隨著高速公路信息化基礎(chǔ)設(shè)施建設(shè)日益完善,高速公路數(shù)據(jù)的采集手段和來源也日趨豐富。其包括氣象、卡口及服務(wù)區(qū)的監(jiān)控視頻數(shù)據(jù)及道路巡檢車定期采集的路面數(shù)據(jù)、工程項目建設(shè)進度數(shù)據(jù)、出入口收費數(shù)據(jù)等,具體可梳理歸納為公眾出行、養(yǎng)護、應(yīng)急救援、收費、監(jiān)控五大類型數(shù)據(jù)(見圖1),呈現(xiàn)海量、多源、異構(gòu)的大數(shù)據(jù)特征以及很強的時空特性、采集多樣性、記錄格式多樣性、展現(xiàn)形式多樣性的高速公路行業(yè)特征。
圖1 高速公路數(shù)據(jù)類型圖
在管理這些數(shù)據(jù)的過程中,筆者對廣西和區(qū)外主要的高速公路企業(yè)進行調(diào)研后發(fā)現(xiàn):高速公路信息化建設(shè)受制于不同的發(fā)展時期,并非一蹴而就,而是長期不斷地積木式迭代演進,缺乏企業(yè)級的整體架構(gòu)和整體數(shù)據(jù)規(guī)劃,導致在管理高速公路數(shù)據(jù)管理過程中,普遍存在數(shù)據(jù)架構(gòu)失控、元數(shù)據(jù)管理混亂、數(shù)據(jù)標準缺失、數(shù)據(jù)質(zhì)量參差不齊、數(shù)據(jù)增長無序、數(shù)據(jù)安全問題突出等問題。在利用大數(shù)據(jù)進行高速公路運營管理的相關(guān)分析決策時,缺乏高質(zhì)量、可靠有效的數(shù)據(jù)支持。
高速公路數(shù)據(jù)資產(chǎn)管理的目標是要實現(xiàn)高速公路數(shù)據(jù)的資產(chǎn)化管理,為高速公路大數(shù)據(jù)增值應(yīng)用以及變現(xiàn)提供充足有效的支持和保障,具體包括兩層含義:
(1)打通數(shù)據(jù)連接,數(shù)據(jù)融合共享。打通數(shù)據(jù)是數(shù)據(jù)資產(chǎn)管理的前提。在分析現(xiàn)有的信息系統(tǒng)及數(shù)據(jù)類型的基礎(chǔ)上,重點梳理系統(tǒng)數(shù)據(jù)架構(gòu)、理清數(shù)據(jù)分類和制定統(tǒng)一數(shù)據(jù)標準與接口,打破高速公路數(shù)據(jù)壁壘,打通數(shù)據(jù)連接,實現(xiàn)數(shù)據(jù)的互聯(lián)互通、血緣管理及全程可控,有效盤活企業(yè)數(shù)據(jù)資產(chǎn)。
(2)高效治理數(shù)據(jù),提供可用數(shù)據(jù)。數(shù)據(jù)治理是數(shù)據(jù)資產(chǎn)管理的核心。明確高速公路數(shù)據(jù)治理戰(zhàn)略,開展全方位數(shù)據(jù)治理,包括數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、數(shù)據(jù)生命周期、數(shù)據(jù)標準、數(shù)據(jù)架構(gòu)等,實現(xiàn)數(shù)據(jù)由全局到局部的精細化管理,提升數(shù)據(jù)質(zhì)量,確保能為高速公路大數(shù)據(jù)的挖掘分析提供充足可用的數(shù)據(jù)資源。
從高速公路大數(shù)據(jù)的全生命周期出發(fā),設(shè)計了包括數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)治理、數(shù)據(jù)挖掘應(yīng)用的高速公路大數(shù)據(jù)資產(chǎn)管理和應(yīng)用平臺總體架構(gòu)(見圖2),高速公路大數(shù)據(jù)資產(chǎn)管理平臺應(yīng)用架構(gòu)主要集中在數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)治理三個模塊。
圖2 高速公路大數(shù)據(jù)資產(chǎn)管理和應(yīng)用平臺總體架構(gòu)圖
3.1.1 數(shù)據(jù)采集模塊
通過封裝關(guān)系數(shù)據(jù)庫數(shù)據(jù)采集、實時數(shù)據(jù)采集、文件數(shù)據(jù)采集等采集接口,構(gòu)建分布式、多源的數(shù)據(jù)采集能力,滿足高速公路攝像頭、傳感器等感知設(shè)施數(shù)據(jù)以及傳統(tǒng)數(shù)據(jù)庫數(shù)據(jù)的實時和離線采集。針對高速公路工程項目紙質(zhì)文檔數(shù)據(jù)采集需求,通過數(shù)字化業(yè)務(wù)系統(tǒng)對各類圖文紙質(zhì)文檔進行大規(guī)模的掃描加工和抽取。
3.1.2 數(shù)據(jù)存儲模塊
通過構(gòu)建Hadoop集群、關(guān)型數(shù)據(jù)倉庫、MPP集群等數(shù)據(jù)集管理工具,對HDFS下的待處理高速公路數(shù)據(jù)集進行管理和處理調(diào)度,能有效支持TB級的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)存儲,并提供數(shù)據(jù)的安全管理、備份、訪問權(quán)限控制等。
3.1.3 數(shù)據(jù)治理模塊
數(shù)據(jù)治理包括兩個方面:(1)提供數(shù)據(jù)標準、數(shù)據(jù)調(diào)度、數(shù)據(jù)生命周期、數(shù)據(jù)共享(發(fā)布)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全以及數(shù)據(jù)操作等管理功能;(2)支持數(shù)據(jù)抽取、轉(zhuǎn)換、分類、清洗等預(yù)處理,將半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化、高質(zhì)量的可用分析大數(shù)據(jù)集,向上支撐高速公路大數(shù)據(jù)挖掘應(yīng)用。
高速公路大數(shù)據(jù)資產(chǎn)管理平臺以Hadoop+Spark生態(tài)圈開源技術(shù)為主,采用Sqoop+Flume、Kafka+Socket數(shù)據(jù)采集框架及HDFS、HBase、Hive等分布式存儲以及MapReduce分布式計算框架等開源產(chǎn)品或技術(shù),并且采用統(tǒng)一監(jiān)控及配置管理平臺。高速公路大數(shù)據(jù)資產(chǎn)管理平臺技術(shù)架構(gòu)設(shè)計見圖3。
圖3 高速公路大數(shù)據(jù)資產(chǎn)管理平臺技術(shù)架構(gòu)圖
3.2.1 數(shù)據(jù)采集層
數(shù)據(jù)采集層采用Sqoop+Flume和Kafka+Socket的大數(shù)據(jù)采集框架,分別解決離線數(shù)據(jù)采集和實時數(shù)據(jù)抽取、采集的問題,滿足高速公路多源、異構(gòu)數(shù)據(jù)快速接入、采集的需求。
3.2.2 數(shù)據(jù)存儲層
數(shù)據(jù)存儲層采用傳統(tǒng)關(guān)系數(shù)據(jù)庫(RMDB)MySQL、Oracle等存儲結(jié)構(gòu)化數(shù)據(jù);采用分布式存儲架構(gòu)Hadoop、Hive、HBase等存儲非結(jié)構(gòu)化數(shù)據(jù)。滿足高速公路視頻、圖像、表格、文本等異構(gòu)數(shù)據(jù)海量存儲、訪問以及存儲拓展等需求。
3.2.3 數(shù)據(jù)治理層
數(shù)據(jù)治理層采用MapReduce、Hive、Impala、Pig實現(xiàn)分布式并行數(shù)據(jù)分析,以及基于內(nèi)存計算的處理框架Spark、任務(wù)調(diào)度框架Oozie和大數(shù)據(jù)Web工具Hue進行處理。數(shù)據(jù)處理技術(shù)提供可視化的操作界面,提供類SQL查詢海量數(shù)據(jù)的功能,滿足海量數(shù)據(jù)快速處理、實時處理的要求,允許用戶自定義工作流及對工作流調(diào)度的定制。同時提供數(shù)據(jù)的假設(shè)檢驗、分類和回歸、線性模型、樸素貝葉斯、決策樹、隨機森林和Gradient-Boosted樹、主成分分析(PCA)、特征提取和轉(zhuǎn)換、頻繁模式挖掘、FP-growth等機器學習相關(guān)算法,充分挖掘數(shù)據(jù)價值。
當前,無論是國家的交通強國建設(shè),還是高速公路企業(yè)自身的業(yè)務(wù)拓展和企業(yè)轉(zhuǎn)型升級,都迫切需要大數(shù)據(jù)驅(qū)動,而大數(shù)據(jù)驅(qū)動的必要前提是數(shù)據(jù)的融合共享和高效治理。高速公路大數(shù)據(jù)資產(chǎn)管理平臺能加速高速公路數(shù)據(jù)資源的創(chuàng)新管理和共享開放,并通過深度且綜合地采集、融合、治理、共享高速公路各類數(shù)據(jù),為挖掘分析高速公路大數(shù)據(jù)、將數(shù)據(jù)分析結(jié)果轉(zhuǎn)化為目標應(yīng)用提供可靠有效的數(shù)據(jù),為高速公路企業(yè)的運營管理降本增效、戰(zhàn)略決策以及產(chǎn)業(yè)的轉(zhuǎn)型升級帶來現(xiàn)實意義。