羅志偉 肖楊 蘇強 趙志潔
摘要:近年我國高速公路現(xiàn)代化建設處于一個快速發(fā)展期,高速公路的建設、運營、養(yǎng)護全生命周期過程中產生了海量的多源多維、異構數(shù)據(jù)。這些數(shù)據(jù)隱藏著巨大的價值,但針對這些數(shù)據(jù)的融合、處理、管理、訪問和應用上的研究仍然相對滯后。文章對高速公路建設、運營、養(yǎng)護等全生命周期產生的結構化、非結構化數(shù)據(jù)的預處理關鍵技術進行研究,開發(fā)基于云計算的高速公路異構數(shù)據(jù)源管理及訪問組件,將數(shù)據(jù)轉化為結構化、高質量的可用數(shù)據(jù)集,并實現(xiàn)海量數(shù)據(jù)高并發(fā)、高效率的存儲、提取和計算,做到數(shù)據(jù)資產的高效訪問控制。
關鍵詞:高速公路;多源異構數(shù)據(jù);數(shù)據(jù)融合;數(shù)據(jù)集成;云計算組件
中圖分類號:U412.36+6A441536
0 引言
我國高速公路經過幾十年的快速建設,2016年底總里程已突破13萬 km,至2020年將達到16.9萬 km[1]。迅猛發(fā)展的高速公路建設讓高速公路運營方面臨越來越繁重的運營管理任務和壓力,如高速公路養(yǎng)護、交通擁堵、應急管理,以及公眾便捷出行等各類主體多樣、迫切的需求。而這些需求是傳統(tǒng)業(yè)務系統(tǒng)、管理和服務手段所不能滿足的[2]。
此外,隨著信息化的普及,高速公路在信息化建設方面也有著持續(xù)大量的投入。隨著以互聯(lián)網、智能感知設備為代表的高速公路數(shù)據(jù)采集手段不斷豐富,收費系統(tǒng)、監(jiān)控系統(tǒng)等基礎業(yè)務系統(tǒng)不斷完善,高速公路運營管理部門能夠從不同角度獲取反映交通運行特征的相關數(shù)據(jù),可以說多源多維高速公路大數(shù)據(jù)已經形成[3]。但在數(shù)據(jù)的融合、處理、管理、訪問和應用上仍然相對滯后[4]。因此,整合獨立、分散的應用系統(tǒng)數(shù)據(jù)與業(yè)務管理資源數(shù)據(jù),實現(xiàn)對高速公路異構數(shù)據(jù)源的統(tǒng)一管理及訪問,對促進高速公路信息資源的充分共享利用具有重要意義[5]。而近年來飛速發(fā)展的云計算技術由于其容易部署、方便、安全等特點已成為實現(xiàn)以上技術目標的技術手段[6]。
云計算[7]是分布式計算的一個種類,利用互聯(lián)網“云”將龐雜的數(shù)據(jù)進行分解,并通過服務器集群分析處理返回結果。云計算可以讓信息和數(shù)據(jù)以最大效率進行管理、訪問、共享。云計算技術讓用戶可以最低的成本完成資源計算。
本文主要對高速公路建設、運營、養(yǎng)護等全生命周期產生的結構化、非結構化數(shù)據(jù)進行預處理關鍵技術進行研究,開發(fā)基于云計算的高速公路異構數(shù)據(jù)源管理及訪問組件,將數(shù)據(jù)轉化為結構化、高質量的可用數(shù)據(jù)集,并實現(xiàn)海量數(shù)據(jù)高并發(fā)、高效率的存儲、提取和計算,做到數(shù)據(jù)資產的高效訪問控制。
1 系統(tǒng)設計的目標、建設內容及技術路線
1.1 系統(tǒng)設計的總體目標
基于云計算的高速公路異構數(shù)據(jù)源管理及訪問組件設計開發(fā)是在關系數(shù)據(jù)庫管理平臺上云計算技術的多維度擴展。異構數(shù)據(jù)庫系統(tǒng)完成多領域、多層次的異構數(shù)據(jù)源訪問及使用,實現(xiàn)多層結構數(shù)據(jù)存儲共享、大規(guī)模計算、虛擬機數(shù)據(jù)加載。該系統(tǒng)利用多層體系去控制數(shù)據(jù)訪問,并加入程序對象用以相應功能,優(yōu)化并集成了數(shù)據(jù)挖掘、大數(shù)據(jù)分析、數(shù)據(jù)模型加載技術,以實現(xiàn)對異構數(shù)據(jù)資源和OLTP/ OLAP分析的統(tǒng)一支持,支持用戶自定義虛擬數(shù)據(jù)庫和虛擬表對象管理,并支持對虛擬數(shù)據(jù)庫資源和物理數(shù)據(jù)庫資源的訪問控制。系統(tǒng)建設將達到以下目標:
(1)將獨立、分散的結構化和非結構化數(shù)據(jù)進行集成,將能夠提供數(shù)據(jù)提取、轉換,將加載和顯示服務的綜合基礎數(shù)據(jù)資源整合到信息資源平臺中,實現(xiàn)數(shù)據(jù)資源的統(tǒng)一管理和綜合利用。
(2)每個用戶可以根據(jù)對應的權限獲取所需資源,同時確保資源信息的質量、精準和安全。
(3)根據(jù)Web的視覺表現(xiàn)并顯示信息名錄,可以高效且快速的預覽所需信息。不同權限的用戶都可以按需瀏覽并進行資源共享。
(4)高效數(shù)據(jù)管理和長期更新機制,為資源的存儲、傳輸、交換和服務提供安全的操作環(huán)境。
1.2 系統(tǒng)的主要建設內容
(1)基于異構數(shù)據(jù)源,數(shù)據(jù)提取、清理實時同步,實現(xiàn)異構數(shù)據(jù)源訪問,資源映射驅動?;跁r間和事件的數(shù)據(jù)抽取可智能調度算法。
(2)增量和全量的數(shù)據(jù)比對算法,優(yōu)化了全量抽取比對方法,引入臨時表作為全量抽取比對基線。
(3)文件數(shù)據(jù)注冊支持。
(4)概念數(shù)據(jù)模型定義,在數(shù)據(jù)建模的驅動下,它支持從概念模型到物理模型以及用戶定義的概念模型的數(shù)據(jù)加載服務;虛擬數(shù)據(jù)庫將注冊到物理模型,并根據(jù)物理模型映射將異構數(shù)據(jù)加載到目標虛擬機。
(5)物理模型數(shù)據(jù)注冊。
(6)基于模型的數(shù)據(jù)抽取、加載。
1.2.1 異構數(shù)據(jù)源數(shù)據(jù)映射整合,基于物理異構數(shù)據(jù)源的虛擬資源映射及基于虛擬映射資源的映射訪問管理
(1)異構數(shù)據(jù)庫中間層數(shù)據(jù)處理方法,引入前置機智能調度控制算法。
(2)基于異構數(shù)據(jù)庫物理表對象的映射集成管理。
(3)基于虛擬映射資源的映射整合管理。
1.2.2 異構數(shù)據(jù)源的共享訪問,基于平臺的異構數(shù)據(jù)資源訪問
(1)基于用戶、角色、權限的異構數(shù)據(jù)庫系統(tǒng)的成分組件訪問控制管理。
(2)基于平臺、資源和渠道的異構數(shù)據(jù)庫的過程管理和訪問方法。
(3)虛擬數(shù)據(jù)庫表對象訪問控制管理。
異構數(shù)據(jù)清洗配置、數(shù)據(jù)審核、安全性驗證控制。
1.3 技術路線
在用于異構數(shù)據(jù)源管理和訪問應用程序的云計算組件開發(fā)的設計和實現(xiàn)中,充分考慮了以下幾個主要因素:(1)其符合國家相關標準和規(guī)范;(2)采取領先技術構建與實現(xiàn)云計算,包括多層中間件系統(tǒng)技術;(3)它吸收了目前在數(shù)據(jù)資源交換管理平臺的實施和某些技術實施的可行性驗證方面的經驗,從而達到客觀實用的系統(tǒng)設計,并以滿足業(yè)務應用需求為主導。
異構數(shù)據(jù)源管理和訪問應用程序的云計算組件開發(fā)相對于傳統(tǒng)交換系統(tǒng)優(yōu)點突出。傳統(tǒng)的系統(tǒng)存在開發(fā)工期長,開發(fā)費用高,接口難以統(tǒng)一等缺點。在本次項目中的云交換平臺采用了核心軟件——云數(shù)據(jù)庫系統(tǒng)GCDB,全稱G-Cloud DataBase,是一款云數(shù)據(jù)庫軟件,它可以連接海量的、物理分布和異構的數(shù)據(jù)資源以形成虛擬數(shù)據(jù)資源處理庫,可以實現(xiàn)多個分離的業(yè)務系統(tǒng)之間數(shù)據(jù)資源的共享。
異構數(shù)據(jù)源管理及訪問應用的云計算組件開發(fā)以信息資源庫為核心,通過信息資源交換平臺的建設,全面整合獨立、分散的應用系統(tǒng)數(shù)據(jù)與業(yè)務管理資源數(shù)據(jù),建立統(tǒng)一的信息資源管理功能與長效更新機制,建立操作支持環(huán)境,滿足信息資源的存儲、傳輸、交換、服務、應用和安全管理的要求,促進信息資源的充分共享和利用,滿足高速公路上各種業(yè)務系統(tǒng)的應用需求。
信息資源云交換平臺在項目的總體框架中,兼顧了效率和實用。系統(tǒng)邏輯架構如圖1所示。
云交換平臺的物理架構中有四種類型的連接點,包括中繼數(shù)據(jù)服務連接點、服務連接點、前端機器和生產系統(tǒng)。中繼數(shù)據(jù)服務連接點存儲云數(shù)據(jù)庫的中繼數(shù)據(jù),包括:
(1)VDBS的中繼信息,例如VDB的名字、關鍵連接點、包含列表、用戶角色信息。
(2)虛擬表的中繼信息:字名、種類、字長、完整度。
(3)角色:名字、權限、VDBS。
(4)用戶:姓名、密碼、VDBS。
一個服務連接點可以在多個虛擬數(shù)據(jù)庫上部署。整個系統(tǒng)有很多服務連接點,這些連接點可以提供同樣的服務,并且可以保持狀態(tài)均等。服務連接點在管理及數(shù)據(jù)等VDBS服務中擔任服務角色。服務管理為虛擬數(shù)據(jù)庫中的角色,用戶和虛擬表提供管理功能,例如角色和用戶的創(chuàng)建、修改、刪除、注冊以及創(chuàng)建虛擬表數(shù)據(jù)庫等。
云數(shù)據(jù)庫系統(tǒng)的數(shù)據(jù)源通過在前端中的各種分布式DBS提供的訪問機制與云數(shù)據(jù)庫系統(tǒng)內部相聯(lián)結。并具備一個模塊可以同步信息并不時從生產系統(tǒng)中提取前端上的數(shù)據(jù)。系統(tǒng)物理架構如圖2所示。
2 系統(tǒng)詳細設計
2.1 云數(shù)據(jù)庫系統(tǒng)
云數(shù)據(jù)庫系統(tǒng)集成了多源異構數(shù)據(jù)庫和通用文件資源,以提供統(tǒng)一的數(shù)據(jù)訪問接口,從而達到以下目的:
(1)各應用系統(tǒng)的資源互通。
(2)為統(tǒng)一資源檢索提供后臺待檢索數(shù)據(jù)。
(3)用戶數(shù)據(jù)統(tǒng)一管理,為單點登錄提供統(tǒng)一用戶數(shù)據(jù)的數(shù)據(jù)源。
該系統(tǒng)將異構數(shù)據(jù)資源以物理形態(tài)分布的方式聯(lián)結在一起以形成一個虛擬數(shù)據(jù)庫,VDBS可以提供同樣的數(shù)據(jù)標準和訪問接口用于應用程序,并支持對數(shù)據(jù)源的透明訪問。云數(shù)據(jù)庫系統(tǒng)可以獨立訪問分布式數(shù)據(jù)源,并通過數(shù)據(jù)虛擬化屏蔽了數(shù)據(jù)源的分布和異構性。數(shù)據(jù)源被包裝器封裝后,系統(tǒng)中會進行注冊以將虛擬表的格式一致化。數(shù)據(jù)源的物理位置可以保持不變,形成的單個虛擬數(shù)據(jù)庫就可以具有集成和統(tǒng)一數(shù)據(jù)標準。對各種主流數(shù)據(jù)庫,云數(shù)據(jù)庫系統(tǒng)支持直接訪問和統(tǒng)一訪問。如Oracle、SQL Server、MySQL、DB2等。因為鍵值可以看作是簡化的關系模式,所以當前流行的鍵值文件系統(tǒng)或數(shù)據(jù)庫(例如HDFS,BigTable,HBase等)也可以輕松訪問云數(shù)據(jù)庫系統(tǒng)。
云數(shù)據(jù)庫系統(tǒng)中的虛擬表應用一種模式組織和管理,這種模式被稱為社區(qū)表,如圖3所示,應用端不再依賴于傳統(tǒng)形態(tài)的數(shù)據(jù)庫和物理表,而是使用社區(qū)表和虛擬表。用戶可以將社區(qū)動態(tài)產生和刪除,以快速適應商業(yè)需求變化發(fā)展。
該系統(tǒng)通過數(shù)據(jù)虛擬化,將數(shù)據(jù)源注冊到本系統(tǒng),形成一個統(tǒng)一的數(shù)據(jù)中心。業(yè)務訪問和計算決策將基于虛擬視圖訪問數(shù)據(jù)源,而不需要通過指定的物理數(shù)據(jù)源。系統(tǒng)過程主要分為三個階段進行:資源注冊,標準定義和數(shù)據(jù)訪問。
(1)資源注冊:將現(xiàn)有的數(shù)據(jù)物理源聯(lián)結到數(shù)據(jù)平臺,數(shù)據(jù)規(guī)格將根據(jù)原始系統(tǒng)形成基本數(shù)據(jù)模式和源。
(2)標準定義:基于現(xiàn)有的基本源(系統(tǒng)數(shù)據(jù)),在需求的基礎上,定義數(shù)據(jù)模式和關系映射,并提供一致的數(shù)據(jù)標準,用以發(fā)布和使用服務。
(3)數(shù)據(jù)訪問:數(shù)據(jù)平臺提供了統(tǒng)一的API,以提供對數(shù)據(jù)資源的訪問。
云交換平臺,利用云數(shù)據(jù)庫來構建具有以下特點:
(1)在云數(shù)據(jù)庫中,數(shù)據(jù)以集群方式存在。
(2)分布式和異構數(shù)據(jù)庫可以滿足災難恢復、共享、容量擴展和按需使用的需求。
云數(shù)據(jù)庫只需要一個密鑰,用戶即可使用,就像使用本地數(shù)據(jù)庫一樣。
2.2 云交換接入服務
2.2.1 數(shù)據(jù)來源
信息資源共享平臺的建設涉及的數(shù)據(jù)資源內容較多,不同的數(shù)據(jù)內容現(xiàn)狀各不相同。有的數(shù)據(jù)尚不存在,需要采集;有的數(shù)據(jù)暫時以表文件的形式存儲,需要進行標準化轉換;有的部門或組織信息化條件較好,已經建設了信息系統(tǒng),已有業(yè)務數(shù)據(jù)可以通過系統(tǒng)接口或數(shù)據(jù)接口方式接入,但由于系統(tǒng)結構設計各不相同,其接口模式設計也要各自有相應的針對性。
表1所示為針對不同的數(shù)據(jù)源格式,設計不同的數(shù)據(jù)獲取模式。
2.2.2 數(shù)據(jù)采集與處理
數(shù)據(jù)建設是系統(tǒng)建設的基礎,沒有數(shù)據(jù),應用系統(tǒng)只能是一個空殼。在系統(tǒng)建設之初,就需要對數(shù)據(jù)資源進行詳盡的梳理,摸清已有數(shù)據(jù)資源可獲取數(shù)據(jù)資源的內容、數(shù)據(jù)格式、數(shù)據(jù)量,分析數(shù)據(jù)獲取方式、更新頻率等。根據(jù)數(shù)據(jù)資源梳理的結果,才能夠進行相應數(shù)據(jù)標準設計、庫表結構設計、存儲容量設計、網絡帶寬設計、數(shù)據(jù)獲取方式與獲取能力設計、數(shù)據(jù)資源更新機制設計、共享交換模式設計等。本系統(tǒng)的前置數(shù)據(jù)庫的內容如表1所示。
對于某些數(shù)據(jù)內容目前沒有相應的成熟數(shù)據(jù),也沒有數(shù)據(jù)表文件采集或存儲,需要針對性地采集。
2.2.3 數(shù)據(jù)轉換
此功能將相異的數(shù)據(jù)源的格式轉換為一致的數(shù)據(jù)格式,根據(jù)轉換規(guī)律,原始數(shù)據(jù)將自動被系統(tǒng)識別轉換為一致的格式。
(1)數(shù)據(jù)格式轉換的定義:從一種原始的數(shù)據(jù)格式,經過系統(tǒng)、有規(guī)律地加工,轉變成目標數(shù)據(jù)格式的過程。
(2)數(shù)據(jù)格式轉換的處理過程:根據(jù)系統(tǒng)事先確定好的若干規(guī)則完成轉換。
2.2.4 數(shù)據(jù)資源管理
該功能為處理數(shù)據(jù)庫和表結構的中繼數(shù)據(jù),定義和維護數(shù)據(jù)字典內容。
通過該功能,數(shù)據(jù)庫中存儲的數(shù)據(jù)類型、數(shù)據(jù)量、數(shù)據(jù)結構等信息查詢變得非常便利,開發(fā)人員可以更好了解行業(yè)信息庫的現(xiàn)有信息。
2.3 云交換平臺功能
云交換平臺的功能包括數(shù)據(jù)橋、數(shù)據(jù)清洗審核融合、數(shù)據(jù)目錄、通信服務服務。此外,該平臺還提供數(shù)據(jù)轉發(fā)、用戶管理等功能,使云交換平臺可以實現(xiàn)基于云模式的分布式異構數(shù)據(jù)的集成、整合和按需訪問。
2.3.1 數(shù)據(jù)橋接
數(shù)據(jù)橋接系統(tǒng)由兩大系統(tǒng)構成,數(shù)據(jù)信息庫系統(tǒng)和數(shù)據(jù)信息交換系統(tǒng)。信息庫系統(tǒng)由企業(yè)數(shù)據(jù)信息庫、數(shù)據(jù)交接信息庫、部門數(shù)據(jù)信息庫等組成。交換子系統(tǒng)架構如圖4所示。
(1)前置交換子系統(tǒng):該系統(tǒng)負責在信息庫和傳輸子系統(tǒng)之間完成信息傳遞,完成數(shù)據(jù)提取轉換、發(fā)送和接收。
(2)交換橋接子系統(tǒng):交換橋接子系統(tǒng)在每個交換前端系統(tǒng)之間建立可靠、高效、穩(wěn)定、安全的信息交換樞紐,提供信息打包、拆包、輸送、轉換等功能,并支持大文件傳輸。
(3)交換傳輸子系統(tǒng):交換過程的布置,可以實現(xiàn)預交換信息庫與部門之間的信息處理和信息傳遞的穩(wěn)定可靠。
(4)交換管理子系統(tǒng):數(shù)據(jù)交換系統(tǒng)操作指揮中心提供交互工具,用于系統(tǒng)的操作和監(jiān)督。實現(xiàn)對流程配置的監(jiān)視和管理,整個信息交換流程的部署和執(zhí)行以及整個信息交換系統(tǒng)的運行。部門通過交換管理子系統(tǒng)交換所需信息到前端。在交換管理子系統(tǒng)的過程控制下,需要交換的信息通過交換傳輸子系統(tǒng)和前端交換子系統(tǒng)被定向到接收部門,共享信息被實時交換到共享信息庫。
2.3.2 數(shù)據(jù)清洗
數(shù)據(jù)清洗一是為了解決數(shù)據(jù)質量問題,二是讓數(shù)據(jù)更適合做挖掘。其主要功能包括:
(1)解決數(shù)據(jù)質量問題:解決數(shù)據(jù)的完整性、唯一性、權威性、合法性、一致性。
(2)讓數(shù)據(jù)更適合做挖掘:解決數(shù)據(jù)的維度過高、維度過低、無關信息、字段冗余等問題。
2.3.3 數(shù)據(jù)審核
數(shù)據(jù)審核是用來驗證數(shù)據(jù)是否統(tǒng)一。數(shù)據(jù)驗證和比較可以完成一件或一批的數(shù)據(jù)比較。
對于服務數(shù)據(jù)的關鍵數(shù)據(jù)項,用戶提供要驗證的原始數(shù)據(jù),并通過系統(tǒng)的驗證和比較來識別一致和不一致的狀態(tài)。
2.3.4 數(shù)據(jù)融合
采用云數(shù)據(jù)庫系統(tǒng),數(shù)據(jù)審計后通過數(shù)據(jù)虛擬化向云數(shù)據(jù)庫系統(tǒng)注冊多個數(shù)據(jù)源,包括分布式異構數(shù)據(jù)庫和文件等,形成統(tǒng)一的數(shù)據(jù)中心,實現(xiàn)創(chuàng)建、部署、訪問控制管理和復制在虛擬表模式下對統(tǒng)一數(shù)據(jù)視圖進行管理,從而實現(xiàn)數(shù)據(jù)融合。
系統(tǒng)會分為三步去實現(xiàn)數(shù)據(jù)融合:
(1)數(shù)據(jù)連接:根據(jù)原始數(shù)據(jù)制式,將數(shù)據(jù)平臺與現(xiàn)有的物理數(shù)據(jù)源連接,形成基本數(shù)據(jù)源和模式。
(2)標準定義:來自多個數(shù)據(jù)源的數(shù)據(jù)和相關數(shù)據(jù)的信息相結合,以實現(xiàn)比單獨使用單個傳感器所不具備的準確性。
(3)數(shù)據(jù)訪問:數(shù)據(jù)平臺提供了統(tǒng)一的API,以提供對數(shù)據(jù)資源的訪問。用戶請求被系統(tǒng)處理,分別發(fā)送到每個節(jié)點以用并行方式執(zhí)行,最后統(tǒng)計匯總結果。
3 結語
針對高速公路大數(shù)據(jù)多源多維、異構、海量的特點,本研究開發(fā)了基于三層數(shù)據(jù)控制架構和面向流程及基于成分的功能組件云計算系統(tǒng)。該系統(tǒng)基于虛擬數(shù)據(jù)庫資源注冊訪問,支持二級虛擬數(shù)據(jù)庫資源映射機制。同時,該系統(tǒng)還可以屏蔽數(shù)據(jù)庫訪問細節(jié),結合云計算技術可擴展性高、硬件成本低、資源按需使用等方面的優(yōu)勢,為異構數(shù)據(jù)庫管理系統(tǒng)提供良好的集群存儲能力、并行計算能力、數(shù)據(jù)庫管理能力,達到系統(tǒng)性價比高、異構數(shù)據(jù)源無縫共享的目標。
參考文獻:
[1]國家發(fā)展改革委交通運輸部關于進一步貫徹落實“三大戰(zhàn)略”發(fā)揮高速公路支撐引領作用的實施意見[J].交通財會,2017(2):85-86.
[2].王紅俊.高速公路管理信息化建設的需求分析[J].中外企業(yè)家,2019(35):74.
[3].任金光.大數(shù)據(jù)在智能高速公路中的應用[J].交通世界,2016(27):14-15.
[4].楊仁懷,郎川萍,劉文美.高速公路大數(shù)據(jù)處理現(xiàn)狀與挑戰(zhàn)[J].計算機系統(tǒng)應用,2014,23(9):13-17.
[5]林 艷.大數(shù)據(jù)在我國高速公路中的應用探討[J].北方交通,2016(5):162-164.
[6]張建勛,古志民,鄭 超.云計算研究進展綜述[J].計算機應用研究,2010,27(2):429-433.
[7]羅軍舟.云計算:體系架構與關鍵技術[J].通信學報,2011,32(7):3-21.
收稿日期:2020-04-17