余永紀,楊學平,薛秀麗
(云南機電職業(yè)技術學院,云南 昆明 650203)
物聯(lián)網(wǎng)(IoT)是在互聯(lián)網(wǎng)基礎上擴展與延伸的網(wǎng)絡,物與物之間進行“萬物互聯(lián)”,實現(xiàn)信息的交換與通信。物聯(lián)網(wǎng)的出現(xiàn),再加上數(shù)據(jù)通信成本的急劇下降,以及各種傳感技術和智能設備的出現(xiàn),加速了數(shù)據(jù)的采集和應用[1]。但是在面向各種具體行業(yè)應用,源源不斷的產(chǎn)生海量的實時數(shù)據(jù)的同時,就會產(chǎn)生大量的、相互不共享的數(shù)據(jù),容易形成信息孤島的現(xiàn)象[2]。而且當前數(shù)據(jù)交換體系存在著數(shù)據(jù)利用效率低、服務質(zhì)量無保障、數(shù)據(jù)交換不可靠、數(shù)據(jù)請求安全無保障等問題[3],而且很多數(shù)據(jù)交換與共享平臺無法直接應用于物聯(lián)網(wǎng)系統(tǒng)。
為了打破信息孤島,解決物聯(lián)網(wǎng)系統(tǒng)數(shù)據(jù)共享與交換問題,充分挖掘數(shù)據(jù)價值,提高數(shù)據(jù)利用率,本文將基于物聯(lián)網(wǎng)構架,提出一種基于物聯(lián)網(wǎng)的數(shù)據(jù)共享交換平臺設計方案,主要完成物聯(lián)網(wǎng)的數(shù)據(jù)采集、數(shù)據(jù)交換、數(shù)據(jù)處理及數(shù)據(jù)管理功能,將數(shù)據(jù)進行治理和融合,形成資源共享目錄,在數(shù)據(jù)交換系統(tǒng)基礎上,實現(xiàn)數(shù)據(jù)的交換與共享,并提供與之相適應的數(shù)據(jù)交換或數(shù)據(jù)產(chǎn)品服務接口。
基于物聯(lián)網(wǎng)的數(shù)據(jù)共享交換平臺總體架構圖如圖1所示,平臺支持對分布式的海量的結構化數(shù)據(jù)、非結構化數(shù)據(jù)進行統(tǒng)一存儲、統(tǒng)一管理,并提供靈活的權限管理和操作功能。系統(tǒng)提供統(tǒng)一的用戶管理和認證體系。遵循平臺制定的數(shù)據(jù)服務標準規(guī)范體系,獲取相應的數(shù)據(jù),將分散數(shù)據(jù)采集進入到平臺的信息資源庫中。在平臺基礎功能的支撐之下,通過數(shù)據(jù)資源目錄對信息資源庫進行統(tǒng)一管理,統(tǒng)一對外提供數(shù)據(jù)資源共享服務。
基于物聯(lián)網(wǎng)的數(shù)據(jù)共享交換平臺總體架構圖如圖1所示,平臺支持對分布式的海量的結構化數(shù)據(jù)、非結構化數(shù)據(jù)進行統(tǒng)一存儲、統(tǒng)一管理,并提供靈活的權限管理和操作功能。系統(tǒng)提供統(tǒng)一的用戶管理和認證體系。遵循平臺制定的數(shù)據(jù)服務標準規(guī)范體系,獲取相應的數(shù)據(jù),將分散數(shù)據(jù)采集進入到平臺的信息資源庫中。在平臺基礎功能的支撐之下,通過數(shù)據(jù)資源目錄對信息資源庫進行統(tǒng)一管理,統(tǒng)一對外提供數(shù)據(jù)資源共享服務。
平臺總體架構包括以下層次:
應用層:各類應用訪問的統(tǒng)一入口。
管控層:提供平臺的統(tǒng)一管理,包括接口管理、監(jiān)控統(tǒng)計、用戶管理、服務統(tǒng)計等模塊。
業(yè)務層:提供數(shù)據(jù)目錄、數(shù)據(jù)資源管理及共享交換服務等的功能實現(xiàn),包括數(shù)據(jù)目錄管理、數(shù)據(jù)資源管理、數(shù)據(jù)采集、數(shù)據(jù)交換、ETL及企業(yè)服務總線等模塊。
數(shù)據(jù)資源層:是提供數(shù)據(jù)共享與交換的支撐機構,它主要實現(xiàn)數(shù)據(jù)聚合與分層集中管理,建立數(shù)據(jù)的共享資料庫及資源目錄,為上層業(yè)務提供數(shù)據(jù)服務。
基礎設施層:主要包括基礎網(wǎng)絡資源、計算及存儲資源、數(shù)據(jù)庫系統(tǒng)等基礎設施,還包括物聯(lián)網(wǎng)設施、安全控制設備、身份認證設施以及密鑰管理設施等。
政策法規(guī)與標準規(guī)范體系:包括相應的國內(nèi)標準、行業(yè)標準以及平臺建設的相關標準。
安全保障體系:符合國家、相關安全管理部門,以及信息中心相關安全管理規(guī)定的要求,保障數(shù)據(jù)信息和數(shù)據(jù)服務的安全。
基于物聯(lián)網(wǎng)架構的數(shù)據(jù)采集子系統(tǒng)邏輯架構圖如圖2所示,數(shù)據(jù)采集子系統(tǒng)由物聯(lián)網(wǎng)數(shù)據(jù)采集服務、采集應用服務、集成開發(fā)設計器、統(tǒng)一管理平臺等構成。物聯(lián)網(wǎng)服務提供物聯(lián)網(wǎng)設備管理、物聯(lián)網(wǎng)節(jié)點接入授權、物聯(lián)網(wǎng)數(shù)據(jù)傳輸及數(shù)據(jù)的異構管理等功能。采集應用服務提供認證授權、監(jiān)控管理接口、擴展接口、數(shù)據(jù)橋接、數(shù)據(jù)適配、數(shù)據(jù)同步、數(shù)據(jù)抽取、數(shù)據(jù)存儲、處理流程、任務調(diào)度、轉(zhuǎn)換引擎等。集成開發(fā)設計器包括數(shù)據(jù)源接入、流程開發(fā)、任務配置、任務部署、調(diào)試跟蹤、任務執(zhí)行、監(jiān)控輸出、運行日志。統(tǒng)一管理平臺主要實現(xiàn)數(shù)據(jù)采集過程中的監(jiān)管與控制,包括設備、節(jié)點、權限的控制與管理,采集過程中的運行及狀態(tài)監(jiān)控,數(shù)據(jù)采集的性能統(tǒng)計與分析等。
圖2 基于物聯(lián)網(wǎng)架構的數(shù)據(jù)采集子系統(tǒng)邏輯架構圖
數(shù)據(jù)交換子系統(tǒng)主要提供數(shù)據(jù)交換的規(guī)則配置、流程管理、交換任務的調(diào)度、交換過程運行狀況的監(jiān)控、系統(tǒng)資源占用情況及系統(tǒng)異常處理等功能。數(shù)據(jù)交換子系統(tǒng)是數(shù)據(jù)采集、傳輸、監(jiān)控的工具、手段,借助先進的數(shù)據(jù)共享交換平臺工具,構建安全、可靠、高效、一致的數(shù)據(jù)傳輸機制。
2.2.1 數(shù)據(jù)交換引擎
數(shù)據(jù)交換引擎是數(shù)據(jù)共享交換平臺的核心部分,采用基于JAVA技術設計的消息中間件軟件設計,結合大數(shù)據(jù)和云計算的數(shù)據(jù)存儲和處理能力,支撐數(shù)據(jù)交換平臺實現(xiàn)海量、多格式、高可靠、高并發(fā)和高穩(wěn)定數(shù)據(jù)采集與分發(fā)。
在共享交換平臺中心部署服務節(jié)點,實現(xiàn)前置交換系統(tǒng)與平臺間的穩(wěn)定可靠的信息傳遞,選擇合理的技術手段確保前置交換系統(tǒng)之間可靠的信息傳遞功能,實現(xiàn)交換信息內(nèi)容的“不丟、不錯、不重”高效傳輸。支持交換節(jié)點之間的路由和備份路由功能,提供斷點續(xù)傳功能,并且提供數(shù)據(jù)的打包、傳遞、轉(zhuǎn)換及解包等功能。
2.2.2 交換監(jiān)控子系統(tǒng)
交換監(jiān)控子系統(tǒng)用于監(jiān)控數(shù)據(jù)共享與交換的狀態(tài)、服務和日志等信息,提供前置交換系統(tǒng)的注冊與授權、狀態(tài)查詢、信息統(tǒng)計、更新及遠程部署等功能,協(xié)同部門交換前置機和中心交換前置機的運行并對交換平臺的運行情況進行管理和監(jiān)控。
2.2.3 前置交換子系統(tǒng)
前置交換子系統(tǒng)是業(yè)務應用與平臺之間數(shù)據(jù)交換的橋梁,它負責提供前置數(shù)據(jù)交換的規(guī)則與模式,可以利用中間件進行數(shù)據(jù)的交換和共享,實現(xiàn)數(shù)據(jù)格式的轉(zhuǎn)換與橋接,以及信息數(shù)據(jù)的傳輸?shù)裙δ堋?/p>
2.2.4 橋接交換子系統(tǒng)
橋接服務運行環(huán)境和橋接服務配置工具。提供物理隔離情況下的數(shù)據(jù)交換。支持異構系統(tǒng)的數(shù)據(jù)源(如Oracle、MySQL、SQLServer等)的各種字段類型(如數(shù)據(jù)庫表的字符型、日期型、數(shù)字型、Blob、Clob、流類型等)等在隔離的兩段網(wǎng)絡間實現(xiàn)跨域的數(shù)據(jù)交換。
2.2.5 交換傳輸子系統(tǒng)
交換傳輸子系統(tǒng)提供全生命周期的文件傳輸及處理服務,提供交換服務實現(xiàn)數(shù)據(jù)庫表、業(yè)務系統(tǒng)、XML、文件等到文件的格式轉(zhuǎn)換、過濾、映射處理。提供傳輸服務實現(xiàn)文件(夾)的可靠傳輸、變化文件傳輸、壓縮、加密傳輸?shù)?。提供交換服務、Shell調(diào)用服務實現(xiàn)文件到數(shù)據(jù)庫、業(yè)務系統(tǒng)等集成;提供FTP服務實現(xiàn)和外部系統(tǒng)的集成;提供文件分類調(diào)用服務實現(xiàn)文件分類調(diào)用等。
數(shù)據(jù)處理,也稱ETL(Extract-Transform-Load),主要是對各數(shù)據(jù)源單位采集的原始信息進行清洗、加工、轉(zhuǎn)換、比對等,并按照統(tǒng)一的標準對數(shù)據(jù)進行串聯(lián)和匯集,最后將處理完的數(shù)據(jù)加載到相關存儲設備中。
2.3.1 數(shù)據(jù)清洗
數(shù)據(jù)清洗是根據(jù)不同的業(yè)務情況制定清洗規(guī)則,針對不能滿足業(yè)務需求的數(shù)據(jù),如不完整、有重復的數(shù)據(jù)進行處理,最終達到應用要求的過程[4]。數(shù)據(jù)清洗主要包括數(shù)據(jù)比對、過濾、關聯(lián)、去重、轉(zhuǎn)換及解析等過程,其目的就是保障數(shù)據(jù)的完整性、正確性和一致性。
2.3.2 數(shù)據(jù)加工
數(shù)據(jù)加工主要是兩方面的工作:構建源數(shù)據(jù)處理體系和搭建數(shù)據(jù)資源池基礎數(shù)據(jù)庫群。源數(shù)據(jù)處理系統(tǒng)分析源數(shù)據(jù)庫數(shù)據(jù)特征,根據(jù)源數(shù)據(jù)特征和目標數(shù)據(jù)庫結構安裝配置ETL工具,進行數(shù)據(jù)抽取/清洗/轉(zhuǎn)換/加載(即ETL過程),從數(shù)據(jù)采集到平臺之后到建成可供分析應用的數(shù)據(jù)倉庫,之間要經(jīng)歷繁的ETL過程(數(shù)據(jù)清洗、轉(zhuǎn)換和整合)。
2.3.3 數(shù)據(jù)抽取
數(shù)據(jù)在經(jīng)過清洗和加工以后,可以對數(shù)據(jù)資源進行編目,形成共享資源目錄,以支撐數(shù)據(jù)的檢索和定位。為了滿足不同的業(yè)務和數(shù)據(jù)形式的要求,在需求明確的情況下,可以制定不同的數(shù)據(jù)抽取規(guī)則接口,對數(shù)據(jù)源中分布的,異構的、關聯(lián)的數(shù)據(jù)進行抽取。數(shù)據(jù)抽取的過程主要是從各個業(yè)務系統(tǒng)上根據(jù)約定的采集周期采集全量或增量數(shù)據(jù)。在采集過程中可能涉及系統(tǒng)內(nèi)或跨系統(tǒng)的數(shù)據(jù)關聯(lián)獲取。
數(shù)據(jù)管理子系統(tǒng)主要是針對數(shù)據(jù)的創(chuàng)建、存儲、使用、共享及評價等過程進行的管理。主要包括元數(shù)據(jù)管理、任務管理、數(shù)據(jù)融合等幾個方面。元數(shù)據(jù)管理是最基本的數(shù)據(jù)管理,任務管理主要根據(jù)業(yè)務需求,以任務的形式建立數(shù)據(jù)加工的流程,實現(xiàn)對數(shù)據(jù)處理任務的配置、任務調(diào)度、運行監(jiān)控管理等工作。數(shù)據(jù)融合主要針對物聯(lián)網(wǎng)跨域數(shù)據(jù)特點,挖掘各類實體數(shù)據(jù)的關聯(lián)系統(tǒng),對數(shù)據(jù)進行整合、存儲及管理,使數(shù)據(jù)最終能夠共享與交換。
2.4.1 元數(shù)據(jù)管理
元數(shù)據(jù)管理是對物聯(lián)網(wǎng)各類數(shù)據(jù)的最基本管理功能,實現(xiàn)元數(shù)據(jù)的采集、注冊、變更、授權及統(tǒng)計等生命周期的管理功能。平臺系統(tǒng)提供元數(shù)據(jù)管理功能,通過對物聯(lián)網(wǎng)數(shù)據(jù)的加工設計、執(zhí)行處理、數(shù)據(jù)融合等步驟,主動產(chǎn)生或提取數(shù)據(jù)元數(shù)據(jù),并通過制定元數(shù)據(jù)開放的使用規(guī)范及標準,對元數(shù)據(jù)資源進行發(fā)布、申請、審核、授權等操作,以便將數(shù)據(jù)進行開放共享與交換。元數(shù)據(jù)管理還可以實現(xiàn)元數(shù)據(jù)的模型定義并存儲,在功能層包裝成各類元數(shù)據(jù)功能,最終對外提供數(shù)據(jù)的應用及展現(xiàn);還可以提供元數(shù)據(jù)的關聯(lián)分析和流向功能,方便對數(shù)據(jù)實現(xiàn)追蹤溯源和流向的分析與統(tǒng)計。
2.4.2 任務管理
任務管理及調(diào)度邏輯圖如圖3所示,任務管理包括數(shù)據(jù)處理任務的配置、任務調(diào)度和任務運行控制管理等。這部分主要實現(xiàn)對物聯(lián)網(wǎng)數(shù)據(jù)采集和處理的任務規(guī)則、參數(shù)和服務等的配置,實現(xiàn)物聯(lián)網(wǎng)節(jié)點運行狀態(tài)、節(jié)點資源狀態(tài)、節(jié)點任務運行狀態(tài)及節(jié)點的歷史運行狀態(tài)的監(jiān)控。
圖3 任務管理及調(diào)度邏輯圖
2.4.3 數(shù)據(jù)融合
采用關系數(shù)據(jù)庫技術、MPP分布式存儲技術、Hadoop大數(shù)據(jù)處理技術和柔性多引擎檢索技術構建數(shù)據(jù)存儲系統(tǒng),是預處理及過濾數(shù)據(jù)庫內(nèi)資料、讀取資料來源、分析資料轉(zhuǎn)換規(guī)則及載入系統(tǒng),并將轉(zhuǎn)換資料寫入主資料庫,最后完成跨域數(shù)據(jù)整合、存儲及管理,是數(shù)據(jù)交換平臺關鍵部分之一[5-6]。這要求具有完全分布式的、多副本機制的、對等的、不共享的系統(tǒng)架構,沒有單點故障或瓶頸。系統(tǒng)能線性增長,每新增加一個節(jié)點能同時增加系統(tǒng)性能和存儲容量。
支持增量索引,采用集中索引和實時索引相結合的方式,集中索引針對批量更新的海量數(shù)據(jù)庫,其索引的制作耗時較長,由管理員確定索引時間,如每天夜間等;實時索引適用于頻繁更新的數(shù)據(jù)庫,保證記錄的添加、修改、刪除都能實時地反映到搜索結果當中。
隨著信息技術的發(fā)展,物聯(lián)網(wǎng)行業(yè)應用版圖不斷增長,物聯(lián)網(wǎng)系統(tǒng)數(shù)據(jù)也呈現(xiàn)出數(shù)據(jù)量大、多樣、多域、多應用等特點,在各個應用領域形成了大量數(shù)據(jù)不共享、信息不互通的物聯(lián)網(wǎng)平行應用系統(tǒng),打破信息數(shù)據(jù)壁壘,實現(xiàn)物聯(lián)網(wǎng)數(shù)據(jù)的共享與交換,是物聯(lián)網(wǎng)系統(tǒng)廣泛應用的關鍵。本文基于物聯(lián)網(wǎng)構架,提出一種基于物聯(lián)網(wǎng)的數(shù)據(jù)共享交換平臺設計方案,完成了數(shù)據(jù)采集、數(shù)據(jù)交換、數(shù)據(jù)處理與數(shù)據(jù)管理等方面的功能,并提供與之相適應的數(shù)據(jù)共享交換接口及數(shù)據(jù)服務,進一步破除“信息孤島”和“數(shù)據(jù)煙囪”現(xiàn)象,推動數(shù)據(jù)資源的整合,對物聯(lián)網(wǎng)系統(tǒng)的多域數(shù)據(jù)共享與交換有重要意義。