摘 要:物聯(lián)網(wǎng)的快速發(fā)展,對海量數(shù)據(jù)處理技術(shù)要求越來越高。針對物聯(lián)網(wǎng)數(shù)據(jù)的實時性、海量性、多態(tài)與異構(gòu)性特征,文章通過對基于分布式內(nèi)存數(shù)據(jù)庫的數(shù)據(jù)庫技術(shù)和基于云計算技術(shù)的分布式實時數(shù)據(jù)庫技術(shù)的分析研究,認為以上兩種數(shù)據(jù)庫技術(shù)可以適合并滿足物聯(lián)網(wǎng)海量數(shù)據(jù)的處理需求。
關(guān)鍵詞:實時數(shù)據(jù)庫;物聯(lián)網(wǎng);海量數(shù)據(jù);內(nèi)存數(shù)據(jù)庫;云計算
中圖分類號:TP393 文獻識別碼:A 文章編號:2095-1302(2014)06-0088-03
0引言
隨著物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,在農(nóng)業(yè)、工業(yè)、交通、醫(yī)療、環(huán)保等領(lǐng)域每時每刻都在產(chǎn)生大量的數(shù)據(jù)。在各行業(yè)業(yè)務(wù)的不斷擴大、信息化的不斷深入的背景下,數(shù)據(jù)已滲透到企業(yè)日常業(yè)務(wù)的各個應(yīng)用場景之中。用戶對于海量數(shù)據(jù)的處理和實施分析的及時高效性越來越重視,快速有效的海量數(shù)據(jù)處理和實時分析技術(shù)將有助于企業(yè)快速了解市場行情變化、迅速做出決策,從而占得發(fā)展先機。同時該需求也對數(shù)據(jù)庫技術(shù)提供更高要求。
物聯(lián)網(wǎng)中不同類型子系統(tǒng)的海量異構(gòu)數(shù)據(jù)需要統(tǒng)一的處理及存儲,那么就要求該海量數(shù)據(jù)處理方法能融合多個不同網(wǎng)絡(luò)、多個數(shù)據(jù)源、異構(gòu)的海量數(shù)據(jù)并且能對這些數(shù)據(jù)進行高效快速的處理,同時,該海量數(shù)據(jù)處理任務(wù)需要對包括網(wǎng)絡(luò)資源、計算資源、存儲資源等多種資源進行統(tǒng)一的規(guī)劃和調(diào)度,為數(shù)據(jù)處理分配合適的資源,將任務(wù)分散到多個聯(lián)網(wǎng)的節(jié)點上并行計算,可以有效地加快海量數(shù)據(jù)處理的速度。而傳統(tǒng)的數(shù)據(jù)處理技術(shù)和數(shù)據(jù)庫管理系統(tǒng)(DBMS)已經(jīng)無法完全適用于物聯(lián)網(wǎng)海量數(shù)據(jù)的處理與存儲管理。因此,本文通過對物聯(lián)網(wǎng)海量數(shù)據(jù)處理的實時數(shù)據(jù)庫技術(shù)進行分析與研究,選擇滿足海量數(shù)據(jù)處理需求的實時數(shù)據(jù)庫技術(shù)。
1物聯(lián)網(wǎng)海量信息處理關(guān)鍵技術(shù)分析
物聯(lián)網(wǎng)中感知設(shè)備種類繁多,并且來自不同類型網(wǎng)絡(luò),需要物聯(lián)網(wǎng)的海量數(shù)據(jù)處理方法能融合多個不同類型網(wǎng)絡(luò)、多個數(shù)據(jù)源、異構(gòu)的海量數(shù)據(jù)并對這些數(shù)據(jù)進行高效快速的處理,從中篩選獲取有價值的信息,對有價值信息進行綜合分析,從而提供智能決策。
1.1多源數(shù)據(jù)融合技術(shù)
在不同物聯(lián)網(wǎng)節(jié)點上獲取的信息具有不同的數(shù)據(jù)類型特征,針對多源異構(gòu)的海量數(shù)據(jù)需建立統(tǒng)一的層次化表達數(shù)據(jù)結(jié)構(gòu)和本體標注,為多源數(shù)據(jù)信息的融合提供標準的格式,結(jié)合多源異構(gòu)數(shù)據(jù)的數(shù)據(jù)聚類、時空轉(zhuǎn)換與度量等技術(shù),解決不同來源數(shù)據(jù)的一體化有效利用問題。
1.2物聯(lián)網(wǎng)海量數(shù)據(jù)存儲、檢索和查詢技術(shù)
物聯(lián)網(wǎng)在應(yīng)用中廣泛部署感知設(shè)備,采集生成大量實時、多源、多粒度、多緯度流數(shù)據(jù),其數(shù)據(jù)規(guī)??蛇_到TB甚至是PB級;開展物聯(lián)網(wǎng)海量數(shù)據(jù)的存儲、檢索和查詢等技術(shù)研究,對集中有效地處理這些海量數(shù)據(jù),高效性管理,高實時性地統(tǒng)一定制所需數(shù)據(jù)給用戶,以達到這些技術(shù)與用戶信息系統(tǒng)間的完美結(jié)合具有重要意義。
存儲機制:采用就近存儲原則,提供一個全局摘要視圖節(jié)點,各數(shù)據(jù)歸檔節(jié)點將自己的數(shù)據(jù)分布情況通知給全局摘要視圖節(jié)點,查詢請求首先被發(fā)送到全局摘要視圖節(jié)點,并能快速定位到數(shù)據(jù)所在網(wǎng)絡(luò)節(jié)點,避免泛洪式查詢;設(shè)計存儲磁盤容量耗盡時的數(shù)據(jù)回收機制,根據(jù)查詢歷史統(tǒng)計結(jié)果和當前系統(tǒng)存儲容量情況,為不同類型數(shù)據(jù)動態(tài)配置數(shù)據(jù)生存周期。對超過生存周期的數(shù)據(jù)將被新增數(shù)據(jù)覆蓋。由于物聯(lián)網(wǎng)數(shù)據(jù)具有一次寫、很少修改、多次讀、不刪除的特點,對于單個網(wǎng)絡(luò)節(jié)點的數(shù)據(jù)存儲技術(shù),建議采用非關(guān)系型數(shù)據(jù)庫技術(shù)。
索引機制研究:物聯(lián)網(wǎng)數(shù)據(jù)包括時態(tài)流數(shù)據(jù)和空間流數(shù)據(jù)。研究根據(jù)歸檔的數(shù)據(jù)種類,自動創(chuàng)建最優(yōu)化的索引算法。對于時態(tài)流數(shù)據(jù),主要查詢類型為間隔查詢。對于空間類型的流數(shù)據(jù)來說,可以用查詢操作方式來尋找某個區(qū)域內(nèi)所有符合條件的對象,并運用多維索引技術(shù),建立最優(yōu)索引,使系統(tǒng)滿足效率實時處理要求。
2物聯(lián)網(wǎng)數(shù)據(jù)庫技術(shù)要求
數(shù)據(jù)大小、數(shù)值范圍、索引。物聯(lián)網(wǎng)中存在數(shù)據(jù)的大小和數(shù)值范圍是極其巨大的,物聯(lián)網(wǎng)系統(tǒng)中涉及到眾多不同類型風格的數(shù)據(jù)對象,不能僅對數(shù)據(jù)庫編目進行管理,所以索引對物聯(lián)網(wǎng)實時數(shù)據(jù)庫要求很高。
查詢語言。數(shù)據(jù)庫管理系統(tǒng)查詢語言以前基本上都基于結(jié)構(gòu)化數(shù)據(jù),而可擴展標記語言(XML)提供了一種更為松散結(jié)構(gòu)的數(shù)據(jù)表現(xiàn)方式,并且支持自定義數(shù)據(jù)描述的方式,該方式能夠整合文檔、網(wǎng)頁以及關(guān)系數(shù)據(jù)庫等數(shù)據(jù)源進行查詢。
多相性和完整性。物聯(lián)網(wǎng)由眾多獨立的感知或網(wǎng)絡(luò)節(jié)點組成,每個節(jié)點有著不同的保存數(shù)據(jù)方式,隨著物聯(lián)網(wǎng)數(shù)據(jù)量的不斷增長和不同類型系統(tǒng)的日益增多,異構(gòu)性和互操作性的問題是物聯(lián)網(wǎng)實時數(shù)據(jù)庫需要面對的重要問題。
時間序列集聚。傳統(tǒng)的查詢語言如SQL,已經(jīng)不適合進行時間序列數(shù)據(jù)的查詢,需要將物聯(lián)網(wǎng)實時數(shù)據(jù)以時間有序的方式組織并存儲起來,對于提高查詢?nèi)蝿?wù)的性能及支持快速查詢響應(yīng)至關(guān)重要。針對物聯(lián)網(wǎng)實時數(shù)據(jù)的時序特征,最佳的時間采樣周期極大地依賴于數(shù)據(jù)性質(zhì)和應(yīng)用領(lǐng)域,需要物聯(lián)網(wǎng)實時數(shù)據(jù)庫能定義合適的查詢設(shè)備,提供連續(xù)數(shù)據(jù)采樣服務(wù)。
3物聯(lián)網(wǎng)實時數(shù)據(jù)庫技術(shù)分析
本文針對物聯(lián)網(wǎng)海量數(shù)據(jù)的特性和對實時數(shù)據(jù)庫技術(shù)的要求進行分析。
3.1分布式內(nèi)存數(shù)據(jù)庫技術(shù)
分布式數(shù)據(jù)庫是傳統(tǒng)數(shù)據(jù)庫技術(shù)與網(wǎng)絡(luò)技術(shù)相結(jié)合的產(chǎn)物。一個分布式數(shù)據(jù)庫是在物理空間中分布在計算機網(wǎng)絡(luò)各個節(jié)點上,但在邏輯上可以屬于同一系統(tǒng)的數(shù)據(jù)集合,圖1所示是分布式數(shù)據(jù)庫的系統(tǒng)架構(gòu)。該分布式內(nèi)存數(shù)據(jù)庫技術(shù)具有局部物理空間自治與邏輯全局共享性、數(shù)據(jù)的冗余性、數(shù)據(jù)的獨立性以及系統(tǒng)的透明性等特點。分布式數(shù)據(jù)庫管理系統(tǒng)支持全局控制集中、全局控制分散、全局控制部分分散的控制方式; 由局部場地數(shù)據(jù)庫管理系統(tǒng)、全局數(shù)據(jù)庫管理系統(tǒng)、全局數(shù)據(jù)字典、通信管理組成,負責建立和管理局部數(shù)據(jù)庫,實現(xiàn)場地自治能力,執(zhí)行局部應(yīng)用等功能以及提供分布透明性,協(xié)調(diào)全局事物的執(zhí)行并協(xié)調(diào)各局部數(shù)據(jù)庫管理系統(tǒng),保證數(shù)據(jù)庫的全局一致性,實現(xiàn)更新同步等功能。數(shù)據(jù)庫技術(shù)與人工智能技術(shù)、網(wǎng)絡(luò)通信技術(shù)、并行計算技術(shù)等互相滲透,互相結(jié)合,成為當前數(shù)據(jù)庫技術(shù)發(fā)展的主要特征。
在這個系統(tǒng)中,要滿足以下要求:
(1)各網(wǎng)絡(luò)節(jié)點內(nèi)存數(shù)據(jù)庫保持其自治性;
(2)內(nèi)存數(shù)據(jù)庫集群化,通過讀寫分離,垂直和水平切分策略應(yīng)對海量數(shù)據(jù)存儲;
(3)多種數(shù)據(jù)切分方式,在總體垂直切分模式基礎(chǔ)上進行水平切分,應(yīng)對不同的應(yīng)用和數(shù)據(jù)所需要做不同的處理;
(4)各節(jié)點內(nèi)存數(shù)據(jù)庫間相互協(xié)調(diào),促使每個內(nèi)存數(shù)據(jù)庫都可以作為其他結(jié)點的服務(wù)端;
(5)保持數(shù)據(jù)分布的透明性,滿足數(shù)據(jù)的分布性和數(shù)據(jù)庫間的協(xié)調(diào)性特點,結(jié)合內(nèi)存數(shù)據(jù)庫之間平衡的改進,解決物聯(lián)網(wǎng)海量數(shù)據(jù)實時處理的要求;
(6)內(nèi)存數(shù)據(jù)庫持久化,內(nèi)存數(shù)據(jù)庫中的數(shù)據(jù)變化需要復制到與磁盤數(shù)據(jù)庫上,通過兩級數(shù)據(jù)庫及異步寫來完成持久化。
圖1分布式數(shù)據(jù)庫系統(tǒng)架構(gòu)
3.2基于云技術(shù)的分布式實時數(shù)據(jù)庫技術(shù)(DRTDBS)
“基于云技術(shù)的分布式實時數(shù)據(jù)庫”[2]架構(gòu)如圖2所示,將實時數(shù)據(jù)庫技術(shù)與云計算技術(shù)進行深度融合,通過分布在世界各地的云計算中心服務(wù)器集群實現(xiàn)具有數(shù)據(jù)庫規(guī)??蓴U展、可伸縮,數(shù)據(jù)庫管理系統(tǒng)可靠性、可維護性高的分布式實時數(shù)據(jù)庫系統(tǒng),該系統(tǒng)包含了數(shù)據(jù)處理壓縮、數(shù)據(jù)檢索、數(shù)據(jù)存儲虛擬化技術(shù)、沖突處理、內(nèi)容分發(fā)網(wǎng)絡(luò)技術(shù)、事務(wù)調(diào)度、故障監(jiān)測與恢復、負載均衡等多項功能,在實時性、分布式、虛擬化基礎(chǔ)上實現(xiàn)海量數(shù)據(jù)存儲、高并發(fā)事務(wù)處理、存儲加密處理、分布式冗余備份、系統(tǒng)動態(tài)擴展等功能。
圖2分布式實時數(shù)據(jù)庫架構(gòu)
在分布式實時數(shù)據(jù)庫的構(gòu)架中,數(shù)據(jù)采集器和數(shù)據(jù)庫服務(wù)器節(jié)點的服務(wù)組件均通過分布式通訊服務(wù)平臺的中間件接口接入該平臺,實現(xiàn)同其他服務(wù)組件的交互。各組件以服務(wù)的方式與其他功能組件進行連接、調(diào)用,可以實現(xiàn)數(shù)據(jù)交互的自由、高效。另外通過與同樣接入該服務(wù)的其他節(jié)點的進行通訊連結(jié),數(shù)據(jù)的收發(fā)也可以通過分布式通訊服務(wù)平臺的接口實現(xiàn)。分布式通訊服務(wù)平臺通過內(nèi)部的緩沖隊列和異步調(diào)用機制,使節(jié)點在數(shù)據(jù)發(fā)送時無需關(guān)心接收節(jié)點的狀態(tài),在接收數(shù)據(jù)時將通過消息回調(diào)實現(xiàn)節(jié)點數(shù)據(jù)獲取。分布式數(shù)據(jù)存儲檢索平臺如圖3所示。
多臺數(shù)據(jù)采集器和數(shù)據(jù)服務(wù)器所需的數(shù)據(jù)存儲、檢索服務(wù)組件通過云服務(wù)接入平臺形成統(tǒng)一的數(shù)據(jù)存儲、數(shù)據(jù)檢索服務(wù)并對外提供該服務(wù),突破了以往單臺實時數(shù)據(jù)處理服務(wù)器的孤島模式,形成一個去中心化的、對等的分布式數(shù)據(jù)存儲、數(shù)據(jù)檢索等功能的系統(tǒng)。數(shù)據(jù)采集器或數(shù)據(jù)服務(wù)器將采集的實時數(shù)據(jù)通過服務(wù)平臺發(fā)送到統(tǒng)一的數(shù)據(jù)存儲服務(wù)功能模塊進行實時數(shù)據(jù)的存儲。而客戶端則通過平臺接口或是Web服務(wù)器連接入到通訊服務(wù)平臺,并向統(tǒng)一的數(shù)據(jù)查詢服務(wù)申請和進行數(shù)據(jù)查詢。對通過分布式通訊服務(wù)平臺向其他節(jié)點發(fā)送數(shù)據(jù)的服務(wù)器節(jié)點來說,數(shù)據(jù)發(fā)送成功就可以認定為數(shù)據(jù)寫入成功。當節(jié)點接收到數(shù)據(jù)時,會通過回調(diào)接口完成數(shù)據(jù)的接收。
圖3分布式實時數(shù)據(jù)存儲檢索平臺
4結(jié)語
本文結(jié)合物聯(lián)網(wǎng)海量數(shù)據(jù)的特征,列舉了物聯(lián)網(wǎng)海量數(shù)據(jù)處理關(guān)鍵技術(shù)及物聯(lián)網(wǎng)對實時數(shù)據(jù)庫技術(shù)的要求;著重分析研究了分布式數(shù)據(jù)庫技術(shù)和基于云技術(shù)實時數(shù)據(jù)庫技術(shù)來解決物聯(lián)網(wǎng)海量數(shù)據(jù)處理的問題。第一,分布式內(nèi)存數(shù)據(jù)庫系統(tǒng)中各節(jié)點內(nèi)存數(shù)據(jù)庫能保持其自治性、數(shù)據(jù)的分布性和數(shù)據(jù)庫間的協(xié)調(diào)性等特點,結(jié)合其數(shù)據(jù)分布的透明性滿足了數(shù)據(jù)庫間平衡的改進,就能很好地解決物聯(lián)網(wǎng)海量數(shù)據(jù)實時處理的要求。第二,本文通過研究高性能分布式存儲技術(shù)與云計算技術(shù),基于分布式應(yīng)用服務(wù),多臺數(shù)據(jù)采集器和數(shù)據(jù)服務(wù)器的數(shù)據(jù)存儲、檢索服務(wù)組件通過云服務(wù)接入平臺結(jié)成一個統(tǒng)一的數(shù)據(jù)存儲、數(shù)據(jù)檢索服務(wù)并對外提供服務(wù),形成一個去中心化的、對等的分布式數(shù)據(jù)存儲、數(shù)據(jù)檢索系統(tǒng)并支持系統(tǒng)規(guī)模動態(tài)擴展,適合并滿足物聯(lián)網(wǎng)海量數(shù)據(jù)處理需求。
參 考 文 獻
[1]劉寶華. 基于內(nèi)存數(shù)據(jù)庫的海量數(shù)據(jù)實時處理策略[J]. 艦船電子對抗, 2013, 36(1): 109–113.
[2]錢益舟. 基于云技術(shù)的分布實時數(shù)據(jù)庫高性能數(shù)據(jù)存儲檢索機制的研究 [D].杭州:浙江大學, 2012.
[3]胡海東. 物聯(lián)網(wǎng)中的海量數(shù)據(jù)處理技術(shù)[J]. 科技創(chuàng)新導報,2013 (3): 188.
[4]高聞迪. 突發(fā)性海量數(shù)據(jù)處理技術(shù)在物聯(lián)網(wǎng)監(jiān)控系統(tǒng)中的研究與應(yīng)用[D].北京:北京郵電大學, 2013.
[5]于秀麗,邢智毅. 面向物聯(lián)網(wǎng)的多媒體數(shù)據(jù)庫檢索技術(shù)應(yīng)用研究[J]. 物聯(lián)網(wǎng)技術(shù),2013,3(2):65-68.
Things massive database technology data processing analysis and research
WENG Zu-quan, ZHANG Qi
(Beijing Saipu Shineford, Technology Co., Ltd.,Ministry of Industry and
Information Technology Software and Integrated Circuit Promotion Center, Beijing 100038, China)
Abstract:With the rapid development of the Internet of things, Increasingly high demand for massive data processing.With regard to the feature of data in internet of things – massive, polymorphism and isomerism, real-time – two kinds of data processing techniques is developed in this article, they are Real-time Memory Database System and Distributed Real-time Database System based on Cloud Computing, Thetwodatabase technical are suitability and meet demand for data processing of IOT’s Massive data.
Keywords: Real-time Database System, Internet of things, massive data, Memory Database System, Cloud Computing