孔令禮
(山西省測繪地理信息局,山西 太原 030001)
面向智慧城市的大數(shù)據(jù)中心建設(shè)方案設(shè)計(jì)
孔令禮
(山西省測繪地理信息局,山西 太原 030001)
分析了智慧城市大數(shù)據(jù)的分類與特性,基于分布式存儲(chǔ)與云計(jì)算技術(shù)設(shè)計(jì)了智慧城市數(shù)據(jù)模型,該模型能夠高效地組織存儲(chǔ)地理數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)等智慧城市的關(guān)鍵數(shù)據(jù)組成部分,采用智慧城市數(shù)據(jù)模型搭建了智慧城市大數(shù)據(jù)中心的建設(shè)框架。
智慧城市; 大數(shù)據(jù); 數(shù)據(jù)中心; 分布式
隨著云計(jì)算、物聯(lián)網(wǎng)、新一代移動(dòng)寬帶網(wǎng)絡(luò)等技術(shù)的迅速發(fā)展和深入應(yīng)用,信息化向更高階段的智慧化發(fā)展,智慧城市的概念迅速崛起并快速發(fā)展[1]。城市智慧化已成為繼工業(yè)化、電氣化、信息化之后的新一次浪潮,是目前最熱門的研究課題之一。智慧城市以地理空間數(shù)據(jù)為載體,融合專題業(yè)務(wù)數(shù)據(jù),依托互聯(lián)網(wǎng)為社會(huì)公眾、政府部門及企事業(yè)單位等提供查詢、分析、輔助決策等服務(wù)。智慧城市的建設(shè)能夠極大地促進(jìn)城市數(shù)據(jù)資源的集成、開發(fā)和利用,然而,如何全面高效地組織和存儲(chǔ)智慧城市涉及的海量多源異構(gòu)數(shù)據(jù),是建設(shè)智慧城市面臨的首要問題。
本文基于分布式存儲(chǔ)與云計(jì)算技術(shù)設(shè)計(jì)了智慧城市數(shù)據(jù)模型,該模型能夠高效地組織存儲(chǔ)地理數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)等智慧城市的關(guān)鍵數(shù)據(jù)組成部分,并且基于智慧城市數(shù)據(jù)模型搭建了智慧城市大數(shù)據(jù)中心的建設(shè)框架,在兼容現(xiàn)有城市信息化成果的基礎(chǔ)上,解決了海量多源異構(gòu)智慧城市數(shù)據(jù)的組織管理問題。
1.1 智慧城市大數(shù)據(jù)的分類
智慧城市是以人為主體,以空間利用為特點(diǎn),以集聚效益為目的的空間地域系統(tǒng)[2]。基于城市數(shù)據(jù)的類別、分布、規(guī)律等特征,不同行業(yè)部門和應(yīng)用領(lǐng)域?qū)Τ鞘袛?shù)據(jù)有不同的劃分標(biāo)準(zhǔn),如國家標(biāo)準(zhǔn)有《基礎(chǔ)地理信息要素分類與代碼》(GB/T 13923—2006),行業(yè)標(biāo)準(zhǔn)有《城市市政綜合監(jiān)管信息系統(tǒng)管理部件和事件分類、編碼及數(shù)據(jù)要求》(CJ/T 214—2007)。依據(jù)數(shù)據(jù)的獲取方式、用途與固有特性,本文將智慧城市涉及的數(shù)據(jù)分為3種類型:地理數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、實(shí)時(shí)數(shù)據(jù)。詳細(xì)內(nèi)容如下:
(1) 地理數(shù)據(jù):地理數(shù)據(jù)作為統(tǒng)一的空間定位框架和空間分析基礎(chǔ)的地理單元載體,是城市數(shù)據(jù)的基礎(chǔ)和關(guān)鍵組成部分,包括矢量數(shù)據(jù)(地理實(shí)體數(shù)據(jù)集、路徑規(guī)劃數(shù)據(jù)集等)、瓦片數(shù)據(jù)(地圖瓦片、三維地形瓦片、建筑物模型瓦片等)、索引數(shù)據(jù)(地名地址索引、公交站點(diǎn)索引等)、柵格數(shù)據(jù)(遙感影像數(shù)據(jù)、數(shù)字表面模型數(shù)據(jù)等)、表格數(shù)據(jù)(屬性表、統(tǒng)計(jì)表等)。
(2) 業(yè)務(wù)數(shù)據(jù):各行政部門及各行業(yè)的專題數(shù)據(jù),如城市規(guī)劃、人口戶籍、金融物價(jià)、醫(yī)療衛(wèi)生、能源消耗等。
(3) 實(shí)時(shí)數(shù)據(jù):具有實(shí)時(shí)更新特性的數(shù)據(jù),對(duì)數(shù)據(jù)的時(shí)效性要求較高,如環(huán)境監(jiān)測數(shù)據(jù)、天氣監(jiān)測數(shù)據(jù)、客流量數(shù)據(jù)、視頻監(jiān)控?cái)?shù)據(jù)等。
1.2 智慧城市大數(shù)據(jù)的特性
1.2.1 大數(shù)據(jù)特性
城市數(shù)據(jù)種類繁雜、規(guī)模龐大,包含的信息與知識(shí)極為豐富,同時(shí)由于數(shù)據(jù)稀疏性的影響,城市數(shù)據(jù)的價(jià)值密度也較低。綜上可以看出,城市數(shù)據(jù)完全符合大數(shù)據(jù)所具有的4V特性,可謂是大數(shù)據(jù)范疇中一個(gè)極具代表性的典型樣本。
1.2.2 時(shí)空多維特性
以地圖為基礎(chǔ)的時(shí)空多維特性是城市數(shù)據(jù)的另一個(gè)重要特點(diǎn)。在空間上,根據(jù)城市規(guī)模和數(shù)據(jù)獲取方式的不同,城市數(shù)據(jù)具有不同尺度的空間跨度;在時(shí)間上,根據(jù)產(chǎn)生的時(shí)間不同,城市數(shù)據(jù)具有時(shí)間相關(guān)的變化和分布。因此在進(jìn)行城市數(shù)據(jù)分析和應(yīng)用時(shí),一方面需要考慮時(shí)間和空間兩個(gè)維度的數(shù)據(jù)演化特性,另一方面還需要充分利用時(shí)間和空間不同維度之間的數(shù)據(jù)關(guān)聯(lián)關(guān)系。
1.2.3 多源與異構(gòu)特性
智慧城市數(shù)據(jù)具有非常多的類型與來源,其底層結(jié)構(gòu)、組織方式、維度及粒度都存在較大的差異。如氣象是時(shí)序數(shù)據(jù)、興趣點(diǎn)是空間點(diǎn)數(shù)據(jù)、道路是空間圖數(shù)據(jù)、人的移動(dòng)是軌跡數(shù)據(jù)(時(shí)間+空間)、交通流量是流數(shù)據(jù)、社交網(wǎng)上用戶發(fā)布的信息是文本或圖像數(shù)據(jù)[8]。
本文依據(jù)智慧城市數(shù)據(jù)的3種類型,分別設(shè)計(jì)了適合的數(shù)據(jù)模型,以達(dá)到管理和整合大規(guī)模異構(gòu)數(shù)據(jù)的目的。
2.1 地理數(shù)據(jù)模型
本文采用四叉樹結(jié)構(gòu)對(duì)地理空間進(jìn)行規(guī)則劃分,以地理網(wǎng)格的方式將研究范圍劃分為多個(gè)地理塊對(duì)象并把這些地理塊對(duì)象的內(nèi)部結(jié)構(gòu)使用文檔數(shù)據(jù)模型依次描述和保存。文檔模型存儲(chǔ)數(shù)據(jù)的方式是閉包鍵值對(duì),這種保存方法和關(guān)系模型的保存方式是不同的,它支持嵌套的結(jié)構(gòu),而且不存在強(qiáng)制的模式限制。本文所采用的模型可以有效地解決異構(gòu)空間數(shù)據(jù)的一些關(guān)鍵問題,如數(shù)據(jù)管理、統(tǒng)一組織、調(diào)度及存儲(chǔ)等。邏輯表達(dá)如圖1所示。
圖1 數(shù)據(jù)模型邏輯表達(dá)[12]
本文采用四叉樹的方法對(duì)全球地理空間進(jìn)行多尺度劃分,按照層次結(jié)構(gòu)將所有的地理網(wǎng)格和對(duì)應(yīng)的異構(gòu)空間數(shù)據(jù)統(tǒng)一存檔,搭建了智慧城市地理空間數(shù)據(jù)的組織框架。地理網(wǎng)格中的異構(gòu)空間數(shù)據(jù)以文檔的方式進(jìn)行表達(dá),便于使用文檔數(shù)據(jù)庫(如Mongodb)進(jìn)行分布式存儲(chǔ)。
2.2 業(yè)務(wù)數(shù)據(jù)模型
列式存儲(chǔ)(column-based storage)是用二維表的形式存儲(chǔ)數(shù)據(jù),首先以一維字符串的形式存儲(chǔ)一列的數(shù)據(jù),然后再進(jìn)行下一列數(shù)據(jù)的存儲(chǔ)。該方法采用稀疏存儲(chǔ)的方式,因此同一表中的每一行可以存在不同的列。對(duì)比行式存儲(chǔ),列式存儲(chǔ)有很多優(yōu)點(diǎn),如更高的數(shù)據(jù)壓縮比、便于聯(lián)機(jī)分析、查詢快與存儲(chǔ)海量數(shù)據(jù)等。列式數(shù)據(jù)模型概念視圖見表1。
列式數(shù)據(jù)模型包括以下幾個(gè)組成部分:
(1) 表。列式數(shù)據(jù)模型的基本管理單元是表,它的排序是按行進(jìn)行的,存儲(chǔ)是按列進(jìn)行的。
表1 列式數(shù)據(jù)模型概念視圖
(2) 行鍵。Key作為每行的唯一標(biāo)識(shí),是該行的主鍵,用來檢索記錄。
(3) 列簇。列簇由表的Schema獨(dú)自定義,很多列可以同時(shí)出現(xiàn)在一個(gè)列簇中,任意多版本數(shù)據(jù)可以包含于一個(gè)列中。
(4) 列名。列簇前綴和修飾符連接構(gòu)成一個(gè)列名。例如article:contents,article是列簇前綴,contents是修飾符,兩者由冒號(hào)(:)連接。
(5) 時(shí)間戳。列值版本用64位整型的時(shí)間戳表示,精度為毫秒。
智慧城市中的業(yè)務(wù)數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù),具備大數(shù)據(jù)的特性,其應(yīng)用場景中經(jīng)常存在批量讀取與聚合分析等操作,適合使用列式數(shù)據(jù)模型進(jìn)行存儲(chǔ)?,F(xiàn)有城市信息化成果多以關(guān)系數(shù)據(jù)庫存儲(chǔ)業(yè)務(wù)數(shù)據(jù),關(guān)系數(shù)據(jù)庫采用行式存儲(chǔ),由于行式存儲(chǔ)與列式存儲(chǔ)可以相互轉(zhuǎn)換,因此現(xiàn)有城市信息化成果的業(yè)務(wù)數(shù)據(jù)可以無縫遷移到本文的業(yè)務(wù)數(shù)據(jù)模型中。
2.3 實(shí)時(shí)數(shù)據(jù)模型
對(duì)于實(shí)時(shí)數(shù)據(jù)首先采用實(shí)時(shí)數(shù)據(jù)庫進(jìn)行存儲(chǔ)和管理,經(jīng)處理后再進(jìn)行持久化存儲(chǔ)。實(shí)時(shí)數(shù)據(jù)在時(shí)間變化的過程中更新較快,因此數(shù)據(jù)容易“過期”,系統(tǒng)不僅要保證數(shù)據(jù)庫內(nèi)部狀態(tài)(數(shù)據(jù)值)正確,還要保證內(nèi)外狀況的匹配,產(chǎn)生新數(shù)據(jù)與原數(shù)據(jù)時(shí)在時(shí)間上也要保證一定的精度。
實(shí)時(shí)數(shù)據(jù)模型描述如下:數(shù)據(jù)對(duì)象d有dv、dtp、devi這3個(gè)分量,依次代表d的現(xiàn)值、采樣時(shí)間、外部有效期。實(shí)時(shí)數(shù)據(jù)模型有內(nèi)部一致性、外部一致性和相互一致性特征。
(1) 內(nèi)部一致性:即數(shù)據(jù)正確性,dv需滿足預(yù)先定義的數(shù)據(jù)庫內(nèi)部狀態(tài)的完整性和一致性限制。
(2) 外部一致性:設(shè)tc為當(dāng)前時(shí)間或檢測時(shí)間,當(dāng)且僅當(dāng)(tc-dtp)≤devi,d是外部一致的,即dv的狀態(tài)與外部對(duì)應(yīng)的對(duì)象狀態(tài)一致。
(3) 相互一致性:用來產(chǎn)生新數(shù)據(jù)的一組有關(guān)聯(lián)的數(shù)據(jù)是一個(gè)相互一致集,記為R,R中的數(shù)據(jù)應(yīng)能夠在同一個(gè)公共時(shí)間段內(nèi)被取出,該公共時(shí)間段即為R的相互有效期,記為Rmvi,假如R中任意兩個(gè)數(shù)據(jù)d和d′,|dtp-d′tp|≤Rmvi都成立,那么R是相互一致的。
3.1 建設(shè)框架
本文充分考慮大數(shù)據(jù)價(jià)值的發(fā)揮與可持續(xù)發(fā)展的要求,以數(shù)據(jù)中心、服務(wù)支撐相結(jié)合的技術(shù)路線,建立從基礎(chǔ)設(shè)施、數(shù)據(jù)存儲(chǔ)管理、平臺(tái)整合到對(duì)外服務(wù)的一體化大數(shù)據(jù)中心,將地理空間大數(shù)據(jù)、業(yè)務(wù)專題大數(shù)據(jù)及各類傳感器采集的大數(shù)據(jù)進(jìn)行有效管理,提供基礎(chǔ)服務(wù)與專題服務(wù)。數(shù)據(jù)中心建設(shè)框架如圖2所示。
3.2 技術(shù)架構(gòu)
智慧城市的大數(shù)據(jù)中心不再是傳統(tǒng)意義上的機(jī)房、服務(wù)器的集合,而是一套完整、復(fù)雜、龐大的綜合系統(tǒng),可以做到對(duì)時(shí)空大數(shù)據(jù)和各種信息的聚集處理、傳輸、交換、存儲(chǔ)和管理。其技術(shù)架構(gòu)如圖3所示。
面對(duì)智慧城市中各類數(shù)量龐大的數(shù)據(jù),尤其是空間數(shù)據(jù)、視頻數(shù)據(jù)等非結(jié)構(gòu)化的數(shù)據(jù),傳統(tǒng)關(guān)系數(shù)據(jù)庫已無法滿足智慧城市大數(shù)據(jù)存儲(chǔ)管理的需求。由于NoSQL數(shù)據(jù)庫的水平擴(kuò)展、非線性、分布式等優(yōu)點(diǎn),其已經(jīng)廣泛應(yīng)用于大數(shù)據(jù)領(lǐng)域中,如Google的Bigtable、以Hadoop為架構(gòu)的HBase等。本文采用開源技術(shù)構(gòu)建核心技術(shù)體系,以分布式文件系統(tǒng)(HDFS)、列式數(shù)據(jù)庫(HBase)和文檔數(shù)據(jù)庫(MongoDB)作為數(shù)據(jù)存儲(chǔ)底層基礎(chǔ),利用YRAN實(shí)現(xiàn)資源的調(diào)度和管理,通過Hlive實(shí)現(xiàn)類似SQL的數(shù)據(jù)庫操作能力,利用Sqoop將關(guān)系數(shù)據(jù)轉(zhuǎn)換到HBase中,由Spark和Mahout處理復(fù)雜模型的并行計(jì)算,實(shí)現(xiàn)了在云環(huán)境中的非結(jié)構(gòu)化、半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)到分布式文件系統(tǒng)的存儲(chǔ)和導(dǎo)出功能,并保證了數(shù)據(jù)的安全性。
本方案采用了大表文件索引、云計(jì)算技術(shù)、分布式文件系統(tǒng)、虛擬化等成熟的云存儲(chǔ)和分布式技術(shù),提供了基礎(chǔ)的存儲(chǔ)與私有云環(huán)境,解決了海量多源異構(gòu)數(shù)據(jù)的高效組織、管理、并發(fā)服務(wù)等問題,另外,本方案設(shè)計(jì)了多主題融合庫,為特定應(yīng)用場景下的數(shù)據(jù)分析與可視化提供了快速的數(shù)據(jù)入口,避免了同類型數(shù)據(jù)的多次提取。
圖2 智慧城市大數(shù)據(jù)中心框架
圖3 智慧城市大數(shù)據(jù)中心技術(shù)架構(gòu)
智慧城市是我國城市化進(jìn)程中的重要機(jī)遇和挑戰(zhàn),云計(jì)算與大數(shù)據(jù)技術(shù)的應(yīng)用為構(gòu)建智慧城市帶來了可能[4]。本文分析了智慧城市建設(shè)中大數(shù)據(jù)組織管理的關(guān)鍵技術(shù),設(shè)計(jì)了智慧城市的數(shù)據(jù)模型,進(jìn)行了詳細(xì)的分析闡述,并基于該數(shù)據(jù)模型搭建了智慧城市大數(shù)據(jù)中心的建設(shè)框架。
本文基于分布式技術(shù),解決了智慧城市大數(shù)據(jù)的組織管理問題,但對(duì)城市數(shù)據(jù)挖掘算法模型尚未探討,這也是將來的重點(diǎn)研究方向。
[1] 趙元,彭玲,池天河,等.智慧城市綜合信息分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].測繪通報(bào),2014(11):116-119.
[2] 楊麗娜,邵靜,彭玲,等.面向智慧城市數(shù)據(jù)管理和多維決策的時(shí)空數(shù)據(jù)倉庫建設(shè)[J].測繪科學(xué),2014, 39(8):44-49.
[3] 龔健雅,李小龍,吳華意.實(shí)時(shí)GIS時(shí)空數(shù)據(jù)模型[J].測繪學(xué)報(bào),2014,43(3):226-232.
[4] 朱亞杰,李琦,馮逍.基于大數(shù)據(jù)的智慧城市技術(shù)體系架構(gòu)研究[J].測繪科學(xué),2014,39(8):70-73.
[5] 翟永,劉津,陳杰,等.天地圖網(wǎng)站云架構(gòu)系統(tǒng)設(shè)計(jì)[J].信息安全與通信保密,2012(9):81-83.
[6] 涂振發(fā).云計(jì)算環(huán)境下海量空間數(shù)據(jù)高效存儲(chǔ)關(guān)鍵技術(shù)研究[D].武漢:武漢大學(xué),2012.
[7] 張小娟.智慧城市系統(tǒng)的要素、結(jié)構(gòu)及模型研究[D].廣州:華南理工大學(xué),2015.
[8] 鄭宇.城市計(jì)算概述[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2015,40(1):1-13.
[9] 李寅超,李建松.一種基于對(duì)象和快照的混合地表覆蓋時(shí)空數(shù)據(jù)存儲(chǔ)模型[J].測繪學(xué)報(bào),2016,45(7):858-865.
[10] 胡正華,孟令奎,張文.面向關(guān)系數(shù)據(jù)庫擴(kuò)展的自適應(yīng)影像金字塔模型[J].測繪學(xué)報(bào),2015,44(6):678-685.
[11] 王靜遠(yuǎn),李超,熊璋,等.以數(shù)據(jù)為中心的智慧城市研究綜述[J].計(jì)算機(jī)研究與發(fā)展,2014,51(2):239-259.
[12] 楊耀東.面向文檔的空間數(shù)據(jù)組織[D].北京:北京建筑大學(xué),2013.
[13] HASHEM I A T, CHANG V, ANUAR N B, et al. The Role of Big Data in Smart City[J]. International Journal of Information Management, 2016, 36(5):748-758.
[14] WEI J Y, CHEN H, ZHI-TAO W U. Research on the Construction of Smart City Based on the Big Data Background[J]. Science & Technology Vision,2016(20):6-7.
[15] SUN A, TONGKAI J I. Big Data Open Platform and Industrial Ecology Construction for Smart City[J]. Big Data Research, 2016(4):69-82.
DesignofLargeDataCenterConstructionforSmartCity
KONG Lingli
(Administration of Surveying,Mapping and Geoinformation of Shanxi,Taiyuan 030001,China)
The paper analyzes the classification and characteristics of big data of smart city, and designs the smart city data model based on distributed storage and cloud computing technology. The model can efficiently organize and store the key data components of smart city such as geographic data, business data and real-time data, and use the model to build a framework of smart city data center.
smart city; big data; data center; distribution
孔令禮.面向智慧城市的大數(shù)據(jù)中心建設(shè)方案設(shè)計(jì)[J].測繪通報(bào),2017(10):143-147.
10.13474/j.cnki.11-2246.2017.0334.
2017-03-13;
2017-06-28
孔令禮(1963—),男,高級(jí)工程師,主要研究方向?yàn)镚IS。E-mail:zwzhlj@126.com
P208
A
0494-0911(2017)10-0143-05