吳瑞龍,何華貴,王明省,張鵬程,龔磊,曲寧
(廣州市城市規(guī)劃勘測(cè)設(shè)計(jì)研究院,廣東 廣州 510060)
城市地理空間大數(shù)據(jù)是指包含位置信息的特定類型的大數(shù)據(jù),位置信息在大數(shù)據(jù)時(shí)代扮演著重要的角色,目前大多數(shù)數(shù)據(jù)本質(zhì)上是空間數(shù)據(jù),通過(guò)無(wú)處不在的位置感知傳感器如衛(wèi)星、GPS等[1~3],地理空間大數(shù)據(jù)在氣候科學(xué)、災(zāi)害管理、公共衛(wèi)生、精準(zhǔn)農(nóng)業(yè)和智慧城市等廣泛領(lǐng)域的科學(xué)發(fā)現(xiàn)提供了巨大機(jī)遇[4,5]。如何從大數(shù)據(jù)中高效、及時(shí)地提取有意義信息的能力顯得尤為重要,由于大數(shù)據(jù)的“5V”特性:數(shù)量(Volume)、速度(Velocity)、多樣性(Variety)、準(zhǔn)確性(Veracity)、價(jià)值(Value),以及地理空間數(shù)據(jù)的內(nèi)在時(shí)空特征[6,7],高效提取這些有意義的信息和模式具有挑戰(zhàn)性,尤其對(duì)于地理空間大數(shù)據(jù)而言,前四個(gè)特征必須在動(dòng)態(tài)時(shí)空的背景下處理,才能從大數(shù)據(jù)中提取“價(jià)值”,這就給地理空間大數(shù)據(jù)帶來(lái)了進(jìn)一步的挑戰(zhàn)[8]。高性能計(jì)算(HPC)其基本思路是對(duì)問(wèn)題進(jìn)行分而治之,為大數(shù)據(jù)分析提供了一個(gè)基本可行的解決方案[9~11],HPC處理地理空間大數(shù)據(jù)可以幫助我們?cè)跁r(shí)間和空間約束條件下做出更快更好的決策,如自然資源調(diào)查監(jiān)測(cè)、國(guó)土空間規(guī)劃、遙感影像在線服務(wù)、應(yīng)急響應(yīng)等[12~15]。
(1)對(duì)地觀測(cè)
地球觀測(cè)系統(tǒng)利用遠(yuǎn)程傳感器生成大量不同的、動(dòng)態(tài)的、地理分布的地理空間數(shù)據(jù),隨著其越來(lái)越高的空間、時(shí)間和光譜分辨率[16],遙感成為全球范圍內(nèi)收集對(duì)地觀測(cè)數(shù)據(jù)的主要手段之一,近年來(lái)無(wú)人機(jī)遙感為大數(shù)據(jù)采集開(kāi)辟了另一條渠道,以其高機(jī)動(dòng)性、靈活性、時(shí)效性強(qiáng)等優(yōu)勢(shì)被廣泛應(yīng)用于自然資源調(diào)查監(jiān)測(cè)、氣象、測(cè)繪、應(yīng)急等領(lǐng)域,成為城市地理空間大數(shù)據(jù)的重要數(shù)據(jù)來(lái)源[17,18]。
(2)物聯(lián)網(wǎng)
物聯(lián)網(wǎng)(IoT)是Kevin Ashton在1999年使用射頻識(shí)別(RFID)進(jìn)行供應(yīng)鏈管理時(shí)首次提出的,簡(jiǎn)單地說(shuō),物聯(lián)網(wǎng)將“物”與互聯(lián)網(wǎng)連接起來(lái),讓“物”之間相互交流和互動(dòng),形成一個(gè)由物聯(lián)網(wǎng)組成的龐大網(wǎng)絡(luò),包括設(shè)備和對(duì)象,如傳感器、手機(jī)、車(chē)輛、家電和醫(yī)療設(shè)備[19,20],這些設(shè)備加上無(wú)處不在的基于位置的傳感器,正在生成大量的地理空間數(shù)據(jù),與對(duì)地球觀測(cè)生成的結(jié)構(gòu)化多維地理空間數(shù)據(jù)不同,物聯(lián)網(wǎng)持續(xù)生成全球范圍內(nèi)的非結(jié)構(gòu)化或半結(jié)構(gòu)化地理空間數(shù)據(jù)流,這些數(shù)據(jù)流更具動(dòng)態(tài)性、異構(gòu)性等特點(diǎn)[21]。
(3)自發(fā)地理信息
自發(fā)地理信息(VGI)是指由公眾創(chuàng)造和傳播地理信息的過(guò)程,在這個(gè)過(guò)程中,大眾被視為地表自由移動(dòng)的傳感器,無(wú)時(shí)無(wú)刻不在生產(chǎn)空間相關(guān)的數(shù)據(jù)[22,23],同時(shí)隨著5G的發(fā)展普及,數(shù)據(jù)呈爆發(fā)式增長(zhǎng),在GPS和智能終端的支持下,全球數(shù)十億用戶傳感器正在生成和傳播大量的基于位置的數(shù)據(jù)[24,25]。
數(shù)據(jù)存儲(chǔ)和管理對(duì)于任何系統(tǒng)都是必不可少的,使用高性能計(jì)算處理地理空間大數(shù)據(jù)需要考慮兩個(gè)因素:首先,海量的數(shù)據(jù)需要大而可靠的數(shù)據(jù)存儲(chǔ)方案,傳統(tǒng)存儲(chǔ)和保護(hù)容錯(cuò)機(jī)制不能有效地處理PB級(jí)以上數(shù)據(jù);其次,地理空間大數(shù)據(jù)的快速增長(zhǎng)要求存儲(chǔ)方案具有靈活性,方便擴(kuò)展,以滿足數(shù)據(jù)不斷增長(zhǎng)的存儲(chǔ)需求。高性能計(jì)算通常采用三種數(shù)據(jù)存儲(chǔ)方案,如圖1所示:
(1)一切共享架構(gòu)SEA(Share Everything):該架構(gòu)的數(shù)據(jù)存儲(chǔ)和處理通常由一臺(tái)高性能計(jì)算機(jī)支持,并行化通常通過(guò)多核或圖形處理單元(GPU)訪問(wèn)本地磁盤(pán)上的數(shù)據(jù)來(lái)實(shí)現(xiàn),SEA的存儲(chǔ)限制在一臺(tái)計(jì)算機(jī)上,不能有效地處理大容量的數(shù)據(jù)集,不能滿足地理空間大數(shù)據(jù)需求。
(2)共享磁盤(pán)架構(gòu)SDA(Share Disks):SDA是一種傳統(tǒng)高性能數(shù)據(jù)存儲(chǔ)體系結(jié)構(gòu),它將數(shù)據(jù)存儲(chǔ)在一個(gè)共享系統(tǒng)中,該系統(tǒng)可以由網(wǎng)絡(luò)上的計(jì)算機(jī)集群并行訪問(wèn),在大數(shù)據(jù)時(shí)代之前,該架構(gòu)廣泛應(yīng)用于計(jì)算密集型的地理空間應(yīng)用,然而SDA并不能很好地處理大數(shù)據(jù),因?yàn)榇髷?shù)據(jù)量的網(wǎng)絡(luò)傳輸會(huì)迅速造成系統(tǒng)瓶頸,同時(shí)共享磁盤(pán)容易成為系統(tǒng)單點(diǎn)故障。
(3)無(wú)共享架構(gòu)SNA(Share Nothing):該架構(gòu)將數(shù)據(jù)分布式地存儲(chǔ)在集群計(jì)算機(jī)上,每個(gè)計(jì)算機(jī)本地存儲(chǔ)數(shù)據(jù)的一個(gè)子集,各處理單元相互獨(dú)立并通過(guò)協(xié)議通信,各自處理自己的數(shù)據(jù),處理后的結(jié)果向上層匯總或在節(jié)點(diǎn)間流轉(zhuǎn),具有良好的并行處理和擴(kuò)展能力,SNA的一個(gè)經(jīng)典實(shí)現(xiàn)是Hadoop的分布式文件系統(tǒng)HDFS,HDFS將數(shù)據(jù)分割成塊,并將它們存儲(chǔ)在Hadoop集群中不同的計(jì)算節(jié)點(diǎn)上進(jìn)行并行處理,大多數(shù)NoSQL數(shù)據(jù)庫(kù)包括HBase、MongoDB都是像HDFS一樣,采用SNA來(lái)存儲(chǔ)和管理大型非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。由于HDFS和NoSQL數(shù)據(jù)庫(kù)不是為存儲(chǔ)和管理地理空間數(shù)據(jù)而設(shè)計(jì)的,因此有很多研究通過(guò)整合空間數(shù)據(jù)來(lái)修改或擴(kuò)展這些系統(tǒng)以支撐海量的地理空間數(shù)據(jù),如HadoopGIS、SpatialHadoop、GeoSpark等框架,都是通過(guò)擴(kuò)展HDFS來(lái)支持海量空間數(shù)據(jù)的存儲(chǔ)與管理[26~29]。
圖1 高性能計(jì)算系統(tǒng)中不同的數(shù)據(jù)存儲(chǔ)架構(gòu)
空間索引用于從海量空間數(shù)據(jù)集中快速查詢所需數(shù)據(jù),空間索引的性能決定了空間數(shù)據(jù)訪問(wèn)的效率,直接影響并行數(shù)據(jù)處理的性能和空間分析能力。大多數(shù)空間索引基于樹(shù)結(jié)構(gòu),如四叉樹(shù)、Kd-樹(shù)、R-樹(shù)及其變體,四叉樹(shù)遞歸地根據(jù)每個(gè)葉單元的最大數(shù)據(jù)容量將二維空間劃分為四個(gè)象限,Kd樹(shù)是一種二叉樹(shù),通常用于最近鄰搜索,R-樹(shù)類似于Kd樹(shù),但它不僅可以處理點(diǎn)數(shù)據(jù),而且還能處理多邊形數(shù)據(jù),因此R-樹(shù)及其變體被廣泛用于空間索引,特別是針對(duì)地理空間大數(shù)據(jù),樂(lè)鵬、向隆剛等通過(guò)對(duì)SparkRDD進(jìn)行優(yōu)化擴(kuò)展,提升Spark處理大規(guī)模空間數(shù)據(jù)的查詢分析速度,其本質(zhì)也是對(duì)空間索引的優(yōu)化[30,31],SpatialHadoop使用一種基于R樹(shù)的兩級(jí)空間索引機(jī)制來(lái)管理矢量數(shù)據(jù)[26],GeoMesa擴(kuò)展了HBase作為存儲(chǔ)地理空間大數(shù)據(jù)的底層數(shù)據(jù)庫(kù)支撐,基本原理是將時(shí)空數(shù)據(jù)的三個(gè)維度,經(jīng)度、緯度、時(shí)間數(shù)據(jù)按照Z(yǔ)曲線進(jìn)行降維,得到一維數(shù)據(jù)作為RowKey使用,能夠快速有效地實(shí)現(xiàn)對(duì)海量空間大數(shù)據(jù)的查詢處理[32,33],在高性能計(jì)算環(huán)境中處理地理空間大數(shù)據(jù)的大多數(shù)索引方法都需要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換或預(yù)處理。HBase中GeoMesa的索引結(jié)構(gòu)如圖2所示。
圖2 HBase中GeoMesa的索引結(jié)構(gòu)
任務(wù)調(diào)度是指將子任務(wù)分配給并行處理的并行計(jì)算單元如CPU或GPU,是高性能計(jì)算中必不可少的技術(shù),子任務(wù)的分配和執(zhí)行直接影響并行化的性能,為地理空間大數(shù)據(jù)處理設(shè)計(jì)高效的任務(wù)調(diào)度方法,負(fù)載均衡是關(guān)鍵,用以保證每個(gè)計(jì)算單元接收的數(shù)據(jù)處理子任務(wù)數(shù)量相似,以便每個(gè)子任務(wù)同時(shí)完成,在并行計(jì)算中,任務(wù)的完成時(shí)間由最后完成的任務(wù)決定,因此應(yīng)該考慮子任務(wù)處理的數(shù)量和工作負(fù)載[34~36]。雖然大多數(shù)大數(shù)據(jù)處理平臺(tái)如Hadoop都有內(nèi)置的負(fù)載平衡機(jī)制,但它們?cè)谔幚淼乩砜臻g大數(shù)據(jù)時(shí)效率并不高,如GeoSpark、SpatialHadoop等以Hadoop為基礎(chǔ)的框架都是采用通用的負(fù)載平衡機(jī)制[26,27],這就需要結(jié)合地理空間大數(shù)據(jù)的空間特性,有針對(duì)地設(shè)計(jì)負(fù)載均衡算法,使其能夠有效地將地理大數(shù)據(jù)處理進(jìn)行任務(wù)分解,提高并行效率。多任務(wù)并行處理基本框架如圖3所示。
圖3 多任務(wù)并行處理基本框架
霧計(jì)算是一種新興的計(jì)算范式,位于智能終端設(shè)備和傳統(tǒng)云計(jì)算中心之間,其目標(biāo)是實(shí)時(shí)處理分布式物聯(lián)網(wǎng)設(shè)備產(chǎn)生的大數(shù)據(jù),以支持智能城市、精準(zhǔn)農(nóng)業(yè)、災(zāi)害監(jiān)測(cè)和自動(dòng)駕駛等應(yīng)用。傳統(tǒng)物聯(lián)網(wǎng)架構(gòu)中,邊緣設(shè)備計(jì)算能力有限,需要將其產(chǎn)生的數(shù)據(jù)上傳到云進(jìn)行處理,因?yàn)閿?shù)據(jù)通常遠(yuǎn)離云,造成明顯的網(wǎng)絡(luò)延遲[37,38]。霧計(jì)算在邊緣設(shè)備之間提供了一個(gè)中間計(jì)算層,即霧節(jié)點(diǎn)集群,霧節(jié)點(diǎn)具有更強(qiáng)的計(jì)算能力,且靠近網(wǎng)絡(luò)延遲較低的邊緣設(shè)備,可快速將邊緣設(shè)備的數(shù)據(jù)傳輸給它們進(jìn)行實(shí)時(shí)過(guò)濾和處理,邊緣設(shè)備上無(wú)處不在的位置傳感器產(chǎn)生海量地理空間大數(shù)據(jù),實(shí)時(shí)地理空間數(shù)據(jù)處理在霧計(jì)算中至關(guān)重要[39,40],高性能計(jì)算成為霧環(huán)境中地理空間數(shù)據(jù)處理分析快速響應(yīng)的重要保障,研究如何有效地從邊緣設(shè)備傳輸數(shù)據(jù)到云環(huán)境中是非常必要的,需要研究適合霧計(jì)算節(jié)點(diǎn)的地理空間數(shù)據(jù)傳輸、并行計(jì)算算法及平臺(tái),如圖4所示基于霧計(jì)算的地理空間大數(shù)據(jù)計(jì)算框架。
圖4 基于霧計(jì)算的地理空間大數(shù)據(jù)計(jì)算框架
人工智能(AI)是一個(gè)計(jì)算機(jī)科學(xué)領(lǐng)域,它使用計(jì)算機(jī)模擬人類智能來(lái)解決問(wèn)題,深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)在人工智能中的一個(gè)分支[41,42],近年廣泛應(yīng)用在自然語(yǔ)言處理和計(jì)算機(jī)視覺(jué),地理空間人工智能(GeoAI)利用深度學(xué)習(xí)等人工智能技術(shù)從地理空間大數(shù)據(jù)中提取有價(jià)值的信息,GeoAI已經(jīng)廣泛應(yīng)用于各個(gè)領(lǐng)域,特別是在遙感應(yīng)用領(lǐng)域,如圖像分類、目標(biāo)檢測(cè)、土地覆蓋制圖等[43~45]。將高性能計(jì)算應(yīng)用于GeoAI能夠訓(xùn)練更優(yōu)的神經(jīng)網(wǎng)絡(luò)模型,較大程度改善學(xué)習(xí)成果,國(guó)內(nèi)外科技巨頭一直致力于運(yùn)行在大型計(jì)算集群上的人工智能平臺(tái)研究,然而目前大多數(shù)GeoAI研究都是在單節(jié)點(diǎn)計(jì)算機(jī)或工作站上進(jìn)行的,使用相對(duì)少量的數(shù)據(jù)來(lái)訓(xùn)練模型,大多缺乏面向地理空間數(shù)據(jù)的深度學(xué)習(xí)平臺(tái),只支持將整個(gè)訓(xùn)練集讀取到計(jì)算機(jī)內(nèi)存中,難以擴(kuò)展到大數(shù)據(jù)集中,這就迫切需要從地理空間大數(shù)據(jù)和工程學(xué)角度開(kāi)展更多的研究,開(kāi)發(fā)高性能、可擴(kuò)展的地理空間大數(shù)據(jù)框架和平臺(tái),充分利用地理空間大數(shù)據(jù)構(gòu)建更大、更好的模型。
地理空間異質(zhì)性體現(xiàn)在多個(gè)方面,包括數(shù)據(jù)收集方法、數(shù)據(jù)模型、數(shù)據(jù)格式、時(shí)空尺度、分辨率等,基于位置的傳感器從各行各業(yè)收集地理空間大數(shù)據(jù),進(jìn)一步造成異質(zhì)性,這種異構(gòu)性使得地理空間大數(shù)據(jù)與高性能計(jì)算的集成和融合更具挑戰(zhàn)性[46,47]。目前的高性能計(jì)算研究側(cè)重于使用特定并行算法處理特定類型的地理空間數(shù)據(jù),主要原因是缺乏統(tǒng)一的參考框架對(duì)地理空間數(shù)據(jù)進(jìn)行有效存儲(chǔ)、集成和管理,傳統(tǒng)坐標(biāo)系統(tǒng)如CGCS2000,WGS84作為參考框架已經(jīng)被廣泛應(yīng)用,在異構(gòu)空間大數(shù)據(jù)場(chǎng)景下,往往需要將各種坐標(biāo)系進(jìn)行統(tǒng)一,會(huì)產(chǎn)生大量的坐標(biāo)投影轉(zhuǎn)換工作,OGC在2017年提出了全球離散網(wǎng)格系統(tǒng)(DGGS)新一代參考系統(tǒng)標(biāo)準(zhǔn)規(guī)范,該參考系統(tǒng)旨在提供一個(gè)統(tǒng)一的、全局一致的參考框架,以集成不同時(shí)空尺度和分辨率的異構(gòu)空間數(shù)據(jù),如柵格數(shù)據(jù)、矢量數(shù)據(jù)和點(diǎn)云數(shù)據(jù)等,DGGS通過(guò)劃分離散的數(shù)據(jù)子集,進(jìn)行存儲(chǔ)和管理[48,49],非常適合高性能計(jì)算的并行處理,目前大多數(shù)基于高性能計(jì)算的空間數(shù)據(jù)處理研究和工具仍停留在傳統(tǒng)的參考框架上,DGGS框架下結(jié)合高性能計(jì)算的時(shí)空索引、并行算法和大數(shù)據(jù)計(jì)算平臺(tái)有待進(jìn)一步研究。
城市地理空間大數(shù)據(jù)在大數(shù)據(jù)時(shí)代發(fā)揮著越來(lái)越重要的作用,高效地處理地理空間大數(shù)據(jù)對(duì)于挖掘地理信息進(jìn)行知識(shí)發(fā)現(xiàn)和決策輔助具有重要意義,利用高性能計(jì)算來(lái)處理地理空間大數(shù)據(jù)是可行的解決方案。本文首先總結(jié)了地理空間大數(shù)據(jù)的主要來(lái)源,討論了使用高性能計(jì)算處理地理空間大數(shù)據(jù)的關(guān)鍵技術(shù),最后在高性能計(jì)算和地理空間大數(shù)據(jù)的背景下,討論了高性能計(jì)算在處理地理空間大數(shù)據(jù)的發(fā)展趨勢(shì),地理空間大數(shù)據(jù)同時(shí)給高性能計(jì)算帶來(lái)了新的挑戰(zhàn)和機(jī)遇,地理空間大數(shù)據(jù)、云計(jì)算、霧計(jì)算和人工智能的交叉學(xué)科影響正推動(dòng)和重塑地理空間數(shù)據(jù)科學(xué)。