程宇翔,梁均軍,劉洪波,趙翔宇
(1.重慶市地理信息和遙感應用中心,重慶 401121)
隨著信息技術(shù)的快速發(fā)展以及互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新興數(shù)據(jù)的高度發(fā)達,新型智慧城市建設(shè)已離不開大數(shù)據(jù)這個核心引擎[1]。時空大數(shù)據(jù)是大數(shù)據(jù)的重要組成部分,是時間、空間、專題屬性相結(jié)合的三維信息,與地理位置有著直接或間接的關(guān)系。通過集成基礎(chǔ)地理信息數(shù)據(jù)、實時數(shù)據(jù)、公共專題數(shù)據(jù)和空間規(guī)劃數(shù)據(jù),并將其時空化,形成時空大數(shù)據(jù)[2]。應用多源時空大數(shù)據(jù)開展城市的感知、分析、模擬、預測已成為重要的研究方向,時空大數(shù)據(jù)所具有的高時空粒度與跨度、多源樣本覆蓋、人本特征顯著等屬性為城市發(fā)展研究帶來了新的契機[3]。同時,結(jié)合時空大數(shù)據(jù)開展城市的編制、審批、管理、優(yōu)化、動態(tài)監(jiān)測、評估預警也成為規(guī)劃實踐的核心內(nèi)容,改變了傳統(tǒng)規(guī)劃的思維模式[4]。從對象尺度來看,時空大數(shù)據(jù)的應用分析包括建筑、社區(qū)、城市、城鎮(zhèn)群(區(qū)域)、全國乃至全球等不同尺度。在針對大尺度空間、長時間跨度區(qū)域的國土空間分析中,時空大數(shù)據(jù)的應用具有極大的優(yōu)勢。然而,現(xiàn)階段在生產(chǎn)時空數(shù)據(jù)的工作中還面臨著兩個方面的挑戰(zhàn):①目前仍采用傳統(tǒng)的人工處理方式將海量、異構(gòu)的各類數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一基準的時空數(shù)據(jù),轉(zhuǎn)換模式單一,時間成本高昂,數(shù)據(jù)轉(zhuǎn)換效率低下[5-6];②面對不同來源、不同類型的千萬級甚至億級時空數(shù)據(jù)的存儲和計算,傳統(tǒng)基礎(chǔ)設(shè)施難以有效 支撐[7-8]。
鑒于此,本文重點研究了數(shù)據(jù)轉(zhuǎn)換方法、流程轉(zhuǎn)換自動化技術(shù)、時空大數(shù)據(jù)存儲等關(guān)鍵技術(shù),建成了智慧重慶時空數(shù)據(jù)轉(zhuǎn)換服務系統(tǒng),實現(xiàn)了海量、異構(gòu)數(shù)據(jù)從接入、轉(zhuǎn)換、管理、分析、服務到應用的全流程服務。
時空數(shù)據(jù)轉(zhuǎn)換服務系統(tǒng)基于大數(shù)據(jù)平臺建設(shè),利用面向服務的架構(gòu)(SOA)理念,采用層次化結(jié)構(gòu)建設(shè),包括基礎(chǔ)設(shè)施層、平臺層、數(shù)據(jù)層和應用層,如圖1所示。
圖1 時空數(shù)據(jù)轉(zhuǎn)換服務系統(tǒng)總體架構(gòu)圖
1)基礎(chǔ)設(shè)施層負責構(gòu)建系統(tǒng)所需的數(shù)據(jù)處理、存儲和服務等硬件基礎(chǔ)設(shè)施和網(wǎng)絡基礎(chǔ)設(shè)施。
2)平臺層負責支撐時空轉(zhuǎn)換流程的構(gòu)建。該層包括時空轉(zhuǎn)換模型和時空轉(zhuǎn)換組件,其中時空轉(zhuǎn)換模型包含地址匹配模型、數(shù)據(jù)關(guān)聯(lián)模型、實時匹配模型和實體匹配模型;時空轉(zhuǎn)換組件包含地址匹配、建筑物轉(zhuǎn)換糾偏、道路轉(zhuǎn)換糾偏、實時數(shù)據(jù)轉(zhuǎn)換等。
3)數(shù)據(jù)層利用HDFS、PostgreSQL、ElasticSearch等存儲環(huán)境實現(xiàn)時空大數(shù)據(jù)的存儲與訪問,支撐平臺的運行。針對不同的時空數(shù)據(jù)類型,采用不同的方式存儲時空數(shù)據(jù)轉(zhuǎn)換成果。
4)應用層面向不同業(yè)務應用方向,提供企業(yè)、人口等時空主題分析應用以及個性化主題分析應用功能,以快速實現(xiàn)主題分析應用搭建。
通過不同類型的數(shù)據(jù)采集系統(tǒng)獲得的非空間數(shù)據(jù),根據(jù)數(shù)據(jù)產(chǎn)生方式和描述的業(yè)務不同,在空間位置也有不同的描述,如統(tǒng)計數(shù)據(jù)常以行政區(qū)劃名稱描述其空間內(nèi)容、企業(yè)常以注冊地址描述其空間關(guān)系等,因此對非空間數(shù)據(jù)的空間化轉(zhuǎn)換,也存在不同的轉(zhuǎn)換模式,主要包括地址匹配、關(guān)聯(lián)匹配、實時匹配和實體匹配4種方式。
1)地址匹配主要借助于地名地址數(shù)據(jù)庫成果,通過地址匹配服務引擎建立地名地址與空間坐標的對應關(guān)系,能對帶有地名地址描述的數(shù)據(jù)進行空間轉(zhuǎn)換,賦予非空間數(shù)據(jù)坐標信息。
2)關(guān)聯(lián)匹配主要針對數(shù)據(jù)本身沒有空間描述信息,但與其有關(guān)的其他數(shù)據(jù)存在空間描述信息或已賦予坐標的情況,可通過關(guān)聯(lián)數(shù)據(jù)進行時空轉(zhuǎn)換,賦予其相關(guān)數(shù)據(jù)的坐標信息。例如,社保數(shù)據(jù)屬性信息中沒有空間描述信息,但社保與人口數(shù)據(jù)有關(guān)聯(lián)關(guān)系,可通過將人口坐標賦予社保數(shù)據(jù)的方式,實現(xiàn)社保數(shù)據(jù)的空間化轉(zhuǎn)換。
3)實時匹配主要用于實時位置數(shù)據(jù)的接入與數(shù)據(jù)提取轉(zhuǎn)換。實時位置數(shù)據(jù)的處理存在特殊性,其本身已具備坐標信息,但還附屬了設(shè)備信息以及與設(shè)備相關(guān)的業(yè)務信息,在位置數(shù)據(jù)轉(zhuǎn)換時,需要同步獲取設(shè)備信息或相關(guān)業(yè)務狀態(tài)信息,并對設(shè)備數(shù)據(jù)的空間位置和狀態(tài)進行更新處理。例如,在出租車實時位置數(shù)據(jù)轉(zhuǎn)換中,需要同步獲取出租車信息以及是否空載信息,更新出租車專題數(shù)據(jù)。
4)實體匹配主要用于描述地理實體數(shù)據(jù)相關(guān)業(yè)務的非空間數(shù)據(jù)的空間化轉(zhuǎn)換,需要將非空間數(shù)據(jù)與實體數(shù)據(jù)進行融合,賦予非空間數(shù)據(jù)地理實體坐標。例如,道路施工進度信息包含道路實體描述信息,可通過道路實體融合施工進度信息,形成道路施工數(shù)據(jù)的空間化轉(zhuǎn)換。
在進行非時空數(shù)據(jù)向時空數(shù)據(jù)的轉(zhuǎn)換過程中,不僅面對的數(shù)據(jù)種類多、類型復雜,而且各類數(shù)據(jù)均有不同的更新頻率和更新方式,采用傳統(tǒng)匹配或人工處理等空間化處理方式,工作效率低,實施成本高,無法持續(xù)投入建設(shè),因此實現(xiàn)數(shù)據(jù)時空化轉(zhuǎn)換處理的自動化運行是時空數(shù)據(jù)轉(zhuǎn)換服務系統(tǒng)建設(shè)的核心。
數(shù)據(jù)時空化處理包括數(shù)據(jù)接入、清洗、轉(zhuǎn)換、存儲等多個階段,為了滿足處理流程自動化運行要求,需完成數(shù)據(jù)接入標準化、數(shù)據(jù)處理流程化、流程運行任務化、任務執(zhí)行可監(jiān)控等內(nèi)容的設(shè)計與建設(shè),如圖2所示。
圖2 時空數(shù)據(jù)轉(zhuǎn)換服務流程圖
1)數(shù)據(jù)接入標準化主要是指進行時空化轉(zhuǎn)換的數(shù)據(jù)需要建立數(shù)據(jù)描述標準,包括元數(shù)據(jù)標準和數(shù)據(jù)內(nèi)容標準。元數(shù)據(jù)標準主要用于建立數(shù)據(jù)訪問方式、數(shù)據(jù)更新頻率、數(shù)據(jù)關(guān)聯(lián)關(guān)系等信息標準;數(shù)據(jù)內(nèi)容標準主要用于建立數(shù)據(jù)唯一標識、數(shù)據(jù)空間描述字段等信息標準,為數(shù)據(jù)時空化處理提供可自動讀取的信息基礎(chǔ)。
2)數(shù)據(jù)處理流程化主要是指非時空數(shù)據(jù)時空化處理過程需要建立一個可執(zhí)行且固化的數(shù)據(jù)處理流程,但不同的數(shù)據(jù)時空化處理流程也有各種差別,因此該數(shù)據(jù)處理流程支持自定義,即支持對不同數(shù)據(jù)采用不同的時空化處理流程進行定義。本文將在Geo-ETL建設(shè)成果的基礎(chǔ)上,擴充各類數(shù)據(jù)轉(zhuǎn)換組件,實現(xiàn)數(shù)據(jù)時空化處理流程的可視化定義與管理,達到不同數(shù)據(jù)時空化處理流程化的目的。
3)流程運行任務化主要是指已建立的數(shù)據(jù)時空化處理流程需根據(jù)不同的更新頻率進行任務化執(zhí)行,能夠任務化執(zhí)行的流程通過任務調(diào)度技術(shù),可實現(xiàn)流程的自動化運行。本文將借助在線任務調(diào)度技術(shù),融合時空數(shù)據(jù)處理組件,實現(xiàn)數(shù)據(jù)時空化處理流程的自動化運行與可視化調(diào)度管理。
4)任務執(zhí)行可監(jiān)控。由于自動化執(zhí)行的數(shù)據(jù)時空化處理任務的穩(wěn)定性是任務能夠常態(tài)化運行的關(guān)鍵,因此需要實現(xiàn)流程執(zhí)行任務的可視化監(jiān)控與異常排查能力。本文將通過分布式日志收集技術(shù)實現(xiàn)所有任務日志的采集、存儲、分析和可視化建設(shè),進而實現(xiàn)自動化執(zhí)行任務的可視化監(jiān)控、自動化異常告警、處理異常日志分析等功能,保障任務的常態(tài)化可持續(xù)運行。
通過時空數(shù)據(jù)轉(zhuǎn)換服務系統(tǒng)得到的海量成果數(shù)據(jù),日積月累已形成時空大數(shù)據(jù)規(guī)模,傳統(tǒng)的集中式關(guān)系型數(shù)據(jù)庫已無法對TB甚至PB量級數(shù)據(jù)進行高效存儲管理,特別是無法對單表億級數(shù)據(jù)進行高效處理。傳統(tǒng)的計算能力一般為單機單進程或單機多進程處理方式,無法應用多集群并行計算的能力。此外,傳統(tǒng)模式中的多終端訪問很多仍以專題地圖、符號化來表達正常的數(shù)據(jù)規(guī)模,沒有對大數(shù)據(jù)量、多類別、實時數(shù)據(jù)有更直觀、更友好的大數(shù)據(jù)展示方式。因此,需要一個強有力的數(shù)據(jù)處理和承載平臺為大數(shù)據(jù)級別的時空數(shù)據(jù)提供支撐?;跁r空大數(shù)據(jù)的數(shù)據(jù)類別、數(shù)據(jù)特征、數(shù)據(jù)時效性以及數(shù)據(jù)采集的多種接入方式,本文通過融合多種時空大數(shù)據(jù)存儲技術(shù),實現(xiàn)了對多源異構(gòu)數(shù)據(jù)的統(tǒng)一存儲和管理。
針對時空大數(shù)據(jù)體量大、更新頻率快等問題,本文通過大數(shù)據(jù)技術(shù)對時空大數(shù)據(jù)進行分布式存儲,通過地理信息技術(shù)實現(xiàn)了對ElasticSearch、PostgreSQL、MongoDB以及HDFS等數(shù)據(jù)存儲引擎的擴展,使其支持時空數(shù)據(jù)的存儲與計算。系統(tǒng)可根據(jù)不同的數(shù)據(jù)類型選擇不同的數(shù)據(jù)存儲方式,以滿足更多數(shù)據(jù)接入場景與應用場景的需求。時空大數(shù)據(jù)存儲引擎通過統(tǒng)一的分布式集群管理方式對多源異構(gòu)數(shù)據(jù)類別進行高效管理;同時通過標準的服務接口和數(shù)據(jù)API為時空大數(shù)據(jù)交換、分析、應用提供高效的存儲技術(shù)支撐。
在實際應用中,結(jié)構(gòu)化數(shù)據(jù)可采用分布式關(guān)系型數(shù)據(jù)庫PostgreSQL等進行存儲,半結(jié)構(gòu)化數(shù)據(jù)可采用ElasticSearch、HBase進行存儲,非結(jié)構(gòu)化數(shù)據(jù)可采取文件型數(shù)據(jù)庫HDFS進行存儲,以此保障不同類型數(shù)據(jù)能根據(jù)其數(shù)據(jù)特性和應用場景,采用合適的存儲介質(zhì),實現(xiàn)數(shù)據(jù)的便捷管理與高效應用。其中,PostgreSQL數(shù)據(jù)庫主要用于存儲千萬級以下的時空專題數(shù)據(jù),這樣既能滿足其對外提供SQL查詢等正常需求,又能滿足海量數(shù)據(jù)分布式存儲和快速查詢的需求;ElasticSearch主要用于存儲實時動態(tài)數(shù)據(jù),以滿足其數(shù)據(jù)量較大、更新頻率快、聚合統(tǒng)計查詢要求高等需求。
時空數(shù)據(jù)轉(zhuǎn)換服務系統(tǒng)形成了一套自動化的數(shù)據(jù)轉(zhuǎn)換流程,實現(xiàn)了對多個行業(yè)部門業(yè)務的有效空間落地,累計完成1 030余萬條數(shù)據(jù)的時空轉(zhuǎn)換,已廣泛應用于應急管理、城鄉(xiāng)規(guī)劃、市場信用監(jiān)管、教育、醫(yī)療、市政管理、地理國情普查、水利、交通、航運、生態(tài)環(huán)境保護等領(lǐng)域的經(jīng)濟建設(shè)與科學研究中,為全市地理信息應用建設(shè)工作提供了高水平的數(shù)據(jù)轉(zhuǎn)換服務,解決了傳統(tǒng)空間化過程對人工操作依賴程度較高、轉(zhuǎn)換工作費時費力的問題,極大地提高了工作效率。
本文從構(gòu)建智慧重慶時空數(shù)據(jù)轉(zhuǎn)換服務系統(tǒng)的工作實際出發(fā),研究了非空間數(shù)據(jù)的自動時空化模式,設(shè)計了時空數(shù)據(jù)轉(zhuǎn)換服務系統(tǒng)的總體架構(gòu)和轉(zhuǎn)換流程;并利用流程轉(zhuǎn)換自動化、時空大數(shù)據(jù)存儲、時空大數(shù)據(jù)計算、個性化主題分析等關(guān)鍵技術(shù)實現(xiàn)了數(shù)據(jù)從接入、轉(zhuǎn)換、管理、分析、服務到應用的全流程服務,有效解決了目前非空間數(shù)據(jù)時空轉(zhuǎn)換人工依賴程度高、傳統(tǒng)大數(shù)據(jù)環(huán)境無法有效支撐時空大數(shù)據(jù)的高效存儲與計算以及時空數(shù)據(jù)的快速可視化應用等問題。目前已開展了人口、企業(yè)、交通等數(shù)據(jù)的時空化轉(zhuǎn)換,取得了顯著效果,為下一步開展時空數(shù)據(jù)分析決策奠定了技術(shù)基礎(chǔ)。