陳霞
(亳州工業(yè)學(xué)校,安徽 亳州 236000)
針對(duì)當(dāng)前遙感圖像數(shù)據(jù)海量、更新頻繁等特點(diǎn),本項(xiàng)目擬采用基于云計(jì)算的并行計(jì)算技術(shù),研究基于云計(jì)算的遙感圖像數(shù)據(jù)存儲(chǔ)與管理方法?;诜植际接?jì)算、分布式存儲(chǔ)等技術(shù),面向遙感數(shù)據(jù)對(duì)象識(shí)別、變化檢測等實(shí)際應(yīng)用需求,利用自主開發(fā)的在線樣本收集技術(shù)和深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)多源遙感圖像的自動(dòng)判讀。
同時(shí),該平臺(tái)也為模型預(yù)測結(jié)果的人為修正提供了依據(jù),并將這些人為的反饋信息傳遞給模型訓(xùn)練模塊,使其能夠自我迭代學(xué)習(xí)。相比傳統(tǒng)的離線圖像數(shù)據(jù)處理方式,該系統(tǒng)采用分布式存儲(chǔ)計(jì)算模式,可有效地減少圖像數(shù)據(jù)在生產(chǎn)中的存儲(chǔ)分配問題,并可有效地簡化深度遙感模型的訓(xùn)練過程,從而提高深度遙感模型的訓(xùn)練效率,從而為大規(guī)模遙感數(shù)據(jù)的管理和應(yīng)用研究提供新的思路。
遙感大數(shù)據(jù)分布式管理與訓(xùn)練云平臺(tái)是基于遙感大數(shù)據(jù)的資源池,支持多任務(wù)并行處理和海量數(shù)據(jù)的并行存儲(chǔ)與計(jì)算,將海量遙感數(shù)據(jù)從集中式管理模式轉(zhuǎn)變?yōu)榉植际焦芾砟J健T撈脚_(tái)可以滿足用戶在不同層次的需求,例如:
(1)系統(tǒng)用戶可以根據(jù)自身的需求,對(duì)遙感大數(shù)據(jù)進(jìn)行不同的計(jì)算任務(wù)分配和存儲(chǔ)任務(wù)分配。
(2)用戶可以根據(jù)自己的工作需要,在平臺(tái)上自定義遙感大數(shù)據(jù)計(jì)算任務(wù)。
(3)用戶可以根據(jù)自己的需要,將已有的遙感大數(shù)據(jù)資源以不同方式組合在一起,構(gòu)建一個(gè)新的計(jì)算模型。
(4)用戶可以通過對(duì)已有資源的配置,對(duì)遙感大數(shù)據(jù)進(jìn)行動(dòng)態(tài)調(diào)整、升級(jí)和擴(kuò)容。
(5)用戶可以對(duì)自己在平臺(tái)上構(gòu)建出來的計(jì)算模型進(jìn)行分析與評(píng)估。
遙感大數(shù)據(jù)分布式管理與訓(xùn)練云平臺(tái)系統(tǒng)具有以下特點(diǎn):
(1)基于資源池機(jī)制,支持多任務(wù)并行計(jì)算和海量數(shù)據(jù)處理。
(2)基于Hadoop 大數(shù)據(jù)技術(shù),支持分布式存儲(chǔ)和分布式計(jì)算。
(3)基于MapReduce 分布式并行計(jì)算框架,支持對(duì)遙感大數(shù)據(jù)進(jìn)行實(shí)時(shí)分析、挖掘和建模。
(4)支持云存儲(chǔ)、云備份和云監(jiān)控。
遙感大數(shù)據(jù)訓(xùn)練云平臺(tái)的總體架構(gòu)包含云管理系統(tǒng)、遙感數(shù)據(jù)存儲(chǔ)系統(tǒng)和遙感數(shù)據(jù)處理系統(tǒng)。其中,云管理系統(tǒng)主要用于對(duì)遙感數(shù)據(jù)進(jìn)行統(tǒng)一的管理和監(jiān)控,其功能主要包括對(duì)存儲(chǔ)空間、文件資源的統(tǒng)一分配以及對(duì)計(jì)算任務(wù)進(jìn)行動(dòng)態(tài)調(diào)度等。遙感數(shù)據(jù)存儲(chǔ)系統(tǒng)是將所有的遙感數(shù)據(jù)以文件的形式存儲(chǔ)在一個(gè)數(shù)據(jù)庫中,便于管理和使用。遙感數(shù)據(jù)處理系統(tǒng)是對(duì)遙感數(shù)據(jù)進(jìn)行初步的計(jì)算和分析,然后通過計(jì)算結(jié)果將分析結(jié)果保存到數(shù)據(jù)庫中,并生成可視化的圖表。同時(shí),將分析結(jié)果進(jìn)行存儲(chǔ),以便于進(jìn)一步的挖掘和使用。遙感數(shù)據(jù)管理與訓(xùn)練云平臺(tái)構(gòu)成了一個(gè)完整的體系結(jié)構(gòu),該體系結(jié)構(gòu)主要由云管理、云存儲(chǔ)、云應(yīng)用和云訓(xùn)練四個(gè)部分組成。
其中,云管理是整個(gè)體系結(jié)構(gòu)的核心,其功能是將所有與之相關(guān)的資源進(jìn)行統(tǒng)一管理。云管理主要包含用戶管理、權(quán)限管理、設(shè)備管理等功能,以實(shí)現(xiàn)對(duì)整個(gè)云計(jì)算平臺(tái)的統(tǒng)一管理。
云存儲(chǔ)則主要用于實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)服務(wù)和資源共享服務(wù)。
云應(yīng)用則是對(duì)云應(yīng)用進(jìn)行開發(fā)的平臺(tái),其主要功能是通過對(duì)用戶提交的遙感數(shù)據(jù)進(jìn)行分析,來挖掘數(shù)據(jù)中的特征信息,以便于進(jìn)一步的數(shù)據(jù)挖掘和分析。
云訓(xùn)練則是對(duì)云計(jì)算平臺(tái)提供服務(wù)的能力進(jìn)行訓(xùn)練,其主要功能是對(duì)云計(jì)算平臺(tái)提供的服務(wù)能力進(jìn)行訓(xùn)練。
該體系結(jié)構(gòu)中,用戶可以根據(jù)自己的需求將不同種類、不同用途的資源統(tǒng)一管理起來,從而達(dá)到充分利用資源、提高效率的目的。
在遙感大數(shù)據(jù)的處理中,通過對(duì)大數(shù)據(jù)應(yīng)用框架進(jìn)行訓(xùn)練,從而達(dá)到提高訓(xùn)練效率的目的。而在分布式訓(xùn)練框架設(shè)計(jì)中,主要包括數(shù)據(jù)傳輸模塊、數(shù)據(jù)存儲(chǔ)模塊和算法調(diào)用模塊。在數(shù)據(jù)傳輸模塊中,主要是將訓(xùn)練數(shù)據(jù)從服務(wù)器端傳輸?shù)娇蛻舳?,使客戶端能夠直接從服?wù)器端下載訓(xùn)練數(shù)據(jù);在數(shù)據(jù)存儲(chǔ)模塊中,將分布式訓(xùn)練框架中的模型文件和參數(shù)文件存放于云存儲(chǔ)平臺(tái)中,并利用緩存機(jī)制,將客戶端下載的模型文件和參數(shù)文件緩存起來;在算法調(diào)用模塊中,利用機(jī)器學(xué)習(xí)算法來訓(xùn)練深度學(xué)習(xí)模型。
從遙感大數(shù)據(jù)的訓(xùn)練框架設(shè)計(jì)上來看,主要包括以下幾個(gè)模塊:
(1)分布式訓(xùn)練框架?;?Hadoop 集群的分布式訓(xùn)練框架。
(2)數(shù)據(jù)傳輸模塊。將遙感大數(shù)據(jù)的存儲(chǔ)格式與傳輸格式相結(jié)合,實(shí)現(xiàn)對(duì)遙感大數(shù)據(jù)的存儲(chǔ)與傳輸。
(3)數(shù)據(jù)存儲(chǔ)模塊。對(duì)訓(xùn)練所需的遙感大數(shù)據(jù)進(jìn)行存儲(chǔ)與管理。
(4)算法調(diào)用模塊。根據(jù)分布式訓(xùn)練框架中的算法模型,使用深度學(xué)習(xí)算法來實(shí)現(xiàn)對(duì)遙感大數(shù)據(jù)的處理。
(5)數(shù)據(jù)庫查詢模塊。通過MapReduce 計(jì)算引擎來實(shí)現(xiàn)對(duì)遙感大數(shù)據(jù)的計(jì)算。
在整個(gè)分布式訓(xùn)練框架設(shè)計(jì)中,主要是利用Hadoop集群對(duì)遙感大數(shù)據(jù)進(jìn)行存儲(chǔ)、計(jì)算和資源調(diào)度等工作。其中,數(shù)據(jù)傳輸模塊是實(shí)現(xiàn)分布式訓(xùn)練框架中各子功能模塊之間相互通信與交互的關(guān)鍵環(huán)節(jié);數(shù)據(jù)存儲(chǔ)模塊實(shí)現(xiàn)了海量遙感大數(shù)據(jù)的存儲(chǔ)與管理;算法調(diào)用模塊是分布式訓(xùn)練框架中各子功能模塊之間相互協(xié)作的橋梁。
該平臺(tái)針對(duì)不同的數(shù)據(jù)類型,對(duì)其進(jìn)行了結(jié)構(gòu)化設(shè)計(jì)。重點(diǎn)介紹了圖像數(shù)據(jù)模型的建立、向量信息的建立、標(biāo)簽數(shù)據(jù)的建立、服務(wù)數(shù)據(jù)的建立等。影像資料模式包括影像資料、影像影像資料及影像資料。本文提出了一種基于數(shù)據(jù)集的遙感元數(shù)據(jù)標(biāo)準(zhǔn)化方法。最后,選擇了一個(gè)分布式的Key-Value NoSQL 數(shù)據(jù)庫 Accumulo 來存儲(chǔ)圖像塊數(shù)據(jù)。
由于矢量空間元素間具有復(fù)雜的拓?fù)潢P(guān)系,且在迭代時(shí)需對(duì)批矢量點(diǎn)數(shù)據(jù)進(jìn)行有效的更新。該平臺(tái)選擇了HBase 數(shù)據(jù)庫作為向量元素的存儲(chǔ)對(duì)象。利用 HBase 進(jìn)行向量空間數(shù)據(jù)的存儲(chǔ)與管理具有高效、高擴(kuò)展性等優(yōu)點(diǎn)。
標(biāo)記數(shù)據(jù)是利用空間矢量數(shù)據(jù),經(jīng)過向量轉(zhuǎn)柵的算法處理而獲得的。Ceph 對(duì)象存儲(chǔ)使用 RADOS (Reliable Autonomic Distributed ObjectStore)來保證標(biāo)簽數(shù)據(jù)的讀寫效率,使用 CRUSH 數(shù)據(jù)放置采取算法來保證標(biāo)簽數(shù)據(jù)負(fù)載可以得到有效均衡。
在此基礎(chǔ)上,利用 Geomesa 語言建立了空間-時(shí)間-空間-空間-時(shí)間的向量表,以實(shí)現(xiàn)對(duì)空間-時(shí)間和空間-時(shí)間向量表的快速訪問。使用 Geomesa 提供的XZ3 時(shí)空索引,將包含經(jīng)度、緯度和時(shí)間三個(gè)維度的數(shù)據(jù),按照基于Z-Order 填充曲線的GeoHash 時(shí)空編碼技術(shù),對(duì)數(shù)據(jù)進(jìn)行降維,得到一維數(shù)據(jù)作為Key,便于在HBase 數(shù)據(jù)庫中進(jìn)行查詢。本項(xiàng)目提出的時(shí)空索引方法,在保證空間分布特征的前提下,能夠有效實(shí)現(xiàn)空間分布特征的前提下,有效提升空間分布特征,提升空間分布特征。
在此基礎(chǔ)上,提出了一種基于服務(wù)網(wǎng)格的微服務(wù)體系結(jié)構(gòu)。這種模式減少了與Dubbo 和SpringCloud 的耦合。在此基礎(chǔ)上,提出了一種以多智能體為主體的有機(jī)體為中心的網(wǎng)狀結(jié)構(gòu)。以通用組件的形式,對(duì)系統(tǒng)中的所有服務(wù)通信流量進(jìn)行管控,并且下沉了微服務(wù)開發(fā)的技術(shù)棧,從而可以實(shí)現(xiàn)跨語言的服務(wù)調(diào)用、功能可擴(kuò)展。
在此基礎(chǔ)上,提出一種高可用性、高擴(kuò)展性、可擴(kuò)展性、可維護(hù)性、智能運(yùn)維的遙感大數(shù)據(jù)管理和培訓(xùn)微服務(wù)體系結(jié)構(gòu),并將其應(yīng)用于遙感大數(shù)據(jù)處理中。
遙感數(shù)據(jù)在進(jìn)行處理時(shí),往往會(huì)涉及海量的遙感數(shù)據(jù),在管理這些龐大的數(shù)據(jù)時(shí),傳統(tǒng)的基于單機(jī)或者文件系統(tǒng)的管理方式已經(jīng)不能滿足需求,所以需要對(duì)遙感大數(shù)據(jù)進(jìn)行分布式管理。在遙感大數(shù)據(jù)的管理中,往往需要將遙感大數(shù)據(jù)分解成若干個(gè)小任務(wù),每個(gè)小任務(wù)都有自己獨(dú)立的存儲(chǔ)和處理信息,這樣才能進(jìn)行統(tǒng)一的管理。但是由于每個(gè)小任務(wù)都是獨(dú)立操作,其操作結(jié)果會(huì)存在差異。在這種情況下,如果直接將遙感大數(shù)據(jù)全部交給集群管理系統(tǒng)處理,就會(huì)造成大量數(shù)據(jù)丟失以及不必要的重復(fù)勞動(dòng)。
為了解決這個(gè)問題,可以采用一種“云計(jì)算”概念來進(jìn)行遙感大數(shù)據(jù)的分布式管理。在“云計(jì)算”環(huán)境下,各個(gè)計(jì)算節(jié)點(diǎn)所擁有的計(jì)算資源都是共享的。在實(shí)現(xiàn)對(duì)遙感大數(shù)據(jù)分布式管理時(shí),將計(jì)算任務(wù)進(jìn)行分解,分配到各個(gè)節(jié)點(diǎn)上進(jìn)行處理。同時(shí),通過在“云計(jì)算”平臺(tái)中引入分布式存儲(chǔ)技術(shù)來解決數(shù)據(jù)量大而導(dǎo)致存儲(chǔ)空間不足的問題。此外,“云計(jì)算”環(huán)境下的大數(shù)據(jù)應(yīng)用框架也是基于分布式計(jì)算技術(shù)構(gòu)建起來的,并且通過引入機(jī)器學(xué)習(xí)算法來提高數(shù)據(jù)分析處理效率。
在遙感訓(xùn)練過程中,云平臺(tái)主要是根據(jù)機(jī)器學(xué)習(xí)算法對(duì)海量遙感數(shù)據(jù)進(jìn)行處理。對(duì)于海量遙感數(shù)據(jù),一般有多個(gè)訓(xùn)練節(jié)點(diǎn)。在訓(xùn)練過程中,通過調(diào)度算法,將訓(xùn)練任務(wù)合理地分配到各個(gè)節(jié)點(diǎn)上,使訓(xùn)練任務(wù)能夠順利地執(zhí)行。在實(shí)際訓(xùn)練過程中,往往有多個(gè)訓(xùn)練任務(wù)同時(shí)進(jìn)行,例如,對(duì)多個(gè)圖像數(shù)據(jù)進(jìn)行分類、特征提取、模型構(gòu)建等。同時(shí),由于訓(xùn)練數(shù)據(jù)量龐大,單個(gè)節(jié)點(diǎn)的資源難以滿足多個(gè)訓(xùn)練任務(wù)的要求。因此,需要將訓(xùn)練任務(wù)分散到各個(gè)節(jié)點(diǎn)上去執(zhí)行。
由于遙感數(shù)據(jù)的特征提取通常是在多個(gè)節(jié)點(diǎn)上同時(shí)進(jìn)行的,因此需要對(duì)遙感數(shù)據(jù)進(jìn)行分類處理。在分類過程中,一般會(huì)涉及圖像特征提取、模型構(gòu)建以及分類結(jié)※果驗(yàn)證等步驟。在分類過程中,需要對(duì)各個(gè)節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行分類處理。由于遙感數(shù)據(jù)具有不規(guī)則性以及離散性,因此,采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法往往難以取得理想的效果。在實(shí)際應(yīng)用中,往往采用深度學(xué)習(xí)算法對(duì)遙感圖像進(jìn)行分類處理。
本文所設(shè)計(jì)的基于計(jì)算機(jī)技術(shù)的遙感大數(shù)據(jù)分布式管理與訓(xùn)練云平臺(tái)是基于云計(jì)算技術(shù)設(shè)計(jì)實(shí)現(xiàn)的。該平臺(tái)可以滿足多個(gè)訓(xùn)練節(jié)點(diǎn)之間協(xié)同工作的要求。通過分布式計(jì)算技術(shù),將不同節(jié)點(diǎn)上的任務(wù)合理地分配到各個(gè)節(jié)點(diǎn)上去執(zhí)行。同時(shí),利用云計(jì)算平臺(tái)提供的分布式計(jì)算、資源共享等功能為遙感圖像訓(xùn)練提供支持。在任務(wù)調(diào)度和管理過程中,通過對(duì)各個(gè)節(jié)點(diǎn)進(jìn)行任務(wù)分配以及調(diào)度管理來保證任務(wù)能夠按照規(guī)定的時(shí)間節(jié)點(diǎn)完成任務(wù)。
本節(jié)對(duì)云計(jì)算環(huán)境下的遙感數(shù)據(jù)訓(xùn)練云平臺(tái)進(jìn)行了實(shí)驗(yàn)測試,將采用支持向量機(jī)(SVM)的機(jī)器學(xué)習(xí)算法,以及隨機(jī)森林(RF)的遙感數(shù)據(jù)分類算法作為測試算法。在實(shí)驗(yàn)環(huán)境中,將一個(gè)500kB 大小的遙感數(shù)據(jù)集作為測試數(shù)據(jù),計(jì)算其在云計(jì)算平臺(tái)上訓(xùn)練一個(gè)分類模型所需要的時(shí)間,并將訓(xùn)練好的模型與采用傳統(tǒng)訓(xùn)練方法得到的模型進(jìn)行比較。
采用云計(jì)算平臺(tái)進(jìn)行遙感數(shù)據(jù)訓(xùn)練,所需時(shí)間明顯縮短,但是,在相同的計(jì)算時(shí)間內(nèi)所得到的遙感數(shù)據(jù)分類準(zhǔn)確率并不高。這是由于傳統(tǒng)機(jī)器學(xué)習(xí)方法訓(xùn)練得到的模型在面對(duì)大規(guī)模數(shù)據(jù)時(shí),準(zhǔn)確率不高,而云計(jì)算環(huán)境下得到的遙感數(shù)據(jù)分類模型在面對(duì)大規(guī)模數(shù)據(jù)時(shí)準(zhǔn)確率較高。因此,通過云計(jì)算平臺(tái)進(jìn)行遙感數(shù)據(jù)訓(xùn)練具有一定優(yōu)勢,但是在訓(xùn)練速度和準(zhǔn)確率方面還需要進(jìn)一步完善。
在未來的研究中,將針對(duì)云計(jì)算環(huán)境下遙感數(shù)據(jù)訓(xùn)練過程中出現(xiàn)的問題進(jìn)行進(jìn)一步探討,例如,如何提高遙感數(shù)據(jù)的訓(xùn)練效率,以及如何對(duì)遙感數(shù)據(jù)進(jìn)行清洗和預(yù)處理,以達(dá)到提高訓(xùn)練效率的目的。
本文設(shè)計(jì)了一種基于計(jì)算機(jī)技術(shù)的一站式遙感大數(shù)據(jù)分布式管理與模型訓(xùn)練云平臺(tái)。平臺(tái)構(gòu)建了以異構(gòu)的遙感數(shù)據(jù)為基礎(chǔ)的混合存儲(chǔ)模型,以Spark 為載體的分布式計(jì)算模型,以服務(wù)注冊與發(fā)現(xiàn)、服務(wù)交互為基礎(chǔ)的微服務(wù)架構(gòu)。結(jié)合深度學(xué)習(xí)在遙感影像數(shù)據(jù)處理的應(yīng)用,完成了一站式遙感大數(shù)據(jù)分布式管理與模型訓(xùn)練云平臺(tái)的整體建設(shè),為構(gòu)建高可用、易擴(kuò)展的遙感數(shù)據(jù)存儲(chǔ)共享與處理平臺(tái)提供了解決方案。