李明東 李雪竹 盧彪 魯雪晴 胡雅婷
摘要:為了解決空間科學(xué)數(shù)據(jù)與元數(shù)據(jù)分開和空間科學(xué)數(shù)據(jù)不能自描述的問題,提出了基于大數(shù)據(jù)的SP-HDF存儲空間科學(xué)數(shù)據(jù)技術(shù)研究.首先,進行分析空間科學(xué)數(shù)據(jù)的特征,其特征表現(xiàn)為海量數(shù)據(jù)、多類型、可以交換和融合[1],以及分析空間科學(xué)數(shù)據(jù)的三種傳統(tǒng)存儲方式.然后,設(shè)計基于大數(shù)據(jù)的SP-HDF存儲數(shù)據(jù)的框架,進行提出基于大數(shù)據(jù)的SP-HDF存儲框架結(jié)構(gòu),并且研究提出SP-HDF進行存儲數(shù)據(jù)的邏輯結(jié)構(gòu)節(jié)點的結(jié)構(gòu)和屬性.最后,通過SP-HDF技術(shù)標準化處理數(shù)據(jù),進行基于大數(shù)據(jù)的SP-HDF存儲空間科學(xué)數(shù)據(jù)研究,研究結(jié)果表明,基于大數(shù)據(jù)的SP-HDF技術(shù)在處理空間科學(xué)數(shù)據(jù)后可以達到負載均衡,避免數(shù)據(jù)分離.
關(guān)鍵詞:大數(shù)據(jù)技術(shù);SP-HDF存儲技術(shù);空間科學(xué)數(shù)據(jù);負載均衡
中圖分類號:TP393? 文獻標識碼:A? 文章編號:1673-260X(2019)07-0055-03
SP-HDF采用層次式的數(shù)據(jù)結(jié)構(gòu)方式來進行科學(xué)的管理存儲數(shù)據(jù),具有擴展性、自描述的特點,可以用于存儲大多數(shù)空間科學(xué)數(shù)據(jù).SP-HDF文件只要是由組和數(shù)據(jù)集進行構(gòu)成,組可以包括各種數(shù)據(jù)集和其他組,通過數(shù)據(jù)空間進行定義數(shù)據(jù)集的維度信息,并且各種節(jié)點的屬性和元數(shù)據(jù)用文件屬性進行描述[1].通過研究基于大數(shù)據(jù)的SP-HDF存儲數(shù)據(jù)技術(shù),實現(xiàn)空間科學(xué)數(shù)據(jù)能夠集成共享和自描述存儲.
1 空間科學(xué)數(shù)據(jù)的特征和傳統(tǒng)存儲結(jié)構(gòu)
1.1 空間科學(xué)數(shù)據(jù)的特點
(1)數(shù)據(jù)量大.空間科學(xué)數(shù)據(jù)是利用航天器研究自然現(xiàn)象以及其規(guī)律所獲取的科學(xué)數(shù)據(jù).我國關(guān)于空間科學(xué)的數(shù)據(jù)庫自從投入以來,現(xiàn)在的數(shù)據(jù)量以及達6TB,并且現(xiàn)在的數(shù)據(jù)量隨時間日益增長.
(2)數(shù)據(jù)有多種類型.在獲取空間科學(xué)數(shù)據(jù)時,獲取手段多種多樣、參數(shù)變量眾多、研究目標的范圍廣泛.研究人員可以通過地面信號站、衛(wèi)星雷達、航天設(shè)備進行獲取數(shù)據(jù);影響獲取空間科學(xué)數(shù)據(jù)的參數(shù)變量又有多種,空氣中的大氣層、電離層、磁場,還要宇宙中的宇宙射線強度、太陽的磁場等參數(shù)都會影響數(shù)據(jù)的獲取.不用的參數(shù)變量獲取的數(shù)據(jù)值都各種差異.
(3)數(shù)據(jù)可以進行交換和融合.空間科學(xué)數(shù)據(jù)的研究工作遍布全球,所獲取的數(shù)據(jù)范圍廣、種類繁多,因此需要世界上各個國家、各個行業(yè)進行數(shù)據(jù)共享,共同進行分析所獲取的空間科學(xué)數(shù)據(jù),以便探知外界,快速發(fā)展科技.
1.2 空間科學(xué)數(shù)據(jù)的傳統(tǒng)存儲結(jié)構(gòu)
空間科學(xué)數(shù)據(jù)的傳統(tǒng)存儲結(jié)構(gòu)存在嚴重不足的問題.此外,在數(shù)據(jù)的訪問接口上存在不一致的問題,使得在進行訪問數(shù)據(jù)時比較困難;空間的科學(xué)數(shù)據(jù)和元數(shù)據(jù)存在著分離現(xiàn)象[2],數(shù)據(jù)變得難以進行使用和維護;還有數(shù)據(jù)抽象后得到的等級比較低,加大了數(shù)據(jù)管理的難度和復(fù)雜性.傳統(tǒng)存儲結(jié)構(gòu)如圖1所示.
空間科學(xué)數(shù)據(jù)的傳統(tǒng)存儲方式有如下三種方式:
(1)文件存儲方式.利用傳統(tǒng)的文件形式將空間科學(xué)數(shù)據(jù)存放到外部的設(shè)備中,建立文件目錄系統(tǒng),通過操作系統(tǒng)統(tǒng)一控制對數(shù)據(jù)進行管理和利用,并建立數(shù)據(jù)與相應(yīng)結(jié)構(gòu)之間的關(guān)聯(lián).
(2)數(shù)據(jù)庫存儲方式.利用數(shù)據(jù)庫系統(tǒng)將空間科學(xué)數(shù)據(jù)的元數(shù)據(jù)進行轉(zhuǎn)化,轉(zhuǎn)化成相對應(yīng)的關(guān)系表,通過找到數(shù)據(jù)庫系統(tǒng)提供的結(jié)構(gòu),進行完成數(shù)據(jù)的存放和查找.
(3)數(shù)據(jù)庫加文件索引方式.將超大規(guī)模的數(shù)據(jù)集直接存儲到數(shù)據(jù)庫系統(tǒng),會出現(xiàn)數(shù)據(jù)庫系統(tǒng)難以運行的問題.通過數(shù)據(jù)庫加文件索引方式可以解決大量數(shù)據(jù)的存儲問題,但還會存在空間的科學(xué)數(shù)據(jù)和元數(shù)據(jù)的分離現(xiàn)象.數(shù)據(jù)庫加文件索引方式將數(shù)據(jù)的目錄和元數(shù)據(jù)存放到數(shù)據(jù)庫系統(tǒng)中,數(shù)據(jù)實體存放到文件系統(tǒng)中,實現(xiàn)數(shù)據(jù)的間接存儲和查找.
2 基于大數(shù)據(jù)的SP-HDF存儲數(shù)據(jù)的框架設(shè)計
2.1 基于大數(shù)據(jù)的SP-HDF存儲框架結(jié)構(gòu)
SP-HDF是可以對空間科學(xué)大數(shù)據(jù)進行存儲的存儲模型,還是針對空間科學(xué)大數(shù)據(jù)的數(shù)據(jù)標準.對HDF的底部存儲結(jié)構(gòu)進行了封裝,在此基礎(chǔ)上,針對空間科學(xué)大數(shù)據(jù)的特點,對HDF進行邏輯存儲結(jié)構(gòu)和規(guī)范的設(shè)計,封裝出一組供專業(yè)數(shù)據(jù)用戶所需要的數(shù)據(jù)訪問的接口,這種接口便于使用、抽象出來的等級更高、更加專業(yè)化,實現(xiàn)了空間科學(xué)數(shù)據(jù)的規(guī)范管理存儲,滿足數(shù)據(jù)的存儲要求與便用性的需求.
基于大數(shù)據(jù)的SP-HDF存儲模型分成四層結(jié)構(gòu)[3],四層結(jié)構(gòu)分別為系統(tǒng)層、HDF層、連接層、應(yīng)用層.如圖2所示.
(1)系統(tǒng)層作為空間科學(xué)數(shù)據(jù)的存儲機制,將空間的科學(xué)數(shù)據(jù)和元數(shù)據(jù)的進行分層與集成式存儲,再通過HDF庫函數(shù)進行訪問存取數(shù)據(jù)內(nèi)容.
(2)HDF層完成對系統(tǒng)空間中空間科學(xué)數(shù)據(jù)存儲文件的讀取訪問,通過調(diào)用HDF內(nèi)部的數(shù)據(jù)庫,實現(xiàn)將空間的科學(xué)數(shù)據(jù)與元數(shù)據(jù)進行檢索、查找、訪問存取等.
(3)連接層是完成空間科學(xué)數(shù)據(jù)的邏輯存儲和規(guī)范數(shù)據(jù)[4],針對空間科學(xué)數(shù)據(jù)進行封裝處理,設(shè)計能夠存儲更高級別抽象數(shù)據(jù)和更大訪問粒度的邏輯存儲結(jié)構(gòu).
(4)應(yīng)用層是一個空間科學(xué)數(shù)據(jù)用戶和不同領(lǐng)域的應(yīng)用系統(tǒng).應(yīng)用層通過連接層提供的標準化、抽象的數(shù)據(jù)訪問接口,對空間科學(xué)數(shù)據(jù)和元數(shù)據(jù)實現(xiàn)了高效訪問.
2.2 SP-HDF存儲數(shù)據(jù)的邏輯結(jié)構(gòu)設(shè)計
物理量和網(wǎng)格數(shù)據(jù)在數(shù)值模擬過程中進行處理的核心數(shù)據(jù).獲取的原始空間科學(xué)數(shù)據(jù)、中間數(shù)據(jù)和數(shù)值模擬過程中產(chǎn)生的結(jié)果數(shù)據(jù)都屬于物理量的數(shù)據(jù).
(1)MHDBase是邏輯存儲結(jié)構(gòu)的根節(jié)點[5],每一個數(shù)據(jù)文件中最多可以定義一個MHDBase節(jié)點,并且包括索引維度、物理維度、數(shù)量和區(qū)域列表等數(shù)據(jù).MHDBase節(jié)點的結(jié)構(gòu)和屬性如下表1所示.
(2)BaseUnits節(jié)點定義基本物理單位,其中包括質(zhì)量、時間、溫度和角度四個基本物理單位.MHDBase中定義的單位屬于全局單位,如果MHDBase以下的節(jié)點中沒有定義單位,則默認情況下將繼承全局單位,還可以在節(jié)點上定義新單元以覆蓋全局單位[6].BaseUnits節(jié)點的結(jié)構(gòu)和屬性如表2所示.
3 基于大數(shù)據(jù)的SP-HDF存儲空間科學(xué)數(shù)據(jù)研究
3.1 基于大數(shù)據(jù)的SP-HDF技術(shù)標準化處理數(shù)據(jù)
數(shù)據(jù)標準化處理模型由兩個相對獨立的部分組成,分別是數(shù)據(jù)標準化處理和模板定制與管理,它們通過數(shù)據(jù)處理模板連接.模板定制和管理部分負責(zé)標準化模板的定義[7],刪除和修改,并為每種數(shù)據(jù)類型提供不同的處理模板.
從水平角度看,數(shù)據(jù)標準化處理模型由四層組成:應(yīng)用層,接口層,邏輯層和處理層.在每個不同的層中數(shù)據(jù)標準化處理和模板定制與管理都會具有相應(yīng)的處理功能.SP-HDF技術(shù)標準化處理數(shù)據(jù)的總體結(jié)構(gòu)如圖3所示.
3.2 基于大數(shù)據(jù)的SP-HDF技術(shù)處理數(shù)據(jù)負載均衡
數(shù)據(jù)產(chǎn)品的處理子系統(tǒng)部署在主從服務(wù)器集群中,處理任務(wù)通過中央控制系統(tǒng)動態(tài)調(diào)度,數(shù)據(jù)處理任務(wù)由各處理節(jié)點完成.中央控制系統(tǒng)可以實時獲取處理節(jié)點的負載信息,并在每個處理器之間動態(tài)分配和調(diào)度任務(wù),以避免每個處理節(jié)點的不平衡負載[8].由于系統(tǒng)中的每個處理節(jié)點都是動態(tài)添加或刪除的,因此每個處理節(jié)點的負載狀態(tài)隨時都會發(fā)生變化.采用集中式調(diào)度的策略,根據(jù)每個處理節(jié)點的負載動態(tài)進行任務(wù)調(diào)度,使系統(tǒng)的資源充分使用,可以達到負載均衡的目的.
4 總結(jié)
在SP-HDF存儲空間科學(xué)數(shù)據(jù)的框架下,為空間氣象空間科學(xué)數(shù)據(jù)的研究設(shè)計相應(yīng)層次的邏輯結(jié)構(gòu),并在應(yīng)用層的基礎(chǔ)上進行集成應(yīng)用測試.將數(shù)據(jù)進行封裝邏輯存儲結(jié)構(gòu)和界面層,封裝了用戶直接訪問底層數(shù)據(jù)存儲[8]的細節(jié),減少數(shù)據(jù)訪問的復(fù)雜性,另一方面提供了一種數(shù)據(jù)抽象領(lǐng)域更符合業(yè)務(wù)概念和改善數(shù)據(jù)訪問.并且數(shù)據(jù)抽象的粒度級別、訪問接口更易于使用.基于大數(shù)據(jù)的SP-HDF存儲空間科學(xué)數(shù)據(jù)技術(shù)的數(shù)據(jù)訪問接口只是初步設(shè)計,需要進一步驗證的可靠性.最后,還會加強和領(lǐng)域的專家進行溝通,使得基于大數(shù)據(jù)的SP-HDF存儲空間科學(xué)數(shù)據(jù)技術(shù)能夠更加符合在其他領(lǐng)域的應(yīng)用需求.
參考文獻:
〔1〕王馨凝,李國春.基于MERSI和MODIS數(shù)據(jù)的2種監(jiān)督分類方法比較研究[J].現(xiàn)代農(nóng)業(yè)科技,2017(07):11-35.
〔2〕張茂鑫,李國春.基于HDF5文件格式的MERSI影像數(shù)據(jù)提取的研究與實現(xiàn)[J].現(xiàn)代農(nóng)業(yè)科學(xué),2016(03):55-67.
〔3〕劉文軍,李靖,袁昌洪,劉方,解令運.基于NetCDF數(shù)據(jù)模型的氣象資料存儲設(shè)計[J].安徽農(nóng)業(yè)科學(xué),2015(05):170-200.
〔4〕劉海燕.數(shù)字流域數(shù)據(jù)交換標準的研究[J].數(shù)字技術(shù)與應(yīng)用,2016(03):57-86.
〔5〕趙蘇璇,羅堅,楊成蔭.基于BP神經(jīng)網(wǎng)絡(luò)的氣象格點數(shù)據(jù)無損壓縮方法[J].地球科學(xué)進展,2015(02):21-43.
〔6〕賈俊濤,孟嬋媛,宋海英,魯強,譚冀川.基于NetCDF的海底地形網(wǎng)格數(shù)據(jù)模型創(chuàng)建與調(diào)度[J].海洋測繪,2017(05):55-67.
〔7〕夏軍寶.空間科學(xué)大數(shù)據(jù)存儲模型SP-HDF及應(yīng)用研究[J].中國地質(zhì)大學(xué),2013(11):38-63.
〔8〕王永韜,劉良明.HDF5格式特點及其對遙感數(shù)據(jù)格式標準化的幾點啟示[J].國土資源遙感,2015(03):216-238.