董浩然 鄭曉詩 偏衛(wèi)東 閆翾 王永志,2* 李志鵬
(1、吉林大學(xué)地球探測(cè)科學(xué)與技術(shù)學(xué)院,吉林長春 130026 2、吉林大學(xué)綜合信息礦產(chǎn)預(yù)測(cè)研究所,吉林長春 130026)
地球物理探測(cè)是采用專業(yè)儀器探測(cè)地球內(nèi)部結(jié)構(gòu)、研究地下構(gòu)造、監(jiān)測(cè)區(qū)域活動(dòng)的重要手段,基于地下介質(zhì)磁性差異和電性差異的電磁勘探是當(dāng)前的主流方法之一[1]。傳統(tǒng)方法對(duì)電磁大數(shù)據(jù)進(jìn)行管理和可視化時(shí),經(jīng)常出現(xiàn)內(nèi)存溢出、處理速度慢、更新滯后等問題。如何有效地對(duì)獲得的數(shù)據(jù)進(jìn)行優(yōu)化管理,將復(fù)雜的勘探數(shù)據(jù)通過可視化技術(shù)轉(zhuǎn)為直觀的圖像,成為領(lǐng)域內(nèi)一個(gè)重要的研究方向[2]。
本文以電磁大數(shù)據(jù)為研究對(duì)象,綜合利用索引、數(shù)據(jù)庫、雙緩沖、GIS 等技術(shù)[3],探索一套能夠快速讀取電磁大數(shù)據(jù)、數(shù)據(jù)處理與可視化的方法,為地球物理學(xué)與地理信息科學(xué)的更深層次研究打下基礎(chǔ)。
根據(jù)數(shù)據(jù)噪聲特點(diǎn)[4]、數(shù)據(jù)處理方法[5]設(shè)計(jì)了一套從數(shù)據(jù)管理、數(shù)據(jù)預(yù)處理及可視化的層次框架(如圖1)。
圖1 電磁大數(shù)據(jù)優(yōu)化管理與可視化框架
2.1 快速讀取:基于順序索引或GeoHash 算法的經(jīng)緯度索引,建立索引數(shù)據(jù)庫以便以保證查詢和提取速度。
2.2 數(shù)據(jù)預(yù)處理:對(duì)原始數(shù)據(jù)依次進(jìn)行數(shù)據(jù)過濾(空間域?yàn)V波和零值過濾)和數(shù)據(jù)抽?。ㄩg隔采樣和垂距限值抽稀)過程,采用過濾干擾信號(hào)保證質(zhì)量,通過抽稀在保證反映真實(shí)內(nèi)容的同時(shí)減少數(shù)據(jù)體量。
2.3 數(shù)據(jù)可視化:采用二維圖形控件、GIS 組件等實(shí)現(xiàn)大波形動(dòng)態(tài)可視化。
采用索引技術(shù)對(duì)大數(shù)據(jù)進(jìn)行快速讀取,將大文件分割為若干個(gè)小文件,為小文件建立索引文件,可解決直接讀取大量數(shù)據(jù)導(dǎo)致內(nèi)存溢出、提取速度過慢問題。主要采用順序索引、經(jīng)緯度索引等方法。
3.1.1 順序索引
采用順序索引實(shí)現(xiàn)大數(shù)據(jù)文件的分塊存儲(chǔ),即將一定長度數(shù)據(jù)存為一個(gè)小數(shù)據(jù)文件,建立索引文件記錄小數(shù)據(jù)文件的路徑和存儲(chǔ)數(shù)據(jù)位置和數(shù)量。提取索引文件提供的起始位置和數(shù)量,獲取數(shù)據(jù)所在小數(shù)據(jù)文件存儲(chǔ)位置,從而實(shí)現(xiàn)快速訪問和提取數(shù)據(jù)。
3.1.2 經(jīng)緯度索引
對(duì)帶有位置信息的數(shù)據(jù)采用經(jīng)緯度索引,即通過GeoHash 算法[6]將數(shù)據(jù)的經(jīng)緯度轉(zhuǎn)為Base32 編碼,將數(shù)據(jù)歸類到對(duì)應(yīng)小區(qū)域中??筛鶕?jù)數(shù)據(jù)特征和用戶需求決定Base32 編碼的長度。存儲(chǔ)小區(qū)域中數(shù)據(jù)的數(shù)據(jù)文件按照B+樹索引機(jī)制,以文件路徑形式實(shí)現(xiàn)。提取數(shù)據(jù)時(shí)提供所需區(qū)域西北角經(jīng)緯度和東南角經(jīng)緯度,即可獲得該區(qū)域內(nèi)所有數(shù)據(jù)。
采用零值過濾方法去除信號(hào)中幅值過高或過小的信號(hào)。基于Weierstrass 定理和一階線性圓滑法進(jìn)行空間域?yàn)V波,削弱噪聲中較大的峰值。如選取零值過濾范圍為篩除范圍內(nèi)的數(shù)據(jù)。
基于采樣定理[7],設(shè)計(jì)了改進(jìn)的垂距限值法。對(duì)過濾后的數(shù)據(jù)等間隔讀數(shù),再選擇閾值進(jìn)行垂距限值抽稀,從而突出異常、減弱毛刺現(xiàn)象[8]。采用此方法對(duì)電磁大數(shù)據(jù)進(jìn)行抽稀采樣,可在保證其仍真實(shí)反映原始狀態(tài)情況下,數(shù)據(jù)體量極大減少。
為解決全部電磁大數(shù)據(jù)一次性成圖時(shí),讀取文件耗時(shí)長、內(nèi)存占用大、速度慢問題,可采用雙緩沖機(jī)制進(jìn)行大圖形可視化[9],即先讀取一部分?jǐn)?shù)據(jù)、顯示已讀取數(shù)據(jù)的圖形,后臺(tái)再繼續(xù)讀取、繪制,如此循環(huán),可有效提高一維圖形的繪圖及顯示效果。
電磁數(shù)據(jù)帶有經(jīng)緯度空間列,為了快速顯示二維平面圖形效果,可基于C# 的GDI 接口[10]、ArcGIS Engine[11],采用空間插值方法實(shí)現(xiàn)二維地圖可視化,可以解決在空間上采樣點(diǎn)分布不均勻、局部地區(qū)缺乏觀測(cè)值的問題[12]。
采用10 萬行電磁數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)(圖2(a)),經(jīng)過空間域?yàn)V波后削弱了隨機(jī)噪聲(如圖2(b)),由于圓滑因子3 選取相對(duì)較小,對(duì)隨機(jī)噪聲的過濾效果并不理想。再使用50 萬行電磁數(shù)據(jù)進(jìn)行實(shí)驗(yàn)(圖3(a)),采用圓滑因子15 對(duì)其進(jìn)行一階圓滑,經(jīng)過空間域?yàn)V波之后信號(hào)的峰值基本保持不變,幅值相對(duì)較小的噪聲衰減明顯,可見線性圓滑能夠較好地減弱隨機(jī)噪聲(如圖3(b))。采用局部1000 行原始數(shù)據(jù)進(jìn)行放大對(duì)比(如圖4(a)),在經(jīng)過空間域?yàn)V波和零值過濾之后,波形中的異常噪聲明顯減小,曲線更加光滑(如圖4(b))。
圖2 10 萬行數(shù)據(jù)圓滑對(duì)比效果
圖3 50 萬行數(shù)據(jù)過濾對(duì)比
圖4 局部1000 行數(shù)據(jù)空間域?yàn)V波對(duì)比
使用1600 萬行數(shù)據(jù)進(jìn)行測(cè)試,在未采用雙緩沖機(jī)制時(shí),繪制全部圖像用時(shí)131.2 秒。經(jīng)數(shù)據(jù)預(yù)處理后應(yīng)用雙緩沖機(jī)制,繪圖時(shí)間縮短至23.1 秒,進(jìn)一步優(yōu)化雙緩沖程序參數(shù),繪圖時(shí)間最終提升到6.2 秒,成圖速度是原有方法的20 倍(如圖5)。
圖5 雙緩沖機(jī)制速度對(duì)比
選取52 萬行的航磁數(shù)據(jù)作為原始數(shù)據(jù),經(jīng)數(shù)據(jù)預(yù)處理后進(jìn)行成像(如圖6)。能夠清晰地反映區(qū)域磁異常分布特征,有助于快速直觀地識(shí)別局部地質(zhì)異常。在確定需要進(jìn)一步研究的區(qū)域之后,還可通過軟件的經(jīng)緯度索引數(shù)據(jù)庫快速讀取對(duì)應(yīng)區(qū)域的原始數(shù)據(jù),在局部地區(qū)進(jìn)行深入研究。
圖6 區(qū)域航磁平面可視化效果
5.1 本文以Visual Studio 2019 為開發(fā)工具,使用C#編程語言,研發(fā)了電磁大數(shù)據(jù)優(yōu)化管理與可視化處理軟件,實(shí)現(xiàn)了大數(shù)據(jù)快速讀取、數(shù)據(jù)過濾、數(shù)據(jù)抽稀、動(dòng)態(tài)成圖可視化等功能。
5.2 采用順序索引和基于GeoHash 算法的經(jīng)緯度索引機(jī)制,實(shí)現(xiàn)電磁大數(shù)據(jù)管理,可有效提升數(shù)據(jù)的快速存取,有效解決了電磁大數(shù)據(jù)的讀取慢、內(nèi)存占用多等問題。
5.3 采用數(shù)據(jù)過濾、數(shù)據(jù)抽稀等方法實(shí)現(xiàn)電磁大數(shù)據(jù)的科學(xué)預(yù)處理,并基于雙緩沖機(jī)制將圖形可視化速度提升10 倍甚至20 倍以上,實(shí)現(xiàn)大數(shù)據(jù)量圖形圖的動(dòng)態(tài)繪制。