鄭 晶, 吳志祥, 李德偉, 邢立文
(中國礦業(yè)大學(北京)a.煤炭資源與安全開采國家重點實驗室;b.地球科學與測繪工程學院,北京 100083)
微地震監(jiān)測技術(shù)通常用于非常規(guī)油氣勘探和CO2捕集與封存(Carbon Capture and Storage,CCS)工程的安全監(jiān)測[1-2]。對于微地震監(jiān)測技術(shù)而言,去噪是其數(shù)據(jù)處理技術(shù)的重要組成部分[3]。因為微地震(小震級)信號的振幅總是比傳統(tǒng)地震信號弱得多,實測數(shù)據(jù)始終受到噪聲的污染,所以與主動源地震事件相比,其信噪比(Signal-Noise Ratio,SNR)要低得多,故而原始的觀測數(shù)據(jù)難以直接進行事件到時拾取及定位等工作。大多數(shù)傳統(tǒng)的降噪方法都是基于域變換算法以及一些閾值化手段而提出的,例如時頻分析和時間(頻譜)-空間(波數(shù))域分析[4-6]。域變換后的結(jié)果在反變換前通常先經(jīng)過閾值處理,以達到噪聲濾除的目的。域變換的主要目的是為了獲得記錄數(shù)據(jù)的稀疏表示,因而如何選擇更好的變換方法和閾值策略將對降噪性能產(chǎn)生很大影響。
近年來,基于機器學習的地球物理數(shù)據(jù)處理方法得到了廣泛的研究和發(fā)展。一些研究側(cè)重于將字典學習應(yīng)用于觀測數(shù)據(jù)更好的稀疏表示,以實現(xiàn)更好的降噪性能[7-8]。近年來,深度神經(jīng)網(wǎng)絡(luò)以其極其復雜的表示能力在地球物理數(shù)據(jù)去噪中獲得了越來越多的應(yīng)用?;谏疃染矸e神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)開發(fā)的去噪模型是噪聲衰減最常用的網(wǎng)絡(luò)模型[9-10]。
除了CNN之外,生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)也具有圖像和語音處理的能力,在各個領(lǐng)域展現(xiàn)出巨大的應(yīng)用和發(fā)展前景[11-12]。與基于CNN的方法相比,因為GAN網(wǎng)絡(luò)的損失函數(shù)不是最常用的簡單均方誤差或交叉熵損失[13],所以GAN可以克服CNN對輸出數(shù)據(jù)分布假設(shè)的缺點。Alwon[14]應(yīng)用基于條件樣式轉(zhuǎn)換類型的GAN網(wǎng)絡(luò)從含噪聲的地震記錄剖面中預測干凈數(shù)據(jù),但這種方法中必須將地震剖面作為二維圖像來考慮。
本文基于GAN網(wǎng)絡(luò)提出一種用于單通道微地震記錄降噪的方法。網(wǎng)絡(luò)的輸入是來自微地震儀器記錄的原始時間序列,在此之前不需要進行任何轉(zhuǎn)換,可以進行端到端的訓練。網(wǎng)絡(luò)包括生成器G和判別器D,構(gòu)建G來生成處理后的數(shù)據(jù)。訓練后,G將恢復干凈數(shù)據(jù),D負責區(qū)分真實數(shù)據(jù)和虛假數(shù)據(jù)。
Goodfellow等[15]2014年首先提出了Generative Adversarial Nets(GANs)。GAN包括兩個模型:一個是表示為G的生成器;另一個是表示為D的對抗判別器模型。G執(zhí)行映射過程以學習實際數(shù)據(jù)分布;D像二進制分類器一樣工作以確定G的輸出是真實的還是虛假的。該網(wǎng)絡(luò)的工作流程如圖1所示。該網(wǎng)絡(luò)用于去噪,因此,它不同于傳統(tǒng)的GAN,后者的輸入只是噪聲。
圖1 基于GAN的去噪網(wǎng)絡(luò)的工作流程示意圖
圖2所示的生成器G網(wǎng)絡(luò)采用了全卷積編碼器/解碼器結(jié)構(gòu)。與傳統(tǒng)的全卷積編碼器/解碼器結(jié)構(gòu)相比,沒有用于下采樣的最大池化過程。采用>1的整數(shù)設(shè)置卷積步長來實現(xiàn)G網(wǎng)絡(luò)中的降采樣,該降采樣方法在GAN網(wǎng)絡(luò)中比其他池化方法更穩(wěn)定。同時,G網(wǎng)絡(luò)還采用類U-net網(wǎng)絡(luò)在編碼器和解碼器的相應(yīng)層之間添加“跳過并復制”步驟[16]。生成器是一個生成模型,該模型構(gòu)建映射結(jié)構(gòu)以使?jié)撛诒硎緕從簡單的先驗分布p(z)中學習訓練數(shù)據(jù)P(data)的分布。通過訓練過程,生成器能夠最小化p(x|θ,z)和P(data)之間的差異。因此,G不僅記憶輸入輸出對應(yīng)關(guān)系,而且能學習數(shù)據(jù)分布特征。
圖2 生成器G網(wǎng)絡(luò)結(jié)構(gòu)
判別器D是由卷積編碼器部分和全連接層部分組成,網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。D是一個參數(shù)模型,其旨在判斷輸入x是從G網(wǎng)絡(luò)生成的數(shù)據(jù)還是干凈數(shù)據(jù),可以將其視為判斷輸出是“真”還是“假”的一個二分類器。D的訓練目標為同時最大化D(x)(實際數(shù)據(jù)分類結(jié)果的損失)和最小化D(G(x))(生成的數(shù)據(jù)分類結(jié)果的損失)。D幫助G將其輸出波形朝干凈的數(shù)據(jù)分布進行校正,以避免生成的數(shù)據(jù)被判斷為是偽造的。
圖3 判別器D網(wǎng)絡(luò)結(jié)構(gòu)
生成器G和判別器D通過反向傳播進行訓練,與傳統(tǒng)深度卷積神經(jīng)網(wǎng)絡(luò)不同的是,GAN網(wǎng)絡(luò)的訓練分成3個步驟進行:
(1)使用帶噪音的和干凈的數(shù)據(jù)作為輸入,對D進行訓練,并標記輸出為“真”;
(2)利用G生成的數(shù)據(jù)和干凈的數(shù)據(jù)作為輸入,并標記輸出為“偽”,再次訓練D;
(3)固定D,使用生成的數(shù)據(jù)和干凈的數(shù)據(jù)作為輸入,并標記輸出為“真”來訓練G。
隨著訓練,G和D網(wǎng)絡(luò)將變得越來越強大。訓練后,G將能夠恢復實際信號分布并使去噪后的數(shù)據(jù)與干凈的數(shù)據(jù)相似;D將無法區(qū)分實際的不含噪音的數(shù)據(jù)和生成后的去噪數(shù)據(jù)。
應(yīng)用合成數(shù)據(jù)訓練網(wǎng)絡(luò),并使用實測數(shù)據(jù)集進行實驗以評估網(wǎng)絡(luò)的性能。對于訓練數(shù)據(jù)集使用不同的速度模型生成信號以考慮信號的多樣性。訓練數(shù)據(jù)集由30 000個波形組成,這些波形具有不同的SNR條件。
實測數(shù)據(jù)由共振頻率為4.5Hz±7.5%并包含12個通道的地面?zhèn)鞲衅魇占ǖ涝诒砻嫔喜怀梢粭l直線對齊。系統(tǒng)將以2 ms的間隔連續(xù)幾個小時收集、存儲和傳輸數(shù)據(jù)。為了對比文中提出的濾波算法與其他方法在實際數(shù)據(jù)中噪聲壓制上的性能,選用了3個不同事件的多道微地震數(shù)據(jù)記錄進行實驗,并將3種方法分別應(yīng)用于3個實測數(shù)據(jù)集。3個實測數(shù)據(jù)集如圖4(a)、5(a)和6(a)所示,它們的事件到時時間、對應(yīng)道上信噪比都有一定的差異。信噪比的差異由不同震源強度和儀器噪聲水平等導致。實測數(shù)據(jù)和其經(jīng)過3種方法處理后的結(jié)果見圖4~6。在圖4所示的第1個示例中,殘余噪聲在EEMD方法中最大,而在DWT方法中一些脈沖干擾未消除,因此這兩種方法均不被認為是成功的,而經(jīng)本文方法去噪的數(shù)據(jù)獲得了更好的結(jié)果,之前的噪聲幾乎已消除。在圖5所示的第2個示例中,EEMD和DWT方法都留下了顯著的殘留噪聲,而從本文方法中獲得的去噪數(shù)據(jù)有更好的效果,事件的初至清晰。在圖6所示的第3個示例中,EEMD方法留下了更多的殘留噪聲,DWT方法在初至之前導致了一些不穩(wěn)定的波形,但本文方法仍然可以獲得更好的結(jié)果。如果可以提供更多的訓練數(shù)據(jù)集,則該方法可以表現(xiàn)出更好的性能。
圖4 不同方法對實測數(shù)據(jù)集1的去噪效果對比
圖5 不同方法對實測數(shù)據(jù)集2的去噪效果對比
圖6 不同方法對實測數(shù)據(jù)集3的去噪效果對比
實現(xiàn)了基于生成對抗網(wǎng)絡(luò)的端到端微地震數(shù)據(jù)降噪方法。該模型分為兩個部分:一個是生成器G,使用編碼器-解碼器全卷積結(jié)構(gòu)生成去噪數(shù)據(jù)集;另一個是判別器D,負責學習某種損失,以使G的輸出看起來真實。G部分的結(jié)構(gòu)類似于U-net。在編碼階段,將輸入信號投影并壓縮用以學習數(shù)據(jù)的稀疏表示。在解碼階段,將去噪后的數(shù)據(jù)恢復為輸入數(shù)據(jù)的原始分辨率。G的損失函數(shù)也因D中的學習而具有自適應(yīng)性。該方法不僅可以在含噪聲的記錄中清楚地檢測出能量較高的波形,而且去噪后能清楚地檢測出能量較低的波形。對含噪聲的合成數(shù)據(jù)和實測數(shù)據(jù)集的測試表明,該算法在強噪聲水平下獲得了令人滿意的結(jié)果。從重建的信號中可以清楚地識別出信號的初至,這意味著本文方法可以幫助事件拾取人員在低SNR的情況下拾取初至。測試結(jié)果表明,該方法是可靠的并且是當前方法的有效替代。
科學研究既要追求知識和真理,也要服務(wù)于經(jīng)濟社會發(fā)展和廣大人民群眾。廣大科技工作者要把論文寫在祖國的大地上,把科技成果應(yīng)用在實現(xiàn)現(xiàn)代化的偉大事業(yè)中。
——2016年5月30日,習近平在全國科技創(chuàng)新大會上講話