王博愛,楊瑞召,李德偉,張都,郭嘉梁
(中國礦業(yè)大學(xué)(北京)地球科學(xué)與測繪工程學(xué)院,北京 100083)
微地震地面監(jiān)測中,有效信號能量弱,往往被淹沒在噪聲中,直接影響了微地震事件的識別和震源定位的效果。微地震信號在時(shí)間采樣方向具有局部脈沖的特點(diǎn),可以據(jù)此進(jìn)行手動識別微地震信號。壓裂監(jiān)測需要快速得到壓裂結(jié)果,以此對開采方案進(jìn)行及時(shí)調(diào)整,因此,需要對微地震監(jiān)測資料進(jìn)行實(shí)時(shí)處理、解釋。微地震監(jiān)測數(shù)據(jù)量大,手動識別有效信號速度慢,難以滿足實(shí)時(shí)監(jiān)測的需求,因此,尋找合適的自動識別方法是微地震地面實(shí)時(shí)監(jiān)測資料處理與解釋的關(guān)鍵。
目前微地震有效信號常用的自動識別方法有短長時(shí)窗法(STA/LTA)、基于局部相似屬性識別法[1]、Akaike 信息準(zhǔn)則法(AIC)[2]、分形分維法、神經(jīng)網(wǎng)絡(luò)法[3]等。其中:短長時(shí)窗法和基于局部屬性識別法只利用了微地震數(shù)據(jù)的振幅屬性,難以識別低信噪比信號,且需要根據(jù)實(shí)際需要確定長短時(shí)窗長度和閾值[4];分形分維法難以識別低信噪比信號,且在識別過程中必須插值和選取時(shí)窗,識別結(jié)果嚴(yán)重依賴插值準(zhǔn)確性和時(shí)窗大?。?];自回歸(AR)理論假設(shè)有效信號和噪聲有不同的AR模型,Akaike信息準(zhǔn)則認(rèn)為在有效信號到達(dá)時(shí)AIC值最小,該方法無法識別低信噪比信號[6];神經(jīng)網(wǎng)絡(luò)法通過提取的特征集來訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)模型,并對其進(jìn)行參數(shù)調(diào)優(yōu),得到最優(yōu)準(zhǔn)確率后保存模型,以此對新數(shù)據(jù)進(jìn)行分類預(yù)測。
采用單一特征量進(jìn)行有效信號自動識別,抗噪聲能力弱,魯棒性差,因此,綜合地震數(shù)據(jù)的多種特征量來進(jìn)行自動識別成為新的發(fā)展方向[7]。本文采用神經(jīng)網(wǎng)絡(luò)法中的循環(huán)神經(jīng)網(wǎng)絡(luò)模型(RNN),通過綜合地震信號的能量特征、頻譜特征、統(tǒng)計(jì)特征等特征量來對模型進(jìn)行訓(xùn)練,提高了信號自動識別速度和準(zhǔn)確率,進(jìn)而滿足了微地震地面實(shí)時(shí)監(jiān)測資料處理與解釋的需要。
RNN源自1982年Saratha Sathasivam提出的霍普菲爾德網(wǎng)絡(luò),因?qū)崿F(xiàn)困難,在提出時(shí)并沒有被廣泛應(yīng)用。直到更加有效的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)(例如深度循環(huán)神經(jīng)網(wǎng)絡(luò)[8-9])被提出后,循環(huán)神經(jīng)網(wǎng)絡(luò)挖掘數(shù)據(jù)中的時(shí)序信息及語義信息的深度表達(dá)能力才被充分地利用。在地球物理領(lǐng)域,鄭晶等[10]利用神經(jīng)網(wǎng)絡(luò)進(jìn)行了微震波拾取的研究。
RNN基本結(jié)構(gòu)如圖1。主體分為:輸入層;隱藏層,此層模型進(jìn)行學(xué)習(xí)并優(yōu)化參數(shù);輸出層,包括分類器和標(biāo)簽層,分類器也叫Softmax層,此層將隱藏層中的輸出進(jìn)行分類估計(jì),并選擇概率最大的作為標(biāo)簽。
圖1 RNN結(jié)構(gòu)示意
RNN的特點(diǎn)是1個(gè)序列當(dāng)前的輸出與之前的輸出有關(guān),即網(wǎng)絡(luò)會對前面的信息進(jìn)行記憶并應(yīng)用于當(dāng)前的輸出計(jì)算中。隱藏層之間有連接且其輸入不僅包含輸入層的輸出,還有上一時(shí)刻隱藏層的輸出[11]。
圖2為隱藏層示意圖。圖2中:X為輸入樣本,h為隱藏狀態(tài),O為輸出,W為輸入的權(quán)重,U為輸入樣本的權(quán)重,V為輸出的權(quán)重,上標(biāo)0,1,2代表時(shí)間序列。在時(shí)刻1時(shí),初始化h0,隨機(jī)初始化W,U,V,此時(shí)隱藏狀態(tài)h1和輸出值O1分別為
圖2 隱藏層結(jié)構(gòu)示意
式中:f為激活函數(shù)(即一個(gè)非線性變換,常用的激活函數(shù)有sigmoid函數(shù)、tanh函數(shù)、ReLU函數(shù))。
RNN另外一個(gè)重要的步驟是反向傳播,即將預(yù)測值與真實(shí)值進(jìn)行對比,計(jì)算損失函數(shù)對每個(gè)參數(shù)的梯度,然后根據(jù)梯度和學(xué)習(xí)率使用梯度下降算法更新每個(gè)參數(shù)。隱藏層每次的輸出值O都會產(chǎn)生1個(gè)誤差值,這個(gè)誤差值用損失函數(shù)E表示。常用的損失函數(shù)有交叉熵?fù)p失函數(shù)(cross_entropy)、均方差損失函數(shù)[12],為了防止過擬合問題,還會加入L1,L2正則化,即在損失函數(shù)中加入刻畫模型復(fù)雜程度的指標(biāo)[13]。
式中:λ,θ為各自權(quán)重系數(shù)。
隱藏層各參數(shù)的梯度計(jì)算式為
長短時(shí)記憶網(wǎng)絡(luò)(LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種改進(jìn)結(jié)構(gòu),LSTM通過一些門結(jié)構(gòu)讓信息有選擇性地影響循環(huán)神經(jīng)網(wǎng)絡(luò)中每個(gè)時(shí)刻的狀態(tài)[14]。
研究分為3個(gè)部分:數(shù)據(jù)準(zhǔn)備、特征提取、RNN模型訓(xùn)練。
各種處理方法或多或少都會造成微地震記錄振幅或者相位的變化,影響識別效果。Douglas[15]在研究中提到濾波過程越少,實(shí)現(xiàn)效果越好,因此,本次研究使用的資料是水力壓裂現(xiàn)場的原始地震記錄。地震噪聲主要從現(xiàn)場背景噪聲和人為步行信號、爆炸信號中提取。檢波器為三分量數(shù)字檢波器,采樣頻率為500 Hz。在地震記錄上,微震事件表現(xiàn)為清晰的脈沖(見圖3)。
圖3 微地震數(shù)據(jù)Z分量波形示意
地震波中P波傳播速度最快,其初至易于識別[16],所以研究的資料采用的是三分量檢波器中的Z分量信號。在原始的記錄數(shù)據(jù)中,微地震有效信號占的比例很小,導(dǎo)致正樣本和負(fù)樣本比例不均勻,使得神經(jīng)網(wǎng)絡(luò)無法有效收斂學(xué)習(xí)[17]。本文采用分組處理的方法來解決樣本均衡問題,即截取一定數(shù)量的采樣點(diǎn)為1個(gè)數(shù)據(jù)集,包含微震事件的標(biāo)記為正樣本,人工標(biāo)記為1,不包含的為負(fù)樣本,人工標(biāo)記為 0(見圖 4)[18]。 在經(jīng)過后續(xù)測試后,確定100個(gè)采樣點(diǎn)為1個(gè)樣本。準(zhǔn)備的訓(xùn)練樣本一共有2 410個(gè),其中含微震事件的樣本905個(gè),不含微震事件的樣本1 505個(gè)。
圖4 微地震數(shù)據(jù)Z分量分割及標(biāo)注
信號的特征主要從微地震信號與噪聲的能量差異、信號與噪聲自身各階統(tǒng)計(jì)量的差異入手選取。
1)STA/LTA最大值和最小值。地震信號進(jìn)行遞歸STA/LTA計(jì)算,對應(yīng)的數(shù)據(jù)曲線見圖5。圖5b中,紅線值為1.5,觸發(fā)代表事件開始;藍(lán)線值為0.8,觸發(fā)為事件結(jié)束。在樣本中(100個(gè)采樣點(diǎn))提取STA/LTA值時(shí),長、短時(shí)窗分別設(shè)為20,10個(gè)采樣點(diǎn),分別選取樣本段內(nèi)STA/LTA最大值和最小值作為特征輸入。
圖5 微地震數(shù)據(jù)Z分量波形及其STA/LTA波形
2)頻域最大幅值。分別對時(shí)域地震記錄中微震信號和噪聲所在位置進(jìn)行傅里葉變換,2個(gè)窗口都為1 000個(gè)采樣點(diǎn),頻域如圖6所示。由圖6可看出,微震信號最大幅值遠(yuǎn)遠(yuǎn)高于噪聲,因此,對樣本進(jìn)行傅里葉變換并提取最大幅值作為特征輸入[19]。
圖6 微地震信號和噪聲傅里葉變換
3)時(shí)域振幅最大值。將樣本中地震記錄的振幅最大值作為特征輸入。各階統(tǒng)計(jì)量(包括均值、標(biāo)準(zhǔn)差、25%四分位數(shù)、75%四分位數(shù)、偏度、峰度等)反映了樣本在時(shí)域中的形態(tài)學(xué)特征。
4)梅爾頻率倒譜系數(shù)(MFCC)。MFCC是一種在語音識別中廣泛應(yīng)用的特征,即對信號分幀、加窗后進(jìn)行傅里葉分析得到各窗對應(yīng)的頻譜,將頻譜通過梅爾濾波器運(yùn)算,得到梅爾頻譜。將梅爾頻譜進(jìn)行倒譜分析,即得到了梅爾頻率倒譜系數(shù),MFCC代表著這段信號的動態(tài)特征[20-22]。
本次實(shí)驗(yàn)使用Windows系統(tǒng),基于Spyder和Python開發(fā)環(huán)境,算法框架使用Google研發(fā)的人工智能學(xué)習(xí)系統(tǒng) Tensorflow[23]。
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程是不可見的,為了使神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)及參數(shù)調(diào)整反饋更加清晰,TensorFlow提供了1個(gè)可視化工具TensorBoard。TensorBoard可以有效地展示TensorFlow在運(yùn)行過程中的數(shù)據(jù)信息。
本文設(shè)置的初始參數(shù)見表1。在對微地震有效信號進(jìn)行模型訓(xùn)練的過程中,迭代次數(shù)為2 000次之內(nèi),模型準(zhǔn)確率和損失函數(shù)就可以達(dá)到穩(wěn)定狀態(tài)。batch_size變量在模型訓(xùn)練時(shí),打標(biāo)好的微地震和噪聲訓(xùn)練樣本數(shù)目多,如果直接把所有的訓(xùn)練樣本1次性放進(jìn)模型中訓(xùn)練,在網(wǎng)絡(luò)反向傳播時(shí),會使用很大的計(jì)算內(nèi)存,且無法對參數(shù)進(jìn)行調(diào)整,因此,將訓(xùn)練樣本分批次進(jìn)行訓(xùn)練,batch_size一般設(shè)置為2的n次冪,在實(shí)驗(yàn)中結(jié)合訓(xùn)練樣本的數(shù)目,最終將單次訓(xùn)練數(shù)據(jù)樣本數(shù)量設(shè)置為32。RNN_hidden_size變量在網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),1個(gè)結(jié)點(diǎn)對應(yīng)1個(gè)樣本,本次實(shí)驗(yàn)中設(shè)置為32個(gè)結(jié)點(diǎn)。RNN_hidden_layers變量值越大,整個(gè)模型的誤差越小,但是會出現(xiàn)網(wǎng)絡(luò)復(fù)雜化,增加訓(xùn)練成本,以及過擬合問題,其值設(shè)為2層。learning_rate變量采用指數(shù)衰減法進(jìn)行設(shè)置,在指數(shù)衰減法中,可以先設(shè)置為1個(gè)較大值,在模型的迭代過程中減小學(xué)習(xí)率的值,直至最優(yōu)。n_classes變量在實(shí)驗(yàn)中,將樣本分為微地震有效信號和噪聲2類。features_numbers包括振幅均值、振幅標(biāo)準(zhǔn)差、25百分位數(shù)、75百分位數(shù)、偏度值、峰度值、短長時(shí)窗比的最小值、短長時(shí)窗比的最大值、頻域最大幅值、梅爾頻率倒譜系數(shù)的前2個(gè)系數(shù)、偏振系數(shù)中的偏振角和偏振度。
表1 模型訓(xùn)練參數(shù)
模型的最終準(zhǔn)確率穩(wěn)定在0.92左右,損失函數(shù)穩(wěn)定在0.24左右。
為檢驗(yàn)訓(xùn)練出的RNN模型,將模型與傳統(tǒng)的STA/LTA識別法的研究結(jié)果進(jìn)行比較。
1)利用微地震正演模擬[24-25]得到強(qiáng)度不同的3個(gè)有效信號,分別位于采樣點(diǎn)13 000,14 000,15 000處(見圖7a)。加入高斯白噪聲來模擬不同信噪比的信號,信號3已經(jīng)完全被淹沒在噪聲中,如圖7b。
圖7 微地震模擬信號及加噪后模擬信號
2)采用STA/LTA識別法對模擬信號進(jìn)行識別,長時(shí)窗設(shè)定為60個(gè)采樣點(diǎn),短時(shí)窗為30個(gè)采樣點(diǎn),計(jì)算結(jié)果見圖8a。
圖8 STA/LTA計(jì)算波形及識別效果
通過觀察計(jì)算波形,確定觸發(fā)閾值為1.3(紅虛線),此時(shí)可以正確觸發(fā)信號1,2。截止值設(shè)定為0.75(藍(lán)虛線),信號1可以正確觸發(fā),但是信號2截止過早,識別效果如圖8b。在此情況下,無論如何設(shè)置閾值,信號3都無法正確觸發(fā)。
3)采用分形分維數(shù)法對模擬信號進(jìn)行識別,窗口為20個(gè)采樣點(diǎn),其分形分維數(shù)見圖9。設(shè)定觸發(fā)最低閾值為1.08,此時(shí)能正確識別事件1,但是無法識別事件 2,3。
圖9 分形分維數(shù)識別效果
4)使用訓(xùn)練好的RNN模型對加噪后的模擬信號進(jìn)行識別,模型自動將采樣點(diǎn)4 000個(gè)的整段信號分割為400段,然后對每段進(jìn)行特征提取,在其預(yù)測標(biāo)簽中,第101,201,301段預(yù)測為有效信號,預(yù)測效果如圖10所示。由圖10可看出,訓(xùn)練好的RNN模型識別出了3個(gè)信號,表明其識別效果較好。
圖10 RNN模型識別效果
在實(shí)際水力壓裂微地震地面監(jiān)測數(shù)據(jù)中,選取單個(gè)信號、多個(gè)信號、不同信噪比的幾段記錄,分別使用STA/LTA、分形分維法、循環(huán)神經(jīng)網(wǎng)絡(luò)模型識別法對其進(jìn)行識別。
單個(gè)信號的識別效果如圖11所示,多個(gè)信號的識別效果如圖12所示。
圖11 單信號實(shí)際數(shù)據(jù)信號識別
圖12 多信號實(shí)際數(shù)據(jù)信號識別
在實(shí)際檢測數(shù)據(jù)中,對25道檢波器的地震記錄信號進(jìn)行循環(huán)神經(jīng)網(wǎng)絡(luò)模型信號識別后,對模型識別出的有效信號保留,對識別出的噪聲時(shí)間進(jìn)行置零操作,識別效果見圖13。
圖13 高信噪比信號及RNN模型識別
圖14的地震記錄信號信噪比不算高,存在2個(gè)有效信號,強(qiáng)度差異較明顯。由圖14可看出,RNN模型識別效果較好。
圖14 2個(gè)不同強(qiáng)度信號的地震記錄及識別后波形
1)采用單一特征量來進(jìn)行信號自動識別,其噪聲能力弱,因此,綜合信號的多種特征量來進(jìn)行信號自動識別成為新的發(fā)展方向。循環(huán)神經(jīng)網(wǎng)絡(luò)是高度的非線性網(wǎng)絡(luò)方法,可以綜合地震相的多種特征量,具有準(zhǔn)確、無需設(shè)定閾值等優(yōu)點(diǎn)。
2)在人工智能方法中,循環(huán)神經(jīng)網(wǎng)絡(luò)主要解決時(shí)序信號問題,比較適合處理微地震監(jiān)測信號。循環(huán)神經(jīng)網(wǎng)絡(luò)綜合信號的多種特征量來進(jìn)行信號自動識別,具有準(zhǔn)確、無需設(shè)定閾值等優(yōu)點(diǎn)。
3)循環(huán)神經(jīng)網(wǎng)絡(luò)模型可以識別強(qiáng)度較低的信號,且識別的信號長度較長,避免了有效信息的遺漏。
4)在對實(shí)際水力壓裂微地震多道監(jiān)測數(shù)據(jù)進(jìn)行循環(huán)神經(jīng)網(wǎng)絡(luò)識別后,波形上絕大部分環(huán)境噪聲被去除,列脈沖信號被完整保留。循環(huán)神經(jīng)網(wǎng)絡(luò)模型在識別過程中,通過對算法的優(yōu)化和對識別流程結(jié)構(gòu)進(jìn)行調(diào)整,識別速度還可以進(jìn)一步加快。