梁皓, 孫麗*, 陳姝蕎,2, 支明
1 中國地震臺網(wǎng)中心, 北京 1000452 中國地震局, 北京 100036
隨著地震觀測站點的密度越來越高,越來越多的小地震事件可以被記錄到,這些事件中除了地震、火山活動、滑坡和火流星等天然事件外,還有很多由人類生產(chǎn)活動導(dǎo)致的事件,如爆破、塌陷、礦震和音爆等(趙永等,1995;Kim et al.,2001;包淑嫻,2011;Alvizuri et al.,2021).這些類型的事件相比于天然地震事件,由于其通常發(fā)生在地表或淺地表,同樣的震級大小會產(chǎn)生更為嚴重的后果,給人們的生命財產(chǎn)和生產(chǎn)生活造成重大損失,例如天津濱海爆炸、四川茂縣滑坡等.此外,地震目錄是地震活動性和孕育機制的研究基礎(chǔ),大量非天然地震事件的引入對地震活動性的分析帶來較大的不確定性(吳忠良和牟其鐸,1994;潘華和李金臣,2006;Tang et al.,2020;Gulia and Gasperini,2021).因此,在日常的地震監(jiān)測中,我們不僅需要確定地震的震源參數(shù),同時也需要快速對地震事件類型進行識別與判斷.
由于不同類型的地震事件震源性質(zhì)不同,其反應(yīng)在臺站的波形記錄也有區(qū)別.傳統(tǒng)方法對于爆破和塌陷等地震類型的判斷,通常是根據(jù)一些波形上的固有特征,例如初動極性和P波、S波振幅特征.爆破P波發(fā)育,初動方向多向上,P波與S波最大振幅的比值比天然地震大(汪貴章等,2010;王婷婷,2012;張媛媛等,2020);爆破與天然地震的頻譜也有區(qū)別,同頻帶Pg與Sg的譜比可以有效區(qū)分爆破與天然地震(趙永等,1995;楊成榮等,2001;周仕勇和許忠淮,2010;王婷婷等,2021).也有研究根據(jù)P波和S波振幅比與地方震級ML和尾波震級MC的差值的關(guān)系來對爆破和天然地震進行分類,準確率也可以達到95%以上(Wang et al.,2020).這些定性特征的分析多針對小區(qū)域,沒有全國范圍的統(tǒng)一的標準,導(dǎo)致日常地震監(jiān)測工作地震類型判定有較大的不確定性,準確率基本取決于分析人員的經(jīng)驗積累.近年來,已有學者對地震類型自動識別開展了相關(guān)的研究,利用CNN卷積神經(jīng)網(wǎng)絡(luò),對非天然地震事件以及天然地震事件進行二分類,通過卷積和遞歸神經(jīng)網(wǎng)絡(luò)訓(xùn)練,可將爆破和淺源地震的準確率提高至99%(Linville et al., 2019; Liu et al., 2021),并通過遷移學習來提高模型的泛化能力,使其能跨區(qū)域取得很好的效果(Zhu et al., 2022).Miao等(2020)通過ANN人工選取的特征以及神經(jīng)網(wǎng)絡(luò)對美國肯塔基州的爆破和天然地震進行自動識別.也有學者利用Bagging和支持向量機等機器學習算法,也有效的對爆破和天然地震進行區(qū)分,并取得了很高的識別準確率(任濤等,2019;Tang et al.,2019;Tibi et al., 2019;范曉易等,2020;蔡杏輝等,2021),識別準確率均可達到90%以上.Kong等(2022)結(jié)合物理特征和卷積神經(jīng)網(wǎng)絡(luò)對爆破和地震進行分類,不僅具有很高的準確率同時還具有很強的泛化能力.這些方法多注重于對地震事件進行二分類,已經(jīng)在相關(guān)區(qū)域取得了較好的分類效果.
支持向量機方法(SVM)作為開展較早的機器學習方法,已經(jīng)在震相拾取、圖像識別等多個領(lǐng)域開展了眾多應(yīng)用(張翔等,2004;劉曉亮等,2010;蔣一然和寧杰遠,2019).該方法相比于其他機器學習方法,由于其計算時僅需要對特征提取后的支持向量進行計算,而不需要面對整體數(shù)據(jù),因此具有訓(xùn)練速度快,結(jié)構(gòu)簡單且需要數(shù)據(jù)量較小等一系列優(yōu)勢(丁世飛等,2011).由于非天然事件樣本較少,且與天然地震數(shù)量有明顯差異,因此非常適合利用SVM方法對地震類型識別開展相關(guān)研究.蔡杏輝等(2021)利用SVM有效的對福建地區(qū)的爆破與天然地震進行識別,綜合準確率可以達到95%以上;Tang等(2020)對天然地震、誘發(fā)地震和爆破的識別更是達到99%.本文以東北地區(qū)為例,提取天然地震、爆破和塌陷事件的典型P波和S波的時頻特征,利用SVM算法進行訓(xùn)練和分類,取得了較好識別效果,三分類識別準確率超過99%.
支持向量機(Support Vector Machine-SVM)是基于統(tǒng)計學習理論基礎(chǔ)上的一種以監(jiān)督學習為主的機器學習方法.它在解決小樣本、非線性分類問題中有特有的優(yōu)勢(丁世飛等,2011).目前也被廣泛應(yīng)用于文本識別,圖像識別,時間序列預(yù)測等方面(謝賽琴等,2009;劉曉亮等,2010;蔣一然和寧杰遠,2019).從其分類的原理上看,雖然支持向量機只能解決二元分類問題,不能直接用于多分類問題.但目前已經(jīng)有很多方法,通過構(gòu)造一系列的二元分類器并將它們組合在一起來實現(xiàn)多元分類.常用方法主要是通過在每兩類之間構(gòu)建一個分類器,當對一個樣本進行分類時,通過對每個分類器進行判斷,最終對預(yù)測樣本進行分類(劉志剛等,2004).
該分類方法通常將一組類別已知的對象和相關(guān)的特征值整理成數(shù)據(jù)集,這類數(shù)據(jù)集中通常包含有目標值(即類標簽)以及一些特征屬性(特征向量).最終的目標是通過訓(xùn)練集訓(xùn)練的分類邊界,能夠更好地對測試數(shù)據(jù)進行目標類的給定.
以二分類數(shù)據(jù)為例,給定二分類數(shù)據(jù)空間D(Xi,Yi),其中,i=1,…,n.Xi∈Rn,Yi∈{1,-1},線性二分類模型是對特征向量x的線性組合,即
h(x)=sgn(ωTx+b),
(1)
當數(shù)據(jù)集D線性可分時,目標函數(shù)h(x)需要找到一組合適的參數(shù)(ω,b),使得
Yisign(ωTx+b)>0,
(2)
即希望通過在線性空間中將特征參數(shù)進行劃分,將屬于不同的標簽的特征參數(shù)分開;ωTx+b的正負反映了特征向量相對于超平面的位置.在本研究中,主要問題是能夠?qū)⑷N類型的地震波進行分類.數(shù)據(jù)空間由波形中提取的特征向量以及人工對地震類型分類的標注構(gòu)成.
但當數(shù)據(jù)集線性不可分時,是無法找到這樣的超平面來將數(shù)據(jù)集分開的.這就需要通過核函數(shù)來對數(shù)據(jù)進行變換(Boser et al.,1992;周志華,2016),使得數(shù)據(jù)能夠在高維空間中線性可分.
以上的原理通常描述的都是假設(shè)特征數(shù)據(jù)線性可分的情況下的計算方式.但是在更多的情況下,無法找到一個超平面將特征數(shù)據(jù)分開.就要通過核函數(shù),來解決特征向量線性不可分的問題.
支持向量機中的核函數(shù)(或稱為核技巧),實際上是一種對特征向量Xi的一種非線性映射.旨在構(gòu)造核函數(shù)
k(xi,xj)=φ(xi)Tφ(xj).
(3)
使得高維向量總是以成對內(nèi)積的形式存在,這樣不僅可以得到高維空間中的距離信息,角度信息,而且還減少了對高維空間點的內(nèi)積運算,減少了計算復(fù)雜度.常用的核函數(shù)主要有線性核、多項式核以及高斯核.本文中我們選用高斯核(RBF)來解決線性不可分的問題(周志華,2016):
(4)
本研究主要從頻率域和時間域聯(lián)合提取地震波形中的特征,利用支持向量機方法來對不同事件的地震波形進行分類.其關(guān)鍵問題在于特征值的選取,即特征向量的構(gòu)造.因為支持向量機的原理本身的特性,其對數(shù)據(jù)樣本的數(shù)量要求并不高,僅需少量的人工標注樣本就可以取得很好的效果,因此很適合對于非天然地震的分類處理工作.
本文研究選取2012至2019年,東北地區(qū)國家測震臺網(wǎng)監(jiān)測到的ML2.4級以上,且震中距范圍在60~400 km的臺站記錄到的477個地震事件作為訓(xùn)練數(shù)據(jù).該地區(qū)非天然事件相對于其他地區(qū)較多,并且塌陷和爆破樣本較為充足.由于非天然事件震級不大,最大震級不超過ML4.0,我們選取該地區(qū)與其相差不大的天然地震事件作為數(shù)據(jù)樣本.
為了使在學習過程中各類型樣本之間迭代次數(shù)不產(chǎn)生較大的差別,故選取的天然地震事件數(shù)量也盡可能在同一數(shù)量級,在迭代時某一類型的數(shù)據(jù)量過少,也會對訓(xùn)練過程產(chǎn)生影響.其中天然地震事件188個,塌陷事件98個,爆破事件191個,平均被7個臺站記錄到,三分量共10407條波形.地震事件以及臺站的空間分布見圖1(圖1a為臺站位置,圖1b為地震事件位置).可以看出相對于天然事件的空間位置,非天然發(fā)生的位置相對集中,特別是塌陷事件多集中在特定礦區(qū)附近.
圖1 研究區(qū)域臺站以及地震事件空間位置分布(a) 研究區(qū)域臺站分布圖,藍色三角表示地震臺站; (b) 研究區(qū)域地震事件分布圖,紅色圓點為爆破事件,黃色圓點為塌陷事件,綠色圓點為天然地震事件.
支持向量機的識別性能好壞很大程度上取決于特征向量的選取是否合理(蔣一然和寧杰遠,2019).地震臺站記錄到的是震源效應(yīng)與地震傳播過程中介質(zhì)響應(yīng)的體現(xiàn),例如天然地震為斷層的剪切和錯動,其釋放的能量S波通常顯著大于P波;而爆炸源通常為膨脹源,發(fā)生在淺地表,P波釋放的能量理論上應(yīng)大于S波.塌陷多為垂直單力源,通常與前兩者在波形上的主要差別為近場初動方向向下,面波較為發(fā)育(周仕勇和許忠淮,2010).從東北地區(qū)的三種類型的地震波形記錄(圖2)中可以看出,僅從振幅比或者P波初動方向的單一指標是不容易將三者準確地區(qū)分,一些特殊情況下的波形就更難在地震類型上做出準確地判斷.目前國內(nèi)外也對非天然地震識別開展了廣泛研究,通常使用P、S波振幅比,頻譜振幅等相關(guān)方法(趙永等,1995;Wang et al.,2020).我們嘗試定量提取波形的時頻特征,首先對原始三分量速度記錄進行預(yù)處理,將每一條記錄單獨用最大值進行歸一化并去除線性趨勢,再將每條波形特定中心頻率下的頻譜求解平均值.波形預(yù)處理后可以從歸一化后的三種地震類型0.1~10 Hz的平均速度振幅譜(圖3)看出在頻率譜中三種地震類型是有明顯區(qū)別的.爆破事件和塌陷事件2 Hz以下的低頻成分最豐富,塌陷事件低頻成分主要集中4至6 s頻段,爆破事件的低頻成分集中在4 s至2 Hz.天然地震2 Hz以上的高頻成分比較明顯.三種地震類型在5 s以下的頻段較難區(qū)分,尤其是爆破和天然地震振幅基本重合在一起.因此首先從頻率域中選取一些特征作為支持向量機的特征值,來更好的區(qū)分三種類型的地震事件.
圖2 三種類型地震事件的波形記錄(a) 黑龍江漠河臺記錄到的爆破事件; (b) 遼寧北票臺記錄到的塌陷事件; (c) 黑龍江寶清臺記錄到的天然地震事件.
圖3 東北地區(qū)三種類型地震事件的平均速度譜(0.1~10 Hz)紅色為爆破事件,黃色為塌陷事件,綠色為天然地震事件.
波形振幅的基本差異是區(qū)別不同事件類型的根本特征,在對地震事件類型有基本了解后,考慮到不同事件類型的區(qū)別和P波和S波的差異性,分別對P波和S波多頻率下各取相應(yīng)的特征進行特征的提取.為了盡可能準確快速的對事件進行分類,需要選取各個頻段下更能區(qū)分不同事件的特征,而不是一味的增加不必要的特征而加大計算量.
從歸一化后的頻譜可以看出,低頻部分爆破和天然地震相似度較高,低頻部分振幅較小(圖3),塌陷事件與二者有明顯的差別;在頻率超過10 Hz和低于0.2 Hz時,三種類型的事件均具有較高的相似性,隨著頻率增大,三者的趨勢越接近.因此我們計算0.2~10 Hz的頻譜特征.
因考慮到SVM方法對樣本數(shù)量要求不高的特點,不再對原始數(shù)據(jù)進行數(shù)據(jù)增強,僅對現(xiàn)有的數(shù)據(jù)進行預(yù)處理.根據(jù)頻譜的特征,以及實際觀測的震中距和震級大小等因素,本文嘗試對不同的特征向量以及不同核函數(shù)的選取進行了實驗,選取綜合識別準確率最高的方案.最終選取0.2~10 Hz頻帶中的特征值構(gòu)成特征向量,并對頻譜進行最大值的歸一化處理,歸一化可以確保頻譜與每個事件絕對振幅大小無關(guān).根據(jù)震中距60~400 km范圍,這里分別取P波后7s和S波后20 s作為窗口,然后由公式(5)對每一個事件所有臺站接收到的波形進行P波頻譜和S波頻譜分別求解平均振幅譜,這樣做可以最大限度的減少沿不同路徑傳播的地震波產(chǎn)生的差異(Tang et al.,2020):
a(p,s)(f)=[b1(f)+b2(f)+…bn(f)]/n,
(5)
之后再利用公式(6)求解特定中心頻率下的歸一化譜振幅,其中a(p,s)(f)是公式(5)求得的平均P波、S波譜振幅,b(f)是各個通道的頻譜,n是記錄到該事件的通道數(shù)量,Δf是用于選擇特定中心頻率所選取的參數(shù),當小于1 Hz時選擇的Δf為0.1 Hz,當大于1 Hz時選擇的Δf為0.5 Hz,f=0.2,0.3,0.4,…,10.計算出A(p),A(s)共54個頻率域特征參數(shù):
(6)
通過計算各中心頻率下的振幅可以看出無論P波還是S波,選取的27個特征參數(shù)對于塌陷和天然地震,無論P波特征還是S波特征,在低頻和高頻都有較好的區(qū)分度,誤差棒的交叉部分很少(圖4c、4f);但是對于爆破和塌陷,P波頻譜特征的重合度是很高的,僅在低頻部分有一定的區(qū)分,誤差棒也產(chǎn)生很大重疊(圖4a),但其S波頻譜的低頻特征可以較好的將二者分開(圖4d);爆破和天然地震在P波特征的區(qū)分度較低,無論低頻特征還是高頻特征,二者的相似度都很高(圖4b),但S波特征卻可以很好的將二者分開(圖4e).這也進一步說明,在日常工作中對于非天然地震類型的判斷中,通過單一特征判別塌陷事件和爆破事件是非常困難的.
圖4 東北地區(qū)三種類型地震事件27個中心頻率下的P波、S波頻譜紅色為爆破事件,黃色為塌陷事件,綠色為天然地震事件.誤差棒為歸一化的各頻率下的標準差.
為了進一步將爆破的特征能夠更好地與塌陷、天然地震區(qū)分,我們試著將AP與AS各中心頻率下的比值作為特征值來構(gòu)成特征向量.
可以看出,與單純使用P波或S波不同,AP與AS的比值可以很好的將爆破事件與塌陷與天然地震分開(圖5).AP與AS的比值在塌陷和天然地震有很好的相似性,但爆破事件在高頻部分明顯高于前兩者.因此在特征向量的構(gòu)建中我們加入AP與AS的比值作為特征值.
圖5 東北地區(qū)三種地震事件27個中心頻率下的P波、S波譜振幅比紅色為爆破事件,黃色為塌陷事件,綠色為天然地震事件.
我們嘗試了多個頻帶范圍下直接用AP與AS的比值和1~15 Hz頻帶范圍窗口內(nèi)P波振幅的峰值和S波峰值的比值,最終選取了識別效果更好的峰值比下的特征參數(shù):按照大致3 Hz的帶寬,對1~15 Hz下的各個頻段進行濾波,在多個頻段下的P波、S波振幅的峰值比作為時間域下的特征,選出15個時間域下的特征參數(shù).
根據(jù)以上的考慮以及大量試驗,本文選出的能夠區(qū)分三種類型地震的特征參數(shù)包括頻率域和時間域一共69個特征參數(shù).也就是說,每一個地震事件,我們最后都將通過以上計算方式,將單個地震事件轉(zhuǎn)化為69個特征參數(shù)組成的特征向量.本文所涉及的方法只探究事件水平上的模型分類表現(xiàn),在以上數(shù)據(jù)的預(yù)處理階段,已經(jīng)將頻譜中的特征各個臺之間都進行了平均,最終在送入分類器之前每個事件已經(jīng)是一個1×69的向量,因此并沒有對單臺的評估結(jié)果,也沒有對單臺的準確率上的表現(xiàn),旨在通過多臺的綜合特征分析,提高事件類型識別的準確率.
同時也考慮到震中距較近的臺站,P波和S波所選取的窗口可能會產(chǎn)生數(shù)據(jù)交疊的部分,所以在數(shù)據(jù)的篩選過程會選擇震中距在60 km以外的臺站所接收到的波形.同時,由于非天然地震的震級較小,為了保證數(shù)據(jù)質(zhì)量,也僅選取震中距400 km以內(nèi)的臺站記錄到的數(shù)據(jù).因為P波或S波不清晰時也會影響識別的準確率,特征值提取過程顯示,僅靠單一特征,很難準確識別事件類型.但僅是P波初至或S波初至不清晰,對分辨結(jié)果影響不大,因為我們提取了完整波形特征信息,而這些特征中并不包含初至極性.
訓(xùn)練過程中將每一類地震事件的75%隨機挑選出來作為訓(xùn)練集,剩下的25%的數(shù)據(jù)作為評價訓(xùn)練結(jié)果的測試集.具體各類地震數(shù)據(jù)數(shù)量在表1中展示.訓(xùn)練時經(jīng)過對比各類核函數(shù),選擇正確率較高的高斯核函數(shù),通過序列最小化方法(SMO)自動優(yōu)化超參數(shù),找到最小化十折交叉驗證損失的超參數(shù),得到最終分類模型(Platt,1998).
表1 訓(xùn)練集與測試集地震事件數(shù)量分布
將測試集中共119地震事件樣本輸入訓(xùn)練好的模型中,最終得到的分類結(jié)果呈現(xiàn)在混淆矩陣(圖6)當中.用精度和召回率來衡量分類器最終的分類識別效果,P表示識別的精度,R表示識別的召回率.用MIOU(Mean Intersection over Union)指標來對結(jié)果做標準度量.定義TP為真正例,即預(yù)測值為真,真實值也為真;FP為假正例,即預(yù)測值為真,真實值為假;FN為假反例,即預(yù)測值為假,真實值為真.將識別準確率(精度)P和召回率R分別定義為
圖6 測試數(shù)據(jù)分類結(jié)果的混淆矩陣橫坐標為輸入數(shù)據(jù)類型,縱坐標為分類器輸出數(shù)據(jù)類型;綠色為準確分類數(shù)量,紅色為錯誤分類數(shù)量.紅色框和綠色框內(nèi)的百分比為對應(yīng)的事件數(shù)量占所有測試事件數(shù)的比例;淺灰色框內(nèi)綠色百分比為其所對應(yīng)的行(列)正確識別的事件數(shù)量與對應(yīng)行(列)總數(shù)量的比例,紅色為對應(yīng)的錯誤識別比例,二者之和為100%;深灰色框的綠色百分比為測試數(shù)據(jù)中心所有正確識別的事件占總體的比例,紅色為對應(yīng)的錯誤識別比例.
(7)
(8)
識別準確率高說明對應(yīng)的事件類型誤識別少,召回率高則表示對應(yīng)事件的漏識別少,目標則是希望二者都能保持一個較高的值(趙明等,2019).當識別準確率和召回率的值有區(qū)別時,我們利用F1分數(shù)(F1-Score)來對模型的綜合效果進行評價,F1分數(shù)被定義為
(9)
最終測試結(jié)果顯示,輸入的48個爆破事件波形,均被準確識別為爆破,但輸入的24個塌陷事件波形,有23個被準確識別,1個被誤識別為爆破事件.爆破事件的識別準確率為98.0%,召回率為100%;塌陷事件識別的準確率100%,召回率為95.8%.輸入的47個天然地震事件,均被正確識別,準確率和召回率均為100%.測試集的119個地震事件,118個被準確識別,整體準確率達到了99.2%,三種事件分類的F1分數(shù)也分別達到了98.99%、97.85%和100%(表2).從以上詳細的分類結(jié)果也可以看出,測試的地震事件中,天然地震和非天然地震不會誤分類,但爆破和塌陷之間可能存在一定錯誤識別概率.
測試集中唯一被錯誤分類的地震為2016年6月14日18點34分在吉林敦化發(fā)生的ML2.4塌陷事件,在其震中附近僅有一個與其震級相當?shù)谋剖录?震中附近為吉林省最大的鐵礦.該事件波形,近臺初動多向上,且P波與S波的振幅比顯著大于天然地震,具有很強的爆破事件特征,該事件很可能為一次地震目錄中的錯誤分類事件(圖7).
圖7 測試集錯誤分類的吉林敦化塌陷事件波形
由此我們可以看出,支持向量機方法在多分類上擁有其獨特的優(yōu)勢,通過支持向量機可以有效對三種類型的地震事件進行較為準確的分類,從而達到比其他方法更好的效果.實際上,要使得分類的準確率達到100%是十分困難的,日常工作中只有很少一部分事件的類型是經(jīng)過現(xiàn)場核實的,大部分是人工經(jīng)驗識別的結(jié)果,因此我們的樣本庫也可能存在一定的誤分類概率.
為說明頻帶選取的合理性,同時也為了測試不同頻帶下的特征值對于最終訓(xùn)練結(jié)果的影響,我們按照相同的計算方式,又重新提取了1 Hz以下的低頻特征.我們依舊通過隨機選取的75%的事件作為訓(xùn)練集,剩下25%的作為測試集來驗證訓(xùn)練結(jié)果.通過支持向量機將選取的低頻特征向量訓(xùn)練后,最終的測試結(jié)果顯示:爆破事件的召回率達到81.3%,塌陷事件的召回率達到87.5%,均明顯低于0.2~10 Hz的頻帶測試結(jié)果;天然地震事件的召回率顯著下降為72.3%(圖8).
圖8 低頻特征測試數(shù)據(jù)分類結(jié)果的混淆矩陣
這個結(jié)果與從頻譜中呈現(xiàn)的結(jié)果來看是相符的(圖3),從頻率域提取的用于進行支持向量機訓(xùn)練的特征,在低頻部分(1 Hz以下),塌陷與爆破及天然地震有較大的區(qū)別,而爆破與天然地震的低頻部分相似度更大,這也說明了為什么僅用低頻特征塌陷事件的準確率下降不明顯,而爆破及天然地震的準確率會顯著下降,絕大多數(shù)天然地震都被誤識別為爆破事件.此外,當僅使用P波或S波特征向量時,識別準確率和召回率也顯著降低.綜上,在利用支持向量機方法設(shè)計分類器時,識別精度的提高很大程度上依賴特征值的選取.這也說明我們針對于該區(qū)域的地震事件分類所選取的頻率域特征是較為合理的.
為驗證該模型對其他區(qū)域的泛化能力,利用東北地區(qū)訓(xùn)練好的模型直接對內(nèi)蒙古的80個爆破事件和甘肅的68個塌陷事件進行分類.分類結(jié)果顯示二者的F1分數(shù)分別為86.6%和84.9%.表3為分類結(jié)果的性能評估指標.準確率的下降是由于各地區(qū)的爆破和塌陷在波形上是有一定的區(qū)別的,因此其頻率域內(nèi)的特征也是有很大區(qū)別.要提高在不同區(qū)域的準確率,就需要在訓(xùn)練數(shù)據(jù)集中加入一定數(shù)量的樣本進行訓(xùn)練.
表3 甘肅和內(nèi)蒙古地區(qū)不同事件類型的性能評估指標
本文利用支持向量機,從地震波的基本物理特征出發(fā),結(jié)合人工地震分類識別經(jīng)驗,將東北地區(qū)的天然地震事件、爆破事件和塌陷事件進行有效的分類研究.
研究結(jié)果表明,支持向量機在數(shù)據(jù)二分類或多分類上有先天的優(yōu)勢,與CNN、RNN等近年來比較主流的機器學習方法相比,其在數(shù)據(jù)量較少,且單純的分類應(yīng)用場景有非常好的計算效果.基于大數(shù)據(jù)樣本的深度學習,無論在模型復(fù)雜度和計算效率成本上都是不可忽略的,支持向量機數(shù)學模型簡單,可以以高效的計算效率達到較好的計算效果.從本文的結(jié)果可以看出,在選取適合特征的基礎(chǔ)上,SVM就可以準確的識別地震事件的類型.同時即便是在較小的樣本下,也可以有很高的準確率以及不錯的泛化能力,即便加入其他區(qū)域未訓(xùn)練的數(shù)據(jù)也可以有較高的準確率.
由于每個地區(qū)的地質(zhì)構(gòu)造背景以及傳播路徑的影響,不同地區(qū)的同類型地震波形也有著一定的差異.同時,東三省地質(zhì)構(gòu)造接近且三種類型的地震事件都有很好的覆蓋,因此我們選擇東三省地區(qū)的數(shù)據(jù)用來訓(xùn)練和測試.盡管SVM方法在地震事件分類上有很好的效果,但目前來看SVM方法仍具有一定的局限性:首先與CNN卷積神經(jīng)網(wǎng)絡(luò)不同的是,SVM在訓(xùn)練之前對數(shù)據(jù)預(yù)處理的步驟較多,尤其是需要人為給出先驗特征,對特征向量的選取需要一定的技巧.其次,泛化能力在數(shù)據(jù)量不足夠大的情況下有一定的提升空間,需要用特定地區(qū)的數(shù)據(jù)訓(xùn)練模型來對特定地區(qū)進行地震分類.
致謝文中所用到的連續(xù)波形數(shù)據(jù)和震相報告均由中國地震臺網(wǎng)中心提供,文中的部分圖件為GMT(Generic Mapping Tools)繪制(Wessel et al.,2013).