李冬梅,周翠英,朱成林,孫龍梅,呂子強(qiáng),程顯洲
(1.中國地震局蘭州地震研究所,甘肅蘭州730000;2.山東省地震局,山東濟(jì)南250014;3.山東女子學(xué)院,山東濟(jì)南250300)
地震序列的類型判斷及其成因機(jī)理研究是地震學(xué)的基本問題之一,對于揭示地震孕育和發(fā)生發(fā)展過程物理本質(zhì)具有重要理論意義。一次較大地震發(fā)生后,后續(xù)的地震活動趨勢如何發(fā)展?其后是否有較大余震或者更大地震發(fā)生?其發(fā)震時間和地點判斷等,都是政府和震區(qū)民眾最為關(guān)心的問題。而要較好地回答上述問題,地震序列類型的早期快速預(yù)測是基礎(chǔ)和關(guān)鍵。追蹤2008年汶川8.0級地震和最近40年來我國發(fā)生的歷次大地震,震后趨勢快速判斷對震后科學(xué)應(yīng)急決策、及時的救助救援和穩(wěn)定社會、安撫民心、災(zāi)后重建等工作均起著至關(guān)重要的作用。當(dāng)前,我國仍存在發(fā)生破壞性地震的危險,尤其是在人口稠密、經(jīng)濟(jì)發(fā)達(dá)的華北地區(qū),這種危險在日益迫近,因此震后趨勢快速判斷問題愈顯重要。
對于一個完整的地震序列,其類型的判別已有較為成熟的方法和參數(shù)(吳開統(tǒng)等,1976,1990;周惠蘭等,1980)。但在地震剛剛發(fā)生,序列還極不完整的情況下,進(jìn)行序列類型的早期預(yù)測,目前尚無統(tǒng)一的規(guī)范性的成熟方法或規(guī)則。
地震序列類型的劃分,可以將之轉(zhuǎn)化為統(tǒng)計模式識別問題。SVM(Support Vector Machine,支持向量機(jī))是一種基于統(tǒng)計學(xué)習(xí)理論、建立在VC維理論和結(jié)構(gòu)風(fēng)險最小原理基礎(chǔ)上的方法,其在解決小樣本、非線性、過學(xué)習(xí)及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,在模式分類問題上具有很好的泛化性能。它的主要思想是在特征空間中建構(gòu)最優(yōu)分割超平面,使得正例和反例之間的隔離邊緣最大化。支持向量機(jī)是處理高度非線性分類、回歸等問題的新方法,近年來在地震學(xué)領(lǐng)域也有應(yīng)用,王煒等(2005,2006b)開展了相關(guān)研究工作,將支持向量機(jī)方法引用到對我國大陸強(qiáng)震預(yù)測及時間序列預(yù)測中,效果較好,王煒等(2006b)還介紹了支持向量機(jī)在地震預(yù)測其它可應(yīng)用的領(lǐng)域?;谥С窒蛄繖C(jī)計算簡單,且有很強(qiáng)的魯棒性和泛化性能,我們將其應(yīng)用到地震序列類型早期預(yù)測。筆者是在Matlab環(huán)境下,通過構(gòu)造SVM,建立地震序列特征參數(shù)與序列類型之間的一種非線性映射關(guān)系,從而對地震序列類型進(jìn)行早期分類預(yù)測的嘗試。
針對中國大陸地震序列類型所開展的研究中,蔣海昆等(2007)搜集整理了1966~2002年中國大陸地區(qū)的紀(jì)錄相對完備的5級以上地震序列183次。本文基于這些資料,從中篩選出最大地震M1≥5.0的中、強(qiáng)地震序列,并刪除余震過少(<30次)的序列28個,補(bǔ)充了2003~2011年發(fā)生的地震序列25個,共計180個地震序列構(gòu)成本文研究的基礎(chǔ)數(shù)據(jù),其中7.0級以上地震序列23個;6.0~6.9級序列66個;5.0~5.9級序列91個。進(jìn)一步根據(jù)資料情況,確定研究樣本的震級下限(劉正榮,1984),具體方法是繪制每個地震序列樣本頻度—震級圖,統(tǒng)計相應(yīng)震級的地震次數(shù),根據(jù)最大頻次相應(yīng)的震級確定下限震級,低于下限震級的地震被認(rèn)為記錄不完整,不予采用。
吳開統(tǒng)等(1990)根據(jù)多年的觀測經(jīng)驗提出了3條地震序列類型的劃分原則,分別為序列記錄中最大地震釋放的能量與全序列地震釋放的能量之比、最大地震與次大地震的震級差以及余震多少,具體規(guī)則(周翠英等,2010)見表1。
表1 地震序列類型劃分標(biāo)準(zhǔn)Tab.1 Classification standards of earthquake sequence type
表1中震級差是以MS為震級標(biāo)度,若以ML為標(biāo)度,蔣海昆等(2007)做過推導(dǎo),統(tǒng)一用序列主震與12個月內(nèi)最大余震之間的震級差ΔM進(jìn)行序列類型劃分,劃分標(biāo)準(zhǔn)為:當(dāng)0.6≤ΔM≤2.4時,序列為主余型;當(dāng)ΔM≥2.5且余震次數(shù)較少時,序列為孤立型;當(dāng)ΔM<0.6序列為震群型。本文綜合地震波能量比和蔣海昆(2006)提出的震級差劃分原則,對所要研究的180次地震序列進(jìn)行了初始分類,結(jié)果見表2。
表2 不同主震震級地震序列類型初始分類統(tǒng)計Tab.2 Initial classified statistics of earthquake sequence types with different magnitudes
在所搜集的180個地震序列資料中,分別選取序列第一次大震M1(對于主余型序列,該震即為主震Mmax,對于強(qiáng)震群型或雙震型,則該震為序列第一個大震)后1~7天的資料,對其后1、2、3、5和7天5個時間尺度進(jìn)行序列分類早期預(yù)測研究(王煒等,2006b)。
根據(jù)地震序列分類規(guī)則和活動特征,序列參數(shù)的選擇主要考慮以下2個方面的因素(蔣海昆等,2007):(1)參考以往對單參數(shù)序列分類能力的統(tǒng)計評價結(jié)果;(2)對一些余震不十分發(fā)育的序列,許多參數(shù)由于余震數(shù)目的限制而無法計算,因此判別函數(shù)的建立主要考慮采用直接表征序列頻次及應(yīng)變能釋放特征的簡單參數(shù)。
對于序列參數(shù)的選取的研究前人已開展工作,本文沒有再進(jìn)行相關(guān)的參數(shù)選擇,依據(jù)蔣海昆等(2007)、周翠英等(1996)、劉正榮和孔紹麟(1986)的研究成果,在廣泛細(xì)致分析各種單項特征指標(biāo)基礎(chǔ)上,綜合分析尋求有可能反映序列活動本質(zhì)規(guī)律的整體特征,筆者選擇了表3中所列的7個常用的表征序列特征的參數(shù),蔣海昆等(2006)給出各參數(shù)詳細(xì)物理含義。需要指出的是雖然上述參數(shù)很多是相關(guān)的,但是從不同側(cè)面反映序列演化特征。進(jìn)而分震后1、2、3、5、7天5個時間尺度計算各單項序列參數(shù)。
表3 序列單項參數(shù)Tab.3 Single parameters of sequence
SVM模型建立主要有6個步驟(史峰等,2010):首先從原始數(shù)據(jù)中提取訓(xùn)練集和測試集,然后進(jìn)行預(yù)處理(有時需特征提取),選擇svmtrain的懲罰參數(shù)c和核函數(shù)參數(shù)g(本文運用粒子群優(yōu)化算法),之后用最佳參數(shù)對訓(xùn)練集進(jìn)行訓(xùn)練,用得到的模型來預(yù)測測試集的分類標(biāo)簽,將其分類,得到分類準(zhǔn)確率,算法流程如圖1所示。
圖1 SVM模型流程圖Fig.1 Flow chart of SVM model
在所選取的180個地震序列樣本中,每個樣本含有7個特征分量(序列單參數(shù)判據(jù)),這些樣本有3種序列類型,分別給予類別標(biāo)簽。其中1~116屬于主余型(類別標(biāo)簽為1),117~160屬于震群型(類別標(biāo)簽為2),161~180屬于孤立型(類別標(biāo)簽為3)。按照3∶1將每個類別樣本隨機(jī)分為兩組,重新組合數(shù)據(jù),分別作為訓(xùn)練集和測試集。
對訓(xùn)練集和測試集資料進(jìn)行歸一化處理,使各樣本元素的值在 [0,1]之間,確保網(wǎng)絡(luò)對樣本具有足夠的輸入敏感性和良好的擬合性。選用的歸一化方法為
在Matlab中,mapminmax函數(shù)可以實現(xiàn)上述歸一化,常用的實現(xiàn)命令(劉正榮,1984)為
其中,x是原始數(shù)據(jù),y是歸一化后的數(shù)據(jù),ps是個結(jié)構(gòu)體,記錄的是歸一化的映射。
SVM做分類預(yù)測需要調(diào)節(jié)相關(guān)參數(shù)(主要是懲罰參數(shù)c和核函數(shù)參數(shù)g),以達(dá)到比較理想的預(yù)測分類準(zhǔn)確率,避免過學(xué)習(xí)和欠學(xué)習(xí)狀況發(fā)生。關(guān)于SVM參數(shù)的優(yōu)化選取,國際上目前還沒有公認(rèn)統(tǒng)一的最好的方法,本文采用粒子群優(yōu)化算法參數(shù)尋優(yōu)(ParticleSwarm Optimization,簡稱PSO),其是通過粒子在解空間追隨最優(yōu)的例子進(jìn)行搜索(史峰等,2010)。
采用matlab中的libsvm工具箱,運用訓(xùn)練函數(shù)svmtrain,選擇C-SVC類型,采用徑向基函數(shù)作為核函數(shù),它利用局部接收域完成函數(shù)映射,在SVM中應(yīng)用最為廣泛。進(jìn)一步確定SVM其它參數(shù),運用PSO算法尋優(yōu),使用訓(xùn)練集對SVM進(jìn)行訓(xùn)練,用得到的模型分別對訓(xùn)練集和測試集進(jìn)行內(nèi)符及外推檢驗。
依照以上步驟,用所得到的地震序列參數(shù)判據(jù),對180個已知樣本進(jìn)行內(nèi)符檢驗,選擇合適的c&g參數(shù),180個樣本都能識別正確。說明SVM模型具有較好的內(nèi)符識別效果,對訓(xùn)練集學(xué)習(xí)后能夠高準(zhǔn)確率的預(yù)測,學(xué)習(xí)能力較強(qiáng)。
按照步驟1對訓(xùn)練集和測試集劃分,進(jìn)而對SVM進(jìn)行學(xué)習(xí)訓(xùn)練,選擇合適的c&g參數(shù),用得到的模型對1、2、3、5和7天5個時間段的測試集進(jìn)行預(yù)測,以可達(dá)到的分類準(zhǔn)確率作為評價SVM的性能指標(biāo)。將5個時段的判別結(jié)果按序列類型統(tǒng)計列于表4,可知:
(1)利用震后1~7天的序列資料進(jìn)行序列類型劃分,1天的判別正確率達(dá)到82.2%,具有相對較高的類型判別能力。并且資料長度(震后時間)越增加,3種序列類型識別正確率總和越高。
(2)主余型序列識別正確率介于震群型和孤立型之間,其主要原因為主余型的訓(xùn)練樣本是最多的,學(xué)習(xí)最為完善,識別正確率相對較高;序列自身活動特征也是影響因素。
(3)震群型序列的識別正確率基本上隨著資料長度(震后時間)增加而增大。深入分析震群型序列識別正確率相對較低原因,除去資料樣本的關(guān)系,也和該序列的形態(tài)和活動特征有關(guān)。
(4)除第一天外,其余4個時間段孤立型序列都完全識別出來,識別正確率基本保持在一個較高水平,其判別正確率與震后時間長度變化關(guān)系不大。
(5)具體分析識別錯誤的地震序列,發(fā)現(xiàn)5個時段錯判對象有些是基本固定的,例如1976年11月7日寧蒗6.7級地震序列在5個時段錯分3次,分析發(fā)現(xiàn)該序列從1976年11月7日6.7級地震后,序列一直延續(xù)到12月13日才發(fā)生6.4級次大地震,兩次地震相距36天。該序列的活動特征影響了序列類型判定,在本文7天的統(tǒng)計時間段內(nèi)未發(fā)生次大地震,在判別過程中將其誤判為主余型。
表4 分序列類型識別正確率統(tǒng)計Tab.4 Accuracy rate statistics of type recognition of subsequences
(1)筆者對提取的地震序列早期(1~7天內(nèi))分類參量進(jìn)行綜合后,優(yōu)于一般的單參數(shù)分類指標(biāo)效果,有較高的實用價值。
(2)SVM預(yù)報效果依賴于所選用的網(wǎng)絡(luò)模型、核函數(shù)及所選用的各參數(shù)指標(biāo),如何設(shè)置更為有效需要進(jìn)一步探索。
(3)從輸出結(jié)果看,對于震群型序列,本文的識別正確率較低。SVM的預(yù)測準(zhǔn)確性與訓(xùn)練樣本數(shù)量及選取有較大關(guān)系,進(jìn)一步豐富地震序列樣本,和進(jìn)行分區(qū)建模試驗,有望進(jìn)一步改善預(yù)測模型,提高正確識別率。
(4)建模實驗中采用的序列參數(shù)是基于以往研究結(jié)果,參數(shù)選取影響模型預(yù)測效果。為獲得更為完美的預(yù)測模型,充分的參數(shù)選取試驗和進(jìn)一步挖掘新的序列參數(shù)是有待繼續(xù)進(jìn)行的工作。
綜上所述,SVM方法用于對地震序列類型預(yù)測,效果較好、處理速度快、具有較強(qiáng)的實用性,有廣泛的應(yīng)用前景。但是也存在一些要完善和檢驗的問題,所以要提高模型的分類準(zhǔn)確率還需要進(jìn)一步完善SVM模型。
蔣海昆,代磊,侯海峰,等.2006.余震序列性質(zhì)判定單參數(shù)判據(jù)的統(tǒng)計研究[J].地震,26(3):17-25.
蔣海昆,傅征祥,劉杰,等.2007.中國大陸地震序列研究[M].北京:地震出版社.
劉正榮,孔紹麟.1986.地震頻度衰減與地震預(yù)報[J],地震研究,9(1):6-8.
劉正榮.1984.根據(jù)地震頻度衰減預(yù)報地震的工作細(xì)則[J].地震,(1):32-37.
史峰,王小川,郁磊,等.2010.Matlab神經(jīng)網(wǎng)絡(luò)30個案例分析[M].北京:北京航空航天大學(xué)出版社.
王煒,林命週,馬欽忠,等.2006a.支持向量機(jī)及其在地震預(yù)報中的應(yīng)用前景[J].西北地震學(xué)報,28(1):78 -84.
王煒,劉悅,李國正,等.2005.中國大陸強(qiáng)震時間序列預(yù)測的支持向量機(jī)方法[J].地震,25(4):26-32.
王煒,劉悅,李國正,等.2006b.我國大陸強(qiáng)震預(yù)測的支持向量機(jī)方法[J].地震學(xué)報,28(1):29-36.
吳開統(tǒng),焦遠(yuǎn)碧,呂培苓,等.1990.地震序列概論[M].北京:北京大學(xué)出版社.
吳開統(tǒng),岳明生,武宦英,等.1976.海城地震序列的特征[J].地球物理學(xué)報,19(2):95-109.
周翠英,耿杰,王梅,等.2010.山東地區(qū)地震分析預(yù)報手冊—預(yù)測方法、指標(biāo)、震例[M].濟(jì)南:山東科學(xué)技術(shù)出版社,37-38.
周翠英,張宇霞,王紅衛(wèi).1996.以模式識別方法提取地震序列早期判斷的綜合指標(biāo)[J].地震學(xué)報,18(1):118-124.
周惠蘭,房桂榮,章愛娣,等.1980.地震震型判斷方法探討[J].西北地震學(xué)報,2(2):45-59.