張婷婷,章熙海,王冬辰
(江蘇省地震局,江蘇南京 210014)
近年來,我國多地頻繁發(fā)生地震災(zāi)害,對人們的生產(chǎn)生活和社會經(jīng)濟的發(fā)展產(chǎn)生了嚴重影響[1-3]。由于我國有很多地區(qū)位于地震高危區(qū),對地震的預(yù)測能力以及針對地震災(zāi)害的準備工作顯得尤為重要[4-5]。
隨著大數(shù)據(jù)技術(shù)和計算機技術(shù)的快速發(fā)展,越來越多的學(xué)者開始使用大數(shù)據(jù)與深度學(xué)習(xí)對地震綜合數(shù)據(jù)進行信息挖掘[6-10]。傳統(tǒng)數(shù)據(jù)分析方法僅適用于單一模態(tài)數(shù)據(jù),由于各項地震相關(guān)數(shù)據(jù)的格式不同,為多模態(tài)數(shù)據(jù),因此如何提高多模態(tài)、異構(gòu)數(shù)據(jù)的分析效率成為了當(dāng)前的熱門課題之一[11-16]。
針對地震綜合數(shù)據(jù)中的多模態(tài)、異構(gòu)數(shù)據(jù),該文構(gòu)建了無監(jiān)督多模態(tài)、非負相關(guān)特征融合算法,用于實現(xiàn)多模態(tài)數(shù)據(jù)共享空間內(nèi)部特征的融合規(guī)律學(xué)習(xí)和聚類分析;同時,利用深度置信網(wǎng)絡(luò)構(gòu)建了多模態(tài)、異構(gòu)數(shù)據(jù)特征分析模型,在網(wǎng)絡(luò)平滑約束下將融合后的特征進行學(xué)習(xí)和分類,有效提高了數(shù)據(jù)分析能力。
地震綜合數(shù)據(jù)分析系統(tǒng)是面向地震高危區(qū)用于應(yīng)急準備、處置和預(yù)評估的系統(tǒng)。其涉及的數(shù)據(jù)包含了各個地區(qū)的地震應(yīng)急基礎(chǔ)數(shù)據(jù)和各類地震探測儀器所產(chǎn)生的數(shù)據(jù),旨在評估地震風(fēng)險和可能造成的災(zāi)害損失,以便有針對性地提高地震應(yīng)急準備能力。地震應(yīng)急基礎(chǔ)數(shù)據(jù)包含了當(dāng)?shù)剌爡^(qū)的建筑物類別、密度、逃生避難場所的數(shù)量等;地震探測數(shù)據(jù)包含地震矢量數(shù)據(jù)中的縱橫波速度、振幅、頻率以及同一波場的空間偏振狀態(tài)等信息。地震應(yīng)急基礎(chǔ)數(shù)據(jù)多為文字、數(shù)字格式;而地震探測數(shù)據(jù)多為數(shù)字格式。這些數(shù)據(jù)因來源、格式不同,屬于異構(gòu)數(shù)據(jù)。
地震綜合數(shù)據(jù)分析系統(tǒng)采用B/S 結(jié)構(gòu),可在電腦、智能手機瀏覽器訪問。該系統(tǒng)共有3 層,分別為表現(xiàn)層、邏輯層和數(shù)據(jù)層。表現(xiàn)層為系統(tǒng)所有功能的展示、交互界面;邏輯層為分解功能需求提供必要的邏輯操作;數(shù)據(jù)層為功能需求提供必要的數(shù)據(jù)及運算。由于地震應(yīng)急基礎(chǔ)數(shù)據(jù)和地震探測數(shù)據(jù)量較大,且處理操作、速度需要較高的要求,因此將云計算技術(shù)用于數(shù)據(jù)的儲存、計算以及相關(guān)算法的存儲、更新,具體框架如圖1 所示。
圖1 地震綜合數(shù)據(jù)分析系統(tǒng)框架
由于地震預(yù)測數(shù)據(jù)通常來自于多個數(shù)據(jù)源或數(shù)據(jù)信道,能夠從不同的側(cè)面反映數(shù)據(jù)的不同特征,進而形成互補,提高地震預(yù)測精度。與傳統(tǒng)單模態(tài)數(shù)據(jù)分析不同的是,多種模態(tài)的數(shù)據(jù)融合方式與該模態(tài)數(shù)據(jù)的統(tǒng)計特性相關(guān),直接影響數(shù)據(jù)特征的有效性。該文基于深度置信網(wǎng)絡(luò)來構(gòu)建無監(jiān)督、多模態(tài)數(shù)據(jù)非負相關(guān)特征的融合算法,以解決多模態(tài)地震數(shù)據(jù)的融合問題。主要包含了以下3 個方面:構(gòu)建無監(jiān)督多模態(tài)、非負相關(guān)特征融合算法,以解決多模態(tài)數(shù)據(jù)共享空間內(nèi)部特征的融合規(guī)律學(xué)習(xí)和聚類分析;構(gòu)建針對多模態(tài)數(shù)據(jù)的相關(guān)和不相關(guān)特征共享學(xué)習(xí)機制,將私有特征分離后得到具有可靠魯棒性的模態(tài)共享特征;針對多模態(tài)數(shù)據(jù)制定聯(lián)合目標優(yōu)化函數(shù),以完善無監(jiān)督、多模態(tài)數(shù)據(jù)非負相關(guān)特征融合算法的優(yōu)化和收斂過程。
地震探測數(shù)據(jù)主要為面波的頻散特征數(shù)據(jù),分為多分量面波相速度頻散特征和瑞利波多模式橢圓率頻散特征。由于瑞利波在不同深度時的各個模式相對位移大小并不一致,可以利用這一特點并將其作為瑞利波的頻散特征。故在垂直方向上,瑞利波的梯度場可用下式得到:
那么,對于深度為h1的梯度值,利用差分近似原理可推導(dǎo)出:
由于瑞利波各個方向的速度不同,將徑向位移和垂向位移的比值隨頻率改變的現(xiàn)象稱為瑞利波的橢圓極化,可用下式計算在彈性介質(zhì)條件下第j階瑞利波的橢圓率:
式中,ur、uz分別表示的是瑞利波質(zhì)點軌跡相對于水平軸、垂直軸的分量。
該文所設(shè)計的融合算法框架如圖2 所示,首先將不同模態(tài)之間的私有特征與共享特征分離,可提高對共享特征的學(xué)習(xí)效率,進而實現(xiàn)更加準確的多模態(tài)數(shù)據(jù)融合,通過對多模態(tài)共享特征VC進行聚類分析,最終實現(xiàn)有用信息的挖掘。
圖2 非負相關(guān)特征融合算法框架
當(dāng)給定跨模態(tài)數(shù)據(jù)的潛在共享特征的維度UC和各自的私有特征維度UI時,多模態(tài)非負相關(guān)特征學(xué)習(xí)模型被定義為下式:
由于對模態(tài)實例的相似結(jié)構(gòu)描述方式會影響特征降維后的精準度,該文使用不變圖模型對VC進行規(guī)范化描述,進而將模態(tài)數(shù)據(jù)與共享特征的幾何結(jié)構(gòu)誤差降到最低。模態(tài)數(shù)據(jù)之間的幾何結(jié)構(gòu)可通過最近鄰圖來表示,Wij表示兩個數(shù)據(jù)Xi與Xj之間的相似程度,當(dāng)Xi和Xj均在彼此的p個鄰接點范圍內(nèi)時,有如下關(guān)系:
式中,dij為數(shù)據(jù)Xi、Xj之間的歐氏距離。該實例數(shù)據(jù)的不變圖嵌入函數(shù)為:
式中,Tr(·)為矩陣的跡;L(·)為圖拉普拉斯矩陣。
利用上文所述無監(jiān)督、多模態(tài)數(shù)據(jù)非負相關(guān)特征融合算法進行多模態(tài)特征的融合,得到的結(jié)果作為地震綜合數(shù)據(jù)分析模型的輸入數(shù)據(jù)。如圖3 所示,該文使用深度置信網(wǎng)絡(luò)(DBN)進行地震綜合數(shù)據(jù)分析模型的構(gòu)建。深度置信網(wǎng)絡(luò)的基本結(jié)構(gòu)為限制波爾茲曼機(RBM),由于其是雙層結(jié)構(gòu),因此通常被用來構(gòu)建實驗數(shù)據(jù)與人工標簽之間的聯(lián)合分布。同時,RBM 結(jié)構(gòu)的能量可通過式(8)來計算。θ={pi,qj,Wij}為RBM 結(jié)構(gòu)參數(shù),分別代表輸入層神經(jīng)元的偏置、隱藏層神經(jīng)元偏置以及兩層神經(jīng)元之間的權(quán)重,其數(shù)值表征神經(jīng)元之間的相似程度。
圖3 地震綜合數(shù)據(jù)分析系統(tǒng)原理框圖
針對地震矢量數(shù)據(jù)中的縱橫波速度、振幅、頻率和同一波場的空間偏振狀態(tài)等信息,由于不同模態(tài)的數(shù)據(jù)范圍有限以及相鄰節(jié)點所受到的影響相似,RBM 結(jié)構(gòu)并不能充分與地震多模態(tài)數(shù)據(jù)融合后的特征相結(jié)合。因此該文對RBM 結(jié)構(gòu)進行優(yōu)化,通過對連接矩陣建立約束來適應(yīng)地震多模態(tài)數(shù)據(jù)。具體方式為將懲罰函數(shù)融入至RBM 損失函數(shù)中,其損失函數(shù)被定義為:
如圖4 所示,該文使用網(wǎng)絡(luò)平滑約束因子b對RBM 權(quán)重參數(shù)進行約束。當(dāng)?shù)卣鸢l(fā)生時,距離較近的位置所展現(xiàn)出來的瑞利波特征是類似的,且同種建筑類別所受到的損害也是相似的,所以地震綜合數(shù)據(jù)分析模型中RBM 結(jié)構(gòu)有著相似的網(wǎng)絡(luò)權(quán)重參數(shù)。網(wǎng)絡(luò)平滑約束通過使RBM 結(jié)構(gòu)中相鄰網(wǎng)絡(luò)權(quán)重參數(shù)的差值趨近于0 來實現(xiàn)連接矩陣之間的約束,從而達到讓相鄰節(jié)點在學(xué)習(xí)特征能力上有著相似的效果。
圖4 地震綜合數(shù)據(jù)分析模型結(jié)構(gòu)
文中將地震災(zāi)害類別定義為特別重大、重大、較大以及一般共4 個級別,因此模型的輸出項分類設(shè)定為5 項,使用5 個神經(jīng)元。第一層RBM 結(jié)構(gòu)中隱藏層的神經(jīng)元個數(shù)由下式確定:
式中,Nin與No分別代表數(shù)據(jù)輸入層神經(jīng)元數(shù)量和輸出層神經(jīng)元數(shù)量,c為模型調(diào)節(jié)因子。該文使用Sigmoid函數(shù)作為隱藏層中的激活函數(shù),其表達式為:
由于RBM 每一層的神經(jīng)元個數(shù)和隱藏層的數(shù)量對模型訓(xùn)練時間、學(xué)習(xí)效率有著相反的作用,綜合考慮模型訓(xùn)練時間與精度,該文將地震綜合數(shù)據(jù)分析模型設(shè)計成由3 層RBM 結(jié)構(gòu)和一層線性分類器所組成的結(jié)構(gòu)。每一層RBM 隱藏層均具有120 個神經(jīng)元,線性分類器含有50 個神經(jīng)元。
該研究使用江蘇省某地區(qū)近5 年的地震應(yīng)急基礎(chǔ)數(shù)據(jù)和地震探測數(shù)據(jù)作為樣本數(shù)據(jù)進行模型訓(xùn)練。地震應(yīng)急基礎(chǔ)數(shù)據(jù)涉及各個社區(qū)、村莊所有常住人口的基本信息、人員結(jié)構(gòu)以及建筑物信息等。其中建筑物信息重點關(guān)注學(xué)校、醫(yī)院、避難場所以及大型企業(yè)的地理位置、建筑形式、不同級別地震發(fā)生后所受到的損害等信息。地震探測信息包含近5 年地震矢量數(shù)據(jù)中的縱橫波速度、振幅、頻率以及同一波場的空間偏振狀態(tài)等信息。
基于異構(gòu)數(shù)據(jù)地震綜合數(shù)據(jù)分析系統(tǒng),采用Python 集成開發(fā)平臺進行地震應(yīng)急基礎(chǔ)數(shù)據(jù)和地震探測數(shù)據(jù)的預(yù)處理以及DBN 模型的開發(fā)。異構(gòu)數(shù)據(jù)特征的融合和DBN 模型的構(gòu)建、訓(xùn)練所使用的硬件環(huán)境如下:配置為Intel(R)Core(TM)i7-5410 CPU@8.0 GHz,1 TB 固態(tài)硬盤,GPU 為Nvidia 的RTX 系列計算機。
實驗數(shù)據(jù)共有54 000 個樣本,按照8∶1∶1 的比例隨機分為非線性表達訓(xùn)練數(shù)據(jù)、分類器訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),使用純度、精度聚類指標來驗證該文所述異構(gòu)數(shù)據(jù)的融合效果。文中設(shè)置MultiNMF 算法作為對照組來驗證所述無監(jiān)督多模態(tài)、非負相關(guān)特征融合算法的優(yōu)越性,兩種算法的學(xué)習(xí)因子均設(shè)定為0.01;所有模態(tài)規(guī)則化參數(shù)均設(shè)定為100。
在使用相同的測試數(shù)據(jù)和輸入、輸出節(jié)點數(shù)情況下,純度、精度指標如圖5 所示,圖中1 代表純度,2代表精度。從圖中可以看出,該文所提出的無監(jiān)督多模態(tài)、非負相關(guān)特征融合算法無論是純度或是精度均優(yōu)于MultiNMF 算法。這主要是因為無監(jiān)督多模態(tài)、非負相關(guān)特征融合算法能夠同時對相關(guān)和非相關(guān)的特征進行學(xué)習(xí),并在共享模態(tài)中分離出私有模態(tài),從而提高聚類性能。而MultiNMF 算法僅是將不同模態(tài)的特征無差別融合,削弱不同模態(tài)之間的差異性。
圖5 純度和精度兩種算法對比
圖6 分別展示了規(guī)則化因子a和稀疏化因子b對聚類結(jié)果精度的影響。從圖中可以看出,隨著參數(shù)a和b的增加,聚類精度均呈現(xiàn)出先上升再下降的趨勢。當(dāng)a=0.6 時,聚類精度取得最大值0.665%,這表明各個模態(tài)數(shù)據(jù)與共享特征之間具有極高的相似性;而稀疏化因子b的增加,在一定程度上會改善聚類精度,但一旦取值過大,則會起到反作用。
圖6 影響聚類結(jié)果精準度的變化曲線
該文采用深度置信網(wǎng)絡(luò)進行了地震綜合數(shù)據(jù)分析系統(tǒng)的設(shè)計與開發(fā),該系統(tǒng)可以有效解決不同模態(tài)數(shù)據(jù)的特征融合問題。經(jīng)過測試與數(shù)值分析,該方案具有較強的可行性,系統(tǒng)綜合性能優(yōu)越。值得注意的是,該文所述的地震綜合數(shù)據(jù)分析系統(tǒng)僅針對文本、數(shù)字這兩種格式的數(shù)據(jù),而對于圖片、視頻等多媒體格式尚未進行研究,這也將是下一步的工作內(nèi)容之一。