劉梁,石衛(wèi),張曉平,韓冰,董欣,袁琳
(1.西安市勘察測繪院,陜西 西安 710059;2.陜西省水工環(huán)地質(zhì)調(diào)查中心,陜西 西安 710068;3.地質(zhì)災(zāi)害防治與地質(zhì)環(huán)境保護(hù)國家重點實驗室(成都理工大學(xué)),四川 成都 610059;4.陜西省城市地質(zhì)與地下空間工程技術(shù)研究中心,陜西 西安 710068)
城市開發(fā)過程中,一些具有特殊性質(zhì)的巖土體,如人工填土、濕陷性黃土、砂土、卵礫石等,對工程建設(shè)具有較大影響,查明這類巖土體的空間分布特征,有助于做好城市規(guī)劃、保障建設(shè)安全。目前,特殊巖土體的空間分布研究方法主要是根據(jù)地形、地貌及地質(zhì)作用進(jìn)行經(jīng)驗判斷(西安市城市規(guī)劃管理局,1998),利用地質(zhì)鉆孔資料進(jìn)行空間插值建立三維模型進(jìn)行預(yù)測(李豪,2018),以及利用遙感手段和其他相關(guān)性參數(shù)進(jìn)行分析推斷(郭培虹等,2010)。經(jīng)驗判斷的方法十分依賴于研究人員對該區(qū)域的熟悉程度和經(jīng)驗水平;模型預(yù)測則依賴于插值方法的準(zhǔn)確性和三維模型的精度;遙感推斷與輔助參數(shù)的相關(guān)性和分析人員的技術(shù)水平關(guān)聯(lián)甚密。
機器學(xué)習(xí)的主要內(nèi)容是研究從數(shù)據(jù)中產(chǎn)生模型的算法,并將經(jīng)驗數(shù)據(jù)提供給這些算法,使其能夠基于數(shù)據(jù)產(chǎn)生數(shù)學(xué)模型(周志華,2016)。機器學(xué)習(xí)是一種大數(shù)據(jù)分析方法,能夠很好地利用已有數(shù)據(jù),且在接受經(jīng)驗數(shù)據(jù)指導(dǎo)的同時降低人為因素的影響。由于地學(xué)數(shù)據(jù)割裂嚴(yán)重,難以形成大數(shù)據(jù)集合,因而機器學(xué)習(xí)的方法在地學(xué)領(lǐng)域應(yīng)用較少。近年來,也有許多學(xué)者通過數(shù)據(jù)收集,開展了相關(guān)的研究,如滑坡敏感性分析及空間預(yù)測(Park Inhye et al., 2014)、土壤流失等級預(yù)測(Moller Anders Bjorn,et al.,2019)、地面沉降致因量化評價(Zhou Chaofan et al.,2019)、地下水生產(chǎn)潛力制圖(Lee Saro et al., 2015)及滑坡易發(fā)性評價(邱維蓉等,2020)等,取得了一定的成果。機器學(xué)習(xí)中的聚類算法通常被用于對無標(biāo)記訓(xùn)練樣本進(jìn)行學(xué)習(xí),以揭示數(shù)據(jù)內(nèi)在的性質(zhì)和規(guī)律,為進(jìn)一步的數(shù)據(jù)分析提供基礎(chǔ),這種方法不存在客觀標(biāo)準(zhǔn),給定一個數(shù)據(jù)集,總能從某個角度找到以往算法未覆蓋的某種標(biāo)準(zhǔn)。常見的聚類算法有k均值算法(Jain,1998,2009)、學(xué)習(xí)向量量化(Kohonen,2001)和高斯混合聚類(McLachlan,2000)等。
目前常用的空間插值方法均存在主觀性強、數(shù)據(jù)利用率低和通用性差的缺點。因此,筆者選用機器學(xué)習(xí)中的聚類算法來開展人工填土的分布研究。在各種聚類算法中,高斯混合聚類雖然通常被歸類為聚類算法,但它本質(zhì)上是一個密度估計算法,從技術(shù)角度考慮,高斯混合模型描述了數(shù)據(jù)分布的生成概率模型,它試圖找到多維高斯概率分布的混合體,從而獲得任意數(shù)據(jù)集最好的模型,因而更適合用作土體分布研究。
以西安市三環(huán)內(nèi)主城區(qū)約4 00 km2為研究區(qū)域,收集并整理研究區(qū)內(nèi)工程地質(zhì)鉆孔20 793個。研究區(qū)內(nèi)出露地層以新生界(Kz)為主,其中第四系厚度為600~1 000 m,對工程建設(shè)影響較大的主要地層有人工填土(雜填土、素填土)、粉質(zhì)黏土、黃土狀土、黃土、古土壤和砂土等。
西安市的人工填土在城區(qū)和近郊廣為分布。目前所見的人工填土大多是近400~500年以來所形成的。西安市的人工填土不僅分布廣泛,厚度大(多在3~10 m,局部地區(qū)最大厚度可達(dá)十幾米),土層產(chǎn)狀和厚度在平面上變化十分迅速,而且性質(zhì)非常復(fù)雜。就其物質(zhì)組成及工程性質(zhì)而言,可將西安市的人工填土分為雜填土和素填土2類。西安市的雜填土顏色多而雜,結(jié)構(gòu)疏松,物質(zhì)組成是以各個時期的建筑垃圾為主,部分地區(qū)的雜填土夾有少量植物根系,土的均勻性極差,工程建設(shè)中不能直接選作天然地基的持力層。在西安市主城區(qū),素填土一般伏于雜填土之下,在城郊則多直接出露地表。西安市的素填土多由黏性土組成,一般含有少量磚、瓦塊碎屑等,具有大孔結(jié)構(gòu)和輕微濕陷性,可以作為一些次要或臨時性建筑的地基持力層,對二級建筑及以上建筑一般均應(yīng)進(jìn)行地基的加固處理。
高斯混合聚類(Mixture of Gaussian)采用概率模型來表達(dá)聚類原型,在多元高斯分布定義中,對n維樣本空間χ中的隨機向量x,若x服從高斯分布,其概率密度函數(shù)如下。
(1)
其中μ是n維均值向量,∑是n×n的協(xié)方差矩陣。由式(1)可以看出,高斯分布完全由均值向量μ和協(xié)方差矩陣∑這2個參數(shù)確定。為了明確顯示高斯分布與相應(yīng)參數(shù)的依賴關(guān)系,將概率密度函數(shù)記為p(x)|μ,∑)。因此,筆者可以將高斯混合分布定義如式(2)
(2)
假設(shè)樣本的生成過程由高斯混合分布給出:首先,根據(jù)α1,α2,…,αk定義的先驗分布選擇高斯混合成分,其中αi為選擇第i個混合成分的概率,然后根據(jù)被選擇的混合成分的概率密度函數(shù)進(jìn)行采樣,從而生成相應(yīng)的樣本。
若訓(xùn)練集D={x1,x2,…,xm}由上述過程生成,令隨機變量zj∈{1,2,…,k}表示生成樣本xj的高斯混合成分,其取值未知。顯然,zj的先驗概率P(zj=i)對應(yīng)于αi(i=1,2,…,k)。根據(jù)貝葉斯定理,zj的后驗分布對應(yīng)于式(3)
pM(zj=i|xj)=
(3)
換言之,pM(zj=i|xj)給出了樣本xj由第i個高斯混合成分生成的后驗概率。為方便敘述,將其簡記為γji(i=1,2,…,k)。
當(dāng)高斯混合分布(2)已知時,高斯混合聚類將把樣本集D劃分為k個簇C={C1,C2,…,Ck},每個樣本xj的簇標(biāo)記λj如下確定。
λj=argmaxi∈{1,2,…,k}γji
(4)
因此,從原型聚類的角度來看,高斯混合聚類是采用概率模型(高斯分布)對原型進(jìn)行刻畫,簇劃分則由原型對應(yīng)后驗概率確定。
(5)
即每個高斯成分的混合系數(shù)由樣本屬于該成分的平均后驗概率確定。
由上述分析即可獲得高斯混合模型的EM算法,即在每步迭代中,先根據(jù)當(dāng)前參數(shù)來計算每個樣本屬于每個高斯成分的后驗概率γji(E步),再更新模型參數(shù){αi,μi,∑i|1≤i≤k}(M步)。
高斯混合聚類算法描述見圖1。算法第1行對高斯混合分布的模型參數(shù)進(jìn)行初始化,然后,在第2~12行基于EM算法對模型參數(shù)進(jìn)行迭代更新。若EM算法的停止條件滿足(例如已達(dá)到最大迭代輪數(shù),或似然函數(shù)LL(D)增長很少甚至不再增長),則在第14~17行根據(jù)高斯混合分布確定簇劃分,在第18行返回最終結(jié)果。
圖1 高斯混合聚類算法圖
高斯混合模型采用似然函數(shù)作為目標(biāo)函數(shù),當(dāng)訓(xùn)練數(shù)據(jù)足夠多時,可以不斷提高模型精度,但是以提高模型復(fù)雜度為代價的,同時帶來一個機器學(xué)習(xí)中非常普遍的問題——過擬合。所以,模型選擇問題在模型復(fù)雜度與模型對數(shù)據(jù)集描述能力(即似然函數(shù))之間尋求最佳平衡。人們提出許多信息準(zhǔn)則,通過加入模型復(fù)雜度的懲罰項來避免過擬合問題,常用的2個模型選擇方法——赤池信息準(zhǔn)則(Akaike Information Criterion,AIC)和貝葉斯信息準(zhǔn)則(Bayesian Information Criterion,BIC)。
2.2.1 赤池信息準(zhǔn)則
AIC是衡量統(tǒng)計模型擬合優(yōu)良性的一種標(biāo)準(zhǔn),由日本統(tǒng)計學(xué)家赤池弘次在1974年提出,它建立在熵的概念上,提供了權(quán)衡估計模型復(fù)雜度和擬合數(shù)據(jù)優(yōu)良性的標(biāo)準(zhǔn)。
通常情況下,它是擬合精度和參數(shù)未知個數(shù)的加權(quán)函數(shù),AIC定義為:
AIC=2k-2ln(L)
(6)
其中,k是參數(shù)的數(shù)量,L是似然函數(shù)。當(dāng)在2個模型之間存在著相當(dāng)大的差異時,這個差異出現(xiàn)于式(6)的第二項,而當(dāng)?shù)诙棽怀霈F(xiàn)顯著性差異時,第一項起作用,從而參數(shù)個數(shù)少的模型是好的模型。
假設(shè)模型的誤差服從獨立正態(tài)分布,讓n為觀察數(shù),RSS為剩余平方和,那么AIC變?yōu)椋?/p>
AIC=2k+nln(RSS/n)
(7)
一般而言,當(dāng)模型復(fù)雜度提高(k增大)時,似然函數(shù)L也會增大,從而使AIC變小,但是k過大時,似然函數(shù)增速減緩,導(dǎo)致AIC增大,模型過于復(fù)雜容易造成過擬合現(xiàn)象。目標(biāo)是選取AIC最小的模型,AIC不僅要提高模型擬合度(極大似然),而且引入了懲罰項,使模型參數(shù)盡可能少,有助于降低過擬合的可能性??梢夾IC準(zhǔn)則有效且合理地控制了參數(shù)的維數(shù)k。赤池信息準(zhǔn)則的方法是尋找可以最好地解釋數(shù)據(jù)但包含最少自由參數(shù)的模型。
2.2.2 貝葉斯信息準(zhǔn)則
貝葉斯信息準(zhǔn)則與AIC相似,用于模型選擇,1978年由Schwarz提出。訓(xùn)練模型時,增加參數(shù)數(shù)量,也就是增加模型復(fù)雜度,會增大似然函數(shù),但是也會導(dǎo)致過擬合現(xiàn)象。針對該問題,AIC和BIC均引入了與模型參數(shù)個數(shù)相關(guān)的懲罰項,BIC的懲罰項比AIC的大,考慮了樣本數(shù)量,樣本數(shù)量過多時,可有效防止模型精度過高造成的模型復(fù)雜度過高。
BIC=kln(n)-2ln(L)
(8)
其中,k為模型參數(shù)個數(shù),n為樣本數(shù)量,L為似然函數(shù)。式(8)中第一項為懲罰項,在維數(shù)過大且訓(xùn)練樣本數(shù)據(jù)相對較少的情況下,可以有效避免出現(xiàn)維度災(zāi)難現(xiàn)象。
在研究區(qū)范圍內(nèi),鉆孔數(shù)據(jù)集中包含雜填土的鉆孔共有13 687個,包含素填土的鉆孔共有7 106個。區(qū)內(nèi)雜填土層底埋深在0.1~24 m,素填土層底埋深在0.1~16.5 m。按照城市地下空間開發(fā)層次將人工填土數(shù)據(jù)劃分為厚度小于3 m、厚度介于3~10 m、厚度大于3 m 3種分類,分別進(jìn)行聚類計算及制圖。
土體分布研究中常常使用土體平面坐標(biāo)及層厚作為分布計算的屬性。土體平面坐標(biāo)(x坐標(biāo)、y坐標(biāo))及層厚屬性均為連續(xù)屬性,可以直接參與聚類任務(wù)的距離計算。在本次研究中,筆者增加了土體時代成因?qū)傩詤⑴c到聚類任務(wù)中,以優(yōu)化聚類過程,從而得到更貼切土體分布要求的聚類結(jié)果。土體的時代成因?qū)儆陔x散屬性,在其定義域上是有限個取值。在距離計算時,土體的地質(zhì)時代屬性為有序?qū)傩裕梢驅(qū)傩詣t為無序?qū)傩?。因此,直接使用土體地質(zhì)年代作為其標(biāo)準(zhǔn)化結(jié)果(Q4->4;Q3->3;Q2->2;Q1->1),同時使用一組連續(xù)正整數(shù)對土體成因進(jìn)行編碼處理(表1)。
表1 土體成因編碼表
將準(zhǔn)備好的數(shù)據(jù)導(dǎo)入事先編制好的計算程序中,利用前述的高斯混合模型進(jìn)行聚類計算。輸入的訓(xùn)練集數(shù)據(jù)為一系列5維數(shù)組,每單個數(shù)據(jù)包含了該鉆孔的x坐標(biāo)、y坐標(biāo)、層厚、地質(zhì)時代和成因?qū)傩浴?/p>
聚類計算首先要進(jìn)行試算以確定最優(yōu)的聚類簇數(shù),即先假定聚類簇數(shù)n,再分別計算當(dāng)聚類簇數(shù)為n時,赤池信息準(zhǔn)則AIC值及貝葉斯信息準(zhǔn)則BIC值,比較各聚類簇數(shù)對應(yīng)的AIC和BIC值,選擇合適的聚類簇數(shù)為最終計算參數(shù)。如圖2所示,筆者首先從聚類簇數(shù)n=1時開始試算,雜填土的試算終點為n=280,素填土的試算終點為n=200,試算步長為1。由于聚類簇數(shù)過小時,雜填土聚類計算的AIC和BIC值過大,因此,為了曲線美觀便于觀察,將雜填土的計算從聚類簇數(shù)n=50開始繪制分析曲線。從雜填土聚類簇數(shù)分析曲線(圖2a)中可以看出,雜填土數(shù)據(jù)的AIC值程持續(xù)下降趨勢,即聚類簇數(shù)越大,赤池信息準(zhǔn)則模型評價越精確,在n≥140后,曲線下降趨于平緩。而其BIC值有明顯的“底部”,即120≤n≤140時,BIC值更小,表明n在這個區(qū)間范圍內(nèi)取值時,貝葉斯信息準(zhǔn)則模型評價最精確。從素填土聚類簇數(shù)分析曲線(圖2b)中可以看出,素填土數(shù)據(jù)的AIC值程持續(xù)下降趨勢,即聚類簇數(shù)越大,赤池信息準(zhǔn)則模型評價越精確,在n≥140后,曲線下降趨于平緩。其BIC值與AIC值趨勢相似,n≥120后曲線趨于平緩,表明n在這個區(qū)間范圍內(nèi)取值時,貝葉斯信息準(zhǔn)則模型評價最精確。綜合2種評價準(zhǔn)則,取雜填土和素填土的聚類簇數(shù)n=140。
圖2 人工填土聚類簇數(shù)分析曲線圖
研究區(qū)人工填土分布廣泛,厚度多在3~10 m,局部地區(qū)最大厚度可達(dá)十幾米,土層產(chǎn)狀和厚度在平面上變化迅速,性質(zhì)較為復(fù)雜,主要可分為雜填土和素填土2類。雜填土顏色多且雜,結(jié)構(gòu)疏松,物質(zhì)組成是以各個時期的建筑垃圾為主,土的均勻性極差,工程建設(shè)中不能直接選作天然地基的持力層。研究區(qū)內(nèi)雜填土廣泛分布,埋深多在3 m以內(nèi),部分地區(qū)埋深可達(dá)3~10 m,極少數(shù)區(qū)域雜填土層底深度達(dá)到10 m以上。研究區(qū)內(nèi)素填土與雜填土相似,均廣泛分布于城區(qū)各處,埋深多在3 m以內(nèi),部分地區(qū)埋深可達(dá)3~10 m,極少數(shù)區(qū)域素填土層底深度達(dá)到10 m以上(圖3)。
圖3 西安市人工填土空間分布圖
(1)高斯混合模型采用似然函數(shù)作為目標(biāo)函數(shù),當(dāng)訓(xùn)練數(shù)據(jù)足夠多時,可以不斷提高模型精度,能夠準(zhǔn)確而快速的表達(dá)土體的分布特征,但需要借助赤池信息準(zhǔn)則和貝葉斯信息準(zhǔn)則來避免出現(xiàn)模型過擬合的問題。
(2)赤池信息準(zhǔn)則(AIC)及貝葉斯信息準(zhǔn)則(BIC)檢驗試算結(jié)果表明,在聚類簇數(shù)n=140時,高斯混合聚類模型能更為準(zhǔn)確的評價西安市人工填土的空間分布狀態(tài)。
(3)西安市主城區(qū)內(nèi)雜填土廣泛分布,埋深多在3 m以內(nèi),部分地區(qū)埋深可達(dá)3~10 m,極少數(shù)區(qū)域雜填土層底深度達(dá)到10 m以上,主要分布于主城區(qū)大部分區(qū)域,浐灞河沿線、西繞城、南繞城也有零星分布。
(4)西安市主城區(qū)內(nèi)素填土廣泛分布于城區(qū)各處,埋深多在3 m以內(nèi),部分地區(qū)埋深可達(dá)3~10 m,極少數(shù)區(qū)域素填土層底深度達(dá)到10 m以上。浐灞河三角、浐河沿線、西繞城沿線、魚化寨區(qū)域有成片分布。