蒲先渤,李澤群,尹 飛,范 杰,曹魯剛,智 亮
(中國地質調查局廊坊自然資源綜合調查中心,河北 廊坊 065000)
巖石的可鉆性指巖石抵抗破碎的能力[1],在地質鉆探設計中,提前預知巖石的可鉆性等級,能夠合理的選擇鉆探工藝、方法和技術,提高鉆進效率,減少卡鉆、燒鉆、孔壁坍塌等安全事故的發(fā)生[2],為鉆探施工設計提供合理的參數性能。目前巖石可鉆性的分析方法主要以取樣后室內實驗法[3]為主,以取樣巖石的物理性質、力學性質、化學性質為基礎信息量,可直接反映巖石的可鉆性等級,為后續(xù)此工作區(qū)附近的鉆探施工提供地質信息數據參考[4]。機器學習算法也被應用于預測巖石可鉆性等級[5-8],但是,單一的機器學習算法預測的巖石可鉆性等級不夠精準,相關系數不強,不能很好地應用于可鉆性等級預測。
本文從巖石可鉆性等級的基礎因素考慮,以地球物理勘探數據、巖性特征、物理性質3 個方面篩選5 個影響因素,用主成分分析法(PCA)消除影響因素之間的相關性[9],解決影響因素之間的非線性關系。結合BP 神經網絡算法的優(yōu)點[10-13]:(1)非線性映射能力,實現輸入層至輸出層的三層映射功能,解決系統(tǒng)內部機制的復雜性運算。(2)學習能力,能夠學習并運算系統(tǒng)內的“算法規(guī)則”,提供合理的參數數據。(3)容錯能力,局部數據的突變性不能影響系統(tǒng)內的整體運算。LM 算法[14-17]解決BP 神經網絡的缺點:(1)設置閾值,防止BP 神經網絡算法陷入局部極值。(2)用梯度下降法和高斯牛頓法解決BP神經網絡收斂速度慢、過度學習的問題。通過以上3 種方式結合,形成PCA-LM-BP 巖石可鉆性等級預測模型。
根據巖石可鉆性的影響因素,用主成分分析法(PCA)消除影響因素之間的相關性,建立新的預測樣本數據,具體運算步驟如下:
式中:m——樣本個數;n——變量個數。
為了更好的用于主成分分析法,將原數據進行標準化處理,標準化公式如下:
計算相關系數矩陣如下所示,其中相關系數矩陣R的表達式為:
在式(5)中,X*為標準化處理原數據后的矩陣,根據相關系數矩陣R,計算標準化數據矩陣的特征值λ,|λ-R|=0,求出特征值,最終得到主成分的貢獻率,公式如下:
一般認為選擇新的主成分個數主要有2 種方法,第一種方法為當第m個主成分的累積貢獻率達到85%時,可以用m個主成分代替預測可鉆性等級影響因素的個數;第二種方法為選擇主成分特征值>1 的個數,用來代替預測可鉆性等級影響因素的個數。本文從工程實例中共選取22 個鉆孔數據進行分析,5 個影響因素為鉆孔深度、縱深時差Δt、密度ρ、電阻率Rt、泥質含量Vsh,預測巖石的可鉆性等級。
LM 算法收斂速度快,在系統(tǒng)運算中,忽略二階以上的導數項,轉化為線性二乘問題,因此,具備提高BP 神經網絡模型的運行效率,增加容錯率,有效提升巖石可鉆性分析的預測精準率。
BP 神經網絡具有良好的自適應性,自組織性,及很強的學習、聯想、容錯和抗干擾能力,并且具有高度的非線性映射能力,因此被應用于此次可鉆性分析的預測模型的建立。本文采用的BP 神經網絡模型采用了多層次結構,包括輸入層、隱含層和輸出層。輸入層節(jié)點為主成分個數,隱含層公式如式(7)所示,輸出層節(jié)點為巖石的可鉆性等級,共計1 節(jié)點。預測模型整體系統(tǒng)采用激勵函數(傳遞函數)處理后,對于隱含層的激勵函數,采用Sigmoid 函數進行系統(tǒng)運算。
隱含層節(jié)點數的確立計算公式為[19]:
式中:ni——輸入層節(jié)點數;no——輸出層節(jié)點數;a——常數,取值范圍為1~10。
通過試觸法確立隱含層節(jié)點數。
根據工程實例[20]研究發(fā)現巖石可鉆性與地層巖性、物理性質、電性、流體特性密切相關,即與聲波時差、地層密度、電阻率、泥質含量、深度影響因素相關聯,因此建立數據樣本,以試驗區(qū)22 組數據作為基礎數據樣本,隨機選擇其中17 組數據作為預測模型建立的訓練樣本見表1,其余5 組數據作為預測模型建立的測試樣本見表2,將所有數據進行歸一化處理,以便于更好地應用于分析測試,可鉆性極值Kd作為期望值輸出于預測模型的系統(tǒng)中,期望值越接近于1,代表該處地層可鉆性越強,期望值越接近于0,代表該處地層可鉆性越弱。
表1 試驗區(qū)訓練樣本歸一化Table 1 Normalization of training samples in the test area
將整體數據(包括訓練樣本和測試樣本)進行主成分分析,得到巖石可鉆性影響因素之間的相關系數矩陣見表3。兩種影響因素的相關系數越接近1,代表兩種影響因素之間的相關性越強。如果將相關性強的兩種因素直接用于建立預測模型,影響因素之間會發(fā)生共線性現象,導致預測結果不夠合理。
表3 相關系數矩陣Table 3 Correlation coefficient matrix
經過主成分分析法(PCA)得到5 個主成分見表4。一般認為,建立預測模型所需主成分的個數有2種方法,一種方法為主成分的累計貢獻率>85%,另一種方法為主成分的特征值>1。根據以上2 種方法的共性,本文選擇3 個主成分(3 個主成分的累計貢獻率85.937%>85%,第三個主成分>1),從而滿足預測模型的建立。
表4 主成分特征值及貢獻率Table 4 Principal component eigenvalue and contribution rate
建立新的主成分中,每種影響因子的公因子方差比見表5。在公因子方差比列表中,可得知影響巖石可鉆性等級因素中泥質含量Vsh、縱深時差Δt、電阻率Rt,信息提取較為充分,密度ρ影響因素有18.7%的信息并未提取,深度影響因素有20.8%的信息未提取。
表5 公因子方差比Table 5 Variance ratio of common factors
根據因子得分系數矩陣(見表6),用3 個主成分(F1、F2、F3)代替5 個影響因素,每個主成分的線性表達為λj是第j個變尺度變量的方差(即特征值),uj是第j個變尺度變量(即主成分)。F的第j個主成分計算方程為:
表6 因子分析Table 6 Factor analysis
在因子得分系數矩陣中,每個影響因素的系數為:
根據主成分分析法,用3 個無相關性的主成分代替原數據樣本的5 種影響因素,從而有效地降低了影響因素之間的相關性,減少了數據運行量,提高了建立預測模型的效率。
本文采用MatLAB 軟件編寫LM 算法和BP 神經網絡算法,用LM 算法設置了運行BP 神經網絡的基本程序設置,其中,運行的最大迭代次數為10000,運行的學習目標為1e-6,運行的初始學習效率為0.02。輸入層節(jié)點數為3 個(新主成分的個數),隱含層個數和隱含層節(jié)點數通過試觸法選擇了1 個隱含層和10 個隱含層節(jié)點數。BP 神經網絡預測模型的結構設計見圖1。
圖1 BP 神經網絡模型結構Fig.1 Model structure of BP neural network
BP 神經網絡預測模型建立中,運行的最大迭代次數、學習目標、學習效率3 項中有一項達到設置的閾值,即訓練終止。預測過程數據見圖2。
圖2 BP 神經網絡預測過程Fig.2 Prediction process diagram of BP neural network
預測結果見圖3。圖3(a)為BP 神經網絡訓練樣本共計17 組數據的原始值和預測值對比,圖3(b)為BP 神經網絡測試樣本共計5 組數據的原始值和預測值對比。由于預測模型的建立中每組數據實測值的特性(實測值精確度高,非固定的范圍數值),因此,訓練樣本中差異性較大,但預測樣本相關性強。
圖3 訓練樣本與測試樣本的預測結果與實際結果對比Fig.3 Comparison between predicted results and actual results of training samples and test samples
PCA-LM-BP 預測模型的原始值和預測值相關值R見圖4,相關系數為0.96091,相關值R代表了預測模型中原始值和預測值的精準度。
圖4 原始值與預測值的相關系數曲線Fig.4 Correlation coefficient curve between original value and predicted value
基于PCA-LM-BP 建立的預測模型和LM-BP預測模型中的5 個預測研究樣本實測值與室內實驗法測出的實測值進行分析對比(見表7),可以得知,主成分分析法可有效提升建模效率,相關性強的影響因素會降低預測模型的精度率,消除因素之間的相關性會提高預測模型的精度率。
表7 預測樣本實測值與實驗法實測值的分析對比Table 7 Analysis and comparison table between predicted sample measured values and experimental method measured values
將歸一化后的可鉆性等級預測值的實測值(0~1)還原于巖石的可鉆性等級(1~12),則PCA-LMBP 預測模型對巖石可鉆性等級與室內實驗法測出的巖石可鉆性等級對比見表8。
表8 可鉆性等級預測對比表Table 8 Comparison table for drill ability level prediction
(1)提前預測可鉆性等級能夠有效為工程開展提供技術支撐,可鉆性等級受眾多因素影響,本文選用了主成分分析法解釋了各影響因素之間的關系。
(2)主成分分析法用小于影響因素個數的主成分替代影響因素的個數進行預測,建立預測模型,結果更加精準,提取了3 個主成分,攜帶的信息量為85.937%,滿足建立預測模型的需要,消除影響因子之間的相關性,用小于影響因素個數的主成分來建立預測模型,運行效率提高,為大數據建立預測模型提供了思路。
(3)單一的機器學習算法對數據樣本的提前預測相關性不強,本文采用了PCA-LM-BP 建立預測模型,與室內實驗法測出的可鉆性等級實測值進行了結果對比,相關值高,預測時間短,預測結果精準。為巖石的可鉆性等級的預測提供了一個實用、有效的方法。