張寧,張幼振,姚克
(中煤科工集團(tuán)西安研究院有限公司, 陜西 西安 710077)
隨著煤礦開采深度的增加,井下地質(zhì)力學(xué)環(huán)境發(fā)生了顯著變化,煤礦井下含煤地層特性,包括煤巖體巖性與結(jié)構(gòu)特征等礦井支護(hù)工程與安全施工必需的基礎(chǔ)參數(shù)愈顯不足,施工時(shí)操作人員通常憑工作經(jīng)驗(yàn)對(duì)巖層特性進(jìn)行定性分析,工程設(shè)計(jì)的合理性與開采過程的安全保障受到很大影響。有效利用鉆進(jìn)參數(shù)信息實(shí)時(shí)識(shí)別鉆頭當(dāng)前位置的地層巖性,從而得出煤礦巷道的地層信息,可以為巷道治理及后期維護(hù)提供可靠直觀的地質(zhì)依據(jù),為同類礦井工程設(shè)計(jì)提供必要的基礎(chǔ)地質(zhì)參數(shù)[1-3]。
近些年來,國內(nèi)外學(xué)者基于鉆進(jìn)參數(shù)對(duì)巖性識(shí)別進(jìn)行了大量研究。S. S. Peng等[4]利用錨桿鉆車在煤礦巷道頂板錨固過程中獲取鉆進(jìn)參數(shù),并通過趨勢(shì)線方法對(duì)數(shù)據(jù)進(jìn)行分析,得出了頂板巖石強(qiáng)度的識(shí)別結(jié)果。馬崢等[5]提出了基于主成分分析(Principal Components Analysis, PCA)算法與模糊識(shí)別的巖性識(shí)別方法,并通過蘇里格氣田碳酸鹽巖測(cè)井?dāng)?shù)據(jù)對(duì)該方法進(jìn)行了驗(yàn)證。仲鴻儒等[6]基于自組織映射(Self-organizing Maps, SOM)和模糊識(shí)別相結(jié)合的巖性識(shí)別方法,采用自組織映射以無監(jiān)督形式挖掘出6種測(cè)井參數(shù)的關(guān)系信息和拓?fù)浣Y(jié)構(gòu)。T.Singh等[7]分析比較了核模糊C均值聚類(Kernel Fuzzy C-Means Clustering, KFCM)算法的優(yōu)缺點(diǎn),并通過相關(guān)算例進(jìn)行了測(cè)試。
上述研究在一定程度上能夠?qū)崿F(xiàn)地層巖性的識(shí)別,為地層識(shí)別基礎(chǔ)理論的構(gòu)建和工程應(yīng)用提供了重要參考,但是較少考慮煤礦井下鉆進(jìn)施工所面臨的復(fù)雜地層非結(jié)構(gòu)化對(duì)象的作用,地層信息參數(shù)獲取難度大;同時(shí)含煤地層的巖性特征通常與高維鉆進(jìn)參數(shù)有關(guān),利用傳統(tǒng)鉆進(jìn)參數(shù)進(jìn)行巖性識(shí)別時(shí)存在精度低的問題,無法對(duì)復(fù)雜的含煤地層做出實(shí)時(shí)可信的描述。鑒此,本文利用高維鉆進(jìn)參數(shù)進(jìn)行巖性識(shí)別,將PCA算法和KFCM算法結(jié)合起來,提出了一種基于PCA-KFCM算法的含煤地層巖性優(yōu)化識(shí)別方法。以鉆進(jìn)試驗(yàn)臺(tái)獲得的鉆進(jìn)參數(shù)集作為識(shí)別數(shù)據(jù)來源,利用PCA-KFCM算法對(duì)鉆進(jìn)參數(shù)集進(jìn)行降維和聚類處理,并采用馬氏距離判別法對(duì)測(cè)試樣本進(jìn)行識(shí)別[8-10],為煤礦井下含煤地層巖性識(shí)別提供了一種新方法。
PCA算法的主要思想是對(duì)相關(guān)程度較強(qiáng)的p個(gè)指標(biāo)進(jìn)行線性變換并組合成新的綜合指標(biāo),同時(shí)最大程度保持原有數(shù)據(jù)集的信息[11-14]。算法主要步驟如下:
(1)
(2) 計(jì)算各指標(biāo)的相關(guān)系數(shù),構(gòu)造相關(guān)系數(shù)矩陣R(rij)n×N。
(2)
(3) 構(gòu)造主成分。計(jì)算出相關(guān)系數(shù)矩陣R的特征值λ1,λ2,…,λN(λ1≥λ2≥…≥λN≥0)及其對(duì)應(yīng)的特征向量μ1,μ2,…,μN(yùn),記μj=(μ1j,μ2j,…,μN(yùn)j)T,做線性組合,得
yi=μ1ix1+μ2ix2+μjixj+…+μN(yùn)ixN
(3)
式中:yi為第i個(gè)主成分;xj為樣本中第j個(gè)標(biāo)準(zhǔn)化變量。
(4) 選取主成分。計(jì)算特征值λj的貢獻(xiàn)率bj和累計(jì)貢獻(xiàn)率cp:
(4)
(5)
式中p為主成分的個(gè)數(shù),p≤N。
選取使累計(jì)貢獻(xiàn)率大于85%的前p個(gè)特征值作為主成分。
(5) 計(jì)算綜合得分并進(jìn)行評(píng)價(jià)。綜合得分Z的計(jì)算公式為
(6)
通過對(duì)所有數(shù)據(jù)集的綜合得分進(jìn)行計(jì)算,完成對(duì)數(shù)據(jù)集的綜合評(píng)價(jià)。
KFCM算法原理:對(duì)于給定的數(shù)據(jù)集X={x1,x2,…,xN},通過非線性映射φ將其映射到高維空間φ(X)={φ(x1),φ(x2),…,φ(xN)},利用核函數(shù)計(jì)算樣本在高維空間中的內(nèi)積,并應(yīng)用最小化目標(biāo)函數(shù)將數(shù)據(jù)集X分為k個(gè)聚類[15-17]。算法主要步驟如下:
(1) 設(shè)置分類的聚類個(gè)數(shù)k、模糊系數(shù)m、迭代截止誤差ε和核函數(shù)參數(shù)。
(2) 對(duì)隸屬度矩陣進(jìn)行初始化,并且符合歸一化規(guī)定。
(3) 計(jì)算聚類中心。聚類中心計(jì)算公式為
(7)
式中:vω為高維特征空間中第ω類的聚類中心,ω=1,2,…,k;μωj為第j個(gè)樣本xj對(duì)第ω類的隸屬度,μωj∈[0,1]。
為了實(shí)現(xiàn)目標(biāo)函數(shù)最小化,可通過令其隸屬度矩陣U的偏導(dǎo)數(shù)為零進(jìn)行計(jì)算,則其解為
(8)
式中:d(φ(xr),vω)為高維空間中第r個(gè)樣本φ(xr)與第ω個(gè)聚類中心的距離度量,xr為第r項(xiàng)數(shù)據(jù)集,r=1,2,…,N;vs為高維特征空間中第s類的聚類中心,s=1,2,…,k。
(4) 對(duì)隸屬度矩陣U不斷循環(huán)優(yōu)化,依據(jù)矩陣范數(shù)進(jìn)行對(duì)比,若收斂,則迭代停止,否則返回步驟(3)。
結(jié)合PCA算法的特征提取優(yōu)勢(shì)和KFCM算法具有較好聚類效果的特點(diǎn),建立了基于PCA-KFCM算法的巖性識(shí)別模型,該模型首先利用PCA算法對(duì)高維數(shù)據(jù)集進(jìn)行特征參數(shù)提取和數(shù)據(jù)降維處理,然后利用KFCM算法對(duì)主成分?jǐn)?shù)據(jù)集進(jìn)行聚類分析,最后通過馬氏距離判斷法建立判別準(zhǔn)則,利用最小馬氏距離完成對(duì)測(cè)試樣本的地層巖性識(shí)別。巖性識(shí)別流程如圖1所示。
圖1 巖性識(shí)別流程Fig.1 Lithology identification flow
(1) 利用鉆進(jìn)試驗(yàn)臺(tái)獲得機(jī)械鉆速、回轉(zhuǎn)扭矩、鉆壓、轉(zhuǎn)速、回轉(zhuǎn)壓力和泥漿泵流量6種鉆進(jìn)敏感參數(shù),去除誤差較大和重復(fù)的數(shù)據(jù),將所有有效的鉆進(jìn)參數(shù)利用配套軟件導(dǎo)出,構(gòu)造高維鉆進(jìn)參數(shù)集,包括訓(xùn)練樣本和測(cè)試樣本。
(2) 利用PCA算法對(duì)訓(xùn)練樣本進(jìn)行主成分分析,計(jì)算各數(shù)據(jù)集的相關(guān)系數(shù),通過累計(jì)貢獻(xiàn)率提取訓(xùn)練樣本的特征值,其維數(shù)為p,此時(shí)應(yīng)能夠反映原來多種敏感鉆進(jìn)參數(shù)的信息,且不會(huì)產(chǎn)生過多的維度,并且能夠保證所有主成分貢獻(xiàn)率不會(huì)偏低。據(jù)此計(jì)算各主成分的特征向量,根據(jù)綜合得分值對(duì)訓(xùn)練樣本主成分?jǐn)?shù)據(jù)集進(jìn)行初步分類,然后利用KFCM算法對(duì)訓(xùn)練樣本主成分?jǐn)?shù)據(jù)集進(jìn)行模糊核聚類,得到各分類的聚類中心及聚類類別數(shù)據(jù)集。
(3) 同樣利用PCA算法對(duì)測(cè)試樣本進(jìn)行特征提取,獲得測(cè)試樣本主成分?jǐn)?shù)據(jù)集,并通過馬氏距離判別法建立判別準(zhǔn)則(式(9)),消除變量間相關(guān)性影響,利用最小馬氏距離完成所有測(cè)試樣本的預(yù)測(cè)與判別[18-19]。
d(Xi,Gω)=min1≤ω≤kd(Xi,Gω),Xi∈Gω
(9)
式中:d為馬氏距離;Xi為第i項(xiàng)測(cè)試樣本;Gω為第ω項(xiàng)聚類類別數(shù)據(jù)集。
鉆進(jìn)試驗(yàn)臺(tái)主要由主機(jī)、動(dòng)力站及操作臺(tái)、數(shù)據(jù)監(jiān)測(cè)系統(tǒng)、泥漿泵等部分組成,如圖2所示。主機(jī)采用門式框架結(jié)構(gòu),并集成液驅(qū)泥漿泵系統(tǒng),系統(tǒng)最高壓力為20 MPa,最大流量為104 L/min。系統(tǒng)可實(shí)時(shí)獲得機(jī)械鉆速、回轉(zhuǎn)扭矩、鉆壓、轉(zhuǎn)速、回轉(zhuǎn)壓力、泥漿泵流量6種鉆進(jìn)參數(shù),作為研究的影響因素和識(shí)別數(shù)據(jù)來源[20-21]。
圖2 鉆進(jìn)試驗(yàn)臺(tái)組成Fig.2 Compose of drilling test bench
試驗(yàn)巖樣材料選用復(fù)合硅酸鹽水泥、中砂和粉煤渣,按照一定的比例在自然溫度、濕度條件下進(jìn)行養(yǎng)護(hù)澆筑成型,主要依據(jù)巖樣的單軸抗壓強(qiáng)度進(jìn)行分類,用于模擬含煤地層中的典型的軟弱夾層、煤層和砂巖層3種巖層。共進(jìn)行了40組試驗(yàn),30組試驗(yàn)數(shù)據(jù)作為訓(xùn)練樣本,10組試驗(yàn)數(shù)據(jù)作為測(cè)試樣本。所得訓(xùn)練樣本鉆進(jìn)參數(shù)集見表1。
表1 訓(xùn)練樣本鉆進(jìn)參數(shù)集Table 1 Data sets of drilling parameters for the training samples
為消除各參數(shù)量綱的影響,將所得訓(xùn)練樣本數(shù)據(jù)集進(jìn)行標(biāo)準(zhǔn)化,定義機(jī)械鉆速、回轉(zhuǎn)扭矩、鉆壓、轉(zhuǎn)速、回轉(zhuǎn)壓力、泥漿泵流量的標(biāo)準(zhǔn)化變量分別為x1,x2,x3,x4,x5,x6,定義各主成分分別為y1,y2,y3,y4,y5,y6,通過PCA算法可計(jì)算出訓(xùn)練樣本的相關(guān)系數(shù)矩陣,從而得出各主成分的貢獻(xiàn)率和累計(jì)貢獻(xiàn)率,見表2。
表2 主成分分析結(jié)果Table 2 Principal component analysis result
根據(jù)累計(jì)貢獻(xiàn)率大于85%確定選取的主成分個(gè)數(shù)p為3,得出訓(xùn)練樣本主成分的特征向量,見表3。
表3 主成分特征向量Table 3 Principal component eigenvector
根據(jù)主成分特征向量的影響因子大于0.5的原則分析標(biāo)準(zhǔn)化變量的影響效果。從表3可看出,第1主成分主要反映了變量x1(機(jī)械鉆速)、變量x3(鉆壓)和變量x6(泥漿泵流量)的數(shù)據(jù)信息;第2主成分主要反映了變量x2(回轉(zhuǎn)扭矩)、變量x5(回轉(zhuǎn)壓力)的數(shù)據(jù)信息;第3主成分主要反映了變量x4(轉(zhuǎn)速)和變量x5(回轉(zhuǎn)壓力)的數(shù)據(jù)信息,同時(shí)通過表3可以得到訓(xùn)練樣本的主成分?jǐn)?shù)據(jù)集。
通過式(6)進(jìn)行綜合計(jì)算,依據(jù)對(duì)每個(gè)評(píng)價(jià)對(duì)象計(jì)算出的綜合得分Z值的大小進(jìn)行排名,得到綜合評(píng)價(jià)得分,見表4。
表4 綜合評(píng)價(jià)得分Table 4 Comprehensive evaluation score
根據(jù)綜合評(píng)價(jià)得分的離散度可以將訓(xùn)練樣本主成分?jǐn)?shù)據(jù)集大致分為3類:第1—7名為第1類,第8—21名為第2類,第22—30名為第3類。分類情況和試驗(yàn)巖樣物理特性的分類保持一致,通過KFCM算法將訓(xùn)練樣本主成分?jǐn)?shù)據(jù)集進(jìn)行模糊核聚類分析。在充分保留原鉆進(jìn)數(shù)據(jù)集信息的基礎(chǔ)上,其維數(shù)由原來的6維降為3維,從而提高了巖性識(shí)別的準(zhǔn)確率和運(yùn)行效率。
接下來對(duì)訓(xùn)練樣本主成分?jǐn)?shù)據(jù)集進(jìn)行聚類分析,目標(biāo)函數(shù)為
(10)
式中:ursnew為迭代后的隸屬度;ursold為迭代前的隸屬度。
核函數(shù)選擇高斯核函數(shù),設(shè)置類別數(shù)為3,迭代截止誤差ε為10-5,模糊系數(shù)m為2[22]。將30組訓(xùn)練樣本主成分?jǐn)?shù)據(jù)集代入式(7)、式(8),可以得出其聚類中心分別為v1=(0.511 9,0.103 1,-0.522 3),v2=(2.948 3,-0.269 6,0.859 8),v3=(-1.770 2,-0.042 6,0.399 6),對(duì)應(yīng)試驗(yàn)巖樣的軟弱夾層、煤層和砂巖層3種巖性,并將對(duì)應(yīng)數(shù)據(jù)集分為3組,此時(shí)該聚類中心可以作為巖性識(shí)別的基本參數(shù)。同時(shí)利用PCA算法對(duì)測(cè)試樣本進(jìn)行特征提取,得到測(cè)試樣本主成分?jǐn)?shù)據(jù)集,見表5。
表5 測(cè)試樣本主成分?jǐn)?shù)據(jù)集Table 5 Principal component data sets of test samples
采用馬氏距離判別法對(duì)測(cè)試樣本進(jìn)行判斷,計(jì)算各測(cè)試樣本分別到3組訓(xùn)練樣本主成分?jǐn)?shù)據(jù)集的馬氏距離,根據(jù)最小馬氏距離可識(shí)別各測(cè)試樣本所屬類別,同時(shí)測(cè)量各測(cè)試樣本的平均單軸抗壓強(qiáng)度,得到測(cè)試樣本的材料屬性,確定測(cè)試樣本的實(shí)際巖性類別,與測(cè)試識(shí)別結(jié)果進(jìn)行比較,識(shí)別結(jié)果見表6。
表6 測(cè)試樣本預(yù)測(cè)結(jié)果Table 6 Prediction result of test samples
從表6可看出,測(cè)試樣本的巖性識(shí)別正確率為100%,驗(yàn)證了PCA-KFCM算法的有效性,實(shí)現(xiàn)了試驗(yàn)巖樣巖性的正確識(shí)別。
為了說明基于PCA-KFCM算法的含煤地層巖性識(shí)別模型的優(yōu)勢(shì),利用KFCM算法對(duì)表1中的鉆進(jìn)參數(shù)集進(jìn)行訓(xùn)練和測(cè)試,各參數(shù)的取值均與PCA-KFCM算法的參數(shù)相同。首先對(duì)2種算法進(jìn)行測(cè)試,選擇相同的迭代截止誤差,經(jīng)計(jì)算可得PCA-KFCM算法需要迭代14步,訓(xùn)練樣本與聚類中心距離和為73.951 5,KFCM算法需要迭代18步,訓(xùn)練樣本與聚類中心距離和為90.067 4,2種算法的迭代誤差如圖3所示。
圖3 2種算法迭代誤差比較Fig.3 Comparison of iterative errors of the two algorithms
從圖3可看出,PCA-KFCM算法的聚類時(shí)間更短,當(dāng)?shù)螖?shù)較大時(shí),優(yōu)勢(shì)更加明顯,這說明PCA-KFCM算法的收斂速度明顯快于KFCM算法,這是由于經(jīng)過主成分特征提取后,降低了數(shù)據(jù)集的維數(shù),數(shù)據(jù)計(jì)算量更小,復(fù)雜度更低,所以,數(shù)據(jù)處理時(shí)間更短。
同理,通過不同數(shù)量的訓(xùn)練樣本對(duì)2種算法進(jìn)行研究,并對(duì)測(cè)試樣本進(jìn)行識(shí)別,PCA-KFCM算法的識(shí)別正確率均為100%;當(dāng)訓(xùn)練樣本數(shù)量為21和22時(shí),KFCM算法的識(shí)別正確率為90%,其余識(shí)別正確率為100%,2種算法的訓(xùn)練樣本與聚類中心的距離和比較結(jié)果如圖4所示。
圖4 2種算法訓(xùn)練樣本與聚類中心距離和比較Fig.4 Comparison of distance sum between training samples and clustering centers of the two algorithms
從圖4可看出,不同訓(xùn)練樣本數(shù)量下PCA-KFCM算法的訓(xùn)練樣本與聚類中心距離和更小,平均距離和比KFCM算法減小23.2%,即識(shí)別精度提高了23.2%,平均訓(xùn)練準(zhǔn)確率更高,識(shí)別效果更好,當(dāng)后期訓(xùn)練樣本數(shù)據(jù)集增大時(shí),該算法的適用性更好。
(1) 結(jié)合PCA和KFCM兩種算法的優(yōu)點(diǎn),提出了基于PCA-KFCM算法的含煤地層巖性優(yōu)化識(shí)別方法。首先利用PCA算法對(duì)訓(xùn)練樣本進(jìn)行特征提取并對(duì)樣本進(jìn)行訓(xùn)練,然后通過KFCM算法對(duì)訓(xùn)練樣本主成分?jǐn)?shù)據(jù)集進(jìn)行模糊核聚類,最后采用馬氏距離判別法對(duì)測(cè)試樣本進(jìn)行識(shí)別,通過鉆進(jìn)試驗(yàn)臺(tái)獲得的高維鉆進(jìn)參數(shù)集對(duì)算法進(jìn)行了驗(yàn)證,實(shí)現(xiàn)了試驗(yàn)巖樣巖性的正確識(shí)別。
(2) 與KFCM算法相比,PCA-KFCM算法的收斂速度明顯快于KFCM算法,識(shí)別精度提高了23.2%,且大幅降低了計(jì)算量。