喬金麗,徐源浩,劉建琴,胡建幫
(1.河北工業(yè)大學土木與交通學院,天津 300401; 2. 天津大學機械工程學院,天津 300072)
掘進機在服役過程中對巖體條件敏感,巖體信息不明確將直接影響智能掘進決策,造成操作參數(shù)不合理、預警不及時等問題,因此,必須保證掘進過程中的安全與效率[1-2]。為了研究掘進機掘進過程中各因素之間的相互作用影響,近年來,越來越多的人工智能技術(shù)手段開始應用于巖土工程領(lǐng)域。Boubou等[3]利用神經(jīng)網(wǎng)絡對地表沉降進行預測;朱北斗等[4]利用BP神經(jīng)網(wǎng)絡對掘進參數(shù)進行訓練,建立了地層識別模型; Liu等[5]同樣利用神經(jīng)網(wǎng)絡建立了巖體特征預測模型; 田睿等[6]利用改進的深度神經(jīng)網(wǎng)絡對巖爆烈度等級進行預測; 張?zhí)烊鸬萚7]通過數(shù)據(jù)挖掘技術(shù)對掘進機運行中出現(xiàn)的故障加以診斷,提高了診斷速度; Khamesi等[8]將最近鄰聚類與梯度下降、粒子群(PSO)、帝國主義競爭(ICA)3種算法結(jié)合模糊系統(tǒng)反智能推測土層類別; Zhou 等[9]建立粒子群算法與支持向量機的混合模型,對TBM掘進能耗進行預測,用于幫助確定TBM的性能和效率;Yagiz等[10-12]利用粒子群、灰狼算法等基于隧洞地質(zhì)條件來預測TBM的掘進速度; Masoud等[13]則用基因規(guī)劃表達在Yagiz的基礎(chǔ)上進一步做出了TBM掘進速度的擬合公式。
以上工作大都是揭示定量關(guān)系,且由于神經(jīng)網(wǎng)絡等是黑箱操作,未能清楚地表達各項因素之間的因果關(guān)系。在數(shù)據(jù)挖掘方面,關(guān)聯(lián)規(guī)則可以實現(xiàn)直觀定性描述,已經(jīng)成功地應用于揭示各種領(lǐng)域中的因果關(guān)系[14-15]。本文基于數(shù)據(jù)挖掘理念,對數(shù)據(jù)進行K-means聚類分析與預處理,應用關(guān)聯(lián)算法,建立數(shù)據(jù)挖掘模型,得到多條關(guān)聯(lián)規(guī)則,關(guān)聯(lián)規(guī)則可直觀顯示各因素在不同類別下的相互影響作用,建立明確的因果導向。為掘進機提供先導判據(jù),與決策樹預測結(jié)果進行比對,綜合現(xiàn)場巖體參數(shù)結(jié)果等多源信息,進行巖機的交互式耦合預測,以期實現(xiàn)在靜態(tài)預測基礎(chǔ)上的掘進過程動態(tài)分析。
關(guān)聯(lián)規(guī)則分析是為了從數(shù)據(jù)集中找出各項之間的關(guān)聯(lián)關(guān)系。Apriori算法[16]是一種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法,其核心思想是通過連接產(chǎn)生候選項與其支持度,然后通過剪枝生成頻繁項集。
頻繁項集是指支持度大于或等于給定的最小支持度閾值的事項集。關(guān)聯(lián)規(guī)則參數(shù)之間的關(guān)聯(lián)度可以用支持度和置信度2個指標來表示,同時使用提升度作為鑒定強關(guān)聯(lián)規(guī)則是否有效的標準。支持度、置信度與提升度的表達式分別如式(1)、式(2)、式(3)所示。
Support(A→B)=P(A∪B)=count(A∪B)/D。
(1)
Confidence(A→B)=P(B│A)。
(2)
Lift(A→B)=P(B│A)/P(B)=
Confidence(A→B)/P(B)。
(3)
式(1)—(3)中:D為數(shù)據(jù)集;A、B為事項集。
在建立關(guān)聯(lián)模型前需要設(shè)定好最小支持度和置信度,只有支持度和置信度不小于最小值,且提升度大于1的結(jié)果才被選為推薦的強關(guān)聯(lián)規(guī)則。
關(guān)聯(lián)規(guī)則模型的建立流程如下:
1)對于給定的最小支持度閾值,遍歷數(shù)據(jù)集D,剔除小于該閾值的項集,得到1項頻繁項集L1。
2)由頻繁項集L1自身連接產(chǎn)生2項候選集D1;同樣對比閾值,保留滿足條件的2項頻繁項集L2。
3)由頻繁項集L2自身連接產(chǎn)生3項候選集D2;同樣對比閾值,保留滿足條件的3項頻繁項集L3。
4)循環(huán)2)、3)步,每一步增加1項,直到得到最大頻繁項集Lk。
以某一商場的簡單交易清單為例(如表1所示),假定只存在4種商品,分別為商品0、1、2、3。所探索的是商品組合被一起購買的概率,其組合類型如圖1所示。
表1 某商場的簡單交易清單
圖1 商品的組合類型
圖1顯示了商品之間所有可能的組合,從上往下第1個集合是?,表示不包含任何物品的空集,商品集合之間的連線表明2個或者更多集合可以組合形成1個更大的集合。
使用集合的支持度來度量其出現(xiàn)的頻率。設(shè)定最小支持度為60%,商品0、1、2、3的支持度分別為4/5、4/5、4/5、2/5,則商品3明顯不符合,因此1項頻繁集為商品0、1、2。
如果1個項集是非頻繁的,那么它的所有超集也是非頻繁的。因此,所有含有商品3的超集都是不頻繁的,只余下{0,1}、{0,2}、{1,2}、{0,1,2},其支持度分別為3/5、3/5、3/5、2/5,因此{0,1,2}為非頻繁項,只存在2項頻繁集。
置信度計算: 對于2項頻繁集,設(shè)定最小置信度為70%,有關(guān)聯(lián)規(guī)則{0}→{1}、{0}→{2}、{1}→{2},其置信度分別為3/4、3/4、3/4,都滿足最小置信度要求,對于關(guān)聯(lián)規(guī)則{0}→{1}可以說購買商品0的人有很大可能購買商品1,其他關(guān)聯(lián)規(guī)則同樣如此。
研究中,關(guān)聯(lián)模型所采用的數(shù)據(jù)來自于一個硬巖隧道開挖項目(皇后區(qū)3號輸水隧道,第2階段)編制的數(shù)據(jù)庫[10]。此數(shù)據(jù)庫包括巖石單軸抗壓強度(UCS)、巴西抗拉強度(BTS)、用于量化巖石脆韌性的峰斜指數(shù)(PSI)、巖體連續(xù)性方向的α角、薄弱面間距(DPW)、掘進速度(ROP)、巖石破碎等級及巖石類型,共計153例。其中,峰斜指數(shù)是施加在試樣上的最大載荷(kN)與相應位移(mm)的比值。巖石共有5種類型,編號設(shè)置為1—5,分別是: 花崗質(zhì)(長英質(zhì))片麻巖和正片麻巖,占比29.4%; 正片麻巖,占比20.3%; 片麻巖、角閃巖和片巖,占比39.8%; 塊狀石榴石角閃巖和較大的巖墻,占比9.1%; 流紋英安巖脈巖,占比1.3%。巖石破碎等級與薄弱面間距除極少數(shù)環(huán)有不同外基本相同,將破碎等級與薄弱面間距合并為1項,共分為3種不同類型,間距小于0.4 m為一類,大于1.6 m 為一類,0.4~16 m為一類。
數(shù)據(jù)庫中UCS、BTS、PSI與α參數(shù)曲線、掘進速度曲線分別如圖2和圖3所示,可以看到巴西抗拉強度與峰斜指數(shù)的變化較為平緩,另外3個參數(shù)的變化則非常明顯。所有數(shù)據(jù)是在整條隧道的不同環(huán)隨機選取的,保證了數(shù)據(jù)的隨機性與代表性。表2示出各個參數(shù)的最大值、最小值、平均值、標準差與偏差值。標準差越小,說明數(shù)據(jù)值與平均值的偏差就越小;偏差值可以用標準差/平均值的比值來表示,抗拉強度的偏差值最小,說明BTS的變化最小。
圖2 數(shù)據(jù)庫中UCS、BTS、PSI與α參數(shù)曲線圖
圖3 掘進速度曲線圖
表2 各項參數(shù)統(tǒng)計
使用K-means聚類方法對數(shù)據(jù)庫中的各項參數(shù)進行聚類分析,指定數(shù)據(jù)劃分為3類,隨機選取樣本集中3個對象作為初始聚集中心,針對所有對象,計算其與3個聚集中心點的距離,然后將該對象歸為距離最小的聚集中心代表的簇。1次計算歸類結(jié)束之后,針對每個簇類,重新計算聚集中心,然后針對剩余對象,重新尋找距離最近的聚集中心。如此循環(huán),直到前后2次迭代的簇類沒有變化。
各項參數(shù)的聚集結(jié)果見表3,按照高、中、低對聚類結(jié)果用0、1、2進行標注。由表3可知,高抗壓強度為170.3~199.7 MPa,中抗壓強度為144.8~169 MPa,低抗壓強度為118.3~143.4 MPa,超過一半的巖體屬于低抗壓類; 高抗拉強度為9.8~11.4 MPa,中抗拉強度為8.6~9.6 MPa,低抗拉強度為6.7~8.4 MPa,接近一半的巖體為高抗拉強度; 高峰斜指數(shù)為52~58 kN/mm,中峰斜指數(shù)為35~46 kN/mm,低峰斜指數(shù)為25~34 kN/mm,64.1%的巖體屬于低峰斜指數(shù);α高角度為57°~89°,中角度為31°~56°,低角度為2°~30°,α的分布較為平均,各聚類結(jié)果基本接近1/3。掘進機的掘進速度則呈現(xiàn)中間大的分布,高掘進速度為2.39~3.07 m/h,中掘進速度為1.93~2.37 m/h,低掘進速度為1.27~1.91 m/h。
表3 各項參數(shù)的聚類結(jié)果
在本模型中,設(shè)置最小支持度為5%,最小置信度為80%,由于當全部數(shù)據(jù)用于分析時,前置條件和后置結(jié)果存在相互支持的現(xiàn)象,所以指定掘進機的掘進速度這一參數(shù)作為后置結(jié)果,對數(shù)據(jù)庫選取的7個參數(shù)進行數(shù)據(jù)挖掘,共生成符合預先設(shè)定閾值條件的有效關(guān)聯(lián)規(guī)則20條,如表4所示。
表4 掘進機掘進關(guān)聯(lián)規(guī)則結(jié)果
表4中的每一條關(guān)聯(lián)規(guī)則都代表著一條因果關(guān)系。例如,關(guān)聯(lián)規(guī)則1揭示了抗拉強度(MPa)在[8.6,9.6]、α(°)在[57,89]、巖石類型為正片麻巖時,掘進速度(m/h)位于低速掘進區(qū)[1.27,1.91]的置信度為100%。換言之,基于強相關(guān)特性,所有4個參數(shù)值會同時出現(xiàn)。
基于關(guān)聯(lián)規(guī)則整理出的20條規(guī)則,可以看到,有6條規(guī)則置信度為100%,4條規(guī)則不低于90%,剩余規(guī)則置信度則全部低于90%;而在掘進速度方面,所得出的結(jié)果要么是處于低掘進區(qū)間,要么處于中掘進區(qū)間,沒有高掘進區(qū)間。導致這一結(jié)果可能的原因,一方面在于采用的數(shù)據(jù)集中高區(qū)間本身所占比例就遠遠小于中低區(qū)間,沒有足夠的樣本數(shù)量;另一方面高區(qū)間掘進速度實際出現(xiàn)的情況偏少。
從規(guī)則1與規(guī)則3中可以看到,在增加了一項因素之后,其他條件不變的情況下,所得到的結(jié)果并沒有發(fā)生變化;但這不能說明UCS的影響是可以忽略不計的,如規(guī)則10與規(guī)則11所示,存在UCS條件的規(guī)則,比存在BTS條件的規(guī)則置信度高。
從規(guī)則4、8、10、14及16、17、18可以近似得到低抗壓強度與低的α角對于低掘進速度是非常必要的,這與通常認為的低抗壓強度會使得破巖速度加快有所出入。但在破巖速度與掘進速度之外,還要考慮貫入度等其他因素,如α角較小,在掘進時巖體與掘進機偏向正對,從而導致掘進速度較低。這一推斷與其他規(guī)則中高等程度的α角得到的是中等掘進速度相比較后可以進一步推論,α角在中等掘進區(qū)間可能有助于掘進速度的提高。
在巖石類型方面,出現(xiàn)的是第2種和第3種巖體,即正片麻巖與片麻巖、角閃巖和片巖,但考慮到出現(xiàn)巖體類型的規(guī)則僅有6條,說明巖體類型對掘進速度的影響偏小,是次要因素;縱觀整個規(guī)則表,薄弱面間距大都表現(xiàn)為低間距區(qū)間,其與掘進速度呈現(xiàn)出正相關(guān)。
隨著隧道掘進進度的不斷推進,關(guān)聯(lián)規(guī)則模型逐步建立,一方面在前期地質(zhì)勘察的基礎(chǔ)上,根據(jù)測點地質(zhì)條件及應用模型給出的關(guān)聯(lián)規(guī)則,推斷掘進參數(shù)的選取范圍; 另一方面通過正向地質(zhì)勘探或超前地質(zhì)預測對掌子面地質(zhì)進行推定,然后對各項地質(zhì)參數(shù)分類后由關(guān)聯(lián)規(guī)則導出掘進參數(shù)范圍。即先獲取地質(zhì)參數(shù),再由當前模型參數(shù)聚類結(jié)果明確范圍,最后根據(jù)符合的關(guān)聯(lián)規(guī)則推斷合適的掘進參數(shù)范圍。隨著掘進過程不斷獲取新數(shù)據(jù),更新關(guān)聯(lián)規(guī)則模型,使其更加完善。
決策樹模擬人通過條件判斷將集合進行分割的過程,通常有3個步驟: 特征選擇、決策樹的生成、決策樹的修剪。1顆決策樹包含1個根節(jié)點、若干個內(nèi)部節(jié)點及若干個葉子節(jié)點。根節(jié)點與內(nèi)部節(jié)點的劃分條件取決于當前數(shù)據(jù)集的最優(yōu)劃分屬性,即通過該屬性使劃分出去的下一級節(jié)點的數(shù)據(jù)集盡可能純凈;葉子節(jié)點是決策樹最終的決策結(jié)果,全部葉子節(jié)點數(shù)據(jù)集的合集是樣本全集;整個決策樹就是多條由根節(jié)點到葉子節(jié)點的判定測試序列組成。
決策樹的直觀表示見圖4,A對應為根節(jié)點,包含了樣本全集;B對應為內(nèi)部節(jié)點;C、D、E為葉子節(jié)點;T表示符合當前劃分條件,F(xiàn)表示不符合。
圖4 決策樹示意圖
通過每一次決策的判定,在圖4中包含的決策規(guī)則有3條: 決策1,A→B→D; 決策2, A→B→E; 決策3,A→C。
在決策樹模型中,選取全數(shù)據(jù)集的80%作為訓練集,20%為測試集。為充分發(fā)揮決策樹本身對于最優(yōu)特征選擇的能力,只將掘進效率進行分類,其余參數(shù)保持原有數(shù)據(jù)。決策樹運行結(jié)果見表5。
表5 決策樹結(jié)果
決策樹模型的決策鏈中特征可能出現(xiàn)不止一次,但從葉子節(jié)點進行倒推時,每個特征的區(qū)分區(qū)間必包含于上級節(jié)點中。以某一決策鏈為例,最后葉子節(jié)點全部數(shù)據(jù)集為24組低區(qū)間,整個決策鏈中α角出現(xiàn)過2次,DPW出現(xiàn)3次,由高至低α角分別為高于14°、高于57°,DPW分別為高于0.4 m、高于0.8 m、高于1.6 m。
為確定決策樹預測模型的可靠性,使用測試集進行驗證,但其在測試集中只有58.97%的正確率。決策結(jié)果分散大,說明其決策鏈對于樣本量要求比較高;數(shù)據(jù)量少時,模型容易受到個別數(shù)據(jù)的影響發(fā)生波動,這是準確率低的主要原因之一。相較之下,關(guān)聯(lián)規(guī)則是基于全體數(shù)據(jù)庫建立的,每條規(guī)則在建立時首先進行了置信度評價,其得出的規(guī)則結(jié)論直觀清晰,具有較高的可信度。當前研究著力于單一隧道的模型預測。在隧道開挖初期,數(shù)據(jù)采集器獲得的數(shù)據(jù)量偏少,關(guān)聯(lián)規(guī)則模型對數(shù)據(jù)的充分利用使其能在開挖初期仍能得到有效結(jié)論,對智能掘進具有一定的參考價值。
在隧道開挖初期,關(guān)聯(lián)規(guī)則模型在一定巖體條件的地層進行隧道掘進時,可以預估掘進參數(shù)的大致范圍,或者根據(jù)正常隧道掘進時的相關(guān)隧道參數(shù),實現(xiàn)對其他地質(zhì)特征的初步推測,有助于保證隧道施工的安全與效率。
采用基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘手段,對巖體地質(zhì)關(guān)鍵參數(shù)與掘進機工作參數(shù)之間的因果關(guān)系進行分析,有效地揭示地質(zhì)參數(shù)與掘進參數(shù)之間的耦合關(guān)系,達到優(yōu)化控制參數(shù)、指導掘進的目的。主要結(jié)論如下:
1)K-means聚類算法的應用將原始數(shù)據(jù)按照其臨近程度分為高、中、低3組,并編號處理;分類編碼后,確定了地質(zhì)參數(shù)中的抗壓強度、抗拉強度、峰斜指數(shù)、薄弱面間距、掘進速度、巖石連續(xù)性方向的α角、巖石類型等7個主要因素,為建立關(guān)聯(lián)規(guī)則提供了支撐。
2)關(guān)聯(lián)規(guī)則結(jié)果顯示,巖體的抗拉強度、抗壓強度及巖石連續(xù)性方向的α角是影響隧道掘進的重要因素,薄弱面間距的大小雖然也有一定影響,但在20條規(guī)則中出現(xiàn)次數(shù)明顯少于其他因素。
3)在隧道開挖前,通過地質(zhì)勘測初步確定了巖石的單軸抗壓強度、巴西抗拉強度、峰斜指數(shù)、巖石連續(xù)性方向的α角、薄弱面間距等地質(zhì)參數(shù),結(jié)合本文所述關(guān)聯(lián)規(guī)則可以得到相應的掘進參數(shù)范圍,為智能掘進的實現(xiàn)提供理論參考依據(jù)。
4)多維關(guān)聯(lián)規(guī)則挖掘方法分析多個參數(shù)之間的相關(guān)性,在原始數(shù)據(jù)集的基礎(chǔ)上進行數(shù)據(jù)預處理、關(guān)聯(lián)規(guī)則挖掘,對于多因素影響的相關(guān)性分析有著廣泛的適用性;較之決策樹結(jié)論更直觀清晰,適用于開挖初期數(shù)據(jù)量較少時的模型建立;在實際的工程中,有助于隧道掘進中各參數(shù)的協(xié)調(diào)一致。
因此,針對掘進機和巖體參數(shù)復雜的隧道施工數(shù)據(jù)收集,引入數(shù)據(jù)挖掘是一種簡單而較為成功的嘗試,但規(guī)則簡單粗放,各個簇的范圍較大,最終結(jié)果限定在一定范圍內(nèi),沒有明確的參數(shù)值,參考意義大于決定意義;隨著參數(shù)種類的豐富,隧道數(shù)據(jù)的積累,能夠建立越來越完善的關(guān)聯(lián)模型。而使用更多的數(shù)據(jù)挖掘手段,特別是建立多參數(shù)間的明確的模型,可以為隧道的智能化施工奠定基礎(chǔ)。