雷明鋒 ,張運波,王衛(wèi)東 ,雷乃金,曾燦,肖勇卓,黃娟,龔琛杰
(1.中南大學(xué) 土木工程學(xué)院,湖南 長沙 410075;2.重載鐵路工程結(jié)構(gòu)教育部重點實驗室,湖南 長沙 410075;3.貴州貴金高速公路有限公司,貴州 貴陽 550081;4.貴州路橋集團(tuán)有限公司,貴州 貴陽 550000;5.湖南鐵院土木工程檢測有限公司,湖南 長沙 410075)
巖性是決定巖石強(qiáng)度的主要因素,對工程巖體分級(如隧道圍巖分級)至關(guān)重要[1?2]。巖性判定不準(zhǔn)確,要么導(dǎo)致圍巖分級過于保守,增加工程投資;要么使得圍巖分級過于冒進(jìn),加大施工風(fēng)險[3]。巖性判定通常有手標(biāo)本鑒定和巖石薄片鑒定2種方式,分別適用于常見巖石(如石灰?guī)r)和復(fù)雜組分的巖石(如花崗巖)。巖石薄片鑒定是指在偏光顯微鏡下根據(jù)礦物顆粒的顏色、干涉色、突起和解理等特征對礦物顆粒準(zhǔn)確定性,并且根據(jù)不同礦物顆粒的結(jié)構(gòu)特征和含量對巖性做出判斷[4?5]。傳統(tǒng)的巖石薄片鑒定技術(shù)主要依靠專業(yè)人員鏡下鑒定,各類礦物含量憑經(jīng)驗估計,這種方式費時費力且依賴個人經(jīng)驗。本世紀(jì)以來,先進(jìn)信息技術(shù)取得了長足發(fā)展,數(shù)字圖像技術(shù)與人工智能算法等也紛紛被引入到了巖石薄片鑒定技術(shù)中來。如,白林等[6?7]直接將巖石薄片圖像以及對應(yīng)的巖石類別作為數(shù)據(jù)集,采用深度學(xué)習(xí)方法劃分圖像類別從而實現(xiàn)巖性識別;胡祺[8]在此基礎(chǔ)之上綜合了單偏光、正交偏光以及兩者融合的薄片圖像分類結(jié)果,提高了分類精度;李娜等[9]提出了基于FeRNet的薄片圖像特征提取網(wǎng)絡(luò)結(jié)合分類模型,得到優(yōu)于人工挑選的圖像特征分類結(jié)果。上述方法雖然利用了薄片圖像的全部信息,但需要大量的樣本數(shù)據(jù),無形當(dāng)中限制了其推廣應(yīng)用。為此,郭超等[10?12]通過先提取薄片圖像的色彩、紋理等特征,構(gòu)建特征組及其對應(yīng)巖石類別的數(shù)據(jù)集,再通過支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等算法訓(xùn)練并預(yù)測薄片圖像類別。結(jié)果表明,該方法僅基于數(shù)百張樣本的訓(xùn)練即可得到較高的識別準(zhǔn)確率。除此之外,在根據(jù)巖石薄片礦物顆粒來識別巖性方面,也有諸多學(xué)者開展了較為豐富的研究工作[13?14]。范鵬召[15]采用無監(jiān)督機(jī)器學(xué)習(xí)方法,根據(jù)巖石薄片圖像的顏色、紋理特征以及像素空間位置對礦物進(jìn)行聚類分割;趙啟明等[16]采用SRM統(tǒng)計區(qū)域融合算法分割礦物顆粒,用灰度共生矩陣表征紋理,并將計算得到的共生矩陣的能量和相關(guān)性作為神經(jīng)網(wǎng)絡(luò)分類訓(xùn)練的樣本參數(shù),成功鑒別出石英和長石礦物??傊?,將先進(jìn)的信息技術(shù)引入到巖性識別領(lǐng)域是當(dāng)前土木、地質(zhì)和采礦等專業(yè)的研究熱點和發(fā)展趨勢。但縱觀當(dāng)前巖石薄片礦物顆粒檢測與量化的研究成果,主要集中在圖像閾值分割算法、神經(jīng)網(wǎng)絡(luò)、聚類算法等傳統(tǒng)技術(shù)方法上,識別的準(zhǔn)確率、智能化程度不高,特別是無法準(zhǔn)確量化礦物成分的含量。而實際工作中,礦物成分的類別鑒定和含量分析是巖性判定的關(guān)鍵環(huán)節(jié)。近年來,基于深度學(xué)習(xí)的目標(biāo)檢測算法發(fā)展迅速[17?20],已廣泛應(yīng)用于交通車輛檢測[21]、土木工程結(jié)構(gòu)病害檢測[22?23],甚至人體癌變細(xì)胞的醫(yī)學(xué)檢測[24]等領(lǐng)域,但鮮有應(yīng)用到巖石薄片的礦物檢測當(dāng)中。為此,本文在對比分析當(dāng)前盛行的幾種目標(biāo)檢測算法適用性的基礎(chǔ)上,優(yōu)選Mask R-CNN深度學(xué)習(xí)算法[25],并對該算法進(jìn)行針對性改進(jìn)以實現(xiàn)巖石薄片礦物顆粒智能檢測和量化,為隧道圍巖分級等工作中的巖性判定提供智能化技術(shù)途徑。
Mask R-CNN為一基于局域卷積神經(jīng)網(wǎng)絡(luò)的模型,相對于目標(biāo)檢測網(wǎng)絡(luò)Faster R-CNN[26],Mask R- CNN擴(kuò)展了一個mask掩碼分支,可對目標(biāo)進(jìn)行像素級別的實例分割,從而實現(xiàn)目標(biāo)礦物的精準(zhǔn)檢測和含量的量化統(tǒng)計,其檢測流程如圖1。
圖1 Mask R-CNN目標(biāo)檢測與實例分割流程Fig.1 Target detection and instance segmentation process of Mask R-CNN
Mask R-CNN深度學(xué)習(xí)模型包含主干網(wǎng)絡(luò)、區(qū)域建議網(wǎng)絡(luò)、區(qū)域尺寸調(diào)節(jié)以及ROI(Region of In‐terest)分類4個環(huán)節(jié),模型深度學(xué)習(xí)過程如圖2。
圖2 Mask R-CNN學(xué)習(xí)網(wǎng)絡(luò)Fig.2 Learning network of Mask R-CNN
主干網(wǎng)絡(luò)包含Resnet101和FPN(Feature Pyra‐mid Network)。其中,Resnet101又包含Conv Block與Identity Block 2個模塊,均屬于殘差神經(jīng)網(wǎng)絡(luò)。Conv Block用于改變圖片維度大小,Identity Block用于加深網(wǎng)絡(luò)。Resnet101提取特征圖的過程如圖3。
圖3 Resnet101特征提取過程Fig.3 Process of Resnet101 extracting features
FPN[27]利用上一階段Resnet101提取的C2~C5特征層,經(jīng)過卷積、上采樣和最大池化處理得到P2~P6等5個有效特征層,用作RPN網(wǎng)絡(luò)的輸入。
這一階段的主要作用是訓(xùn)練先驗框(即區(qū)域建議網(wǎng)絡(luò)生成的檢測框)的分類模型和位置調(diào)整模型。RPN生成的先驗框以滑動掃描的方式遍歷特征圖的每一像素,接著計算先驗框與真實框的交集與并集的比值IOU(Intersection Over Union),設(shè)定IOU閾值以劃分RPN訓(xùn)練樣本的類別。
本研究設(shè)定:若IOU>70%,先驗框被標(biāo)定為正樣本;IOU<30%則標(biāo)定為負(fù)樣本;其他先驗框稱為中性樣本,不參與訓(xùn)練過程而被剔除。RPN總訓(xùn)練誤差函數(shù)LRPN為:
其中:LRcls表示RPN階段的二分類訓(xùn)練誤差,Lreg表示RPN階段的回歸訓(xùn)練誤差。表達(dá)式如下:
其中:i是先驗框的索引;pi是第i先驗框預(yù)測為正樣本的概率,真實標(biāo)簽p*i為1表示先驗框為正樣本,為0表示先驗框為負(fù)樣本;ti表示包含預(yù)測框中心坐標(biāo)、寬和高等4個參數(shù)的向量;ti*則表示真實框相應(yīng)參數(shù)的向量;參數(shù)NRcls,Nreg表示批次數(shù)據(jù)量;λ為超參數(shù),用于調(diào)節(jié)權(quán)重;LRcls(pi,p*i)表示二分類對數(shù)誤差函數(shù),對于回歸誤差Lreg(ti,t*i),其表達(dá)式為:
其中,R為魯棒性較好的smoothL1函數(shù):
對于上述邊界框回歸,定義t與t*如下:
x,y,w,h分別表示邊框的中心坐標(biāo)、寬和高,x,xa,x*分別用于預(yù)測框、先驗框與真實框(y,w,h同理)。
ROI為RPN輸出的建議框。由于邊框調(diào)整,大小不一,ROI Align用于統(tǒng)一邊框的尺寸。
ROI分類是整個Mask R-CNN網(wǎng)絡(luò)的最后一步[28],包含:1) 預(yù)測框的多元分類;2) 預(yù)測框的位置精調(diào);3) 生成掩碼。針對單個ROI,設(shè)置誤差函數(shù)LROI如下:
其中多分類誤差函數(shù)Lcls為:
式中:p表示預(yù)測概率;-log(pu)為真實類別u的對數(shù)誤差函數(shù)。
ROI的回歸預(yù)測誤差函數(shù)Lbox為:
式中:[u≥1]表示u≥1時值為1,u<1時值為0,這里λ設(shè)置為1,tu為對應(yīng)類別u的偏移,v為真實邊界框回歸目標(biāo)。
掩碼層誤差函數(shù)Lmask為平均二元交叉熵?fù)p失函數(shù),針對某真實類別的ROI,Lmask只定義在該類別的掩碼輸出上,其他掩碼輸出對Lmask沒有貢獻(xiàn)。
綜上,訓(xùn)練過程共涉及到5個誤差函數(shù),分別是RPN的分類誤差和回歸誤差、ROI的多分類誤差和回歸誤差、mask層的分類誤差,總誤差函數(shù)Lall為:
以構(gòu)成組分相對復(fù)雜的花崗巖為例,基于前述Mask R-CNN方法開展驗證實驗。目標(biāo)檢測對象為花崗巖薄片圖像中的黑云母、長石和石英3類礦物。運行軟硬件環(huán)境為:Python 3.6,Keras 2.1.5,Cuda 10.0,Tensorflow-GPU 1.13.2,Cudnn 7.4.1.5等;AMD Ryzen Threadripper 3970X 32-Core@3.69 GHz CPU,64G DDR4 3 200 MHz,MSI RTX 3080 Ti SUPRIM X 12G GPU。
研究實物樣本為85塊花崗巖薄片。直接采用相機(jī)透過顯微鏡目鏡拍攝,照片大小為3 000×4 000 pixel,共獲取了850張原始圖像,典型圖像如圖4(a)。
樣本圖像經(jīng)過裁剪、旋轉(zhuǎn)、剔除等處理,容量擴(kuò)充至2 200張,裁剪后圖像如圖4(b)。根據(jù)既有經(jīng)驗[29],訓(xùn)練集、驗證集、測試集的樣本量按7:2:1的比例隨機(jī)分配,則得到訓(xùn)練集圖片1 540張,驗證集圖片440張,測試集圖片220張。圖5為典型的訓(xùn)練集標(biāo)注樣本。
圖4 原始圖像與裁剪圖像Fig.4 Original image and cropped image
圖5 標(biāo)注樣本示意圖Fig.5 Schematic diagram of the labeled sample
采用遷移學(xué)習(xí)的方法,將已訓(xùn)練好coco數(shù)據(jù)集的模型作為預(yù)訓(xùn)練模型,coco(Common objects in context)數(shù)據(jù)集是一個大型的目標(biāo)檢測、圖像分割數(shù)據(jù)集,包含12萬張自然圖像,涵蓋80多個目標(biāo)類別(如紅綠燈、小汽車、人等常見目標(biāo)物),這些類別當(dāng)中雖然沒有包含石英、長石和黑云母等礦物類別,但是該預(yù)訓(xùn)練模型已經(jīng)具備了強(qiáng)大的特征提取能力,這有益于本文對巖石薄片礦物的識別,尤其是訓(xùn)練速度方面的提升。模型訓(xùn)練設(shè)置100個epochs,學(xué)習(xí)率為0.001?;贕PU圖形處理單元,經(jīng)2.5 h的訓(xùn)練,訓(xùn)練總誤差Lall下降到0.125,驗證總誤差Lall下降到0.126,如圖6,同時給出了Lall,LRcls,Lreg,Lcls,Lbox,Lmask的訓(xùn)練誤差和驗證誤差曲線。從中分析可知,各誤差函數(shù)均隨訓(xùn)練次數(shù)的增加而減小,訓(xùn)練集與驗證集差別越來越小,模型各部分收斂良好。
圖6 訓(xùn)練集與驗證集誤差曲線Fig.6 Error curves of training set and validation set
隨機(jī)抽取測試集中的樣本圖像用于測試訓(xùn)練模型的識別效果,結(jié)果如圖7,圖8和表1。從中可見:
1) 樣圖中的黑云母、長石和石英3類礦物均能準(zhǔn)確識別,且針對每個礦物顆粒生成了邊界框,得到檢測框位置信息,框內(nèi)生成的掩碼完美地貼合真實礦物顆粒的邊界,如圖7。
圖7 部分測試集圖像識別結(jié)果Fig.7 Image recognition results of part of the test set
2) Mask R-CNN根據(jù)框內(nèi)的掩碼計算礦物像素大小,如圖8(c),進(jìn)一步統(tǒng)計出3種礦物的含量情況,如表1。
表1 礦物含量統(tǒng)計表Table 1 Statistics table of mineral content
圖8 目標(biāo)檢測結(jié)果信息展示Fig.8 Information display of detection image
為驗證本文模型的可靠性,分別開展了Faster R-CNN模型以及手工標(biāo)注檢測結(jié)果的對比試驗。評價指標(biāo)采用深度學(xué)習(xí)目標(biāo)檢測效果評價的常用指標(biāo),即準(zhǔn)確率P,召回率R以及平均準(zhǔn)確率AP:
式中:TP表示預(yù)測為正類,實際上也為正類的目標(biāo)數(shù)量,檢測正確;FP表示預(yù)測為正類,實際上是負(fù)類的目標(biāo)數(shù)量,檢測出錯;FN表示預(yù)測為負(fù)類,實際上是正類的目標(biāo)數(shù)量,漏檢;f(R)表示召回率R與準(zhǔn)確率P的關(guān)系函數(shù),由實驗數(shù)據(jù)獲得。
1) 圖9給出了Faster R-CNN與Mask R-CNN 2種方法的識別結(jié)果。從中分析可見,Mask R-CNN實例分割模型檢出目標(biāo)物位置后,可從像素級別進(jìn)一步劃分出目標(biāo)的輪廓,這不僅提高了識別的準(zhǔn)確性并為后續(xù)組分量化統(tǒng)計提供了直接條件??梢?,相對Faster R-CNN模型,Mask R-CNN模型拓展了目標(biāo)檢測功能,具有優(yōu)越性。
圖9 Faster R-CNN與Mask R-CNN檢測結(jié)果對比圖Fig.9 Comparison of detection results between Faster R-CNN and Mask R-CNN
2) 進(jìn)一步地,隨機(jī)抽取一樣本通過Mask RCNN模型識別并手工標(biāo)注該樣本圖像進(jìn)行對比實驗,計算得到識別框與真實框(標(biāo)注框)的IOU大小,如圖10,橫、縱坐標(biāo)分別為真實框和識別框及其對應(yīng)的類別,表格內(nèi)數(shù)字表示對應(yīng)橫、縱坐標(biāo)兩框的IOU大小,設(shè)置IOU閾值為50%,即識別框與標(biāo)注框的IOU≥50%時,認(rèn)為識別框檢測出了該標(biāo)注框,若識別框與標(biāo)注框類別一致,則認(rèn)為識別正確,在圖10中表示為藍(lán)底,若類別不一致,則認(rèn)為識別錯誤,在圖10中表示為紅底;若識別框與標(biāo)注框的IOU<50%,則認(rèn)為識別框與標(biāo)注框不相符,在圖10中表示為白底。接著按照識別框分類的置信度由高到低排序,依次設(shè)置識別框分類的置信度為閾值計算準(zhǔn)確率P和召回率R,繪制準(zhǔn)確率與召回率關(guān)系如圖11所示,計算陰影面積得到平均準(zhǔn)確率AP值為0.675。
圖10 識別框與標(biāo)注框IOUFig.10 Intersection over union between the predicted box and the real box
圖11 準(zhǔn)確率與召回率關(guān)系Fig.11 Relationship between precision and recall
表2統(tǒng)計給出了20張隨機(jī)樣本的Mask R-CNN模型識別檢測和手工標(biāo)注檢測的礦物含量結(jié)果。表中,誤差率r采用下式計算:
表2 標(biāo)注測量與識別測量的含量大小對比分析Table 2 Contrast analysis table of content calculated by method of annotating and recognizing images
式中:S1,S2分別為手工標(biāo)注檢測和Mask R-CNN識別檢測的含量值。
從中分析可知,黑云母、長石、石英檢測誤差率最大值分別為9%,13%,13%,如圖12,3種礦物含量的檢測誤差率近似服從均值μ=0.3%,標(biāo)準(zhǔn)差σ=3.3%的正態(tài)分布(r~N(0.3%,3.3%2)),即在95%置信度下,識別誤差率為6.9%??梢?,本文所構(gòu)建的Mask R-CNN智能識別與量化模型具有較高的準(zhǔn)確性,可滿足工程精度需求。
圖12 識別法檢測含量誤差率分布直方圖Fig.12 Histogram of the error rate distribution of the detection content of the recognized method
式中:N表示識別樣本的數(shù)量。
對圖13中的數(shù)據(jù)進(jìn)行了擬合,發(fā)現(xiàn)mAP值與IOU閾值的變化規(guī)律基本符合二次函數(shù),左側(cè)非常規(guī)曲線(用虛線表示)表示一般情況下不會設(shè)置IOU<50%,否則識別結(jié)果不可靠。當(dāng)IOU閾值等于58%時,mAP出現(xiàn)最大值0.71。由此可知,使用Mask R-CNN方法進(jìn)行巖性智能識別時,IOU閾值設(shè)置在50%~70%之間為宜。
研究過程發(fā)現(xiàn),IOU閾值會影響Mask R-CNN檢測的準(zhǔn)確率和召回率,閾值設(shè)置過高,準(zhǔn)確率提高,召回率降低;閾值設(shè)置過低,準(zhǔn)確率降低,召回率提高。而較佳的閾值大小應(yīng)同時兼顧兩者,使模型的準(zhǔn)確率和召回率均保持較高水平。圖13給出了不同IOU閾值下的mAP值,即多個識別樣本的檢測準(zhǔn)確率平均值:
圖13 IOU閾值與mAP關(guān)系Fig.13 Relationship between IOU threshold and mAP
受采集方式的影響,單個樣本往往視域狹窄,識別結(jié)果存在一定的離散性,難以反映礦物的真實含量。為此,研究過程中針對同一巖石樣本,分別采集多張樣本進(jìn)行識別檢測,并將檢測結(jié)果的代數(shù)平均值與對應(yīng)巖石類別自然礦物含量統(tǒng)計對比,結(jié)果如圖14。從中分析可見,當(dāng)識別樣本數(shù)量的增加至3個時,識別含量代表值逼近標(biāo)準(zhǔn)花崗巖礦物含量基準(zhǔn)線[5],因此,實際工作中,采用Mask R-CNN方法檢測礦物含量時,宜取3~5個樣本為一組,并將其平均值作為識別的最終結(jié)果。
圖14 礦物含量分布與圖片數(shù)量關(guān)系Fig.14 Relationship between the number of pictures and the distribution of mineral content
1) 優(yōu)選Mask R-CNN模型并進(jìn)行針對性改進(jìn),研究提出一種基于Mask R-CNN實例分割算法的巖石薄片礦物識別與含量量化統(tǒng)計方法,為諸如隧道圍巖分級等工作中的巖性智能化判定提供了一種有效的技術(shù)途徑。
2) 實例實驗表明,Mask R-CNN模型可從像素級別劃分出礦物目標(biāo)輪廓并對其含量進(jìn)行量化統(tǒng)計,在95%置信度下含量統(tǒng)計誤差率僅為6.9%??梢?,Mask R-CNN巖性智能識別模型相對于現(xiàn)有的Faster R-CNN模型以及手工標(biāo)注檢測方法,具有優(yōu)越性和可靠性。
3) Mask R-CNN巖性智能識別模型參數(shù)討論分析表明,實際工作中,采用該方法進(jìn)行巖性智能識別時,IOU閾值設(shè)置在50%~70%之間;識別樣本取3~5個為一組,并將其平均值作為識別的最終結(jié)果可保證智能識別結(jié)果的可靠性。