白 林,姚 鈺,李雙濤,徐東晶,魏 昕
(1.數(shù)學(xué)地質(zhì)四川省重點實驗室(成都理工大學(xué)),四川 成都 610059;2.成都理工大學(xué)地球物理學(xué)院,四川 成都 610059;3.成都理工大學(xué)管理科學(xué)學(xué)院,四川 成都 610059;4.國土資源部地質(zhì)信息技術(shù)重點實驗室,北京 100037;5.成都理工大學(xué)網(wǎng)絡(luò)安全學(xué)院,四川 成都 610059;6.成都理工大學(xué)地球科學(xué)學(xué)院,四川 成都 610059)
巖石識別是地質(zhì)調(diào)查中的基礎(chǔ)性工作。在野外地質(zhì)調(diào)查過程中,地質(zhì)工作者會根據(jù)巖石的顏色、結(jié)構(gòu)構(gòu)造、礦物成分等辨識巖石的巖性[1]。隨著地質(zhì)大數(shù)據(jù)時代的來臨,采用計算機技術(shù)模擬地質(zhì)工作者肉眼鑒定巖石的經(jīng)驗進行巖石識別成為可能[2]。通過深度學(xué)習(xí)等人工智能技術(shù),對人類已經(jīng)識別和鑒定的巖石圖像進行學(xué)習(xí),從中模擬出人類識別巖石的規(guī)律,并打包成手機等移動終端APP應(yīng)用程序,將來地質(zhì)工作者或普通大眾只需要用手機拍攝一張巖石照片,就能識別出巖石的巖性,對于社會公眾了解地質(zhì)現(xiàn)象、普及地質(zhì)知識具有積極的推動意義,也符合當前地質(zhì)調(diào)查智能化的發(fā)展趨勢。
一般物體的圖像識別問題,大多識別對象具有顏色、形狀等特征,而巖石圖像具有顏色多變、形狀不定等特征。從巖石的礦物構(gòu)成等特征看,巖漿巖中常見的礦物有橄欖石、輝石、角閃石、云母、斜長石、鉀長石和石英等;沉積巖中常見礦物有石英、長石、方解石、白云石、云母和暗色礦物等;變質(zhì)巖中礦物除了含有沉積巖和巖漿巖中常見的礦物外,還含有陽起石、十字石、藍晶石等變質(zhì)礦物。
國外方面,NIEKUM等[3]基于計算機視覺和機器學(xué)習(xí)技術(shù)實現(xiàn)對Atacama沙漠巖石的分割、檢測和分類。MARMO等[4]使用1 000多張?zhí)妓猁}巖薄片,將灰度數(shù)字圖像作為輸入,建立多層感知神經(jīng)網(wǎng)絡(luò)模型,基于紋理數(shù)據(jù)進行網(wǎng)絡(luò)訓(xùn)練,達到93.3%的分類準確率。SINGH等[5]基于玄武巖薄片圖像,提取27個特征參數(shù),對300個巖石薄片進行識別,達到92.22%的精度自動識別。HONG K等[6]提出了一種基于圖像處理、分形理論和人工神經(jīng)網(wǎng)絡(luò)使用巖石節(jié)理面的圖像來定量確定地質(zhì)強度指標的方法?;趲r石紋理圖像通常是不均勻的,手工處理的特征并不總是可靠的,SHU L等[7]提出了一種無監(jiān)督的特征學(xué)習(xí)方法來自主學(xué)習(xí)巖石圖像的表征。
國內(nèi)方面,劉延保等[8]將LS-SVM的分類方法與數(shù)字圖像處理的閾值分割法相結(jié)合,提出人機結(jié)合的巖石細觀結(jié)構(gòu)圖像系統(tǒng)分析方法。程國建等[9]提出一種基于聚類分割和神經(jīng)網(wǎng)絡(luò)相結(jié)合的分類識別方法,實現(xiàn)巖石薄片圖像孔隙識別的自動化。葉潤青等[10]根據(jù)巖石圖像的光譜和紋理特征,提出礦物含量的測定方式。韋晶等[11]通過對實測的巖石波譜數(shù)據(jù)進行不同的光譜增強技術(shù)處理,增大巖石之間的光譜距離,大幅度提高巖石識別能力。郭超等[12]利用巖石的原始色彩圖像結(jié)合其形態(tài)學(xué)變換,統(tǒng)計不同色彩通道的標準算術(shù)值來描述特征空間,通過神經(jīng)網(wǎng)絡(luò)建立特征空間與巖石圖像類別之間的映射關(guān)系。使用來自鄂爾多斯盆地的100幅巖石薄片圖像對算法進行測試,其結(jié)果表明在不同色彩空間下的巖石圖像自動識別正確率達95%以上。楊艷梅等[13]基于Spark平臺的巖石圖像聚類分析,對巖石圖像進行特征提取,使得巖石圖像易于區(qū)分,解決了傳統(tǒng)的聚類算法無法確定初始中心、聚類數(shù)目的選取不當可能導(dǎo)致聚類失敗、算法容易受到噪聲和孤立點影響等問題。葉潤青等[14]針對傳統(tǒng)巖石薄片鑒定以肉眼觀察和描述為主,存在主觀性強、定量困難等問題,將數(shù)字圖像處理方法引入巖石礦物研究,提出了基于多尺度分割的巖石圖像礦物特征信息提取方法。程建國等[15]利用卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了基于巖石薄片圖像對巖石的特征進行提取,并利用模式分類器對巖石進行分類,在對1 200個樣品分為三類的測試中準確度達到了98.5%。
綜上所述,上述巖石圖像識別的方法多以各類較為復(fù)雜的特征參數(shù)提取算法為基礎(chǔ),并且識別的巖石圖像數(shù)據(jù)較少,或者采用的是標準的巖石薄片數(shù)據(jù),而不是以更為復(fù)雜、直接的巖石圖像作為研究對象。本文嘗試采用卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型,對野外采集的巖石圖像進行分類識別,以探尋深度學(xué)習(xí)是否有效識別巖石,以及能否成功提取巖石中的礦物成分等特征。
以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度學(xué)習(xí)模型是目前在圖像識別中廣泛應(yīng)用的人工智能方法。深度學(xué)習(xí)模型的本質(zhì)是深層次的神經(jīng)網(wǎng)絡(luò),相對于淺層網(wǎng)絡(luò)具有更強的特征學(xué)習(xí)能力。
目前,卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展已經(jīng)出現(xiàn)了LeNet、VGG、Inception、ResNet等典型卷積神經(jīng)網(wǎng)絡(luò)模型。Inception模型在圖像識別領(lǐng)域曾經(jīng)取得較好的成績,因此,巖石圖像識別實驗采用Inception-v3模型。完整的卷積神經(jīng)網(wǎng)絡(luò)包含輸入層、卷積層、池化層、全連接層、輸出層等。圖1為一個簡單的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[16]。
圖1中構(gòu)建巖石識別的卷積神經(jīng)網(wǎng)絡(luò)模型步驟如下所示。
步驟一,輸入巖石圖像。輸入固定分辨率大小的巖石圖像(為了方便說明,以32×32個像素點的巖石圖像為例)。巖石圖像對應(yīng)R、G、B三個顏色通道,數(shù)字化的時候轉(zhuǎn)換為32×32×3的矩陣。
步驟二,卷積以及激活函數(shù)。卷積是提取巖石圖像特征的過程。卷積需要借助卷積核,每一個卷積核對應(yīng)著一個權(quán)值矩陣。卷積核會遍歷原始圖像矩陣,經(jīng)過激活函數(shù)的非線性映射,得到了一個新的特征圖(矩陣)。步驟一中32×32的巖石圖像,經(jīng)過5×5的卷積核進行卷積運算,輸出大小為28×28的特征圖。
步驟三,池化。池化的主要目的是降維,縮小特征圖以減少計算參數(shù),并保留主要特征信息。池化核大小一般為2×2,即將特征圖的長和寬都縮減1/2。步驟二中28×28的特征圖,經(jīng)過2×2的池化核處理,輸出14×14大小的新特征圖。
步驟四,卷積與池化的迭代過程。重復(fù)進行卷積和遲化的操作,進一步提取出更利于識別的特征,使得特征圖的維度和大小進一步縮減,減少計算量。
步驟五,全連接層和輸出分類。在充分提取特征之后,需要將這些特征圖中的特征依次取出排成一個向量,然后將該向量連接成一個全連接網(wǎng)絡(luò),最后再通過多層感知器對圖像進行輸出分類,輸出結(jié)果對應(yīng)著15種巖石類型。
圖1 巖石圖像識別的卷積神經(jīng)網(wǎng)絡(luò)模型流程
表1 驗證集中巖石的識別結(jié)果
花崗巖閃長巖輝長巖橄欖巖流紋巖安山巖玄武巖砂巖灰?guī)r白云巖大理巖石英巖蛇紋巖板巖千枚巖花崗巖0.740.030.0300000.030.0500.130000閃長巖00.6700000.250.080000000輝長巖0.10.10.5000.10.10000.10000橄欖巖0000.8600.14000000000流紋巖0.380.12000.250.1200000000.120安山巖0000.10.20.40.10.100.100000玄武巖0.050.050.05000.050.550.10.05000.1000砂巖0.0200.04000.020.050.670.0500.04000.090.02灰?guī)r0.020.010.0100.010.020.010.050.760.040.0600.010.020白云巖00.060.0600000.120.120.530000.060.06大理巖0.040000.010.010.010.010.10.010.660.0600.040.01石英巖00000000000.330.500.170蛇紋巖000000000000100板巖000000.060.110.310.030.030.06000.340.06千枚巖00000.12000.120.1200000.250.38
圖2 巖石圖像中的礦物成分特征提取效果
要實現(xiàn)巖石圖像識別,需選定一個深度學(xué)習(xí)框架。當前主流深度學(xué)習(xí)框架有Caffe、TensorFlow、Keras、PyTorch等,巖石圖像識別選用Google公司開源的TensorFlow框架編程實現(xiàn)[17]。
實驗的巖石圖像是網(wǎng)上搜集和實物拍照而來,經(jīng)過數(shù)據(jù)的清理、裁剪,選定了常見的15種巖石,每一類整理出圖像數(shù)據(jù)約為1 000張,實驗從中隨機劃分90%的巖石作為訓(xùn)練集,10%作為驗證集。具體巖石類型包括:巖漿巖7種(花崗巖、閃長巖、輝長巖、橄欖巖、流紋巖、安山巖、玄武巖),沉積巖3種(砂巖、灰?guī)r、白云巖),變質(zhì)巖5種(大理巖、石英巖、蛇紋巖、板巖、千枚巖)。具體巖石類型見表1。
對原始圖像旋轉(zhuǎn)后訓(xùn)練,設(shè)置初始學(xué)習(xí)率為0.0001,經(jīng)過80 000次迭代后,訓(xùn)練集上的模型精度為95%,驗證集上的準確率為63%。
表1給出了驗證集中15種巖石的識別結(jié)果。表1中每一行表示對應(yīng)的巖石被識別成其他類型巖石的概率,對角線元素表示識別成自己的準確率,其他元素表示識別成其他類型的誤判率。
分析識別結(jié)果數(shù)據(jù),雖然整體識別準確率不高,只有63%左右。這個主要是受到訓(xùn)練數(shù)據(jù)集有限等的影響,但是識別結(jié)果已經(jīng)呈現(xiàn)出一定的規(guī)律,發(fā)現(xiàn)相同礦物成分構(gòu)成的巖石識別容易混淆。識別結(jié)果中灰?guī)r、白云巖、大理巖互相有10%的誤判率,從地質(zhì)的角度來看,灰?guī)r、白云巖屬于碳酸鹽巖,大理巖是由碳酸鹽巖變質(zhì)而來的,它們的顏色形態(tài)非常相似,很難分辨,在野外辨識需要進一步通過滴稀鹽酸來分辨。輝長巖和玄武巖也有5%~10%的誤判率,它們主要礦物都是輝石和斜長石。
特征圖是卷積神經(jīng)網(wǎng)絡(luò)中原始圖像經(jīng)過卷積和遲化產(chǎn)生的,能代表從原始圖像中提取的特征。因此,對比巖石原始圖像和特征圖,就能看出特征圖是否從原始圖像中提取出識別巖石的特征。如圖2所示,花崗巖有3張從卷積神經(jīng)網(wǎng)絡(luò)提取的特征圖,特征圖1中亮色部分提取的是肉紅色的長石,特征圖2中亮色部分提取的是透明狀的石英,特征圖3中亮色部分提取的是云母等暗色礦物,其他巖石情況類似。
由此可見,卷積神經(jīng)網(wǎng)絡(luò)對于花崗巖、閃長巖、玄武巖、千枚巖等巖石中的礦物成分、構(gòu)造等特征有明顯的提取效果。
相對于一般的圖像識別對象具有顏色、形狀等特征,巖石圖像具有顏色多變、形狀多變等特點,地質(zhì)人員肉眼鑒定巖石主要是是依據(jù)巖石的結(jié)構(gòu)、構(gòu)造、礦物成分等特征。文中設(shè)計了基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)模型,對收集的巖石圖像進行學(xué)習(xí),實驗驗證的識別精度達到63%。相同礦物成分構(gòu)成的巖石容易混淆,說明礦物成分對于巖石識別是很重要的特征;分析了卷積神經(jīng)網(wǎng)絡(luò)中間產(chǎn)生的特征圖,發(fā)現(xiàn)深度學(xué)習(xí)能提取巖石圖像的礦物成分等特征,說明深度學(xué)習(xí)方法對巖石識別是有效的。
致謝本文工作得到了中國地質(zhì)調(diào)查局發(fā)展研究中心譚永杰總工程師、朱月琴老師等多位專家的指導(dǎo)和建議,在此表示誠摯的感謝。