程國(guó)建 岳清清
摘 要: 近幾年來(lái),卷積神經(jīng)網(wǎng)絡(luò)引起了國(guó)內(nèi)外研究者的廣泛關(guān)注,并在大規(guī)模圖像處理方面有出色的表現(xiàn),尤其在模式識(shí)別領(lǐng)域。將地質(zhì)勘探與計(jì)算機(jī)技術(shù)相結(jié)合,在巖石圖像處理方面已經(jīng)取得了較好的成績(jī),并且還在不斷的探索中,以求更好地投入到實(shí)際中去。對(duì)于地質(zhì)勘探研究者來(lái)說(shuō),對(duì)于大量的巖石薄片圖像,如何進(jìn)行快速并且有效的檢索是值得研究的領(lǐng)域課題。傳統(tǒng)的基于文本的檢索方式已不能滿足要求,為此,本文試圖將卷積神經(jīng)網(wǎng)絡(luò)引入到巖石薄片圖像的檢索中,分析其在巖石薄片圖像檢索中的可行性。
關(guān)鍵詞: 卷積神經(jīng)網(wǎng)絡(luò);巖石薄片;圖像檢索;特征提取
Abstract:In recent years Convolutional Neural Network has attracted wide attention of researchers at home and abroad and it has excellent performance in large-scale image processing especially in the field of pattern recognition.The combination of geological exploration and computer technology has achieved good results in the process of rock image processing and it is still in constant exploration in order to better put into practice.For geological exploration researchers it is a necessary research area for a large number of images of rock flakes to be retrieved quickly and efficiently.Traditional text-based retrieval methods can't meet the requirements this paper attempts to introduce Convolution Neural Network into the rock slice image retrieval and analyze its feasibility in the rock slice image retrieval.
Key words: Convolutional Neural Network;rock slices;image retrieval;feature extraction
引言
隨著多媒體技術(shù)和互聯(lián)網(wǎng)的飛速發(fā)展,擴(kuò)大圖像源已滲透到日常生活中,高速大容量的存儲(chǔ)系統(tǒng)提供了對(duì)目標(biāo)圖像的海量存儲(chǔ)的基本保證,而各行業(yè)對(duì)圖像的使用正日趨廣泛,圖像信息資源的管理和檢索也越發(fā)顯得重要[1]。從地質(zhì)研究方面來(lái)看,不斷有新的巖石薄片圖像產(chǎn)生與涌現(xiàn),因此,對(duì)大量的巖石薄片圖像進(jìn)行優(yōu)化管理是地質(zhì)界亟待解決的研究問(wèn)題。
圖像檢索是查找和返回大規(guī)模圖像數(shù)據(jù)庫(kù)中感興趣圖像的一種必要的有效方法。一個(gè)完整的圖像檢索系統(tǒng)基本包括2個(gè)重要的組成部分,即特征提取和相似性度量。其中,特征提取的重點(diǎn)是為圖像生成準(zhǔn)確的特征表示,而相似度度量則側(cè)重于特征匹配,以確定查詢圖像與數(shù)據(jù)庫(kù)中其它圖像的相似性。目前,圖像檢索常用的方法主要有:基于內(nèi)容的圖像檢索(CBIR)、基于語(yǔ)義的圖像檢索、基于反饋的圖像檢索,以及人工智能和基于知識(shí)的圖像檢索。現(xiàn)對(duì)如上的各類方法將給出如下設(shè)計(jì)內(nèi)容闡析。
(1)基于內(nèi)容的圖像檢索。CBIR采用在圖像系統(tǒng)中獨(dú)立存在的特征,即低級(jí)的形狀、顏色、大小等特征來(lái)進(jìn)行檢索,并建立索引,檢索的性能主要和提取的特征有關(guān)。
(2)基于語(yǔ)義的圖像檢索?;谡Z(yǔ)義的特征檢索和基于物理特征的檢索有很大的不同,這種技術(shù)的主要目的是減少圖像的視覺(jué)特征和豐富語(yǔ)義間的表達(dá)距離,通常由特征變換來(lái)消除語(yǔ)義鴻溝。通過(guò)對(duì)低層特征的轉(zhuǎn)換,可以實(shí)現(xiàn)基于語(yǔ)義的圖像檢索,不需要改變圖像特征數(shù)據(jù)庫(kù)的現(xiàn)有方式和圖像的匹配模式[2-3]。
(3)基于反饋的圖像檢索。基于反饋的基本思想方法是允許用戶評(píng)估結(jié)果和標(biāo)記,將檢索到的圖像和用戶想要得到的查詢圖像進(jìn)行比對(duì),將比對(duì)后的誤差作為信息反饋給系統(tǒng),使系統(tǒng)可以調(diào)整下一次的訓(xùn)練。基于反饋的圖像檢索系統(tǒng)在需要用戶參與的情況下,可以得到更準(zhǔn)確的搜索結(jié)果,具有很大的實(shí)用價(jià)值。
(4)人工智能和基于知識(shí)的圖像檢索。該技術(shù)主要是將人工智能與圖像處理領(lǐng)域中的知識(shí)相結(jié)合,在具備先驗(yàn)知識(shí)的基礎(chǔ)上設(shè)計(jì)展開(kāi)的智能檢索。
隨著深度學(xué)習(xí)和圖像處理算法的發(fā)展,圖像檢索技術(shù)在醫(yī)學(xué)圖像管理、衛(wèi)星遙感圖像分析、計(jì)算機(jī)輔助設(shè)計(jì)與制造、地理信息系統(tǒng)和刑事犯罪識(shí)別系統(tǒng)等領(lǐng)域得到了廣泛的應(yīng)用[4]。許多學(xué)者也對(duì)圖像檢索貢獻(xiàn)了大量研究,如:張洪群等[5]用半監(jiān)督的學(xué)習(xí)算法對(duì)遙感圖像檢索進(jìn)行了研究;厲智等[6]用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)服裝圖像分類檢索算法發(fā)表了研究成果;也有許多學(xué)者將智能計(jì)算和機(jī)器學(xué)習(xí)算法應(yīng)用在地質(zhì)方面,取得了可觀進(jìn)展[7~8]。雖然圖像處理和深度學(xué)習(xí)算法也已大范圍應(yīng)用于圖像處理中,但目前尚未涉及到巖石薄片的檢索。
對(duì)此,本文將卷積神經(jīng)網(wǎng)絡(luò)(CNN)應(yīng)用于巖石薄片圖像的檢索中。CNN是深度神經(jīng)網(wǎng)絡(luò)中應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò),主要用于解決識(shí)別與分類問(wèn)題。
1 卷積神經(jīng)網(wǎng)絡(luò)
1.1 卷積神經(jīng)網(wǎng)絡(luò)概述
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是目前深度學(xué)習(xí)算法中至關(guān)重要的一種深層網(wǎng)絡(luò),因其可以直接對(duì)輸入的圖像進(jìn)行操作而使得應(yīng)用范圍日趨廣闊。CNN可以看成是一種含有隱層的多層感知器結(jié)構(gòu),與其它網(wǎng)絡(luò)結(jié)構(gòu)相比較,CNN引入了卷積層和池化層。其中,卷積層用于對(duì)輸入圖像進(jìn)行特征提取,而池化層主要是對(duì)卷積層提取的特征進(jìn)行聚合。
卷積神經(jīng)網(wǎng)絡(luò)具有局部感知的特性,即不同的卷積核對(duì)圖像的不同部分進(jìn)行特征卷積,而不同的局部感受進(jìn)行參數(shù)共享,CNN的另一個(gè)特性是參數(shù)共享。CNN一般包括輸入層、卷積層、池化層、全連接層、輸出層,并且卷積層后面就接著池化層,CNN的基本結(jié)構(gòu)如圖1所示。
1.2 卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練方法
卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練類似于BP算法,分為前向傳播和反向傳播兩個(gè)過(guò)程[9]。具體闡述如下:
2 卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于巖石薄片圖像檢索
利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行檢索,究其本質(zhì)就是基于內(nèi)容的圖像檢索,即通過(guò)圖像的內(nèi)容搜索到相似的圖像,這就使得圖像的特征表示和相似度的測(cè)量已然成為圖像檢索技術(shù)中居于首要位置的2個(gè)組成部分[10]。對(duì)此,可借助卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)提取圖像特征這一鮮明優(yōu)勢(shì)來(lái)進(jìn)行巖石薄片圖像的檢索,從而顯著提高檢索效率。
2.1 通過(guò)卷積神經(jīng)網(wǎng)絡(luò)提取特征
通常,CNN中淺層提取的是一些局部信息諸如邊緣特征和顏色特征等,而深層特征是對(duì)淺層特征的抽象和組合,因此可以認(rèn)為深層特征映射往往表征著圖像總體的、抽象的特征,而淺層特征映射則更多地表示具體的、局部的特征[11]。研究中,可以預(yù)先訓(xùn)練一個(gè)CNN模型,并將該模型作為特征提取器,直接從其特定層中提取深度特征。
從一定程度而言,全連接層的特征可以視為全局特征,而前期的工作已經(jīng)證明了在使用圖像檢索時(shí)局部特征比全局特征將具備更好的性能[12-13]。因此,研究CNN是否能夠生成局部特征以及如何將這些局部描述符聚集成一個(gè)緊湊的特征向量即已成為重點(diǎn)與關(guān)鍵。現(xiàn)在也有一些工作正在著力探索研究如何通過(guò)激活全連接層和卷積層來(lái)生成緊湊的特征向量[14]。
當(dāng)前卷積層的特征映射是通過(guò)在固定層的輸出特征圖上滑動(dòng)濾波器(卷積核)來(lái)計(jì)算,因此特征映射的每個(gè)單元就對(duì)應(yīng)于圖像的局部區(qū)域。要計(jì)算這個(gè)局部區(qū)域的特征表示,這些特征映射的單元就需要重新組合。圖2說(shuō)明了從最后一個(gè)卷積層(Conv5)提取特征的過(guò)程。設(shè)n和m分別是特征映射的數(shù)目和大小。局部描述符可以通過(guò)如下方式來(lái)做出定義:
2.2 利用PCA進(jìn)行特征降維
常用的圖像數(shù)據(jù)降維方法包括特征抽取和特征選擇。在特征抽取中,常用的方法就是主成分分析(Principal Component Analysis,PCA)[15]。其目的旨在運(yùn)用較少的變量去充分表征原有集合中的大部分變量,將研究過(guò)程中許多相關(guān)性很高的變量轉(zhuǎn)化為彼此相互獨(dú)立或不相關(guān)的變量。PCA算法的基本步驟可分述如下:
2.3 圖像檢索過(guò)程
巖石薄片圖像的檢索有2個(gè)階段,分別是:建庫(kù)與檢索,均由采集圖像、預(yù)處理圖像、提取特征、特征映射四部分組成,而檢索部分還含有相似度計(jì)算和制定決策兩個(gè)部分,如圖3所示。進(jìn)一步地,建庫(kù)階段是指巖石薄片經(jīng)過(guò)特征提取、特征映射得到特征向量,并將該特征向量存儲(chǔ)到巖石薄片數(shù)據(jù)庫(kù),如圖4所示。檢索階段是指巖石薄片作為輸入,與數(shù)據(jù)庫(kù)中巖石薄片圖像進(jìn)行一對(duì)多匹配檢索,具體如圖5所示。
2.4 技術(shù)處理
主要的技術(shù)處理可分為6個(gè)階段,對(duì)其內(nèi)容表述如下:
(1)利用采集設(shè)備對(duì)巖石薄片圖像進(jìn)行采集;
(2)對(duì)采集到的巖石薄片進(jìn)行預(yù)處理(增強(qiáng)、去噪等);
(3)建立可提取巖石薄片特征的深度卷積神經(jīng)網(wǎng)絡(luò),并對(duì)該模型進(jìn)行訓(xùn)練,使其能較好地表達(dá)圖像;
(4)利用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)處理后的巖石薄片進(jìn)行特征提??;
(5)對(duì)提取的特征進(jìn)行建庫(kù)管理,即特征數(shù)據(jù)庫(kù);
(6)利用相似性特征進(jìn)行檢索。
基于卷積神經(jīng)網(wǎng)絡(luò)的巖石薄片圖像檢索擬定技術(shù)處理過(guò)程如圖6所示。
2.5 相似性度量與性能評(píng)估
2.5.1 相似性度量方法
圖像檢索需要估算不同樣本數(shù)據(jù)之間的相似性,一般采用的方法是計(jì)算樣本間的距離。而常用度量方法為:歐式距離、漢明距離等。本文擬采用歐式距離和漢明距離對(duì)待檢索巖石薄片圖像和數(shù)據(jù)庫(kù)中圖像的相似程度進(jìn)行計(jì)算,選擇最符合巖石薄片圖像的相似度度量公式。
(1)歐式距離。是很容易理解的一種計(jì)算距離的方法,二維特征向量的情況下的數(shù)學(xué)表示可見(jiàn)如下:
2.5.2 性能評(píng)估
本文擬采用查準(zhǔn)率(Precision)和查全率(Recall)來(lái)對(duì)巖石薄片圖像檢索的性能進(jìn)行評(píng)估。查準(zhǔn)率和查全率可分別如式(7)和式(8)所示:
3 結(jié)束語(yǔ)
本文首先總述了目前流行的幾種圖像檢索方法。其次,在深度學(xué)習(xí)這一熱門研究領(lǐng)域的背景下,重點(diǎn)研究提出了卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)及訓(xùn)練方法。將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到巖石薄片的檢索中,擬定了巖石薄片圖像檢索的框架和技術(shù)路線。通過(guò)分析,可證明本文提出的方法在實(shí)際應(yīng)用中具有可行性。卷積神經(jīng)網(wǎng)絡(luò)可以更好表達(dá)圖像特征,減少了手工設(shè)計(jì)特征的工作量,同時(shí)也避免了傳統(tǒng)的巖石薄片圖像鑒定的主觀性。
參考文獻(xiàn)
[1] GONG Yunchao LAZEBNIK S GORDO A,et al. Iterative quantization: A procrustean approach to learning binary codes for large-scale image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence 2013,35(12): 2916-2929.
[2] WANG Xiaoyu YANG Ming COUR T,et al.Contextual weighting for vocabulary tree based image retrieval[C]// 2011 IEEE International Conference on Computer Vision (ICCV). Barcelona Spain:IEEE 2011:209-216.
[3] EITZ M HILDERBRAND K BOUBEKEUR T et al. Sketch-based image retrieval: Benchmark and bag-of-features descriptors[J]. IEEE Transactions on Visualization and Computer Graphics 2011,17(11): 1624-1636.
[4] WU Lei RONG Jin JAIN A K. Tag completion for image retrieval[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence 2013,35(3): 716-727.
[5] 張洪群,劉雪瑩,楊森,等. 深度學(xué)習(xí)的半監(jiān)督遙感圖像檢索[J]. 遙感學(xué)報(bào),2017 21(3):406-414.
[6] 厲智,孫玉寶,王楓,等.基于深度卷積神經(jīng)網(wǎng)絡(luò)的服裝圖像分類檢索算法[J]. 計(jì)算機(jī)工程,2016,42(11):309-315.
[7] 程國(guó)建,馬微,魏新善,等.基于圖像處理與神經(jīng)網(wǎng)絡(luò)的巖石組構(gòu)識(shí)別[J]. 西安石油大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,28(5): 105-110.
[8] MOLLAJAN A GHIASI-FREEZ J MEMARIAN H. Improving pore type identification from thin section images using an integrated fuzzy fusion of multiple classifiers[J]. Journal of Natural Gas Science and Engineering,2016,31(4) : 396-404.
[9] 程國(guó)建,郭文惠,范鵬召. 基于卷積神經(jīng)網(wǎng)絡(luò)的巖石圖像分類[J]. 西安石油大學(xué)學(xué)報(bào)(自然科學(xué)版),2017,32(4):116-122.
[10]鄭瑩雪. 基于深度學(xué)習(xí)的圖像檢索[D]. 長(zhǎng)春:吉林大學(xué),2016.
[11]包青平. 基于深度學(xué)習(xí)的服裝圖像分類與檢索[D]. 杭州:浙江大學(xué),2017.
[12] [ZK(#]YANG Yi NEWSAM S. Geographic image retrieval using local invariant features[J]. IEEE Transactions on Geoscience and Remote Sensing 2013 51(2): 818-832.
[13]ZKAN S ATES T TOLA E et al. Performance analysis of state-of-the-art representation methods for geographical image retrieval and categorization[J]. IEEE Geoscience and Remote Sensing Letters 2014 11(11):1996-2000.
[14]NG J Y YANG FAan DAVIS L S. Exploiting local features from deep networks for image retrieval[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPRW). Boston,MA USA:IEEE,2015:53-61.
[15]JOLLIFFE I. Principal component analysis[M]. 2nd ed. New York:Springer 2002.