王德偉,鄧瑞,程佳欽
(長(zhǎng)江大學(xué)油氣資源與勘探技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,湖北 荊州 430023)
在巖屑錄井中,現(xiàn)場(chǎng)撈取的巖屑受到多種因素干擾,如地層巖性、鉆井參數(shù)、采樣方法等,這些因素導(dǎo)致巖屑的形態(tài)、成分和結(jié)構(gòu)十分復(fù)雜[1]。為真實(shí)地還原和反映地下地質(zhì)剖面,在開(kāi)展的巖屑評(píng)價(jià)方法中,通常地下每一深度的巖屑都會(huì)在現(xiàn)場(chǎng)被給出準(zhǔn)確的定名。所以,巖屑錄井也是錄井研究中的一個(gè)主要內(nèi)容,通常需要先把巖屑按大段分開(kāi),再進(jìn)行分段宏觀研究,依據(jù)顏色來(lái)區(qū)分巖性,之后分層描述。由于個(gè)體之間的差異,在巖屑分段識(shí)別過(guò)程中會(huì)不可避免地產(chǎn)生誤差[2]。利用計(jì)算機(jī)視覺(jué)對(duì)巖屑圖像進(jìn)行分析識(shí)別,可以有效減少肉眼觀察存在的不利影響,同時(shí)可以大批量地處理各種巖屑信息,節(jié)省人力物力。
隨著圖像處理技術(shù)在各個(gè)領(lǐng)域應(yīng)用的不斷深入,巖石圖像自動(dòng)識(shí)別技術(shù)持續(xù)發(fā)展。2007年,OBARA[3]在不同顏色空間中以閾值分割的技術(shù)實(shí)現(xiàn)礦物分割。2008年,劉延保等[4]采用LS-SVM(Least Squares Support Vector Machines)分析技術(shù)以及數(shù)字圖像處理閾值法實(shí)現(xiàn)了人機(jī)融合的巖石顯微構(gòu)造成像分析技術(shù)。2010年,SINGH等[5]將在玄武巖巖石薄片中所獲得的27個(gè)數(shù)值作為多層感知器神經(jīng)網(wǎng)絡(luò)的參數(shù)輸入,再經(jīng)過(guò)網(wǎng)絡(luò)訓(xùn)練得出巖石的類別。2012年,GORSEVSKI等[6]通過(guò)元胞自動(dòng)機(jī)演化的邊緣分析方法完成巖屑分類。2013年,MLYNARCZUK等[7]針對(duì)9類每類300張不同的巖石圖片,通過(guò)最近鄰算法、K近鄰算法實(shí)現(xiàn)分類。王桂芹等[8]采用了FCM和標(biāo)記分水嶺算法,對(duì)粘連的小粒子圖形加以分離,并得到了很好的實(shí)驗(yàn)效果。2017年,LI等[9]發(fā)表了通過(guò)遷移方法對(duì)砂巖地質(zhì)圖像識(shí)別的Festra法,以及通過(guò)對(duì)圖片顏色的特征提取實(shí)現(xiàn)了巖屑圖像分類。2018年,白林等[10]對(duì)15種常用巖石的圖像數(shù)據(jù)進(jìn)行分析,基于卷積式神經(jīng)網(wǎng)絡(luò)構(gòu)建了巖屑識(shí)別深度學(xué)習(xí)模型,成功提取了多種巖層中的巖屑圖像。2018年,李周等[11]將多角度正交偏光序列圖融合后,使用分水嶺算法提取目標(biāo)顆粒。程國(guó)建等[12]嘗試將K-means聚類算法與神經(jīng)網(wǎng)絡(luò)相結(jié)合進(jìn)行巖性分類識(shí)別,達(dá)到了主動(dòng)辨別巖石切片影像中孔隙的效果。2019年,陳鋼花等[13]建立了一種雙層卷積神經(jīng)網(wǎng)絡(luò)模型,并結(jié)合支持向量機(jī)算法對(duì)巖石物理相模型進(jìn)行分析,研究表明卷積神經(jīng)網(wǎng)絡(luò)模型在判別儲(chǔ)層地質(zhì)特征中,具有準(zhǔn)確性較高、速度快、實(shí)時(shí)性強(qiáng)等優(yōu)點(diǎn)。
基于計(jì)算機(jī)視覺(jué),可以利用Python中的OpenCV包,對(duì)不同巖屑的HSV(Hue,Saturation,Value)值進(jìn)行分類。當(dāng)設(shè)置跟蹤器調(diào)整HSV值時(shí),能夠有效地識(shí)別巖屑的色彩、紋理、形狀等特性。在實(shí)現(xiàn)巖屑識(shí)別的基礎(chǔ)上,構(gòu)建一個(gè)顯示相關(guān)巖屑的分層深度、巖性定名、描述內(nèi)容以及相關(guān)圖片的數(shù)據(jù)庫(kù),可以進(jìn)一步節(jié)省人工處理數(shù)據(jù)所消耗的人力物力。本文利用K-means聚類算法對(duì)大量不同巖屑的HSV值進(jìn)行聚類分簇,最終得到針對(duì)白,黑,灰,紅棕,黃,綠這6種數(shù)量較多的巖屑的HSV色彩范圍的準(zhǔn)確結(jié)果。
對(duì)于不同種類巖屑的HSV值,要進(jìn)行批量準(zhǔn)確的處理,就需要采取某種算法對(duì)已識(shí)別的不同巖屑HSV值進(jìn)行數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘技術(shù)是指利用算法從大量、不完全、有噪聲、模糊和隨機(jī)的數(shù)據(jù)中挖掘隱含在其中的、以前未知的、有價(jià)值的信息和知識(shí)的技術(shù)。將數(shù)據(jù)挖掘作為一個(gè)支持管理決策的技術(shù),通過(guò)人工智能、機(jī)器學(xué)習(xí)、模型辨識(shí)、統(tǒng)計(jì)、數(shù)據(jù)庫(kù)、可視化方法等,通過(guò)高度智能化技術(shù)研究企業(yè)的大量信息,并做出歸納性的推理,從中挖掘出潛在的模式或行為,以幫助管理者改變企業(yè)市場(chǎng)策略,降低經(jīng)營(yíng)風(fēng)險(xiǎn),并做出合理的決定。數(shù)據(jù)挖掘階段主要由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、數(shù)據(jù)處理與分析這3個(gè)步驟構(gòu)成,具體流程見(jiàn)圖1。在數(shù)據(jù)挖掘過(guò)程中可以和客戶或數(shù)據(jù)庫(kù)互動(dòng)[14]。
圖1 數(shù)據(jù)挖掘流程圖
巖屑HSV數(shù)據(jù)是根據(jù)巖屑種類確定的,其值具有成聚簇狀分布特點(diǎn)。K最近鄰分類算法的思路是:如果對(duì)一個(gè)特征空間內(nèi)的樣本進(jìn)行一個(gè)抽樣,K個(gè)最鄰近樣本屬于某一類別,則該樣本被劃歸到這個(gè)類別。Kmeans聚類算法是針對(duì)給定的樣本集,根據(jù)不同樣本間的差異程度,把樣本集分割成K個(gè)簇;簇內(nèi)的點(diǎn)盡可能緊密的連在一起,簇之間的距離也盡可能的遠(yuǎn)。
K最近鄰分類算法的優(yōu)點(diǎn)是計(jì)算速度快、算法思路簡(jiǎn)潔,不過(guò)在樣本不平衡時(shí),如果某個(gè)類型的樣本體積較大,而其他類型的樣本體積很少時(shí),就可能造成當(dāng)某個(gè)新樣本輸入時(shí),該樣本集的K個(gè)鄰居中某樣本占多數(shù),從而無(wú)法準(zhǔn)確識(shí)別新輸入樣本。因此,本研究不選用K最近鄰分類算法。
K-means聚類算法的優(yōu)點(diǎn)是計(jì)算效率高,易于理解。缺點(diǎn)是分組的數(shù)字K是一個(gè)確切的常數(shù),不正確的K可能會(huì)得到完全不同的結(jié)果。對(duì)于巖屑識(shí)別,可以簡(jiǎn)單精確地得到其K值,有幾種巖屑K值就為幾,以白色的HSV值為中心,依據(jù)巖屑不同HSV值進(jìn)行分類。
K-means聚類算法是最經(jīng)典的聚類算法之一,其主要思路為:在同時(shí)指定了K和K的初始簇中心點(diǎn)的前提下,將各個(gè)節(jié)點(diǎn)(即各種數(shù)據(jù)記錄)分到離其最近的簇中,各個(gè)點(diǎn)分派完成以后,按照某個(gè)類簇內(nèi)的各個(gè)點(diǎn),再次計(jì)算出該類簇的中心點(diǎn)(取平均數(shù)),接著再迭代完成節(jié)點(diǎn)分類,并更改樣本類簇中心點(diǎn),直到對(duì)類簇中心點(diǎn)的改變最小,甚至超過(guò)了預(yù)定的迭代時(shí)間。
在生產(chǎn)過(guò)程中產(chǎn)生大量巖屑,傳統(tǒng)巖屑錄井無(wú)法處理大量的巖屑樣本。因此,利用Python當(dāng)中對(duì)計(jì)算機(jī)視覺(jué)進(jìn)行處理的OpenCV包,對(duì)巖屑樣本進(jìn)行處理。其原理是根據(jù)不同種類巖屑不同的HSV值進(jìn)行識(shí)別分類。HSV色彩模型,是基于顏色結(jié)構(gòu)的直觀特性,SMITH在1978年創(chuàng)立的一個(gè)色調(diào)空間結(jié)構(gòu),也稱六角錐體模型[16](見(jiàn)圖2)。
圖2 HSV色彩模型[15]
HSV色彩模型包括色彩H,飽和度S和明度V。其中主要區(qū)別色彩的方式如下。①色彩H以角度顯示,取值區(qū)域?yàn)? ~360°,沿逆時(shí)針?lè)轿挥杉t色起,進(jìn)行計(jì)算,紅光為0,綠光為120°,藍(lán)光為240°。它的補(bǔ)色范圍為:黃色為60°,綠藍(lán)色為180°,紫色為300°。②飽和度S值對(duì)于某種顏色,若其深而艷則飽和度愈高。光譜色的白光成分為零,則其飽和度達(dá)最高,通常取值范圍是0 ~100%,若色彩越飽和,則數(shù)值越大,若色彩變得暗淡直至無(wú)色彩,則值越低。③明度V表示色彩明亮的程度,光線越強(qiáng),物體顏色明度值越高。對(duì)于物質(zhì)顏色,此數(shù)值通常與物質(zhì)的透射比或反光比相關(guān),一般取值范圍為0(黑)到100%(白)。對(duì)于光色,明度數(shù)值則與發(fā)光體的光亮度相關(guān)。根據(jù)HSV色彩模型,可以得到不同巖屑的各種顏色,從而進(jìn)行分類。
要使用計(jì)算機(jī)處理不同種類巖屑,首先要建立HSV色彩模型。利用Python里面的OpenCV包,使用cv2.cvtcolor(img,cv2.BGR2HSV)建 立 圖 像 與HSV相關(guān)聯(lián)的模型。隨后設(shè)置跟蹤器來(lái)調(diào)整HSV值,使其能夠?qū)Σ煌伾M(jìn)行識(shí)別,選定想要的色彩范圍。
僅有顏色識(shí)別與索引標(biāo)色還不足以滿足工業(yè)生產(chǎn)對(duì)巖屑識(shí)別的要求,巖屑輪廓、面積等也會(huì)對(duì)巖屑種類的判斷產(chǎn)生影響。因此,對(duì)索引標(biāo)色結(jié)果進(jìn)行面積計(jì)算,比較相同顏色巖屑面積以及不同顏色巖屑的面積大小,以滿足工業(yè)生產(chǎn)需要。對(duì)特定巖屑顏色識(shí)別效果見(jiàn)圖3。
圖3 特定顏色巖屑識(shí)別及標(biāo)色
針對(duì)所識(shí)別巖屑的標(biāo)號(hào)區(qū)域,計(jì)算面積結(jié)果見(jiàn)表1。利用跟蹤器調(diào)節(jié)HSV值,可描述的顏色種類增加,也能夠體現(xiàn)細(xì)微的差別,彌補(bǔ)了對(duì)巖屑顏色描述在細(xì)微性上的不足。提高了巖屑測(cè)井對(duì)巖屑描述的客觀性、可比性,也便于使用者抓住巖屑顏色方面的重點(diǎn)。
表1 對(duì)圖3 標(biāo)色面積計(jì)算的部分結(jié)果
要得到不同種類的巖屑的灰度圖像,需要不斷調(diào)整跟蹤器來(lái)確定某種巖屑的HSV值,以便得到更好的識(shí)別效果。但由于在巖屑測(cè)井生產(chǎn)中,需要分析大量不同種類的巖屑樣本,僅憑人工調(diào)整跟蹤器的值難以處理如此數(shù)量的巖屑樣本。相同種類巖屑的HSV值也會(huì)有微小差異,因此,需要某種算法對(duì)巖屑的HSV值進(jìn)行挖掘分類,以便大量處理巖屑樣本圖像以及得到更好的識(shí)別效果。
在獲取不同種類巖屑HSV值之前,需要對(duì)巖屑錄井中產(chǎn)生巖屑做一個(gè)基本分析,以確定巖屑樣本中的巖屑種類、顏色以及顏色成因,便于后續(xù)對(duì)巖屑大致分類與命名。本文主要分析的是沉積巖層段的各種巖屑,因此,對(duì)沉積巖層段的各種巖石顏色進(jìn)行基本分析。
(1)白色:即一般不含有色素的巖石。白色、灰白色或淡灰色等,如純質(zhì)的碳酸鹽巖、石鹽、高嶺土、白堊、純石英砂巖等。
(2)灰色和黑色:巖石有機(jī)質(zhì)(碳質(zhì)、瀝青質(zhì))或分散狀硫化鐵(黃鐵礦、白鐵礦)中物質(zhì)含量濃度越高,巖石顏色就越深。大多數(shù)巖石由暗灰色變?yōu)楹谏?/p>
(3)紅、棕、黃色:由于巖石中含有鐵的氧化物或氫氧化物(赤鐵礦、褐鐵礦等),形成紅棕黃色。
(4)綠:多數(shù)由于其中富含低價(jià)鐵的礦物,使得巖石表面呈現(xiàn)綠色;少數(shù)如孔雀石等呈鮮艷的綠色是由于含有銅的化合物。
巖石的顏色與多種情況有關(guān),除不同顏色巖石中化合物不同外,風(fēng)化情況,巖石的顆粒大小、干濕情況、朝陽(yáng)還是背陽(yáng)等對(duì)色彩也有很大影響。粒度越細(xì)、越潮濕、越陰暗,顏色越深;反之顏色較淡。所以,在觀察顏色前,必須觀察新鮮面,并說(shuō)明它是在什么樣的巖石狀態(tài)下測(cè)定的。
中國(guó)通常采取10種固定顏色代碼及組合對(duì)樣品進(jìn)行描述,即白、紅、紫、褐、黃、綠、藍(lán)、灰、黑和雜色。
在實(shí)際工業(yè)生產(chǎn)過(guò)程中,藍(lán)色、紫色巖屑比較少見(jiàn),樣本量不足,對(duì)測(cè)定地層巖性與含油性也沒(méi)有影響。巖屑呈現(xiàn)褐色或紅色是因?yàn)槭欠窈趸F或氧化亞鐵以及其含量的不同,因此,只選取紅色一種巖屑顏色作為分類依據(jù)。雜色巖屑HSV值范圍寬泛,包含巖屑顏色種類多且雜,對(duì)含油性地層分析指導(dǎo)意義小,也不作為分類依據(jù)。
由于部分種類巖屑顏色樣本量小且識(shí)別意義不大,因此,我們選取樣本數(shù)量多,識(shí)別意義大的6種巖屑顏色白、黑、灰、紅棕、黃、綠作為識(shí)別地層巖性及含油性的主要依據(jù)。
在分析了不同種類巖屑的顏色以及顏色成因后,可以確定大致的HSV值范圍及后續(xù)的相關(guān)處理與命名,從而獲取樣本巖屑當(dāng)中不同種類巖屑的HSV值,調(diào)整跟蹤器至明顯效果后,可以利用Python自動(dòng)輸出HSV值,得到樣本巖屑數(shù)據(jù)。由于在處理巖屑樣本時(shí),不可避免的會(huì)遇到受光照、濕度、現(xiàn)場(chǎng)的天氣情況等影響的采樣質(zhì)量差的樣本,清洗巖屑樣本HSV值當(dāng)中的異常值、缺失值是十分必要的。
在對(duì)200個(gè)具有不同種顏色巖屑特征的樣本數(shù)據(jù)進(jìn)行預(yù)處理后,得到的HSV值見(jiàn)表2。利用R語(yǔ)言作散點(diǎn)圖進(jìn)行數(shù)據(jù)清洗,可以清晰的分辨出不同值數(shù)據(jù)的分布情況,重復(fù)值表示為1個(gè)點(diǎn),而對(duì)于離散數(shù)據(jù),能更為直觀的觀測(cè)出數(shù)據(jù)的異常值。由于每一種巖屑的色彩、飽和度、明度可能不同,將HSV值分類處理,查看其散點(diǎn)圖,對(duì)游離在主要散點(diǎn)之外的異常值進(jìn)行清洗。
表2 部分巖屑HSV 值
清洗前的HSV散點(diǎn)見(jiàn)圖4,巖屑的HSV值跟隨顏色成簇分布,游離在簇之外的數(shù)據(jù)就是需要清洗的數(shù)據(jù)。可以明顯看出,HMin的值在15 ~20的這些數(shù)據(jù)呈現(xiàn)離散且無(wú)規(guī)律的分布,為需要清洗的異常值。利用R語(yǔ)言,將HMin在15 ~20的數(shù)據(jù)全部清洗掉,保留正常數(shù)據(jù)。
圖4 色彩、飽和度和明度散點(diǎn)圖
將巖屑樣本分成不同簇,保證相同簇的HSV值相似度高、差異性小,不同簇的HSV值相似度低且差異性大。在驗(yàn)證巖屑種類時(shí),若巖屑HSV值與其中某一簇相接近,說(shuō)明該巖屑屬于此種類。
對(duì)巖屑樣本數(shù)據(jù)進(jìn)行預(yù)處理之后,再使用K-means聚類方法對(duì)其HSV值進(jìn)行挖掘,并通過(guò)之前對(duì)巖石色彩的研究,得出了不同類型巖屑的色彩主要包括白、黑、灰、紅、綠、黃等6種色彩,因此,確定K= 6。
接下來(lái)利用R語(yǔ)言內(nèi)的cluster包進(jìn)行K-means算法處理,用useful包進(jìn)行繪圖,明顯可見(jiàn)K-means算法將數(shù)據(jù)集分成了6簇。具體結(jié)果見(jiàn)表3。
表3 K-means 聚類算法下數(shù)據(jù)挖掘結(jié)果
聚類結(jié)果可以通過(guò)組內(nèi)方差、組間方差和總方差的關(guān)系來(lái)評(píng)價(jià),其目的是保證聚類后相同組內(nèi)的數(shù)據(jù)即同類間的數(shù)據(jù)具有一致性,使組內(nèi)數(shù)據(jù)方差盡可能的小,組間方差盡可能的大?;蚶肍值表示總方差/組間方差,滿足F值越大聚類效果越好。
聚類結(jié)果表明利用巖屑的HSV值可以將巖屑分為具體的6類,且F值為90.7%,在誤差的允許范圍內(nèi),基于K-means聚類算法構(gòu)建的巖屑識(shí)別模型是符合工業(yè)生產(chǎn)要求的。從圖4中可以看到6類巖屑具體的HSV值。在進(jìn)行測(cè)試集驗(yàn)證之前,根據(jù)其HSV值確定一個(gè)范圍,導(dǎo)入測(cè)試集驗(yàn)證準(zhǔn)確率。結(jié)合聚類結(jié)果與測(cè)試集的驗(yàn)證后,選取分類范圍見(jiàn)表4。
表4 最終范圍選取結(jié)果
在導(dǎo)入測(cè)試集后,驗(yàn)證K-means聚類算法下結(jié)果的準(zhǔn)確性,共計(jì)357塊巖屑,25塊識(shí)別錯(cuò)誤,計(jì)算其準(zhǔn)確率為93.4%,誤差符合巖屑錄井準(zhǔn)確率要求。出現(xiàn)不符合的主要原因?yàn)椴糠謳r屑相似程度較高,樣本量不足,導(dǎo)致對(duì)此部分巖屑的識(shí)別效果較差。結(jié)果見(jiàn)表5。
表5 混淆矩陣驗(yàn)證結(jié)果
(1)通過(guò)使用Python中的OpenCV圖像分析包來(lái)進(jìn)行巖屑圖像的識(shí)別和分類,同時(shí)結(jié)合R語(yǔ)言和Kmeans聚類算法,進(jìn)行HSV值的數(shù)據(jù)挖掘,得到了巖屑分類的HSV值范圍,利用測(cè)試集確定該種方法具有較高的準(zhǔn)確性。
(2)與傳統(tǒng)的巖性識(shí)別方法相比,該方法在巖屑錄井中可以更精細(xì)、準(zhǔn)確地識(shí)別巖屑的顏色,并且有利于批量處理巖屑樣本,從而提高巖屑錄井的效率和準(zhǔn)確性。
(3)通過(guò)使用OpenCV 包進(jìn)行計(jì)算機(jī)圖像處理,設(shè)置了跟蹤器對(duì)巖屑圖像進(jìn)行識(shí)別,只需要拖動(dòng)跟蹤器,可以簡(jiǎn)單快速地識(shí)別不同情況下的巖屑樣本。
(4)采用了K-means聚類算法對(duì)巖屑樣本進(jìn)行了數(shù)據(jù)挖掘,對(duì)于特定種類顏色的巖屑可以簡(jiǎn)單確定其K值,具有很好的分類效果。