杜睿山,宋健輝,孟令東
(1.東北石油大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,黑龍江 大慶 163318;2.油氣藏及地下儲庫完整性評價黑龍江省重點(diǎn)實驗室,黑龍江 大慶 163318)
孔隙是流體賦存于巖石中的基本儲集空間,喉道則是連通孔隙的細(xì)小通道,控制了流體在巖石中的流通。儲集層巖石的微觀結(jié)構(gòu)特征是影響儲集層流體(油氣水)的儲集能力和開采油氣資源的主控因素[1],對巖石微觀結(jié)構(gòu)特征的分析將為油氣微觀滲流機(jī)理的研究奠定關(guān)鍵基礎(chǔ)[2]。巖石鑄體薄片的研究,也為面孔率、平均孔隙直徑、平均表面比和平均孔喉比的研究提供了途徑[3]。
巖石鑄體薄片是通過將有色液體壓入巖石孔隙形成巖石樣本,傳統(tǒng)的圖像分割識別方法主要借助染色劑染色,根據(jù)顏色的特性,通過RGB進(jìn)行分割,A.Amankwah和Aldrich. C[4]使用帶形狀標(biāo)記的分水嶺算法實現(xiàn)了巖石圖像分割;Siebra、Hélio等人[5]使用模糊聚類的彩色紋理直方圖實現(xiàn)了細(xì)巖的部分分割;魏雨等人[6]通過閾值的方法,從二值圖像中對孔隙連通進(jìn)行快速的連通標(biāo)記,進(jìn)而對巖石圖像信息進(jìn)行分割和提取。但是由于巖石鑄體薄片圖像具有分辨率高、顆粒形狀復(fù)雜、種類繁多、顏色相近處巖石顆粒與孔隙難以清晰劃分的特性,這些傳統(tǒng)的根據(jù)顏色特性分割的方法不僅在準(zhǔn)確度上較低,而且無法對巖石薄片準(zhǔn)確定量計算。并且不管是全局閾值分割還是局部閾值分割,這種分割的方式都沒有考慮圖像本身所反映的重要巖石物理信息,在處理圖像時只考慮圖像的灰度特征,比如在多種不同顏色巖石礦物分布的情況下進(jìn)行劃分,目標(biāo)與背景的灰度有較大的重疊時,不能準(zhǔn)確地將目標(biāo)與背景分開。這將導(dǎo)致分割結(jié)果在理論上是最優(yōu)的,但仍遠(yuǎn)低于實際。隨著深度學(xué)習(xí)的發(fā)展,語義分割方法在巖石圖像分割領(lǐng)域表現(xiàn)出巨大優(yōu)勢,韓巧玲等人[7]通過Fully Convolutional Networks(FCN)在斷層掃描圖像中實現(xiàn)了孔隙分割,解決了因結(jié)構(gòu)復(fù)雜多變而導(dǎo)致的準(zhǔn)確率低下等分割問題,為巖石分割方面帶來了新的思路。尚福華等人[8]通過Unet完成了對巖石鑄體圖像的孔隙提取。雖然語義分割模型開始逐漸在巖石鑄體圖像分割中體現(xiàn)優(yōu)勢,但是現(xiàn)有網(wǎng)絡(luò)存在模型參數(shù)龐大、內(nèi)存依賴大的問題,使得運(yùn)行結(jié)果緩慢,計算效率低下;并且由于巖石鑄體薄片顆粒小的特性,編碼器網(wǎng)絡(luò)中容易丟失部分細(xì)節(jié),從而導(dǎo)致分割邊界損壞,結(jié)果較差。針對現(xiàn)有模型存在的問題,提出一種融合輕量化和注意力機(jī)制的巖石鑄體薄片圖像分割模型,以達(dá)到模型輕量化且實現(xiàn)對細(xì)小顆粒分割的問題,提升模型精度和速度。
語義分割是一種像素級的分割,大多數(shù)用于語義分割的深度網(wǎng)絡(luò)是基于編碼器-解碼器結(jié)構(gòu)搭建的。編碼器網(wǎng)絡(luò)利用卷積層和池化層提取有意義的特征,解碼器網(wǎng)絡(luò)利用反卷積層恢復(fù)原始分辨率。該文選用具有代表性且識別精度和性能相對較高的的語義分割模型DeepLabV3+。DeepLabV3+模型的主干網(wǎng)絡(luò)Xception提取網(wǎng)絡(luò)參數(shù)龐大且運(yùn)算量大,為了提高卷積運(yùn)算的效率,該文采用在數(shù)學(xué)運(yùn)算量方面具有良好性能的輕量級網(wǎng)絡(luò)MobileNet V2,以優(yōu)化參數(shù)運(yùn)算量從而提高效率。其次,原有的經(jīng)典分割技術(shù)在細(xì)節(jié)處的分割性能較低,特別是對于巖石鑄體薄片中的細(xì)小顆粒,由于低分辨率和語義信息不足等問題,下采樣會導(dǎo)致空間信息丟失,從而導(dǎo)致分割不準(zhǔn)確。為此,該文在編碼特征提取階段引入自注意力機(jī)制,通過對特征提取階段的權(quán)重分配來提高細(xì)小顆粒特征提取的敏感程度,以提高網(wǎng)絡(luò)識別精度。
結(jié)合巖石鑄體薄片小顆粒較多的問題,該文采用在VOC公開數(shù)據(jù)集模型分割能力相對較好的DeepLabV3+模型,DeepLabV3+模型[9]是由FCN模型[10]發(fā)展而來的語義分割深度學(xué)習(xí)模型?;綟CN模型的應(yīng)用存在兩個技術(shù)障礙:下采樣和空間不變性。下采樣方法會降低分辨率,特別是在高層??臻g不變性意味著從分類器獲得以對象為中心的決策需要空間轉(zhuǎn)換的不變性,這必然限制了空間的準(zhǔn)確性。DeepLabV1采用卷積算法和條件隨機(jī)場(CRF)分別處理下采樣和空間不變性。DeepLabV2使用atrous空間金字塔池[11](ASPP)在多個尺度上穩(wěn)健地分割對象。為了對多尺度信息進(jìn)行編碼,DeepLabV3提出了級聯(lián)模塊和改進(jìn)的ASPP模塊。DeepLabV3+通過添加一個簡單而有效的解碼器模塊來優(yōu)化分割結(jié)果,特別是沿著對象邊界。一方面,它通過ASPP替代深層池化層保留了更多的細(xì)節(jié),且不增加訓(xùn)練參數(shù),提高了模型的預(yù)測性能。通過多尺度信息采樣,獲得信息量不同的目標(biāo)樣本,增強(qiáng)了模型的魯棒性;另一方面,利用空洞卷積可以提取不同尺度的特征,在不損失信息的情況下,加大了感受野,并能有效擴(kuò)展每個卷積輸出的信息,其提取的特征信息更加豐富且蘊(yùn)含更多的全局特征[12]。DeepLabV3+的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 DeepLabV3+網(wǎng)絡(luò)結(jié)構(gòu)
DeepLabV3+網(wǎng)絡(luò)雖然分割效果相對較好,但仍存在網(wǎng)絡(luò)參數(shù)龐大和模型在細(xì)節(jié)分割表現(xiàn)欠佳等問題,針對現(xiàn)有問題,該文在編碼部分和深層提取部分做出調(diào)整,以實現(xiàn)輕量化和提高模型準(zhǔn)確度。
針對模型網(wǎng)絡(luò)參數(shù)龐大的問題,為了在速度和準(zhǔn)確性之間找到一個好的平衡點(diǎn),提高對巖石鑄體薄片分割的效率,滿足實時分割需求,該文選用MobileNet V2作為提取特征的主干網(wǎng)絡(luò),以解決原Xception網(wǎng)絡(luò)參數(shù)龐大的問題,同時最大限度地減少準(zhǔn)確性的損失。它具有一個非常重要的特點(diǎn)就是使用了深度可分離卷積和Inverted resblock,整個結(jié)構(gòu)都由Inverted resblock組成。初始的網(wǎng)絡(luò)首先利用1×1卷積進(jìn)行擴(kuò)張,增加特征層通道數(shù),然后利用3×3深度可分離卷積對每個通道進(jìn)行特征提取,并且降低運(yùn)算量,最后再利用1×1卷積進(jìn)行壓縮,把高維特征映射到低維空間去,其中壓縮后的激活函數(shù)采用Linear線性函數(shù)防止進(jìn)一步破壞壓縮后的特征,然后主干網(wǎng)絡(luò)并聯(lián)一個殘差邊,輸入輸出直接相接,原始的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 Bottleneck結(jié)構(gòu)
其中BN和激活層主要提升網(wǎng)絡(luò)的非線性能力和網(wǎng)絡(luò)的穩(wěn)定性。然而,激活層的輸入是殘差網(wǎng)絡(luò)中上一個殘差結(jié)構(gòu)的復(fù)合輸出,它受此前殘差網(wǎng)絡(luò)的影響,已經(jīng)具有較強(qiáng)的非線性能力,分布也比較穩(wěn)定。所以第一個激活層對于一個殘差結(jié)構(gòu)分支來說幾乎沒有增強(qiáng)其線性能力的作用,尤其是對于深度較深的網(wǎng)絡(luò)會降低訓(xùn)練速度。第二個激活層的輸入是殘差結(jié)構(gòu)中第一個卷積層的輸出,其分布會受到殘差結(jié)構(gòu)中第一個卷積層參數(shù)更新的直接影響。
為了簡化網(wǎng)絡(luò)參數(shù)和模型的訓(xùn)練耗時,該文還采用了簡化殘差結(jié)構(gòu),其中圖3為刪除第二個激活層所得。與傳統(tǒng)的殘差結(jié)構(gòu)相比,這種殘差結(jié)構(gòu)減少了殘差分支中激活層的數(shù)量,節(jié)省了訓(xùn)練過程中的內(nèi)存開支;還減少了殘差分支中BN層對輸入期望和方差的計算量,降低了模型訓(xùn)練耗時。其中DeepLabV3+原模型參數(shù)量為41,034,394,最終經(jīng)過優(yōu)化原模型Xception和簡化殘差之后的模型參數(shù)量為22,130,628。
圖3 改進(jìn)Bottleneck結(jié)構(gòu)
減少網(wǎng)絡(luò)參數(shù),雖然會提高模型速度,但勢必會影響模型分割的準(zhǔn)確程度,所以為了彌補(bǔ)模型優(yōu)化帶來的精度損失,引入注意力機(jī)制模塊提高巖石鑄體薄片分割的準(zhǔn)確率。注意機(jī)制是Treisman和Gelade提出的一種信號處理機(jī)制[13],在視覺任務(wù)中,注意機(jī)制首先計算代表特征重要程度的注意權(quán)重,然后利用權(quán)重值從輸入的特征映射中提取出信息量更大的特征,它如今在CV領(lǐng)域被廣泛采用,并在各種基于深度學(xué)習(xí)的計算機(jī)視覺應(yīng)用[14-16]表現(xiàn)出顯著的性能。由于引入了輕量級網(wǎng)絡(luò),減少了模型的參數(shù)量,會導(dǎo)致模型準(zhǔn)確率下降,所以引入注意力機(jī)制來提高模型準(zhǔn)確率。
Convolutional Block Attention Module (CBAM)關(guān)注網(wǎng)絡(luò)中重要的特征,抑制網(wǎng)絡(luò)中不重要的特征,它不僅在通道中含有豐富的注意力信息,特征圖的像素點(diǎn)也包含大量注意力信息[17],有效地提高了神經(jīng)網(wǎng)絡(luò)的性能。為了提高巖石鑄體薄片分割模型的準(zhǔn)確性,現(xiàn)將CBAM加入到編碼器的特征提取網(wǎng)絡(luò)中。CBAM為兩個模塊,包括通道注意模塊和空間注意模塊,前者關(guān)注點(diǎn)為輸入的特征,后者重點(diǎn)關(guān)注要識別的相關(guān)區(qū)域。兩個子模塊相互串聯(lián)形成,分別提高了網(wǎng)絡(luò)的通道和空間的重要性,并且容易嵌入到各個網(wǎng)絡(luò)中,模型如圖4所示。
圖4 CBAM模型結(jié)構(gòu)
圖5 最大池化、平均池化
(1)
(2)
對得到的兩個注意力模塊串聯(lián)后應(yīng)用在編碼器的深層特征提取部分,增強(qiáng)網(wǎng)絡(luò)泛化能力,強(qiáng)化特征圖通道和位置信息的特征提取,其最終改進(jìn)的網(wǎng)絡(luò)模型如圖6所示。
圖6 巖石鑄體薄片分割模型
數(shù)據(jù)集包括原始圖像與標(biāo)簽圖像,本數(shù)據(jù)集來自東北石油大學(xué)非常規(guī)油氣研究院的巖石鑄體薄片數(shù)據(jù),將原始圖像在高清顯微鏡下采集薄片樣本,由于巖石鑄體薄片圖像分辨率較高,整個模型的計算量會溢出。本研究采用圖像分塊等技術(shù)來降低計算量,通過分塊將一張大的巖石鑄體薄片圖像分割成256*256的小數(shù)據(jù)圖像樣本送入網(wǎng)絡(luò),然后對結(jié)果進(jìn)行拼接。并且?guī)r石鑄體薄片數(shù)據(jù)集獲取困難且成本昂貴,通過偏光、旋轉(zhuǎn)、拼接切割等方法擴(kuò)充數(shù)據(jù),在節(jié)省成本的同時還能提高泛化能力。最終得到3 400張圖像數(shù)據(jù),然后通過圖像處理技術(shù)對鑄體薄片圖像銳化,通過銳化技術(shù)使圖像的一些細(xì)節(jié)信息以及邊緣得到增益,目標(biāo)物體的邊緣鮮明,以便于提取特征。最后通過Labelme進(jìn)行標(biāo)注獲得標(biāo)簽圖像,構(gòu)建出一套巖石鑄體薄片訓(xùn)練數(shù)據(jù)集合,如圖7所示,分別為原圖和標(biāo)簽圖。
圖7 數(shù)據(jù)集構(gòu)建效果
實驗在Windows環(huán)境下進(jìn)行,具體配置和訓(xùn)練環(huán)境如表1所示。
表1 實驗環(huán)境配置
為了評價模型結(jié)果的好壞,采用PA(Pixel Accuracy)、IOU(Intersection over Union)和FPS(Frames Per Second)作為該模型的評價指標(biāo)。
FPS表示圖像每秒傳輸?shù)膸瑪?shù),通過FPS指標(biāo)來衡量模型的速度。PA是分別計算每個類別分類正確的像素數(shù)占該類別像素總數(shù)的比值。IOU表示交并比,指模型對某一類別預(yù)測結(jié)果和真實值的交集與并集的比值,背景部分在圖像上覆蓋了所有像素的很大比例,反映了分類模型的不平衡。因此選擇對正負(fù)樣本不平衡效果好的Dice函數(shù)來驗證模型的準(zhǔn)確性,能夠更好地應(yīng)對二分類預(yù)測問題,dice函數(shù)由準(zhǔn)確率和召回率決定,如式(3)~(6)所示:
(3)
(4)
(5)
(6)
其中,TP表示被正確分類為巖石顆粒的像素數(shù);FP表示背景被錯誤分類為預(yù)測樣本的像素數(shù);FN表示巖石顆粒像素被錯誤地分類為背景像素的數(shù)量。那么Dice和DiceLoss差異度公式如下:
(7)
(8)
將訓(xùn)練集和驗證集劃分為9∶1,下采樣因子downsample_factor設(shè)置為8,進(jìn)行三次下采樣,由于只分割巖石和背景,將num_classes設(shè)置為2,Batchsize設(shè)置為4,設(shè)置學(xué)習(xí)率為5×10-4,學(xué)習(xí)率衰減率為0.1,momentum超參數(shù)為0.9,損失函數(shù)為DiceLoss。輸入薄片數(shù)據(jù)后進(jìn)行訓(xùn)練,進(jìn)行80次epoch迭代訓(xùn)練,采用梯度下降法對模型訓(xùn)練,隨著訓(xùn)練次數(shù)增加損失變化曲線逐漸趨于穩(wěn)定狀態(tài),損失最終收斂至最小值,如圖8所示。
圖8 訓(xùn)練Loss圖
對比實驗是評價模型質(zhì)量的關(guān)鍵因素,為了比較模型的實際效果,將巖石鑄體薄片測試圖像輸入到該文訓(xùn)練的模型中,并與傳統(tǒng)的閾值分割方法、PSPNet、經(jīng)典神經(jīng)網(wǎng)絡(luò)模型Unet和未改進(jìn)的DeepLabV3+模型進(jìn)行比較。與傳統(tǒng)方法相比,分割精度有了很大的提高,特別是在背景信息豐富復(fù)雜的區(qū)域和巖石目標(biāo)主體區(qū)域部分。與未優(yōu)化的深度學(xué)習(xí)分割方法相比,此模型更加快速,也提高了巖石細(xì)節(jié)的分割精度。綜合實驗結(jié)果表明,該方法在多個方面優(yōu)于其他模型,在提高模型速度的同時也提高了結(jié)果的準(zhǔn)確性,所以該方法具有良好的推廣性,評價指標(biāo)的結(jié)果如表2所示。
表2 不同模型性能比較
融合注意力和輕量化的DeepLabV3+模型對于巖石鑄體薄片圖像的處理性能有了較大加強(qiáng),與傳統(tǒng)分割模型相比,測試集的IOU和PA均得到提升,相較于未改進(jìn)的DeepLabV3+模型,IOU提升了3.7百分點(diǎn),像素精確度提高了1.1百分點(diǎn),由于引入了輕量化模型,相對原模型識別幀率提高了106百分點(diǎn)。
圖9表示原始圖像和不同模型的分割效果,以便可視化模型的圖像分割結(jié)果。
圖9 不同模型的分割效果
通過對比不同模型方法,傳統(tǒng)的閾值分割方法在分割效果方面最差,其中最主要的原因在于閾值分割對于顏色的依賴性太強(qiáng),尤其在分割這種錯綜復(fù)雜的巖石鑄體薄片圖像方面,孔隙和巖石邊緣顏色相近,導(dǎo)致分割效果差;PSPNet、Unet網(wǎng)絡(luò)和傳統(tǒng)DeepLabV3+網(wǎng)絡(luò)均出現(xiàn)細(xì)小巖石分割不連續(xù)且出現(xiàn)斷點(diǎn)的問題,對細(xì)節(jié)處的處理效果也較差。文中網(wǎng)絡(luò)在解決分割精度的同時改進(jìn)了主干提取網(wǎng)絡(luò),使得模型速度更快、精確度更高。
為了驗證文中算法的可行性,選取VOC2007公開數(shù)據(jù)集驗證模型泛化能力。如圖10所示,展示了不同算法與文中改進(jìn)輕量化與添加attention后的效果對比??梢钥闯鰺o論何種數(shù)據(jù)集,對模型好壞能力的評價更體現(xiàn)在對圖像細(xì)節(jié)的識別能力上。在不同的場景下,該文提出的模型相對較好,如飛機(jī)尾翼的細(xì)節(jié)和在多目標(biāo)場景下的摩托車駕駛員的腳部細(xì)節(jié),相對來說有著較為準(zhǔn)確的分割效果。
圖10 不同模型在VOC公開數(shù)據(jù)集上的效果展示
針對傳統(tǒng)閾值方法分割準(zhǔn)確率低且成本昂貴等問題,采用目前流行的語義分割技術(shù)。并針對這些傳統(tǒng)模型網(wǎng)絡(luò)參數(shù)量多、運(yùn)行速度慢并且在恢復(fù)空間細(xì)節(jié)方面仍然表現(xiàn)欠佳等問題,采用分割精度較好的DeepLabV3+模型作為基本分割模型框架。為了提高模型的速度和準(zhǔn)確率,引入了輕量化特征提取網(wǎng)絡(luò),優(yōu)化原模型的參數(shù)量,然后通過引入注意力機(jī)制,以提高模型準(zhǔn)確率,彌補(bǔ)因減少參數(shù)而導(dǎo)致的精度下降問題。實驗結(jié)果表明,該方法在原網(wǎng)絡(luò)上參數(shù)大大減少,運(yùn)行處理速度更快,并且與傳統(tǒng)分割方法和網(wǎng)絡(luò)相比有更高的準(zhǔn)確率和邊緣敏感度,為后續(xù)對巖石鑄體薄片的分割研究提供了一種思路。