摘要: 為了提取硬質(zhì)合金顯微圖像的碳化鎢晶粒區(qū)域,本文提出一種基于多層級(jí)注意力融合機(jī)制的深度學(xué)習(xí)網(wǎng)絡(luò)分割算法. 基于UNet 網(wǎng)絡(luò)模型,將深層下采樣結(jié)果通過(guò)多層級(jí)注意力融合模塊,增強(qiáng)下采樣特征圖中碳化鎢晶粒的特征信息,學(xué)習(xí)每個(gè)通道的權(quán)重,通過(guò)該權(quán)重突出晶粒的特征信息,提高模型對(duì)重要特征通道的關(guān)注度. 再與上采樣結(jié)果進(jìn)行跳躍連接,加強(qiáng)特征圖對(duì)位置間的關(guān)聯(lián),提高模型對(duì)輸入數(shù)據(jù)的表達(dá)能力. 最后在不同類型的硬質(zhì)合金測(cè)試集上進(jìn)行了對(duì)比和消融實(shí)驗(yàn). 結(jié)果表明,本文提出的方法對(duì)分割硬質(zhì)合金顯微圖像的有效性.
關(guān)鍵詞: 硬質(zhì)合金顯微圖像;圖像分割;對(duì)比度;深度學(xué)習(xí);自注意力機(jī)制
中圖分類號(hào): TP341 文獻(xiàn)標(biāo)志碼: A DOI:10. 19907/j.0490-6756. 240082
1引言
硬質(zhì)合金是由碳化鎢與粘結(jié)相燒結(jié)制備而成的一種復(fù)合材料,其中的碳化鎢晶粒具有良好的耐磨性優(yōu)點(diǎn),粘結(jié)相能夠增強(qiáng)硬質(zhì)合金的韌性. 由于硬質(zhì)合金具有獨(dú)特的高耐磨性和高韌性力學(xué)性能,使其在比較高的溫度下仍能保持較高的硬度和強(qiáng)度,當(dāng)下硬質(zhì)合金已經(jīng)成為許多新技術(shù)領(lǐng)域和工業(yè)生產(chǎn)中不可缺少的結(jié)構(gòu)材料. 其廣泛應(yīng)用于機(jī)械加工、礦山開(kāi)采、油氣鉆采、粉末冶金和航空航天等領(lǐng)域[1].
在硬質(zhì)合金中,碳化鎢晶粒的尺寸、形狀以及分布是影響合金性能的關(guān)鍵因素. 為了提取微觀圖像中的這些參數(shù),首要工作是通過(guò)圖像分割方法獲得互不相交的碳化鎢晶粒區(qū)域. 因此,在硬質(zhì)合金顯微圖像上能夠準(zhǔn)確、真實(shí)地將碳化鎢晶粒
之間和碳化鎢晶粒與粘結(jié)相之間合理分割,對(duì)于分析硬質(zhì)合金的性能至關(guān)重要. 然而,硬質(zhì)合金圖像中往往呈現(xiàn)出晶粒粘連緊密、邊界較模糊以及碳化鎢晶粒與粘結(jié)相灰度值對(duì)比度相似. 同時(shí),由于成像因素的影響,圖像可能出現(xiàn)光照不均、遮擋等情況,這些特征增加了硬質(zhì)合金圖像分割的復(fù)雜度.
自20世紀(jì)70年代以來(lái),圖像分割方法經(jīng)歷了廣泛的研究和應(yīng)用. 傳統(tǒng)的圖像分割方法主要依賴于圖像的灰度級(jí)、色彩、空間紋理以及幾何形狀等特征,將圖像分割成不相交的區(qū)域. 這些傳統(tǒng)方法包括閾值分割、區(qū)域分割、邊緣檢測(cè),以及基于數(shù)學(xué)形態(tài)學(xué)和圖論等特定理論的方法. 硬質(zhì)合金圖像的傳統(tǒng)分割方法主要采用凹點(diǎn)對(duì)應(yīng)、最短距離匹配[2]以及基于數(shù)學(xué)形態(tài)學(xué)和圖像標(biāo)記技術(shù)、閾值分割和邊緣提取相結(jié)合的分割方法[3]實(shí)現(xiàn)硬質(zhì)合金顯微圖像的初步分割. 然而,這些方法通常需要大量手動(dòng)調(diào)整參數(shù),并且在處理復(fù)雜圖像時(shí)魯棒性較差,難以實(shí)現(xiàn)自動(dòng)化處理.
近年來(lái),深度學(xué)習(xí)領(lǐng)域取得了顯著的進(jìn)展,特別是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)[4]在圖像分類[5]、圖像分割[6]以及目標(biāo)檢測(cè)等計(jì)算機(jī)視覺(jué)任務(wù)中的應(yīng)用取得了令人矚目的成就. 基于深度學(xué)習(xí)的圖像分割算法能夠自動(dòng)地提取圖像的隱含特征,獲取高級(jí)語(yǔ)義信息,并具有較高的魯棒性,因此在處理復(fù)雜圖像任務(wù)時(shí)表現(xiàn)出更好的性能. Ronneberger 等[7]通過(guò)增加模型深度并融合更多高分辨率特征圖信息構(gòu)建了 UNet,該模型在醫(yī)學(xué)圖像分析領(lǐng)域得到廣泛研究與應(yīng)用,尤其在小數(shù)據(jù)集上表現(xiàn)良好[8]. Badrinarayanan等[9]提出了SegNet,通過(guò)池化索引的方法減少了模型的整體參數(shù)量和計(jì)算內(nèi)存需求. 由于圖像中存在不同大小的對(duì)象,并且不同大小的感受野會(huì)影響模型對(duì)上下文的理解,因此很多研究致力于多尺度特征的提取和融合. Zhao等[10]和Hou等[11]利用改進(jìn)的池化模塊來(lái)聚合多尺度特征,以同時(shí)捕獲圖像的局部空間信息和全局上下文信息. Gu等[12]在他們的工作中通過(guò)并行的方式組合不同膨脹率的空洞卷積,以提取不同尺度的上下文特征. Raza等[13]提出了Micro-Net,通過(guò)處理不同分辨率的原始圖像并融合不同分辨率的特征圖來(lái)獲取多尺度特征,從而更好地識(shí)別微觀組織圖像中不同大小的細(xì)胞和腺體等對(duì)象. Pang 等[14]利用平均池化聚合局部空間特征,改進(jìn)醫(yī)學(xué)圖像分割性能. Radu 等[15]將顏色、形狀和邊緣相關(guān)的3種類型特征結(jié)合,輸入多分類器結(jié)構(gòu)再經(jīng)過(guò)具有一層隱藏層的前饋神經(jīng)網(wǎng)絡(luò)對(duì)鞏膜進(jìn)行分割.
多層級(jí)融合機(jī)制是一種在數(shù)據(jù)處理、特別是在機(jī)器學(xué)習(xí)和深度學(xué)習(xí)領(lǐng)域中常見(jiàn)的策略,用于從不同層次的特征或數(shù)據(jù)中提取和結(jié)合信息,以改善模型的表現(xiàn). 這種機(jī)制尤其在處理復(fù)雜數(shù)據(jù)時(shí)表現(xiàn)出色,如圖像、視頻、語(yǔ)音和文本等,因?yàn)檫@些數(shù)據(jù)通常包含多個(gè)層次的抽象信息. 為解決傳統(tǒng)編碼器-解碼器結(jié)構(gòu)利用淺層特征對(duì)小目標(biāo)提取的困難. 李星華等[16]利用多路徑卷積融合模塊對(duì)建筑物特征進(jìn)行多維度提取,實(shí)現(xiàn)建筑物的高精度提取. 劉瑞華等[17]提出一種多層級(jí)特征提取模塊,能夠更好利用不同粒度全局和局部信息的高級(jí)特征,增加對(duì)淺層網(wǎng)絡(luò)提取信息的表達(dá).
為增強(qiáng)模型對(duì)不同類型硬質(zhì)合金顯微圖像的分割能力與適用性,本文提出一種基于多層級(jí)注意力融合機(jī)制深度學(xué)習(xí)網(wǎng)絡(luò)的硬質(zhì)合金分割算法,使編碼端結(jié)果通過(guò)由通道注意力、空間注意力和自注意力共同組成的多層級(jí)注意力融合模塊后與解碼端結(jié)果進(jìn)行跳躍連接,突出碳化鎢晶粒有用信息,抑制粘結(jié)相與碳化鎢晶粒在形狀與對(duì)比度相似帶來(lái)的干擾. 最后在不同類型的硬質(zhì)合金顯微圖像測(cè)試集上進(jìn)行實(shí)驗(yàn),結(jié)果表明了本文提出的方法對(duì)分割硬質(zhì)合金顯微圖像的有效性.
2本文粘連合金分割算法
2. 1數(shù)據(jù)集處理
硬質(zhì)合金可以通過(guò)掃描電鏡與光學(xué)顯微鏡兩種方式成像. 當(dāng)通過(guò)掃描電鏡成像時(shí),硬質(zhì)合金圖像的碳化鎢晶粒間邊界模糊. 在光學(xué)顯微成像中,由于各類硬質(zhì)合金的組成成分與制作樣本方法存在差異,導(dǎo)致成像時(shí)碳化鎢與粘結(jié)相的對(duì)比度變化大,并且光學(xué)顯微成像時(shí)可能出現(xiàn)光照不均現(xiàn)象. 圖4 為數(shù)據(jù)集中部分硬質(zhì)合金顯微圖像. 圖4a為掃描電鏡成像結(jié)果, 圖4b~4h 為光學(xué)顯微鏡成像結(jié)果. 其中圖4a 的掃描電鏡硬質(zhì)合金圖像不存在光照不均問(wèn)題,但是碳化鎢晶粒之間邊界模糊,晶粒邊界灰度值與晶粒接近. h 圖像碳化鎢晶粒較小,邊界信息少. c、e和g圖像的粘結(jié)相灰度值較碳化鎢灰度值更大,與a、b、d、h圖像情況相反. 并且e 圖像存在光照不均現(xiàn)象. f 圖像中碳化鎢與粘結(jié)相對(duì)比度相似. 其中a~d 圖像作為訓(xùn)練集圖像.為了驗(yàn)證模型的泛化性和魯棒性,e~h復(fù)雜圖像作為測(cè)試集圖像而不加入到訓(xùn)練集中. 對(duì)圖像進(jìn)行像素級(jí)標(biāo)注,標(biāo)簽中含有碳化鎢晶粒和粘結(jié)相兩個(gè)類別(設(shè)定晶粒像素值為1,粘結(jié)相背景像素值為0). 本文實(shí)驗(yàn)的數(shù)據(jù)集由圖4 中a~h 圖像組成,其中a~h 的數(shù)量如表1數(shù)據(jù)集分布所示. 由于硬質(zhì)合金圖像尺寸較大,而計(jì)算資源有限,因此將硬質(zhì)合金圖像裁剪為512 像素×512像素的JPG格式圖像. 同時(shí),為了避免裁剪圖像時(shí)邊緣晶粒信息丟失,在每128 個(gè)像素進(jìn)行水平和垂直方向平移實(shí)現(xiàn)重疊裁剪,保留裁剪邊緣信息. 最終經(jīng)過(guò)多種數(shù)據(jù)增強(qiáng)方法,包括對(duì)比度調(diào)整、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)等,得到3740 張圖像作為實(shí)驗(yàn)訓(xùn)練集,2060張圖像作為實(shí)驗(yàn)測(cè)試集.
2. 2網(wǎng)絡(luò)模型
為了解決硬質(zhì)合金顯微圖像的分割問(wèn)題. 本文采用MF-Net 全卷積網(wǎng)絡(luò),結(jié)合多種注意力機(jī)制的融合改進(jìn)現(xiàn)有的編解碼網(wǎng)絡(luò). 本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖5 所示. 網(wǎng)絡(luò)模型結(jié)構(gòu)主要由特征編碼端、特征解碼端和MF 模塊等3部分組成.
編碼端進(jìn)行4 次下采樣提取帶有語(yǔ)義信息的特征圖,解碼端經(jīng)過(guò)4 次上采樣將提取出來(lái)的高維特征圖經(jīng)過(guò)卷積逐步還原為原始尺寸的分割圖像,網(wǎng)絡(luò)輸入為512×512×3的合金彩色原始圖,通過(guò)兩個(gè)3×3 的卷積塊(Convolution)提取圖像特征,使通道數(shù)增加到64,得到特征圖尺寸為512×512×64 的x1. 為了網(wǎng)絡(luò)可以適應(yīng)數(shù)據(jù)中的復(fù)雜結(jié)構(gòu)并且能夠更靈活地調(diào)整感受野以適應(yīng)輸入數(shù)據(jù)的不同層次特征,而不是執(zhí)行固定的池化操作,本文采用3×3卷積塊實(shí)現(xiàn)下采樣過(guò)程,使網(wǎng)絡(luò)在處理復(fù)雜視覺(jué)場(chǎng)景的能力增強(qiáng). 這樣就可以將W×H×C 的特征圖匯聚為W/2×H/2×C 作為下一個(gè)編碼器的輸入,特征圖尺寸得到壓縮并且保留了有效信息,同時(shí)增強(qiáng)了感受野,避免了模型過(guò)擬合. 在通過(guò)4 次下采樣,編碼器逐步壓縮特征圖尺寸、擴(kuò)充特征圖的通道數(shù),分別得到特征圖x2(256×256×128)、x3(128×128×256)、x4(64×64×512)、x5(32×32×1024). 在上采樣和下采樣之間連接傳遞特征圖時(shí),將第3 層與第4 層解碼器結(jié)果(x3,x4)分別輸入到MF 多層級(jí)注意力融合模塊中得到增強(qiáng)的特征圖x_c3、x_c4. 在解碼器中,將特征圖x5 輸入到3×3 上采樣卷積塊中進(jìn)行兩倍的上采樣,此時(shí)特征圖的W 與H 擴(kuò)大兩倍與x4尺寸匹配,其結(jié)果與特征圖x_c4 進(jìn)行跳躍連接實(shí)現(xiàn)解碼器融合更高級(jí)的語(yǔ)義信息和底層的細(xì)節(jié)信息,再經(jīng)過(guò)3×3 的卷積塊實(shí)現(xiàn)32×32×1024 的特征圖轉(zhuǎn)變?yōu)?4×64×512 的特征圖x6,實(shí)現(xiàn)恢復(fù)空間信息并補(bǔ)充邊緣等高頻信息,提升目標(biāo)的分割效果. x6 作為下一層解碼器的輸入實(shí)現(xiàn)前述相同操作后獲得128×128×256 的特征圖x7. 再經(jīng)過(guò)兩次上采樣卷積過(guò)程得到特征圖x8(256×256×128)、x9(512×512×64),最終通過(guò)一個(gè)3×3 的卷積塊將模型最終的特征圖映射為與分割任務(wù)相對(duì)應(yīng)的通道數(shù),得到out(512×512×1)的分割結(jié)果圖.
2. 3MF 模塊
高層語(yǔ)義信息和低層空間信息的不相容性是阻礙分割任務(wù)中的重要問(wèn)題之一,UNet 網(wǎng)絡(luò)在特征融合的過(guò)程中是保留下采樣得到的低層特征,然后將其與經(jīng)過(guò)上采樣得到的高層特征直接進(jìn)行特征融合,但是在跳躍連接處低層下采樣特征利用較少,沒(méi)有充分提取特征圖中的語(yǔ)義特征,當(dāng)圖像存在對(duì)比度相似、對(duì)比度反轉(zhuǎn)以及光照不均等問(wèn)題時(shí)恢復(fù)空間位置信息的特征圖像會(huì)出現(xiàn)語(yǔ)義信息缺失,影響網(wǎng)絡(luò)的分割性能. 如圖6 所示,選取一張光照不均的硬質(zhì)合金圖像進(jìn)行實(shí)驗(yàn),紅色圈區(qū)域?yàn)閷?duì)比區(qū)域,x4_AM、x6_AM 分別代表的是截取圖像通過(guò)網(wǎng)絡(luò)模型得到的第4層與第6層激活圖,圖中藍(lán)色代表低激活值、綠色為中激活值、紅色為高激活值,值越高的區(qū)域代表在模型學(xué)習(xí)中更為關(guān)鍵,藍(lán)色虛線箭頭代表網(wǎng)絡(luò)模型不使用MF 模塊,藍(lán)色實(shí)線箭頭代表網(wǎng)絡(luò)模型使用MF模塊,Result 為截取圖像在網(wǎng)絡(luò)模型中是否經(jīng)過(guò)MF 模塊得到的2 種分割結(jié)果. 從圖6 中x4_AM、x6_AM 以及Result 可以知道,使用不含MF 模塊得到的x6_AM 相比使用MF 模塊的x6_AM,其大部分語(yǔ)義信息與晶粒特征信息丟失,激活圖中對(duì)碳化鎢晶粒區(qū)域響應(yīng)度低,并造成Result 中粘結(jié)相區(qū)域被誤分為碳化鎢晶粒,該結(jié)果表明MF 模塊能夠提取到更多的低層下采樣特征信息,使經(jīng)過(guò)跳躍連接后的上采樣特征圖中含有更多準(zhǔn)確的晶粒特征信息.
為了突顯與分割目標(biāo)相關(guān)的關(guān)鍵特征,減少與目標(biāo)相近的背景干擾以及優(yōu)化目標(biāo)間的分割效果,使模型更有效地區(qū)分圖像中不同類別的像素,本文提出了一種將通道(CAM)、空間(SAM)和自注意力機(jī)制有效結(jié)合的多層級(jí)融合注意力模塊(MF),其結(jié)構(gòu)如圖7所示.
本文提出的MF 模塊,強(qiáng)調(diào)了圖像中的特征信息,通過(guò)跳躍連接和設(shè)計(jì)不同的卷積塊避免了語(yǔ)義信息的丟失,提升在特征通道、空間方向的敏感性,加強(qiáng)了對(duì)圖像中全局和局部的關(guān)鍵信息的捕捉,進(jìn)而增強(qiáng)了模型特征提取能力,使得模型處理未進(jìn)行訓(xùn)練集制作的圖像可以保持良好的分割效果,從而提升了模型的泛化性和魯棒性. 盡管MF模塊在結(jié)構(gòu)上相對(duì)簡(jiǎn)單,但其性能上有提升,而且參數(shù)量增加相對(duì)較小,使得該模塊在實(shí)際應(yīng)用上更具有實(shí)用性.
2. 4損失函數(shù)
為了模型能夠更好地處理不同場(chǎng)景下的硬質(zhì)合金顯微圖像,僅憑二元交叉熵?fù)p失函數(shù)已經(jīng)不足夠優(yōu)化網(wǎng)絡(luò). 二元交叉熵對(duì)于目標(biāo)與背景的二分類問(wèn)題效果往往較好但在目標(biāo)與背景的對(duì)比度相近時(shí)魯棒性較差,并且二元損失熵不會(huì)直接處理局部區(qū)域內(nèi)像素值的對(duì)比度變化. 因此,本文采用兩種損失函數(shù):BCELoss 和DiceLoss,使用不同權(quán)重的二元交叉熵?fù)p失與Dice 損失的和再加上一個(gè)額外的小常數(shù)項(xiàng)作為總損失函數(shù)進(jìn)行優(yōu)化. 本文使用的二元交叉損失函數(shù)為
3實(shí)驗(yàn)結(jié)果及分析
3. 1實(shí)驗(yàn)設(shè)置
本文基于Pytorch1. 10. 1、Cuda11. 1 的開(kāi)發(fā)環(huán)境完成網(wǎng)絡(luò)的搭建以及模型的訓(xùn)練. 硬件環(huán)境以及相關(guān)訓(xùn)練參數(shù)設(shè)置如表2 所示. 其中使用多步學(xué)習(xí)率調(diào)度器優(yōu)化訓(xùn)練學(xué)習(xí)率,在訓(xùn)練初期給予較大的學(xué)習(xí)率有助于模型更好適應(yīng)訓(xùn)練數(shù)據(jù),在后期逐漸減小學(xué)習(xí)率有助于防止過(guò)擬合,且能夠幫助模型在參數(shù)空間找到更好的局部最小值.
3. 2評(píng)估指標(biāo)
為客觀地評(píng)價(jià)模型性能,本文選擇平均交并比(mIoU)、像素準(zhǔn)確率(Pixel accuracy)、精確率(Precision)和召回率(Recall)作為分割效果評(píng)估指標(biāo). 如表3 所示,其中N 表示類別數(shù)量,在本文中僅需分出目標(biāo)碳化鎢晶粒與粘結(jié)相,因此N 的取值為2. TP 代表晶粒像素的正確預(yù)測(cè)數(shù)量;FP 代表晶粒像素的錯(cuò)誤預(yù)測(cè)數(shù)量;TN 代表粘結(jié)相像素的正確預(yù)測(cè)數(shù)量;FN 代表粘結(jié)相像素的錯(cuò)誤預(yù)測(cè)數(shù)量.
3. 3 對(duì)比實(shí)驗(yàn)
3. 3. 1分割結(jié)果比較 本文模型在晶粒分割的訓(xùn)練損失曲線如圖8 所示,結(jié)果表明MF-Net 可以有效收斂. 在硬質(zhì)合金圖像分割任務(wù)中,本文方法對(duì)比了4 種深度學(xué)習(xí)方法和1 種傳統(tǒng)算法. 使用測(cè)試集檢驗(yàn)各個(gè)模型的性能指標(biāo),測(cè)試集是由33 張晶粒類型、對(duì)比度等不同于訓(xùn)練集的硬質(zhì)合金圖像以及掃描電鏡圖像組成,如表1 中test data 所示. 在測(cè)試集上進(jìn)行各項(xiàng)實(shí)驗(yàn),其中用粗體標(biāo)注了每一列的最好結(jié)果. 分割性能評(píng)價(jià)指標(biāo)如表4 所示,結(jié)果顯示深度學(xué)習(xí)方法之間差距較小,整體優(yōu)于凹點(diǎn)分割算法. 本文網(wǎng)絡(luò)模型在mIoU 平均交并比、準(zhǔn)確率、精確率和召回率指標(biāo)上都取得了最優(yōu)性能:與UCTransNet 相比這些指標(biāo)提升了0. 3%、1. 51%、1. 62%、1. 61%;相比于UNet,這些指標(biāo)分別提升了2.16%、22. 84%、11. 36%、10. 93%;相比AttUNet,這些指標(biāo)分別改進(jìn)了3. 69%、4. 51%、3. 48%、3. 51%. 這表明MF 模塊和復(fù)合損失函數(shù)能夠有效地增強(qiáng)晶粒特征,從而更好地表達(dá)晶粒信息.
圖9 是從測(cè)試集中選取8 張不同類型的硬質(zhì)合金圖像在不同模型上進(jìn)行分割的結(jié)果展示,其中用紅圈標(biāo)注了本文網(wǎng)絡(luò)模型相較其他方法取得明顯提升的區(qū)域. 使用凹點(diǎn)分割算法,在提取碳化鎢晶粒二值化圖像時(shí),需要進(jìn)行大量人工調(diào)參,包括光源校正、陰影校正以及圖像反轉(zhuǎn)等,并且在處理碳化鎢與粘結(jié)相對(duì)比度相似時(shí),無(wú)法進(jìn)行有效的二值化操作,如圖9中第6幅圖所示. 該方法對(duì)于粘連晶粒的分割有限并且容易出現(xiàn)錯(cuò)誤分割晶粒. 通過(guò)對(duì)比可以發(fā)現(xiàn),深度學(xué)習(xí)分割結(jié)果總體優(yōu)于凹點(diǎn)分割算法.
圖9a~9d 4 種圖像均有制作訓(xùn)練集進(jìn)行模型訓(xùn)練,其中主要以碳化鎢晶粒灰度值高于粘結(jié)相為主. 在各深度學(xué)習(xí)方法上均表現(xiàn)出較好的分割效果,UCTransNet 與MF-Net 的分割結(jié)果最為接近,但MF-Net 在a 和d 兩張圖像上的紅色圓圈中晶粒分割細(xì)節(jié)表現(xiàn)更好. UNet 在b、d 圖像上能夠?qū)⒄尺B晶粒分割開(kāi),但是存在較小晶粒沒(méi)有被提取出. 為了驗(yàn)證模型的泛化性和魯棒性,e~h 圖像未參與模型訓(xùn)練. e、g 圖像碳化鎢晶?;叶戎当日辰Y(jié)相低且存在光照不均現(xiàn)象,其中UNet 將粘結(jié)相識(shí)別為碳化鎢晶粒區(qū)域,而碳化鎢晶粒區(qū)域識(shí)別為粘結(jié)相. AttUNet 不能區(qū)分碳化鎢與粘結(jié)相.UNetPlus 分割效果差. SegNet 不能識(shí)別碳化鎢晶粒與粘結(jié)相的邊界. UCTransNet 對(duì)碳化鎢晶?;叶戎档陀谡辰Y(jié)相并且存在光照不均時(shí)能夠保持不錯(cuò)的分割效果. 但UCTransNet 在面對(duì)f 圖像碳化鎢晶粒與粘結(jié)相對(duì)比度相似時(shí),會(huì)出現(xiàn)與UNet、AttUNet、UNetPlus、SegNet 相同的錯(cuò)誤,對(duì)粘結(jié)相錯(cuò)誤分割為碳化鎢晶粒. h 圖像中碳化鎢晶粒較小且邊界模糊,除UNetPlus 外其余方法均能提取到碳化鎢區(qū)域,但僅有MF-Net 能夠?qū)崿F(xiàn)較好的分割效果. MF-Net 相較其他方法在處理e~h 圖像時(shí)均能保持較好的分割效果,證明了模型具有較強(qiáng)的泛化能力和魯棒性. 從MF-Net 在a~h 圖像的分割結(jié)果中可以看出,MF-Net 在推理硬質(zhì)合金圖像存在碳化鎢晶粒與粘結(jié)相對(duì)比度差異大、光照不均、晶粒邊界模糊等情況時(shí),能夠識(shí)別更多的碳化鎢晶粒像素,得到了更為完整、準(zhǔn)確的碳化鎢晶粒區(qū)域,且分割對(duì)象的形狀更接近于真實(shí)結(jié)果.
3. 3. 2模型復(fù)雜度比較 為了驗(yàn)證模型的復(fù)雜度,測(cè)試了各個(gè)深度學(xué)習(xí)方法在同一硬件上的運(yùn)行時(shí)間. 對(duì)33 張測(cè)試集圖像進(jìn)行推理預(yù)測(cè)計(jì)算出平均每張圖像的消耗時(shí)間,如表5 所示. 各深度學(xué)習(xí)算法計(jì)算時(shí)間接近,MF-Net 雖然在推理速度上稍慢于SegNet,但是在硬質(zhì)合金圖像分割應(yīng)用中相較傳統(tǒng)方法速度已大幅提升,比UCTransNet 和UNet++推理速度更快. 且實(shí)際分割效果遠(yuǎn)遠(yuǎn)優(yōu)于SegNet、UNet 以及AttUNet. 并且在模型參數(shù)量上MF-Net 模型參數(shù)量為46. 55×106,為UNet++ 參數(shù)量的61. 6%,為UCTransNet 的69. 52%,比最少的SegNet 多17. 11×106,如圖10所示,與其他深度學(xué)習(xí)方法相比,屬于較輕量型網(wǎng)絡(luò).
3. 4消融實(shí)驗(yàn)
3. 4. 1損失函數(shù)中權(quán)重對(duì)模型性能的影響 網(wǎng)絡(luò)訓(xùn)練過(guò)程中需要對(duì)目標(biāo)與背景對(duì)比度和灰度值大小信息進(jìn)行約束,相較于以往只使用二元交叉熵?fù)p失函數(shù)是不夠的,本文提出了二元交叉熵?fù)p失、Dice 損失和常數(shù)項(xiàng)實(shí)現(xiàn)協(xié)同監(jiān)督預(yù)測(cè)分割圖像,如式(12)所示. 為了驗(yàn)證損失函數(shù)中α 和β 權(quán)重分配的合理性,并進(jìn)一步提高本文模型的分割準(zhǔn)確度,我們分別嘗試了不同的α 和β 權(quán)重組合,并在測(cè)試集上進(jìn)行了指標(biāo)檢驗(yàn). 從表6 中不同權(quán)重的分割性能指標(biāo)對(duì)比結(jié)果可以看出,當(dāng)α 參數(shù)設(shè)置為0. 6, β 參數(shù)設(shè)置為0. 4 時(shí),本文模型在mIou、Accuracy、Precision 和Recall 指標(biāo)上均達(dá)到了最佳值. 與α 設(shè)置為0. 4, β 設(shè)置為0. 6 相比,本文模型在這些指標(biāo)上分別提高了0. 47%、1. 35%、1. 03%和0. 98%. 與α 設(shè)置為0. 5,β 設(shè)置為0. 5 相比,本文模型在這些指標(biāo)上分別提高了0. 49%、1. 52%、1. 24% 和1. 22%. 當(dāng)α 設(shè)置為0. 7,β 設(shè)置為0. 3時(shí),各項(xiàng)指標(biāo)均呈現(xiàn)下降. 綜合實(shí)驗(yàn)結(jié)果顯示,當(dāng)權(quán)重超參數(shù)α 為0. 4、 β 為0. 6 時(shí)本文模型可以實(shí)現(xiàn)更好的分割性能.
3. 4. 2不同模塊對(duì)模型性能的影響 本文提出了一種由多種注意力模塊共同組成的多層級(jí)融合注意力模塊(MF Module),并在編解碼跳躍連接上使用該模塊. 為了驗(yàn)證組成MF 模塊中各模塊的有效性,表7 給出了在BaseNet 中依次加入每個(gè)模塊的分割結(jié)果性能對(duì)比,其中CAM、SAM 和Self-attention 分別代表通道注意力模塊、空間注意力模塊和自注意力模塊,BaseNet 代表未使用注意力機(jī)制的本文網(wǎng)絡(luò)模型. 從表4 可以看出,3個(gè)模塊均能使模型性能相較于BaseNet 有不同程度的提升,其中通道注意力模塊和空間注意力模塊在跳躍連接上過(guò)濾非必要特征信息,增加深層下采樣結(jié)果的語(yǔ)義信息,有助于上采樣空間信息的恢復(fù),使得網(wǎng)絡(luò)性能相比于BaseNet,mIou 提高了1. 96% 和2. 29%,Accuracy 提高了21. 03% 和20. 52%,Precision 提高了10. 11% 和10. 25%,Recall提高了9. 67% 和9. 8%. 由于自注意力模塊提取全局上下文特征,即提取更大范圍的碳化鎢晶粒區(qū)域特征,使得網(wǎng)絡(luò)相較于增加空間與通道注意力下在mIou 上提升1. 87%,Accuracy 提升2. 32%,Precision 提升1. 11%,Recall 提升1. 13%,并且在實(shí)際分割效果中表現(xiàn)更好.
4結(jié)論
為了提高對(duì)比度差異大、碳化鎢晶粒粘連緊密的硬質(zhì)合金顯微圖像的分割質(zhì)量,提出一種基于多層級(jí)注意力融合機(jī)制深度學(xué)習(xí)網(wǎng)絡(luò)的硬質(zhì)合金顯微圖像的分割算法. 基于UNet 網(wǎng)絡(luò)模型,將下采樣的結(jié)果通過(guò)多層級(jí)注意力融合模塊,增加下采樣特征圖中碳化鎢晶粒的特征信息,學(xué)習(xí)每個(gè)通道的權(quán)重,通過(guò)該權(quán)重突出碳化鎢晶粒的特征信息,提高模型對(duì)重要特征通道的關(guān)注度. 再與上采樣結(jié)果進(jìn)行跳躍連接,增加特征圖位置間的關(guān)聯(lián),提高模型對(duì)輸入數(shù)據(jù)的表達(dá)能力. 經(jīng)過(guò)對(duì)比實(shí)驗(yàn)并使用未參與模型訓(xùn)練類別的圖像,結(jié)果驗(yàn)證了本文所提方法具有較好的泛化性和魯棒性.通過(guò)一系列實(shí)驗(yàn)數(shù)據(jù)比對(duì)分析,分割結(jié)果不論是在主觀效果上,還是客觀指標(biāo)上都有一定的優(yōu)勢(shì).本文模型在硬質(zhì)合金顯微圖像的晶粒分割上具有良好的性能,同時(shí)減少了傳統(tǒng)分割算法后期的人工處理過(guò)程. 后期將考慮在保證有效性的前提下,優(yōu)化網(wǎng)絡(luò)模型,進(jìn)一步減少參數(shù)量, 將算法更好地應(yīng)用于實(shí)際工程中.