關(guān)鍵詞: 圖像分割;UNet;注意力模塊;損失函數(shù)
中圖分類號:TP399 文獻標志碼:A
0 引言(Introduction)
在信息化時代,借助計算機輔助診斷技術(shù),我們能夠迅速、準確地對患者的肺部CT圖像進行病灶分割,從而輔助醫(yī)生更有效地制訂治療方案。圖像分割技術(shù)發(fā)展至今,主要可以分為閾值分割、區(qū)域分割和聚類等方法[1]。
隨著深度學習技術(shù)的不斷進步,醫(yī)學圖像分割準確率也得到了顯著的提升。RONNEBERGER 等[2]提出了一種名為UNet的創(chuàng)新性圖像分割方法。該方法采用特定的卷積神經(jīng)網(wǎng)絡(CNN)結(jié)構(gòu),能夠在保證圖像高分辨率的同時,實現(xiàn)對圖像的多物體或多區(qū)域的精準分割。CHEN等[3]提出了一種名為DeepLab的圖像分割方法。該方法采用深度卷積神經(jīng)網(wǎng)絡(DCNN)的結(jié)構(gòu),通過多種不同的網(wǎng)絡層,實現(xiàn)對圖像精準的語義分割。ZHOU等[4]提出的UNet++在醫(yī)學圖像分割中進一步改進了UNet結(jié)構(gòu)。UNet++通過嵌套和密集的連接模塊,增強了網(wǎng)絡的特征表達能力。
目前,廣泛應用的圖像分割算法主要基于全局特征進行分割,然而有些患者的肺部影像中會出現(xiàn)白色玻璃狀病灶,所以僅僅依賴全局特征,可能無法有效捕捉到圖像之間的細微區(qū)別信息。
1 UNet算法及其改進(UNet algorithm and itsimprovement)
1.1 UNet網(wǎng)絡結(jié)構(gòu)
在計算機視覺領域,圖像分割是一項關(guān)鍵的任務,旨在將圖像劃分為不同的語義區(qū)域,以實現(xiàn)更深層次的理解。為了應對這一挑戰(zhàn),近年來深度學習方法憑借其強大的特征提取和表示能力,在該任務中取得了顯著的成就。其中,UNet網(wǎng)絡架構(gòu)作為一種神經(jīng)網(wǎng)絡模型,因其卓越的性能和在多個領域的廣泛應用而備受矚目;其名稱源于網(wǎng)絡結(jié)構(gòu)的“U”形狀,該結(jié)構(gòu)由對稱的編碼器和解碼器組成,通過建立跨層次的連接捕獲豐富的上下文信息,這種獨特的結(jié)構(gòu)使得UNet在處理細節(jié)信息和保留全局上下文方面表現(xiàn)出色。
圖1是UNet網(wǎng)絡的結(jié)構(gòu)圖,結(jié)構(gòu)圖的左半部分是編碼器部分,通過堆疊卷積和池化層,網(wǎng)絡能夠逐漸降低空間分辨率并提取高級抽象特征。解碼器部分通過上采樣和跳躍連接的方式,將這些抽象特征還原為與輸入圖像相同的分辨率。這種設計使得UNet在保留圖像細節(jié)的同時,還具備了強大的上下文感知能力,適用于多種圖像分割任務,如醫(yī)學圖像分割、衛(wèi)星圖像解析等。
1.2 UNet網(wǎng)絡檢測原理
UNet網(wǎng)絡的實現(xiàn)可分為編碼器、中間特征層和解碼器3個主要部分,每個部分都承擔著特定的操作,共同負責處理輸入數(shù)據(jù)并逐步生成語義分割的結(jié)果。
首先,編碼器的實現(xiàn)依賴于卷積和池化操作。卷積層通過濾波器在圖像上進行掃描,捕捉圖像中的局部特征。池化層則通過降采樣操作,縮小圖像的尺寸,有助于提取更廣泛的上下文信息。這些操作在編碼器中的多個層次中迭代進行,逐漸縮小輸入圖像的空間分辨率,并提取高級抽象的特征。
其次,中間特征層的實現(xiàn)主要包括多個卷積層,用于提取更高級別的語義信息。這一部分的設計目的是在編碼器和解碼器之間建立有效的信息傳遞通道,幫助網(wǎng)絡理解圖像的整體結(jié)構(gòu)。通過在中間特征層引入額外的卷積操作,網(wǎng)絡可以捕捉更復雜的特征,并提高對全局語義上下文的感知。
最后,解碼器的實現(xiàn)涉及上采樣和跳躍連接的操作。上采樣通過插值或反卷積操作將特征圖的分辨率逐步提高,從而逆轉(zhuǎn)編碼器的降采樣效果。跳躍連接通過將編碼器中相應層次的特征與解碼器的對應層次相連接,有助于傳遞細節(jié)信息和保持網(wǎng)絡的深度信息。解碼器的任務是逐步還原圖像的細節(jié),使網(wǎng)絡能夠在保留全局語義信息的同時還原局部特征。
上文所述的協(xié)同工作使得UNet能夠在圖像分割任務中展現(xiàn)出卓越的性能。在實際操作過程中,使用深度學習框架PyTorch構(gòu)建和訓練UNet網(wǎng)絡,同時結(jié)合適當?shù)膿p失函數(shù)和優(yōu)化算法,以便更好地適應特定的圖像分割任務。
1.3 UNet的改進
1.3.1 基于注意力機制改進UNet
在某些情況下,由于患者的肺部病灶特征可能呈現(xiàn)為白色玻璃狀,導致小目標出現(xiàn)的頻率較高。為了讓網(wǎng)絡更好地關(guān)注這些小目標,本文引入了空間注意力機制和通道注意力機制。注意力機制是模仿人類大腦的關(guān)注機制設計的,它允許神經(jīng)網(wǎng)絡在處理信息時集中關(guān)注有意義的信息,同時忽略那些無關(guān)緊要的部分。在傳統(tǒng)的神經(jīng)網(wǎng)絡中,每個輸入都被賦予相等的權(quán)重,沒有考慮到每個輸入的重要性差異。注意力機制可以根據(jù)輸入的相關(guān)性為每個輸入分配不同的權(quán)重,從而使得模型能夠更好地捕獲局部特征,具體包括以下幾個方面。
(1)結(jié)合通道域和空間域的注意力,引入了通道注意力模塊和空間注意力模塊,使得網(wǎng)絡可以從這兩個維度更加關(guān)注任務區(qū)域。
2.4 實驗結(jié)果
將改進后的UNet模型與SegNet、UNet模型進行比較。由表1可見,相對于SegNet和UNet模型,改進后的UNet模型的像素準確率和平均交并比兩個指標都有一定程度的提升。與UNet模型相比,改進后的UNet模型的像素準確率提升了1.71百分點,平均交并比提升了3.01百分點。
圖3展示了訓練過程中每一次迭代輸出的IoU,本文提出的改進模型采用了更高效的注意力機制和損失函數(shù)。經(jīng)過100輪左右的訓練,改進后的UNet模型趨于穩(wěn)定,而UNet在相同輪數(shù)內(nèi)波動較大。因此,改進后的UNet模型在收斂速度和穩(wěn)定性上明顯優(yōu)于UNet。綜合考慮,這些改進使得UNet在像素級分割任務中的表現(xiàn)更為出色。
本實驗隨機選擇一張病例CT圖像進行測試。圖4隨機給出了測試圖像的分割結(jié)果,圖4(a)是肺部CT圖,圖4(b)是專家標注圖,圖4(c)是改進后UNet分割圖,圖4(d)為原始UNet分割圖。可以看出,與標注標準相比,UNet方法雖然能實現(xiàn)較好結(jié)果,但當背景部分干擾較大時,則難以很好地擬合磨玻璃的輪廓。本文提出的方法分割效果較佳,能夠?qū)⒛ゲAв安糠智逦胤指畛鰜?,更加接近于專家的標注標準?/p>
3 結(jié)論(Conclusion)
本研究采用基于UNet網(wǎng)絡結(jié)構(gòu)的深度學習算法,針對CT圖像中的白色玻璃狀的病灶進行了精準分割,旨在提高疾病的診斷效率和治療準確性。實驗證明,本文提出的方法在病灶分割準確度和魯棒性方面表現(xiàn)出色。通過在公開的病例患者CT圖像數(shù)據(jù)集上進行測試,該方法展現(xiàn)出了對病灶的高效且準確的分割能力,有望為醫(yī)生提供更迅速的診斷和治療支持。
在與其他方法的對比實驗中,本文提出的算法表現(xiàn)出更高的分割準確性和更強的魯棒性,為病灶分割提供了一種新的解決方案,具備廣泛的應用前景。未來,我們將持續(xù)改進算法,以進一步提升其效率和準確性,并將其擴展應用于更廣泛的醫(yī)學圖像分割任務,為醫(yī)學影像處理領域的進步貢獻力量。
作者簡介:
郁華鑫(1998-),男,碩士生。研究領域:圖像處理,目標檢測。
何利文(1968-),男,博士,教授。研究領域:網(wǎng)絡,信息安全,云計算大數(shù)據(jù)分析與應用。