張懷天, 李金寶,*
(1.黑龍江大學 計算機科學技術學院,哈爾濱 150080;2.齊魯工業(yè)大學(山東省科學院) 山東省人工智能研究院,濟南 250014)
計算機斷層掃描(Computed tomography, CT)是一種準確、非侵入式的體內異常監(jiān)測技術,現(xiàn)已被臨床醫(yī)生廣泛應用于器官異常檢測和癌癥診斷。然而CT掃描過程中X光的輻射會對患者產(chǎn)生傷害,病人在胸部X光掃描中接受的輻射量相當于10 d的本底輻射[1]。降低輻射劑量可顯著減弱輻射風險,其中最常用的方法是減少X射線通量,但X射線通量越低,重建CT圖像的噪聲就越大,導致CT圖像質量降低,影響醫(yī)生的臨床診斷。因此,研究低劑量CT圖像去噪算法具有重要的臨床意義和研究價值。
現(xiàn)有的研究工作主要集中于單一劑量CT圖像去噪,由單個去噪網(wǎng)絡模型直接實現(xiàn)圖像去噪,能夠達到較好的效果。然而在實際的臨床應用中,CT的輻射劑量通常是未知的,導致單一劑量模型的應用場景受到了一定限制。針對該問題提出了一種基于噪聲估計與引導的低劑量CT圖像盲去噪方法,可應用于CT圖像的劑量未知的情況。該網(wǎng)絡由噪聲估計網(wǎng)絡和去噪網(wǎng)絡組成,見圖1。
圖1 網(wǎng)絡的整體結構
網(wǎng)絡首先針對未知CT圖像的噪聲特征,設計了由噪聲特征提取和噪聲分類組成的噪聲估計模型,該模型將真實數(shù)據(jù)集中CT圖像劑量水平作為分類標簽,并通過噪聲等級分類的弱監(jiān)督方式估計潛在的噪聲特征。其次,通過噪聲特征與噪聲圖像融合的方式引導低劑量CT圖像關注自身噪聲的分布特點,進而使用殘差編碼—解碼卷積神經(jīng)網(wǎng)絡進行端到端的深度映射,從而生成高質量的CT圖像。此外,采用感知損失來降低去噪后圖像與目標圖像在高維空間中的感知特征相似性,并聯(lián)合MSE損失使模型提取CT圖像潛在的有效特征,保留圖像重要細節(jié)信息。
由于CT圖像噪聲的來源形式各異且復雜多變(如電流擾動,光子數(shù)量,掃描方式,X射線的多色性以及系統(tǒng)自帶的電子噪聲等),導致CT圖像的噪聲特征難以估計,通常采用劑量水平來簡單的衡量噪聲的嘈雜程度。近年來大量研究工作致力于解決CT圖像去噪問題。傳統(tǒng)的CT圖像去噪方法大致分為3種:投影域濾波算法、迭代重建算法和圖像處理算法。
早期的投影域濾波旨在對濾波反投影(Filtered back projection, FBP)變換前的CT圖像原始數(shù)據(jù)進行去噪處理。未經(jīng)處理的原始數(shù)據(jù)中噪聲的分布直接與其來源相關(如加性的高斯噪聲),通過分析噪聲特點設計某種濾波算法可以抑制其中的噪聲,達到去除噪聲的效果[2-3],其中具有代表性的有結構自適應濾波[4]、雙邊濾波[5]和懲罰加權最小二乘算法等。上述算法速度較快,但使CT圖像變得平滑、模糊,且難以去除圖像中的復雜噪聲(如偽影)。
投影域濾波算法只采用一次FBP來重建CT圖像,而迭代重建法是在FBP基礎上額外引入了正投影技術,通過多次反復迭代的方式來提高CT圖像重建的準確率。盡管迭代重建算法的去噪性能優(yōu)于投影域濾波法,能夠較好地去除CT圖像偽影并獲得較高的空間分辨率,然而該類算法存在兩大缺陷:①該類算法是設備供應商特定(vendor-specific)的,用戶無法獲取原始CT掃描數(shù)據(jù)、掃描儀的幾何形狀以及具體校正步驟的細節(jié);②迭代重建過程中需要大量的計算開銷。因此,上述缺陷極大地限制了臨床應用。
由于用戶難以獲取CT掃描原始數(shù)據(jù),使得基于原始數(shù)據(jù)的投影域濾波法和迭代重建法應用受到極大限制,而基于圖像處理的去噪算法直接對重建好的CT圖像進行去噪,不受上述限制,具有更廣闊的應用前景和研究價值,如非局部均值濾波法[6]和BM3D[7]等。非局部均值濾波法主要對圖像域內的相似塊進行加權平均以獲得平滑的濾波效果,并能夠保留圖像邊緣細節(jié);BM3D同時結合了非局部均值濾波和小波變換等頻域算法,在圖像去噪上達到很好的效果。另一類CT去噪工作是基于壓縮感知理論,Lubner M G等[8]建立了一種基于離散梯度變換的降維視圖下動態(tài)CT重建的先驗圖像約束壓縮感知算法,并證實這些變換對真實結構和噪聲都非常敏感;Chen Y等[9]采用K-SVD[10]算法,通過構建字典學習對圖像進行稀疏編碼來達到去噪效果。
受益于GPU算力增強以及批標準化[11]、殘差結構[12]等技術在深度學習中的應用,越來越多的基于卷積神經(jīng)網(wǎng)絡的深度學習方法被應用于CT圖像去噪,并取得了較高的性能。Chen H等[13]最早將輕量級的3層CNN網(wǎng)絡用于低劑量CT圖像去噪;在此基礎上,Nishio M等[14]提出了自編碼卷積網(wǎng)絡用于低劑量CT圖像去噪;Chen H等[15]進一步將殘差結構與編解碼網(wǎng)絡相結合,提出了殘差編解碼卷積神經(jīng)網(wǎng)絡,在噪聲抑制、結構保持和損傷檢測方面獲得了良好的效果;Kang E等[16]設計了一種24層卷積網(wǎng)絡用于計算低劑量CT圖像的小波變換系數(shù),利用方向小波變換提取偽影的方向分量以及帶內和帶間的相關性,可以有效抑制CT圖像特有的噪聲,并采用殘差結構加速模型訓練,提升去噪性能;Yang Q等[17]采用感知損失來訓練去噪模型,減小輸出圖像與真實圖像在高維空間的圖像特征差異;Suzuki K等[18]提出NNC(Neural network convolution),經(jīng)過濾波反投影變換后的低劑量CT圖像和高劑量CT圖像同時輸入NNC中,由后者指導NNC直接學習低劑量CT到高劑量CT的映射;UNet[19]整個網(wǎng)絡呈現(xiàn)U型結構,采用卷積層和上層采樣對圖像進行特征提取與恢復;Yi X等[20]提出一種條件生成對抗網(wǎng)絡,獲得了較高PSNR和SSIM客觀指標,去噪后圖像視覺效果較好;Maryam G A等[21]提出采用不同擴張率的擴張卷積并結合殘差結構來更高效的提取圖像特征信息,同時利用傳統(tǒng)的Sobel算子在水平、垂直、對角線方向提取邊緣圖像并與原圖連接,采用MSE損失和感知損失聯(lián)合訓練的方式以保留CT圖像的結構細節(jié);Won D K等[22]提出采用Octave卷積來同時提取圖像的高頻特征和低頻特征,能夠在降噪的同時保留更多邊緣細節(jié)。
傳統(tǒng)的CT圖像去噪算法大多認為噪聲服從某種統(tǒng)一的分布,這種分布與CT的劑量無關,因此無需關注CT的劑量問題,但與此同時,也導致了算法無法對特定劑量的CT圖像進行精準去噪。深度學習方法通常使用單一的劑量進行訓練產(chǎn)生針對該劑量噪聲的模型,雖然使用單一劑量簡化了去噪的難度,但通常需要針對每種劑量單獨訓練模型。在單一劑量的深度學習模型中,將噪聲劑量進行混合訓練,因為缺少了對于CT劑量的先驗知識,通常會得到效果低于特定劑量的模型。因此,本文主要解決劑量未知的情況下如何達到甚至超越使用單一劑量的深度學習模型。
設計的噪聲估計網(wǎng)絡見圖2,主要由特征提取網(wǎng)絡和分類網(wǎng)絡組成。將數(shù)據(jù)集中CT圖像的劑量水平作為弱監(jiān)督標簽,采用劑量分類的方法來訓練噪聲估計網(wǎng)絡,并以分類損失為目標函數(shù)提取噪聲特征。
特征提取網(wǎng)絡分別采用卷積核大小為3×3與1×1的卷積塊來對輸入圖像的通道進行擴張與壓縮。輸入維度為512×512×1的 CT圖像經(jīng)過特征提取網(wǎng)絡得到相同大小的噪聲特征圖。分類網(wǎng)絡利用3×3的卷積塊對得到的噪聲特征圖進一步壓縮,經(jīng)過6個卷積塊可將特征圖壓縮至8×8×2 048,再經(jīng)過全局平均池化并展平后得到2 048維的特征向量,最后通過全連接層以及Softmax函數(shù)輸出4維的CT劑量分類概率。所用卷積塊均由一層卷積層,一層批標準化層以及一層ReLU非線性激活層組成。
整體去噪網(wǎng)絡結構見圖3,主要由噪聲特征融合網(wǎng)絡和殘差編解碼卷積神經(jīng)網(wǎng)絡(RED-CNN)組成。噪聲特征融合網(wǎng)絡主要用于將輸入圖像與噪聲特征圖充分融合,同時保持輸入RED-CNN的圖像維度不變。RED-CNN作為主要去噪網(wǎng)絡,對輸入進行進一步的去噪處理,得到最終去噪后的高質量CT圖像。
圖3 去噪網(wǎng)絡整體結構
由2.1得到噪聲特征圖后,采用concatenate的方式將噪聲特征圖與輸入圖像進行堆疊,將輸入圖像的維度由512×512×1擴張到512×512×2,將其輸入噪聲特征融合網(wǎng)絡,重新得到維度為512×512×1的特征融合圖像作為RED-CNN的輸入。RED-CNN整體結構主要由前5層的自編碼網(wǎng)絡和后5層的反卷積網(wǎng)絡組成,網(wǎng)絡在UNet[19]基礎上加入殘差結構以避免訓練過程中的梯度彌散,并去除了所有池化層和步長大于1的卷積層等下采樣層,維持了各層輸入輸出圖像大小不變,并能夠保留更多圖像細節(jié),提升了網(wǎng)絡提取圖像內在特征的性能。
設計的CT圖像盲去噪框架主要分為:①利用交叉熵損失對噪聲估計網(wǎng)絡進行充分訓練;②采用均方差損失與感知損失聯(lián)合訓練去噪網(wǎng)絡。
交叉熵損失Lce可表示為
(1)
其中:K為數(shù)據(jù)集中CT劑量類別數(shù);yi為真實劑量標簽;pi為概率預測向量中屬于第i類劑量的概率值。
聯(lián)合損失訓練去噪網(wǎng)絡,如式(2)
L=Lmse1+Lprec+Lmse2
(2)
其中:Lmse和Lprec分別為均方差損失和感知損失;Lmse1用于監(jiān)督噪聲特征融合網(wǎng)絡的訓練;Lprec和Lmse2聯(lián)合訓練RED-CNN。
(3)
采用均方差損失和感知損失聯(lián)合訓練能夠降低圖像過渡平滑和偽影的影響,保留更多結構細節(jié)。因此,在去噪模型訓練過程中,將待預測圖像x和y目標圖像同時輸入RED-CNN的前5層自編碼網(wǎng)絡,提取深層特征表示用于計算感知損失,提出了具有稀疏特性的L1距離作為感知損失函數(shù),可表示為
(4)
其中:f(·)代表RED-CNN的前5層自編碼網(wǎng)絡,通過最小化低劑量CT圖像與全劑量CT圖像的深層特征差異,可使得去噪圖像與目標圖像在語義上更加相似。與其他研究中使用額外的感知空間不同(如使用預訓練的VGG網(wǎng)絡),提出的感知損失是在RED-CNN的編碼空間中,沒有引入額外的計算開銷。
所采用的真實CT圖像數(shù)據(jù)集源自一只死亡仔豬—piglet dataset[20],數(shù)據(jù)集作者通過控制管電流為50%、25%、10%和5%來獲得不同劑量的CT掃描圖像。每一類劑量均有850對CT圖像,每對圖像包含一幀低劑量CT圖像與對應的常規(guī)全劑量目標圖像。整個數(shù)據(jù)集包括了2 720對訓練數(shù)據(jù)集以及680對測試數(shù)據(jù)集。
整個實驗在pytorch框架下進行。在訓練過程中,batch size設置為12,epoch設置為200,所用GPU型號為GeForce RTX 3090。訓練過程中采用Adam優(yōu)化器更新模型參數(shù),初始學習率設置為10-4,采用ReduceLROnPlateau策略來更新學習率,其中factor參數(shù)設置為0.5,patience參數(shù)設置為3,最小學習率設置為10-7。
評估提出的CT圖像盲去噪網(wǎng)絡的有效性:①設計噪聲特征估計實驗,驗證噪聲估計網(wǎng)絡提取未知劑量CT圖像的噪聲特征的能力;②設計去噪實驗,將本文提出的算法與BM3D[7]、UNet[19]、RED-CNN[15]、Maryam G A[21]、Won D K[22]等5種現(xiàn)有去噪算法性能進行定性與定量的比較;③設計消融實驗,對比加入噪聲估計網(wǎng)絡以及噪聲特征融合網(wǎng)絡前后網(wǎng)絡去噪性能的差異。
3.3.1 評價指標
采用分類準確率指標Acc以及可視化噪聲特征圖來驗證噪聲估計網(wǎng)絡的有效性;采用峰值信噪比(Peak Signal-to-Noise Ratio,PSNR),結構相似性(Structural SIMilarity,SSIM),均方根誤差(Root Mean Squard Error,RMSE)3個主要圖像質量評價指標來評估網(wǎng)絡去噪性能。
假設大小均為m×n的低劑量圖像和全劑量圖像I,其均方誤差(MSE)定義為式(5),在此基礎上,PSNR定義為式(6)。
(5)
(6)
SSIM主要用于衡量低劑量圖像K和全劑量圖像I之間在亮度(luminance)、對比度(contrast)、結構(structure)上的綜合差異,式(7)~式(9)分別為亮度差異、對比度差異和結構差異的計算公式。
(7)
(8)
(9)
其中:μ為圖像像素均值;σ為圖像像素方差,為避免分母為0,c1,c2,c3為常數(shù),其中c3=c2/2。
SSIM的數(shù)學定義經(jīng)簡化后為
(10)
其中:α,β,γ均為1。
RMSE用于衡量低劑量圖像K和全劑量圖像I之間標準均方誤差,可表示為
(11)
3.3.2 噪聲特征估計實驗
首先測試了噪聲估計網(wǎng)絡的噪聲特征提取性能,實驗記錄了訓練100個epoch的分類準確率以及交叉熵損失Lce的變化曲線,見圖4。
圖4 噪聲估計網(wǎng)絡訓練100epoch的損失(紅)與準確率(藍)變化曲線
由圖4可見,紅色虛線代表訓練損失Lce,藍色虛線代表模型分類準確率Acc,隨著訓練輪數(shù)增加,Lce不斷下降,在訓練20輪epoch之后,Lce趨近于0,分類準確率Acc可以達到99%以上,表明噪聲估計網(wǎng)絡可以有效地提取未知劑量CT圖像的噪聲特征并進行準確分類。
隨機選取了測試集中兩個位置5%,10%,25%,50% 4類劑量的CT圖像用作測試。2個不同部位的CT圖像及其噪聲圖見圖5。
由圖5可見,5%~50%劑量CT圖像的噪聲逐漸減弱,噪聲估計網(wǎng)絡著重提取了各劑量CT圖像的噪聲細節(jié),實現(xiàn)對未知劑量CT圖像的噪聲估計。
圖5 不同劑量CT圖像的噪聲圖對比
3.3.3 去噪實驗
定量實驗結果:對所提出的CT圖像盲去噪網(wǎng)絡與BM3D[7]、UNet[19]、RED-CNN[15]、Maryam G A[21]、Won D K[22]等去噪算法在piglet測試集上進行橫向對比,結果見表1。
表1 本文方法與其他去噪方法性能對比
BM3D融合了空間去噪算法和頻域去噪算法,是目前效果最好的經(jīng)典算法之一;UNet整個網(wǎng)絡呈現(xiàn)U型結構,采用卷積層和上采樣層對圖像進行特征提取與恢復,是深度學習圖像處理領域重要的Baseline;RED-CNN通過在編解碼網(wǎng)絡之間增加殘差連接,進一步提升了網(wǎng)絡去噪性能;文獻[22]采用Octave卷積層同時提取圖像的高頻特征和低頻特征,保留了更多圖像重要細節(jié);文獻[21]引入了圖像邊緣特征信息,并采用均方差損失和感知損失聯(lián)合訓練的方式達到了較高的去噪水準;提出的方法由于引入了噪聲先驗特征分布,同時也采用均方差損失和感知損失聯(lián)合訓練的方式,在各劑量的去噪性能上均優(yōu)于現(xiàn)有算法。
定性實驗結果:使用不同方法對同一部位不同劑量進行去噪,其結果見圖6。由圖6可見,每張圖片右側為放大后的切片細節(jié)。BM3D對5%、10%劑量CT圖像的去噪結果圖仍包含較多噪聲,對25%、50%劑量的CT圖像則產(chǎn)生過渡平滑的現(xiàn)象,丟失了大量細節(jié)。UNet、RED-CNN出現(xiàn)較多蠟質偽影,本文所提出的方法相比于文獻[21-22],圖像細節(jié)更加清晰,能夠適應不同劑量的CT圖像去噪任務。
圖6 不同劑量CT圖像的去噪效果
3.3.4 消融實驗
為了驗證提出方法的有效性,對不同模塊對網(wǎng)絡性能的影響做了消融實驗,結果見表2。其中RED-CNN表示原去噪網(wǎng)絡訓練測試得到的實驗結果;RED-CNN-Only表示采用噪聲估計網(wǎng)絡、噪聲特征融合網(wǎng)絡以及RED-CNN訓練,測試僅采用RED-CNN的實驗結果;Our表示訓練測試均采用噪聲估計網(wǎng)絡、噪聲特征融合網(wǎng)絡以及RED-CNN的實驗結果。
由表2可見,在相同的實驗參數(shù)設置下,Our相比于RED-CNN對各類劑量CT圖像的去噪性能有大幅提升,對5%劑量CT圖像的去噪性能提高最多,PSNR和SSIM分別提升了0.771 4,0.007 4,RMSE則降低了0.368 6,證明網(wǎng)絡在訓練和測試過程中利用圖像的噪聲特征信息能夠實現(xiàn)更精準的去噪。
表2 消融實驗結果對比
另外,如RED-CNN-Only的實驗結果所示,該實驗在訓練階段考慮了噪聲先驗信息,然后在測試階段采用RED-CNN進行單獨去噪測試,在各類劑量CT圖像上的去噪性能相比于不考慮噪聲先驗信息的原網(wǎng)絡也有較大提升,由此證明加入噪聲估計網(wǎng)絡和噪聲特征融合網(wǎng)絡進行訓練能夠指導原單一去噪網(wǎng)絡獲得更好的性能。
本文主要提出CT圖像盲去噪網(wǎng)絡用于估計未知劑量CT圖像的噪聲分布,采用表征學習的方式訓練噪聲估計網(wǎng)絡,并通過可視化對比實驗證明了噪聲估計網(wǎng)絡對噪聲特征提取的有效性。將輸入圖像與所提取的噪聲圖像通過噪聲特征融合網(wǎng)絡進一步融合,采用均方差損失與感知損失聯(lián)合訓練去噪網(wǎng)絡。經(jīng)實驗證明,結合噪聲估計網(wǎng)絡和特征融合網(wǎng)絡訓練,能夠提升原去噪網(wǎng)絡的性能,通過與現(xiàn)有去噪算法的性能對比,本文所提出的整體盲去噪網(wǎng)絡對不同劑量CT圖像均取得了較好的去噪效果。