章云港, 楊劍鋒, 易本順
(武漢大學(xué) 電子信息學(xué)院, 武漢 430072)
經(jīng)過數(shù)十年的發(fā)展,CT技術(shù)已被廣泛應(yīng)用于醫(yī)學(xué)診斷中.然而,CT掃描產(chǎn)生的高劑量輻射會對病人的健康產(chǎn)生新的威脅,因此,低劑量CT成為了當(dāng)前醫(yī)學(xué)成像領(lǐng)域的重要研究方向[1].而當(dāng)輻射劑量降低時,探測器接收到的光子數(shù)也隨之減少,因此容易受到統(tǒng)計波動的影響,導(dǎo)致由投影數(shù)據(jù)重建出的CT圖像帶有明顯的噪聲與條紋偽影[2].目前,研究者針對這些問題所提出的去噪算法主要包括投影域去噪算法、圖像重建算法以及圖像域去噪算法三大類.
投影域去噪算法[3-6]與圖像重建算法[7-8]都依賴于投影數(shù)據(jù),可充分利用噪聲在投影域服從泊松分布的特性[9].但在實際應(yīng)用中,投影數(shù)據(jù)作為CT掃描儀的中間結(jié)果,通常難以被一般用戶直接獲取.圖像域去噪算法可以直接對重建后的CT圖像進行去噪而不依賴于原始的投影數(shù)據(jù),因此成為目前低劑量CT去噪領(lǐng)域的研究熱點.文獻[10]提出一種基于小波域內(nèi)統(tǒng)計建模的低劑量CT圖像去噪方法;文獻[11]和文獻[12]分別利用改進的三維塊匹配濾波算法和非局部平均算法對低劑量CT圖像進行去噪;文獻[13]通過字典學(xué)習(xí)與稀疏表示的方法去除低劑量CT圖像噪聲.由于圖像域中的噪聲統(tǒng)計特性復(fù)雜且可能伴隨著偽影,所以傳統(tǒng)的圖像域去噪方法在抑制噪聲與偽影的同時難以有效保留邊緣與細節(jié)信息.
近年來,深度學(xué)習(xí)與圖像處理的結(jié)合越來越緊密.在圖像處理中,最常用的深度學(xué)習(xí)模型是卷積神經(jīng)網(wǎng)絡(luò).該網(wǎng)絡(luò)具有強大的特征學(xué)習(xí)與映射能力,因此在去除低劑量CT圖像的復(fù)雜噪聲時比傳統(tǒng)方法更有優(yōu)勢.文獻[14]將SRCNN[15]應(yīng)用于低劑量CT圖像去噪,和傳統(tǒng)方法相比,其主觀效果與客觀指標均有所改善.文獻[16]在文獻[14]的基礎(chǔ)上做了更為詳盡的實驗與分析,充分顯示了卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于低劑量CT圖像去噪時相較于傳統(tǒng)方法的優(yōu)越性.文獻[17]進一步提出一種基于殘差編解碼結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)(Residual Encoder-Decoder Con-volutional Neural Network, RED-CNN),其實驗結(jié)果表明,RED-CNN不僅在主觀效果上,而且在峰值信噪比(Peak Signal to Noise Ratio, PSNR)與結(jié)構(gòu)相似性(Structural Similarity, SSIM)等客觀指標上優(yōu)于傳統(tǒng)方法.盡管RED-CNN在低劑量CT圖像去噪效果上達到了目前較先進的水平,但其網(wǎng)絡(luò)復(fù)雜度較高且運算耗時較長.本文提出一種改進型的殘差編解碼網(wǎng)絡(luò),與RED-CNN相比,在大幅降低了網(wǎng)絡(luò)復(fù)雜度的同時,提升了去噪效果.
文獻[17]中提出的RED-CNN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中:Conv為卷積層;Deconv為反卷積層;ReLU為修正線性單元[18];記k為卷積核尺寸,n為輸出特征圖數(shù)量,所以k5n96表示卷積核大小為5像素×5像素且輸出特征圖數(shù)量為96,以此類推.
Conv—卷積層,Deconv—反卷積層,ReLU—修正線性單元圖1 RED-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network architecture of RED-CNN
由于學(xué)習(xí)殘差比直接學(xué)習(xí)端到端映射容易[19],所以RED-CNN在對應(yīng)的卷積層與反卷積層之間加入了短連接來學(xué)習(xí)殘差.網(wǎng)絡(luò)輸入是帶噪的CT圖像,輸出是去噪的CT圖像.從輸入到輸出之間分別有5個卷積層和反卷積層,連續(xù)的卷積層、反卷積層可以看作“編碼”、“解碼”的過程.網(wǎng)絡(luò)中所有卷積層與反卷積層的卷積核大小為5像素×5像素,每個隱層的特征圖數(shù)量為96.
用于低劑量CT圖像去噪時,RED-CNN雖然可取得較好的效果,但其網(wǎng)絡(luò)復(fù)雜度較高.本文對RED-CNN進行了改進,改進后的網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,其中:BN為批量歸一化(Batch Normalization, BN)[20]層;記d為空洞卷積(Dilated Convolution)的空洞步長.新的網(wǎng)絡(luò)在降低復(fù)雜度的同時,提升了去噪效果.下文將從3個方面詳述對RED-CNN網(wǎng)絡(luò)隱層中的4個卷積層與4個反卷積層的改進.
(1) 引入批量歸一化:深度神經(jīng)網(wǎng)絡(luò)的不斷加深使得網(wǎng)絡(luò)的訓(xùn)練以及調(diào)參變得愈加困難.對此,研究者提出了許多解決方法,批量歸一化是其中比較有代表性的方法之一.它通常作用于網(wǎng)絡(luò)中的非線性映射單元之前,通過改變激活輸入值的分布,使得激活輸入值落在非線性函數(shù)對輸入比較敏感的區(qū)域,以避免梯度消失的問題.該方法具有加快收斂速度、提高網(wǎng)絡(luò)性能、對權(quán)重初始化不敏感等優(yōu)點.本文將批量歸一化引入RED-CNN中,即每個卷積層與反卷積層都緊接一個批量歸一化層.
(2) 用空洞卷積替換普通卷積:在圖像去噪中,像素點重建所依賴的上下文信息越豐富,去噪效果越好.對于卷積神經(jīng)網(wǎng)絡(luò),上下文信息的獲取范圍可以用輸出圖像中某個像素點對應(yīng)于輸入圖像中的區(qū)域,即感受野來衡量.空洞卷積的原理如圖3所示,其中(a)、(b)、(c)圖的空洞步長分別為1、2、3.顯然,在不改變卷積核參數(shù)的情況下使用空洞卷積可以增大感受野;而在保持感受野不變的情況下使用空洞卷積可以減少卷積核參數(shù).本文將每個卷積核的尺寸設(shè)為3像素×3像素,并且按順序分別使用空洞步長為1、2、2、3的空洞卷積,即它們的實際尺寸分別為3像素×3像素、5像素×5像素、5像素×5像素以及7像素×7像素,每個反卷積核的尺寸與對稱位置上的卷積核尺寸相同.與原始的RED-CNN相比,采用此網(wǎng)絡(luò)的感受野不變,但卷積核與反卷積核的參數(shù)減少.
Conv—卷積層,Deconv—反卷積層,ReLU—修正線性單元,BN—批量歸一化層圖2 改進型RED-CNN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Network architecture of improved RED-CNN
圖3 空洞卷積示意圖Fig.3 Schematic diagram of dilated convolution
(3) 優(yōu)化隱層的特征圖數(shù)量:RED-CNN將每個隱層的特征圖數(shù)量均設(shè)為96,而本文改進的網(wǎng)絡(luò)特征圖數(shù)量則隨著“編碼”的過程逐漸減少,隨著“解碼”的過程逐漸增加.從圖2中可以看出,隱層特征圖數(shù)量依次為96、80、80、64、80、80、96以及96.
使用CPU為Intel Core i7-6850K的計算機進行實驗仿真;使用型號為Nvidia GeForce GTX 1080 Ti的GPU進行加速計算.在軟件配置方面,使用Ubuntu 16.04 操作系統(tǒng),基于Caffe[21]進行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練并在MATLAB R2015b上進行測試.
TCIA(The Cancer Imaging Archive)是一個包含常見腫瘤醫(yī)學(xué)圖像及相應(yīng)臨床信息的大規(guī)模公用數(shù)據(jù)庫,本文從中選取了200幅人體不同部位、尺寸為512像素×512像素的CT圖像作為訓(xùn)練數(shù)據(jù).模擬低劑量CT圖像的方法是對原始圖像做投影變換,并在投影域中加入泊松噪聲,再通過FBP算法重建出CT圖像.開始訓(xùn)練前,使用尺寸為55像素×55像素的滑動窗,以8為滑動間隔,將帶噪CT圖像及其對應(yīng)的無噪CT圖像分割為一系列圖像塊并進行旋轉(zhuǎn)、翻轉(zhuǎn)的數(shù)據(jù)增強處理來擴充訓(xùn)練數(shù)據(jù)集,訓(xùn)練網(wǎng)絡(luò)時將這些圖像塊作為輸入.網(wǎng)絡(luò)中的權(quán)重均采用均值為0,標準差為 0.01 的高斯分布初始化,偏置均初始化為0.網(wǎng)絡(luò)損失層的損失函數(shù)為歐氏距離:
(1)
式中:L為損失值;N為網(wǎng)絡(luò)進行一次迭代訓(xùn)練輸入的圖像塊數(shù)量,本文實驗中取N=128;Yi為第i幅輸入的低劑量CT圖像塊;f(Yi)為網(wǎng)絡(luò)的輸出;Xi為對應(yīng)的正常劑量CT圖像塊.對損失函數(shù)采用Adam算法[22]進行優(yōu)化,初始學(xué)習(xí)率設(shè)為10-3,并隨著訓(xùn)練的進行逐漸下降至10-5.
將隨機選自TCIA數(shù)據(jù)集的10張圖作為測試圖,且不與訓(xùn)練用的200張圖片重復(fù),如圖4所示.圖5從左至右分別為圖4中第⑤、第⑦幅測試圖的原圖、低劑量圖、RED-CNN去噪圖和本文改進網(wǎng)絡(luò)去噪圖.
可以看出,RED-CNN與本文改進的網(wǎng)絡(luò)在去噪后的主觀效果上非常相似,都能夠較好地去除噪聲與偽影.圖6是圖5中紅色方框區(qū)域的放大圖.可以看出,相比RED-CNN,本文改進的網(wǎng)絡(luò)能更好地保留圖像的邊緣細節(jié),如箭頭所指,原圖中有明顯的邊緣分界線,RED-CNN去噪圖中的邊緣模糊不清,而本文改進網(wǎng)絡(luò)去噪圖中的邊緣則較為清晰.
圖4 測試圖Fig.4 Test images
圖6 圖5中紅色方框區(qū)域放大圖Fig.6 Zoomed parts over the region marked by the red box in the Fig.5
本文采用PSNR與SSIM作為去噪效果的客觀評價指標對圖4中的10幅圖進行測試,具體結(jié)果見表1.
可以看出,本文改進的網(wǎng)絡(luò)在大部分測試圖的客觀指標優(yōu)于RED-CNN,僅在少數(shù)測試圖上略微落后于RED-CNN.觀察所有測試圖的平均值,相比RED-CNN,改進網(wǎng)絡(luò)的PSNR值提升了 0.36 dB, SSIM值提升了 0.001 2,因此具有一定的去噪改進效果.
表1 所有測試圖的客觀評價指標Tab.1 Objective index of all the test images
本文所述網(wǎng)絡(luò)復(fù)雜度C的計算公式為
(2)
式中:nl為網(wǎng)絡(luò)第l層輸出的特征圖數(shù)量;fl為網(wǎng)絡(luò)第l層的卷積核大小.復(fù)雜度C能近似表示網(wǎng)絡(luò)中參數(shù)的數(shù)量.另外,計算耗時的測試方法為:在MATLAB上調(diào)用Caffe的forward函數(shù),對圖4中的10幅測試圖分別做正向傳播并計算其平均耗時.RED-CNN以及本文改進網(wǎng)絡(luò)的復(fù)雜度與計算耗時對比如表2所示.
可以看出,相比于RED-CNN,本文改進的網(wǎng)絡(luò)降低了約72%的復(fù)雜度,同時降低了約一半的計算耗時,明顯提高了計算速度.
表2 復(fù)雜度與計算耗時對比Tab.2 Comparison of complexity and time for calculation
本文通過批量歸一化、空洞卷積以及特征圖數(shù)量優(yōu)化的方法對RED-CNN進行改進.為了驗證這些方法的提升網(wǎng)絡(luò)去噪效果,本小節(jié)對圖2所示的網(wǎng)絡(luò)分別進行調(diào)整并對比各項評價指標的變化,實驗結(jié)果如表3所示.表中所述的調(diào)整僅針對網(wǎng)絡(luò)中部的8個隱層,即不包括第一個卷積層與最后一個反卷積層.特征圖數(shù)量結(jié)構(gòu)P-Q-P表示特征圖數(shù)量依次設(shè)為96、P、P、Q、P、P、96、96.從表中可以看出:(1)刪去批量歸一化層后,雖然計算耗時有所減少,但網(wǎng)絡(luò)去噪效果明顯下降;(2)空洞卷積通過增大感受野有效提高了網(wǎng)絡(luò)的去噪效果;(3)當(dāng)特征圖數(shù)量結(jié)構(gòu)設(shè)為96-96-96或72-48-72時,網(wǎng)絡(luò)的去噪效果下降.綜上所述,本文改進的網(wǎng)絡(luò)已在降低復(fù)雜度和提高去噪效果之間達到了較好的平衡.
表3 網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整對性能的影響對比Tab.3 Impact of network architecture changes on performance
針對傳統(tǒng)去噪方法難以有效去除低劑量CT圖像復(fù)雜噪聲的問題,本文對RED-CNN的網(wǎng)絡(luò)結(jié)構(gòu)進行了改進,提出一種改進型的殘差編解碼網(wǎng)絡(luò).改進措施主要包括:(1) 引入了批量歸一化層;(2) 使用了空洞卷積;(3) 優(yōu)化了隱層特征圖數(shù)量.改進后的網(wǎng)絡(luò)復(fù)雜度降低了72%且主客觀去噪效果均有所提高,其中平均PSNR提高了約 0.36 dB,SSIM提高了約 0.001 2.