張 碩 余世明
(浙江工業(yè)大學(xué)信息工程學(xué)院 杭州310023)
新冠肺炎(COVID-19)已經(jīng)成為全球大流行病,對全球經(jīng)濟(jì)和人類健康都產(chǎn)生了極其不利的影響。截至2020 年8 月1 日,全球累計確診病例已經(jīng)超過600 萬例。醫(yī)生需要對患者不同進(jìn)展期進(jìn)行多次電子計算機(jī)斷層掃描技術(shù)(computed tomography,CT)影像檢查隨訪對比,以便對患者的病情發(fā)展和治療效果進(jìn)行精準(zhǔn)評估。隨著確診人數(shù)不斷攀升,采用傳統(tǒng)的人工檢測肺炎CT 圖像不僅工作量巨大[1],而且也難以保證評測準(zhǔn)確性。
隨著深度學(xué)習(xí)[2-4]不斷發(fā)展進(jìn)步,依靠大數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)學(xué)習(xí),已經(jīng)廣泛應(yīng)用在醫(yī)學(xué)影像分析領(lǐng)域,并取得了良好成效[5-6]。因此使用深度學(xué)習(xí)對患者胸部肺炎CT 圖像進(jìn)行分析,從而緩解醫(yī)療資源緊張以及醫(yī)生超負(fù)荷工作等一系列問題顯得尤為重要。但是肺炎圖像中的紋理細(xì)節(jié)比較復(fù)雜,邊緣結(jié)構(gòu)也較為模糊,因此極易干擾機(jī)器以及醫(yī)生的診斷[7]。為此,本文提出一種基于多尺度并行深度可拆分卷積神經(jīng)網(wǎng)絡(luò)(multi-scale parallel deep split convolution neural network,MSP-ReCNN),對新冠肺炎CT 圖像進(jìn)行去噪處理,提升肺炎CT 圖像質(zhì)量。
本文借鑒了目標(biāo)檢測[8]中多尺度[9]提取信息的思想,在網(wǎng)絡(luò)開始訓(xùn)練階段,使用不同尺寸大小的卷積核對輸入圖像進(jìn)行卷積操作,再將提取出的特征進(jìn)行融合。接著將融合后的特征圖分別放入深通道和淺通道中進(jìn)行學(xué)習(xí)。為進(jìn)一步優(yōu)化網(wǎng)絡(luò)模型,提出了拆分卷積操作,將特征圖分為兩類,即主要關(guān)注特征和次要關(guān)注特征。
在新冠肺炎CT 圖像去噪研究中,本文主要工作如下。
(1)使用多尺度特征提取模塊,從不同尺度提取圖像特征信息。
(2)提出深、淺通道并行方式,分別提取肺炎CT 圖像中的高維和低維特征。
(3)提出一種拆分卷積操作,進(jìn)一步降低網(wǎng)絡(luò)參數(shù)量,加速模型推理速度,提升網(wǎng)絡(luò)的去噪精度。
醫(yī)學(xué)圖像去噪因其具有較高的實(shí)用價值,在過去很長一段時間均得到廣泛研究。目前醫(yī)學(xué)圖像去噪主要分為兩類方法,一類是基于傳統(tǒng)技術(shù)的圖像去噪方法,另一類是基于人工智能的去噪方法。在傳統(tǒng)圖像去噪方法中,文獻(xiàn)[10]提出一種基于隨機(jī)微分的經(jīng)驗(yàn)?zāi)B(tài)分解(empirical mode decomposition,EMD)圖像去噪算法,該方法利用隨機(jī)微分濾波策略計算出各層濾波結(jié)果,最后將結(jié)果重組得到去噪圖。文獻(xiàn)[11]和文獻(xiàn)[12]分別將離散小波技術(shù)[13]用于醫(yī)學(xué)圖像去噪,該方法計算簡單,運(yùn)行速度也較快,但對醫(yī)學(xué)圖像中存在的高斯白噪聲去除效果不好。文獻(xiàn)[14] 提出一種非局部均值(non-local mean,NLM)圖像去噪算法,該方法通過對圖像中每個像素點(diǎn)設(shè)置鄰域窗口和搜索窗口,對搜索窗口中所有像素值進(jìn)行加權(quán)平均處理,并替換原始含噪圖像中的像素值,使目標(biāo)像素值更接近周圍鄰域范圍內(nèi)的像素值。文獻(xiàn)[15]將像素離群度與NLM 相結(jié)合,提出一種CT 圖像去噪方法,可以有效地去除CT圖像中的噪聲。
傳統(tǒng)醫(yī)學(xué)圖像去噪算法雖然可以在一定程度上提升醫(yī)學(xué)圖像質(zhì)量,但是往往無法有效抑制醫(yī)學(xué)圖像中的噪聲偽影,并且在紋理細(xì)節(jié)保留情況上也做的不夠理想[16]。近些年來,深度卷積網(wǎng)絡(luò)模型被廣泛應(yīng)用在醫(yī)學(xué)圖像去噪領(lǐng)域,該模型不僅關(guān)注去噪能力,而且更關(guān)注醫(yī)學(xué)圖像紋理細(xì)節(jié)的保留情況。文獻(xiàn)[17]提出使用彈性收縮閾值作為激活函數(shù)的收縮卷積神經(jīng)網(wǎng)絡(luò)(shrinkage convolutional neural network,SCNN)模型,進(jìn)行圖像去噪。文獻(xiàn)[18]提出一種針對高斯白噪聲的去噪卷積神經(jīng)網(wǎng)絡(luò)(denosing convolutional neural network,DnCNN)模型,將殘差網(wǎng)絡(luò)和批量正則化(batch normalization,BN)技術(shù)相結(jié)合,可以有效地去除圖像中廣泛存在的高斯噪聲。文獻(xiàn)[19]借鑒了DnCNN 模型中殘差網(wǎng)絡(luò)的設(shè)計思想,使用池化層,進(jìn)一步降低了網(wǎng)絡(luò)參數(shù)量,在低劑量CT 圖像去噪問題上取得了不錯的效果。文獻(xiàn)[20,21]提出一種殘差編碼器-解碼器卷積神經(jīng)網(wǎng)絡(luò)(residual encoder-decoder convolutional neural network,RED-CNN)模型,將卷積網(wǎng)絡(luò)應(yīng)用到低劑量CT 圖像去噪問題上,與傳統(tǒng)去噪算法進(jìn)行對比,在主觀和客觀評價方面都有所提升。但是新冠肺炎圖像紋理細(xì)節(jié)較為豐富,邊緣輪廓也較為模糊,對去噪精度與準(zhǔn)確度都有非常高的要求,因此本文針對這一問題,提出了MSP-ReCNN 模型,通過多尺度和深淺通道并行的方式可以有效提取網(wǎng)絡(luò)中細(xì)節(jié)特征,提升模型去噪精度。同時使用拆分卷積方式,進(jìn)一步優(yōu)化網(wǎng)絡(luò)模型、加快模型訓(xùn)練速度、縮短去噪時間。
本節(jié)首先闡述新冠肺炎CT 圖像的去噪過程,接著,詳細(xì)介紹模型MSP-ReCNN 中重要組成模塊,最后引出模型整體結(jié)構(gòu)。
假設(shè)含噪肺炎CT 圖像為X,干凈的CT 圖像設(shè)為Y,CT 圖像中的噪聲圖像為V,可以得到式(1)如下。
在傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中,將含噪肺炎CT 圖像X作為網(wǎng)絡(luò)輸入,通過訓(xùn)練模型,直接學(xué)習(xí)從X到Y(jié)的映射模型式(2)。但是這樣直接學(xué)習(xí)網(wǎng)絡(luò)映射的方式,其模型訓(xùn)練起來十分困難,并且去噪精度也不高,為此本文使用殘差學(xué)習(xí)策略來降低網(wǎng)絡(luò)學(xué)習(xí)難度。將網(wǎng)絡(luò)的輸出與輸入構(gòu)成一個大的殘差單元,讓網(wǎng)絡(luò)實(shí)際學(xué)習(xí)到的映射如式(3)所示,即網(wǎng)絡(luò)學(xué)習(xí)的是圖像中噪聲分布圖像V。
通過殘差學(xué)習(xí)方式,可以將直接學(xué)習(xí)得到的干凈圖像映射、轉(zhuǎn)化為學(xué)習(xí)含噪肺炎圖像中的噪聲分布,降低了網(wǎng)絡(luò)學(xué)習(xí)難度,并且提升了模型去噪精度。
在卷積神經(jīng)網(wǎng)絡(luò)中,感受野是卷積神經(jīng)網(wǎng)絡(luò)中每一層輸出圖片對應(yīng)輸入圖片上的映射區(qū)域。感受野越大,關(guān)注的輸入圖片的區(qū)域也就越大。本文在圖像輸入階段,分別使用3 種不同尺度的卷積核(1 ×1、3 ×3、5 ×5)進(jìn)行特征提取工作,大的卷積核對應(yīng)的感受野也就越大,可以提取大范圍內(nèi)的特征,小的卷積核則可以提取小范圍的細(xì)節(jié)特征。
使用并行疊加的特征融合方式[22],將所有特征圖融合在一起,作為深淺通道的輸入。如圖1 所示,其中ReLU 層是激活函數(shù)層,目的是用來提高模型的非線性,如式(4)所示。
圖1 多尺度特征提取圖
在實(shí)際模型訓(xùn)練中,使用空洞步長為2 的5 ×5卷積核,在擴(kuò)大感受野的同時,保持模型參數(shù)量不變。
本文使用深淺通道并行的方式來提取新冠肺炎圖像中不同維度的特征信息。其中淺層通道由6 層神經(jīng)網(wǎng)絡(luò)構(gòu)成,主要用于提取低維度的特征信息。深層通道則由16 層神經(jīng)網(wǎng)絡(luò)構(gòu)成,用于提取高維度的特征信息。使用并行疊加的特征融合方式[23],將深淺通道信息進(jìn)行合并處理。
為進(jìn)一步優(yōu)化網(wǎng)絡(luò)模型,提出了拆分卷積操作如圖2 所示。從圖像中提出的同一層的特征圖往往會存在相似的結(jié)果,出現(xiàn)特征冗余的情況。為此,本文按照二等分的原則,將每層特征圖拆分為兩部分,進(jìn)行獨(dú)立卷積操作。使用卷積核大小為3 ×3、組數(shù)為2 的分組卷積對部分特征圖進(jìn)行分組卷積操作,得到主要關(guān)注特征。同時,對剩下的特征圖使用卷積核大小為1 ×1 的點(diǎn)卷積操作,得到次要關(guān)注特征。接著利用式(5)在特征圖UC上進(jìn)行全局平均池化操作,生成每個通道的權(quán)重初始值[24-25],分別得到S1和S2,其中H和W分別代表特征圖的高和寬。
圖2 拆分卷積操作
為了能動態(tài)地調(diào)整每個通道的權(quán)重,將生成的S1和S2堆疊一起,傳給全連接層。再使用Softmax函數(shù),重新生成主要和次要關(guān)注特征各個通道的權(quán)重α和β,如式(6)所示。
經(jīng)過拆分卷積處理后的網(wǎng)絡(luò)輸出為
如圖3 所示,模型MSP-ReCNN 的整體框架由4部分構(gòu)成。在網(wǎng)絡(luò)初始階段使用了多特征提取模塊,使用不同尺寸的卷積核多尺度地提取肺炎CT圖像中的細(xì)節(jié)特征。模型的上半部分是Sconv Block 模塊,其中Sconv 是可拆分卷積操作,BN 是批量正則化。淺通道模塊一共由6 層網(wǎng)絡(luò)構(gòu)成,每次可拆分卷積操作之后,都會跟著一個BN 和ReLU。深通道模塊一共由16 層網(wǎng)絡(luò)構(gòu)成,為降低網(wǎng)絡(luò)學(xué)習(xí)難度,首先使用殘差網(wǎng)絡(luò),將第1 層可拆分卷積處理之后的特征直接傳給第5、9、13 層。接著使用并行疊加的特征融合模塊,將深淺通道提取出的信息進(jìn)行合并。最后再使用一層卷積操作,將特征圖轉(zhuǎn)化為一層的輸出圖像。為了降低整個網(wǎng)絡(luò)的學(xué)習(xí)難度,將整個網(wǎng)絡(luò)構(gòu)成一個大的殘差單元,輸入與輸出構(gòu)成一個相減操作,這樣就使得網(wǎng)絡(luò)直接學(xué)習(xí)肺炎圖像中的噪聲分布,而不是直接學(xué)習(xí)得到干凈的去噪圖像。
圖3 MSP-ReCNN 模型
本文使用均方誤差作為模型的損失函數(shù),如式(8)所示,其中R(Xi) 代表網(wǎng)絡(luò)學(xué)習(xí)得到的殘差圖像塊,Xi -Yi代表實(shí)際殘差圖像塊,也就是標(biāo)簽。
模型MSP-ReCNN 每一層卷積核大小及輸出通道數(shù)如表1 所示。其中第1 層是多特征提取層,一共由48 個1 ×1 的卷積核、64 個3 ×3 的卷積核以及32 個5 ×5(空洞步長為2)的卷積核構(gòu)成。深淺通道中,首先使用可拆分的卷積操作,其中主要關(guān)注特征采用組數(shù)為2、38 個大小為3 ×3 的卷積操作,次要關(guān)注特征使用26 個1 ×1 大小的卷積核進(jìn)行特征補(bǔ)全操作。接著將深淺通道的各64 個特征層并行疊加在一起,經(jīng)過最后一層1 輸出通道的卷積層,得到殘差圖像塊。
表1 模型MSP-ReCNN 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
為進(jìn)一步驗(yàn)證模型MSP-ReCNN 在新冠肺炎CT圖像中的去噪效果,本文與傳統(tǒng)去噪算法NLM 以及基于神經(jīng)網(wǎng)絡(luò)的去噪模型SCNN、DnCNN 的去噪結(jié)果進(jìn)行了對比分析。同時,本文還使用模型消融實(shí)驗(yàn),探究了各個方法對去噪結(jié)果的影響。
本實(shí)驗(yàn)的配置環(huán)境為:硬件配置為Intel(R)Core(TM) i7-7700HQ,CPU 主頻為2.80 GHz,GPU配置為Nvidia GeForce GTX 1050;軟件環(huán)境為64 位Windows 操作系統(tǒng),使用Pytorch 深度學(xué)習(xí)框架,在Pycharm 平臺下進(jìn)行訓(xùn)練和測試。
本文使用COVID-CT 數(shù)據(jù)集[26],其中包含349張COVID-19 檢測呈陽性的CT 圖像,還有397 張檢測呈陰性的CT 圖像。如圖4 所示,其中圖4(a)是陽性的CT 圖像,圖4(b)是陰性的CT 圖像。該數(shù)據(jù)中肺部CT 圖像大部分都有明顯的斑片狀陰影以及毛玻璃狀的渾濁。為了能更明顯地顯示圖片中的紋理細(xì)節(jié),從數(shù)據(jù)集中剔除分辨率小于300 ×300 dpi的CT圖像,共計得到350 張圖像。本文從陽性和陰性CT 圖像中各取出15 張CT 圖像作為測試集,剩下320 張作為模型訓(xùn)練數(shù)據(jù)。同時為豐富訓(xùn)練數(shù)據(jù)及降低訓(xùn)練時間,本文對原始數(shù)據(jù)進(jìn)行切片處理,采樣圖像塊大小為100 ×100 dpi,采樣間隔為25 dpi,共計得到212 224 個圖像塊,作為干凈的原始圖像。
圖4 COVID-CT 數(shù)據(jù)集圖像
本文采用主觀以及客觀兩種評價方法對各個算法去噪后的CT 圖像進(jìn)行對比分析。其中主觀評價方法主要是通過分析去噪后圖像的整體視覺效果,以及局部紋理細(xì)節(jié)的保存情況來評價各個算法的去噪性能??陀^評價是使用一些圖像去噪鄰域中廣泛認(rèn)可的客觀評價指標(biāo),通過計算去噪后的圖像與原圖之間的差異性,來客觀地分析各去噪算法的能力。本文采用的圖像去噪指標(biāo)有峰值信噪比(peak signal to noise ratio,PSNR)、均方根誤差(root mean square error,RMSE)和結(jié)構(gòu)相似性(structual similarity,SSIM)。PSNR 和RMSE 是衡量算法去噪能力的指標(biāo),PSNR 值越高,對應(yīng)算法的去噪能力也就越好。RMSE 的值越小,則說明對應(yīng)算法去噪效果越好。SSIM 是衡量去噪前后兩張圖像的相似度,取值范圍是[0,1],其值越大,對應(yīng)算法在保存肺炎CT圖像紋理細(xì)節(jié)方面就做得越好。
如圖5 和圖6 所示,從測試集中選取了肺炎陽性CT 圖像和肺炎陰性CT 圖像各一張,并將加噪結(jié)果以及本文提出的各個算法的去噪結(jié)果進(jìn)行展示。圖5(c)和圖6(c)是NLM算法的去噪結(jié)果,可以看出,該算法去除了大部分的噪聲,但依舊有明顯的噪聲殘留。圖5(d)、6(d)和圖5(e)、6(e)分別是模型SCNN 和模型DnCNN 的去噪結(jié)果。通過與原圖對比可以發(fā)現(xiàn),兩者可以很好地去除肺炎CT 圖像中的噪聲,但在紋理細(xì)節(jié)保存方面做得不好,特別是肺間的毛玻璃紋理部分都有不同程度的模糊。圖5(f)、6(f)是本文提出的模型MSP-ReCNN 的去噪結(jié)果。與其他算法相比,模型MSP-ReCNN 無論是在去除噪聲方面,還是保留肺部間紋理細(xì)節(jié)方面都有更好的表現(xiàn)。
圖5 肺炎陽性CT 圖像去噪結(jié)果
圖6 肺炎陰性CT 圖像去噪結(jié)果
為了進(jìn)一步證明模型MSP-ReCNN 保留肺炎CT圖像紋理細(xì)節(jié)的能力,本文從測試集中選取了一張肺炎陽性CT 圖像,并且對去噪結(jié)果進(jìn)行了局部區(qū)域放大處理。圖7(d)是干凈的原始肺炎CT 局部區(qū)域放大圖像。圖7(e)對應(yīng)的是NLM 算法的去噪結(jié)果,可以看出其局部區(qū)域放大圖像塊中依舊有明顯的噪聲殘留。圖7(f)和圖7(g)分別是模型SCNN 和模型DnCNN 的去噪結(jié)果,從局部區(qū)域放大圖像中可以看出,雖然二者噪聲去除效果要好于NLM算法,但是肺部間毛玻璃結(jié)節(jié)部分的紋理結(jié)構(gòu)并沒有很好地保留。圖7(h)對應(yīng)的是模型MSP-ReCNN的去噪結(jié)果圖,可以看出其在去除噪聲的同時,保留了肺部間大量的紋理結(jié)構(gòu)細(xì)節(jié)。
圖7 肺炎陽性CT 圖像去噪結(jié)果局部區(qū)域放大
表2 是對應(yīng)去噪算法在測試集上的客觀評價指標(biāo)的平均值。從表中可以看出,模型MSP-ReCNN的客觀評價指標(biāo)相較于NLM 算法、模型SCNN 和模型DnCNN,都有明顯提升。其PSNR 值比NLM 算法、模型SCNN 和模型DnCNN 分別提高了4.0301 dB、0.4092 dB 和0.2679 dB,SSIM 值則分別提高了0.1201、0.0484 和0.0252。這從客觀評價方面證明了模型MSP-ReCNN 在去除噪聲以及保留紋理細(xì)節(jié)方面的能力。
表2 測試集客觀評價指標(biāo)的平均值
為了進(jìn)一步探究本文提出的多尺度特征提取模塊、深淺通道并行策略,以及可拆分卷積操作對模型MSP-ReCNN 帶來的影響,本節(jié)分別將默認(rèn)的網(wǎng)絡(luò)結(jié)構(gòu)做如下改動。
(1)將可拆分卷積全部替換回普通的卷積操作,得到“Without Sconv”模型。
(2)將6 層的淺通道模塊全部移除,得到“Without shallow channel”模型。
(3)將特征提取模塊從默認(rèn)網(wǎng)絡(luò)中移除,得到“Without multiscale moudle”模型。
表3 是修改默認(rèn)網(wǎng)絡(luò)模型后,對應(yīng)的各個模型在測試集上的客觀評價指標(biāo)的平均值。從表中可以看出,本文提出的3 種去噪結(jié)構(gòu)對模型去噪結(jié)果都有一定程度的提升。其中可拆分卷積操作可以將PSNR 提升0.5648 dB,深淺通道并行策略可以提升0.4611 dB,多尺度特征提取模塊可以提升0.2461 dB。SSIM 值則分別提升了0.0688、0.0319 和0.0103。這說明3 種去噪結(jié)構(gòu)對改善模型的去噪準(zhǔn)確度和精度都有積極的作用。
表3 不同網(wǎng)絡(luò)結(jié)構(gòu)的對比
圖8 所示是各個模型訓(xùn)練誤差隨訓(xùn)練步長變化的曲線圖。平滑曲線對應(yīng)的是模型MSP-ReCNN 的訓(xùn)練變化圖,下三角標(biāo)記和圓形標(biāo)記的曲線分別對應(yīng)的是去掉淺通道和去掉拆分卷積后的模型訓(xùn)練變化圖,菱形標(biāo)記的曲線是去掉特征提取模塊后的訓(xùn)練誤差變化曲線。從圖中可以看出,下三角標(biāo)記和圓形標(biāo)記的曲線在訓(xùn)練過程中穩(wěn)定性不好,波動范圍較大,并且損失函數(shù)值也較高。菱形標(biāo)記的曲線在訓(xùn)練剛開始波動較大,之后才慢慢趨于穩(wěn)定。模型MSP-ReCNN 對應(yīng)的平滑曲線下降速度最快,收斂時間也最短,由此說明,本文提出的3 種網(wǎng)絡(luò)結(jié)構(gòu)可以加快網(wǎng)絡(luò)的訓(xùn)練和收斂速度,同時模型的魯棒性也比較好。
圖8 各個模型訓(xùn)練誤差變化曲線
為了能在去除新冠肺炎CT 圖像噪聲的同時,盡可能地保留圖像中的紋理結(jié)構(gòu)細(xì)節(jié),本文設(shè)計了一種基于多尺度并行深度可拆分卷積神經(jīng)網(wǎng)絡(luò)MSP-ReCNN。通過對比實(shí)驗(yàn)結(jié)果可以看出,相較于其他對比算法,模型MSP-ReCNN 無論是在主觀視覺效果還是客觀評價指標(biāo)方面都有更好的表現(xiàn)。同時,通過網(wǎng)絡(luò)消融實(shí)驗(yàn)可以證明,本文提出的多尺度特征提取模塊以及深淺通道并行策略,可以更好地提取肺炎CT 圖像中的紋理結(jié)構(gòu)細(xì)節(jié),去噪準(zhǔn)確度和精度也有進(jìn)一步提升。拆分卷積操作進(jìn)一步降低了網(wǎng)絡(luò)模型的參數(shù)量,并且改善了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)中特征冗余的情況,加速了網(wǎng)絡(luò)的訓(xùn)練以及收斂速度??傮w實(shí)驗(yàn)說明,模型MSP-ReCNN 可以更快更好地完成肺炎CT 圖像去噪任務(wù),在新冠肺炎蔓延全球之際,可以提升肺炎CT 圖像質(zhì)量,輔助機(jī)器以及醫(yī)護(hù)人員完成更精準(zhǔn)的診斷。在未來的研究規(guī)劃中,會繼續(xù)研究三維立體的肺炎CT 圖像去噪以及真實(shí)含噪肺炎CT 圖像去噪問題。