熊景琦,桑慶兵,胡聰
(江南大學(xué) 人工智能與計算機學(xué)院,江蘇 無錫 214122)
近年來,計算機斷層掃描(Computer Tomography,CT)成像技術(shù)成為醫(yī)學(xué)診斷和治療中不可或缺的影像學(xué)手段[1]。然而,CT 掃描產(chǎn)生的電離輻射會對患者的身體產(chǎn)生危害,甚至可能引發(fā)癌變。在臨床醫(yī)學(xué)中,應(yīng)盡可能減少輻射,同時確??山邮艿脑\斷準(zhǔn)確性,因此,低劑量CT(Low-Dose CT,LDCT)掃描應(yīng)運而生。但是,輻射劑量的降低往往會造成重建圖像中的斑紋噪聲和非平穩(wěn)條紋偽影增大,導(dǎo)致圖像質(zhì)量下降,從而影響臨床診斷[2]。
為了提高圖像質(zhì)量,LDCT 圖像去噪成為醫(yī)學(xué)成像領(lǐng)域的一個重要研究方向,許多算法被提出用以改進低劑量CT 圖像,這些算法通常被分為三類,分別為投影域正弦圖過濾、迭代重建和后處理。前兩種算法基于投影域數(shù)據(jù),其數(shù)據(jù)往往不公開,使得研究難度提高,這也造成實際應(yīng)用中的瓶頸,而后處理方法直接對重建后的低劑量CT 圖像進行處理,不依賴原始投影數(shù)據(jù),為研究帶來了諸多方便。
傳統(tǒng)的后處理算法,如非局部均值(Non-Local Mean,NLM)[3]、塊匹配(Block-Matching,BM3D)算法[4-5]等,計算效率較高,可以顯著提高圖像質(zhì)量。然而,重建后的低劑量CT 圖像中的噪聲往往呈非均勻分布,傳統(tǒng)的后處理算法不能完全解決處理后圖像中存在的過平滑、殘留偽像、引入新噪聲等問題。
近年來,基于深度學(xué)習(xí)的方法在圖像去噪任務(wù)中取得了令人矚目的成績[6]。深度學(xué)習(xí)方法通過最小化去噪圖像與清晰圖像之間的距離,采用外部先驗知識和由數(shù)據(jù)集指導(dǎo)的監(jiān)督訓(xùn)練策略。使用卷積神經(jīng)網(wǎng)絡(luò)的LDCT 去噪方法不依賴大量的投影數(shù)據(jù),而直接在CT 數(shù)據(jù)的圖像域中執(zhí)行,可以自動提取CT 圖像的潛在特征,并充分利用非局部相似性的先驗知識,在應(yīng)用中非常方便。DONG等[7]提出一種用于CT 圖像去噪的超分辨率卷積神經(jīng)網(wǎng)絡(luò)(SRCNN)。此后,基于殘差編解碼器的網(wǎng)絡(luò)模型RED-CNN[8]被提出用于低劑量CT圖像恢復(fù)。章云港等[9]使用空洞卷積改進RED-CNN網(wǎng)絡(luò),使得去噪效果得到進一步提升。由于CNN 具有強大的特征學(xué)習(xí)和特征映射能力[10],因此基于CNN 的圖像降噪方案取得了顯著效果。然而,訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)需要大量干凈-噪聲圖像對,而收集CT 圖像數(shù)據(jù)成本昂貴并且耗時。在實際應(yīng)用中,很難構(gòu)建足夠大、能滿足CNN 充足訓(xùn)練要求的數(shù)據(jù)集,數(shù)據(jù)集較小常會引起訓(xùn)練不充分、網(wǎng)絡(luò)欠擬合等問題,從而導(dǎo)致去噪效果降低,出現(xiàn)圖像失真。此外,文獻(xiàn)[11-13]的研究表明,以往方法中使用均方誤差(Mean Squared Error,MSE)損失來最小化所生成的去噪圖像與正常劑量CT 圖像之間的距離,傾向于生成過度平滑的圖像。而GOODFELLOW 等[14]提出的生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)可以直接學(xué)習(xí)噪聲分布,在重建圖像細(xì)節(jié)上有巨大優(yōu)勢,但GAN 也存在網(wǎng)絡(luò)訓(xùn)練困難和梯度消失的問題。為了解決這一問題,引入Wasserstein 距離來衡量生成圖像與真實圖像分布差異的WGAN(Wasserstein GAN)[15]網(wǎng)絡(luò)被引入到LDCT 圖像去噪任務(wù),其重建后的圖像具有較好的視覺效果。進一步,YANG等[11]提出將感知損失引入WGAN 的方法,該方法在圖像細(xì)節(jié)保留和解決邊緣過平滑問題方面表現(xiàn)出色。LI等[13]使用自監(jiān)督方法訓(xùn)練感知損失網(wǎng)絡(luò)并引入自注意力機制用于低劑量CT圖像去噪,去噪后圖像質(zhì)量有了顯著提升??紤]到配對數(shù)據(jù)難以獲取,朱斯琪等[16]通過改進循環(huán)一致性生成對抗網(wǎng)絡(luò),在無監(jiān)督的情況下實現(xiàn)了LDCT 圖像的降噪保邊及紋理改善。
以往的研究僅利用推斷條件后驗概率p(x|y)來實現(xiàn)低劑量CT 圖像修復(fù),由于數(shù)據(jù)稀缺,導(dǎo)致模型訓(xùn)練不夠完全,在建模復(fù)雜的真實噪聲分布時算法并不能發(fā)揮最好效果。YUE等[17]提出一種雙重對抗網(wǎng)絡(luò)(Dual Adversarial Network,DANet)框架,通過圖像去噪和噪聲生成2 個角度來聯(lián)合建模干凈-噪聲圖像對的聯(lián)合分布p(x,y),為圖像去噪提供了新的思路。受此啟發(fā),本文構(gòu)建一種雙重對抗網(wǎng)絡(luò)去噪模型,以解決CT 圖像修復(fù)問題。雙重對抗網(wǎng)絡(luò)的聯(lián)合學(xué)習(xí)能讓圖像去噪和噪聲生成相互指導(dǎo)從而實現(xiàn)更好的去噪效果。同時,設(shè)計一種Res-Unet殘差學(xué)習(xí)網(wǎng)絡(luò)來實現(xiàn)去噪和噪聲生成任務(wù),殘差塊的引入能讓網(wǎng)絡(luò)保留更多的圖像細(xì)節(jié)。為了使得去噪效果更符合人體視覺特性,提出一種加權(quán)混合損失函數(shù)來優(yōu)化網(wǎng)絡(luò),該損失函數(shù)包括對抗損失、感知損失和最小絕對偏差(Least Absolute Deviation,L1)損失。為了更好地計算感知損失,提出一種掩膜自監(jiān)督方法訓(xùn)練一個針對CT 圖像的感知損失模型,在該過程中,設(shè)計一種自編碼器(AutoEncoder,AE)模型作為感知損失網(wǎng)絡(luò)來提取特征圖從而計算感知損失,并使用掩膜自監(jiān)督方法針對CT 圖像域訓(xùn)練模型,以更好地提取CT 圖像特征編碼。
假設(shè)y為帶有噪聲的低劑量CT圖像,y∈RN×N,x為清晰的常規(guī)劑量圖像,x∈RN×N。對于低劑量CT 圖像去噪,常規(guī)去噪方法在最大后驗估計框架下利用條件后驗概率p(x|y)來推斷清晰圖像x,即:
不同于常規(guī)方法直接學(xué)習(xí)y→x的映射,雙重對抗模型去噪方法對干凈-噪聲圖像對的潛在聯(lián)合分布p(x,y)進行建模,從而達(dá)到去噪效果,其從圖像去噪和噪聲生成2 個不同的角度對聯(lián)合分布p(x,y)進行分解。
在貝葉斯框架下,去噪任務(wù)可視為推斷條件分布p(x|y),在該任務(wù)中,學(xué)習(xí)到的去噪器R 表示一個隱式分布pR(x|y),以近似于真實分布p(x|y)。R 的輸出可以得到一個偽干凈的圖像對(,y),可以看作這個隱式分布pR(x|y)的采樣圖像,如式(2)所示:
對于CT 圖像,其噪聲往往是隨機產(chǎn)生的,分布不均。因此,噪聲生成任務(wù)通過引入隨機噪聲變量z來實現(xiàn)從清晰圖像x到噪聲圖像y的映射,生成任務(wù)可視為推斷條件分布p(y|x,z)。與式(2)相同,通過生成器G可以得到一個虛假噪聲對(x,),如下:
在生成任務(wù)中,生成器G的輸出可以看作pG(y|x,z)的采樣,則生成器的輸出G(x,z)可以表示為隱式分布pG(y|x,z),使用生成器G 生成的隱式分布pG(y|x,z)去近似真實分布p(y|x,z),將隱變量z邊緣化以獲得偽聯(lián)合分布pG(x,y),作為近似真實聯(lián)合分布p(x,y):
其中:p(z)表示隱變量z的分布,可以將其設(shè)置為均值為0 的高斯分布N(0,I)。同理,生成器生成的噪聲圖片越逼真,偽聯(lián)合分布pG(x,y)逼近真聯(lián)合分布p(x,y)就越準(zhǔn)確。
雙重對抗網(wǎng)絡(luò)模型包含去噪器R、生成器G 以及鑒別器D,整體架構(gòu)如圖1 所示,其中:y表示觀測到的低劑量CT 圖像;x表示正常劑量CT 圖像;~分別為去噪器和生成器生成的圖像。模型輸入為干凈-噪聲(cleannoise)圖像對,經(jīng)過去噪器R 和生成器G 得到去噪后的圖像和生成的偽低劑量CT 圖像,與原始干凈噪聲圖像構(gòu)成偽圖像對,再送入鑒別器進行聯(lián)合對抗訓(xùn)練,然后從圖像去噪和噪聲生成2 個角度來近似干凈-噪聲圖像對的聯(lián)合分布p(x,y)。此外,由于生成器和去噪器任務(wù)目標(biāo)不同,因此采用不同的損失函數(shù)來優(yōu)化網(wǎng)絡(luò)。學(xué)習(xí)完成的去噪器R 可以直接用于LDCT 去噪,而生成器可以生成更多的干凈-噪聲圖像對用于數(shù)據(jù)增強。由于深度學(xué)習(xí)具有強大的擬合能力,因此R、G、D 均采用深度學(xué)習(xí)網(wǎng)絡(luò)來實現(xiàn)。
圖1 雙重對抗網(wǎng)絡(luò)模型框架Fig.1 Dual adversarial network model framework
生成器G 和去噪器R 都使用本文設(shè)計的Res-Unet網(wǎng)絡(luò)來實現(xiàn),在不同任務(wù)中具有不同的優(yōu)化目標(biāo)。對于低劑量CT 圖像去噪任務(wù),從噪聲圖像恢復(fù)出潛在的清晰圖像。Res-Unet網(wǎng)絡(luò)的編解碼結(jié)構(gòu)在圖像去噪中具有優(yōu)勢,因此,去噪器R 可以直接學(xué)習(xí)噪聲圖像到清晰圖像的映射。對于噪聲生成任務(wù),由于噪聲信息與清晰圖像信息相比學(xué)習(xí)難度更低,且網(wǎng)絡(luò)學(xué)習(xí)到的噪聲分布可以很容易地合成LDCT 圖像,因此,使用殘差學(xué)習(xí)[18]策略,讓生成器G 學(xué)習(xí)噪聲圖像與清晰圖像的殘差(即v=y-x所得到的噪聲)。去噪器R 和生成器G 最終目標(biāo)分別如下:
其中:Res-Unet(·)表示Res-Unet網(wǎng)絡(luò)的輸出函數(shù);[·,·]表示聯(lián)合(Concatenation)操作。
考慮到CT 圖像的數(shù)量相對于自然圖像要少,獲得有臨床意義的標(biāo)簽的難度更大,因此,用于CT 圖像的網(wǎng)絡(luò)模型應(yīng)選用輕量化模型。Unet[19]架構(gòu)在醫(yī)學(xué)圖像處理中取得了非常好的效果,其模型參數(shù)量可以通過更改模型層數(shù)以及每層的通道數(shù)來降低,與其他模型相比更為輕量級。
如圖2 所示,本文設(shè)計的Res-Unet 是在Unet 的基礎(chǔ)上進行改進的,Res-Unet 保留Unet 的編碼解碼結(jié)構(gòu)和跳躍連接部分,具體改進如下:
1)對于編碼器部分,Res-Unet利用5 個下采樣層來實現(xiàn)特征提取。由于Unet中常規(guī)卷積下采樣過程會丟失部分重要的圖像信息,因此將其中4 個卷積層使用Res-blocks 殘差塊[20]來代替常規(guī)卷積操作從而提取圖像特征。Res-blocks 由于加入了恒等連接,可以有效防止卷積操作帶來的信息丟失。此外,卷積后的池化操作同樣會損失部分圖像結(jié)構(gòu)細(xì)節(jié),這對像素級任務(wù)影響較大,并且導(dǎo)致對抗網(wǎng)絡(luò)訓(xùn)練不穩(wěn)定。因此,本文使用卷積核為4×4、步長為2、填充為1 的卷積操作代替卷積后的池化操作。
2)對于解碼器部分,采用和編碼器相對稱的5 次上采樣來重建圖像以保持圖像大小不變,上采樣結(jié)構(gòu)如圖2 中Up sampling 所示。將圖像特征采用轉(zhuǎn)置卷積操作來恢復(fù)圖像細(xì)節(jié)。此外,通過跳躍連接將同尺度的下采樣特征進行融合,從而減少信息丟失,保存圖像細(xì)節(jié)。
圖2 Res-Unet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Res-Unet network structure
在雙重對抗網(wǎng)絡(luò)中,鑒別器D 與去噪器R 和生成器G 對抗訓(xùn)練,其對圖像去噪效果和生成的噪聲圖像質(zhì)量起著至關(guān)重要的作用,能夠引導(dǎo)去噪器和生成器往正確的方向訓(xùn)練??紤]到CT 圖像包含豐富的細(xì)節(jié)信息,圖像敏感度高,本文設(shè)計如圖3 所示的鑒別器體系結(jié)構(gòu),其輸入為512×512×2 的級聯(lián)圖像對(x,y),其中包括4 個跨步卷積層用來減小圖像尺寸并提取特征,以及包含1 個全連接層用來融合所提取的特征,模型最后輸出標(biāo)量。
圖3 鑒別器網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Discriminator network structure
為了更加有效地訓(xùn)練去噪器R 和生成器G,從而更好地估計聯(lián)合分布p(x,y),提高雙重對抗網(wǎng)絡(luò)的降噪性能,本文借鑒Triple-GAN[21]所使用的雙重對抗訓(xùn)練策略,針對不同任務(wù)采用不同的損失函數(shù)。
本文引入WGAN 網(wǎng)絡(luò)中使用的Wasserstein 距離來計算2 個真實圖像對和生成的偽圖像對的分布差值,使得對抗模型訓(xùn)練更加穩(wěn)定。定義如下對抗損失將pR(x,y)和pG(x,y)逐漸推向真實分布p(x,y):
其中:=R(y),=G(x,z);D 為鑒別器,用于將真實的干凈-噪聲圖像對(x,y)和生成的假圖像對(,y)、(x,)區(qū)分開來;超參數(shù)α用于控制生成器G 和去噪器R 的相對重要性。
對于CT 圖像而言,保證病理診斷中圖像的重要特征非常有必要。使用最小化去噪圖像與清晰圖像之間距離的MSE 損失,往往會讓學(xué)習(xí)到的模型生成過度平滑的圖像并且丟失紋理細(xì)節(jié)[22],MSE 被證明與人類對圖像質(zhì)量的感知相關(guān)度較差,其忽略了對人類感知至關(guān)重要的圖像的紋理和特征[23]。感知損失可以學(xué)習(xí)語義特征差異,其相比MSE 損失可以重建更多細(xì)節(jié)和邊緣信息。WGAN-VGG[11]使用一種VGG-Loss 來替代MSE-Loss,用于計算網(wǎng)絡(luò)輸出的常規(guī)劑量CT(Normal Dose CT,NDCT)圖像和真實圖像之間的距離。但是,VGG 網(wǎng)絡(luò)是在自然圖像數(shù)據(jù)集中的分類任務(wù)中通過預(yù)訓(xùn)練得到,VGG 特征提取模型可能會提取到與CT 圖像無關(guān)的特征信息,這會為模型優(yōu)化帶來干擾。
本文設(shè)計一種圖4 所示的針對CT 圖像提取語義特征的自動編碼器網(wǎng)絡(luò),該網(wǎng)絡(luò)包含一組對稱的編碼器子網(wǎng)絡(luò)和解碼器子網(wǎng)絡(luò),通過編碼器來提取輸入圖像的高級語義特征用于計算感知損失。
圖4 自監(jiān)督的自動編碼器網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of self-supervised autocoder
在預(yù)訓(xùn)練感知損失網(wǎng)絡(luò)時,常規(guī)方法設(shè)定目標(biāo),讓模型在像素級上精確重構(gòu)輸入,這樣訓(xùn)練出來的模型會過多關(guān)注像素級別的細(xì)節(jié)而忽略了更為重要的語義特征。何凱明[24]提出一種非常簡單且高效的自監(jiān)督方案,其對輸入圖像塊進行隨機掩膜,隨后對缺失像素進行重建的自監(jiān)督輔助方法在各種視覺任務(wù)中均取得了較好的效果。受此啟發(fā),本文使用掩膜自監(jiān)督的策略針對CT 圖像域來訓(xùn)練模型,其自監(jiān)督任務(wù)是對正常劑量CT 圖像中隨機的75%區(qū)域進行高斯噪聲掩膜,然后讓自編碼網(wǎng)絡(luò)來復(fù)原正常劑量CT 圖像。自監(jiān)督的目標(biāo)是重構(gòu)清晰輸入,讓模型從輸入的被高斯噪聲掩膜后的CT 圖像中提取特征編碼,然后將其重構(gòu)為與原始圖像最為接近的無噪聲CT 圖像。自監(jiān)督學(xué)習(xí)可以在無標(biāo)注的情況下學(xué)習(xí)到圖像表征,本文所使用的掩膜自監(jiān)督學(xué)習(xí)策略能讓預(yù)訓(xùn)練的AutoEncoder 提取到CT圖像的高級語義特征。
感知損失通過計算編碼特征差異來實現(xiàn),其表達(dá)式如下:
其中:φ是自動編碼器的編碼部分,用于特征提??;w、h、d分別為特征圖的寬度、高度和維度;定義為L1正則化。
文獻(xiàn)[25-26]研究表明,將對抗損失和傳統(tǒng)損失混合可以加快和穩(wěn)定GAN 網(wǎng)絡(luò)的訓(xùn)練,因此,本文在去噪任務(wù)中加入L1損失,其定義如下:
對于生成任務(wù),由于實際噪聲具有隨機性,直接使用L1損失不適用,因此對噪聲分布的統(tǒng)計信息利用L1損失,具體如下:
其中:GF(·)表示提取噪聲一階統(tǒng)計信息的高斯濾波器。
本文雙重對抗模型最終損失目標(biāo)如下:
其中:τ1、τ2、τ3和τ4均為超參數(shù),用來平衡不同損失的權(quán)重。
為了評估本文所提算法在低劑量CT 圖像去噪任務(wù)中的性能,在Mayo 數(shù)據(jù)集上[27]進行實驗,該數(shù)據(jù)集是Mayo Clinic 授權(quán)的“2016 年NIH-AAPMMayo 診所低劑量CT 大挑戰(zhàn)”的臨床數(shù)據(jù)集,通常作為評估CT 重建和去噪技術(shù)的標(biāo)準(zhǔn)參考數(shù)據(jù)集。Mayo 包括299 例病人頭部、胸部和腹部X 射線投影圖像,所有病例都包含常規(guī)劑量CT 和模擬常規(guī)劑量25% 和10% 的低劑量CT 圖像,圖像大小為512×512 像素。實驗從數(shù)據(jù)集中抽取2 062 例圖像對(每例包含NDCT 圖像和對應(yīng)的LDCT 圖像作為干凈-噪聲圖像對),其中,80%的圖像對作為訓(xùn)練集,將剩余20%的CT 圖像對作為測試集。
實驗所使用的設(shè)備是Window10 環(huán)境,Intel?CoreTMi7-8700K @ 3.70 GHz,英偉達(dá)GTX 1080(8 GB 顯存),16 GB 內(nèi)存,所有模型訓(xùn)練均使用Pytorch 實現(xiàn),利用GPU 訓(xùn)練模型。在訓(xùn)練過程中,生成器G、去噪器R 和鑒別器D 的初始學(xué)習(xí)率分別為0.001、0.001、0.002,以Adam為優(yōu)化函數(shù),R和G的動量項分別設(shè)為(0.9,0.999)和(0.5,0.9),batch size 設(shè)置為8。參考文獻(xiàn)[28]對混合損失函數(shù)的權(quán)重設(shè)置,對抗損失τ1、感知損失τ2、L1損失τ3和生成器噪聲統(tǒng)計約束損失τ4的權(quán)重分別設(shè)置為1、100、100 和10。對抗損失中α設(shè)定為0.5,表明去噪器和生成器同等重要。迭代訓(xùn)練70輪,選取效果最好的模型,使用該模型的去噪器R 在測試集上測試去噪性能。此處,將結(jié)合感知損失聯(lián)合訓(xùn)練完的雙重對抗網(wǎng)絡(luò)表示為DANet-AE,DANet網(wǎng)絡(luò)中生成器G 可以合成更多的偽LDCT-NDCT 圖像對,從而對去噪器進行再訓(xùn)練,將再訓(xùn)練后的網(wǎng)絡(luò)稱為DANet-AE+。
峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)[29]和結(jié)構(gòu)相似性(Structural Similarity,SSIM)[30]是圖像去噪領(lǐng)域常用的客觀評估指標(biāo)。
PSNR 值越大,表明降噪圖像中需要被保留的生理信息與需要被抑制的噪聲信息之比越大,降噪圖像質(zhì)量越高。在圖像質(zhì)量評價領(lǐng)域,文獻(xiàn)[31-32]研究表明,PSNR 并未考慮人眼的視覺特性,因此,經(jīng)常出現(xiàn)評價結(jié)果與人主觀感覺不一致的情況??紤]到PSNR和SSIM 更加關(guān)注像素間的差距,缺乏視覺效果,本文新增梯度幅相似性偏差(Gradient Magnitude Similarity Deviation,GMSD)[31]和平均偏差相似指數(shù)(Mean Deviation Similarity Index,MDSI)[32]這2 個在參考圖像質(zhì)量評價中更關(guān)注人眼視覺效果的指標(biāo),以共同評估算法的去噪性能。
本節(jié)從定性和定量2 個方面將本文算法與當(dāng)下流行的LDCT 圖像去噪算法進行比較,對比算法包括基于先驗特征的傳統(tǒng)去噪算法BM3D[4]、基于殘差自編碼器神經(jīng)網(wǎng)絡(luò)的去噪算法RED-CNN[8]、基于生成對抗網(wǎng)絡(luò)并帶有感知損失的算法WGAN-VGG[11]、引入自注意力機制和感知損失的算法SACNN[13]以及使用雙重對抗網(wǎng)絡(luò)的算法DANet[17],所有深度學(xué)習(xí)算法均在相同訓(xùn)練集上重新訓(xùn)練而得到,評估其在測試集上的去噪性能。
4.2.1 去噪效果定性分析
圖5 所示為來自測試集的腹部低劑量CT 圖像在不同算法下去噪的可視化結(jié)果,其中,關(guān)鍵區(qū)域(ROI)在下方被放大。通過圖5(a)和圖5(b)可以看出,由于低劑量CT 圖像入射X 射線光子不足,導(dǎo)致圖像退化嚴(yán)重,低劑量CT 圖像結(jié)構(gòu)和細(xì)節(jié)很難看清。對比去噪后的圖像與LDCT 圖像可以看到,所有算法均在一定程度上抑制了噪聲。從圖5(c)可以看到,經(jīng)過BM3D[4]去噪后的圖像濾波效果很好,圖像平滑噪點較少,但是CT 圖像噪聲分布不均,傳統(tǒng)算法存在明顯的塊狀效應(yīng),細(xì)節(jié)丟失嚴(yán)重,邊緣和小的結(jié)構(gòu)變得模糊。從圖5(d)~圖5(h)可以看到,深度學(xué)習(xí)算法降噪效果明顯超過BM3D,其中,REDCNN[8]由于使用MSE 作為損失函數(shù),去噪后的圖像的噪聲抑制效果較好,但是丟失了高頻信息,圖像過度平滑,WGAN-VGG[11]使用VGG 感知損 失解決了過平滑問題,保留了圖像大部分紋理,但是也有部分噪聲和偽影殘留下來。從圖5(f)可以看到,SACNN使用自監(jiān)督方法針對CT 域訓(xùn)練感知損失網(wǎng)絡(luò),能夠極大保留圖像特征,在降噪效果上具有一定優(yōu)勢,與本文算法具有相似的去噪效果。從圖5(g)可以看出,DANet[17]與上述算法相比噪聲較少,但仍然存在邊緣細(xì)節(jié)丟失問題。從圖5(h)可以看出,本文算法使用改進的Res-Unet 作為去噪骨干網(wǎng)絡(luò)并加入感知損失,偽影噪聲抑制效果最佳,且保留了更豐富的內(nèi)容細(xì)節(jié)和紋理信息,去噪后的圖像更接近正常劑量CT 圖像。
圖5 不同算法對腹部CT 圖像的去噪結(jié)果Fig.5 Denoising results of abdominal CT images by different algorithms
4.2.2 去噪效果定量分析
表1 所示為當(dāng)下流行的LDCT 去噪算法和本文算法在測試集上的PSNR、SSIM、GMSD 和MDSI 量化指標(biāo)結(jié)果,其中,PSNR、SSIM 指標(biāo)值越大越好,GMSD、MDSI 指標(biāo)值越小越好。從表1 可以看出:
表1 不同算法在CT 圖像測試集上的量化結(jié)果 Table 1 Quantization results of different algorithms on CT image test set
1)傳統(tǒng)BM3D 算法是一種非局部去噪方法和轉(zhuǎn)換方法的結(jié)合,在圖像中尋找相似塊進行濾波,可以最大程度地保留圖像結(jié)構(gòu)信息,其SSIM 有較好結(jié)果,表明算法在整體圖像結(jié)構(gòu)上保存完好,但是在其他量化指標(biāo)上并未取得令人滿意的效果。
2)深度學(xué)習(xí)網(wǎng)絡(luò)具有強大的擬合能力,其降噪性能優(yōu)于傳統(tǒng)BM3D 算法,對噪聲抑制效果較好。
3)MSE 損失專注于最小化像素級的平均損失,而PSNR計算依賴MSE,因此,使用MSE損失訓(xùn)練的REDCNN 算法在PSNR 指標(biāo)上有較好結(jié)果,但是這往往也會產(chǎn)生過平滑問題。WGAN-VGG 和SACNN 由于使用感知損失,其去噪結(jié)果更符合人眼感知特性,GMSD和MDSI 指標(biāo)有較好表現(xiàn)。
4)本文DANet-AE+算法采用混合損失函數(shù)優(yōu)化模型,且雙重對抗網(wǎng)絡(luò)訓(xùn)練好的生成器可以合成更多的干凈-噪聲圖像對,對原始數(shù)據(jù)集做數(shù)據(jù)增強后對去噪器R 進行再訓(xùn)練,可以進一步提升去噪性能,因此,本文算法的PSNR、SSIM、GMSD 和MDSI 均取得了最好結(jié)果。結(jié)合主觀分析和量化結(jié)果可以得出,本文算法的降噪性能優(yōu)于其他算法。
低劑量CT 圖像重建質(zhì)量在很大程度上受到損失函數(shù)的影響,本節(jié)設(shè)置不同損失函數(shù)來訓(xùn)練網(wǎng)絡(luò),對比它們在LDCT 圖像去噪方面的表現(xiàn)。圖6 和表2 展示了不同損失函數(shù)的去噪可視化效果和量化指標(biāo),其中:Res-Unet-MAE 表示僅使用L1損失進行訓(xùn)練;Res-Unet-AE 表示僅使用感知損失進行訓(xùn)練;DANet-A 表示僅使用對抗損失進行訓(xùn)練;DANet-B 表示使用對抗損失和L1損失進行訓(xùn)練;DANet-AE 表示使用混合損失進行訓(xùn)練。從圖6 可以看出,L1損失可以產(chǎn)生更加清晰的圖像,但是其同樣有著邊緣紋理被過度平滑的缺陷,對抗損失可以保留較多的細(xì)節(jié),但對偽影抑制不明顯,而感知損失使邊緣更加明顯,極大保留了圖像紋理細(xì)節(jié),但其容易導(dǎo)致豎紋,混合損失可以在顯著抑制噪聲偽影的同時保留更多的圖像細(xì)節(jié)和結(jié)構(gòu)。從表2 可以看出,由于SSIM、PSNR 更注重像素級差距,因此優(yōu)化L1損失的模型在PSNR 指標(biāo)上有最好結(jié)果,但這不能表明其擁有最好的去噪質(zhì)量。GMSD 和MDSI 指標(biāo)更注重符合人類視覺系統(tǒng)的感知認(rèn)知,而從表2 中的GMSD和MDSI 指標(biāo)可以看到,使用混合損失訓(xùn)練的模型所恢復(fù)的CT 圖像具有更高的質(zhì)量,更符合人眼視覺認(rèn)知特性。
圖6 不同損失函數(shù)的去噪結(jié)果比較Fig.6 Comparison of denoising results of different loss functions
表2 不同損失函數(shù)在測試集上的量化結(jié)果 Table 2 Quantization results of different loss functions on test set
為了進一步驗證DANet-AE 去噪算法的有效性,對整個框架中的不同模塊進行消融實驗。消融實驗中共進行3 組對比:
1)為了驗證雙重對抗網(wǎng)絡(luò)模型的有效性,令不帶生成器的雙重對抗網(wǎng)絡(luò)為Model-A,將其與正常訓(xùn)練的雙重對抗網(wǎng)絡(luò)DANet-AE進行比較,結(jié)果如表3所示。從表3 可以看出,雙重對抗網(wǎng)絡(luò)具有更好的降噪性能,說明去噪器和生成器之間聯(lián)合學(xué)習(xí)能相互引導(dǎo)和改進。
2)為了驗證使用掩膜自監(jiān)督方法在CT 圖像域上訓(xùn)練的自編碼器(AE)模型作為感知損失的有效性,令未使用由掩膜自監(jiān)督方法訓(xùn)練的自編碼器作為感知損失的網(wǎng)絡(luò)為Model-B,其預(yù)訓(xùn)練是針對CT 圖像進行簡單的重構(gòu)輸入,由于簡單重構(gòu)輸入訓(xùn)練出來的感知損失網(wǎng)絡(luò)過分關(guān)注像素級別的細(xì)節(jié)而忽略了更為重要的語義特征,因此使用自監(jiān)督方法訓(xùn)練的特征提取器能更好地計算CT 圖像的特征差異。表3 的數(shù)據(jù)結(jié)果也驗證了本文掩膜自監(jiān)督方法的有效性。
3)為了驗證本文Res-Unet 網(wǎng)絡(luò)的有效性,訓(xùn)練一個使用Unet網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)來實現(xiàn)去噪和生成任務(wù)的雙重對抗模型Model-C。對比表3 中的Model-C 和DANet-AE 可以看到,使用Res-Unet 網(wǎng)絡(luò),殘差塊可以極大保留圖像信息,其PSNR 和SSIM 指標(biāo)有明顯提升,去噪性能更好。
表3 測試集上的消融實驗量化結(jié)果 Table 3 Quantitative results of ablation experiment on test set
本文提出一種結(jié)合感知損失的雙重對抗網(wǎng)絡(luò)去噪算法,用于實現(xiàn)低劑量CT 圖像修復(fù)。與傳統(tǒng)基于后驗概率推斷干凈圖像信息的算法相比,該算法能夠避免人工設(shè)計先驗知識和噪聲假設(shè),并且自動學(xué)習(xí)噪聲分布,相比僅從后驗概率進行推斷的方式,通過數(shù)據(jù)的聯(lián)合分布能學(xué)習(xí)到更多的信息,從而在去噪時更好地抑制噪聲。此外,使用自監(jiān)督方法訓(xùn)練一個針對CT 圖像的自動編碼器來計算感知損失,加入感知損失的混合損失函數(shù)使得去噪效果更符合人體視覺認(rèn)知特性。實驗結(jié)果表明,使用混合損失優(yōu)化的模型在針對低劑量CT 圖像去噪修復(fù)時可以獲得質(zhì)量更高的重建圖像。自監(jiān)督學(xué)習(xí)可以在無標(biāo)注的情況下學(xué)習(xí)到圖像表征,下一步將在去噪網(wǎng)絡(luò)中使用自監(jiān)督方法進行預(yù)訓(xùn)練,以提升網(wǎng)絡(luò)的訓(xùn)練效果。此外,考慮到CT 數(shù)據(jù)往往是三維的,擴充網(wǎng)絡(luò)結(jié)構(gòu)以對三維數(shù)據(jù)進行處理,同時結(jié)合前后文信息來實現(xiàn)更優(yōu)的圖像去噪效果,也是今后的研究方向。