程 穎,方賢進(jìn)
(安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001)
圖像融合是將不同模態(tài)的信息融合到1張圖片中,在許多領(lǐng)域有著廣泛的應(yīng)用,例如在軍事和醫(yī)學(xué)領(lǐng)域[1]。醫(yī)學(xué)影像在臨床診斷治療中扮演著至關(guān)重要的作用,它們包含1個(gè)部位的生理和結(jié)構(gòu)等信息,能夠輔助醫(yī)生分析患者的病情。醫(yī)學(xué)影像有多種類型,其中磁共振成像(magnetic resonance imaging,MRI)展示了結(jié)構(gòu)軟組織信息,計(jì)算機(jī)斷層掃描(computed tomography,CT)展示了骨骼信息,單光子發(fā)射計(jì)算機(jī)斷層成像(single photon emission computed tomography,SPECT)展示了細(xì)胞功能代謝信息[2]。不同序列MRI圖像展示的腦腫瘤信息有較大差異,液體衰減反轉(zhuǎn)恢復(fù)序列(fluid-attenuated inversion recovery pulse sequence,FLAIR)對(duì)腦實(shí)質(zhì)內(nèi)的病灶敏感,T1加權(quán)像(T1-weighted-imaging,T1)提供腦部解剖信息,T2加權(quán)像(T2-weighted-imaging,T2)展示腦腫瘤和水腫形狀和細(xì)節(jié),對(duì)比增強(qiáng)T1加權(quán)像(contrast-enhanced T1-weighted,T1ce)鑒別腫瘤與非腫瘤性病變[3]。因此,融合多個(gè)序列信息,實(shí)現(xiàn)多模態(tài)醫(yī)學(xué)圖像融合,消除模態(tài)之間冗余信息,有助于醫(yī)生對(duì)多個(gè)序列信息的提取并提高診斷效率。
近幾年,很多方法被用于解決醫(yī)學(xué)圖像融合的問題,這些方法包括:基于金字塔變換的方法[4]、基于小波變換的方法[5]、基于稀疏矩陣的方法[6]、基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的方法[7]、基于生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)的方法[8]等。基于金字塔變換的方法融合圖像能夠整合一定的結(jié)構(gòu)信息,但不能有效保存顯著特征并且會(huì)提供不需要的邊緣信息。為了解決這個(gè)問題,基于小波變換的方法被提出。Bhardwaj等[5]提出了基于離散小波變換與遺傳算法在醫(yī)學(xué)圖像融合的應(yīng)用,但仍然存在著泛化性能低、無法保留源圖像特征的提取細(xì)節(jié)、邊緣會(huì)產(chǎn)生偽影等問題。因?yàn)镃NN[15]良好的特征提取能力,Liu等[7]將多模態(tài)融合的工作擴(kuò)展到醫(yī)學(xué)圖像上,使用CNN生成權(quán)重圖以融合2張圖像的特征。Ma等[8]將GAN應(yīng)用在圖像融合上,利用GAN的生成特性,生成包含2張?jiān)磮D信息的融合圖像,但GAN訓(xùn)練不穩(wěn)定,生成的樣本具有隨機(jī)性、可控性低。在此基礎(chǔ)上,Ma等[9]提出了雙鑒別器融合網(wǎng)絡(luò),設(shè)計(jì)2個(gè)鑒別器分別學(xué)習(xí)2個(gè)模態(tài)的語義信息,能更好地學(xué)習(xí)到圖像中的信息,提高圖像的融合質(zhì)量,但在融合圖像的結(jié)果中腫瘤邊緣信息仍然存在偽影,而且網(wǎng)絡(luò)結(jié)構(gòu)并未捕捉到源圖中的多尺度信息。
現(xiàn)有的醫(yī)學(xué)圖像融合方法已經(jīng)能實(shí)現(xiàn)較好的融合結(jié)果,同時(shí)保留多模態(tài)圖像幾何信息和紋理信息,但對(duì)腦腫瘤病灶邊緣信息和多尺度信息提取仍然存在不足。因此,提出一種基于殘差多尺度網(wǎng)絡(luò)(residual multi-scale network,Res2Net)、交錯(cuò)稠密網(wǎng)絡(luò)和空間通道融合的多模態(tài)醫(yī)學(xué)圖像融合(multimodal medical image fusion based on Res2Net and interleaved dense connection network and spatial channel fusion,Res2Net-IDCN-SCF)算法。針對(duì)腦腫瘤圖像多尺度紋理信息提取有限的問題,采用Res2Net作為編碼器提取圖像的紋理結(jié)構(gòu)特征并用交錯(cuò)稠密網(wǎng)絡(luò)進(jìn)行解碼,構(gòu)建鑒別器約束掩碼圖像和腦腫瘤邊緣圖像的差異,豐富腦腫瘤邊緣細(xì)節(jié),設(shè)計(jì)注意力融合方法,減少多模態(tài)圖像的冗余,整合更多有效信息。
Res2Net-IDCN-SCF特征訓(xùn)練網(wǎng)絡(luò)的融合架構(gòu)如圖1所示。由圖1可知,Res2Net-IDCN-SCF算法包括整體網(wǎng)絡(luò)架構(gòu)和其中的融合算法。
圖1 Res2Net-IDCN-SCF融合架構(gòu)Fig.1 Fusion architecture of Res2Net-IDCN-SCF
算法分為基于Res2Net的稠密融合網(wǎng)絡(luò)和融合算法2個(gè)部分:基于Res2Net的稠密融合網(wǎng)絡(luò)由基于Res2Net的編碼器、交錯(cuò)稠密解碼器、掩碼鑒別器和損失函數(shù)組成;融合算法由空間融合算法和通道融合算法組成。
1.1.1 基于Res2Net的編碼器 為了捕捉粒度級(jí)別的多尺度特征,Res2Net[10]在殘差網(wǎng)絡(luò)(residual network,ResNet)基礎(chǔ)上增加了每個(gè)網(wǎng)絡(luò)層的感受野,Res2Net網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。由圖2可知,與傳統(tǒng)CNN的不同之處在于其使用了更小的濾波器捕捉多尺度特征信息,同時(shí)計(jì)算負(fù)荷相似,以分層殘差連接的網(wǎng)絡(luò)結(jié)構(gòu)保留了更多圖像中的語義信息。在特征圖X進(jìn)入1×1的卷積層后被等分為4個(gè)子特征圖xi,其中i∈(1,2,…,s)。子特征圖xi的通道數(shù)是特征圖X的1/s,隨后進(jìn)行3×3卷積操作。這個(gè)卷積操作被定義為Ki(x),如下:
圖2 Res2Net網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Architecture of Res2Net
Ki(x)=fReLU(fconv(x)),
(1)
式(1)中,fconv(x)指3×3的卷積計(jì)算,fReLU(·)指線性整流單元(rectified linear unit,ReLU)。
用fi(xi)定義每個(gè)子特征圖xi的計(jì)算函數(shù),下一個(gè)子特征圖xi+1的輸出由xi和yi構(gòu)成。這樣的分層殘差連接能提取更多的多尺度特征信息,xi+1接收xi的特征信息Ki(xi+1),其卷積算子比Ki(xi)的感受野更大。fi(xi)的定義如下:
(2)
式(2)中,s是子特征圖的切片數(shù)。
1.1.2 交錯(cuò)稠密解碼器 Unet++[11]的交錯(cuò)稠密連接網(wǎng)絡(luò)優(yōu)化了醫(yī)學(xué)圖像分割工作,重新設(shè)計(jì)了跳躍連接以減少編碼器和解碼器之間的語義差異。在深度神經(jīng)網(wǎng)絡(luò)中,跳躍連接可以保留源圖像中豐富的語義信息和紋理信息,然而,在編碼器和解碼器之間使用跳躍連接可能會(huì)產(chǎn)生意想不到的語義差異。因此,采用交錯(cuò)稠密連接網(wǎng)絡(luò)(interleaved dense connection network,IDCN)作為解碼器對(duì)特征圖進(jìn)行重構(gòu)。每個(gè)稠密塊(dense block,DB)由卷積算子組成,每一層的DB接收不同尺度的特征圖。每層最后一個(gè)DB接收的輸入包括上一層輸出到下采樣的結(jié)果和同一層的稠密跳躍連接信息,減少了編碼與解碼之間信息的丟失。
在交錯(cuò)稠密連接網(wǎng)絡(luò)中,假設(shè)xi,j表示DB模塊的輸出,i表示下采樣的方向,j表示跳躍稠密連接的方向,xi,j的映射計(jì)算公式如下:
(3)
式(3)中,K(·)表示卷積算子,由1個(gè)卷積層和1個(gè)ReLU激活函數(shù)組成;U(·)表示上采樣層,[·]指稠密跳躍連接層;[xi,k]指稠密跳躍連接的輸入。
1.1.3 掩碼鑒別器和損失函數(shù) 為了豐富融合圖像在腦腫瘤病灶區(qū)域的邊緣紋理細(xì)節(jié),構(gòu)建了掩碼鑒別器約束掩碼源圖像和腫瘤邊緣圖像之間的差異性。預(yù)先訓(xùn)練了輪次為250、學(xué)習(xí)率為0.003和動(dòng)量為0.9的Unet模型。融合圖像經(jīng)過Unet預(yù)訓(xùn)練模型獲得粗分割腫瘤邊緣圖像,由鑒別器判斷掩碼源圖像與腫瘤邊緣圖像的真假,用于約束腫瘤邊緣圖像使其接近于掩碼源圖像,使融合圖像的腫瘤病灶邊緣接近掩碼源圖像。
在訓(xùn)練階段,總損失函數(shù)被定義為L(zhǎng)total,如式(4)所示:
Ltotal=Lpixel+λLSSIM,
(4)
式(4)中,λ表示2個(gè)函數(shù)之間的權(quán)衡指數(shù);Lpixel和LSSIM分別表示像素?fù)p失函數(shù)和相似度損失函數(shù),它們的計(jì)算方式分別如式(5)和式(6)所示:
(5)
LSSIM=1-fSSIM(I,O),
(6)
其中,I、O表示輸入和輸出圖像;(i,j)表示圖像中第(i,j)個(gè)像素點(diǎn);H和W表示圖像的長(zhǎng)和寬;fSSIM(I,O)表示2個(gè)圖像的相似性函數(shù)。
掩碼鑒別器的損失LD計(jì)算公式如下:
LD=[-log2D(Im)]+[-log2(1-D(OU))],
(7)
式(7)中,Im指掩碼源圖像;OU指腫瘤邊緣圖像;D(·)指掩碼鑒別器;[·]表示計(jì)算圖像均值函數(shù)。
為了更好地整合多模態(tài)圖像信息,設(shè)計(jì)空間和通道融合算法能夠在最大限度上整合圖像信息,減少空間和通道信息冗余。融合算法的流程如圖3所示。由圖3可知,假設(shè)通過基于Res2Net的編碼器獲得的2張多尺度特征圖分別為PI和PV,融合特征圖PF的計(jì)算如下:
圖3 融合算法Fig.3 Fusion algorithm
(8)
1.2.1 空間融合算法 假設(shè)特征圖為P∈C×H×W,首先將其重塑和轉(zhuǎn)置為PX∈HW×C,再經(jīng)過n×n的池化算子得到特征圖PZ∈HW/n2×C,P經(jīng)過重塑和池化算子得到PY∈C×HW/n2。PX和PY進(jìn)行矩陣乘法,并經(jīng)過歸一化函數(shù)得到空間因子HW×HW/n2,其公式如下:
(9)
(10)
(11)
(12)
(13)
采用n×n的池化算子降低計(jì)算復(fù)雜度,提高融合性能??臻g融合細(xì)節(jié)如圖4所示,由圖4可知空間通道算法中張量的變化過程。
圖4 空間融合算法Fig.4 Spatial fusion algorithm
1.2.2 通道融合算法 通道融合算法過程如圖5所示。由圖5可知,與空間融合算法不同,通道融合是從通道數(shù)到維度對(duì)圖像特征圖進(jìn)行整合,增強(qiáng)融合特征圖的維度信息。假設(shè)特征圖為P∈C×H×W,與空間融合算法類似,通過重塑,轉(zhuǎn)置n×n的池化算子得到:PX∈C×HW、PY∈HW×C和PZ∈C×HW。通道因子C×C是由PX和PY矩陣乘法計(jì)算后通過歸一化函數(shù)得到,其計(jì)算如式(14)所示:
圖5 通道融合算法Fig.5 Channel fusion algorithm
(14)
(15)
(16)
(17)
(18)
Res2Net-IDCN-SCF融合算法流程描述如下:
1) 圖像特征網(wǎng)絡(luò)訓(xùn)練階段。先將網(wǎng)絡(luò)構(gòu)建完成,用已配準(zhǔn)過的數(shù)據(jù)集進(jìn)行訓(xùn)練。用1.1節(jié)中描述的基于ResNet的編碼器對(duì)圖像進(jìn)行特征提取,捕捉多尺度紋理和語義信息。在訓(xùn)練的過程中,直接將提取到的多尺度信息特征圖送入交錯(cuò)稠密解碼器之中,不進(jìn)行融合的計(jì)算。從交錯(cuò)稠密解碼器中得到的融合圖像用1.3節(jié)中掩碼鑒別器進(jìn)行約束訓(xùn)練。
2) 圖像壓縮編碼過程。對(duì)源圖像進(jìn)行編碼并壓縮多尺度特征,得到分別包含2張圖像紋理特征信息的融合特征圖。
3) 圖像融合過程。將2張壓縮得到的特征圖通過1.2節(jié)的融合策略進(jìn)行計(jì)算,獲得1張精簡(jiǎn)整合的多尺度融合特征圖。
4) 圖像重構(gòu)解碼過程。多尺度融合特征圖由交錯(cuò)稠密解碼器重構(gòu)得到融合圖像。
Res2Net-IDCN-SCF算法在BraTS2021(brain tumor segmentation challenge 2021)[12]公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,進(jìn)行T1ce和T2模態(tài)之間的融合。由于BraTS2021數(shù)據(jù)集是三維的,先將三維腦腫瘤數(shù)據(jù)切片成256像素×256像素大小的二維數(shù)據(jù)切片。使用2510個(gè)數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,選擇4種常見的融合網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn)。融合測(cè)試階段是在訓(xùn)練集以外的數(shù)據(jù)切片中隨機(jī)選取24對(duì)圖像進(jìn)行測(cè)試,所有評(píng)價(jià)指標(biāo)是24對(duì)圖像量化結(jié)果的均值。
訓(xùn)練網(wǎng)絡(luò)時(shí)基本參數(shù)是輪次為50,批量大小為4,學(xué)習(xí)率為0.001,實(shí)驗(yàn)采用PyTorch框架,在NVIDIA GeForce RTX 3060 GPU上實(shí)現(xiàn)。
選取的對(duì)比算法包括:1) 基于非下采樣剪切波變換和參數(shù)自適應(yīng)脈沖耦合神經(jīng)網(wǎng)絡(luò)(non-subsampled shearlet transform and parameter-adaptive pulse coupled neural network,NSST-PAPCNN)[13]的醫(yī)學(xué)圖像融合算法;2) 零學(xué)習(xí)快速醫(yī)學(xué)圖像融合(zero-learning fast medical image fusion,Zero-learning)[14]算法;3) 用于紅外與可見光圖像融合的生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network for infrared and visible image fusion,FusionGAN)[8];4) 用于多分辨率圖像融合的雙鑒別器條件生成式對(duì)抗網(wǎng)絡(luò)(dual-discriminator conditional generative adversarial network for multi-resolution image fusion,DDcGAN)[9]。
從6個(gè)維度對(duì)融合結(jié)果進(jìn)行量化評(píng)估:信息熵(entropy of information,EN)、互信息(mutual information,MI)、結(jié)構(gòu)相似性(structure similarity index measure,SSIM)、多尺度結(jié)構(gòu)相似性(multi scale structural similarity index measure,MI_SSIM)、標(biāo)準(zhǔn)差(standard deviation,STD)、峰值信噪比(peak signal to noise ratio,PSNR)[15]。其中,EN是度量圖像中信息量的指標(biāo),該值越大表示融合圖像細(xì)節(jié)信息越充足。MI是用于評(píng)估2幅圖像信息相似性的指標(biāo),該值越大說明融合圖像的信息量越充足,融合表現(xiàn)越好。SSIM衡量圖像之間的相似性,值越大表示融合圖像與源圖像越相似,有更好的融合質(zhì)量。MI_SSIM更貼近視覺感知評(píng)估,是結(jié)構(gòu)化信息量的度量指標(biāo)。STD是衡量圖像信息豐富程度的指標(biāo),值越大,圖像的灰度級(jí)分布越分散,融合圖像信息越豐富。PSNR度量信息與噪聲之間的比值,反映圖像的失真程度,數(shù)值越大,圖像質(zhì)量越好。
對(duì)比實(shí)驗(yàn)的指標(biāo)結(jié)果和融合效果分別如表1和圖6所示。由表1可知,Res2Net-IDCN-SCF算法在EN、MI、SSIM、MI_SSIM和STD這5個(gè)指標(biāo)中有最好的表現(xiàn),但PSNR弱于NSST-PAPCNN算法和Zero-learning算法。EN指標(biāo)比NSST-PAPCNN算法提高了3.5%,MI指標(biāo)比Zero-learning算法提高了3.4%,SSIM指標(biāo)比NSST-PAPCNN算法提高了0.7%,MI_SSIM指標(biāo)比FusionGAN算法提高了5.3%,STD指標(biāo)比DDcGAN算法提高了23.2%。表明Res2Net-IDCN-SCF算法的融合結(jié)果包含更多源圖像的結(jié)構(gòu)和語義信息,圖像質(zhì)量更高,但圖像對(duì)比度還有待提升。評(píng)價(jià)指標(biāo)量化結(jié)果說明,Res2Net-IDCN-SCF算法在圖像信息豐富程度上有良好的結(jié)果。圖6中選擇了3幅圖像進(jìn)行定性評(píng)估,并對(duì)病灶區(qū)域進(jìn)行放大處理,右上角放大區(qū)域可明顯看到腫瘤病灶區(qū)域融合情況。由圖6可知,NSST-PAPCNN算法腫瘤病灶區(qū)域明顯,但存在偽影,圖像清晰度較低,包含來自T2圖像病灶區(qū)域信息較少。Zero-learning算法有較好的融合效果,對(duì)比度較高,但病灶區(qū)域細(xì)節(jié)不夠平滑。FusionGAN算法存在區(qū)塊丟失效應(yīng),因此結(jié)果較差,來自源圖像的語義信息少。DDcGAN算法在腦腫瘤病灶區(qū)域相較于NSST-PAPCNN算法包含更多的紋理細(xì)節(jié)信息,但仍然存在偽影,并且病灶區(qū)域清晰度不夠。Res2Net-IDCN-SCF算法相較所對(duì)比的4種算法圖像質(zhì)量更高,偽影更少,擁有更多來自于2個(gè)模態(tài)的語義結(jié)構(gòu)和紋理細(xì)節(jié)信息,并且病灶區(qū)域平滑。上述結(jié)果表明,Res2Net-IDCN-SCF算法擁有較好的融合質(zhì)量。
表1 T1ce-T2 數(shù)據(jù)集融合的均值結(jié)果比較Tab.1 Comparison of mean results for fusion of T1ce-T2 datasets
圖6 T1ce-T2數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果Fig.6 Comparative experimental results of T1ce-T2 datasets
為了驗(yàn)證所設(shè)計(jì)模塊的有效性,對(duì)Res2Net-IDCN-SCF算法進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表2所示。由表2可知,在基準(zhǔn)線算法中引入基于Res2Net的編碼器對(duì)圖像進(jìn)行編碼,使融合結(jié)果的EN、MI和MI_SSIM量化指標(biāo)有所提升,說明基于Res2Net的編碼器對(duì)圖像特征等多尺度信息的提取優(yōu)于基準(zhǔn)線算法。在此基礎(chǔ)上,為了驗(yàn)證IDCN的有效性,將其引入基準(zhǔn)線。結(jié)果顯示,引入IDCN后擁有更豐富的圖像細(xì)節(jié)和更多的源圖像信息。最后,引入SCF算法,結(jié)果表明,融合性能提升,圖像信息更豐富。消融實(shí)驗(yàn)各個(gè)模塊添加后圖像融合結(jié)果如圖7所示。由圖7可知,增加Res2Net和IDCN模塊后,圖像的信息增強(qiáng)但平滑度下降。Res2Net在基準(zhǔn)線基礎(chǔ)上對(duì)信息的提取有明顯提高。Res2Net-IDCN-SCF算法的圖像擁有豐富的細(xì)節(jié)和清晰的圖像質(zhì)量。上述結(jié)果表明,Res2Net-IDCN-SCF算法擁有較好的視覺效果和指標(biāo)結(jié)果。
表2 消融實(shí)驗(yàn)結(jié)果Tab.2 Results of ablation experiment
圖7 T1ce-T2 數(shù)據(jù)集上的消融結(jié)果Fig.7 Ablation results of T1ce-T2 datasets
針對(duì)腦腫瘤病灶邊緣信息和多尺度信息提取存在的不足,提出了一種用于多模態(tài)醫(yī)學(xué)圖像融合的Res2Net-IDCN-SCF算法。首先,圖像通過基于Res2Net的編碼器提取多尺度結(jié)構(gòu)信息。為了更好地整合多個(gè)模態(tài)圖像的差異性,減少信息冗余,將提取到的多尺度結(jié)構(gòu)信息進(jìn)行空間和通道融合,更好地保留了圖像的紋理結(jié)構(gòu)和圖像語義信息。通過交錯(cuò)稠密解碼器減少融合特征圖和源圖像之間的語義差異,提高融合圖像的質(zhì)量。更進(jìn)一步地,使用掩碼鑒別器提高了融合圖像腦腫瘤病灶區(qū)域的邊緣信息。從實(shí)驗(yàn)結(jié)果來看,Res2Net-IDCN-SCF算法所處理圖像質(zhì)量?jī)?yōu)于所對(duì)比的其他算法,在T1ce和T2模態(tài)融合效果上可以保留更多的細(xì)節(jié)信息。評(píng)價(jià)指標(biāo)EN、MI、SSIM、MI_SSIM和STD優(yōu)于對(duì)比算法,Res2Net-IDCN-SCF算法融合結(jié)果具有更多的結(jié)構(gòu)和語義信息。但在圖像對(duì)比度方面略有缺失,后續(xù)的研究中將進(jìn)一步聚焦于此。