盧孟陽,李博藝,朱志斌,劉成成,劉 欣,他得安,3
(1.復旦大學工程與應用技術研究院,上海 200433;2.河西學院物理與機電工程學院,甘肅張掖 734000;3.復旦大學生物醫(yī)學工程中心,上海 200433)
光聲斷層成像(Optoacoustic Tomography,OAT)作為近年來迅速發(fā)展的非侵入式生物醫(yī)學成像方法[1-3],憑借其高對比度和深穿透的成像優(yōu)勢,在基礎生物醫(yī)學、臨床應用等研究領域具有廣闊的應用前景。需要指出的是OAT 是一種由光激發(fā)和超聲檢測方式實現的成像技術,在成像深層組織區(qū)域時,依賴于聲學反演方法,其最終成像的空間分辨率受聲學衍射極限所限制。在實際應用中,OAT 成像深度與空間分辨率之間大約為100~200 的倍數關系[4],致使其對較深層組織進行成像時,難以對細胞結構、微血管結構等進行有效解析。
隨著醫(yī)學影像技術的發(fā)展、相關硬件設備的不斷完善,基于并行超聲陣列的OAT 系統(tǒng)能夠實現快速三維成像[5];并且基于該系統(tǒng),通過輕微移動檢測陣列可獲得大量光聲斷層圖像序列,進而提高成像分辨率[6]。Dean-Ben 等[7]進一步提出了對流動的單個吸收體進行動態(tài)OAT 成像的方法。在此基礎上,借鑒于光學顯微成像中基于定位方法的超分辨熒光顯微成像技術,例如隨機光學重構顯微成像技術(Stochastic Optical Reconstruction Microscopy,STORM)、光激活定位顯微成像技術(Photoactivated Localization Microscopy,PALM)等[8-9],研究者們提出了基于定位方法的高分辨光聲斷層成像技術[10-14]。簡而言之,該技術通過對連續(xù)采集的光聲斷層圖像序列中的稀疏吸收體粒子使用局部最大值法進行定位[12],并疊加得到的所有定位點從而獲得最終的高分辨率圖像。為了進一步提高定位精度,Vilov等[13]提出將最大值定位在互相關圖像上,即每個激發(fā)光獲得的光聲斷層圖像和點擴散函數(Point Spread Function,PSF)之間的二維互相關圖像,以此來確定吸收體的位置,最終能夠達到約78 μm 的橫向分辨率[14]。
基于上述策略,能夠有效提升光聲斷層成像的聲學分辨率。但是基于現有定位方法實現OAT 高空間分辨率的同時,要求所使用的動態(tài)光聲斷層圖像必須是稀疏的。因此,當對復雜結構進行成像時,為了確保能夠捕獲成像對象的完整結構,需要采集大量光聲斷層圖像,因而限制了高分辨光聲斷層成像的時間分辨率。
近年來深度學習(Deep Learning,DL)技術大放異彩,憑借其強大的數據處理能力在各種任務上展現出極大的潛力。U-Net 作為一種有效的網絡框架,在多種圖像處理任務,特別是超分辨定位熒光顯微成像領域,都展示了優(yōu)異的性能。然而傳統(tǒng)U-Net 的網絡重建效果依賴于大量配對數據的使用,在一定程度上限制了該方法在定位任務上的應用??紤]到物理模型與深度學習方法相結合的有效性[15],本文提出了一種結合物理PSF 模型與基于注意力機制的無監(jiān)督網絡方法(Phys-AU-Net)。
Phys-AU-Net 方法結合了PSF 模型和卷積神經網絡用于實現衍射受限光聲斷層圖像的高分辨重建。其中,引入PSF 物理模型,可以實現無監(jiān)督學習,擺脫深度學習方法對數據標簽的依賴問題;而其中的卷積神經網絡具有強大的特征表達能力以及運算能力,可以完成對光聲斷層圖像中密集吸收體的定位重建。因此,本文提出的Phys-AU-Net 方法,可以在僅以聲衍射受限的光聲斷層圖像作為網絡訓練數據的情況下,經迭代優(yōu)化,實現準確的光聲斷層圖像高分辨定位重建。
圖1 展示了本文提出的結合PSF 模型的無監(jiān)督高分辨重建網絡的主要框架。圖1 中,網絡的輸入,即Input I,為聲衍射受限的光聲斷層圖像,輸出Output O 為網絡重建得到的高分辨光聲斷層圖像。與監(jiān)督學習中網絡隱含參數的更新取決于網絡輸出與標簽數據的損失不同,本方法引入了PSF 物理模型,從而擺脫了對數據標簽的依賴。具體而言,經網絡處理后得到的高分辨光聲斷層圖像會與PSF模型進行卷積操作模擬成像過程中的衍射受限問題,從而產生聲學分辨率受限的光聲斷層圖像。在網絡訓練時,通過計算該圖像和輸入光聲斷層圖像之間的損失,反向回饋更新神經網絡中的隱含參數,經過迭代優(yōu)化,最終完成網絡的訓練。因此,該方法中PSF 模型參數的設置至關重要,決定著最終的成像性能以及實用性。
圖1 無監(jiān)督光聲斷層圖像高分辨重建網絡示意圖 Fig.1 Schematic diagram of optoacoustic image high resolution reconstruction based on unsupervised strategy
在具體實現中,所用到的卷積神經網絡是基于U-Net 網絡架構進行設計的,并引入了通道注意力模塊。基于編解碼結構的U-Net 網絡能夠對特征進行不同層次的處理,實現對圖像數據深層抽象特征的提取。其中,通道注意力模塊則可以區(qū)分每個特征的重要性,有利于網絡學習更多關鍵性特征。Phys-AU-Net 網絡的詳細結構如圖1 中黑色方框所示,編碼器部分包含4 個下采樣塊,在每塊中接連堆疊了卷積層、通道注意力層和下采樣層;隨后,在編碼器之后連續(xù)堆疊了3 個卷積層以實現對抽象特征的表達及學習;解碼器部分包含4 個上采樣塊,每塊則由卷積層和上采樣層堆疊而成。并且將跳躍連接應用于具有相同尺寸的上、下采樣層之間實現特征的融合以及殘差學習。在網絡的最后使用一層卷積核為1×1 的卷積將提取到的特征圖映射為通道數為1 的高分辨輸出圖像。在訓練過程中,借助于PSF 模型以完成無監(jiān)督式的特征學習。具體而言,網絡輸出的光聲斷層圖像會進行PSF 卷積操作,從而產生相應的衍射受限圖像,并計算該圖像和輸入數據之間的損失,反向回饋去更新網絡中的隱含參數,經過迭代優(yōu)化,最終完成模型的訓練。該過程可以表示為
式中,H表示系統(tǒng)的點擴散函數,R則表示由神經網絡學習到的映射函數,θ表示輸入的衍射受限光聲斷層圖像,?表示迭代過程。當優(yōu)化完成時,基于訓練得到的模型,則可以直接完成衍射受限光聲斷層圖像的高分辨重建。
在深度學習方法中,損失函數對網絡最終的優(yōu)化結果具有很大的影響。均方誤差(Mean Squared Error,MSE)作為一種在DL 方法中廣泛使用的損失函數,雖然能有效地完成網絡的收斂,但是,MSE損失的最小化會導致重建結果的模糊[16]。因此,在本項工作中,添加了額外的正則化項來指導網絡提高重建性能??紤]到所用光聲斷層圖像的稀疏性,本文引入了L1正則化項,提高網絡的收斂性以及對高頻信息的學習能力。具體而言,在損失函數中引入了加權的Smooth_L1損失,用以解決L1的不光滑問題以及離群點梯度爆炸的問題。此外,參考Wang等[17]和Zhao 等[18]的工作,與其他損失函數相比,結構相似性指標(Structural Similarity,SSIM)對結構的變化更加敏感,這有助于確保圖像之間的結構一致性。基于上述分析,在本工作中,將損失函數設計為三項損失的加權和,即MSE 損失LMSE、LSmooth_L1損失和SSIM 損失LSSIM,表達式為
式中:?表示輸入的衍射受限的光聲斷層圖像,表示網絡的輸出經PSF模型模擬產生的衍射受限光聲 斷層圖像;即為MSE 損失LMSE;λ1和λ2代 表了對應損失項的權重參數,具體的數值是由多次實驗對比選擇出的,λ1=0.2,λ2=0.8。其中LSmooth_L1的具體計算方式為
在本研究中所有的實驗數據均是通過真實吸收體結構與成像系統(tǒng)PSF 進行卷積而產生的。具體實現可表示為
式中:Η(x,y)表示實驗系統(tǒng)的點擴散函數,p(x,y)則表示包含吸收體真實分布的光聲斷層圖像,γ(x,y)表示仿真的聲衍射受限的光聲斷層圖像。
為了使仿真數據盡可能地逼近真實實驗條件下的分布,本文中所使用的PSF 的參數借鑒于Vilov 等[13]的研究。具體而言,在實驗中,利用注射泵(KDS Legato 100)注射并控制直徑為10 μm 的流動吸收體微珠(Microparticles GmbH),并使其在預先設置的回路中循環(huán)?;芈分械? 個平行部分即為待成像的樣本,具體的實驗設置示意圖可參考文獻[13]。該實驗裝置的光聲信號則由具備128 個陣元的線性電容式微機械超聲換能器(Capacitive Micro-mechanical Ultrasonic Transducer,CMUT)陣列與多通道采集電子設備獲取,然后經過傳統(tǒng)的延遲求和算法重建得到流動吸收體微珠的光聲斷層圖像。對獲得的光聲斷層圖像進行估計,具體而言,選取光聲圖像中單個吸收體的橫向、縱向信號,并繪制其對應的歸一化幅值曲線圖,進而計算得到相應曲線的半高寬(Full Width Half Maximum,FWHM)。由此,得到的實驗PSF 的橫向FWHM 約為178 μm,軸向FWHM 約為137 μm。基于這些參數,就可以利用PSF 卷積法獲取大量數據集。
根據式(4)的數據生成方式,在本文中所使用到的數據集如表1 所示,分為訓練集和測試集。其中,訓練集共1 200 幀具有不同噪聲、不同密度的圓形吸收體圖像,用于對網絡的訓練優(yōu)化;測試集則包含圓形吸收體和血管結構的數據,用于驗證已訓練模型的性能。
表1 數值仿真產生的數據集 Table 1 Dataset generated by numerical simulation
(1)訓練集
為滿足訓練數據的多樣性,進而保證網絡特征學習的有效性,在構建訓練數據時,在128×128 像素的成像區(qū)域內,隨機設置1~10 個吸收體,并添加信噪比(Signal to Noise Ratio,SNR)為5~30 dB 之間的高斯噪聲。以這種模式共生成了1 200 幀衍射受限的光聲斷層圖像,并以5:1 的比例劃分為訓練集和驗證集。本工作所采用的部分訓練集數據如圖2 所示。
圖2 訓練數據 Fig.2 Training data
(2)測試集
測試集用于測試所提出網絡模型的重建性能。在本文中涉及到評估Phys-AU-Net 對衍射受限光聲斷層圖像中吸收體的定位效果,對高密度重疊吸收體的重建能力以及對復雜結構的高分辨重建性能。相應地,測試集的數據分布,由成像對象來劃分大體可分為兩類:不同密度、不同噪聲情況下的簡單圓形吸收體數據;不同分布的復雜血管結構數據,可用于測試模型的重建能力以及泛化能力。詳細的測試數據如表2 所示。
表2 測試數據集的詳細內容 Table 2 Testing dataset details
經由數據仿真,通過Python 軟件共生成了1 200例衍射受限的OAT 圖像用于訓練。網絡訓練總共設置了200 個周期,采用Adam 優(yōu)化器進行優(yōu)化,初始學習率設置為1×10-3,并采用了學習率衰減策略用于促進網絡優(yōu)化收斂。具體而言,在第50、100和150 個周期時,學習率依次衰減0.5。在實現中,上述過程均基于PyTorch 框架實現。本文相關網絡的訓練和測試過程均在在配備了NVidia Tesla V100 GPU(16 GB RAM)、2 個Intel Xeon Gold 6130(2.1 GHZ)和192 G DDR4 REG ECC 的服務器上實現。
首先,針對Phys-AU-Net 的解析能力進行了測試。具體而言,實驗中,在水平、豎直方向各放置5 個間隔為50 μm 的吸收體進行成像,并且數據中添加了SNR 為15 dB 的高斯噪聲。圖3(a)顯示了衍射受限的光聲斷層圖像,即為網絡的輸入數據,可以看出在橫向、縱向區(qū)域各吸收體之間均存在粘連,無法準確辨別區(qū)分;圖3(b)表示了由Phys-AU-Net 重建得到的高分辨圖像;圖3(c)則展示了相應的真實吸收體分布;圖3(d)和(e)則展示了圖3(a)-(c)中紅色點劃線的歸一化幅值對比圖,其中(d)表示為縱向的對比圖,(e)表示為橫向的對比圖。由重建結果可以分析出,相較于衍射受限圖像,Phys-AU-Net 可以有效實現對衍射受限吸收體之間的解析,提高圖像的分辨率。由曲線圖可以看出,重建圖像具有與真實分布極為接近的解析能力,有效提高了橫向和縱向的分辨率,可以達到約50 μm。
圖3 添加SNR 為15 dB 噪聲時,吸收體間隔50 μm 時的 重建結果 Fig.3 Reconstruction results of absorbers at 50 μm interval after increasing Gaussian noise to SNR=15 dB
對Phys-AU-Net 在不同密度情況下的高分辨重建性能進行了評估,結果如圖4 所示。圖4 顯示的是不同密度情況下的重建結果,并與U-Net 方法進行了對比。圖4(a)~4(d)展示了在測試過程中使用的具有不同密度分布的真實結構圖,成像區(qū)域內分別隨機放置了5、10、15、20 個吸收體。圖4(e)~4(h)則展示了不同密度情況下的衍射受限圖像,并且所有圖像都添加了SNR 為15 dB 的高斯噪聲。通過對比可以看出高密度情況下部分鄰近的吸收體根本無法有效辨別,如圖4(h)。圖4(i)~4(l)則展示了Phys-AU-Net 方法重建得到的高分辨圖像,圖4(m)~4(p)展示了U-Net 網絡的重建結果,圖4 中右側最后一列由上到下則分別為圖4(d)、圖4(h)、圖4(l)、圖4(p)中紅色框內鄰近吸收體的細節(jié)放大展示。
由圖4 中的重建結果可以看出,本文提出的Phys-AU-Net 方法可以有效地實現不同密度情況下,對衍射受限光聲斷層圖像的高分辨重建。在吸收體分布較為分散的情況下,圖4(e)和4(f),能完整地恢復出吸收體的真實分布,背景也不存在噪聲;即使是在吸收體分布更為密集、相互重疊的情況下,如圖4(g)和4(h),相對于U-Net 方法,Phys-AU-Net 也能展現出優(yōu)異的重建性能,能夠有效解析鄰近的吸收體,并且重建的吸收體結構與真實結構更為接近,如圖4 中的細節(jié)放大圖像所示。
圖4 不同密度情況下基于Phys-AU-Net 的吸聲體高分辨 成像結果 Fig.4 High resolution imaging results of absorbers with different densities based on Phys-AU-Net
為了客觀地評估重建效果,我們對隨機選取的100 例包含5~25 個吸收體的衍射受限圖像進行了定量統(tǒng)計分析,每幀圖像添加了SNR 為15 dB 的噪聲,計算了重建結果的SSIM 和峰值信噪比(Peak Signal to Noise Ratio,PSNR)指標,并與U-Net 網絡進行了對比,相應的定量統(tǒng)計結果如表3 所示。分析表格可以得出,相較于U-Net 方法,Phys-AU-Net在SSIM 方面提升了43.5%,在PSNR 方面提升了11.2%。
表3 兩種方法對100 例隨機包含5~25 個吸收體的重建結果 的定量指標 Table 3 Quantitative indexes of two methods for reconstruction results of 100 trials with r andom 5~25 absorbers
進一步針對該方法的噪聲魯棒性進行了實驗驗證。圖5 展示了不同信噪比下各算法的高分辨重建結果對比。圖5(a)~5(c)則分別表示了SNR 為15、10、5 dB 噪聲情況下的衍射受限光聲斷層圖像,圖5(d)~5(f)則展示了由Phys-AU-Net 方法得到的重建結果,圖5(g)~5(i)則顯示了U-Net 網絡的實驗結果圖。由重建結果可以看出,雖然隨著SNR減小、噪聲增強,Phys-AU-Net 方法對一些鄰近吸收體的結構重建效果不佳,結果如圖5(f)中所示。但是整體而言,該方法對噪聲具有一定的魯棒性,在不同SNR 情況下均能獲得不錯的重建效果,且重建圖像的質量并未隨著噪聲的增加而大幅度降低,背景基本不存在噪聲。相較而言,U-Net 網絡的重建效果隨著噪聲程度的增強有較為明顯的下降,背景中出現了噪聲,結果如圖5(i)所示。
圖5 不同信噪比情況下基于Phys-AU-Net 的高分辨成像結果 Fig.5 High resolution imaging results based on Phys-AU-Net at different SNRs
最后,針對復雜成像結構的高分辨重建進行了實驗測試,結果如圖6 所示。測試所用的復雜成像模型為具有不同粗細的血管結構。圖6 展示了在成像復雜血管結構時,Phys-AU-Net 方法和U-Net 方法的重建結果對比。圖6(a)~6(c)分別顯示了SNR為15 dB 時,不同血管結構分布的衍射受限光聲斷層圖像??梢钥闯鲅艿妮喞鄬δ:?,甚至細微的血管結構無法有效分辨;圖6(d)~6(f)則展示了相應的由Phys-AU-Net 方法重建得到的高分辨結果;圖6(g)~6(i)則分別表示了U-Net 方法的重建結果,圖中部分血管無法有效恢復,且連續(xù)性較差;圖6(j)~6(l)則顯示了不同血管結構的真實分布。由圖6 中的結果可以對比看出,提出的Phys-AU-Net方法能夠一定程度上提高復雜血管圖像的分辨率。雖然對于一些極細微的血管分支無法有效重建,但相較于U-Net 方法,Phys-AU-Net 方法能夠實現對血管整體結構的高分辨重建,血管結構的連續(xù)性更好,并且具有更優(yōu)的噪聲去除效果。
圖6 基于Phys-AU-Net 的血管模型的高分辨成像結果 Fig.6 High resolution imaging results of vascular structure based on Phys-AU-Net
針對復雜血管結構,進行了Phys-AU-Net 的噪聲魯棒性測試。為了客觀地評估重建性能,對隨機選取的40 例具有不同血管分布的衍射受限圖像進行了定量統(tǒng)計分析,測試圖像中分別添加了信噪比為5、10、15 dB 的噪聲,并與U-Net 網絡進行了對 比。重建結果的相應SSIM 和PSNR 指標如表4 所示。經分析可知,相較于U-Net 方法,Phys-AU-Net在不同信噪比時均具有更優(yōu)的定量指標,并且相應指標數值并未隨噪聲的增強而有大幅度下降。由此可以說明,Phys-AU-Net 對噪聲具有魯棒性。
表4 不同信噪比,兩種方法對40 例血管結構重建結果的 定量指標 Table 4 Quantitative indexes of two methods for reconstruction results of 40vascular trials at different SNRs
本文提出了一種結合物理模型的無監(jiān)督Phys-AU-Net 網絡方法用于聲衍射受限光聲斷層圖像的高分辨重建。通過模型訓練,Phys-AU-Net 能夠學習聲衍射受限光聲斷層圖像與吸收體真實分布之間的映射關系,進而提升光聲斷層成像的空間分辨率,實現高分辨OAT 成像。
實驗結果表明,本文提出的Phys-AU-Net 方法能有效提高光聲斷層圖像的成像分辨率,可以達到約50 μm 的重建分辨率;能夠很好地解析不同密度情況下的衍射受限光聲斷層圖像,即使用于成像高度重疊的吸收體也具有很好的重建性能;另外,在信噪比為5、10、15 dB 時,Phys-AU-Net 依然能夠較好地解析高密度情況下的吸收體,得到與真實分布相似的重建結果。這表明Phys-AU-Net 有著良好的抗噪性和解析高密度吸收體的能力。因而采用該方法可有效減少成像幀數及成像時間,并提高重建分辨率。另一方面,對于單幀復雜血管結構的高分辨重建,Phys-AU-Net 也能較好地恢復出與真實血管結構相似的結果。但是,對于極細微的血管分支,Phys-AU-Net 的解析能力會下降。因此還要繼續(xù)改進該網絡,以期進一步提高重建復雜血管的能力。目前的工作中,在設計PSF 模型時,僅針對單一實驗情況進行了驗證,尚未考慮復雜PSF 模型對成像結果的影響,相關內容會在未來進一步探究。另外,在本文中只進行了數值仿真實驗,針對在體實驗數據的性能探究會在今后的工作中進行。