宮 霞 吳衛(wèi)華
(上海市胸科醫(yī)院 上海 200030) (上海交通大學附屬胸科醫(yī)院 上海 200030)
超聲成像具有成本低、便攜性、無創(chuàng)傷和無輻射等優(yōu)點,在現代醫(yī)學檢測中應用廣泛;對超聲圖像結果準確性取決于操作者的經驗,具有很大的主觀性[1-2],比較耗時。近年來隨著深度學習技術的發(fā)展,在醫(yī)療影像智能輔助診斷上的應用越來越廣,例如圖像分類[3]、分割和目標檢測[4]等領域,通過人工標注好的數據,訓練出模型的診斷精度都優(yōu)于人類[5],極大提高了醫(yī)生的診斷效率和準確性。因此,將深度學習應用于超聲圖像分割與分類,區(qū)分肺癌轉移性淋巴結病變和良性病變具有重要的臨床應用前景,超聲圖像分析具有強大的理論基礎支撐。超聲圖像分辨率較CT、MRI低,圖像存在大量偽影和噪聲,其自身的局限性導致分類效果難以提升,文獻[6]提出了一種綜合利用B型超聲和超聲造影視頻來提高分類精度的網絡模型,深度學習技術應用于超聲圖像分析發(fā)展空間大,具有重要的理論意義和實際應用價值。
鎖骨上淋巴結轉移對肺癌轉移鑒別診斷非常關鍵,有無淋巴結的轉移直接關聯到肺癌的分期、手術方式以及預后等,通過深度學習對肺癌患者頸部淋巴結超聲圖像分割對正確診斷肺癌轉移具有重要意義。目前常見的應用于超聲圖像分割的深度學習模型FCN(Fully Convolutional Networks)[7]、UNet[8]、MaskRcnn[9]和UNet改進版等,其中UNet使用最為廣泛,衍生的網絡包括V-Net[10]、W-Net[11]、M-Net[12]、Y-net[13]和FPD-M-net[14]。文獻[15]提出一種基于改進U-net網絡的甲狀腺結節(jié)超聲圖像分割方法,利用帶有注意力模塊的跳躍長連接部分對特征張量進行邊緣輪廓保持操作。
UNet[8]網絡利用了神經網絡內在的多尺度特性,淺層輸出保存了空域細節(jié)信息,深層輸出保存了相對抽象的語義信息,利用底層信息補充高層信息,適用于醫(yī)學圖像分割、自然圖像生成,在醫(yī)學圖像分割比RPN和FCN網絡有更好的分割精確度。文獻[16]提出了一種改進UNet卷積網絡,卷積塊采用了inception block,網絡將噪聲激勵函數NHReLU和NHSeLU(Noisy Hard SeLU function)代替ReLU和NReLU(Noisy Rectified Linear Unit functions)噪聲激勵函數;網絡在兩個尺度上預測輸出,而不是只在上采樣最后層輸出,這樣很好處理了超聲圖像中標注區(qū)域尺寸變化的問題,提高對淋巴結超聲圖像分割效果,達到了0.89。CE-Net[17]是一篇將空洞卷積和金字塔池化結合,專門用于2D醫(yī)學圖像分割任務。Fabian等[18]提出的nnUNet是基于UNet和3D UNet的醫(yī)學影像分割算法框架。R2UNet[19]全稱叫作Recurrent Residual CNN-based UNet,其融合了UNet、ResNet、RCNN的結構,在視網膜、肺和血管等多個醫(yī)學影像分割任務上都取得很好的實驗結果。Zhou等[20]提出的UNet++可以用于語義分割和實例分割,主要包括:通過不同深度的UNet的有效集成來緩解未知的網絡深度,這些UNet可以部分共享一個編碼器,并且可以通過深度監(jiān)督[21]同時進行共同學習;重新設計跳接以在解碼器子網絡上聚合語義尺度不同的特征,從而產生高度靈活的特征融合方案;設計一種剪枝方案以加快UNet++的推理速度。UNet3+[22]是基于UNet和UNet++基礎上提出的,它改進了UNet++沒有直接從多尺度信息中提取足夠多的信息的缺陷,UNet3+利用了全尺度的跳躍連接和深度監(jiān)督。UNet3+中,可以從全尺度捕獲細粒度的細節(jié)和粗粒度的語義。為了進一步從全尺寸的聚合特征圖中學習層次表示法,每個邊的輸出都與一個混合損失函數相連接,這有助于精確分割,特別是對于在醫(yī)學圖像體積中出現不同尺度的器官。
注意力UNet[23]分為Hard Attention和Soft Attention,增加了Attention的機制,即注意力門(Attention Gate,AG)模型,通過自動學習參數來調整激活值。訓練時能抑制模型學習與任務無關的部分,同時增加與任務有關的特征。AG接在每個跳躍連接的末端,對提取的feature實現Attention機制。加權的Res-UNet注意力機制[24]是通過將模型的最后一層的特征圖與注意掩模相乘來實現的。利用這種加權注意機制,模型將只關注目標ROI區(qū)域,拋棄無關的噪聲背景。PsP-Net[25]認為傳統的交叉熵損失不適合小目標的醫(yī)學圖像,對損失函數進行了改進,選用Dice損失函數和Reg正則化損失函數結合。
上述的分割網絡的分割精度低,對小目標檢測、小樣本訓練存在缺陷,為此本文改進了注意力UNet網絡結構,引入了新的激勵函數、圖像多尺度輸入和適合小目標檢測的損失函數。
改進的注意力UNet網絡(A2R2UNet)是在注意力R2UNet基礎上實現的,其結構與標準UNet基本相同,區(qū)別在于增加了循環(huán)殘差模塊和注意力模塊。循環(huán)殘差模塊在考慮前面時間步的狀態(tài)特征的同時,使得網絡層數更深,進而提取更加豐富的特征,注意力機制使得網絡更能提取感興趣區(qū)域。首先,x和g都被送入到1×1卷積中,將它們變?yōu)橄嗤瑪盗康耐ǖ罃?在上采樣操作后(特征圖大小相同)將x和g累加;然后,依次通過NHReLU激活函數、1×1的卷積、sigmoid,得到一個0到1的權重值;最后,注意力權重值與上采樣特征圖相乘,產生這個注意力塊的最終輸出。為了更好地提取局部特征,網絡的輸入圖像為多尺寸,每一個尺度的輸入對應各自的卷積層,其模型結構如圖1所示,圖中的輸入圖像分為四個尺度,每個尺度在本層使用conv和pooling,提取的特征分別作為下采樣和右側注意力門的輸入,該輸出特征與上采樣進行concatenate操作。
圖1 A2R2UNet網絡結構
數據增強(Data Augmentation)是在收集數據準備微調深度學習模型時,經常會遇到某些分類數據嚴重不足的情況,為了防止過擬合,在對預訓練的網絡模型參數進行微調之前,采用的一種技術。文獻[26]結合了GAN和UNet,提出了生成對抗UNet,該模型是無域的,可以泛化到各種醫(yī)學圖像增廣。通過實驗,該方法對頸部淋巴結超聲圖像數據增強效果有效。第20個epoch訓練結果如圖2所示。
圖2 數據增強訓練結果
(1) Dice損失函數。Dice loss來于Dice系數,是一種用于評估兩個樣本之間相似性度量的函數,取值范圍為0~1,值越大表示兩個值的相似度越高,計算公式如下:
(1)
式中:N是像素個數,p(k,i)∈[0,1]為類別k類在第i個像素相應的預測概率值,g(k,i)∈[0,1]為類別k在第i個像素的真實值(GT),K是類別數。
(2) Generalized Dice損失函數。Dice loss對小目標分割誤差較大,因為如果小目標有部分像素預測錯誤,那么Dice值會大幅度的變動,從而導致梯度變化劇烈,訓練不穩(wěn)定。當病灶分割有多個區(qū)域時,使用Generalized Dice loss,其計算公式如下:
(2)
(3) Focal Loss。Focal Loss函數是對標準交叉熵損失函數的改進,通過增加難分類樣本的權重,使得模型在訓練時更專注于難分類的樣本,公式如下:
(3)
因此,得出總損失函數為:
L=LGDice+LRg+λLFocal
(4)
式中:λ是LFocal的權重,根據驗證集其取值為0、0.1、0.5或1;LRg表示正則化損失。式(4)損失函數可以避免在數據不平衡時,組合Loss會退化為Dice Loss,同時對小目標有較好的分割效果。
本研究采集上海市胸科醫(yī)院超聲科360例肺癌患者的420幅淋巴結超聲圖像,其中男性200例,淋巴結300個,女性210例,淋巴結295個。所有淋巴結均進行針吸細胞學及細針穿刺活檢檢查,所有超聲診斷結果均與病理結果相對照。論文中的數據增強的方法是旋轉(90°、180°、270°、小于90°)、隨機水平翻轉、隨機豎直翻轉、cutout和對抗生成網絡生成數據,共4 545幅。實驗環(huán)境基于深度學習PyTorch框架,操作系統為Ubuntu 18.04,處理器為Intel i7-8700K,內存32 GB,顯卡為11 GB顯存的NVIDIA RTX 1080Ti。
數據集按照8∶1∶1劃分為訓練集、驗證集和測試集,采用Adam優(yōu)化器,用來訓練的圖像、UNet下采樣和上采樣卷積層指標明確,使用Dice系數來評估圖像分割結果和原標簽數據的相似程度。
通過圖3-圖5分析,NHReLU UNet網絡Dice系數低于0.9,注意力UNet網絡Dice系數為0.91,本文提出的A2R2UNet Dice系數達0.94。因此,通過實驗得出,A2R2UNet分割效果好于注意力UNet和NHReLU UNet,為下一階段良惡性的分類提供了可靠的數據支持。
圖3 NHReLU Dice系數和損失函數
圖4 注意力UNet網絡Dice系數和損失函數
圖5 A2R2UNet網絡Dice系數和損失函數
圖6列出了UNet、AUNet、R2AttUNet和A2R2UNet模型對淋巴結病灶分割結果,第一列為原超聲圖像,第二列為預測結果,第三列為人工標注病灶區(qū)域,預測病灶區(qū)域與人工標注的一致。激勵函數、多尺度輸入和損失函數改進,使得新模型針對小樣本、小目標分割邊界更加清晰,對病灶的細節(jié)信息分割更加精確。
圖6 不同網絡結構淋巴結病灶分割
表1列出了不同網絡結構在平均IOU、Dice系數和Acc三個指標上的比較,可以看出本文提出的方法最優(yōu),在MIOU上A2R2UNet較UNet網絡提升了12%,Dice系數提升了11%,Acc提升了3%。同樣,與其余對比算法相比,本文的模型在各項指標上也均有較大改進。
表1 不同網絡結構量化指標比較
A2R2UNet網絡增加了循環(huán)殘差和注意力模塊,因此,較其他UNet網絡在參數和計算資源消耗上都要大,如表2所示??赏ㄟ^增加GPU數量進一步提高實時性。
表2 不同網絡結構參數和比較
本文基于注意力UNet網絡分割超聲圖像,引入了新激勵函數、多尺度輸入改進了網絡結構,為了提高小目標分割性能和小樣本訓練模型,改進了損失函數,防止網絡的過擬合;采用了數據增強和生成對抗UNet擴充訓練數據,實驗結果表明該網絡提高了Dice系數。對超聲圖像分割出來的區(qū)域,需要分類網絡進一步預測淋巴結病灶區(qū)域的良惡性。同時,在本文基礎上,改進損失函數、對UNet++網絡引入注意力機制等方法值得今后進一步研究。UNet++網絡在參數和計算資源消耗上都優(yōu)于R2AttUnet,因此,對該網絡的優(yōu)化將在準確率和實時性上都有提高。