廖 俊,尹冬生,徐小入,李 娓,杜玲艷*,何圓林
(1.四川輕化工大學自動化與信息工程學院,自貢 643000;2.四川省人工智能重點實驗室,宜賓 644000)
幾十年來,肺部疾病在全球范圍的死亡率一直居高不下,其中肺癌每年的全球死亡人數(shù)約為177 萬人,嚴重威脅著人類的生命健康[1]。肺部疾病的早期篩查診斷極大地影響著患者的治愈率[2]。肺癌的早期階段一般不會有較為顯著的病癥跡象,而大多患者一旦確診基本已是中晚期,錯過了最好的治療期。因此,癌癥初期的檢測篩查和臨床會診極為重要,低劑量計算機斷層掃描(computed tomography,CT)[3]是臨床常用的有效檢測、診斷技術,該技術的使用能夠及時發(fā)現(xiàn)肺部的病變組織,給患者的治療提供了很好的參考。但同時,患者的肺部CT 掃描圖像數(shù)量巨大,臨床影像醫(yī)師需要對這些影像進行大量閱讀,然后根據(jù)從CT 影像中發(fā)現(xiàn)的肺部病變給出臨床的診斷結果,肺部切片的人工篩查需要投入大量的工作精力,且診斷不夠全面。雖然計算機輔助診斷(computer-aided detection,CAD)[4-5]被引入肺癌篩查,極大地減少了肺部影像的閱讀數(shù)量,但由于掃描形成的肺部影像存在許多非肺部區(qū)域,這些非肺實質區(qū)域的存在,會嚴重干擾醫(yī)師對肺部疾病的診斷,因此,需要將肺實質較好地從肺部CT 圖像中分割出來,同時肺分割也是計算機輔助診斷系統(tǒng)的首要步驟。
傳統(tǒng)的醫(yī)學影像分割中,特征提取技術與特殊分類器的結合不適宜多樣性醫(yī)學圖像的分割,而且設計繁雜特征提取算法存在一定推廣應用的局限性,這制約著圖像分割技術的發(fā)展[6-7]。對于肺部CT圖像,傳統(tǒng)的分割算法常用的有基于閾值的方法[8]、使用邊緣檢測濾波器或小波變換的邊界方法[9]和將各種數(shù)學理論引入到圖像分割中的特定理論方法[10],此外還有半自動分割以及全自動分割[11]。由于醫(yī)學CT 圖像的特殊性以及亮度變化的不均衡性,使得基于閾值理論的方法對肺的分割效果還有很大的提升空間,人工的手工分割耗時費力,對于小目標分割不夠準確,雖然半自動的圖像分割方法在醫(yī)學圖像分割中占有很大比重,但不符合現(xiàn)代醫(yī)學的發(fā)展,面對海量數(shù)據(jù)集的分割也不夠理想,因此利用深度學習實現(xiàn)醫(yī)學圖像智能化、精細化的分割,已經(jīng)成為了醫(yī)生快速診斷、病理分析以及智慧醫(yī)療輔助系統(tǒng)發(fā)展的趨勢。
本文在傳統(tǒng)肺實質CT 影像分割法的研究基礎上,采用深度學習神經(jīng)網(wǎng)絡算法,設計了一個基于全卷積神經(jīng)網(wǎng)絡的CAU-Net 醫(yī)學圖像分割方法。該算法是一個U 型架構的CT 圖像分割模型,網(wǎng)絡模型中的通道注意力能夠提升模型對特定特征信息的權重,改善網(wǎng)絡的特征融合,提高其分割的準確性。
通道注意力(channel attention,CA)[12]根據(jù)當前特征圖的像素單位,對每個像素分配一個二維矩陣的權重值,利用這一策略使網(wǎng)絡在權重值的不同比重下關注不同通道上特征,其結構模型如圖1所示。
圖1 通道注意力結構
通道注意力根據(jù)輸入的數(shù)據(jù)進行通道維度上不同權重的特征學習,但保留平面維度上的特征權重。CA 模塊輸入的特征圖F大小為C×H×W,C是通道,H和W為F的二維大小,特征圖F先分別進行全局的最大池化(MaxPool)和平均池化(AvgPool),形成兩個1 × 1 ×C大小的特征圖,兩種特征圖輸入共享多層感知機(multilayer perceptron, MLP)進行通道間關系的學習,然后將MLP 的輸出按元素疊加、合并,激活函數(shù)Sigmoid 把疊加后的特征進行運算,生成通道注意力MC(F)。最后,得到的通道注意力系數(shù)MC(F)按元素和輸入的特征圖相乘形成特征描述圖F′,相關計算公式見公式(1)。得到了每一個特征通道的權重之后,就將該權重應用于原來的每個特征通道,在增加少量計算量的情況下,能夠獲得明顯的性能提升。
U-Net 網(wǎng)絡是Ronneberge 等[13]對全卷積神經(jīng)網(wǎng)絡(FCN)[14]架構進行的拓展,在數(shù)據(jù)集的大量訓練之后實現(xiàn)良好的分割結果,是在醫(yī)學領域常采用的全卷積分割網(wǎng)絡,是一種左右對稱的端到端U 型結構模型。為實現(xiàn)較好的分割效果,對原模型架構進行了改進,改進模型結構如圖2所示,網(wǎng)絡由左邊的編碼、跳躍連接和右邊解碼結構組成。在編碼路徑中,通過對輸入圖片進行下采樣的卷積和池化進行降維,同時提取大量具有低像素的特征圖信息;解碼路徑通過執(zhí)行上卷積來對提取的特征圖進行維度提升和特征放大。
圖2 CAU-Net模型結構
左側編碼結構不同階段形成的不同分辨率的特征圖,在跳躍連接結構的特征連接下,與右側解碼結構形成的特征進行對應層的融合,二者的有效結合能夠很好地增加特征多樣性,有助于較好提升醫(yī)學圖像分割的效果。為了使網(wǎng)絡中用來起分割作用的淺層特征和用來定位的深層特征更好地融合利用,將跳躍連接融合的特征輸入通道注意力進行像素級別的特征權重分配,讓感受野內(nèi)的主要特征更突出,讓網(wǎng)絡的特征學習更加專注,優(yōu)化模型輸出,改善分割結果。
本文的實驗環(huán)境為8核處理器,內(nèi)存16 GB,型號為Inte(lR)Xeon(R)Bronze3204CPU@1.90GHz,12 GB顯卡進行加速訓練,型號為NVIDIA GeForce GTX 1080ti,所有網(wǎng)絡模型算法都是基于Keras深度學習框架來實現(xiàn),網(wǎng)絡模型的訓練學習率設置為0.0001。
為了較為全面地驗證改進模型,選取了幾種常用的CT 圖像分割指標來進行評價,以驗證模型結構的合理性以及分割的有效性。分別是精確率Accuracy(AC),準確率Precision(PR),相似度Jaccard similarity(JS),敏感度Sensitivity(SE),特異性Specificity(SP)和F1-Score(F1)。各項評價指標的計算見表1,表2 給出了評價指標中各元素的含義。受試者工作特征曲線ROC(Receiver Operating Characteristic Curve)以及precision-recall 曲線。
表1 評價指標的計算
表2 指標計算方法的元素含義
本文采用的數(shù)據(jù)集為2017 年Kaggle 肺結節(jié)分析競賽中引入的肺分割數(shù)據(jù)集,該數(shù)據(jù)集由2D 和3D CT 圖像組成,并帶有用于肺分割的相應標簽圖像[15],CT 圖像由512 × 512 大小的像素組成。實驗共使用數(shù)據(jù)集圖片1021 張,其中訓練571張,評估143張,測試307張。
為比較改進模型的合理性和分割的有效性,對U-Net網(wǎng)絡和CAU-Net進行了對比實驗,實驗中所有模型的訓練和驗證batch_size 設置為4,迭代訓練50 輪,測試和訓練都在相同數(shù)據(jù)集上進行。訓練后模型的評價指標結果見表3。與原U-Net 相比,改進模型的精確率提升0.2 個百分點,準確率提升1.4個百分點,相似度提升1.2個百分點,特異性提升0.4個百分點,F(xiàn)1-Score提升0.6個百分點,評價指標得到了進一步的提升。
表3 評價指標對比
迭代訓練50 輪后CAU-Net 模型的精度和損失曲線分別如圖3(a),3(b)所示,精度曲線和損失曲線均在迭代訓練約40 輪后趨于平穩(wěn)。將訓練好的模型權重加載于CAU-Net 模型進行測試,在數(shù)據(jù)集的測試結果中ROC 曲線如圖3(c)所示,AUC 的大小為0.9927;precision-recall 曲線如圖3(d)所示,該測試曲線的AUC 大小為0.9851,曲線面積大小均在98%以上。
圖3 CAU-Net模型曲線
將訓練好的CAU-Net 模型在測試數(shù)據(jù)集上進行分割實驗,分割結果如圖4所示,圖中第一列表示數(shù)據(jù)集中的原始CT 圖像;第二列為肺部掩膜;第三列為本文算法的分割結果。結果顯示該算法的分割準確率均達到了99%的效果,能較好地分割出肺部區(qū)域,說明通道注意力能夠有效增加采樣卷積形成的特征信息,增加了目標區(qū)域信息的豐富性,從而提高了分割性能,使模型能夠較好地分割出肺部區(qū)域。
圖4 CAU-Net肺部分割
本文提出了融合通道注意力的CAU-Net2D肺實質分割算法,在算法對應層中融合特征圖的跳躍連接,后面加入通道注意力,使網(wǎng)絡的特征提取更具有針對性,對主要目標的特征學習更加高效,使網(wǎng)絡更專注于分割目標的重要特征,加強信息的捕捉。所提算法在Kaggle 肺分割數(shù)據(jù)集上進行了實驗,展現(xiàn)出良好的效果,表明改進算法對肺分割的有效性,為輔助診斷系統(tǒng)技術在肺部疾病診斷的應用中提供參考。