朱 玲,王明輝
(青島科技大學 數理學院,山東 青島 266061)
2019年底爆發(fā)的新型冠狀病毒肺炎 (COVID-19)是由新型冠狀病毒(SARS-CoV-2)導致的傳染性肺炎,在2020年初迅速蔓延到全世界,目前全球總感染人數超過584 169 857人。現有研究表明,新型冠狀病毒主要通過呼吸道飛沫傳播和接觸傳播,也可以通過氣溶膠和糞-口傳播,傳染能力較高[1]。由于新冠病毒蔓延迅速,常用的檢測方法如逆轉錄聚合酶鏈反應 (RT-PCR)耗時且存在一定的假陰性率,核酸檢測假陰性率高達17%~25.5%。
由于新冠肺炎是一種呼吸道疾病,病癥主要表現為肺部感染,所以醫(yī)生能夠通過觀察肺部圖像特征來診斷患者是否感染新型冠狀病毒。普通肺炎主要在肺部圖像顯示肺部紋理增粗,出現多發(fā)的小斑片陰影。而新冠肺炎肺部出現單發(fā)或多發(fā)的斑片狀磨玻璃影,并伴有小葉間隔增厚,在大部分患者的肺部能夠觀察到毛玻璃影渾濁以及血管擴張,這些病癥都是新冠肺炎區(qū)別于其他肺炎的主要癥狀。因此,利用深度學習對新冠肺炎肺部圖像進行輔助診斷能夠有效降低新冠肺炎的誤診率,緩解醫(yī)療資源的不足,能夠更加高效地進行新冠肺炎患者的檢測。
隨著疫情的迅速蔓延,各國采取了不同的措施應對疫情。由于新冠肺炎的癥狀主要出現在肺部,所以許多機構開始通過深度學習對肺部影響進行觀察,并在不同的模型上取得了不同的分類效果。Kumar等[2]提出的卷積神經網絡 CoroNet,在三分類和四分類任務的總體準確率分別達到了95.00%和89.60%。孟琭等[3]利用AI診斷方法診斷COVID-19,取得了97.4% 的敏感性,92.2%的特異性。王威等[4]提出了輕量級卷積神經網絡DD-CovidNet,對COVID-19識別,取得了96.08%的靈敏率,100.00%的精確率和特異性。謝娟英等[5]提出了圖像分類模型COVID-SERA-NeXt,并取得了96.11%的準確率,95.46%的召回率。
卷積神經網絡發(fā)展迅速,已經廣泛地應用到了不同的計算機視覺領域中,在醫(yī)學影像領域中廣泛應用并取得了優(yōu)秀的表現。Guo等[6]利用ResNet-18網絡對甲狀腺超聲標準平面圖像進行分類,取得了83.88%的準確率。利用深度學習卷積神經網絡可實現圖像的自動分類,大大節(jié)省時間并提高準確率。Souza等[7]使用2個深度卷積神經網絡對肺部X射線圖像進行肺分割,取得了96.79%的準確率,97.54%的靈敏性,96.79%的特異性。隨著深度學習的快速發(fā)展,深度學習作為工具已經在圖像處理等方面有效地輔助醫(yī)生對患者進行診斷。這些研究表明深度學習在圖像分類、圖像分割等方面都表現出了巨大的潛力,能夠準確高效地對患者進行診斷。
注意力機制已經成為深度卷積神經網絡中的一個重要指標,在不同的領域中得到了廣泛的應用。注意力機制能夠使模型通過不同的權重對圖像中的不同特征進行選擇,并對權重較大的特征進行學習。注意力機制能夠過濾掉無關信息,解決信息過載的問題,提高任務處理的效率和準確性。大量基于注意力機制的模型已經廣泛應用于圖像領域,基于卷積神經網絡的注意力機制在圖像分割、物體檢測和圖像分類等領域中都表現出了巨大的潛力。
本文利用深度學習對COVID-19進行輔助診斷,對不同的肺部圖像進行識別和分類。由于收集到的肺部圖像數量有限,所以本文將遷移學習和卷積神經網絡相結合,彌補圖像數據量的不足。首先,多通道雙注意力模塊能夠提高對重點區(qū)域較為復雜的圖像特征的提取能力。其次,MDA模塊能夠獲取不同尺度的感受野,提取不同尺度的圖像特征信息,并獲得每組通道的特征權重。MDA-Net將不同通道的特征進行拼接,獲取更全面的特征權重信息。最后,驗證MDA-Net在不同數據集上的分類性能,證明MDA-Net具有良好的泛化性和魯棒性。
遷移學習[8]能夠找出不同數據域之間相關聯的特征,實現不同數據之間的知識遷移,所以又名領域自適應學習,是遷移學習中的一個重要的研究方向。傳統(tǒng)的機器學習通常是依賴各自領域的訓練樣本建立分類模型,但遷移學習是通過其他領域訓練樣本進行學習,從中抽取相關知識用于目標域學習。由于遷移學習中的被遷移的對象的不同,遷移學習也可以分為4類:基于實例的遷移學習,基于特征表示的遷移學習,基于參數的遷移學習和基于關系的知識遷移學習。
接下來給出遷移學習的定義,給定源域和源域學習任務,以及目標域和目標域學習任務。遷移學習的最終目標是根據源域和源域中的權重表現,提升目標域和目標域任務中的預測函數的性能[9]。
傳統(tǒng)機器學習在應對數據分布、維度以及模型的輸出變化等任務時,往往會出現模型不夠靈活、輸出結果不夠好等問題,而遷移學習能夠解決這些不足。遷移學習利用源域中訓練得到的結果能夠使目標域中的模型展現出更高的性能。遷移學習能夠在其他數據的基礎上,對模型部分參數進行調整,使模型表現出更好的效果。在圖像領域中,遷移學習作為一種新型的機器學習方法,在很多領域中得到了廣泛應用,比如圖像檢測、圖像分類以及圖像識別[10-13]。
注意力機制已經成為深度卷積神經網絡中的一個重要指標,在不同的領域得到了廣泛的研究。注意力機制的作用原理是模型通過不同的權重對圖像中的不同特征進行選擇并聚焦權重較大的特征進行學習。注意力機制能夠過濾掉無關信息,解決信息過載的問題,提高任務處理的效率和準確性。
以往的基于注意力機制的圖像分類模型中,注意力與特征融合的過程中使用的均為通道數為一的注意力權重,或使用由其他信息提供的注意力,但是沒有使用多通道注意力。這會限制對于重點區(qū)域較為復雜的圖像的特征提取能力。多通道雙注意力模塊如圖1所示,本文中提出了多通道注意力機制,在網絡中提取多通道的注意力權重,用于提供更豐富的注意力信息[14]。在多通道注意力中,我們希望不同通道所對應的注意力關注圖像的不同位置,以便提取多樣的信息。為達到這一效果,可以釆用特殊方法將注意力初始化,或者對注意力的通道維度進行softmax操作。這樣在模型中只有某一通道的注意力權重取得最大值,而其他通道的注意力權重受到抑制,達到了每一通道注意力關注于不同位置的效果。
圖1 多通道雙注意力模塊
目前比較常用的通道注意力機制[15]僅考慮了通道注意力,沒有考慮到空間注意力。而模塊注意力機制[16]考慮了通道注意力和空間注意力,但并不能捕獲不同尺度的空間信息來豐富特征空間。為了提取到更豐富的圖像特征信息,減少信息的損失,提出了由多面通道注意力模塊和金字塔多樣注意力模塊組合而成的多通道雙注意力模塊MDA,結構如圖1所示。
多通道雙注意力在特征圖輸入之后,首先通過基于特征圖的寬度和高度進行全局平均池化,將空間特征維度降維到1×1,并使用2個全連接層和非線性激活函數建立通道間的連接。經過sigmoid激活函數獲得歸一化權重,然后通過乘法對每一個通道進行加權。同時對不同權重進行多通道處理,保證模型能夠對不同區(qū)域的特征信息進行讀取,防止遺漏邊緣特征。最后經過全局平均池化,獲得全局感受野。通過2次全連接層,降低特征圖的維度,減少參數和計算量,完成通道間相關性的建立。
Mobile Net V3是一種輕量級的卷積神經網絡。以深度可分離卷積代替了傳統(tǒng)卷積,降低了模型的參數,將參數量降低到原參數量的1/5,但在降低模型訓練消耗的同時降低對模型性能的影響?;贛obile Net V3-Large[15],本文中提出了一種全新的輕量級的多通道雙注意力網絡MDA-Net。
多通道雙注意力網絡每層由不同的模塊構成,不同模塊能夠對不同的輸入特征進行升維和降維的操作,修正模型梯度,多通道雙注意力網絡結構如圖2所示。首先,多通道雙注意力能夠提高對較為復雜的圖像特征的提取能力,增強對全局特征的提取能力。其次,多通道雙注意力模塊能夠獲取不同尺度的感受野,融合不同尺度的圖像特征,提取不同尺度的圖像特征信息。最后,多通道注意力網絡通過全局平均池化和全連接層將結果進行輸出。
當模型訓練時,一個在ImageNet數據集上經過訓練的Mobile Net V3-Large預訓練權重被引入,通過遷移學習,輸入到多通道雙注意力網絡中對肺部圖像進行分類。為了取得更好的分類效果,對多通道雙注意力網絡分類層進行微調[17]。多通道雙注意力網絡具體參數如表1所示。
圖2 多通道雙注意力網絡結構圖
表1 多通道雙注意力各層的參數信息
實驗基于Python 3.6進行,初始學習率為0.005,訓練時的動量設置為0.9,批量大小設置為64。實驗所用的遠程服務器系統(tǒng)為CENTOS 7,CPU為Intel(R) Xeon(R) Gold 6240 @2.60 GHz,內存為376 GB,顯存為32 GB。
本次實驗選取了不同醫(yī)學公共數據集上的肺部X射線圖像和肺部CT掃描圖像進行實驗。肺部X射線圖像包含3個類別,分別是COVID-19、肺渾濁和正常,每個類別包含2 000張圖像。肺部CT掃描圖像包含3個類別,分別是COVID-19、普通肺炎和正常,每個類別包含4 000張圖像,具體數據分布情況如表2所示。肺部CT掃描圖像和肺部X射線圖像的示例樣本如圖3所示,將實驗的訓練集和驗證集按照4∶1對圖像進行分配。除此之外,在3個類別中分別選取不同于訓練集和驗證集的400張肺部X射線圖像和200張肺部CT掃描圖像作為測試集進行測試,通過準確率、精確率、召回率、F1得分和特異性對MDA-Net進行評估。
表2 圖像數據集統(tǒng)計
圖3 肺部圖像示例樣本
深度學習需要大量帶標簽的圖像數據對模型進行訓練,所以對帶有標簽的肺部圖像進行數據增強,將輸入圖像大小統(tǒng)一成 255×255,通過翻轉、平移等方式擴充圖像數據數量。通過遷移學習,利用圖像之間的內在聯系進行特征遷移,提高模型訓練準確率。數據增強前后的部分圖像示例樣本如圖4所示。
圖4 數據增強前后部分圖像示例樣本
通過5個評價指標對MDA-Net進行評估,分別是準確率(Accuracy)、精確度(Precision)、F1得分(F1-Score)、召回率(Recall)和特異性(Specificity)。在分類任務中,混淆矩陣 (confusion matrix,CM) 能夠直觀地展現所有圖像的分類情況。定義TP、TN、FP、FN分別為真陽性、真陰性、假陽性和假陰性。以COVID-19為例,COVID-19中被預測為COVID-19的圖像數量記為TP,其他類別中被預測為其他類別的圖像數量記為TN,其他類別中被預測為COVID-19的圖像數量記為FP,COVID-19中被預測為其他類別的圖像數量記為FN。具體評價指標公式如下:
(1)
(2)
(3)
(4)
(5)
(6)
通過準確率來展現MDA-Net與未融合MDA的MDA-Net的不同分類效果。為了節(jié)省計算資源,在文中的數據集中選取了部分數據進行消融實驗,其中選取肺部CT掃描圖像1 000張,選取肺部X射線圖像500張。MDA-Net融合MDA前后的訓練準確率如表3所示。在圖5所示的曲線圖中能夠觀察到,相較于未融合MDA的MDA-Net,MDA-Net在二分類和三分類情況下,準確率平緩且沒有較大起伏,并保持了較高的準確率。在二分類和三分類任務中,MDA-Net在肺部CT掃描圖像中平均準確率上升了0.93%,在肺部X射線圖像中的平均準確率上升了0.21%。
表3 MDA-Net融合MDA前后的訓練準確率 %
MDA-Net在不同圖像時,不同分類的損失曲線如圖6所示??梢钥闯?MDA-Net具有較強的擬合能力,隨著批次的增加,訓練集的準確率和損失不斷優(yōu)化,沒有出現過擬合或者欠擬合的現象,訓練結果表明,MDA-Net能夠對全局特征進行拼接并提取出重要特征,增強了對不同通道特征的提取能力,提高了穩(wěn)定性和泛化性。
圖5 MDA-Net融合MDA前后的訓練準確率變化曲線
圖6 MDA-Net在不同圖像時不同分類的損失曲線
MDA-Net在二分類(COVID-19和正常)任務中的分類結果如表4所示。在肺部CT掃描圖像的二分類任務中,MDA-Net展現了較好的性能,準確率、精確率、召回率、特異性和F1得分均取得了100.00%。在肺部X射線圖像的二分類任務中,MDA-Net取得了98.50%的平均準確率,98.55%的平均精確率和0.99的平均F1得分。雖然MDA-Net在肺部X射線圖像中二分類任務中還存在部分不足,但仍能取得較高的分類精度。
肺部CT掃描圖像和肺部X射線圖像的混淆矩陣如圖7(a)和圖8(a)所示,肺部CT掃描圖像的COVID-19和正常圖像全部預測成功,肺部X射線圖像的COVID-19全部預測成功,正常的肺部圖像僅有6例被預測為COVID-19。MDA-Net總體分類準確率較高,在肺部CT掃描圖像和肺部X射線圖像中分別是100.00%和98.50%,在二分類任務中展現了良好的性能。
表4 MDA-Net二分類數據結果
圖7 肺部CT掃描圖像二分類和三分類的混淆矩陣
圖8 肺部X射線圖像二分類和三分類混淆矩陣
MDA-Net在三分類(COVID-19、普通肺炎和正常)任務中的分類結果如表5所示。在肺部CT掃描圖像的三分類任務中,MDA-Net取得了99.87%的平均準確率、99.77%的平均精確率和1.00的平均F1得分。在肺部X射線圖像的三分類任務中,MDA-Net取得了98.90%的平均準確率、98.37%的平均精確率和0.99的平均F1得分。雖然MDA-Net在肺部CT掃描圖像和肺部X射線圖像的三分類任務中還存在部分不足,但仍能取得較高的分類精度。
肺部CT掃描圖像和肺部X射線圖像的混淆矩陣如圖7(b)和圖8(b)所示,肺部CT掃描圖像的COVID-19圖像僅有3例被預測成為普通肺炎,其他均預測正確。肺部X射線圖像的COVID-19圖像有2例被預測為肺渾濁,肺渾濁圖像中有3例被預測為COVID-19,正常圖像中4例被預測為COVID-19,1例被預測為肺渾濁。MDA-Net總體分類準確率較高,在肺部CT掃描圖像和肺部X射線圖像中分別是99.87%和98.90%,在三分類任務中取得了較好的效果,具有良好的檢測和分類能力。
表5 MDA-Net三分類數據結果
為了證明提出的MDA-Net在COVID-19診斷中的先進性,并更加客觀地評價MDA-Net。將MDA-Net與其他方法進行了對比,結果如表6所示。
首先,對于二分類任務,另外選取數據集的400張肺部CT掃描圖像和200張肺部X射線圖像作為驗證集,對模型的性能進行評估。通過表5能夠看出,MDA-Net在二分類任務中的肺部圖像中取得了較好的分類能力,展現了良好的性能。其次,在三分類任務中,通過對比能夠發(fā)現MDA-Net的總體準確率較好,精確率和F1得分也表明MDA-Net具有分類優(yōu)勢,這證明MDA-Net具有一定的可用性。最后,MDA-Net在2個數據集上分類效果都較為良好,能夠拼接不同通道的權重,加快模型收斂速度,具有良好的穩(wěn)定性、泛化性和分類性能。
表6 各類方法結果
提出了基于遷移學習的多通道雙注意力網絡MDA-Net,通過肺部圖像對疑似COVID-19患者進行自動診治。MDA-Net利用遷移學習的預訓練權重獲得了較好的初始準確率,提高了分類能力。多通道雙注意力模塊融合的不同尺度的圖像特征信息,提高了對全局特征的提取能力。MDA-Net能夠獲得每組通道的特征權重,能夠將不同通道的特征進行拼接,獲取更全面的特征權重信息。
經過消融實驗后,MDA-Net的分類能力得到明顯提升。對于肺部CT掃描圖像和肺部X射線圖像,在二分類任務中分別取得了100%和98.50%的準確率,在三分類任務中分別取得了99.87%和98.90%的準確率。與其他模型對比,凸顯了MDA-Net的穩(wěn)定性、泛化性和優(yōu)秀的分類能力。實驗表明,MDA-Net能夠在消耗較少時間和計算資源的前提下對肺部圖像快速分類,可以作為醫(yī)院對COVID-19患者進行輔助診斷的手段之一。MDA-Net是輕量級的網絡,改進之后仍可用于其他醫(yī)療診斷,如肺結節(jié)、肺癌和腦腫瘤等其他疾病。