周 濤,彭彩月*,杜玉虎,黨 培,劉鳳珍,陸惠玲
(1.北方民族大學(xué) 計算機科學(xué)與工程學(xué)院,寧夏 銀川 750021;2.北方民族大學(xué) 圖像圖形智能處理國家民委重點實驗室,寧夏 銀川 750021;3.寧夏醫(yī)科大學(xué) 醫(yī)學(xué)信息與工程學(xué)院,寧夏 銀川 750004)
肺炎作為一種常見的胸部疾病,是由微生物和其他環(huán)境因素引起的呼吸道感染。它導(dǎo)致肺部積液和呼吸困難,對人體的呼吸系統(tǒng)造成了嚴重的危害。2019 年下半年爆發(fā)的新型冠狀病毒感染(Corona Virus Disease2019,COVID-19),已影響全球人口的健康[1]。傳統(tǒng)的肺炎診斷手段主要依賴于醫(yī)生多年的臨床經(jīng)驗,可能存在主觀誤差,且難以大規(guī)模實施。胸部影像學(xué)在肺部感染性病變的診斷中具有重要的價值,對患者進行療效評價可利用高分辨率胸部CT[2]及X 線檢查[3]。利用深度學(xué)習(xí)技術(shù)對患者肺部影像特征進行分析,從而進行病情評估,能夠降低復(fù)雜的醫(yī)學(xué)數(shù)據(jù)給醫(yī)務(wù)人員帶來的負擔(dān),提高診斷效率,輔助醫(yī)生盡快形成針對性診療方案[4]。
殘差神經(jīng)網(wǎng)絡(luò)(Residual Neural Network,ResNet)[5]廣泛應(yīng)用在醫(yī)學(xué)圖像領(lǐng)域,目前在肺部疾病的臨床輔助診斷方面取得了良好的效果。Zhou 等[6]提出一種基于CT 圖像的改進的注意力ResNet 新冠肺炎識別模型,以適應(yīng)新冠肺炎病灶區(qū)域的特性,實現(xiàn)對于新冠肺炎的識別。Chen等[7]提出一種基于Inception-ResNet的COVID-19診斷三分類模型,在Inception-Resnet 中使用自注意力機制對肺部病變進行分類,進一步提升了卷積神經(jīng)網(wǎng)絡(luò)的分類性能。Huang 等[8]提出了一種名為非局部通道注意力ResNet 的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),將ResNet 與非局部模塊和信道注意力機制相結(jié)合,用于監(jiān)測COVID-19 PN 患者的肺水腫程度,幫助臨床醫(yī)生為患者制定適當(dāng)?shù)闹委煼椒?。Rajpal 等[9]提出了一種注意力瓶頸殘差網(wǎng)絡(luò)(ABResNet)對COVID-19 的正常和異常病例進行分類,并通過提出的基于邊緣的圖切割分割(EGCS)來定位疾病感染區(qū)域,在精度更高的同時實現(xiàn)了有效的網(wǎng)絡(luò)性能。Chen 等[10]提出雙非對稱特征學(xué)習(xí)網(wǎng)絡(luò)DualCheXNet,用于多標簽胸部疾病分類,通過結(jié)合ResNet 和DenseNet,從胸部圖像中捕獲更多的判別特征,提高胸部疾病分類性能。吳宣言等[11]提出一種深層聚合殘差密集網(wǎng)絡(luò)(DLA-RDNet),用于超聲圖像左心室分割,在下采樣部分,結(jié)合ResNet 與DenseNet 的優(yōu)勢提出殘差密集網(wǎng)絡(luò)(RDNet),充分利用所有卷積層的層次信息,實現(xiàn)了較高的增長率。李鏘等[12]提出一種結(jié)合三重注意力機制的雙路徑卷積神經(jīng)網(wǎng)絡(luò)(TADPN),將ResNet 和DenseNet 結(jié)合的雙路徑網(wǎng)絡(luò)(Double Path Network,DPN)作為骨干網(wǎng)絡(luò),并利用3 種不同形式的注意力機制改進DPN,在維持參數(shù)量穩(wěn)定的同時提高網(wǎng)絡(luò)復(fù)雜度,進而提升對胸片疾病的分類精度。
肺部X 射線圖像病變區(qū)域多樣化,存在分布廣泛、形狀復(fù)雜、大小不一等特點,且圖像中病灶區(qū)域存在與周圍組織對比度有限、邊界不清晰的問題,肺炎感染癥狀的特異性會導(dǎo)致模型不能很好地關(guān)注圖像中的病變區(qū)域,難以充分提取病變區(qū)域的有效特征進行分類。針對上述問題,本文設(shè)計了組注意力雙殘差模塊(Group Attention Dual Residual Module,GADRM),采用通道混洗、通道注意力與空間注意力進行高效的特征提取,融合不同通道之間的特征信息,使用兩個不同操作的殘差連接同時對特征進行重復(fù)挖掘利用,增強單個模塊對病變區(qū)域特征的提取能力;設(shè)計了全局局部特征提取模塊(Global Local Feature Extraction Module,GLFEM),在特征提取網(wǎng)絡(luò)末端結(jié)合CNN 和Transformer 的優(yōu)勢,使得網(wǎng)絡(luò)同時關(guān)注全局以及局部的高語義特征信息,進一步增強網(wǎng)絡(luò)的語義特征提取能力;構(gòu)造了跨層雙注意力特征融合模塊(Cross-layer Dual Attention Feature Fusion Module,CDAFFM),利用空間注意力增強淺層網(wǎng)絡(luò)的紋理、形狀等低語義信息,對深層網(wǎng)絡(luò)的高語義信息進行通道增強,將二者融合獲得更豐富的上下文信息,對網(wǎng)絡(luò)提取到的跨層特征進行增強。
ResNet 的出現(xiàn)有效緩解了由于網(wǎng)絡(luò)深度增加帶來的梯度消失和網(wǎng)絡(luò)退化問題,能夠加快神經(jīng)網(wǎng)絡(luò)的訓(xùn)練速度,并且大幅提升深度網(wǎng)絡(luò)的泛化能力和穩(wěn)定性,常用于醫(yī)學(xué)圖像的肺部分類。然而,肺部X 射線圖像的病灶區(qū)域較小、形狀復(fù)雜,與正常組織間的邊界模糊,模型常常無法提取圖像的全局特征和局部特征,且難以聚焦于病灶區(qū)域。此外,原始殘差網(wǎng)絡(luò)采用卷積操作進行特征提取,無法獲得病灶的全局信息。
為了有效利用X 光圖像中的全局與局部病變區(qū)域特征,提高模型對于不同類型肺炎的識別能力,本文提出面向特征增強的雙殘差Res-Transformer 肺炎識別模型DRT Net。該模型的整體結(jié)構(gòu)如圖1 所示,包含GADRM(A)、CDAFFM(B)以及GLFEM(C)。DRT Net 利用Res-Transformer 結(jié)構(gòu)對于肺炎圖像的全局特征提取能力與局部特征提取能力,結(jié)合3 種不同的特征增強策略提升模型對于病變區(qū)域的感知能力。
圖1 DRT Net 整體框架Fig.1 Overall framework of DRT Net
殘差單元通過殘差連接實現(xiàn)恒等映射,避免由于網(wǎng)絡(luò)加深而造成的梯度消失問題。殘差連接有Add 型殘差連接和Concat 型殘差連接[13]。其中,Add 型殘差連接將尺寸相同的輸入圖像和輸出圖像進行元素級相加,從而進行特征重用;Concat 操作是在特征圖尺寸相同的情況下進行通道拼接,對特征圖進行通道方向的擴張,將特征信息進行融合。
基礎(chǔ)的殘差網(wǎng)絡(luò)性能有限,對于圖像特征感知不充分。本文設(shè)計的GADRM 如圖2 所示,首先構(gòu)造雙殘差結(jié)構(gòu),該結(jié)構(gòu)結(jié)合兩種不同方式的殘差連接對特征進行重復(fù)挖掘利用與探索,提高模塊對于病變區(qū)域特征的提取能力。其次,利用通道混洗操作將組卷積之后的特征圖之間的通道信息進行融合,將融合后的特征圖組劃分為4個子組,執(zhí)行不同的特征轉(zhuǎn)換。然后,使用深度可分離卷積提取各組特征并進行融合,提高組內(nèi)特征的可識別性。最后,結(jié)合擠壓激勵操作與空間注意力操作構(gòu)造GADRM,增強模塊的特征表達能力。
圖2 組注意力雙殘差模塊Fig.2 Group attention dual residual module
GADRM 模塊的詳細流程包括4 個階段。
階段一:將特征圖M 按通道數(shù)劃分為兩組,M1包含四分之三通道數(shù),M2包含四分之一通道數(shù)。特征圖M 首先經(jīng)過1×1 的卷積操作并在通道維度進行分組,得到8 組特征圖Groupi,其中i=1,2,…,8,每組特征圖通道數(shù)是輸入特征圖的1/8。
階段二:將每組特征圖Groupi在通道維度平均劃分為4 組,每組特征圖用Xr表示,其中r=1,2,3,4。該階段主要有3 個步驟。
步驟一:首先將輸入特征Xr進行通道混洗,其流程如圖3 所示。首先通過Reshape 操作將輸入通道從一維變成兩維,其中一維表示卷積組數(shù),另一維是每個卷積組包含的通道數(shù);然后,進行Transpose 操作將擴展出的兩維進行置換;最后進行Flatten 展平操作,將置換后的通道展平,完成最后的通道混洗。計算過程如下:
圖3 通道混洗操作Fig.3 Channel shuffle operation
其中r=1,2,3,4。
步驟二:使用DWConv()表示GADRM 中3×3 深度可分離卷積(圖2 中3×3DWConv),并使用Yr表示DWConv()的輸出。計算過程如下:
式中r=1,2,3,4。
步驟三:利用通道映射之間的相互依賴性可以改進特定語義的特征表示。將第r組的特征圖Yr輸入到SE 模塊[14]。首先,通過自適應(yīng)全局平均池化(Global Average Pooling,GAP)將特征層的長寬進行壓縮,只留下通道維度的信息。然后,使用兩個全連接層FCSigmoid和FCRelu對通道信息進行加權(quán),得到各分組通道的權(quán)重:
式中r=1,2,3,4。
最后將各通道的權(quán)重與各分組特征圖相乘,得到通道加權(quán)特征圖:
式中:r=1,2,3,4,i=1,2,…,8。
階段三:利用空間注意模塊來聚合空間關(guān)系,使網(wǎng)絡(luò)更加關(guān)注圖像的病灶區(qū)域,如圖4 所示。首先將所有組得到的特征圖Gi進行求和得到:
圖4 擠壓激勵模塊和空間注意力模塊Fig.4 Squeeze excitation module and spatial attention module
式中i=1,2,…,8。
接著對特征圖G使用全局平均池化(Global Average Pooling,GAP)和全局最大池化(Global Max Pooling,GMP)來獲取兩種不同的上下文信息;將兩個特征圖GAP(G)∈R1×H×W和GMP(G)∈R1×H×W拼接起來,再通過一個3×3 的卷積操作獲得特征圖G空間維度的權(quán)重:
式中,Concat 表示特征圖拼接操作,Conv 表示一個標準的3×3 卷積操作。
最后在權(quán)重W和輸入特征圖G之間進行逐元素乘法運算,得到最終的空間注意力圖:
階段四:最后特征圖N經(jīng)過一個1×1 卷積層操作后,按通道數(shù)將其劃分成兩部分,四分之三個通道的特征圖N1被添加到下方跳躍連接路徑中,與初始特征圖M1相加;另外四分之一個通道的特征圖與上方跳躍連接路徑的初始模塊做拼接操作;最終將通道合并作為輸出。其數(shù)學(xué)表示如下:
其中:Output 表示該模塊的最終輸出,Concat 表示特征圖沿通道方向的拼接操作。
CNN 具有平移不變性和局部敏感性等歸納偏置,可以很好地捕捉圖像細粒度特征和局部信息,是計算機視覺領(lǐng)域的主流模型[15]。但是CNN 感受野有限,現(xiàn)有的CNN 方法通常只使用從網(wǎng)絡(luò)深層提取的高級語義信息進行分類,不具備獲取全局信息的能力,這會導(dǎo)致有用信息的丟失,使模型的分類效果不佳。Transformer 編碼器解碼器結(jié)構(gòu)使并行計算得以實現(xiàn),提高了模型的訓(xùn)練效率,并且利用自注意力機制能夠捕獲數(shù)據(jù)之間的長距離信息和依賴關(guān)系。
本文在網(wǎng)絡(luò)深層設(shè)計了一個GLFEM 同時提取局部信息和全局信息。該模塊對高層語義信息進行全局建模,同時融合CNN 和Transformer 的優(yōu)勢,提取更豐富的特征信息,能夠使網(wǎng)絡(luò)充分提取病變區(qū)域的有效特征,從而提升網(wǎng)絡(luò)對于肺炎疾病的分類性能。GLFEM 的具體流程如圖5 所示,該模塊由局部信息編碼模塊、全局信息編碼模塊和特征融合模塊3 個子模塊組成,它們進行的操作分別為圖像局部特征信息提取、圖像全局特征信息提取以及特征信息融合。
圖5 全局局部特征提取模塊Fig.5 Global local feature extraction module
首先特征圖X∈RH×W×C進入局部信息編碼模塊,通過一個卷積核大小為3×3 的卷積層進行局部信息編碼,然后通過一個卷積核大小為1×1 的卷積層進行通道數(shù)的調(diào)整,通過學(xué)習(xí)輸入通道的線性組合將張量投影到高維空間,此時X∈RH×W×d。
其次,通過Unfold,Transformer,F(xiàn)old 結(jié)構(gòu)進行全局的特征建模。為了使網(wǎng)絡(luò)能夠?qū)W習(xí)具有空間歸納偏置的全局表示,先將輸入的特征圖劃分成Patch。此時特征圖表示為XU,且XU∈RP×N×d。其中P=WH,N為Patch 的個數(shù)且N=HW/P,H和W分別為Patch 的高度和寬度。如圖5 所示,通過Unfold 操作將相對位置相同的特征圖拼接在一塊,即圖中顏色相同的位置,分別在每個塊內(nèi)進行自注意力計算,相應(yīng)地減少計算量。然后將拼成的一個序列輸入到Transformer進行建模。
然后,通過應(yīng)用Transformer 來編碼patch 間關(guān)系,其數(shù)學(xué)表示如下:
通過Fold 操作將計算完自注意力的特征圖組重新按照相對位置還原為初始形狀。與丟失像素空間順序的視覺Transformer 相比,該模塊同時保留了Patch 的順序與每個Patch 內(nèi)像素的空間順序。
將全局特征建模后的特征塊XG通過1×1卷積將通道數(shù)調(diào)整回原始大小,通過一個殘差連接與原始輸入特征圖沿通道方向進行拼接,最后再通過一個3×3 的卷積層進行特征融合得到輸出。
CNN 中的卷積操作在提取特征的同時丟失了底層的紋理細節(jié),使得高層次特征和低層次特征分布在網(wǎng)絡(luò)兩端。高層次特征具有更強的語義信息,但分辨率低且對細節(jié)的感知能力較差;淺層特征分辨率高,包含更多位置細節(jié)、邊緣和紋理等信息,但由于特征提取不充分,其語義性低且噪聲多。此外,特征提取網(wǎng)絡(luò)中不同層關(guān)注的信息也是有差異的,利用不同層的特征融合上下文信息能夠提升網(wǎng)絡(luò)的分類性能。然而,簡單的相加易造成信息冗余,并不能充分利用二者的優(yōu)勢,因此本文設(shè)計了CDAFFM,用淺層語義信息彌補深層語義信息的缺失,如圖6 所示。將淺層網(wǎng)絡(luò)的紋理、形狀等低語義信息利用空間注意力進行增強,將深層網(wǎng)絡(luò)的高語義信息進行通道增強。篩選后的通道和空間信息相加,使圖像淺層上下文信息與深層上下文信息進行高效融合,保留更多有用信息,提升模型的分類性能。
圖6 跨層雙注意力特征融合模塊Fig.6 Cross-layer dual attention feature fusion module
對于原始輸入的低層特征圖A,經(jīng)過3 個相同的1×1 卷積操作進行特征映射,得到特征圖B,C,D。對于特征圖B和特征圖C,其原始尺寸為C×H×W,將二者從三維特征經(jīng)Reshape 操作轉(zhuǎn)換到二維特征,尺寸變?yōu)镃×N(N=H×W),之后將特征圖B進行轉(zhuǎn)置,其形狀變?yōu)镹×C,并與特征圖C相乘,獲得空間注意力值Wspatial;特征圖D同樣經(jīng)過Reshape 操作變?yōu)镃×N,將特征圖D與Wspatial相乘獲得空間維度上篩選后的特征圖,最后將特征圖Reshape 為C×H×W。
空間注意特征圖的計算過程如下:
式中:Sji度量第i個位置對第j個位置的影響,即第i個位置和第j個位置之間的關(guān)聯(lián)程度,其值越大越相似。其輸出為:
其中:α表示尺度系數(shù),初始化為0,通過逐漸地學(xué)習(xí)分配到更大的權(quán)重。在每個位置處得到的結(jié)果特征M是所有位置上的特征和原始特征的加權(quán)和,它具有全局上下文視圖,并根據(jù)空間注意力圖選擇性地聚合上下文,使相似的語義特征相互增益,從而提高類內(nèi)緊湊性和語義一致性。
對于高語義的特征圖E,則不經(jīng)過1×1 卷積操作進行特征映射,直接進行Reshape 操作分別獲得二維特征圖F,G,H。將特征圖F進行轉(zhuǎn)置使得其形狀變?yōu)镹×C(N=H×W),轉(zhuǎn)置后的特征圖F與G相乘獲得通道維度的注意力值Wchan-nel,將Wchannel與特征圖H相乘獲得通道維度上篩選后的特征圖,最后將特征圖Reshape 為C×H×W。
通道注意特征圖的計算如下:
式中Xji為第i個通道對第j個通道的影響值。其輸出為:
其中:β表示尺度系數(shù),初始化為0,經(jīng)過逐漸學(xué)習(xí)分配到更大的權(quán)重。每個通道的結(jié)果特征為N,表示所有通道特征和原始特征的加權(quán)和。
最后,將高低層篩選后的特征圖相加獲得特征結(jié)果圖。
本文使用的數(shù)據(jù)集為公開數(shù)據(jù)集COVID-19 CHEST X-RAY DATABASE[16-17],該數(shù)據(jù)集由來自卡塔爾大學(xué)和達卡大學(xué)的研究人員以及來自巴基斯坦和馬來西亞的合作者與醫(yī)生合作創(chuàng)建。分類實驗選取其中的COVID-19 陽性病例、正常肺部圖像以及病毒性肺炎圖像,如圖7 所示。將數(shù)據(jù)集經(jīng)簡單篩選后重新分成訓(xùn)練集和驗證集。其中,訓(xùn)練集包括2 893 張COVID-19陽性病例圖像、2 400 張正常肺部圖像以及1 076張病毒性肺炎圖像;測試集包括723 張COVID-19 陽性病例圖像、600 張正常肺部圖像以及269張病毒性肺炎圖像。將所有不同尺寸的原始圖像縮放至224×224 像素,然后轉(zhuǎn)換為向量格式并進行像素值歸一化處理。
圖7 數(shù)據(jù)集展示Fig.7 Dataset display
通過對分類模型實驗結(jié)果的定量對比,能夠判斷分類模型的優(yōu)劣。本文主要以準確率(Accuracy,A)、平均精確率(Precision-Macro,P)、平均召回率(Recall-Macro,R)、平均F1 值(F1 score-Macro,F(xiàn)1)和AUC 值為評價指標,分析了改進的網(wǎng)絡(luò)模型對肺炎分類效果的影響。
評價指標的數(shù)學(xué)表達式如下:
其中:TN,TP,TN 和FN 分別表示真陽性、假陽性、真陰性和假陰性的數(shù)量,TP 是正確標記為陽性的模型預(yù)測結(jié)果的數(shù)量,F(xiàn)P 是錯誤標記為陽性的模型預(yù)測結(jié)果的數(shù)量,TN 是正確標記為陰性的模型預(yù)測結(jié)果的數(shù)量,F(xiàn)N 是錯誤標記為陰性的模型預(yù)測結(jié)果的數(shù)量。
本文在三分類模型中單獨計算每一類的評價指標,最后求評價指標的算術(shù)平均。此外,AUC 被定義為ROC 曲線下與坐標軸圍成的面積,作為數(shù)值可以直觀地評價分類器的好壞。AUC 越大,分類器效果越好。
實驗環(huán)境為Windows Server 2019 Datacenter 的64 位系統(tǒng),搭載Intel Xeon Gold 6154,3.0GHz x36 CPU 處理器,計算機內(nèi)存為256 GB,采用兩塊并行的TITAN Ⅴ顯卡加速圖像處理,程序編寫采用Python 語言,基于GPU 版本的Pytorch 框架進行網(wǎng)絡(luò)搭建和訓(xùn)練。使用Adam 優(yōu)化器進行優(yōu)化,學(xué)習(xí)率衰減值設(shè)置為0.000 1,對于肺部X 射線數(shù)據(jù)集的訓(xùn)練周期設(shè)為150,訓(xùn)練批處理大小設(shè)置為8。損失函數(shù)使用交叉熵損失。
為了評估模塊的有效性,通過不同的網(wǎng)絡(luò)模型來測試各個模塊,評估指標包括準確率(A)、宏平均精確率(P)、宏平均召回率(R)、宏平均F1 值和AUC 值,如表1 所示。本文在DPN92 網(wǎng)絡(luò)的基礎(chǔ)上依次進行8 項實驗。Network1:DPN92 網(wǎng)絡(luò);Network2:添加CDAFFM 的DPN92 網(wǎng)絡(luò);Network3:與GLFEM 結(jié)合的DPN92 網(wǎng)絡(luò);Network4:將初始特征提取塊改為GADRM 的網(wǎng)絡(luò);Network5:使用 CDAFFM 以及 GLFEM 的DPN92 網(wǎng)絡(luò);Network6:使用GADRM 以及GLFEM 的網(wǎng)絡(luò);Network7:使用GADRM 以及CDAFFM 的網(wǎng)絡(luò);Network8:本文所提出的DRT Net。
表1 消融實驗結(jié)果對比Tab.1 Result comparison of ablation experiments
與Network1 相比,Network2 在添加了CDAFFM 模塊后的性能參數(shù)均有所提升,準確率、精確率、召回率、F1 值與AUC 值分別提升了0.33%,1.42%,1.29%,1.87%與0.17%,由此證明CDAFFM 模塊能夠?qū)⒉煌A段的特征融合增強,增強了模型對特征的提取能力;Network3 在添加GLFEM 模塊后的準確率、精確率、召回率、F1 值與AUC 值分別提升了0.49%,1.60%,1.79%,2.08%與0.28%,證明了GLFEM 模塊的有效性;Network4 在添加GADRM 模塊后的準確率提升了0.55%,精確率提升了2.35%,召回率提升了4.01%,F(xiàn)1 值提升了3.83%,AUC 值提升了0.44%,由此驗證了GADRM 模塊能夠使網(wǎng)絡(luò)具有更好的提取特征。
添加兩個模塊的Network5,6,7 的各項評價指標又高于只添加一個模塊的Network2,3,4;添加GADRM,GLFEM 與CDAFFM 3 個模塊的DRT Net 性能最好,且與初始的Network1 模型相比,肺炎分類的準確率從初始的96.92%上升到 98.41%,精確率從 91.28% 上升到94.42%,召回率從90.26%上升到94.20%,F(xiàn)1值從 90.03% 上升到 94.26%,AUC 值從98.84% 上升到99.65%。由此可知,本文所提出的DRT Net 性能最優(yōu),在肺部X 射線圖像數(shù)據(jù)集上對于肺炎的分類性能最佳。為了更直觀地進行實驗對比,繪制消融實驗結(jié)果雷達圖,如圖8 所示。DRT Net 折線位于最外側(cè),模型性能最優(yōu)。此外,為了考察不同模型對于三類樣本分類預(yù)測的標簽(Y-Pre)和真實情況(Y-True)之間的差異,本文采用混淆矩陣對消融實驗測試結(jié)果進行可視化,如圖9 所示。通過混淆矩陣對比可以看出,DRT Net 對三類樣本的識別更為均衡且分類效果更優(yōu),能夠?qū)崿F(xiàn)肺炎的準確分類。
圖8 消融實驗結(jié)果雷達圖Fig.8 Radar chart of ablation experiment results
圖9 消融實驗中各模型的混淆矩陣Fig.9 Confusion matrix of each model in ablation experiments
為了驗證本文模型對于肺炎的分類能力,在同一數(shù)據(jù)集[16-17]上 與 ResNet50[5],ResNet101[5],Res2Net50[18],DenseNet121[19],Resnext101[20],MobileNetV2[21]和DPN92[22]等網(wǎng)絡(luò)模型進行對比,實驗結(jié)果如表2 所示。在經(jīng)過數(shù)據(jù)預(yù)處理的數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò),本文模型的準確率為98.41%,精度為94.42%,召回率為94.20%,F(xiàn)1 值為94.26%,AUC 值為99.65%,性能優(yōu)于其他網(wǎng)絡(luò),具有更好的分類性能。對比實驗結(jié)果雷達圖如圖10 所示,DRT Net 折線位于最外側(cè),性能最好。本文采用混淆矩陣對各模型測試集的結(jié)果進行可視化,結(jié)果如圖11所示。通過混淆矩陣對比可以看出,DRT Net對于三類樣本的識別能力相較其他分類網(wǎng)絡(luò)更為均衡且分類效果更優(yōu)。
圖11 各模型分類結(jié)果的混淆矩陣Fig.11 Confusion matrix of classification results for each model
本文提出了一種面向特征增強的雙殘差Res-Transformer 肺炎識別模型DRT Net,設(shè)計了GADRM,采用雙殘差結(jié)構(gòu)進行高效的特征融合,將通道混洗、通道注意力、空間注意力與雙殘差結(jié)構(gòu)結(jié)合,提升模型對病灶區(qū)域特征的提取能力;在網(wǎng)絡(luò)末端采用GLFEM,結(jié)合CNN 和Transformer 的優(yōu)勢使網(wǎng)絡(luò)充分提取圖像的全局特征和局部特征,對高層語義信息進行全局建模,獲得高層語義信息的全局特征;設(shè)計了CDAFFM,融合淺層網(wǎng)絡(luò)的紋理、邊緣等空間信息以及深層網(wǎng)絡(luò)的通道信息,進一步增強網(wǎng)絡(luò)的特征提取能力。在COVID-19 CHEST X-RAY數(shù)據(jù)集上進行相關(guān)實驗,實驗結(jié)果表明,DRT Net 網(wǎng)絡(luò)的準確率、精確率、召回率、F1 值和AUC 值分別為98.41%,94.42%,94.20%,94.26%和99.65%。該模型能夠輔助放射科醫(yī)生使用胸部X 光影像診斷肺炎病例,對患者及時展開針對性的治療。