遷移學習應(yīng)用于新型冠狀病毒肺炎診斷綜述

2023-03-10 00:10:30孟偉袁藝琳

計算機與生活 2023年3期

孟偉，袁藝琳

1.北京林業(yè)大學信息學院，北京100083

2.國家林業(yè)草原林業(yè)智能信息處理工程技術(shù)研究中心，北京100083

自2019 年底起，由嚴重急性呼吸綜合癥冠狀病毒（severe acute respiratory syndrome coronavirus 2，SARS-CoV-2）引起的新型冠狀病毒肺炎（corona virus disease 2019，COVID-19）持續(xù)爆發(fā)，并迅速傳播至全球，疫情的發(fā)展引起了世界的關(guān)注[1]。新冠肺炎的臨床初步表現(xiàn)為乏力、咳嗽和發(fā)熱，與普通感冒特征相似。除此之外，更有患者沒有任何癥狀，屬于無癥狀患者，加大了診斷的難度[2-3]。目前主流的檢測方法大多基于實時熒光定量PCR（real-time quantitative polymerase chain reaction，RT-PCR），但是該方法存在一些缺點。例如，從采集到檢測出結(jié)果耗時較長，與新冠狀肺炎病毒傳播的速度相比，這是一個相對較長的過程。除了檢測的效率低下以外，核酸檢測還存在陽性率較低的問題，由于其嚴重依賴樣本采集，存在的問題包括數(shù)量和位置不足（鼻腔、喉嚨或痰液）[4-5]，檢出率僅有30%～50%[6]。因此，快速且準確地檢測出感染者是一項非常困難的任務(wù)。

研究表明，新冠肺炎早期影像表現(xiàn)為多灶性小斑片狀陰影和間質(zhì)性肺異常[7-8]，進展期病變范圍和數(shù)量均會增加，可能會發(fā)展為多發(fā)性毛玻璃渾濁（ground glass opacity，GGO）[9-11]，在重癥病例中，可能發(fā)生雙肺彌漫性實變，很少出現(xiàn)胸腔積液。鑒于X 射線圖像和CT（computed tomography）掃描圖像的影像特點，這兩種方法已用于檢測COVID-19[12-13]。因此，除了核酸檢測以外，還可以由放射科醫(yī)生觀察患者的X 射線圖像和CT 掃描圖像進行診斷。然而，這些影片的診斷需要具備專業(yè)知識的放射科醫(yī)生，工作量十分巨大。為了緩解人工檢測新冠肺炎病毒的低效性，研究人員在不斷探索新的方法。近年來，深度學習技術(shù)在計算機輔助診斷領(lǐng)域受到了廣泛應(yīng)用[14]，Bar等[15]將深度學習應(yīng)用于胸部病理檢測，在心肌肥厚的診斷中實現(xiàn)了87%的準確率。Wu等[16]提出了一種基于對比增強超聲成像的肝病分類診斷系統(tǒng)，采用深度學習方法對良性和惡性肝臟局灶病變進行分類，該方法在準確率、召回率和特異性指標上明顯高于其他方法。Burlina等[17]采用了深度卷積神經(jīng)網(wǎng)絡(luò)對不同的肌炎進行分類，探究了3 種不同的分類方式，實驗結(jié)果表明，使用深度學習方法對炎癥性肌肉疾病進行自動分類更加有效。Shin等[18]評估了5 種主流的卷積神經(jīng)網(wǎng)絡(luò)（convolutional neural network，CNN）模型在兩種不同的計算機輔助診斷應(yīng)用上的性能：胸腹淋巴結(jié)檢測和間質(zhì)性肺疾病分類，為該疾病提供了一種完全自動化的診斷方法。Sirinukunwattana等[19]提出了一種空間約束卷積神經(jīng)網(wǎng)絡(luò)，對癌組織的組織病理學圖像進行檢測以及對細胞核進行分類。相比其他方法，所提出的網(wǎng)絡(luò)在檢測和分類上都取得了更高的F1-score。

然而深度學習方法具有兩方面的局限性：一方面，深度學習模型的訓練過程依賴于大量數(shù)據(jù)，具有數(shù)據(jù)饑餓型的特點；另一方面，模型的訓練過程耗時長，由于需要解決的問題變得不斷復雜，模型所需要的參數(shù)數(shù)量也在不斷增加，這將導致模型參數(shù)過多且不容易優(yōu)化。

和其他成像領(lǐng)域相比，帶標簽的醫(yī)學影像數(shù)據(jù)集一般比較小。遷移學習能夠彌補醫(yī)學圖像數(shù)據(jù)集數(shù)量不足的缺陷，并且降低過擬合的風險。Girshick等[20]是將遷移學習與預訓練的CNN相結(jié)合用于圖像分類的最早貢獻者之一。Nobrega等[21]采用在ImageNet[22]上預訓練的模型處理肺結(jié)節(jié)圖像，并使用傳統(tǒng)分類器對返回的深層特征進行分類。實驗結(jié)果表明，預訓練模型和分類器的最佳組合是CNN-ResNet50 和支持向量機徑向基函數(shù)（support vector machine-radial basis function，SVM-RBF），達到了88.41%的準確率和93.19%的AUC（area under curve）。Behzadi-Khormouji等[23]采用了基于問題的遷移學習模型檢測兒童胸部X 射線中的實變，該模型取得了94.67%的準確率，優(yōu)于之前的其他模型。

由于現(xiàn)有的研究方向比較分散，本文將針對遷移學習技術(shù)介紹當前的研究現(xiàn)狀，根據(jù)模型類型展開分類探討，并介紹具有代表性的基于遷移學習技術(shù)的診斷模型，分別從數(shù)據(jù)集來源、數(shù)據(jù)預處理方式、基于遷移學習的診斷模型、模型可視化、評價指標以及模型性能6 個層面展開剖析與對比，最后提出當前面臨的技術(shù)問題以及未來的技術(shù)發(fā)展走向，以供后來學者研究參考。

1 COVID-19 醫(yī)學影像數(shù)據(jù)集

1.1 X 射線圖像數(shù)據(jù)集

X 射線設(shè)備是大多數(shù)醫(yī)療保健系統(tǒng)中的標準設(shè)備，因此胸部X 射線成像技術(shù)在許多臨床站點更容易獲得和訪問。目前常用的COVID-19 檢測開源X 射線數(shù)據(jù)集有以下5 個，這5 個數(shù)據(jù)集的采集來源比較可靠，標簽規(guī)范且完整。相比其他數(shù)據(jù)集，這些影像數(shù)據(jù)在質(zhì)量上相對較好。表1 列出了這些數(shù)據(jù)集的分布情況、開源網(wǎng)址和數(shù)據(jù)格式，圖1 為部分數(shù)據(jù)集分布情況的餅圖。

圖1 部分胸部X 射線數(shù)據(jù)集分布餅圖Fig.1 Pie chart of partial chest X-ray dataset distribution

表1 胸部X 射線數(shù)據(jù)集Table 1 Chest X-ray datasets

（1）COVID-chestxray[24]

該數(shù)據(jù)集是一個GitHub 網(wǎng)站上開源的COVID-19 胸部X 光和CT 圖像數(shù)據(jù)集，其中主要包括COVID-19 陽性、嚴重急性呼吸綜合癥（severe acute respiratory syndrome，SARS）、中東呼吸綜合癥（middle east respiratory syndrome，MARS）和急性呼吸窘迫綜合癥（acute respiratory distress syndrome，ARDS）。目前，該數(shù)據(jù)庫保持定期更新，主要用于多分類模型。

（2）Pneumonia-chestxray[25]

該數(shù)據(jù)集包含5 863 張胸部X 光圖像，分為肺炎和正常兩個類別。由兩位專家進行標簽化，第三位專家負責審查，以減小標注誤差。研究人員通常使用該數(shù)據(jù)集進行數(shù)據(jù)增強，解決數(shù)據(jù)集過小和類別不平衡問題。

（3）COVID-19 Radiography Database[26]

該數(shù)據(jù)集是Kaggle 上的一個開源數(shù)據(jù)集，在第二次更新中，此數(shù)據(jù)庫增加到3 616 個COVID-19 陽性病例、10 192個正常、6 012個肺部不透明（非COVID肺部感染）和1 345 個病毒性肺炎圖像。目前，此數(shù)據(jù)庫還在持續(xù)更新中。

（4）COVID-19 Pneumonia Normal Chest Xray PA Dataset[27]

該數(shù)據(jù)集是從不同來源檢索到的COVID-19 的X 射線樣本，這些樣本包括2 313 個COVID-19 陽性、2 313個正常和2 313個肺炎圖像，樣本分布比較均勻。

（5）COVIDx-CXR-3 Dataset[28]

該數(shù)據(jù)集是Github 網(wǎng)站上一個開源COVID-19 X 射線圖像數(shù)據(jù)，目前還在不斷更新中，最新版包含來自16 648 名患者的29 986 張圖像。據(jù)作者所知，這是公開可用的COVID-19 陽性病例數(shù)量最多的數(shù)據(jù)集。

1.2 CT 掃描圖像數(shù)據(jù)集

CT 是一種較為先進的數(shù)字放射成像，與胸部X射線圖像相比，CT 掃描圖像能夠得到患者胸部的精確圖像，器官、骨骼和組織更加清晰并且攜帶更多的信息，使其成為診斷肺部狀況的有效方法。目前常用的COVID-19 檢測的CT 數(shù)據(jù)集有以下6 個，這些數(shù)據(jù)集質(zhì)量較好，具有潛在的研究價值。表2 列出了5 個數(shù)據(jù)集的分布情況、開源網(wǎng)址和數(shù)據(jù)格式。圖2為部分CT 數(shù)據(jù)集分布情況的餅圖。

圖2 部分CT 數(shù)據(jù)集分布餅圖Fig.2 Pie chart of partial CT dataset distribution

表2 CT 數(shù)據(jù)集Table 2 CT dataset

（1）COVID19-CT[29]

該數(shù)據(jù)集是一個公開的COVID-19 CT 數(shù)據(jù)集，作者從醫(yī)學預印本上提取出這些圖像，其中包含349張陽性CT 掃描和463 張正常或包含其他類型疾病的CT 掃描，該數(shù)據(jù)集在早期圖像分類中最為常見。

（2）CC-CCII[30]

該數(shù)據(jù)集是由中國胸部CT 圖像調(diào)查協(xié)會構(gòu)建的大型COVID-19數(shù)據(jù)集，共有617 775張CT圖像，由4 154名患者所提供。圖像種類包括COVID-19陽性、普通肺炎和正常。其中普通肺炎又包含病毒性肺炎、細菌性肺炎和支原體肺炎。這是目前針對COVID-19 建立的大型CT 切片數(shù)據(jù)集之一。

（3）SARS-CoV-2 CT[31]

該數(shù)據(jù)集包含了210 名不同患者的4 173 次CT掃描，其中2 168 次是由80 名感染了SARS-CoV-2 患者的CT 掃描構(gòu)成，并且都經(jīng)過了RT-PCR 測試進行確認，具有一定的可靠性。

（4）COVID-CT-set[32]

該數(shù)據(jù)集共有63 849 張CT 掃描圖像，其中有15 589 張表現(xiàn)為COVID-19 陽性，其余48 260 張表現(xiàn)為正常，由95 名COVID-19 患者和282 名正常受試者的CT 掃描組成。該數(shù)據(jù)集的新穎之處在于其使用16 位灰度數(shù)據(jù)格式，而不是將圖像轉(zhuǎn)換為8 位數(shù)據(jù)，從而保持數(shù)據(jù)的完整性。

（5）MosMedData[33]

該數(shù)據(jù)集包含了1 110 名匿名患者的胸部CT 掃描圖像，根據(jù)患COVID-19 不同嚴重程度分為了5類，分別為CT-0 到CT-4，其中CT-0 表示正常或無病毒性肺炎，CT-1 到CT-4 表示COVID-19 陽性且毛玻璃樣混濁、肺實質(zhì)受累的程度從小于等于25%到超過75%。該數(shù)據(jù)集適合用于將CT 判別為COVID-19 陽性后，再進行細粒度分類。

（6）BIMCV COVID-19+[34]

該數(shù)據(jù)集包含了COVID-19 患者的胸部X 射線圖像和CXR（CR、DR）圖像，其中CR（computed radiography）圖像7 377 張，DR（digital radiography）圖像9 463 張和CT 圖像6 687 張。此外，還提供了大量信息，包括患者的人口統(tǒng)計信息、投影類型和采集參數(shù)等。

2 數(shù)據(jù)預處理方法

將圖像分類算法直接應(yīng)用于原始數(shù)據(jù)集通常是不可行的，例如，醫(yī)學數(shù)據(jù)圖像質(zhì)量受設(shè)備和顯示系統(tǒng)的影響，質(zhì)量會受到一定的損壞；數(shù)據(jù)集分布不平衡問題，將導致遷移學習效果下降。因此，在應(yīng)用算法之前解決上述問題非常重要。本章將討論常用的數(shù)據(jù)預處理方法，如圖像重采樣、對比度和亮度調(diào)整、旋轉(zhuǎn)或翻轉(zhuǎn)、放縮或剪切和生成式對抗網(wǎng)絡(luò)（generative adversarial networks，GAN）[35]，這些方法是構(gòu)建檢測COVID-19 模型的首要步驟。

2.1 圖像重采樣

圖像重采樣是圖像預處理最常用的方法之一，通常情況下，神經(jīng)網(wǎng)絡(luò)的輸入必須是固定長度的圖像，但在COVID-19 數(shù)據(jù)集中，圖像大小并不統(tǒng)一，因此在進行輸入之前需要對圖像進行上采樣或下采樣，即調(diào)整圖像大小。

2.2 對比度和亮度調(diào)整

由于有的數(shù)據(jù)集來自不同的設(shè)備或不同的采集場景，實驗所用到的CT 掃描圖像和胸部X 射線圖像具有整體明暗程度不一和對比度低的特點，通常需要對圖像進行自適應(yīng)對比度和亮度調(diào)整，從而得到質(zhì)量更高的圖像。

2.3 數(shù)據(jù)增強

類別不平衡問題是圖像處理和計算機視覺中的常見問題，在醫(yī)學領(lǐng)域表現(xiàn)更為明顯。由于醫(yī)療數(shù)據(jù)涉及患者的隱私，特定疾病的圖像數(shù)量要少于其他類別的圖像數(shù)量。因此，在訓練模型之前對數(shù)據(jù)集進行數(shù)據(jù)增強處理尤為重要。COVID-19 為近年新發(fā)現(xiàn)的疾病，數(shù)據(jù)集往往較小，且COVID-19 陽性數(shù)據(jù)的占比也較小。通常對該類數(shù)據(jù)集進行數(shù)據(jù)增強操作，通過創(chuàng)建具有較少對象的類來修復類別不平衡。實現(xiàn)數(shù)據(jù)增強常見的方法包括有監(jiān)督的幾何變換以及無監(jiān)督的GAN。有監(jiān)督的幾何變換包含對圖像進行水平和垂直翻轉(zhuǎn)、剪切變換、隨機旋轉(zhuǎn)等操作[36]。圖3 展示了幾種常見的幾何變換。無監(jiān)督的GAN 可以對數(shù)據(jù)集中的少量數(shù)據(jù)樣本進行擴充，是解決圖像類別不平衡的常用方法[35]。圖4 展示了由GAN 網(wǎng)絡(luò)生成的人工COVID-19 胸部X 光圖像[37]。結(jié)合當前研究，在以上這些預處理方法中，使用尺寸調(diào)整的研究比例較高，而使用GAN 的研究比例較低。Gifani等[38]對COVID19-CT 數(shù)據(jù)集采用了較原始尺寸10%的隨機水平和垂直移動，20%的隨機旋轉(zhuǎn)和水平翻轉(zhuǎn)。Sheykhivand等[37]采用了GAN 技術(shù)對數(shù)據(jù)進行預處理，獲取更多的COVID-19 陽性數(shù)據(jù)樣本。除此之外，一些研究人員還采用了自適應(yīng)濾波器[39]和仿射變換[40]的方法。

圖3 常見幾何變換Fig.3 Common geometric transformation

圖4 由GAN 網(wǎng)絡(luò)生成的COVID-19 胸部X 光圖像Fig.4 Chest X-ray image of COVID-19 generated by GAN network

3 基于遷移學習的COVID-19 檢測診斷模型

3.1 遷移學習概述

深度學習方法可以直接從任務(wù)中提取并學習相關(guān)特征，協(xié)助研究人員解決目前的復雜問題。訓練模型需要大量數(shù)據(jù)，在訓練數(shù)據(jù)不足的情況下，很難建立最佳的模型。模型中的參數(shù)數(shù)量隨著網(wǎng)絡(luò)的加深而增加，網(wǎng)絡(luò)越深，計算越復雜，對訓練數(shù)據(jù)的要求也越高。由分析可知，COVID-19 數(shù)據(jù)集屬于小型數(shù)據(jù)集，因此可以利用遷移學習方法來彌補COVID-19 數(shù)據(jù)集數(shù)量不足的缺陷，以取得更好的效果。

遷移學習是一種機器學習方法，將模型在源域中學習到的知識應(yīng)用到目標域，因此能夠減少收集額外訓練數(shù)據(jù)的需求和工作量。Girshick等[20]是將遷移學習與預訓練CNN 一起用于圖像分類，從相對較小的數(shù)據(jù)集學習，并用于目標檢測的最早貢獻之一。遷移學習通常加載ImageNet 上的預訓練模型，有關(guān)遷移學習的研究表明，從ImageNet 等大數(shù)據(jù)集學習到的特征可以高度轉(zhuǎn)移到各種圖像識別任務(wù)中，并且經(jīng)過充分微調(diào)的預訓練CNN 可能比從頭開始訓練更加有效[41]。同時，采用預訓練模型有很多好處，例如，所需的訓練時間更短，對硬件的要求降低，計算量也更低。根據(jù)預訓練數(shù)據(jù)的來源，可以將遷移學習分為跨域和跨模型兩種遷移學習[36]。在醫(yī)學應(yīng)用中，基于跨域的遷移學習使用的是在自然圖像上的預訓練模型，如ImageNet 數(shù)據(jù)集，而基于跨模型的遷移學習使用的是在醫(yī)學圖像上的預訓練模型，如嚴重急性呼吸綜合征（SARS）圖像數(shù)據(jù)集。圖5 展示了基于跨域和跨模型兩種方法，模型對從上述圖像中所學到的知識進行遷移的方法分為特征提取器和微調(diào)網(wǎng)絡(luò)兩種方法。其中使用較多的方法是特征提取器方法，通過更改預訓練模型的最后一層，其他層的參數(shù)被凍結(jié)，只有最后一層的參數(shù)針對新任務(wù)進行訓練[42]。如果目標任務(wù)與原始任務(wù)相似，那么使用該方法能夠達到更好的效果。在目標任務(wù)的數(shù)據(jù)有限的情況下，這種方法能夠有效減少訓練過程中的參數(shù)數(shù)量并避免過擬合；當目標任務(wù)擁有足夠多的數(shù)據(jù)集，則可以訓練整個網(wǎng)絡(luò)[43]，使用預先訓練的模型而不是隨機初始化權(quán)重的模型，這樣能夠提高模型的收斂速度[41]，這種方法并不會凍結(jié)卷積神經(jīng)網(wǎng)絡(luò)，而是在訓練過程中更新權(quán)重，稱為微調(diào)網(wǎng)絡(luò)方法。本節(jié)將對基于遷移學習的COVID-19 診斷的典型模型進行分類討論。

圖5 遷移學習的兩種方法Fig.5 Two approaches of transfer learning

3.2 傳統(tǒng)遷移學習COVID-19 診斷模型

傳統(tǒng)遷移學習通常只采用預訓練網(wǎng)絡(luò)，不疊加其他網(wǎng)絡(luò)和模型，對模型進行簡單的微調(diào)。Rahaman等[44]在一個包含860 張胸部X 光射線的小型數(shù)據(jù)集上，對比了15 種不同的預訓練CNN 模型。由于數(shù)據(jù)集較小，采用了數(shù)據(jù)增強方法擴充數(shù)據(jù)集，對比了使用數(shù)據(jù)增強前后模型的準確率和損失率，增強后準確率得到了明顯提升且損失率下降，可以有效對抗過擬合。根據(jù)比較得出，VGG19 的各類指標均為最佳，準確率為89.3%，精確率為90.0%，召回率為89.0%，F(xiàn)1-score 為90.0%。該研究僅使用了傳統(tǒng)的遷移學習模型，由于該數(shù)據(jù)集較小，淺層網(wǎng)絡(luò)比深層網(wǎng)絡(luò)表現(xiàn)得更好。隨著網(wǎng)絡(luò)深度加深，網(wǎng)絡(luò)出現(xiàn)了梯度消失問題，使得網(wǎng)絡(luò)的性能下降。基于此數(shù)據(jù)集，淺層網(wǎng)絡(luò)能夠達到較好效果，但這可能導致模型的泛化能力較差，該研究忽略了對模型進行外部驗證，而外部驗證對于檢測模型的穩(wěn)定性至關(guān)重要，缺乏外部驗證的模型可能最終也無法在臨床實踐中應(yīng)用。

在傳統(tǒng)遷移學習的基礎(chǔ)上，加入一些優(yōu)化方法，分類效果可以得到明顯提升。Zhang等[45]將預訓練網(wǎng)絡(luò)DenseNet 與優(yōu)化方法相結(jié)合，首先采用數(shù)據(jù)增強方法擴充訓練集大小，然后訓練DenseNet 網(wǎng)絡(luò)。與其他遷移學習方法不同的是，該研究提出了一種優(yōu)化框架，即對網(wǎng)絡(luò)的凍結(jié)層、中間層和新層分配了不同的學習因子。凍結(jié)層的學習因子設(shè)為0，即不更新；中間層具有預訓練模型的權(quán)重，將其設(shè)為1 并緩慢更新；由于新層具有隨機初始化的權(quán)值，分配的學習因子為10，以便進行快速學習。該策略使得不同的層采用不同的學習速度，提高了模型的性能。優(yōu)化后的遷移學習算法的召回率、特異性、精確率、準確率、F1-score 和馬修斯相關(guān)系數(shù)分別為96.35%、96.25%、96.29%、96.30%、96.30%和92.64%。此外，該研究使用了預計算的方法，將凍結(jié)層后的特征圖保存到硬盤，以減少隨機存取存儲器（random access memory，RAM）存儲，加快了算法的速度。然而，該研究沒有驗證凍結(jié)層、中間層和新層的最佳值，并且只采用了一種學習因子的組合，沒有測試其他的組合值以尋找最優(yōu)的組合配置。

3.3 集成遷移學習COVID-19 診斷模型

集成學習是一種融合兩個或多個基礎(chǔ)學習器特征的學習策略，能夠減少預測誤差中的方差，因此該框架比單一模型具有更強的魯棒性。傳統(tǒng)的集成框架，如平均概率得分、多數(shù)投票等，在對COVID-19 進行分類的任務(wù)中被大量研究者所采用。

Gifani等[38]對CT 掃描數(shù)據(jù)集進行二分類時，由于其使用的數(shù)據(jù)集較小，首先采用了數(shù)據(jù)增強技術(shù)擴充數(shù)據(jù)集。然后對15 個主流的預訓練網(wǎng)絡(luò)進行了微調(diào)，采用多數(shù)投票準則對不同網(wǎng)絡(luò)進行了集成。作者通過大量實驗評估了不同網(wǎng)絡(luò)結(jié)構(gòu)下集成的有效性，共使用了3、5、7、9、11、13 和15 種不同體系結(jié)構(gòu)的集合。通過實驗得出，結(jié)合5 種遷移學習模型的集成模型，即EfficientNetB0、EfficientNetB3、Efficient-NetB5、Inception-ResNet-v2 和Exception，相較于其他模型取得了最佳效果，并且優(yōu)于單個模型，準確率達到了85.0%，精確率達到了85.7%，召回率達到了85.4%。

Kumar等[46]采用了多數(shù)投票的集成學習策略對胸部X 射線圖像進行二分類和多分類，其中集成的模型包括EfficientNet、GoogLeNet、Xception。通過實驗結(jié)果得出，該集成模型的分類效果優(yōu)于單個網(wǎng)絡(luò)，能夠增強學習系統(tǒng)的泛化能力。

Rajaraman等[47]在對肺部X 光的多任務(wù)分類中，首先對多個預訓練模型進行了剪枝操作，減少可訓練參數(shù)的數(shù)量，以減輕計算的負擔。然后選擇性能最好的剪枝模型構(gòu)建集成模型，采用了最大投票、簡單平均、加權(quán)平均和模型疊加等集成方法進行預測。結(jié)果表明，加權(quán)平均策略的精度最高，能夠達到99.01%的準確率。

集成學習通過考慮預測的多樣性，提高了組合模型的性能。但是上述的簡單融合方案，如多數(shù)投票準則和加權(quán)平均準則，沒有考慮到基于測試時不同分類器所獲得的決策得分，根據(jù)不同的得分為分類器分配不同的權(quán)重。傳統(tǒng)的加權(quán)平均方法大多傾向于預先定義分類器權(quán)重，是一個靜態(tài)的計算過程，沒有考慮到模型對每個樣本預測的置信度。Kundu等[48]采用了四種預訓練模型，分別是VGG11、Goog-LeNet、SqueezeNet v1.1 和Wide ResNet-50-2，提出了一種基于模糊積分的集成方法。該方法不是為每個分類器分配一個固定的權(quán)重，而是在訓練的過程中動態(tài)分配權(quán)重，能夠進一步細化預測。根據(jù)各個分類器獲取互補信息的概率分數(shù)，動態(tài)調(diào)整各模型的權(quán)值，比傳統(tǒng)的靜態(tài)加權(quán)平均具有更強的魯棒性。

Paul等[49]采用了VGG16、ResNet18 和Dense-Net161 三種預訓練模型，通過Grad-CAM（gradientweighted class activation mapping）可視化各個模型所關(guān)注的胸部X 射線區(qū)域，觀察到這三個模型能夠注意到胸部的不同病理區(qū)域，因此通過集成能夠產(chǎn)生更好的結(jié)果。該文提出了一種基于倒鐘形曲線的模型集成，模型的權(quán)重根據(jù)倒鐘形曲線函數(shù)進行分配，有助于懲罰更大范圍的低置信度值，從而提高模型的性能。

以上集成模型分別采用了多種不同的模型進行集成，然而訓練多個預訓練神經(jīng)網(wǎng)絡(luò)進行模型平均的計算成本較高，快照集成是在不增加訓練成本的情況下集成多個網(wǎng)絡(luò)，采用余弦退火循環(huán)調(diào)度學習率，在訓練過程中定期保存模型參數(shù)，實現(xiàn)集成的效果。Samson等[50]對COVID-19 的胸部X 射線診斷過程中，采用了一種改進的快照集成技術(shù)，提出用加權(quán)平均代替所有模型的平均概率，且將計數(shù)器的數(shù)量規(guī)定在一定的范圍內(nèi)，因此可以得到更加精確的改進權(quán)重。該方法適用于訓練數(shù)據(jù)有限和數(shù)據(jù)分布不均勻的情況，從而使模型具有良好的魯棒性。

3.4 混合型遷移學習COVID-19 診斷模型

除了上述遷移學習方法以外，許多研究人員采用混合模型，將遷移學習與其他模型相結(jié)合，提出了許多新框架，以此提高模型的泛化能力。Sheykhivand等[37]提出了一種遷移學習混合模型，將GAN、深度遷移學習、長短期記憶（long short-term memory，LSTM）網(wǎng)絡(luò)相結(jié)合使用。首先使用GAN 網(wǎng)絡(luò)生成圖像，平衡各個類的數(shù)據(jù)。然后改進了預訓練網(wǎng)絡(luò)Inception V4，將兩個LSTM 網(wǎng)絡(luò)嵌入其中。結(jié)果表明，較其他遷移學習模型，該混合模型在各個指標上都有明顯提升。修改后的預訓練網(wǎng)絡(luò)與LSTM 網(wǎng)絡(luò)相結(jié)合能夠減小網(wǎng)絡(luò)的震蕩，提高模型訓練的速度，加速模型的收斂，同時也提升了該算法的精度。該實驗為了驗證所提出網(wǎng)絡(luò)的魯棒性，將不同信噪比（4 dB 到20 dB）的高斯白噪聲添加到原始胸部X 射線圖像上，對算法進行了觀測噪聲測試，觀察該模型分類的準確率。實驗結(jié)果表明，在添加了不同信噪比的高斯白噪聲后，分類準確率仍然能夠達到80%以上，證明了所提出模型對噪聲具有較強的魯棒性。但是該研究由于數(shù)據(jù)集數(shù)量不足，混合了6 個不同的數(shù)據(jù)集，混合的數(shù)據(jù)集過多可能會存在偏差，模型訓練結(jié)果的可信度會降低。例如，有的醫(yī)療設(shè)備會對X射線圖像進行文本注釋，而另一些設(shè)備不會注釋，這就產(chǎn)生了兩種不同的背景信息，如果這兩種數(shù)據(jù)集融合在一起且恰好類別不同，網(wǎng)絡(luò)會學習背景信息，產(chǎn)生與任務(wù)無關(guān)的特征，而分類器將關(guān)注最容易區(qū)分類別的特征，而不是真正的特征。在研究過程中數(shù)據(jù)集的選擇也是影響結(jié)果的關(guān)鍵因素，盡量避免混合數(shù)據(jù)集或選擇偏差較小的數(shù)據(jù)集進行混合，以提高結(jié)果的可信度。

Niu等[51]使用了遠域遷移學習方法（distant domain transfer learning，DDTL），提出了一個新的遷移學習框架，該框架包含兩部分：縮小尺寸的ResUnet 分割模型和距離特征融合（distant feature fusion，DFF）。傳統(tǒng)的遷移學習算法假設(shè)源域和目標域存在一定的共享信息，然而在實際應(yīng)用中這種假設(shè)不總是成立。例如醫(yī)學圖像和自然圖像領(lǐng)域的特征聯(lián)系比較松散，很容易導致負遷移。在該項研究中，采用了跨模型的遷移學習，使用沒有標簽的Office-31、Caltech-256 和胸部X 射線圖像數(shù)據(jù)集作為源數(shù)據(jù)，并使用一小部分帶標簽的COVID-19 肺部CT 作為目標數(shù)據(jù)，使源域數(shù)據(jù)與目標域數(shù)據(jù)聯(lián)系更加緊密，有效處理訓練數(shù)據(jù)與測試數(shù)據(jù)之間的分布偏移。此外，該研究引入了新的特征選擇方法DFF，并沒有使用傳統(tǒng)遷移學習中的預訓練網(wǎng)絡(luò)框架，而是采用了卷積自動編碼器和解碼器的形式。并且達到了96%的分類準確率，這比非遷移學習算法的分類準確率高0.13，比傳統(tǒng)的遷移學習算法高0.08。該算法有兩方面的改進：第一，不需要有標簽的源域數(shù)據(jù)，只需要少量的帶標簽的目標域數(shù)據(jù)，該模型在目標域上就能夠達到較高的分類準確率；第二，它解決了傳統(tǒng)遷移學習算法產(chǎn)生的最具挑戰(zhàn)性的問題之一，即負遷移問題。但是該算法仍存在一些不足，例如，大多數(shù)遠域遷移學習算法往往是針對特定情況的，同樣的算法難以運用到其他的領(lǐng)域。并且提取遠距離特征的過程計算量較大，目前基于特征的遠域遷移學習算法可解釋性較差。

Perumal等[52]將機器學習方法與遷移學習方法相結(jié)合，使用機器學習方法手動提取特征。首先對所有圖像進行預處理，采用直方圖均衡化和維納濾波器方法增強對比度和去除圖像噪聲，并提高圖像質(zhì)量。然后對COVID-19 胸部X 射線圖像構(gòu)建灰度共生矩陣，提取出Haralick 特征，該特征可以確定相鄰像素點之間的強度關(guān)系，將其輸入ResNet50、VGG16和InceptionV3 預訓練模型進行分類。最后使用Grad-CAM 生成熱力圖，對網(wǎng)絡(luò)進行可視化。實驗結(jié)果表明，基于VGG16的遷移學習模型相較于ResNet50和InceptionV3 獲得了最佳表現(xiàn)，該模型的準確率達到了93%，精確率達到了91%，召回率達到了90%。但Haralick 特征的提取通常需要人工干預，而手工提取特征經(jīng)常導致特征冗余，造成參數(shù)量和計算量的急劇增加。并且作者沒有設(shè)置對比實驗說明手動提取的Haralick 特征比卷積神經(jīng)網(wǎng)絡(luò)自動提取的特征更加有效。

Um等[53]提出了一個由深度卷積神經(jīng)網(wǎng)絡(luò)、特征增強機制和雙向LSTM（bidirectional LSTM，BiLSTM）組成的統(tǒng)一架構(gòu)，將預訓練的CNN模型，如ResNet50、SqueezeNet、GoogLeNet 和DenseNet201與特征增強機制和BiLSTM 相結(jié)合來評估模型的性能。該框架沒有使用傳統(tǒng)的數(shù)據(jù)增強策略，例如基于幾何變化的數(shù)據(jù)增強，而是采用基于重構(gòu)獨立分量分析（reconstruction independent component analysis，RICA）[54]特征增強機制，通過特征空間逼近真實分布，所生成的特征是相互獨立的，并且保證了特征的多樣性。該方法生成的特征與上述生成的Haralick 特征相比較，該低維增強特征更緊湊，可以顯著消除干擾信息或冗余。最后使用主成分分析（principal components analysis，PCA）投影和t分布-隨機近鄰嵌入（t-distributed stochastic neighbor embedding，t-SNE）特征可視化方法解釋該模型。所提出的方法在三個公開數(shù)據(jù)集上進行了測試，并與最新的模型相比較，實現(xiàn)了97%的準確率，比目前關(guān)于三分類的最佳模型高出0.1。

Jokandan等[55]提出了一種基于不確定性感知的遷移學習方法，首先采用4 個預訓練網(wǎng)絡(luò)VGG16、ResNet50、DenseNet121、InceptionResNetV2，從胸部X 射線和CT 圖像中提取深度特征。為了證明提取特征的有效性，該文引入了Grad-CAM 的概念，對模型的決策進行了可視化，所描繪的熱力圖突出顯示了分類決策輸入的最顯著區(qū)域。然后對網(wǎng)絡(luò)進行微調(diào)，為了避免在將特征傳遞給分類模型之前丟失，在最后一層卷積層中舍棄了池化操作，并且將最后一層全連接層用不同的機器學習分類器替換，包括KNN（K-nearest neighbors）、linear SVM（linear support vector machine）、RF（random forest）等。實驗結(jié)果表明，SVM 和神經(jīng)網(wǎng)絡(luò)模型在準確率、召回率、特異性和受試者工作特征曲線（receiver operating characteristic curve，ROC）方面取得了最佳結(jié)果。該文引入了認知不確定性來解釋模型分類結(jié)果的不確定性，認知不確定性與模型的泛化能力密切相關(guān)。由于所使用的新冠肺炎數(shù)據(jù)集較小，訓練數(shù)據(jù)不足，導致模型對于沒有見過的數(shù)據(jù)會有很低的置信度。模型在進行高風險應(yīng)用和處理小型稀疏數(shù)據(jù)時，定量分析其決策的不確定性非常有必要。

4 模型可視化

神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)通常被稱為黑匣子，將圖片輸入網(wǎng)絡(luò)之后，無法直觀地體現(xiàn)產(chǎn)生輸出的工作機制。為此，許多研究人員采用多種方法對預測結(jié)果進行可視化，并通過生成熱力圖來標識胸部X 射線的關(guān)鍵區(qū)域。常用的可視化方法包括類激活圖（class activation map，CAM）[56]、基于梯度的類激活圖（Grad-CAM、Grad-CAM++）[57]、分層相關(guān)性傳播（layer-wise relevance propagation，LRP）[58]和局部可解釋模型-不可知解釋（local interpretable model-agnostic explanation，LIME）[59]。以上方法能夠直觀地展示分類結(jié)果。例如，類激活圖將具有不同亮度的特征權(quán)重生成二維熱圖，亮度與特征的重要性相對應(yīng)。該熱圖被疊加在輸入圖像上，以定位突出的區(qū)域。在基于CT 掃描圖像的COVID-19 診斷模型中，只有少數(shù)研究采用了CAM 和Grad-CAM 對模型進行可視化解釋，更多則是將其應(yīng)用于胸部X 射線圖像。圖6 顯示了當輸入圖像被分類為COVID-19 時，Grad-CAM 定位突出區(qū)域的可視化結(jié)果。

圖6 Grad-CAM 可視化結(jié)果Fig.6 Results of Grad-CAM visualization

5 評價指標

分類任務(wù)中，模型常見的評價指標包括準確率（Accuracy，ACC）、精確率（Precision，PRE）、特異性（Specificity，SPE）、召回率（Recall）、F1-score、ROC曲線和AUC 指標。

在分類模型中，準確率是衡量分類器性能質(zhì)量的最常見、最基本和最簡單的標準，但其主要缺點是無法區(qū)分“假陰性”和“假陽性”，該標準認為所有的錯誤都是相同的。因此，高準確率并不能反映模型的實際性能。由分析可知，有的COVID-19 數(shù)據(jù)集具有高度不平衡性，此時準確率就會失效，因此引入了精確率、召回率和特異性等綜合指標來對模型的性能進行全面的評判。準確率、精確率、特異性、召回率計算分別如式（1）～（4）所示：

其中，TP（true positive）是指樣本被正確分類為陽性；TN（true negative）是指樣本被正確分類為陰性；FP（false positive）是指樣本被錯誤分類為陽性；FN（false negative）是指樣本被錯誤分類為陰性。

召回率和精確率均為單一指標，一般情況下，召回率越高，精確率越低；精確率越高，召回率越低，兩者是相互制約的關(guān)系。根據(jù)不同的分類情況，引入了F1-score，F(xiàn)1-score 是精確率和召回率的調(diào)和平均值，它綜合考慮了這兩種指標，F(xiàn)1-score 的計算公式如式（5）所示：

ROC 曲線又稱為受試者工作特征曲線，1-specificity 為橫坐標，表示假陽性率，sensitivity 為縱坐標，表示真陽性率。由于ROC 曲線無法進行定量比較，又引入了AUC。AUC 表示在此坐標軸中曲線的面積。相比ROC 曲線，AUC 值作為一個數(shù)量值，更具有可比較性，可以進行定量的分析，因此大多研究者也采用該值作為評價模型的標準。

6 模型性能

模型性能的好壞由多方面的因素所決定，如數(shù)據(jù)集的大小、所采用的模型以及模型的特點等。表3從數(shù)據(jù)集大小、分類類型、性能評價、所采用模型和模型特點，對當前基于遷移學習的COVID-19 檢測診斷模型進行分析和比較。

表3 不同模型分析和比較Table 3 Analysis and comparison of different models

表3（續(xù)）

6.1 數(shù)據(jù)集

對所采用數(shù)據(jù)集的類別進行分析，采用CT 數(shù)據(jù)集和胸部X 光數(shù)據(jù)集的分類模型比例大致相等。由于CT 圖像中往往包含更多的細節(jié)，早期研究者更多采用CT 圖像作為數(shù)據(jù)集，但是CT 掃描圖像采集時間較長、采集的成本較高。而胸部X 射線成像技術(shù)在許多臨床站點更加成熟也更便宜，因此后期使用胸部X 射線的研究也開始逐步增多。從采用的數(shù)據(jù)集的大小可以看出，目前關(guān)于COVID-19 的CT 掃描圖像和胸部X 射線圖像數(shù)據(jù)集大多屬于小型數(shù)據(jù)集，因此許多研究采用了有監(jiān)督的幾何變換，即對圖像進行水平和垂直翻轉(zhuǎn)、剪切變換、隨機翻轉(zhuǎn)等操作，以增大各類圖像的占比。從數(shù)據(jù)集的類別占比可以得出，大多數(shù)據(jù)集具有類別不平衡的特點。和其他成像領(lǐng)域相比較，醫(yī)學圖像領(lǐng)域的數(shù)據(jù)集大多封存于醫(yī)院的專有數(shù)據(jù)庫中，由于涉及患者的隱私，可能會阻礙數(shù)據(jù)的公開和獲取。因此COVID-19 陽性病例圖像數(shù)量占比普遍較小，大多研究采用無監(jiān)督的GAN 生成COVID-19 類別的圖像，以增大COVID-19圖像的占比。

6.2 采用模型

大多研究采用的骨架網(wǎng)絡(luò)為VGG、ResNet、DenseNet 和Inception 等當前比較流行的預訓練模型，對胸部X 射線圖像和CT 圖像的特征進行有效提取，最后對圖像進行分類。所采用的遷移學習模型通常有兩種遷移策略：第一種策略通過預訓練模型進行特征提取，不改變預訓練模型的初始框架和所有學習的權(quán)重。骨架網(wǎng)絡(luò)僅充當特征提取器，將提取到的特征送到執(zhí)行分類任務(wù)的新網(wǎng)絡(luò)中。該方法避免了從頭開始訓練深層網(wǎng)絡(luò)所帶來的計算成本。第二種策略較第一種策略更為復雜，首先對骨架網(wǎng)絡(luò)進行特定修改，這些修改可能包括架構(gòu)調(diào)整和參數(shù)調(diào)整。只保留從先前任務(wù)中挖掘的特征，而將新的可訓練參數(shù)插入網(wǎng)絡(luò)。這些新參數(shù)需要使用大量的數(shù)據(jù)進行訓練，才能發(fā)揮優(yōu)勢。

6.3 分類類型

基于遷移學習的診斷模型分類類型包含二分類、三分類和四分類，具體將胸部X 射線圖像和CT圖像根據(jù)健康、病毒性肺炎、細菌性肺炎和COVID-19 陽性進行分類。大部分研究的分類類型僅包含二分類，只將圖像區(qū)分為感染COVID-19 或正常。只有少部分研究會細化到三分類或四分類，三分類將圖像區(qū)分為感染COVID-19、健康、患有其他肺炎；而四分類則是將其他肺炎再細分為感染病毒性肺炎或細菌性肺炎。選擇二分類雖然可以加快模型的診斷速度，但是并不能診斷患者是否患有普通肺炎，不便于對患者進行后續(xù)治療。

6.4 性能評價

在上述研究中，采用的評價指標主要包括準確率、精確率、特異性、召回率，少數(shù)研究加入了F1-score和AUC 指標。大部分研究性能能達到90%以上，少部分在85%左右。由于該分類任務(wù)屬于醫(yī)療診斷，在保證準確率的條件下，應(yīng)盡可能提升召回率，更高的召回率表示模型將COVID-19 陽性病例劃分為無COVID-19 癥狀病例的情況更少，即假陰性率更少。然而由于數(shù)據(jù)集的大小和質(zhì)量，以及分類類型的不同，無法對不同研究的模型僅從性能評價上進行單一比較。

7 未來發(fā)展

大多情況下，從頭開始訓練一個深度學習模型需要較高計算能力的硬件和較大的數(shù)據(jù)集，才能保證訓練的效果，而使用有限的訓練樣本學習大量的參數(shù)往往會導致過擬合。此外，從頭開始訓練模型也是相當耗時的。遷移學習的預訓練模型可以在小型數(shù)據(jù)集上更快地收斂。由于COVID-19 病例的迅速增加，SARS-CoV-2 核酸檢測試劑短缺且效率低下，將醫(yī)學圖像與遷移學習結(jié)合有助于在COVID-19快速傳播期間提供更快、更準確的結(jié)果。雖然遷移學習在COVID-19 的診斷中表現(xiàn)出了良好的性能，但仍然存在一些局限性，對此本文針對數(shù)據(jù)集、多模態(tài)數(shù)據(jù)、噪聲處理、分類類型、集成模型、不確定性量化六方面，提出了當前存在的問題以及未來的發(fā)展方向。

7.1 數(shù)據(jù)集

當前的數(shù)據(jù)集種類較多，大部分研究采用公開的數(shù)據(jù)集，少部分研究采用私有的數(shù)據(jù)集。公開數(shù)據(jù)集普遍較小，容易產(chǎn)生過擬合問題。而私有的數(shù)據(jù)集所訓練的模型，由于研究中所使用的數(shù)據(jù)集不公開，這些工作很難被復制和采用。

上述問題都將導致最終的自動診斷系統(tǒng)無法應(yīng)用于臨床診斷，因此創(chuàng)建一個公開的數(shù)量和質(zhì)量都較高的統(tǒng)一數(shù)據(jù)集，供研究者使用是非常必要的。擴大數(shù)據(jù)集的規(guī)模能提升模型的魯棒性，提高數(shù)據(jù)集的質(zhì)量能夠提高模型的性能，并且數(shù)據(jù)集統(tǒng)一有利于對不同模型進行比較。另一個問題是數(shù)據(jù)集的標注問題，采用人工標注的方法不僅耗時，且標注的數(shù)據(jù)帶有主觀性，未來的研究可以將遷移學習與自監(jiān)督學習或無監(jiān)督學習協(xié)同集成，消除數(shù)據(jù)集的限制。

7.2 多模態(tài)數(shù)據(jù)

通過數(shù)據(jù)增強產(chǎn)生的人工圖像來自同一個訓練數(shù)據(jù)集，其提高特征的多樣性和豐富性的能力是有限的。例如采用有監(jiān)督的幾何變換，隨機旋轉(zhuǎn)圖像可以生成代表同一類新像素值的圖像，但如果圖像不是方形圖像，可能會丟失信息；采用無監(jiān)督的GAN進行數(shù)據(jù)的擴充時，如何避免對抗網(wǎng)絡(luò)訓練過程中的非收斂性是一個非常具有挑戰(zhàn)性的問題，而梯度消失和梯度爆炸使得對抗性網(wǎng)絡(luò)的訓練過程非常困難。

在這種情況下，采用多模態(tài)研究可能是提高模型性能的一個更有效的方法，與單模態(tài)分析相比，多模態(tài)數(shù)據(jù)集往往能達到更高的性能[60]。例如在COVID-19 的檢測中，大多數(shù)研究僅使用一個單一的順序架構(gòu)，多模態(tài)研究通過采用兩個平行的特征提取器，一個提取CT 掃描圖像的特征，另一個提取X射線圖像的特征，將這兩個特征在分類前進行組合，從而進一步提高模型的性能，這也是一個很有價值的研究方向。

7.3 噪聲處理

X 射線通過給人體傳播一定的輻射，被人體不同的組織吸收后，最終呈現(xiàn)在膠片上。在這個過程中，一些輻射發(fā)生散射后會在X 射線圖像上產(chǎn)生噪聲，主要有椒鹽噪聲和泊松噪聲。這些噪聲會給后續(xù)特征提取帶來干擾，因此處理這些噪聲數(shù)據(jù)非常重要。

而上述研究中只有極少數(shù)研究對噪聲進行了處理，大部分研究所使用的數(shù)據(jù)集都是清晰X 射線。為了將模型運用于現(xiàn)實場景中，當采用帶噪聲的數(shù)據(jù)集時可以使用合適的濾波器來消除此類噪聲，以提高噪聲數(shù)據(jù)集的準確率。

7.4 分類類型

隨著類別數(shù)量的增加，對圖像的分類變得更加困難。相比之下，二分類情況更容易處理，因此當前大部分研究側(cè)重于對圖像進行二分類，即分為COVID-19 或正常，這導致多分類研究存在空白。

由于新冠肺炎與其他肺炎在圖像特點具有相似的表現(xiàn)，未來研究可以考慮選擇多類肺炎以及COVID-19 圖像，對分類的類型進行細化，加入多分類問題，這也便于醫(yī)生對患有其他類型肺炎的患者進行后續(xù)治療。X 射線也能用于檢測COVID-19，但它不能提供感染肺部的細節(jié)。CT 掃描則是一種更復雜的技術(shù)，圖像往往包含更多的細節(jié)，在預測疾病感染嚴重程度方面非常敏感，后續(xù)研究可以對確診COVID-19 的圖像進行嚴重程度分級，如果是重癥患者便于醫(yī)生立即采取相應(yīng)的治療方案，最大程度挽救患者的生命。

7.5 集成模型

最初將遷移學習應(yīng)用于COVID-19 的診斷時，大部分研究所采用的模型都是單一的預訓練網(wǎng)絡(luò)，或者對預訓練網(wǎng)絡(luò)進行簡單調(diào)整后再將數(shù)據(jù)集放入進行訓練，訓練出的模型效果不佳。集成學習通過并行訓練多個神經(jīng)網(wǎng)絡(luò)來解決分類任務(wù)，可以解決由深度學習網(wǎng)絡(luò)產(chǎn)生的高方差問題，并且集成模型的效果優(yōu)于單一網(wǎng)絡(luò)。

希望研究者在未來的研究中能夠提供更高性能的集成網(wǎng)絡(luò)。除此之外，還可以將實驗結(jié)果和醫(yī)學圖像以及患者的臨床表現(xiàn)相結(jié)合，以便更加全面地診斷COVID-19，對于已確診的患者增加風險分析和生存預測，這將預測感染是否會威脅患者的生命，從而有針對性地對患者制定診療計劃。

7.6 不確定性量化

深度學習模型需要考慮以下兩種不確定性：一是由于數(shù)據(jù)本身包含噪聲所產(chǎn)生的偶然不確定性，是數(shù)據(jù)分布的固有屬性，因此它是不可約的；二是由于模型訓練不佳產(chǎn)生的認知不確定性[56]，通過收集更多的數(shù)據(jù)能夠減少這種不確定性。但是COVID-19的數(shù)據(jù)集比較匱乏，目前大多模型并沒有對新病例給出一個置信度，錯誤的診斷可能會導致疫情持續(xù)傳播，如果模型在輸出結(jié)果的同時，輸出了一個較低的置信度，就需要專家介入對其進行診斷，這樣可以從很大程度上減少誤判的概率，因此對模型進行不確定性量化非常有必要[61]。評估不確定性模型當前普遍存在的挑戰(zhàn)有缺乏理論基礎(chǔ)、對不完整數(shù)據(jù)的敏感性低、計算量大等。

深度學習領(lǐng)域常用的不確定性評估方法有貝葉斯深度學習[62]、蒙特卡洛[63]、馬爾可夫鏈蒙特卡洛[64]。貝葉斯的核心在于求解后驗分布，然而在深層網(wǎng)絡(luò)中，后驗分布很難求解，只能通過近似的方法解決后驗分布的求解問題。貝葉斯深度學習將貝葉斯概率論與深度學習相結(jié)合，為應(yīng)對復雜問題中的不確定性建模與推斷提供了強大的工具。其對過擬合問題具有較強的魯棒性，可應(yīng)用于小型數(shù)據(jù)集。蒙特卡洛（Monte-Carlo，MC）方法可以近似后驗推斷，但是集成到深度架構(gòu)中時，存在計算緩慢且計算成本較高的缺點。為了解決上述問題，引入了MC dropout[65]，其原理是在訓練和測試階段都使用dropout作為正則項計算預測的不確定性。然而該方法在樣本集中的情況下，所預測的不確定性較低；在樣本稀疏的情況下，不確定性會明顯增大。馬爾可夫鏈蒙特卡洛（Markov chain Monte Carlo，MCMC）是另一種近似后驗分布的有效方法，所采樣的方法都是無偏的。但其需要迭代的次數(shù)過多，達到期望分布的收斂時間較長?；谏鲜鰡栴}，提出了隨機梯度馬爾可夫鏈蒙特卡洛（stochastic gradient MCMC，SG-MCMC）[66]，它只需要估計小批量數(shù)據(jù)的梯度，因此可以較快收斂到真正的后驗分布。

在未來的研究中，需要對各種不確定性量化的方法加強理論分析。在采用半監(jiān)督學習自動生成數(shù)據(jù)標簽時，可以將不確定性量化方法與之結(jié)合。此外，還可以將其應(yīng)用于數(shù)字醫(yī)療領(lǐng)域，量化其不確定性，并將其部署到真實的臨床環(huán)境中，這也是一個值得研究的方向。

8 結(jié)束語

本文研究了幾種基于遷移學習檢測COVID-19的診斷模型，并闡明了這些模型的特點。首先，表1和表2 分別展示了公開的X 射線和胸部CT 數(shù)據(jù)集，詳細描述了數(shù)據(jù)集來源、分布、占比等。然后討論了數(shù)據(jù)預處理的方法，最常見的方法是尺寸調(diào)整，使用GAN 方法的研究占比較小。接著按照模型分類闡述了各個模型的特點，以及常用的模型評估方法。一些研究結(jié)合了可視化技術(shù)（即CAM、Grad-CAM、Grad-CAM++、LIME 和LRP），以突出與預測結(jié)果密切相關(guān)的關(guān)鍵區(qū)域，最常用的可視化技術(shù)是基于CT掃描和X 射線模型的Grad-CAM。最后整理和總結(jié)了當前領(lǐng)域面臨的問題并提供了未來的研究方向。希望本綜述能為研究人員和放射科醫(yī)生提供指導。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放