馬偉鎮(zhèn) 何良華
摘要:在疾病診斷過程當中通常會生成各種各樣的醫(yī)療圖像,利用計算機綜合考慮來自不同模態(tài)的醫(yī)療圖像來輔助診斷成了一個熱門的研究方向。本方法利用深度神經網絡獲取不同模態(tài)的醫(yī)療圖像的特征,通過設計損失函數(shù)的正則化項,使得這些特征在共同語義空間上保持結構上的相似性,來讓網絡學習到更加魯棒的特征。本方法在CPM-RadPath2020和CheXpert這兩個數(shù)據(jù)集上取得比一般方法更高的準確率,表明了其在多模態(tài)醫(yī)療圖像分類問題上的有效性。
關鍵詞:多模態(tài)融合;醫(yī)療圖像;神經網絡;深度學習
中圖分類號:TP311? ? ?文獻標識碼:A
文章編號:1009-3044(2022)03-0075-02
開放科學(資源服務)標識碼(OSID):
1 概述
多模態(tài)機器學習的模型有很多種,比如利用貝葉斯理論來構建的概率模型、利用模糊概念構建的模型[1]、利用玻爾茲曼機(BM)[2]來學習共享特征的模型。近年來深度神經網絡獲得了很大的發(fā)展,因此利用深度神經網絡處理多模態(tài)問題成了一個熱門的研究方向。我們主要利用深度神經網絡來進行多模態(tài)融合的研究。
在疾病診斷過程中,醫(yī)生會使用來自不同模態(tài)(CT,MRI等)醫(yī)療圖像來對疾病進行綜合判斷。直覺上來說,這些來自不同模態(tài)的醫(yī)療圖像包含存在于它們之間的共享信息,以及各個模態(tài)所獨有的信息。共享信息本身能夠用于疾病的診斷,而且共享信息在不同模態(tài)之間出現(xiàn)也能夠加深信息的可信程度。獨特信息可能和診斷相關,也可能與診斷無關,但有些時候這些獨特信息也會對診斷起到關鍵的作用。因此,設計合適的多模態(tài)融合方法來綜合考慮來自不同模態(tài)的信息,是提升醫(yī)療圖像分類準確率的重要途徑之一。
根據(jù)多模態(tài)融合時機的不同可將融合方法分為輸入層級、中間層級和決策層級。輸入層級融合方法比較直觀,通常是將來自不同模態(tài)的數(shù)據(jù)融合成一個多通道的模態(tài),中間層級的融合方式多種多樣,比如MMTM[3]設計的雙路網絡,每一層都可以將來自一個網絡的信息融合到另一個網絡當中。決策層級的融合會利用來自不同模型輸出的特征或策略來進行綜合判斷。比如很多人利用不同網絡輸出的特征拼接成新的特征作為分類的依據(jù),或利用majority voting的方式進行決策。
2 相關工作
筆者使用預訓練的ResNet和DenseNet作為圖像的特征提取器。對于CPM-RadPath2020[5]腦腫瘤分類任務,需要對訓練過程做一些特殊處理。CPM使用病理切片和核磁共振成像(MRI)作為輸入模態(tài),但單個病理圖片和MRI的大小太大,直接使用它們作為網絡的輸入對于目前計算機來說還是個挑戰(zhàn),通過對兩個模態(tài)進行降采樣,以及使用多示例學習的方法來緩解這個問題。采用文獻[4]的滑動窗口的方法對病理圖片采樣出較小的子圖片。對于MRI來說,我們對垂直軸方向進行降采樣,隨機選取適當數(shù)量的切片作為新的樣本。因此,每個模態(tài)都包含多張2D圖像,分別使用各自的特征提取器對它們進行特征的提取,然后求平均值作為各個模態(tài)的特征。這樣簡單的多示例學習策略在實驗當中也能取得很好的效果。
在網絡學習的過程能夠有效利用多個模態(tài)中存在的共享信息。因此在語義空間當中,類型相同的樣本的特征是相似的,類型不同的樣本的特征是不相似的,這樣的方法類似于對比學習當中的思想。這樣使得不同模態(tài)的特征分布具有相似的結構,這樣的相似性可以看作不同模態(tài)之間的共享信息。利用不同模態(tài)之間的共享特征和各自模態(tài)的獨特特征,模型可以做出更準確的判斷。
對于不同模態(tài),我們假設[hi∈H,i∈{1, 2, …, M}]為特征提取模型,其中[H]為假設空間。設[ai, i∈{1, 2, …, M}]為第i個模態(tài)的特征。
[ai=hi (Xi ), i∈{1, 2, …, M}]
在語義空間當中,當[ai]來自同一個類型標簽的輸入[Xi]時,它們在語義空間上相似,當[ai]來自不同類型標簽的輸入時,它們在語義空間上不相似,如圖1所示,圖中不同顏色代表不同類別,不同形狀代表來自不同模態(tài)。根據(jù)這個限制,我們可以構造相應的損失函數(shù),使用余弦相似度來衡量特征之間的相似性,使得來自同一樣本的不同模態(tài)的特征相似度高于來自不同樣本的模態(tài)的特征的相似度。對于存在兩個模態(tài)的情況,損失函數(shù)的形式為:
[lossst=i,j,k max0,m+dai1,aj2-dai1,ak2+λi,j,kmax0,m+dai2,aj1-dai2,ak1]
其中上標[i,j,k]代表特征來自不同的樣本,[i,j]代表正樣本對,即它們的類別標簽相同。而[i,k]代表負樣本對,它們的類別標簽不相同。我們使用負余弦相似度來衡量兩個特征的距離:
[da1,a2=-a1?a2a1a2]
圖 2為模型的結構,各個模態(tài)使用預訓練的ResNet作為特征提取器。對于來自不同模態(tài)的特征,為了提高特征的豐富性,我們希望模型不僅學習到輸入的一階特征,還希望能夠學習到[n∈{2,3,…}]階特征。因此,使用多個MLP(多層感知機)來輸出不同階的特征,然后使用[a1=a11+a212+a313+…]來獲得模態(tài)的最終特征,最后通過拼接的方式來得到最終用于分類的特征,該特征可直接用于分類任務,我們使用MLP作為分類器來得到最終分類結果。
模型的損失函數(shù)不僅要保持各個模態(tài)的特征的分布結構的相似,同時還要使得最終的分類盡可能的正確,因此還需要增加額外的損失函數(shù):
[Losscls=-1Nic=1Myiclog (pic)]
其中N為batch的大小,M為分類類別的數(shù)量,[yic∈{0,1}]為第i個樣本的標簽,[pic∈[0,1]]為模型輸出的概率,該損失函數(shù)為交叉熵損失函數(shù)??傮w的損失函數(shù)為:
[lossall=lossst+losscls]
3 實驗和結果分析
3.1 數(shù)據(jù)集
筆者在CPM-RadPath2020[5]和CheXpert[6]兩個數(shù)據(jù)集上進行實驗。
CPM-RadPath2020是一個腦部腫瘤分類任務的數(shù)據(jù)集,該數(shù)據(jù)集包含病理圖片和腦部核磁圖像這兩個模態(tài),這些樣本可分類為三個類別,分別為較低級星形細胞瘤、少突膠質細胞瘤與膠質母細胞瘤和彌漫性星形膠質細胞膠質瘤。由于該任務以公開比賽的形式提供實驗數(shù)據(jù),其測試集未公開。使用其公開訓練集并劃分為子訓練集和測試集。
CheXpert數(shù)據(jù)集是一個大規(guī)模胸部X光片數(shù)據(jù)集,我們在其多標簽分類任務上進行實驗,每個樣本包含5個標簽。由于該數(shù)據(jù)集包含人體正面和側面兩個不同方向的胸部X光片數(shù)據(jù),但對于同一個人來說,不是每一個樣本都同時存在正面和側面兩個方向的數(shù)據(jù)。因此,只使用數(shù)據(jù)集當中同時存在正面和側面的X光片的樣本作為訓練集和測試集,在這個數(shù)據(jù)集上,可以將正面和側面當作兩個不同的模態(tài)。
3.2 CPM-RadPath2020
在這個數(shù)據(jù)集上,我們在一張1080Ti顯卡上進行實驗。由于顯存的限制,考慮在病理圖片上使用ResNet101作為特征提取器,輸入的每個病理圖片patch都縮放至[224×244]的大小,并使用歸一化,隨機翻轉,以及隨機切割這些數(shù)據(jù)增強方法。在核磁圖像上使用DenseNet121作為特征提取器,并使用2D的方式來提取特征,相對于3D DenseNet來說,2D網絡使用的顯存要更少。同樣地,核磁圖像輸入也進行和病理圖片相同的數(shù)據(jù)增強過程。
使用的batch大小為3,每個樣本的病理圖片和核磁圖像各采樣10張和20張,然后使用多示例學習的方式對模型進行訓練。一共訓練50輪,初始學習率為[5×10-5],使用Adam優(yōu)化器作為學習優(yōu)化器,并使用StepLR來使模型的學習率每50輪降低 10倍,模型輸出128維的向量作為最終的特征。
使用了幾個基本模型作為對比,分別為單獨病理圖片模型(Path)、單獨核磁圖像模型(Radio)、投票模型(Majority Voting)、拼接模型(Concatenate)和MMTM作為對比。由于我們只使用了兩個模態(tài),投票模型以各個模態(tài)輸出的類別概率相加作為投票的結果。而拼接模型則直接將各個模型輸出的特征拼接成一個更長的特征作為分類特征。實驗結果如表1所示:
實驗結果顯示,病理圖片模態(tài)對分類的貢獻明顯要比核磁模態(tài)對分類的貢獻要高,這個現(xiàn)象是符合現(xiàn)實情況的。筆者的模型在F1和cohen kappa這兩個指標上的結果要比其他模型高。
3.3 ChexPert
在這個數(shù)據(jù)集上,使用正面和側面的X光片作為兩個模態(tài),并輸入模型進行訓練。兩個模態(tài)都使用ResNet101作為特征提取器。在實驗設置上使用的batch為30,其他設置與CPM數(shù)據(jù)集一致。在該數(shù)據(jù)集上模型收斂較快,所以只需要2輪訓練就能得到比較穩(wěn)定的結果。
同樣,筆者使用了幾個基本模型作為對比。分別為單獨模態(tài)模型(Single)、混合模型(Blend)、拼接模型作為對比。其中單獨模態(tài)只使用正面的X光片作為模型輸入,混合模型則同時使用正面和側面的X光片作為模型輸入。實驗結果如表2所示:
4 結論
在多模態(tài)醫(yī)療圖像分類問題中,使用對比損失作為模型損失函數(shù)的一部分 ,使得各個模態(tài)同一標簽的特征在語義空間上更相似,不同標簽的特征在語義空間上更不相似。這樣的正則化項使模型更容易學習到不同模態(tài)之間的魯棒的共享信息,同時使用拼接的方式來利用不同模態(tài)之間的獨有信息。實驗結果表明該模型能夠利用來自不同模態(tài)的信息提高分類的準確率。
參考文獻:
[1] Balasubramaniam P,Ananthi V P.Image fusion using intuitionistic fuzzy sets[J].Information Fusion,2014,20:21-30.
[2] SRIVASTAVA N, SALAKHUTDINOV R. Multimodal Learning with Deep Boltzmann Machines[C]//NIPS. 2012,1:2.
[3] Vaezi Joze H R,Shaban A,Iuzzolino M L,et al.MMTM:multimodal transfer module for CNN fusion[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).June 13-19,2020.Seattle,WA,USA.IEEE,2020.
[4] Lerousseau M,Deutsh E,Paragios N.Multimodal brain tumor classification[EB/OL].2020.
[5] KEYVAN FARAHANI,TAHSIN KURC,et al.Computational Precision Medicine Radiology-Pathology challenge on Brain Tumor Classification 2020.MICCAI.
[6] Irvin J,Rajpurkar P,Ko M,et al.CheXpert:a large chest radiograph dataset with uncertainty labels and expert comparison[J].Proceedings of the AAAI Conference on Artificial Intelligence,2019,33:590-597.
【通聯(lián)編輯:梁書】