畢以鎮(zhèn),馬煥,張長青
增廣模態(tài)收益動態(tài)評估方法
畢以鎮(zhèn),馬煥,張長青*
(天津大學 智能與計算學部,天津 300350)( ? 通信作者電子郵箱zhangchangqing@tju.edu.cn)
針對獲取新模態(tài)難度大、收益差異大的問題,提出了一種增廣模態(tài)收益動態(tài)評估方法。首先,通過多模態(tài)融合網(wǎng)絡得到中間特征表示和模態(tài)融合前后的預測結(jié)果;其次,將兩個預測結(jié)果的真實類別概率(TCP)引入置信度估計,得到融合前后的置信度;最后,計算兩種置信度的差異,并將該差異作為樣本以獲取新模態(tài)所帶來的收益。在常用多模態(tài)數(shù)據(jù)集和真實的醫(yī)學數(shù)據(jù)集如癌癥基因組圖譜(TCGA)上進行實驗。在TCGA數(shù)據(jù)集上的實驗結(jié)果表明,與隨機收益評估方法和基于最大類別概率(MCP)的方法相比,所提方法的準確率分別提高了1.73~4.93和0.43~4.76個百分點,有效樣本率(ESR)分別提升了2.72~11.26和1.08~25.97個百分點??梢姡岱椒軌蛴行гu估不同樣本獲取新模態(tài)所帶來的收益,并具備一定可解釋性。
多模態(tài)分類;多模態(tài)融合;置信度估計;增廣模態(tài);表示學習
描述現(xiàn)實中客觀事物時,通常采用多種描述形式,如圖像、文本等。在機器學習中,為了提高模型的性能,也常將多種模態(tài)數(shù)據(jù)作為輸入。近年來,隨著傳感器成本的降低,多模態(tài)數(shù)據(jù)也越來越容易獲取,許多任務面對的通常也是多模態(tài)數(shù)據(jù),因此合理利用多種模態(tài)數(shù)據(jù)受到國內(nèi)外學者的廣泛關(guān)注。隨著深度學習的成功應用,深度多模態(tài)融合[1]也被廣泛研究和應用,并且在語義分割[2-3]、動作識別[4-5]等領(lǐng)域[6-8]都取得了顯著的成效。
實際應用中,部分高精度模態(tài)的數(shù)據(jù)不能通過廉價的傳感器獲取,如在醫(yī)學領(lǐng)域,一些復雜的醫(yī)學檢查需要借助成本高昂的醫(yī)學儀器獲取,因此獲取完整的醫(yī)學多模態(tài)數(shù)據(jù)通常需要花費高昂的時間和經(jīng)濟成本。多模態(tài)融合決策中,在某些情況下,利用部分模態(tài)甚至單模態(tài)數(shù)據(jù)也能夠獲得可靠的預測結(jié)果,因此評估不同樣本增加新的模態(tài)后是否更有利于決策,以及根據(jù)收益高低找出對新的模態(tài)有更迫切需求的樣本可以很大程度地減少獲取多模態(tài)數(shù)據(jù)集所帶來的成本。
針對以上問題,本文提出一種動態(tài)評估不同樣本在增加新的模態(tài)后所獲收益的方法,根據(jù)已有模態(tài)的信息有效評估當前樣本獲取新的模態(tài)信息后所獲收益。
本文的主要工作如下:
1)研究了一種新的問題情景,即如何根據(jù)樣本已有的模態(tài)信息判斷加入新的模態(tài)是否更有利于分類,并評估加入新的模態(tài)后所獲收益;同時提出了一種更加合理的評價指標——有效樣本率(Effective Sample Rate, ESR),對比不同的收益評估方法。
2)提出了一種基于置信度估計的增廣模態(tài)收益動態(tài)評估方法,找出增加新的模態(tài)后所獲收益更高的樣本,在框架下增強了方法的合理性和可解釋性。
3)在模擬數(shù)據(jù)集和真實醫(yī)學數(shù)據(jù)集上進行了實驗,實驗結(jié)果表明,利用本文的收益評估方法評估樣本的增廣模態(tài)收益相較于一般的收益評估方法有顯著的性能提升,驗證了所提方法的有效性。
由于多模態(tài)數(shù)據(jù)的廣泛性,多模態(tài)融合技術(shù)已經(jīng)取得較大進展。根據(jù)融合方式,可以分為基于聚合的融合(Aggregation-based fusion)、基于對齊的融合(Alignment-based fusion)和混合方式[9]?;诰酆系娜诤贤ㄟ^某種特定的操作方式使多個模態(tài)的特征信息融合到一個網(wǎng)絡,具體的操作方式有取平均[10]、級聯(lián)[11]和自注意力[3]等;但是這種方式容易忽視聚合操作后模態(tài)內(nèi)信息的傳播?;趯R的融合通過一種正則損失對齊不同模態(tài)的特征信息,并保留每個模態(tài)內(nèi)信息的傳播;但是由于模態(tài)間的弱信息交換,該方式容易導致模態(tài)交互不充分。
針對聚合的融合方式的缺點,Du等[12]在特征融合的同時,也保留了每個模態(tài)內(nèi)信息的傳播?;趯R的融合方式通常采用最大均值差異(Maximum-Mean-Discrepancy, MMD)[13]約束不同模態(tài)的特征分布。MMD最初被用于判斷兩個分布是否一致,但使用MMD約束不同模態(tài)的特征分布會削弱每個模態(tài)獨有信息。針對上述問題,Wang等[14]在關(guān)注模態(tài)間共有特征的同時,還保留了每個模態(tài)獨有的信息。Wang等[9]提出一種更精細的融合方式,根據(jù)網(wǎng)絡剪枝的思想[15],在信道級別融合不同模態(tài)特征。
根據(jù)融合的時刻[16],多模態(tài)融合技術(shù)可以分為前期融合[17]、后期融合[18]和混合融合[19]。前期融合是融合模態(tài)提取的特征,后期融合是融合模態(tài)的決策結(jié)果,混合融合結(jié)合了前期融合的預測結(jié)果和單個模態(tài)的預測結(jié)果。
在本文進行收益評估時,需要根據(jù)單模態(tài)的信息評估多模態(tài)融合后的收益。本文使用的多模態(tài)融合方法是在基于對齊的融合方式的基礎上進行了一定調(diào)整,不僅能夠獲取多模態(tài)融合后的預測結(jié)果,也能夠獲取單模態(tài)的預測結(jié)果。
面對不完整的多模態(tài)數(shù)據(jù)時,現(xiàn)有的大部分多模態(tài)學習方法都是采用兩步的方式:首先通過某種計算方法[20-21]構(gòu)建完整的多模態(tài)數(shù)據(jù),其次在得到的完整多模態(tài)數(shù)據(jù)上訓練一個多模態(tài)模型;或者借助一個輔助推理過程生成補全缺失的模態(tài)數(shù)據(jù)[22]。也有一些更加靈活的方式,Wu等[23]提出了一種利用隱變量分解實現(xiàn)跨模態(tài)生成的模型,不需要多步訓練和額外的推理步驟。Zhang等[24]提出了CPM-Nets(Cross Partial Multi-view Networks)模型,能夠直接學習隱層表示到原始模態(tài)數(shù)據(jù)的映射。
雖然本文的問題情景與模態(tài)缺失補全都是針對不完整的多模態(tài)數(shù)據(jù),但是模態(tài)缺失補全方法重點是更好地利用不完整的多模態(tài)數(shù)據(jù)和提高補全模態(tài)的質(zhì)量。本文方法的重點是根據(jù)當前已有的模態(tài)信息評估樣本獲取新的模態(tài)信息所獲收益,即收益評估面向的是真實模態(tài)信息的獲取。
盡管深度神經(jīng)網(wǎng)絡已經(jīng)被廣泛應用,但是在智能醫(yī)學、自動駕駛等實際應用[25-26]中,安全性仍然非常重要,即評估一個模型可能出錯的時間是非常重要的。置信度是評估模型預測結(jié)果可靠性的指標。在分類任務中,最基本的置信度估計方法是最大類別概率(Maximum Class Probability, MCP),即采用Softmax層預測類別的概率作為該樣本的置信度估計,但是該方法存在置信度估計過高的問題。Guo等[27]和Liang等[28]分別針對置信度校準和分布外檢測(Out-Of-Distribution, OOD)任務,提出使用Temperature Scaling校準模型預測結(jié)果的置信度;但是他們都沒有考慮MCP在預測錯誤的情況下置信度過高的問題。Corbière等[29]提出了真實類別概率(True Class Probability, TCP),將真實類別的概率作為預測的置信度,有效地解決了MCP在分類錯誤的情況下置信度過高的問題。
與置信度估計任務相關(guān)的還有不確定性估計。不確定估計的經(jīng)典方法是貝葉斯方法,將它應用到神經(jīng)網(wǎng)絡,可以得到預測結(jié)果的期望和方差,通常將方差作為預測結(jié)果的不確定性。Gal等[30]提出通過采樣一些隨機網(wǎng)絡的預測結(jié)果,使用蒙特卡洛dropout預測網(wǎng)絡的后驗分布。
為了避免模型出錯時出現(xiàn)過自信的情況,本文采用TCP[29]估計置信度。與Corbière等[29]的工作相比,本文的問題情景面向多模態(tài)數(shù)據(jù),為了后續(xù)增廣模態(tài)收益評估任務,需要同時估計多個模態(tài)融合后預測結(jié)果的置信度。
本文提出的增廣模態(tài)收益動態(tài)評估方法主要包括兩部分:基于多模態(tài)融合網(wǎng)絡的置信度估計和基于置信度估計的收益評估。置信度估計的主要框架如圖1所示,首先訓練一個多模態(tài)融合網(wǎng)絡,如圖1中步驟1所示,得到提取的中間特征表示和模態(tài)融合前后的預測結(jié)果,再將中間特征表示作為置信度估計網(wǎng)絡的輸入,并利用兩個預測結(jié)果的真實類別概率作為信息訓練置信度估計網(wǎng)絡,從而將信心估計轉(zhuǎn)化為回歸任務,如圖1步驟2所示。其次,利用置信度估計網(wǎng)絡得到測試樣本的兩種置信度的預測結(jié)果,將兩種置信度的差異作為樣本增加新的模態(tài)后所獲收益。
2.2.1多模態(tài)融合網(wǎng)絡
基于對齊的融合對應的損失函數(shù)可以寫為:
其中:是融合權(quán)重;是對齊約束,常用的對齊約束是最大均值差異(MMD)[13]?;趯R的融合如圖2(b)所示,首先,針對不同模態(tài)設計不同的特征提取主干網(wǎng)絡;其次,在所有模態(tài)子網(wǎng)絡學習特征的過程中施加對齊約束,使每個模態(tài)的特征分布對齊,例如,如果使用MMD約束,則不同模態(tài)的特征分布會趨于一致。
式(4)由兩部分組成:左邊部分的目的是訓練每個模態(tài)的子網(wǎng)絡,使單模態(tài)網(wǎng)絡能夠捕獲較好的中間特征表示和得到單模態(tài)的分類結(jié)果;右邊部分的目的是學習模態(tài)融合的自適應權(quán)重和得到融合后的預測結(jié)果。上述模型本質(zhì)上是一個多任務學習(Multi-task Learning)類型的目標函數(shù)。
2.2.2置信度估計網(wǎng)絡
第二步是訓練置信度估計網(wǎng)絡,對多模態(tài)融合網(wǎng)絡進行置信度估計。
用單模態(tài)數(shù)據(jù)估計多模態(tài)融合后置信度的合理性分析:對于多模態(tài)數(shù)據(jù),模態(tài)之間存在一定的關(guān)聯(lián)性,如果在某個模態(tài)上兩個樣本接近,通常它們在其余模態(tài)上也具有概率上的相似性,也傾向于得到相近的融合結(jié)果。在第3章將通過實驗進一步驗證該方法的合理性。
綜上所述,多模態(tài)置信度估計算法如算法1所示。
算法1 多模態(tài)置信度估計算法。
5) END FOR
12) END FOR
15) END FOR
本節(jié)將介紹通過置信度估計網(wǎng)絡對樣本進行增廣模態(tài)收益評估。為了體現(xiàn)出使用融合前后置信度收益評估的合理性與優(yōu)越性,首先介紹一種樸素的收益評估方法。
簡單直接的方法是將融合后網(wǎng)絡預測結(jié)果的置信度作為樣本增廣模態(tài)的收益,即如果一個樣本的兩種模態(tài)融合后置信度較高,則融合后的預測結(jié)果可靠,說明融合利于分類,因此將融合后置信度作為該樣本增加新的模態(tài)后的收益。但是上述方法只考慮了融合后的置信度,而有些樣本單模態(tài)的預測結(jié)果已有較高的置信度,可能導致融合后置信度也較高,即融合后置信度高并不能體現(xiàn)增加第2個模態(tài)所帶來的收益。本文提出的收益評估方法綜合考慮了融合前后置信度的變化,通過多模態(tài)融合網(wǎng)絡中的單模態(tài)子網(wǎng)絡得到測試樣本的中間特征表示,并將它輸入置信度估計網(wǎng)絡中得到兩種置信度估計,將兩種置信度差異作為樣本增廣模態(tài)的收益。
本文收益評估算法如算法2所示。
算法2 收益評估算法。
5) END FOR
為了驗證本文方法的有效性,在hand[31]和CMU-MOSEI[32]兩個多模態(tài)常用數(shù)據(jù)集和兩個真實醫(yī)學數(shù)據(jù)集上進行實驗。
hand是手寫數(shù)字數(shù)據(jù)集,一共有2 000個樣本,共包含6個模態(tài),本文實驗選用其中的兩個模態(tài)。CMU-MOSEI是用于多模態(tài)情感分析的數(shù)據(jù)集,共有22 777個樣本,包含3個模態(tài),分別是文本、視頻和音頻,且具有情感的標簽,情感從negative到positive共有7個類別,標簽的數(shù)值在[-3,3]。本文實驗選用了文本和視頻兩個模態(tài),文本作為模態(tài)1,視頻作為模態(tài)2。
兩個醫(yī)學數(shù)據(jù)集分別是癌癥基因組圖譜(The Cancer Genome Atlas, TCGA)數(shù)據(jù)集[33]和皮膚病學(Dermatology)數(shù)據(jù)集[34]。TCGA計劃是由美國國家癌癥研究所和美國國家人類基因組研究所于2006年聯(lián)合啟動的項目,其中收錄了多種癌癥相關(guān)的研究數(shù)據(jù)。本文使用TCGA-GBM和TCGA-LGG兩個項目的數(shù)據(jù)作為訓練數(shù)據(jù),包括全視野切片圖像和基因組分析,以及對應的癌癥等級、生存時長等。
TCGA數(shù)據(jù)集的分類任務為癌癥等級預測。原始類別信息包括3個等級,即等級2、等級3、等級4。模態(tài)1和2分別為全視野切片圖像(組織學圖像數(shù)據(jù))和基因組特征,如圖3所示。原始數(shù)據(jù)集共有769個樣本,實驗數(shù)據(jù)預處理參照Chen等[33]的處理方式。首先清洗數(shù)據(jù),由于部分樣本基因組特征不完整和癌癥等級標簽缺失,可用樣本數(shù)為664;其次處理全視野切片圖像,將原始全視野切片圖像分割成多個感興趣區(qū)域(Region Of Interest, ROI),處理后664個樣本的全視野切片圖像被分割為1 325個ROI;最后處理模態(tài)對應關(guān)系,將原始全視野切片圖像的基因組特征作為模態(tài)2。
圖3 組織切片圖像
Dermatology數(shù)據(jù)集被用于Eryhemato鱗狀疾病類型診斷。樣本數(shù)為366,每個樣本由34個屬性組成,其中前11個屬性和最后1個屬性是臨床表現(xiàn),其余23個屬性是組織病理學特征。在Dermatology實驗中,劃分前11個屬性(臨床表現(xiàn))作為模態(tài)1,組織病理學特征作為模態(tài)2。Dermatology數(shù)據(jù)集有6個類別,用0到5表示,代表6種鱗狀疾病類型:銀屑病、皮脂腺性皮炎、扁平苔蘚、玫瑰糠疹、慢性皮炎和毛癬。
表1詳細列舉了各個數(shù)據(jù)集每個模態(tài)的維度和類別數(shù)。
表1 數(shù)據(jù)集說明
本文提出的收益評估方法基于兩個子網(wǎng)絡:多模態(tài)融合網(wǎng)絡和置信度估計網(wǎng)絡。其中,多模態(tài)融合網(wǎng)絡的目標是使得多模態(tài)數(shù)據(jù)訓練的融合模型在性能上不低于單模態(tài)數(shù)據(jù)訓練的模型。因此,本節(jié)通過比較單模態(tài)和多模態(tài)融合網(wǎng)絡的準確率驗證多模態(tài)融合部分的有效性。
在實驗過程中,數(shù)據(jù)集按3∶1∶1劃分為訓練集、驗證集和測試集,保存驗證集上表現(xiàn)最好的模型。不同數(shù)據(jù)集采用不同的網(wǎng)絡結(jié)構(gòu):對于圖像數(shù)據(jù)(TCGA)采用卷積神經(jīng)網(wǎng)絡提取特征,對于單維特征(hand和Dermatology)采用全連接網(wǎng)絡,對于序列信號(CMU-MOSEI)采用Transformer提取特征。
各個數(shù)據(jù)集中模態(tài)1、模態(tài)2和融合后的分類準確率如表2所示。在4個數(shù)據(jù)集上,融合后分類準確率均為最高,驗證了所提融合方法的優(yōu)越性和有效性。
表2 多模態(tài)與單模態(tài)準確率比較 單位:%
2.2.2節(jié)從理論上分析了使用單模態(tài)數(shù)據(jù)估計融合后的置信度的可行性,本節(jié)通過置信度估計網(wǎng)絡收斂性分析實驗進一步驗證該結(jié)論。
圖4是分別在hand數(shù)據(jù)集和Dermatology數(shù)據(jù)上訓練階段的均方誤差(Mean Squared Error, MSE)損失的變化趨勢。隨著迭代次數(shù)的增加,MSE損失逐漸減小,并最終趨于穩(wěn)定。在醫(yī)學數(shù)據(jù)集上收斂較快,一方面說明了單模態(tài)數(shù)據(jù)的特征能夠擬合融合后置信度,另一方面是因為使用了較為簡單的網(wǎng)絡模型,即2到3層的全連接網(wǎng)絡。因此,使用單模態(tài)數(shù)據(jù)估計融合后置信度是可行的。
圖4 MSE變化趨勢
為了更加全面地評估不同收益評估方法,將收益評估方法應用到樣本排序任務上,如圖5所示。按照不同的收益評估方法對測試樣本排序,即按照收益由高到低的方式,理想地,收益高的樣本增加新的模態(tài)信息后更有利于分類。
圖5 樣本排序示意圖
由于缺乏現(xiàn)有的方法對比,主要將本文方法與以下方法比較:
1)隨機收益評估方法。隨機收益評估方法與現(xiàn)實中獲取多模態(tài)數(shù)據(jù)基本假設保持一致,即無差別為每個樣本獲取新的模態(tài)。在隨機收益評估方法中,每個樣本增加新的模態(tài)所獲收益均相同。
2)基于MCP的評估方法。由于在測試階段只有單模態(tài)數(shù)據(jù),如果不使用輔助模型擬合回歸,只能夠得到分類結(jié)果的MCP;因此,可以將它作為評估方法,單模態(tài)的MCP越小,說明越需要獲取新的模態(tài)。
本文采用準確率和有效樣本率(ESR)這兩個指標。
3.4.1準確率對比
首先,通過不同收益評估方法得到測試集中樣本增加新的模態(tài)后所獲收益;其次,按照收益由高到低對測試樣本排序,根據(jù)排序結(jié)果依次向測試集中加入新的模態(tài)信息;最后,通過多模態(tài)融合網(wǎng)絡和相應單模態(tài)網(wǎng)絡得到分類準確率。如果樣本被選中增加新的模態(tài),則將該樣本兩個模態(tài)輸入融合網(wǎng)絡中得到對應分類結(jié)果;否則輸入單模態(tài)信息到它的單模態(tài)網(wǎng)絡得到分類結(jié)果,通過計算得到測試集的分類準確率。為了提高實驗的可靠性,隨機收益評估方法的準確率為5次隨機排序的平均準確率。
表3是各個數(shù)據(jù)集模態(tài)缺失情況和對應測試集大小。實際應用中,通常難以獲取高精度的模態(tài),因此在Dermatology數(shù)據(jù)集的臨床表現(xiàn)(模態(tài)1)和組織病理學特征(模態(tài)2)中,將組織病理學特征作為待獲取的模態(tài);在TCGA數(shù)據(jù)集的組織切片圖像(模態(tài)1)和基因測序(模態(tài)2)中,將基因測序作為待獲取的模態(tài)。
表3 模態(tài)缺失說明
注:“√”表示包含該模態(tài),“×”表示不包含該模態(tài)。
圖6為3種評估方法的準確率對比結(jié)果。如圖6所示,在4個數(shù)據(jù)集上,與隨機收益評估方法相比,當比例相同時,按照本文方法得到的樣本排序結(jié)果增加新的模態(tài)信息達到的準確率更高,即本文方法更有效。隨著樣本比例的提高,準確率均呈上升趨勢,但本文方法在開始階段準確率上升更快,說明本文方法更關(guān)注單模態(tài)難以正確分類的樣本。在TCGA數(shù)據(jù)集上,當比例為0.8時,本文方法的準確率達到最高(66.23%),相較于隨機收益評估方法(61.30%),提升了4.93個百分點,整體提升范圍為1.73~4.93個百分點。實驗結(jié)果也符合2.3節(jié)中的分析,使用融合前后預測結(jié)果置信度的差異作為增廣模態(tài)收益的評估是合理的,即融合后預測結(jié)果置信度比單模態(tài)置信度高,說明增加新的模態(tài)后更利于分類。與基于MCP的方法相比,在hand數(shù)據(jù)集上,本文方法擁有相當?shù)谋憩F(xiàn);但在TCGA數(shù)據(jù)集上,本文方法明顯優(yōu)于基于MCP的方法,準確率提升了0.43~4.76個百分點,說明僅使用單模態(tài)的置信度作為增廣模態(tài)的收益不夠全面。
圖6 不同數(shù)據(jù)集上的準確率比較
3.4.2有效樣本率對比
為了更直觀地驗證本文方法的有效性,本文提出了一個新的實驗指標——有效樣本率(ESR)。
定義1 如果某個樣本的單模態(tài)分類結(jié)果是錯誤的,而多模態(tài)融合的分類結(jié)果是正確的,則該樣本被稱為有效樣本。有效樣本是只利用已有的單模態(tài)信息無法得到可靠分類結(jié)果的樣本,即歧義比較大的樣本。因此,有效樣本相較于其他樣本更需要增加新的模態(tài)信息輔助模型作出進一步預測,即有效樣本的增廣模態(tài)收益相較于其他樣本更高。
定義2 增加新模態(tài)樣本中有效樣本所占比例稱為有效樣本率。
圖7是4個數(shù)據(jù)集上不同方法有效樣本率的對比結(jié)果。如圖7所示,在4個數(shù)據(jù)集上,當比例較小時,本文方法的有效樣本率遠高于隨機評估的方法的有效樣本率。與隨機收益評估方法相比,盡管在TCGA數(shù)據(jù)集上準確率差異相較于hand數(shù)據(jù)集小,但有效樣本率明顯提升,在開始階段(當比例為0.1時),提高了11.26個百分點。同時,本文方法的有效樣本率始終高于隨機收益評估方法,整體提升了2.72~11.26個百分點,與基于MCP的方法相比,在開始階段(當比例小于0.6時),提升了1.08~25.97個百分點,說明在統(tǒng)計意義上本文方法對有效樣本給出了較高的收益評估。
圖7 不同數(shù)據(jù)集上有效樣本率比較
Fig. 7 Comparison of effective sample rate on different datasets
3.5.1有效樣本率比較
如2.3節(jié)所述,簡單直接的收益評估方法(以下簡稱為簡單方法)是將融合后預測結(jié)果置信度作為樣本增廣模態(tài)的收益。融合后置信度高一定程度上能夠說明融合后模型對于預測結(jié)果是較為自信的。為了驗證綜合考慮融合前后置信度的有效性,在準確率和有效樣本率指標上對比了本文方法和簡單方法。
準確率對比結(jié)果如圖8所示,僅使用融合后置信度作為樣本的收益在準確率指標上遠低于本文方法。主要原因是融合后置信度高僅說明融合后模型對該樣本的預測結(jié)果比較自信,但無法說明該樣本融合后置信度高是由于增加了新的模態(tài),所以僅將融合后置信度作為收益不夠全面。而本文方法不僅考慮了融合后的置信度,也考慮了單模態(tài)網(wǎng)絡的置信度,利用它們的差值作為評估指標具有更強的可解釋性。
圖8 本文方法與簡單方法的準確率對比
圖9為有效樣本率在兩個數(shù)據(jù)集上的實驗結(jié)果對比。從圖9可以看出,本文方法的有效樣本率均遠高于僅使用融合后置信度信息評估的方法,因此融合后置信度高不一定代表該樣本增加新的模態(tài)的信息帶來了增益;同時也說明了本文方法同時考慮單模態(tài)和融合后兩種置信度的合理性與優(yōu)越性。
圖9 本文方法與簡單方法的有效樣本率對比
3.5.2多模態(tài)融合消融實驗
多模態(tài)融合的消融實驗主要是自適應權(quán)重加權(quán)(加權(quán)融合)和等權(quán)重(平均融合)兩種方法的比較,表4是兩種方法準確率結(jié)果。
表4 加權(quán)融合和平均融合的準確率對比 單位:%
表4中,平均融合表示直接對兩個模態(tài)子網(wǎng)絡的預測結(jié)果取平均,加權(quán)融合表示對預測結(jié)果取加權(quán)平均。由表4可以看出,加權(quán)融合相較于平均融合,在準確率上有所提升。在TCGA數(shù)據(jù)集上,平均融合的準確率低于表現(xiàn)好的模態(tài)(模態(tài)2),是由于分類性能差的單模態(tài)網(wǎng)絡(模態(tài)1)是過自信的,即無論對錯,都傾向于輸出一個較高的置信度,導致最終融合模型準確率降低,符合2.2.1節(jié)中對等權(quán)重融合方式缺點的分析。
綜合以上理論分析和實驗結(jié)果分析,自適應權(quán)重在一定程度上能夠反映各個單模態(tài)網(wǎng)絡的分類性能,相較于平均融合更合理。
表5 的訓練結(jié)果
本文針對醫(yī)學領(lǐng)域難以獲取新模態(tài)、收益差異大的問題,提出了一種新的問題情景,并針對該問題情景提出了可解釋的、動態(tài)的增廣模態(tài)收益評估方法。在多模態(tài)常用數(shù)據(jù)集和真實醫(yī)學數(shù)據(jù)集上的實驗結(jié)果表明,本文所提樣本增廣模態(tài)收益評估方法不僅具有優(yōu)越的性能,同時也具有良好的可解釋性。目前的模型隨著模態(tài)的增加復雜度呈指數(shù)增加。在未來的工作中,將會進一步提高模型的泛用性,擴展到兩個模態(tài)以上的情況。
[1] RAMACHANDRAM D, TAYLOR G W. Deep multimodal learning: a survey on recent advances and trends[J]. IEEE Signal Processing Magazine, 2017, 34(6):96-108.
[2] LEE S, PARK S J, HONG K S. RDFNet: RGB-D multi-level residual feature fusion for indoor semantic segmentation[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 4990-4999.
[3] VALADA A, MOHAN R, BURGARD W. Self-supervised model adaptation for multimodal semantic segmentation[J]. International Journal of Computer Vision, 2020, 128(5): 1239-1285.
[4] FAN L, HUANG W, GAN C, et al. End-to-end learning of motion representation for video understanding[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018: 6016-6025.
[5] GARCIA N C, MORERIO P, MURINO V. Modality distillation with multiple stream networks for action recognition[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11212. Cham: Springer, 2018: 106-121.
[6] BALNTAS V, DOUMANOGLOU A, SAHIN C, et al. Pose guided RGBD feature learning for 3D object pose estimation[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 3876-3884.
[7] 吳明暉,張廣潔,金蒼宏. 基于多模態(tài)信息融合的時間序列預測模型[J]. 計算機應用, 2022, 42(8): 2326-2332.(WU M H, ZHANG G J, JIN C H. Time series prediction model based on multimodal information fusion[J]. Journal of Computer Applications, 2022, 42(8): 2326-2332.)
[8] 余娜,劉彥,魏雄炬,等. 基于注意力機制和金字塔融合的RGB-D室內(nèi)場景語義分割[J]. 計算機應用, 2022, 42(3): 844-853.(YU N, LIU Y, WEI X J, et al. Semantic segmentation of RGB-D indoor scenes based on attention mechanism and pyramid fusion[J]. Journal of Computer Applications, 2022, 42(3): 844-853.)
[9] WANG Y, HUANG W, SUN F, et al. Deep multimodal fusion by channel exchanging[C]// Proceedings of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: 4835-4845.
[10] HAZIRBAS C, MA L, DOMOKOS C, et al. FuseNet: incorporating depth into semantic segmentation via fusion-based cnn architecture[C]// Proceedings of the 2016 Asian Conference on Computer Vision, LNCS 10111. Cham: Springer, 2017: 213-228.
[11] ZENG J, TONG Y, HUANG Y, et al. Deep surface normal estimation with hierarchical RGB-D fusion[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 6146-6155.
[12] DU D, WANG L, WANG H, et al. Translate-to-recognize networks for RGB-D scene recognition[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 11828-11837.
[13] GRETTON A, BORGWARDT K M, RASCH M J, et al. A kernel two-sample test[J]. Journal of Machine Learning Research, 2012, 13: 723-773.
[14] WANG J, WANG Z, TAO D, et al. Learning common and specific features for RGB-D semantic segmentation with deconvolutional networks[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9909. Cham: Springer, 2016: 664-679.
[15] LIU Z, LI J, SHEN Z, et al. Learning efficient convolutional networks through network slimming[C]// Proceedings of the 2017 IEEE International Conference on Computer Vision. Piscataway: IEEE, 2017: 2755-2763.
[16] BALTRU?AITIS T, AHUJA C, MORENCY L P. Multimodal machine learning: a survey and taxonomy[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2019, 41(2): 423-443.
[17] CASTELLANO G, KESSOUS L, CARIDAKIS G. Emotion recognition through multiple modalities: face, body gesture, speech[M]// PETER C, BEALE R. Affect and Emotion in Human-Computer Interaction: From Theory to Applications, LNCS 4868. Berlin: Springer, 2008: 92-103.
[18] RAMIREZ G A, BALTRU?AITIS T, MORENCY L P. Modeling latent discriminative dynamic of multi-dimensional affective signals[C]// Proceedings of the 2011 International Conference on Affective Computing and Intelligent Interaction, LNCS 6975. Berlin: Springer, 2011: 396-406.
[19] LAN Z Z, BAO L, YU S I, et al. Multimedia classification and event detection using double fusion[J]. Multimedia Tools and Applications, 2014, 71(1): 333-347.
[20] CAI T, CAI T T, ZHANG A. Structured matrix completion with applications to genomic data integration[J]. Journal of the American Statistical Association, 2016, 111(514): 621-633.
[21] TRAN L, LIU X, ZHOU J, et al. Missing modalities imputation via cascaded residual autoencoder[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 4971-4980.
[22] TSAI Y H H, LIANG P P, ZADEH A, et al. Learning factorized multimodal representations[EB/OL]. (2019-05-14) [2023-01-20].https://arxiv.org/pdf/1806.06176.pdf.
[23] WU M, GOODMAN N. Multimodal generative models for scalable weakly-supervised learning[C]// Proceedings of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 5580-5590.
[24] ZHANG C, HAN Z, CUI Y, et al. CPM-Nets: cross partial multi-view networks[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 559-569.
[25] AMODEI D, OLAH C, STEINHARDT J, et al. Concrete problems in AI safety[EB/OL]. (2016-07-25) [2023-01-20].https://arxiv.org/pdf/1606.06565.pdf.
[26] JANAI J, GüNEY F, BEHL A, et al. Computer vision for autonomous vehicles: problems, datasets and state of the art[J]. Foundations and Trends?in Computer Graphics and Vision, 2020, 12(1/2/3): 1-308.
[27] GUO C, PLEISS G, SUN Y, et al. On calibration of modern neural networks[C]// Proceedings of the 34th International Conference on Machine Learning. New York: JMLR.org, 2017: 1321-1330.
[28] LIANG S, LI Y, SRIKANT R. Enhancing the reliability of out-of-distribution image detection in neural networks[EB/OL]. (2020-08-30) [2023-01-20].https://arxiv.org/pdf/1706.02690.pdf.
[29] CORBIèRE C, THOME N, BAR-HEN A, et al. Addressing failure prediction by learning model confidence[C]// Proceedings of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 2902-2913.
[30] GAL Y, GHAHRAMANI Z. Dropout as a Bayesian approximation: representing model uncertainty in deep learning[C]// Proceedings of the 33rd International Conference on Machine Learning. New York: JMLR.org, 2016: 1050-1059.
[31] DUI R. Multiple Features dataset in UCI machine learning repository[DS/OL]. [2023-01-20].http://archive.ics.uci.edu/ml/datasets/multiple+features.
[32] ZADEH A A B, LIANG P P, PORIA S, et al. Multimodal language analysis in the wild: CMU-MOSEI dataset and interpretable dynamic fusion graph[C]// Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg, PA: ACL, 2018: 2236-2246.
[33] CHEN R J, LU M Y, WANG J, et al. Pathomic fusion: an integrated framework for fusing histopathology and genomic features for cancer diagnosis and prognosis[J]. IEEE Transactions on Medical Imaging, 2022, 41(4): 757-770.
[34] ILTER N, GUVENIR H. Dermatology dataset in UCI machine learning repository[DS/OL]. [2023-01-20].https://archive.ics.uci.edu/ml/datasets/dermatology.
Dynamic evaluation method for benefit of modality augmentation
BI Yizhen, MA Huan, ZHANG Changqing*
(,,300350,)
Focused on the difficulty and big benefit difference in acquiring new modalities, a method for dynamically evaluating benefit of modality augmentation was proposed. Firstly, the intermediate feature representation and the prediction results before and after modality fusion were obtained through the multimodal fusion network. Then, the confidence before and after fusion were obtained by introducing the True Class Probability (TCP) of two prediction results to confidence estimation. Finally, the difference between two confidences was calculated and used as an sample to obtain the benefit brought by the new modality. Extensive experiments were conducted on commonly used multimodal datasets and real medical datasets such as The Cancer Genome Atlas (TCGA). The experimental results on TCGA dataset show that compared with the random benefit evaluation method and the Maximum Class Probability (MCP) based method, the proposed method has the accuracy increased by 1.73 to 4.93 and 0.43 to 4.76 percentage points respectively, and the Effective Sample Rate (ESR) increased by 2.72 to 11.26 and 1.08 to 25.97 percentage points respectively. It can be seen that the proposed method can effectively evaluate benefits of acquiring new modalities for different samples, and has a certain degree of interpretability.
multimodal classification; multimodal fusion; confidence estimation; modality augmentation; representation learning
1001-9081(2023)10-3099-08
10.11772/j.issn.1001-9081.2022101510
2022?10?11;
2023?01?24;
畢以鎮(zhèn)(1998—),男,山東濰坊人,碩士研究生,主要研究方向:多模態(tài)學習、機器學習; 馬煥(1998—),男,河北唐山人,碩士研究生,主要研究方向:多模態(tài)學習、不確定性估計; 張長青(1982—),男,河南安陽人,副教授,博士生導師,博士,CCF會員,主要研究方向:機器學習、模式識別。
TP391.4
A
2023?02?02。
BI Yizhen, born in 1998, M. S. candidate. His research interests include multimodal learning, machine learning.
MA Huan,born in 1998, M. S. candidate. His research interests include multimodal learning, uncertainty estimation.
ZHANG Changqing, born in 1982, Ph. D., associate professor. His research interests include machine learning, pattern recognition.