韋 婷,李馨蕾,劉 慧
上海對外經(jīng)貿(mào)大學(xué) 統(tǒng)計與信息學(xué)院,上海201620
自全卷積網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)[1]提出以來,圖像語義分割技術(shù)飛速發(fā)展,涌現(xiàn)出Deep-Labv3+[2]、Auto-DeepLab[3]、DANet[4]等新型網(wǎng)絡(luò)模型,并在多個領(lǐng)域廣泛應(yīng)用[5]。通常情況下,圖像語義分割任務(wù)的標(biāo)簽是像素級的[6],因此圖像的標(biāo)注需要耗費大量的人力和時間成本。為了克服這一難題,領(lǐng)域內(nèi)大量學(xué)者開始研究如何利用少量的樣本達到同樣的預(yù)測效果。另外,早期方法無法預(yù)測未在訓(xùn)練集中出現(xiàn)的語義類別,這同樣限制了圖像語義模型的跨領(lǐng)域泛化應(yīng)用。為了應(yīng)對以上兩個挑戰(zhàn),元學(xué)習(xí)(meta-learning)[7]方法被提出,其主要思想在于讓機器能夠像人一樣“學(xué)會如何學(xué)習(xí)(learn to learn)”,即僅使用少量有標(biāo)注的訓(xùn)練樣本就可以實現(xiàn)新的(未標(biāo)注的)圖像語義類別預(yù)測。運用該項技術(shù)可以在減輕圖像數(shù)據(jù)標(biāo)注工作量的同時提高模型的泛化能力。
小樣本學(xué)習(xí)(few-shot learning,F(xiàn)SL)[8]正是利用了元學(xué)習(xí)的思想,試圖通過少量標(biāo)注樣本對新類進行預(yù)測,擺脫深度學(xué)習(xí)對大規(guī)模、有標(biāo)注數(shù)據(jù)集的依賴。小樣本學(xué)習(xí)在計算機視覺的目標(biāo)檢測[9]、圖像分類[10]等領(lǐng)域得到了廣泛應(yīng)用。2017年Shaban等人[11]從小樣本圖像分類中受到啟發(fā),提出一個小樣本語義分割(few-shot semantic segmentation,F(xiàn)SS)模型OSLSM(one-shot learning for semantic segmentation method),設(shè)計了經(jīng)典的雙分支結(jié)構(gòu)。同年,原型網(wǎng)絡(luò)(prototype network)[12]被提出,取得良好的性能表現(xiàn),此后大部分工作都基于原型網(wǎng)絡(luò)進行改進創(chuàng)新。近年來,學(xué)者們嘗試在模型中引入注意力(attention)機制[13]、圖神經(jīng)網(wǎng)絡(luò)(graph neural networks,GNN)[14]等結(jié)構(gòu)來優(yōu)化模型性能,為小樣本語義分割的發(fā)展開拓了新思路。
本文旨在介紹近年來小樣本學(xué)習(xí)在語義分割任務(wù)中的發(fā)展,總結(jié)當(dāng)前領(lǐng)域內(nèi)的重要方法及各自的優(yōu)缺點,針對后續(xù)研究方向提出自己的思考。
小樣本語義分割延續(xù)小樣本學(xué)習(xí)的問題設(shè)定。小樣本語義分割旨在應(yīng)對兩個難題:標(biāo)注數(shù)據(jù)集較少和模型的泛化能力不佳。小樣本語義分割在每次訓(xùn)練和測試時都只使用少量樣本,為了提高模型對樣本中未出現(xiàn)的類別(稱為“不可見類”)的預(yù)測能力,模型訓(xùn)練和測試時所用樣本圖像中不包含相同的語義類別。例如訓(xùn)練集中使用貓、狗等類別的樣本時,測試集中不包含這兩種類別[15]。
圖1展示了小樣本語義分割中的數(shù)據(jù)集劃分。小樣本語義分割訓(xùn)練前需將數(shù)據(jù)集分為可見類Dseen和不可見類Dunseen兩個類別不交叉的部分,分別作為訓(xùn)練集和測試集。
圖1 數(shù)據(jù)集劃分Fig.1 Dataset partitioning
小樣本語義分割基于可見類的樣本進行訓(xùn)練,訓(xùn)練中包含多次任務(wù),每次任務(wù)中采用一個由支撐集(support set)和查詢集(query set)構(gòu)成的樣本對(S,Q)。支撐集和查詢集中都包含一張或幾張帶標(biāo)注的樣本圖像,模型從支撐圖像及其標(biāo)注信息中獲取信息進而指導(dǎo)查詢圖像中目標(biāo)區(qū)域的分割。
小樣本語義分割基于不可見類進行測試,測試數(shù)據(jù)集同樣被劃分為支撐集和查詢集,其中,支撐集包含標(biāo)注信息,查詢集不含標(biāo)注信息。訓(xùn)練后的模型通過提取支撐圖像得到的信息來指導(dǎo)分割,檢驗?zāi)P偷念A(yù)測效果。
小樣本語義分割中每個支撐集包含N×K個樣本,其中N表示N個類別(貓、狗等),K表示每個類別有K個樣本,都隨機抽取自訓(xùn)練集;除抽取的N×K個樣本外,查詢集由N個類別剩余的樣本中隨機抽取一部分樣本組成。因此,支撐集和查詢集的數(shù)據(jù)都是來源這N個類別。模型通過學(xué)習(xí)N×K個支撐樣本的特征,預(yù)測查詢圖像中每個像素點所屬的類別,被稱為N-wayK-shot問題[16]。小樣本語義分割的研究中通用1-shot和5-shot數(shù)據(jù)集設(shè)定。早期研究[11]都基于1-way,即學(xué)習(xí)一個類別,直到Dong等人[17]提出2-way 1-shot的分割任務(wù),用不同模塊測量不同對象之間的相似度,從而將1-way問題拓展到N-way。
小樣本語義分割主要采用基于度量學(xué)習(xí)[18]的元學(xué)習(xí)方法[19],利用支撐圖像和查詢圖像的特征向量在高維空間中的距離來預(yù)測圖像中每一個像素點的類別概率。本文按照不同的模型結(jié)構(gòu)將小樣本語義分割方法分為基于孿生神經(jīng)網(wǎng)絡(luò)(siamese neural network)[20]、基于原型網(wǎng)絡(luò)(prototype learning,PL)和基于注意力機制三種類型,如圖2。表1總結(jié)了各類小樣本語義分割方法的優(yōu)缺點。
表1 小樣本語義分割方法總結(jié)Table 1 Summary of few-shot semantic segmentation methods
圖2 小樣本語義分割方法及代表性模型Fig.2 Few-shot semantic segmentation methods and representative models
Bromley等人[26]于20世紀(jì)90年代初提出孿生神經(jīng)網(wǎng)絡(luò),近年來,不少學(xué)者將其引入到小樣本學(xué)習(xí)中,用于小樣本圖像識別[27]等任務(wù)。孿生神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)中,兩個樣本作為“頭部”分別輸入到權(quán)值共享的兩個神經(jīng)網(wǎng)絡(luò)中,神經(jīng)網(wǎng)絡(luò)提取各自的特征向量,并計算兩個特征向量之間的距離或者相似度,根據(jù)距離或相似度判斷其是否屬于同一個類別,進而指導(dǎo)圖像的預(yù)測分割。權(quán)值共享使模型的參數(shù)量減少,復(fù)雜度降低,圖像以成對的方式輸入網(wǎng)絡(luò),也可增加模型的訓(xùn)練數(shù)據(jù)。
以前的監(jiān)督方法在學(xué)習(xí)新類時需要在數(shù)據(jù)集上更新網(wǎng)絡(luò),而孿生神經(jīng)網(wǎng)絡(luò)不需要在大量的數(shù)據(jù)集上訓(xùn)練就可以直接對新類進行分類。孿生神經(jīng)網(wǎng)絡(luò)的這一優(yōu)勢符合小樣本學(xué)習(xí)中的設(shè)定,在小樣本語義分割任務(wù)中表現(xiàn)也較好,使其成為小樣本語義分割中的重要方法?;趯\生神經(jīng)網(wǎng)絡(luò)的小樣本語義分割方法可以分為雙分支結(jié)構(gòu)和單分支結(jié)構(gòu)兩類。雙分支結(jié)構(gòu)簡單,但預(yù)測新類時容易造成過擬合,因此不少工作都在單分支模型的基礎(chǔ)上增加特定的功能模塊以改進模型結(jié)構(gòu)。
2.1.1 雙分支孿生神經(jīng)網(wǎng)絡(luò)模型
雙分支孿生神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖3,一般由兩個分支分別對支撐圖像和查詢圖像提取特征,支撐分支生成的權(quán)重指導(dǎo)查詢分支對預(yù)測圖像進行分割。
圖3 雙分支孿生神經(jīng)網(wǎng)絡(luò)模型Fig.3 Bi-branch siamese neural network model
Shaban等人[11]和Rakelly等人[28]先后采用了雙分支結(jié)構(gòu)的小樣本語義分割模型,為后續(xù)的研究奠定了基礎(chǔ)。但他們的方法較為簡單、模型較為粗糙。Zhang等人[29]巧妙地運用雙分支結(jié)構(gòu)搭建了一個密集比較(dense comparison)模塊,用于比較支撐圖像和查詢圖像的特征。圖像具有多級特征,例如,當(dāng)分割查詢圖像中的狐貍時,高級特征能提供眼睛等特性的信息,中級特征則可以提供比表面紋理更多的信息。該實驗表明僅依賴高級特征會導(dǎo)致模型的預(yù)測能力下降,因此模型中主要比較了圖像的中級特征。然而高級特征和中級特征都有各自的特點,能為小樣本語義分割提供不同級別的信息。因此Tian等人[21]首先通過預(yù)訓(xùn)練模型提取支撐圖像和查詢圖像的高級特征,生成查詢圖像的先驗掩碼(prior mask),再將中級特征與先驗掩碼交互,用于生成精確的預(yù)測結(jié)果。該方法也表明將高級特征與中級特征結(jié)合可以提高模型的分割性能,保留模型的泛化能力,因此這一工作也被后續(xù)許多學(xué)者借鑒[30]。
雙分支結(jié)構(gòu)以數(shù)據(jù)對為輸入,在提取圖像特征時所捕獲的信息有限,而且相同類別的對象在視覺相似的區(qū)域也易產(chǎn)生誤差。因為相同對象類別的圖像在其背景特征中的特征相似度高于實際前景特征,例如不同的魚也許有不同的紋理,但其所處海域等背景具有較高的相似度,所以雙分支結(jié)構(gòu)的孿生神經(jīng)網(wǎng)絡(luò)可通過提取豐富的背景信息得到更多的分割線索[31]。
最近的工作中,BAM(base and the meta)[32]算法在基礎(chǔ)的元學(xué)習(xí)器分支上增加了一個額外的分支(基礎(chǔ)學(xué)習(xí)分支)用于識別圖像中的背景,為網(wǎng)絡(luò)的分割提供更多信息。BAM可以自適應(yīng)地集成這兩個分支并行輸出的粗略結(jié)果,更精確地分割圖像。對于分割出的背景,可以通過場景解析[33]、場景對比[34]的方法,比較支撐圖像和查詢圖像之間的差異,以此來提高模型分割預(yù)測的穩(wěn)定性。
2.1.2 單分支孿生神經(jīng)網(wǎng)絡(luò)模型
雙分支并行的操作雖然可以獲得支撐圖像和查詢圖像在高級特征空間中的信息,但參數(shù)較多[35],在預(yù)測新類別圖像時更易過擬合。因此,一些學(xué)者[36]提出了單分支孿生神經(jīng)網(wǎng)絡(luò)的方法,其模型結(jié)構(gòu)如圖4,通常在基礎(chǔ)模型上增加特定的功能模塊來優(yōu)化模型的性能。
圖4 單分支孿生神經(jīng)網(wǎng)絡(luò)模型Fig.4 Single-branch siamese neural network model
雙分支孿生神經(jīng)網(wǎng)絡(luò)在比較支撐圖像和查詢圖像之間的特征時往往采用簡單的乘法計算,Zhang等人[22]認(rèn)為計算支撐圖像和查詢圖像的特征之間的像素相似性可以更有效地指導(dǎo)查詢圖像的分割,并提出相似性引導(dǎo)網(wǎng)絡(luò)SG-One(similarity guidance)。該網(wǎng)絡(luò)主要運用全局平均池化(global average pooling,GAP)方法,其思想是:背景像素的嵌入和目標(biāo)區(qū)域像素的嵌入在高維空間中的距離通常較遠(yuǎn),通過對支撐圖像中目標(biāo)區(qū)域的特征進行平均并提取代表向量,可以排除背景噪聲的影響。這一方法可以有效緩解模型過擬合的問題,已成為小樣本語義分割中的通用技術(shù)。但由于不同支撐圖像的質(zhì)量不盡相同,全局平均池化對所有支撐圖像提取同等信息時會遺漏部分重要的信息。通過對支撐集的初始原型做出初始預(yù)測,將所覆蓋和未覆蓋的前景區(qū)域分別編碼到主要和輔助支撐向量并聚合[37],可以改善多張支撐圖像平均融合的問題,使高質(zhì)量的支撐圖像在分割預(yù)測時能提供更多信息,從而使分割的結(jié)果更加精確。
綜上所述,由于孿生神經(jīng)網(wǎng)絡(luò)的設(shè)定適用于小樣本的情況,使其成為小樣本語義分割任務(wù)中的重要方法。雙分支孿生神經(jīng)網(wǎng)絡(luò)模型通常具有兩個分支,分別處理支撐圖像與查詢圖像,將其以數(shù)據(jù)對的形式輸入模型中,結(jié)構(gòu)較為簡單,同時參數(shù)量較多,計算成本較高,容易造成過擬合的問題;單分支結(jié)構(gòu)的孿生神經(jīng)網(wǎng)絡(luò)模型更加靈活,參數(shù)量較少,可以通過增加特定的功能模塊來優(yōu)化模型的性能。兩者在多樣本情況下效率較低,更加適用于類別數(shù)較多,樣本數(shù)量較少時的情況。
Snell等人[12]于2017年提出原型網(wǎng)絡(luò),這是一種具有代表性的小樣本學(xué)習(xí)方法。如圖5所示,該方法首先計算支撐集中每種類別所有樣本的嵌入中心,將其作為該類樣本的原型,然后將各個類別的原型映射到一個度量空間,計算測試樣本的嵌入向量與各個類別的原型在度量空間的距離并進行比較,選擇與測試樣本更接近的類別用于指導(dǎo)分割測試樣本。
圖6展示了基于原型網(wǎng)絡(luò)的小樣本圖像語義分割網(wǎng)絡(luò)框架?;谠途W(wǎng)絡(luò)的模型一般先通過骨干網(wǎng)絡(luò)提取支撐集中各類別樣本的原型(單原型或多原型),然后運用度量函數(shù)(如余弦函數(shù)、歐氏距離等)計算查詢圖像與原型在高維空間中的距離或相似度,根據(jù)該距離或相似度指導(dǎo)分割查詢圖像。
圖6 基于原型網(wǎng)絡(luò)的小樣本語義分割模型Fig.6 Few-shot semantic segmentation model based on prototype network
基于原型網(wǎng)絡(luò)的模型通常采用全局平均池化計算支撐圖像特征的原型,有的方法[38]也會通過計算查詢圖像的原型反向指導(dǎo)分割支撐圖像,以此優(yōu)化模型。本節(jié)將基于原型網(wǎng)絡(luò)的小樣本語義分割方法分為單原型方法和多原型方法兩類分別介紹。
2.2.1 單原型網(wǎng)絡(luò)模型
Dong等人[17]首次在語義分割任務(wù)中引入單原型網(wǎng)絡(luò)方法。該方法提取的特征具有魯棒性,但在合并來自查詢分支的原型和特征圖時會忽略掉一些低級特征,無法捕獲完整的、不同級別的語義信息[24]。當(dāng)支撐圖像和查詢圖像的對象存在較大差異時,這一問題更加明顯。低級特征可提供表面紋理等信息,在分割任務(wù)中不可或缺。可以在得到整體原型的基礎(chǔ)上,通過分解整體原型得到部分前景和背景原型,由此獲得更加多樣化和細(xì)粒度的樣本特征[39]。
2.2.2 多原型網(wǎng)絡(luò)模型
采用多原型的網(wǎng)絡(luò)模型通常會將圖像的特征濃縮為幾個原型特征向量。由于測試數(shù)據(jù)是沒有出現(xiàn)在訓(xùn)練集中的新類別,支撐圖像和查詢圖像之間的外觀和形狀通常存在較大差異,即類間差異。多原型方法可以通過結(jié)合更多區(qū)域原型以更好地應(yīng)對這一差異[40]。
除此以外,當(dāng)圖像中的目標(biāo)所占范圍較小,背景所占比例較大時,只需單個或少量原型就可以提取足夠的信息;但當(dāng)一個目標(biāo)占據(jù)圖像的大部分時,圖像攜帶的信息較多,需要更多的原型來提供這些必要信息。PMMs[23](prototype mixture models)方法中運用EM算法[41]分別計算前景和背景的原型,關(guān)聯(lián)多個原型的圖像區(qū)域,為模型的分割提供了通道信息和空間語義信息。但PMMs方法仍然存在語義混疊問題,導(dǎo)致一部分目標(biāo)區(qū)域被錯誤分割。語義混疊問題是由度量學(xué)習(xí)中的特征共享機制所引起的,SST[42]和SimProp[31]算法分別采用自監(jiān)督微調(diào)和相似性傳播的方法,利用特定類別的語義約束來應(yīng)對語義混疊問題。但當(dāng)背景類別的特征之間的正交性沒有被考慮到時,這兩類方法都會遇到阻礙[43]。
原型網(wǎng)絡(luò)是小樣本語義分割任務(wù)中的重要方法?;谠途W(wǎng)絡(luò)的小樣本語義分割方法具有計算簡單、穩(wěn)定性較好的優(yōu)點。但其提取原型向量時容易丟失部分的空間信息,造成信息的不完整。同時,基于原型網(wǎng)絡(luò)的小樣本語義分割方法也難以適應(yīng)不同圖像的外觀、形狀等,在對目標(biāo)區(qū)域的邊界進行分割時也不夠精確。通過分解整體原型或?qū)D像的多個區(qū)域提取多個原型可以在一定程度上緩解上述問題。
人在觀察一張圖像時,會首先注意到重要的部分,然后才會給予其余部分少量關(guān)注。注意力機制[25]正是來自這一靈感。根據(jù)不同的任務(wù),注意力機制會給予輸入的每個部分不同的權(quán)重,重點提取關(guān)鍵信息,忽略無關(guān)信息[44]。注意力機制在圖像分類[45]、行人檢測[46]等多個任務(wù)中都有廣泛應(yīng)用。小樣本語義分割任務(wù)中的注意力機制常用于解決支撐集樣本間的信息融合[29]等問題。圖7展示了一般基于注意力機制的小樣本語義分割方法的模型結(jié)構(gòu),主要由編碼器和解碼器組成。編碼器通過卷積等操作提取圖像的特征,解碼器則用于將圖像恢復(fù)至原始分辨率[47]。
圖7 基于注意力機制的小樣本語義分割模型Fig.7 Few-shot semantic segmentation model based on attention mechanism
現(xiàn)有的大部分工作只考慮到了圖像的全局信息,僅有少部分[48]考慮到局部信息。局部信息的丟失會導(dǎo)致模型無法實現(xiàn)更精細(xì)的分割[49]?;谧⒁饬C制的方法通常會提取到圖像中重要的局部信息,并結(jié)合不同區(qū)域信息,減少重要信息的遺漏。不同于只關(guān)注重要的信息,Wang等人[24]采用民主的方法建立支撐圖像和查詢圖像之間的對應(yīng)關(guān)系。通過抑制高權(quán)重像素間的連接,增強低權(quán)重像素間的連接,使目標(biāo)區(qū)域中的像素都能參與訓(xùn)練中。因此,網(wǎng)絡(luò)可以將更多目標(biāo)區(qū)域的信息從支撐圖像引導(dǎo)到查詢圖像中,增強其對新類圖像進行分割時的魯棒性和泛化能力。但是這一方法計算量較大,也無法應(yīng)對注意力機制無法捕獲圖像的位置信息[50]的問題。
也有一些工作通過注意力機制提取支撐集和查詢集的特征,在此基礎(chǔ)上交換查詢圖像和支撐圖像的信息[51]或?qū)⒅渭?xùn)練的分類器的權(quán)重動態(tài)地調(diào)整到各個查詢圖像[52],以此來應(yīng)對類內(nèi)差距和類間差距,幫助訓(xùn)練好的模型更好地適應(yīng)新類。
綜上所述,基于注意力機制的小樣本語義分割方法可以捕捉到更多的上下文信息,提取有效的局部信息,因此注意力機制成為激活支撐圖像和查詢圖像的重要方法。盡管相較于基于原型網(wǎng)絡(luò)的方法,基于注意力機制的小樣本語義分割方法探索了多級特征之間的相關(guān)性,為圖像的分割提供了更多信息,但它們僅在一小部分中間卷積層建立了特征的相關(guān)性,因此仍然具有局限性[53]。
當(dāng)前小樣本語義分割的研究中有兩類常用數(shù)據(jù)集,自然數(shù)據(jù)集和醫(yī)學(xué)圖像數(shù)據(jù)集,自然數(shù)據(jù)集用于學(xué)術(shù)研究,醫(yī)學(xué)圖像數(shù)據(jù)集用于醫(yī)學(xué)研究。表2簡要匯總了各個數(shù)據(jù)集的相關(guān)信息,其中自然數(shù)據(jù)集的年份采用首次應(yīng)用于小樣本語義分割研究中的年份。自然數(shù)據(jù)集主要有三個,PASCAL-5i[11]、COCO-20i[36]和FSS-1000[54];醫(yī)學(xué)圖像數(shù)據(jù)集主要來自醫(yī)學(xué)樣本和一些醫(yī)學(xué)相關(guān)挑戰(zhàn)賽,分別為ISIC[55]、PH2[56]、Abd-CT[57]和Abd-MRI[58]四個數(shù)據(jù)集,下文將對這些數(shù)據(jù)集作詳細(xì)說明。
表2 小樣本語義分割數(shù)據(jù)集Table 2 Few-shot semantic segmentation datasets
3.1.1 自然數(shù)據(jù)集
自然數(shù)據(jù)集包含PASCAL-5i[11]、COCO-20i[36]和FSS-1000[54],其示例如圖8所示。
圖8 自然數(shù)據(jù)集示例Fig.8 Nature dataset examples
PASCAL-5i[11]包含PASCAL VOC 2012[59]的圖像、標(biāo)注,以及SBD[60]的擴展標(biāo)注,其標(biāo)注的語義信息包含飛機、自行車、狗、貓等20個類別,將其平均分為4個集合,每個集合包含5個類別。每次實驗時選取其中3個集合共15個類別作為訓(xùn)練集,剩余5個類別作為測試集。實驗時一般會從測試集中隨機抽樣1 000個支撐查詢數(shù)據(jù)對。
COCO-20i[36]使用MSCOCO[61]數(shù)據(jù)集,圖片更加生活化,背景中包含更多物體,部分圖像的尺寸比PASCAL-5i更小。COCO-20i一共包含80個類別,平均分為4個集合,每個集合包含20個類別。
FSS-1000[54]數(shù)據(jù)集包含1 000個類別,每個類別10張樣本,其中584個類別來自ILSVRC[62]數(shù)據(jù)集,剩余類別來自網(wǎng)絡(luò)。圖像的類別非常豐富,包含常見的大部分物品,如建筑、樂器、工具、水果、電子設(shè)備等。
3.1.2 醫(yī)學(xué)圖像數(shù)據(jù)集
根據(jù)小樣本語義分割在醫(yī)學(xué)圖像中的相關(guān)研究,常用的有ISIC[55]、PH2[56]、Abd-CT[57]和Abd-MRI[58]四類數(shù)據(jù)集,其示例如圖9所示。
圖9 醫(yī)學(xué)圖像數(shù)據(jù)集示例Fig.9 Medical image dataset examples
ISIC[55]來自2018國際皮膚影像協(xié)作大挑戰(zhàn)賽。數(shù)據(jù)集分為3個任務(wù),第1、2類任務(wù)的訓(xùn)練集包含2 594張RGB皮膚鏡圖像,每張圖像有5張標(biāo)注,測試集包含1 000張圖像;第3類任務(wù)的訓(xùn)練集包含10 015張圖像和對應(yīng)的圖像標(biāo)注,測試集包含1 512張圖像。目前ISIC有2016至2020年5個版本。
PH2[56]來自Pedro Hispano醫(yī)院皮膚科服務(wù)處。數(shù)據(jù)集包含200張黑色素細(xì)胞病變的RGB皮膚鏡圖像。
Abd-CT[57]來自MICCAI 2015多圖集腹部標(biāo)簽挑戰(zhàn)賽,是一個臨床數(shù)據(jù)集,包含30個3D腹部CT掃描圖像。
Abd-MRI[58]來自ISBI 2019聯(lián)合健康腹部器官分割挑戰(zhàn)賽,包含20個3D T2-SPIR MRI掃描圖像。
小樣本語義分割中常用平均交并比[10](mean intersection over union,MIoU)和前景背景交并比[28](foregroundbackgroud intersection over union,F(xiàn)BIoU)兩個指標(biāo)比較模型的分割精度。
交并比[63]指預(yù)測區(qū)域和真實區(qū)域中交集與并集的比值,數(shù)值越大說明模型預(yù)測結(jié)果越接近真實值。小樣本語義分割中定義語義類別i的交并比IoUi為:
其中,F(xiàn)P(false positive)、FN(false negetive)、TP(true positive)分別表示預(yù)測結(jié)果中假陽性(預(yù)測為語義類別i的部分,實際為背景)、假陰性(預(yù)測為背景,但實際屬于語義類別i的部分)和真陽性(預(yù)測和實際都屬于語義類別i)的個數(shù)。
本節(jié)從參數(shù)量及精度兩個角度比較各算法的性能。表3總結(jié)了部分算法的參數(shù)量,從表中可以看出,基于孿生神經(jīng)網(wǎng)絡(luò)的方法的訓(xùn)練過程通常分為兩個階段,即預(yù)訓(xùn)練和元訓(xùn)練。在第一個階段會采用標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)方式訓(xùn)練基礎(chǔ)學(xué)習(xí)器,第二個階段采用元學(xué)習(xí)的方式結(jié)合元學(xué)習(xí)器與其他模塊進行訓(xùn)練,參數(shù)在這個階段數(shù)量是固定的。兩個學(xué)習(xí)器共享相同的編碼器來提取輸入圖像的特征,也可減少參數(shù)量。因此該類方法可有效控制參數(shù)數(shù)量。
表3 各算法的參數(shù)量Table 3 Parameters of each algorithm
由于FSS-1000數(shù)據(jù)集于2020年被提出,相關(guān)實驗數(shù)據(jù)較少,因此本節(jié)分組總結(jié)了各方法具有代表性的幾個算法在PASCAL-5i、COCO-20i兩個自然數(shù)據(jù)集上的性能。本節(jié)采用平均交并比和前景背景交并比兩類評估指標(biāo)評估各算法的精確性。由于不同類別的測試樣本數(shù)量并不平衡,前景背景交并比忽略了類別的差異,會使預(yù)測結(jié)果更多地偏向于某一類別,平均交并比則可以有效地表現(xiàn)出不同類別的分割結(jié)果,因此平均交并比值得重點關(guān)注。
表4總結(jié)了各算法在COCO-20i數(shù)據(jù)集上的表現(xiàn),各實驗通常采用ResNet50和ResNet101兩個常見的骨干網(wǎng)絡(luò)進行測試,加粗部分表示相應(yīng)設(shè)置下的最優(yōu)結(jié)果。可以看出BAM[31]在1shot、5shot實驗中的平均交并比最高,分別為46.2、51.1。PFENet[21]和ASGNet[40]分別在1shot、5shot實驗中的前景背景交并比最優(yōu)。由于COCO-20i數(shù)據(jù)集的背景更加復(fù)雜,類別更加豐富,因此分割的難度也較大,算法的分割精度不高。表5歸納了各算法在PASCAL-5i數(shù)據(jù)集上的表現(xiàn),并補充了部分算法基于VGG16測試的結(jié)果,加粗部分表示相應(yīng)設(shè)置下的最優(yōu)結(jié)果??梢钥闯鯞AM[31]在1shot、5shot實驗中的平均交并比和前景背景交并比都是最高的,主要原因可能是由于,BAM算法運用PSPNet[33]有效地結(jié)合背景信息,為分割提供了更多線索,并采用ASPP[64]取代PFENet[21]中的FEM模塊以降低復(fù)雜性。同時可以看出基于孿生神經(jīng)網(wǎng)絡(luò)的方法都有較為穩(wěn)定的表現(xiàn)。
表4 各算法在COCO-20i數(shù)據(jù)集上的表現(xiàn)Table 4 Performance of each algorithm on COCO-20i dataset
表5 各算法在PASCAL-5i數(shù)據(jù)集上的表現(xiàn)Table 5 Performance of each algorithm on PASCAL-5i dataset
結(jié)合各算法在兩類數(shù)據(jù)集上的表現(xiàn),基于孿生神經(jīng)網(wǎng)絡(luò)的方法在小樣本語義分割任務(wù)中的相關(guān)研究更早也更多,也是目前較穩(wěn)定的方法?;趯\生神經(jīng)網(wǎng)絡(luò)的方法將樣本對作為輸入計算樣本間的相似度,更能對特征進行比較,同時結(jié)合特征融合等模塊,可以獲得更多尺度的信息。基于原型網(wǎng)絡(luò)的小樣本語義分割方法則側(cè)重于獲取更具代表性的特征向量,模型效果趨于穩(wěn)定,但對于邊界、小物體的分割則不夠精細(xì)?;谧⒁饬C制的方法在獲取上下文信息時更有優(yōu)勢,分割時可提供更多的信息。
小樣本語義分割可應(yīng)用于醫(yī)學(xué)圖像、點云圖像和遙感圖像等領(lǐng)域。
(1)醫(yī)學(xué)圖像領(lǐng)域。小樣本語義分割在醫(yī)學(xué)圖像的應(yīng)用中有巨大潛力,一般通過訓(xùn)練高性能的模型來完成分割任務(wù),但訓(xùn)練高性能模型需要大量像素級的標(biāo)注樣本,在某些罕見疾病的研究中可能難以獲得,因此小樣本語義分割的方法有極大的研究價值[65]。當(dāng)前小樣本語義分割在醫(yī)學(xué)圖像的應(yīng)用還不算太多,而且在少量數(shù)據(jù)條件下訓(xùn)練小樣本語義分割模型會大大增加過擬合的風(fēng)險。因此,相關(guān)問題還有待研究與解決。目前,也有越來越多自監(jiān)督[66]、半監(jiān)督[67]框架被提出,以改進小樣本語義分割模型中的過擬合問題。但總體而言,小樣本語義分割在醫(yī)學(xué)圖像的應(yīng)用上仍存在缺乏標(biāo)注、模型過擬合等難題亟待解決。
(2)3D點云圖像領(lǐng)域。3D點云分割的任務(wù)是指將特定的點云按照不同的語義類別劃分為不同的子集,這需要了解圖像全局的幾何結(jié)構(gòu)和每個點的細(xì)粒度細(xì)節(jié)。盡管目前處理點云圖的語義分割方法有很多[68],但是完全監(jiān)督的點云分割網(wǎng)絡(luò)通常需要大量帶有標(biāo)注的數(shù)據(jù),獲取成本很高,所以相關(guān)研究仍缺乏完善的、大規(guī)模的3D點云數(shù)據(jù)集。Chen等人[69]提出了組合原型網(wǎng)絡(luò),為小樣本語義分割在點云圖上的研究做出了突破。未來如何運用小樣本學(xué)習(xí)方法對3D點云圖像精細(xì)分割的課題十分具有研究價值。
(3)遙感圖像領(lǐng)域。遙感圖像中的語義分割任務(wù)主要是將圖像中的地理空間目標(biāo),如船舶、車輛等從背景中分割出來。遙感圖像的分割對城市的規(guī)劃和管理有重要意義。但是遙感圖像的獲取并不容易,標(biāo)注工作也需消耗極大成本。目前已有一些學(xué)者[70]研究小樣本語義分割在遙感圖像上的應(yīng)用,試圖通過少量標(biāo)注樣本指導(dǎo)新類遙感圖像的分割,并取得了一定的成果。但目前遙感圖像領(lǐng)域的小樣本語義分割網(wǎng)絡(luò)模型都較為復(fù)雜,未來可以向著精簡網(wǎng)絡(luò)結(jié)構(gòu)的方向展開研究。
當(dāng)前小樣本語義分割的主要應(yīng)用領(lǐng)域還是在醫(yī)學(xué)圖像等領(lǐng)域,未來有望向更多的生活、工業(yè)應(yīng)用場景,如違禁品檢測[71]、設(shè)備缺陷檢測[72]等展開研究。
(1)理論方向。不同于小樣本圖像分類[73]和小樣本目標(biāo)檢測[74]任務(wù),小樣本語義分割任務(wù)不僅需要分類信息,還需要精確到像素級別的位置信息。盡管小樣本學(xué)習(xí)已經(jīng)在上述視覺任務(wù)中有了一些較為成熟的發(fā)展和相關(guān)的理論依據(jù),但僅依賴現(xiàn)有的小樣本學(xué)習(xí)理論并不足以支撐小樣本語義分割任務(wù)的研究。因此,只有將小樣本學(xué)習(xí)的相關(guān)理論與語義分割理論結(jié)合起來,才能為后續(xù)小樣本語義分割的研究提供科學(xué)的理論基礎(chǔ)。例如,如何結(jié)合全局信息和局部信息,為分割提供更加精確的位置信息;如何有效抑制背景類別,提高網(wǎng)絡(luò)的分割精度;以及如何在小樣本的情形下增強模型的泛化能力等。
(2)基于圖神經(jīng)網(wǎng)絡(luò)的小樣本語義分割。圖神經(jīng)網(wǎng)絡(luò)[75]是目前備受關(guān)注的深度學(xué)習(xí)方法之一。相較于卷積神經(jīng)網(wǎng)絡(luò)常用于處理歐幾里德空間的結(jié)構(gòu)數(shù)據(jù),圖神經(jīng)網(wǎng)絡(luò)更擅長處理非歐幾里德空間的結(jié)構(gòu)數(shù)據(jù)(如社交網(wǎng)絡(luò)、交通網(wǎng)絡(luò)等)[76]。語義分割任務(wù)在于預(yù)測圖像中的每一個像素點的類別,但圖像中的目標(biāo)區(qū)域往往不是規(guī)律的網(wǎng)格形狀,而且分割預(yù)測時需要考慮到全局信息,所以卷積神經(jīng)網(wǎng)絡(luò)在完成語義分割任務(wù)時具有局限性。圖神經(jīng)網(wǎng)絡(luò)具有融合更多結(jié)構(gòu)信息的優(yōu)點,可以捕捉到圖像中目標(biāo)的變化,如比例、外觀和空間位置等,指導(dǎo)更精確的分割預(yù)測[77],因此可以將其引入到語義分割任務(wù)中?;趫D神經(jīng)網(wǎng)絡(luò)的小樣本語義分割方法[78]研究工作較新,也存一些問題需要進一步研究與探索[79]。
(3)輕量級模型。當(dāng)前很多小樣本語義分割算法都達到了較好的分割效果,但在實際應(yīng)用中一些模型需要占用較多資源,限制了其應(yīng)用。這其中的原因就包括當(dāng)前的算法模型大多較為復(fù)雜,參數(shù)量也較大。所以不少學(xué)者開始研究更為輕量級的模型,在盡可能保證網(wǎng)絡(luò)同等表現(xiàn)的情況下減少參數(shù)的數(shù)目,從而使網(wǎng)絡(luò)更加高效[80]。因此,未來的小樣本語義分割研究可向著更輕量級、可適用于現(xiàn)實場景的方向展開。
本文對當(dāng)前小樣本語義分割的相關(guān)研究做了歸納和總結(jié),當(dāng)前小樣本語義分割的方法主要采用基于度量學(xué)習(xí)的元學(xué)習(xí)方法,可將研究方法按照不同的模型結(jié)構(gòu)劃分為基于孿生神經(jīng)網(wǎng)絡(luò)、基于原型網(wǎng)絡(luò)和基于注意力機制三大類。本文總結(jié)了上述方法的主要思想,并介紹了其各自的優(yōu)缺點。本文還總結(jié)了小樣本語義分割研究中各領(lǐng)域常用的數(shù)據(jù)集,包括自然數(shù)據(jù)集和醫(yī)學(xué)圖像數(shù)據(jù)集,并歸納了這些數(shù)據(jù)集的特點及類別等。此外,本文還總結(jié)了當(dāng)前小樣本語義分割的潛在應(yīng)用領(lǐng)域及未來的發(fā)展方向。