黃琪,左劼,孫頻捷
(1.四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065;2.上海政法學(xué)院,上海200000)
在過(guò)去的十年間,神經(jīng)網(wǎng)絡(luò)在醫(yī)療圖像識(shí)別領(lǐng)域得到了普遍的應(yīng)用。大量利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練得到的模型在數(shù)據(jù)集上的表現(xiàn)都接近或超過(guò)了人類(lèi)專(zhuān)家的水平。同時(shí)人們逐漸發(fā)現(xiàn)限制神經(jīng)網(wǎng)絡(luò)在醫(yī)療圖像識(shí)別中的進(jìn)一步發(fā)展的關(guān)鍵因素是精細(xì)標(biāo)注數(shù)據(jù)的缺失[1]。在醫(yī)療圖像識(shí)別領(lǐng)域,精細(xì)標(biāo)注的數(shù)據(jù)是非常珍貴的,因?yàn)檫@往往需要多名醫(yī)療專(zhuān)家進(jìn)行長(zhǎng)時(shí)間的標(biāo)注工作,耗時(shí)耗力。精細(xì)標(biāo)注數(shù)據(jù)的缺失要求人們使用傳統(tǒng)的有監(jiān)督學(xué)習(xí)之外的方法,以此對(duì)缺乏精細(xì)標(biāo)注的數(shù)據(jù)進(jìn)行學(xué)習(xí)。多實(shí)例學(xué)習(xí)就是其中的一種方法。
多實(shí)例學(xué)習(xí)介于無(wú)監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)之間:利用多實(shí)例學(xué)習(xí),在缺乏針對(duì)醫(yī)療圖像的精細(xì)標(biāo)注的情況下,即只利用較弱標(biāo)簽來(lái)進(jìn)行訓(xùn)練,也可以接近或達(dá)到擁有精細(xì)標(biāo)注的有監(jiān)督學(xué)習(xí)的效果。
多實(shí)例學(xué)習(xí)往往應(yīng)用于這樣的場(chǎng)景:醫(yī)療圖像局部的標(biāo)注是耗時(shí)耗力或者無(wú)法獲得的,但是全局的標(biāo)注是相對(duì)容易獲得的[2]。多實(shí)例學(xué)習(xí)將一個(gè)醫(yī)療圖像的樣本視為一個(gè)包,而每一個(gè)包中包含了多個(gè)實(shí)例。專(zhuān)家并不需要對(duì)包中的每個(gè)實(shí)例進(jìn)行標(biāo)注,而只需要對(duì)整個(gè)包進(jìn)行標(biāo)注。這樣的做法極大降低了對(duì)人力標(biāo)注的要求。
更加具體地說(shuō),我們將一個(gè)包認(rèn)為是多個(gè)實(shí)例的集合。我們用Xi表示某一個(gè)包,用xij?表示其中的一個(gè)實(shí)例,包中一共有Ni個(gè)實(shí)例,即有:Xi={xij|j=1,…,Ni}。對(duì)于多實(shí)例學(xué)習(xí),為每一個(gè)包Xi賦予一個(gè)標(biāo)注Yi,假設(shè)共有m 個(gè)包,那么有{(Xi,Yi)|i=1,…,m}。在多實(shí)例學(xué)習(xí)中,通常我們假設(shè),如果一個(gè)包中含有至少一個(gè)實(shí)例是陽(yáng)性的,那么我們認(rèn)為這個(gè)包就是陽(yáng)性的,否則是陰性。
根據(jù)處理任務(wù)的不同,傳統(tǒng)的多實(shí)例學(xué)習(xí)往往分為兩類(lèi):第一類(lèi)多實(shí)例學(xué)習(xí)方法認(rèn)為圖像中的表示標(biāo)簽信息的部分在實(shí)例上,即模型不應(yīng)該聚焦在整個(gè)圖像上,而是應(yīng)該關(guān)注圖像中的某一部分,這一部分是具有分辨力的,是帶有整圖像的標(biāo)簽信息的;第二類(lèi)多實(shí)例學(xué)習(xí)方法則針對(duì)圖像的標(biāo)簽信息是基于整個(gè)圖像的。
多實(shí)例學(xué)習(xí)的工作最早起源于針對(duì)藥物分子結(jié)構(gòu)的識(shí)別[3]。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,大量基于多實(shí)例學(xué)習(xí)的方法被提出。這里我們簡(jiǎn)單地將這些方法分為兩類(lèi):第一類(lèi)是全局檢測(cè),即針對(duì)一個(gè)醫(yī)療圖像,我們需要得到一個(gè)基于全局圖片(包)的預(yù)測(cè)結(jié)果;第二類(lèi)是局部檢測(cè),即針對(duì)一個(gè)醫(yī)療圖像,我們只需要圖片其中一部分(實(shí)例)即可得到預(yù)測(cè)結(jié)果。
局部檢測(cè)的應(yīng)用場(chǎng)景是,整個(gè)醫(yī)療圖像中只有一部分具有我們需要識(shí)別的信息。即圖像中的大部分是不帶有我們所需要的信息的。
例如在乳腺癌識(shí)別的任務(wù)中[4],為了識(shí)別乳腺癌X光圖片中的少量結(jié)塊(占比低于2%),作者設(shè)計(jì)了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的端到端的模型來(lái)學(xué)習(xí)。首先該方法利用Otsu’s 方法,將圖片進(jìn)行分割,以此來(lái)移除背景區(qū)域,并將圖片統(tǒng)一尺寸。緊接著利用多實(shí)例學(xué)習(xí),獲取了不同的實(shí)例所產(chǎn)生的不同的響應(yīng)概率,并將其進(jìn)行排序。同時(shí),該方法設(shè)計(jì)了三種不同的多實(shí)例損失函數(shù)進(jìn)行學(xué)習(xí)。第一種是利用最大池化操作,挑選出響應(yīng)概率最高的實(shí)例,并將整個(gè)包的標(biāo)簽賦予該實(shí)例進(jìn)行學(xué)習(xí),這種方法利用了傳統(tǒng)的多實(shí)例學(xué)習(xí)的思想,即如果一個(gè)包中的某一個(gè)實(shí)例是陽(yáng)性的,那么整個(gè)包都是陽(yáng)性的。具體到該任務(wù),如果是陰性的乳腺癌圖片,那么我們認(rèn)為所有的實(shí)例都是陰性的,如果是陽(yáng)性的乳腺癌圖片,那么至少有一個(gè)實(shí)例應(yīng)該是陽(yáng)性的。因此很容易想到,將實(shí)例中最大陽(yáng)性概率響應(yīng)的實(shí)例賦予陽(yáng)性的標(biāo)簽。第二種方法利用標(biāo)簽分配的操作,不同于方法一中只為一個(gè)包中的某一個(gè)實(shí)例賦予標(biāo)簽,方法二為同一個(gè)包中的多個(gè)實(shí)例賦予標(biāo)簽,進(jìn)行學(xué)習(xí)。具體來(lái)說(shuō),我們將某一個(gè)包中的所有實(shí)例按照響應(yīng)概率進(jìn)行排序,并選擇靠前的多個(gè)實(shí)例賦予陽(yáng)性標(biāo)簽進(jìn)行學(xué)習(xí)。第三種方法實(shí)際上是前兩種方法的折中,引入一個(gè)稀疏因子,表示該實(shí)例的重要性和整個(gè)包稀疏性的一個(gè)權(quán)衡,對(duì)于良性的實(shí)例,我們希望它的響應(yīng)概率接近0,對(duì)于惡性的實(shí)例,我們希望它能顯示出乳腺癌的真正標(biāo)簽。多實(shí)例學(xué)習(xí)在局部檢測(cè)中的一大難點(diǎn)就是如何找到帶有標(biāo)簽信息的實(shí)例,而該論文提出的三個(gè)不同的loss 就是根據(jù)不同的思想,將圖像的標(biāo)簽合理的分配到各個(gè)實(shí)例上,三個(gè)方法依次遞進(jìn),使得模型學(xué)習(xí)更加準(zhǔn)確。
又例如在識(shí)別不同類(lèi)別的人體切片任務(wù)中[5],作者發(fā)現(xiàn)有的類(lèi)別之間圖片極其相似,圖片之間只有及其細(xì)微的地方才能看到差異。因此作者設(shè)計(jì)了一個(gè)兩階段的神經(jīng)網(wǎng)絡(luò)來(lái)找到圖片(包)中最具有分辨信息的實(shí)例。在第一階段里,使用最大池化操作保證每個(gè)包中只有一個(gè)最大響應(yīng)的實(shí)例訓(xùn)練網(wǎng)絡(luò),即認(rèn)為最大響應(yīng)的實(shí)例是我們所需要的,也是和標(biāo)注吻合的。在這一階段中,模型前向傳播使用的數(shù)據(jù)是全部的數(shù)據(jù)中的實(shí)例,但是其反向傳播使用的是某一個(gè)包中的最大響應(yīng)概率的實(shí)例。然后在第二階段中,該方法重構(gòu)了數(shù)據(jù)集:首先將第一階段中全部的高響應(yīng)實(shí)例抽取出來(lái),同時(shí)挑選了部分響應(yīng)概率較低的實(shí)例,作為一個(gè)新的類(lèi)別,并認(rèn)為該類(lèi)實(shí)例屬于無(wú)標(biāo)簽信息的實(shí)例,然后繼續(xù)訓(xùn)練網(wǎng)絡(luò)??梢园l(fā)現(xiàn),該方法在沒(méi)有精細(xì)標(biāo)注的情況下,成功識(shí)別出了圖像中具有信息的和不具有信息的實(shí)例,同時(shí)根據(jù)這些實(shí)例,成功識(shí)別出了不同的人體切片。
利用多實(shí)例學(xué)習(xí)進(jìn)行全局檢測(cè),得到整個(gè)醫(yī)療圖像的一個(gè)全局預(yù)測(cè)的場(chǎng)景是更加常見(jiàn)的。因此針對(duì)多實(shí)例學(xué)習(xí)進(jìn)行全局檢測(cè)的方法也更多。
在異質(zhì)圖片檢測(cè)的任務(wù)中[6],隨機(jī)的從原始醫(yī)療圖像中選擇一部分,將其提取出來(lái)后,利用前景的標(biāo)注信息,去除背景中無(wú)用的部分。使用平均池化的操作將所有的實(shí)例平等的納入考慮,即針對(duì)包中的所有實(shí)例都進(jìn)行訓(xùn)練,提高模型的魯棒性,對(duì)比使用最大池化操作,只訓(xùn)練某一個(gè)實(shí)例的效果提升明顯。同時(shí)聚合結(jié)果時(shí)并不是將多個(gè)實(shí)例的結(jié)果壓縮為一個(gè)單獨(dú)的數(shù)字,而是使用了分位數(shù)聚集的方法,獲得了更全面的信息。當(dāng)然該方法限制較多,例如該論文使用了圖片的前景標(biāo)注,提取出了圖片中具有信息的部分,保證了挑選出來(lái)的實(shí)例都是前景圖片。同時(shí)這個(gè)工作是假設(shè)所有選擇的樣本都是帶有某種標(biāo)簽特征的樣本,訓(xùn)練的時(shí)候?yàn)樗袠颖举x予相同的權(quán)重,在某些任務(wù)中,該假設(shè)可能并不適用。
在更加復(fù)雜的病理圖像識(shí)別任務(wù)中[7],由于病理圖像尺寸非常巨大,往往能達(dá)到數(shù)億個(gè)像素。因此在這樣的圖像上進(jìn)行精細(xì)的標(biāo)注是非常耗時(shí)耗力的。作者基于這樣的考慮,設(shè)計(jì)了一套軟件標(biāo)注系統(tǒng)。該系統(tǒng)根據(jù)標(biāo)注專(zhuān)家在圖像上的縮放比例、停留時(shí)間、平移速度等信息,將整個(gè)巨大的醫(yī)療圖像的一部分選取為我們感興趣的實(shí)例。這樣的實(shí)例選擇方法在病理圖像中非常實(shí)用,首先病理圖像極其巨大,即使劃分為多個(gè)更小的實(shí)例,仍然會(huì)有大量的實(shí)例產(chǎn)生,不管是利用傳統(tǒng)機(jī)器學(xué)習(xí)的方法,還是利用神經(jīng)網(wǎng)絡(luò),計(jì)算量都非常巨大。而利用該系統(tǒng)選擇實(shí)例,既能減少標(biāo)注專(zhuān)家所花費(fèi)的精力和時(shí)間,又不需要進(jìn)一步進(jìn)行非常精細(xì)的分割或者基于像素的標(biāo)注,同時(shí)也可以挑選出大致合理的備選實(shí)例,并且極大降低了備選實(shí)例的數(shù)量。緊接著,和大部分神經(jīng)網(wǎng)絡(luò)方法區(qū)別的是,該方法并沒(méi)有直接使用神經(jīng)網(wǎng)絡(luò)進(jìn)行端到端的學(xué)習(xí),而是從實(shí)例中提取圖像特征,例如圖像的結(jié)構(gòu)特征,色域通道特征等形成了一個(gè)370 維的向量。由于圖像具有多標(biāo)簽,因此該任務(wù)成為了一個(gè)多標(biāo)簽多實(shí)例學(xué)習(xí)的任務(wù)。最后,作者利用四種不同的模型方法,簡(jiǎn)化任務(wù),例如將多標(biāo)簽多實(shí)例學(xué)習(xí)任務(wù)簡(jiǎn)化為單標(biāo)簽多實(shí)例任務(wù)或者多標(biāo)簽單實(shí)例任務(wù)等,對(duì)圖像進(jìn)行學(xué)習(xí)預(yù)測(cè)。該論文中也可以看到在醫(yī)療圖像領(lǐng)域,專(zhuān)業(yè)的標(biāo)注是十分難以取得的,或者說(shuō)代價(jià)非常巨大。往往少量的圖像標(biāo)注就需要多名專(zhuān)家花費(fèi)大量的時(shí)間和精力,同時(shí)還需要克服專(zhuān)家之間意見(jiàn)不統(tǒng)一的情況。而論文中開(kāi)發(fā)的標(biāo)注系統(tǒng)是解決該問(wèn)題的有效手段之一。
我們調(diào)查了多實(shí)例方法在醫(yī)療圖像識(shí)別任務(wù)中的應(yīng)用,并將多個(gè)方法分為了兩個(gè)類(lèi)別,即針對(duì)全局檢測(cè)和針對(duì)局部檢測(cè)。全局檢測(cè)認(rèn)為單個(gè)圖像包中的多個(gè)實(shí)例均對(duì)圖像的標(biāo)簽有貢獻(xiàn),因此將醫(yī)療圖像中的多個(gè)實(shí)例都納入模型中進(jìn)行學(xué)習(xí),并根據(jù)圖像全局的信息得到預(yù)測(cè)結(jié)果;局部檢測(cè)即根據(jù)先驗(yàn)知識(shí),認(rèn)為整個(gè)醫(yī)療圖像中只有小部分具有我們需要的信息,其余部分或者是背景,或者不含有圖像標(biāo)簽的信息,因此只挑選整個(gè)圖像包中的某一個(gè)或者某一小部分實(shí)例進(jìn)行學(xué)習(xí)。隨著多實(shí)例學(xué)習(xí)在醫(yī)療圖像領(lǐng)域中的進(jìn)一步應(yīng)用,可以看到越來(lái)越多的論文也將這兩種方法進(jìn)行了結(jié)合。在缺乏精細(xì)數(shù)據(jù)標(biāo)注的醫(yī)療圖像任務(wù)中,多實(shí)例學(xué)習(xí)將獲得更多的應(yīng)用空間。