李梓鷗,費樹岷
(東南大學(xué) 自動化學(xué)院,江蘇 南京 210096)
傳統(tǒng)的自動化技術(shù)逐漸被機(jī)器學(xué)習(xí)與深度學(xué)習(xí)等方法取代,智能檢測方法在醫(yī)學(xué)領(lǐng)域發(fā)揮著越來越重要的作用,在傳統(tǒng)的醫(yī)學(xué)影像技術(shù)中應(yīng)用計算機(jī)圖像處理技術(shù)具有重大的實際意義。計算機(jī)圖像處理技術(shù)不僅能夠有效提高醫(yī)學(xué)影像的處理效率,還能夠保證醫(yī)學(xué)影像的清晰度與準(zhǔn)確度,從而提高醫(yī)學(xué)診斷準(zhǔn)確度,最終大大提高了現(xiàn)代醫(yī)療水平[1]。
然而,在利用機(jī)器學(xué)習(xí)方法與深度學(xué)習(xí)方法對傳統(tǒng)醫(yī)學(xué)核磁共振圖像(Magnetic Resonance Images,MRI)進(jìn)行檢測與分割時,由于采樣難度大、成本高,病態(tài)樣本數(shù)量的多樣性稀缺以及病人的隱私問題而導(dǎo)致樣本數(shù)量不足,樣本質(zhì)量不高嚴(yán)重限制了機(jī)器學(xué)習(xí)與深度學(xué)習(xí)方法應(yīng)用[2-3]。因此,有效擴(kuò)充數(shù)據(jù)集是支撐計算機(jī)輔助分析方法的重要基礎(chǔ)。
傳統(tǒng)的擴(kuò)充方法是對圖像的基本集合變換,如水平翻轉(zhuǎn)、豎直翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)角度、隨機(jī)水平平移、隨機(jī)豎直平移、隨機(jī)錯切變換、隨機(jī)放大、顏色變換、亮度變換、對比度變換等一系列圖像處理方法[4]。單純使用基本變換方法增加了樣本數(shù)量,但這樣指定特征的擴(kuò)充方法是有限的,并且未從本質(zhì)上改變圖像,僅保留了處理前的特征與所有組合。除了對圖像進(jìn)行基本變換外,SMOTE 方法也是擴(kuò)充數(shù)據(jù)集的一種直接方式。盡管SMOTE 方法可以擴(kuò)展出與原數(shù)據(jù)集中元素不相似的圖像,但在圖像擴(kuò)充問題質(zhì)量上卻很難通過視覺圖靈測試。
近年來,隨著深度學(xué)習(xí)的不斷發(fā)展,通過深度神經(jīng)網(wǎng)絡(luò)模型生成的圖像樣本應(yīng)用在不斷增加[5-6]。2013 年,Die?derik 等[7]首次提出變分自動編碼器VAE 模型,采用KL 距離作為理論損失函數(shù),利用對下界逼近的方式訓(xùn)練模型。但是因為KL 散度在真實和生成分布間的不對稱性,以及訓(xùn)練過程中是針對上界逼近,所以效果并不理想;2014 年,Ian 等[8]首次提出了生成對抗網(wǎng)絡(luò)(Generating Adversarial Networks,GAN),利用一個判別器D 作為生成器G 的損失判別函數(shù),隱式地表示生成器G 的損失函數(shù)。但是等價的詹森香農(nóng)距離(Jensen Shannon Divergence,JSD)損失函數(shù)本質(zhì)上并不是連續(xù)可導(dǎo)函數(shù),所以仍存在不穩(wěn)定的訓(xùn)練過程,即生成器G 的學(xué)習(xí)動力不足。GAN 模型廣泛應(yīng)用于醫(yī)學(xué)圖像合成,主要為醫(yī)學(xué)圖像的擴(kuò)充;2017 年,Zhang 等[9]設(shè)計了SCGAN,利用兩級的GAN 模型生成心臟MRI 的圖像,并將該圖像作為擴(kuò)充數(shù)據(jù)集進(jìn)行檢測;2018 年,Plassard等[10]利用DCGAN 生成了T1 權(quán)重下的腦部MRI圖像,并設(shè)計了去噪自動編碼器對原圖像去噪;Beers等[11]利用PGGAN對細(xì)胞瘤和視網(wǎng)膜圖像進(jìn)行合成。近年來,基于大規(guī)模計算框架的GAN 模型[12]與醫(yī)學(xué)圖像翻譯(Translation)[13]逐漸成為熱點。
以上方法都是對原始GAN 模型的改進(jìn),依然保留著原始GAN 中的缺陷問題,同時也缺少對GAN 缺陷的理論分析以及改進(jìn)措施。本文使用K-Lipschitz 約束GAN 及其變體[14-16],并將其與圖像處理中的深度卷積模型結(jié)合并加以改進(jìn),提出一種利用少量的腦部核磁共振圖像(MRI)進(jìn)行圖像增強(qiáng)的方式,并從理論上分析了改進(jìn)的穩(wěn)定性數(shù)學(xué)原理及實際意義。同時,本文也分析了當(dāng)前學(xué)術(shù)界較為流行的幾種指標(biāo),指出了腦部MRI 的合成過程中常規(guī)指標(biāo)IS 的不合理性,并采用FID[17]作為衡量生成數(shù)據(jù)的質(zhì)量與多樣性指標(biāo),對現(xiàn)有的FID 指標(biāo)進(jìn)行改進(jìn),以此替代一般的視覺圖靈測試方法。實驗結(jié)果表明,使用含有K-Lipschitz 條件約束的GAN 模型使判別器對輸入的梯度數(shù)量級較為合理,穩(wěn)定性明顯強(qiáng)于使用JSD 作為損失函數(shù)的GAN 模型,同時在質(zhì)量和生成多樣性上也有顯著提升。
核磁共振圖像是通過原子核在磁場內(nèi)產(chǎn)生信號,并經(jīng)過重構(gòu)成像的一種醫(yī)學(xué)影像技術(shù)。核磁共振技術(shù)在醫(yī)學(xué)領(lǐng)域有著廣闊的應(yīng)用場景,可在不進(jìn)行物理解剖的條件下無損地重構(gòu)出身體器官的圖像信息。核磁共振成像技術(shù)在病理分析、醫(yī)學(xué)診斷等各個醫(yī)學(xué)領(lǐng)域都有應(yīng)用。
大腦是一個結(jié)構(gòu)復(fù)雜且功能強(qiáng)大的器官,核磁共振圖像因其在橫截面成像方面性能優(yōu)越,在腦部成像上應(yīng)用最為廣泛[18]。一般對大腦掃描成像的MRI 分為橫斷面、矢狀面、冠狀面,分別對應(yīng)三維空間中的3 個截面。對于一個現(xiàn)實中的大腦樣例,一次完整的核磁共振成像過程會在3 個截面上進(jìn)行掃描,形成三組圖像,每組圖像包含了該截面與大腦相交的截面圖像。同時,核磁共振的成像機(jī)器可以選擇不同厚度和數(shù)量的切片,以滿足不同應(yīng)用場景需求。除此以外,在釋放電磁波構(gòu)建MRI 時,一般會采用加權(quán)的方式進(jìn)行圖像處理,通過此過程對大腦中不同的結(jié)構(gòu)進(jìn)行劃分,這些加權(quán)方式包括T1、T2、Flair、DWI 等。
本文主要使用兩個數(shù)據(jù)集:①以自閉癥內(nèi)在大腦結(jié)構(gòu)研究相關(guān)的ABIDE 數(shù)據(jù)集;②阿茲海默癥(AD)與輕度認(rèn)知障礙(MCI)內(nèi)在大腦結(jié)構(gòu)研究相關(guān)的ADNI 數(shù)據(jù)集。一張核磁共振圖像一般由一個圖像序列{ }x|i=1,…l組成,其中,參數(shù)l為切片層數(shù),在預(yù)處理過程中,本文在ABIDE 數(shù)據(jù)集以及ADNI 數(shù)據(jù)集中選取橫斷面掃描的圖像2D 切片作為生成對象,著重選擇靠近丘腦與海馬體的切片部分進(jìn)行數(shù)據(jù)增強(qiáng)。最終,在ABIDE 數(shù)據(jù)集上選擇106 個樣本截取切片圖像,并將圖像重新映射至[-1,1]區(qū)間內(nèi)。
值得注意的是,相比于學(xué)術(shù)界中較為流行的數(shù)據(jù)集,核磁共振圖像數(shù)據(jù)集具有樣本數(shù)量少、獲得難度較大、樣本之間大體特征相似但細(xì)節(jié)特征豐富而細(xì)微的特點。
目前在醫(yī)學(xué)領(lǐng)域最新且應(yīng)用最廣泛的數(shù)據(jù)增強(qiáng)方式是GAN 模型(包括深度卷積化的GAN 變體),然而傳統(tǒng)的GAN 模型具有許多固有缺點:對抗方式訓(xùn)練過程具有不穩(wěn)定性以及隨著GAN 中判別器D 的收斂,生成器G 的學(xué)習(xí)動力不足等問題,這些問題都會影響傳統(tǒng)GAN 生成樣本的質(zhì)量。本文使用Wasserstein GAN 及其改進(jìn)的變體替代傳統(tǒng)的GAN,對于訓(xùn)練的不穩(wěn)定性以及學(xué)習(xí)動力不足有很大改善。
2.1.1 深度卷積結(jié)構(gòu)的GAN 模型
傳統(tǒng)的GAN 模型采用兩個子神經(jīng)網(wǎng)絡(luò)作為GAN 的基本結(jié)構(gòu),分別是生成器G 與判別器D。在常規(guī)模式下,生成器G 與判別器D 使用一般的前向神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。而本文對于生成器G 采用了深度解卷積層進(jìn)行建模,對于判別器D 采用卷積層進(jìn)行建模,以滿足模型生成圖像的要求。卷積與解卷積相比于一般全連接神經(jīng)元建模方式有兩個特點,分別是部分連接與參數(shù)共享。部分連接指前一層的卷積層只有一個相鄰的子空間生成下一層的一個結(jié)點,參數(shù)共享指同一層產(chǎn)生不同位置的部分連接,享有共同的參數(shù)。部分連接所反映的思想是:對于一張圖像,其中幾個相鄰的像素點組合成的一幅子圖像就可以具有一定的特征屬性,不必如全連接型的神經(jīng)網(wǎng)絡(luò)一樣將所有結(jié)點都與下一層相連。而參數(shù)共享所反映的思想是:對于同一層次的多個部分連接都采用相同的參數(shù)進(jìn)行特征提取,這意味著同一層次不同位置上的卷積層都可以利用相同的特征提取器進(jìn)行特征提取。部分連接與參數(shù)共享的優(yōu)勢在于利用圖像局部相關(guān)的特性大大減少了參數(shù)的數(shù)量及模型的空間復(fù)雜度,同時加快了模型的訓(xùn)練速度。GAN 網(wǎng)絡(luò)框架結(jié)構(gòu)如圖1 所示,其中表示嵌入空間的隨機(jī)變量,表示真實樣本,表示生成樣本,表示標(biāo)簽。
Fig.1 GAN network framework structure圖1 GAN 網(wǎng)絡(luò)框架結(jié)構(gòu)
傳統(tǒng)GAN 充分利用了對抗思想,引入二分類判別器D來判斷生成器G 生成的樣本與真實樣本差別,其損失函數(shù)如下:
其中,生成器G 的輸入為隨機(jī)噪聲信號,輸出為與訓(xùn)練圖像等尺寸的同類圖像,而判別器D 則使用了一般的二分類網(wǎng)絡(luò),對真實圖像和生成圖像進(jìn)行分類,使用神經(jīng)網(wǎng)絡(luò)進(jìn)行判別。將式(1)優(yōu)化到最優(yōu)后即得到JSD。
整個優(yōu)化過程屬于min-max 優(yōu)化,在不斷優(yōu)化生成器G 與判別器D 的過程中使G 與D 呈對抗態(tài)勢。對于難以分開的復(fù)雜的兩類樣本,判別器D 的辨別能力在優(yōu)化過程中不斷加強(qiáng),同時生成器G 生成樣本的能力也越來越強(qiáng),不斷給生成器輸送與正樣本(即訓(xùn)練樣本)形態(tài)類似的正樣本,并且在生成器G 更新的過程中,其生成的樣本越來越復(fù)雜且難以分開,這些與訓(xùn)練樣本形態(tài)相似的樣本被稱為對抗樣本,其優(yōu)化公式如下:
2.1.2 GAN 模型訓(xùn)練過程
如圖2 所示,GAN 的訓(xùn)練過程包含對生成器G 與判別器D 的異步更新,圖2 簡要說明了當(dāng)下GAN 訓(xùn)練過程的基本框架,在不同K-Lipschitz 限制下,對于流程圖的各個環(huán)節(jié)均有一些修改。
Fig.2 GAN-like network training process structure圖2 類GAN 網(wǎng)絡(luò)訓(xùn)練過程結(jié)構(gòu)
其中,K 值表示每次更新生成器G 時判別器D 更新的次數(shù)。在訓(xùn)練過程中,首先采樣隨機(jī)噪聲用于生成負(fù)樣本,采樣真實樣本;之后對判別器D 訓(xùn)練K 次,將兩類樣本通過二分類器分割。在此過程中,分類器效果越好,生成器的學(xué)習(xí)動力越不足,后面將具體說明。在對判別器D 進(jìn)行K 次更新后,再反向更新一次生成器G,反向更新在損失函數(shù)上表現(xiàn)為損失增大,即判別器D 不再能很好地區(qū)分生成樣本與真實樣本。當(dāng)生成器G 收斂時,且判別器D 具有足夠的復(fù)雜程度,則判別器D 的分類邊界B在輸入上所反映的流形就是真實樣本在樣本空間中反映出的流形。所以本質(zhì)上說,優(yōu)化過程是生成分布Pg跟隨分類邊界B不斷逼近真實分布Pr的過程。
2.1.3 傳統(tǒng)GAN 模型限制
傳統(tǒng)GAN 在學(xué)術(shù)界存在兩個最大問題是梯度彌散以及模式坍塌,這兩個問題直接影響了傳統(tǒng)GAN 在訓(xùn)練以及生成新樣本時的質(zhì)量與多樣性。
梯度彌散問題主要指生成器G 在更新過程中,梯度計算必須經(jīng)過判別器D 而導(dǎo)致的學(xué)習(xí)動力不足問題。傳統(tǒng)GAN 的訓(xùn)練過程是先對判別器進(jìn)行若干次優(yōu)化,再對生成器G 進(jìn)行優(yōu)化。
定義1 定義緊致測度空間X及其上分布Pr與Pg,嵌入空間Z,二分類離散概率空間Y。映射Gθ:Z→X,映射Dw:X→Y。給定樣本集Strain={(x(i),y(i))}i=1,2…m,其中x(i) ∈X,y(i) ∈Y。Dw在樣本集Strain下的極 大似 然估計(MLE)為Dw_opt。
定理1 若Dw_opt對其輸入可導(dǎo),且supp(Pr)?supp(Pg)=?,則?loss(Dw_opt()) →0。其中supp(Pr)?supp(Pg),loss(?)為負(fù)對數(shù)極大似然函數(shù)。
推論 當(dāng)Dw=Dw_opt時,Dw等價為JSD,定理1 說明JSD對Gθ輸出的梯度為0,梯度信息基本不能傳播到Gθ。
如定理1,傳統(tǒng)GAN 將最優(yōu)的判別器Dw_opt引入損失函數(shù)后,在更新生成器G 時梯度為0。所以針對傳統(tǒng)GAN 的訓(xùn)練過程,每一步對判別器D 的更新都不能達(dá)到最優(yōu),否則會出現(xiàn)梯度為0 的情況,這是優(yōu)化變得不穩(wěn)定的根本原因。從JSD 的角度來看該問題,即JSD 的導(dǎo)數(shù)為0,不適合作為損失函數(shù)利用梯度進(jìn)行啟發(fā)式搜索優(yōu)化。
模式坍塌問題主要是GAN 模型生成的樣本不具有多樣性。模式崩塌解決方法是采用改變訓(xùn)練批次的數(shù)量來權(quán)衡訓(xùn)練速度與樣本多樣性的平衡問題。此外,模式崩塌還與隨機(jī)輸入維數(shù)關(guān)系極大。
2.2.1 基于Wasserstein 距離的GAN 模型
Wasserstein GAN 使用Wasserstein 距離代替普通GAN中的JSD,Wasserstein 距離定義如下:
其中,Pr與Pg代表真實樣本和生成樣本的分布,Π(Pr,Pg)代表兩個為邊緣分布的所有聯(lián)合分布組成的集合。
在兩個分布Pr與Pg的聯(lián)合分布中,選擇一個特定的聯(lián)合分布,在連續(xù)的樣本空間中,這個聯(lián)合分布可以表征出一種將Pr的概率函數(shù)變換成Pg的由微分過程和積分過程的可逆泛函映射,記作:F:Pr→Pg。對于離散的樣本空間可以理解為將Pr(或Pg)中的概率值拆分并變換到Pg(或Pr)的過程??勺C明每一個聯(lián)合分布有且僅有一種分解Pg并將其組合為Pr的方式。
通過上述簡單分析,可將Wasserstein 距離用以下方式解釋:尋找一種泛函映射方式(一個Pr與Pg的聯(lián)合分布),使得兩個邊緣分布Pr與Pg以最簡單的形式相互轉(zhuǎn)化。要盡量使得下確界達(dá)到,就要盡可能地使由X 與Y 中有相同取值的樣本對應(yīng)的概率密度進(jìn)行直接轉(zhuǎn)化。當(dāng)兩個分布相等時,其下確界取得的聯(lián)合分布恰好在X 與Y 相同的位置其概率才不為0(其他位置概率為0),此時計算出的距離恰好為0,即最簡轉(zhuǎn)化形式。如果在最簡形式的轉(zhuǎn)化過程中,兩個樣本空間X 與Y 的非同值對應(yīng)的概率密度發(fā)生轉(zhuǎn)化,則被定義為Wasserstein 距離。
盡管式(3)具有很好的數(shù)學(xué)特性,但是在聯(lián)合分布集{Fi} 中尋找出一個特定的聯(lián)合分布在數(shù)值計算過程中仍有一定困難,根據(jù)文獻(xiàn)[14]中的K-R 定理將式(3)等價為式(4):
該式的約束條件即為1-Lipschitz 條件。將損失函數(shù)擴(kuò)大K 倍后,可以將約束進(jìn)一步改為滿足K-Lipschitz 條件,即可使上式成立。值得一提的是,fw是Dw去除最后一層激活函數(shù)的非線性函數(shù),當(dāng)Dw=Dw_opt時,fw=fw_opt。由定理1及其推論可知,正是因為傳統(tǒng)GAN 中最后一層激活函數(shù)是在分類器的背景下定義的,所以其梯度接近彌散的問題很難解決。如果隱層的激活函數(shù)也使用sigmoid 則彌散問題會嚴(yán)重一些,但隱層可以使用relu、elu 等抗彌散的激活函數(shù)代替,并且可以使用批歸一化的方式對數(shù)據(jù)分布進(jìn)行重新規(guī)劃,而輸出層則卻不行,但使用Wasserstein 距離后就不存在隱層激活問題。
K-Lipschitz 條件沿用了部分導(dǎo)數(shù)定義,反映了一個函數(shù)在其定義域內(nèi)的平均變化率。對整個判別器進(jìn)行KLipschitz 約束后,相當(dāng)于對判別器D 的復(fù)雜度進(jìn)行了約束。在Wasserstein GAN 中采用權(quán)重限幅(weight clipping)的方式讓判別器D 保持K-Lipschitz 條件,每次更新將權(quán)重限制在[-c,c]范圍內(nèi),其中c 為限幅幅度,利用限幅來控制整個判別器的輸出,限制其從輸入到輸出滿足K-Lipschitz條件。
2.2.2 K-Lipschitz 條件下WGAN優(yōu)勢
傳統(tǒng)GAN 最大的缺陷在于當(dāng)真實樣本和生成樣本在樣本空間中的支撐集沒有交集,而且判別器D 達(dá)到最優(yōu)分類界限時,生成器G 的學(xué)習(xí)動力不足,即:
由文獻(xiàn)[15]中的命題一可知,當(dāng)1-Lipschitz 條件成立時可以得到以下結(jié)論:
其中,來源于=εx+(1-ε)表示在真實樣本x和生成樣本連線區(qū)域。因為損失函數(shù)形式改為了Wasser?stein 距離形式,所以式(6)基本等于損失對輸入的梯度,即與傳統(tǒng)GAN 所得結(jié)果不同,滿足K-Lipschitz 條件的WGAN其損失對輸入的梯度向量等于單位向量。
目前在學(xué)術(shù)界中,常用的判別指標(biāo)包括了Inception 得分(Inception Score,IS)以及Frechet Inception 距離(Frechet Inception Distance,F(xiàn)ID)等[19],其中IS 與FID 兩個判別方式是使用最廣的判別指標(biāo)。本文將先分析這兩個指標(biāo)在ABIDE 數(shù)據(jù)集與ADNI 數(shù)據(jù)集上的合理性,給出舍棄IS 的原因,最終選擇FID 作為衡量指標(biāo)。
Inception 得分是一種衡量圖像質(zhì)量與多樣性的一種方式,文獻(xiàn)[15]對于生成器生成圖像的質(zhì)量和多樣性可以直接使用規(guī)模龐大的判別網(wǎng)絡(luò)進(jìn)行判斷,所以IS 是一種網(wǎng)絡(luò)的判斷方法。將ILSVRC 競賽中的Inception-V3 模型作為判別基準(zhǔn)[20],其公式如下:
式(8)中最關(guān)鍵的兩個部分就是KL 距離,以及對先驗概率P(y)與經(jīng)過判別器D 后得到的后驗概率P(y|x)之間的關(guān)系。從本質(zhì)上說,IS 是最大化兩個熵值的差:
其中,H(y|x)表示在輸入圖像下其類別的熵值,是對后驗概率P(y|x)的混亂程度的一種描述。當(dāng)判別器D 能確定某張圖像x(i)屬于哪一類時,H(y|x)的值會較低,也即圖像x(i)在該類上的質(zhì)量較好。同理,H(y)表示在所有的生成圖像中標(biāo)簽的混亂程度?;靵y程度越大,生成圖像的多樣性越好。當(dāng)先驗概率P(y)呈平均分布時其熵值達(dá)到最大,所以最終將兩個熵相減并反推以上證明,就得到Inception 的分值。值得一提的是,KL 距離在信息學(xué)上可以衡量兩個隨機(jī)分布的差異性(或者稱為距離),但因其不對稱性[10]以及當(dāng)后一個概率的支撐集和整個概率空間的差集測度不為0時,在KL 距離無窮大的情況下,KL 距離會被其他距離所替代。
從上面的分析可以看出,若GAN 需要生成的樣本都是屬于Inception-V3 類別的樣本,那么當(dāng)上式給入樣本集時,Inception-V3 能正確地給出統(tǒng)計概率(y|x)并判斷圖像樣本的類別。在對類別進(jìn)行統(tǒng)計時也能正確地給出每一類樣本被生成的統(tǒng)計概率(y),這樣最終得到的IS 指標(biāo)還是比較有效的。然而,腦部核磁共振的切片圖像屬于單一有標(biāo)簽類別,并且不屬于Inception-V3 中分類的任何一類,所以使用常規(guī)的IS 是沒有內(nèi)在意義的。我們更應(yīng)該注重的是對于具有不同細(xì)節(jié)的同一個有標(biāo)簽類別的指標(biāo)建模,以及圖像中的某個局部圖像是否為有標(biāo)簽類別的特征。
除了上述IS 劣勢外,其未與圖像空間的概率分布產(chǎn)生關(guān)聯(lián),僅僅與分類空間產(chǎn)生關(guān)系,但FID 則很好地解決了這個問題。
FID 定義如下:
其中,μr與μg為真實特征和生成特征的均值,Cr與Cg則是真實特征和生成特征的協(xié)方差矩陣。
IS 未將原數(shù)據(jù)集引入計算,為解決該問題提出了FID,其原理是將實際圖像和生成圖像利用Inception 特征提取器進(jìn)行特征提取,之后將提取后的特征看作特征空間的高斯分布,通過考量兩個高斯分布均值和協(xié)方差矩陣的差值范數(shù),從而得出兩個圖像空間之間的距離。距離越近,兩個分布越相似,生成的質(zhì)量也就越高,但同時多樣性也隨之變差;距離越遠(yuǎn),生成的質(zhì)量則越低。對于腦部MR圖像這類特征細(xì)小的樣本,以高斯分布對其進(jìn)行建模的方式十分適用于該問題,將IS 對通過神經(jīng)網(wǎng)絡(luò)所得的類別分布直接改為原始圖像在像素空間中的分布,很大程度上提高了FID 在該問題上的可解釋性與合理性。
本文將經(jīng)過Inception 特征提取器的FID 絕對值作為衡量指標(biāo)改為基于樣本集的相對指標(biāo),相對指標(biāo)綜合考量了生成圖像的質(zhì)量與圖像多樣性要求。之前的研究普遍認(rèn)為FID 值越小越好,然而在實踐中如果對數(shù)據(jù)集的圖像進(jìn)行簡單的圖像變換(例如翻轉(zhuǎn)、平移、錯切等)后,計算其與原集合的FID 值會產(chǎn)生一個十分小的值。此時,盡管整個數(shù)據(jù)集與原圖有差異,但是其FID 值依舊很低,在細(xì)節(jié)模式上變化很小,但新樣本是與數(shù)據(jù)集相似的冗余樣本,而非具有多樣性的樣本。
針對以上問題,本文提出類間FID 與類內(nèi)FID 概念,并說明其原理。
FIDinter成為類間是指訓(xùn)練集與生成圖像集之間的FID值,也就是常用的FID 方式。FIDintra也稱為類內(nèi)FID,指某類集合中樣本間固有的FID 值,反映了一類樣本集中固有的多樣性。根據(jù)兩種集合,還可以把類內(nèi)FID 分為樣本集類內(nèi)與生成集類內(nèi),樣本集類內(nèi)又被稱為FIDanchor。FIDinter的計算方式與傳統(tǒng)FID使用方式一致,而FIDintra則是將某類集合隨機(jī)分為兩半,將這兩半集合作為不同分布進(jìn)行統(tǒng)計。將新的FID 指標(biāo)定義為:
其中,式(11)的優(yōu)勢在于FID 值不是越小越好(將生成集作為訓(xùn)練集時,F(xiàn)ID 為0,但圖像冗余度過高,樣本多樣性不夠好),而是越接近FIDanchor越好(因為類別具有層級性,某一大類中樣本依舊有小類,即某些細(xì)節(jié)特征的變化是多樣性的根本,保證類內(nèi)的多樣性即保證FID 值不應(yīng)太?。?。式(11)的第一項反映了整體生成集的質(zhì)量和多樣性是否與訓(xùn)練集一致,第二項則反映了生成集內(nèi)部有無模式坍塌現(xiàn)象。
基于ABIDE 腦部核磁共振數(shù)據(jù)集中的數(shù)據(jù),本文使用訓(xùn)練過程更為穩(wěn)定的Wasserstein GAN 代替了傳統(tǒng)的GAN,同時利用傳統(tǒng)的圖像增強(qiáng)方式對原數(shù)據(jù)集進(jìn)行擴(kuò)充,在傳統(tǒng)指標(biāo)FIDinter與本文提出的FIDsyn指標(biāo)上進(jìn)行對比分析,實驗環(huán)境為Python+Tensorflow 框架。
實驗流程如下:首先,從ABIDE 數(shù)據(jù)集中逐一選擇出清晰而合適的橫斷面掃描圖像的三維采樣數(shù)據(jù)集。通過觀察與對比,將接近丘腦部分的截面圖像提取出并進(jìn)行歸一化處理,在圖像尺寸方面,將其統(tǒng)一成128*128 大小的灰度圖像;在圖像像素強(qiáng)度方面,將其統(tǒng)一在[-1,1]區(qū)間內(nèi);之后,將圖像通過圖2 的流程進(jìn)行訓(xùn)練,采樣得到新生成的核磁共振圖像。與此同時,利用挖除、添加噪聲、對比度變化等方式,對數(shù)據(jù)集進(jìn)行傳統(tǒng)的數(shù)據(jù)增強(qiáng);最后,計算FIDinter與FIDsyn指標(biāo),值得一提的是,F(xiàn)IDinter指標(biāo)需要對一個樣本進(jìn)行不同方式的分割,計算其均值減少偶然誤差。圖3 給出了兩組圖像的對比。
圖3 中左側(cè)為經(jīng)過預(yù)處理后的ABIDE圖像數(shù)據(jù),右側(cè)則是經(jīng)過WGAN 模型生成的腦部核磁共振圖像數(shù)據(jù)。通過視覺圖靈測試(Visual Turing Test,VTT),可以觀測出,盡管有細(xì)微的差異,但生成圖像在質(zhì)量上基本與訓(xùn)練集差別不大。同時,生成圖像的多樣性也較好,生成與數(shù)據(jù)集重復(fù)與冗余的圖像較少。這兩點充分證明了WGAN 在逼近某個分布時,相較于傳統(tǒng)方式具有更好的生成能力。
Fig.3 Partial MRI real images(left)vs.generated images(right)圖3 部分核磁共振數(shù)據(jù)集圖像(左)與生成圖像(右)
表1 反映了在不同圖像集下其與ABIDE 數(shù)據(jù)集的FID指標(biāo)關(guān)系,可以看到質(zhì)量低的數(shù)據(jù)集(如隨機(jī)噪聲)的FIDinter值(傳統(tǒng)FID)很高,質(zhì)量高的數(shù)據(jù)集(如原數(shù)據(jù)集(整))的值接近0,但后者忽略了生成新樣本的多樣性問題。FIDsyn則很好地反映出了質(zhì)量與多樣性之間的關(guān)系。在SMOTE 算法上實驗得到的圖像經(jīng)過VTT 的效果很好,但是FIDinter的指標(biāo)很大,這是由于其超越了數(shù)據(jù)集進(jìn)行了擴(kuò)充。由表1 可知,WGAN 方法生成的樣本相比傳統(tǒng)方法更好,在傳統(tǒng)FIDinter指標(biāo)上達(dá)到了1.29,在FIDsyn指標(biāo)上則達(dá)到了0.07,相較于傳統(tǒng)的增強(qiáng)方法有明顯提高。
Table 1 Comparison of FID metrics for ABIDE dataset generation results表1 ABIDE 數(shù)據(jù)集生成結(jié)果FID 指標(biāo)比較
改進(jìn)的GAN 模型及其變體中,使用Wasserstein-1 距離代替了JSD 作為生成網(wǎng)絡(luò)G 的損失函數(shù),同時將Wasser?stein-1 距離表達(dá)成可以優(yōu)化的函數(shù)式,增加了K-Lipschitz條件對GAN 的限制,使得GAN 訓(xùn)練過程中,在反向傳播后,對于判別器D 的支撐集(WGAN-GP)以及支撐集以外的區(qū)域(SNGAN)有著優(yōu)良的梯度特性,從而很好地避免了因為網(wǎng)絡(luò)層數(shù)過深以及不合適的非線性激活函數(shù)所導(dǎo)致的學(xué)習(xí)動力不足之類的訓(xùn)練穩(wěn)定性問題。后續(xù)工作應(yīng)該著重于對Lipschitz 條件深入理論分析與實際改進(jìn)。
模式坍塌是GAN 最常見的問題之一,在本文之外對類GAN 網(wǎng)絡(luò)產(chǎn)生模式坍塌的原因做了一些簡單實驗,經(jīng)過VTT 發(fā)現(xiàn),生成器G 的隨機(jī)噪聲輸入維數(shù)越小,生成器生成的模式相似圖像就越多。深入探究類GAN 網(wǎng)絡(luò)模式坍塌的具體原因也是未來的工作之一。
同時,對于新的FID 指標(biāo),還需要在更多的數(shù)據(jù)集以及更大規(guī)模的真實樣本集上實驗,并對比更多數(shù)據(jù)擴(kuò)充方法(尤其是SMOTE 算法)驗證其優(yōu)缺點,從理論上說明不同的數(shù)據(jù)集上FIDsyn的第一項與第二項收斂的依據(jù)。如何提高整個指標(biāo)的敏感度也是進(jìn)一步改進(jìn)FID 指標(biāo)重要的研究方向。