曹一珉,蔡磊,高敬陽
(北京化工大學(xué)信息科學(xué)與技術(shù)學(xué)院,北京 100029)
基因變異廣泛存在于自然界中,部分基因變異可以導(dǎo)致細(xì)胞運(yùn)作異常,進(jìn)而誘發(fā)各種疾病,如癌癥[1]、孤獨(dú)癥、精神分裂癥[2]等。人類全基因組約2.5 萬個(gè)基因有近30 億個(gè)堿基對[3],但是發(fā)生基因變異的概率卻很小,比如:PIK3CA 磷酸肌醇3-激酶Alpha(Phosphatidylinositol-4,5-Bisphosphate 3-Kinase Catalytic Subunit Alpha)基因變異是人類乳腺癌中最常見的變異[4],但是它發(fā)生的概率僅為1.2%[5];原發(fā)性神經(jīng)母細(xì)胞瘤和嗜鉻細(xì)胞瘤中的NRAS(Neuroblastoma RAS)變異發(fā)生概率極低[6];在癌癥以及腺瘤中,含有17p 染色體拷貝的腫瘤中發(fā)生p53 基因突變的概率僅為17%[7]。由于基因變異的發(fā)生概率極小,因此無法獲取豐富的變異基因樣本,導(dǎo)致基因組數(shù)據(jù)中正負(fù)樣本嚴(yán)重失衡,給基因變異檢測帶來諸多挑戰(zhàn)。
隨著深度學(xué)習(xí)的在醫(yī)療領(lǐng)域的發(fā)展,越來越多的研究集中在醫(yī)療圖像識別研究上,例如:利用卷積網(wǎng)絡(luò)識別肺結(jié)節(jié)[8],利用3 維卷積神經(jīng)網(wǎng) 絡(luò)(3D Convolutional Neural Network,3DCNN)識別前列腺癌變區(qū)域[9]等;但是在生物基因?qū)用?,深度學(xué)習(xí)目前還沒有得到大量的運(yùn)用。
在深度學(xué)習(xí)的圖像處理任務(wù)中,隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度不斷增加,進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練所需的數(shù)據(jù)越來越多,但是由于基因變異概率較小,導(dǎo)致變異基因的圖像數(shù)據(jù)十分匱乏,嚴(yán)重影響了神經(jīng)網(wǎng)絡(luò)的訓(xùn)練效果,為了解決這個(gè)問題需要進(jìn)行數(shù)據(jù)擴(kuò)增?;趫D形學(xué)的傳統(tǒng)數(shù)據(jù)擴(kuò)增方法雖然能夠?qū)D像數(shù)據(jù)進(jìn)行擴(kuò)增,但得到的擴(kuò)增圖像數(shù)據(jù)豐富度較低,對神經(jīng)網(wǎng)絡(luò)的性能提升有限。生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)是一種全新的深度學(xué)習(xí)框架,它可以從圖像中學(xué)習(xí)鑒別特征并生成真實(shí)樣本[10]。已經(jīng)有很多研究者將GAN 用于圖像的生成并且取得了不錯的效果,例如Wolterink 等[11]使用GAN 將MR(Magnetic Resonance)圖像生成CT(Computed Tomography)圖像并且取得與參考CT 相近的圖像;Calimeri等[12]使用GAN 合成人腦切片的MR 圖像。
基因圖像是指將基因測序的文本數(shù)據(jù)通過算法得到的圖像數(shù)據(jù),如DeepSV[13]、Google 的Deepvariant[14]等。基于前人所做的研究,本文提出了一種基于WGAN-GP(Wassrstein Generative Adversarial Networks-Gradient Penalty)進(jìn)行數(shù)據(jù)生成的基因圖像擴(kuò)增方法GeneGAN。使用該方法對圖像數(shù)據(jù)進(jìn)行擴(kuò)增,能得到類型豐富且樣本充足的變異基因樣本,解決變異基因樣本匱乏、正負(fù)樣本不平衡的問題;同時(shí)探討了GeneGAN 與傳統(tǒng)數(shù)據(jù)擴(kuò)增方法對基因圖像分類的影響,并通過實(shí)驗(yàn)驗(yàn)證了其性能。
數(shù)據(jù)擴(kuò)增是解決樣本不平衡的主要手段,主要分為兩種形式:一種是傳統(tǒng)基于圖形學(xué)的數(shù)據(jù)擴(kuò)增方法,如剪裁、平移、鏡像;一種是基于深度學(xué)習(xí)網(wǎng)絡(luò)的數(shù)據(jù)擴(kuò)增方法,如特征空間增強(qiáng)、神經(jīng)風(fēng)格轉(zhuǎn)換、基于GAN 的數(shù)據(jù)擴(kuò)增等。其中最引人注目的是基于GAN 的數(shù)據(jù)擴(kuò)增方法,如DCGAN(Deep Convolutional Generative Adversarial Network)[15]、WGANGP 等。
Goodfellow 等[16]所提出的基礎(chǔ)GAN 是一種受到“博弈論”啟發(fā)的擴(kuò)充數(shù)據(jù)集的方法,常用于圖像的數(shù)據(jù)生成。GAN 規(guī)定由一個(gè)生成器G(Generator)和一個(gè)鑒別器D(Discriminator)進(jìn)行參與。生成器G 將輸入的數(shù)據(jù)分布進(jìn)行處理后產(chǎn)生了全新的數(shù)據(jù)分布,新的分布要求與真實(shí)的數(shù)據(jù)分布相似,并且生成器G 產(chǎn)生的數(shù)據(jù)分布越接近真實(shí)數(shù)據(jù)分布,則表示生成數(shù)據(jù)分布越真實(shí)。鑒別器D 的用途在于判定輸入到鑒別器中的數(shù)據(jù)分布是真實(shí)數(shù)據(jù)分布還是生成器產(chǎn)生的數(shù)據(jù)分布。訓(xùn)練過程中,生成器與鑒別器的相互促進(jìn)是極小極大博弈(Minimax game)的優(yōu)化過程,使得雙方達(dá)到納什均衡[17],即鑒別器難以正確將真實(shí)數(shù)據(jù)與生成器產(chǎn)生的非真實(shí)數(shù)據(jù)進(jìn)行區(qū)分。該模型通過規(guī)避求解似然函數(shù)的問題,直接進(jìn)行數(shù)據(jù)生成,最終擬合輸入的數(shù)據(jù)分布。
最基本的生成對抗網(wǎng)絡(luò)結(jié)構(gòu)容易受到訓(xùn)練過程中不穩(wěn)定因素的影響,出現(xiàn)模式崩潰[18]的現(xiàn)象,使產(chǎn)生的結(jié)果效果較差。DCGAN(Deep Convolutional GAN)是GAN 發(fā)展早期比較典型的一類改進(jìn),它用反卷積層代替了生成器中的全連接層,通過將GAN 與CNN 結(jié)合保證了生成圖像的完整性和清晰度,特別是圖像內(nèi)部的紋理與細(xì)節(jié)更豐富。DCGAN 在工程上取到了非常好的效果,適用于大部分場景,是使用率最高的模型,此后的GAN 結(jié)構(gòu)在對比時(shí)一般以它為標(biāo)準(zhǔn)[19]。
Arjovsky 等[20]提出的WGAN(Wasserstein Generative Adversarial Network)在訓(xùn)練的穩(wěn)定性上取得了良好的表現(xiàn),它使用Earth-Mover 距離代替Jensen-Shannon 散度[21]來衡量真實(shí)數(shù)據(jù)分布與生成器G 所產(chǎn)生的數(shù)據(jù)分布之間的距離,并且該網(wǎng)絡(luò)結(jié)構(gòu)在生成器G 和鑒別器D 的迭代訓(xùn)練過程中不要求保持雙方的平衡[22],WGAN 的可收斂性遠(yuǎn)強(qiáng)于原始GAN,優(yōu)化了訓(xùn)練過程不穩(wěn)定等問題[23]。WGAN 一經(jīng)提出就引起了極大的關(guān)注,而且生成的樣本具有多樣性,能夠提升擴(kuò)增數(shù)據(jù)的豐富度。
Gulrajani 等[24]發(fā)現(xiàn)在某些情況下仍然會發(fā)生生成樣本質(zhì)量差與無法收斂的情況,這是因?yàn)榫W(wǎng)絡(luò)中使用了權(quán)值裁剪方法來強(qiáng)行限制Lipschitz 連續(xù)條件,因此導(dǎo)致了對網(wǎng)絡(luò)參數(shù)優(yōu)化的負(fù)面影響。WGAN-GP 提出了權(quán)值裁剪的另一種方法,使用梯度懲罰(gradient penalty)對損失函數(shù)的輸入進(jìn)行處理,直接約束損失函數(shù)輸出關(guān)于其輸入的梯度范數(shù),為了避免可分性問題,WGAN-GP 對隨機(jī)樣本的梯度范數(shù)進(jìn)行了處理,從而實(shí)現(xiàn)了軟約束,是目前使用最廣泛的GAN 變種之一[25]。
原始WGAN-GP 模型的鑒別器D 中卷積層只有4 層,并且卷積層對特征圖進(jìn)行卷積的過程中會丟失部分信息,影響了鑒別器D 對于輸入的基因圖像數(shù)據(jù)進(jìn)行判斷,進(jìn)而導(dǎo)致生成器G 生成圖像的過程受到影響。本文的GeneGAN 在原始WGAN-GP 模型基礎(chǔ)上增加了6 層卷積層,并且在卷積層之間增加了短路連接(shortcut connection),GeneGAN 的總體網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。因?yàn)榫矸e層中的卷積核較小,導(dǎo)致卷積神經(jīng)網(wǎng)絡(luò)的感受野較小,在學(xué)習(xí)過程中會丟失基因圖像的部分特征信息,但由于卷積層之間增加了短路連接,從而形成了殘差學(xué)習(xí),使其他卷積層的基因圖像特征圖疊加到當(dāng)前卷積層的基因圖像特征圖中,能夠使卷積層對基因圖像特征圖進(jìn)行卷積的過程中保留更多基因圖像中的特征信息,有利于鑒別器D 和生成器G 的神經(jīng)網(wǎng)絡(luò)迭代訓(xùn)練,使鑒別器D 能夠更加準(zhǔn)確地區(qū)別真實(shí)基因圖像與擴(kuò)增基因圖像,生成器G 生成的圖像能夠更加接近真實(shí)基因圖像的數(shù)據(jù)分布。
圖1 GeneGAN網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 GeneGAN network structure
原始GAN 及其他大多數(shù)GAN 都選擇在生成器G 和鑒別器D 的網(wǎng)絡(luò)結(jié)構(gòu)中使用批規(guī)范化(Batch Normalization,BN)來幫助加快模型收斂,但是BN 改變了鑒別器G 的映射形式,從單個(gè)輸入映射到單個(gè)輸出改為從批輸入映射到單個(gè)輸出,這種情況下懲罰函數(shù)不再有效,因?yàn)閃GAN-GP 的懲罰函數(shù)是作用在單個(gè)輸入,而不是批輸入。為了解決這個(gè)問題,WGAN-GP 在鑒別器D 中使用層規(guī)范化(Layer Normalization,LN)而省略了BN,發(fā)現(xiàn)效果更好。GeneGAN 繼承了這一特性,通過生成器G 生成基因圖像后,將其與真實(shí)基因圖像輸入到鑒別器D 中,由于鑒別器D 采用層規(guī)范化,懲罰函數(shù)可以作用于這些輸入的基因圖像數(shù)據(jù),能夠?qū)γ總€(gè)基因圖像數(shù)據(jù)進(jìn)行單獨(dú)的處理,使鑒別器D 能夠提取到更多基因圖像的特征信息,進(jìn)而促使生成器G 生成的基因圖像更加清晰,特征表達(dá)更加明確。
GeneGAN 在生成器G 中采用ReLU 函數(shù)用于解決深度卷積神經(jīng)網(wǎng)絡(luò)中梯度消失的問題,能夠讓GeneGAN 在稀疏的基因圖像數(shù)據(jù)上訓(xùn)練時(shí)不至于過擬合,而且可以讓生成器G快速收斂從而使生成的圖像更加接近真實(shí)基因圖像;在鑒別器D 中采用了LeakyReLU 函數(shù)是因?yàn)樗梢员WC導(dǎo)數(shù)為非零值,降低了神經(jīng)元由于梯度消失而無法正常進(jìn)行學(xué)習(xí)的概率,盡可能使模型中每個(gè)神經(jīng)元都發(fā)揮作用,可以讓鑒別器D 更好地區(qū)分生成器G 生成的基因圖像與真實(shí)基因圖像,使生成器G 下一輪生成的圖像更加接近真實(shí)基因圖像。
GeneGAN 的鑒別器D 中采用Dropout 層去緩解卷積層的過擬合問題,并且使用ZeroPadding 層進(jìn)行零值填充。輸入到鑒別器D 中的基因圖像在經(jīng)過卷積操作后會發(fā)生尺寸變化,零值填充可以用來控制基因圖像特征圖的尺寸,便于后續(xù)Conv 層對基因圖像特征圖進(jìn)行卷積操作。GeneGAN 的生成器G 中采用UpSampling 層進(jìn)行上采樣操作來放大特征圖的尺寸,使特征圖最終達(dá)到與真實(shí)基因圖像相同的尺寸。
基于GeneGAN 的基因數(shù)據(jù)分類算法的總流程如圖2所示。
圖2 基于GeneGAN的基因數(shù)據(jù)分類算法流程Fig.2 Flowchart of gene data classification algorithm based on GeneGAN
本文設(shè)計(jì)了用于對基因圖像數(shù)據(jù)進(jìn)行擴(kuò)增的網(wǎng)絡(luò)模型GeneGAN,包含了生成器G 和鑒別器D 兩部分。首先使用GeneGAN 方法對Reads 堆疊方法產(chǎn)生的真實(shí)基因變異圖像進(jìn)行數(shù)據(jù)擴(kuò)增,得到正負(fù)樣本平衡且數(shù)量充足的數(shù)據(jù)集;然后使用該數(shù)據(jù)集訓(xùn)練CNN;最終使用訓(xùn)練完成的CNN 進(jìn)行基因圖像分類處理。
在GeneGAN的網(wǎng)絡(luò)模型結(jié)構(gòu)中,生成器G主要由3層卷積神經(jīng)網(wǎng)絡(luò)組成(如圖3 所示),最初輸入的是隨機(jī)分布的噪聲,將隨機(jī)噪聲變量多次傳入卷積層中,用于學(xué)習(xí)和捕捉真實(shí)基因圖像數(shù)據(jù)集的分布,并生成與之相似的擴(kuò)增基因圖像數(shù)據(jù)。
圖3 生成器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure of Generator
首先將輸入噪聲通過Reshape 和Upsampling 操作轉(zhuǎn)為尺寸為50×50、通道為200 的特征輸出,然后將這個(gè)特征輸出作為下一層卷積層的輸入,經(jīng)過步長為1、大小為3×3 的卷積核進(jìn)行卷積操作,生成大小為50×50、通道數(shù)為200 的特征輸出,并對此進(jìn)行上采樣得到大小為100×100、通道數(shù)為200 的特征輸出。之后再經(jīng)過兩次步長為1、大小為3×3 的卷積核進(jìn)行卷積操作,最終得到大小為100×100、通道數(shù)為3 的擴(kuò)增基因圖像數(shù)據(jù)。
鑒別器D 主要由10 層卷積神經(jīng)網(wǎng)絡(luò)組成(如圖4 所示),輸入為真實(shí)基因圖像數(shù)據(jù)和生成器G 所生成的擴(kuò)增基因圖像數(shù)據(jù),它們的尺寸都為(100,100,3)。首先經(jīng)過步長為2、卷積核大小為3×3 的Conv1 層生成大小為50×50、通道數(shù)為16 的特征輸出;然后將該特征輸出作為Conv2 層的輸入,使用Add 操作將Conv1 層與Conv3 層實(shí)現(xiàn)短路連接,經(jīng)過一次步長為2、卷積核大小為3×3 和兩次步長為1、卷積核大小為3×3 的卷積操作,在Conv4 層生成大小為25×25、通道數(shù)為32的特征輸出;同樣在Conv4 層與Conv6 層、Conv7 層與Conv9層實(shí)現(xiàn)短路連接,以此類推經(jīng)過多次卷積操作后得到大小為13×13、通道數(shù)為128 的特征輸出,將該特征輸出經(jīng)過Flatten層變?yōu)? 維數(shù)據(jù)后輸入全連接層,由sigmoid 函數(shù)來判斷當(dāng)前樣本為真實(shí)基因圖像數(shù)據(jù)(標(biāo)簽為1)或者為擴(kuò)增基因圖像數(shù)據(jù)(標(biāo)簽為0)。
圖4 鑒別器的網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Network structure of Discriminator
訓(xùn)練過程中,batch_size=64,初始學(xué)習(xí)率learning_rate=0.000 1,采用Adam 優(yōu)化算法訓(xùn)練輪次epochs=100 000,目標(biāo)函數(shù)如下:
其 中:x為真實(shí)樣本,為擴(kuò)增樣本;=εx-(1-ε)且ε~U[0,1]。
GeneGAN 中的迭代算法流程如下所示。
算法1 GeneGAN 中的迭代算法。
參數(shù)設(shè)置:初始化鑒別器參數(shù)w0與生成器參數(shù)θ0,λ=10,ncritic=5,α=0.000 1,β1=0,β2=0.9,batch_size=64。
為驗(yàn)證GeneGAN 在基因圖像數(shù)據(jù)上的有效性,選取三類現(xiàn)有的數(shù)據(jù)處理方法和工具作為基線,在正負(fù)樣本比例嚴(yán)重不平衡的數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn)。第一類是基于圖形學(xué)的傳統(tǒng)數(shù)據(jù)擴(kuò)增方法,比如剪裁、平移、鏡像等,使數(shù)據(jù)集的正負(fù)樣本比例經(jīng)過傳統(tǒng)擴(kuò)增方法后達(dá)到平衡,并進(jìn)行基因圖像分類實(shí)驗(yàn);第二類是基于特征提取的傳統(tǒng)基因檢測工具,比如長讀取結(jié)構(gòu)變異檢測工具(Structural Variant Identification using long reads,SVIM)[26]、Sniffles[27]等,傳統(tǒng)基因檢測工具不需要經(jīng)過數(shù)據(jù)擴(kuò)增,直接對基因數(shù)據(jù)原始文件進(jìn)行檢測;第三類是生成對抗網(wǎng)絡(luò)及其衍生和優(yōu)化模型,比如DCGAN、WGAN-GP 等,使數(shù)據(jù)集的正負(fù)樣本比例經(jīng)過生成對抗網(wǎng)絡(luò)擴(kuò)增方法后達(dá)到平衡,并進(jìn)行基因圖像分類實(shí)驗(yàn)。
本文使用GIAB(Genome In A Bottle)發(fā)布的基因測序數(shù)據(jù)AshkenazimTrio,選擇HG002_NA24385_son 作為數(shù)據(jù)集來源,該數(shù)據(jù)可從GIAB 的GitHub 存儲庫(https://github.com/genome-in-a-bottle/giab_data_indexes)下載。使用Reads 堆疊方法生成基因圖像,根據(jù)基因Bam 文件與參考基因組的對比情況將基因圖像數(shù)據(jù)區(qū)分為正樣本(缺失組)和負(fù)樣本(非缺失組),圖中紅色像素點(diǎn)代表匹配模式為缺失,綠色像素點(diǎn)代表匹配模式為正常,藍(lán)色像素點(diǎn)代表匹配模式為軟切,黑色像素點(diǎn)代表匹配模式為插入,白色像素點(diǎn)為空白區(qū)域(如表1 所示)。缺失像素點(diǎn)與非缺失像素點(diǎn)比例為1∶4,原始基因圖像數(shù)據(jù)集的正負(fù)樣本為1∶25,從正負(fù)樣本組中隨機(jī)抽取4張基因圖像(如圖5 所示)。正樣本(缺失組)圖像中的紅色區(qū)域面積占圖像的比例明顯高于負(fù)樣本(非缺失組)圖像,而負(fù)樣本(非缺失組)圖像中綠色區(qū)域面積占絕大部分。
表1 基因圖像中四種像素點(diǎn)顏色所代表的意義Tab.1 Significance of four pixel colors in gene image
圖5 真實(shí)基因圖像正負(fù)樣本對比Fig.5 Comparison of positive and negative samples in original genetic images
使用GeneGAN 與CNN 的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如下:實(shí)驗(yàn)采用的GPU 為Geforce RTX 2080 Ti 顯卡,顯存11 GB,所用深度學(xué)習(xí)框架為Keras,其他如表2 所示。
表2 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)Tab.2 Network structure parameters
該實(shí)驗(yàn)的主要評估指標(biāo)為精確率(Precision,Pre)、召回率(Recall,Rec)和F1值(F1)。精確率即真正的正確樣本占預(yù)測為正確樣本的比例;召回率為預(yù)測為1 且正確預(yù)測的樣本數(shù)占所有真實(shí)情況為1 樣本的比例;F1值是統(tǒng)計(jì)學(xué)中用來衡量二分類模型精確度的一種指標(biāo),它同時(shí)兼顧了分類模型的精準(zhǔn)度和召回率,可以看作是模型精準(zhǔn)度和召回率的一種加權(quán)平均。F1值的計(jì)算公式如式(1):
2.2.1 原始數(shù)據(jù)直接進(jìn)行基因圖像分類
為說明正負(fù)樣本的比例對實(shí)驗(yàn)結(jié)果的影響,本節(jié)將基因圖像按照1∶25、1∶50 和1∶100 的正負(fù)樣本比例劃分后直接進(jìn)行基因圖像分類實(shí)驗(yàn),結(jié)果如表3 所示。通過表3 可以看出,當(dāng)正樣本和負(fù)樣本之間的比例差異太大時(shí),所使用的分類網(wǎng)絡(luò)幾乎是無用的,無法進(jìn)行區(qū)分。為了平衡正負(fù)樣本比例,接下來將采用多種數(shù)據(jù)擴(kuò)增方法。
表3 不同正負(fù)樣本比例的原始數(shù)據(jù)實(shí)驗(yàn)結(jié)果 單位:%Tab.3 Experimental results of raw data with different proportions of positive and negative samples unit:%
2.2.2 利用傳統(tǒng)擴(kuò)增方法后的基因圖像分類
本節(jié)使用傳統(tǒng)擴(kuò)增方法(左右翻轉(zhuǎn)與上下翻轉(zhuǎn))對基因圖像數(shù)據(jù)進(jìn)行擴(kuò)增,如圖6 所示,為了對比使用擴(kuò)增方法將正負(fù)樣本比例差異降低與正負(fù)樣本比例完全平衡的效果,將正負(fù)樣本比例分別劃分為1∶15 與1∶1,擴(kuò)增后的基因圖像分類結(jié)果如表4,可以看出1∶1 實(shí)驗(yàn)組相較于1∶15 實(shí)驗(yàn)組的精準(zhǔn)度、召回率和F1值均有一定提升。
圖6 利用傳統(tǒng)擴(kuò)增方法生成的基因圖像示例Fig.6 Amplified gene image examples generated by traditional ways
表4 不同正負(fù)樣本比例的傳統(tǒng)擴(kuò)增數(shù)據(jù)實(shí)驗(yàn)結(jié)果 單位:%Tab.4 Experimental results of traditional amplification data with different proportions of positive and negative samples unit:%
2.2.3 利用原始GAN擴(kuò)增方法后的基因圖像分類
本節(jié)通過將真實(shí)基因圖像數(shù)據(jù)傳入原始GAN 中,經(jīng)過10 萬輪的迭代訓(xùn)練得到擴(kuò)增的基因圖像數(shù)據(jù),把正負(fù)樣本比例為1∶25 的原始數(shù)據(jù)集擴(kuò)增為正負(fù)樣本比例分別為1∶1與1∶15 的實(shí)驗(yàn)組。將實(shí)驗(yàn)組分別按7∶2∶1 的比例劃分為訓(xùn)練集、測試集和驗(yàn)證集,結(jié)果如表5 所示,可以看出1∶1 實(shí)驗(yàn)組相較于1∶15 的精準(zhǔn)度、召回率和F1值均有提升。
表5 不同正負(fù)樣本比例的原始GAN擴(kuò)增數(shù)據(jù)實(shí)驗(yàn)結(jié)果 單位:%Tab.5 Experimental results of original GAN extended data with different proportions of positive and negative samples unit:%
從表3~5 的結(jié)果可以發(fā)現(xiàn):在正負(fù)樣本比例更加平衡的數(shù)據(jù)集上進(jìn)行基因圖像分類實(shí)驗(yàn)的各項(xiàng)指標(biāo)更優(yōu);在正負(fù)樣本比例相同的情況下,使用GAN 擴(kuò)增方法的效果優(yōu)于傳統(tǒng)擴(kuò)增方法。
本節(jié)對比了不同生成對抗網(wǎng)絡(luò)對基因特征圖擴(kuò)增后的檢測結(jié)果。首先將真實(shí)基因圖像數(shù)據(jù)分別傳入基礎(chǔ)GAN、DCGAN、WGAN-GP、GeneGAN 中,各自經(jīng)過10 萬輪的迭代訓(xùn)練得到擴(kuò)增的基因圖像數(shù)據(jù)如圖7 所示。
圖7 四種GAN方法生成圖像Fig.7 Images generated by four GAN methods
由圖7 可以發(fā)現(xiàn),在進(jìn)行迭代訓(xùn)練的過程中,隨著迭代次數(shù)的增加,生成圖像的紋理逐漸清晰,但四種GAN 生成圖像的質(zhì)量卻有很大差別:基礎(chǔ)GAN 生成圖像的質(zhì)量最差,像素點(diǎn)的分布和真實(shí)樣本差異過大;DCGAN 生成圖像中出現(xiàn)了真實(shí)樣本所不存在的紫色和粉色區(qū)域;WGAN-GP 生成圖像中出現(xiàn)了大量不規(guī)則的低分辨率模糊區(qū)域;GeneGAN 生成圖像的質(zhì)量最好,最接近真實(shí)樣本的效果。
原始數(shù)據(jù)集正負(fù)樣本比例為1∶25,經(jīng)過不同對抗生成網(wǎng)絡(luò)擴(kuò)增后分別得到正負(fù)樣本比例為1∶1、1∶15 的實(shí)驗(yàn)組。將實(shí)驗(yàn)組分別按7∶2∶1 的比例劃分為訓(xùn)練集、測試集和驗(yàn)證集,進(jìn)行實(shí)驗(yàn)后得到兩組數(shù)據(jù)集的CNN 學(xué)習(xí)過程見圖8,最終結(jié)果如表6 所示。由表6 可以看出,使用正負(fù)樣本比例為1∶25 的原始數(shù)據(jù)時(shí),所得到的指標(biāo)均為最差,使用基礎(chǔ)GAN、DCGAN、WGAN-GP、GeneGAN 進(jìn)行基因圖像擴(kuò)增后,正負(fù)樣本比例為1∶15 和1∶1 的實(shí)驗(yàn)中,本文方法GeneGAN均取得了最優(yōu)的效果(表6 中數(shù)據(jù)加粗表示)。
圖8 CNN在多種GAN擴(kuò)增數(shù)據(jù)集上的學(xué)習(xí)過程Fig.8 Learning process of convolutional neural network on multiple GAN amplified datasets
表6 不同正負(fù)樣本比例的四種GAN擴(kuò)增數(shù)據(jù)實(shí)驗(yàn)結(jié)果Tab.6 Experimental results of four kinds of GAN amplification data with different proportions of positive and negative samples
基于特征提取的檢測方法需要人為定義多個(gè)特征,特征維度受算法空間限制,而生成對抗網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)能夠運(yùn)用深度學(xué)習(xí)的自學(xué)習(xí)能力自動識別圖像特征并進(jìn)行特征學(xué)習(xí)。本組實(shí)驗(yàn)將本文方法與基于特征提取的檢測方法SVIM[26]、Sniffles[27]和Pbhoney[28]進(jìn)行對比。
原始數(shù)據(jù)正負(fù)樣本比例為1∶25,使用GeneGAN 擴(kuò)增方法進(jìn)行基因圖像擴(kuò)增,擴(kuò)增后正負(fù)樣本比例為1∶1,將擴(kuò)增后得到的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),得到結(jié)果如表7 所示??梢钥闯?,本文方法僅精確率比Pbhoney 要低,但召回率是Pbhoney的約兩倍,F(xiàn)1值明顯更優(yōu)。
表7 各特征提取方法的實(shí)驗(yàn)結(jié)果對比 單位:%Tab.7 Experimental results comparison of different feature extraction methods unit:%
本文針對于基因結(jié)果變異檢測中樣本數(shù)量少且正負(fù)樣本數(shù)量不平衡等問題,基于生成對抗網(wǎng)絡(luò)提出了基因圖像數(shù)據(jù)擴(kuò)增方法GeneGAN,以提高變異基因圖像檢測的精確率和召回率。通過實(shí)驗(yàn)證實(shí)了數(shù)據(jù)不平衡問題對分類結(jié)果影響很大,平衡正負(fù)樣本比例可以實(shí)驗(yàn)得到更好的結(jié)果;而且實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)擴(kuò)增方法、生成對抗網(wǎng)絡(luò)擴(kuò)增方法、特征提取方法相比,GeneGAN 方法的擴(kuò)增數(shù)據(jù)質(zhì)量更高,分類結(jié)果更好。目前該方法僅適用于分辨率較低的基因圖像,為在分辨率較高的場景下使用,該方法還有待進(jìn)一步的研究與改進(jìn);同時(shí),由于GeneGAN 的網(wǎng)絡(luò)模型較為復(fù)雜且參數(shù)量較大,導(dǎo)致神經(jīng)網(wǎng)絡(luò)在訓(xùn)練時(shí)所消耗資源較多,仍需進(jìn)一步研究。