黃丹丹,汪梅,張永高,等.基于改進(jìn)DCGAN的對(duì)地觀測(cè)圖像生成方法[J].西安科技大學(xué)學(xué)報(bào),2024,44(5):985-995.
HUANG Dandan,WANG Mei,ZHANG Yonggao,et al.Earth observation image generation method based "on improved DCGAN[J].Journal of Xi’an University of Science and Technology,2024,44(5):985-995.
摘要:為了研究無(wú)人機(jī)對(duì)地觀測(cè)圖像樣本的平衡性,提高對(duì)地觀測(cè)在深度學(xué)習(xí)中的應(yīng)用,采用圖像生成方法對(duì)無(wú)人機(jī)對(duì)地觀測(cè)圖像進(jìn)行大量生成;針對(duì)圖像生成模型在訓(xùn)練時(shí)出現(xiàn)的穩(wěn)定性和生成圖像的質(zhì)量問(wèn)題,提出一種基于改進(jìn)DCGAN的對(duì)地觀測(cè)圖像生成方法。首先在DCGAN的生成器和判別器的網(wǎng)絡(luò)結(jié)構(gòu)中增加批處理層,然后將判別器的優(yōu)化器改進(jìn)為隨機(jī)梯度下降,且生成器的優(yōu)化器采用自適應(yīng)學(xué)習(xí)率,最后改進(jìn)模型的損失函數(shù)。結(jié)果表明:改進(jìn)后的DCGAN網(wǎng)絡(luò)模型生成的數(shù)據(jù)與原始數(shù)據(jù)的統(tǒng)計(jì)特征相似,模型性能良好,相比于其他的GAN衍生模型,改進(jìn)后的DCGAN模型更具有穩(wěn)定性,在訓(xùn)練過(guò)程中未出現(xiàn)模式崩塌的現(xiàn)象,模型生成圖像的FID分?jǐn)?shù)值為4.631,比原始DCGAN模型低2.409,該方法生成的圖像質(zhì)量更好,更加適用大規(guī)模的對(duì)地觀測(cè)圖像數(shù)據(jù)的生成。
關(guān)鍵詞:對(duì)地觀測(cè);深度卷積生成對(duì)抗網(wǎng)絡(luò);深度學(xué)習(xí);圖像生成
中圖分類號(hào):TP 391
Earth observation image generation method based on improved DCGAN
HUANG Dandan1,WANG Mei1,ZHANG Yonggao1,SHI Junjie1,
ZHANG Yan2,LI Yuancheng1
(1.College of Computer Science and Engineering,Xi’an University of Science and Technology,Xi’an 710054,China;
2.College of Electrical and Control Engineering,Xi’an University of Science and Technology,Xi’an 710054,China)
Abstract:In order to study the balance of UAV ground observation image samples and improve the application of ground observation in deep learning,an image generation method is used to generate a large number of UAV ground observation images.For the stability of the image generation model during training and the quality of the generated images,a ground observation image generation method based on improved DCGAN is proposed.Firstly,a batch processing layer is added to the network structure of the generator and discriminator of DCGAN;secondly,the optimizer of the discriminator is improved to stochastic gradient descent and the optimizer of the generator adopts adaptive learning rate,and finally,the loss function of the model is improved.The experimental results show that the data generated by the improved DCGAN network model is similar to the original data in terms of statistical characteristics,and the model performance is good.Compared with other GAN-derived models,the improved DCGAN model is more stable,and there is no pattern collapse during the training process,and the FID score value of the model-generated image is 4.631,which is 2.409% lower than that of the original DCGAN model,indicating that the quality of the image generated by the proposed method is very high.The FID score of the model generated image is 4.631,which is 2.409 lower than the original DCGAN model,indicating that the proposed method generates better the images in quality and is more suitable for large-scale Earth observation image data generation.
Key words:earth observation;deep convolutional generative adversarial networks;deep learning;image production
0引言
對(duì)地觀測(cè)是指利用航天航空飛行器和各種地面?zhèn)鞲衅脚_(tái)獲取地表和深層區(qū)域的時(shí)空信息[1],結(jié)合深度學(xué)習(xí)相關(guān)技術(shù)能夠?qū)崿F(xiàn)對(duì)世界全球的實(shí)時(shí)觀測(cè)[2],是促進(jìn)地球系統(tǒng)科學(xué)和空間信息科學(xué)發(fā)展的重要支柱[3],為環(huán)境監(jiān)測(cè)和地球系統(tǒng)科學(xué)研究提供了基礎(chǔ)條件。隨著中國(guó)信息化建設(shè)的飛速發(fā)展,利用無(wú)人機(jī)進(jìn)行航拍和偵查是對(duì)地觀測(cè)中的一個(gè)重要領(lǐng)域,無(wú)人機(jī)作為信息采集的獨(dú)特載體,憑借自身優(yōu)勢(shì),在航拍、農(nóng)業(yè)、救災(zāi)防災(zāi)、野生動(dòng)物觀測(cè)、測(cè)繪、電力巡線、影視、新聞報(bào)道等領(lǐng)域都有很大的應(yīng)用[4],無(wú)人機(jī)航拍圖像與深度學(xué)習(xí)檢測(cè)技術(shù)的結(jié)合也逐漸成為當(dāng)今的熱門研究方向。但由于無(wú)人機(jī)在采集對(duì)地觀測(cè)圖像時(shí)會(huì)受到各種惡劣天氣的干擾,使得所拍攝的圖像可用性不高,導(dǎo)致樣本不平衡,無(wú)法滿足后續(xù)應(yīng)用需求。因此,處理不平衡的數(shù)據(jù)集也就是獲得大量清晰可識(shí)別的對(duì)地觀測(cè)圖像是至關(guān)重要的。
在以往的研究中,有許多方法被用來(lái)處理不平衡的數(shù)據(jù)。最直接的方法是重新采樣數(shù)據(jù)集,但這種方法在對(duì)地觀測(cè)過(guò)程中花費(fèi)較多,成本太大;后來(lái)過(guò)采樣的方法也被用于平衡數(shù)據(jù)集,但由于存在重復(fù)的樣品,過(guò)采樣的方法很容易導(dǎo)致因過(guò)擬合而采樣不足的問(wèn)題,而且由于只使用了部分樣本,在采樣過(guò)程中圖像信息可能會(huì)丟失,這些缺點(diǎn)都會(huì)導(dǎo)致數(shù)據(jù)處理不完善。而隨著深度學(xué)習(xí)的興起,對(duì)于處理不平衡的數(shù)據(jù)集方面,又有了新的突破[5]。深度學(xué)習(xí)可以通過(guò)學(xué)習(xí)深度非線性網(wǎng)絡(luò)結(jié)構(gòu)來(lái)實(shí)現(xiàn)復(fù)雜函數(shù)逼近,并表征輸入數(shù)據(jù)的分布式表示,能夠應(yīng)用于數(shù)據(jù)集的擴(kuò)展和增強(qiáng)[6]。
在2014年以前,CHAWLA等提出了基于插值的合成少數(shù)過(guò)采樣技術(shù)(煙霧)來(lái)合成少數(shù)類別新樣本的方法,該方法防止了隨機(jī)過(guò)采樣中的過(guò)擬合問(wèn)題,但容易出現(xiàn)樣本重疊的問(wèn)題[7];VINCENT等提出了自動(dòng)編碼器模型,該方法經(jīng)過(guò)驗(yàn)證得到的結(jié)果較差[8];YANG等提出了變分自編碼器模型,本質(zhì)上是基于自編碼器的改進(jìn),經(jīng)過(guò)試驗(yàn)驗(yàn)證后得到的結(jié)果也很差[9]。直到2014年,GOODFELLOW等提出了生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)模型[10],在GAN模型中,還有另一種判別模型可以幫助生成模型更好地監(jiān)測(cè)數(shù)據(jù)的條件分布。GAN是深度學(xué)習(xí)發(fā)展的一個(gè)里程碑,在圖像領(lǐng)域的發(fā)展相對(duì)比較成熟,但其訓(xùn)練過(guò)程和結(jié)果仍不穩(wěn)定。
為了改善上述問(wèn)題,NOWOZIN等提出了f-GAN模型,模型生成的結(jié)果具有較大的不確定性,且更多的是一種推論[11];MAO等提出了LSGAN(Least Square GAN)模型,LSGAN模型使用最小二乘損失函數(shù)代替?zhèn)鹘y(tǒng)GAN模型中的交叉嫡損失函數(shù),但模型在訓(xùn)練時(shí)依然有可能不穩(wěn)定[12];WU等提出了WGAN(Wasserstein GAN)模型,WGAN模型使用Earth-Mover 距離來(lái)計(jì)算真實(shí)數(shù)據(jù)的概率分布與生成數(shù)據(jù)的相似度,有很大可能出現(xiàn)生成的數(shù)據(jù)樣本質(zhì)量較低,收斂失敗的問(wèn)題[13]。這幾個(gè)模型對(duì)GAN模型的優(yōu)化都是從目標(biāo)函數(shù)優(yōu)化的方法著手,雖然也解決了一部分問(wèn)題,但模型訓(xùn)練的穩(wěn)定性和梯度消失問(wèn)題仍沒(méi)有得到很好的處理,直到MIRZA等提出了CGAN(Conditional GAN)模型,CGAN模型網(wǎng)絡(luò)能夠朝著既定的方向生成樣本,但是在訓(xùn)練時(shí)依然出現(xiàn)不穩(wěn)定的現(xiàn)象[14];DCGAN(Deep Convolutional GAN)模型的提出為GAN模型的發(fā)展做出了突出貢獻(xiàn),將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和GAN模型結(jié)合起來(lái),填補(bǔ)了CNN在有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)成功之間的差距[15-16],DCGAN模型在大多數(shù)訓(xùn)練下是穩(wěn)定的。
綜上所述,從目標(biāo)函數(shù)方面優(yōu)化GAN的圖像生成模型在訓(xùn)練時(shí)會(huì)出現(xiàn)不穩(wěn)定的問(wèn)題,而從模型架構(gòu)穩(wěn)定方面優(yōu)化的模型則忽略了生成圖像的質(zhì)量問(wèn)題,因此,選用模型架構(gòu)較好的DCGAN模型,并對(duì)其進(jìn)一步改進(jìn),用來(lái)對(duì)地觀測(cè)圖像的生成。針對(duì)原始DCGAN模型的缺陷和無(wú)人機(jī)對(duì)地觀測(cè)圖像的特點(diǎn),首先在DCGAN的生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)中增加批處理層,其次將判別器的優(yōu)化器改進(jìn)為隨機(jī)梯度下降,最后改進(jìn)模型中的損失函數(shù)。在對(duì)采集到的數(shù)據(jù)進(jìn)行預(yù)處理后,使用改進(jìn)后的DCGAN進(jìn)行數(shù)據(jù)生成,對(duì)于新獲得的圖像數(shù)據(jù),最后采用FID分?jǐn)?shù)進(jìn)行質(zhì)量評(píng)估。
1DCGAN算法原理
1.1生成對(duì)抗網(wǎng)絡(luò)
生成對(duì)抗網(wǎng)絡(luò)(GAN)是一種深度學(xué)習(xí)模型,是近年來(lái)在復(fù)雜分布中最有前途的無(wú)監(jiān)督學(xué)習(xí)方法之一[17]。該模型通過(guò)框架中2個(gè)模塊的相互博弈學(xué)習(xí),分別是G(生成模型)和D(鑒別模型),產(chǎn)生了相當(dāng)好的輸出。GAN的原理是:假設(shè)存在一個(gè)概率分布M,它被看作是一個(gè)黑盒,為了理解這個(gè)黑盒子中是什么,建立了2個(gè)模型G和D,G是另一個(gè)完全已知的概率分布,D是用來(lái)區(qū)分一個(gè)事件是從黑盒子M或由G產(chǎn)生的[18]。不斷調(diào)整G和D,直到D無(wú)法區(qū)分事件為止。
在生成器G中,G是一個(gè)輸入為z,輸出為x的函數(shù),給定一個(gè)先驗(yàn)分布Pprior(z),概率分布PG(x)由函數(shù)G定義;在鑒別器D中,D是一個(gè)輸入為x、輸出為標(biāo)量(“實(shí)”或“假”)的函數(shù),計(jì)算PG(x)和Pdata(x)之間的“差值”。
當(dāng)D不能區(qū)分事件的來(lái)源時(shí),可以認(rèn)為G和M是相同的[19]。因此,對(duì)抗網(wǎng)絡(luò)的公式為
minGmaxDV(D,G)=Ex~Pdata(x)[logD(x)]+
Ez~PG(z)[log(1-D(G(z))]
(1)
式中x~Pdata(x)取自真實(shí)分布M;z~PG(z)取自模擬的分布G。
因此,當(dāng)優(yōu)化D時(shí),D*G為最大V(D,G),而當(dāng)優(yōu)化G時(shí),G*為最小V(D,G),優(yōu)化后的公式為
D*G=argmaxDV(G,D)
(2)
G*=argminGV(G,D*G)
(3)
式中G為捕獲樣本數(shù)據(jù)的分布,用來(lái)生成一個(gè)類似于真實(shí)訓(xùn)練數(shù)據(jù)的樣本,噪聲z服從一定的分布(均勻分布、高斯分布等);D為一種分類器,估計(jì)從訓(xùn)練數(shù)據(jù)(而不是生成的數(shù)據(jù))中得到一個(gè)樣本的概率。
如果樣本來(lái)自真實(shí)的訓(xùn)練數(shù)據(jù),D輸出較大的概率,否則,D輸出較小的概率。過(guò)程如圖1所示。
在GAN網(wǎng)絡(luò)訓(xùn)練中,用梯度下降K次來(lái)訓(xùn)練D,然后在每次迭代中梯度下降一次就訓(xùn)練一次G。這是因?yàn)镈訓(xùn)練是一項(xiàng)非常耗時(shí)的操作,而且在有限的集合上,太多的訓(xùn)練很容易過(guò)度擬合。基于GAN的不足,近些年來(lái)研究者們提出來(lái)很多改進(jìn)的模型,并且模型在訓(xùn)練過(guò)程更穩(wěn)定。因此,選擇DCGAN作為數(shù)據(jù)生成模型。
1.2深度卷積生成對(duì)抗網(wǎng)絡(luò)
基于深度卷積的生成對(duì)抗網(wǎng)絡(luò)(DCGAN)是一個(gè)將最佳圖像處理模型CNN與創(chuàng)新的生成模型GAN相結(jié)合的神經(jīng)網(wǎng)絡(luò)[20]。DCGAN的原理與GAN基本相同,只是用2個(gè)卷積神經(jīng)網(wǎng)絡(luò)代替了上面的G和D,但并不是直接的替代,而是對(duì)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了一些改變,以提高樣本的質(zhì)量和收斂速度[21]。相比于GAN模型,DCGAN 模型的架構(gòu)發(fā)生了變化。首先,GAN使用空間池化方法,而DCGAN使用卷積步幅;其次,對(duì)于G中的上采樣過(guò)程,DCGAN實(shí)現(xiàn)了轉(zhuǎn)置卷積;最后,DCGAN不像GAN架構(gòu)那樣需要完全連接層。DCGAN的結(jié)構(gòu)如圖2所示[22]。
DCGAN的損失函數(shù)公式為
V(D,G)=Ex~Pdata(x)[logD(x)]+
Ez~Pz(z)[log(1-D(G(z)))]
(4)
上述式子是用于G的等式,用于D的損失函數(shù)公式為
LOSS(D)=-(logD1(x))+
log(1-D2(G(z)))
(5)
LOSS(G)=-(log(D2(G(z)))
(6)
式中D和G分別為判別器和生成器;G(z)為隨機(jī)向量生成的樣本;x為真實(shí)世界的數(shù)據(jù)。當(dāng)損失函數(shù)減少時(shí),就會(huì)產(chǎn)生最佳權(quán)重值。
2MSE-DCGAN算法
隨著深度學(xué)習(xí)和無(wú)人機(jī)技術(shù)的發(fā)展,GAN系列模型不斷被應(yīng)用于無(wú)人機(jī)對(duì)地觀測(cè)研究中,其中被廣泛應(yīng)用的就是DCGAN模型。由于DCGAN 模型中的卷積網(wǎng)絡(luò)有著強(qiáng)大的特征提取能力,因而具有重要的實(shí)際應(yīng)用前景[23],不僅可以提高數(shù)據(jù)增強(qiáng)和合成能力、填補(bǔ)數(shù)據(jù)缺失和不完整性、進(jìn)行地貌和氣象模擬,還能生成目標(biāo)檢測(cè)和分類訓(xùn)練數(shù)據(jù)等。這些應(yīng)用有助于提升對(duì)地觀測(cè)數(shù)據(jù)的質(zhì)量和多樣性,為環(huán)境科學(xué)、地理信息系統(tǒng)和氣候研究等提供支持[24]。然而DCGAN模型架構(gòu)雖好,但是對(duì)GAN訓(xùn)練穩(wěn)定性來(lái)說(shuō)是治標(biāo)不治本,而且相比于GAN其他的衍生算法,也沒(méi)有更進(jìn)一步的性能優(yōu)化,針對(duì)這些問(wèn)題,將結(jié)合無(wú)人機(jī)對(duì)地觀測(cè)圖像特點(diǎn),首先對(duì)DCGAN 模型結(jié)構(gòu)進(jìn)行改進(jìn),提高模型的穩(wěn)定性;其次改進(jìn)模型的損失函數(shù),平衡生成器和判別器的能力,提高模型的收斂速度;最后改進(jìn)模型的優(yōu)化器,提高模型生成的對(duì)地觀測(cè)圖像質(zhì)量,平衡數(shù)據(jù)樣本集。將改進(jìn)的DCGAN統(tǒng)稱為MSE-DCGAN,主要通過(guò)生成器G、判別器D和損失函數(shù)3個(gè)部分來(lái)描述具體的改進(jìn)。
2.1改進(jìn)生成器
在生成器中,首先使用分?jǐn)?shù)步長(zhǎng)卷積代替池化層,以提高生成圖像的質(zhì)量,并在除最后一層外的其他層加入批量歸一化層,增加網(wǎng)絡(luò)學(xué)習(xí)的穩(wěn)定性。改進(jìn)后的生成器G網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
激活函數(shù)也是DCGAN模型中必不可少的,其作用是將模型的輸入進(jìn)行非線性映射,使得神經(jīng)網(wǎng)絡(luò)可以任意逼近任何非線性函數(shù)。
常用的有Sigmoid函數(shù)、Tanh函數(shù)、ReLU等,公式分別為
f(z)=11+exp(-z)
(7)
f(z)=exp(z)-exp(-z)exp(z)+exp(-z)
(8)
f(z)=max{0,z}
(9)
Sigmoid函數(shù)是將連續(xù)實(shí)值變換為0~1的輸出;Tanh函數(shù)的取值范圍為[-1,1]。為了提高DCGAN模型的性能,生成網(wǎng)絡(luò)除輸出層采用Tanh函數(shù),其余層激活函數(shù)均為L(zhǎng)eakyReLU函數(shù)。同樣,優(yōu)化算法的選擇對(duì)模型來(lái)說(shuō)也是重中之重,優(yōu)化算法的不同,模型訓(xùn)練的效果也有所不同。在深度學(xué)習(xí)中,常用的優(yōu)化算法有批量梯度下降法(BGD)、隨機(jī)梯度下降法(SGD)、自適應(yīng)學(xué)習(xí)率優(yōu)化算法(Adam)等,為了使生成的圖像質(zhì)量很好,生成器中的優(yōu)化器采用Adam優(yōu)化器,Adam優(yōu)化器既可以加速優(yōu)化,又可以自動(dòng)調(diào)整學(xué)習(xí)率,能夠大大提高生成器的性能。
Adam公式表示為
mt=μmt-1+(1-μ)gt
(10)
nt=vnt-1+(1-v)g2t
(11)
t=mt1-μt
(12)
t=nt1-vt
(13)
Δθt=tt+ε*η
(14)
式中mt,nt分別為對(duì)梯度的一階矩估計(jì)和二階矩估計(jì);
t,t為對(duì)mt,nt的校正,這樣可以近似為對(duì)期望的無(wú)偏估計(jì)。生成器的輸入為均勻分布的隨機(jī)噪聲,經(jīng)過(guò)Reshape后得到大小為 4×4 的 512 層圖像。再經(jīng)過(guò)一系列的4個(gè)分段卷積,就轉(zhuǎn)換成了一個(gè)128×128像素的圖像。
2.2改進(jìn)判別器
在判別器中,使用步長(zhǎng)卷積來(lái)代替池化層,要在中間層加入批量歸一化層,除最后一層使用Sigmoid激活函數(shù),其他層均采用 LeakyReLu函數(shù),為了使判別器的性能優(yōu)良,采用SGD優(yōu)化器來(lái)代替原來(lái)的優(yōu)化器,SGD不僅能夠加快判別器優(yōu)化的速度,還能提高模型的收斂速度。
SGD公式表示為
gt=SymbolQC@
θt-1f(θt-1)
(15)
Δθt=-η*gt
(16)
式中η為學(xué)習(xí)率;gt為梯度SGD完全依賴于當(dāng)前Batch的梯度;η可理解為允許當(dāng)前Batch的梯度在多大程度上影響參數(shù)更新。
判別器的輸入有2部分:一個(gè)是用無(wú)人機(jī)獲取的真實(shí)的對(duì)地觀測(cè)圖像數(shù)據(jù),另一個(gè)是生成網(wǎng)絡(luò)生成的假的對(duì)地觀測(cè)圖像數(shù)據(jù)。判別器的作用是要判斷生成的對(duì)地觀測(cè)圖像的真實(shí)性,DCGAN模型的判別器網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
2.3改進(jìn)損失函數(shù)
傳統(tǒng)的DCGAN模型以判別器為分類器,采用交叉熵?fù)p失函數(shù)。如第1節(jié)所述,在更新生成器時(shí),這個(gè)損失函數(shù)會(huì)導(dǎo)致位于決策邊界但仍遠(yuǎn)離真實(shí)數(shù)據(jù)的樣本出現(xiàn)梯度消失的問(wèn)題。為了解決這個(gè)問(wèn)題,使模型在訓(xùn)練中趨于穩(wěn)定和收斂,防止出現(xiàn)梯度消失的現(xiàn)象,用最小二乘改進(jìn)DCGAN模型的損失函數(shù)。當(dāng)判別器對(duì)真實(shí)樣本和生成器生成的‘假’樣本進(jìn)行分類時(shí),使用交叉熵?fù)p失函數(shù)雖然能夠分類正確,但是會(huì)導(dǎo)致那些在決策邊界被分類為真的,卻仍然遠(yuǎn)離真實(shí)數(shù)據(jù)的假樣本(即生成器生成的樣本)不會(huì)繼續(xù)迭代,使判別器無(wú)法識(shí)別,從而在更新生成器的時(shí)候就會(huì)發(fā)生梯度彌散的問(wèn)題。而用最小二乘改進(jìn)后的損失函數(shù)則會(huì)使假樣本更接近決策邊界,能夠準(zhǔn)確識(shí)別距離決策邊界太遠(yuǎn)的假樣本,使整個(gè)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程更加穩(wěn)定,最終生成出來(lái)的圖像質(zhì)量更好。
假設(shè)對(duì)判別器使用a-b編碼方案,其中a和b分別是假數(shù)據(jù)和真實(shí)數(shù)據(jù)的標(biāo)簽。改進(jìn)后的DCGAN模型的損失函數(shù)可以表示為
minDV(D)=12Ex~pdata(x)[(D(x)-b)2]
+12Ez~pz(z)[(D(G(z))-a)2]
(17)
minGV(G)=12Ez~pz(z)[(D(G(z))-c)2]
(18)
式中c為G希望D相信假數(shù)據(jù)的值。
為了使模型訓(xùn)練的速度更快,將模型設(shè)置成每訓(xùn)練1次判別器,就訓(xùn)練8次生成器,也就是每更新 1 次判別器的權(quán)重就需要更新8次生成器的權(quán)重,如此循環(huán)往復(fù),生成器不斷地學(xué)習(xí)真實(shí)數(shù)據(jù)的特征分布,最終就會(huì)生成讓判別器無(wú)法辨別真假的對(duì)地觀測(cè)圖像。在整個(gè)訓(xùn)練過(guò)程中,生成器與判別器保持基本相同的學(xué)習(xí)速率互相學(xué)習(xí),隨著不斷地迭代更新,最終會(huì)達(dá)到納什均衡的效果。
3試驗(yàn)和結(jié)果
3.1數(shù)據(jù)描述
無(wú)人機(jī)作為低空遙感平臺(tái)的運(yùn)載工具[25],基本上分為2類:固定翼無(wú)人機(jī)和多旋翼無(wú)人機(jī)。文中主要使用無(wú)人機(jī)遙感系統(tǒng)來(lái)獲取數(shù)據(jù),如圖5所示,低空遙感平臺(tái)主要由運(yùn)載工具,"地面站以及微型傳感器系統(tǒng)構(gòu)成。運(yùn)載工具主要以四旋翼無(wú)人機(jī),固定翼無(wú)人機(jī)等飛行器為主,可以在低空穩(wěn)定飛行。地面站主要用于控制與監(jiān)測(cè)運(yùn)載工具飛行路線以及監(jiān)控飛行的速度,高度,俯仰角等關(guān)鍵信息;通過(guò)地面站可以提前規(guī)劃飛行區(qū)域,路線,以及高度等重要參數(shù)。
數(shù)據(jù)集采用自建數(shù)據(jù)集,數(shù)據(jù)集是使用四旋翼無(wú)人機(jī)采集到的某高校校園場(chǎng)景圖。無(wú)人機(jī)設(shè)備通過(guò)調(diào)整后,再確定場(chǎng)景,即可拍攝得到圖像數(shù)據(jù)集。原始的圖像數(shù)據(jù)集首先會(huì)經(jīng)過(guò)人工篩選,進(jìn)而得到較為清晰的對(duì)地觀測(cè)圖像樣本集,一共有1 200張,圖像分辨率為960×540,部分原始數(shù)據(jù)集如圖6所示。
3.2評(píng)價(jià)指標(biāo)
用來(lái)判斷生成圖像質(zhì)量的評(píng)價(jià)指標(biāo)一般就IS(Inception Score)、FID(Fréchet Inception Distance)2種。IS使用在ImageNet上預(yù)訓(xùn)練的Inception V3 Network作為分類網(wǎng)絡(luò),將生成器生成的圖像輸入到Inception V3 Network中,對(duì)該網(wǎng)絡(luò)輸出值(圖像所屬類別)做統(tǒng)計(jì)分析[26]。
IS的計(jì)算公式為
IS(G)=exp(Ex~PgDKL(p(yx)‖p(y)))
(19)
式中x~pg為x是從pg中生成的圖像樣本;DKL(p‖q)為分布p和q間的KL散度(衡量2個(gè)分部間距離);p(yx)為在給定圖像x下分類為y的概率(∈[0,1]1 000,表示ImageNet中的1 000類);p(y)=∫xp(yx)pg(x)為類別的邊緣分布;exp為便于比較最終計(jì)算的IS值。
IS值越大說(shuō)明模型效果越好,但只考慮了DCGAN模型生成樣本的質(zhì)量,并沒(méi)有考慮真實(shí)數(shù)據(jù)的影響,因此,選用FID值作為評(píng)價(jià)指標(biāo)。FID[27]是用來(lái)計(jì)算真實(shí)圖像與生成圖像的特征向量間距離的一種度量。
假設(shè)真實(shí)分布Pr和生成分布Pg建模為多維高斯分布,參數(shù)分別為(μr,∑r)和(μg,∑g),其中μr和∑r分別為均值向量和協(xié)方差矩陣。
FID的計(jì)算公式為
d2((μr,∑r),(μg,∑g))=‖μr-μg‖2+
Tr(∑r+∑g-2(∑r∑g)12)
(20)
式中Tr為矩陣的跡(矩陣對(duì)角元之和)。
FID分?jǐn)?shù)是表示生成圖像質(zhì)量的度量。將真實(shí)數(shù)據(jù)(訓(xùn)練數(shù)據(jù)集)的圖像質(zhì)量與生成的輸出的圖像質(zhì)量進(jìn)行比較。FID得分越低,模型的表現(xiàn)就越好,看起來(lái)與數(shù)據(jù)集中給出的圖像高度相似。最好情況即是FID=0,2個(gè)圖像的質(zhì)量相同。
3.3消融試驗(yàn)
為了驗(yàn)證MSE-DCGAN模型對(duì)無(wú)人機(jī)對(duì)地觀測(cè)圖像的生成效果,基于自建數(shù)據(jù)集對(duì)各個(gè)階段的改進(jìn)措施設(shè)置了消融試驗(yàn),并與基準(zhǔn)模型DCGAN進(jìn)行了對(duì)比,結(jié)果見(jiàn)表1。
對(duì)于無(wú)人機(jī)對(duì)地觀測(cè)圖像的生成,DCGAN在每個(gè)階段都有一定的改進(jìn):①只對(duì)DCGAN生成器的改進(jìn),使得模型的損失值和生成圖像的FID值都有所下降,且FID值下降得較為明顯,表明DCGAN生成器的改進(jìn)能夠有效地提升模型生成圖像的質(zhì)量;②只對(duì)DCGAN 判別器的改進(jìn)導(dǎo)致了損失值的大幅降低,而FID值的變化并不明顯,說(shuō)明單一的生成器改進(jìn)并不能達(dá)到提高生成圖像質(zhì)量的目的;③對(duì)DCGAN損失函數(shù)的改進(jìn)能夠使模型的損失值大幅降低,而FID值的變化并不明顯,說(shuō)明損失函數(shù)的改進(jìn)能夠有效降低模型的損失值,提高模型的收斂速度;而MSE-DCGAN模型通過(guò)對(duì)DCGAN生成器、判別器以及損失函數(shù)3個(gè)部分同時(shí)進(jìn)行改進(jìn),不僅導(dǎo)致模型的損失值下降,F(xiàn)ID值也有效降低,并且較為明顯,2個(gè)指標(biāo)分別降低了2.409(FID)和43.8%(LOSS)。結(jié)果表明,本章改進(jìn)后的模型能夠提升無(wú)人機(jī)對(duì)地觀測(cè)圖像生成的質(zhì)量,有效提高了模型的性能。
3.4MSE-DCGAN試驗(yàn)
基于改進(jìn)MSE-DCGAN的對(duì)地觀測(cè)圖像的生成算法過(guò)程如圖7所示。利用MSE-DCGAN模型生成對(duì)地觀測(cè)圖像的試驗(yàn)過(guò)程如下:首先將隨機(jī)噪聲輸入生成網(wǎng)絡(luò)中,生成“假”的樣本數(shù)據(jù),再將生成的“假”樣本數(shù)據(jù)與實(shí)際圖像一起輸入到判別網(wǎng)絡(luò),經(jīng)過(guò)不斷的循環(huán)迭代,即可得到目標(biāo)圖像。
經(jīng)過(guò)試驗(yàn)得知,MSE-DCGAN模型的各參數(shù)設(shè)置見(jiàn)表2,且在這些參數(shù)值下,MSE-DCGAN模型的網(wǎng)絡(luò)性能更好。
輸入均勻分布的隨機(jī)噪聲,輸出是分辨率為 128×128 的對(duì)地觀測(cè)圖像。經(jīng)過(guò)10 000次訓(xùn)練,對(duì)地觀測(cè)圖像如圖8所示。
從圖8可以看出,模型在訓(xùn)練1 000次時(shí),生成的圖像隱約能看出色彩分布,但是噪音較大,肉眼難以辨別;在訓(xùn)練5 000次時(shí),生成的圖像已隱約能看出場(chǎng)景分布,但是質(zhì)量依舊很差;而在訓(xùn)練10 000次后,生成的圖像清晰可見(jiàn),能夠看出此時(shí)模型生成的圖像質(zhì)量較好。
為驗(yàn)證MSE-DCGAN模型生成的圖像質(zhì)量更好,利用自建數(shù)據(jù)集設(shè)計(jì)了GAN、CGAN、DCGAN、LSGAN和MSE-DCGAN這5種網(wǎng)絡(luò)的對(duì)比試驗(yàn)。在相同輸入條件和參數(shù)設(shè)置下,5個(gè)模型生成的圖像如圖9所示。在訓(xùn)練10 000次后,GAN模型生成的圖像質(zhì)量模糊不清,CGAN、LSGAN和DCGAN生成的圖像質(zhì)量比GAN模型較好,但是可用性依然不高,而MSE-DCGAN模型生成的圖片質(zhì)量與其他5種模型相比不僅質(zhì)量清晰,而且可用性較高,MSE-DCGAN模型更適用于對(duì)地觀測(cè)圖像的生成。
為進(jìn)一步驗(yàn)證改進(jìn)后的DCGAN模型的性能,現(xiàn)將改進(jìn)模型的損失值曲線與其他生成模型的損失值曲線進(jìn)行比較。GAN模型、CGAN模型、LSGAN模型、DCGAN模型和MSE-DCGAN模型的損失曲線如圖10所示。在0到6 000個(gè)epoch時(shí),5個(gè)模型的損失曲線都在不斷震蕩,說(shuō)明生成模型的生成器和判別器在不斷學(xué)習(xí),互相博弈,使得生成的圖像越來(lái)越接近于真實(shí)圖像,但是由于此時(shí)訓(xùn)練次數(shù)不夠,5個(gè)模型生成器生成圖像的質(zhì)量都比較差,GAN模型、CGAN模型、LSGAN模型、DCGAN模型等4個(gè)模型的損失值都比MSE-DCGAN模型的損失值高。在6 000到10 000個(gè)epoch時(shí),隨著訓(xùn)練次數(shù)越來(lái)越高,GAN模型、CGAN模型和LSGAN模型出現(xiàn)模型崩塌現(xiàn)象,而DCGAN模型和MSE-DCGAN模型依舊能保持較好的性能,且生成器和判別器的損失曲線仍然在不斷震蕩,此時(shí)生成器已經(jīng)可以較好地學(xué)習(xí)到真實(shí)圖像的特征,能夠生成質(zhì)量較好的圖像,但是可以明顯看出,MSE-DCGAN模型的損失值是5個(gè)模型中最低的,模型性能較好。
從5個(gè)模型的損失曲線圖上看,MSE-DCGAN模型的損失曲線在0到10 000個(gè)epoch中,能夠一直保持較高的震蕩頻率且最終收斂,表示該模型性能良好,訓(xùn)練過(guò)程較為穩(wěn)定,且生成的圖像多樣性較好。為了更加直觀地表示模型的損失值對(duì)比,現(xiàn)計(jì)算5個(gè)模型的平均損失值,結(jié)果見(jiàn)表3。改進(jìn)后的模型MSE-DCGAN的平均損失值為0.253,比GAN低0.736、比CGAN低0.533、比LSGAN低0.065、比DCGAN低0.438,表明文中模型的性能更好,收斂速度更快。
最后,將GAN模型、CGAN模型、LSGAN模型、DCGAN模型和MSE-DCGAN模型的參數(shù)設(shè)置成相同的值,在迭代10 000次后計(jì)算其生成圖像的FID值,結(jié)果見(jiàn)表4。
GAN模型和CGAN模型的FID值較高,DCGAN模型和LSGAN模型FID值大幅下降,說(shuō)明這2個(gè)模型的性能有所提升。其中FID分?jǐn)?shù)越低,其生成的圖像質(zhì)量越高。而MSE-DCGAN模型的FID分?jǐn)?shù)最低,說(shuō)明文中模型的性能最好。其中MSE-DCGAN模型的FID值為 4.631,低于其他模型的FID值。MSE-DCGAN模型生成的對(duì)地觀測(cè)圖像質(zhì)量?jī)?yōu)于其他的GAN衍生模型。
為了進(jìn)一步驗(yàn)證MSE-DCGAN模型的有效性和泛化能力,選用CelebA 數(shù)據(jù)集(人臉圖像)來(lái)驗(yàn)證MSE-DCGAN的性能。 CelebA數(shù)據(jù)集包含10 177個(gè)名人身份的202 599張人臉圖片,每張圖片都做好了特征標(biāo)記,包含人臉bbox標(biāo)注框、5個(gè)人臉特征點(diǎn)坐標(biāo)以及40個(gè)屬性標(biāo)記。隨機(jī)選用圖像數(shù)據(jù)集中的1 000張圖片,在經(jīng)過(guò)人工篩選和簡(jiǎn)單預(yù)處理后作為原始數(shù)據(jù)集,在與上文相同的參數(shù)和試驗(yàn)環(huán)境下,用MSE-DCGAN模型訓(xùn)練10 000次后生成的圖片如圖11所示。
從圖11可以看出,MSE-DCGAN模型生成的人臉圖像比DCGAN模型生成的圖像更加清晰,為了更加清晰地表示改進(jìn)模型的性能,計(jì)算DCGAN模型和MSE-DCGAN模型生成的圖像的FID值,結(jié)果見(jiàn)表5。
從表5可以看出,MSE-DCGAN模型在生成人臉圖像時(shí),生成圖像的FID值比原始模型低3.132,表明改進(jìn)后的模型MSE-DCGAN能夠應(yīng)用于其它數(shù)據(jù)集的生成,適用性較廣,也更加證實(shí)文中模型能夠有效生成無(wú)人機(jī)對(duì)地觀測(cè)圖像數(shù)據(jù),為下一步的對(duì)地觀測(cè)研究打下了基礎(chǔ)。
4結(jié)論
1)改進(jìn)DCGAN模型的網(wǎng)絡(luò)結(jié)構(gòu)和損失函數(shù),提高了DCGAN模型的性能、生成圖像的質(zhì)量以及訓(xùn)練過(guò)程的穩(wěn)定性。改進(jìn)后的DCGAN模型解決了在訓(xùn)練次數(shù)較高時(shí)模型出現(xiàn)不穩(wěn)定和梯度消失的問(wèn)題,模型損失率更低、生成的圖像的FID值比原始DCGAN低2.409。
2)與GAN模型、CGAN模型、LSGAN模型、DCGAN等模型生成的圖像進(jìn)行對(duì)比后,得到所提出的方法訓(xùn)練更加穩(wěn)定,生成的圖像效果更好,損失度更低,且FID值比GAN模型低10.043,比CGAN模型低10.107,比LSGAN模型低3.02,比DCGAN低2.409,能夠解決對(duì)地觀測(cè)數(shù)據(jù)集不平衡的問(wèn)題,為后續(xù)深度學(xué)習(xí)在對(duì)地觀測(cè)領(lǐng)域中的深度應(yīng)用奠定了基礎(chǔ)。
3)將改進(jìn)后的DCGAN模型用于公共數(shù)據(jù)集CelebA 數(shù)據(jù)集的生成時(shí),發(fā)現(xiàn)最終生成的圖像質(zhì)量較高,F(xiàn)ID值比原始DCGAN模型的FID值更低,表明改進(jìn)后的模型能夠應(yīng)用于其他數(shù)據(jù)集的生成中,適用性廣,泛化能力強(qiáng)。
參考文獻(xiàn)(References):
[1]安培浚,高峰,曲建升.對(duì)地觀測(cè)系統(tǒng)未來(lái)發(fā)展趨勢(shì)及其技術(shù)需求[J].遙感技術(shù)與應(yīng)用,2007,22(6):762-767.
AN Peijun,GAO Feng,QU Jiansheng.Trend and technology requirements of earth observing system[J].Remote Sensing Technology and Application,2007,22(6):762-767.
[2]林宗堅(jiān),李德仁,胥燕嬰.對(duì)地觀測(cè)技術(shù)最新進(jìn)展評(píng)述[J].測(cè)繪科學(xué),2011,36(4):5-8.
LIN Zongjian,LI Deren,XU Yanying.General review on the new progress of earth observations[J].Science of Surveying and Mapping,2011,36(4):5-8.
[3]王毅.國(guó)際新一代對(duì)地觀測(cè)系統(tǒng)的發(fā)展[J].地球科學(xué)進(jìn)展,2005,20(9):980-989.
WANG Yi.The development of the earth observation system[J].Advance in Earth Sciences,2005,20(9):980-989.
[4]李運(yùn)江,王冬,高旭.無(wú)人機(jī)激光掃描技術(shù)在礦區(qū)地形測(cè)量中的應(yīng)用[J].山東煤炭科技,2023,41(8):207-210.
LI Yunjiang,WANG Dong,GAO Xu.Application of drone laser scanning technology in topographic survey of the mining area[J].Shandong Coal Science and Technology,2023,41(8):207-210.
[5]郭昕.統(tǒng)計(jì)區(qū)域合并的彩色圖像分割算法[J].西安科技大學(xué)學(xué)報(bào),2015,35(3):392-396.
GUO Xin.Color image segmentation method of statistical region merging[J].Journal of Xi’an University of Science and Technology,2015,35(3):392-396.
[6]LECUN Y,BENGIO Y,HINTON G.Deep learning[J].Nature,2015,521(7553):436-444.
[7]CHAWLA N V,BOWYER K W,HALL L O,et al.Smote:Synthetic minority oversampling technique[J].Journal of Artificial Intelligence Research,2002,16(1):321-357.
[8]VINCENT P,LAROCHELLE H,BENGIO Y,et al.Extracting and composing robust features with denoiseng "autoencoders[C]//Proceedings of the 25th international conference on Machine learning,2008:1096-1103.
[9]YANG X,TANG K H,ZHANG H W,et al.Auto-encoding scene graphs for image captioning[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR),2019:10685-10694.
[10]GOODFELLOW I,JEAN P.Ge-nerative adversarial networks[J/OL].arXiv:1406.2661,2014.http://arxiv.org/abs/1406.2661.
[11]NOWOZIN S,CSEKE B,TOMIOKA R.F-GAN:Training generative neural samplers using variational divergence minimization[J].Advances in Neural Information Processing Systems,2016(6):271-279.
[12]MAO X D,LI Q,XIE H R,et al.Least squares generative adversarial networks[C]//Proceedings of the IEEE International Conference on Computer Vision(ICCV),2017:2813-2821.
[13]WU J Q,HUANG Z W,THOMA J,et al.Wasserstein divergence for GANs[C]//Proceedings of the European Conference on Computer Vision(ECCV),2018:653-668.
[14]MIRZA M,OSINDERO S.Conditional generative adversarial nets[J/OL].ArXiv:1411.1784,2014.http://arxiv.org/abs/1411.1784.
[15]RADFORD A,METZ L,CHINTALA S.Unsupervised representation learning with deep convolutional generative adversarial networks[J/OL].ArXiv:1511.06434,2015.http://arxiv.org/abs/1511.06434.
[16]汪美琴,袁偉偉,張繼業(yè).生成對(duì)抗網(wǎng)絡(luò)GAN的研究綜述[J].計(jì)算機(jī)工程與設(shè)計(jì),2021,42(12):3389-3395.
WANG Meiqin,YUAN Weiwei,ZHANG Jiye.Overview of research on generative adversarial network GAN[J].Computer Engineering and Design,2021,42(12):3389-3395.
[17]馬天,李凡卉,席潤(rùn)韜,等.基于生成對(duì)抗網(wǎng)絡(luò)結(jié)合Transformer的半監(jiān)督圖像增強(qiáng)方法[J].西安科技大學(xué)學(xué)報(bào),2023,43(6):1207-1218.
MA Tian,LI Fanhui,XI Runtao,et al.Semi-supervised image enhancement method based on generative adversarial network combined with Transformer[J].Journal of Xi’an University of Science and Technology,2023,43(6):1207-1218.
[18]MAAYAN F A,IDIT D,EYAL K,et al.GAN based synthetic medical image augmentation for increased CNN performance in liver lesion classification[J].Neurocomputing,2018,321:321-331.
[19]SHAO S,WANG P,YAN R.Generative adversarial networks for data augmentation in machine fault diagnosis[J].Computers in Industry,2019,106:85-93.
[20]DU Y.DCGANbased data generation for process monitoring[C]//2019 IEEE 8th Data Driven Control and Learning Systems Conference,2019:410-415.
[21]王士斌,高梓雕,劉棟.一種基于有限數(shù)據(jù)的改進(jìn)DCGAN圖像生成方法[J].河南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,51(6):39-46.
WANG Shibin,GAO ZI Diao,Liu Dong.An improved DCGAN image generation method based on limited data[J].Journal of Henan Normal University,2023,51(6):39-46.
[22]DEWI C,CHEN R C,LIU Y T,et al.Synthetic data ge-neration using DCGAN for improved traffic sign recognition[J].Neural Comput amp; Applic 34,2022:21465-21480.
[23]戚銀城,郎靜宜,趙振兵,等.結(jié)合注意力機(jī)制的相對(duì)GAN螺栓圖像生成[J].電測(cè)與儀表,2019,56(19):64-69.
QI Yincheng,LANG Jingyi,ZHAO Zhenbing,et al.Relativistic GAN for bolts image generation with attention mechanism[J].Electrical Measurement amp; Instrumentation,2019,56(19):64-69.
[24]張光華,王福豹,段渭軍.基于DCGAN的高分辨率天文圖像生成研究[J].計(jì)算機(jī)仿真,2019,36(12):200-204.
ZHANG Guanghua,WANG Fubao,DUAN Weijun.High resolution star galaxy image generation using deep con-volutional generative adversarial neural networks[J].Computer Simulation,2019,36(12):200-204.
[25]白由路,楊俐蘋(píng),王磊,等.農(nóng)業(yè)低空遙感技術(shù)及其應(yīng)用前景[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2010(1):5-7.
BAI Youlu,YANG Liping,WANG Lei,et al.The agriculture low-altitude remote sensing technology and its application prospect[J].Agriculture Network Information,2010(1):5-7.
[26]矯紅巖,楊彥利.基于DCGAN的絕緣子圖像生成方法[J].自動(dòng)化與儀表,2021,36(1):5-9.
JIAO Hongyan,YANG Yanli.Imagegeneration method of insulator based on DCGAN[J].Automation amp; Instrumentation,2021,36(1):5-9.
[27]翁麗芬,李晨陽(yáng),許華榮.基于GAN的分步合成人臉?biāo)孛枭伤惴╗J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2023,35(9):1363-1373.
WENG Lifen,LI Chenyang,XU Huarong.Stepwise synthetic face sketch generation algorithm based on GAN[J].Journal of Computer-Aided Design amp; Computer Graphics,2023,35(9):1363-1373.
(責(zé)任編輯:劉潔)
收稿日期:2024-02-03
基金項(xiàng)目:國(guó)家重大專項(xiàng)項(xiàng)目(2022ZD0119005);西安市重點(diǎn)產(chǎn)業(yè)鏈核心技術(shù)攻關(guān)項(xiàng)目(23ZDCYJSGG0025-2022);陜西省自然科學(xué)基金項(xiàng)目(2023JC-YBMS-539)
第一作者:黃丹丹,女,河南信陽(yáng)人,碩士研究生,E-mail:21208049005@stu.xust.edu.cn
通信作者:汪梅,女,安徽金寨人,教授,E-mail:wangm@xust.edu.cn