朱仲賢,毛語實,蔡科偉,劉文濤,蒲道杰,杜 瑤,王子磊
1.國網(wǎng)安徽省電力有限公司超高壓分公司,合肥230061
2.中國科學技術(shù)大學先進技術(shù)研究院,合肥230031
隨著經(jīng)濟的不斷發(fā)展,工業(yè)場景中的設備規(guī)模不斷擴大,對于場景之中各類設備的狀態(tài)檢測及異常定位就顯得格外重要。而由于傳統(tǒng)的人工巡檢費時費力且容易出現(xiàn)檢測盲區(qū),因此,基于智能巡檢圖像的缺陷檢測任務成為智能化巡檢的關鍵一環(huán)。
以光伏電站的巡檢任務為例,為了更好地定位航拍圖像中光伏組件的具體位置,目前的方法往往使用虛擬仿真技術(shù)建模還原場景,同時,該技術(shù)也可以實現(xiàn)物體缺陷的仿真與采集,擴充缺陷的數(shù)據(jù)樣本。然而,由計算機生成的虛擬數(shù)據(jù)與真實數(shù)據(jù)相比有很大的風格差異,只能用于輔助訓練。實踐表明,在真實數(shù)據(jù)集上直接測試使用虛擬數(shù)據(jù)訓練出的模型,其結(jié)果通常不盡人意。而如果將虛擬圖像轉(zhuǎn)換為真實圖像的風格,模型性能會得到很大改善。顯然,圖像風格遷移任務為虛擬圖像和真實圖像的感知和理解搭建了橋梁。
然而,盡管圖像風格遷移任務在理論和實踐上有著廣闊的應用[1-3],對于虛擬仿真圖像到真實圖像的風格遷移任務而言,受采集引擎本身技術(shù)的限制,在大部分自動化采集到的“對應”圖像上,虛擬結(jié)果與真實結(jié)果無法完全對應,甚至存在較大程度的偏移。因此,無法直接應用配對圖像的風格遷移算法。為了有效利用圖像間相似但不完全相同的特點,同時防止對應圖像間差異對生成圖像的結(jié)構(gòu)造成影響。本文提出了一種基于對比學習的圖像風格遷移方法。具體地,模型采用與CycleGAN方法[4]相同的雙向生成對抗網(wǎng)絡,而與CycleGAN 及其衍生的一系列方法[5-6]不同,本文所用的方法沒有用到循環(huán)一致性損失,而是使用了對比學習的InfoNCE 損失。本文結(jié)合數(shù)據(jù)集自身特點,提出了一種新的正負樣本選取方法,與其他工作中只選取源域圖像與生成圖像不同,本文方法同時選取目標域圖像作為參考,使生成器生成的圖像在各部分與目標域相應內(nèi)容更為相似。實驗結(jié)果表明,與基于循環(huán)一致性損失的方法相比,本文的方法在多種指標上有明顯的提升。本文的創(chuàng)新之處主要在于:
(1)針對現(xiàn)有風格遷移方法難以生成配對的虛擬圖像問題,提出了基于CycleGAN 的聯(lián)合對比學習方法,通過在源域圖像與生成圖像、目標域圖像與生成圖像之間進行特征對比,本文方法能夠有效提高遷移圖像的質(zhì)量。
(2)在聯(lián)合對比學習的框架下,本文進一步提出了針對性的正負樣本選取方法,通過選取目標域圖像作為參考,本文方法能夠生成與目標域內(nèi)容更為相似的虛擬圖像。
(3)可視化的結(jié)果與定量的實驗指標均表明,本文方法能夠生成更加逼真的保留內(nèi)容結(jié)構(gòu)的目標圖像,進而說明了本文所提出的風格遷移方法能夠有效輔助真實數(shù)據(jù)稀少的光伏巡檢等工業(yè)場景檢測任務。
圖像風格遷移的目的是將屬于源域的圖像在保持內(nèi)容信息的前提下轉(zhuǎn)換到目標域,生成具有目標域風格和源域內(nèi)容的圖像。具體來說,對于域X及域Y,目標是獲得映射G:X→Y,使得對于給定的輸入圖像x∈X,經(jīng)過映射后的圖像x?無法與目標域中的圖像y∈Y在風格上區(qū)分,即x?∈Y,x?=G(x)。從數(shù)學的角度看,圖像風格遷移任務是在沒有聯(lián)合分布p(x,y)的情況下,通過學習分布p(x?|x),估計條件分布p(y|x)。
當前,隨著計算機視覺及圖像處理等技術(shù)的高速發(fā)展,圖像風格遷移的應用也越來越廣泛:領域自適應常常將源域圖像遷移至目標域的風格,將源域特征推向目標域[7];3D 姿態(tài)估計則使用合成圖像訓練姿態(tài)估計器,再通過風格遷移推廣到真實圖像[8]。而在工程領域,風格遷移往往用來擴充圖像樣本[9],其擴充的數(shù)據(jù)集在智能巡檢和文字識別等場景下對于如缺陷識別及語義分割等任務目標,都起到了提升準確率的作用。
在計算機視覺中,生成對抗網(wǎng)絡(generative adversarial network,GAN)一般包括兩個網(wǎng)絡,即生成網(wǎng)絡G(generator)和鑒別網(wǎng)絡D(discriminator)。G 是一個圖片的生成網(wǎng)絡,輸入一個隨機的噪聲z,通過它生成圖片;D是一個圖片的鑒別網(wǎng)絡,確認一張圖片是不是“真實”的。在訓練過程中,生成網(wǎng)絡G 盡量生成真實的圖片去欺騙鑒別網(wǎng)絡D,而鑒別網(wǎng)絡D盡量把G生成的圖片和真實的圖片分別開來。這樣,G和D構(gòu)成了一個動態(tài)的“博弈(gaming)過程”。最后博弈的結(jié)果,G可以生成足以“以假亂真”的圖片。
對于無配對圖像的風格遷移任務,現(xiàn)有方法提出了一系列解決方案。具體地,研究者們引入了對抗學習的思想[10],使用生成對抗網(wǎng)絡,其中生成器使用隨機噪聲圖生成具有目標域風格和源域內(nèi)容的圖像,判別器辨別輸入的圖像是來自目標域的生成圖像還是來自源域有的圖像,從而提高生成圖像與目標域圖像的相似程度。在此基礎上,一些方法[11-13]使用內(nèi)容編碼器和風格編碼器將圖像特征解耦為對應的特征,通過特征的跨域組合解碼,生成目標圖像。然而其中仍然存在一系列問題,具體來說,現(xiàn)有的風格遷移算法沒有對風格信息和結(jié)構(gòu)信息做明確區(qū)分,在某些數(shù)據(jù)集上,會出現(xiàn)較為夸張的形變。
為了輔助光伏電站中的智能巡檢,本文使用虛幻4引擎仿照真實場景搭建了光伏板、樹木、土地、變壓箱等設備的1∶1虛擬模型。同時,也對光照、道路、草皮損壞等進行了建模,以更加貼近真實的電站場景。在制作好場景設備模型后,為了將這些設備擺放在對應的位置,以得到一個像素級的虛擬光伏電站場景,需要對光伏電站整體布局進行設置,使得電站整體布局與實際布局相接近。具體地,電站中出現(xiàn)的設備類型共包括11×2 的光伏板40 塊、6×2 的光伏板4 塊、電線桿2 處、指示牌2處、變電箱1個、水坑1處、房屋1座。
對于每張輸入的真實場景圖像,引擎從虛擬場景的對應位置進行采集,使得虛擬場景與真實場景盡量匹配。而為了在圖像采集階段盡量消除真實與虛擬圖之間的誤差,在真實圖像位置的不同高度處分別采樣兩張圖像,分別為與真實場景同一高度以及略高于真實場景位置,具體采集效果如圖1所示。
圖1 真實與虛擬圖像對比Fig.1 Comparison of real and virtual images
可以看出,受采集引擎本身技術(shù)的限制,在大部分自動化采集到的“對應”圖像上,虛擬結(jié)果與真實結(jié)果無法完全對應,甚至存在較大程度的偏移。因此,無法直接應用配對圖像的風格遷移算法,如pix2pix[13]等。而本文提出的基于對比學習的風格遷移方法,可以在有效利用對應圖像相似性的同時,去除嚴格的像素級別約束,從而達到良好的遷移效果。
受Han等人[14]啟發(fā),本文提出了一個雙向的生成對抗模型,如圖2所示。該模型以CycleGAN模型為基礎,采用雙向訓練的訓練方法,學習兩個映射G:X→Y和F:Y→X,從而使每個域?qū)纳善鞲浞值貙W習到對應域間映射關系;另一方面,在生成器的編碼器后添加特征提取器,組成一個嵌入模塊,來提取以圖像塊為基礎的圖像特征,進行對比學習。特別地,本文提出了一種新的正負樣本選取方法及對比損失計算方法——聯(lián)合對比損失。相比于僅使用生成圖像和原圖像特征進行對比的方法,本文方法能更好地利用目標域圖像的信息,從而生成更逼真的遷移結(jié)果。
圖2 基于對比學習的雙向網(wǎng)絡模型Fig.2 Bidirectional network model based on contrastive learning
具體而言,模型包含兩個生成器G、F和兩個判別器Dx、Dy。每個生成器都由編碼器(Genc、Fenc)和譯碼器(Gdec、Fdec)組成。在此基礎上,在每個編碼器后添加一個兩層的全連接網(wǎng)絡作為特征提取器,分別記為Hx、Hy,編碼器與特征提取器共同組成一個嵌入模塊,如圖3所示。具體地,對于域X,使用Genc與Hx作為嵌入模塊embeddingx;對于域Y,則使用Fenc與Hy作為嵌入模塊embeddingy。其中,生成器G學習域X到域Y的映射,生成器F則學習逆向映射;判別器Dx和Dy用來保證遷移圖像屬于正確的圖像域;嵌入模塊embeddingx和embeddingy將編碼器提取的特征進行進一步投影。
圖3 嵌入模塊示意圖Fig.3 Schematic diagram of embedded module
在訓練過程中,兩個生成器同時學習相反的域間映射,并輸出對應的遷移圖像,結(jié)合判別器的輸出計算對抗損失。同時,對于每個方向的遷移,使用對應域的嵌入模塊提取源域圖像、生成圖像、目標域圖像的特征簇,并計算聯(lián)合對比損失;為了進一步提高模型的穩(wěn)定性,使用身份損失來防止生成器對圖像進行多余的改變。
(1)最大化互信息
與CUT方法[15]類似,使用噪聲對比估計的框架來最小化輸入與輸出之間的互信息,具體地,將“查詢樣本”v與“正樣本”v+之間相關聯(lián),而與數(shù)據(jù)集中其他內(nèi)容,也就是所說的“負樣本”v-進行對比。將查詢樣本、正樣本和N個負樣本都映射為K維向量,其中v,v+∈表示第n個負樣本,并對這些向量作L2 歸一化。這樣,就建立了一個(N+1)類分類問題,來計算查詢向量所對應的正樣本被從另外N個負樣本中選取出的概率。從數(shù)學上看,可以用交叉熵損失計算:
(2)多層的基于圖像塊的對比損失
在無監(jiān)督學習的設置下,不論是圖像規(guī)模還是圖像塊規(guī)模,都可以使用對比學習的方法。注意到在風格遷移領域,不僅輸入和輸出的整個圖像需要共享內(nèi)容,二者對應圖像塊也需要共享內(nèi)容。因此,本文使用圖像塊作為對比學習的基本單位。進一步地,由于使用的編碼器是基于卷積神經(jīng)網(wǎng)絡的結(jié)構(gòu),如果給定空間位置和編碼器層數(shù),其輸出特征即可對應輸入圖像中一個特定圖像塊的特征表示,而圖像塊的大小取決于感受野、網(wǎng)絡結(jié)構(gòu)和網(wǎng)絡層。因此,通過使用編碼器中多個層的輸出特征,可以對比不同大小的圖像塊的特征,其中深層的特征對應著較大的圖像塊。
使用embeddingx提取域X的特征,使用embeddingy提取域Y的特征。對于圖像對(x,y),在Genc(X)中選取L層并將其輸入Hx,從而將一幅圖像映射到一簇特征其中代表選取的第l層的輸出。這樣一來,每個特征實際上就代表了圖像中的一個圖像塊。記每個被選取的層中空間位置為s∈其中Sl為每層中空間位置的個數(shù),也是圖像塊的個數(shù)。對于圖像y,采取同樣的操作,Hy輸出的特征簇記為每次選取一個特征作為查詢樣本,記對應的特征(正樣本)為,其余所有特征(負樣本)為為每層的通道數(shù),也就是特征向量的維數(shù)。對于一對圖像,對比損失可以寫為:
(3)正負樣本選取
在現(xiàn)有的基于對比學習的風格遷移算法中,用作對比的圖像對(x,y)往往是生成圖像和對應原圖像。然而,在同一位置上,虛擬引擎采集到的圖像雖然與真實圖像內(nèi)容存在一定的偏移和區(qū)別,但二者之間仍存在相似性。另一方面,考慮到生成圖像不應僅僅與原圖像對應位置的圖像塊在特征上相似,也應該與目標域圖像在相同內(nèi)容上有相似的特征。因此,將圖像配對后輸入網(wǎng)絡,將生成圖像與目標圖像也進行類似的對比,提出一個新的正負樣本選取方法,如圖4所示。
圖4 正負樣本選取示例Fig.4 Example of positive and negative sample selection
對于生成圖像中的圖像塊v,即圖4(b)中紅色框,將v作為查詢樣本時,在源域和目標域圖像對應位置的圖像塊被視為正樣本(圖4(a)和圖4(c)中的紅色框),而源域和目標域圖像其余位置的圖像塊則被視為負樣本(圖4(a)和圖4(c)中的黃色框)。也就是說,對于源域圖像x、生成圖像x?、目標域圖像y,對(x,x?)及(x?,y)都進行對比損失計算。
另一方面,注意到生成器的結(jié)構(gòu),編碼器更靠近圖像的層所提取的特征更容易是域相關的風格特征,而更靠近譯碼器的層提取的特征更傾向于域不變的內(nèi)容特征。因此,對于圖像對(x,x?),直接應用公式(2)中的對比損失;而對于圖像對(x?,y),為了避免生成圖像與目標域圖像出現(xiàn)過擬合的問題,只選取更接近圖像的一側(cè),即淺層特征進行對比學習,同時為了防止出現(xiàn)感受野過小的問題,將每層特征圖使用雙線性差值法還原為輸入圖像的大小,并在還原后的特征圖上取32×32的圖像塊,對其中特征取平均值進行對比損失的計算,其中,正負樣本的選擇方式與上文所述方案相同。
綜上所述,聯(lián)合對比損失如下:
上述聯(lián)合對比損失實際上是傳統(tǒng)方法的變形與改進,可以有效地替代循環(huán)一致性損失,第一項對比損失在一定程度上起到了重建損失的作用,后一項則起到了感知損失[16]的作用。同時,使用聯(lián)合對比損失可以加強訓練的穩(wěn)定性,加快收斂速度,并避免退化解。
(1)對抗損失
對抗損失用來保證生成器生成視覺上與目標域圖像相似的結(jié)果,對于映射G:X→Y及其判別器Dy,對抗損失為:
通過上述對抗損失,生成器G試圖生成圖像G(x)使之看起來與目標域中的圖像相似;而判別器Dy試圖盡可能準確地分辨出圖像G(x)和真正的目標域圖像y。類似地,對于映射F:Y→X及其判別器Dx,有:
因此,總的對抗損失為:(2)對抗損失
為了避免生成器對圖像做出不必要的改變,引入身份損失。與CycleGAN中類似,將目標域的真實樣本輸入對應的生成器,并做正則化計算,具體地,該損失函數(shù)為:
(3)總體損失函數(shù)
綜上所述,聯(lián)合以上三類損失,構(gòu)建完整的損失函數(shù),表示為:
其中,λGAN、λcon、λidt為控制相應損失權(quán)重的超參數(shù)。
如2.1節(jié)中所述,對于每一張真實圖像,都在相應的虛擬場景中生成兩張不同高度的圖像,共計338張?zhí)摂M圖像。根據(jù)對應關系,將圖像的分辨率全部調(diào)整為512×512,并將對應圖像拼接得到分辨率為512×1 024圖像,如圖5所示,作為訓練集。而對于測試集,則不需要輸入對應的真實圖像,僅僅需要輸入虛擬引擎采集的虛擬圖像,即可輸出遷移后的偽真實圖像。
圖5 匹配后的圖像對Fig.5 Matched image pair
使用Ubuntu16.04操作系統(tǒng)在兩塊GeForce GTX1080TI上進行訓練,所使用的深度學習框架為Pytorch1.5.0。
采用隨機梯度下降訓練模型,選用Adam 優(yōu)化器,優(yōu)化器參數(shù)β1=0.5,β2=0.999,并使用學習率衰減策略,當訓練輪數(shù)超過總輪數(shù)的一半時,學習率線性遞減,初始學習率為1E-4。與CycleGAN 中相同,使用基于ResNet[16]的生成器與基于PatchGAN[17]的判別器。
由于本文數(shù)據(jù)集使用相似但不完全一致的圖像對,為了有效地完成風格遷移任務,一個簡單的想法就是直接使用全監(jiān)督風格遷移網(wǎng)絡,將對應的真實圖像視為ground truth進行實驗。
然而,直接使用有監(jiān)督算法的結(jié)果卻不盡如人意。以經(jīng)典的pix2pix 算法為例,說明直接使用有監(jiān)督算法的缺陷,從而說明本文所提方法的優(yōu)越性。
可以發(fā)現(xiàn),由于有監(jiān)督的風格遷移方法在通常情況下使用像素級別的L1 損失作為約束條件,模型在學習的過程中會將目標域圖像的內(nèi)容一起學習到目標域的特征中,從而在生成圖像上保留相應的內(nèi)容。如圖6(b)中,很明顯在右上角的光伏板上,源域(內(nèi)容域)與目標域(風格域)的對應位置內(nèi)容不一致,所以導致了光伏板錯位的問題;同理,在圖像下部出現(xiàn)了光伏板缺失,也就是內(nèi)容丟失的問題,這些問題會在很大程度上影響下游任務的質(zhì)量,甚至在一些對圖像細節(jié)要求較高的任務上,如語義分割、圖像配準等,單純使用有監(jiān)督的遷移模型生成的圖像完全無法得到應用。因此,為了在該數(shù)據(jù)集上生成逼真且內(nèi)容不發(fā)生變化的仿真圖像,本文的算法還應該基于無監(jiān)督的圖像遷移方法,另一方面,上述問題也說明了,像素級別的嚴格約束對于該任務來講只能起到負面作用,不利于生成圖像的內(nèi)容完整性和一致性。
圖6 pix2pix算法結(jié)果Fig.6 pix2pix algorithm results
為了證明本方法的有效性,在數(shù)據(jù)集上訓練Cycle-GAN、DSMAP[12]、CUT 三種方法,分別對應基于循環(huán)一致性損失、基于解耦方法和基于對比學習方法的三種風格遷移思路。為了更好地比較遷移結(jié)果,使用各方法對應文獻中給出的參數(shù)及實驗設置,各方法訓練環(huán)境均相同。與3.3節(jié)類似,給出了各方法的可視化效果圖,從視覺相似度的角度說明了本文方法的優(yōu)越性,同時,也同樣給出了用戶感知結(jié)果。另一方面,由于本文算法所用的模型不包含解耦和逐像素計算損失過程,因此遷移時間較其他方法有較大程度的縮短。最后,使用FID指標在特征層面定量地計算遷移結(jié)果與目標域的相似性。
(1)可視化結(jié)果
圖7列出了不同遷移方法對應的遷移結(jié)果,給出了數(shù)據(jù)集中兩種典型場景:密集光伏板場景和包含空曠草地場景下的遷移效果示意圖。
圖7 不同方法遷移效果樣例圖Fig.7 Example of transfer effect of different methods
對結(jié)果做分析:在樣例1中,CycleGAN方法出現(xiàn)了明顯的內(nèi)容結(jié)構(gòu)缺失問題,很大一部分光伏板在遷移后成為了草地的紋理;CUT 方法的清晰度則有明顯的不足,出現(xiàn)了較為明顯的模糊現(xiàn)象,同時,光伏板上的紋理也與源域圖像存在一定差別,色塊感較強;而本文提出的方法在大體上保存了光伏板的整體內(nèi)容,生成的圖像也沒有明顯的模糊感。在樣例2 中,CycleGAN 方法與本文方法遷移效果都比較好,但CycleGAN方法左側(cè)的小塊光伏板同樣漸變?yōu)椴莸?;而CUT 方法仍然存在模糊的問題,生成圖像中光伏板也會出現(xiàn)變型的問題。而在上述兩個樣例中,DSMAP 方法都比較明顯地暴露了解耦不充分的問題,可視化結(jié)果較差。此外,上述所有方法都出現(xiàn)了一定程度的整體偏移,這是由無監(jiān)督風格遷移任務本身的任務設置導致的,在不加入其他監(jiān)督的條件下,仍是研究的重點與難點。
(2)FID結(jié)果
FID 是基于Frechet 距離的特征對比方法,F(xiàn)ID 的值越小,說明兩組特征的分布越相似,因此,該指標常被用作生成對抗網(wǎng)絡的性能評估指標。具體地,F(xiàn)rechet距離的計算方法為:
其中,G1、G2為需要進行比較的高斯分布,m1、m2分別為G1、G2的均值,C1、C2分別為G1、G2的協(xié)方差。FID使用Google 提出的非對稱深度卷積網(wǎng)絡Inception-v3[18]來提取圖像的激活特征,并計算二者的Frechet 距離。由于Inceptionv3網(wǎng)絡提取的圖像特征更為多樣化,使用該網(wǎng)絡輸出特征計算的Frechet距離能更好地反應圖像間的分布相似度。在本實驗中,計算各方法生成圖像與目標域圖像間的FID值,進一步對比各方法生成圖像的質(zhì)量。表1 給出了各對比方法與本文方法所得到的生成圖像集合與目標域圖像集合的FID指標。
表1 不同方法FID值對比Table 1 Comparison of FID values of different methods
根據(jù)表1 結(jié)果分析,本文的方法在FID 指標上明顯低于DSMAP 方法和CUT 方法。與CycleGAN 方法相比,雖然改進幅度不大,仍然有一定優(yōu)勢。結(jié)合訓練時間,可以認為,本文方法在生成效果上略優(yōu)于CycleGAN的結(jié)果,主要體現(xiàn)在物體缺失問題的改善上,但在訓練時間上有較大優(yōu)勢,總體而言,本文方法略優(yōu)于現(xiàn)有風格遷移方法。
(3)LPIPS結(jié)果
感知相似度(LPIPS)由Zhang 等人[19]于2018 年提出,使用深度特征來度量圖像間的相似度。與其他評估指標不同,該指標旨在反映人類的視覺相似度——即符合人類判斷方式的圖像相似度。具體地,對于圖像x和x0,利用Alex 網(wǎng)絡從L層中提取特征堆棧并進行單元歸一化計算,將第l層特征結(jié)果記為。隨后,對其進行縮放激活并計算l2距離,其具體計算方法為:
其中,H、W為圖像尺寸對應參數(shù),wl為縮放權(quán)重。
在本實驗中,計算各方法生成圖像與目標域圖像間的LPIPS值。表2出了各對比方法與本文方法所得到的生成圖像集合與目標域圖像集合的LPIPS指標。
表2 不同方法LPIPS值對比Table 2 Comparison of LPIPS values of different methods
根據(jù)表2結(jié)果分析,本文的方法在感知相似度上明顯低于其他幾種算法。通過觀察實驗結(jié)果可以發(fā)現(xiàn),LPIPS 值的高低與可視化結(jié)果基本一致。因此可以認為,從視覺感知的相似程度上,本文方法略優(yōu)于現(xiàn)有風格遷移方法。
(4)用戶感知
以隨機的順序向用戶展示上述對比方法與本文方法的生成結(jié)果,請用戶比對生成圖像與源域、目標域圖像,并提出下列問題:
問題1 哪張圖片更好地保留了內(nèi)容信息(形狀、語義等)?
問題2 哪張圖片的遷移效果更為清晰?
問題3 哪張圖片的更接近目標域中的圖片?
由于DSMAP 方法的可視化結(jié)果相較而言較差,因此只使用CycleGAN、CUT 與本文方法進行對比,每個用戶被展示的圖像不相同,結(jié)果如圖8所示。
圖8 用戶感知結(jié)果Fig.8 User perception results
顯然,對于三個問題,本文的方法都獲得了最高的得分。對于問題1,超過一半的用戶認為本文的方法能更好地保留圖像的形狀和語義信息,27.3%的用戶則認為CUT 的內(nèi)容一致性更好,只有不到20%的用戶認為其保留內(nèi)容的能力更強;對于問題2,CycleGAN和本文方法的得分相近,說明在紋理等風格信息遷移方面,二者效果相差不大,均遠好于CUT方法;對于問題3,超過一半的用戶認為本文方法得到的生成圖像與目標域中原始圖像更為相似。綜上所述,從視覺感知的角度看,本文方法具有更好的遷移效果。
結(jié)合3.3 節(jié)中可視化的結(jié)果,對用戶感知結(jié)果做分析:CycleGAN 方法的生成圖像普遍會存在圖像邊界和小塊物體的缺失問題,而CUT 方法的結(jié)果更容易出現(xiàn)變形而不是缺失的問題,因此用戶在視覺上觀察的結(jié)果會優(yōu)于CycleGAN。本文方法大部分生成圖像都可以較好地保留光伏板等主體內(nèi)容的信息,僅在圖像邊緣處容易出現(xiàn)錯誤,具體如失敗樣例分析中所述,因此,本方法在問題1 中得到了最多用戶的認可。至于生成圖像的清晰度,不難發(fā)現(xiàn),CycleGAN 方法的紋理遷移更為細致,尤其是對背景內(nèi)容而言,因此,其與本文方法得分相似。綜合來講,在CycleGAN方法沒有出現(xiàn)明顯內(nèi)容缺失的情況下,其遷移效果同樣較為優(yōu)秀,但其穩(wěn)定性低于本文方法,生成數(shù)據(jù)的方差較大,因此,CUT與CycleGAN方法的整體遷移效果略差于本文提出的基于對比學習的方法。
(5)訓練時間
由于本方法不使用像素級別的約束,而只在特征層面上計算損失,且不包含解耦操作,因此,該方法在訓練時間上較其他方法有明顯的優(yōu)勢。為了驗證該效果,對幾種算法的訓練時間進行了對比,結(jié)果如表3所示。
表3 不同方法訓練時間對比表Table 3 Comparison of training time of different methods
可以看出,本文方法及相關對比學習方法在訓練時間上有明顯的優(yōu)勢。而與只進行單向遷移和計算的CUT算法相比,本文方法的訓練速度略慢,但仍遠快于基于循環(huán)一致性損失的方法,與基于解耦思想的DSMAP算法相比,本文方法的訓練速度有了本質(zhì)上的提升。因此,本文方法在很大程度上節(jié)約了時間和算力成本,這無疑有利于擴大風格遷移算法在工程上的應用。
(6)失敗樣例分析
受數(shù)據(jù)集中數(shù)據(jù)分布和方法本身的限制,提出的方法也并非可以成功轉(zhuǎn)換所有圖像,本節(jié)將挑選典型的失敗樣例進行分析,如圖9所示。
圖9 典型錯例Fig.9 Typical error example
在樣例1中,圖像左下角的道路被錯誤地轉(zhuǎn)換為了光伏板的紋理,但圖像主體的光伏板沒有發(fā)生轉(zhuǎn)換錯誤;而在樣例2 中,位于圖像右上的光伏板轉(zhuǎn)換效果較差。通過對數(shù)據(jù)集中其他相似場景的分析,發(fā)現(xiàn)樣例1中的問題往往出現(xiàn)在圖像邊緣的小塊的道路上且并非所有的位于邊緣區(qū)域的道路都被錯誤轉(zhuǎn)換,而對于較長的、橫穿整幅圖像的道路則沒有這個問題,因此推斷,由于缺乏實例級別的監(jiān)督信息,模型錯誤地將學習到的位于圖像邊緣的光伏板結(jié)構(gòu)匹配到圖9(a)中這種位于圖像邊緣的道路上。對于樣例2,發(fā)現(xiàn)數(shù)據(jù)集中所有位于類似位置的光伏板轉(zhuǎn)換效果都較差,結(jié)合訓練所用的真實和虛擬圖像,推斷該問題的產(chǎn)生主要是由于訓練數(shù)據(jù)集中包含的類似圖像有限,只有極少數(shù)圖像擁有相似的場景,模型無法充分學習到斜置光伏板的信息,因此試圖將其轉(zhuǎn)換成正置光伏板的紋理,導致錯誤的發(fā)生。
本文主要對圖像風格遷移任務中的結(jié)構(gòu)一致性問題進行了研究。針對虛擬引擎生成的圖像與真實圖像相似但不完全相同的問題,提出一種基于對比學習的圖像風格遷移方法。首先,介紹了虛擬引擎的建模仿真過程及圖像采集的過程,說明相關技術(shù)限制下無法生成與真實圖像完全配對的虛擬圖像的現(xiàn)狀;隨后,針對上述問題,提出了一種基于CycleGAN 的聯(lián)合對比學習方法,通過在源域圖像與生成圖像、目標域圖像與生成圖像之間進行特征對比,提高遷移圖像的質(zhì)量,在保持圖像主體內(nèi)容結(jié)構(gòu)不發(fā)生較大變化的同時生成更為逼真的“偽”目標域圖像。以光伏巡檢圖像為代表的實驗結(jié)果表明,本文所提方法在保留內(nèi)容結(jié)構(gòu)上優(yōu)于CycleGAN及DSMAP方法,同時在圖像的逼真程度上優(yōu)于CUT方法;另一方面,通過定量計算圖像深層激活特征的相似程度,即FID 指標,本文方法也更優(yōu)于上述幾種算法。綜上所述,本文方法在虛擬到真實圖像的遷移上具有良好效果,為虛擬引擎仿真建模生成數(shù)據(jù)在工程方面的大規(guī)模應用提供了技術(shù)保障。然而,由于相關的研究工作較少,目前基于對比學習的圖像風格遷移方法的主要創(chuàng)新點都是圍繞正負樣本的選取展開的,因此未來可以考慮改進相關損失函數(shù),更改嵌入模塊結(jié)構(gòu)等方式,為該領域的研究開辟新的道路。