面向工業(yè)巡檢的圖像風(fēng)格遷移方法

2023-09-25 08:59:48朱仲賢毛語實蔡科偉劉文濤蒲道杰王子磊

計算機(jī)工程與應(yīng)用 2023年18期

朱仲賢，毛語實，蔡科偉，劉文濤，蒲道杰，杜瑤，王子磊

1.國網(wǎng)安徽省電力有限公司超高壓分公司，合肥230061

2.中國科學(xué)技術(shù)大學(xué)先進(jìn)技術(shù)研究院，合肥230031

隨著經(jīng)濟(jì)的不斷發(fā)展，工業(yè)場景中的設(shè)備規(guī)模不斷擴(kuò)大，對于場景之中各類設(shè)備的狀態(tài)檢測及異常定位就顯得格外重要。而由于傳統(tǒng)的人工巡檢費時費力且容易出現(xiàn)檢測盲區(qū)，因此，基于智能巡檢圖像的缺陷檢測任務(wù)成為智能化巡檢的關(guān)鍵一環(huán)。

以光伏電站的巡檢任務(wù)為例，為了更好地定位航拍圖像中光伏組件的具體位置，目前的方法往往使用虛擬仿真技術(shù)建模還原場景，同時，該技術(shù)也可以實現(xiàn)物體缺陷的仿真與采集，擴(kuò)充缺陷的數(shù)據(jù)樣本。然而，由計算機(jī)生成的虛擬數(shù)據(jù)與真實數(shù)據(jù)相比有很大的風(fēng)格差異，只能用于輔助訓(xùn)練。實踐表明，在真實數(shù)據(jù)集上直接測試使用虛擬數(shù)據(jù)訓(xùn)練出的模型，其結(jié)果通常不盡人意。而如果將虛擬圖像轉(zhuǎn)換為真實圖像的風(fēng)格，模型性能會得到很大改善。顯然，圖像風(fēng)格遷移任務(wù)為虛擬圖像和真實圖像的感知和理解搭建了橋梁。

然而，盡管圖像風(fēng)格遷移任務(wù)在理論和實踐上有著廣闊的應(yīng)用[1-3]，對于虛擬仿真圖像到真實圖像的風(fēng)格遷移任務(wù)而言，受采集引擎本身技術(shù)的限制，在大部分自動化采集到的“對應(yīng)”圖像上，虛擬結(jié)果與真實結(jié)果無法完全對應(yīng)，甚至存在較大程度的偏移。因此，無法直接應(yīng)用配對圖像的風(fēng)格遷移算法。為了有效利用圖像間相似但不完全相同的特點，同時防止對應(yīng)圖像間差異對生成圖像的結(jié)構(gòu)造成影響。本文提出了一種基于對比學(xué)習(xí)的圖像風(fēng)格遷移方法。具體地，模型采用與CycleGAN方法[4]相同的雙向生成對抗網(wǎng)絡(luò)，而與CycleGAN 及其衍生的一系列方法[5-6]不同，本文所用的方法沒有用到循環(huán)一致性損失，而是使用了對比學(xué)習(xí)的InfoNCE 損失。本文結(jié)合數(shù)據(jù)集自身特點，提出了一種新的正負(fù)樣本選取方法，與其他工作中只選取源域圖像與生成圖像不同，本文方法同時選取目標(biāo)域圖像作為參考，使生成器生成的圖像在各部分與目標(biāo)域相應(yīng)內(nèi)容更為相似。實驗結(jié)果表明，與基于循環(huán)一致性損失的方法相比，本文的方法在多種指標(biāo)上有明顯的提升。本文的創(chuàng)新之處主要在于：

（1）針對現(xiàn)有風(fēng)格遷移方法難以生成配對的虛擬圖像問題，提出了基于CycleGAN 的聯(lián)合對比學(xué)習(xí)方法，通過在源域圖像與生成圖像、目標(biāo)域圖像與生成圖像之間進(jìn)行特征對比，本文方法能夠有效提高遷移圖像的質(zhì)量。

（2）在聯(lián)合對比學(xué)習(xí)的框架下，本文進(jìn)一步提出了針對性的正負(fù)樣本選取方法，通過選取目標(biāo)域圖像作為參考，本文方法能夠生成與目標(biāo)域內(nèi)容更為相似的虛擬圖像。

（3）可視化的結(jié)果與定量的實驗指標(biāo)均表明，本文方法能夠生成更加逼真的保留內(nèi)容結(jié)構(gòu)的目標(biāo)圖像，進(jìn)而說明了本文所提出的風(fēng)格遷移方法能夠有效輔助真實數(shù)據(jù)稀少的光伏巡檢等工業(yè)場景檢測任務(wù)。

1 相關(guān)工作

1.1 圖像風(fēng)格遷移

圖像風(fēng)格遷移的目的是將屬于源域的圖像在保持內(nèi)容信息的前提下轉(zhuǎn)換到目標(biāo)域，生成具有目標(biāo)域風(fēng)格和源域內(nèi)容的圖像。具體來說，對于域X及域Y，目標(biāo)是獲得映射G:X→Y,使得對于給定的輸入圖像x∈X,經(jīng)過映射后的圖像x?無法與目標(biāo)域中的圖像y∈Y在風(fēng)格上區(qū)分，即x?∈Y,x?=G(x)。從數(shù)學(xué)的角度看，圖像風(fēng)格遷移任務(wù)是在沒有聯(lián)合分布p(x,y)的情況下，通過學(xué)習(xí)分布p(x?|x)，估計條件分布p(y|x)。

當(dāng)前，隨著計算機(jī)視覺及圖像處理等技術(shù)的高速發(fā)展，圖像風(fēng)格遷移的應(yīng)用也越來越廣泛：領(lǐng)域自適應(yīng)常常將源域圖像遷移至目標(biāo)域的風(fēng)格，將源域特征推向目標(biāo)域[7]；3D 姿態(tài)估計則使用合成圖像訓(xùn)練姿態(tài)估計器，再通過風(fēng)格遷移推廣到真實圖像[8]。而在工程領(lǐng)域，風(fēng)格遷移往往用來擴(kuò)充圖像樣本[9]，其擴(kuò)充的數(shù)據(jù)集在智能巡檢和文字識別等場景下對于如缺陷識別及語義分割等任務(wù)目標(biāo)，都起到了提升準(zhǔn)確率的作用。

1.2 生成對抗網(wǎng)絡(luò)

在計算機(jī)視覺中，生成對抗網(wǎng)絡(luò)（generative adversarial network，GAN）一般包括兩個網(wǎng)絡(luò)，即生成網(wǎng)絡(luò)G（generator）和鑒別網(wǎng)絡(luò)D（discriminator）。G 是一個圖片的生成網(wǎng)絡(luò)，輸入一個隨機(jī)的噪聲z，通過它生成圖片；D是一個圖片的鑒別網(wǎng)絡(luò)，確認(rèn)一張圖片是不是“真實”的。在訓(xùn)練過程中，生成網(wǎng)絡(luò)G 盡量生成真實的圖片去欺騙鑒別網(wǎng)絡(luò)D，而鑒別網(wǎng)絡(luò)D盡量把G生成的圖片和真實的圖片分別開來。這樣，G和D構(gòu)成了一個動態(tài)的“博弈（gaming）過程”。最后博弈的結(jié)果，G可以生成足以“以假亂真”的圖片。

1.3 虛擬圖像到真實圖像的遷移任務(wù)

對于無配對圖像的風(fēng)格遷移任務(wù)，現(xiàn)有方法提出了一系列解決方案。具體地，研究者們引入了對抗學(xué)習(xí)的思想[10]，使用生成對抗網(wǎng)絡(luò)，其中生成器使用隨機(jī)噪聲圖生成具有目標(biāo)域風(fēng)格和源域內(nèi)容的圖像，判別器辨別輸入的圖像是來自目標(biāo)域的生成圖像還是來自源域有的圖像，從而提高生成圖像與目標(biāo)域圖像的相似程度。在此基礎(chǔ)上，一些方法[11-13]使用內(nèi)容編碼器和風(fēng)格編碼器將圖像特征解耦為對應(yīng)的特征，通過特征的跨域組合解碼，生成目標(biāo)圖像。然而其中仍然存在一系列問題，具體來說，現(xiàn)有的風(fēng)格遷移算法沒有對風(fēng)格信息和結(jié)構(gòu)信息做明確區(qū)分，在某些數(shù)據(jù)集上，會出現(xiàn)較為夸張的形變。

2 基于對比學(xué)習(xí)的圖像風(fēng)格遷移算法

2.1 虛擬仿真光伏電站數(shù)據(jù)集

為了輔助光伏電站中的智能巡檢，本文使用虛幻4引擎仿照真實場景搭建了光伏板、樹木、土地、變壓箱等設(shè)備的1∶1虛擬模型。同時，也對光照、道路、草皮損壞等進(jìn)行了建模，以更加貼近真實的電站場景。在制作好場景設(shè)備模型后，為了將這些設(shè)備擺放在對應(yīng)的位置，以得到一個像素級的虛擬光伏電站場景，需要對光伏電站整體布局進(jìn)行設(shè)置，使得電站整體布局與實際布局相接近。具體地，電站中出現(xiàn)的設(shè)備類型共包括11×2 的光伏板40 塊、6×2 的光伏板4 塊、電線桿2 處、指示牌2處、變電箱1個、水坑1處、房屋1座。

對于每張輸入的真實場景圖像，引擎從虛擬場景的對應(yīng)位置進(jìn)行采集，使得虛擬場景與真實場景盡量匹配。而為了在圖像采集階段盡量消除真實與虛擬圖之間的誤差，在真實圖像位置的不同高度處分別采樣兩張圖像，分別為與真實場景同一高度以及略高于真實場景位置，具體采集效果如圖1所示。

圖1 真實與虛擬圖像對比Fig.1 Comparison of real and virtual images

可以看出，受采集引擎本身技術(shù)的限制，在大部分自動化采集到的“對應(yīng)”圖像上，虛擬結(jié)果與真實結(jié)果無法完全對應(yīng)，甚至存在較大程度的偏移。因此，無法直接應(yīng)用配對圖像的風(fēng)格遷移算法，如pix2pix[13]等。而本文提出的基于對比學(xué)習(xí)的風(fēng)格遷移方法，可以在有效利用對應(yīng)圖像相似性的同時，去除嚴(yán)格的像素級別約束，從而達(dá)到良好的遷移效果。

2.2 網(wǎng)絡(luò)模型

受Han等人[14]啟發(fā)，本文提出了一個雙向的生成對抗模型，如圖2所示。該模型以CycleGAN模型為基礎(chǔ)，采用雙向訓(xùn)練的訓(xùn)練方法，學(xué)習(xí)兩個映射G:X→Y和F:Y→X，從而使每個域?qū)?yīng)的生成器更充分地學(xué)習(xí)到對應(yīng)域間映射關(guān)系；另一方面，在生成器的編碼器后添加特征提取器，組成一個嵌入模塊，來提取以圖像塊為基礎(chǔ)的圖像特征，進(jìn)行對比學(xué)習(xí)。特別地，本文提出了一種新的正負(fù)樣本選取方法及對比損失計算方法——聯(lián)合對比損失。相比于僅使用生成圖像和原圖像特征進(jìn)行對比的方法，本文方法能更好地利用目標(biāo)域圖像的信息，從而生成更逼真的遷移結(jié)果。

圖2 基于對比學(xué)習(xí)的雙向網(wǎng)絡(luò)模型Fig.2 Bidirectional network model based on contrastive learning

具體而言，模型包含兩個生成器G、F和兩個判別器Dx、Dy。每個生成器都由編碼器(Genc、Fenc)和譯碼器(Gdec、Fdec)組成。在此基礎(chǔ)上，在每個編碼器后添加一個兩層的全連接網(wǎng)絡(luò)作為特征提取器，分別記為Hx、Hy，編碼器與特征提取器共同組成一個嵌入模塊，如圖3所示。具體地，對于域X，使用Genc與Hx作為嵌入模塊embeddingx；對于域Y，則使用Fenc與Hy作為嵌入模塊embeddingy。其中，生成器G學(xué)習(xí)域X到域Y的映射，生成器F則學(xué)習(xí)逆向映射；判別器Dx和Dy用來保證遷移圖像屬于正確的圖像域；嵌入模塊embeddingx和embeddingy將編碼器提取的特征進(jìn)行進(jìn)一步投影。

圖3 嵌入模塊示意圖Fig.3 Schematic diagram of embedded module

在訓(xùn)練過程中，兩個生成器同時學(xué)習(xí)相反的域間映射，并輸出對應(yīng)的遷移圖像，結(jié)合判別器的輸出計算對抗損失。同時，對于每個方向的遷移，使用對應(yīng)域的嵌入模塊提取源域圖像、生成圖像、目標(biāo)域圖像的特征簇，并計算聯(lián)合對比損失；為了進(jìn)一步提高模型的穩(wěn)定性，使用身份損失來防止生成器對圖像進(jìn)行多余的改變。

2.3 聯(lián)合對比損失

（1）最大化互信息

與CUT方法[15]類似，使用噪聲對比估計的框架來最小化輸入與輸出之間的互信息，具體地，將“查詢樣本”v與“正樣本”v+之間相關(guān)聯(lián)，而與數(shù)據(jù)集中其他內(nèi)容，也就是所說的“負(fù)樣本”v-進(jìn)行對比。將查詢樣本、正樣本和N個負(fù)樣本都映射為K維向量，其中v,v+∈表示第n個負(fù)樣本，并對這些向量作L2 歸一化。這樣，就建立了一個(N+1)類分類問題，來計算查詢向量所對應(yīng)的正樣本被從另外N個負(fù)樣本中選取出的概率。從數(shù)學(xué)上看，可以用交叉熵?fù)p失計算：

（2）多層的基于圖像塊的對比損失

在無監(jiān)督學(xué)習(xí)的設(shè)置下，不論是圖像規(guī)模還是圖像塊規(guī)模，都可以使用對比學(xué)習(xí)的方法。注意到在風(fēng)格遷移領(lǐng)域，不僅輸入和輸出的整個圖像需要共享內(nèi)容，二者對應(yīng)圖像塊也需要共享內(nèi)容。因此，本文使用圖像塊作為對比學(xué)習(xí)的基本單位。進(jìn)一步地，由于使用的編碼器是基于卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)，如果給定空間位置和編碼器層數(shù)，其輸出特征即可對應(yīng)輸入圖像中一個特定圖像塊的特征表示，而圖像塊的大小取決于感受野、網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)層。因此，通過使用編碼器中多個層的輸出特征，可以對比不同大小的圖像塊的特征，其中深層的特征對應(yīng)著較大的圖像塊。

使用embeddingx提取域X的特征，使用embeddingy提取域Y的特征。對于圖像對(x,y)，在Genc(X)中選取L層并將其輸入Hx，從而將一幅圖像映射到一簇特征其中代表選取的第l層的輸出。這樣一來，每個特征實際上就代表了圖像中的一個圖像塊。記每個被選取的層中空間位置為s∈其中Sl為每層中空間位置的個數(shù)，也是圖像塊的個數(shù)。對于圖像y，采取同樣的操作，Hy輸出的特征簇記為每次選取一個特征作為查詢樣本，記對應(yīng)的特征（正樣本）為，其余所有特征（負(fù)樣本）為為每層的通道數(shù)，也就是特征向量的維數(shù)。對于一對圖像，對比損失可以寫為：

（3）正負(fù)樣本選取

在現(xiàn)有的基于對比學(xué)習(xí)的風(fēng)格遷移算法中，用作對比的圖像對(x,y)往往是生成圖像和對應(yīng)原圖像。然而，在同一位置上，虛擬引擎采集到的圖像雖然與真實圖像內(nèi)容存在一定的偏移和區(qū)別，但二者之間仍存在相似性。另一方面，考慮到生成圖像不應(yīng)僅僅與原圖像對應(yīng)位置的圖像塊在特征上相似，也應(yīng)該與目標(biāo)域圖像在相同內(nèi)容上有相似的特征。因此，將圖像配對后輸入網(wǎng)絡(luò)，將生成圖像與目標(biāo)圖像也進(jìn)行類似的對比，提出一個新的正負(fù)樣本選取方法，如圖4所示。

圖4 正負(fù)樣本選取示例Fig.4 Example of positive and negative sample selection

對于生成圖像中的圖像塊v，即圖4（b）中紅色框，將v作為查詢樣本時，在源域和目標(biāo)域圖像對應(yīng)位置的圖像塊被視為正樣本（圖4（a）和圖4（c）中的紅色框），而源域和目標(biāo)域圖像其余位置的圖像塊則被視為負(fù)樣本（圖4（a）和圖4（c）中的黃色框）。也就是說，對于源域圖像x、生成圖像x?、目標(biāo)域圖像y，對(x,x?)及(x?,y)都進(jìn)行對比損失計算。

另一方面，注意到生成器的結(jié)構(gòu)，編碼器更靠近圖像的層所提取的特征更容易是域相關(guān)的風(fēng)格特征，而更靠近譯碼器的層提取的特征更傾向于域不變的內(nèi)容特征。因此，對于圖像對(x,x?)，直接應(yīng)用公式（2）中的對比損失；而對于圖像對(x?,y)，為了避免生成圖像與目標(biāo)域圖像出現(xiàn)過擬合的問題，只選取更接近圖像的一側(cè)，即淺層特征進(jìn)行對比學(xué)習(xí)，同時為了防止出現(xiàn)感受野過小的問題，將每層特征圖使用雙線性差值法還原為輸入圖像的大小，并在還原后的特征圖上取32×32的圖像塊，對其中特征取平均值進(jìn)行對比損失的計算，其中，正負(fù)樣本的選擇方式與上文所述方案相同。

綜上所述，聯(lián)合對比損失如下：

上述聯(lián)合對比損失實際上是傳統(tǒng)方法的變形與改進(jìn)，可以有效地替代循環(huán)一致性損失，第一項對比損失在一定程度上起到了重建損失的作用，后一項則起到了感知損失[16]的作用。同時，使用聯(lián)合對比損失可以加強(qiáng)訓(xùn)練的穩(wěn)定性，加快收斂速度，并避免退化解。

2.4 其他損失

（1）對抗損失

對抗損失用來保證生成器生成視覺上與目標(biāo)域圖像相似的結(jié)果，對于映射G:X→Y及其判別器Dy，對抗損失為：

通過上述對抗損失，生成器G試圖生成圖像G(x)使之看起來與目標(biāo)域中的圖像相似；而判別器Dy試圖盡可能準(zhǔn)確地分辨出圖像G(x)和真正的目標(biāo)域圖像y。類似地，對于映射F:Y→X及其判別器Dx，有：

因此，總的對抗損失為：（2）對抗損失

為了避免生成器對圖像做出不必要的改變，引入身份損失。與CycleGAN中類似，將目標(biāo)域的真實樣本輸入對應(yīng)的生成器，并做正則化計算，具體地，該損失函數(shù)為：

（3）總體損失函數(shù)

綜上所述，聯(lián)合以上三類損失，構(gòu)建完整的損失函數(shù)，表示為：

其中，λGAN、λcon、λidt為控制相應(yīng)損失權(quán)重的超參數(shù)。

3 實驗結(jié)果

3.1 數(shù)據(jù)集生成和數(shù)據(jù)預(yù)處理

如2.1節(jié)中所述，對于每一張真實圖像，都在相應(yīng)的虛擬場景中生成兩張不同高度的圖像，共計338張?zhí)摂M圖像。根據(jù)對應(yīng)關(guān)系，將圖像的分辨率全部調(diào)整為512×512，并將對應(yīng)圖像拼接得到分辨率為512×1 024圖像，如圖5所示，作為訓(xùn)練集。而對于測試集，則不需要輸入對應(yīng)的真實圖像，僅僅需要輸入虛擬引擎采集的虛擬圖像，即可輸出遷移后的偽真實圖像。

圖5 匹配后的圖像對Fig.5 Matched image pair

3.2 實驗設(shè)置

使用Ubuntu16.04操作系統(tǒng)在兩塊GeForce GTX1080TI上進(jìn)行訓(xùn)練，所使用的深度學(xué)習(xí)框架為Pytorch1.5.0。

采用隨機(jī)梯度下降訓(xùn)練模型，選用Adam 優(yōu)化器，優(yōu)化器參數(shù)β1=0.5，β2=0.999，并使用學(xué)習(xí)率衰減策略，當(dāng)訓(xùn)練輪數(shù)超過總輪數(shù)的一半時，學(xué)習(xí)率線性遞減，初始學(xué)習(xí)率為1E-4。與CycleGAN 中相同，使用基于ResNet[16]的生成器與基于PatchGAN[17]的判別器。

3.3 全監(jiān)督方法結(jié)果

由于本文數(shù)據(jù)集使用相似但不完全一致的圖像對，為了有效地完成風(fēng)格遷移任務(wù)，一個簡單的想法就是直接使用全監(jiān)督風(fēng)格遷移網(wǎng)絡(luò)，將對應(yīng)的真實圖像視為ground truth進(jìn)行實驗。

然而，直接使用有監(jiān)督算法的結(jié)果卻不盡如人意。以經(jīng)典的pix2pix 算法為例，說明直接使用有監(jiān)督算法的缺陷，從而說明本文所提方法的優(yōu)越性。

可以發(fā)現(xiàn)，由于有監(jiān)督的風(fēng)格遷移方法在通常情況下使用像素級別的L1 損失作為約束條件，模型在學(xué)習(xí)的過程中會將目標(biāo)域圖像的內(nèi)容一起學(xué)習(xí)到目標(biāo)域的特征中，從而在生成圖像上保留相應(yīng)的內(nèi)容。如圖6（b）中，很明顯在右上角的光伏板上，源域（內(nèi)容域）與目標(biāo)域（風(fēng)格域）的對應(yīng)位置內(nèi)容不一致，所以導(dǎo)致了光伏板錯位的問題；同理，在圖像下部出現(xiàn)了光伏板缺失，也就是內(nèi)容丟失的問題，這些問題會在很大程度上影響下游任務(wù)的質(zhì)量，甚至在一些對圖像細(xì)節(jié)要求較高的任務(wù)上，如語義分割、圖像配準(zhǔn)等，單純使用有監(jiān)督的遷移模型生成的圖像完全無法得到應(yīng)用。因此，為了在該數(shù)據(jù)集上生成逼真且內(nèi)容不發(fā)生變化的仿真圖像，本文的算法還應(yīng)該基于無監(jiān)督的圖像遷移方法，另一方面，上述問題也說明了，像素級別的嚴(yán)格約束對于該任務(wù)來講只能起到負(fù)面作用，不利于生成圖像的內(nèi)容完整性和一致性。

圖6 pix2pix算法結(jié)果Fig.6 pix2pix algorithm results

3.4 與無監(jiān)督方法對比

為了證明本方法的有效性，在數(shù)據(jù)集上訓(xùn)練Cycle-GAN、DSMAP[12]、CUT 三種方法，分別對應(yīng)基于循環(huán)一致性損失、基于解耦方法和基于對比學(xué)習(xí)方法的三種風(fēng)格遷移思路。為了更好地比較遷移結(jié)果，使用各方法對應(yīng)文獻(xiàn)中給出的參數(shù)及實驗設(shè)置，各方法訓(xùn)練環(huán)境均相同。與3.3節(jié)類似，給出了各方法的可視化效果圖，從視覺相似度的角度說明了本文方法的優(yōu)越性，同時，也同樣給出了用戶感知結(jié)果。另一方面，由于本文算法所用的模型不包含解耦和逐像素計算損失過程，因此遷移時間較其他方法有較大程度的縮短。最后，使用FID指標(biāo)在特征層面定量地計算遷移結(jié)果與目標(biāo)域的相似性。

（1）可視化結(jié)果

圖7列出了不同遷移方法對應(yīng)的遷移結(jié)果，給出了數(shù)據(jù)集中兩種典型場景：密集光伏板場景和包含空曠草地場景下的遷移效果示意圖。

圖7 不同方法遷移效果樣例圖Fig.7 Example of transfer effect of different methods

對結(jié)果做分析：在樣例1中，CycleGAN方法出現(xiàn)了明顯的內(nèi)容結(jié)構(gòu)缺失問題，很大一部分光伏板在遷移后成為了草地的紋理；CUT 方法的清晰度則有明顯的不足，出現(xiàn)了較為明顯的模糊現(xiàn)象，同時，光伏板上的紋理也與源域圖像存在一定差別，色塊感較強(qiáng)；而本文提出的方法在大體上保存了光伏板的整體內(nèi)容，生成的圖像也沒有明顯的模糊感。在樣例2 中，CycleGAN 方法與本文方法遷移效果都比較好，但CycleGAN方法左側(cè)的小塊光伏板同樣漸變?yōu)椴莸?；而CUT 方法仍然存在模糊的問題，生成圖像中光伏板也會出現(xiàn)變型的問題。而在上述兩個樣例中，DSMAP 方法都比較明顯地暴露了解耦不充分的問題，可視化結(jié)果較差。此外，上述所有方法都出現(xiàn)了一定程度的整體偏移，這是由無監(jiān)督風(fēng)格遷移任務(wù)本身的任務(wù)設(shè)置導(dǎo)致的，在不加入其他監(jiān)督的條件下，仍是研究的重點與難點。

（2）FID結(jié)果

FID 是基于Frechet 距離的特征對比方法，F(xiàn)ID 的值越小，說明兩組特征的分布越相似，因此，該指標(biāo)常被用作生成對抗網(wǎng)絡(luò)的性能評估指標(biāo)。具體地，F(xiàn)rechet距離的計算方法為：

其中，G1、G2為需要進(jìn)行比較的高斯分布，m1、m2分別為G1、G2的均值，C1、C2分別為G1、G2的協(xié)方差。FID使用Google 提出的非對稱深度卷積網(wǎng)絡(luò)Inception-v3[18]來提取圖像的激活特征，并計算二者的Frechet 距離。由于Inceptionv3網(wǎng)絡(luò)提取的圖像特征更為多樣化，使用該網(wǎng)絡(luò)輸出特征計算的Frechet距離能更好地反應(yīng)圖像間的分布相似度。在本實驗中，計算各方法生成圖像與目標(biāo)域圖像間的FID值，進(jìn)一步對比各方法生成圖像的質(zhì)量。表1 給出了各對比方法與本文方法所得到的生成圖像集合與目標(biāo)域圖像集合的FID指標(biāo)。

表1 不同方法FID值對比Table 1 Comparison of FID values of different methods

根據(jù)表1 結(jié)果分析，本文的方法在FID 指標(biāo)上明顯低于DSMAP 方法和CUT 方法。與CycleGAN 方法相比，雖然改進(jìn)幅度不大，仍然有一定優(yōu)勢。結(jié)合訓(xùn)練時間，可以認(rèn)為，本文方法在生成效果上略優(yōu)于CycleGAN的結(jié)果，主要體現(xiàn)在物體缺失問題的改善上，但在訓(xùn)練時間上有較大優(yōu)勢，總體而言，本文方法略優(yōu)于現(xiàn)有風(fēng)格遷移方法。

（3）LPIPS結(jié)果

感知相似度（LPIPS）由Zhang 等人[19]于2018 年提出，使用深度特征來度量圖像間的相似度。與其他評估指標(biāo)不同，該指標(biāo)旨在反映人類的視覺相似度——即符合人類判斷方式的圖像相似度。具體地，對于圖像x和x0，利用Alex 網(wǎng)絡(luò)從L層中提取特征堆棧并進(jìn)行單元歸一化計算，將第l層特征結(jié)果記為。隨后，對其進(jìn)行縮放激活并計算l2距離，其具體計算方法為：

其中，H、W為圖像尺寸對應(yīng)參數(shù)，wl為縮放權(quán)重。

在本實驗中，計算各方法生成圖像與目標(biāo)域圖像間的LPIPS值。表2出了各對比方法與本文方法所得到的生成圖像集合與目標(biāo)域圖像集合的LPIPS指標(biāo)。

表2 不同方法LPIPS值對比Table 2 Comparison of LPIPS values of different methods

根據(jù)表2結(jié)果分析，本文的方法在感知相似度上明顯低于其他幾種算法。通過觀察實驗結(jié)果可以發(fā)現(xiàn)，LPIPS 值的高低與可視化結(jié)果基本一致。因此可以認(rèn)為，從視覺感知的相似程度上，本文方法略優(yōu)于現(xiàn)有風(fēng)格遷移方法。

（4）用戶感知

以隨機(jī)的順序向用戶展示上述對比方法與本文方法的生成結(jié)果，請用戶比對生成圖像與源域、目標(biāo)域圖像，并提出下列問題：

問題1 哪張圖片更好地保留了內(nèi)容信息（形狀、語義等）？

問題2 哪張圖片的遷移效果更為清晰？

問題3 哪張圖片的更接近目標(biāo)域中的圖片？

由于DSMAP 方法的可視化結(jié)果相較而言較差，因此只使用CycleGAN、CUT 與本文方法進(jìn)行對比，每個用戶被展示的圖像不相同，結(jié)果如圖8所示。

圖8 用戶感知結(jié)果Fig.8 User perception results

顯然，對于三個問題，本文的方法都獲得了最高的得分。對于問題1，超過一半的用戶認(rèn)為本文的方法能更好地保留圖像的形狀和語義信息，27.3%的用戶則認(rèn)為CUT 的內(nèi)容一致性更好，只有不到20%的用戶認(rèn)為其保留內(nèi)容的能力更強(qiáng)；對于問題2，CycleGAN和本文方法的得分相近，說明在紋理等風(fēng)格信息遷移方面，二者效果相差不大，均遠(yuǎn)好于CUT方法；對于問題3，超過一半的用戶認(rèn)為本文方法得到的生成圖像與目標(biāo)域中原始圖像更為相似。綜上所述，從視覺感知的角度看，本文方法具有更好的遷移效果。

結(jié)合3.3 節(jié)中可視化的結(jié)果，對用戶感知結(jié)果做分析：CycleGAN 方法的生成圖像普遍會存在圖像邊界和小塊物體的缺失問題，而CUT 方法的結(jié)果更容易出現(xiàn)變形而不是缺失的問題，因此用戶在視覺上觀察的結(jié)果會優(yōu)于CycleGAN。本文方法大部分生成圖像都可以較好地保留光伏板等主體內(nèi)容的信息，僅在圖像邊緣處容易出現(xiàn)錯誤，具體如失敗樣例分析中所述，因此，本方法在問題1 中得到了最多用戶的認(rèn)可。至于生成圖像的清晰度，不難發(fā)現(xiàn)，CycleGAN 方法的紋理遷移更為細(xì)致，尤其是對背景內(nèi)容而言，因此，其與本文方法得分相似。綜合來講，在CycleGAN方法沒有出現(xiàn)明顯內(nèi)容缺失的情況下，其遷移效果同樣較為優(yōu)秀，但其穩(wěn)定性低于本文方法，生成數(shù)據(jù)的方差較大，因此，CUT與CycleGAN方法的整體遷移效果略差于本文提出的基于對比學(xué)習(xí)的方法。

（5）訓(xùn)練時間

由于本方法不使用像素級別的約束，而只在特征層面上計算損失，且不包含解耦操作，因此，該方法在訓(xùn)練時間上較其他方法有明顯的優(yōu)勢。為了驗證該效果，對幾種算法的訓(xùn)練時間進(jìn)行了對比，結(jié)果如表3所示。

表3 不同方法訓(xùn)練時間對比表Table 3 Comparison of training time of different methods

可以看出，本文方法及相關(guān)對比學(xué)習(xí)方法在訓(xùn)練時間上有明顯的優(yōu)勢。而與只進(jìn)行單向遷移和計算的CUT算法相比，本文方法的訓(xùn)練速度略慢，但仍遠(yuǎn)快于基于循環(huán)一致性損失的方法，與基于解耦思想的DSMAP算法相比，本文方法的訓(xùn)練速度有了本質(zhì)上的提升。因此，本文方法在很大程度上節(jié)約了時間和算力成本，這無疑有利于擴(kuò)大風(fēng)格遷移算法在工程上的應(yīng)用。

（6）失敗樣例分析

受數(shù)據(jù)集中數(shù)據(jù)分布和方法本身的限制，提出的方法也并非可以成功轉(zhuǎn)換所有圖像，本節(jié)將挑選典型的失敗樣例進(jìn)行分析，如圖9所示。

圖9 典型錯例Fig.9 Typical error example

在樣例1中，圖像左下角的道路被錯誤地轉(zhuǎn)換為了光伏板的紋理，但圖像主體的光伏板沒有發(fā)生轉(zhuǎn)換錯誤；而在樣例2 中，位于圖像右上的光伏板轉(zhuǎn)換效果較差。通過對數(shù)據(jù)集中其他相似場景的分析，發(fā)現(xiàn)樣例1中的問題往往出現(xiàn)在圖像邊緣的小塊的道路上且并非所有的位于邊緣區(qū)域的道路都被錯誤轉(zhuǎn)換，而對于較長的、橫穿整幅圖像的道路則沒有這個問題，因此推斷，由于缺乏實例級別的監(jiān)督信息，模型錯誤地將學(xué)習(xí)到的位于圖像邊緣的光伏板結(jié)構(gòu)匹配到圖9（a）中這種位于圖像邊緣的道路上。對于樣例2，發(fā)現(xiàn)數(shù)據(jù)集中所有位于類似位置的光伏板轉(zhuǎn)換效果都較差，結(jié)合訓(xùn)練所用的真實和虛擬圖像，推斷該問題的產(chǎn)生主要是由于訓(xùn)練數(shù)據(jù)集中包含的類似圖像有限，只有極少數(shù)圖像擁有相似的場景，模型無法充分學(xué)習(xí)到斜置光伏板的信息，因此試圖將其轉(zhuǎn)換成正置光伏板的紋理，導(dǎo)致錯誤的發(fā)生。

4 結(jié)束語

本文主要對圖像風(fēng)格遷移任務(wù)中的結(jié)構(gòu)一致性問題進(jìn)行了研究。針對虛擬引擎生成的圖像與真實圖像相似但不完全相同的問題，提出一種基于對比學(xué)習(xí)的圖像風(fēng)格遷移方法。首先，介紹了虛擬引擎的建模仿真過程及圖像采集的過程，說明相關(guān)技術(shù)限制下無法生成與真實圖像完全配對的虛擬圖像的現(xiàn)狀；隨后，針對上述問題，提出了一種基于CycleGAN 的聯(lián)合對比學(xué)習(xí)方法，通過在源域圖像與生成圖像、目標(biāo)域圖像與生成圖像之間進(jìn)行特征對比，提高遷移圖像的質(zhì)量，在保持圖像主體內(nèi)容結(jié)構(gòu)不發(fā)生較大變化的同時生成更為逼真的“偽”目標(biāo)域圖像。以光伏巡檢圖像為代表的實驗結(jié)果表明，本文所提方法在保留內(nèi)容結(jié)構(gòu)上優(yōu)于CycleGAN及DSMAP方法，同時在圖像的逼真程度上優(yōu)于CUT方法；另一方面，通過定量計算圖像深層激活特征的相似程度，即FID 指標(biāo)，本文方法也更優(yōu)于上述幾種算法。綜上所述，本文方法在虛擬到真實圖像的遷移上具有良好效果，為虛擬引擎仿真建模生成數(shù)據(jù)在工程方面的大規(guī)模應(yīng)用提供了技術(shù)保障。然而，由于相關(guān)的研究工作較少，目前基于對比學(xué)習(xí)的圖像風(fēng)格遷移方法的主要創(chuàng)新點都是圍繞正負(fù)樣本的選取展開的，因此未來可以考慮改進(jìn)相關(guān)損失函數(shù)，更改嵌入模塊結(jié)構(gòu)等方式，為該領(lǐng)域的研究開辟新的道路。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放