亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于圖像風(fēng)格遷移的端到端跨域目標(biāo)檢測①

2021-01-22 05:43:12吳澤遠(yuǎn)

計算機(jī)系統(tǒng)應(yīng)用 2021年1期

吳澤遠(yuǎn),朱明

(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,合肥 230026)

目標(biāo)檢測是計算機(jī)視覺領(lǐng)域最基礎(chǔ)也最重要的問題,在現(xiàn)實生活中具有廣泛的應(yīng)用,如自動駕駛[1],視頻監(jiān)控[2],人臉識別[3],所謂目標(biāo)檢測,就是在圖像中檢測到物體的位置和類別.隨著深度學(xué)習(xí)的蓬勃發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法[4-9]在目標(biāo)檢測標(biāo)準(zhǔn)數(shù)據(jù)集[10-12]上取得了明顯進(jìn)步.盡管效果顯著,卻只是在標(biāo)注好的干凈的數(shù)據(jù)集上進(jìn)行實驗,而真實世界中目標(biāo)檢測要面臨的情況要更加復(fù)雜,數(shù)據(jù)的視角,外觀,背景,光照等方面的差異導(dǎo)致訓(xùn)練好的模型難以落地使用,即訓(xùn)練數(shù)據(jù)稱為(源域) 和測試數(shù)據(jù)(稱為目標(biāo)域)分布不同,導(dǎo)致訓(xùn)練好的模型泛化性較差,這一問題稱為域偏移問題.

為了處理這個問題,一個具有吸引力的辦法是無監(jiān)督域適應(yīng)[13],即將在源域上訓(xùn)練的模型用于目標(biāo)域,卻不需要對目標(biāo)域進(jìn)行數(shù)據(jù)標(biāo)注.最近,基于圖像風(fēng)格遷移的域適應(yīng)方法[14,15]取得了不錯的結(jié)果,這一類方法基于圖像風(fēng)格遷移[16],基本思想是利用圖像風(fēng)格遷移技術(shù)將有標(biāo)簽的源域數(shù)據(jù)轉(zhuǎn)換為目標(biāo)域風(fēng)格,然后在轉(zhuǎn)換后的源域圖像上進(jìn)行訓(xùn)練,這樣便相當(dāng)于在有標(biāo)簽的目標(biāo)域數(shù)據(jù)集上訓(xùn)練模型,最后,將訓(xùn)練好的模型用于目標(biāo)域即可.

然而,上述基于圖像風(fēng)格遷移的方法有幾點缺陷：1)這些方法通常將先進(jìn)行圖像風(fēng)格遷移,然后再對遷移后的圖像進(jìn)行訓(xùn)練,流程繁瑣.2)圖像風(fēng)格遷移網(wǎng)絡(luò)和檢測網(wǎng)絡(luò)分開訓(xùn)練,訓(xùn)練速度慢,同時兩個網(wǎng)絡(luò)無法共享數(shù)據(jù),不能充分利用數(shù)據(jù).

為了處理上述問題,本文設(shè)計了基于圖像風(fēng)格遷移的端到端跨域檢測網(wǎng)絡(luò).在該網(wǎng)絡(luò)中我們設(shè)計了兩個模塊,包括圖像風(fēng)格遷移模塊,和目標(biāo)檢測模塊.其中圖像風(fēng)格遷移模塊采用比較流行的風(fēng)格遷移方法,對源域圖像進(jìn)行風(fēng)格轉(zhuǎn)換.目標(biāo)檢測模塊采用通用的Faster R-CNN[4]網(wǎng)絡(luò)對轉(zhuǎn)換后的圖像進(jìn)行檢測.

本文設(shè)計的網(wǎng)絡(luò)在4 個標(biāo)準(zhǔn)數(shù)據(jù)集上取得了相當(dāng)甚至超過最佳方法的結(jié)果.

1 相關(guān)工作

1.1 目標(biāo)檢測

目標(biāo)檢測網(wǎng)絡(luò)通常分為兩階段方法[4-6]和單階段方法[7-9].兩階段方法在第1 階段通常采用區(qū)域候選網(wǎng)絡(luò)[4](RPN)和區(qū)域池化模塊[4](ROI Pooling)提取目標(biāo)特征,然后在第2 階段采用全連接層對提取的目標(biāo)特征進(jìn)行分類和位置回歸.單階段網(wǎng)絡(luò)省去了第1 階段,直接回歸輸出目標(biāo)的類別和位置,網(wǎng)絡(luò)流程的簡化加快了檢測速度,當(dāng)然,在追求速度的同時也犧牲了精度.然而,這些方法通常用于常規(guī)檢測,即訓(xùn)練集和測試集來自于同一數(shù)據(jù)域,無法處理域偏移問題.在本文中,我們選取Faster R-CNN 作為基礎(chǔ)檢測器,并且結(jié)合圖像風(fēng)格遷移技術(shù)改善其泛化性能.

1.2 跨域目標(biāo)檢測

DA Faster[17]是跨域目標(biāo)檢測的開山工作,該方法在圖像級別和目標(biāo)級別分別設(shè)計判別器達(dá)到域適應(yīng)的目的.DTPL[14]采用圖像風(fēng)格遷移技術(shù),通過CycleGAN[18]將源域圖像轉(zhuǎn)換為目標(biāo)域風(fēng)格的圖像,并在轉(zhuǎn)換后的帶標(biāo)簽圖像上訓(xùn)練檢測器.DM[15]對CycleGAN 損失函數(shù)進(jìn)行修改,生成多個中間域圖像,并訓(xùn)練多域判別器.在MAF[19]中,通過在圖像級特征層面設(shè)置多層判別器對檢測器達(dá)到域適應(yīng).FAFR-CNN[20]將少樣本與跨域目標(biāo)檢測相結(jié)合,專注于少樣本情況下的域遷移.與上述方法相比,本文方法的不同之處在于將圖像風(fēng)格遷移和目標(biāo)檢測放到一個端到端的框架中.

1.3 生成對抗網(wǎng)絡(luò)

生成對抗網(wǎng)絡(luò)(GAN)[21]由GoodFellow 等人于2014年發(fā)明,并引發(fā)了無數(shù)的后續(xù)相關(guān)研究.主要的變體有條件生成對抗網(wǎng)絡(luò)[22](cGAN),DCGAN[23],WGAN[24]等.DCGAN 用卷積神經(jīng)網(wǎng)絡(luò)代替原始GAN 中的全連接層,能夠生成更清晰的圖像.cGAN 在網(wǎng)絡(luò)的輸入中加入條件,從而可以控制輸出的類別.WGAN 修改了原始GAN 的目標(biāo)函數(shù),使得訓(xùn)練更加穩(wěn)定.

1.4 圖像風(fēng)格遷移

基于深度學(xué)習(xí)的圖像風(fēng)格遷移算法可按照數(shù)據(jù)輸入分為兩類,一類是需要成對數(shù)據(jù)的算法,以Pix2Pix[25]為代表,這一系列還有Pix2PixHD[26],Vid2Vid[27].其中,Pix2Pix 利用成對數(shù)據(jù)作為輸入,即一一對應(yīng)的源域風(fēng)格數(shù)據(jù)和目標(biāo)域風(fēng)格數(shù)據(jù),利用生成器將源域數(shù)據(jù)進(jìn)行轉(zhuǎn)換,然后利用判別器對真實目標(biāo)域數(shù)據(jù)和虛假數(shù)據(jù)進(jìn)行判別.Pix2PixHD 是Pix2Pix 的高清版本,采用多層金字塔以生成高清圖像.而Vid2Vid 是Pix2Pix 的視頻版本,用以生成視頻.另一類是無需成對數(shù)據(jù)的算法,以CycleGAN 為代表,這一系列還有StarGAN[28].CycleGAN 無需成對數(shù)據(jù),輸入源域圖像和目標(biāo)域圖像,利用生成器GA 將源域圖像轉(zhuǎn)換為目標(biāo)域風(fēng)格,并利用判別器DA 進(jìn)行判別,同時將生成的虛假圖像利用生成器GB 轉(zhuǎn)換為原來風(fēng)格,并約束圖像盡可能還原.對于目標(biāo)域圖像,同樣存在上述循環(huán).StarGAN 相比于CycleGAN,可以解決多個域之間的風(fēng)格轉(zhuǎn)換,主要改進(jìn)在于判別器不光進(jìn)行真假判斷,同時也對數(shù)據(jù)所屬的域進(jìn)行分類.

2 基于圖像風(fēng)格遷移的端到端網(wǎng)絡(luò)

如圖1所示,我們的網(wǎng)絡(luò)主要由兩個模塊組成,一個是圖像風(fēng)格遷移模塊,另一個是目標(biāo)檢測模塊.關(guān)于檢測模塊我們采用常見的Faster R-CNN 網(wǎng)絡(luò),下面重點闡述圖像風(fēng)格遷移模塊的設(shè)計.

2.1 圖像風(fēng)格遷移模塊

圖像風(fēng)格遷移模塊部分共有4 個組成部分,分別是源域到目標(biāo)域的生成器G-A2B,目標(biāo)域判別器DB,以及對稱的目標(biāo)域到源域的生成器G-B2A,源域圖像判別器DA.我們用A 指代源域圖像,B 指代目標(biāo)域圖像,fake_B 代表生成的虛假目標(biāo)域圖像,fake_A 代表生成的虛假源域圖像,其中,G-A2B 負(fù)責(zé)將A 轉(zhuǎn)換為fake_B,并由判別器DB 對真實的圖像B 與fake_B 進(jìn)行判別,同時為了保證fake_B 在圖像內(nèi)容上仍保留原圖像A 的內(nèi)容,對fake_B 再次轉(zhuǎn)換,并對轉(zhuǎn)換后的fake_A 與A 進(jìn)行內(nèi)容一致性約束.

上面是A 到B 的一次循環(huán),與之對稱,B 到A 也有相同的生成器轉(zhuǎn)換與判別器判別流程,這樣的循環(huán)生成網(wǎng)絡(luò)可以保證生成器在保證內(nèi)容不變的條件下對圖像風(fēng)格進(jìn)行改變,值得注意的是,由于空間有限,在圖1中并沒有畫出B 到A 的對稱流程.

圖1 基于圖像風(fēng)格遷移的跨域目標(biāo)檢測框架

兩個生成器具有相同的網(wǎng)絡(luò)結(jié)構(gòu),采用編碼器-解碼器網(wǎng)絡(luò),即對輸入圖像先壓縮縮小分辨率,再上采樣還原分辨率.具體地,編碼器網(wǎng)絡(luò)采用3 層卷積,每層卷積后有相應(yīng)的池化層,圖像分辨率縮小為1/8,解碼器部分,采用轉(zhuǎn)置卷積進(jìn)行上采樣,同樣有3 層轉(zhuǎn)置卷積,將圖像還原為輸入分辨率.所有卷積層采用3x3 卷積核,池化層步長為2,采用max pooling 池化.判別器部分,采用3 層全連接網(wǎng)絡(luò),輸出為2 分類輸出,損失函數(shù)采用二值交叉熵?fù)p失.另外,為了保證轉(zhuǎn)換后的圖像仍保留原圖像的內(nèi)容,對轉(zhuǎn)換后的圖像輸入生成器進(jìn)行還原,還原后的圖像與原圖像間采用L1 損失進(jìn)行內(nèi)容一致性約束.所以,在圖像風(fēng)格遷移模塊,存在4 個損失,分別是兩個判別器的分類損失,以及兩個內(nèi)容一致性損失,損失函數(shù)如下：

2.2 目標(biāo)檢測模塊

對于轉(zhuǎn)換后的源域圖像,利用已有的檢測器進(jìn)行訓(xùn)練,由于源域圖像有標(biāo)簽,這樣便相當(dāng)于在有標(biāo)簽的目標(biāo)域圖像上進(jìn)行訓(xùn)練.目標(biāo)檢測模塊采用常見的Faster R-CNN 檢測器,檢測器采用兩階段設(shè)計,第一階段采用RPN 網(wǎng)絡(luò)提取候選區(qū)域,第二階段提取候選區(qū)域特征并進(jìn)行分類和位置回歸.網(wǎng)絡(luò)基礎(chǔ)特征提取(backbone)部分采用ResNet[29].網(wǎng)絡(luò)的損失函數(shù)定義如下：

其中,J代表RPN 網(wǎng)絡(luò)的分類和回歸損失,以及檢測器最后分類器和回歸器的損失,x和y代表輸入和標(biāo)簽.

2.3 總目標(biāo)函數(shù)

網(wǎng)絡(luò)的總目標(biāo)函數(shù)即包括圖像風(fēng)格遷移部分的損失和檢測器損失：

其中,α是判別器損失和內(nèi)容一致性損失的權(quán)重因子.

在實驗部分我們會詳細(xì)說明網(wǎng)絡(luò)的訓(xùn)練細(xì)節(jié).

3 實驗分析

在這一部分,我們闡述使用的數(shù)據(jù)集,評估場景,基線方法和實驗細(xì)節(jié),然后給出實驗結(jié)果分析.

3.1 數(shù)據(jù)集

我們利用下列幾個數(shù)據(jù)集構(gòu)建域適應(yīng)場景并執(zhí)行了實驗.(1)PASCAL VOC[11].這個數(shù)據(jù)集包含20 類常見物體,我們將PASCAL VOC 2007 和2012 的訓(xùn)練集和驗證集用于訓(xùn)練,作為源域,總共15 000 張圖片.(2)WaterColor[30].WaterColor 包含2K 張水彩風(fēng)格圖像,6 類物體,屬于PASCAL VOC 的20 類物體的子集.1K 張用于訓(xùn)練,1K 張用于測試.(3)Sim10K[31].這個數(shù)據(jù)集由合成的駕駛場景圖像組成,共10K 張圖像,我們將其作為目標(biāo)域,并只對汽車目標(biāo)進(jìn)行檢測.(4)City-Scape & FoggyCityScape[32,33].CityScape 中的圖像由車載相機(jī)捕捉而來,FoggyCityScape 是利用CityScape 添加霧噪聲得到.兩個數(shù)據(jù)集規(guī)模相同,包含2975 張訓(xùn)練集,500 張測試集.

3.2 評估場景

本文共建立3 個域適應(yīng)場景,包括：(1)場景1.PASCAL VOC 到WaterColor,用于捕捉真實數(shù)據(jù)到藝術(shù)風(fēng)格數(shù)據(jù)的偏移.(2)場景2.CityScape 到FoggyCityScape,用于捕捉正常天氣到霧天的偏移.(3)場景3.Sim10K 到CityScape,用于捕捉合成圖像到真實數(shù)據(jù)的偏移.

3.3 基線方法

我們的方法以兩階段檢測器Faster R-CNN 為基礎(chǔ),同時也與一些目前的跨域檢測方法包括DA Faster[17],DTPL[14],DM[15],MAF[19],FAFR-CNN[20],ST[34],Strong-Weak[35],SCDA[36]進(jìn)行比較,這些方法的結(jié)果引用于文獻(xiàn)[35,36].

3.4 實現(xiàn)細(xì)節(jié)

在實驗中,我們設(shè)置batch size 為1,初始學(xué)習(xí)率為0.001,每5 個周期乘以0.1,共訓(xùn)練20 個周期.優(yōu)化器采用隨機(jī)梯度下降(SGD),動量設(shè)置為0.9,權(quán)重衰減設(shè)為0.0001.對于所有實驗,我們采用PASCAL VOC的閾值0.5 作為評估標(biāo)準(zhǔn).關(guān)于超參數(shù),設(shè)置 α=0.2.所有場景基礎(chǔ)網(wǎng)絡(luò)部分都采用ResNet.

3.5 結(jié)果

在這一部分,我們展示在3 個場景的實驗結(jié)果并作出詳細(xì)分析.

場景1.考察真實圖像與藝術(shù)風(fēng)格圖像的域適應(yīng).采用PASCAL VOC 作為源域,WaterColor 作為目標(biāo)域?qū)嶒炦^程中,將ResNet 在ImageNet[10]上預(yù)訓(xùn)練,然后作為基礎(chǔ)特征網(wǎng)絡(luò).候選區(qū)目標(biāo)的數(shù)目是128,每個維度是2304.表1表明我們的方法超出所有方法至少1.0 MAP,表明該方法在真實圖像到藝術(shù)風(fēng)格圖像這種域偏移較大的場景上表現(xiàn)良好,尤其相比于DTPL 和DM 這兩個同樣采用風(fēng)格遷移技術(shù)的方法,我們的方法流程更簡單,效果更好.同時可以看到,DA Faster 相比于Faster R-CNN 提升有限,而DTPL 和DM 等基于圖像轉(zhuǎn)換的方法效果突出,表明對于域風(fēng)格差異較大的場景,圖像轉(zhuǎn)換可以起到良好作用.

表1 PASCAL VOC 到WaterColor 的域適應(yīng)結(jié)果

場景2.這個場景中考察正常天氣到霧天下的表現(xiàn).我們用CityScape 作為源域,FoggyCityScape 作為目標(biāo)域.如表2所示,我們提出的方法與表現(xiàn)最佳的DM 相差無幾.這一結(jié)果表明我們的方法在兩個域不相似和相似時都能表現(xiàn)良好.在這一設(shè)置中,DA Faster和FAFR-CNN 相比于Faster R-CNN 分別帶來7.3 和11.0MAP.相比于Strong-Weak,我們的方法在這一場景下表現(xiàn)不如場景1,這表明在域偏移較小時關(guān)注全局對齊就能有效緩解域偏移.

表2 CityScape 到FoggyCityScape 的域適應(yīng)結(jié)果

場景3.這里,我們評估我們的方法在合成圖像到真實圖像上的域適應(yīng)效果.我們采用Sim10K 作為源域.至于目標(biāo)域,我們采用Cityscape.兩個域都是駕駛場景,但是在光照,視角上有明顯不同.相比于場景2,域偏移更大.結(jié)果展示在表3.在這一場景中,我們的方法相比于Strong-Weak DA 有1.4MAP 的提升,與FAFR-CNN 效果相當(dāng).僅低于最好的方法SCDA.

表3 CityScape 到SIM10K 的域適應(yīng)結(jié)果

3.6 消融試驗

這一部分,我們執(zhí)行一些消融試驗以分析一些超參數(shù)和模型中不同模塊的影響,所有實驗采用PASCAL VOC 到WaterColor 這一場景.

α的影響結(jié)果展示在表4中,我們采用場景2 進(jìn)行實驗.我們嘗試了不同的參數(shù)設(shè)置,發(fā)現(xiàn)最好的結(jié)果是0.2.

表4 權(quán)重因子α 的影響

4 結(jié)論與展望

在本文中,我們提出來一個新穎的方法,可以將圖像風(fēng)格遷移與目標(biāo)檢測放在一個統(tǒng)一的框架中,并進(jìn)行端到端的訓(xùn)練,簡化了訓(xùn)練流程.在標(biāo)準(zhǔn)數(shù)據(jù)集上的實驗驗證了所提出方法的有效性.后面的工作中我們會把重點放在圖像風(fēng)格遷移模塊的改進(jìn)以及尋求風(fēng)格遷移模塊與檢測模塊如何更好地融合,更好地提高在目標(biāo)域上的泛化性能.