亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于漸進(jìn)式訓(xùn)練的多判別器域適應(yīng)目標(biāo)檢測

        2023-10-17 05:50:10李惠森侯進(jìn)黨輝周宇航
        計算機(jī)工程 2023年10期
        關(guān)鍵詞:實例圖像目標(biāo)

        李惠森,侯進(jìn),黨輝,周宇航

        (1.西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院 智能感知智慧運維實驗室,成都 611756;2.西南交通大學(xué) 綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國家工程實驗室,成都 611756)

        0 概述

        目標(biāo)檢測作為計算機(jī)視覺領(lǐng)域的重要任務(wù)之一,在生活中已得到廣泛應(yīng)用,如自動駕駛[1]、視頻監(jiān)控[2]、機(jī)器人視覺[3]、交通檢測[4]等。得益于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)強大的特征提取能力,基于卷積神經(jīng)網(wǎng)絡(luò)搭建的目標(biāo)檢測模型在測試數(shù)據(jù)集上獲得了顯著的效果。然而基于深度學(xué)習(xí)方法的實現(xiàn)是以訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集服從相同分布為前提,但是在真實場景中這一條件卻往往不能滿足。圖像的拍攝角度、背景、成像質(zhì)量甚至是采集設(shè)備參數(shù)的設(shè)置等方面的變化都會導(dǎo)致數(shù)據(jù)分布的差異。域適應(yīng)領(lǐng)域上將內(nèi)容相似但數(shù)據(jù)分布不完全相同的兩個數(shù)據(jù)集稱為兩個不同的域,其差異則為域偏移。上述域偏移往往導(dǎo)致訓(xùn)練好的模型在新數(shù)據(jù)集上的測試性能大幅下降[5]。收集更多訓(xùn)練數(shù)據(jù),建立更全面的大型數(shù)據(jù)集或針對特定場景定制新的數(shù)據(jù)集可以在一定程度上緩解該問題。但是對新的數(shù)據(jù)集進(jìn)行標(biāo)注所需要的人力和時間成本十分昂貴。水下場景等特殊的檢測環(huán)境,也因為水下圖像顏色失真、對比度低、細(xì)節(jié)模糊等原因存在標(biāo)注困難的問題[6]。

        為了解決上述問題,基于無監(jiān)督的域適應(yīng)方法被提出。無監(jiān)督域適應(yīng)方法主要通過將源域數(shù)據(jù)集的信息遷移到缺乏標(biāo)注信息的目標(biāo)域,使模型能適應(yīng)目標(biāo)域數(shù)據(jù)集。如此,模型在沒有對目標(biāo)域數(shù)據(jù)集進(jìn)行標(biāo)注的情況下也能較好地完成檢測任務(wù)。近年來,基于對抗的域適應(yīng)方法取得了較好的成果,其主要借鑒了生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[7]中對抗訓(xùn)練的思想:首先引入一個域判別器用來區(qū)分特征來自源域還是目標(biāo)域。在提升域判別器分類能力的同時,通過梯度反轉(zhuǎn)層訓(xùn)練主干網(wǎng)絡(luò)向增大判別器損失的方向更新參數(shù),以欺騙判別器。通過對抗訓(xùn)練的方式得到的主干網(wǎng)絡(luò)所提取的特征難以區(qū)分所屬域,即具備域不變性。通過訓(xùn)練網(wǎng)絡(luò)提取域不變特征可以減輕域偏移對性能造成的不利影響。真實場景下獲取的圖像數(shù)據(jù)通常為多模式分布結(jié)構(gòu),復(fù)雜性高,但目前基于對抗的域適應(yīng)方法通常采用單判別器結(jié)構(gòu)的域適應(yīng)頭。單個判別器進(jìn)行域分類時容易局限于單個模式結(jié)構(gòu)而進(jìn)入局部最優(yōu)解,進(jìn)而導(dǎo)致域?qū)R的質(zhì)量下降。此外,目前該領(lǐng)域的新方法大多從域?qū)R的角度進(jìn)行改進(jìn),很少從整體層面考慮如何平衡目標(biāo)檢測和域?qū)R任務(wù)之間的比重。

        針對上述問題,本文設(shè)計一種基于漸進(jìn)式訓(xùn)練的多判別器域適應(yīng)目標(biāo)檢測方法,在不使用額外標(biāo)注信息的情況下,適應(yīng)新數(shù)據(jù)集并保持更高的檢測精度。針對單判別器結(jié)構(gòu)域適應(yīng)頭容易局限于單一數(shù)據(jù)模式的問題,引入多判別器結(jié)構(gòu)域適應(yīng)頭,使特征提取器在學(xué)習(xí)域不變信息時必須考慮數(shù)據(jù)的不同模式,同時降低判別器隨機(jī)誤差造成的影響,避免陷入局部最優(yōu)。提出基于Dropout 的多判別器結(jié)構(gòu),有效避免引入多判別器結(jié)構(gòu)后網(wǎng)絡(luò)模型參數(shù)量增加的問題。此外,從平衡目標(biāo)檢測任務(wù)和域?qū)R任務(wù)之間比重的角度考慮,設(shè)計漸進(jìn)式訓(xùn)練策略,隨著訓(xùn)練過程的推進(jìn),逐步增大域?qū)R任務(wù)的比重和難度,使收斂更加平緩穩(wěn)定,提升模型的性能。

        1 相關(guān)工作

        1.1 目標(biāo)檢測

        基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測一般分為雙階段方法和單階段方法兩類。RCNN 系列模型[8-10]為典型的雙階段方法。此類算法的第1 階段一般由區(qū)域候選網(wǎng)絡(luò)(Region Proposal Network,RPN)生成粗略的候選區(qū)域,接著在第2 階段通過區(qū)域池化(Regionof-Interest Pooling,RoI Pooling)模塊結(jié)合候選區(qū)域在主干特征提取網(wǎng)絡(luò)所提取的特征上裁剪出目標(biāo)區(qū)域特征,并送入全連接層(Fully Connected Layers)進(jìn)行分類回歸,得到最終結(jié)果。兩階段方法一般檢測精度較高,但由于需要生成候選區(qū)域,其檢測速度通常相對較慢。

        單階段方法舍棄了候選框提取的步驟,直接將物體分類和目標(biāo)框的邊界預(yù)測統(tǒng)一為回歸問題,簡化了目標(biāo)檢測的流程,大幅提升了檢測速度,真正意義上滿足了實時目標(biāo)檢測的需求。典型的單階段方法有SSD 系列[11]和YOLO 系列[12-14]。尤其是YOLO系列經(jīng)過近幾年的更新,彌補了單階段方法追求實時性所導(dǎo)致的精度損失,更好地兼顧了檢測精度和實時性能,使之更適用于工程實踐。

        雖然單階段方法在近幾年的研究中取得了不錯的進(jìn)展,但雙階段方法因其優(yōu)越的魯棒性和可擴(kuò)展性,仍然受到學(xué)者們的青睞。本文的研究重點是提高模型的域適應(yīng)能力和檢測精度,而不十分關(guān)注模型的實時性,所以本文所提方法選擇以雙階段模型Faster R-CNN[8]為基礎(chǔ)檢測模型。

        1.2 域適應(yīng)目標(biāo)檢測

        基于無監(jiān)督的域適應(yīng)方法旨在訓(xùn)練一個具備知識遷移復(fù)用能力和適應(yīng)性的模型,該模型能從具備豐富標(biāo)簽信息的源域中學(xué)習(xí)有用信息,并遷移到新的沒有標(biāo)注信息的目標(biāo)域中,從而適應(yīng)新的數(shù)據(jù)集。在模型遷移的過程中,兩個域之間的數(shù)據(jù)分布差異是導(dǎo)致模型性能下降的主要原因。因此,如何縮小域間分布差異或削弱該差異造成的影響是域適應(yīng)研究領(lǐng)域的核心問題。在早期的研究中,比較經(jīng)典的方法是將衡量域間分布差異大小的指標(biāo)作為衡量模型訓(xùn)練過程中損失的指標(biāo),并通過最小化該損失指導(dǎo)網(wǎng)絡(luò)提取域不變特征。如文獻(xiàn)[15]提出的深度適應(yīng)網(wǎng)絡(luò)(Deep Adaptation Network,DAN)在假設(shè)條件概率分布保持不變的前提下,計算了AlexNet[16]網(wǎng)絡(luò)后3 層全連接層輸出的域間分布的最大均值差異(Maximum Mean Discrepancy,MMD),并結(jié)合最優(yōu)多核選擇的方法最小化MMD。文獻(xiàn)[17]則利用最大密度差異(Maximum Density Divergence,MDD)作為域間分布差異的度量。同時,文獻(xiàn)[17]還將最小化MDD 與對抗訓(xùn)練結(jié)合,提出了對抗緊密匹配域適應(yīng)方法,充分結(jié)合了兩種方法的優(yōu)勢。

        目前域適應(yīng)目標(biāo)檢測領(lǐng)域比較主流的方法是基于對抗訓(xùn)練的域適應(yīng)方法,其基本思想是引入域鑒別器,在訓(xùn)練鑒別器判別輸入特征所屬域的同時訓(xùn)練特征提取網(wǎng)絡(luò)混淆域鑒別器,從而隱式地縮小特征的域間差異。CHEN等[18]提出的Domain Adaptive Faster(DA Faster)R-CNN 在Faster R-CNN 中引入圖像級別和目標(biāo)實例級別的域鑒別器,分別在不同層次對齊特征,縮小特征的域間差異。文獻(xiàn)[19]結(jié)合對局部相似特征的強對齊和全局特征的弱對齊實現(xiàn)更加精準(zhǔn)的特征域?qū)R。文獻(xiàn)[20]提出一種圖誘導(dǎo)原型對齊(Graph-induced Prototype Alignment,GPA)框架,通過原型表示尋求類別級別的域?qū)R,同時設(shè)計一個類別加權(quán)對比損失來調(diào)整訓(xùn)練過程以緩解類別不平衡的負(fù)面影響。文獻(xiàn)[21]以熵信息衡量特征區(qū)域和實例樣本的不確定度,以此區(qū)分良好對齊的樣本和尚未完成對齊的樣本并據(jù)此采取不同的域?qū)R策略。

        雖然機(jī)器學(xué)習(xí)領(lǐng)域的域適應(yīng)研究很早就已經(jīng)開始,但直到近幾年,在目標(biāo)檢測領(lǐng)域才開始提出域適應(yīng)方面的問題。現(xiàn)有算法的性能普遍較低,該領(lǐng)域仍然有較大的發(fā)展空間和研究價值。

        2 本文算法

        目標(biāo)檢測的域適應(yīng)問題涉及兩個域,具備完整標(biāo)簽信息的源域和僅有數(shù)據(jù)圖像的目標(biāo)域。將源域數(shù)據(jù)集形式化為:,其中為源域數(shù)據(jù)集NS個數(shù)據(jù)樣本中的第i個數(shù)據(jù),其相應(yīng)的標(biāo)簽信息包含圖像中k個目標(biāo)實例中定位框的4 個坐標(biāo)數(shù)據(jù)以及目標(biāo)所屬類別。

        假設(shè)目標(biāo)域數(shù)據(jù)集有NT個樣本,則可形式化為:

        本文的目標(biāo)是利用兩個域的數(shù)據(jù)和源域的標(biāo)簽信息訓(xùn)練一個泛化性能良好的檢測器,并最終能在目標(biāo)域數(shù)據(jù)中完成目標(biāo)檢測任務(wù)。

        2.1 框架概述

        本文算法是在DA Faster 的基礎(chǔ)上進(jìn)行改進(jìn)設(shè)計的,整體框架如圖1 所示。算法的任務(wù)主要可分為檢測任務(wù)和域?qū)R任務(wù)兩大部分。針對目標(biāo)檢測任務(wù),本文分別從源域和目標(biāo)域中抽取一張圖像作為輸入,將ResNet-50[22]作為主干網(wǎng)絡(luò)提取兩張圖像的特征FS和FT,隨后送入RPN 網(wǎng)絡(luò)中生成候選區(qū)域。區(qū)域池化模塊根據(jù)RPN 網(wǎng)絡(luò)的輸出對特征FS和FT進(jìn)行裁剪和池化操作得到尺寸相同的κS個源域的目標(biāo)區(qū)域?qū)嵗壧卣鱢1,f2,…,fκS以及κT個目標(biāo)域的實例級特征f1,f2,…,fκT。只將源域的實例級特征f1,f2,…,fκS送入到全連接層,得到最終的檢測結(jié)果。針對域適應(yīng)任務(wù),本文在主干網(wǎng)絡(luò)之后添加圖像級域適應(yīng)頭模塊,同時在區(qū)域池化層后引入實例級域適應(yīng)頭模塊??紤]訓(xùn)練數(shù)據(jù)的復(fù)雜性和多模結(jié)構(gòu),設(shè)計了多判別器結(jié)構(gòu)的域適應(yīng)頭,以充分學(xué)習(xí)不同模式的特征分布。此外舍棄DA Faster 中對模型性能提升不大的一致性正則化模塊,進(jìn)一步減少計算量。

        圖1 本文算法的整體框架Fig.1 Overall framework of the algorithm in this paper

        2.2 域適應(yīng)頭

        2.2.1 圖像級域適應(yīng)頭

        圖像級域適應(yīng)頭以主干網(wǎng)絡(luò)的輸出FS和FT為輸入,從圖像層級進(jìn)行域?qū)R。域適應(yīng)頭由一個域判別器和梯度反轉(zhuǎn)層(Gradient Reverse Layer,GRL)[23]構(gòu)成。域判別器對輸入的特征進(jìn)行二分類,判別特征所屬域。若域判別器得到充分訓(xùn)練,則其分類準(zhǔn)確率可以作為域間特征數(shù)據(jù)分布差異的評估,準(zhǔn)確率越低證明分布差異越小,即域不變性越強?;谠摾碚?,本文引入對抗訓(xùn)練的思想,即在提升判別器分類準(zhǔn)確率的同時訓(xùn)練特征提取器“欺騙”判別器,兩者互相對抗優(yōu)化,最終達(dá)到平衡時,特征提取器從不同域中提取的數(shù)據(jù)特征分布便可足夠接近。具體操作是在域判別器之前連接一個梯度反轉(zhuǎn)層。在訓(xùn)練網(wǎng)絡(luò)的梯度反向傳播過程中,計算域判別器損失的梯度并在判別器網(wǎng)絡(luò)中反向傳播,更新判別器參數(shù)以最小化損失。經(jīng)過梯度反轉(zhuǎn)層后梯度方向取反,使特征提取器參數(shù)向最大化域判別器損失的方向更新。

        因為圖像級域適應(yīng)頭的輸入為卷積網(wǎng)絡(luò)低層次的提取特征,保留了更多紋理、顏色、輪廓等細(xì)節(jié)信息,所以本文采取逐個像素對齊的策略,減輕由細(xì)節(jié)差異導(dǎo)致域偏移的影響,同時不破壞特征的整體語義信息。以卷積核大小為1 的卷積層構(gòu)造圖像級域適應(yīng)頭的域判別器,輸出一張與輸入特征同尺寸的預(yù)測圖,使每個像素的值為輸入特征中對應(yīng)區(qū)域所屬域的預(yù)測值。圖像級域適應(yīng)頭的具體結(jié)構(gòu)如圖2所示。假設(shè)輸入特征的尺寸為H×W,Di為第i張訓(xùn)練圖像的域標(biāo)簽,Di=0 表示圖像來自源域,Di=1 代表圖像來自目標(biāo)域;χ(u,v)i表示圖像級域判別器第i張輸出預(yù)測圖中(u,v)位置的值,則圖像級域適應(yīng)頭的域適應(yīng)損失LDAimg可以定義為:

        圖2 圖像級域適應(yīng)頭Fig.2 Image level domain adaptive head

        2.2.2 實例級域適應(yīng)頭

        區(qū)域池化層的輸出為網(wǎng)絡(luò)的高層次提取特征,包含更加豐富的語義信息。所以本文將區(qū)域池化層輸出的每個區(qū)域特征展開為1 個一維向量作為實例級域適應(yīng)頭的輸入,以保留每個實例的完整語義信息。實例級域適應(yīng)頭的結(jié)構(gòu)與圖像級域適應(yīng)頭相似,不同的是其域分類器由3 層全連接層構(gòu)成,具體結(jié)構(gòu)如圖3 所示。將每個實例特征向量作為域分類器的輸入,對應(yīng)輸出一個1×1 的向量,表示對特征向量所屬域的預(yù)測。假設(shè)一個批次的訓(xùn)練圖像經(jīng)過區(qū)域池化層得到N個實例級特征,則域分類器將輸出N個預(yù)測結(jié)果ρ={p1,p2,…,pN},令Di為第i個實例特征的域標(biāo)簽,則實例級域適應(yīng)損失LDAins定義為:

        圖3 實例級域分類器Fig.3 Instance level domain classifier

        2.2.3 多判別器域適應(yīng)結(jié)構(gòu)

        文獻(xiàn)[24]提出在圖像分類的域適應(yīng)問題中,一般的基于對抗訓(xùn)練的方法在使用單個域判別器完成域?qū)R任務(wù)時,往往沒有考慮訓(xùn)練數(shù)據(jù)的復(fù)雜性和多模結(jié)構(gòu),導(dǎo)致特征提取器在訓(xùn)練中無法充分學(xué)習(xí)數(shù)據(jù)中不同模式的分布,在進(jìn)行域?qū)R時容易忽略更多細(xì)節(jié)。受文獻(xiàn)[25]的啟發(fā),本文在實例級域適應(yīng)頭中引入基于Dropout 技術(shù)的多判別器域適應(yīng)結(jié)構(gòu)(Dropout based Multi-Discriminator architecture for Domain Adaptation,DMD2A)。如圖4 所示,本文對圖3 所示的實例級域分類器進(jìn)行修改,在網(wǎng)絡(luò)的全連接層之間加入Dropout層。Dropout 層在每次數(shù)據(jù)的前向傳導(dǎo)過程中會進(jìn)行一次Dropout 操作,即隨機(jī)隱蔽網(wǎng)絡(luò)層中部分神經(jīng)元。由于每次Dropout 操作中所隱蔽的神經(jīng)元是隨機(jī)的,因此不同的Dropout操作后可以得到不同權(quán)重的網(wǎng)絡(luò)。在單次迭代中,本文對實例級域分類器進(jìn)行K次Dropout 操作,得到K個權(quán)重不同的分類網(wǎng)絡(luò),如圖5 所示。本文重復(fù)地將上層網(wǎng)絡(luò)輸出的實例級特征輸入到這K個不同的網(wǎng)絡(luò)中,即可得到K個預(yù)測結(jié)果{ρ1,ρ2,…,ρK},則實例級域適應(yīng)頭的損失函數(shù)重新定義為:

        圖4 基于Dropout 的實例級域分類器Fig.4 Instance level domain classifier based on Dropout

        圖5 基于Dropout 的多判別器域適應(yīng)結(jié)構(gòu)Fig.5 Multi-discriminator domain adaptation structure based on Dropout

        圖像級域適應(yīng)頭針對每個像素進(jìn)行域?qū)R,圖像級域判別器對特征值的空間分布更為敏感,引入Dropout 層會降低分類器性能。因此圖像級域適應(yīng)頭仍然采取單域判別器的結(jié)構(gòu)。

        2.3 漸進(jìn)式訓(xùn)練策略

        一般的域適應(yīng)目標(biāo)檢測框架的損失函數(shù)都由檢測損失Ldet及域適應(yīng)損失LDA兩部分組成,分別對應(yīng)檢測任務(wù)和域?qū)R任務(wù)。其中檢測損失由RPN 網(wǎng)絡(luò)、最后全連接層的分類損失Lcls和回歸損失Lreg共同構(gòu)成,而域適應(yīng)損失則分為圖像級域適應(yīng)損失和實例級域適應(yīng)損失。網(wǎng)絡(luò)的損失函數(shù)如式(4)~式(6)所示,參數(shù)λ一般作為平衡權(quán)重的超參數(shù),控制目標(biāo)檢測損失和域適應(yīng)損失的比例,平衡檢測任務(wù)和域?qū)R任務(wù)。如何設(shè)置該參數(shù)的大小,將直接影響網(wǎng)絡(luò)的整體性能。若λ設(shè)置過小,則域適應(yīng)模塊不能起到域?qū)R的效果,當(dāng)λ減小到0時,就相當(dāng)于傳統(tǒng)的目標(biāo)檢測網(wǎng)絡(luò);若λ設(shè)置過大,則會導(dǎo)致網(wǎng)絡(luò)過分注重域適應(yīng)任務(wù),所提取的特征表征能力和鑒別性太弱,從而使檢測精度降低。另外,在對抗訓(xùn)練過程中,過大的λ參數(shù)也容易導(dǎo)致訓(xùn)練不穩(wěn)定,甚至出現(xiàn)梯度爆炸或者梯度消失的問題。

        針對以上問題,本文提出漸進(jìn)式的訓(xùn)練策略(Progressive Training Strategy,PTS),將固定的λ參數(shù)修改為漸進(jìn)增大的動態(tài)權(quán)重,將網(wǎng)絡(luò)的損失重新定義為式(7)和式(8)。如式(7)所示,λ為隨迭代次數(shù)τ變化的動態(tài)參數(shù),在訓(xùn)練過程的前期呈線性增長,當(dāng)?shù)螖?shù)到達(dá)閾值τTH時λ不再增大。引入漸進(jìn)式訓(xùn)練策略后,網(wǎng)絡(luò)在訓(xùn)練前期會更關(guān)注檢測任務(wù),提高特征的表征能力;隨著訓(xùn)練的推進(jìn),當(dāng)網(wǎng)絡(luò)的鑒別能力增加到一定程度時,便可通過逐漸增加λ參數(shù),使網(wǎng)絡(luò)的重心逐漸向域?qū)R任務(wù)偏移。如此便可更加平緩地推動訓(xùn)練的穩(wěn)定進(jìn)行,同時解決檢測任務(wù)和域?qū)R任務(wù)難以平衡的問題。

        另外,在DMD2A 集成判別器的數(shù)量上本文也采取漸進(jìn)增加的策略。在DMD2A 中集成的判別器越多,對特征所屬域的判別能力越強。在訓(xùn)練初期,網(wǎng)絡(luò)提取特征的能力還未得到充分訓(xùn)練,所以網(wǎng)絡(luò)暫時不考慮數(shù)據(jù)的多模結(jié)構(gòu),集成較少數(shù)量的判別器。隨著訓(xùn)練進(jìn)程的推進(jìn),主干網(wǎng)絡(luò)的特征能力逐漸增強,其混淆域判別器的能力也不斷提高,訓(xùn)練策略以此為依據(jù)動態(tài)增加判別器數(shù)量直至達(dá)到最大值Nmax,從而在不丟失多模結(jié)構(gòu)的前提下獲取域不變特征,同時使訓(xùn)練過程更加平緩穩(wěn)定。

        3 實驗結(jié)果與分析

        3.1 實驗設(shè)置

        本文實驗以深度學(xué)習(xí)框架PyTorch1.7 搭建實驗環(huán)境,程序運行的硬件環(huán)境為Intel Core I7,NVIDIA GeForce GTX1080Ti。為了適應(yīng)計算機(jī)顯存,所有的輸入圖像都經(jīng)過裁剪,裁剪后的圖像長邊尺寸不大于1 200 像素,短邊尺寸不小于600 像素。網(wǎng)絡(luò)中backbone 的初始權(quán)重首先使用ImageNet 進(jìn)行預(yù)訓(xùn)練,然后對整個網(wǎng)絡(luò)進(jìn)行訓(xùn)練,總共進(jìn)行70 000 迭代。前50 000 次迭代設(shè)置網(wǎng)絡(luò)學(xué)習(xí)率為0.001,最后20 000 次迭代的學(xué)習(xí)率降為0.000 1。訓(xùn)練過程中將batch_size 設(shè)置為2,分別從源域和目標(biāo)域數(shù)據(jù)集中選取一張圖片作為輸入。另外,實驗中將動量設(shè)置為0.9,權(quán)重衰減設(shè)為0.000 5。針對漸進(jìn)式訓(xùn)練策略,設(shè)置λbase為0.25,τTH為50 000,DMD2A 的最大判別器數(shù)量Nmax為8。圖6 為訓(xùn)練過程中λ參數(shù)隨迭代次數(shù)的變化曲線。

        圖6 λ 參數(shù)隨迭代次數(shù)的變化曲線Fig.6 Variation curve of λ parameter with the iterations

        3.2 數(shù)據(jù)集及場景設(shè)置

        本文實驗涉及3 個數(shù)據(jù)集,具體如下:

        1)CityScapes[26]數(shù)據(jù)集。CityScapes 是一個城市場景的自動駕駛數(shù)據(jù)集,所有的數(shù)據(jù)圖像都由車載攝像頭拍攝。數(shù)據(jù)集包含50 個城市在春、夏、秋3 個季節(jié)不同時間段、不同場景、不同背景的街景圖,提供2 975 張訓(xùn)練圖像和500 張測試圖像,其中具備實例標(biāo)注信息的類別有行人、汽車、自行車等8類。

        2)Foggy Cityscapes[27]數(shù)據(jù)集。Foggy Cityscapes數(shù)據(jù)集是一個合成霧化數(shù)據(jù)集,模擬真實的霧天情景。該數(shù)據(jù)集圖像是在CityScapes 的圖像基礎(chǔ)上添加霧噪聲合成,其標(biāo)注信息也直接繼承CityScapes數(shù)據(jù)集得來。

        3)KITTI[28]數(shù)據(jù)集。KITTI 數(shù)據(jù)集是由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合制作的。數(shù)據(jù)集包含訓(xùn)練集7 481 張圖像,測試集7 518 張圖像,目標(biāo)所含類別8個。KITTI 數(shù)據(jù)集也是自動駕駛數(shù)據(jù)集,其圖像場景和天氣情況均與CityScapes 數(shù)據(jù)集相似。但兩個數(shù)據(jù)集收集圖像的攝像設(shè)備不同。

        為驗證本文算法的有效性,實驗設(shè)置了兩個不同的域適應(yīng)場景對網(wǎng)絡(luò)進(jìn)行測試。每個場景涉及兩個數(shù)據(jù)集,分別作為源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集。在訓(xùn)練過程中,從源域數(shù)據(jù)集和目標(biāo)域數(shù)據(jù)集的訓(xùn)練圖片中各隨機(jī)抽取一張圖像作為每次迭代的輸入,同時只使用源域數(shù)據(jù)集的標(biāo)注信息。在測試階段則使用目標(biāo)域的圖像進(jìn)行測試,并根據(jù)目標(biāo)域數(shù)據(jù)集的標(biāo)注信息計算模型的相關(guān)指標(biāo)。兩個域適應(yīng)場景分別如下:

        1)場景A。CityScapes 到Foggy Cityscapes,設(shè)置CityScapes 數(shù)據(jù)集為源域,F(xiàn)oggy Cityscapes 數(shù)據(jù)集為目標(biāo)域數(shù)據(jù)集。該場景用于模擬檢測模型從良好天氣到霧天的適應(yīng)情況。在真實的自動駕駛應(yīng)用中,目標(biāo)檢測系統(tǒng)需要面對各種不同的復(fù)雜天氣情況,所以檢測模型具備適應(yīng)不同天氣的能力至關(guān)重要。場景A 即針對不同天氣下圖像數(shù)據(jù)的域偏移進(jìn)行測試。

        2)場景B。CityScapes 到KITTI,在真實的應(yīng)用場景中,兩個數(shù)據(jù)集的圖像即使拍攝的天氣情況和場景相似,也會因為采像設(shè)備的不同而導(dǎo)致成像質(zhì)量、分辨率、曝光度等方面的差異,進(jìn)而呈現(xiàn)數(shù)據(jù)分布的差異。CityScapes 數(shù)據(jù)集所使用的采像設(shè)備為COMS 2MP 傳感器(OnSemi AR0331 型號),圖片分辨率為1 024×2 048 像素,幀率設(shè)為17 Hz,相機(jī)設(shè)置的基線高度為22 cm。KITTI 數(shù)據(jù)集使用PointGrey Flea2 錄像機(jī)采集圖像,設(shè)備的分辨率為1 392×512 像素,幀率為10 Hz,設(shè)備的基線高度為54 cm。兩個數(shù)據(jù)集所使用的采像設(shè)備及其設(shè)置參數(shù)都有所差異,使用這兩個數(shù)據(jù)集設(shè)置場景B 可測試模型對不同成像設(shè)備差異的適應(yīng)能力。

        3.3 量化結(jié)果與分析

        為了驗證本文提出的域適應(yīng)目標(biāo)檢測算法的有效性,本文在不同的場景中進(jìn)行實驗,并與本領(lǐng)域其他優(yōu)秀的算法進(jìn)行對比。實驗選取交并比(Intersection over Union,IoU)閾值為0.5 的情況下計算得到的平均精度均值(mean Average Precision,mAP)作為實驗的評價指標(biāo)[29]。mAP 為各個類別平均精確度(Average Precision,AP)的均值,具體計算公式如式(9)~式(12)所示:

        其中:N表示待檢測的類別個數(shù);P即模型的精確率(Precision);R表示召回率(Recall);TP指準(zhǔn)確檢測的目標(biāo)個數(shù);FP表示將背景誤判為目標(biāo)的數(shù)目;FN則指未檢測出的目標(biāo)或判別為目標(biāo)但分類錯誤的實例個數(shù)。具體的實驗結(jié)果如下:

        1)場景A。在該場景下,兩個數(shù)據(jù)集圖像中的目標(biāo)位置以及目標(biāo)類別都相同,但是Foggy Cityscapes 數(shù)據(jù)集圖像經(jīng)過霧化處理后在視覺上有較大的差異,且部分目標(biāo)變得模糊不清,造成模型性能嚴(yán)重下降。在源域數(shù)據(jù)集訓(xùn)練好的Faster R-CNN[8]在Foggy Cityscapes 數(shù)據(jù)集中測試的mAP 僅為26.9%。表1 為場景A 的測試結(jié)果,表中加粗?jǐn)?shù)字表示該組數(shù)據(jù)最大值。相較于沒有引入域適應(yīng)方法而只使用源域數(shù)據(jù)集進(jìn)行訓(xùn)練的Faster R-CNN,本文提出的基于域適應(yīng)的目測檢測算法的mAP 有很大幅度提升,超出Faster R-CNN 算法16 個百分點。為進(jìn)一步證明本文算法的優(yōu)越性能,本文與該領(lǐng)域其他經(jīng)典算法進(jìn)行對比,包括DA Faster[18]、SWDA[19]、GPA[20]、UaDAN[21]、EPM[30]、SFA[31]、DDF[32]。在 場景A中,本文提出的算法測試的mAP 比其他算法高出至少0.5 個百分點;相較于其借鑒的DA Faster,本文算法提升了10.9 個百分點。由于場景A 中源域和目標(biāo)域數(shù)據(jù)集具有相同的目標(biāo)類別,為更全面地評估所提算法的綜合性能,實驗同時測試了數(shù)據(jù)集中各個類別的AP 并進(jìn)行對比。可以看到除了person、rider、car 和bicycle 類別以外,其他類別的AP 均達(dá)到了最高水平。

        表1 CityScapes 到Foggy Cityscapes 的域適應(yīng)結(jié)果Table1 Result of adaptation from Cityscapes to Foggy Cityscapes %

        2)場景B。在該場景下,本文只考慮源域和目標(biāo)域數(shù)據(jù)集都包含且具備標(biāo)注信息的car 類別。同樣在場景B 設(shè)置下測試car 類別的AP,并與其他經(jīng)典算法進(jìn)行對比,量化結(jié)果如表2 所示。與場景A相比,該場景下設(shè)置的源域和目標(biāo)域兩個數(shù)據(jù)集圖像的場景更相似,數(shù)據(jù)分布的域偏移更小,且只考慮單個類別的AP,故Faster R-CNN 測試結(jié)果更好。而本文算法在訓(xùn)練的反饋階段,特征提取器的參數(shù)更新的同時受多個不同判別器的損失指導(dǎo),很大程度上削弱了單個判別器的誤差和局限性造成的影響,可以更加穩(wěn)健地提取域不變特征。所以面對場景B中2 個數(shù)據(jù)集數(shù)據(jù)分布的微小差異時,本文算法的優(yōu)勢更為明顯,實驗測試的結(jié)果比對比算法高出至少0.8 個百分點。

        表2 CityScapes 到KITTI 的域適應(yīng)結(jié)果Table2 Result of domain adaptation from Cityscapes to KITTI %

        3.4 P-R 曲線

        在目標(biāo)檢測任務(wù)中,精確率和召回率兩個指標(biāo)往往是矛盾的存在:設(shè)置更高的置信度閾值,能提高模型的精確率,但也會增加目標(biāo)被漏檢的風(fēng)險,導(dǎo)致召回率降低;相反,如果降低置信度閾值,將會有更多目標(biāo)被劃分為正例,召回率會相應(yīng)提高,但也會損失精度。單獨以精確率或者召回率作為衡量指標(biāo)都不能全面地評估模型的性能。P-R 曲線上的各點表示模型在不同置信度下精確率和召回率的關(guān)系,反映了模型對兩個指標(biāo)的平衡。

        本節(jié)給出了本文算法在場景A 下的P-R 曲線,更直觀地體現(xiàn)了算法改進(jìn)的優(yōu)越性。如圖7 所示,沒有加入域適應(yīng)結(jié)構(gòu)的Faster RCNN 實驗得到的PR 曲線所展現(xiàn)的性能較差。DA Faster 引入了域適應(yīng)頭,得到的P-R 曲線包含了更大的曲線下面積(Area Under Curve,AUC)。而本文算法相較于DA Faster算法,其P-R 曲線的AUC 顯著提升,完全包裹住了Faster R-CNN 和DA Faster 的曲線。

        圖7 不同算法的P-R 曲線Fig.7 P-R curves of different algorithms

        3.5 定性結(jié)果與分析

        為更直觀地體現(xiàn)本文算法的性能,本文隨機(jī)抽取了圖像樣本進(jìn)行測試,實驗的定性結(jié)果如圖8 所示(彩色效果見《計算機(jī)工程》官網(wǎng)HTML 版),其中每一行為一張樣本圖像的結(jié)果,圖8(e)為真實標(biāo)簽在Foggy Cityscapes 數(shù)據(jù)集圖像上的實驗結(jié)果;圖8(a)為未引入域適應(yīng)方法的Faster R-CNN 的實驗結(jié)果,實驗中僅使用源域數(shù)據(jù)集圖像和標(biāo)注信息進(jìn)行訓(xùn)練并在同一數(shù)據(jù)集上進(jìn)行測試。可以看到經(jīng)典的目標(biāo)檢測算法得到充分訓(xùn)練后,在同一數(shù)據(jù)上進(jìn)行檢測的結(jié)果已十分精確。圖8(b)圖像則是使用圖8(a)圖像實驗中訓(xùn)練得到的相同模型在目標(biāo)域數(shù)據(jù)集上測試的結(jié)果??梢钥吹?,把在源域數(shù)據(jù)集中訓(xùn)練好的模型放到目標(biāo)域數(shù)據(jù)集中進(jìn)行測試,預(yù)測結(jié)果明顯下降,出現(xiàn)大量漏檢和誤檢的現(xiàn)象。如在圖8 第1 行的樣本圖像中,雖然在近處的行人和車輛仍然可以檢測到,但是道路遠(yuǎn)處的車輛出現(xiàn)大量漏檢。而基于域適應(yīng)方法的DA Faster 在沒有借助目標(biāo)域標(biāo)注信息的情況下,在很大程度上削減了域偏移帶來的負(fù)面影響,在源域數(shù)據(jù)集上訓(xùn)練好的模型仍然能很好地遷移到目標(biāo)域數(shù)據(jù)集,并在目標(biāo)域數(shù)據(jù)集保持良好的檢測性能,其測試結(jié)果如圖8(c)所示。但是,針對霧天情況下道路遠(yuǎn)處一些異常模糊的目標(biāo),DA Faster 仍存在漏檢和誤檢的情況,如第1 行樣本圖像中,雖然DA Faster 能檢測出部分道路遠(yuǎn)端的模糊目標(biāo),但是在盡頭的小目標(biāo)車輛依然無法檢測,且道路旁邊有部分重疊的行人目標(biāo)也沒有完全檢測出來。圖8(d)為本文算法的預(yù)測結(jié)果,可以看到算法能準(zhǔn)確檢測道路盡頭異常模糊的車輛目標(biāo)以及重疊的行人小目標(biāo),表現(xiàn)出優(yōu)越的檢測性能。

        圖8 不同算法的檢測結(jié)果對比Fig.8 Detection results comparison of differernt algorithms

        3.6 消融實驗

        為進(jìn)一步驗證算法中各個模塊的作用,本文基于場景A 設(shè)計了消融實驗。本文將多判別器域適應(yīng)結(jié)構(gòu)(DMD2A)引入圖像級判別器中可得到圖像級多判別器結(jié)構(gòu)域適應(yīng)頭(MDDAimg),引入實例級判別器得到實例級多判別器結(jié)構(gòu)域適應(yīng)頭(MDDAins)。將MDDAimg、MDDAins以及漸進(jìn)式訓(xùn)練策略(PTS)3 個改進(jìn)模塊組成不同的組合加入DA Faster中,同時去掉一致性正則化模塊,其他部分與DA Faster 保持一致,將DA Faster 作為對照組。實驗共設(shè)置5 組對照組合,結(jié)果如表3 所示,其中“√”表示使用該模塊,“—”表示不使用該模塊。對比DA Faster,單獨在模型的圖像級和實例級域適應(yīng)頭中引入多判別器結(jié)構(gòu)能較大程度地提高算法性能。在引入多判別器域適應(yīng)結(jié)構(gòu)的基礎(chǔ)上使用漸進(jìn)式訓(xùn)練策略可以進(jìn)一步提升模型性能,mAP 均超過了40%。而同時引入實例級多判別器結(jié)構(gòu)域適應(yīng)頭和漸進(jìn)式訓(xùn)練策略可以得到5 個方案中的最佳結(jié)果,mAP 為42.9%。值得注意的是,如果將圖像級和實例級域適應(yīng)模塊都引入多判別器結(jié)構(gòu),實驗結(jié)果反而有所降低。本文認(rèn)為導(dǎo)致模型性能下降的原因是圖像級域分類器針對特征的每個像素進(jìn)行分類,對特征的空間分布較為敏感,Dropout 操作會直接破壞分類結(jié)果,進(jìn)而影響域?qū)R效果。

        表3 消融實驗結(jié)果Table 3 Result of ablation experiment %

        3.7 判別器數(shù)量對模型性能的影響

        為進(jìn)一步驗證多判別器域適應(yīng)結(jié)構(gòu)對模型性能的提升,本文設(shè)計了對比實驗探究判別器數(shù)量對模型性能的影響。實驗基于場景A 設(shè)置,改變域判別器的最大值Nmax進(jìn)行對比實驗。同時,實驗設(shè)置了對照組。在對照組的模型訓(xùn)練中不加入漸進(jìn)式訓(xùn)練策略,即每次實驗?zāi)P偷呐袆e器數(shù)量為固定值,實驗結(jié)果如圖9 所示。相較于單判別器結(jié)構(gòu)的模型,多判別器結(jié)構(gòu)模型性能有大幅提高,且隨著Nmax的增大而上升,當(dāng)Nmax為8 時模型性能達(dá)到最佳,Nmax進(jìn)一步增大會導(dǎo)致模型性能有所下降。而對照組也呈現(xiàn)相同趨勢,當(dāng)判別器數(shù)量在整個訓(xùn)練過程固定時,增加其數(shù)量同樣可以提升模型性能。兩組實驗充分驗證了多判別器結(jié)構(gòu)對模型性能的提升,且實驗表明加入漸進(jìn)式訓(xùn)練的模型整體比對照組的更好,這進(jìn)一步驗證了漸進(jìn)式訓(xùn)練策略能較好地提升模型性能。

        圖9 判別器數(shù)量對模型性能的影響Fig.9 Influence of the number of discriminators on model performance

        3.8 λ 參數(shù)對模型性能的影響

        本節(jié)進(jìn)一步探究參數(shù)λ對模型性能的影響。實驗基于場景A 設(shè)置,DMD2A 中的判別器數(shù)量固定為8個,改變參數(shù)λ的大小進(jìn)行對比實驗。另外,設(shè)置對照組實驗,對照組在模型中加入漸進(jìn)式訓(xùn)練策略,將λbase設(shè)為0.25,DMD2A的最大判別器數(shù)量Nmax設(shè)為8,實驗結(jié)果如圖10 所示。當(dāng)參數(shù)設(shè)置固定時,λ設(shè)為0.1 時實驗結(jié)果最好,mAP 為41.8%,當(dāng)λ大于或者小于0.1時,模型的性能都會下降;當(dāng)參數(shù)為1時,模型的性能驟降。而加入漸進(jìn)式訓(xùn)練策略后(即圖10 中“contrast group”對應(yīng)的實驗數(shù)據(jù)),模型的性能超過了其他固定參數(shù)設(shè)置的模型,這進(jìn)一步驗證了漸進(jìn)式訓(xùn)練策略的有效性。

        圖10 λ 參數(shù)對模型性能的影響Fig.10 Influence of λ parameter on model performance

        3.9 模型復(fù)雜度

        本節(jié)探究引入多判別器域適應(yīng)結(jié)構(gòu)對模型復(fù)雜度的影響。由于針對模型的改進(jìn)只會改變實例級判別器的結(jié)構(gòu),所以本文將實例級判別器的參數(shù)量Nmax、模塊大小以及浮點運算數(shù)作為模型復(fù)雜度的衡量指標(biāo)。同時,本文以傳統(tǒng)的方式使用多個不同參數(shù)的判別器組合成多判別器結(jié)構(gòu)(Multi-Discriminator Domain Adaptation,MDDA),并 以MDDA 替換DMD2A 后得到的模型為對比模型,結(jié)果如表4 所示。可以看到,引入DMD2A 結(jié)構(gòu)后,衡量模型復(fù)雜度的各項指標(biāo)不會隨著判別器數(shù)量的增加而上升;而使用MDDA 結(jié)構(gòu)的模塊隨著判別器數(shù)量的增加,其參數(shù)量和模型大小會急劇上升。實驗結(jié)果表明,使用Dropout 技術(shù)進(jìn)行改進(jìn)的多判別域適應(yīng)結(jié)構(gòu)的引入在提升模型性能的同時不會增加模型的復(fù)雜度,相對于傳統(tǒng)的多個判別器簡單疊加的方法具備明顯的優(yōu)勢。

        表4 實例級域適應(yīng)頭模塊的復(fù)雜度Table 4 Complexity of instance level domain adaptation header module

        4 結(jié)束語

        本文提出一種基于漸進(jìn)式訓(xùn)練的多判別器域適應(yīng)目標(biāo)檢測算法。該算法在Faster R-CNN 模型的基礎(chǔ)上進(jìn)行改進(jìn),分別針對圖像級別和實例級別采用不同的域?qū)R方法。針對一般的基于對抗的域適應(yīng)方法無法充分考慮數(shù)據(jù)的復(fù)雜性和多模分布結(jié)構(gòu)的問題,引入基于Dropout 的多判別器域適應(yīng)頭結(jié)構(gòu),完成更細(xì)致、更全面的域?qū)R。另外,本文從如何平衡檢測任務(wù)和域?qū)R任務(wù)的角度出發(fā),創(chuàng)新性地提出漸進(jìn)式訓(xùn)練策略,即隨著訓(xùn)練的推進(jìn)逐漸增大域?qū)R任務(wù)的比重和難度,使模型的收斂更加平滑穩(wěn)定,進(jìn)一步提高模型性能。但是,針對參數(shù)λ的設(shè)置,本文僅采用了簡單的線性增長方式,下一步將探究合適的增長策略,探索更高效的漸進(jìn)式訓(xùn)練策略。

        猜你喜歡
        實例圖像目標(biāo)
        改進(jìn)的LapSRN遙感圖像超分辨重建
        有趣的圖像詩
        我們的目標(biāo)
        完形填空Ⅱ
        完形填空Ⅰ
        遙感圖像幾何糾正中GCP選取
        趣味數(shù)獨等4則
        意林(2011年10期)2011-05-14 07:44:00
        新目標(biāo)七年級(下)Unit?。尘毩?xí)(一)
        新目標(biāo)七年級(下)Unit?。淳毩?xí)(一)
        (新目標(biāo))七年級下Unit 1練習(xí)(二)
        亚洲第一无码精品久久| 少妇内射高潮福利炮| 男女交射视频免费观看网站| 国产禁区一区二区三区| 加勒比hezyo黑人专区| 国产产区一二三产区区别在线| 51国产黑色丝袜高跟鞋| 国产亚洲情侣一区二区无| 人人看人人做人人爱精品| 国产亚洲欧洲AⅤ综合一区| 丰满人妻一区二区乱码中文电影网| 丝袜美女美腿一区二区| 日本免费一区二区久久久| 亚洲最大中文字幕在线| 天堂8在线天堂资源bt| 成人一区二区免费视频| 国产精品23p| 视频二区精品中文字幕| 蜜桃精品视频一二三区| 国产在线视频一区二区天美蜜桃 | 亚洲男女视频一区二区| 人妻少妇偷人精品一区二区| 草逼动态图视频免费观看网站| 国产对白国语对白| 欧美变态口味重另类在线视频 | 中文字幕在线久热精品| 偷拍自拍一区二区三区| 伊人久久大香线蕉av色婷婷| 国产麻豆精品传媒av在线| 人妻在卧室被老板疯狂进入| 国产性生大片免费观看性| 精品一区二区三区无码视频| 免费黄色福利| 日本在线视频二区一区| 亚洲av综合色一区二区| 亚洲乱码国产乱码精华 | 不卡a v无码在线| 日本女优中文字幕四季视频网站| 国产成人91久久麻豆视频| 亚洲日韩中文字幕一区| 亚洲AV无码成人网站久久精品|