亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        結(jié)合Graph-FPN與穩(wěn)健優(yōu)化的開放世界目標(biāo)檢測

        2023-12-08 11:49:02謝斌紅張鵬舉
        計算機與生活 2023年12期
        關(guān)鍵詞:基類極小值增量

        謝斌紅,張鵬舉,張 睿

        太原科技大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,太原 030024

        目標(biāo)檢測[1]是計算機視覺領(lǐng)域的重要研究方向,其旨在從圖像中定位感興趣的目標(biāo),并準(zhǔn)確判斷每個目標(biāo)的類別。隨著計算機技術(shù)的發(fā)展和計算機視覺技術(shù)的廣泛應(yīng)用,目標(biāo)檢測算法在準(zhǔn)確性和實時性方面已經(jīng)取得了出色的表現(xiàn),并廣泛應(yīng)用于智慧安防、無人駕駛以及遠(yuǎn)程醫(yī)療等領(lǐng)域。然而,常規(guī)的目標(biāo)檢測方法[1-8]通常設(shè)定在封閉世界的假設(shè)中,即在特定的數(shù)據(jù)集上進(jìn)行訓(xùn)練,學(xué)習(xí)固定數(shù)量的目標(biāo)類別,并應(yīng)用于特定場景,這很大程度上限制了目標(biāo)檢測技術(shù)的發(fā)展和應(yīng)用。開放世界目標(biāo)檢測突破了主流基準(zhǔn)中的封閉假設(shè),將目標(biāo)檢測模型應(yīng)用到開放領(lǐng)域中。它于2021年由Joseph等[9]首次提出,其主要任務(wù)是:(1)圖像中可能包含未知類別的目標(biāo)對象,在無監(jiān)督信息的情況下,能將未參與訓(xùn)練的類別目標(biāo)對象識別為“未知”;(2)當(dāng)未知目標(biāo)有可用標(biāo)簽信息時,模型可以在不遺忘已知類別也不需要在已知類上重新訓(xùn)練的情況下,能夠?qū)崿F(xiàn)未知類別的目標(biāo)檢測。在現(xiàn)實世界中,由于新目標(biāo)類別的數(shù)量不斷增加,并且動態(tài)變化,探索OWOD(open world object detection)對機器人、自動駕駛、醫(yī)療保健監(jiān)測等領(lǐng)域具有重要的應(yīng)用價值和現(xiàn)實意義。

        與常規(guī)目標(biāo)檢測任務(wù)不同,OWOD 在從背景中分離未知目標(biāo)以及模型持續(xù)學(xué)習(xí)等方面提出了重大挑戰(zhàn)。ORE(open world object detection)[9]是Joseph等[9]提出的一種開放世界目標(biāo)檢測的解決方案,它以兩階段的目標(biāo)檢測模型Faster R-CNN(faster regionbased convolutional neural networks)作為基礎(chǔ)模型。首先使用自動標(biāo)注未知類別的RPN網(wǎng)絡(luò)(auto-labelling unknowns with region proposal network,ALU-RPN)標(biāo)記出圖像中潛在的目標(biāo)區(qū)域,將預(yù)測框中對象性分?jǐn)?shù)高且與已知類目標(biāo)不重疊的目標(biāo)直接歸類為未知目標(biāo),并將提取的特征加入到相應(yīng)的已知和未知隊列中。然后在ROI Head中利用對比聚類對特征隊列進(jìn)行特征分離,幫助基于能量的分類頭更有效地區(qū)分已知和未知實例。之后使用基于能量的分類器(energy based classification models,EBM)對已知類別和未知類別的能量值分布進(jìn)行Weibull 建模,根據(jù)目標(biāo)特征的已知和未知的能量值將其進(jìn)行分類。最后,采用兩階段微調(diào)策略(two-stage fine-tuning approach,TFA)[10]幫助模型在開放世界目標(biāo)檢測的場景下實現(xiàn)增量學(xué)習(xí)。

        ORE作為首次提出應(yīng)對具有挑戰(zhàn)性的開放世界目標(biāo)檢測任務(wù)的解決方案,仍然存在一些問題:(1)RPN依賴單一尺度的Feature Map容易造成未知目標(biāo)的邊界模糊和細(xì)節(jié)丟失,難以對未知目標(biāo)進(jìn)行準(zhǔn)確定位,導(dǎo)致未知目標(biāo)召回率較低。(2)新增類別樣本較少導(dǎo)致模型難以很好地學(xué)習(xí)新任務(wù),并且微調(diào)策略不足以克服舊類別的災(zāi)難性遺忘,使得模型在增量學(xué)習(xí)過程中性能嚴(yán)重下降。

        針對上述問題,提出一種基于圖特征金字塔網(wǎng)絡(luò)的穩(wěn)健優(yōu)化增量學(xué)習(xí)方法(adjustable robust optimization of ORE based on graph feature pyramid,GARO-ORE),本文的主要貢獻(xiàn)是:

        (1)采用Graph-FPN 作為特征提取網(wǎng)絡(luò),通過其超像素結(jié)構(gòu)和分層設(shè)計促使多尺度特征進(jìn)行交互,獲得了豐富的語義信息,優(yōu)化了未知目標(biāo)的定位問題。

        (2)提出基于平坦極小值的基類學(xué)習(xí)策略,提升模型的泛化能力,有效緩解了增量學(xué)習(xí)過程中災(zāi)難性遺忘的影響,并利用輕量級銳度感知訓(xùn)練算法進(jìn)一步降低計算開銷。

        (3)提出基于知識遷移的分類權(quán)值初始化策略,利用舊類的分類權(quán)值及新舊類別的特征相似度,對新增類別分類權(quán)值進(jìn)行初始化,幫助網(wǎng)絡(luò)快速適應(yīng)新類別。

        (4)在OWOD 數(shù)據(jù)集上進(jìn)行的大量實驗驗證了GARO-ORE方法的有效性。

        1 相關(guān)工作

        Joseph等[9]發(fā)現(xiàn)人類具有識別環(huán)境中未知對象實例的自然本能,并根據(jù)當(dāng)前開集識別和增量學(xué)習(xí)等技術(shù)提出了開放世界目標(biāo)檢測(OWOD)這樣一個新的計算機視覺任務(wù)。由于OWOD的設(shè)定比現(xiàn)有的封閉世界靜態(tài)學(xué)習(xí)設(shè)置更貼近實際場景,受到了研究學(xué)者的廣泛關(guān)注。下面將從開集識別和增量學(xué)習(xí)兩方面對相關(guān)工作進(jìn)行闡述。

        1.1 開集識別

        開集識別(open set recognition,OSR)[11-14]認(rèn)為通過訓(xùn)練集獲得的知識是不完整的,即在現(xiàn)實應(yīng)用過程中可能會遇到新的未知類。針對該問題,相關(guān)學(xué)者研究探索了利用自監(jiān)督學(xué)習(xí)[15]和基于重構(gòu)的無監(jiān)督學(xué)習(xí)[16]方法用于開集識別。雖然這些方法可以識別未知類別,但這些網(wǎng)絡(luò)在訓(xùn)練過程中不能以增量方式動態(tài)更新。Bendale等[17]提出開放世界設(shè)置中的圖像分類任務(wù),這是首個基于深度學(xué)習(xí)的開集OSR方法,并能夠?qū)崿F(xiàn)分類網(wǎng)絡(luò)中的增量學(xué)習(xí)方法。本文的研究內(nèi)容與此方法[17]更加貼近,不同的是,此方法[17]應(yīng)用于圖像分類任務(wù),不需要對未知目標(biāo)定位,而本文的研究內(nèi)容以端到端的方式在開放世界場景下對圖像中的已知和未知目標(biāo)進(jìn)行檢測。

        1.2 增量學(xué)習(xí)

        增量學(xué)習(xí)[18-20]是一種通過從新數(shù)據(jù)中學(xué)習(xí)來增加現(xiàn)有知識的范式。然而,增量學(xué)習(xí)長期存在一個嚴(yán)重的問題,即災(zāi)難性遺忘,它是指由于當(dāng)前訓(xùn)練中無法訪問舊數(shù)據(jù),從而導(dǎo)致舊類別的測試性能急劇下降。隨著近年來深度學(xué)習(xí)的發(fā)展,提出了許多增量學(xué)習(xí)的方法用以解決災(zāi)難性遺忘問題。當(dāng)前主要包括三類方法:基于樣本回放的方法、基于參數(shù)隔離的方法和基于正則化的方法。其中,基于樣本回放的方法[21],是根據(jù)一系列篩選標(biāo)準(zhǔn),從舊數(shù)據(jù)集中抽取一些具有代表性的原始樣本,將它們和新任務(wù)的樣本進(jìn)行聯(lián)合訓(xùn)練來達(dá)到記憶目的;基于參數(shù)隔離的方法[22]通常是在新任務(wù)上擴大舊模型,并針對不同任務(wù)分配不同的模型參數(shù),進(jìn)行不同程度的隔離,以防止后續(xù)任務(wù)對之前學(xué)習(xí)的知識產(chǎn)生干擾;基于正則化的方法[23]通過在損失函數(shù)上引入額外的正則項來對權(quán)值調(diào)整進(jìn)行約束。而本文提出了基于平坦極小值的基類學(xué)習(xí)策略,有效緩解增量學(xué)習(xí)過程中災(zāi)難遺忘問題。

        2 基于穩(wěn)健優(yōu)化的開放世界目標(biāo)檢測

        本章主要針對ORE 算法存在的未知類召回率低,以及增量學(xué)習(xí)中災(zāi)難性遺忘等問題提出了改進(jìn)后的GARO-ORE模型。

        針對ORE 模型未知類召回率低的問題,在2.3 節(jié)中提出了利用Graph-FPN優(yōu)化特征提取,幫助模型提高未知類的召回率。首先,由于OWOD 任務(wù)中無法利用監(jiān)督信息對未知目標(biāo)進(jìn)行回歸處理,對圖像進(jìn)行超像素分割,并將其作為Graph-FPN 的輸入,以更強的語義表征目標(biāo)邊界,從而有助于獲取更高質(zhì)量的候選區(qū)域。其次,利用部分-整體的層次結(jié)構(gòu)(partwhole hierarchies)彌合了像素與對象之間的語義差距,增強了目標(biāo)的語義特征。

        為了有效緩解模型在增量學(xué)習(xí)過程中造成的災(zāi)難遺忘問題,在2.4 節(jié)中提出了基于平坦極小值的基類學(xué)習(xí)策略,更有效地保留舊類別檢測性能。此外,為了在模型容量固定條件下,提高增量學(xué)習(xí)的持久性,在2.5 節(jié)中提出了基于知識遷移的新增類別權(quán)值初始化策略,更有效地提升模型的持續(xù)學(xué)習(xí)能力。

        2.1 任務(wù)定義

        在Joseph 等[9]定義的OWOD 中,模型Mt在t時刻除了需要檢測已知類Kt={1,2,…,C}之外,還需要將先前未學(xué)習(xí)到的目標(biāo)實例檢測為未知類U={C+1,C+2,…}(由標(biāo)簽0 表示)。然后,用戶可以選擇性地標(biāo)記n個感興趣的新類并標(biāo)注相應(yīng)未知實例訓(xùn)練模型,將這組新類別添加到已知類別中,即Kt+1=Kt+{C+1,C+2,…,C+n} 。最后,模型Mt在Kt+1上進(jìn)行增量學(xué)習(xí),不需要在整個數(shù)據(jù)集上進(jìn)行訓(xùn)練,便可檢測Kt+1中所有的目標(biāo)類別。這種循環(huán)在模型的生命周期中持續(xù)進(jìn)行,促使模型自適應(yīng)更新。

        2.2 GARO-ORE網(wǎng)絡(luò)結(jié)構(gòu)

        GARO-ORE 網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示,包含Backbone、ALU-RPN、ROI Pooling 和分類回歸網(wǎng)絡(luò)四部分。GARO-ORE 首先通過Graph-FPN 提取圖像特征。然后,利用ALU-RPN 獲取已知和未知目標(biāo)的潛在區(qū)域,并且將對象性得分Topk的背景區(qū)域建議框作為候選未知對象。之后,在ROI Pooling 層將ALURPN 的輸出進(jìn)行池化,生成大小一致的特征圖。最后,在分類回歸網(wǎng)絡(luò)中,為了更好地區(qū)分已知和未知對象,在潛在空間中對池化后的特征進(jìn)行對比聚類。利用基于能量的分類頭學(xué)習(xí)已知和未知類的能量分布,促進(jìn)模型更有效識別未知目標(biāo)。分別預(yù)測目標(biāo)邊界框和目標(biāo)類別。

        圖1 GARO-ORE網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 GARO-ORE network structure

        此外,在本文中,為了緩解基類的遺忘問題,采用基于平坦極小值的基類學(xué)習(xí)方法對分類回歸網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并在后續(xù)的增量學(xué)習(xí)過程中鉗制模型參數(shù)處于平坦區(qū)域(flat region)內(nèi),使其在增量學(xué)習(xí)過程中保持舊類別性能的穩(wěn)定性。另外,在學(xué)習(xí)新增類別時,采用基于知識遷移的新增類別權(quán)值初始化策略,更有效地發(fā)掘模型的持續(xù)學(xué)習(xí)能力。

        2.3 圖特征金字塔網(wǎng)絡(luò)

        ORE 算法使用ResNet50 作為模型特征提取網(wǎng)絡(luò),雖然ResNet 具有較強的特征表達(dá)和逐層學(xué)習(xí)能力,但由于其容易造成目標(biāo)的特征邊界模糊和細(xì)節(jié)丟失,導(dǎo)致模型對未知目標(biāo)定位不準(zhǔn)確,目標(biāo)框存在偏大或偏小等情況,并且單一的分辨率通常會丟失部分圖像信息,繼而影響后續(xù)目標(biāo)檢測和增量學(xué)習(xí)性能。針對上述問題,本文在Backbone 模塊采用Graph-FPN[24]作為特征提取網(wǎng)絡(luò),其結(jié)構(gòu)如圖2 所示。首先利用基于全卷積編解碼器網(wǎng)絡(luò)的輪廓檢測算法(convolutional oriented boundaries,COB)[25]將原始圖像分割成符合目標(biāo)物體邊界語義區(qū)域的超像素圖像結(jié)構(gòu),并在圖神經(jīng)網(wǎng)絡(luò)中利用部分-整體層次結(jié)構(gòu)判斷二者之間對象特征語義一致性,進(jìn)一步提高每個顯著對象微觀層面的完整性,從而幫助模型對目標(biāo)準(zhǔn)確定位,并快速生成定位質(zhì)量較高的候選區(qū)域。之后,利用上下文層和層次層的分層設(shè)計,將多尺度特征進(jìn)行跨空間和跨尺度的特征交互,并引入局部通道注意力機制增強目標(biāo)特征的表達(dá)能力,為目標(biāo)檢測和新類別學(xué)習(xí)提供更加豐富的語義信息,從而在有效提升未知目標(biāo)的召回率的同時,也提升了模型的學(xué)習(xí)能力。

        圖2 Graph-FPN特征提取網(wǎng)絡(luò)Fig.2 Graph-FPN feature extraction network

        具體來講,如圖2所示,Graph-FPN 包含4個步驟進(jìn)行特征提?。?/p>

        步驟1如圖3 所示,首先利用COB 超像素算法對圖像進(jìn)行分割,這種超像素圖像不僅能防止背景和目標(biāo)之間的特征混合,而且能有效保留目標(biāo)的邊界信息。然后利用分層分割技術(shù)獲取圖2 中超像素圖像的金字塔層級結(jié)構(gòu)S={S0,S1,…,S4},以此來表達(dá)圖像的局部到整體的層次結(jié)構(gòu),其中Si+1的超像素數(shù)目是Si中的1/4。

        圖3 COB算法生成超像素Fig.3 Superpixel generation by COB algorithm

        步驟2利用S2、S3、S4分別構(gòu)建圖特征金字塔(Graph-FPN)。其中,Si中的每個超像素點與Graph-FPN中的節(jié)點對應(yīng),并為每個節(jié)點構(gòu)建上下文交互邊和層次交互邊,通過圖神經(jīng)網(wǎng)絡(luò)對同一尺度內(nèi)和不同尺度之間的特征進(jìn)行融合。

        步驟3Graph-FPN 通過空間和通道注意力機制進(jìn)一步增強特征的表達(dá)能力。其中,空間注意力采用式(1)對圖中的節(jié)點特征進(jìn)行更新:

        其中,M表示圖注意力機制[26],hj∈Νi是節(jié)點i的鄰居節(jié)點特征向量,hi和hi′分別是節(jié)點i更新前后的特征向量。

        通道注意力是由平均池化的局部通道注意力模塊和局部通道自注意力模塊組成。平均池化的局部通道注意力模塊特征更新如式(2)所示:

        其中,σ表示sigmoid 函數(shù),W1∈RC×C為全連通層可學(xué)習(xí)權(quán)重矩陣。ai′ ∈RC表示節(jié)點i及其鄰居的特征向量進(jìn)行平均得到特征向量。局部通道自注意力模塊特征更新如式(3)所示:

        其中,β表示初始化為0的可學(xué)習(xí)權(quán)值。X=AT*A表示通道相似矩陣,A表示節(jié)點i及其鄰居的特征向量集合。

        步驟4將經(jīng)過融合后的特征由圖神經(jīng)網(wǎng)絡(luò)映射到特征金字塔網(wǎng)絡(luò)。

        總之,利用Graph-FPN 作為特征提取網(wǎng)絡(luò),不僅優(yōu)化了模型的特征表達(dá)能力,提高了模型在開放世界環(huán)境中的未知目標(biāo)的檢測精度,同時也能幫助模型更好地完成后續(xù)的目標(biāo)檢測和增量學(xué)習(xí)等任務(wù)。本文的對比實驗也驗證了該網(wǎng)絡(luò)在提高對未知目標(biāo)檢測和增量學(xué)習(xí)的有效性。

        2.4 基于平坦極小值的基類學(xué)習(xí)策略

        災(zāi)難性遺忘是增量學(xué)習(xí)長期存在的一個嚴(yán)重問題,如相關(guān)工作中所述,解決該問題對開放世界目標(biāo)檢測任務(wù)尤為重要。眾所周知,深度神經(jīng)網(wǎng)絡(luò)的泛化能力一般與其極小值附近的平坦度[27]有關(guān),并且較為平坦的最優(yōu)解通常具有更好的魯棒性,因此,本文提出了基于平坦極小值的基類學(xué)習(xí)策略,即:在平坦極小值附近對模型參數(shù)隨機擾動,使其損失移動更加穩(wěn)健,以此能夠更好地解決模型的災(zāi)難性遺忘問題。

        基于上述動機,本文利用式(5)計算模型的平坦極小值θ*。

        其中,式(4)表示Faster R-CNN 的分類和回歸損失之和。分別為模型的分類和回歸損失,Ki和Pi分別為模型預(yù)測的類別和目標(biāo)框位置,Ki*和分別為訓(xùn)練樣本的類別和目標(biāo)框位置,Ncls和Nreg表示分類和回歸的樣本數(shù)。式(5)中Rs(fθ)表示模型的銳度度量損失,近似于Ls(f(θ+ε))-Ls(fθ)的最大值,s表示訓(xùn)練集數(shù)據(jù),θ表示GARO-ORE的模型參數(shù),ε是將Ls(f(θ+ε))的一階泰勒逼近在θ附近最大化問題的一個近似解,即ε:||ε||2≤ρ,其中ρ表示約束鄰域半徑的預(yù)定義常數(shù)。

        使用基于平坦極小值的基類學(xué)習(xí)策略時,首先需要在t=1 的訓(xùn)練階段,按式(5)求解模型的平坦局部極小值點θ?作為模型的最優(yōu)解,然后在t≥2 的持續(xù)學(xué)習(xí)過程中,在平坦區(qū)域內(nèi)鉗制模型參數(shù)(Fast RCNN 網(wǎng)絡(luò)的全連接層參數(shù))進(jìn)行微調(diào),即θ?-ρ≤θ≤θ?+ρ。如圖4 所示為現(xiàn)有技術(shù)(尖銳極小值)和本文方法(平坦極小值)的解釋說明[28],其中圖4(a)表示模型在引入新類別參數(shù)后直接微調(diào)模型導(dǎo)致舊類別的檢測性能嚴(yán)重下降,圖4(b)表示通過引入平坦極小值微調(diào)參數(shù)可以有效地緩解災(zāi)難性遺忘。

        圖4 尖銳極小值與平坦極小值的權(quán)值變化Fig.4 Weight change of sharp minimum and flat minimum

        2.4.1 尋找基類訓(xùn)練階段的平坦局部極小值

        本文采用添加隨機噪聲的方法來定位目標(biāo)函數(shù)的平坦局部極小值。具體來講,在Faster R-CNN 全連接層網(wǎng)絡(luò)參數(shù)中通過多次添加隨機噪聲ε,獲取相似但不同的損失函數(shù),并將這些損失函數(shù)聯(lián)合優(yōu)化以定位平坦局部極小值,具體計算如式(5)所示。由于額外的Rs(fθ)計算增加了模型的計算成本,從而導(dǎo)致在COCO2017、VOC2007 等大型數(shù)據(jù)集訓(xùn)練時極大降低了模型訓(xùn)練速度。針對該問題,本文采用一種計算開銷較小的輕量級銳度感知算法(sharpnessaware training for free,SAF)[29]替換銳度損失Rs(fθ)來尋找基類訓(xùn)練階段的局部極小值,SAF算法具體計算過程如下。

        首先按式(6)計算銳度度量損失Rs(fθ)的一階泰勒展開式。

        如式(6)所示,最小化銳度損失Rs(fθ)等價于最小化梯度?θLs(fθ)的L2范數(shù),這與最小化Ls(fθ)的梯度相同。另外,由于常規(guī)訓(xùn)練(SGD優(yōu)化器)的學(xué)習(xí)率μ一般小于ρ,模型在兩個連續(xù)小批量(mini-batch)數(shù)據(jù)集迭代中更新權(quán)值的訓(xùn)練損失變化如式(7)所示:

        由此可知,權(quán)重更新后訓(xùn)練損失的變化與Rs(fθ)2成正比,因此,最小化損失差近似于最小化銳度損失,于是本文引入了一種新的軌跡損失,即用標(biāo)準(zhǔn)訓(xùn)練過程中學(xué)習(xí)到的權(quán)值軌跡代替銳度損失,以此降低銳度度量損失的計算開銷。

        如圖5 所示,紅色線條表示常規(guī)的訓(xùn)練損失Ls(fθ),藍(lán)色箭頭表示模型訓(xùn)練軌跡??梢钥闯觯怃J的局部極小值往往具有較大的軌跡損失,而平坦極小值具有較小的軌跡損失。其中表示E個階段的軌跡損失大小。

        圖5 尖銳及平坦極小值的軌跡損失Fig.5 Trajectory loss of sharp and flat minimum

        在計算權(quán)值軌跡時,首先用Θ={θ1,θ2,…,θt}表示迭代過程中的權(quán)值軌跡,其中θt表示第t次迭代權(quán)值,則θt+1的迭代權(quán)值可表示為θt+1=θt-μ?θtLSt(fθ)。對于t時刻的銳度損失,可以由式(8)表示:

        由式(6)可知,最小化損失差Rs(fθ) 等價于[Lst(fθi)-Lst(fθi+1)],表明軌跡損失可以替代銳度度量損失Rs(fθ),并且能極大降低訓(xùn)練損失計算開銷。

        另外,為了進(jìn)一步精確估計銳度損失,只考慮過去E次迭代的模型更新軌跡,其中E為訓(xùn)練的超參數(shù)。然而,當(dāng)同時最小化分類損失和銳度度量損失時,式(9)中的Lst(fθi+1) 交叉熵?fù)p失與式(4)中的Lcls(Ki,Ki*)交叉熵?fù)p失相抵消。因此,本文將交叉熵?fù)p失替換為KL 散度損失以解耦回歸損失。另外,受知識蒸餾的啟發(fā),本文還使用溫度τ來軟化KL 散度損失。因此,第e次迭代的軌跡損失定義如下:

        2.4.2 持續(xù)學(xué)習(xí)階段模型微調(diào)

        在進(jìn)行增量學(xué)習(xí)時,對平坦區(qū)域內(nèi)微調(diào)分類權(quán)值和定位權(quán)值以學(xué)習(xí)新類。值得注意的是,雖然平坦區(qū)域可能相對較小,但是足以很好地完成增量學(xué)習(xí)。

        更新全連接層網(wǎng)絡(luò)參數(shù)后,通過對參數(shù)進(jìn)行鉗制,以確保其位于平坦區(qū)域內(nèi),即θ?-ρ≤θ≤θ?+ρ。

        2.5 基于知識遷移的新增類別權(quán)值初始化

        在增量學(xué)習(xí)時,模型首先需要為每個新類別的權(quán)值進(jìn)行初始化。ORE 使用了一組隨機值進(jìn)行初始化,該方法容易導(dǎo)致模型以較慢速度收斂于尖銳極小值,從而往往無法達(dá)到期望的學(xué)習(xí)效率。因此,為了解決ORE 中隨機初始化參數(shù)方法的缺陷,提出了一種基于知識遷移的新增類別權(quán)值初始化方法,其核心思想是利用特征相似度從舊類中學(xué)習(xí)新類的特定信息,實現(xiàn)新舊類之間知識遷移,從而為分類頭提供有效的初始值,并有利于使用少量數(shù)據(jù)進(jìn)行微調(diào)。

        具體來講,首先采用類別的特征分布表示知識,并通過使用ORE 論文中的對比聚類方法將每個基類的高維特征聚合成多個特征簇,然后將每個特征簇中特征均值作為該類別的知識,如式(11)所示:

        其中,kc表示類別c的特征均值,Ni表示該簇內(nèi)的特征總數(shù),fθ(xk)表示該簇內(nèi)的第k個樣本的特征向量。然后,利用余弦相似度計算新增類別特征均值與舊類別的特征均值相似度并歸一化處理,具體計算如式(12)、式(13)所示,其中ki,i∈{1,2,…,C},與kj,j∈{C+1,C+2,…}分別代表n維空間中舊類別與新類別兩個特征簇的特征均值。

        最后,利用式(14)獲取分類權(quán)值的初始值,利用得到的初始化權(quán)值對模型進(jìn)行訓(xùn)練。

        其中,θold_i,i∈{1,2,…,C}表示模型學(xué)習(xí)的舊類別參數(shù),sij,i∈{1,2,…,C}表示新類別與舊類別的歸一化的相似度,θnew_j表示經(jīng)過基于知識遷移的新增類別權(quán)值初始化得到的新類別參數(shù)。通過知識遷移的分類權(quán)值初始化,可以有效地將知識從舊類傳播到新類,為分類頭提供有效的初始值,幫助模型更有效地對新類別建模,使得模型更快地適應(yīng)新類別,提高模型的檢測精度。其實現(xiàn)過程如圖6所示。

        圖6 基于知識遷移的權(quán)值初始化Fig.6 Weight initialization based on knowledge transfer

        通過上述基于知識遷移的新增類別權(quán)值初始化,結(jié)合在平坦區(qū)域內(nèi)鉗制模型參數(shù)微調(diào)的方法,模型能夠有效地避免災(zāi)難性遺忘,同時增強其對新類別檢測的適應(yīng)能力。

        3 實驗

        3.1 數(shù)據(jù)集和評價指標(biāo)

        為了驗證GARO-ORE 模型的可行性和有效性,以及比較的公平性,本文遵照ORE[9]實驗中的設(shè)定,選用OWOD 數(shù)據(jù)集對模型進(jìn)行評估。OWOD 數(shù)據(jù)集由標(biāo)準(zhǔn)數(shù)據(jù)集VOC2007和COCO2017數(shù)據(jù)集合并而成,共包含80 種目標(biāo)類別。同時參考ORE 的實驗設(shè)置,將這80 個類別劃分為4 組不重疊的數(shù)據(jù)集{D1,D2,D3,D4}進(jìn)行實驗分析。如表1 所示,每個數(shù)據(jù)集含有20 個不同類別,其中,數(shù)據(jù)集D1包含VOC-2007 數(shù)據(jù)集所有類別及其相應(yīng)類別的訓(xùn)練及測試數(shù)據(jù),D2、D3、D4數(shù)據(jù)集是將剩余60 個類別對應(yīng)的訓(xùn)練和測試數(shù)據(jù)劃分成具有語義漂移的連續(xù)數(shù)據(jù)集。

        表1 實驗數(shù)據(jù)集Table 1 Experimental dataset

        本文采用了標(biāo)準(zhǔn)平均精度(mean average precision,mAP)和未知類別召回率(U-Recall)兩個指標(biāo)驗證模型在OWOD 任務(wù)上的性能。對于每個指標(biāo),其值越大表示性能越好。

        本實驗使用mAP@0.5(IoU 閾值取大于0.5)作為已知類別目標(biāo)檢測的度量指標(biāo),其準(zhǔn)確率(Precision)、召回率(Recall)和平均準(zhǔn)確率AP值和平均準(zhǔn)確率均值mAP的計算過程如下式所示:

        其中,TP為真正例,F(xiàn)P為假正例,F(xiàn)N為假負(fù)例,準(zhǔn)確率(Precision)表示模型識別出的正樣本占真實正樣本的比值,召回率(Recall)表示模型正確識別為正樣本的比值,AP值表示Precision和Recall曲線下的面積。mAP表示所有類別AP@0.5的平均值。

        未知類別召回率U-Recall作為未知對象檢測的評估指標(biāo),表示模型預(yù)測的未知類別的正確目標(biāo)占總未知目標(biāo)的比例。U-Recall計算如式(19)所示:

        其中,U_TP表示未知類別預(yù)測正確的實例數(shù)量,U_FN為未預(yù)測出的未知實例數(shù)量。

        3.2 參數(shù)設(shè)置

        在Graph-FPN 模塊中,為了提高其性能,首先利用ImageNet 數(shù)據(jù)集對該網(wǎng)絡(luò)進(jìn)行監(jiān)督預(yù)訓(xùn)練。然后,在GARO-ORE 的訓(xùn)練過程中利用圖卷積神經(jīng)網(wǎng)絡(luò)對Conv3 到Conv5 提取的多尺度特征充分融合獲取更豐富的語義信息。

        在Unknown Aware RPN 模塊中,本文參考ORE的實驗設(shè)置,設(shè)置偽標(biāo)簽(未知目標(biāo))的個數(shù)最大為5;在基于平坦極小值的基類學(xué)習(xí)策略中將式(4)中的平衡系數(shù)λ從{0.1,1,10,100}中選擇10,將式(6)中的超參數(shù)ρ設(shè)置為0.05,將式(10)中的超參數(shù)E和溫度τ分別設(shè)置為5來提高軌跡損失的精度。

        在優(yōu)化方面,使用動量為0.9 的隨機梯度下降(stochastic gradient descent,SGD),其初始學(xué)習(xí)率設(shè)置為0.02,隨后降低到0.000 2。mini batch是從{8,16,32}中選擇的16,NMS(non-maximum suppression)閾值設(shè)置為0.4。本文在{D1,D2,D3,D4}數(shù)據(jù)集中對每個任務(wù)進(jìn)行100 000 次迭代訓(xùn)練。在1 000 次迭代后啟動聚類和執(zhí)行分類權(quán)值初始化方法對增量學(xué)習(xí)參數(shù)進(jìn)行初始化(基類學(xué)習(xí)不進(jìn)行權(quán)值初始化),每3 000次迭代之后更新聚類原型。

        3.3 實驗結(jié)果與分析

        實驗環(huán)境:Intel?Xeon?Silver 4310 CPU@2.10 GHz,64 GB 內(nèi)存,CentOS7,GPU 處理器為4 塊NVIDIA TESLA T4 的獨立顯卡,本文在detectron2 框架下完成對GARO-ORE 網(wǎng)絡(luò)模型訓(xùn)練和驗證。為了驗證GARO-ORE 模型的有效性,首先與當(dāng)前性能最優(yōu)的ORE 方法進(jìn)行了對比實驗,然后進(jìn)行了3 組增量學(xué)習(xí)實驗和時間代價實驗,最后進(jìn)行消融實驗,以全面考察本文方法對模型性能的貢獻(xiàn),具體實驗結(jié)果如下。

        (1)OWOD對比實驗

        本文在{D1,D2,D3,D4}數(shù)據(jù)集上與ORE 及其他算法進(jìn)行了對比實驗,其中任務(wù)T1表示GARO-ORE 模型基類學(xué)習(xí)D1數(shù)據(jù)集上的所有類別,T2、T3和T4分別表示將D2、D3、D4數(shù)據(jù)以增量學(xué)習(xí)的形式引入模型中,實驗結(jié)果如表2所示。

        表2 GARO-ORE在OWOD設(shè)定下的對比實驗結(jié)果Table 2 Comparative experimental results of GARO-ORE under OWOD setting 單位:%

        從表2的實驗結(jié)果可以看出,本文方法在OWOD任務(wù)上取得了最好的結(jié)果,無論在舊類別性能的保留還是新類別的檢測性能上都有較好的提升。特別地,在數(shù)據(jù)集{D1,D2,D3}上,GARO-ORE 比最先進(jìn)的ORE 在U-Recall 指標(biāo)上分別提升了0.84 個百分點、0.66個百分點和0.64個百分點,在{D1,D2,D3,D4}數(shù)據(jù)集上,GARO-ORE 在mAP 指標(biāo)上分別獲得0.65 個百分點、1.74 個百分點、1.15 個百分點和1.59 個百分點提升。這說明本文方法不僅能有效增強模型對未知目標(biāo)的檢測效果,并且還可以持續(xù)高效地學(xué)習(xí)到新類別知識,同時保持較好的已知類別識別性能。

        (2)增量學(xué)習(xí)對比實驗

        本文在D1數(shù)據(jù)集上模擬增量學(xué)習(xí)場景。根據(jù)開放世界目標(biāo)檢測的設(shè)定,模型在t=1 時學(xué)習(xí)基類Classbase,在t=2 時模型以增量學(xué)習(xí)方式引入其余類別Classnext。在實驗中本文按照難度遞減的方式設(shè)置了3 種不同的增量學(xué)習(xí)實驗:①在t=1 時刻,模型學(xué)習(xí)D1數(shù)據(jù)集上前10個類別,t=2時刻學(xué)習(xí)剩余10個類別。②在t=1 時刻,模型學(xué)習(xí)D1數(shù)據(jù)集上前15 個類別,t=2 時刻學(xué)習(xí)剩余5 個類別。③在t=1 時刻,模型學(xué)習(xí)D1數(shù)據(jù)集上前19 個類別,t=2 時刻學(xué)習(xí)剩余的1個類別。通過上述3種不同的實驗對模型的目標(biāo)檢測增量學(xué)習(xí)(incremental learning for object detectors,iOD)能力進(jìn)行評估,實驗結(jié)果如表3~表5所示。

        表3 GARO-ORE增量學(xué)習(xí)的對比實驗(10+10)Table 3 Comparative experiment of GARO-ORE on incremental learning(10+10) 單位:%

        表5 GARO-ORE增量學(xué)習(xí)的對比實驗(19+1)Table 5 Comparative experiment of GARO-ORE on incremental learning(19+1) 單位:%

        表3~表5 的實驗結(jié)果表明,GARO-ORE 在增量目標(biāo)檢測(iOD)任務(wù)中表現(xiàn)良好,在大多數(shù)舊類別和新類別的AP 值有較大的提升,并且在10+10、15+5、19+1 的增量學(xué)習(xí)任務(wù)中,其mAP 指標(biāo)分別提升了1.38、1.42和1.44個百分點。從舊類別的AP值可以看出,絕大多數(shù)舊類別AP 值都有一定的提升,驗證了GARO-ORE 通過求解基類模型平坦極小值,并在其附近的平坦區(qū)域內(nèi)微調(diào)參數(shù)可有效緩解災(zāi)難性遺忘。此外,通過學(xué)習(xí)的新類別的AP值結(jié)果可以看出,引入基于知識遷移的新增類別權(quán)值初始化的方法,能夠有效增強對新增目標(biāo)類別的建模能力,幫助模型有效保留舊類別性能的同時還能促進(jìn)后續(xù)任務(wù)的學(xué)習(xí)。

        (3)時間代價實驗

        為了驗證GARO-ORE 算法的檢測效率,本文與Faster R-CNN、ORE 兩個基線模型進(jìn)行對比,測試圖像尺寸統(tǒng)一為800×800,其參數(shù)量和推理速度測試結(jié)果如表6所示。

        表6 參數(shù)量及推理速度對比Table 6 Comparison of parameters and reasoning speed

        從表6 實驗結(jié)果表明,GARO-ORE 相對于ORE模型推理速度由原9.65 FPS 下降到8.48 FPS。其主要原因是為了優(yōu)化未知目標(biāo)的檢測和增量學(xué)習(xí),本文引入Graph-FPN作為特征提取網(wǎng)絡(luò),導(dǎo)致模型參數(shù)增加,推理速度下降。相較于Faster R-CNN 以及ORE,盡管GARO-ORE模型的推理速度有所下降,但是該模型在處理開放世界目標(biāo)檢測問題上實現(xiàn)了較大的性能提升。

        (4)消融實驗

        為了驗證GARO-ORE 每個關(guān)鍵模塊的有效性,本文基于數(shù)據(jù)集{D1,D2,D3,D4}設(shè)計了一組消融實驗,以詳細(xì)考察各模塊對OWOD的影響。實驗結(jié)果如表7 所示,其中“√”表示引入相應(yīng)模塊,“×”表示暫不使用相應(yīng)模塊。其中BLFM(baseclass learning strategy based on flat minima)表示基于平坦極小值的基類學(xué)習(xí)策略,WIKT(weight initialization based on knowledge transfer)表示基于知識遷移的新增類別權(quán)值初始化,Pre_Known為先前類別的mAP值,C_Known為新增類別的mAP值。

        表7 消融實驗結(jié)果Table 7 Ablation experimental results 單位:%

        從表7 實驗結(jié)果可以看出,GARO-ORE 在{D1,D2,D3,D4}數(shù)據(jù)集上均獲得了較好的性能,其余不完整的模型的性能有不同程度的下降,證明了每個關(guān)鍵模塊的重要性,表明所有關(guān)鍵模塊都對整體性能有著積極的貢獻(xiàn)。以具有代表性數(shù)據(jù)集D1為例介紹模型各模塊實驗效果,通過對比實驗1 和實驗2 可以看出,使用Graph-FPN 代替ResNet 網(wǎng)絡(luò)能夠有效優(yōu)化未知目標(biāo)的檢測問題。在基類學(xué)習(xí)過程中,其未知目標(biāo)的召回率有0.56 個百分點的精度提升,并且在新增類別目標(biāo)檢測中實現(xiàn)了0.62 個百分點的mAP 精度提升,很好促進(jìn)模型進(jìn)行了增量學(xué)習(xí)。對比實驗1 和實驗3 可以看出,通過引入基于平坦極小值的基類學(xué)習(xí)策略能夠較好地保留舊類別的檢測性能,相較于ORE,在舊類別的檢測中mAP指標(biāo)提升了1.02 個百分點。對比實驗1 和實驗4 可以看出,該方法能夠有效地幫助模型進(jìn)行增量學(xué)習(xí)。在增量學(xué)習(xí)中,新類別的mAP指標(biāo)提升了1.44個百分點。實驗6結(jié)果表明本文方法達(dá)到了最佳性能。在未知目標(biāo)召回率達(dá)到了6.92%,通過增量學(xué)習(xí)后的目標(biāo)檢測mAP達(dá)到了69.93%。

        3.4 可視化分析

        為了更直觀地展示算法的實驗效果,如圖7 所示,本文選取了三組典型場景圖像來對ORE 和GARO-ORE做定性比較。

        圖7 ORE與GARO-ORE檢測效果對比Fig.7 Comparison of detection results between ORE and GARO-ORE

        從第一組實驗結(jié)果中可以看出,與ORE 算法相比,GARO-ORE 檢測到了圖像左側(cè)的吊燈和中間的餐桌,并正確識別出右側(cè)的椅子。在第二組實驗結(jié)果中顯示,GARO-ORE 將書架中間位置未學(xué)習(xí)的罐子和書架識別為未知物體。在第三組對比中,ORE錯誤地將樓層檢測成火車,而GARO-ORE 并沒有出現(xiàn)類似的誤判目標(biāo)。這些結(jié)果表明,GARO-ORE 模型在OWOD 任務(wù)上取得了良好的性能,驗證了模型的可行性,達(dá)到了預(yù)期效果。

        4 結(jié)束語

        針對開放世界目標(biāo)檢測任務(wù),提出了一種提升OWOD 檢測性能的模型GARO-ORE,該模型由包括Graph-FPN、基于平坦極小值的基類學(xué)習(xí)策略和基于知識遷移的新增類別權(quán)值初始化方法等專用組件組成,用于處理開放世界設(shè)置下的目標(biāo)檢測,提升了ORE 模型在OWOD 設(shè)定中的檢測性能。本文在OWOD 數(shù)據(jù)集上進(jìn)行了大量實驗,對于該數(shù)據(jù)集上的所有任務(wù)設(shè)置,GARO-ORE 均優(yōu)于當(dāng)前性能最優(yōu)的模型ORE。然而,GARO-ORE提升性能的同時,也導(dǎo)致模型結(jié)構(gòu)更加復(fù)雜、龐大。因此在下一步工作中,考慮設(shè)計一種輕量化模型進(jìn)一步提高檢測效率和性能。

        猜你喜歡
        基類極小值增量
        提質(zhì)和增量之間的“辯證”
        基于C#面向?qū)ο蟪绦蛟O(shè)計的封裝、繼承和多態(tài)分析
        一道抽象函數(shù)題的解法思考與改編*
        構(gòu)造可導(dǎo)解析函數(shù)常見類型例析*
        “價增量減”型應(yīng)用題點撥
        極小值原理及應(yīng)用
        基于龐特里亞金極小值原理的多運載體有限時間編隊控制
        基于均衡增量近鄰查詢的位置隱私保護(hù)方法
        空戰(zhàn)游戲設(shè)計實例
        一種基于用戶興趣的STC改進(jìn)算法
        无码国产精品一区二区免费式直播| 日韩国产一区二区三区在线观看| 成年网站在线91九色| 国产日韩精品欧美一区喷水| 18无码粉嫩小泬无套在线观看| 欧美性xxx久久| 日本二区三区在线免费| 国产精品无码素人福利不卡| 狠狠色丁香久久婷婷综合蜜芽五月| 国产自产c区| 亚洲狠狠久久五月婷婷| 无遮掩无码h成人av动漫| 一本久久a久久精品亚洲| 中文字幕亚洲无线码a| 在线国产丝袜自拍观看| 国产夫妇肉麻对白| 巨熟乳波霸若妻在线播放| 亚洲av一区二区国产精品| 亚洲国产中文字幕精品| 午夜毛片不卡免费观看视频 | 最近高清中文在线字幕观看| 国产精品一区成人亚洲| 91精品国产乱码久久中文| 中文字幕人妻无码一夲道| 国产精品无码片在线观看| 国产三级在线观看不卡| 国产精品视频永久免费播放| 亚洲国产精品久久久久秋霞影院| 亚洲中字幕永久在线观看| 在线观看一区二区中文字幕| 久久无码av一区二区三区| 国产在线精品一区二区在线看| 精品国产污黄网站在线观看| 色天使久久综合网天天| 播放灌醉水嫩大学生国内精品| 亚洲AV秘 无码一区二区久久| 国产91久久麻豆黄片| 亚洲av成人中文无码专区| 粗大挺进尤物人妻一区二区| 中文字幕亚洲高清视频| 亚洲国产日韩精品一区二区三区|