摘 要:開放世界目標(biāo)檢測(cè)(open world object detection,OWOD)是一個(gè)計(jì)算機(jī)視覺(jué)挑戰(zhàn),聚焦于現(xiàn)實(shí)世界環(huán)境,其不僅要檢測(cè)出標(biāo)記出的已知物體,還需要能處理訓(xùn)練過(guò)程中被忽視的未知物體。針對(duì)已知和未知物體的檢測(cè)混淆、密集未知目標(biāo)和小目標(biāo)遺漏等問(wèn)題,提出了一種新的基于偏移過(guò)濾和未知特征強(qiáng)化的開放世界目標(biāo)檢測(cè)器(offset filter and unknown-feature reinforcement for open world object detection,OFUR-OWOD)。首先設(shè)計(jì)一個(gè)未知類特征強(qiáng)化(unknown class feature reinforcement,UCFR)模塊,通過(guò)自適應(yīng)未知對(duì)象得分的方法來(lái)強(qiáng)化未知類目標(biāo)特征,進(jìn)而提高模型對(duì)未知類對(duì)象的訓(xùn)練準(zhǔn)確度。然后,將重疊框偏移過(guò)濾器(overlapping box offset filter,OBOF)應(yīng)用于目標(biāo)預(yù)測(cè)框,根據(jù)目標(biāo)位置和大小,獲得不同偏移得分,以過(guò)濾冗余未知框。通過(guò)豐富實(shí)驗(yàn)證明,該方法在COCO-OOD和COCO-Mix上優(yōu)于現(xiàn)有一些最先進(jìn)的方法。
關(guān)鍵詞:開放世界目標(biāo)檢測(cè);自適應(yīng)得分;未知目標(biāo)特征強(qiáng)化;偏移過(guò)濾
中圖分類號(hào):P315.69 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2025)02-041-0618-05
doi:10.19734/j.issn.1001-3695.2024.05.0183
Offset filter and unknown feature reinforcement for open world object detection
Wang Chaoa,Su Shuzhia,Zhu Yanminb’,Xu Yanga
(a.School of Computer Science amp; Engineering,b.School of Mechanical amp; Electrical Engineering,Anhui University of Science amp; Technology,Huainan Anhui 232001,China)
Abstract:OWOD is a computer vision challenge focusing on real-world environments,requiring the detection of both labeled known objects and previously unseen unknown objects during training.This paper proposed a novel open world object detector based on OFUR-OWOD to address the problems of confusing the detection of known and unknown objects,dense unknown objects and small object omission.Firstly,it designed an unknown class feature reinforcement (UCFR) module to reinforce the unknown object features by means of adaptive unknown object scoring,which in turn improved the training accuracy of the model for unknown objects.Then,it applied overlapping box offset filter (OBOF) to the proposals to obtain different offset scores according to the object position and size in order to filter redundant unknown object boxes.Extensive experiments demonstrate that this method outperforms some of the state-of-the-art methods on COCO-OOD and COCO-Mix.
Key words:OWOD;adaptive scoring;unknown object feature reinforcement;offset filtering
0 引言
目標(biāo)檢測(cè)[1]的任務(wù)是從圖像中精確且高效地識(shí)別、定位出大量預(yù)定義類別的物體實(shí)例。近年來(lái),目標(biāo)檢測(cè)越來(lái)越多地應(yīng)用于許多實(shí)際應(yīng)用中,如自動(dòng)駕駛[2]、視頻監(jiān)控[3]和機(jī)器人[4]。傳統(tǒng)目標(biāo)檢測(cè)方法是基于封閉世界假設(shè)的,即訓(xùn)練類別數(shù)量是固定的。然而,對(duì)于含有無(wú)限范圍的視覺(jué)輸入條件(如姿勢(shì)和環(huán)境)和概念的現(xiàn)實(shí)世界應(yīng)用程序,這一假設(shè)并不成立。實(shí)際上,通過(guò)單個(gè)數(shù)據(jù)集獲得現(xiàn)實(shí)世界所有視覺(jué)信息是不可能的。從這些角度來(lái)看,重要的是使檢測(cè)方法對(duì)未知物體具有魯棒性,從而使它們能夠在開放的世界環(huán)境中發(fā)揮作用。
開集識(shí)別[5,6]旨在正確地分類已見(jiàn)類別樣本,同時(shí)準(zhǔn)確地識(shí)別并拒絕未見(jiàn)類別樣本。近年來(lái),此領(lǐng)域涌現(xiàn)出大量的基于深度學(xué)習(xí)模型的研究工作,2018年Neal等人[7]提出了OSRCI方法,OSRCI生成與訓(xùn)練集中的圖像相似,但不屬于任何已知類的圖像,并使用生成的圖像來(lái)訓(xùn)練開集分類器,這項(xiàng)工作還建立了現(xiàn)有的OSR基準(zhǔn)套件。2021年Kong等人[8]通過(guò)使用對(duì)抗性訓(xùn)練的鑒別器來(lái)描繪閉集圖像和開集圖像,利用真實(shí)的開集圖像進(jìn)行模型選擇,實(shí)現(xiàn)了強(qiáng)大的OSR性能。
近年來(lái),隨著研究的深入,由于基于學(xué)習(xí)的方法[9~11]在精度和召回率方面的優(yōu)異表現(xiàn),研究人員已經(jīng)將其作為解決目標(biāo)檢測(cè)(object detection,OD)問(wèn)題的一種主流方法。開放世界對(duì)象檢測(cè)[12,13]是指從包含未知或新奇對(duì)象的未知圖像或視頻流中,檢測(cè)和識(shí)別出所有可能的對(duì)象及其對(duì)應(yīng)的位置和邊界框。未知目標(biāo)檢測(cè)的困難源于未知類對(duì)象缺乏相應(yīng)的監(jiān)督,因?yàn)榕c已知目標(biāo)不同,未知目標(biāo)沒(méi)有標(biāo)簽。由此,當(dāng)訓(xùn)練OD[14,15]模型時(shí),包含未知對(duì)象的對(duì)象建議將會(huì)被錯(cuò)誤地作為背景懲罰。到目前為止,大多數(shù)OWOD方法都試圖克服這一挑戰(zhàn),在訓(xùn)練過(guò)程中使用不同的啟發(fā)方法來(lái)區(qū)分未知物體和背景。例如,OLN-Mask[16]使用OLN代替RPN[17,18],利用定位質(zhì)量預(yù)測(cè)頭代替分類頭,有效抑制了超分布(out of distribution,OOD)對(duì)象作為背景的偏差。OW-DETR[19]使用偽標(biāo)記方案,將骨干特征激活程度高的圖像塊確定為未知對(duì)象,并使用這些偽標(biāo)簽來(lái)監(jiān)督OD模型。VOS[20]提出一種新的OOD檢測(cè)框架,利用自適應(yīng)合成離群值來(lái)正則化檢測(cè)模型的決策邊界。UnSniffer[21]使用廣義置信度得分,將具有更高目標(biāo)性概率的非已知類建議確定為未知對(duì)象,并使用負(fù)能量抑制來(lái)進(jìn)一步限制非物體。在本文中,介紹了一種新的基于偏移感知和未知特征強(qiáng)化的開放世界檢測(cè)[22,23]框架(offset filter and unknown-feature reinforcement for open world object detection,OFUR-OWOD)。一方面,通過(guò)未知特征強(qiáng)化模塊優(yōu)化分類器的設(shè)計(jì),使分類器可以更準(zhǔn)確地區(qū)分已知類和未知類。另一方面,在推理階段中,通過(guò)加入一個(gè)過(guò)濾模塊,過(guò)濾掉與已知類或未知類偏移得分過(guò)低的未知類預(yù)測(cè)框。在保留模型對(duì)于已知類識(shí)別精度的同時(shí),提高模型對(duì)于未知類的識(shí)別精度。
1 方法
1.1 問(wèn)題描述
在本節(jié)中,首先定義集合D={(I,L),I∈X,L∈Y}作為目標(biāo)檢測(cè)的數(shù)據(jù)集。其中I代表待檢測(cè)圖像,X表示待檢測(cè)圖像數(shù)據(jù)集,L={(ci,bi)}Ni=1表示待檢測(cè)圖像中的N個(gè)已知目標(biāo)的類別和標(biāo)簽。其中ci∈C表示第i個(gè)目標(biāo)的類別,C表示所有類別的集合,bi表示第i個(gè)對(duì)象的標(biāo)簽,Y表示數(shù)據(jù)集中圖像的目標(biāo)類別和標(biāo)簽的集合。定義訓(xùn)練集為Dtrain,測(cè)試集為Dtest。訓(xùn)練集Dtrain共包含K個(gè)已知類別Cκ={1,2,…,K},Cκ∈C,測(cè)試集Dtest不僅要包含K個(gè)已知類別Cκ,還要包含U個(gè)未知類別CU,CU∈C。在測(cè)試過(guò)程中,由于無(wú)法得知CU具體代表哪種未知類別,所以統(tǒng)一被命名為未知,即CU中所有的類別構(gòu)成該任務(wù)中的第K+1個(gè)類別。模型只對(duì)包含已知類對(duì)象的數(shù)據(jù)集{(In,Ln)|cn∈Cκ,bn∈Ln}Dtrainn=1進(jìn)行訓(xùn)練,對(duì)包含未知對(duì)象的數(shù)據(jù)集{(In,Ln)|cn∈Cκ∪{K+1},bn∈Ln}Dtestn=1進(jìn)行測(cè)試。
1.2 網(wǎng)絡(luò)框架
OFUR-OWOD網(wǎng)絡(luò)的主體架構(gòu)如圖1所示。具體而言,采用Faster R-CNN[24]作為方法的基礎(chǔ)探測(cè)器,其中包含一個(gè)特征提取層、一個(gè)RPN層以及一個(gè)R-CNN層。本文首先將圖像輸入特征提取網(wǎng)絡(luò)ResNet50提取5層特征,表示為Fl{l=1,2,3,4,5},其中前兩層為低層特征,中間一層為中層特征,最后一層為高層特征。低層特征包含更豐富的輪廓信息,但含有較多噪聲,中層特征包含更多樣的信息分類,高層特征包含更多語(yǔ)義信息,但更為抽象。然后,將Fl輸入特征金字塔網(wǎng)絡(luò)FPN進(jìn)行特征融合,使得所有尺度上的特征都有豐富的語(yǔ)義信息,表示為F^l{l=2,3,4,5,6}。其次,將F^l輸入RPN,RPN會(huì)先利用3×3卷積分別生成位置錨框和邊界框回歸偏移量,然后計(jì)算得到候選框。接著,將候選框集送入R-CNN的RoI池化層,利用候選框從F^l中提取候選框特征,然后使用7×7卷積對(duì)其進(jìn)行歸一化。再次將候選框特征送入置信度頭Ξ和回歸器,Ξ利用一個(gè)1 024維的全連接層計(jì)算候選框包含未知對(duì)象置信度,并利用極值函數(shù)取前ν個(gè)輸入未知特征強(qiáng)化器,進(jìn)行未知目標(biāo)特征擇優(yōu)強(qiáng)化?;貧w器利用一個(gè)獨(dú)立的全連接網(wǎng)絡(luò),計(jì)算候選框特征的回歸偏移量。接下來(lái),將經(jīng)過(guò)強(qiáng)化后的候選框特征送入分類器,利用一個(gè)獨(dú)立的1 024維全連接層計(jì)算候選框?qū)儆诿款惸繕?biāo)的概率,并進(jìn)行分組。之后,利用分類器和回歸器結(jié)果計(jì)算預(yù)測(cè)框在原圖中的位置坐標(biāo),并輸入偏移過(guò)濾器。過(guò)濾器利用偏移感知得分去除已知目標(biāo)重疊預(yù)測(cè)框和未知目標(biāo)冗余預(yù)測(cè)框,最后將結(jié)果輸入原圖進(jìn)行可視化。
1.3 未知類特征強(qiáng)化
針對(duì)未知類對(duì)象的誤檢和漏檢問(wèn)題,設(shè)計(jì)了未知類特征強(qiáng)化模塊,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。具體而言,在開放世界目標(biāo)檢測(cè)任務(wù)的設(shè)定中,訓(xùn)練過(guò)程中只能獲得各個(gè)訓(xùn)練樣本已知類別目標(biāo)的標(biāo)注框以及類別標(biāo)簽,無(wú)法獲得任何未知類別的標(biāo)注信息與標(biāo)簽信息。為了解決未知對(duì)象和已知對(duì)象混淆而導(dǎo)致的未知對(duì)象誤檢問(wèn)題,需要先解決未知對(duì)象信息的缺失問(wèn)題,首先將經(jīng)過(guò)RoI層處理的提議框集輸入目標(biāo)概率性頭,與已知真實(shí)邊界框進(jìn)行對(duì)象性得分計(jì)算,具體計(jì)算過(guò)程如下:
Pro(pi,tj)=wij×hijai+gj(1)
其中:wij表示提議框pi和真實(shí)框tj之間的水平距離;hij則表示兩者之間的垂直距離,i∈{0,1,…,N},j∈{0,1,…,M};N和M分別表示提議框數(shù)量和真實(shí)框數(shù)量;Pro(pi,tj)表示提議框pi含有第j類已知對(duì)象的概率;ai表示提議框的區(qū)域大?。籫j表示真實(shí)框的區(qū)域大小。通過(guò)比較提議框特征與已知類真實(shí)框特征的相似度,可以得到一組對(duì)象性得分,用來(lái)表示提議框包含已知對(duì)象的概率。其次,將目標(biāo)概率性得分高于閾值α的提議框作為初步已知提議框集,將得分小于α的提議框作為未知候選提議框集輸入分類頭,分類頭根據(jù)其對(duì)應(yīng)的真實(shí)框類別,將其分為M組。然后,利用IOP和IOC得分對(duì)初步已知提議框集和未知候選提議框集進(jìn)行未知對(duì)象提議框的初步篩選,過(guò)濾掉已知提議框集中的未知對(duì)象提議框,進(jìn)一步緩解已知對(duì)象和未知對(duì)象的混淆問(wèn)題,以解決未知對(duì)象誤檢問(wèn)題。提議框pik的IOP和IOC得分可以表示為
IOP(pik,tk)=|pik∩tk||pik|(2)
IOC(pik,tk)=|pik∩tk||tk|(3)
其中:tk表示第k類已知對(duì)象真實(shí)框,k∈{0,1,…,M};pik表示第k組第i個(gè)提議框。接著,將IOP得分大于β或IOC得分大于β的提議框和Pro得分小于閾值ζ的提議框組成未知提議框集PU,并送入未知類特征強(qiáng)化頭,使用DOU得分對(duì)其進(jìn)行進(jìn)一步篩選強(qiáng)化。通過(guò)保留低目標(biāo)概率得分的提議框,可以有效地從背景類中篩選出大量包含未知對(duì)象的提議框,從而避免了由于過(guò)度懲罰背景類提議框而導(dǎo)致的未知對(duì)象漏檢問(wèn)題。具體計(jì)算公式如下:
DOU(pUi,pUj)=d2ijSi(4)
其中:pUi和pUj表示PU中的第i個(gè)和第j個(gè)提議框,且i≠j,Si表示pUi的區(qū)域大小,dij表示兩個(gè)提議框之間的歐氏距離,可以表示為
dij=(xci-xcj)2+(yci-ycj)2(5)
其中:xci、yci和xcj、ycj分給表示pUi和pUj的中心點(diǎn)坐標(biāo)。通過(guò)DOU得分,可以得到提議框之間的近似度,只取DOU得分大于ε的提議框,也就是過(guò)濾掉包含同一未知對(duì)象的提議框,能夠進(jìn)一步提煉未知對(duì)象特征。
接著,將經(jīng)過(guò)篩選的未知對(duì)象提議框送入未知類置信度頭Ξ進(jìn)行處理。Ξ由一個(gè)1 024維的全連接層構(gòu)成,并經(jīng)過(guò)多輪訓(xùn)練趨于穩(wěn)定后才投入使用,能夠?qū)μ嶙h框計(jì)算對(duì)象完整性。只采用置信度得分大于λ的未知提議框,如果數(shù)量大于υ,還會(huì)使用max函數(shù)提取置信度最大的υ個(gè)提議框作為最終的未知提議框,即PUυ。通過(guò)這種方法,可以抑制背景類或只包含部分對(duì)象類提議框被當(dāng)成未知對(duì)象類訓(xùn)練情況的發(fā)生,從而有效降低未知對(duì)象誤檢的可能性。
最后,將PUυ輸入真實(shí)框更改器,更改真實(shí)框集中的未知對(duì)象標(biāo)簽,強(qiáng)化未知對(duì)象特征,并送回目標(biāo)概率性頭對(duì)RoI特征圖中的未知提議框進(jìn)行更加準(zhǔn)確的訓(xùn)練,從而降低未知對(duì)象誤檢率和漏檢率,提高檢測(cè)器對(duì)于未知對(duì)象的檢測(cè)性能。
1.4 重疊偏移過(guò)濾
針對(duì)已知對(duì)象和未知對(duì)象的誤檢以及未知對(duì)象預(yù)測(cè)框的冗余問(wèn)題,設(shè)計(jì)了重疊框偏移過(guò)濾器。事實(shí)上,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(region with CNN,R-CNN)層的作用即確定每個(gè)候選框所屬對(duì)象類別及其在原圖中的位置。然而,在推理過(guò)程中,對(duì)已知類對(duì)象采用后處理機(jī)制非極大抑制(non maximum suppression,NMS)剔除多余框的方法并不適用于未知對(duì)象的處理,因?yàn)閿?shù)據(jù)集中的未知對(duì)象邊界框和數(shù)目是不確定的。偏移過(guò)濾器主要利用偏移感知方法計(jì)算預(yù)測(cè)框之間的偏移得分,然后利用偏移得分過(guò)濾掉誤檢框和重疊框。如圖3所示,首先對(duì)RoI頭和未知特征提取模塊輸出的提議框進(jìn)行已知對(duì)象判定,將部分與已知真實(shí)框匹配的提議框作為初始已知框集,并送入NMS進(jìn)行處理,得到最終的已知對(duì)象框集。其次,將剩余的提議框與已知對(duì)象框集輸入偏移過(guò)濾器對(duì)提議框進(jìn)行下一步的篩選處理。未知特征提取模塊由一個(gè)池化層和多個(gè)全連接層組成,經(jīng)過(guò)多輪訓(xùn)練,能夠額外提取數(shù)據(jù)集中的未知對(duì)象特征。然后,過(guò)濾器通過(guò)計(jì)算中心點(diǎn)距離、邊界框大小以及四個(gè)邊之間的距離得到提議框pi和pj之間的偏移得分,具體計(jì)算方法如下:
其中:和ρ是超參數(shù);dij通過(guò)式(5)得到,表示兩個(gè)提議框之間的歐氏距離;hij和wij分別表示框i上邊到框j下邊垂直距離以及兩個(gè)框之間左邊到右邊的水平距離; dijtop、dijbottom、dijleft和dijright是pi和pj對(duì)應(yīng)四條邊之間的距離,計(jì)算方法為
dijleft=|xci-wi2-xcj+wj2|,dijtop=|yci-hi2-ycj+hj2|(7)
dijright=|xci+wi2-xcj-wj2|, dijbottom=|yci+hi2-ycj+hj2|(8)
ω~是標(biāo)準(zhǔn)化函數(shù),負(fù)責(zé)將不同特征值統(tǒng)一到相同尺度,具體計(jì)算公式如下:
ω~(si)=e-si-min(sp)max(sp)-min(sp)(9)
其中:sp表示所有提議框區(qū)域大小的集合。最后,將與已知對(duì)象框偏移得分小于閾值τ的未知對(duì)象提議框去掉,能夠有效避免未知對(duì)象誤檢框的出現(xiàn),同時(shí)將與其他未知提議框偏移得分小于閾值τ的未知對(duì)象提議框去掉,減少未知對(duì)象重疊框的出現(xiàn),有效提高了檢測(cè)器對(duì)于未知對(duì)象的檢測(cè)精度和檢測(cè)全度。
2 實(shí)驗(yàn)結(jié)果與分析
2.1 數(shù)據(jù)集和實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置如表1所示。
本文采用PASCAL VOC[25]作為訓(xùn)練集,VOC-test 作為驗(yàn)證集,COCO-OOD和COCO-Mix數(shù)據(jù)集作為測(cè)試集。訓(xùn)練集由16 551張PASCAL VOC圖片構(gòu)成,含有20類已知目標(biāo)標(biāo)注數(shù)據(jù)。驗(yàn)證集由4 952張圖片構(gòu)成,包含20類已知對(duì)象標(biāo)簽。COCO-OOD由504張圖片構(gòu)成,僅包含未知對(duì)象標(biāo)簽,COCO-Mix由897張圖片構(gòu)成,包含20類已知標(biāo)簽和隨機(jī)未知對(duì)象標(biāo)簽。具體結(jié)構(gòu)如表2所示。
2.2 評(píng)價(jià)指標(biāo)
根據(jù)最常用的目標(biāo)評(píng)估指標(biāo),使用平均精度(mAP)來(lái)評(píng)估模型對(duì)于已知目標(biāo)的檢測(cè)效果,具體計(jì)算公式如下:
mAP=∑Ki=1APiK (10)
其中:K表示已知對(duì)象類別數(shù)量;APi表示第i個(gè)已知對(duì)象類的平均精度。參考已知類平均精度計(jì)算方法,引入U(xiǎn)-AP表示未知類平均精度。同時(shí),為了更好地體現(xiàn)模型對(duì)于未知類的檢測(cè)效果,參考已知類計(jì)算查準(zhǔn)率和查全率的方法,引入U(xiǎn)-PRE表示未知類的查準(zhǔn)率,U-REC表示未知類的查全率,計(jì)算公式如下:
U-PRE=TPuTPu+FPu,U-REC=TPuTPu+FNu(11)
其中:TPu表示真陽(yáng)未知對(duì)象;FPu表示假陽(yáng)未知對(duì)象;FNu表示假陰未知對(duì)象。為了進(jìn)行更加全面的比較,還引入了U-PRE和U-REC的調(diào)和平均值U-F1來(lái)表示未知類的F1得分,計(jì)算為
U-F1=2×U-PRE×U-RECU-PRE+U-REC(12)
值得注意的是,對(duì)于mAP和U-AP,本實(shí)驗(yàn)在0.5~0.95的不同IoU閾值上進(jìn)行測(cè)量,對(duì)于U-PRE、U-REC和U-F1只在IoU閾值0.5處測(cè)量。
2.3 結(jié)果分析
2.3.1 消融實(shí)驗(yàn)
為了驗(yàn)證模型每個(gè)關(guān)鍵模塊的有效性,本文基于COCO-OOD和COCO-Mix數(shù)據(jù)集設(shè)計(jì)了四組消融實(shí)驗(yàn),以詳細(xì)觀察各個(gè)模塊對(duì)于整體OWOD檢測(cè)器的影響。實(shí)驗(yàn)結(jié)果如表3所示,其中“√”表示引入相應(yīng)模塊,“×”表示暫不使用相應(yīng)模塊。其中UCFR表示未知類特征強(qiáng)化模塊,OBOF表示重疊框偏移過(guò)濾器。
通過(guò)對(duì)比表3中的實(shí)驗(yàn)1和2可知,添加UCFR模塊后,檢測(cè)器的U-F1值在OOD和Mix數(shù)據(jù)集上分別提高了3.6和1.2百分點(diǎn),U-AP值在Mix數(shù)據(jù)集上也提高了1.5百分點(diǎn),證明強(qiáng)化未知對(duì)象特征對(duì)于檢測(cè)器性能有著促進(jìn)作用。對(duì)比實(shí)驗(yàn)1和3可知,基于偏移感知的重疊框過(guò)濾器能夠有效提高檢測(cè)器未知對(duì)象檢測(cè)性能,在OOD和Mix數(shù)據(jù)集上U-F1分別提高了2.4和3.1百分點(diǎn),U-AP分別提高了1和3.6百分點(diǎn)。通過(guò)實(shí)驗(yàn)4可知,將UCFR和OBOF同時(shí)加入檢測(cè)器后,檢測(cè)器在兩個(gè)數(shù)據(jù)集上的大部分指標(biāo)都達(dá)到了最優(yōu),證明了兩個(gè)模塊之間有相互促進(jìn)的作用,也充分證明了本文方法的可行性和有效性。
2.3.2 對(duì)比實(shí)驗(yàn)
如表4所示,首先在2.1節(jié)描述的實(shí)驗(yàn)設(shè)置下驗(yàn)證了本文方法在開放世界設(shè)定下的檢測(cè)性能。表中數(shù)據(jù)展示了檢測(cè)模型OFUR-OWOD在封閉集和開放世界數(shù)據(jù)集上的結(jié)果,以及Faster R-CNN、VOS、OW-DETR、ORE[26]和UnSniffer的結(jié)果。其中UnSniffer是目前開放世界檢測(cè)領(lǐng)域的最優(yōu)方法,F(xiàn)aster R-CNN是二階段目標(biāo)檢測(cè)的基礎(chǔ)方法,ORE在Faster-RCNN基礎(chǔ)上利用基于能量的判別器來(lái)識(shí)別潛在的未知對(duì)象。VOS通過(guò)自適應(yīng)合成虛擬離群值來(lái)有意義地正則化模型的決策邊界,從而達(dá)到未知對(duì)象感知的目的。OW-DETR顯式編碼多尺度語(yǔ)境信息并利用知識(shí)從已知類向未知類遷移,實(shí)現(xiàn)了對(duì)未知對(duì)象的區(qū)分。UnSniffer采用廣義置信度得分和基于圖的未知框判定方案檢測(cè)圖片中的潛在未知對(duì)象。
由表中可以看出,在COCO-OOD數(shù)據(jù)集上,OFUR-OWOD在U-F1和U-PRE指標(biāo)上優(yōu)于其他方法,分別比第二名高出1.8和5.1百分點(diǎn)。在COCO-Mix數(shù)據(jù)集上,本檢測(cè)器OFUR-OWOD在U-AP、U-F1和U-PRE指標(biāo)都達(dá)到了最優(yōu),分別比第二名高出1.7、1.7和4.1百分點(diǎn)。這些比較表明,本文方法在未知對(duì)象檢測(cè)方面,要優(yōu)于現(xiàn)有的方法,這歸功于未知類特征強(qiáng)化器,加強(qiáng)了對(duì)于未知對(duì)象的訓(xùn)練,使得模型能夠更準(zhǔn)確地檢測(cè)出開放環(huán)境下的未知對(duì)象。此外,偏移過(guò)濾模塊起到了積極的作用,有效地減少了模型對(duì)于未知對(duì)象的誤判和冗余檢測(cè)。同時(shí)從表中可看出,在兩個(gè)開放數(shù)據(jù)集的召回率方面,本檢測(cè)器并未取得最優(yōu)性能。這是因?yàn)楸緳z測(cè)器設(shè)計(jì)的兩個(gè)創(chuàng)新模塊都對(duì)提取特征進(jìn)行了自適應(yīng)擇優(yōu)強(qiáng)化。使得檢測(cè)器篩選掉了一部分相對(duì)較弱的未知目標(biāo)特征,從而導(dǎo)致檢測(cè)器準(zhǔn)確率提高的同時(shí),也付出了查全率略微下降的代價(jià),但總體上,這兩個(gè)創(chuàng)新模塊對(duì)于檢測(cè)器的性能提升是起積極作用的。
圖4比較了不同基線方法Faster R-CNN、VOS、ORE、UnSniffer與本文方法OFUR-OWOD在COCO-Mix和COCO-OOD數(shù)據(jù)集上的檢測(cè)效果,前兩張是OOD數(shù)據(jù)集圖片,后三張是Mix數(shù)據(jù)集圖片。從圖中可以看出,本文方法相比于其他OWOD方法在檢測(cè)未知對(duì)象方面擁有更加出色的性能。在第四張圖片中,OFUR-OWOD既能夠準(zhǔn)確檢測(cè)出沙發(fā)、椅子這類已知對(duì)象,又能夠準(zhǔn)確檢測(cè)出行李箱、靠枕這類未知對(duì)象,對(duì)已知對(duì)象和未知對(duì)象區(qū)分能力較強(qiáng),同時(shí)能夠有效處理已知對(duì)象重疊框和未知對(duì)象冗余框問(wèn)題。VOS、ORE和UnSniffer均存在將未知的行李箱對(duì)象誤檢成已知小汽車對(duì)象的情況,VOS存在將沙發(fā)誤檢為未知對(duì)象,ORE存在將沙發(fā)誤檢成椅子、小汽車和未知對(duì)象,UnSniffer存在將沙發(fā)誤檢成了小汽車的情況。通過(guò)對(duì)比一、三兩張圖片檢測(cè)效果可以看出,本文方法很好地緩解了小目標(biāo)漏檢、重檢問(wèn)題。通過(guò)對(duì)比二、四、五三張圖片的檢測(cè)效果可以看出,在多目標(biāo)檢測(cè)的準(zhǔn)確度上,本文方法擁有明顯的優(yōu)勢(shì),有效地降低了誤檢的概率。
通過(guò)檢測(cè)效果的比較與分析可以證明,本文方法在開放世界未知對(duì)象檢測(cè)方面具有良好的性能表現(xiàn),可以準(zhǔn)確、可靠地給出檢測(cè)結(jié)果。這也證明了未知特征強(qiáng)化器和偏移過(guò)濾器是可行的,能夠很好地提升檢測(cè)器對(duì)于未知對(duì)象的檢測(cè)性能。
3 結(jié)束語(yǔ)
本文成功提出了一種新的開放世界目標(biāo)檢測(cè)器,該檢測(cè)器通過(guò)兩項(xiàng)關(guān)鍵改進(jìn)有效提高了未知對(duì)象檢測(cè)性能。通過(guò)在分類器前添加未知類特征強(qiáng)化模塊,加強(qiáng)對(duì)未知對(duì)象的訓(xùn)練,從而在不影響已知類檢測(cè)率情況下進(jìn)一步提高未知類的檢測(cè)精度和全度。另外,在推理階段加入基于偏移感知的重疊框過(guò)濾器,篩除已知對(duì)象誤檢框和未知對(duì)象重疊框,避免了對(duì)象密集和對(duì)象混淆提議框影響模型對(duì)于未知對(duì)象的檢測(cè)性能。本文在開放世界檢測(cè)的基準(zhǔn)數(shù)據(jù)集上對(duì)提出的方法進(jìn)行了評(píng)估。在兩個(gè)不同實(shí)驗(yàn)設(shè)置和四個(gè)數(shù)據(jù)集下,本文方法在大部分指標(biāo)上取得了當(dāng)前領(lǐng)域最優(yōu)的性能。這證明了本文方法對(duì)于OWOD問(wèn)題有著良好的解決能力,消融實(shí)驗(yàn)也證明了方法中的每一個(gè)模塊的可行性以及對(duì)于整體模型性能的有效性。為了進(jìn)一步發(fā)現(xiàn)未知對(duì)象的判別方法,在未來(lái)工作中,應(yīng)該加強(qiáng)已知對(duì)象和未知對(duì)象之間相關(guān)性的研究。同時(shí)應(yīng)深入研究輕量化模型,進(jìn)一步優(yōu)化檢測(cè)器結(jié)構(gòu),提高模型的檢測(cè)速率和性能。
參考文獻(xiàn):
[1]Menezes A G,De Moura G,Alves C,et al.Continual object detection:a review of definitions,strategies,and challenges[J].Neural Networks,2023,161:476-493.
[2]時(shí)高松,趙清海,董鑫,等.基于PPO算法的自動(dòng)駕駛?cè)藱C(jī)交互式強(qiáng)化學(xué)習(xí)方法[J].計(jì)算機(jī)應(yīng)用研究,2024,41(9):2732-2736.(Shi Gaosong,Zhao Qinghai,Dong Xin,et al.Human-machine interactive reinforcement learning method for autonomous driving based on PPO algorithm [J].Application Research of Computers,2024,41(9):2732-2736.)
[3]Lee J W,Kang H S.Three-stage deep learning framework for video surveillance[J].Applied Sciences,2024,14(1):408.
[4]Deng Yafei,Lyu Jun,Huang Delin,et al.Combining the theoretical bound and deep adversarial network for machinery open-set diagnosis transfer[J].Neurocomputing,2023,548:126391.
[5]Wang Qian,Meng Fanlin,Breckon T P.Progressively select and reject pseudo-labelled samples for open-set domain adaptation[EB/OL].(2021-10-25).https://arxiv.org/abs/2110.12635.
[6]孫旭豪,沈陽(yáng),魏秀參,等.結(jié)合環(huán)狀原型空間優(yōu)化的開放集目標(biāo)檢測(cè)[J].中國(guó)圖象圖形學(xué)報(bào),2023,28(9):2719-2732.(Sun Xuhao,Shen Yang,Wei Xiushen,et al.Open-set object detection based on annular prototype space optimization[J].Journal of Image and Graphics,2023,28(9):2719-2732.)
[7]Neal L,Olson M,F(xiàn)ern X,et al.Open set learning with counterfactual images [C]//Proc of European Conference on Computer Vision.2018:613-628.
[8]Kong Shu,Ramanan D.OpenGAN:open-set recognition via open data generation[C]//Proc of IEEE/CVF International Conference on Computer Vision.2021:813-822.
[9]Zaidi S S A,Ansari M S,Aslam A,et al.A survey of modern deep learning based object detection models[J].Digital Signal Proces-sing,2022,126:103514.
[10]Tong Kang,Wu Yiquan.Deep learning-based detection from the perspective of small or tiny objects:a survey[J].Image and Vision Computing,2022,123:104471.
[11]Liu Zhaowei,Yang Dong,Wang Yingjie,et al.EGNN:graph structure learning based on evolutionary computation helps more in graph neural networks[J].Applied Soft Computing,2023,135:110040.
[12]Joseph K J,Khan S,Khan F S,et al.Towards open world object detection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2021:5830-5840.
[13]Qi Lu,Kuen J,Wang Yi,et al.Open world entity segmentation[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,45(7):8743-8756.
[14]Zhu Linxiang,Lee Feifei,Cai Jiawei,et al.An improved feature pyramid network for object detection[J].Neurocomputing,2022,483:127-139.
[15]Yang Xue,Yan Junchi.On the arbitrary-oriented object detection:classification based approaches revisited[J].International Journal of Computer Vision,2022,130(5):1340-1365.
[16]Kim D,Lin T Y,Angelova A,et al.Learning open-world object proposals without learning to classify[J].IEEE Robotics and Automation Letters,2022,7(2):5453-5460.
[17]Tian Shishun,Chen Ruifeng,Zou Wenbin,et al.MI-RPN:integrating multi-modalities and multi-scales information for region proposal[J].Multimedia Tools and Applications,2023,83(20):58267-58292.
[18]Yao Fengqin,Wang Shengke,Li Rui,et al.An accurate box localization method based on rotated-RPN with weighted edge attention for bin picking[J].Neurocomputing,2022,482:264-277.
[19]Gupta A,Narayan S,Joseph K J,et al.OW-DETR:open-world detection transformer [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2022:9235-9244.
[20]Du Xuefeng,Wang Zhaoning,Cai Mu,et al.VOS:learning what you don’t know by virtual outlier synthesis[EB/OL].(2022-05-09).https://arxiv.org/abs/2202.01197.
[21]Liang Wenteng,Xue Feng,Liu Yihao,et al.Unknown sniffer for object detection:don’t turn a blind eye to unknown objects[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:3230-3239.
[22]Chen Xun,Li Chang,Liu Aiping,et al.Toward open-world electroencephalogram decoding via deep learning:a comprehensive survey[J].IEEE Signal Processing Magazine,2022,39(2):117-134.
[23]Yao Lewei,Han Jianhua,Wen Youpeng,et al.Detclip:dictionary-enriched visual-concept paralleled pre-training for open-world detection[J].Advances in Neural Information Processing Systems,2022,35:9125-9138.
[24]Chen Yuhua,Wang Haoran,Li Wen,et al.Scale-aware domain adaptive Faster R-CNN[J].International Journal of Computer Vision,2021,129(7):2223-2243.
[25]Tong Kang,Wu Yiquan.Rethinking PASCAL-VOC and MS-COCO dataset for small object detection[J].Journal of Visual Communication and Image Representation,2023,93:103830.
[26]Zhao Xiaowei,Ma Yuqing,Wang Duorui,et al.Revisiting open world object detection[J].IEEE Trans on Circuits and Systems for Video Technology,2023,34(5):3496-3509.