孫旭豪,沈陽,魏秀參*,安鵬
1.南京理工大學計算機科學與工程學院,南京 210094;2.高維信息智能感知與系統(tǒng)教育部重點實驗室,南京 210094;3.社會安全圖像與視頻理解江蘇省重點實驗室,南京 210094;4.中國海洋石油集團有限公司信息技術中心,北京 100010
目標檢測任務旨在定位圖像中的目標并為每個目標返回其類別。鑒于深度學習在視覺任務上的成功(Chen 等,2019;Zhou 等,2020;Wei 等,2021;Shen等,2022),近年來基于深度學習的檢測模型出現(xiàn)了諸多改進(Ren 等,2015;Hu 等,2018;Kong 等,2020;Tan 等,2020;閆子旭 等,2021;賈可心 等,2022),并取得了顯著進展。這些檢測方法均基于同一個設定,即所有目標類別在訓練階段都是已知的。然而在實際檢測任務中,這樣的閉集設定往往不能滿足需求,例如在自動駕駛任務中,未知的物體和場景會不斷出現(xiàn);在醫(yī)學圖像分析任務中,未知的疾病類型也會不斷出現(xiàn)。因此,研究者們開始關注開放集環(huán)境下的目標檢測任務(Dhamija 等,2020;Joseph 等,2021;Han 等,2022)。開放集問題最早由Scheirer 等人(2014)提出,他們還定義了一個基本的開放集識別問題(open-set recognition,OSR)。在開放集設定下,目標檢測任務不僅需要返回訓練集中包含類別的對應物體位置,還需要返回訓練集中未出現(xiàn)的類別的檢測結果。
在開放集目標檢測任務下,基于封閉集設定下訓練得到的目標檢測器會錯誤地將待檢測圖片中未知類別的對象視為背景類,或是由于神經(jīng)網(wǎng)絡本身傾向于產(chǎn)生過于自信的預測結果的原因(Lakshminarayanan 等,2017),將未知類別預測為某種訓練集中的已知類別。事實上,一般而言目標檢測器容易產(chǎn)生兩種類型的錯誤:第1 種是將感興趣的目標識別為另一個對象或背景,即將已知類識別為背景類或未知類;第2 種是將背景樣本或未知類別對象誤識別為感興趣的類別之一,即將背景類和未知類識別為已知類。一方面,雖然以往所有閉集條件下的檢測方法在添加未知類閾值進行篩選后,都在一定程度上具有識別開放集環(huán)境下未知類與背景類的能力,但是很難在真實場景下精確調整這些閾值。另一方面,目前PASCAL VOC(pattern analysis,statistical modeling and computational learning visual object classes)(Everingham 等,2010)和MS COCO(Microsoft common objects in context)(Lin 等,2014)等常用的檢測數(shù)據(jù)集使用的評估指標無法充分評價檢測器對未知對象的鑒別能力。因此,Dhamija等人(2020)基于已有的目標檢測任務,對開放集環(huán)境下的目標檢測任務(open-set object detection,OSOD)進行了定義以進行開放集環(huán)境下檢測任務的探索。
然而,如圖1(a)所示,現(xiàn)有的OSOD 領域方法在訓練過程中通常將背景類與未知類歸納為一個類別進行訓練。一個最直觀的例子是,現(xiàn)有的OSOD領域中的先進方法(Han 等,2022)設計了K+1 路分類器進行類別劃分。其中,K路分類器代表K個已知類別,1 路分類器代表未知類別與背景類別的集合(即非已知類別)。而后,Han 等人(2022)在實驗中通過采樣與前景類別數(shù)量相同的背景類別進行模型訓練,并通過最小化最大類別概率(min maxprobability)的方法篩選出背景類。該框架在檢測任務中將背景類與未知類視為一個類別進行優(yōu)化,雖然有更強的區(qū)分已知類別的能力,但是框架對未知類別的識別能力較差;同時,在進行未知類別與背景類別區(qū)分的過程中,框架還需要額外對背景類圖像進行與前景類別圖像數(shù)量相同的采樣以重新訓練區(qū)分未知類別與背景類別的模塊,需額外的計算資源開銷。因此,為了更好地區(qū)分開放集設定下重要的未知類目標,同時去除冗余的大批量背景類別采樣步驟,本文提出了一種新的開放集檢測框架。如圖1(b)所示,一方面,通過環(huán)狀原型空間優(yōu)化分類器的設計,使分類器可以聚焦于已知類與未知類的識別;另一方面,通過隨機覆蓋已有推薦框的方式進行背景類別的篩選,在保留區(qū)域推薦RPN(region proposal network)層提供的帶有目標候選框的優(yōu)勢的同時,提升了RPN層區(qū)分背景框的精準度,且無需額外進行背景類采樣步驟。綜上所述,本文的主要貢獻總結如下:
1)提出一種新的開放集檢測框架,使檢測頭在進行開放集類別識別的過程中,優(yōu)先識別候選框屬于背景類或是含待識別目標類別,而后進行已知類與未知類的判別。
2)提出基于環(huán)狀原型空間優(yōu)化的檢測器,該檢測器可以通過圖像特征在高維空間中的稀疏程度對已知類、未知類與背景類進行分層,使得已知類目標的特征在高維空間中更加緊湊,而背景類特征則在高維空間中更加稀疏,提升模型的檢測性能。
3)在RPN 層后設計了隨機覆蓋候選框的方式篩選相關的背景類訓練框,避免了以往OSOD 工作中額外設計的背景類采樣步驟。
本節(jié)將分別介紹開放集圖像識別、開放集目標檢測、原型學習與估算不確定性這4 個方面的相關工作。
開放集圖像識別任務最早由Scheirer 等人(2014)定義并啟發(fā)了該領域的許多后續(xù)工作(Scheirer 等,2014;Ge 等,2017;Xu 等,2022)。Geng等人(2021)在后來的綜述性工作中又將開放集圖像識別任務中的相關樣本概括為4 種類型:1)已有輔助信息的已知類(known known classes,KKCs):即具有明顯標記的正訓練樣本的類(也可作為其他KKCs的負樣本),甚至具有相應的語義/屬性信息等;2)無輔助信息的已知類(known unknown classes,KUCs):KUCs包含帶有標簽信息的負樣本,即屬于目標識別范圍外的已知類別,如背景類別(Dhamija 等,2018)或同域下的非目標類別(Weston 等,2006)等;3)有輔助信息的未知類(unknown known classes,UKCs):即在訓練過程中沒有任何標記樣本的類別,但是在訓練過程中樣本本身的語義或屬性信息可以被獲得;4)無輔助信息的未知類(unknown unknown classes,UUCs):即在訓練過程中沒有任何標記的樣本,且在訓練過程中無法獲得樣本相關的輔助信息。
早期對于開放集圖像識別問題的嘗試(Scheirer等,2014;Jain 等,2014)通常利用傳統(tǒng)的機器學習方法,例如支持向量機等方法。Bendale 和Boult(2016)引入了第1 種基于極值理論的開放集圖像識別方法OpenMax,這是第1 種基于深度學習的開放集圖像識別方法。其他開放集圖像識別方法包括:1)基于生成式對抗網(wǎng)絡的方法(Ge 等,2017;Neal等,2018),這些方法通過生成與訓練集類別相似卻不屬于任何已知類別的圖像來構成未知類并通過生成的圖像額外訓練一個開放集分類器;2)基于特征重構的方法(Yoshihashi 等,2019;Sun 等,2020),這些方法采用自編碼器用以生成潛在圖像特征,并通過重構誤差來辨別未知特征與未知類別;3)基于原型學習的方法(Shu 等,2020;Chen 等,2020),這些方法通過學習到的類別原型表示已知的類別,并根據(jù)測試集圖像的特征到不同類別原型的距離來識別開放集圖像。
本文方法與通過原型學習解決開放集圖像識別的方法(Shu等,2020;Chen等,2020)更相關。不同的是,在開放集目標檢測的問題下,不能簡單地將識別到的目標分為已知類和未知類,其中還有背景類等干擾類別,本文方法能有效地將包含目標的檢測框與背景框相分離,同時區(qū)分出已知類別與未知類別。
開放集目標檢測任務是開放集圖像識別任務(Scheirer 等,2014)在目標檢測領域的擴展。Dhamija 等人(2020)首先對開放集目標檢測問題進行定義,并對一些具有代表性的目標檢測方法在開放集的設定下進行基準實驗測試。Dhamija 等人(2020)還提供了一種用于評估開集條件下目標檢測器性能的指標。
Miller 等人(2018)在訓練過程中采用丟棄若干樣本的方式以估計目標檢測的不確定性(DeVries 和Taylor,2018),以此減少開放集環(huán)境下的誤差。Joseph 等人(2021)通過擬合已知類和未知類的能量分布提出了一種基于能量的未知標識符。使用額外的內存空間來模擬神經(jīng)網(wǎng)絡的記憶緩存,不僅實現(xiàn)了對未知類物體的坐標回歸,還挖掘了未知類物體潛在的類別。但是該方法需要額外的未知類數(shù)據(jù)集,這與開放集目標檢測問題的定義相違背。最新的開放集目標檢測方法(Han 等,2022)通過對比特征學習器使已知類的特征更加緊湊,通過未知類概率學習器解決開放集識別問題。然而這種方法將未知類和背景類統(tǒng)一歸納成其他類別(即開放集類別)并進行分類器的優(yōu)化,無法更清晰地劃分背景類與未知類的邊界。與該框架不同,本文框架將未知類與已知類歸納為包含物體的類別,將背景歸納為物體無關的類別。方法首先通過目標隨機遮擋的方式檢測框中是否包含待檢測物體,而后通過原型學習識別物體是否屬于目標類別。
在傳統(tǒng)機器學習中,原型學習僅包含原型選擇與原型生成,其旨在從源集中尋找一個原型子集,該子集能夠最大程度保持目標集所含信息,且所有元素具有最少的重疊信息。而深度學習中的原型學習一般還包括了在獲得類別原型后網(wǎng)絡對其利用與開發(fā)的方式。深度學習中的原型學習(Snell 等,2017)最早應用于少樣本學習,Snell 等人(2017)還提出了原型網(wǎng)絡ProtoNet 以解決少樣本分類問題。原型網(wǎng)絡(Wang 等,2019;Shang 等,2021)主要通過計算測試圖像和每個類別原型之間的距離來學習一個度量空間。在處理開放集識別問題(Yang 等,2018)、分布外樣本問題(Arik 和Pfister,2020)、少樣本學習問題(Snell 等,2017;Gao 等,2019)和零樣本學習問題(Wang 等,2021)時,原型學習具有更強的穩(wěn)健性(Yang 等,2018)。在開放集目標檢測問題中,基于原型學習的深度學習方法(Xiong等,2021)目前只是利用類別原型和測試圖像的特征來計算識別過程中的分類距離。本文方法不僅可以將包含目標的檢測框與背景框分離,而且可以區(qū)分出已知類別與未知類別。
神經(jīng)網(wǎng)絡傾向于產(chǎn)生過于自信的預測結果(Lakshminarayanan 等,2017)。評估物體檢測器的一個核心是避免錯誤檢測的能力。盡管現(xiàn)有方法在訓練過程中讓模型拒絕已知類別之外的其他類別,但來自開放世界的未知物體最終會被模型錯誤地檢測為已知類別,并且模型往往會給出很高的置信度(Dhamija 等,2020)。因此,對模型預測的不確定性進行估計對于實際應用很重要。目前,不確定度估計方法可分為基于采樣和無采樣兩個方向。基于采樣的方法(Lakshminarayanan 等,2017;Gal和Ghahramani,2016)通過集成的方式增加預測準確度。而無采樣的方法通過學習一個額外的、平行的置信度評估分支(DeVries 和Taylor,2018)來估計不確定性。由于樣本采樣的方法需要成倍的時間進行結果估計,不適用于有速度要求的目標檢測任務,因此本文方法屬于后者,方法學習到的未知概率不僅可以反映未知類別的預測不確定性,還可以反映是否物體無關(即屬于背景類)的不確定性。
根據(jù)以往工作(Dhamija 等,2020;Han 等,2022)對本文研究的開放集檢測問題(OSOD)做出定義。首先,定義集合D={(x,y),x∈X,y∈Y}作為目標檢測的數(shù)據(jù)集。其中,x代表待檢測圖像,X代表待檢測圖像的集合,y=代表其對應待檢測圖像中包含的N個目標的類別與標注框。其中ci∈C代表第i個目標的類別,C代表所有標注數(shù)據(jù)的類別集合,bi代表第i個目標的標注框。定義訓練集為Dtrain,測試集為Dtest。訓練集Dtrain共包含K個已知類別CK={1,2,…,K},CK∈C。測試集Dtest包含訓練集中的K個已知類別CK以及U個未知類別CU,CU∈C。在測試過程中,由于無法得知CU具體代表何種類別,因此統(tǒng)一命名為未知,即CU中所有的類別構成該任務中的第K+1 個類別。與開放集識別任務(OSR)不同的是,OSOD 任務還包含背景類,即在測試過程中,模型預測得到的檢測框中既不包含已知類物體,也不包含未知類物體。一般地,將這種背景類定義為CBG,CBG?C。與以往的OSOD 任務不同的是,在檢測過程中,不會將CU與CBG統(tǒng)一歸結為未知類進行優(yōu)化,然后采取額外的后處理進行區(qū)分。
網(wǎng)絡的主體架構如圖2 所示。具體而言,本文采用Faster region-CNN(Ren 等,2015)作為方法的骨干網(wǎng)絡,其中包括一個特征金字塔網(wǎng)絡(feature pyramid network,F(xiàn)PN)層,一個區(qū)域推薦網(wǎng)絡(region proposal network,RPN)層以及一個R-CNN 層。對于給定的輸入圖像,F(xiàn)PN 層可以將多個階段的特征圖融合在一起,在提取高層特征圖的語義特征的同時提取低層的輪廓特征。RPN層則可以定位圖像中所有對象的可能位置。此階段將輸出所有對象可能位置的邊界框列表。R-CNN 層則對RPN 層推薦的候選框進行對齊與特征提取,并進行相應的分類與回歸任務。一個標準的R-CNN 層包含一個共享的全連接層與兩個獨立的、用于分類和回歸的全連接層。不同于以往的開放集檢測工作,本文的分類層主要用于區(qū)分前景類中的已知類與未知類,背景類的區(qū)分工作則通過額外設計的候選框覆蓋采樣以及環(huán)狀原型空間進行劃分。值得注意的是,本文改進的部分結構并沒有提升模型在閉集問題上的精度,因此與其他方法的對比實驗是公平的。
圖2 基于環(huán)狀原型空間優(yōu)化的開放集環(huán)境下目標檢測框架圖Fig.2 Framework of open-set object detection based on annular prototype space optimization
在開放集設定的目標檢測任務下,訓練過程中只能獲得各訓練樣本的已知類別目標的標注框以及類別標簽,無法獲得任何未知類別的標注信息與標簽信息。因此,開放集設定下的目標檢測任務的首要目標就是使模型具有更強的劃分已知類與未知類的能力。
一般而言,已知物體的特征易在潛在空間中聚集形成高密度區(qū)域,而未知物體或是背景框的特征則會分布在低密度區(qū)域(Grandvalet 和Bengio,2004;Ren 等,2018)。因此,在沒有未知類別與背景類別定義以及樣本信息的情況下,很難通過分類器進行區(qū)分,現(xiàn)有的劃分方式一般是通過直接設定不同的置信度閾值進行背景類與未知類別的劃分。本文通過設計環(huán)狀原型空間來緩解未知類與背景類的特征在潛在空間中密度相似的問題,而分類器則著重用于關注已知類與未知類的劃分。
在訓練過程中通過原型學習將具有已知類目標的樣本約束到所屬類別原型的附近,同時增大背景類樣本與各個原型的距離,為其余含有未知類目標的樣本留出了一個介于這兩種樣本之間的環(huán)狀空間。具體而言,經(jīng)過RPN 層篩選出候選框后,由于候選框大小不同,因此各候選框需要通過式(1)的對齊方式進行計算,得到對應大小的特征圖
式中,P=與P12分別代表待對齊候選框的左上像素的橫坐標與縱坐標,P21與P22分別代表待對齊候選框的右下像素的橫坐標與縱坐標。代表向上取整計算,代表向下取整計算。wi,j代表待計算像素點的實值,out代表輸出像素的實值。而后將這些對齊后的特征經(jīng)過box head 層映射為一維特征后作為環(huán)狀原型空間中相應特征的輸入,并將這些特征構成已知類的原型空間。
在訓練過程中,首先篩選出包含待檢測物體的候選框構成含待檢測目標類別,根據(jù)訓練過程中的真實標簽將它們劃分為已知類別候選框與未知類別候選框;其余候選框構成背景類別。背景類的判別方式具體在2.4小節(jié)提出。將未知類按RPN 層輸出的置信度進行升序排序,篩選其中最高的L項作為未知類特征;將背景類候選框同樣按RPN 層輸出的置信度進行升序排序,其中最低的I項作為背景類特征。對于L項未知類特征,將其輸入到分類層進行優(yōu)化,最大化其在未知類CU中的logit 值,最小化其在已知類CK中的logit值。由于該L項均為未知類特征,所以在訓練過程中添加同一批處理下的已知類特征進行二分類損失優(yōu)化即可,記損失函數(shù)為Lbce。
在訓練過程中,標簽為背景的候選框可以分為非目標類以及無實例樣本,希望在背景類中選取的I個樣本能包含盡可能多的無實例樣本。但模型本身并不對非目標類負責,僅僅是在目標類監(jiān)督訓練的過程中對非目標類有了一定的感知能力。因此背景類中無實例樣本占大多數(shù),對無實例樣本的選取策略也可以更加激進。選取L個樣本的目的是讓模型學習到不同于目標類的實例特征,但由于上述原因,很難在背景類候選框中獲得大量非目標類樣本。所以本文選擇通過目標類候選框中置信度較低的部分樣本來學習非目標類特征,如果選取策略過于激進就會導致目標類與非目標類的特征混淆,反而降低了模型對于已知目標的檢測精度。
在每一次批處理中,對于所有被選取的已知類特征、L項未知類以及I項背景類特征,將它們作為環(huán)狀原型空間的輸入。環(huán)狀原型空間的優(yōu)化策略為:對于每一個已知類別CK,按下式為其單獨生成一個類別原型
式中,xtrain代表訓練圖像,fDNN(·)代表候選框生成模型,該模型由FPN 層與RPN 層組成,Θ1代表該模型的參數(shù)。fbox_head(·)代表用于生成特征的全連接層,Θ2代表該全連接層的參數(shù)。Fx代表從樣本x篩選出的所有候選框的特征集合,包括已知類、未知類與背景類的特征。B代表一次批處理的圖像數(shù)量,Bk代表一次批處理中屬于已知類別k的特征向量的數(shù)量。I(·)代表指示函數(shù),若Fx中的特征屬于類別k,則輸出為1,否則輸出為0。得到類別原型后,算法將最小化每個已知類特征向量與其對應的類別原型的距離,即將環(huán)內的高密度空間作為每個類別的特征空間,K個類別也依次對應了K個原型環(huán)集合H。對于極低密度的環(huán)外空間,本文將其作為背景類的特征空間。在算法優(yōu)化過程中,需要最大化背景特征向量與各原型環(huán)的最小距離以形成環(huán)的外邊界,每個類別原型環(huán)的外邊界各不相同。而環(huán)內的較低密度空間則作為未知類的特征空間。環(huán)狀原型空間的優(yōu)化損失函數(shù)為
本小節(jié)主要給出方法判斷未知類與背景類候選框的具體方案。事實上,區(qū)域推薦層(RPN 層)的作用即篩選出包含有待檢測目標的候選框。因此,通過RPN 層后,模型會返回所有候選框以及其屬于前景類的置信度。然而在開放集環(huán)境下,由于訓練過程中只能獲得已知類的標簽信息,因此,只能在訓練過程約束已知類別的候選框。而開放集目標檢測問題要求在識別已知類的基礎上嚴格區(qū)分背景類與未知類。由于已知類與未知類都包含具體待檢測目標,其在RPN 層篩選過程中沒有差異,因此,額外設計了隨機覆蓋采樣的方式用以提高RPN 層區(qū)分背景類與含目標類別的能力。
如圖3 所示,隨機覆蓋采樣的核心思想是:屬于未知類別的候選框進行較小范圍的隨機覆蓋采樣后,其對應生成的特征向量對比原候選框有較大幅度的變化;而屬于背景類別的候選框經(jīng)過較小范圍的隨機覆蓋采樣后,其生成的特征向量不會有較大的改變。具體而言,待檢測圖像在經(jīng)過區(qū)域推薦網(wǎng)絡(RPN層)得到候選框后,對于所有的候選框,方法會對其進行N次幅度較小的隨機覆蓋,而后對原候選框和N次隨機覆蓋后的候選框通過特征提取網(wǎng)絡生成對應的N+1 個特征向量,將原候選框對應的特征向量作為判別中心,將N次隨機覆蓋所得候選框的特征向量與判別中心的余弦相似度之和作為其屬于未知類別的置信度,置信度越高說明候選框中包含未知物體的概率越大,反之則說明候選框為背景框的概率越大。
圖3 候選框隨機覆蓋采樣Fig.3 Random overlay sampling for proposal regions
當候選框中不存在目標時,框內所有像素都屬于背景類,屏蔽部分像素并不會對模型預測產(chǎn)生較大影響。而當候選框中存在目標時,框內像素可以被分為2 類或更多,屏蔽像素對原有語義分布的擾動也就更加明顯。例如,某個候選框的內容是一個人站在一堵墻前面。如果屏蔽了部分屬于墻的像素,那么屬于人的像素占比就會增加,導致模型的預測更偏向于人。反之則更偏向于墻。而且如果屏蔽區(qū)域屬于前景的關鍵部分,則會破壞原有語義,進一步增加對模型輸出的擾動。綜上,該模塊完成了含目標類別與背景類別的區(qū)分任務。
本文方法可以通過以下多任務損失進行端到端的訓練
其中,Lce代表分類器損失,Lrpn代表RPN 層的總損失,Lreg代表候選框回歸的平滑損失,Lapro代表環(huán)狀原型空間損失,Lbce代表二分類損失。α與β為相關損失的權重系數(shù)。
本文所用的開放集目標檢測數(shù)據(jù)集VOCCOCO(Visual Object Classes-Common Objects in Context)由PASCAL VOC(Everingham 等,2010)和MS COCO(Lin等,2014)構成。
1)PASCAL VOC數(shù)據(jù)集。PASCAL VOC包含20個目標類,其中常用的有VOC 2007 以及VOC 2012。VOC 2007 包含2 501 張訓練圖片、2 510 張驗證圖片、4 952 張測試圖片以及總計2.4 萬個標注目標。VOC 2012 包含5 717 張訓練圖片、5 823 張驗證圖片以及總計2.7萬個標注目標。
2)MS COCO 數(shù)據(jù)集。MS COCO 于2014 年由微軟發(fā)布,包含8.3 萬張訓練圖片、4.1 萬張驗證圖片和4.1 萬張測試圖片。2015 年新增4 萬張測試圖片。2017 年訓練集和驗證集的數(shù)量更改為11.8 萬以及0.5 萬。其中目標標注分為80 個類別,并且完全包含PASCAL VOC的20個類別。
為了公平進行實驗對比,本文實驗使用VOC 2007 的訓練集以及VOC 2012 的訓練驗證集,共14 041張圖片和39 405個標注目標進行封閉集環(huán)境下的模型訓練。同時,參照Han等人(2022)的工作,本文使用相同的兩個實驗設置對開放集環(huán)境下模型的檢測性能進行評估。
設置1:逐步增加開放集類別數(shù)量,并以此構建了3 個測試數(shù)據(jù)集。其中,VOC-COCO-20 包含VOC 2007的4 952張測試圖片以及MS COCO 的訓練驗證集中20 個VOC 類、20 個非VOC 類的5 000 張圖片。VOC-COCO-40 在此基礎上增加了MS COCO 中另外20 個非VOC 類的4 332 張訓練驗證集圖片。VOCCOCO-60 則又增加了MS COCO 中最后20 個非VOC類的5 668張訓練驗證集圖片。
設置2:逐步增加包含未知類目標的圖片數(shù)量與包含已知類目標的圖片數(shù)量的比值WR(wilderness ratio)(Dhamija等,2020)。具體而言,在4 952張VOC 2007 測試圖片的基礎上分別加入2 500、5 000 以及20 000 張MS COCO 的訓練集與驗證集圖片,以此構建了3 個測試數(shù)據(jù)集VOC-COCO-0.5n、VOC-COCO-n與VOC-COCO-4n。
對于一個理想的目標檢測器,開放集數(shù)據(jù)的加入不會對封閉集數(shù)據(jù)上的精度產(chǎn)生影響,因此本文在固定召回率后,計算未知目標對檢測器的已知目標準確率產(chǎn)生的影響wilderness impact(WI)來衡量方法的開放集檢測性能
式中,PK為封閉集環(huán)境下的識別準確率,PK∪U為開放集環(huán)境下的識別準確率。同時還使用開放集中已知類AP(average precision)的平均值(mean average precision,mAP)來比較不同方法對已知類目標的檢測性能。
檢測器還應當對未知類目標具有一定的檢測能力。本文使用未知類目標被錯誤分類的數(shù)量AOSE(absolute open-set error)以及未知類目標的AP(APU)來比較方法對未知目標的檢測性能。
3.3.1 基線方法
為了驗證本文方法的開放集檢測性能,在3.1節(jié)描述的兩個開放集設置下,對共計6 個測試集進行實驗,并將本文方法與目前最具代表性的5 個開放集檢測方法進行對比。對比方法包括FR-CNN(Faster-CNN)(Ren 等,2015)、PROSER(placeholders for open-set recognition)(Zhou 等,2021)、Open ORE(world object detector)(Joseph 等,2021)、DS(dropout sampling)(Miller 等,2018)和OpenDet(open-set detector)(Han 等,2022)。FR-CNN 是二階段目標檢測的基礎方法,F(xiàn)R-CNN*則在此基礎上采用了更高的測試分數(shù)閾值。PROSER 在訓練過程中將所有非已知目標檢測框都作為未知目標。ORE采用基于能量的判別器識別潛在的未知目標。DS對原特征進行多次dropout,以dropout對預測結果的影響大小判斷未知目標。OpenDet 擴展低密度特征空間,并鼓勵緊湊的提議特征,一次區(qū)分已知和未知目標。
3.3.2 實驗設置與細節(jié)
實驗的軟硬件配置為Intel(R)Xeon(R)Silver 4210R CPU @ 2.40 GHz,256 GB內存,GeForce RTX?3090 GPU,Ubuntu 18.04.6 LTS(64 位)。深度學習框架為PyTorch 1.10.0和Detectron2 0.6。
為了公平地進行方法對比,將改進的方法應用于Faster R-CNN的骨干網(wǎng)絡中,在PASCAL VOC上共訓練了32 000個step,batch-size大小為16。使用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器,動量設置為0.9,權值衰減為10-4。學習率先從2 × 10-4經(jīng)過100 次學習線性增長到2×10-2,然后分別在第21 000和29 000次學習時衰減為原來的1/10。非已知類劃分的超參數(shù)I與L分別為200與6,隨機覆蓋次數(shù)N為3,損失函數(shù)的權重系數(shù)α與β分別為0.1與1。
如表1所示,首先在3.1節(jié)描述的實驗設置下驗證本文方法在開放集設定下的檢測性能。在擁有幾乎相同封閉集檢測能力的模型下(VOC 數(shù)據(jù)集下,mAPK相似),在逐漸增加未知類的VOC-COCO-20,VOC-COCO-40 以及VOC-COCO-60 三個測試集的4個指標上均領先于現(xiàn)有方法。與FR-CNN 相比,設置了較高的測試閾值(0.05→0.1)的FR-CNN*并沒有降低WI 指標,但導致mAPK下降。PROSER 在一定程度上改善了AOSE 和APU的得分,但在WI 和mAPK上的表現(xiàn)相比于FR-CNN 更差。ORE 和DS 對開放集度量的效果有限,而本文方法在較小的已知類AP 均值(mAPK)提升下,在各個開放集指標中都有大幅提升。以VOC-COCO-20 為例,雖然mAPK僅有0.1%的提升,但是WI 有約0.7%的提升,AOSE指標降低了約1 000,未知類AP(APU)也有約1%的得分提升。
表1 本文方法在VOC與VOC-COCO-設置1數(shù)據(jù)集中的實驗對比Table 1 Comparison with other methods on VOC and VOC-COCO-T1
另外,還通過增加未知類目標的圖片數(shù)量與包含已知類目標的圖片數(shù)量的比值WR,將本文方法與其他方法進行了比較,結果如表2 所示,可以得到與表1 類似的結論。隨著WR 的增加,本文方法在大部分實驗中得到了更好的性能。
表2 本文方法在VOC與VOC-COCO-設置2數(shù)據(jù)集中的實驗對比Table 2 Comparison with other methods on VOC and VOC-COCO-T2
為了驗證本文方法的主要結構在開放集目標檢測中的有效性,在VOC-COCO-20數(shù)據(jù)集上進行了消融實驗。如表3 所示,首先分析本文提出的兩種結構對開放集目標檢測的性能影響??梢钥吹?,在引入環(huán)狀原型空間后,模型在已知類與非已知類中的檢測能力得到較大提升,而在單獨引入隨機覆蓋模塊時,模型對未知類的檢測能力得到較大提升。在同時引入環(huán)狀原型空間與隨機覆蓋模塊后,模型在已知類的精度(mAPK)上只降低了0.04%,證明隨機覆蓋模塊不會對原有模型對已知類與非已知類的檢測能力帶來影響,且有更強的區(qū)分非已知類中的背景類與未知類的能力。同時,在APU指標上獲得2.5%的提升也證明了兩個模塊之間有相互促進作用。
表3 本文方法在VOC-COCO-20數(shù)據(jù)集上的有效性Table 3 Effect of different components on VOC-COCO-20
而后研究了超參數(shù)I與L對實驗結果產(chǎn)生的影響。如表4 所示,首先固定L的大小為6 并改變I的大小進行消融實驗。其中,|bx|代表對于每個樣本x,模型提供的候選框的數(shù)量,與大部分檢測任務(Ren等,2015;Zhou 等,2021;Han 等,2022)相同,其值恒等于512。隨著I的提升,模型對未知類與背景類的劃分能力穩(wěn)步上升,并在100與200時達到峰值。最后固定I的大小為200 并改變L的大小進行消融實驗。如表5 所示,當L等于6 與12 時,模型檢測能力達到峰值。
表4 超參數(shù)I在VOC-COCO-20數(shù)據(jù)集上的消融實驗Table 4 Ablation study for I on VOC-COCO-20
表5 超參數(shù)L在VOC-COCO-20數(shù)據(jù)集上的消融實驗Table 5 Ablation study for L on VOC-COCO-20
如圖4所示,比較了基線方法FR-CNN與本文方法在PASCAL VOC 上訓練后在MS COCO 上的檢測效果?!靶堋?、“斑馬”、“手提箱”等標簽沒有被引入模型,因此被本文方法標記為“未知”,而基線方法將它們分類為“狗”、“馬”、“巴士”等已知類。
圖4 基線方法與本文方法在檢測結果中的對比Fig.4 Qualitative comparison between the baseline and our method
本文提出了一種新的開放集目標檢測框架,使檢測頭在進行開放集類別識別的過程中,優(yōu)先識別候選框屬于背景類或是含識別目標類別,而后進行已知類與未知類的判別;接著提出基于環(huán)狀原型空間優(yōu)化的檢測器,用以對已知類、未知類與背景類進行分層;最后在區(qū)域推薦層后設計了隨機覆蓋候選框的方式篩選相關的背景類訓練框,避免了以往OSOD 工作中煩瑣的背景類采樣步驟,同時提高模型對背景類與未知類的判別能力。本文在開放集檢測的基準數(shù)據(jù)集上對提出的方法進行了評估。在2 個不同的實驗設置、6 個數(shù)據(jù)集下,大部分數(shù)據(jù)指標相較于對比方法取得了不同程度的提升,證明了方法有較強的區(qū)分已知類、未知類與背景類的能力,消融實驗也證明了本文方法中每一個模塊的有效性。在未來工作中,希望進一步研究已知類檢測性能與未知類檢測性能間的相關性,同時希望將待檢測類別擴展到少樣本(賀小箭和林金福,2022)、細粒度(魏秀參 等,2022)等研究情形。