孫 輝 史玉龍② 張健一 王 蕊* 王羽玥
①(中國(guó)民航大學(xué)電子信息與自動(dòng)化學(xué)院 天津 300300)
②(南開(kāi)大學(xué)人工智能學(xué)院 天津 300350)
③(天津?yàn)I海國(guó)際機(jī)場(chǎng)有限公司 天津 300399)
隨著目標(biāo)檢測(cè)技術(shù)的快速發(fā)展,以快速區(qū)域檢測(cè)網(wǎng)絡(luò)(Faster Region-CNN, Faster RCNN)[1]、單鏡頭多盒檢測(cè)器(Single Shot multibox Detector,SSD)[2]和“你只看1次”(You Only Look Once,YOLO)系列[3-6]為代表的深度神經(jīng)網(wǎng)絡(luò)在各類(lèi)計(jì)算機(jī)視覺(jué)任務(wù)中取得了優(yōu)異的表現(xiàn)。然而,上述網(wǎng)絡(luò)在學(xué)習(xí)和訓(xùn)練過(guò)程中,對(duì)數(shù)據(jù)集的實(shí)例標(biāo)注具有較高要求,增加了制作數(shù)據(jù)集的時(shí)間和人工成本,限制了網(wǎng)絡(luò)在實(shí)際場(chǎng)景中的應(yīng)用[7,8]。相比之下,弱監(jiān)督目標(biāo)檢測(cè)算法可以?xún)H使用圖像的類(lèi)別標(biāo)簽即可較為出色地完成對(duì)目標(biāo)的檢測(cè),降低算法對(duì)目標(biāo)實(shí)例標(biāo)簽的依賴(lài),具有重要的研究和實(shí)用價(jià)值,受到了國(guó)內(nèi)外相關(guān)學(xué)者的廣泛關(guān)注。
當(dāng)前主流的弱監(jiān)督目標(biāo)檢測(cè)算法主要分為基于多示例學(xué)習(xí)(Multiple Instance Learning, MIL)的方法[9-11]和基于類(lèi)激活映射(Class Activation Mapping, CAM)的方法[12-15]?;诙嗍纠龑W(xué)習(xí)的方法給出了“包”的概念,將每幅輸入圖像看作由目標(biāo)候選集所構(gòu)成的多個(gè)對(duì)象實(shí)例的包,但該類(lèi)方法通常依賴(lài)于目標(biāo)候選框的質(zhì)量,如果候選框未能對(duì)目標(biāo)位置進(jìn)行較好的描述,容易導(dǎo)致此類(lèi)方法陷入局部最優(yōu)解,影響模型的檢測(cè)性能和學(xué)習(xí)效率。在基于類(lèi)激活映射方法的研究中,得益于文獻(xiàn)[16]對(duì)卷積神經(jīng)網(wǎng)絡(luò)的探索,認(rèn)為分類(lèi)網(wǎng)絡(luò)所提取的特征信息中既包含了目標(biāo)的類(lèi)別信息,也包含了目標(biāo)的位置信息。為此,文獻(xiàn)[17]利用全局平均池化(Global Average Pooling, GAP)提出了CAM算法,并利用該算法在分類(lèi)網(wǎng)絡(luò)中突出顯示了目標(biāo)的位置信息。然而,由于分類(lèi)網(wǎng)絡(luò)在特征提取過(guò)程中大多關(guān)注于對(duì)目標(biāo)分類(lèi)具有鑒別性的部分,這些部分通常無(wú)法覆蓋目標(biāo)的整體,且受破碎梯度的影響,生成的類(lèi)激活圖難以有效實(shí)現(xiàn)對(duì)目標(biāo)的準(zhǔn)確定位。
為解決上述問(wèn)題,本文提出一種基于高分辨率類(lèi)激活映射算法的弱監(jiān)督目標(biāo)實(shí)時(shí)檢測(cè)方法,本方法將目標(biāo)的檢測(cè)細(xì)劃分為弱監(jiān)督目標(biāo)定位和目標(biāo)實(shí)時(shí)檢測(cè)兩個(gè)子任務(wù)。在弱監(jiān)督目標(biāo)定位任務(wù)中,本研究利用對(duì)比層級(jí)相關(guān)性傳播理論設(shè)計(jì)了一種高分辨率類(lèi)激活映射算法(High Resolution Class Activation Mapping, HR-CAM),對(duì)分類(lèi)網(wǎng)絡(luò)低級(jí)、中級(jí)和高級(jí)特征進(jìn)行融合,產(chǎn)生高質(zhì)量的目標(biāo)類(lèi)激活圖,突出顯示待檢測(cè)目標(biāo)的輪廓和位置。在目標(biāo)實(shí)時(shí)檢測(cè)任務(wù)中,本文選擇SSD[2]網(wǎng)絡(luò)作為目標(biāo)檢測(cè)器,將所生成的目標(biāo)偽檢測(cè)標(biāo)注框作為真實(shí)檢測(cè)標(biāo)注框?qū)υ摍z測(cè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并采用遷移學(xué)習(xí)的手段加快網(wǎng)絡(luò)的收斂速度,實(shí)現(xiàn)對(duì)目標(biāo)的實(shí)時(shí)檢測(cè)。此外,為提升檢測(cè)網(wǎng)絡(luò)對(duì)待檢測(cè)目標(biāo)語(yǔ)義信息和位置信息的抽象能力,本研究基于高分辨率類(lèi)激活圖設(shè)計(jì)了一種新穎的目標(biāo)感知損失函數(shù)(Object Aware Loss function, OA-Loss),該損失與分類(lèi)損失和位置損失構(gòu)成聯(lián)合損失函數(shù),共同監(jiān)督SSD網(wǎng)絡(luò)的訓(xùn)練過(guò)程,提升網(wǎng)絡(luò)的檢測(cè)性能。
本文其余部分安排如下:第2節(jié)分別從弱監(jiān)督目標(biāo)定位和對(duì)比層級(jí)相關(guān)性傳播理論兩個(gè)方面對(duì)本文相關(guān)工作進(jìn)行介紹。第3節(jié)從設(shè)計(jì)的HR-CAM算法和目標(biāo)實(shí)時(shí)檢測(cè)兩個(gè)方面對(duì)本文的主要工作進(jìn)行介紹。第4節(jié)對(duì)提出的方法進(jìn)行實(shí)驗(yàn)分析,并給出實(shí)驗(yàn)結(jié)果。第5節(jié)總結(jié)全文。
在弱監(jiān)督目標(biāo)定位研究中,文獻(xiàn)[18]提出了一種對(duì)抗互補(bǔ)學(xué)習(xí)方法(Adversarial Complementary Learning, ACoL),該方法采用兩個(gè)互補(bǔ)的并行分類(lèi)器,用于獲取目標(biāo)位置區(qū)域,但需要較高的計(jì)算資源。文獻(xiàn)[19]提出了一種基于注意力機(jī)制的丟棄層方法(Attention-based Dropout Layer, ADL),該方法通過(guò)引入自注意力機(jī)制來(lái)擦除目標(biāo)的顯著性區(qū)域。文獻(xiàn)[20]提出了一種發(fā)散激活方法(Divergent Activation, DA),利用語(yǔ)義分散性思想傳播激活區(qū)域,從而最大化不同層次特征圖差異,實(shí)現(xiàn)目標(biāo)定位。文獻(xiàn)[21]通過(guò)學(xué)習(xí)整個(gè)數(shù)據(jù)集的全局一致性,并設(shè)計(jì)目標(biāo)隨機(jī)類(lèi)間約束,來(lái)挖掘目標(biāo)完整區(qū)域,實(shí)現(xiàn)目標(biāo)的弱監(jiān)督定位。文獻(xiàn)[22]提出了一種多次擦除集成學(xué)習(xí)方法(Multiple Erasing Integrated Learning, MEIL),該方法通過(guò)將判別區(qū)域挖掘和對(duì)抗性擦除集成到神經(jīng)網(wǎng)絡(luò)的前向和后向傳播中,從而發(fā)現(xiàn)完整的目標(biāo)區(qū)域。文獻(xiàn)[23]提出了一種幾何約束網(wǎng)絡(luò)(Geometry Constrained Network,GCNet),該網(wǎng)絡(luò)由檢測(cè)器、生成器和分類(lèi)器3個(gè)模塊組成,用于實(shí)現(xiàn)對(duì)目標(biāo)進(jìn)行幾何約束,以端到端的方式學(xué)習(xí)更完整的目標(biāo)區(qū)域。文獻(xiàn)[24]提出了一種偽監(jiān)督目標(biāo)定位方法(Pseudo Supervised Object Localization, PSOL),在該方法中,分類(lèi)網(wǎng)絡(luò)僅用來(lái)實(shí)現(xiàn)分類(lèi)任務(wù),定位任務(wù)由回歸網(wǎng)絡(luò)完成,并與目標(biāo)類(lèi)別無(wú)關(guān),在不同的數(shù)據(jù)集之間具有良好的遷移性。文獻(xiàn)[25]提出了一種結(jié)構(gòu)保持激活方法(Structure-Preserving Activation, SPA),該方法設(shè)計(jì)了受限激活模塊和自相關(guān)圖生成模塊,用于緩解分類(lèi)網(wǎng)絡(luò)引起的結(jié)構(gòu)缺失問(wèn)題,實(shí)現(xiàn)良好的目標(biāo)弱監(jiān)督定位。
卷積神經(jīng)網(wǎng)絡(luò)由若干個(gè)非線(xiàn)性函數(shù)嵌套組成,在具有高度非線(xiàn)性和出色學(xué)習(xí)能力的同時(shí),導(dǎo)致研究人員難以對(duì)網(wǎng)絡(luò)決策行為進(jìn)行解釋。為此,文獻(xiàn)[26]提出對(duì)比層級(jí)相關(guān)性傳播理論,使用相關(guān)性分?jǐn)?shù)衡量神經(jīng)元對(duì)模型決策做出的貢獻(xiàn),突出顯示目標(biāo)的特征,這為本文的弱監(jiān)督目標(biāo)定位任務(wù)提供了重要理論依據(jù)。該理論首先使用式(1)對(duì)初始相關(guān)性分?jǐn)?shù)中目標(biāo)類(lèi)別神經(jīng)元和非目標(biāo)類(lèi)別神經(jīng)元的比例進(jìn)行了區(qū)分,即
其中,w和w分別表示連接第l層和第l+1層神經(jīng)元的正、負(fù)權(quán)值;[U,V]表示神經(jīng)元激活值的取值區(qū)間。
為降低制作數(shù)據(jù)集的時(shí)間和人工成本,實(shí)現(xiàn)僅使用圖像類(lèi)別標(biāo)簽完成目標(biāo)的實(shí)時(shí)檢測(cè),本研究提出一種基于HR-CAM算法的弱監(jiān)督目標(biāo)實(shí)時(shí)檢測(cè)方法,本方法將目標(biāo)的檢測(cè)細(xì)劃分為弱監(jiān)督目標(biāo)定位和目標(biāo)實(shí)時(shí)檢測(cè)兩個(gè)子任務(wù),其整體框架如圖1所示。從中可以看出,本研究首先將待檢測(cè)目標(biāo)輸入分類(lèi)網(wǎng)絡(luò)中,利用HR-CAM算法生成目標(biāo)類(lèi)激活圖,準(zhǔn)確高效地獲取目標(biāo)偽檢測(cè)標(biāo)注框。其次,本研究選取SSD網(wǎng)絡(luò)作為目標(biāo)檢測(cè)器,并基于類(lèi)激活圖設(shè)計(jì)了一種新穎的目標(biāo)感知損失函數(shù),與生成的目標(biāo)偽檢測(cè)標(biāo)注框共同監(jiān)督SSD網(wǎng)絡(luò)的訓(xùn)練過(guò)程,以達(dá)到對(duì)目標(biāo)實(shí)時(shí)檢測(cè)的目的。本節(jié)也將從HRCAM算法和目標(biāo)感知損失函數(shù)兩個(gè)方面對(duì)基于HRCAM算法的弱監(jiān)督目標(biāo)實(shí)時(shí)檢測(cè)方法進(jìn)行介紹。
圖1 基于HR-CAM算法的弱監(jiān)督目標(biāo)實(shí)時(shí)檢測(cè)整體框架
在弱監(jiān)督目標(biāo)定位任務(wù)中,為準(zhǔn)確地獲取目標(biāo)偽檢測(cè)標(biāo)注框,本研究受文獻(xiàn)[26]的啟發(fā),利用對(duì)比層級(jí)相關(guān)性傳播理論提出了一種新穎的HR-CAM算法,本算法充分使用了分類(lèi)網(wǎng)絡(luò)提取到的圖像低級(jí)、中級(jí)和高級(jí)特征,可以通過(guò)熱力圖的形式實(shí)現(xiàn)目標(biāo)的準(zhǔn)確定位,生成目標(biāo)偽檢測(cè)標(biāo)注框。圖2顯示了本文設(shè)計(jì)的HR-CAM算法在Resnet50[27]分類(lèi)網(wǎng)絡(luò)中生成目標(biāo)偽檢測(cè)標(biāo)注框的過(guò)程。
圖2 HR-CAM算法生成目標(biāo)偽檢測(cè)標(biāo)注框的過(guò)程
從圖2可以看出,本研究設(shè)計(jì)的高分辨率類(lèi)激活映射算法分為多層級(jí)類(lèi)激活圖的生成與融合兩個(gè)階段。在第1個(gè)階段中,本文利用比對(duì)層級(jí)相關(guān)性傳播理論和類(lèi)激活映射算法獲取Resnet50網(wǎng)絡(luò)Layer1層、Layer2層、Layer3層和Layer4層特征圖中每個(gè)位置對(duì)目標(biāo)分類(lèi)的貢獻(xiàn),生成對(duì)應(yīng)的類(lèi)激活圖,并上采樣到和輸入圖像相同的尺寸。以L(fǎng)ayer1層為例,該層類(lèi)激活圖的計(jì)算過(guò)程如式(4)和式(5)所示
其中,R)(x, y)表示利用對(duì)比層級(jí)相關(guān)性傳播理論反向傳遞獲取的Layer1層第k個(gè)特征圖中每個(gè)位置關(guān)于目標(biāo)類(lèi)別c的貢獻(xiàn),a表示第Layer1層中第k個(gè)特征圖Ak關(guān)于目標(biāo)類(lèi)別c的通道級(jí)權(quán)重。
在圖2的第2個(gè)階段,本研究將Layer1層、Layer2層和Layer3層類(lèi)激活圖以相加的方式進(jìn)行融合,以獲取目標(biāo)輪廓和紋理等細(xì)節(jié)信息,生成目標(biāo)的前景區(qū)域。然而,這一過(guò)程同樣也突出顯示了和目標(biāo)無(wú)關(guān)的背景噪聲,無(wú)法準(zhǔn)確地對(duì)目標(biāo)進(jìn)行定位。為此,本研究利用富含目標(biāo)語(yǔ)義信息的Layer4層類(lèi)激活圖與融合的類(lèi)激活圖進(jìn)行逐元素相乘,對(duì)背景噪聲進(jìn)行抑制,生成可以有效指示目標(biāo)輪廓和位置的類(lèi)激活圖,并利用自適應(yīng)閾值生成目標(biāo)的掩碼圖,再使用包圍框覆蓋類(lèi)激活圖中最大的連通區(qū)域確定目標(biāo)邊界框,獲取目標(biāo)偽檢測(cè)標(biāo)注框。高分辨率類(lèi)激活圖MHR的生成和目標(biāo)偽檢測(cè)標(biāo)注框的計(jì)算過(guò)程分別如式(6)和式(7)所示
其中,(x, y)表示類(lèi)激活圖中每個(gè)像素的位置,th=μ+δ表示本文設(shè)計(jì)的自適應(yīng)閾值,μ表示激活圖中像素值的均值,δ表示激活圖中像素值的方差。
在目標(biāo)實(shí)時(shí)檢測(cè)任務(wù)中,本研究將3.1節(jié)采用HR-CAM算法生成的目標(biāo)偽檢測(cè)標(biāo)注框作為真實(shí)檢測(cè)標(biāo)注框?qū)z測(cè)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,并綜合以下兩方面的考慮,選擇SSD網(wǎng)絡(luò)作為本文的目標(biāo)檢測(cè)網(wǎng)絡(luò)。(1)SSD網(wǎng)絡(luò)屬于單階段的檢測(cè)網(wǎng)絡(luò),無(wú)需額外生成目標(biāo)候選集,可以直接對(duì)目標(biāo)進(jìn)行推理,達(dá)到實(shí)時(shí)檢測(cè)的效果;(2)SSD網(wǎng)絡(luò)以Vgg16[28]作為主干網(wǎng)絡(luò),具有較高的通用性,便于使用遷移學(xué)習(xí)的方法加快網(wǎng)絡(luò)的訓(xùn)練過(guò)程,降低過(guò)擬合的風(fēng)險(xiǎn)。圖3展示了本文對(duì)SSD網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練的過(guò)程。
圖3 SSD網(wǎng)絡(luò)監(jiān)督訓(xùn)練的整體框圖
由圖3可以看出,為提升SSD網(wǎng)絡(luò)對(duì)目標(biāo)語(yǔ)義位置信息的抽象能力,本研究利用高分辨率的目標(biāo)類(lèi)激活圖設(shè)計(jì)了一種新穎的目標(biāo)感知損失函數(shù)(Object Aware Loss function, OA-Loss),將空間級(jí)的損失函數(shù)引入目標(biāo)檢測(cè)任務(wù),使用具有豐富空間信息的類(lèi)激活圖對(duì)網(wǎng)絡(luò)學(xué)習(xí)的特征進(jìn)行約束,并對(duì)圖像中的背景噪聲進(jìn)行抑制,提高網(wǎng)絡(luò)對(duì)目標(biāo)的推理能力。該目標(biāo)感知損失函數(shù)定義如式(8)所示
其中,N表示圖片的數(shù)量,MHR表示高分辨率的目標(biāo)類(lèi)激活圖,MFA表示SSD主干網(wǎng)絡(luò)中最后卷積層所有特征響應(yīng)的集合。本研究在SSD網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,將提出的目標(biāo)感知損失和分類(lèi)損失與位置損失作為聯(lián)合損失函數(shù),共同監(jiān)督網(wǎng)絡(luò)的訓(xùn)練過(guò)程,提升SSD網(wǎng)絡(luò)目標(biāo)檢測(cè)的性能。聯(lián)合損失函數(shù)的定義如式(9)所示
其中,Lconf表示分類(lèi)損失函數(shù),Lloc表示位置損失函數(shù),λ為控制目標(biāo)感知損失函數(shù)權(quán)重的超參數(shù)。
本文根據(jù)文獻(xiàn)[29]對(duì)天津?yàn)I海國(guó)際機(jī)場(chǎng)常見(jiàn)鳥(niǎo)種的研究,選取了52種天津機(jī)場(chǎng)常見(jiàn)鳥(niǎo)類(lèi)作為待檢測(cè)的目標(biāo),并通過(guò)網(wǎng)絡(luò)收集和實(shí)地拍攝制作了TJAB52(52 species of birds at Tianjin Airport)數(shù)據(jù)集。TJAB52數(shù)據(jù)集共包含5 200張鳥(niǎo)類(lèi)圖像,分為3 640張訓(xùn)練圖像和1 560張測(cè)試圖像。部分TJAB52鳥(niǎo)類(lèi)圖像如圖4所示。本文方法在CUB200[30]和TJAB52數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),兩個(gè)數(shù)據(jù)集均提供了類(lèi)別標(biāo)簽和邊框注釋。
圖4 TJAB52數(shù)據(jù)集示例圖
在弱監(jiān)督目標(biāo)定位與目標(biāo)實(shí)時(shí)檢測(cè)兩項(xiàng)子任務(wù)中,本文統(tǒng)一選擇使用分類(lèi)準(zhǔn)確率、Top-k定位準(zhǔn)確率、GT-know定位準(zhǔn)確率和每秒幀率(Frame Per Second, FPS)評(píng)價(jià)指標(biāo)。其中,分類(lèi)準(zhǔn)確率是指網(wǎng)絡(luò)預(yù)測(cè)正確的結(jié)果在測(cè)試集中的比例;Top-k定位準(zhǔn)確率是指當(dāng)網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)類(lèi)別與前k個(gè)類(lèi)別相同時(shí),且模型預(yù)測(cè)邊界框和目標(biāo)真實(shí)邊界框的交并比大于0.5的比例;GT-know定位準(zhǔn)確率是指模型預(yù)測(cè)邊界框和目標(biāo)真實(shí)邊界框的交并比大于0.5的比例;每秒幀率是指模型每秒處理圖像的個(gè)數(shù),用來(lái)評(píng)價(jià)本文方法在測(cè)試集上的檢測(cè)速度。值得說(shuō)明的是,本文選擇Top-k和GT-know定位準(zhǔn)確率而非平均準(zhǔn)確率和平均精度均值等常用的目標(biāo)檢測(cè)評(píng)價(jià)指標(biāo)的原因及優(yōu)勢(shì)在于:(1)平均準(zhǔn)確率和平均精度均值與目標(biāo)被正確檢測(cè)的數(shù)量相關(guān),與預(yù)測(cè)邊框和真實(shí)檢測(cè)邊框的重合程度無(wú)關(guān);(2)定位準(zhǔn)確率可以客觀(guān)地表明本文方法使用HR-CAM算法生成目標(biāo)偽檢測(cè)標(biāo)注框與真實(shí)檢測(cè)標(biāo)注框的接近程度;(3)定位準(zhǔn)確率可以直觀(guān)地反映采用目標(biāo)偽檢測(cè)標(biāo)注框作為真實(shí)檢測(cè)標(biāo)注框?qū)SD網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練的有效性。
4.2.1 定量實(shí)驗(yàn)結(jié)果與分析
在定量實(shí)驗(yàn)中,本研究選取Vgg16和Resnet50網(wǎng)絡(luò)作為目標(biāo)的分類(lèi)網(wǎng)絡(luò),采用HR-CAM算法生成高質(zhì)量的類(lèi)激活圖,完成目標(biāo)的弱監(jiān)督定位,獲取目標(biāo)偽檢測(cè)標(biāo)注框。表1展示了本文方法在CUB200數(shù)據(jù)集中的評(píng)估結(jié)果。值得說(shuō)明的是,在Vgg16網(wǎng)絡(luò)中,本研究選擇網(wǎng)絡(luò)的第13層、第23層、第33層和第43層作為相關(guān)性分?jǐn)?shù)反向傳播的目標(biāo)層;在Resnet50網(wǎng)絡(luò)中,本研究選擇網(wǎng)絡(luò)的Layer1層、Layer2層、Layer3層和Layer4層作為相關(guān)性分?jǐn)?shù)反向傳播的目標(biāo)層。這是由于上述的網(wǎng)絡(luò)層在對(duì)圖像特征進(jìn)行處理時(shí),進(jìn)行了下采樣的操作,產(chǎn)生了不同尺度大小的特征圖,因此本研究利用HR-CAM算法對(duì)多尺度的特征圖產(chǎn)生的類(lèi)激活圖進(jìn)行融合,用于生成高分辨率的類(lèi)激活圖,準(zhǔn)確高效地獲取目標(biāo)偽檢測(cè)標(biāo)注框。
表1 不同弱監(jiān)督定位方法在CUB200數(shù)據(jù)集實(shí)驗(yàn)結(jié)果對(duì)比(%)
由表1可以看出,當(dāng)分類(lèi)網(wǎng)絡(luò)為Vgg16時(shí),網(wǎng)絡(luò)對(duì)CUB200數(shù)據(jù)集的Top-1定位準(zhǔn)確率為67.43%,Top-5定位準(zhǔn)確率為82.59%,GT-know定位準(zhǔn)確率為87.34%,相比于GCNet[23]和SPA[25],Top-1定位準(zhǔn)確率分別提高了4.19%和7.16%,Top-5定位準(zhǔn)確率分別提高了7.05%和10.09%,GT-know定位準(zhǔn)確率分別提高了6.24%和10.05%。當(dāng)分類(lèi)網(wǎng)絡(luò)為Resnet50時(shí),網(wǎng)絡(luò)對(duì)CUB200數(shù)據(jù)集的Top-1定位準(zhǔn)確率為71.82%,Top-5定位準(zhǔn)確率為85.29%,GTknow定位準(zhǔn)確率為87.19%,達(dá)到了與POSL[24]和FAM[13]等先進(jìn)方法相當(dāng)?shù)乃健?/p>
此外,本文采用HR-CAM算法在自制的TJAB52數(shù)據(jù)集中同樣進(jìn)行了弱監(jiān)督定位的實(shí)驗(yàn),并將生成的目標(biāo)偽檢測(cè)標(biāo)注框和真實(shí)檢測(cè)標(biāo)注框進(jìn)行比較。由表2可以看出,當(dāng)分類(lèi)網(wǎng)絡(luò)為Vgg16時(shí),TJAB52鳥(niǎo)類(lèi)數(shù)據(jù)集的分類(lèi)準(zhǔn)確率為85.92%,Top-1定位準(zhǔn)確率為76.68%, Top-5定位準(zhǔn)確率為89.52%, GT-know定位準(zhǔn)確率為90.83%。當(dāng)分類(lèi)網(wǎng)絡(luò)為Resnet50時(shí),TJAB52鳥(niǎo)類(lèi)數(shù)據(jù)集的分類(lèi)準(zhǔn)確率為89.07%,Top-1定位準(zhǔn)確率為81.35%, Top-5定位準(zhǔn)確率為93.37%, GT-know定位準(zhǔn)確率為94.96%??梢员砻鞅狙芯吭O(shè)計(jì)的HR-CAM算法具有較高的通用性和泛化性能,在自制的TJAB52數(shù)據(jù)集中同樣具有良好的弱監(jiān)督定位性能。
表2 TJAB52鳥(niǎo)類(lèi)數(shù)據(jù)集弱監(jiān)督定位實(shí)驗(yàn)結(jié)果(%)
4.2.2 定性實(shí)驗(yàn)結(jié)果與分析
為直觀(guān)地對(duì)本文方法進(jìn)行定性分析,本研究通過(guò)可視化的方法在圖5中列出了部分由HR-CAM算法在CUB200和TJAB52數(shù)據(jù)集中對(duì)目標(biāo)進(jìn)行弱監(jiān)督定位的結(jié)果示例,并將生成的目標(biāo)偽檢測(cè)標(biāo)注框和真實(shí)檢測(cè)標(biāo)注框進(jìn)行比較。需說(shuō)明的是綠色邊框?yàn)槟繕?biāo)真實(shí)檢測(cè)標(biāo)注框,紅色邊框?yàn)槟繕?biāo)偽檢測(cè)標(biāo)注框。從中可以看出,本研究提出的HR-CAM算法在弱監(jiān)督目標(biāo)定位任務(wù)中具有以下3點(diǎn)優(yōu)勢(shì):(1)在近視場(chǎng)或遠(yuǎn)視場(chǎng)圖像中,本文方法均可以有效突出目標(biāo)位置,產(chǎn)生準(zhǔn)確的目標(biāo)偽檢測(cè)標(biāo)注框。(2)本文方法融合了分類(lèi)網(wǎng)絡(luò)中目標(biāo)的低級(jí)、中級(jí)和高級(jí)特征,對(duì)形態(tài)變化劇烈的鳥(niǎo)類(lèi)具有較高的魯棒性和泛化性能。(3)本文方法不僅能夠?qū)D像中單一存在的目標(biāo)進(jìn)行弱監(jiān)督定位,在多目標(biāo)的圖像中同樣具有良好表現(xiàn)。
圖5 部分弱監(jiān)督目標(biāo)定位實(shí)驗(yàn)結(jié)果示例
在4.2節(jié)的實(shí)驗(yàn)結(jié)果中,本研究觀(guān)察發(fā)現(xiàn),先進(jìn)的弱監(jiān)督目標(biāo)定位方法在Resnet50網(wǎng)絡(luò)中對(duì)目標(biāo)的弱監(jiān)督定位性能通常要優(yōu)于Vgg16網(wǎng)絡(luò),生成的目標(biāo)偽檢測(cè)標(biāo)注框更接近于真實(shí)標(biāo)注。為此,在目標(biāo)檢測(cè)實(shí)驗(yàn)中,本研究以Resnet50作為分類(lèi)網(wǎng)絡(luò),利用HR-CAM算法生成的目標(biāo)偽檢測(cè)標(biāo)注框作為真實(shí)檢測(cè)標(biāo)注框?qū)SD網(wǎng)絡(luò)進(jìn)行訓(xùn)練。由于SSD網(wǎng)絡(luò)選擇Vgg16網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),因此,本研究在SSD網(wǎng)絡(luò)訓(xùn)練開(kāi)始前,采用遷移學(xué)習(xí)的手段,將在弱監(jiān)督定位任務(wù)中預(yù)訓(xùn)練好的Vgg16模型權(quán)重遷移到SSD網(wǎng)絡(luò)中,加快網(wǎng)絡(luò)的訓(xùn)練過(guò)程,降低過(guò)擬合的風(fēng)險(xiǎn)。此外,在SSD網(wǎng)絡(luò)訓(xùn)練時(shí),本研究采用目標(biāo)感知損失函數(shù)、分類(lèi)損失函數(shù)和位置損失函數(shù)作為聯(lián)合損失函數(shù)對(duì)SSD檢測(cè)網(wǎng)絡(luò)進(jìn)行了監(jiān)督。為此,本研究首先使用分類(lèi)準(zhǔn)確率和Top-1定位準(zhǔn)確率兩個(gè)評(píng)價(jià)指標(biāo)在CUB200數(shù)據(jù)集中對(duì)目標(biāo)感知損失函數(shù)進(jìn)行了消融實(shí)驗(yàn),以確定聯(lián)合損失函數(shù)中目標(biāo)感知損失函數(shù)權(quán)值λ的取值范圍,并證明本研究所提出的目標(biāo)感知損失函數(shù)有助于提高SSD網(wǎng)絡(luò)對(duì)目標(biāo)的檢測(cè)精度。目標(biāo)感知損失函數(shù)的消融實(shí)驗(yàn)結(jié)果如圖6所示。從中可以看出,隨參數(shù)λ的增加,SSD網(wǎng)絡(luò)對(duì)飛鳥(niǎo)的分類(lèi)準(zhǔn)確率和Top-1定位準(zhǔn)確率曲線(xiàn)呈現(xiàn)先升高后降低的趨勢(shì),并在權(quán)重參數(shù)為λ=1.5時(shí)網(wǎng)絡(luò)的性能達(dá)到了最優(yōu),因此本文將λ的取值設(shè)置為1.5。
圖6 目標(biāo)感知損失函數(shù)消融實(shí)驗(yàn)結(jié)果圖
在確定目標(biāo)感知損失函數(shù)權(quán)重λ的取值后,本研究使用分類(lèi)準(zhǔn)確率、Top-1定位準(zhǔn)確率、Top-5定位準(zhǔn)確率3個(gè)評(píng)價(jià)指標(biāo)在CUB200數(shù)據(jù)集和TJAB52數(shù)據(jù)集中進(jìn)行目標(biāo)檢測(cè)的實(shí)驗(yàn)。在實(shí)驗(yàn)中,本研究分別使用目標(biāo)偽檢測(cè)標(biāo)注框和真實(shí)檢測(cè)標(biāo)注框?qū)SD網(wǎng)絡(luò)進(jìn)行訓(xùn)練,實(shí)驗(yàn)結(jié)果如表3所示。由結(jié)果可以看出,使用偽檢測(cè)標(biāo)注框訓(xùn)練的SSD網(wǎng)絡(luò)在檢測(cè)精度上雖然略低于真實(shí)檢測(cè)標(biāo)注框訓(xùn)練的SSD網(wǎng)絡(luò),但相較于數(shù)據(jù)集的前期準(zhǔn)備工作而言,極大地降低了邊框標(biāo)注的時(shí)間和人工成本,在實(shí)際應(yīng)用場(chǎng)景中更具有通用性。此外,采用SSD網(wǎng)絡(luò)對(duì)目標(biāo)圖像進(jìn)行推理時(shí),網(wǎng)絡(luò)的運(yùn)算速度為37.6 fps,達(dá)到了實(shí)時(shí)檢測(cè)的效果。
表3 CUB200和TJAB52數(shù)據(jù)集目標(biāo)檢測(cè)實(shí)驗(yàn)結(jié)果(%)
最后,為找到影響本文方法檢測(cè)精度進(jìn)一步提升的原因,在圖7(a)和圖7(b)中分別展示了本文方法部分檢測(cè)成功與失敗的結(jié)果示例。其中綠色邊框?yàn)槟繕?biāo)的真實(shí)檢測(cè)標(biāo)注框,紅色邊框?yàn)槟P蜋z測(cè)的結(jié)果。從可視化后的結(jié)果可知,當(dāng)待檢測(cè)目標(biāo)具有以下兩點(diǎn)特性時(shí),易導(dǎo)致本文方法檢測(cè)結(jié)果的失敗。(1)當(dāng)目標(biāo)未完全顯示且局部特征占據(jù)了圖像的大部分區(qū)域時(shí),本文方法所生成的類(lèi)激活圖趨向于突出待檢測(cè)目標(biāo)更具鑒別部分的特征,生成的偽檢測(cè)標(biāo)注框不完全,易使得檢測(cè)結(jié)果存在較大偏差;(2)當(dāng)目標(biāo)與周?chē)h(huán)境對(duì)比度較低時(shí),類(lèi)激活圖易受到環(huán)境因素的影響,難以準(zhǔn)確突出顯示目標(biāo)的輪廓與位置,影響了目標(biāo)的最終檢測(cè)結(jié)果。因此,在未來(lái)工作中,將更關(guān)注于上述兩點(diǎn)問(wèn)題,進(jìn)一步提升本文方法的檢測(cè)性能。
圖7 部分檢測(cè)成功與失敗結(jié)果示例圖
本研究提出了一種基于HR-CAM算法的弱監(jiān)督目標(biāo)實(shí)時(shí)檢測(cè)方法,本方法將目標(biāo)檢測(cè)細(xì)劃分為弱監(jiān)督目標(biāo)定位與目標(biāo)實(shí)時(shí)檢測(cè)兩個(gè)子任務(wù)。在弱監(jiān)督目標(biāo)定位任務(wù)中,本研究基于對(duì)比層級(jí)相關(guān)性傳播理論和類(lèi)激活映射算法提出了一種HR-CAM算法,用于突出顯示目標(biāo)的輪廓和空間位置等信息,生成準(zhǔn)確的目標(biāo)偽檢測(cè)標(biāo)注框。在目標(biāo)實(shí)時(shí)檢測(cè)任務(wù)中,本研究基于高分辨率的類(lèi)激活圖設(shè)計(jì)了一種目標(biāo)感知損失函數(shù),與生成的目標(biāo)偽檢測(cè)標(biāo)注框共同監(jiān)督SSD網(wǎng)絡(luò)的訓(xùn)練過(guò)程,提高網(wǎng)絡(luò)對(duì)目標(biāo)的推理能力。實(shí)驗(yàn)結(jié)果表明,本文方法在CUB200和TJAB52數(shù)據(jù)集上相比于其他方法,可以?xún)H使用圖像類(lèi)別標(biāo)簽實(shí)現(xiàn)對(duì)目標(biāo)的實(shí)時(shí)檢測(cè),在降低制作數(shù)據(jù)集時(shí)間與人工成本的同時(shí),提升網(wǎng)絡(luò)對(duì)目標(biāo)的檢測(cè)性能。在未來(lái)工作中,本研究將進(jìn)一步對(duì)弱監(jiān)督目標(biāo)實(shí)時(shí)檢測(cè)方法進(jìn)行探索,提升模型的檢測(cè)性能與泛化能力。