亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識(shí)回顧與特征解耦的目標(biāo)檢測(cè)蒸餾

        2023-01-01 00:00:00張瑤潘志松

        摘要:當(dāng)前的知識(shí)蒸餾算法均只在對(duì)應(yīng)層間進(jìn)行蒸餾,為了解決這一問(wèn)題,提高知識(shí)蒸餾的性能,首先分析了教師模型的低層特征對(duì)學(xué)生模型高層特征的指導(dǎo)作用,并在此基礎(chǔ)上提出了基于知識(shí)回顧解耦的目標(biāo)檢測(cè)蒸餾方法。該方法首先將學(xué)生模型的高層特征與低層特征對(duì)齊、融合并區(qū)分空間和通道提取注意力,使得學(xué)生的高層特征能夠漸進(jìn)式地學(xué)到教師的低層和高層知識(shí);隨后將前背景解耦,分別蒸餾;最后通過(guò)金字塔池化在不同尺度上計(jì)算其與教師模型特征的相似度。在不同的目標(biāo)檢測(cè)模型上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)表明,提出的方法簡(jiǎn)單且有效,能夠適用于各種不同的目標(biāo)檢測(cè)模型。骨干網(wǎng)絡(luò)為ResNet-50的RetinaNet和FCOS分別在COCO2017數(shù)據(jù)集上獲得了39.8%和42.8%的mAP,比基準(zhǔn)提高了2.4%和2.3%。

        關(guān)鍵詞:知識(shí)蒸餾;目標(biāo)檢測(cè);知識(shí)回顧;特征解耦

        中圖分類號(hào):TP183文獻(xiàn)標(biāo)志碼:A

        文章編號(hào):1001-3695(2023)05-040-1542-06

        0引言

        隨著2012年AlexNet[1]的提出,深度學(xué)習(xí)在許多領(lǐng)域都取得了巨大的成功。然而為了獲得更強(qiáng)大的性能,卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,CNN)模型層數(shù)不斷加深,其模型容量也隨之增加,這引入了更高的計(jì)算代價(jià)和存儲(chǔ)成本,使得CNN難以部署在資源受限的邊緣設(shè)備中,限制了其現(xiàn)實(shí)應(yīng)用[2]。為了克服以上問(wèn)題,文獻(xiàn)[3]首先提出知識(shí)蒸餾,該方法利用軟標(biāo)簽將教師模型中的暗知識(shí)轉(zhuǎn)移到學(xué)生模型中。

        隨后FitNets[4]進(jìn)一步指出,教師模型和學(xué)生模型之間不同的表達(dá)能力是由兩者中間層的特征提取能力造成的。因此,除了學(xué)習(xí)教師模型的輸出之外,還要使學(xué)生模型的中間層特征盡可能地與教師模型的中間層特征相近。自此,知識(shí)蒸餾可以大致分為logits蒸餾和特征蒸餾兩個(gè)類別[5]。前者學(xué)習(xí)教師網(wǎng)絡(luò)輸出的logits分布,主要傳遞語(yǔ)義信息(即分類信息);而后者學(xué)習(xí)教師網(wǎng)絡(luò)的中間層特征或特征之間的轉(zhuǎn)換關(guān)系。

        知識(shí)蒸餾已經(jīng)在圖像分類領(lǐng)域取得了不錯(cuò)的效果[6~10]。近年來(lái),也有一些工作將知識(shí)蒸餾應(yīng)用于目標(biāo)檢測(cè)領(lǐng)域。相較于分類任務(wù)而言,目標(biāo)檢測(cè)任務(wù)既需要網(wǎng)絡(luò)輸出邊界框回歸信息,又需要輸出目標(biāo)類別信息,更為復(fù)雜。

        Chen等人[11]首先提出適用于目標(biāo)檢測(cè)網(wǎng)絡(luò)的知識(shí)蒸餾方法,該方法對(duì)頸部、分類頭和回歸頭中包含的知識(shí)分別進(jìn)行處理。然而,該方法沒(méi)有區(qū)分前背景,導(dǎo)致引入了過(guò)多的噪聲,影響了蒸餾效果。由于前景和背景類的極度不均衡是目標(biāo)檢測(cè)的一個(gè)難點(diǎn)問(wèn)題[12],后續(xù)的工作主要集中在如何選擇蒸餾區(qū)域上。FGFI[13]方法和TADF[14]方法分別利用細(xì)粒度掩碼和高斯掩碼使得蒸餾區(qū)域集中在目標(biāo)及其附近,卻忽略了背景對(duì)蒸餾的作用。Guo等人[15]提出了DeFeat認(rèn)為:前景和背景對(duì)蒸餾都具有重要作用,將前景與背景解耦分別進(jìn)行蒸餾可以得到更好效果。文獻(xiàn)[16]認(rèn)為針對(duì)不同的實(shí)例蒸餾區(qū)域應(yīng)當(dāng)不同,提出以實(shí)例化的方式進(jìn)行知識(shí)蒸餾。FGD[17]方法在前背景解耦的基礎(chǔ)上,進(jìn)一步區(qū)分了通道注意力和空間注意力。

        現(xiàn)有針對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)的知識(shí)蒸餾方法主要解決的問(wèn)題是如何加強(qiáng)學(xué)生和教師之間特征一致性。然而,這些工作只使用了相同階段的教師信息來(lái)指導(dǎo)學(xué)生學(xué)習(xí),忽略了來(lái)自教師模型其他階段信息對(duì)學(xué)生模型的指導(dǎo)作用。

        蒸餾對(duì)象是知識(shí)蒸餾的關(guān)鍵問(wèn)題。Chen等人[8]認(rèn)為現(xiàn)有的知識(shí)蒸餾算法不能充分利用教師模型中蘊(yùn)涵的暗知識(shí),因此提出了知識(shí)回顧機(jī)制,在蒸餾時(shí)使用多階段的教師特征同時(shí)監(jiān)督學(xué)生模型的訓(xùn)練,即讓學(xué)生模型的第三階段輸出在模仿教師模型的第三階段的輸出的同時(shí),回顧第一階段和第二階段中的暗知識(shí),得到了當(dāng)時(shí)SOAT的結(jié)果。傳統(tǒng)的知識(shí)蒸餾與知識(shí)回顧的區(qū)別如圖1所示。

        圖1中上方的子圖為傳統(tǒng)蒸餾機(jī)制的過(guò)程示意圖,蒸餾只在對(duì)應(yīng)層間進(jìn)行,如第三階段的學(xué)生模型只模仿同一階段教師模型的輸出。下方的子圖為知識(shí)回顧機(jī)制的過(guò)程示意圖。學(xué)生模型在模仿教師模型對(duì)應(yīng)層的輸出之外,其訓(xùn)練過(guò)程還受到對(duì)應(yīng)層之前的卷積層輸出的監(jiān)督。如第三階段的學(xué)生模型同時(shí)在教師模型第一、二、三階段輸出的監(jiān)督下訓(xùn)練。

        然而Chen是針對(duì)分類模型提出的知識(shí)回顧機(jī)制,為了驗(yàn)證知識(shí)回顧機(jī)制對(duì)目標(biāo)檢測(cè)模型是否具有類似的效果,本文在RetinaNet[12]上進(jìn)行了實(shí)驗(yàn)。所用教師模型的骨干網(wǎng)絡(luò)是ResNet101,學(xué)生模型的骨干網(wǎng)絡(luò)是ResNet50??梢暬Y(jié)果如圖2所示。其中圖(a)代表傳統(tǒng)知識(shí)蒸餾機(jī)制得到的注意力熱力圖,圖(b)代表知識(shí)回顧機(jī)制得到的注意力熱力圖。

        在注意力熱圖中,區(qū)域顏色越深表示模型對(duì)它的關(guān)注越多。從圖2可以看出,右側(cè)的注意力熱圖更集中在目標(biāo)上,這表明學(xué)生模型在受到多個(gè)層同時(shí)引導(dǎo)的學(xué)習(xí)下能夠?qū)W習(xí)到更多的知識(shí),將更多的注意力分配給目標(biāo)區(qū)域。特別是淺層次的知識(shí)可以促進(jìn)學(xué)生模型在蒸餾過(guò)程中的訓(xùn)練;然而,高層次的信息會(huì)對(duì)學(xué)習(xí)曲線產(chǎn)生負(fù)面影響。這一結(jié)論與人們的認(rèn)知常識(shí)是一致的,例如當(dāng)一個(gè)已經(jīng)上過(guò)高中的人重新學(xué)習(xí)小學(xué)的知識(shí)時(shí),他會(huì)因?yàn)闇毓手露鴮⑦@些相對(duì)簡(jiǎn)單的知識(shí)掌握得更好;但是當(dāng)他越級(jí)去學(xué)習(xí)大學(xué)的知識(shí)時(shí),往往會(huì)由于缺少必要的知識(shí)儲(chǔ)備而影響學(xué)習(xí)效果。

        基于上述發(fā)現(xiàn),本文在蒸餾過(guò)程中加入了知識(shí)回顧機(jī)制,把教師的淺層次特征也作為學(xué)生高層特征的模仿對(duì)象。這樣同時(shí)利用教師的多層特征引導(dǎo)學(xué)生的單層特征的學(xué)習(xí),這種蒸餾機(jī)制能夠更加完全地將教師的知識(shí)傳遞給學(xué)生。教師模型的淺層次特征可以理解為比較簡(jiǎn)單的知識(shí),其深層特征可以理解為較為抽象復(fù)雜的知識(shí),讓這些知識(shí)同時(shí)指導(dǎo)學(xué)生的單層特征,可以實(shí)現(xiàn)漸進(jìn)式的學(xué)習(xí),即溫故知新。

        蒸餾的整體框架如圖3所示。為了簡(jiǎn)便計(jì)算,本文提出了一個(gè)特征融合模塊featurefusedmodule,能夠在融合不同階段學(xué)生特征的同時(shí),加強(qiáng)其特征表達(dá)。該模塊首先對(duì)齊不同階段的學(xué)生特征并融合,隨后分別在空間和通道維度上提取學(xué)生模型的注意力圖,最后將空間和通道注意力都疊加在融合特征上,以加強(qiáng)特征表達(dá)。此外,為了解決目標(biāo)檢測(cè)前背景不平衡的問(wèn)題,本文在蒸餾時(shí)利用真實(shí)框生成的二值掩碼將前背景分割,并分別蒸餾,計(jì)算蒸餾損失。

        綜上所述,本文提出了基于知識(shí)回顧解耦的目標(biāo)檢測(cè)蒸餾方法(reviewanddecoupleknowledgedistillation,RDKD)。本文的貢獻(xiàn)主要包括:

        a)驗(yàn)證了學(xué)生不僅應(yīng)該學(xué)習(xí)老師的對(duì)應(yīng)層特征,還應(yīng)該學(xué)習(xí)老師的淺層次特征?;诖颂岢龌谥R(shí)回顧解耦的目標(biāo)檢測(cè)知識(shí)蒸餾,使得學(xué)生模型能夠在蒸餾時(shí)回顧到以前學(xué)習(xí)過(guò)的暗知識(shí),提高了知識(shí)轉(zhuǎn)移的效率。

        b)提出了特征融合模塊featurefusedmodule,融合不同階段的特征的同時(shí),在空間和通道維度上分別提取注意力,加強(qiáng)學(xué)生的特征表達(dá)。

        c)實(shí)驗(yàn)表明本文方法在單階段和兩階段檢測(cè)器上均有不錯(cuò)效果。骨干網(wǎng)絡(luò)為ResNet-50的RetinaNet和FCOS分別在COCO數(shù)據(jù)集上獲得了39.8%和42.8%的mAP,比基準(zhǔn)提高了2.4%和2.3%。

        1相關(guān)工作

        1.1目標(biāo)檢測(cè)

        目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的一項(xiàng)基本任務(wù),其主要任務(wù)是確定輸入圖像中一個(gè)或多個(gè)目標(biāo)的類別和定位信息?;谏疃葘W(xué)習(xí)的目標(biāo)檢測(cè)模型按照檢測(cè)過(guò)程可以大致分為單階段檢測(cè)器和兩階段檢測(cè)器,其中單階段檢測(cè)器按照是否預(yù)設(shè)錨框又可以分為有錨和無(wú)錨兩類。

        目標(biāo)檢測(cè)模型通常由三個(gè)部分組成:提取語(yǔ)義特征的骨干網(wǎng)絡(luò)、融合多尺度信息的頸部網(wǎng)絡(luò)以及輸出分類和定位信息的檢測(cè)頭[18]。此外相較于單階段檢測(cè)器而言,兩階段檢測(cè)器還包含一個(gè)用于生成預(yù)選框的RPN。雖然RPN使得檢測(cè)效果更好,但也帶來(lái)了更大的計(jì)算開(kāi)銷和延時(shí)。

        單階段檢測(cè)器中的錨框代替RPN生成定位區(qū)域的建議,然而錨框需要事先手工設(shè)定,靈活性不強(qiáng)。無(wú)錨框單階段檢測(cè)器應(yīng)運(yùn)而生。無(wú)錨框檢測(cè)器能夠直接預(yù)測(cè)目標(biāo)的類別和位置,同時(shí)擁有更小的計(jì)算開(kāi)銷和延時(shí)。

        雖然這三類檢測(cè)器的網(wǎng)絡(luò)結(jié)構(gòu)各不相同,但本文提出的知識(shí)蒸餾算法可以在上述三種檢測(cè)器上全部適用。

        1.2知識(shí)蒸餾

        知識(shí)蒸餾是指利用大模型(即教師模型)的軟標(biāo)簽輸出或中間特征中的信息來(lái)更好地訓(xùn)練小模型(即學(xué)生模型),在前向推理時(shí)不需要任何額外成本即可實(shí)現(xiàn)良好性能的方法。知識(shí)蒸餾的優(yōu)點(diǎn)是:在蒸餾前后學(xué)生網(wǎng)絡(luò)的結(jié)構(gòu)不會(huì)發(fā)生改變。此外,知識(shí)蒸餾和剪枝等方法正交,可以結(jié)合使用進(jìn)一步壓縮模型。

        當(dāng)前的目標(biāo)檢測(cè)知識(shí)蒸餾主要都在解決如何選擇蒸餾區(qū)域的問(wèn)題,卻忽略了蒸餾對(duì)象的選擇。如:FGFI[13]和TADF[14]采用不同的掩碼遮罩提煉蒸餾的重點(diǎn)區(qū)域;DeFeat[15]和FGD[17]將前背景分別蒸餾,以減輕負(fù)樣本的噪聲影響。C2KD[19]利用層映射策略來(lái)決定蒸餾對(duì)象,DG-DAFL[20]方法利用教師模型中的先驗(yàn)信息優(yōu)化學(xué)生生成器。

        然而,上述算法選擇的蒸餾對(duì)象均為教師網(wǎng)絡(luò)的對(duì)應(yīng)層。Chen等人[8]首先引導(dǎo)學(xué)生去學(xué)習(xí)教師中的多層次信息,得到了較好的蒸餾結(jié)果。本文提出的基于知識(shí)回顧解耦的目標(biāo)檢測(cè)蒸餾算法在知識(shí)回顧的基礎(chǔ)上增加了特征融合模塊和特征解耦機(jī)制,在融合不同層的特征時(shí),加強(qiáng)了空間和通道維度上的表達(dá),使得蒸餾效果更好。

        2基于知識(shí)回顧解耦的目標(biāo)檢測(cè)蒸餾方法

        為了充分利用不同階段的知識(shí),本文設(shè)計(jì)的基于知識(shí)回顧解耦的目標(biāo)檢測(cè)蒸餾方法主要由知識(shí)回顧和特征解耦兩個(gè)部分組成。知識(shí)回顧階段,讓學(xué)生模型同時(shí)模仿教師模型的對(duì)應(yīng)層特征和低層特征,充分利用不同階段的特征中蘊(yùn)涵的豐富語(yǔ)義信息。同時(shí)為了簡(jiǎn)化計(jì)算,本文利用特征融合模塊對(duì)齊不同階段提取出的特征,并加強(qiáng)其在空間和通道維度上的表達(dá)。特征解耦階段,將融合后的特征解耦為前景區(qū)域和背景區(qū)域分別蒸餾,以解決蒸餾時(shí)前背景不平衡的問(wèn)題。

        2.1知識(shí)回顧

        為了能夠同時(shí)適用于各種類型的目標(biāo)檢測(cè)模型,本文提出的蒸餾方法主要利用頸部網(wǎng)絡(luò)中包含的多尺度特征圖。這些特征圖中包含著不同層次的語(yǔ)義信息,從其中提取到的暗知識(shí)能夠有效提高學(xué)生模型的表現(xiàn)。一般來(lái)講,單層的特征蒸餾可以形式化地表述為

        其中:C、H、W分別表示特征圖的通道數(shù)和高寬;FT和FS分別表示教師和學(xué)生模型的特征圖;f(·)表示使學(xué)生和教師特征在維度上對(duì)齊的自適應(yīng)層。傳統(tǒng)的知識(shí)蒸餾往往只在對(duì)應(yīng)層間進(jìn)行蒸餾,而忽略了不同層間的知識(shí)轉(zhuǎn)移對(duì)蒸餾效果帶來(lái)的提升。

        多層的特征蒸餾往往是在教師和學(xué)生模型中選取多個(gè)對(duì)應(yīng)層,分別計(jì)算蒸餾損失后相加:

        其中:M為提取的層數(shù)。

        為了充分利用教師的低層特征,本文提出基于知識(shí)回顧解耦的目標(biāo)檢測(cè)蒸餾方法,讓學(xué)生的高層特征向教師的低層特征學(xué)習(xí)。經(jīng)過(guò)知識(shí)回顧后,特征蒸餾的損失變?yōu)?/p>

        即高層的學(xué)生特征可以“看”到在它之前的所有教師特征。然而,這樣的操作帶來(lái)了巨大的計(jì)算開(kāi)銷。為了簡(jiǎn)便計(jì)算,本文提出featurefusemodule,通過(guò)這一模塊將來(lái)自高層的特征與低層特征混合,使得學(xué)生的高層特征可以漸進(jìn)式地學(xué)習(xí)教師模型中的知識(shí)。與CBAM[21]方法和FGD[17]方法不同,本文提出的featurefusemodule首先分別提取空間和通道注意力,隨后將兩者融合。

        featurefusemodule由特征融合、提取空間注意力和提取通道注意力三部分組成,如圖4所示。

        a)特征融合部分。這部分首先將上一個(gè)featurefusemo-dule的輸出調(diào)整到與低層特征圖相同的形狀,隨后將兩者連接在一起,經(jīng)過(guò)一個(gè)卷積將連接后的特征圖調(diào)整到與底層特征圖相同的尺寸,便于后續(xù)的蒸餾操作。

        b)提取空間注意力。featurefusemodule中在提取空間注意力圖時(shí),為了加強(qiáng)不同階段的特征之間的空間關(guān)聯(lián),增強(qiáng)注意力圖對(duì)空間信息的表達(dá)。本文采用了類似DANet[22]中提取位置信息的結(jié)構(gòu)。首先將降維后的特征圖A分別通過(guò)三個(gè)卷積核,得到三個(gè)特征圖B、C、D,并將這三個(gè)特征圖均降維為C×N,其中N=H×W,H、W分別為特征圖的高、寬。隨后,將B的轉(zhuǎn)置與C進(jìn)行矩陣乘積和softmax操作,生成了一個(gè)用于表達(dá)特征圖中任意兩點(diǎn)之間的空間關(guān)聯(lián)強(qiáng)度矩陣S:

        3實(shí)驗(yàn)結(jié)果與分析

        3.1數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        實(shí)驗(yàn)數(shù)據(jù)集選取COCO2017數(shù)據(jù)集[24]和FLIRADAS紅外數(shù)據(jù)集[25]。其中MSCOCO數(shù)據(jù)集是一個(gè)有超過(guò)350000張圖像(包含220000張有標(biāo)注的圖像)的大規(guī)模數(shù)據(jù)集。數(shù)據(jù)集中包含行人、車等80個(gè)目標(biāo)類別,共150萬(wàn)個(gè)目標(biāo)。本文使用120000張圖像進(jìn)行訓(xùn)練,5000張圖像進(jìn)行測(cè)試。FLIR數(shù)據(jù)集共包含10228張紅外圖像,其中訓(xùn)練集8862張,測(cè)試集1366張,均由視頻采樣獲得。該數(shù)據(jù)集使用COCO格式進(jìn)行標(biāo)注,共有四類目標(biāo),分別是行人、自行車、小型汽車和狗。

        本文實(shí)驗(yàn)選取mAP為統(tǒng)一評(píng)價(jià)指標(biāo)。mAP表示各類別AP(averageprecision)的平均值。

        3.2實(shí)驗(yàn)環(huán)境和設(shè)置

        實(shí)驗(yàn)在Ubuntu18.04操作系統(tǒng)上進(jìn)行,配置兩塊NVIDIAGTX2080Ti,CUDA10.2,cuDNN7.6.5,采用的深度學(xué)習(xí)框架為PyTorch1.9.0。實(shí)驗(yàn)基于目標(biāo)檢測(cè)工具箱mmdetection[26]。為了證明本文方法的通用性,實(shí)驗(yàn)選取了三種主流目標(biāo)檢測(cè)模型進(jìn)行實(shí)驗(yàn),包括有錨框一階段檢測(cè)模型RetinaNet[12]、無(wú)錨框一階段檢測(cè)模型FCOS[27]和兩階段檢測(cè)模型FasterR-CNN[28]。

        訓(xùn)練過(guò)程中,采用隨機(jī)梯度下降優(yōu)化,其參數(shù)使用mmdetection中的默認(rèn)設(shè)置,即momentum為0.9,weightdecay為0.0001。每個(gè)學(xué)生模型均訓(xùn)練24個(gè)epoch,這在mmdetection中被稱為2×schedule。

        3.3實(shí)驗(yàn)結(jié)果

        為了驗(yàn)證RDKD的有效性,本文首先在RetinaNet[12]、FasterR-CNN[28]和FCOS[27]上進(jìn)行了實(shí)驗(yàn),并于當(dāng)前主流的五種目標(biāo)檢測(cè)知識(shí)蒸餾方法進(jìn)行了對(duì)比,如FGFI[13]、GID[16]、FKD[29]、RMFPI[30]、FGD[17]等。由于FGFI和FKD只適用于有錨框檢測(cè)算法,故只在RetinaNet上與其進(jìn)行對(duì)比。實(shí)驗(yàn)中,RetinaNet和FCOS的學(xué)生模型的骨干網(wǎng)絡(luò)均為ResNet50,教師模型的骨干網(wǎng)絡(luò)均為ResNet101,實(shí)驗(yàn)結(jié)果如表1所示。其中S和T分別表示學(xué)生和教師模型。

        從表1結(jié)果可以看出,本文方法在不同類型的目標(biāo)檢測(cè)模型上均表現(xiàn)良好,識(shí)別準(zhǔn)確率均得到一定提高。例如,經(jīng)過(guò)本文方法蒸餾后,RetinaNet_ResNet50、FasterR-CNN_ResNet50和FCOS_ResNet50的mAP分別提高了2.4%、3.6%和2.3%,超越了當(dāng)前SOAT的幾種蒸餾方法。這表明,知識(shí)回顧機(jī)制是有效的,同時(shí)利用教師的多層特征引導(dǎo)學(xué)生單層特征的學(xué)習(xí)能夠更加完全地將教師的知識(shí)傳遞給學(xué)生。而FGD等方法都只在對(duì)應(yīng)層間進(jìn)行蒸餾,這使得老師的知識(shí)無(wú)法完全地傳遞給學(xué)生模型。

        RetinaNet_ResNet50和FCOS_ResNet50經(jīng)過(guò)蒸餾提升的mAP比FasterR-CNN_ResNet50的要低。這和本文的常識(shí)也是相符的,當(dāng)學(xué)生表現(xiàn)已經(jīng)足夠好時(shí),教師對(duì)學(xué)生的提升作用是有限的。

        為了驗(yàn)證上述生活常識(shí)是否同樣適用于知識(shí)蒸餾,本文用不同的教師模型對(duì)同一個(gè)學(xué)生模型進(jìn)行蒸餾。以RetinaNet和FCOS作為師生模型,分別用ResNext101和ResNet101作為教師模型的骨干網(wǎng)絡(luò),用ResNet50作為學(xué)生模型的骨干網(wǎng)絡(luò)進(jìn)行了實(shí)驗(yàn),結(jié)果如圖5所示。

        從圖5可以看出,當(dāng)教師模型的骨干網(wǎng)絡(luò)由ResNet101變?yōu)镽esNext101時(shí),RetinaNet蒸餾后的mAP僅僅增加了0.4%,而FCOS模型蒸餾后的mAP不升反降了。這說(shuō)明更好的教師模型不一定能教出更好的學(xué)生模型。也說(shuō)明由于學(xué)生模型本身已具備足夠的特征提取和表達(dá)的能力,在這種情況下,再加入教師模型的監(jiān)督會(huì)導(dǎo)致學(xué)生模型的過(guò)擬合。

        為了更加直觀地展現(xiàn)蒸餾的效果,本文在COCO測(cè)試集中隨機(jī)抽取了兩張圖片,分別送入蒸餾前后的檢測(cè)器中,并將蒸餾前后模型的檢測(cè)結(jié)果作一對(duì)比,對(duì)比圖如圖6所示。

        圖6中,不同列分別表示以ResNet-50為骨干網(wǎng)絡(luò)的FasterR-CNN、FCOS和RetinaNet這三個(gè)目標(biāo)檢測(cè)模型的檢測(cè)結(jié)果,上方的檢測(cè)圖代表蒸餾前的結(jié)果,下方的檢測(cè)圖代表蒸餾后的結(jié)果??梢悦黠@看出,蒸餾前的檢測(cè)器存在一定的檢測(cè)錯(cuò)誤,如FasterR-CNN將馬腿誤識(shí)別為人、將人腿誤識(shí)別棒球棍,RetinaNet也存在類似的情況,而在蒸餾后的檢測(cè)器中,誤識(shí)別均消失了。與此同時(shí),第二張測(cè)試圖中上方只有一些邊緣的人也被檢測(cè)出來(lái),這表明檢測(cè)器的性能得到了增強(qiáng)。此外,無(wú)論是哪個(gè)檢測(cè)器,其每一個(gè)檢測(cè)框的置信度均得到了提升,且檢測(cè)框更加貼近目標(biāo)邊緣,也即檢測(cè)器的分類與定位都比蒸餾前更加精準(zhǔn)。這表示本文提出的RDKD方法是行之有效的。

        3.4消融實(shí)驗(yàn)

        為了研究知識(shí)回顧和特征解耦各自的有效性,本節(jié)在FCOS模型[27]上進(jìn)行消融實(shí)驗(yàn)。實(shí)驗(yàn)選取FCOS_ResNet101為教師模型,F(xiàn)COS_ResNet50為學(xué)生模型,數(shù)據(jù)集為FLIR,實(shí)驗(yàn)結(jié)果如表2所示。

        從表2可以看出,知識(shí)回顧機(jī)制對(duì)蒸餾的提升效果最明顯,給FCOS模型帶來(lái)了5.0%的增益,遠(yuǎn)大于單獨(dú)使用特征解耦時(shí)產(chǎn)生的2.7%增益。此外,在使用知識(shí)回顧機(jī)制的基礎(chǔ)上,特征融合模塊和特征解耦分別帶來(lái)了0.3%和0.4%的增益,這表明給蒸餾時(shí)起主要作用的是知識(shí)回顧機(jī)制,說(shuō)明采取“溫故知新”的方法能夠?qū)⒔處熌P椭刑N(yùn)涵的豐富暗知識(shí)蒸餾出來(lái),并有效轉(zhuǎn)移到學(xué)生模型中。

        綜上所述,相較于普通特征蒸餾而言,本文提出的RDKD方法能夠?qū)⒔處熌P椭懈嗟陌抵R(shí)轉(zhuǎn)移到學(xué)生模型中。

        為了進(jìn)一步比較知識(shí)回顧這一機(jī)制和普通的特征蒸餾的優(yōu)劣,本文將兩者進(jìn)行了比較,結(jié)果如表3所示。

        從表3可以看出,在不添加任何技巧的前提下,使用傳統(tǒng)特征蒸餾方法能夠?qū)W(xué)生模型的mAP提高2.1%,而知識(shí)回顧機(jī)制能夠?qū)W(xué)生模型的mAP提高5.0%,甚至能使學(xué)生模型的表現(xiàn)超越教師模型。這說(shuō)明,知識(shí)回顧的蒸餾機(jī)制遠(yuǎn)勝于傳統(tǒng)的特征蒸餾。傳統(tǒng)的特征蒸餾只在對(duì)應(yīng)層間進(jìn)行,而忽略了低層,也即學(xué)生模型曾經(jīng)學(xué)習(xí)過(guò)的層對(duì)學(xué)生模型當(dāng)前階段學(xué)習(xí)的指導(dǎo)作用,從而降低了蒸餾的效果。

        3.5在FLIR數(shù)據(jù)集上的擴(kuò)展實(shí)驗(yàn)

        為了證明本文方法對(duì)紅外數(shù)據(jù)集也同樣有效,本文在FLIR數(shù)據(jù)集上分別對(duì)RetinaNet、FCOS和FasterR-CNN進(jìn)行蒸餾。與3.2節(jié)中在COCO數(shù)據(jù)集上的實(shí)驗(yàn)保持相同的設(shè)置,如表4所示。

        從表4可以看出,本文提出的蒸餾方法對(duì)紅外數(shù)據(jù)集也同樣有效。經(jīng)過(guò)蒸餾,以ResNet50為骨干網(wǎng)絡(luò)的RetinaNet、FCOS和FasterR-CNN在FLIR數(shù)據(jù)集上分別達(dá)到了38.8%、37.2%和51.3%,分別獲得了3.4%、5.7%和4.1%的增益。這說(shuō)明本文方法不僅能夠在各階段檢測(cè)器上適用,而且可同時(shí)適用于在可見(jiàn)光和紅外場(chǎng)景。

        4結(jié)束語(yǔ)

        本文指出教師的底層特征對(duì)學(xué)生的高層特征同樣具有指導(dǎo)作用,并基于此提出了基于知識(shí)回顧解耦的目標(biāo)檢測(cè)蒸餾方法。首先利用知識(shí)回顧機(jī)制,將教師模型中不同階段特征加入蒸餾過(guò)程,同時(shí)利用featurefusemodule,融合不同階段的特征并在空間和通道兩個(gè)維度上加強(qiáng)特征表達(dá),加強(qiáng)特征表達(dá),從而使得學(xué)生的高層特征可以“看”在它之前的所有階段的教師模型的特征。隨后利用二值掩碼將加強(qiáng)后的特征分割為前景和背景,并分別蒸餾,以消除目標(biāo)檢測(cè)中前背景不平衡對(duì)知識(shí)蒸餾帶來(lái)的影響。對(duì)比實(shí)驗(yàn)表明,本文提出的RDKD方法簡(jiǎn)單且有效,能夠適用于各種不同的目標(biāo)檢測(cè)模型,包括單階段有錨框、單階段無(wú)錨框和兩階段檢測(cè)模型。本文方法說(shuō)明,基于知識(shí)回顧解耦的目標(biāo)檢測(cè)蒸餾可以有效將教師模型中蘊(yùn)涵的暗知識(shí)轉(zhuǎn)移給學(xué)生模型,提升學(xué)生模型的表現(xiàn)。知識(shí)回顧是未來(lái)知識(shí)蒸餾發(fā)展的新方向。下一步將研究如何將教師模型中檢測(cè)頭包含的知識(shí)轉(zhuǎn)移給學(xué)生模型,并深入分析檢測(cè)頭對(duì)蒸餾的影響。

        參考文獻(xiàn):

        [1]KrizhevskyA,SutskeverI,GeoffreyH.ImageNetclassificationwithdeepconvolutionalneuralnetworks[J].AdvancesinNeuralInformationProcessingSystems,2012,25:1097-1105.

        [2]HowardA,SandlerM,ChuG,etal.SearchingforMobileNetV3[C]//ProcofIEEE/CVFInternationalConferenceonComputerVision.Piscataway,NJ:IEEEPress,2019:1314-1324.

        [3]GeoffreyH,OriolV,JeffD.Distillingtheknowledgeinaneuralnetwork[EB/OL].(2015-03-09).https://arxiv.org/abs/1503.02531.

        [4]RomeroA,BallasN,KahouSE,etal.FitNets:hintsforthindeepnets[EB/OL].(2014-12-19).https://arxiv.org/abs/1412.6550.

        [5]ZhengZhaohui,YeRongguang,WangPing,etal.Localizationdistillationfordenseobjectdetection[EB/OL].(2021-02-14).https://arxiv.org/abs/2102.12252.

        [6]JiMingi,HeoB,ParkS.Show,attendanddistill:knowledgedistillationviaattention-basedfeaturematching[C]//Procofthe35thAAAIConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2021:7945-7952

        [7]ZagoruykoS,KomodakisN.Payingmoreattentiontoattention:improvingtheperformanceofconvolutionalneuralnetworksviaattentiontransfer[C]//Procofthe5thInternationalConferenceonLearningRepresentations.2017.

        [8]ChenPengguang,LiuShu,ZhaoHengshuang,etal.Distillingknow-ledgeviaknowledgereview[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2021:5008-5017.

        [9]ZhaoBorui,CuiQuan,SongRenjie,etal.Decoupledknowledgedistillation[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2022:11943-11952.

        [10]SongJie,ChenYing,YeJingwen,etal.Spot-adaptiveknowledgedistillation[J].IEEETransonImageProcessing,2022,31:3359-3370.

        [11]ChenGuobin,ChoiW,YuXiang,etal.Learningefficientobjectdetectionmodelswithknowledgedistillation[J].AdvancesinNeuralInformationProcessingSystem,2017,30:742-751.

        [12]LinT,GoyalP,GirshickRB,etal.Focallossfordenseobjectdetection[J].IEEETransonPatternAnalysisandMachineIntelligence,2020,42(2):318-327.

        [13]WangTao,YuanLi,ZhangXiaopeng,etal.Distillingobjectdetectorswithfine-grainedfeatureimitation[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2019:4933-4942.

        [14]SunRuoyu,TangFuhui,ZhangXiaopeng,etal.Distillingobjectdetectorswithtaskadaptiveregularization[EB/OL].(2020-06-23).https://arxiv.org/abs/2006.13108.

        [15]GuoJianyuan,HanKai,WangYunhe,etal.Distillingobjectdetectorsviadecoupledfeatures[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2021:2154-2164.

        [16]DaiXing,JiangZeren,WuZhao,etal.Generalinstancedistillationforobjectdetection[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2021:7842-7851.

        [17]YangZhendong,LiZhe,JiangXiaohu,etal.Focalandglobalknow-ledgedistillationfordetectors[C]//ProcofIEEE/CVFConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2022:4633-4642.

        [18]BochkovskiyA,WangCY,LiaoHYM.YOLOv4:optimalspeedandaccuracyofobjectdetection[EB/OL].(2020-04-23).https://arxiv.org/abs/2004.10934.

        [19]趙雅,馮尊磊,王慧瓊,等.針對(duì)唇語(yǔ)識(shí)別的上下文相關(guān)性蒸餾方法[J/OL].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào).[2022-10-11].http://kns.cnki.net/kcms/detail/11.2925.TP.20220926.1341.008.html.(ZhaoYa,F(xiàn)engZunlei,WangHuiqiong,etal.Contextcorrelationdistillationforlipreading[J/OL].JournalofComputer-AidedDesignamp;ComputerGraphics.[2022-10-11].http://kns.cnki.net/kcms/detail/11.2925.TP.20220926.1341.008.html.)

        [20]張晶,鞠佳良,任永功.基于雙生成器網(wǎng)絡(luò)的Data-Free知識(shí)蒸餾[J/OL].計(jì)算機(jī)研究與發(fā)展.[2022-10-11].http://kns.cnki.net/kcms/detail/11.1777.TP.20220819.0919.004.html.(ZhangJing,JuJialiang,RenYonggong.Double-generatorsnetworkforData-Freeknowledgedistillation[J/OL].JournalofComputerResearchandDevelopment.[2022-10-11].http://kns.cnki.net/kcms/detail/11.1777.TP.20220819.0919.004.html.)

        [21]WooS,ParkJ,LeeJY,etal.CBAM:convolutionalblockattentionmodule[C]//Procofthe15thEuropeanConference.Berlin:Sprin-ger,2018:3-19.

        [22]FuJun,LiuJing,TianHaijie,etal.Dualattentionnetworkforscenesegmentation[C]//ProcofIEEEConferenceonComputerVisionandPatternRecognition.Piscataway,NJ:IEEEPress,2019:3146-3154.

        [23]HeKaiming,ZhangXiangyu,RenShaoqing,etal.Deepresiduallear-ningforimagerecognition[C]//ProcofIEEEConferenceonCompu-terVisionandPatternRecognition.WashingtonDC:IEEEComputerSociety,2016:770-778.

        [24]LinTY,MaireM,BelongieS,etal.MicrosoftCOCO:commonobjectsincontext[EB/OL].(2021-02-14).https://arxiv.org/abs/2102.12252.

        [25]GroupFA.Flirthermaldatasetforalgorithmtraining[EB/OL].(2018).https://www.flir.in/oem/adas/adas-dataset-form/.

        [26]ChenKai,WangJiaqi,PangJiangmiao,etal.MMDetection:openMMLabdetectiontoolboxandbenchmark[EB/OL].(2019-06-17).https://arxiv.org/abs/1906.07155.

        [27]TianZhi,ShenChunhua,ChenHao,etal.FCOS:fullyconvolutionalone-stageobjectdetection[C]//ProcofIEEE/CVFInternationalConferenceonComputerVision.Piscataway,NJ:IEEEPress,2019:9626-9635.

        [28]RenShaoqing,HeKaiming,RossBG,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[C]//AnnualConferenceonNeuralInformationProcessingSystems.2015:91-99.

        [29]ZhangLinfeng,MaKaisheng.Improveobjectdetectionwithfeature-basedknowledgedistillation:towardsaccurateandefficientdetectors[C]//Procofthe9thInternationalConferenceonLearningRepresentations.2021.

        [30]LiGang,LiXiang,WangYujie.Knowledgedistillationforobjectdetectionviarankmimickingandprediction-guidedfeatureimitation[C]//Procofthe36thAAAIConferenceonArtificialIntelligence.PaloAlto,CA:AAAIPress,2022:1306-1313.

        99热这里只有精品国产66| 国产精品久久久久高潮| 野外少妇愉情中文字幕| 精品免费福利视频| 日本一区二区高清视频在线播放| 蜜臀av一区二区三区久久| 国产超碰人人做人人爽av大片| 成年女人毛片免费视频| www久久久888| 男女搞事在线观看视频| 亚洲成av人的天堂在线观看| 自拍偷自拍亚洲精品播放| 久久国产精品男人的天堂av| 人妻少妇精品视频一区二区三| 久久久久久亚洲av成人无码国产| 日韩AV不卡一区二区三区无码| 亚洲免费视频一区二区三区 | 欧美a级情欲片在线观看免费| 麻豆AV免费网站| 国产高清不卡在线视频| 久久久99精品成人片| 色伦专区97中文字幕| 国产亚洲欧美日韩国产片| 午夜蜜桃视频在线观看| 东京热久久综合久久88| 日韩欧美亚洲综合久久影院d3| 日本一区二区在线播放观看| 免费在线观看av不卡网站| 一区二区三区在线 | 欧| 久久精品国产亚洲综合色| 亚洲不卡av二区三区四区| 含紧一点h边做边走动免费视频| 亚洲色偷偷色噜噜狠狠99| 久久精品国产亚洲av蜜桃av| 男女无遮挡高清性视频| 久久久无码中文字幕久...| 日韩亚洲国产av自拍| 亚洲三级中文字幕乱码| 国产人与zoxxxx另类| 国产精品青草视频免费播放| 一区二区三区高清视频在线|