亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多模態(tài)跨級(jí)特征知識(shí)轉(zhuǎn)移下音頻目標(biāo)檢測(cè)網(wǎng)絡(luò)

        2024-02-29 12:02:06劉詩蓓
        光學(xué)精密工程 2024年2期
        關(guān)鍵詞:模態(tài)特征融合

        劉詩蓓, 陳 瑩

        (江南大學(xué) 輕工過程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122)

        1 引 言

        目標(biāo)檢測(cè)是計(jì)算機(jī)視覺領(lǐng)域中的一項(xiàng)重要任務(wù),其任務(wù)是從圖像中找到目標(biāo)物體,并判斷該物體的類別和位置,其在人臉識(shí)別、自動(dòng)駕駛、智能交通等方面取得了廣泛的應(yīng)用。近年來,目標(biāo)檢測(cè)取得很多突破,但仍面臨許多挑戰(zhàn),例如光線不足,陰雨天、目標(biāo)遮擋等,面對(duì)上述情況,常見的目標(biāo)檢測(cè)網(wǎng)絡(luò)往往難以正確檢測(cè)出目標(biāo)物體的位置,這是由于它們大多依賴RGB 圖像進(jìn)行目標(biāo)檢測(cè),而這類圖像對(duì)光照和天氣的變化非常敏感。而聲音作為物體的固有屬性之一,包含了很多有價(jià)值的信息,人類可以通過對(duì)聲音的感知來識(shí)別物體的類別和所在的位置。當(dāng)視覺信息受限制時(shí),聲音所包含的信息對(duì)于目標(biāo)檢測(cè)能起到重要作用。

        對(duì)于聲音事件的定位和檢測(cè)的實(shí)現(xiàn),可使用多通道聲音麥克風(fēng)陣列,利用麥克風(fēng)之間的信號(hào)音量差和到達(dá)時(shí)間差來推斷聲音發(fā)射對(duì)象相對(duì)于麥克風(fēng)的位置[1],而僅使用聲音作為輸入來進(jìn)行目標(biāo)定位的訓(xùn)練不僅魯棒性低,且需要大量的勞動(dòng)密集型手工注釋。空間中的視聽一致性表明[2],一種模態(tài)的學(xué)習(xí)有望得到另一種模態(tài)在空間知識(shí)上的幫助,因此可以通過視聽遷移學(xué)習(xí)的方法,利用知識(shí)蒸餾來避免昂貴且耗時(shí)的標(biāo)記過程。Aytar 等人[3]設(shè)計(jì)了一個(gè)師生網(wǎng)絡(luò),通過預(yù)先訓(xùn)練的教師模型來訓(xùn)練學(xué)生音頻模型,并獲取在未標(biāo)記視頻上的偽標(biāo)簽。Afouras 等人[4]設(shè)計(jì)一個(gè)具有對(duì)比目標(biāo)的自我監(jiān)督框架,利用自監(jiān)督的標(biāo)簽和預(yù)測(cè)包圍盒來訓(xùn)練基于圖像的對(duì)象檢測(cè)器。Owens 等人[5]通過自監(jiān)督的方法,將環(huán)境聲音作為監(jiān)督信號(hào)來學(xué)習(xí)視覺表示。Gan 等人[6]通過轉(zhuǎn)移視覺教師中的知識(shí)訓(xùn)練立體聲網(wǎng)絡(luò),該模型以立體聲和包含相機(jī)姿態(tài)信息的元數(shù)據(jù)作為輸入實(shí)現(xiàn)視覺框架上的目標(biāo)檢測(cè)和跟蹤。Valverde 等人[7]在Gan 等人的基礎(chǔ)上提出了一種自監(jiān)督多模態(tài)蒸餾網(wǎng)絡(luò)(Multi-Modal Distillation Network,MM-DistillNet)框架,結(jié)合多個(gè)模態(tài),充分利用視覺和聲音間的互補(bǔ)性和相關(guān)性,采用知識(shí)蒸餾的方式訓(xùn)練以音頻為輸入的學(xué)生網(wǎng)絡(luò)。

        中間層特征的使用能對(duì)知識(shí)蒸餾起到積極作用,但僅通過教師和學(xué)生同級(jí)特征間的知識(shí)提取,學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)能力有限,為更充分地實(shí)現(xiàn)視覺教師對(duì)音頻學(xué)生的知識(shí)轉(zhuǎn)移,本文在MMDistillNet[7]框架的基礎(chǔ)上改進(jìn),提出基于注意力融合的多教師跨級(jí)特征知識(shí)轉(zhuǎn)移(Multi-teacher Cross-level Feature Transfer,MCFT)損失,區(qū)別于多教師對(duì)齊(Multi-Teacher Alignment,MTA)損失[7]的同級(jí)特征損失計(jì)算,MCFT 損失采用自上而下不斷堆疊的融合方式,通過注意力融合的方法將學(xué)生網(wǎng)絡(luò)不同級(jí)別的中間層特征融合,得到跨級(jí)融合特征,去學(xué)習(xí)對(duì)應(yīng)的教師網(wǎng)絡(luò)淺層特征,提升學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)能力,同時(shí)加入了定位蒸餾(location distillation,LD)損失,進(jìn)一步提升網(wǎng)絡(luò)的定位能力。實(shí)驗(yàn)結(jié)果表明,本文提出的MCFT 損失在MAVD 數(shù)據(jù)集上,對(duì)于目標(biāo)類別的檢測(cè)精度和定位精度上均有提升。

        2 相關(guān)工作

        2.1 視聽定位

        在表示同一事件的視聽流中,音頻和視頻流之間在時(shí)間和頻率域上存在自然對(duì)應(yīng)關(guān)系[8-9],兩者之間的互補(bǔ)性和相關(guān)性對(duì)于在視覺場(chǎng)景中結(jié)合聲音實(shí)現(xiàn)目標(biāo)定位來說很有價(jià)值。因此,音頻和圖像的結(jié)合使得能夠使用多種模態(tài)來共同監(jiān)督彼此[10-11]。Tian 等人[12]等人提出了基于深度學(xué)習(xí)的方法來定位視頻中的發(fā)聲對(duì)象,Younes 等人[13]利用強(qiáng)化學(xué)習(xí)針對(duì)復(fù)雜設(shè)置的魯棒導(dǎo)航策略,實(shí)現(xiàn)在嘈雜和分散注意力的環(huán)境中對(duì)移動(dòng)聲源的捕捉。但這些方法的使用需要大量的有標(biāo)記數(shù)據(jù)。

        為實(shí)現(xiàn)在未標(biāo)記視頻中的定位聲源,Chen 等人[14]提出了一種自動(dòng)背景挖掘技術(shù),通過對(duì)比學(xué)習(xí)實(shí)現(xiàn)在圖片中定位聲源,Arandjelovic 等人[15]通過使用視聽通信作為目標(biāo)函數(shù)從未標(biāo)記的視頻中訓(xùn)練實(shí)現(xiàn)在圖像中的發(fā)聲對(duì)象的定位,Hu等人[16]以視聽在語義上的一致性作為監(jiān)督信號(hào),使用K-means 聚類方法實(shí)現(xiàn)聲源定位。以上方法大多使用視聽對(duì)雙流輸入,通過在輸入或特征級(jí)別進(jìn)行融合等方法來利用互補(bǔ)線索,這在具有挑戰(zhàn)性的感知條件下能極大地提高聲源定位和目標(biāo)檢測(cè)的性能,但各模態(tài)的融合也會(huì)使計(jì)算量增大。因此可以通過視聽遷移學(xué)習(xí)的方法,利用視頻中的圖像和音頻的自然共現(xiàn)線索的進(jìn)行知識(shí)轉(zhuǎn)移,不僅避免了勞動(dòng)密集型的手工標(biāo)記,且在測(cè)試過程中無需輸入多個(gè)模態(tài)并進(jìn)行融合,減少了目標(biāo)檢測(cè)過程的計(jì)算量和存儲(chǔ)損耗。

        2.2 基于中間層的知識(shí)蒸餾

        知識(shí)蒸餾的使用在提升學(xué)生網(wǎng)絡(luò)的性能同時(shí)不增加過多的訓(xùn)練開銷。很多研究表明,除了最小化教師和學(xué)生網(wǎng)絡(luò)最后一層分類器的輸出之間的KL 散度外[17],從主干網(wǎng)絡(luò)中提取中間層的特征表示對(duì)學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)有著積極作用[18-19]。

        在知識(shí)轉(zhuǎn)移上,Tian 等人[20]基于對(duì)比學(xué)習(xí)在深度網(wǎng)絡(luò)之間轉(zhuǎn)移知識(shí),Ahn 等人[21]提出了一種基于變分信息最大化的知識(shí)轉(zhuǎn)移框,通過學(xué)習(xí)最大化交互信息,估計(jì)激活在教師網(wǎng)絡(luò)中的分布,激發(fā)知識(shí)的轉(zhuǎn)移,Zagoruyko 等人[22]嘗試將教師網(wǎng)絡(luò)的注意力圖轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)中,結(jié)果表明注意力圖的使用能在知識(shí)轉(zhuǎn)移中起到積極作用。

        大多數(shù)知識(shí)蒸餾方法對(duì)于中間層特征的使用側(cè)重于同級(jí)別之間的特征轉(zhuǎn)換或損失函數(shù)計(jì)算,而Pengguang Chen 等人[23]的研究表明學(xué)生網(wǎng)絡(luò)的深層特征對(duì)于教師網(wǎng)絡(luò)的淺層特征有更強(qiáng)的學(xué)習(xí)能力。此外,除同時(shí)蒸餾所有中間層外,Aguilar G 等人[24]提出了自下而上逐步匹配或自下而上不斷堆疊的內(nèi)部蒸餾方式,用以更有效地提取教師的中間層知識(shí)。

        3 多模態(tài)目標(biāo)檢測(cè)網(wǎng)絡(luò)

        3.1 網(wǎng)絡(luò)整體結(jié)構(gòu)

        在表示同一事件同一時(shí)間下的音頻和圖像對(duì),在事件和頻率與上存在自然對(duì)應(yīng)關(guān)系,不同模態(tài)所包含不同信息具有互補(bǔ)性和相關(guān)性。如圖1 所示,RGB 圖像中包含了豐富的空間信息,在視覺上直觀地表明的車輛位置,深度圖像中包含了豐富的深度信息,直接反映了景物可見表面的幾何形狀,音頻數(shù)據(jù)包含了豐富的時(shí)域和頻域信息,通過頻譜圖來反映不同音頻信號(hào)頻率頻譜隨著時(shí)間而變化的視覺呈現(xiàn)。RGB 和深度圖像易受天氣等諸多因素干擾,而音頻數(shù)據(jù)雖然對(duì)天氣干擾有較強(qiáng)的魯棒性,但缺乏直觀的空間和深度信息,易受環(huán)境噪聲的影響,僅使用音頻進(jìn)行目標(biāo)檢測(cè)魯棒性低,此外由于音頻在空間上的低分辨率,使得手動(dòng)標(biāo)記音頻用于視覺域的目標(biāo)定位極其困難。

        圖1 RGB、深度和音頻信息示意圖Fig.1 Schematic of RGB, depth and audio information

        根據(jù)空間中的視聽一致性,一種模態(tài)的學(xué)習(xí)有望得到另一種模態(tài)在空間知識(shí)上的幫助,RGB和深度圖像中所包含的豐富的空間和深度信息,可以彌補(bǔ)音頻在空間和深度信息上的缺失,通過多模態(tài)融合的方式,雖然能在具有挑戰(zhàn)性的感知條件下極大地提高了目標(biāo)檢測(cè)的性能,但音頻存在的定位不準(zhǔn)確性會(huì)對(duì)融合結(jié)果帶來負(fù)面影響,且模態(tài)的增加也會(huì)使得人工標(biāo)注需求增加,此外,模態(tài)的融合也會(huì)使得測(cè)試階段的推理成本提高。由此考慮通過知識(shí)蒸餾的方式進(jìn)行知識(shí)轉(zhuǎn)移,使音頻在保留其不受視覺限制的特點(diǎn)下,學(xué)習(xí)RGB 和深度圖像的空間和深度特征,在測(cè)試階段僅通過音頻學(xué)生即可實(shí)現(xiàn)在視覺空間上對(duì)車輛位置的定位,大幅提升了推理速度,此外偽標(biāo)簽的使用也避免了勞動(dòng)密集型手工標(biāo)記。

        本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示,以RGB 圖像和深度圖像作為教師模態(tài),從8 通道單聲道麥克風(fēng)陣列獲取的音頻作為學(xué)生模態(tài),學(xué)生網(wǎng)絡(luò)以未標(biāo)記的數(shù)據(jù)作為輸入,從預(yù)先訓(xùn)練完成的教師網(wǎng)絡(luò)中提取知識(shí)。該網(wǎng)絡(luò)的目的是,學(xué)習(xí)從環(huán)境聲譜圖到邊界盒坐標(biāo)的映射,獲取車輛在視覺空間中的位置。在該網(wǎng)絡(luò)中,同一時(shí)間戳下的RGB 圖像、深度圖像和音頻分別輸入到教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)中,每個(gè)預(yù)先訓(xùn)練的特定模態(tài)教師通過預(yù)測(cè)包圍盒來指示車輛在各自模態(tài)空間中的位置。這些預(yù)測(cè)通過非極大抑制(Non Maximum Suppression,NMS)算法融合得到一個(gè)預(yù)測(cè),作為訓(xùn)練學(xué)生網(wǎng)絡(luò)的偽標(biāo)簽。

        圖2 多模態(tài)知識(shí)蒸餾目標(biāo)檢測(cè)網(wǎng)絡(luò)Fig.2 Multimodal knowledge distillation target detection network

        為更有效地利用圖像和音頻模態(tài)間的互補(bǔ)線索以及中間層特征包含的信息,利用多教師跨級(jí)特征知識(shí)轉(zhuǎn)移損失(MCFT)來對(duì)齊學(xué)生和教師的中間表征并進(jìn)行知識(shí)的提取。為獲取更多的定位信息,提高定位精度,加入了定位蒸餾損失(LD)。最后利用該網(wǎng)絡(luò)進(jìn)行車輛的目標(biāo)檢測(cè)。研究表明采用教師和學(xué)生使用完全相同的體系結(jié)構(gòu)可以提高學(xué)生網(wǎng)絡(luò)的性能[25]。由此,綜合考慮模型的性能和速度[7]選擇EfficientDet-D2[26]架構(gòu)作為教師和學(xué)生的網(wǎng)絡(luò)架構(gòu)。該架構(gòu)以EfficientNet-B2[27]作為主干網(wǎng)絡(luò),以分辨率為768×768 pixel 的圖像作為輸入,后接五個(gè)重復(fù)的雙向特征金字塔(BiFPN)進(jìn)行高效的多尺度特征融合,每個(gè)BiFPN 都有112 個(gè)通道,融合后的特征經(jīng)過一個(gè)回歸和分類器分支得到類別和位置的預(yù)測(cè)結(jié)果。

        其中兩個(gè)預(yù)先訓(xùn)練完成的教師模型由現(xiàn)有的已標(biāo)記完成的公開數(shù)據(jù)集預(yù)先進(jìn)行訓(xùn)練得到。RGB 教師模型由COCO[28],PASCAL VOC[29],ImageNet[30]中的車輛數(shù)據(jù)訓(xùn)練得到,深度教師將Argoverse[31]

        數(shù)據(jù)集中的3D 車輛包圍盒映射到2D 后訓(xùn)練得到。在最終的訓(xùn)練階段,則通過MAVD 數(shù)據(jù)集實(shí)現(xiàn)音頻學(xué)生的訓(xùn)練,由預(yù)先訓(xùn)練完成的兩個(gè)教師提供偽標(biāo)簽。

        3.2 多教師知識(shí)的提取

        為了將知識(shí)從視覺目標(biāo)檢測(cè)模型轉(zhuǎn)移到音頻模態(tài)中,本文使用了三種不同的損失函數(shù)來訓(xùn)練學(xué)生網(wǎng)絡(luò)。

        3.2.1 目標(biāo)檢測(cè)損失

        目標(biāo)檢測(cè)損失(Object Detection,OD),在網(wǎng)絡(luò)的最終預(yù)測(cè)時(shí)使用。兩個(gè)教師模型會(huì)輸出兩個(gè)不同的包圍盒位置的預(yù)測(cè)結(jié)果,通過NMS 算法合并后得到一個(gè)統(tǒng)一的預(yù)測(cè)結(jié)果作為學(xué)生網(wǎng)絡(luò)的偽標(biāo)簽。使用焦點(diǎn)損失函數(shù)(Focal Loss)來解決一階段目標(biāo)檢測(cè)場(chǎng)景中前景與背景類別在訓(xùn)練時(shí)極端的不平衡。焦點(diǎn)損失公式如式(1)所示:

        其中:pt表示預(yù)測(cè)概率,反應(yīng)與真實(shí)值類別的接近程度,α是分配給困難樣本的權(quán)重,用以平衡正負(fù)樣本的重要性,γ是聚焦參數(shù),用以平滑地調(diào)整簡單樣本的權(quán)重。在訓(xùn)練中,與文獻(xiàn)[7]相同,兩個(gè)參數(shù)設(shè)置為α=0.25,γ=2。

        為避免梯度爆炸,使用Smooth L1 作為定位損失,Smooth L1 損失公式如式(2)所示:

        其中,x為定位預(yù)測(cè)值和真實(shí)值的差值。

        兩者相加即為目標(biāo)檢測(cè)損失:

        3.2.2 多教師跨級(jí)特征知識(shí)轉(zhuǎn)移損失

        中間層特征包含很多分類和定位信息,利用中間層獲取教師模態(tài)中包含的互補(bǔ)線索對(duì)于學(xué)生網(wǎng)絡(luò)的學(xué)習(xí)有很大的作用。

        MTA 損失[7]采用計(jì)算同級(jí)特征之間的KL散度來實(shí)現(xiàn)互補(bǔ)線索的獲取,但同級(jí)特征之間學(xué)生的學(xué)習(xí)能力有限,當(dāng)學(xué)習(xí)到一定程度時(shí)無法再獲取更多的知識(shí)。這是由于同級(jí)的學(xué)生和教師之間存在著較大的知識(shí)差距,這好比小學(xué)學(xué)生和大學(xué)教授,在前期學(xué)生特征能從教師特征中學(xué)習(xí)到部分簡單的基礎(chǔ)知識(shí),但到后期,學(xué)生網(wǎng)絡(luò)無法理解教師特征中的抽象概念,難以繼續(xù)進(jìn)行學(xué)習(xí)。

        為解決這一問題,提出了多教師跨級(jí)特征知識(shí)轉(zhuǎn)移損失(MCFT),利用注意力機(jī)制,對(duì)學(xué)生的特征進(jìn)行跨級(jí)融合,由融合后的學(xué)生特征去學(xué)習(xí)教師的淺層特征,這相比于同級(jí)之間的學(xué)習(xí)更有效。

        學(xué)生網(wǎng)絡(luò)的特征由淺到深也是一種學(xué)習(xí)的過程,深層的學(xué)生特征所學(xué)到的知識(shí)更為抽象,因此相比于學(xué)生的淺層特征更易理解教師淺層特征中的抽象內(nèi)容。學(xué)生的由淺到深的特征就好比有著不同學(xué)習(xí)能力的學(xué)生,淺層特征側(cè)重具體知識(shí)的學(xué)習(xí),而深層特征注重于抽象知識(shí),因此學(xué)生網(wǎng)絡(luò)的淺層特征和深層特征共同學(xué)習(xí)教師網(wǎng)絡(luò)的淺層特征,比僅使用學(xué)生的深層特征更穩(wěn)定,學(xué)習(xí)的更全面更穩(wěn)定。圖3 給出了中間層跨級(jí)融合和未跨級(jí)的特征熱圖,其中紅色部位為高響應(yīng)區(qū)域(彩圖見期刊電子版),即網(wǎng)絡(luò)檢測(cè)的側(cè)重區(qū)域,可以看到未跨級(jí)特征的高響應(yīng)區(qū)域并不清晰,未能明確集中在目標(biāo)所在位置,而跨級(jí)融合后特征的高響應(yīng)區(qū)域則集中在檢測(cè)目標(biāo)上。這是由于跨級(jí)融合特征采用注意力融合的方式來融合淺層和深層網(wǎng)絡(luò),學(xué)生網(wǎng)絡(luò)不同層次的特征所包含的信息多樣,特征所注意的區(qū)域不同,通過注意力地圖可以更有效地聚合不同層次的特征,使得融合后特征能集中于檢測(cè)目標(biāo)位置。

        圖3 跨級(jí)融合和未跨級(jí)特征熱力圖Fig.3 Cross-level fusion and no cross-level feature heatmaps

        MCFT 損失主要作用于EfficientNet-B2 的p3,p4,p5 層,該三層特征的輸出分別為[batchsize,48,96,96]、[batchsize,120,48,48],[batchsize,352,24,24],該三層的輸出經(jīng)過五個(gè)重復(fù)的BiFPN 特征網(wǎng)絡(luò),最終得到五個(gè)通道數(shù)均為112大小分別為96×96,48×48,24×24,12×12,6×6 的不同的特征,這五個(gè)特征值由于經(jīng)過了多尺度的特征融合包含了更豐富的分類和定位信息。MCFT 損失的計(jì)算主要基于這五個(gè)特征值。如圖4 所示,學(xué)生網(wǎng)絡(luò)不同級(jí)別的特征,通過注意力融合模塊(Attention-attention Fusion Module,AFM)融合生成新的特征。該融合過程不是學(xué)生網(wǎng)絡(luò)的特征簡單的由淺層到深層的兩兩融合:1⊕2 →2⊕3 →3⊕4 →4,而是學(xué)生網(wǎng)絡(luò)的特征由深層到淺層,自上而下不斷堆疊融合的過程:4 →3⊕4 →2⊕3⊕4 →1⊕2⊕3⊕4,這樣的方式能更有效地利用學(xué)生的深層特征。

        圖4 基于注意力融合的跨級(jí)特征知識(shí)轉(zhuǎn)移損失Fig.4 Cross-level feature knowledge transfer loss based on attentional fusion

        融合后的學(xué)生特征和對(duì)應(yīng)的教師特征通過KL 散度計(jì)算模塊(KL Divergence Calculation Module,KLD),計(jì)算得到對(duì)應(yīng)的KL 散度值,將得到的KL 散度求和,即為最終MCFT 損失的值。

        注意力融合模塊(AFM)如圖5(a)所示,淺層特征經(jīng)過一個(gè)1×1 的卷積進(jìn)行特征提取,將深層特征進(jìn)行上采樣使其和第一層特征大小一致,兩者通道數(shù)均為112,將兩者進(jìn)行通道堆疊后,經(jīng)過一個(gè)1×1 的卷積,通道數(shù)由112×2 變?yōu)?×2,生成兩個(gè)相同大小的注意力圖,將兩個(gè)地圖分別與對(duì)應(yīng)特征相乘并相加后,得到融合特征,該特征最后經(jīng)過一個(gè)卷積核大小為3×3,填充為1 的卷積,最終得到融合后的學(xué)生特征。該過程可由公式(4)表示:

        圖5 注意力融合模塊(AFM)和KL 散度計(jì)算模塊(KLD)Fig.5 Attention fusion module(AFM) and the KL divergence calculation module(KLD)

        學(xué)生的融合特征是由網(wǎng)絡(luò)的頂部至底部,由上至下計(jì)算的。當(dāng)i=5 時(shí),即最深層特征,對(duì)其執(zhí)行一個(gè)1×1 卷積和一個(gè)卷積核大小為3×3,填充為1 的卷積即可。公式如式(5)所示:

        KL 散度計(jì)算模塊(KLD)如圖5(b)所示。在知識(shí)轉(zhuǎn)移過程中,將教師網(wǎng)絡(luò)的注意力圖轉(zhuǎn)移到學(xué)生網(wǎng)絡(luò)能起到積極作用[22],由此計(jì)算出融合后的學(xué)生特征和對(duì)應(yīng)的教師特征的注意力地圖,并標(biāo)準(zhǔn)化到[0,1]區(qū)間。學(xué)生和教師注意力地圖計(jì)算公式如式(6)所示:

        其中:fnor( ?)表示標(biāo)準(zhǔn)化函數(shù),表示對(duì)特征F的r次冪求其在通道維度的平均,并將其展平成一維,表示融合后的第i層學(xué)生特征,表示第j個(gè)模態(tài)的第i層的教師特征,其中i∈N,j∈M,N=[1,2,3,4,5],M=[1,2]。在訓(xùn)練中設(shè)置r=2。最后計(jì)算各教師模態(tài)下,各層學(xué)生注意力地圖和教師注意力地圖之間激活的分布的相似性,即KL 散度。

        最終MCFT 損失定義為:

        其中:KLdiv( ?)表示KL 散度的計(jì)算,S( ?,τ)表示溫度為τ的softmax 函數(shù),通過該函數(shù)獲取注意力地圖的分布。在訓(xùn)練中設(shè)置τ=9.0。

        3.2.3 定位蒸餾損失

        MCFT 損失在獲取豐富的分類信息時(shí)卻損失了一部分定位信息,導(dǎo)致車輛包圍盒的定位不夠準(zhǔn)確,因此加入定位蒸餾損失(LD),以彌補(bǔ)損失的定位信息。

        LD 損失通過將包圍盒的表示從四元表示轉(zhuǎn)換成概率分布的形式,讓學(xué)生的包圍盒分布去擬合教師的包圍盒分布。公式如式(8)所示:

        其中:RS表示學(xué)生預(yù)測(cè)包圍盒位置,表示第j個(gè)模態(tài)的教師預(yù)測(cè)包圍盒位置。S( ?,t)表示溫度為t的softmax 函數(shù),通過該函數(shù)將學(xué)生和教師的包圍盒位置轉(zhuǎn)換成概率的分布。在訓(xùn)練中設(shè)置t=10.0。

        3.2.4 損失函數(shù)

        最終的損失函數(shù)是對(duì)目標(biāo)檢測(cè)損失,多教師跨級(jí)特征知識(shí)轉(zhuǎn)移損失和定位蒸餾損失進(jìn)行加權(quán)和:

        其中,δ,β,λ三個(gè)值作為超參數(shù)用于平衡損失。

        4 實(shí)驗(yàn)結(jié)果和分析

        4.1 實(shí)驗(yàn)配置

        本文網(wǎng)絡(luò)在深度學(xué)習(xí)框架Pytorch 下完成,訓(xùn)練和測(cè)試所使用的環(huán)境為Ubuntu 18.04,CUDA11.0,Python3.6,硬件配置為兩張RTX 3090顯卡。

        在訓(xùn)練中,采用ReduceLRonPlateau 策略動(dòng)態(tài)更新學(xué)習(xí)率,最多訓(xùn)練50 個(gè)epoch,初始學(xué)習(xí)率設(shè)為0.000 1,權(quán)值衰減為0.000 5,動(dòng)量為0.9,批處理大小為8,采用Adam 優(yōu)化器。

        對(duì)于損失函數(shù)的計(jì)算,對(duì)各參數(shù)設(shè)置為:δ=1.0,β=0.005,λ=0.25,在該參數(shù)設(shè)置下,目標(biāo)檢測(cè)性能最優(yōu),具體分析見4.4 中的表4 和表5。

        對(duì)于輸入的圖像,取相同時(shí)間戳下的RGB和深度圖像作為教師網(wǎng)絡(luò)的輸入,RGB 和深度圖像的原始分辨率為1 920×650 pixel,將其調(diào)整為768×768 pixel 為作為EfficientDet-D2 架構(gòu)的輸入。

        對(duì)于輸入的音頻,如圖6 所示,以圖像時(shí)間戳為中心,提取該時(shí)間戳前0.5 s 和后0.5 s 的音頻片段,得到8 個(gè)時(shí)長為1 s 的單聲道麥克風(fēng)的環(huán)境聲音片段。將這8 個(gè)聲音片段通過短時(shí)傅里葉變換(STFT)來得到聲譜圖,綜合考慮頻域分辨率以及算計(jì)成本,選擇1 024 作為FFT 窗口的大小,由此生成8 個(gè)513×173 的聲譜圖,之后經(jīng)過80 個(gè)梅爾濾波器,在梅爾頻率尺度上重采樣得到8 個(gè)80×173 的梅爾頻譜圖,最后通過雙立方插值法,將8×80×173 的梅爾頻譜圖調(diào)整為8×768×768 pixel,調(diào)整后的頻譜圖矩陣的w/h對(duì)應(yīng)頻率和時(shí)間,以此作為學(xué)生網(wǎng)絡(luò)的輸入,對(duì)其卷積操作能提取頻譜圖的頻域特征。

        圖6 圖像和音頻的選取示意Fig.6 Selection diagram of image and audio

        4.2 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

        4.2.1 數(shù)據(jù)集

        本文使用公開的多模態(tài)視聽檢測(cè)(MAVD)數(shù)據(jù)集,該數(shù)據(jù)集記錄了高交通密度、高速公路行駛和多個(gè)交通燈等不同場(chǎng)景以及傳統(tǒng)城市駕駛、有軌電車附近和通過隧道等不同噪音狀況下的各模態(tài)數(shù)據(jù),并提供了靜止?fàn)顟B(tài)和行駛狀態(tài)下記錄數(shù)據(jù),用于訓(xùn)練和測(cè)試的數(shù)據(jù)集總共包含24 589 張白天靜態(tài)圖像、26 901 張夜間靜態(tài)圖像、26 357 張白天行駛圖像和35 436 張夜間行駛圖像,總計(jì)113 283 個(gè)同步多聲道音頻、RGB、深度圖和紅外圖。該數(shù)據(jù)集使用一個(gè)RGB 立體攝像機(jī)裝置、一個(gè)熱立體攝像機(jī)裝置和八陣列單聲道麥克風(fēng),音頻以1 通道Microsoft WAVE 格式記錄和存儲(chǔ),采樣率為44 100 Hz,所有數(shù)據(jù)都通過GPS 時(shí)鐘相互同步。由于該數(shù)據(jù)集是在實(shí)際環(huán)境中采集得到,存在一定的噪聲數(shù)據(jù),如圖7 所示,存在出現(xiàn)車輛不完整,車輛密集,小目標(biāo),復(fù)雜環(huán)境,光線昏暗,車輛模糊等情況,并不是理想化的數(shù)據(jù)集,因此對(duì)于實(shí)際應(yīng)用有較大的使用價(jià)值。

        圖7 MAVD 數(shù)據(jù)集示例圖像Fig.7 Example images of MAVD dataset

        數(shù)據(jù)集中的音頻文件以MP3 的格式存儲(chǔ),由于libraosa 讀取MP3 文件的速度較慢,因此需在訓(xùn)練前將MP3 格式的音頻文件轉(zhuǎn)換成聲譜圖,將其存儲(chǔ)成pkl 文件的形式,在訓(xùn)練和測(cè)試時(shí)將轉(zhuǎn)換得到的pkl 文件作為音頻的輸入,以縮短數(shù)據(jù)讀取時(shí)間。

        在數(shù)據(jù)分割上,本文采用60/20/20%的方式對(duì),分別對(duì)應(yīng)訓(xùn)練、驗(yàn)證和測(cè)試。

        4.2.2 評(píng)價(jià)指標(biāo)

        本文主要采用以下兩個(gè)評(píng)價(jià)指標(biāo)作為目標(biāo)檢測(cè)網(wǎng)絡(luò)性能的優(yōu)劣評(píng)判依據(jù):

        平均精度均值(mAP):指在每個(gè)類別的精度和召回率曲線下的插值區(qū)域的類別上的平均值。本文計(jì)算了IoU 為0.5 和0.75 時(shí)的mAP,以及IoU 閾值從0.5 到0.95 間隔為0.05 時(shí)的平均mAP。

        Gan[6]等人提出的中心距離:使用預(yù)測(cè)盒的中心點(diǎn)來測(cè)量x和y坐標(biāo)上的定位精度。中心距離的計(jì)算公式如式(10)所示:

        其中:(Px,Py)表示最近的預(yù)測(cè)包圍盒的中心點(diǎn),(Gx,Gy)表示真實(shí)包圍盒的中心點(diǎn),K表示真實(shí)包圍盒的總數(shù),w和h表示圖像的寬度和高度。

        4.3 定量結(jié)果

        為評(píng)估本文提出方法的有效性,在MAVD對(duì)算法進(jìn)行了評(píng)估,本文算法和基線網(wǎng)絡(luò)在不同教師模態(tài)下的比較結(jié)果在表1 中給出,其中粗體表示最優(yōu)結(jié)果,加下劃線表示次優(yōu)結(jié)果。可以看出本文方法在各IOU 值下的mAP 值均大于基線網(wǎng)絡(luò)。在單RGB 教師模態(tài)下,MCFT 損失相較于MTA 損失在IOU 值為平均、0.5 和0.75 的情況下mAP 值分別提升了6.12%,7.80%,6.78%,中心距離CDx和CDy分別降低了0.68和0.41。在單深度教師模態(tài)下,MCFT 損失相較于MTA 損失在IOU 值為平均、0.5 和0.75 的情況下mAP 值分別提升了7.76%,9.44%,7.95%,中心距離CDx和CDy分別降低了1.28和0.61。在RGB 和深度的雙教師模態(tài)下,本文方法在IOU 值為平均、0.5 和0.75 情況下mAP值分別為62.23%,82.63% 和61.49%,相較于MTA 損失分別有10.32%,6.71%和14.36%的提升,中心距離CDx和CDy分別降低了0.12 和0.06,說明本文方法在明顯提升目標(biāo)識(shí)別精度上的同時(shí),并未降低定位精度。

        表1 本文方法和基線網(wǎng)絡(luò)在不同教師模態(tài)下的結(jié)果比較Tab.1 Results comparison of the method and the baseline network under different faculty modes

        為評(píng)估本文方法的實(shí)時(shí)性,選取了Faster RCNN,SSD,Yolov3,Yolov5 這幾個(gè)經(jīng)典的目標(biāo)檢測(cè)網(wǎng)絡(luò)進(jìn)行了比較,利用每秒檢測(cè)幀數(shù)(frame per second,F(xiàn)PS)作為實(shí)時(shí)性評(píng)價(jià)指標(biāo),所有模型均在一張RTX 3090 顯卡上進(jìn)行,用隨機(jī)數(shù)的方式生成對(duì)應(yīng)大小的輸入數(shù)據(jù),每個(gè)網(wǎng)絡(luò)均經(jīng)過多次測(cè)試取其平均值,最終結(jié)果如表2 所示??梢钥吹奖疚姆椒ㄏ噍^于YOLOv3 和SSD 實(shí)時(shí)性較差,相較于Fast R-CNN,Yolov5-x 實(shí)時(shí)性較好。這是由于本文使用的網(wǎng)絡(luò)結(jié)構(gòu)為EfficientDet-D2,相較于以實(shí)時(shí)性為特點(diǎn)SSD 和YOLO 網(wǎng)絡(luò)性能較差,但在同樣以EfficientNet-B2 作為骨干網(wǎng)絡(luò)的情況下,本文方法的實(shí)時(shí)性較高。

        表2 本文方法與經(jīng)典目標(biāo)檢測(cè)網(wǎng)絡(luò)實(shí)時(shí)性比較Tab.2 This paper compares the method with classical object detection networks

        在檢測(cè)精度上EfficientDet 的表現(xiàn)更優(yōu)秀,在盡可能減少計(jì)算量的情況下仍有較高的精度,對(duì)于魯棒性較低的視聽定位任務(wù),EfficientDet 的高魯棒性和高準(zhǔn)確度更為合適。如圖8 所示,SSD在小目標(biāo)檢測(cè)上能力較弱,YOLO 在大目標(biāo)檢測(cè)上能力較弱,EfficientDet 網(wǎng)絡(luò)在檢測(cè)能力最為優(yōu)秀。此外,EfficientDet 的骨干網(wǎng)絡(luò)EfficientNet具有較好的特征提取能力,BiFPN 網(wǎng)絡(luò)能更有效地融合骨干網(wǎng)絡(luò)輸出的不同尺度的特征,對(duì)于知識(shí)蒸餾過程中對(duì)于中間層特征的使用更有價(jià)值。

        圖8 不同網(wǎng)絡(luò)架構(gòu)下目標(biāo)檢測(cè)能力比較Fig.8 Comparison of object detection capability under different network architecture

        4.4 消融實(shí)驗(yàn)

        為驗(yàn)證MCFT 損失和LD 損失的有效性,對(duì)該兩種損失進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表3 所示。使用了LD 損失后的M2 模型比未使用任何損失的M1 模型在mAP 值為平均、0.5 和0.75 時(shí)分別有3.28%,4.63%和4.83%的提升,在中心距離CDx 和CDy 上分別降低了0.18 和0.1,使用了MCFT 損失和LD 損失的M4 模型結(jié)果比僅使用MCFT 損失的M3 模型在中心距離CDx 和CDy上分別降低了0.03 和0.03,在mAP 值為0.5 和0.75 時(shí)分別提升了0.04%和0.11,證明LD 損失能提升目標(biāo)檢測(cè)的定位精度。使用了MCFT 損失的M3 模型比未使用任何損失的M1 模型在mAP 值為平均、0.5 和0.75 時(shí)分別有9.71%,10.18%和11.34%的提升,在中心距離CDx和CDy上分別降低了0.71 和0.43,證明MCFT 損失對(duì)于教師中間層知識(shí)提取的有效性。

        表3 兩種損失的消融研究Tab.3 Ablation studies for both losses

        為獲取更性能最優(yōu)的超參數(shù),分別對(duì)δ,β和λ三個(gè)超參弧數(shù)進(jìn)行了兩組消融實(shí)驗(yàn)。表4 給出了δ為1.0 時(shí),不同β設(shè)置下的網(wǎng)絡(luò)檢測(cè)精度,表5 給出了δ為1.0,β為0.005 時(shí),不同λ設(shè)置下的網(wǎng)絡(luò)檢測(cè)精度。如表4 所示,在僅使用MCFT損失的情況下,令δ=1.0,當(dāng)β=0.005 時(shí)模型mAP 值最高,且中心距離最小。如表5 所示,在加入LD 損失的情況下令δ=1.0,β=0.005,當(dāng)λ=0.25 時(shí)模型mAP 值最高,且中心距離最小。

        表4 損失函數(shù)中超參數(shù)δ 和β 的消融研究Tab.4 Ablation study of loss parameters δ and β

        表5 損失函數(shù)中超參數(shù)δ,β 和λ 的消融研究Tab.5 Ablation studies of loss parameters δ, β and λ

        因此在訓(xùn)練時(shí)令δ=1.0,β=0.005,λ=0.25,此時(shí)目標(biāo)檢測(cè)精度最優(yōu)。

        為驗(yàn)證不同融合方式以及不同損失函數(shù)計(jì)算方式對(duì)實(shí)驗(yàn)結(jié)果的影響,進(jìn)行如圖9 所示的消融實(shí)驗(yàn),分別針對(duì)是否跨級(jí),是否融合,融合方式以及損失函數(shù)計(jì)算方式進(jìn)行消融研究。融合方式包括兩兩融合和堆疊融合,損失函數(shù)計(jì)算方式包括KL 散度計(jì)算和L2 距離計(jì)算。

        圖9 不同融合方式示意圖Fig.9 Schematic diagram of different fusion modes

        圖9(a)的不跨級(jí)不融合為學(xué)生和教師網(wǎng)絡(luò)同級(jí)特征間的損失計(jì)算,圖9(b)的跨級(jí)融合為學(xué)生網(wǎng)絡(luò)的深層特征和教師網(wǎng)絡(luò)淺層特征間的損失計(jì)算,圖9(c)的跨級(jí)兩兩融合為學(xué)生網(wǎng)絡(luò)淺層特征和該淺層特征后一層的深層特征通過注意力融合得到的融合后特征與教師網(wǎng)絡(luò)的淺層特征間的損失計(jì)算,圖9(d)的跨級(jí)堆疊融合為學(xué)生網(wǎng)絡(luò)由深到淺不斷堆疊融合,淺層的學(xué)生網(wǎng)絡(luò)特征通過注意力融合的方式融合了該淺層前一層的融合后特征,由得到的融合后特征和教師網(wǎng)絡(luò)的淺層特征進(jìn)行損失計(jì)算。

        實(shí)驗(yàn)結(jié)果如表6 所示,結(jié)果表明,對(duì)于不同的損失計(jì)算方式,使用KL 散度得到的目標(biāo)檢測(cè)精度較使用L2 距離得到的精度高,中心距離也相較于使用L2 距離得到的更小,L2 距離通過計(jì)算學(xué)生和教師特征間的距離,拉近學(xué)生和教師在特征層上的相似度,而KL 散度通過計(jì)算學(xué)生和教師特征間概率分布的差異來擬合學(xué)生和教師的中間層,相較于單純的相似度計(jì)算,KL 散度能通過擬合學(xué)生和教師間注意力圖激活的分布來對(duì)齊并拉近不同模態(tài)的教師和學(xué)生網(wǎng)絡(luò)的特征,對(duì)于目標(biāo)間層精度的提升有著更積極的作用。

        表6 不同融合方式以及損失計(jì)算方式的消融研究Tab.6 Ablation studies with different fusion methods and loss calculation methods

        對(duì)于跨級(jí)特征實(shí)驗(yàn)結(jié)果的影響,可以看到使用跨級(jí)特征對(duì)于目標(biāo)檢測(cè)的精度有較大提升,但同時(shí)也會(huì)導(dǎo)致中心距離增大,說明跨級(jí)特征在提取更多的分類信息的同時(shí)會(huì)損失一部分定位信息。

        對(duì)于三種不同的融合方式,可以看到堆疊融合的目標(biāo)檢測(cè)精度最高,且中心距離最小,其次是兩兩融合,不融合的精度最低且中心距離最大,這說明學(xué)生淺層特征和深層特征融合后的特征相較于單純的學(xué)生深層特征能從教師特征中學(xué)到更多的分類和定位信息,而堆疊融合相較于簡單的兩兩融合能使學(xué)生的淺層特征融合更多的深層特征,其融合后特征的學(xué)習(xí)能力更為優(yōu)秀。

        4.5 定性評(píng)估

        LD 損失的加入,目的是提高定位精度。圖10 中分別顯示了無LD 損失和有LD 損失時(shí)的預(yù)測(cè)結(jié)果,其中紅色框?yàn)轭A(yù)測(cè)值綠色框?yàn)檎鎸?shí)值(彩圖見期刊電子版)。如圖10 所示,當(dāng)未加入LD 損失時(shí),預(yù)測(cè)車輛包圍框與真實(shí)值相比有較大的偏差,加入LD 損失后偏差變小,說明LD 損失起到了提升定位精度的作用。

        圖10 定性比較有無LDLoss 時(shí)車輛檢測(cè)能力Fig.10 Qualitative comparison of vehicle detection capability with or without LDLoss

        MTA 損失由于其僅作用在同級(jí)學(xué)生和教師的中間層特征中,對(duì)教師網(wǎng)絡(luò)的學(xué)習(xí)能力有限,由圖11 中MTA 損失的Loss 曲線可看出,MTA損失在下降到一定程度后損失大小趨于不變,說明學(xué)生網(wǎng)絡(luò)在學(xué)習(xí)到一定程度后難以繼續(xù)從教師網(wǎng)絡(luò)中獲取知識(shí),而MCFT 損失的Loss 曲線則處于不斷下降的過程,說明MCFT 損失對(duì)于教師知識(shí)的學(xué)習(xí)相較于MTA 損失更穩(wěn)定更持久更有效。

        圖11 MTALoss 和 MCFTLoss 的Loss 曲線Fig.11 Los curves for MTALoss and MCFTLoss

        圖12(彩圖見期刊電子版)中顯示了由RGB和深度兩個(gè)教師預(yù)測(cè)生成的偽標(biāo)簽(綠色框所示),基線網(wǎng)絡(luò)和本文方法的車輛預(yù)測(cè)結(jié)果(紅色框所示)。如圖12 第一列所示,RGB 和深度教師中都能檢測(cè)出該車輛,但在基線網(wǎng)絡(luò)中未能檢測(cè)出;第二列中RGB 教師檢測(cè)出三輛車,深度教師檢測(cè)出兩輛車,基線網(wǎng)絡(luò)僅測(cè)出一輛車;第三列中RGB 教師檢測(cè)出四輛車,深度教師檢測(cè)出兩輛車,而基線網(wǎng)絡(luò)未檢測(cè)出車輛;第四列中RGB教師檢測(cè)出五輛車,深度教師檢測(cè)出四輛車,而基線網(wǎng)絡(luò)僅檢測(cè)出兩輛車,而本文方法在四個(gè)場(chǎng)景中分別檢測(cè)出了一輛、三輛、四輛和五輛,且在車輛定位上也與偽標(biāo)簽并無過多的偏差,相較與基線網(wǎng)絡(luò),本文方法檢測(cè)出了更多的車輛,證明了MCFT 損失在教師中間層知識(shí)的提取上比MTA 損失更充分。

        圖12 定性比較基線網(wǎng)絡(luò)和本文方法的車輛檢測(cè)能力Fig.12 Qualitatively compares the vehicle detection capabilities of the baseline network and the method presented in this paper

        5 結(jié) 論

        本文提出了基于聲音定位的多模態(tài)跨級(jí)特征知識(shí)轉(zhuǎn)移知識(shí)蒸餾目標(biāo)檢測(cè)網(wǎng)絡(luò),通過知識(shí)蒸餾的方式令音頻網(wǎng)絡(luò)學(xué)習(xí)以RGB 和深度圖像作為輸入的教師網(wǎng)絡(luò)的知識(shí)。設(shè)計(jì)了基于注意力融合的多教師跨級(jí)特征對(duì)齊損失,通過注意力融合的方式,融合學(xué)生的深層和淺層特征以擁有更強(qiáng)的學(xué)習(xí)能力,從而實(shí)現(xiàn)更有效且穩(wěn)定的學(xué)習(xí)。加入定位蒸餾損失,用學(xué)生網(wǎng)絡(luò)的包圍盒分布去擬合教師網(wǎng)絡(luò)的包圍盒分布,以獲取更多的定位信息。在公開的MAVD 數(shù)據(jù)集中,在IOU 值為0.5,0.75 和平均情況下mAP 值分別為82.63%,61.49% 和62.23%,相較于基線網(wǎng)絡(luò)分別有6.71%,14.36%和10.32%的提升。

        猜你喜歡
        模態(tài)特征融合
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        國內(nèi)多模態(tài)教學(xué)研究回顧與展望
        基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
        由單個(gè)模態(tài)構(gòu)造對(duì)稱簡支梁的抗彎剛度
        亚洲人成网站久久久综合| 丰满少妇a级毛片野外| 少妇特黄a一区二区三区| 国模精品二区| 在线观看日韩精品视频网站| 国产老熟女精品一区二区| 亚洲熟妇久久精品| 无码h黄动漫在线播放网站| 日韩久久av电影| 国产精品亚洲二区在线| 性高朝久久久久久久3小时| 精品av天堂毛片久久久| 精品国产18禁久久久久久久| 给我播放的视频在线观看| 久久精品国产亚洲av蜜点| 鲁一鲁一鲁一鲁一曰综合网| 激情综合欧美| 玩弄极品少妇被弄到高潮| 扒开美女内裤舔出白水| 久久亚洲av无码西西人体| 午夜无码大尺度福利视频| 国产人妖一区二区在线| 日韩精品一区二区免费| 亚洲欧美乱日韩乱国产| 精品国产午夜福利在线观看| 青青青草国产熟女大香蕉| 亚洲第一区二区精品三区在线 | 国产精品久久久久久久久电影网| 玩弄放荡人妻少妇系列| 亚洲精品亚洲人成在线下载| 91亚洲精品久久久中文字幕| 在线观看国产精品自拍| 国产精品亚洲av高清二区| 亚洲中文字幕无码一久久区| 欧美色欧美亚洲另类二区不卡| 国产白浆精品一区二区三区| 色婷婷色丁香久久婷婷| 久久精品国产69国产精品亚洲| 日韩欧美在线观看成人| 国产夫妻精品自拍视频| 99在线精品视频在线观看|