亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于YOLOv5的小樣本目標(biāo)檢測(cè)模型

        2023-04-29 09:39:25侯玥王開宇金順福
        燕山大學(xué)學(xué)報(bào) 2023年1期
        關(guān)鍵詞:目標(biāo)檢測(cè)

        侯玥 王開宇 金順福

        摘 要:深度學(xué)習(xí)技術(shù)在目標(biāo)檢測(cè)領(lǐng)域取得了顯著的成果,但是相關(guān)模型在樣本量不足的條件下難以發(fā)揮作用,借助小樣本學(xué)習(xí)技術(shù)可以解決這一問(wèn)題。本文提出一種新的小樣本目標(biāo)檢測(cè)模型。首先,設(shè)計(jì)了一種特征學(xué)習(xí)器,由Swin Transformer模塊和PANET模塊組成,從查詢集中提取包含全局信息的多尺度元特征,以檢測(cè)新的類對(duì)象。其次,設(shè)計(jì)了一種權(quán)重調(diào)整模塊,將支持集轉(zhuǎn)換為一個(gè)具有類屬性的權(quán)重系數(shù),為檢測(cè)新的類對(duì)象調(diào)整元特征分布。最后在ImageNet-LOC 、PASCAL VOC和COCO三種數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)分析,結(jié)果表明本文提出的模型在平均精度、平均召回率指標(biāo)上相對(duì)于現(xiàn)有的先進(jìn)模型都有了顯著的提高。

        關(guān)鍵詞:小樣本;目標(biāo)檢測(cè);Swin Transformer;通道注意力機(jī)制;YOLOv5

        中圖分類號(hào): TP391.4? 文獻(xiàn)標(biāo)識(shí)碼: A? DOI:10.3969/j.issn.1007-791X.2023.01.007

        0 引言

        近年來(lái),在圖像分類領(lǐng)域研究成果的基礎(chǔ)上,以深度學(xué)習(xí)為核心的目標(biāo)檢測(cè)技術(shù)得到飛速發(fā)展。其在智能實(shí)時(shí)監(jiān)測(cè)[1]、船舶檢測(cè)[2]、自動(dòng)駕駛[3]、人臉識(shí)別[4]等領(lǐng)域得到廣泛的應(yīng)用。

        目前,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)模型想要訓(xùn)練出好的效果,須要以大量的標(biāo)注樣本為基礎(chǔ),但是在實(shí)際應(yīng)用中,很難獲得大規(guī)模樣本數(shù)據(jù)。而小樣本學(xué)習(xí)只需要少量樣本就可以實(shí)現(xiàn)對(duì)新類目標(biāo)的分類識(shí)別,減少對(duì)大規(guī)模標(biāo)簽數(shù)據(jù)的依賴。受到小樣本學(xué)習(xí)的啟發(fā),小樣本條件下的目標(biāo)檢測(cè)技術(shù)也在不斷崛起?;诎銐驑?biāo)記樣本的數(shù)據(jù)集,小樣本目標(biāo)檢測(cè)只需檢測(cè)新類別中的少量標(biāo)記樣本,然后構(gòu)建正確的訓(xùn)練方法,設(shè)計(jì)合適的模型結(jié)構(gòu)以及與訓(xùn)練相對(duì)應(yīng)的損失函數(shù),就可以得到具有泛化性能的檢測(cè)模型。這大大提高了模型開發(fā)的效率。

        目前,小樣本目標(biāo)檢測(cè)方法有基于單階段或兩階段的目標(biāo)檢測(cè)算法。文獻(xiàn)[5]以Faster R-CNN為骨干網(wǎng)絡(luò),也有一些研究基于單階段目標(biāo)檢測(cè)算法。文獻(xiàn)[6-7]使用YOLO作為骨干網(wǎng)絡(luò),文獻(xiàn)[8]使用SSD作為小樣本目標(biāo)檢測(cè)的骨干網(wǎng)絡(luò)。近年來(lái),研究者在不斷地將注意力機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合。例如,自注意力機(jī)制Transformer[9]在自然語(yǔ)言處理領(lǐng)域取得突破,例如iGPT[10]和ViT[11]。2020年,Detection Transformer(DETR)[12]的提出將Transformer成功引入到計(jì)算機(jī)視覺領(lǐng)域。文獻(xiàn)[13]在Deformable DETR[14]的基礎(chǔ)上,將Transformer與元學(xué)習(xí)相結(jié)合,提出了一種圖像級(jí)元學(xué)習(xí)小樣本目標(biāo)檢測(cè)模型。2021年文獻(xiàn)[15]提出了Transformer的改進(jìn)模型Swin Transformer,其在分類、檢測(cè)和分割任務(wù)中取得了優(yōu)異的成績(jī),并且成為一個(gè)新的熱點(diǎn)模型。例如,文獻(xiàn)[16]利用Swin Transformer實(shí)現(xiàn)腰部圖像的精準(zhǔn)分割。

        小樣本目標(biāo)檢測(cè)過(guò)程不僅需要提取高層次的語(yǔ)義信息來(lái)完成分類任務(wù),還需要低層次的像素信息來(lái)實(shí)現(xiàn)目標(biāo)定位。因此,針對(duì)上述因素,本文以YOLOv5模型為主干網(wǎng)絡(luò),設(shè)計(jì)出一種新的小樣本目標(biāo)檢測(cè)模型STFS(Swin Transformer based Few-Shot Learning),它充分利用圖像的上下文信息來(lái)尋找不同類別之間的可區(qū)分特征,以此可以實(shí)現(xiàn)圖像分類,但圖像中包含的無(wú)關(guān)信息可能會(huì)誤導(dǎo)目標(biāo)的定位和識(shí)別。因此,增加了注意力機(jī)制來(lái)提取重要目標(biāo)周圍的有用信息,抑制無(wú)關(guān)信息的干擾,有助于小樣本目標(biāo)檢測(cè)的定位和分類。具體工作如下:

        1)設(shè)計(jì)了一個(gè)元特征提取網(wǎng)絡(luò)(Swin Transformer based YOLOv5,ST-YOLO)。它由兩部分組成:Swin Transformer模塊,通過(guò)自注意力的方式擴(kuò)大全局感受野,并獲取全局上下文信息;PANET模塊,實(shí)現(xiàn)深、淺層之間多尺度的特征融合。

        2)設(shè)計(jì)了一個(gè)權(quán)重調(diào)整模塊(Reweighting based ECA,REW-ECA),通過(guò)少量的支持集生成具有類屬性的權(quán)重系數(shù),并自動(dòng)調(diào)整元特征分布以檢測(cè)新類對(duì)象。

        1 小樣本目標(biāo)檢測(cè)模型

        本文提出的小樣本目標(biāo)檢測(cè)算法STFS結(jié)構(gòu)如圖1所示,一共包括三大模塊。

        1)ST-YOLO模塊為元特征提取器,用于學(xué)習(xí)多尺度元特征。它主要是通過(guò)注意力的方式逐漸增強(qiáng)全局感受野,獲取全局上下文信息,從而建立對(duì)目標(biāo)的遠(yuǎn)距離的依賴。

        2)REW-ECA模塊為元學(xué)習(xí)器,用于生成權(quán)重系數(shù)。權(quán)重系數(shù)是一個(gè)具有類屬性的全局變量,這個(gè)全局變量具有感興趣的類別對(duì)象的語(yǔ)義信息。該類別的語(yǔ)義信息被集成到元特征中,以增強(qiáng)元特征中待檢測(cè)對(duì)象的類別語(yǔ)義信息的表達(dá)。

        3)預(yù)測(cè)模塊負(fù)責(zé)接收ST-YOLO和ECANet的輸出,并生成目標(biāo)檢測(cè)結(jié)果。具體來(lái)說(shuō),它將元特征和權(quán)重系數(shù)聚合為一組特定于類別的特征,然后使用YOLOv5的檢測(cè)頭預(yù)測(cè)回歸位置和分類信息。

        1.1 ST-YOLO模塊

        本文設(shè)計(jì)的ST-YOLO模塊是在YOLOv5模型基礎(chǔ)上進(jìn)行改進(jìn)的。其主要任務(wù)是學(xué)習(xí)從基類中提取全局上下文信息,并聚合高層強(qiáng)語(yǔ)義信息和低層強(qiáng)定位信息。

        對(duì)于小樣本訓(xùn)練,YOLOv5模型的原主干網(wǎng)絡(luò)無(wú)法通過(guò)有限的標(biāo)注樣本學(xué)習(xí)全局上下文信息,雖然可以通過(guò)堆疊卷積神經(jīng)網(wǎng)絡(luò)來(lái)增加感受野,但深層卷積網(wǎng)絡(luò)會(huì)大大增加計(jì)算量。因此,將用作特征提取的主干網(wǎng)絡(luò)替換為Swin Transformer模塊,其自注意力機(jī)制用來(lái)學(xué)習(xí)整個(gè)數(shù)據(jù)集中同類的相同特征和不同種類的可區(qū)分全局特征,從而解決小樣本容易忽略數(shù)據(jù)集內(nèi)部特征之間關(guān)系的問(wèn)題。

        Swin Transformer是一個(gè)基于自注意力機(jī)制的網(wǎng)絡(luò)。它具有專注于全局信息建模的能力,可以用作視覺和語(yǔ)言處理的統(tǒng)一模型。在Swin Transformer模型中,對(duì)輸入向量進(jìn)行線性變換后,將得到的矩陣均分為三部分,這三部分成為Transformer中查詢向量Q、關(guān)鍵向量K和位置向量V的三個(gè)特征,注意力機(jī)制的計(jì)算公式為

        AttentionQ,K,V=SoftmaxQKTdk+BV,

        式中,B表示相對(duì)位置偏差,dk表示特征K的方差,Softmax為歸一化指數(shù)函數(shù)??梢钥闯?,該機(jī)制是為了在圖像中找到關(guān)鍵信息而設(shè)計(jì)的,這是一種尋找全局特征的方法。

        在Swin Transformer用于特征提取的過(guò)程中,會(huì)失去大量位置信息,不利于目標(biāo)的定位。因此,將提取的全局特征輸入PANET模塊,特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)將高層的強(qiáng)語(yǔ)義特征傳遞下來(lái),像素聚合網(wǎng)絡(luò)(Pixel Aggregation Network,PAN) 將低層的強(qiáng)定位信息傳遞上去,實(shí)現(xiàn)對(duì)目標(biāo)的精確定位。

        總體而言,ST-YOLO模塊主要是利用自注意力機(jī)制和特征金字塔結(jié)構(gòu),增強(qiáng)了骨干網(wǎng)絡(luò)在小樣本圖像中捕獲全局語(yǔ)義信息的能力,并將高層語(yǔ)義信息和低層細(xì)粒度信息完美融合,以此提高小樣本檢測(cè)模型學(xué)習(xí)特征的能力。

        1.2 REW-ECA模塊

        如前所述,REW-ECA模塊的功能是生成感興趣區(qū)域的全局變量,該變量具有感興趣區(qū)域中對(duì)象的類特征。為此設(shè)計(jì)的系數(shù)生成網(wǎng)絡(luò)有兩個(gè)主要功能:一是提取有類別信息的語(yǔ)義特征;二是突出感興趣的區(qū)域。第一點(diǎn)直接使用層數(shù)合適的卷積神經(jīng)網(wǎng)絡(luò)。第二點(diǎn)通過(guò)引入注意力機(jī)制來(lái)實(shí)現(xiàn)。

        注意力機(jī)制借鑒人類的視覺系統(tǒng)獲得關(guān)鍵信息的內(nèi)部處理過(guò)程。例如人類要在嘈雜的市場(chǎng)尋找結(jié)伴的伙伴,視線內(nèi)所有事物的形狀、顏色等信息量過(guò)于巨大,于是可以選擇忽略一部分無(wú)關(guān)緊要的信息(水果顏色、貨物形狀),重點(diǎn)觀察人的衣服顏色、體型、發(fā)色等特征,從而找到相應(yīng)的目標(biāo)對(duì)象。注意力機(jī)制的信息處理過(guò)程具體可以表示為

        Attention=fgx,x,

        式中,g(·)為處理輸入特征和產(chǎn)生注意力的過(guò)程,f(·)表示結(jié)合注意力對(duì)輸入特征進(jìn)行處理。對(duì)于自注意力機(jī)制self-attention,上述過(guò)程可以具體表示為

        Q,K,V=Linearx

        gx=SoftmaxQK

        fgx,x=g(x)V。

        注意力機(jī)制主要分為空間注意和通道注意。在本文中,為了彌補(bǔ)卷積層不考慮每個(gè)通道之間依賴關(guān)系的缺陷,選擇通道注意力ECA在每個(gè)卷積通道之間分配資源,并設(shè)計(jì)了ECANet網(wǎng)絡(luò)來(lái)生成任務(wù)所需的權(quán)重系數(shù)。

        總的來(lái)說(shuō),REW-ECA模塊將支持集作為其輸入,學(xué)習(xí)將支持集的信息轉(zhuǎn)換為全局向量,該向量具有感興趣區(qū)域中對(duì)象的類特性。在該模塊的作用下,將增強(qiáng)查詢集中新類對(duì)象的特征,有助于檢測(cè)頭的預(yù)測(cè)。

        1.2.1 通道關(guān)注模塊

        通道關(guān)注模塊(Efficient Channel Attention,ECA)的設(shè)計(jì)主要考慮到捕獲所有通道之間的依賴關(guān)系不是必要的,且效率會(huì)很低。因此,通過(guò)局部跨通道之間的信息交流產(chǎn)生通道之間的注意力,相比與所有通道之間交互有效地降低了模型的復(fù)雜度,并保持較高的模型效率。每個(gè)通道只與其相鄰的才k個(gè)通道進(jìn)行相互交流,通道yi的權(quán)重計(jì)算為

        wi=σ∑kj=1αjiyji,

        其中,yji∈Ωki,Ωik表示yij的k個(gè)相鄰?fù)ǖ赖募?。使用卷積的共享權(quán)重的方法,以此來(lái)進(jìn)一步提高模型的性能。

        跨通道信息交互的覆蓋率由卷積核k的大小決定,其計(jì)算公式為

        k=ψC=log2Cγ+bγodd,

        式中,|X|odd為與X距離最近的奇數(shù),C為通道維數(shù)。

        原始ECA模塊通過(guò)全局平均池化操作(Global Average Pooling,GAP)獲取全局信息,并提取全局完整信息。針對(duì)小樣本條件下的目標(biāo)檢測(cè)任務(wù),將ECA模塊進(jìn)行了修改。本文修改后的ECA模塊結(jié)構(gòu)如圖2所示,利用全局最大池化操作(Global Max Pooling,GXP) 替換原先GAP,以便它可以關(guān)注圖像中最感興趣的區(qū)域。

        3.4 實(shí)驗(yàn)過(guò)程和結(jié)果分析

        本研究采用元學(xué)習(xí)訓(xùn)練策略,分為兩個(gè)階段。第一階段為基礎(chǔ)訓(xùn)練階段,以具有足夠標(biāo)記樣本的基類作為輸入,并以指定的學(xué)習(xí)率對(duì)模型進(jìn)行特定輪次的預(yù)訓(xùn)練;第二階段為微調(diào)階段,使用新類或類似數(shù)量的新類和基類來(lái)微調(diào)模型。

        1)ImageNet-LOC數(shù)據(jù)集

        先在COCO數(shù)據(jù)集上進(jìn)行基礎(chǔ)訓(xùn)練,再使用少量樣本數(shù)據(jù)集進(jìn)行訓(xùn)練。分別為50個(gè)ImageNet-LOC數(shù)據(jù)集的類別進(jìn)行1-shot、5-shot、10-shot訓(xùn)練。每類測(cè)試集的樣本為500個(gè),總共進(jìn)行了500次的episode訓(xùn)練。

        觀察表1結(jié)果可以看到,在樣本量相對(duì)較多的 10-shot和5-shot任務(wù)上,檢測(cè)結(jié)果均高于另外兩種算法。并且在樣本量極少的1-shot任務(wù)上,檢測(cè)結(jié)果同樣優(yōu)于經(jīng)典的小樣本目標(biāo)檢測(cè)算法LSTD和RepMet。在10-shot任務(wù)中,STFS模型的性能達(dá)到50.8%,比其他先進(jìn)算法的最佳結(jié)果49.2%高出1.6%。主要原因有兩方面:一方面是使用Swin Transformer和PANET進(jìn)行全局上下文信息提取和多尺度特征融合,提升了小樣本的學(xué)習(xí)能力;另一方面,通道注意力機(jī)制ECA的使用突出了感興趣區(qū)域,抑制了無(wú)關(guān)任務(wù)信息對(duì)小樣本檢測(cè)的干擾。

        2) PASCAL VOC數(shù)據(jù)集

        使用trainval 07+12進(jìn)行正常訓(xùn)練,并對(duì)test 07進(jìn)行測(cè)試,按照文獻(xiàn)[17]中的小樣本目標(biāo)識(shí)別設(shè)置方法。比較結(jié)果如表2所示??梢钥吹剑诖蠖鄶?shù)情況下,STFS的性能比現(xiàn)有的方法要好,除了在樣本量極少的1-shot任務(wù)上,特征提取模塊在多尺度的放大下可能導(dǎo)致模型過(guò)度擬合,因此平均精度平均值(mean of Average Precision,mAP) 低于RepMet模型和FsDet View模型。然而,隨著新類別樣本量的逐漸增加,STFS在2-shot、3-shot、5-shot和10-shot任務(wù)中的檢測(cè)結(jié)果均高于其他模型。

        3)COCO數(shù)據(jù)集

        選取與PACAL VOC重疊的20個(gè)類別,將其作為新類別,剩下的60個(gè)類別作為基類,對(duì)10-shot和30-shot任務(wù)進(jìn)行評(píng)估,結(jié)果顯示如表3與表4。可以看到,盡管COCO數(shù)據(jù)集在更高的復(fù)雜性方面(如大規(guī)模變化)更具挑戰(zhàn)性,但STFS在所有任務(wù)下的表現(xiàn)仍優(yōu)于其他模型。具體來(lái)說(shuō),在主要指標(biāo)AP0.5:0.95中,STFS模型在10-shot上比最先進(jìn)的方法高3.9%,在30-shot上高出7.0%。在嚴(yán)格指標(biāo)AP0.75中,10-shot的9.8%增加到17.1%,30-shot的12.2%增加到22.5%。此外,STFS在所有規(guī)模的圖像,尤其是大規(guī)模圖像上的性能最好,主要是因?yàn)镾TFS通過(guò)圖像級(jí)預(yù)測(cè)有效地利用了全局上下文信息和各個(gè)通道之間的信息,多尺度的特征融合機(jī)制有效地提高了復(fù)雜場(chǎng)景中的小目標(biāo)檢測(cè)。除了直接測(cè)量檢測(cè)器性能的平均精度(Average Precision,AP )外,平均召回率(Average Recall,AR)同樣重要,AR越高,檢測(cè)遺漏越少。如表3所示,STFS在AR100方面也大大超過(guò)了最先進(jìn)的方法,其中10-shot增加了6.8%,30-shot增加了7.5%。

        最后,對(duì)STFS模型下的三種數(shù)據(jù)集部分檢測(cè)結(jié)果進(jìn)行可視化,如圖5~7所示,更直觀地說(shuō)明了本文模型的性能。圖中只顯示新類別的檢測(cè)結(jié)果,因?yàn)橹饕攸c(diǎn)是檢測(cè)新類別的對(duì)象??梢杂^察到,本文提出的STFS模型即使在訓(xùn)練樣本稀少的情況下也能檢測(cè)出新類別對(duì)象。此外,STFS在大型對(duì)象上的性能非常好,在小型對(duì)象上的性能也不差。

        經(jīng)過(guò)上述3個(gè)數(shù)據(jù)集的對(duì)比實(shí)驗(yàn),本文提出的STFS模型的可行性得到驗(yàn)證。無(wú)論是在PASCAL VOC數(shù)據(jù)集、ImageNet-LOC數(shù)據(jù)集還是更復(fù)雜的COCO數(shù)據(jù)集中,面對(duì)少量樣本條件下的目標(biāo)識(shí)別都能取得較好的效果。

        4 結(jié)論

        為了進(jìn)一步提高小樣本的檢測(cè)效果,本文提出了一種新的目標(biāo)檢測(cè)框架STFS。在特征提取過(guò)程中,利用Swin Transformer對(duì)圖像的全局信息進(jìn)行建模,盡量保留小樣本信息,提高小目標(biāo)的檢測(cè)效果。采用MixUp數(shù)據(jù)擴(kuò)充的方法,減少小樣本模型的過(guò)度擬合。不同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該模型有效地利用了全局上下文信息和各個(gè)通道之間的信息,借助多尺度特征融合機(jī)制有效地提高了復(fù)雜場(chǎng)景中的小目標(biāo)檢測(cè)。在平均精度與平均召回率性能指標(biāo)上比其他先進(jìn)的網(wǎng)絡(luò)模型具有更好的性能,在小樣本的目標(biāo)檢測(cè)中可以取得良好的效果。

        參考文獻(xiàn)

        [1] 胡正平, 張樂, 李淑芳, 等. 端對(duì)端SSD實(shí)時(shí)視頻監(jiān)控異常目標(biāo)檢測(cè)與定位算法[J].燕山大學(xué)學(xué)報(bào), 2020, 44(5): 493-501.

        HU Z P, ZHANG L, LI S F, et al. End-to-end SSD real-time video surveillance abnormal target detection and localization algorithm[J]. Journal of Yanshan University, 2020, 44(5): 493-501.

        [2] 董眾,林寶軍,申利民.一種基于圖像顯著性的離岸船舶目標(biāo)檢測(cè)效率優(yōu)化方法[J].燕山大學(xué)學(xué)報(bào), 2020, 44(4): 418-424.

        DONG Z, LIN B J, SHEN L M. An efficiency optimization method of offshore ship target detection based on saliency[J]. Journal of Yanshan University, 2020, 44(4): 418-424.

        [3] 段續(xù)庭, 周宇康, 田大新, 等. 深度學(xué)習(xí)在自動(dòng)駕駛領(lǐng)域應(yīng)用綜述[J].無(wú)人系統(tǒng)技術(shù), 2021, 4(6): 1-27.

        DUAN X T, ZHOU Y K, TIAN D X, et al. A review of the application of deep learning in the field of autonomous driving[J]. Unmanned Systems Technology, 2021, 4(6): 1-27.

        [4] 鄧熠, 畢磊, 薛甜, 等. 基于深度學(xué)習(xí)的人臉識(shí)別技術(shù)發(fā)展現(xiàn)狀分析[J].無(wú)線互聯(lián)科技, 2021, 18(19): 71-72.

        DENG Y, BI L, XUE T, et al. Analysis of the development status of face recognition technology based on deep learning[J]. Wireless Internet Technology, 2021, 18(19): 71-72.

        [5] FAN Q, ZHUO W, TANG C K, et al. Few-shot object detection with attention-RPN and multi-relation detector[C] //2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition,Seattle, USA, 2020: 4012-4021.

        [6] LI X, DENG J, FANG Y. Few-shot object detection on remote sensing images[J]. IEEE Transactions on Geoscience and Remote Sensing,2022,60:5601614.

        [7] 陳誠(chéng), 代江華, 呂秒, 等. 基于Yolov3的小樣本智能電極帽端面檢測(cè)和識(shí)別系統(tǒng)[J].電腦編程技巧與維護(hù), 2021 (8): 130-131.

        CHEN C, DAI J H, LU M, et al. Few-shot intelligent electrode cap end face detection and recognition system based on Yolov3[J]. Computer Programming Skills and Maintenance, 2021 (8): 130-131.

        [8] 李鈞正, 殷子玉, 樂心怡. 基于小樣本學(xué)習(xí)的鋼板表面缺陷檢測(cè)技術(shù)[J].航空科學(xué)技術(shù),2021,32(6):65-70.

        LI J Z, YIN Z Y, LE X Y. Surface defect detection technology of steel plate based on Few-Shot learning[J]. Aviation Science and Technology, 2021, 32(6): 65-70.

        [9] CHEN C, ZHA Y, ZHU D, et al. Hydrogen bonds meet self-attention: all you need for protein structure embedding[C] //2021 IEEE International Conference on Bioinformatics and Biomedicine, Houston, USA, 2021:12-17.

        [10] CHEN M, RADFORD A, CHILD R, et al. Generative pretraining from pixels[C] //International Conference on Machine Learning, New York, USA, 2020: 1691-1703.

        [11] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16×16 words: transformers for image recognition at scale[C] //International Conference on Learning Representations,Addis Ababa, Ethiopia,2020:1-22.

        [12] CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[C] //European Conference on Computer Vision, Berlin, German, 2020: 213-229.

        [13] ZHANG G, LUO Z, CUI K, et al.Meta-DETR: few-shot object detection via unified image-level meta-learning[C] //International Conference on Learning Representations,Virtual Event, Austria,2021:1-21.

        [14] ZHU X, SU W, LU L, et al. Deformable DETR: deformable transformers for end-to-end object detection[C] //International Conference on Learning Representations,Addis Ababa, Ethiopia,2020:1-12.

        [15] LIU Z,LIN Y T,CAO Y, et al. Swin Transformer: hierarchical vision transformer using shifted windows[C] //2021 IEEE/CVF International Conference on Computer Vision,Montreal, Canada,2021:9992-10002.

        [16] 田應(yīng)仲, 卜雪虎. 基于注意力機(jī)制與Swin Transformer模型的腰椎圖像分割方法[J].計(jì)量與測(cè)試技術(shù),2021, 48(12): 57-61.

        TIAN Y Z, BU X H. Lumbar spine image segmentation method based on attention mechanism and Swin Transformer model[J]. Metrology and Testing Technology, 2021, 48(12): 57-61.

        [17] ANG Y, WEI F, SHI M, et al. Restoring negative information in few-shot object detection[J]. Advances in Neural Information Processing Systems, 2020,33:3521-3532.

        A few-shot object detection model based on YOLOv5

        HOU Yue,WANG Kaiyu,JIN Shunfu

        (School of Information and Engineering, Yanshan University, Qinhuangdao, Hebei 066004, China)

        Abstract:

        Deep learning technology has achieved remarkable results in the field of target detection, but related models are difficult to function under the condition of insufficient sample size.With the help of few-shot learning technology,a new few-shot object detection model is proposed.First, a feature learner is designed, consisting of a Swin Transformer module and a PANET module, to extract multi-scale meta-features containing global information from the query set to detect new class objects. Second, a weight adjustment module is designed to convert the support set into a weight coefficient with class attributes to adjust the meta-feature distribution for detecting new class objects. Finally, experimental analysis is carried out on ImageNet-LOC, PASCAL VOC and COCO datasets. The results show that the model proposed in this paper has a significant improvement in mAP and AR indicators compared to the existing advanced models.

        Keywords: few-shot; object detection; Swin Transformer; channel attention mechanism; YOLOv5

        猜你喜歡
        目標(biāo)檢測(cè)
        視頻中目標(biāo)檢測(cè)算法研究
        軟件(2016年4期)2017-01-20 09:38:03
        行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
        移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
        基于背景建模法的運(yùn)動(dòng)目標(biāo)檢測(cè)
        基于P3電位的目標(biāo)檢測(cè)研究
        科技視界(2016年4期)2016-02-22 13:09:19
        一種改進(jìn)的峰均功率比判源方法
        亚洲国产av中文字幕| 亚洲精品女人天堂av麻| 美腿丝袜在线观看视频| 99久久无色码中文字幕人妻蜜柚| 欧美亚洲色综久久精品国产| 国产精品午夜福利视频234区| 真人做爰片免费观看播放| 风流少妇又紧又爽又丰满| 精品一区二区三区在线观看l| 偷拍视频十八岁一区二区三区| 米奇欧美777四色影视在线| 日韩人妻无码精品久久 | 国产目拍亚洲精品一区二区| 国产高清在线91福利| 九九久久精品一区二区三区av| 亚洲av无码专区国产乱码4se| 国产成人亚洲精品| 亚洲综合中文字幕乱码在线| 情色视频在线观看一区二区三区| 亚洲乱码一区二区av高潮偷拍的| 久久狠狠色噜噜狠狠狠狠97| 精品一区二区久久久久久久网站| 久久中文字幕亚洲精品最新| 久久人妻精品免费二区| 无遮挡1000部拍拍拍免费| 俄罗斯老熟妇色xxxx| jlzzjlzz全部女高潮| 国产精品一区二区三区女同| 亚洲视频一区二区三区视频 | 国产一毛片| 亚洲成人色黄网站久久| 亚洲精品视频在线一区二区| 欧美人与动牲交a精品| 高清国产日韩欧美| 国产精品成人黄色大片| 国产精品亚洲av无人区一区香蕉| 亚洲av无码国产精品色午夜洪| 午夜毛片午夜女人喷潮视频| 国产一区二区三区影片| 国产成人大片在线播放| 精品少妇一区二区三区免费观|