亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進(jìn)Mosaic數(shù)據(jù)增強(qiáng)和特征融合的Logo檢測

        2022-10-27 02:44:18陳翠琴范亞臣
        計(jì)算機(jī)測量與控制 2022年10期
        關(guān)鍵詞:特征融合實(shí)驗(yàn)

        陳翠琴,范亞臣,王 林

        (西安理工大學(xué) 自動(dòng)化與信息工程學(xué)院,西安 710048)

        0 引言

        標(biāo)志(Logo)是將企業(yè)、公共機(jī)構(gòu)、事業(yè)單位或個(gè)人的產(chǎn)品和服務(wù)標(biāo)識(shí)出來的獨(dú)特的圖形文字或圖形符號(hào)的組合。Logo檢測是目標(biāo)檢測的一個(gè)具體應(yīng)用。它在知識(shí)產(chǎn)權(quán)保護(hù)、產(chǎn)品品牌識(shí)別、電商平臺(tái)保護(hù)、智能交通車輛標(biāo)識(shí)檢測、社交媒體產(chǎn)品品牌管理等多個(gè)領(lǐng)域有著廣泛的應(yīng)用。自然圖像中的Logo檢測方法大致分為基于手工設(shè)計(jì)特征的方法和基于深度特征的方法。Sanyal等人[1]提出了一種基于harris仿射檢測器獲得的尺度不變特征變換(SIFT, scale-invariant feature transform)關(guān)鍵點(diǎn)的方法。Gao等人[2]提出了一種通過空間光譜顯著性來發(fā)現(xiàn)Logo的檢測方法,然后對(duì)查詢圖像中使用的這些區(qū)域提取加速魯棒特征(SURF)。然后根據(jù)提取的SURF特征發(fā)現(xiàn)數(shù)據(jù)集圖像與查詢圖像之間的相似度。為了減少誤報(bào),使用了局部空間上下文。Chinmoy等人[3]提出了一種基于SIFT、SURF和HOG描述符的Logo融合識(shí)別方法。自2012年以深度學(xué)習(xí)為主的圖像分類以來,深度卷積神經(jīng)網(wǎng)絡(luò)(CNNs)的使用在計(jì)算機(jī)視覺領(lǐng)域變得普遍。CNNs在目標(biāo)特征提取和表達(dá)方面比人工選擇更合理、更強(qiáng)。S.C.H.Hoi等人[4]創(chuàng)建了大規(guī)模Logo圖像數(shù)據(jù)集LOGO-Net以促進(jìn)標(biāo)志檢測和產(chǎn)品品牌識(shí)別的研究,通過探索RCNN[5],F(xiàn)ast RCNN[6]和SPPnet[7]等幾種最先進(jìn)的基于區(qū)域的深度卷積網(wǎng)絡(luò)技術(shù)來解決深度Logo檢測和品牌識(shí)別任務(wù)。Oliveira等人[8]使用遷移學(xué)習(xí)來利用強(qiáng)大的卷積神經(jīng)網(wǎng)絡(luò)模型Fast RCNN來訓(xùn)練大規(guī)模的數(shù)據(jù)集,并將它們重新用于圖形Logo的檢測。C.Eggert等人[9]將Faster R-CNN[10]應(yīng)用到公司Logo檢測任務(wù)中,引入了一種改進(jìn)的生成錨點(diǎn)建議的方案,并提出了一種對(duì)Faster R-CNN的修改,它利用了小物體的高分辨率特征地圖,而提高小目標(biāo)檢測的性能。Yang等人[11]針對(duì)機(jī)動(dòng)車Logo檢測任務(wù)的YOLOv3模型[12]進(jìn)行修改,通過難樣本訓(xùn)練解決小目標(biāo)檢測問題。

        Logo經(jīng)常出現(xiàn)在較復(fù)雜的背景中,同時(shí)Logo對(duì)象具有多尺度特性,因此本文提出了MP-YOLOv4(improved mosaic and PANet YOLOv4)算法。相比于原始的YOLOv4算法[13],本文主要做了以下的改進(jìn)。為了進(jìn)一步豐富Logo對(duì)象的尺度和背景,提出了一種改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法,將6張?jiān)紙D片進(jìn)行隨機(jī)縮放、裁剪并拼接構(gòu)成新的訓(xùn)練數(shù)據(jù),與單張圖片和4張?jiān)紙D片拼接一起作為模型的訓(xùn)練輸入,并確定3種輸入形式的相對(duì)最優(yōu)比例,同時(shí)采用在訓(xùn)練結(jié)束的前30個(gè)世代關(guān)閉Mosaic數(shù)據(jù)增強(qiáng)的訓(xùn)練策略。為了進(jìn)一步加強(qiáng)多尺度特征融合,本文在路徑整合網(wǎng)絡(luò)(PANet, path aggregation network)[14]的基礎(chǔ)上,結(jié)合跨層連接、重復(fù)堆疊、直接連接和加權(quán)特征融合等操作,設(shè)計(jì)了一種新的特征金字塔網(wǎng)絡(luò),增強(qiáng)了網(wǎng)絡(luò)的特征融合和特征表達(dá)能力。

        1 相關(guān)工作

        1.1 YOLOv4網(wǎng)絡(luò)

        YOLOv4是YOLO系列中的一種新的目標(biāo)檢測方法,它的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

        圖1 YOLOv4的整體網(wǎng)絡(luò)結(jié)構(gòu)

        YOLOv4目標(biāo)檢測網(wǎng)絡(luò)主要由輸入(input)、骨干特征提取網(wǎng)絡(luò)(backbone)、特征融合部分(neck)和預(yù)測頭(head)四部分組成。模型對(duì)于輸入采用了Mosaic數(shù)據(jù)增強(qiáng)方法,豐富了對(duì)象的上下文,提高了訓(xùn)練效率。在骨干特征提取網(wǎng)絡(luò)中,在YOLOv3中Darknet的基礎(chǔ)上,融入了CSPnet,從而整合成新的骨干網(wǎng)絡(luò)CSPDarknet,并在其中用Mish激活函數(shù)代替了LeakyReLU激活函數(shù)。在Neck部分,使用空間金字塔(SPP,spatial pyramid pooling)和PANet對(duì)從骨干網(wǎng)絡(luò)中獲取的3個(gè)有效特征層來進(jìn)行多尺度特征融合。在預(yù)測部分仍然使用YOLOv3中的Head對(duì)來自不同尺度的融合特征進(jìn)行預(yù)測。本文主要Logo檢測任務(wù)中的復(fù)雜背景和多尺度問題,對(duì)YOLOv4算法中的Input部分和PANet部分進(jìn)行改進(jìn)。

        1.2 Mosaic數(shù)據(jù)增強(qiáng)方法

        Mosaic數(shù)據(jù)增強(qiáng)算法參考了CutMix[15]數(shù)據(jù)增強(qiáng)算法,是對(duì)CutMix數(shù)據(jù)增強(qiáng)算法的進(jìn)一步擴(kuò)展。一般的數(shù)據(jù)增強(qiáng)方法是對(duì)一幅圖像進(jìn)行翻轉(zhuǎn)、色域變換、縮放等操作,而CutMix的數(shù)據(jù)增強(qiáng)方法是將兩幅圖像進(jìn)行拼接,并將拼接后的圖像直接傳輸?shù)缴窠?jīng)網(wǎng)絡(luò)中進(jìn)行訓(xùn)練。Mosaic數(shù)據(jù)增強(qiáng)算法利用4幅圖像進(jìn)行拼接,形成包含4幅原始圖像的合成圖像,它可以在一幅合成圖像中訓(xùn)練出多個(gè)不同的目標(biāo);這使得對(duì)象出現(xiàn)在它們正常出現(xiàn)的背景之外,為模型提供更加復(fù)雜和有效的訓(xùn)練背景;同時(shí),在批處理歸一化[16]操作中,可以同時(shí)計(jì)算6張圖像的數(shù)據(jù),這意味著不需要將超參數(shù)批大小(batch_size)設(shè)置得太大,就可以有效地訓(xùn)練模型,這樣可以在單個(gè)GPU下訓(xùn)練目標(biāo)檢測算法,提高了模型訓(xùn)練的效率,節(jié)省計(jì)算開銷。此外,在原始的YOLOv4模型訓(xùn)練過程中,模型有0.5的概率輸入單張?jiān)紙D像進(jìn)行訓(xùn)練,同時(shí)有0.5的概率輸入由四張圖像拼接而成的合成圖像來進(jìn)行訓(xùn)練。

        1.3 多尺度特征融合

        不同圖像之間以及同一張圖像內(nèi)部多個(gè)Logo對(duì)象的相對(duì)尺度差別較大,Logo檢測任務(wù)中的多尺度檢測問題面臨著很大的挑戰(zhàn)。為了在網(wǎng)絡(luò)內(nèi)部融合多尺度特征,獲得多尺度特征表達(dá),Lin等人[17]提出了著名的特征金字塔網(wǎng)絡(luò)(FPN, feature pyramid networks)。文獻(xiàn)[18]使用FPN來融合高低層級(jí)的語義信息,提升濾袋開口檢測問題中對(duì)小目標(biāo)的檢測效果。Liu 等人提出了PANet。PANet在FPN的原自頂向下金字塔方法的基礎(chǔ)上增加了一個(gè)自底向上的信息流,重新構(gòu)建了一個(gè)強(qiáng)化了空間定位信息的特征金字塔。在YOLOv4目標(biāo)檢測模型中就是使用PANet來進(jìn)行特征融合。Pang 等人[19]認(rèn)為無論是FPN還是PANet在構(gòu)建特征金字塔時(shí)都是使用自上而下或者自底而上的路徑來傳遞特征,這個(gè)過程會(huì)導(dǎo)致信息的丟失,因此他們提出了平衡特征金字塔(BFP, balanced feature pyramid),以同等重視多尺度特征圖。它通過縮放、整合、精煉和增強(qiáng)4個(gè)步驟來獲得相對(duì)平衡地兼顧所有特征層的特征圖。

        2 面向Logo檢測的YOLOv4算法的改進(jìn)

        2.1 改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法

        原始的Mosaic數(shù)據(jù)增強(qiáng)方法對(duì)四張?jiān)紙D像進(jìn)行翻轉(zhuǎn)、縮放、色域變換和拼接,從而形成包含4幅原始圖像的合成圖像。為了進(jìn)一步豐富Logo對(duì)象的背景,提高模型在復(fù)雜背景下檢測Logo的魯棒性,同時(shí)提高訓(xùn)練效率,本文提出改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法,如圖2所示。為了便于闡述,將單張?jiān)紙D像記為mos1,由4張、6張圖像混合而成的合成圖像分別記為mos4和mos6。上面和中間的實(shí)線箭頭表示的通道是原始的Mosaic方法,然而改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法增加了下面虛線箭頭表示的通道,即使用6張圖像拼接成的合成圖像(mos6)作為模型的訓(xùn)練數(shù)據(jù),與mos1和mos4一起作為模型的訓(xùn)練輸入。

        圖2 改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法

        2.1.1 由6張?jiān)紙D像合成訓(xùn)練數(shù)據(jù)

        1)生成圖像隨機(jī)縮放的大小、隨機(jī)粘貼的位置和裁剪的范圍。

        首先按公式(1)生成6張圖像分別縮放的隨機(jī)值:

        nws=[int(w*rand(0.4,1)),int(w*rand(0.4,1)),

        int(w*rand(0.4,1)),int(w*rand(0.4,1)),

        int(w*rand(0.4,1)),int(w*rand(0.4,1))]

        nhs=[int(h*rand(0.4,0.8)),int(h*rand(0.4,0.8)),

        int(h*rand(0.4,0.8)),int(h*rand(0.4,0.8)),

        int(h*rand(0.4,0.8)),int(h*rand(0.4,0.8))]

        (1)

        式中,rand()函數(shù)以均勻分布從一定范圍內(nèi)取出隨機(jī)值,int()函數(shù)是對(duì)小數(shù)進(jìn)行四舍五入的操作,(w,h)表示網(wǎng)絡(luò)要求輸入的高和寬。nws和nhs中都包含了6個(gè)元素,依次對(duì)應(yīng)6張圖像隨機(jī)縮放之后的寬和高。

        其次要生成分別沿x方向的一個(gè)偏移比例和y方向的兩個(gè)偏移比例,計(jì)算方法如公式(2)所示:

        offset_x=rand(1/4,3/4)

        offset_y1=rand(2/9,4/9)

        offset_y2=rand(5/9,7/9)

        (2)

        接著按照公式(3)生成6張圖片的粘貼位置:

        place_x=[int(w*offset_x)-nws[0],

        int(w*offset_x)-nws[1],

        int(w*offset_x)-nws[2],int(w*offset_x),

        int(w*offset_x),int(w*offset_x)]

        place_y=[int(h*offset_y1)-nhs[0],

        int(h*offset_y2)-nhs[1],

        int(h*offset_y2),int(h*offset_y2),

        int(h*offset_y2)-nhs[4],

        int(h*offset_y1)-nhs[5]]

        (3)

        式中,place_x和place_y分別都包含了6個(gè)元素,分別對(duì)應(yīng)6張圖片隨機(jī)粘貼的橫坐標(biāo)和縱坐標(biāo)。

        最后,利用偏移比例按照公式(4)計(jì)算出圖像裁剪的界限:

        cutx=int(w*offset_x)

        cuty1=int(h*offset_y1)

        cuty2=int(h*offset_y2)

        (4)

        式中,cutx是x方向的裁剪界限,cuty1和cuty2是y方向的兩條裁剪界限。利用3條界限分別裁剪出6張圖像的相應(yīng)部分并拼接在一起,從而構(gòu)成一張新的圖像。

        2)按照索引從訓(xùn)練集中選取一條訓(xùn)練數(shù)據(jù),然后隨機(jī)選取5條訓(xùn)練數(shù)據(jù),共獲得6條數(shù)據(jù)。

        3)分別對(duì)每一張訓(xùn)練圖像進(jìn)行一系列基本的數(shù)據(jù)增強(qiáng)。以0.5的概率對(duì)圖像進(jìn)行左右翻轉(zhuǎn),按照公式(1)對(duì)圖像進(jìn)行高和寬的隨機(jī)縮放。

        4)6張圖像按照公式(3)各自粘貼到一張像素值為(128,128,128),大小為[416,416]的圖像上的指定位置。得到的6張圖像如圖3所示。

        圖3 6張圖像的隨機(jī)粘貼位置

        5)按照公式依次裁取6張圖像中的指定區(qū)域拼接成一張新的圖像。再對(duì)合成圖像色度(hue)、飽和度(sat)和明度(val)進(jìn)行扭曲, 扭曲系數(shù)分別是hue=0.1,sat=1.5,val=1.5。生成的訓(xùn)練數(shù)據(jù)及標(biāo)注情況如圖4所示。

        圖4 合成圖像及標(biāo)注信息

        2.1.2 確定相對(duì)更優(yōu)的輸入比例

        在網(wǎng)絡(luò)訓(xùn)練過程中mos1、mos4和mos6這3種形式的輸入所占的比例記為,這種組合在一定程度上使訓(xùn)練數(shù)據(jù)集的尺度變化特征更加多樣化,從而進(jìn)一步衰減背景對(duì)目標(biāo)特征的干擾。在本文中通過枚舉的方法來獲得三者相對(duì)更優(yōu)的輸入比例。

        2.1.3 改進(jìn)的Mosaic訓(xùn)練策略

        使用Mosaic合成的訓(xùn)練圖片,遠(yuǎn)遠(yuǎn)脫離了自然圖片的真實(shí)分布,即Mosaic合成的圖片與自然圖片存在較大的語義鴻溝。同時(shí),Mosaic數(shù)據(jù)增強(qiáng)過程中存在大量的裁剪操作會(huì)帶來很多不準(zhǔn)確的標(biāo)注框。因此,本文對(duì)YOLOv4中Mosaic訓(xùn)練策略進(jìn)行了改進(jìn)。在訓(xùn)練結(jié)束前的30個(gè)世代關(guān)閉Mosaic數(shù)據(jù)增強(qiáng),即只使用數(shù)據(jù)集中單張?jiān)紙D像來訓(xùn)練模型。這樣訓(xùn)練策略下數(shù)據(jù)集更專注于原始圖片,使得模型能很好地學(xué)習(xí)到目標(biāo)的總體特征,在此基礎(chǔ)上,用Mosaic數(shù)據(jù)增強(qiáng)合成的圖像擁有更加復(fù)雜的背景,用來增強(qiáng)模型對(duì)局部特征的學(xué)習(xí)能力,從而提高整個(gè)模型的泛化能力。

        2.2 改進(jìn)的多尺度特征融合

        在YOLOv4中,當(dāng)輸入圖像大小為416*416時(shí),骨干網(wǎng)絡(luò)從輸入圖像中提取出3個(gè)層次的有效特征層C1,C2和C3。為了讓整個(gè)模型學(xué)習(xí)到更加多樣化的特征,提高模型的檢測性能,目標(biāo)檢測網(wǎng)絡(luò)的特征融合部分對(duì)不同層級(jí)的特征做進(jìn)一步的增強(qiáng)和融合。本文對(duì)YOLOv4中的PANet部分進(jìn)行改進(jìn)。改進(jìn)主要包括了跨層連接、重復(fù)堆疊、直接連接和加權(quán)特征融合4個(gè)方面。在本文所有的實(shí)驗(yàn)中,當(dāng)兩個(gè)或多個(gè)特征進(jìn)行融合的時(shí)候,采用的是元素對(duì)位相加(element-wise add)的方式,而不是特征圖堆疊(concat)的方式。

        2.2.1 跨層連接

        在圖5(a)PANet的基礎(chǔ)上,首先去除了未經(jīng)過特征融合的即只有一個(gè)輸入的節(jié)點(diǎn),即P3和P1,因?yàn)槲唇?jīng)過特征融合的特征圖對(duì)多尺度預(yù)測的貢獻(xiàn)較小。其次在同一尺度的輸入特征圖和輸出特征圖之間增加一條新的連接,以融合更豐富的特征,稱為跨層連接,最終的網(wǎng)絡(luò)結(jié)構(gòu)如圖5(b)所示,圖中的短劃線表示引入的跨層連接。

        圖5 PANet和跨層連接的結(jié)構(gòu)

        以特征圖P2_1為例,使用跨層連接之后,特征圖P2_1的計(jì)算方法如公式(5)所示:

        P2_1=C2+upSample(C3)

        (5)

        式中,upSample()是上采樣函數(shù),實(shí)驗(yàn)中使用縮放因子為2的最近鄰上采樣。

        特征圖P2_2的計(jì)算方法如公式(6)所示:

        P2_2=C2+P2_1+downSample(P1_2)

        (6)

        式中,downSample()是下采樣函數(shù),在實(shí)驗(yàn)中使用步長為2的卷積進(jìn)行下采樣。

        2.2.2 重復(fù)堆疊

        為了進(jìn)行充分的加強(qiáng)特征提取,在Neck部分將設(shè)計(jì)的特征金字塔結(jié)構(gòu)多次堆疊。如圖6所示,將設(shè)計(jì)的跨層連接結(jié)構(gòu)重復(fù)堆疊了3次,以獲得更有效的特征融合和特征表達(dá)。

        圖6 重復(fù)堆疊后的網(wǎng)絡(luò)

        2.2.3 直接連接

        針對(duì)卷積過程中小對(duì)象容易丟失的問題,在特征融合網(wǎng)絡(luò)中設(shè)計(jì)了信息直接連接層。在跨尺度連接特征融合金字塔的每個(gè)迭代輸出節(jié)點(diǎn)中,我們使用信息直接連接層與初始輸入特征圖進(jìn)行特征融合,使小目標(biāo)特征信息在特征提取過程中保持完整,如圖7所示。圖中的6條點(diǎn)劃線表示6處直接連接。

        圖7 使用直接連接之后的網(wǎng)絡(luò)結(jié)構(gòu)

        以特征圖P2_4為例,使用信息直接連接之后,特征圖P2_4的輸出為:

        P2_4=C2+P2_2+P2_3+downSample(P1_4)

        (7)

        2.2.4 加權(quán)特征融合

        當(dāng)融合具有不同分辨率的特征時(shí),常見的方法是先將它們的大小調(diào)整為相同的分辨率,然后直接再對(duì)其求和。在PANet中,網(wǎng)絡(luò)均等地對(duì)待所有輸入特征,而不同的輸入特征具有不同的分辨率,它們對(duì)輸出特征的貢獻(xiàn)通常是不相等的。為了解決這個(gè)問題,為每個(gè)輸入添加額外的權(quán)重,并讓網(wǎng)絡(luò)學(xué)習(xí)每個(gè)輸入特征的重要性。采用快速歸一化融合[20]的方法來進(jìn)行加權(quán)特征融合,它的計(jì)算方法如公式(8)所示:

        (8)

        式中,O是輸出特征,Ii是要第i個(gè)要融合的特征,wi是第i個(gè)要融合特征的權(quán)重,在每個(gè)wi后應(yīng)用ReLU激活函數(shù)來確保wi大于0。以及ε設(shè)置為0.000 1是為了避免數(shù)值不穩(wěn)定。網(wǎng)絡(luò)在訓(xùn)練的過程中能夠?qū)W習(xí)到對(duì)于各個(gè)輸入特征的權(quán)重,從而實(shí)現(xiàn)有側(cè)重地進(jìn)行特征融合。

        以特征圖P2_4為例,使用加權(quán)特征融合之后,特征圖P2_4的輸出為:

        (9)

        2.3 改進(jìn)的YOLOv4算法整體框架

        最終,本文將提出的算法稱為MP-YOLOv4,MP-YOLOv4算法的整體框架如圖8所示。首先,使用改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)算法為模型提供單張?jiān)紙D像、4張圖片拼接成的合成圖像和6張圖片拼接成的合成圖像共3種形式的訓(xùn)練輸入數(shù)據(jù);其次由Backbone從輸入圖像中提取特征并獲得3個(gè)初步的有效特征層用于構(gòu)建特征金字塔;然后使用改進(jìn)的路徑整合網(wǎng)絡(luò)PANet來進(jìn)行多尺度特征增強(qiáng)和融合;最后使用YoloHead得出預(yù)測結(jié)果。

        圖8 MP-YOLOv4的整體框架

        3 實(shí)驗(yàn)驗(yàn)證和分析

        3.1 實(shí)驗(yàn)設(shè)置

        本文實(shí)驗(yàn)的硬件環(huán)境為:處理器為Inter(R)Xeon(R)CPU E5-2640 v4 @2.4 GHz,顯卡為NVIDIA 1080Ti(11G)。網(wǎng)絡(luò)訓(xùn)練階段的軟件開發(fā)環(huán)境為:操作系統(tǒng)是64位CentOS Linux 7;驅(qū)動(dòng)版本是460.80;CUDA版本是11.2;深度學(xué)習(xí)框架是Pytorch1.4.0;編程語言是Python3.7。關(guān)于目標(biāo)檢測模型訓(xùn)練過程中,網(wǎng)絡(luò)參數(shù)的設(shè)置為:使用在COCO數(shù)據(jù)集上訓(xùn)練獲得的YOLOv4整體網(wǎng)絡(luò)的預(yù)訓(xùn)練權(quán)重;網(wǎng)絡(luò)輸入圖像的高和寬是416和416;總共訓(xùn)練100個(gè)世代(epoch);YOLOv4網(wǎng)絡(luò)訓(xùn)練分為兩個(gè)階段,凍結(jié)訓(xùn)練階段網(wǎng)絡(luò)的主干部分被凍結(jié),特征提取網(wǎng)絡(luò)的參數(shù)不發(fā)生改變,解凍訓(xùn)練階段整個(gè)網(wǎng)絡(luò)的參數(shù)都會(huì)發(fā)生改變;凍結(jié)訓(xùn)練階段的batch_size設(shè)置為8,解凍訓(xùn)練階段的batch_size設(shè)置為4;凍結(jié)訓(xùn)練階段初始學(xué)習(xí)率為10-3,解凍訓(xùn)練階段的初始學(xué)習(xí)率設(shè)置為10-4,學(xué)習(xí)率策略使用余弦退火學(xué)習(xí)率;使用多線程讀取數(shù)據(jù),num_workers設(shè)置為4;使用Adam優(yōu)化算法。

        3.2 實(shí)驗(yàn)數(shù)據(jù)集

        FlickrLogos-32數(shù)據(jù)集[21]由從Flickr官網(wǎng)上收集的真實(shí)世界的圖像組成,共包含了32種Logo。整個(gè)數(shù)據(jù)集被分割為3個(gè)不相交的子集P1、P2和P3。第P1是訓(xùn)練集,由每個(gè)類10張人工精心挑選的圖像組成,這些圖像中僅包含單個(gè)Logo,且背景干擾較少。另外P2(驗(yàn)證集)和P3(測試集)每個(gè)類包含30張圖像。與P1不同的是,這些圖像包含了一個(gè)或多個(gè)Logo實(shí)例,且實(shí)例的背景更復(fù)雜。

        3.3 評(píng)價(jià)指標(biāo)

        在本文中使用COCO評(píng)價(jià)指標(biāo),包括AP、AP50、AP75、APS、APM和APL。其中AP為0.50到0.95之間10個(gè)不同IOU設(shè)置下平均準(zhǔn)確率的平均值;AP50為IOU等于0.5時(shí)所有類別上的平均準(zhǔn)確度;AP75指標(biāo)更加嚴(yán)格,表示IOU等于0.75時(shí)所有類別上的平均準(zhǔn)確度;APS、APM和APL分別描述模型在小目標(biāo)、中目標(biāo)和大目標(biāo)上的準(zhǔn)確度。使用模型大小(model size)來評(píng)估模型所占的內(nèi)存空間。

        3.4 實(shí)驗(yàn)過程

        3.4.1 驗(yàn)證改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法

        本節(jié)將首先確定相對(duì)較好的比例設(shè)置,其次驗(yàn)證提前30個(gè)epoch終止訓(xùn)練的有效性。

        在不同比例設(shè)置下的YOLOv4模型上的實(shí)驗(yàn)結(jié)果如表1所示。

        表1 不同比例設(shè)置下的模型性能

        實(shí)驗(yàn)M1(1∶0∶0)中僅使用mos1圖像訓(xùn)練,實(shí)驗(yàn)M2(1∶1∶0)中均等地使用mos1和mos4圖像訓(xùn)練,這是原始YOLOv4算法中的設(shè)置,實(shí)驗(yàn)M3(1∶0∶1)中均等地使用mos1和mos6圖像訓(xùn)練,對(duì)比這3個(gè)實(shí)驗(yàn)可以發(fā)現(xiàn),M2和M3都可以提升模型的性能,且M2的提升要相對(duì)更明顯;值得注意的是,M3雖在其他指標(biāo)上不如M2,但是M3(使用了mos6數(shù)據(jù))提高了模型在小目標(biāo)(APS)檢測方面的性能。實(shí)驗(yàn)M4(1∶1∶1)中均等地使用mos1、mos4和mos6數(shù)據(jù)進(jìn)行訓(xùn)練,比M2和M3的效果都要好。這證明了在原始Mosaic基礎(chǔ)上,添加mos6數(shù)據(jù)進(jìn)行訓(xùn)練能夠改善模型性能。

        為了驗(yàn)證數(shù)據(jù)集應(yīng)該更側(cè)重于mos1、mos4和mos6中的哪一種,開展了實(shí)驗(yàn)M5(2∶1∶1),M6(1∶2∶1),M7(1∶1∶2),與實(shí)驗(yàn)M4(1∶1∶1)分別進(jìn)行對(duì)比,可以得出結(jié)論,當(dāng)使用比例1∶1∶2,即當(dāng)數(shù)據(jù)集更側(cè)重本文提出的mos6數(shù)據(jù)時(shí),模型在犧牲很少APM的情況下,在其他指標(biāo)上的性能都獲得了大幅度提升。因此,選擇1∶1∶2這個(gè)相對(duì)來說最優(yōu)的比例作為模型訓(xùn)練過程中的輸入設(shè)置,即有0.25的概率輸入mos1數(shù)據(jù),同樣有0.25的概率輸入mos4數(shù)據(jù),有0.5的概率輸入本文提出的mos6數(shù)據(jù)。

        為了驗(yàn)證提出的Mosaic訓(xùn)練策略的有效性,即在訓(xùn)練結(jié)束的前30個(gè)epoch關(guān)閉Mosaic數(shù)據(jù)增強(qiáng)技術(shù)是否能夠提升模型的性能,在兩種情況下分別進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示。2∶2∶1(w)表示使用提出的訓(xùn)練策略,2∶2∶1(wo)表示不使用。通過實(shí)驗(yàn)結(jié)果可以得出結(jié)論,在損失很小AP50和APM的條件下,其他指標(biāo)獲得了較大幅度的提升。因此,本文提出的提前終止Mosaic數(shù)據(jù)增強(qiáng)的訓(xùn)練策略是有效的。

        表2 是否使用訓(xùn)練策略的對(duì)比實(shí)驗(yàn)結(jié)果

        3.4.2 驗(yàn)證改進(jìn)的PANet

        為了驗(yàn)證改進(jìn)的Neck中跨層連接(①)、反復(fù)堆疊(②)、直接連接(③)和加權(quán)特征融合(④)4個(gè)方面分別對(duì)于網(wǎng)絡(luò)的有效性,下面對(duì)改進(jìn)了Neck進(jìn)行了消融實(shí)驗(yàn)分析。實(shí)驗(yàn)結(jié)果如表所示。實(shí)驗(yàn)BL是基線實(shí)驗(yàn),未使用任何一個(gè)改進(jìn),實(shí)驗(yàn)N1使用了跨層連接(①),實(shí)驗(yàn)N2在N1基礎(chǔ)上多次堆疊了特征金字塔模塊(②),實(shí)驗(yàn)N3進(jìn)一步引入了跨層連接(③),實(shí)驗(yàn)N4在N3的基礎(chǔ)上引入了加權(quán)特征融合(④)。通過分析表3發(fā)現(xiàn),依次引入每一個(gè)改進(jìn)都在一定程度上改善了模型性能。同時(shí)引入以上4個(gè)方面的改進(jìn),在減少21.7%模型大小的同時(shí),在所有指標(biāo)上的精度都獲得了提升,平均精度(AP)提高了0.8%,IOU等于0.5時(shí)的平均精度(AP50)提高了1.2%。

        表3 特征融合實(shí)驗(yàn)

        3.4.3 總體實(shí)驗(yàn)

        為了驗(yàn)證文中提出MP-YOLOv4目標(biāo)檢測算法的有效性,在FlickrLogos-32數(shù)據(jù)集上對(duì)YOLOv4算法和MP-YOLOv4算法進(jìn)行了訓(xùn)練和測試,并與YOLOv3、SSD[22]和Faster R-CNN等經(jīng)典的目標(biāo)檢測算法進(jìn)行對(duì)比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表4所示。與YOLOv4相比,本文提出的MP-YOLOv4方法在IOU等于0.5時(shí)的平均精度值(AP50)達(dá)到了67.4,AP50提高了2.4%,模型大小減小了21.7%。

        與YOLOv3、以VGG為骨干的Faster R-CNN和以Resnet50為骨干的Faster R-CNN以及SSD相比,本文提出的MP-YOLOv4算法在精度方面達(dá)到了最高,同時(shí)在模型大小方面也達(dá)到了可觀的水平,因此在模型大小和模型精度之間獲得了一個(gè)較好的平衡。

        3.4.4 消融實(shí)驗(yàn)

        為了分別驗(yàn)證文中提出的改進(jìn)的Mosaic數(shù)據(jù)增強(qiáng)方法和改進(jìn)的PANet的有效性,開展了以下的消融實(shí)驗(yàn)。在基線實(shí)驗(yàn)T1中未采用本文提出的任何一個(gè)改進(jìn),在實(shí)驗(yàn)T2中僅采用了改進(jìn)的Mosaic(IM,improved mosaic),設(shè)置3種輸入的比例為1∶1∶2,在實(shí)驗(yàn)T3中僅采用了改進(jìn)的特征融合部分(IP,improved PANet),在實(shí)驗(yàn)T4中同時(shí)采用了本文提出的兩個(gè)改進(jìn)。實(shí)驗(yàn)結(jié)果如表5所示。通過分析表5可以得出結(jié)論,引入兩個(gè)改進(jìn)中的任意一個(gè)都在一定程度上提高模型在所有指標(biāo)上的性能,同時(shí)引入這兩個(gè)改進(jìn),能在最大程度上提升模型性能。

        表5 消融實(shí)驗(yàn)研究

        通過表4可以得出結(jié)論,本文提出的MP-YOLOv4算法在平均精度(AP)上達(dá)到了36.7%,較YOLOv4提高了2.2個(gè)百分點(diǎn),IOU等于0.5時(shí)的平均精度(AP50)達(dá)到了67.4%,較YOLOv4提高了2.4個(gè)百分點(diǎn)。同時(shí)在APS、APM和APL等指標(biāo)上均有提高,說明MP-YOLOv4算法相比于YOLOv4在多尺度檢測問題方面的性能得到了改善。

        表4 YOLOv4和MP-YOLOv4的對(duì)比實(shí)驗(yàn)結(jié)果

        3.4.5 可視化研究

        除了定量的實(shí)驗(yàn)結(jié)果之外,圖9展示了YOLOv4算法和MP-YOLOv4算法對(duì)于FlickrLogo-32數(shù)據(jù)集中一些有挑戰(zhàn)性樣本的檢測結(jié)果。其中圖(a)、(b)、(c)為YOLOv4 網(wǎng)絡(luò)的檢測結(jié)果,圖(d)、(e)、(f)為MP-YOLOv4算法的檢測結(jié)果。從圖中可以得出結(jié)論,本文提出的MP-YOLOv4算法對(duì)于小尺寸目標(biāo)、密集目標(biāo)和光照條件差等條件下有著更好的檢測性能,存在更少漏檢和誤檢等情況。

        圖9 YOLOv4和MP-YOLOv4的檢測效果對(duì)比

        4 結(jié)束語

        針對(duì)Logo檢測任務(wù)中出現(xiàn)的復(fù)雜背景干擾和多尺度目標(biāo)等問題,本文提出了一種改進(jìn)目標(biāo)檢測算法MP-YOLOv4。改進(jìn)了YOLOv4中的Mosaic數(shù)據(jù)增強(qiáng)算法,提出使用6張圖片混合、四張圖片混合和單張圖片3種形式來共同作為模型的訓(xùn)練輸入,并確定了3種輸入的相對(duì)最優(yōu)比例,同時(shí)采用了在訓(xùn)練結(jié)束前30個(gè)epoch關(guān)閉Mosaic數(shù)據(jù)增強(qiáng)方法訓(xùn)練策略,改進(jìn)的Mosaic方法豐富了Logo對(duì)象出現(xiàn)的背景,使得模型更好地學(xué)習(xí)到Logo對(duì)象的全局特征和局部特征,并優(yōu)化了模型訓(xùn)練。結(jié)合跨層連接、重復(fù)堆疊、直接相連和加權(quán)特征融合等操作重新設(shè)計(jì)了網(wǎng)絡(luò)的加強(qiáng)特征融合部分,增強(qiáng)了網(wǎng)絡(luò)的多尺度特征表達(dá)能力。實(shí)驗(yàn)結(jié)果表明,相較于YOLOv4算法,本文提出的方法壓縮了21.7%的模型大小,在平均精度上提高了2.2個(gè)百分點(diǎn),在IOU等于0.5時(shí)的平均精度提高了2.4個(gè)百分點(diǎn)。同時(shí),在小、中和大目標(biāo)檢測方面的性能都有提升。這說明,本文提出的MP-YOLOv4算法能更好地解決Logo檢測任務(wù)中的復(fù)雜背景和多尺度問題。

        猜你喜歡
        特征融合實(shí)驗(yàn)
        記一次有趣的實(shí)驗(yàn)
        村企黨建聯(lián)建融合共贏
        融合菜
        從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
        《融合》
        如何表達(dá)“特征”
        做個(gè)怪怪長實(shí)驗(yàn)
        不忠誠的四個(gè)特征
        抓住特征巧觀察
        NO與NO2相互轉(zhuǎn)化實(shí)驗(yàn)的改進(jìn)
        日本激情久久精品人妻热| 黄片视频免费在线观看国产| 色佬精品免费在线视频| 亚洲av色影在线| 含紧一点h边做边走动免费视频| 四虎影视免费永久在线观看| 99精产国品一二三产品香蕉| 国产精品厕所| 亚洲国产精品线观看不卡| 无码精品国产午夜| 白丝美女扒开内露出内裤视频 | 国产自拍精品一区在线观看| 免费观看又色又爽又湿的视频| 最新亚洲精品国偷自产在线| 无码AV高潮喷水无码专区线| 国产aⅴ丝袜旗袍无码麻豆 | 自拍成人免费在线视频| 亚洲男同gay在线观看| 欧美日韩一区二区综合 | 99热成人精品国产免| 一本一道久久a久久精品综合蜜桃 成年女人18毛片毛片免费 | 青青视频在线播放免费的| 偷拍美女上厕所一区二区三区| 国产乱子伦精品无码专区| 日本大尺度吃奶呻吟视频| 久久熟女五十路| 人妻少妇偷人精品久久人妻| 不卡的av网站在线观看| 好日子在线观看视频大全免费动漫| 国产91对白在线观看| 日本在线观看三级视频| 精品人妻av一区二区三区| 国产熟人av一二三区| 国产精品久久中文字幕第一页 | 国产福利一区二区三区视频在线看| 中文字幕乱码熟女人妻在线 | 在线小黄片视频免费播放| 在线观看的网站| 中文字幕亚洲欧美日韩2019| 国产综合色在线视频| 成人特黄特色毛片免费看|