周 峰,劉云翔,石艷嬌
(上海應(yīng)用技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,上海 201418)
隨著人工智能、云計(jì)算和交通大數(shù)據(jù)等先進(jìn)技術(shù)的發(fā)展,自動(dòng)駕駛技術(shù)越來(lái)越成熟[1]。交通標(biāo)志識(shí)別作為自動(dòng)駕駛的重要組成部分,在自動(dòng)駕駛領(lǐng)域安全上發(fā)揮巨大作用。交通標(biāo)志中含有豐富的道路信息和語(yǔ)義信息,所以在車輛行駛的過(guò)程中,準(zhǔn)確且高效的識(shí)別出交通標(biāo)志,是保障車輛自動(dòng)駕駛安全性的重要基礎(chǔ)。交通標(biāo)志通常是根據(jù)其形狀和顏色分為不同的類別,例如:紅框三角形危險(xiǎn)標(biāo)志、紅框圓形限速標(biāo)志和藍(lán)色圓形強(qiáng)制性標(biāo)志等。然而,在實(shí)踐過(guò)程中,交通標(biāo)志識(shí)別的各種情況是復(fù)雜的,比如:光照條件難以控制,不同的季節(jié)、天氣下的亮度不同;交通標(biāo)志常年暴露在室外,部分交通標(biāo)識(shí)褪色不清晰等情況;交通標(biāo)志也存在著被樹木枝葉遮擋的情況,這些情況使得自動(dòng)駕駛系統(tǒng)中的交通標(biāo)志檢測(cè)和識(shí)別任務(wù)變得困難。為了更好的解決自動(dòng)駕駛的出行安全,提高交通標(biāo)志識(shí)別的準(zhǔn)確性和實(shí)時(shí)檢測(cè)的魯棒性對(duì)自動(dòng)駕駛顯得格外重要[2]。
近年來(lái),越來(lái)越多的學(xué)者開始投身于使用基于深度學(xué)習(xí)的方法,與傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,深度學(xué)習(xí)方法提取的特征更具有語(yǔ)義信息。YOLO[3]算法是一種實(shí)時(shí)監(jiān)測(cè)器,趙坤等人[4]提出了一種基于YOLOv3的自適應(yīng)圖像增強(qiáng)方法來(lái)解決復(fù)雜光照下拍攝的圖像樣本模型的情況,然后改進(jìn)YOLOv3中的聚類算法和損失函數(shù),使訓(xùn)練模型更加魯棒。郭繼峰等[5]人將深度可分離卷積應(yīng)用到Y(jié)OLOv4模型的上,將特征提取網(wǎng)絡(luò)得到的不同層次特征圖輸入雙向特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)中進(jìn)行多尺度特征融合,不僅網(wǎng)絡(luò)模型和計(jì)算量變小,而且檢測(cè)速度與精度有了一定的提升。深度學(xué)習(xí)方法為交通標(biāo)志識(shí)別提供了更好的工具。相較于傳統(tǒng)基于顏色、形狀的模型分析方法,基于深度學(xué)習(xí)的方法它通常可以獲得更好的識(shí)別結(jié)果,但是大多數(shù)應(yīng)用于交通標(biāo)志檢測(cè)的深度學(xué)習(xí)方法通常使用的是卷積神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)在圖像識(shí)別廣泛應(yīng)用,卷積是一種線性運(yùn)算,它通過(guò)以給定圖像特征為中心的面片X與窗形濾波器W,即WX + B之間的離散卷積運(yùn)算提取局部圖像特征,因此卷積受限于感受域(窗口濾波器)的大小設(shè)定,所以卷積很難獲取長(zhǎng)距離的像素關(guān)系[6]。同時(shí)卷積神經(jīng)網(wǎng)絡(luò)中的卷積函數(shù)缺乏旋轉(zhuǎn)不變性,而且學(xué)習(xí)參數(shù)數(shù)量會(huì)隨著卷積核的數(shù)量和卷積核尺寸大小變大而增大,這樣容易導(dǎo)致模型的參數(shù)數(shù)量和計(jì)算量過(guò)大,不能滿足交通標(biāo)志識(shí)別的實(shí)時(shí)性要求。
針對(duì)上述提出的問(wèn)題,本文設(shè)計(jì)出一種融合多頭自注意力機(jī)制和卷積運(yùn)算的A-CSP模塊用于改進(jìn)YOLOV4-tiny交通標(biāo)志識(shí)別算法得到A-YOLO模型。本文提出的A-YOLO模型有以下特點(diǎn):1)D-CSP模塊將輸入特征圖分為兩個(gè)分支,一個(gè)分支通過(guò)深度可分離卷積生成半冗余特征圖,另一個(gè)分支通過(guò)普通卷積操作生成必要的特征映射,然后將兩個(gè)輸出融合獲得最后的特征圖,D-CSP模塊明顯減少了模型的參數(shù)數(shù)量。2)不同于VIT[7]模型,本文Attention層不直接將圖片進(jìn)行分割成固定長(zhǎng)度的Tokens,而是使用卷積和展平操作將圖片變?yōu)門okens,卷積操作可以獲得低級(jí)特征(物體的邊緣、角等),這樣的輸入促進(jìn)多頭自注意力機(jī)制獲取像素級(jí)特征的相關(guān)性,有助于Attention層提取細(xì)節(jié)信息。3)A-YOLO模型前幾層采用D-CSP模塊獲取低層信息,在最后一層采用A-CSP模塊對(duì)含有豐富語(yǔ)義的高層進(jìn)行局部特征和全局特征提取,特征融合不采用逐元素相加,而采用1×1的卷積自適應(yīng)調(diào)整融合特征,增強(qiáng)提取特征圖的語(yǔ)義信息。4)對(duì)比于YOLOv4-tiny模型使用兩層不同尺寸特征圖進(jìn)行預(yù)測(cè)回歸,A-YOLO模型采用四層不同尺寸特征圖進(jìn)行交通標(biāo)志識(shí)別,有效減少目標(biāo)的漏檢和誤檢。
實(shí)驗(yàn)結(jié)果表明,融合多頭自注意力機(jī)制的跨階段部分網(wǎng)絡(luò)A-CSP模塊和D-CSP模塊的A-YOLO的模型大小小于YOLOv4-tiny,并且在交通標(biāo)志識(shí)別的準(zhǔn)確率有一定提升。
Bochkovskiy等人提出了YOLOv4[8]的模型,相比較YOLOv3[9]而言,YOLOv4在輸入端進(jìn)行了改進(jìn),主要包括Mosaic數(shù)據(jù)增強(qiáng)、SAT自對(duì)抗訓(xùn)練等,在BackBone主干網(wǎng)絡(luò)中將各種新方法結(jié)合在一起,包括:CSPDarknet53、MISH激活函數(shù)和DropBlock正則化方法。YOLOv4-tiny是YOLOv4的輕量級(jí)網(wǎng)絡(luò)模型,YOLOv4-tiny的模塊如圖1所示。YOLOv4-tiny取消特征金字塔的合并,將PAN結(jié)構(gòu)替換為FPN結(jié)構(gòu),只選擇兩個(gè)縮放的特征層進(jìn)行分類和回歸。YOLOv4-tiny中,其使用了CSPdarknet53_tiny作為主干特征提取網(wǎng)絡(luò)。和CSPdarknet53相比,為了更快速,將激活函數(shù)重新修改為L(zhǎng)eakyReLU激活函數(shù)。YOLOv4-tiny模型參數(shù)量小,推理速度比YOLOv4更快,可用于交通標(biāo)志識(shí)別,滿足交通標(biāo)志識(shí)別的實(shí)時(shí)性。
圖1 YOLOv4-tiny架構(gòu)
卷積運(yùn)算如圖2所示。
圖2 卷積運(yùn)算示意圖
由圖2可知,卷積運(yùn)算公式如式(1):
f(x,y)*g(m,n)=∑f(x,y)g(m-x,n-y)
(1)
從式(1)和圖2可以知道,卷積運(yùn)算實(shí)際上只考慮距離點(diǎn)(x,y)相鄰像素的影響,影響大小隨著卷積核尺寸的大小而變化。卷積運(yùn)算受限于感受域的大小設(shè)定,卷積很難獲取長(zhǎng)距離的像素關(guān)系,但是自注意力機(jī)制很好地解決了這個(gè)問(wèn)題。
深度可分離卷積將一般卷積過(guò)程分為了逐深度卷積和逐點(diǎn)卷積,在損失一點(diǎn)精度的情況下,使模型計(jì)算量大幅下降,速度更快。深度可分離卷積被應(yīng)用于兩個(gè)著名模型:Xception[11]和MobileNet[12]。
本質(zhì)上,注意力就是從大量信息中過(guò)濾出少量重要的信息,并專注于重要信息而忽略大部分無(wú)關(guān)信息。自注意力機(jī)制[13]是注意力機(jī)制的一種變體,它以自身作為輸入,減少對(duì)外部信息的依賴,更好地捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性[14,15]。近年來(lái),自注意力模型更廣泛地應(yīng)用于機(jī)器翻譯和自然語(yǔ)言處理,這啟發(fā)了自注意力機(jī)制于圖像識(shí)別、圖像合成、視頻預(yù)測(cè)中的應(yīng)用。Chen等人[16]提出了自注意力機(jī)制在圖像分類的改進(jìn),并使用非局部手段的變體在視頻動(dòng)作識(shí)別任務(wù)上實(shí)現(xiàn)很好的結(jié)果。Bello等[17]人沒(méi)有單獨(dú)使用卷積,而是通過(guò)直接串聯(lián)將卷積和自注意力機(jī)制結(jié)合起來(lái),取得了很有希望的改進(jìn)。這表明組合這兩個(gè)操作符對(duì)提高性能有很大幫助。
A-YOLO模型將融合多頭自注意力機(jī)制的A-CSP模塊融入到Darknet53-tiny作為特征提取網(wǎng)絡(luò),使用多頭自注意力模塊允許模型關(guān)注全局像素間的相互作用,同時(shí)卷積的平移不變性為它對(duì)圖像進(jìn)行局部特征構(gòu)造提供強(qiáng)大動(dòng)力,A-CSP模塊將同一尺度的多頭自注意力模塊提取的全局特征和卷積運(yùn)算提取的局部特征融合在一起,對(duì)四個(gè)不同尺度特征圖進(jìn)行目標(biāo)框的回歸和種類的預(yù)測(cè),檢測(cè)出不同大小的目標(biāo)。損失函數(shù)采用YOLOV4-tiny的CIOU損失作為邊界框回歸損失,置信度損失和分類損失為交叉熵?fù)p失函數(shù)。
A-YOLO模型的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 A-YOLO架構(gòu)圖
D-CSP跨階段網(wǎng)絡(luò)模塊如圖4所示,通過(guò)1.3節(jié)的分析可知,深度可分離卷積的運(yùn)算量遠(yuǎn)小于普通卷積的運(yùn)算量,同時(shí)受到CSPNet[18]啟發(fā),將深度可分離卷積融入到CSP跨階段網(wǎng)絡(luò)結(jié)構(gòu)中,使用深度可分離卷積去計(jì)算生成半冗余特征圖來(lái)減少運(yùn)算量。所以正如圖4所示的D-CSP模塊結(jié)構(gòu)圖,第一個(gè)分支使用深度卷積操作生成半冗余特征圖,另一個(gè)分支只通過(guò)一個(gè)3×3的普通卷積來(lái)生成另一半必要特征映射,然后將兩個(gè)輸出通過(guò)一個(gè)1×1的普通卷積運(yùn)算交互在一起獲得特征圖。
圖4 D-CSP模塊結(jié)構(gòu)圖
A-CSP模塊是D-CSP模塊的變體,正如圖5,將D-CSP模塊中的普通卷積運(yùn)算替換成多頭自注意力機(jī)制模塊,就是將深度可分離卷積運(yùn)算與多頭自注意力機(jī)制并聯(lián)起來(lái),最后再通過(guò)1×1的普通卷積運(yùn)算將兩個(gè)通道的特征融合在一起。其中Attention層的網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示,Attention層將分成以下二個(gè)部分介紹。
圖5 A-CSP模塊結(jié)構(gòu)圖
圖6 Attention層結(jié)構(gòu)圖
A)圖像數(shù)據(jù)轉(zhuǎn)序列化數(shù)據(jù):
在自然語(yǔ)言處理中,語(yǔ)言是序列化的,可用相對(duì)應(yīng)得詞向量輸入到多頭自注意力機(jī)制模塊中得到結(jié)果,但是在圖像識(shí)別中得圖像數(shù)據(jù)是三維的,所以需要將圖像這種三維數(shù)據(jù)轉(zhuǎn)化為序列化數(shù)據(jù)。設(shè)圖像大小為(H,W,N),多頭自注意力機(jī)制很難高效地提取一些細(xì)節(jié)信息,所以本文先使用1×1的普通卷積運(yùn)算和展平操作將圖像轉(zhuǎn)成矩陣X∈RHW×Nin,為了對(duì)圖像原始位置編碼,本文使用線性變化函數(shù)y=XAT+b對(duì)上述的二維矩陣進(jìn)行映射操作,同時(shí)將映射出來(lái)的結(jié)果再加上X得到X′,使X′保持原來(lái)的序列,公式如下式(2)
LR(X)=X′=X+(XAT+b)
(2)
B)序列化數(shù)據(jù)編碼
首先對(duì)于自注意力模塊來(lái)說(shuō),底層的輸入為X′,首先使用三個(gè)矩陣MQ∈RNin×Nq,MK∈RNin×Nk,MV∈RNin×Nv分別與X′相乘映射得到q,k,v,其中Nq、Nk、Nv代表著查詢、鍵、值的深度,公式如式(3)、(4)、(5)
q=MQX′
(3)
k=MkX′
(4)
v=MVX′
(5)
(6)
多頭自注意力模塊是由h個(gè)自注意力模塊組成,對(duì)于輸入數(shù)據(jù)X′進(jìn)行可學(xué)習(xí)的線性映射后,接著輸入到各自的自注意力模塊中可得到不同的特征值,然后將所有頭部的輸出進(jìn)行連接并再次投影,公式如式(7)所示,其中w∈RhNv×Nin為一個(gè)可學(xué)習(xí)的線性轉(zhuǎn)換。
MHSA(X′)=Concat[b1,b2,b3,…,bh]w
(7)
Attention層受到殘差網(wǎng)絡(luò)的啟發(fā),加入殘差網(wǎng)絡(luò)結(jié)構(gòu),直接引入一個(gè)短鏈接到多頭自注意力層后線性層的輸出上,使得整個(gè)映射變?yōu)?O(X)=MHSA(LR(x))+X,引入殘差網(wǎng)絡(luò)好處是一方面是殘差網(wǎng)絡(luò)使輸入信號(hào)可以從任意低層直接傳播到高層。因?yàn)楹幸粋€(gè)直接的恒等映射,這樣可以解決網(wǎng)絡(luò)訓(xùn)練退化的問(wèn)題;另一方面是錯(cuò)誤的信號(hào)可以不經(jīng)過(guò)任何中間權(quán)重矩陣變換直接傳播到低層,可以緩解梯度彌散問(wèn)題。
由第1節(jié)可知,卷積運(yùn)算和多頭自注意力機(jī)制這兩個(gè)計(jì)算模塊是相互補(bǔ)充的,即卷積運(yùn)算提取的局部信息和多頭自注意力機(jī)制提取的全局信息可以相互結(jié)合,卷積采用了局部處理的歸納偏置,產(chǎn)生有效的局部語(yǔ)義特征。與卷積不同,多頭自注意力機(jī)制體現(xiàn)了低歸納偏差,釋放出更多的自注意力空間來(lái)自由探索數(shù)據(jù)集的固有特征,有利于更好的性能和泛化,同時(shí)多頭自注意力機(jī)制動(dòng)態(tài)的生成各個(gè)像素之間不同連接的權(quán)重,這樣多頭自注意力機(jī)制更容易獲得遠(yuǎn)距離的像素的相互依賴關(guān)系,所以將這兩個(gè)模塊相互結(jié)合強(qiáng)化各自的優(yōu)勢(shì),這樣更有效提取圖像的特征,相應(yīng)的結(jié)合自注意力和卷積操作可以寫成式(8):
A-Conv(X)=Concat[O(X),Conv(X)]
(8)
A-YOLO模型對(duì)不同尺度的特征圖進(jìn)行自下而上的多尺度特征融合,同時(shí)本文為了提升網(wǎng)絡(luò)檢測(cè)能力降低漏檢率,對(duì)四個(gè)不同尺度的特征圖進(jìn)行目標(biāo)框的回歸與預(yù)測(cè)。例如圖3所示,輸入圖像的分辨率為640×640,最后在160×160、80×80、40×40、20×20這四個(gè)分辨率上不同大小的目標(biāo)進(jìn)行檢測(cè)。
本文實(shí)驗(yàn)環(huán)境為Ubuntu 18.04系統(tǒng),顯卡為兩張TITAN X,顯存共為24GB。
本文實(shí)驗(yàn)數(shù)據(jù)集采用Tsinghua-Tencent 100K Tutorial(TT100K)數(shù)據(jù)集[19],該數(shù)據(jù)集是清華大學(xué)和騰訊公司合作制作,從 10 萬(wàn)張騰訊街景全景圖中創(chuàng)建了一個(gè)大型交通標(biāo)志基準(zhǔn),數(shù)據(jù)集提供了訓(xùn)練集6107張圖片,驗(yàn)證集包含3073張圖片,這些圖像涵蓋了照度和天氣條件的巨大變化,同時(shí)人工標(biāo)注的交通標(biāo)志數(shù)據(jù)集標(biāo)有類別標(biāo)簽、邊界框和像素掩碼。TT100K中圖像的分辨率為2024×2024,為高清攝像頭拍攝真實(shí)街景,其基數(shù)龐大、語(yǔ)義信息含量豐富,但數(shù)據(jù)樣本仍存在長(zhǎng)短尾效應(yīng),出現(xiàn)次數(shù)最多的交通標(biāo)志達(dá) 1479 次,最低的僅有 112 次,所以本文對(duì)數(shù)據(jù)集較少的交通標(biāo)志進(jìn)行馬賽克數(shù)據(jù)增強(qiáng)的操作,輸入進(jìn)模型的數(shù)據(jù)如下圖7所示,同時(shí)本文在本次實(shí)驗(yàn)中訓(xùn)練的輸入圖像分辨率為1280×1280。
圖7 訓(xùn)練輸入圖片,batch-size大小為16
在本文算法中,對(duì)于檢測(cè)框的大小是根據(jù)K-means聚類算法計(jì)算得出的,對(duì)于本文A-YOLO模型來(lái)說(shuō),檢測(cè)框需要12個(gè),通過(guò)使用K-means聚類算法計(jì)算后,在分辨率為1024×1024的圖像上,本文采用檢測(cè)框的大小為[8,9]、[11,12]、[14,15]、[18,19]、[15,28]、[23,24]、[29,30]、[37,38]、[32,55]、[49,48]、[66,63]、[106,99]。
本文采用mAP(mean Average Precision)作為評(píng)判標(biāo)準(zhǔn),mAP即各類別AP的平均值,mAP的精度越高代表算法的識(shí)別效果越好。mAP被描述為如下式(9),K表示類別
(9)
其中AP計(jì)算方式如下式(10):
(10)
本文為了驗(yàn)證A-CSP模塊在特征提取和融合的功能上的效果,本文在ImageNet數(shù)據(jù)集[23]上做分類實(shí)驗(yàn),ImageNet是一個(gè)標(biāo)準(zhǔn)的大規(guī)模數(shù)據(jù)集,用于跨一系列架構(gòu)的高分辨率影像。本文從ResNet架構(gòu)[20-22]開始,因?yàn)樗鼞?yīng)用廣泛,并且能夠在許多計(jì)算預(yù)算內(nèi)輕松擴(kuò)展。本文在ResNet架構(gòu)的最后1個(gè)階段的每個(gè)剩余塊中應(yīng)用A-CSP模塊,將A-CSP模塊融入到Resnet30、Resnet50、Resnet101上,多頭自注意力模塊的頭數(shù)量為4。由下表實(shí)驗(yàn)所知,與原Resnet30、Resnet50、Resnet101相比,A-CSP模塊不僅衰減了一定的網(wǎng)絡(luò)參數(shù)量,而且提升平均分類精度,證明了多頭自注意力機(jī)制提取的全局信息有效的補(bǔ)充了卷積運(yùn)算在局部近鄰的工作,所以卷積運(yùn)算通過(guò)線性計(jì)算提取局部信息,多頭自注意力機(jī)制對(duì)高階上下文關(guān)系進(jìn)行建立長(zhǎng)距離像素的相互作用提取全局信息,兩者運(yùn)算相互融合增強(qiáng)提取特征能力。
表2 A-CSP模塊消融實(shí)驗(yàn)
接著,本文為了驗(yàn)證D-CSP模塊網(wǎng)絡(luò)的表現(xiàn),將YOLOv4-tiny模型中的CSP模塊替換為D-CSP模塊,按照第一階段2層D-CSP模塊,第二階段4層D-CSP模塊,第三階段6層D-CSP模塊,相比較YOLOv4-tiny的61層,替換后的YOLOv4-tiny模型變成了277層,但是參數(shù)僅為4.81M,相比YOLOv4-tiny模型降低了21%,兩者精度很接近,僅差0.6%。在YOLOv4-tiny主干網(wǎng)絡(luò)上直接添加A-CSP模塊,即在YOLOv4-tiny模型上直接引入多頭自注意力模塊,參數(shù)數(shù)量有所增加,平均精度比原來(lái)的YOLOv4-tiny提高了1.2%。
最后,為了進(jìn)一步測(cè)試A-YOLO算法的性能,本文在相同參數(shù)下進(jìn)一步將A-YOLO與YOLOv3、,YOLOv3-tiny、YOLOv4-tiny、YOLOv5s等算法分別進(jìn)行對(duì)比,不同算法的性能對(duì)比,如表4所示。
從表4可知,A-YOLO的mAP對(duì)比于其它輕型網(wǎng)絡(luò)如YOLOv3-tiny、YOLOv4-tiny、YOLOv5s檢測(cè)的平均精度有一定提升。由表3所知,雖然A-YOLO模型參數(shù)量多于YOLOv4-tiny模型,但是本文采用模型量化技術(shù),在不明顯的精度損失情況下,使得A-YOLO模型大小小于YOLOv4-tiny模型的大小,雖然在相同設(shè)備上A-YOLO模型的FPS低于YOLOv4-tiny模型,也就是A-YOLO模型每秒處理的速度要低于YOLOv4-tiny模型,A-YOLO模型的推理時(shí)間高于YOLOv4-tiny模型,這是由于多頭自注意力機(jī)制推理速度慢于卷積運(yùn)算,但是A-YOLO模型檢測(cè)確高于YOLOv4-tiny模型,在一定的檢測(cè)效率上進(jìn)一步保證了自動(dòng)駕駛的安全。最后對(duì)比于最新的YOLOv5s模型,同樣是微模型,將多頭自注意力機(jī)制和深度可分離卷積結(jié)合在一起的A-YOLO模型檢測(cè)交通標(biāo)志的精度與速度均超過(guò)YOLOv5s模型。下圖8為A-YOLO模型在TT100K數(shù)據(jù)集的識(shí)別效果圖,可以看出,不管是遠(yuǎn)處的小目標(biāo)還是近處的大目標(biāo),A-YOLO模型都能識(shí)別出來(lái)。
表3 不同主干網(wǎng)絡(luò)在TT100k數(shù)據(jù)集進(jìn)行目標(biāo)檢測(cè)
表4 不同算法在TT100K數(shù)據(jù)集的目標(biāo)檢測(cè)
圖8 識(shí)別效果圖
本文提出一種結(jié)合多頭自注意力機(jī)制改進(jìn)YOLOv4-tiny模型的A-YOLO交通標(biāo)志識(shí)別模型,旨在解決現(xiàn)有路標(biāo)識(shí)別方法中模型參數(shù)過(guò)大、識(shí)別速度慢、識(shí)別準(zhǔn)確率低等問(wèn)題。本文設(shè)計(jì)的A-YOLO模型將多頭自注意力機(jī)制與卷積運(yùn)算結(jié)合在一起,卷積的性質(zhì)使像素?zé)o法建立長(zhǎng)期關(guān)系,而長(zhǎng)期關(guān)系通常有助于更好的視覺理解,多頭自注意力機(jī)制正好彌補(bǔ)這個(gè)缺陷。由于整體模型若都使用A-CSP模塊會(huì)導(dǎo)致模型參數(shù)量過(guò)大,所以本文在模型低層使用含有深度可分離卷積的D-CSP模塊以減少特征提取網(wǎng)絡(luò)參數(shù)大小,最后在四層不同尺度的特征圖上進(jìn)行檢測(cè)回歸,加強(qiáng)對(duì)各種尺寸目標(biāo)檢測(cè)。通過(guò)實(shí)驗(yàn)結(jié)論證明,本文提出的A-YOLO模型大小比傳統(tǒng)的YOLOv4-tiny模型減小了0.9MB,同時(shí)mAP提升了2.1個(gè)百分比,檢測(cè)精度提高到90.7%,在檢測(cè)速度方面,略低于YOLOv4-tiny模型。本文使用的多頭自注意力機(jī)制模塊是基于像素級(jí)操作,導(dǎo)致計(jì)算量較大、推理速度較慢,只能運(yùn)用在模型的最后一個(gè)尺度上進(jìn)行全局語(yǔ)義提取,在減少計(jì)算量和加快推理速度的同時(shí)將自注意力機(jī)制和卷積運(yùn)算更有效的有機(jī)結(jié)合,并應(yīng)用在目標(biāo)檢測(cè)上提升檢測(cè)精度仍有待進(jìn)一步研究。