沈國鑫,魏 怡,劉力手,尹天睿
(武漢理工大學(xué) 自動(dòng)化學(xué)院,武漢 430070)
近年來,隨著我國快速發(fā)展,城市人口密度迅速增加,這也增加了公共場合發(fā)生擁擠跌倒的概率和一些安全隱患,尤其是在地鐵站、公交站等等場合,如果發(fā)生跌倒現(xiàn)象而沒有及時(shí)發(fā)現(xiàn)就會(huì)產(chǎn)生嚴(yán)重后果.因此,亟需提出一種檢測精度高、實(shí)時(shí)性的好的跌倒檢測模型.近年來,深度神經(jīng)網(wǎng)絡(luò)在目標(biāo)檢測領(lǐng)域取得了巨大的成就,如SSD[1]、R-CNN[2]、Fast RCNN[3]、Faster RCNN[4]、YOLO系列[5-8]等等目標(biāo)檢測模型廣泛應(yīng)用于無人駕駛、自動(dòng)導(dǎo)航、姿態(tài)檢測等.至今為止,目標(biāo)檢測算法分為one-stage以及two-stage兩種.two-stage算法的典型代表就是R-CNN、Fast RCNN以及Faster RCNN,而one-stage算法典型的代表是YOLO系列以及SSD算法.
對(duì)于復(fù)雜場景下的跌倒檢測,由于工作區(qū)范圍大,環(huán)境差,背景復(fù)雜,經(jīng)常會(huì)出現(xiàn)目標(biāo)互相遮擋難以檢測等問題,針對(duì)以上問題,許多學(xué)者對(duì)此進(jìn)行了很多研究.周大可等[9]人提出一種結(jié)合雙重注意力機(jī)制的遮擋感知行人檢測算法,提升了遮擋目標(biāo)的檢測準(zhǔn)確性.王立輝[10]等人提出一種基于GhostNet與注意力機(jī)制結(jié)合的行人檢測與跟蹤算法,將其引入到Y(jié)OLOv3中替換主干,來達(dá)到精確有效地跟蹤復(fù)雜場景下的多目標(biāo)行人的目的.王璐[11]等人提出一種基于語義分割注意力和可見區(qū)域預(yù)測的行人檢測方法用于行人行為預(yù)測.錢惠敏[12]等人本文提出基于ResNet34_D的改進(jìn)YOLOv3模型,對(duì)小目標(biāo)和遮擋目標(biāo)的誤檢率更低,速度更快.陳光喜[13]等人設(shè)計(jì)了一種基于YOLOv2的級(jí)聯(lián)網(wǎng)絡(luò),對(duì)YOLOv2初步檢測出的行人位置進(jìn)行再分類與回歸,以此降低誤檢,提高召回率.涂媛雅[14]等人提出了基于Lite-YOLOv3的行人與車輛檢測方法,采用改進(jìn)后的深度可分離卷積塊,有效降低了網(wǎng)絡(luò)運(yùn)算成本,加快網(wǎng)絡(luò)運(yùn)算速度.Sweta Panigrahi[15]等人提出了一種改進(jìn)的輕量級(jí)MS-ML-SNYOLOv3網(wǎng)絡(luò),它可以提取分層特征表示,在擴(kuò)展部分還增加了一個(gè)更大的感受野來提高檢測效果.Jing Wang[16]等人提出一種高質(zhì)量的特征生成行人檢測算法來提高檢測表現(xiàn).人類可以通過考慮圖像中所有可用實(shí)例的相互線索來更好地預(yù)測目標(biāo)的存在,而多模態(tài)特征的融合可以表達(dá)這個(gè)過程,Yongjie Xue[17]等人提出一種新型多模態(tài)注意力融合MAF-YOLO的實(shí)時(shí)行人檢測方法來提高夜間檢測的精度,Yanpeng Cao[18]等人提出了一種新的多光譜行人檢測器,這是由執(zhí)行局部引導(dǎo)的跨模態(tài)特征聚合和像素級(jí)檢測融合模型.但是上述網(wǎng)絡(luò)模型的精度仍然達(dá)不到跌倒檢測的要求,關(guān)鍵特征融合次數(shù)仍然較少,對(duì)于多重遮擋問題仍然沒有很好的解決.
針對(duì)上述問題,本文貢獻(xiàn)如下.首先本文提出了一個(gè)新的特征增強(qiáng)融合模塊FFEM來增強(qiáng)目標(biāo)的特征表示和解決多重遮擋問題,其次提出一種新的特征金字塔網(wǎng)絡(luò)(AFEF-FPN)來提高特征自適應(yīng)融合深度,最后引入Alpha IoU Loss和CARAFE代替CIoU Loss和Nearest Upsample來提高回歸精度和上采樣的語義信息.實(shí)驗(yàn)表明,本文提出的基于AFEF-FPN的YOLOv5s網(wǎng)絡(luò)能夠準(zhǔn)確的處理各種復(fù)雜的跌倒場景,在數(shù)據(jù)集上取得了優(yōu)于其他網(wǎng)絡(luò)的結(jié)果.
YOLOv5的網(wǎng)絡(luò)結(jié)構(gòu)由Backbone、Neck、Head 3個(gè)部分組成,在6.0版本中,Backbone使用的是Darknet53作為特征提取網(wǎng)絡(luò),Neck部分使用PAN+FPN的結(jié)構(gòu),一共有3個(gè)Prediction-head,分別用來檢測大、中、小目標(biāo).YOLOv5算法具有4個(gè)版本,具體包括:YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x 4種,本文重點(diǎn)講解YOLOv5s,s版本是YOLOv5系列中卷積深度最小、特征圖寬度最小的網(wǎng)絡(luò).
對(duì)于一組圖片輸入,先是進(jìn)行自適應(yīng)的錨框的計(jì)算和數(shù)據(jù)增強(qiáng),然后Backbone會(huì)對(duì)提取輸入圖片各個(gè)尺度下的特征,提取到的多尺度特征會(huì)在Neck部分進(jìn)行融合,融合采用的是PAN+FPN的結(jié)構(gòu),最后分別在網(wǎng)絡(luò)的18層、21層、24層作為網(wǎng)絡(luò)的輸出端進(jìn)行預(yù)測,在預(yù)測的過程中會(huì)隨機(jī)產(chǎn)生大量的預(yù)測框,通過非極大值抑制(Non-Maximum Supression,NMS)[19]來篩選目標(biāo)框,最后預(yù)測篩選得到的目標(biāo)框的類別.
PAN-FPN[20]是在原始FPN自上而下的特征融合通道的基礎(chǔ)上增加了一條自下而上的特征融合通道.除此之外,還有Mingxing Tan[21]等人提出的Bi-FPN、Golnaz Ghaisi[22]等人提出NAS-FPN.經(jīng)過對(duì)多種基于YOLOv5的網(wǎng)絡(luò)模型的實(shí)驗(yàn)發(fā)現(xiàn),這些特征融合網(wǎng)絡(luò)在跌倒檢測數(shù)據(jù)集上并不能取得很好的效果,仍然會(huì)出現(xiàn)許多漏檢和錯(cuò)檢的情況,尤其在多個(gè)跌倒的人高度重疊的場合,非常容易發(fā)生漏檢.Yiqi Jiang[23]等人提出GiraffeDet特征融合網(wǎng)絡(luò),他們提出了一種目標(biāo)檢測新范式:Heavy-Neck,Light-Backbone.他們指出Backbone已經(jīng)提取到了豐富的信息,增加Neck層的融合次數(shù)比增加Backbone的卷積層數(shù)量得到的結(jié)果更好,本文受到此啟發(fā)提出了一種新的特征融合網(wǎng)絡(luò).
近年來,注意力機(jī)制被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,常見的注意力機(jī)制有通道注意力和空間注意力兩種.Hu J[24]等人提出了一種通道注意力機(jī)制Sequee-and-excitation(SE),SE的出現(xiàn)是為了解決在池化過程中的特征圖不同通道的重要性不同的問題.Woo S等人將通道注意力和空間注意力進(jìn)行級(jí)聯(lián)整合提出了Convolution block attention module[25](CABM),進(jìn)一步加強(qiáng)了注意力感知.Qilong Wang等人為了進(jìn)一步加強(qiáng)通道注意力而提出了ECA-Net[26].Qibin Hou等人提出了Coordinate Attention(CA)[27],該機(jī)制將位置信息嵌入到通道注意力中,它可以沿著一個(gè)空間方向捕捉長程的依賴,而另一個(gè)空間方向則可以保留精確的位置信息,從而捕捉特征圖上感興趣的區(qū)域.受到CA的啟發(fā),本文設(shè)計(jì)了一個(gè)特征增強(qiáng)融合模塊,增強(qiáng)融合后得到的結(jié)果用CA捕捉感興趣的目標(biāo),以此來建模多尺度特征之間的長距離依賴關(guān)系.
本文網(wǎng)絡(luò)由Backbone、AFEF-FPN(Neck)、Head 3個(gè)部分組成,輸入一組圖片,輸出這組圖片中的檢測目標(biāo)的類別、預(yù)測框、置信度等信息.首先本文提出一種新的特征增強(qiáng)融合模塊(FFEM),它是由一個(gè)Concat模塊、一個(gè)CA模塊、一個(gè)Receptive Field Block(RFB)[28]模塊、一個(gè)1*1的卷積層組合而成,FFEM可以解決感知域受限的問題,增強(qiáng)輸入特征的特征表示,同時(shí)在原始特征融合的基礎(chǔ)上將特征進(jìn)一步融合,提高 Backbone特征信息的復(fù)用率.使用Adaptively Spatial Feature Fusion(ASFF)[29]模塊作為本文網(wǎng)絡(luò)的Neck的最后一部分,其作用是為了讓特征圖自適應(yīng)的進(jìn)行融合,FFEM輸出的特征圖用于Adaptively Spatial Feature Fusion(ASFF)融合,加權(quán)融合后會(huì)產(chǎn)生3個(gè)主成分,對(duì)這3個(gè)主成分分別進(jìn)行回歸預(yù)測,其中FPN在加入FFEM和ASFF改進(jìn)后稱其為Adaptivity Feature Enhance Fusion-FPN(AFEF-FPN).其次使用CARAFE[30]上采樣模塊代替Nearest Upsample,CARAFE 分為兩個(gè)部分,分別是上采樣核預(yù)測和特征重組,它是一種基于輸入特征圖信息并且引入?yún)?shù)量較小的上采樣模塊.然后使用Alpha IoU Loss代替CIoU Loss,Alpha IoU Loss可以根據(jù)IoU大小來自適應(yīng)的加權(quán)目標(biāo)損失和梯度,有利于提高bbox的回歸精度.為了檢測的實(shí)時(shí)性,本文刪除了FPN部分的CSP模塊的最后一層卷積層來減小模型參數(shù),具體結(jié)構(gòu)如圖1所示.
圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Network structure diagram of this paper
在本小節(jié)中,主要介紹FFEM的具體結(jié)構(gòu),如圖2(a)所示.整體結(jié)構(gòu)如下:Concat模塊將上一層的特征圖與Backbone主干中對(duì)應(yīng)特征圖大小相同且未被FPN使用的特征圖進(jìn)行通道上的疊加融合,圖1中的虛線為Backbone上特征的融合通道.融合之后的特征輸入到RFB模塊,RFB模塊對(duì)于輸入進(jìn)來的特征圖進(jìn)行特征增強(qiáng)后傳入1*1的卷積層來壓縮輸出通道數(shù),最后傳入CA模塊來增加感興趣目標(biāo)的特征表示.
圖2 FFEM(a)和RFB模塊(b)結(jié)構(gòu)圖Fig.2 Structure diagram of FFEM(a)and RFB module(b)
RFB主要是由不同膨脹率的膨脹卷積組成,膨脹率表示每個(gè)相鄰的卷積像素點(diǎn)之間非卷積像素點(diǎn)的個(gè)數(shù).具體來說,普通的卷積核大小為3、步長為1的卷積覆蓋的空間范圍是3*3,即在一個(gè)3*3大小的特征圖上進(jìn)行卷積操作,而一個(gè)卷積核大小為3*3、步長為1、膨脹率為1的膨脹卷積覆蓋的空間范圍是5*5,在卷積核大小相同、步長相同的條件下,一次膨脹卷積比一次普通卷積覆蓋的空間范圍更大,即感受野更大,具體示意圖如圖2(b)所示.
本文使用了3種膨脹卷積,它們的膨脹率分別為1、3、5,輸入RFB模塊的特征圖在進(jìn)行3次膨脹卷積后再加入一條邊直接連接輸入輸出來構(gòu)成殘差結(jié)構(gòu),有了這個(gè)殘差結(jié)構(gòu)就能夠在一定程度上解決膨脹卷積核不連續(xù)的問題,并且能夠?qū)崿F(xiàn)多層膨脹卷積的疊加而不損失信息的連續(xù)性,此模塊在本文中用于增大感知空間,提取更多的跌倒特征.
其次是CA模塊,CA是一種輕量型注意力機(jī)制,不會(huì)給網(wǎng)絡(luò)帶來巨大的計(jì)算量.普通的通道注意力通常會(huì)忽略對(duì)生成空間選擇注意力圖非常重要的信息,圖3為CA 模塊的結(jié)構(gòu)圖.
圖3 CA模塊結(jié)構(gòu)圖Fig.3 Structure diagram of CA module
CA把位置上的信息嵌入到通道中,這種做法大大減少了計(jì)算量的同時(shí)有了感知位置的能力.對(duì)于一個(gè)給定的輸入x,每個(gè)通道分別在水平和垂直方向進(jìn)行編碼,在深度為h的第c個(gè)通道的輸出可以表示為:
(1)
同理,寬度為w的第c個(gè)通道可以表示為:
(2)
上述的兩種方法分別在不同的方向進(jìn)行特征的聚合,這樣做可以沿著一個(gè)空間方向捕捉長程的依賴,而另一個(gè)空間方向則可以保留精確的位置信息.為了利用捕捉到的信息表征同時(shí)降低模型的開銷,CA首先將兩個(gè)方向上的信息進(jìn)行Concat操作后接一個(gè)1*1卷積來壓縮通道數(shù),壓縮倍數(shù)為r,然后沿著空間維度將上述輸出切分為兩個(gè)單獨(dú)的張量:fh∈C/r×H和fw∈C/r×H,再使用兩個(gè)1*1卷積來變換成與輸入x同樣的大小,最后用Sigmoid激活輸出,這樣做可以顯著減小CA模塊參數(shù)量.其輸出可以表示為:
gh∈σ(Fh(fh)),gw∈σ(Fw(fw))
(3)
其中,σ為Sigmoid激活函數(shù),Fh和Fw是這兩個(gè)1*1 卷積變換,gh和gw為兩個(gè)不同空間維度上的輸出.這時(shí),整個(gè)CA的輸出y可以表示為:
(4)
2.3.1 上采樣改進(jìn)
常見的Nearest Upsample和Linear Upsample僅僅是根據(jù)像素的空間位置來確定上采樣內(nèi)核,這些方法不能利用特征圖的語義信息,并且它們的感知域都非常的小.另一種自適應(yīng)上采樣的方法是反卷積,它有兩個(gè)主要缺點(diǎn),首先是反卷積算子在整個(gè)圖像中應(yīng)用相同的核,而不考慮底層的內(nèi)容,這限制了它響應(yīng)局部變化的能力;其次,它配有一個(gè)大的參數(shù)量.對(duì)于一個(gè)理想的上采樣模塊,希望感知域越大越好、計(jì)算量越小越好、和語義信息的關(guān)聯(lián)性越大越好,為了解決模型的上采樣語義關(guān)聯(lián)性不高的問題,本文使用CARAFE代替Nearest Upsample.CARAFE的上采樣過程主要由上采樣核預(yù)測和特征重組兩個(gè)步驟組成,第1步主要是利用特征圖上的語義信息來預(yù)測上采樣核的形狀,第2步是將輸出特征圖中的每個(gè)位置映射回輸入特征圖,取出以之為中心的區(qū)域,和第一步得到的上采樣核作點(diǎn)積,得到輸出值.
2.3.2 ASFF
金字塔特征表示是解決目標(biāo)檢測中目標(biāo)尺度變化的常用手段.然而不同特征圖的大小不一致,通常的做法是將相同尺度的特征圖融合檢測,或者使用上采樣和下采樣來壓縮特征圖尺度保持一致后融合檢測.Adaptively Spatial Feature Fusion(ASFF)是一種新的特征融合策略,它通過學(xué)習(xí)空間濾波沖突信息來抑制特征圖的不一致性,對(duì)于輸入X個(gè)的特征圖,ASFF對(duì)它們進(jìn)行加權(quán)處理,然后輸出X個(gè)自適應(yīng)融合特征圖,其中每輸出一個(gè)特征圖都是輸入特征圖的加權(quán),并且?guī)缀鯖]有引入推理開銷.
(5)
(6)
2.4.1 IoU、GIoU、CIoU和DIou Loss
傳統(tǒng)的損失回歸都是基于可以表征一個(gè)矩形的4個(gè)頂點(diǎn)變量,但是這種做法過于簡單,不能完整的表示出4個(gè)頂點(diǎn)變量之間的內(nèi)部關(guān)系,并且會(huì)導(dǎo)致模型在訓(xùn)練過程中更加傾向于尺寸更大的目標(biāo).為了解決這個(gè)問題,Jiahui Yu[31]等人提出IoU Loss將4個(gè)點(diǎn)構(gòu)成的bbox看成一個(gè)整體做回歸,這樣做的好處是統(tǒng)一了4個(gè)變量之間的關(guān)聯(lián)性.其中IoU和IoU Loss定義如下.
(7)
IoU Loss=1-IoU
(8)
其中,A和B分別表示真實(shí)框和預(yù)測框,A∩B和A∪B分別表示為真實(shí)框與預(yù)測框并集的部分和交集的部分.并且IoU滿足非負(fù)性和歸一性,所以能夠較好的反映預(yù)測框與真實(shí)框的檢測效果.
為了解決當(dāng)IoU Loss恒等于0時(shí)梯度恒為0無法反向傳播的問題,Hamid Rezatofighi[32]等人提出了GIoU Loss.Zhaohui Zheng[33]等人提出衡量一個(gè)預(yù)測框好壞,應(yīng)該從預(yù)測框與真實(shí)框的中心點(diǎn)距離以及長寬比之間的差異這3個(gè)方面考慮,于是他們提出了DIoU和CIoU,在GIoU的基礎(chǔ)上引入中心點(diǎn)距離作為DIoU,在DIoU的基礎(chǔ)上再引入長寬比之間的差異作為CIoU.
(9)
ρ2(b,bGT)表示真實(shí)框與預(yù)測框中心點(diǎn)距離的平方,c2是兩個(gè)框的最小包絡(luò)的對(duì)角線長度.
DIoU Loss=1-DIoU
(10)
CIoU Loss=DIoU Loss+η×υ
(11)
(12)
(13)
υ表征長寬比的一致性,η是調(diào)節(jié)因子,wGT、hGT和w、h分別表示為真實(shí)框的寬、高和預(yù)測框的寬、高,DIoU可以精細(xì)的指導(dǎo)預(yù)測框的中心,CIoU不僅可以指導(dǎo)預(yù)測框中心而且還能使得預(yù)測框長寬比更加接近真實(shí)框.
2.4.2 Alpha IoU Loss
但是CIoU和DIoU對(duì)于每個(gè)IoU目標(biāo)都是平等對(duì)待的,因此對(duì)于High IoU的目標(biāo)無法做到高精度回歸.于是本文用Alpha IoU Loss[34]代替CIoU Loss,Alpha IoU Loss可以根據(jù)IoU大小來自適應(yīng)的加權(quán)目標(biāo)損失和梯度,有利于提CIoU Loss目標(biāo)的回歸精度.Alpha IoU Loss定義為:
(14)
其中,α是一個(gè)可調(diào)節(jié)參數(shù),當(dāng)α→0時(shí),lα-IoU=-log(IoU),當(dāng)α→/0時(shí),lα-IoU=1-IoUα.
在上述公式中加入懲罰項(xiàng),可以擴(kuò)展到更加一般的形式:
lα-IoU=1-IoUα1+pα2(B,Bgt)
(15)
這時(shí),α-IoU 可以通過壓縮表示出GIoU、DIoU、CIoU.它還有一個(gè)重要的性質(zhì),由于α是一個(gè)可調(diào)節(jié)的指數(shù)參數(shù),那么當(dāng)α大于1的時(shí)候,就會(huì)對(duì)High IoU目標(biāo)的損失權(quán)重有放大的作用,有利于檢測器更加關(guān)注High IoU的目標(biāo),對(duì)High IoU損失的目標(biāo)更加敏感.為了提高High IoU目標(biāo)的回歸精度,本文使用Alpha IoU Loss代替CIoU Loss,經(jīng)過實(shí)驗(yàn)測試,α參數(shù)為3可以取得最好的效果.
本實(shí)驗(yàn)的深度學(xué)習(xí)環(huán)境和使用的框架如表1所示,并以相同的配置應(yīng)用于Faster RCNN、未改進(jìn)的YOLOv5、Mobilenet-YOLOv5等網(wǎng)絡(luò).
表1 實(shí)驗(yàn)環(huán)境配置表Table 1 Experimental environment configuration table
本文實(shí)驗(yàn)中使用的數(shù)據(jù)集標(biāo)簽屬于獨(dú)立制做,總共有8000張圖片.其中,6875張圖片來自于公共跌倒檢測數(shù)據(jù)集[35],1125張圖像來自于跌倒視頻截幀.本文選取5600張圖片用作訓(xùn)練集和驗(yàn)證集,2400張圖片用于測試集,訓(xùn)練開始前使用了馬賽克的數(shù)據(jù)增強(qiáng)方法.
首先將網(wǎng)絡(luò)輸入的圖片大小統(tǒng)一resize為640×640,bacthsize設(shè)置為16,使用隨機(jī)梯度下降法作為本文網(wǎng)絡(luò)的優(yōu)化器.為了獲取適合本文網(wǎng)絡(luò)的最優(yōu)超參數(shù),本文使用基于遺傳算法的超參數(shù)進(jìn)化算法對(duì)網(wǎng)絡(luò)超參數(shù)進(jìn)行優(yōu)化.為了減少進(jìn)化時(shí)間,僅挑選800張圖片作為進(jìn)化過程中的數(shù)據(jù)集,evolve設(shè)置為50,epoch設(shè)置為50,每一代的進(jìn)化都取最大值的點(diǎn)表示為本代超參數(shù)下的輸出的mAP值.訓(xùn)練過程中的mAP的變化曲線如圖4(a)所示,從第2次迭代開始逐漸收斂,在第25代之后收斂于最大值,而后僅僅在小范圍內(nèi)波動(dòng).最終得到的mAP值最大值為98.24%,并選擇這組超參數(shù)設(shè)置為本文網(wǎng)絡(luò)超參數(shù),具體超參數(shù)設(shè)置如下:初始學(xué)習(xí)率設(shè)置為0.01282,學(xué)習(xí)率動(dòng)量設(shè)置為0.97676,權(quán)重衰減系數(shù)設(shè)置為0.002,IoU訓(xùn)練時(shí)的閾值設(shè)置為0.40,圖像Mosaic的概率設(shè)置為1.0.
圖4 超參數(shù)進(jìn)化曲線(a)和mAP上升曲線(b)Fig.4 Hyperparameter evolution curve(a)and mAP rising curve(b)
首先將本文提出的算法與現(xiàn)有算法在數(shù)據(jù)集上進(jìn)行比較,為了客觀評(píng)價(jià)本文網(wǎng)絡(luò)模型的性能,使用精確率(Precision,P)、召回率(Recall,R)、平均精度(Average Precision,AP)、平均精度均值(mAP0.5)以及平均精度均值(mAP0.5-0.95)指標(biāo)衡量,計(jì)算公式如下.
(16)
(17)
其中,TP(True positives)為正樣本被正確識(shí)別為正樣本的數(shù)量,FP(False positives)為負(fù)樣本被錯(cuò)誤識(shí)別為正樣本的數(shù)量,FN(False negatives)為正樣本被錯(cuò)誤識(shí)別為負(fù)樣本的數(shù)量,N為目標(biāo)的類別數(shù).AP的意義是P-R曲線所包絡(luò)的面積,mAP越大網(wǎng)絡(luò)性能越好.保持?jǐn)?shù)據(jù)集、運(yùn)行環(huán)境一致,在超參數(shù)為最優(yōu)的前提下,本文使用了Mobilenetv3-YOLOv5、Faster-RCNN、YOLOv5(PA-FPN)、YOLOv5(bi-FPN)以及本文的YOLOv5(AFEF-FPN)分別進(jìn)行訓(xùn)練.
如圖4(b)所示,可以看出本文的網(wǎng)絡(luò)模型在訓(xùn)練初期就可以快速穩(wěn)定的收斂,曲線于40次迭代時(shí)達(dá)到最大值附近,而后在小范圍內(nèi)波動(dòng),并且本文網(wǎng)絡(luò)的mAP 包絡(luò)線包圍了其 他網(wǎng)絡(luò)的 mAP 曲線.YOLOv5s(AFEF-FPN)最高mAP達(dá)到了98.62%,而Faster-RCNN、Mobilenetv3-YOLOv5、YOLOv5s(bi-FPN)、YOLOv5s(PAN-FPN)的最高mAP分別是90.12%、89.85%、96.67%、96.98%,比YOLOv5s(bi-FPN)提升了1.95%,比YOLOv5s(PAN-FPN)提升了1.64%,比Faster-RCNN、Mobilenetv3-YOLOv5提升了8%以上.為了更加深刻的體現(xiàn)本文網(wǎng)絡(luò)的優(yōu)越性,本文分別用mAP0.5、mAP0.55、mAP0.6、mAP0.65、mAP0.7、mAP0.75這些數(shù)值較大的指標(biāo)評(píng)價(jià)網(wǎng)絡(luò).
如表2所示,YOLOv5s(AFEF-FPN)在mAP0.5~0.75所有的指標(biāo)都高于其他網(wǎng)絡(luò)模型.不僅如此,本文在2400張圖片的測試集上進(jìn)行測試,YOLOv5s(AFEF-FPN)的mAP0.5的值達(dá)到了96.21%,而其他網(wǎng)絡(luò)分別是YOLOv5s(PAN-FPN)93.35%,YOLOv5s(bi-FPN)93.12%,Mobilenetv3-YOLOv5 78.89%,Faster-RCNN 79.37%,其中YOLOv5s(AFEF-FPN)相比于原始YOLOv5s網(wǎng)絡(luò)在測試集上提高了2.86%的mAP.由此可以得出,YOLOv5s(AFEF-FPN)在訓(xùn)練集和訓(xùn)練集上都取得了優(yōu)于其他網(wǎng)絡(luò)的結(jié)果,這也體現(xiàn)出它的強(qiáng)大的泛化能力.
表2 不同模型mAP(0.5-0.75)的對(duì)比Table 2 Comparison of mAP(0.5-0.75)of different models
為了體現(xiàn)出FFEM的優(yōu)勢,本文對(duì)特征圖可視化分析.如圖5所示,左邊的3張圖片為輸入原圖,中間的3張圖片為YOLOv5(PAN-FPN)提取的深度圖片,右邊3張圖片是在FFEM作用之后的深度圖片,通過對(duì)比可以發(fā)現(xiàn),FFEM模塊不僅可以注意到有人跌倒的區(qū)域.相比起其他YOLOv5網(wǎng)絡(luò),注意區(qū)域不僅更加準(zhǔn)確,還可以增強(qiáng)對(duì)感興趣區(qū)域表征.在第1組的3張圖片中,FFEM注意到了跌倒特征區(qū)域,而YOLOv5(PAN-FPN)沒有捕捉到跌倒特征區(qū)域.在第2組的3張圖片中,FFEM增強(qiáng)了跌倒特征區(qū)域的表征.在第3組圖片中,YOLOv5(PAN-FPN)沒有將注意力覆蓋跌倒區(qū)域,而FFEM成功感知到了跌倒區(qū)域.
圖5 特征圖可視化分析Fig.5 Feature map visualization analysis
為了更加有說服力的體現(xiàn)AFEF-FPN的有效性,本文設(shè)計(jì)消融實(shí)驗(yàn)對(duì)影響因素進(jìn)行分析,第1組實(shí)驗(yàn)是單獨(dú)使用AFEF-FPN與原始網(wǎng)絡(luò)的對(duì)比實(shí)驗(yàn),第2組實(shí)驗(yàn)是在網(wǎng)絡(luò)中單獨(dú)使用CARAFE與原始上采樣的對(duì)比實(shí)驗(yàn),第3組實(shí)驗(yàn)是單獨(dú)使用Alpha IoU Loss與原始的CIoU Loss進(jìn)行對(duì)比實(shí)驗(yàn),第4組實(shí)驗(yàn)是在模型中使用AFEF-FPN和CARAFE與單獨(dú)使用CARAFE進(jìn)行對(duì)比實(shí)驗(yàn),第五組實(shí)驗(yàn)是使用AFEF-FPN和Alpha IoU Loss與單獨(dú)使用Alpha IoU Loss進(jìn)行對(duì)比實(shí)驗(yàn),以mAP0.5、mAP0.5~0.95、Params(參數(shù)量)、Precision(準(zhǔn)確率)作為評(píng)價(jià)指標(biāo),實(shí)驗(yàn)時(shí)保持參數(shù)一致,環(huán)境一致.具體實(shí)驗(yàn)結(jié)果如表3所示.
表3 消融實(shí)驗(yàn)結(jié)果表Table 3 Ablation experiment result table
通過1、6實(shí)驗(yàn)進(jìn)行對(duì)比,可知AFEF-FPN給網(wǎng)絡(luò)帶來了1.27%的mAP指標(biāo)提升,通過2、6實(shí)驗(yàn)進(jìn)行對(duì)比,可知CARAFE給網(wǎng)絡(luò)帶來了0.17%的mAP指標(biāo)提升.通過3、6實(shí)驗(yàn)進(jìn)行對(duì)比,可知Alpha IoU Loss給網(wǎng)絡(luò)帶來了0.2%的mAP指標(biāo)提升.通過2、4實(shí)驗(yàn)進(jìn)行對(duì)比,可知AFEF-FPN給都使用CARAFE算子的網(wǎng)絡(luò)帶來了1.12%的mAP指標(biāo)提升,通過3、5實(shí)驗(yàn)進(jìn)行對(duì)比,可知AFEF-FPN給都使用Alpha IoU Loss的網(wǎng)絡(luò)帶來了1.14%的mAP指標(biāo)提升.綜上分析可知,AFEF-FPN是給網(wǎng)絡(luò)帶來提升的主要影響因素.在AFEF-FPN中,FFEM是最為主要且關(guān)鍵的模塊,AFEF-FPN能夠提高網(wǎng)絡(luò)性能得益于FFEM,它可以提高網(wǎng)絡(luò)的感受野并且能夠捕捉到特征圖上的跌倒區(qū)域的信息.其中,FFEM模塊中的RFB模塊,它是一由多個(gè)不同膨脹率的膨脹卷積組合而成.在多個(gè)摔倒人物重疊的場景下,它能通過間隔取卷積點(diǎn)的方式來減小人物互相遮擋的問題,盡量使每個(gè)卷積點(diǎn)都能夠捕捉到同一個(gè)人的特征,因此在互相遮擋的場景下可以更加準(zhǔn)確的捕捉摔倒人物的特征.而FFEM中的CA模塊是一種輕量級(jí)注意力機(jī)制,它可以使模型能夠關(guān)注到跌倒區(qū)域并且捕捉到跌倒特征.RFB與CA的結(jié)合可以讓模型實(shí)現(xiàn)多重遮擋的跌倒檢測,提高邊界框回歸的精度.
本文網(wǎng)絡(luò)YOLOv5s(AFEF-FPN)取得了優(yōu)于其它網(wǎng)絡(luò)的效果,不僅僅體現(xiàn)在mAP的漲點(diǎn)上,如圖6所示,上圖為YOLOv5s(PAN-FPN),下圖為本文網(wǎng)絡(luò),可以看出,在多個(gè)目標(biāo)互相遮擋的場景下,本文網(wǎng)絡(luò)的檢測框定位相比于YOLOv5s(PAN-FPN)更加精準(zhǔn).特別在第2組圖中,本文網(wǎng)絡(luò)的每個(gè)檢測框都精準(zhǔn)檢測到了目標(biāo),而YOLOv5s(PAN-FPN)出現(xiàn)了檢測框不準(zhǔn)確的情況.
圖6 YOLOv5(PAN-FPN)和YOLOv5s(AFEF-FPN)效果對(duì)比(上圖為PAN-FPN,下圖為AFEF-FPN)Fig.6 YOLOv5(PAN-FPN)and YOLOv5s(AFEF-FPN)effect comparison(the picture above is PAN-FPN,the picture below is AFEF-FPN)
本文提出了一個(gè)新的特征增強(qiáng)融合模塊FFEM,其中包含了RFB模塊,1*1卷積和CA注意力模塊.本文將ASFF算法引入YOLOv5網(wǎng)絡(luò)模型中,同時(shí)將FFEM加入網(wǎng)絡(luò)的FPN中,提出了一種新的網(wǎng)絡(luò)YOLOv5s(AFEF-FPN);其中CA注意力模塊提高了感興趣區(qū)域的特征表示,RFB模塊增大了感知空間,同時(shí)提高了在多個(gè)跌倒人物重疊時(shí)的特征提取能力,ASFF模塊則進(jìn)一步加強(qiáng)了多尺度的特征融合,提高了網(wǎng)絡(luò)檢測能力;然后本文使用基于全局語義信息的上采樣算子CARAFE代替Nearest Upsample來建模全局上采樣信息,使用Alpha IoU Loss代替CIoU Loss,有效的提高了遮擋場景下跌倒檢測的精度.但是本文網(wǎng)絡(luò)檢測速度仍然低于一些輕量級(jí)檢測模型,因此,接下來對(duì)于檢測速度以及檢測實(shí)時(shí)性還有待提升.后續(xù)的研究將從以下兩個(gè)方面展開:一是采集更多場景下的跌倒圖片,從而擴(kuò)充數(shù)據(jù)集,使得訓(xùn)練出來的模型具備更強(qiáng)的泛化能力;二是進(jìn)一步改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),減小模型參數(shù),提高檢測速度.