亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        多尺度融合的YOLOv3人群口罩佩戴檢測方法

        2021-08-19 11:20:30張路達
        計算機工程與應用 2021年16期
        關鍵詞:先驗口罩尺度

        張路達,鄧 超

        河南理工大學 物理與電子信息學院,河南 焦作454003

        在疫情常態(tài)化的形勢下,佩戴口罩是切斷病毒傳播途徑最簡便有效的方式,可以有效降低人與人相互交叉感染的風險。疫情期間,商場、車站等公共場所禁止未佩戴口罩人員進入。公共場所多為人群密集區(qū)域,通過人工方式大面積檢查口罩佩戴情況會耗費大量的人力與時間,并且容易造成漏檢,因此實現一種具有實時性的高精度的口罩佩戴檢測算法是十分必要的。

        近年來,隨著卷積神經網絡的興起,傳統(tǒng)的利用手工設計圖像特征的目標檢測方法已經發(fā)展為基于深度學習的目標檢測方法[1-2]。相比于傳統(tǒng)的檢測方法,基于深度學習的目標檢測算法其優(yōu)勢在于無需進行人工的特征設計,具有優(yōu)秀的特征表達能力以及優(yōu)良的檢測精度。目前基于深度學習的主流目標檢測算法依據其設計思想,主要分為兩類:第一類是基于區(qū)域建議的二階段目標檢測算法。此類算法將目標檢測分為兩個階段,第一個階段生成可能包含目標的候選區(qū)域(Region Proposal),第二個階段利用卷積神經網絡完成對候選區(qū)域的目標位置與類別的預測及識別,得到最終的檢測結果,其代表有R-CNN[3]、Fast R-CNN[4]、Faster R-CNN[5]等。第二類是基于回歸的一階段目標檢測算法。該類算法將目標檢測看成一個回歸問題,不再生成候選區(qū)域,直接完成從原始圖像的輸入到物體位置和類別的輸出,是一種端到端的目標檢測算法,此類算法擁有更快的檢測速度,其代表作有SSD[6]、YOLO[7]、YOLOv2[8]、YOLOv3[9]等。YOLOv3算法是YOLO算法系列的第三代改進版本,與眾多算法相比,具有檢測速度快、精度高、綜合性強等優(yōu)勢,在目標檢測領域有著廣泛的應用。但由于在一些特定場景下環(huán)境變得復雜,YOLOv3不能滿足檢測要求,學者們?yōu)榇颂岢隽艘幌盗懈倪M方法,如岳曉新等人[10]提出的道路小目標檢測算法,康莊等人[11]提出的行人檢測算法,楊靜等人[12]提出的安全帽佩戴檢測算法,這些在特定場景下改進后的YOLOv3算法都有不錯的檢測效果。

        本文針對人群環(huán)境下口罩佩戴檢測中存在的密集、遮擋、小尺寸目標等問題,通過在YOLOv3算法模型基礎上進行改進與優(yōu)化,實現人群口罩佩戴檢測任務。

        1 YOLOv3算法模型及其原理

        2018年,Redmon等 人在YOLOv2的 基礎 上融 合ResNet、FPN等方法提出了YOLOv3一階目標檢測算法,其整體網絡結構如圖1(a)所示。

        YOLOv3采用去除了全連接層的Darknet-53作為特征提取網絡。Darknet-53主要由5個分別含有1、2、8、8、4個殘差單元的殘差塊構成。殘差單元結構如圖1(c)所示,殘差塊結構如圖1(d)所示,其融合殘差網絡思想,在網絡中使用大量的跳躍連接結構,這種設計可以有效保證網絡訓練時收斂,改善隨著網絡層數不斷加深帶來的梯度彌散問題[13]。YOLOv3采用特殊的卷積結構DarknetConv2D,如圖1(b)所示,卷積時加入一個L2批正則化層(Batch Normalization),對輸入數據進行標準化處理,然后采用Leaky Relu激活函數。圖1中Convolutional Set表示5個1×1、3×3、1×1、3×3、1×1的卷積層。在圖像輸入特征提取網絡后,選取對輸入圖像8倍、16倍、32倍下采樣后的特征圖,經過一系列的上采樣與特征融合,然后通過5次卷積處理,再通過1次DarknetConv2D(3×3)卷積和一次普通Conv(3×3)卷積進行通道調整后送入相應檢測層,通過13×13、26×26、52×52三個不同尺度的特征層實現對大、中、小尺度目標的檢測。

        圖1 YOLOv3網絡結構Fig.1 YOLOv3 network structure

        但是直接將YOLOv3算法應用于人群環(huán)境下口罩佩戴檢測任務中仍有不足:一是在Darknet-53特征提取網絡中,隨著網絡結構的加深,淺層特征信息沒有得到充分利用,會導致丟失很多小目標的位置信息;二是YOLOv3算法對目標預測的準確性依賴于IoU,隨著IoU的增大,對目標位置的預測精度會下降;三是針對人群場景中的密集、遮擋目標與尺度變化等問題,YOLOv3算法有較大提升空間。針對上述問題,本文在YOLOv3算法的基礎上進行改進與優(yōu)化。

        2 改進的YOLOv3算法

        2.1 多尺度檢測網絡改進

        原始YOLOv3網絡以Darknet-53網絡結構為骨干,使用3個預測層以3種不同的尺度檢測對象。該網絡將輸入的原圖像經過8倍下采樣、16倍下采樣、32倍下采樣后的特征圖作為特征融合網絡的輸入。在一般場景下,由于目標大小與距離的不確定性,該方法對正常大小的物體有不錯的檢測效果,但是在人群環(huán)境下,大部分人臉目標在圖像中所占比例較小,對目標的檢測效果會大大降低,并且由于下采樣操作會丟失目標很多的有用信息,會造成一些目標漏檢。

        在檢測小目標時,原YOLOv3網絡主要通過利用8倍下采樣層的信息來檢測目標,因此當圖像中目標的大小低于8×8時,網絡幾乎無法預測,即使目標大小剛好大于8×8,由于缺少目標的特征信息,網絡檢測該目標的能力也會大大降低。4倍下采樣的特征圖感受野較小,利用該尺寸特征圖的信息去檢測目標,可以提升對小尺寸口罩佩戴目標的檢測效果。本文將第2個殘差塊輸出的4倍下采樣后的104×104特征圖作為新的特征層與其他3個特征層作為特征融合網絡的輸入,得到尺寸大小為104×104的新尺度特征檢測層,如圖2所示,最后形成4尺度檢測結構。這樣即使圖像中目標的尺度有較大變化,也可以在多個尺度上準確檢測,提升網絡對口罩佩戴檢測的準確率。

        圖2 改進的多尺度檢測結構Fig.2 Improved multi-scale detection structure

        2.2 特征融合網絡改進

        卷積神經網絡中,不同層次的特征圖含有目標不同的特征信息。淺層特征分辨率更高,含有目標更豐富的位置信息,深層特征含有較強的語義信息,但位置信息相對粗糙。利用淺層特征可以將簡單的目標區(qū)分開來,利用深層的特征可以區(qū)分開一些復雜的目標,因此構建特征金字塔,將高層網絡與低層網絡的特征信息融合更有利于對目標特征的描述。

        原始YOLOv3算法采用的特征融合網絡為特征金字塔網絡(Feature Pyramid Network,FPN),如圖3所示,將52×52、26×26、13×13三個不同尺度的特征信息通過特征金字塔結構進行融合,實現多尺度檢測。FPN采用的是自頂向下的融合方式,將深層的強語義特征信息傳遞下來,對整個金字塔進行增強,但是只對語義信息進行了增強,沒有傳遞定位信息。PANet[14]針對這一點進行了補充,其采用自上而下與自上而下的路徑增強,在FPN的后面添加了自底向上的金字塔,利用淺層特征包含的豐富的定位信息,實現特征增強。

        圖3 特征金字塔網絡Fig.3 Feature pyramid network

        在人群口罩佩戴檢測中存在目標密集、尺寸小、容易相互遮擋等問題,網絡模型需要利用更多的目標特征信息。本文對原始YOLOv3算法的FPN進行改進,使用特征提取網絡的4個降采樣特征圖作為特征融合網絡的輸入,并將FPN與路徑增強策略結合,通過自上而下和自下而上的融合方式可以進一步利用特征信息,讓模型更好地學習目標特征,更有利于模型對小目標和被遮擋目標的檢測。改進的特征融合網絡結構如圖4所示。

        圖4 改進的特征融合網絡Fig.4 Improved feature fusion network

        2.3 改進的YOLOv3算法模型

        本文將YOLOv3通過對多尺度檢測網絡、特征融合網絡、損失函數進行改進,其改進后的YOLOv3整體結構如圖5所示。輸入圖像經過Darknet-53特征提取網絡多次下采樣后輸出4層不同尺度的特征圖,殘差塊5輸出的32倍下采樣特征圖在經過Convolutional Set1的5次卷積處理后進行上采樣與殘差塊4輸出的16倍下采樣特征圖進行拼接融合,融合后的16倍下采樣特征圖用同樣的方法與殘差塊3輸出的8倍下采樣特征圖拼接融合;然后將融合后的8倍下采樣特征圖用相同的操作與殘差塊2輸出的4倍下采樣特征圖進行融合,完成自上而下的特征融合;融合后的4倍下采樣特征圖通過Convolutional Set4的5次卷積處理后進行下采樣操作,與Convolutional Set3輸出的8倍下采樣特征圖進行第2次融合,融合后的8倍下采樣特征圖通過5次卷積處理后進行下采樣與Convolutional Set2輸出的16倍下采樣特征圖第2次融合,同樣的方式得到2次融合后的32倍下采樣特征圖,完成自下而上的特征融合;最后將4種不同尺度的特征圖都通過1次DarknetConv2D(3×3)卷積和1次普通Conv(3×3)卷積進行通道調整后輸入YOLO Head進行預測,形成具有104×104、52×52、26×26、13×13檢測層的4尺度檢測網絡。

        圖5 改進的YOLOv3網絡結構Fig.5 Improved YOLOv3 network structure

        2.4 改進損失函數

        YOLOv3損失函數公式如式(1)所示,其由類別損失、置信度損失、位置損失三部分組成;其中在邊框回歸過程中采用的是均方差(MSE)損失函數,如式(2)所示;在置信度和分類損失上采用的是二元交叉熵損失函數,如式(3)和式(4)所示:

        式中,λcoord表示坐標損失權重系數,λnoobj表示不包含目標的置信度損失權重系數,分別表示預測框的坐標信息、置信度和類別概率分別表示目標真實框的坐標信息、置信度和類別概率表示第i個網格的第j個先驗框是否負責該object(如果負責則為1,否則為0)表示第i個網格的第j個先驗框是否不負責該object(如果不負責則為1,否則為0)。IoU[15]是目標檢測中常用的評價指標,計算方式如圖6所示。其中A表示預測框的面積,B表示真實框的面積,IoU是通過計算預測框與真實框的交集與并集的比值來反映預測的邊框與真實的邊框的重疊程度。

        圖6 IoU計算Fig.6 IoU calculation

        YOLOv3進行邊框回歸時依賴于IoU,雖然IoU考慮了重疊面積,但是僅依靠IoU進行邊框回歸會存在一些問題。一是從圖6中可以看出,IoU只有在兩個邊框有重疊區(qū)域時才能發(fā)揮作用,當預測框與真實框不相交時,IoU始終為0,無法反映兩個邊框距離遠近,進而無法優(yōu)化;二是在使用IoU計算損失時,其結果僅僅與兩個框的交并比即重疊面積有關,如圖7所示,這三種情況下兩個框的相交面積一樣,但重合度卻相差很多,使用IoU不能將此類情況區(qū)分開。由此可見,在一些情況下IoU不能作為重疊程度的衡量指標。

        圖7 IoU相同的三種情況Fig,7 Three cases of same IoU

        為了解決這些問題,本文引入CIoU[16]代替IoU作為邊框回歸損失函數。CIoU將邊框回歸損失應該注意的三個重要的幾何因素“重疊面積、中心點距離、長寬比”都考慮了進來,使得邊框回歸更加穩(wěn)定,收斂的精度更高,其損失函數公式如式(5)所示:

        其中,b和bgt分別表示預測邊框與真實邊框的中心點,ρ()?表示歐式距離,c表示預測框與真實框的最小外接矩形的對角線距離。αν為懲罰因子,這個因子把預測框長寬比擬合目標框的長寬比考慮進去,其中α是用來作trade-off的參數,ν是用來衡量長寬比一致性的參數。α與ν的計算公式分別如式(6)和式(7)所示:

        2.5 先驗框尺寸計算

        YOLOv3算法使用先驗框的思想是基于Fast R-CNN的設計,其通過固定數量的固定大小的初始先驗框來檢測對象。先驗框尺寸的選擇會直接影響網絡檢測目標的速度與精度,合適的先驗框的尺寸能夠加快模型訓練時的收斂速度,而且能夠使定位更加精準。YOLOv3使用K-means方法對數據集中的對象進行聚類分析得到9個先驗框的尺寸大小,分給3個不同尺度的檢測層,每個預測框生成3個不同比例的先驗框,選取與真實目標框交并比最大的先驗框去進行損失計算。聚類中Kmeans算法通過IoU來計算標注框與聚類中心的距離,計算公式如式(8)所示:

        本文改進的網絡采用4尺度檢測結構,相比于原YOLOv3網絡多了1個尺度,因此原有的3×3先驗框已不再適用,需要重新聚類。在本文的人臉口罩佩戴數據集上進行聚類分析,經過多次實驗,權衡平均交并比(Avg IoU)與聚類中心數K,實驗過程圖8所示,隨著K的增加,平均交并比變的逐漸平穩(wěn)。

        圖8 K-means聚類分析結果圖Fig.8 K-means cluster analysis result

        本文的聚類中心數K設為12個,通過聚類分析得到12組不同尺寸大小的先驗框。因為大尺度特征圖用來檢測小目標,小尺度特征層用來檢測大目標,所以小尺寸的先驗框要分配給大尺度的特征圖,大尺寸的先驗框要分配給小尺度的特征圖來進行邊框的回歸。4個尺度的先驗框尺寸分配如表1所示。

        表1 先驗框尺寸分配Table 1 Prior box size assignment

        3 實驗與結果分析

        3.1 數據集

        本文從WIDER Face、MAFA(Masked Faces)、RMFD(Real-World Masked Face Dataset)三個公開數據集和網絡搜集中篩選出含有多人場景的佩戴口罩人臉與未佩戴口罩人臉圖片,共5 000張。將數據集制作成VOC格式,并用標記軟件LabelImg對圖像中的人臉進行標注,標注信息有兩個類別have_mask(佩戴口罩人臉)和no_mask(未佩戴口罩人臉),將標注好的信息保存為VOC格式需要的xml文件。數據集標注示例如圖9所示,其中圖9(a)為標注圖片示例,圖9(b)為標注好的xml文件信息,表示類別,表示目標框的坐標信息。

        圖9 數據集標注示例Fig.9 Example of data set annotation

        3.2 實驗環(huán)境與模型訓練

        本實驗采用Window平臺通過python編程語言實現,硬件環(huán)境為Intel?CoreTMi5-10400F CPU@2.90 GHz、16 GB RAM、NVIDIA GeForce RTX 2070S,使用Tensorflow/Keras深度學習框架。訓練模型時,將數據集按照9∶1比例劃分為訓練集與測試集。訓練過程中對學習率(Learn Rate)采用動態(tài)調整策略,初始學習率設為0.001,當模型連續(xù)3個Epoch的損失不再下降時,將學習率減少為原來的1/2。訓練批次大小為4,進行150個Epoch的訓練,模型訓練的損失值收斂曲線見圖10。從中可以看出,模型訓練在前60個Epoch時損失下降迅速,訓練80個Epoch后損失逐漸平穩(wěn),迭代150個Epoch后損失幾乎不再變化,模型達到收斂。

        圖10 訓練損失下降曲線Fig.10 Training loss decline curve

        3.3 評價指標與實驗結果分析

        本文采取平均精度(Average Precision,AP)、平均精度均值(mean Average Precision,mAP)以及每秒檢測圖片的幀數(Frames Per Second,FPS)三種目標檢測算法中公用的性能指標來評估本文算法的性能。計算平均精度還需引入查準率(Precision)和召回率(Recall),計算公式如下:

        式中,TP代表預測是正樣本且確實是正樣本的數量,FP代表預測是正樣本但實際上不是正樣本的數量,FN代表預測是負樣本但實際上不是負樣本的數量。通過計算不同召回率下最高的查準率繪制P-R曲線,然后計算P-R曲線圍成的面積即可得到某一類別的AP值。mAP值是對所有類別的AP求均值得到,mAP越大則算法性能越好,識別精度越高。

        在數據集中隨機劃分的500張測試集圖片上進行測試。本文改進的YOLOv3算法檢測結果的P-R曲線如圖11所示,have_mask與no_mask兩種目標類別的AP值分別達到了95.19%、92.13%。

        圖11 改進的YOLOV3算法各類目標P-R曲線Fig.11 P-R curves of various targets of improved YOLOv3 algorithm

        為了進一步驗證本文算法的有效性,將本文算法與原始YOLOv3、Faster R-CNN、SSD、YOLOv4[17]、Efficient-Det[18]等主流的目標檢測算法性能指標進行比較,對比結果如表2所示。

        表2 算法結果性能對比Table 2 Performance comparison of algorithm results

        從表2可以看出,相比于其他主流目標檢測算法,本文算法在人群口罩佩戴檢測上有更高的檢測精度,mAP值達到了93.66%,與原始YOLOv3算法相比,兩種類別AP值分別提高了5.92個百分點和5.30個百分點,mAP值提高了5.61個百分點。在檢測速率上,本文算法FPS為28.5,速度不及SSD與YOLOv4算法,與原YOLOv3相比,檢測單張圖片時間增加了7 ms,幀率降低了7.2,但仍大于25,可以達到實時性要求。本文算法與原始YOLOv3、SSD、Faster R-CNN、YOLOv4、Efficient-Det目標檢測算法檢測效果對比如圖12所示。

        從圖12(a)(b)(c)檢測結果中可以看出,SSD算法在小目標檢測上效果較差,且預測置信度普遍較低;Faster R-CNN算法在檢測結果上表現優(yōu)于SSD算法,并且預測置信度明顯提升,但整體表現依然不是很好,如圖12(d)(e)(f)所示;相比于前兩種算法,EfficientDet、原始YOLOv3、YOLOv4算法在檢測中表現相對較好,但是在小目標和被遮擋目標上會存在漏檢的情況,如圖12(i)(l)(o)所示;與其他算法相比,本文算法在人群口罩佩戴檢測中效果有較大提升,在目標密集環(huán)境下漏檢率明顯降低。圖12(j)中,原始YOLOv3算法漏檢了2個未佩戴口罩人臉目標,圖12(p)為本文算法檢測結果,成功將其檢測出來且置信度幾乎為1;圖12(k)中,原模型共檢測出15個目標,本文改進后的模型檢測結果如圖12(q)所示,共檢測出了20個目標;圖12(l)中,YOLOv3原模型共檢測出了13個佩戴口罩的人臉,本文改進算法模型共檢測出了18個目標,如圖12(r)所示,比原模型多檢測出5個目標,成功檢測出了原模型漏檢的一些小目標與被遮擋目標。從圖12(p)(q)(r)中可以看出,本文模型在檢測目標的置信度上有了顯著提升,有著更高的預測準確率。綜上所述,與其他算法相比,本文算法更適用于人群口罩佩戴檢測,在密集小目標與被遮擋目標的檢測效果上有著顯著提升。

        圖12 不同算法的檢測效果對比Fig.12 Comparison of detection results of different algorithms

        4 結束語

        針對人群環(huán)境下存在的口罩佩戴檢測中密集、遮擋目標與小目標檢測效果差等問題,本文以YOLOv3網絡為基礎提出一種改進的YOLOv3算法。首先,改進YOLOv3的多尺度檢測網絡,在原網絡中增加新的淺層檢測尺度構成4尺度檢測結構,并在數據集上重新聚類生成新的先驗框尺寸分配給各個檢測層;然后,引入自上而下和自下而上的特征融合策略將低層特征圖細節(jié)信息與高層特征圖語義信息融合,進一步利用特征信息;接著,采用CIoU損失函數進行邊框回歸,增加模型定位的準確性;最后,在本文建立的數據集上進行訓練與測試。實驗結果表明,本文算法在人群口罩佩戴檢測中平均精度均值達到了93.66%,比原YOLOv3算法提高了5.61個百分點,與其他主流目標檢測算法相比有較大優(yōu)勢,同時檢測速率上滿足實時性要求,有一定的實用性與有效性。由于改進算法使網絡結構復雜化,增加了模型參數,檢測速率有所下降,后續(xù)將考慮輕量化網絡結構,提升檢測速率。

        猜你喜歡
        先驗口罩尺度
        財產的五大尺度和五重應對
        戴口罩的苦與樂
        意林(2020年9期)2020-06-01 07:26:22
        因為一個口罩,我決定離婚了
        海峽姐妹(2020年4期)2020-05-30 13:00:08
        基于無噪圖像塊先驗的MRI低秩分解去噪算法研究
        霧霾口罩
        基于自適應塊組割先驗的噪聲圖像超分辨率重建
        自動化學報(2017年5期)2017-05-14 06:20:44
        要戴口罩的霧霾天
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        基于平滑先驗法的被動聲信號趨勢項消除
        先驗的廢話與功能的進路
        東南法學(2015年2期)2015-06-05 12:21:36
        精品少妇一区二区三区免费| 无码一区二区三区网站| 在线观看极品裸体淫片av| 伊人久久亚洲精品中文字幕| 亚洲av成人无码一二三在线观看 | 最新国产不卡在线视频| 丰满少妇被粗大的猛烈进出视频| 日本高清一区二区三区水蜜桃| 亚洲性爱区免费视频一区| 亚洲精品国产av日韩专区| 美女露内裤扒开腿让男人桶无遮挡| 乱子伦视频在线看| 亚洲综合综合在线| 久久精品国产亚洲av久五月天| 欧美最猛黑人xxxx黑人猛交| 人妻熟妇乱又伦精品视频app | 久热在线播放中文字幕| 成人国产精品高清在线观看| 亚洲精品一区二区成人精品网站 | 在线免费观看毛视频亚洲精品 | 国产久热精品无码激情 | 女同国产日韩精品在线| 麻豆精品一区二区综合av| 日日碰狠狠添天天爽无码| 午夜亚洲AV成人无码国产| 伊人久久综合狼伊人久久| 久久久99精品成人片| 色伦专区97中文字幕| 久久综合给合久久狠狠狠9| 日本高清视频一区二区| av国产传媒精品免费| 黑人巨大videos极度另类| 日韩精品有码中文字幕在线| 校园春色人妻激情高清中文字幕| 亚洲国产另类精品| 亚洲黄色在线看| 亚洲一区二区三区色偷偷| 少妇愉情理伦片| 亚洲国产美女精品久久| 91国产视频自拍在线观看| 国产精品理论片在线观看|