亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于改進的YOLOv3和Facenet的無人機影像人臉識別*

        2023-01-11 13:08:42高錦風陳玉魏永明李劍南
        中國科學院大學學報 2023年1期
        關鍵詞:人臉識別檢測模型

        高錦風,陳玉,魏永明?,李劍南

        (1 中國科學院空天信息創(chuàng)新研究院, 北京 100094; 2 中國科學院大學, 北京 100049)

        人臉識別作為一種重要的非接觸身份獲取技術,在安檢安防、用戶認證、疑犯追蹤以及電子商務等多領域具有重要意義[1]。當前對于人臉識別的研究已相對成熟,但大多是基于固定攝像頭采集的靜態(tài)圖片。在無人機嫌疑人員實時跟蹤這樣的動態(tài)場景中由于受無人機飛行高度調整、角度變換等的影響,識別精度被大幅度降低。隨著無人機的迅速發(fā)展,無人機因其小巧易控在工農業(yè)及軍事領域得到廣泛使用,基于無人機平臺的人臉識別研究具有重要意義。

        人臉識別過程由人臉檢測和人臉匹配[2]兩個階段構成。人臉檢測就是通過一些基于統(tǒng)計或者知識的方法預測人臉是否存在并定位人臉位置;人臉匹配是通過一對一或者一對多地對檢測出的人臉進行判定[3]。當前人臉識別的方法主要有基于人臉整體的識別方法和基于人臉部件的特征分析方法[4]。近幾年,隨著軟硬件技術的快速發(fā)展,深度學習已經成為基于整體人臉識別方法中炙手可熱的選擇。深度學習卷積神經網絡通過多卷積層自動學習人臉整體特征,不僅實現(xiàn)人臉的自動檢測以及識別,而且受專家經驗影響小,精度以及檢測速度都可以很好地支持實際應用。

        當前深度學習目標檢測主流的網絡可分為單步式基于回歸網絡和兩步式基于候選區(qū)域的網絡。其中兩步式網絡以Fast-RCNN[5]、Faster-RCNN[6]、Mask-RCNN[7]等典型網絡為代表;單步式網絡以經典的YOLO[8-10](you only look once)系列為代表。單步式網絡由于將整個檢測過程視為回歸問題而大大縮短了檢測時間。雖然精度相對于兩步式網絡有所下降,但實時性更強,精度也足以滿足實際應用需要。YOLOv3[10]是YOLO系列中廣泛使用的網絡,高劉雅等[11]在YOLOv3的基礎上提出輕量級注意力機制的網絡實現(xiàn)了人臉的準確檢測,準確率達到94.08%。潘浩然[12]通過改進YOLOv3的損失函數(shù)改善YOLOv3的錯檢漏檢問題,實現(xiàn)了人臉的高精度檢測。Facenet[13]是如今主流的人臉識別算法,通過在歐式空間中對比人臉特征之間的距離來判定二者之間的相似度以完成人臉匹配。Facenet與MTCNN[14](multi-task convolutional neural network)的結合使用是經典的人臉識別組合。劉長偉[15]利用MTCNN結合Facenet進行人臉識別,在LFW(labled faces in the wild)數(shù)據集上實現(xiàn)了99%的準確率。李林峰等[16]結合MTCNN和Facenet設計實現(xiàn)了人臉識別考勤系統(tǒng)。這些研究主要識別靜態(tài)正面人臉,能較好發(fā)揮MTCNN關鍵點檢測的優(yōu)勢。對于本文的無人機應用場景,MTCNN受無人機的拍攝角度影響很難發(fā)揮正臉檢測的優(yōu)勢,YOLOv3基于回歸的檢測方式能更好應對這種應用場景。但YOLOv3存在的低召回率以及邊框位置回歸不準的問題[11-12]仍有待進一步改進。

        本文采取改進后的YOLOv3進行人臉檢測,檢測結果經過人臉對齊后以160×160大小輸入Facenet網絡中進行人臉匹配。研究針對YOLOv3漏檢以及預測框定位精度差的問題,對YOLOv3的特征提取網絡以及損失函數(shù)進行改進。同時還對基于Widerface[17]數(shù)據集以及自制數(shù)據集進行了改進前后模型的訓練和測試,通過與MTCNN算法進行對比從而驗證改進模型的有效性以及準確性。

        1 數(shù)據集

        Widerface[17]是人臉識別研究中最常用的開源人臉基準數(shù)據集,其中涉及61個事件類別。對于每個事件類別,訓練數(shù)據占40%,驗證數(shù)據占10%,測試數(shù)據占50%。Widerface數(shù)據集中場景豐富,人臉在大小、光照、位置、表情等方面具有多樣性。但該數(shù)據集以歐美人臉為主,單獨使用該數(shù)據集無法滿足國內人臉檢測需求。因此實驗中還使用無人機獲取的視頻數(shù)據,通過提取幀、含重疊裁剪等預處理操作獲得4 334張416×416的人臉圖片,并對其進一步劃分為訓練、驗證及測試集。具體每部分數(shù)據見表1。

        表1 人臉檢測所用數(shù)據集Table 1 Datasets used in face detection

        實驗還使用了中國科學院自動化所制作的開源人臉數(shù)據集CASIA-FaceV5,該數(shù)據集由2 500張480×640的圖片構成,共有500個人物目標。只包含一個室內場景,并在照明、是否佩戴眼鏡、表情等方面有變化。

        2 研究方法

        2.1 YOLOv3及其改進

        YOLOv3[10]是YOLO(you only look once)系列中比較經典的網絡,因其速度快、精度高被廣泛應用于各類目標檢測任務中。YOLOv3以Darknet53作為特征提取網絡,性能相對于采用Darknet19的YOLOv2[9]有較大提升。YOLOv3用5個步長為2的卷積實現(xiàn)5次下采樣獲得在13×13尺度上的預測。同時通過類似特征金字塔的上采樣方式實現(xiàn)2次上采樣并結合融合策略得到26×26以及52×52尺度的預測,實現(xiàn)多尺度預測。此外YOLOv3采用邏輯回歸預測對象類別。雖然YOLOv3在目標檢測任務中優(yōu)勢明顯,但存在召回率低以及預測框定位不準確等問題。

        針對召回率低的問題,采用SE-ResNeXt[18]代替Darknet53中的ResNet[19],通過引入“基數(shù)”維度增加操作數(shù),同時保證模型復雜度不會增加。避免采用加深或者增加通道數(shù)提升模型性能所帶來的傳播梯度問題。此外,模型中還通過加入SEnet[18](squeeze-and-excitation networks)引入注意力機制,有選擇性地利用學到的特征,在充分利用有用特征的基礎上抑制無用特征。改進后的模型將SEnet置于ResNeXt[20]的跳層連接之前,并且“基數(shù)”維度選用16。改進后的模型的詳細結構見圖1。

        圖1 改進后YOLOv3的結構Fig.1 The structure of the improved YOLOv3

        YOLOv3的損失函數(shù)由位置損失、類別損失及置信度損失3部分組成。位置損失主要針對預測框和真值框中心點坐標及長寬的差距進行懲罰。預測框使用交并比(intersection over union,IOU)指導回歸,雖然這個指標比較經典,但當預測框和真值框存在包圍關系或者不相交時,無法提供優(yōu)化方向。CIOU[21](complete-IoU loss)在IOU、GIOU[22](generalized intersection over union)和DIOU[21](distance-IoU loss)的基礎上綜合考慮預測框和真值框之間的重疊面積、中心點間的距離、長寬比的一致性,在兩框的各種位置關系情況下都可以提供優(yōu)化方向。CIOU的計算如下

        (1)

        式中:Op和Ol分別表示預測框和真值框的中心點,l表示兩框中心點之間的歐式距離,c表示包含兩框的最小外接矩形對角線的長度。α是平衡比例的系數(shù),υ用于衡量預測框與真值框長寬比的一致性,計算公式如下:

        (2)

        (3)

        其中:wt,ht為真值框的長寬,wp,hp為預測框的長寬。已有研究表明[22],回歸損失可以直接作為YOLOv3的位置損失,從而取代二值交叉熵及均方根誤差等方法。改進后的位置損失如下

        CIOUloss=Confidence(2-w×h)(1-CIOU).

        (4)

        2.2 Facenet模型

        Facenet[13]是Google提出的常用的人臉匹配方法,采用端對端的方式直接對輸入圖像進行判定。其摒棄了通過Softmax進行分類的方式,而是采用三元組在Triplet Loss的指導下直接對比圖像特征向量之間的歐式距離,從而判定人臉圖像的相似性。該模型可用于對比兩張人臉是否屬于同一個人、確定輸入人臉身份以及聚類輸入人臉找出屬于同一個人的人臉。模型詳細結構見圖2,本文采用輸入為160×160的Inception ResNet v1網絡做為主體網絡。在Triplet Loss的指導下不斷減小類內人臉特征向量之間的歐式距離,擴大類間人臉特征向量之間的距離,最終得到人臉的特征向量(embeddings)。

        圖2 Facenet的結構Fig.2 The structure of Facenet

        3 實驗與結果分析

        3.1 實驗環(huán)境與設置

        實驗在一臺搭載了RTX2080Ti獨立顯卡(運行內存11 GB),i9-9900k處理器的Windows10操作系統(tǒng)上進行。并采用Tensorflow和Keras框架。實驗分為人臉檢測和人臉匹配2部分,其中人臉檢測中YOLOv3以及改進后的模型采用adam優(yōu)化器,批處理量為8,初始學習率為10-3。學習率在驗證損失20期(epochs)不變時下降為1/10,直到變?yōu)?0-6。當實驗達到500期或者驗證損失在50期內不變時,學習將停止。人臉檢測圖片的輸入大小為416×416。人臉匹配圖片的輸入為160×160,批處理為1 000。

        3.2 實驗評估指標

        為了測試模型效果,實驗中使用評估指標召回率[23](recall,R,指在所有確實為真的樣本中,被判為的真的占比),精度[23](precision,P,指在所有系統(tǒng)判定的真的樣本中,確實是真的的占比),F1分數(shù),平均精確度(average precision,PA)[24]及FPS(指每秒傳輸?shù)膸瑪?shù),當FPS達到30時可以認為接近實時處理)對實驗用到的模型進行評估。其中P,R,F(xiàn)1計算見下式:

        (5)

        (6)

        (7)

        3.3 人臉檢測模型訓練及測試

        深度卷積神經網絡需要大量數(shù)據支撐訓練,模型首先采用數(shù)據量充足的Widerface數(shù)據集進行預訓練,后又基于自制的無人機人臉數(shù)據集進行優(yōu)化訓練,并對訓練好的模型進行測試。從表2可以看出改進后的YOLOv3的召回率,F(xiàn)1分數(shù)及平均精確度(PA)相對原始YOLOv3都有提升,但參數(shù)量反而有所下降。實現(xiàn)了在不增加模型參數(shù)量的同時提升模型檢測性能。雖然檢測速度相比原始YOLOv3有所下降,但實時性仍能較好滿足實際應用需要。此外,雖然改進后的YOLOv3的參數(shù)相比MTCNN較多,但PA提升9.49%,且檢測速度約是MTCNN的3倍。為了更直觀地測試3個模型,圖3顯示了3個模型對無人機影像上人臉的檢測結果。其中紅色框為模型檢測框,黃色框與綠色框分別對應漏檢和錯檢的人臉,可見改進后的YOLOv3的錯檢和漏檢情況更少,檢測能力及對人臉的魯棒性更強。

        表2 3個模型人臉檢測的指標評估Table 2 Face detection index evaluation of the three models

        3.4 人臉匹配

        Facenet提供CASIA-WebFace和VGGFace2兩種預訓練模型,本文結合遷移學習的思想,采用VGGFace2預訓練模型。目標人臉經過檢測得到人臉的預測邊框,基于這個邊框進行人臉對齊,并統(tǒng)一歸一化為160×160大小,輸入Facenet后對比目標人臉與模板人臉的特征向量以確定人臉對象的身份。為了反映改進后的YOLOv3對不同人臉圖像的可區(qū)分性,實驗對比了改進后的YOLOv3,YOLOv3及經典的MTCNN計算得到的A,B 2個目標的不同圖片的歐氏距離。以1為不同目標人物人臉歐氏距離的閾值(2張人臉的歐氏距離高于該閾值,則認為2張人臉屬于2個不同的人;低于該閾值則認為2張人臉屬于同一個人)。表3顯示改進后的YOLOv3與MTCNN對清晰的正臉圖像均可以實現(xiàn)很好的區(qū)分(見圖4(a)、4(b)、4(e)、4(f)),但YOLOv3計算的A_1和B_1的歐式距離異常。對于人臉模糊以及拍攝角度較大產生的非正臉圖像(見圖4(c)、4(d)、4(f)、4(g)),改進后的YOLOv3及YOLOv3僅有一對歐氏距離異常,但MTCNN有3對異常值。這表明改進后的YOLOv3的檢測性能、區(qū)分能力及魯棒性更強。

        圖4 與歐氏距離計算相關的圖像Fig.4 Images related to Euclidean distance calculation

        表3 3個模型計算得到的A、B目標不同人臉圖像的歐式距離(加粗數(shù)字表明異常)Table 3 Euclidean distance between different face images of people A and B calculated by three models(Bold values indicate values that are not in the normal range)

        為了反映改進后的YOLOv3結合Facenet的人臉識別效果,利用亞洲人臉圖像數(shù)據集CASIA-FaceV5測試改進后的YOLOv3,YOLOv3及MTCNN分別與Facenet結合的人臉識別性能。實驗共測試了CASIA-FaceV5數(shù)據集中2 500張人臉圖像,其中改進后的YOLOv3+Facenet實現(xiàn)了全部圖像正確檢測和對齊,并正確識別了其中1 863張人臉,得到74.52%的準確率(表4)。相對YOLOv3+Facenet的71.16% 的準確率和MTCNN+Facenet的66.2%的準確率,改進后的YOLOv3+Facenet的準確率均有提升。表明改進后的YOLOv3結合Facenet的組合在人臉識別任務中性能更優(yōu)。除此之外,YOLOv3+Facenet和MTCNN+Facenet在對齊率上也低于改進后的YOLOv3+Facenet,這也反映出改進后的YOLOv3的檢測能力更強。為了更直觀地反映3個模型組合在無人機影像上的人臉識別效果,圖5顯示了3個模型組合對圖3放大區(qū)域的人臉識別結果。通過與正確目標身份對比可知,改進后的YOLOv3+Facenet實現(xiàn)了兩張圖像中目標身份的正確識別,而YOLOv3+Facenet對C的身份識別有誤,MTCNN+Facenet對D的身份識別有誤??梢姼倪M后的YOLOv3與Facenet結合的識別效果最好。

        圖5 3個模型結合Facenet對無人機影像的人臉識別結果Fig.5 Face recognition results of UAV images based on the three models combined with Facenet

        表4 3個模型組合對CASIA-FaceV5數(shù)據集人臉的識別結果對比Table 4 Comparison of face recognition results of the three model combinations on CASIA-FaceV5 dataset

        圖3 3個模型對無人機影像人臉檢測結果Fig.3 UAV image face detection results of the three models

        CASIA-FaceV5數(shù)據集是正面拍攝的人臉關鍵點清晰的數(shù)據集,實際應用中無人機影像由于拍攝高度、遮擋及飛行速度等一系列因素的影響會存在面部遮擋,人臉模糊以及關鍵點不明顯的俯視人臉情況的存在。為測試3個模型組合對遮擋及模糊情況的魯棒性,圖6顯示了3個模型組合對人臉清晰,存在遮擋和存在模糊情況的無人機影像的人臉識別效果。從圖中可以看出,對于面部清晰的人臉,如圖6(a)和6(d)所示,3個模型組合都可以實現(xiàn)正確的識別;但對于面部有遮擋、部分模糊以及人臉關鍵點不清晰的情況,分別如圖6(b)、6(c)和6(e)所示,改進后的YOLOv3+Facenet可以實現(xiàn)正確識別,而MTCNN+Facenet均無法正確識別,YOLOv3+Facenet對模糊情況的識別錯誤。可見改進后的YOLOv3+Facenet對實際無人機應用面臨的模糊及遮擋情況具有更強的魯棒性。

        圖6 3個模型組合對不同質量的無人機影像的人臉識別結果Fig.6 Face recognition results of the three model combinations on UAV images with different qualities

        4 討論與總結

        無人機因其小巧易控以及飛行可調等優(yōu)點在應急救援以及嫌疑人員追蹤等應用場景發(fā)揮著重要作用,應用于無人機影像的高精度人臉識別技術能更好地發(fā)揮無人機的作用。隨著軟硬件性能的提升,深度學習得到了快速發(fā)展,卷積神經網絡以其較高的精度和較少的人為干擾成為目標檢測領域的熱門研究方法。

        Facenet與MTCNN的結合是比較經典也比較常用的人臉檢測識別組合,但在無人機應用場景下拍攝高度造成的影像非正臉的情況難以發(fā)揮MTCNN關鍵點檢測的優(yōu)勢,導致錯檢漏檢現(xiàn)象嚴重,難以滿足實際應用需要。本文探究在無人機應用場景下的高精度人臉識別方法,以改進的YOLOv3進行人臉檢測,再結合Facenet實現(xiàn)人臉識別。實驗證明改進YOLOv3結合Facenet對人臉的區(qū)分能力更強,檢測及識別精度更高,同時對于無人機影像存在的遮擋、模糊等情況的魯棒性也更高。除此之外,改進后的YOLOv3相對原始YOLOv3不僅精度和召回率得到提升,而且模型參數(shù)量有所減少。在無人機影像人臉檢測中的漏檢和錯檢現(xiàn)象也輕于原始YOLOv3,因此對于YOLOv3的改進也是有效的。

        本文既采用了數(shù)據量豐富的公開數(shù)據集,也結合了基于無人機影像的自制數(shù)據集,不僅避免了過擬合問題,也豐富了當前的開源人臉數(shù)據集。此外,隨著今后自制數(shù)據集容量的不斷積累擴充,模型的訓練還將實現(xiàn)進一步完善,檢測以及識別性能也將得到進一步提升。

        猜你喜歡
        人臉識別檢測模型
        一半模型
        人臉識別 等
        作文中學版(2022年1期)2022-04-14 08:00:34
        “不等式”檢測題
        “一元一次不等式”檢測題
        “一元一次不等式組”檢測題
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        揭開人臉識別的神秘面紗
        學生天地(2020年31期)2020-06-01 02:32:06
        3D打印中的模型分割與打包
        小波變換在PCB缺陷檢測中的應用
        国产av无码专区亚洲av蜜芽| 国产麻豆成人精品av| 成人爽a毛片在线播放| 欧美大胆性生话| 亚洲av纯肉无码精品动漫| 青青草视频网站免费观看| 精品久久免费国产乱色也| 全免费a级毛片免费看无码| 国产av无码专区亚洲av极速版| 免费成人福利视频| 日韩av最新在线地址| 97人妻精品一区二区三区男同 | 五十路丰满中年熟女中出| 久久精品无码一区二区三区蜜费| av资源在线永久免费观看| 亚洲字幕中文综合久久| 精品国产乱码久久久久久影片| 一本一道波多野结衣av中文| 91成人自拍视频网站| 久久久国产精品无码免费专区| 性生交大全免费看| 在线观看国产内射视频| 激情五月开心五月av| 午夜精品久久久久久久无码| 无码夜色一区二区三区| 蜜桃av观看亚洲一区二区| 中文字幕在线看精品乱码| 欧美大成色www永久网站婷| 免费的一级毛片| 91中文在线九色视频| 性久久久久久| 久久精品夜夜夜夜夜久久| 日本精品极品视频在线| 亚洲国产一区二区三区| 强行无套内谢大学生初次| 亚洲成a人片在线观看导航| 国产自拍视频免费在线观看| 亚洲精品色婷婷在线影院| 婷婷综合五月| 亚洲码无人客一区二区三区| 波多野结衣中文字幕一区二区三区 |