◆溫桂璋 李丹
基于YOLOV4-Tiny的墜樓檢測預(yù)警應(yīng)用
◆溫桂璋 李丹
(四川大學(xué)錦城學(xué)院計算機與軟件學(xué)院 四川 611371)
隨著社會的發(fā)展,房地產(chǎn)的興起,高樓的新建,墜樓事件頻頻發(fā)生。不僅對墜樓人員及其家人的生命、財產(chǎn)受到威脅,也會影響到事發(fā)所在地的人員的生命和財產(chǎn)安全。針對墜樓事件的發(fā)生,本文提出一種基于YOLOV4-Tiny的墜樓檢測預(yù)警應(yīng)用,在檢測到有人靠近窗戶,頂樓邊緣等容易墜樓的地方后對監(jiān)管人員發(fā)出預(yù)警。YOLOV4-Tiny是基于YOLOV4的輕量化模型,網(wǎng)絡(luò)結(jié)構(gòu)更簡單,檢測速度快,適于實時且硬件條件有限的目標檢測。本研究在Colab平臺上,采用VOC2011數(shù)據(jù)集中含有人類的圖像作為數(shù)據(jù)集訓(xùn)練模型,YOLOV4-Tiny的MAP為80%,在嵌入式系統(tǒng)或移動設(shè)備上實時檢測有優(yōu)秀的性能。
目標檢測;YOLOV4-Tiny;人類;墜樓檢測預(yù)警
隨著時代的發(fā)展,移動網(wǎng)絡(luò)和光纖的覆蓋,智能手機的普及和移動支付的應(yīng)用,一方面,網(wǎng)絡(luò)詐騙,網(wǎng)絡(luò)貸款接踵而至。騙子作案方式花樣繁多,為達目的不擇手段,受害者在身心受到折磨和財產(chǎn)遭到大量損失后,一部分人選擇從高樓跳下結(jié)束自己生命。另一方面,隨著當(dāng)今社會飛速發(fā)展,人們所承受的壓力也隨之增大。無論成年人還是未成年人,長此以往在這種情況下,很容易超過自身的能力范圍,一旦超過了自身的能力范圍后,就很容易走向極端,其中不乏因此而跳樓輕生的人。這些選擇跳樓的人,大多趁無人時選擇從樓頂(窗戶)跳下結(jié)束自己的生命。如果有人及時發(fā)現(xiàn)了并在他身邊說說話、聊聊天、安慰安慰他,幫助他調(diào)整一下自己的心態(tài),這當(dāng)中的大部分人會冷靜下來不會選擇輕生。但建筑頂層大多面積大、鮮有人至,單純依靠人力,難以做到實時監(jiān)管,及時規(guī)避風(fēng)險。
在日常生活中,有不少兒童從高空墜落的悲劇發(fā)生。小孩子年紀小,好奇心重又難以察覺高度可能帶來的危險,在玩耍過程中存在危險隱患,家長在看護過程中若有一時疏忽,極易造成悲劇的發(fā)生。若家里的大人或鄰居及時發(fā)現(xiàn),及時解除危險,就能避免危險發(fā)生。但遺憾的是,雖然家用攝像頭快速普及,但不可以發(fā)出墜樓風(fēng)險預(yù)警,單純依靠家長長時間看監(jiān)控視頻避免墜樓事件發(fā)生有很大的難度。針對以上問題,急需一種可以在家庭中適用的,輕量化的實時墜樓檢測系統(tǒng),在易墜樓區(qū)域出現(xiàn)人員時,及時對監(jiān)管人員發(fā)出預(yù)警。
近年來,隨著計算機技術(shù)的發(fā)展,深度學(xué)習(xí)模型已經(jīng)逐漸成為了目標檢測領(lǐng)域的一種主流算法。在深度學(xué)習(xí)模型中可大致分為二階段(two-stage)和一階段(one-stage)兩種圖像目標檢測算法。二階段目標檢測算法檢測和分類分別進行,代表模型有:Faster R-CNN[1],R-FCN[2],Mask R-CNN[3]。一階段中目標檢測和分類算法同時進行,經(jīng)典模型如:RPN[4],SSD[5],YOLO[6],RetinaNet[7]。在通常情況下,二階段目標檢測算法在精度更勝一籌,但一階段目標檢測算法的速度更快。綜合來看,一階段目標檢測對硬件的要求更低,更適用于對監(jiān)控設(shè)備進行實時檢測。
2016年Joseph Redmon等人提出YOLO系列的初代算法YOLOV1[6]并在CVPR上發(fā)表。在該文章中,YOLOV1 backbone受GoogleNet影響,將輸入的圖像分割成7*7個格子,其中每個格子輸出2個bounding box(每個bounding box包括檢測框的中心位置坐標,預(yù)測的置信度、寬度、高度5個參數(shù)),預(yù)測出20個物體可能屬于的類別信息,最終輸出大小不變、維度為30的張量?;谶@種方式,YOLO會在輸出結(jié)果中體現(xiàn)出該目標所有的信息。YOLO算法的出現(xiàn)使得目標檢測在檢測準確率變化不大的情況下檢測速度大量提升,且通用性強。此后在YOLOV1的基礎(chǔ)上不斷改進完善算法,YOLOV2比YOLOV1預(yù)測更準確,速度更快,識別對象更多,基于YOLOV2構(gòu)架的YOLO9000[8]甚至能檢測9000種不同的對象。
YOLOV3[9]在之前算法的基礎(chǔ)上通過改變模型結(jié)構(gòu)的大小提高速度與精度,并將網(wǎng)絡(luò)結(jié)構(gòu)分成了輸入端、主干網(wǎng)絡(luò)、neck、prediction四個部分。2020年發(fā)布的YOLOV4的整體架構(gòu)和YOLOV3是相同的,只是使用了新的算法對輸入端、主干網(wǎng)絡(luò)、neck、prediction的具體組成都進行了改進,如:在輸入端增加Mosacio數(shù)據(jù)增強,將主干網(wǎng)絡(luò)的結(jié)構(gòu)改為CSPDarknet53再結(jié)合SPP模塊和Dropblock,以及后面的SPP模塊、PAN模塊等,讓目標檢測的速度更快。YOLOV4[10]相對YOLOV3來說對硬件的要求更低,更適合單GPU的訓(xùn)練目標檢測模型。但還不足以在計算能力和內(nèi)存有限的移動設(shè)備和嵌入式設(shè)備上面使用。YOLOV4-Tiny是在YOLOV4精簡后的輕量化模型,參數(shù)只有原來的十分之一,結(jié)構(gòu)更加簡單,檢測速度更快,更適于實時且硬件條件有限的目標檢測。
YOLOV4-Tiny(網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示)是將YOLOV4輕量化后的版本,YOLOV4共有6000萬左右的參數(shù),YOLOV4-Tiny只有600萬左右的參數(shù),僅為原來的十分之一。雖然精度有一些下降,但已經(jīng)滿足了實際需要,并提高了完成目標檢測的速度,對硬件要求更低,更加適合在硬件條件苛刻的情況下進行實時目標檢測,極大地提高了將目標檢測方法部署在嵌入式系統(tǒng)或移動設(shè)備上并達到實時檢測的可行性。
圖1 YOLOV4-Tiny網(wǎng)絡(luò)結(jié)構(gòu)
(1)主干網(wǎng)絡(luò)
使用CSPDarknet53-Tiny作為主干網(wǎng)絡(luò),整個主干網(wǎng)絡(luò)共38層。在使用了2個卷積塊對輸入圖像進行下采樣后,使用了3個殘差單元,為了更進一步提高檢測速度,將YOLOV4的主干網(wǎng)絡(luò)中的Mish激活函數(shù)改為Leaky激活函數(shù)。其中的主干部分進行殘差塊的堆疊,另一部分跨階段層次連接到FPN結(jié)構(gòu)后將它們合并。CSPnet的作者認為這種做法可以在保證準確率的情況下,解決網(wǎng)絡(luò)優(yōu)化過程中的梯度信息重復(fù)所導(dǎo)致的推理成本過高的問題。與復(fù)塊模塊相比,CSP塊模塊可以提高卷積網(wǎng)絡(luò)的學(xué)習(xí)能力。雖然這使計算量增加了,但它在輕量化的情況下也保證了準確率,降低了內(nèi)存成本。
(2)特征金字塔
在特征融合部分,YOLOV4-Tiny方法與YOLOv4方法中使用的空間金字塔池和路徑聚合網(wǎng)絡(luò)用于特征融合的方法不同。YOLOV4-Tiny使用了特征金字塔網(wǎng)絡(luò)來提取13×13和26×26兩種尺度的特征圖,以提高目標檢測速度。以至于YOLOv4最終輸出3個YOLO Head,YOLOV4-Tiny最終輸出2個YOLO Head。
(3)Mosaic數(shù)據(jù)增強
Mosaic數(shù)據(jù)增強是從2019年底提出的CutMix[11]數(shù)據(jù)增強,為了提高GPU利用率,利用了兩張圖片進行拼接中受到了啟發(fā),為了更進一步在提高算法性能,增大GPU的利用率,Mosaic數(shù)據(jù)增強在此基礎(chǔ)上,多采用了2張圖片進行拼接,批量標準化地從每個層4個圖像中計算激活統(tǒng)計信息,大量減少了對大型小批量產(chǎn)品的需求,豐富了數(shù)據(jù)集,減少了對GPU的要求,縮短了數(shù)據(jù)處理的時間。
從擁有20個分類的VOC2011數(shù)據(jù)集中提取出現(xiàn)人類的7419張圖片作為數(shù)據(jù)集,從中劃分出6677張圖片(大約90%)作為訓(xùn)練集,742張圖片作為測試集(大約10%)。在劃分數(shù)據(jù)集時需要將VOC2011中xml格式的標簽改為YOLO適用的txt格式。隨機縮放、隨機裁剪、隨機排布等數(shù)據(jù)預(yù)處理方式,在主干網(wǎng)絡(luò)中會利用Mosaic數(shù)據(jù)增強自動進行。
在Google Colab云端深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練平臺上,使用型號為Tesla T4的GPU對YOLOV4-Tiny模型進行訓(xùn)練和測試。在實驗中YOLOV4-Tiny迭代了9000次,從圖像(圖2)中可以看出YOLOV4-Tiny在訓(xùn)練1800輪后損失值的變化趨近于穩(wěn)定,在訓(xùn)練3600輪后map值的變化趨近于平穩(wěn)。
圖2 YOLOV4-Tiny的損失圖像和MAP
從訓(xùn)練結(jié)果(圖2)可以看出,YOLOV4-Tiny的MAP為80%,把訓(xùn)練好的模型在Google Colab云端深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練平臺上,用型號為Tesla T4的GPU,測試發(fā)現(xiàn)(圖4)YOLOV4-Tiny的平均幀數(shù)為50.6,畫面流暢,實時目標檢測迅速。在視野清晰,光線良好的情況下(圖3),置信度可以達到0.86以上。
圖3 YOLOV4-Tiny的檢測結(jié)果
圖4 YOLOV4-Tiny的fps
根據(jù)使用地點及監(jiān)管人員不同,將墜樓檢測預(yù)警系統(tǒng)分為兩類。墜樓檢測預(yù)警系統(tǒng)圖5(a)在室內(nèi)環(huán)境中易發(fā)生墜樓事件的區(qū)域的監(jiān)控設(shè)備上部署一個檢測系統(tǒng)??紤]到在室內(nèi)環(huán)境下發(fā)生墜樓事件的情況更加突然,需及時解除危險,故在監(jiān)控系統(tǒng)下易墜樓區(qū)域有人出現(xiàn),立即啟動示警系統(tǒng),對監(jiān)管人員做出示警。墜樓檢測預(yù)警系統(tǒng)圖5(b)是部署在室外環(huán)境下的,如樓頂、露臺等地方,通常面積較大,活動空間較多,也會有人去看風(fēng)景、晾衣服等。若這些區(qū)域一出現(xiàn)人立即示警就會造成大量的公共資源浪費,所以墜樓檢測預(yù)警系統(tǒng)b在墜樓檢測預(yù)警系統(tǒng)a的基礎(chǔ)上增加了一個預(yù)警系統(tǒng),在有人進入室外高層空間后,首先觸發(fā)預(yù)警系統(tǒng),提示該區(qū)域有人進入。檢測系統(tǒng)繼續(xù)進行檢測任務(wù),如果該進入人員靠近室外易發(fā)生墜樓事件區(qū)域,則立即觸發(fā)示警系統(tǒng),向該區(qū)域監(jiān)管人員發(fā)出示警。
圖5 墜樓檢測預(yù)警系統(tǒng)
本文提出了一種墜樓檢測預(yù)警系統(tǒng),按使用場景的不同具體分為兩個結(jié)構(gòu),但檢測系統(tǒng)是一樣的,只是針對應(yīng)用場景的不同在其中一個結(jié)構(gòu)中增加了預(yù)警系統(tǒng)。在室內(nèi)外易發(fā)生墜樓事件的區(qū)域安置攝像頭并部署該檢測系統(tǒng),能幫助監(jiān)管人員發(fā)現(xiàn)墜樓隱患,從而避免悲劇的發(fā)生。YOLOV4-Tiny模型的使用將目標檢測方法部署在嵌入式系統(tǒng)或移動設(shè)備上,MAP也達到了80%,能更加快速、準確地在嵌入式系統(tǒng)或移動設(shè)備上實時檢測,能在一定程度上減輕家長和公共區(qū)域監(jiān)管人員的負擔(dān),但這還不足以進行準確的墜樓風(fēng)險預(yù)警,誤報概率較大,需要大量的人工干預(yù)。接下來可以從增加出現(xiàn)在墜樓風(fēng)險區(qū)域的人員身體姿態(tài)識別、年齡識別、實時監(jiān)控時間等方面,為墜樓風(fēng)險劃分等級,進行更進一步的分級預(yù)警研究,從而在一定程度上降低誤報的概率,提高預(yù)警的準確性。
[1]Shaoqing Ren,Kaiming He,Ross Girshick,and Jian Sun. Faster R-CNN:Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems(NIPS),pages 91-99,2015. 2.
[2]Jifeng Dai,Yi Li,Kaiming He,and Jian Sun. R-FCN: Object detection via region-based fully convolutional networks. In Advances in Neural Information Processing Systems(NIPS), pages 379-387,2016. 2.
[3]Kaiming He,Georgia Gkioxari,Piotr Dollar,and Ross Gir-′shick. Mask R-CNN. In Proceedings of the IEEE International Conference on Computer Vision(ICCV),pages 2961-2969,2017.2.
[4]Shaoqing Ren,Kaiming He,Ross Girshick,and Jian Sun. Faster R-CNN:Towards real-time object detection with region proposal networks. In Advances in Neural Information Processing Systems(NIPS),pages 91-99,2015. 2.
[5]Wei Liu,Dragomir Anguelov,Dumitru Erhan,Christian Szegedy,Scott Reed,Cheng-Yang Fu,and Alexander C Berg. SSD:Single shot multibox detector. In Proceedings of the European Conference on Computer Vision(ECCV),pages 21-37,2016. 2,11.