盛恒 黃銘 楊晶晶
摘 要:針對人員位置相對固定的場景中實時人數(shù)統(tǒng)計的管理需求,以普通高校實驗室為例,設計并實現(xiàn)了一套基于更快速的區(qū)域卷積神經網(wǎng)絡(Faster R-CNN)和交并比(IoU)優(yōu)化的實驗室人數(shù)統(tǒng)計與管理系統(tǒng)。首先,使用Faster R-CNN模型對實驗室內人員頭部進行檢測;然后,根據(jù)模型檢測的輸出結果,利用IoU算法濾去重復檢測的目標;最后,采用基于坐標定位的方法確定實驗室內各個工作臺是否有人,并將相對應的數(shù)據(jù)存入數(shù)據(jù)庫。該系統(tǒng)主要功能有:①實驗室實時視頻監(jiān)控及遠程管理;②定時自動拍照檢測采集數(shù)據(jù),為實驗室的量化管理提供數(shù)據(jù)支撐;③實驗室人員變化數(shù)據(jù)查詢與可視化展示。實驗結果表明,所提基于Faster R-CNN和IoU優(yōu)化的實驗室人數(shù)統(tǒng)計與管理系統(tǒng)可用于辦公場景中實時人數(shù)統(tǒng)計和遠程管理。
關鍵詞:卷積神經網(wǎng)絡;目標檢測;更快速的區(qū)域卷積神經網(wǎng)絡;人數(shù)統(tǒng)計;交并比
中圖分類號: TP183
文獻標志碼:A
Abstract: Aiming at the management requirement of real-time personnel statistics in office scenes with relatively fixed personnel positions, a laboratory personnel statistics and management system based on Faster Region-based Convolutional Neural Network (Faster R-CNN) and Intersection over Union (IoU) optimization was designed and implemented with an ordinary university laboratory as the example. Firstly, Faster R-CNN model was used to detect the heads of the people in the laboratory. Then, according to the output results of the model detection, the repeatedly detected targets were filtered by using IoU algorithm. Finally, a coordinate-based method was used to determine whether there were people at each workbench in the laboratory and store the corresponding data in the database. The main functions of the system are as follows: ① real-time video surveillance and remote management of the laboratory; ② timed automatic photo, detection and acquisition of data to provide data support for the quantitative management of the laboratory; ③ laboratory personnel change data query and visualization. The experimental results show that the proposed laboratory personnel statistics and management system based on Faster R-CNN and IoU optimization can be used for real-time personnel statistics and remote management in office scenes.
Key words: Convolutional Neural Network (CNN); object detection; Faster Region-based Convolutional Neural Network (Faster R-CNN); personnel statistics; Intersection over Union (IoU)
0 引言
較之傳統(tǒng)的室內人數(shù)統(tǒng)計技術,利用目標檢測技術實現(xiàn)的室內人數(shù)統(tǒng)計技術能夠實現(xiàn)對目標的實時檢測與統(tǒng)計。因此,該類室內人數(shù)統(tǒng)計技術越來越廣泛地被運用在智能監(jiān)控領域,該技術的運用能夠有效地提升對室內相關人員的監(jiān)督管理作用。如何利用目標檢測技術改進和提高室內實時人數(shù)統(tǒng)計技術是許多研究工作者關注的熱點。
文獻[1]提出基于區(qū)域深度特征的人頭檢測方法;文獻[2]提出基于骨架特征的人數(shù)統(tǒng)計;文獻[3]提出自適應增強(Adaptive boosting, Adaboost)與背景差分級聯(lián)的室內人數(shù)統(tǒng)計方法;文獻[4]提出基于多特征協(xié)同的人頭檢測方法。這些方法都是基于人工提取圖像特征的目標檢測方法,無論是檢測準確率,還是適用范圍,均有較大的局限性。近年來,隨著深度學習的發(fā)展,利用深層神經網(wǎng)絡提取圖像特征越來越成為目標檢測領域主流的研究方向。自Girshick等[5]提出了基于區(qū)域的卷積神經網(wǎng)絡(Region-based Convolutional Neural Network, R-CNN)的目標檢測方法,F(xiàn)ast R-CNN[6]、Faster R-CNN[7]、YOLO(You Only Look Once)[8]、單發(fā)多盒檢測器(Single Shot multibox Detector, SSD)[9]等一系列具有較高準確率的基于深度學習的目標檢測算法被相繼提出。其中,F(xiàn)aster R-CNN在檢測速度較快的同時達到了較高的檢測準確率,因此,在實際場景中運用較多[10-13]。
針對室內人員固定、工位固定這一常見辦公場景,本文以普通高校實驗室為例,提出了一種基于Faster R-CNN和交并比(Intersection over Union, IoU)優(yōu)化的室內人數(shù)統(tǒng)計方法。該方法利用深度神經網(wǎng)絡提取圖像中的人頭特征,具有更高的檢測準確率;此外,提出了基于坐標定位的方法,能夠較為精確地確定實驗室每個工作臺上是否有人。最后,利用訓練好的檢測模型設計并開發(fā)了一套實驗室人數(shù)統(tǒng)計與管理系統(tǒng),較好地實現(xiàn)了實驗室遠程化、自動化、智能化管理。實驗結果表明,該系統(tǒng)可應用于常見的室內辦公場景。
1 Faster R-CNN檢測原理
Fast R-CNN作為R-CNN模型的改進,雖然提升了檢測速度,但它和R-CNN一樣,采用選擇性搜索(Selective Search, SS)方法[14]提取圖像的候選目標區(qū)域(Proposal),因此依然存在檢測步驟繁瑣、時間和內存消耗較大等問題。而Faster R-CNN則在模型中引入?yún)^(qū)域建議網(wǎng)絡(Region Proposal Network, RPN)提取候選目標區(qū)域,實現(xiàn)了卷積層特征共享,極大地提升了候選目標區(qū)域的生成速度。
Faster R-CNN網(wǎng)絡結構如圖1所示,主要由RPN和Fast R-CNN檢測器構成,其中RPN的輸入是經過一系列卷積所提取的圖像特征。
諸如Alex神經網(wǎng)絡(Alex Neural Network, AlexNet)[15]、極深卷積神經網(wǎng)絡(Visual Geometry Group Neural Network, VGGNet)[16]、谷歌神經網(wǎng)絡 (GoogLe Neural Network, GoogLeNet)[17]等傳統(tǒng)的深度神經網(wǎng)絡可以通過增加網(wǎng)絡層數(shù)來增加提取到的圖像特征數(shù)量。但是在深層網(wǎng)絡能夠收斂的情況下,隨著網(wǎng)絡層數(shù)的增加,網(wǎng)絡的檢測準確率會出現(xiàn)飽和甚至下降的現(xiàn)象,即網(wǎng)絡的“退化”現(xiàn)象[8]。He等[18]提出的殘差網(wǎng)絡(Residual Neural Network, ResNet)能夠有效解決網(wǎng)絡“退化”現(xiàn)象,并且具有更為優(yōu)秀的圖像特征學習能力。因此本文選取殘差網(wǎng)絡作為Faster R-CNN的特征提取網(wǎng)絡。
殘差網(wǎng)絡的單元結構如圖2所示,假設網(wǎng)絡單元的原始映射輸出為H(x),即H(x)=F(x)+x,則F(x)= H(x)-x。因此,深層網(wǎng)絡的每一層卷積輸出將變?yōu)閿M合殘差??梢院唵卫斫鉃?,殘差網(wǎng)絡在傳統(tǒng)的深層卷積網(wǎng)絡中增加了一些“跨層連接”(圖2中的x) [19],當訓練誤差隨著網(wǎng)絡的深入而增大時,殘差網(wǎng)絡將會跳過某些卷積層,直接將原始數(shù)據(jù)輸入到之后的卷積層,既保證了數(shù)據(jù)傳遞的完整性,又相對降低了訓練誤差,減少了深層網(wǎng)絡的訓練難度。
1.2 區(qū)域建議網(wǎng)絡
傳統(tǒng)的候選目標區(qū)域提取方法都存在著非常耗時的問題,如Adaboost[20]中使用的滑動窗口和圖像金字塔、 R-CNN和Fast R-CNN中使用的SS。而Faster R-CNN所使用的RPN將候選目標區(qū)域的提取嵌入到網(wǎng)絡內部,并通過共享卷積層特征參數(shù)的方式提升了候選目標區(qū)域的生成速度。
本文中,結合目標區(qū)域的實際像素大小,為了獲得多尺度的檢測框, RPN使用一個3×3的卷積核,在特征提取網(wǎng)絡輸出的特征圖上滑動,并將卷積核中心對應的區(qū)域映射回原始輸入圖像,生成4種尺度{160.5,16,161.5,162}和3種長寬比{0.5,1,2}共12個的錨點(anchor),如圖3所示。因此,在每一個滑動窗口的卷積核中心對應有12個建議區(qū)域。
RPN是一種全卷積網(wǎng)絡,其輸入的是特征提取網(wǎng)絡輸出的原始圖像卷積特征圖,主要結構如圖4所示。每個錨點所對應的建議區(qū)域經過中間層的卷積計算輸出512維的特征向量,然后分別被送入分類層和位置回歸層。其中,分類層輸出對應錨點中目標的分類信息,包括背景的置信度和目標類別的置信度;位置回歸層輸出錨點中目標的位置信息,包括目標區(qū)域的中心點坐標、長度和高度。最后,采用非極大值抑制(Non-Maximum Suppression, NMS)算法 [21],根據(jù)所有錨點的分類信息和位置信息,對候選目標區(qū)域進行篩選,從而得到2000個質量較高的目標候選區(qū)域。
1.3 Fast R-CNN檢測網(wǎng)絡
對于RPN中生成的目標候選區(qū)域,需要送到Fast R-CNN檢測器中作進一步的精確分類和坐標回歸。由于這些目標候選區(qū)域的尺寸大小不一,它們首先將被送入到感興趣區(qū)域(Region of Interest, RoI) 池化層進行處理,從而得到統(tǒng)一大小的目標候選區(qū)域。
從圖1中可以看出,RoI池化層結合特征圖和目標候選區(qū)域進行坐標映射,輸出固定大小的目標候選區(qū)域。接著,這些目標候選區(qū)域被送到Fast R-CNN檢測器中進行訓練,得到包括分類信息和坐標信息在內的最終檢測結果。
2 實驗過程與結果分析
2.1 數(shù)據(jù)產生與訓練
本文的實驗數(shù)據(jù)利用實驗室內頂部的單目攝像頭采集。頂部攝像頭所拍攝到的畫面,人體各部位存在著較多的遮擋,因此選定人體頭部作為檢測目標,進而確定實驗內人員數(shù)量和位置分布。共采集到約6000張原始圖片,經過翻轉、對稱,數(shù)據(jù)集擴展到約24000張。圖片尺寸統(tǒng)一為1510×860像素,每張圖片中人數(shù)從1到10不等。按照10∶1的比例將數(shù)據(jù)集隨機分為訓練集和測試集。數(shù)據(jù)集圖像示例如圖5所示。
本文的實驗環(huán)境為Windows10,GeForce GTX 1080Ti,并利用主流的深度學習框架TensorFlow[22]實現(xiàn)網(wǎng)絡模型,采用ResNet101[18]作為整個模型的特征提取網(wǎng)絡。批文件大小為4,初始學習率為0.0003,迭代到40000次后學習率降到0.00003,迭代到80000次后學習率降到0.000003,共迭代200000次。
2.2 結果分析
本文中,經過訓練,F(xiàn)aster R-CNN模型在測試集上的mAP(mean Average Precision)[23]達到了98.49%。訓練過程中的損失值(loss)[7]曲線如圖6所示。
1)實驗室內場景背景單一,人員流動性小,人員和背景變化都較少,圖像特征更為突出;
2)訓練數(shù)據(jù)樣本較多,訓練集包含有2萬多張圖片,共約7萬個標記的人體頭部樣本;
3)針對不同尺度的目標,采用4種尺度、3種長寬比,共計12種的錨點,能夠較好地檢測不同尺度的目標;
4)模型利用RPN生成高質量的目標候選區(qū)域,為后續(xù)Fast R-CNN網(wǎng)絡提供了質量較高訓練數(shù)據(jù)。
為了進一步研究模型的泛化能力,即在實際場景中的檢測性能,從攝像頭拍攝的畫面中采集105張圖片作為增量測試集,測試不同置信度下模型的檢測性能。檢測模型最常用的評價指標是精確率和召回率。調用模型進行檢測時存在著以下四種情況:1)實際上是目標,檢測認為是目標;2)實際上是目標,檢測認為不是目標;3)實際上不是目標,檢測認為是目標;4)實際上不是目標,檢測認為不是目標。
2.3 IoU優(yōu)化
本文實現(xiàn)的模型準確率和泛化能力都比較突出,檢測結果較為良好,如圖8所示。但也會出現(xiàn)如圖9所示的誤檢情況,圖9中,檢測模型將圖中左下角的一個人體頭部檢測成了兩個。針對這種情況,本文利用IoU算法作進一步的優(yōu)化。
2.4 人員定位
針對實驗室內人員流動性小、環(huán)境單一,以及人員位置相對固定的特點,本文提出基于坐標定位的方法來確定每個工作臺上是否有人,并將相應數(shù)據(jù)存入數(shù)據(jù)庫,為實驗室的科學管理提供可靠的數(shù)據(jù)支撐。如圖12所示,預先將監(jiān)控區(qū)域劃分為12個矩形區(qū)域,分別代表其區(qū)域內的工作臺。首先利用模型檢測輸出的人員目標位置信息確定人體頭部的質心,然后逐一進行判別,質心落在在哪個區(qū)域則認為哪個區(qū)域的工作臺上有人。如圖12所示,可認為2、3、4、6、8號區(qū)域的工作臺上有人。
3 系統(tǒng)實現(xiàn)與展示
系統(tǒng)利用開源Web開發(fā)框架Django[24]開發(fā)而成,系統(tǒng)主要有兩大功能模塊:系統(tǒng)歷史數(shù)據(jù)查詢與展示模塊和實時視頻監(jiān)控與檢測模塊。系統(tǒng)基于B/S模式開發(fā)而成,具備遠程管理功能。授權用戶在校園網(wǎng)范圍內,通過PC端瀏覽器登錄系統(tǒng)均可進行訪問。
在每天6:30—23:30,系統(tǒng)服務器每分鐘自動拍攝一張實驗室監(jiān)控畫面,并調用檢測模型對其進行檢測;然后對檢測結果進行人員定位,確定每個工作臺是否有人;最后將相應數(shù)據(jù)存入數(shù)據(jù)庫,以便實驗室管理員查詢。圖13為實驗室內單日人數(shù)變化與一段日期內人數(shù)變化查詢頁面;圖14為實驗室內歷史監(jiān)控畫面查看頁面與查看結果;圖15為實驗室各個工作臺的詳細使用情況查詢頁面(以6號工作臺為例)。本系統(tǒng)已在實驗室穩(wěn)定運行半年,其推廣應用價值被驗證。
4 結語
針對常見辦公場景中人員固定、工位固定的特點,以普通高校實驗室為例,提出了基于Faster R-CNN和IoU優(yōu)化的室內人數(shù)統(tǒng)計方法。實驗結果表明,所提方法具有良好的檢測準確效果。然后,結合檢測結果,采用基于坐標定位的方法確定室內每個工作臺是否有人。最后,利用Django框架,開發(fā)了一套實驗室人數(shù)統(tǒng)計與管理系統(tǒng),實現(xiàn)了實驗室的遠程管理、自動管理和智能管理。但本文所研發(fā)的系統(tǒng)存在系統(tǒng)人員定位依賴于人員位置相對固定這一前提條件的問題,當人員位置發(fā)生移動時系統(tǒng)無法作出準確的判斷。因此,接下來將在保證檢測精度的前提下進一步開展視頻幀之間的目標跟蹤算法研究,通過繪制人員的移動軌跡進而實現(xiàn)人員的動態(tài)定位。
參考文獻 (References)
[1] 何揚名,杜建強,肖賢波.基于區(qū)域深度特征的人頭檢測方法[J].微電子學與計算機,2013,30(11):39-42.(HE Y M, DU J Q, XIAO X B. Detecting human head by depth characteristics of regions [J]. Microelectronics & Computer, 2013, 30(11): 39-42.)
[2] 夏菁菁,高琳,范勇,等.基于骨架特征的人數(shù)統(tǒng)計[J].計算機應用,2014,34(2):585-588.(XIA J J, GAO L, FAN Y, et al. People counting based on skeleton feature [J]. Journal of Computer Applications, 2014, 34(2): 585-588.)
[3] 葉鋒,洪斯婷,鄭德城,等.基于Adaboost與背景差分級聯(lián)的室內人數(shù)統(tǒng)計方法[J].福建師范大學學報(自然科學版),2017,33(1):7-13.(YE F, HONG S T, ZHENG D C, et al. A people counting method based on Adaboost and background subtraction in indoor environment [J]. Journal of Fujian Normal University (Natural Science Edition), 2017, 33(1):7-13.)
[4] 張曉琪,宋鋼.基于多特征協(xié)同的人頭檢測新方法[J].西南師范大學學報(自然科學版),2018,43(7):46-52.(ZHANG X Q, SONG G. A new head detection method oriented for vertical monocular camera way [J].Journal of Southwest China Normal University (Natural Science Edition), 2018, 43(7): 46-52.)
[5] GIRSHICK R, DONAHUE J, DARRELL T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 580-587.
[6] GIRSHICK R. Fast R-CNN [C]// Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1440-1448.
[7] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [C]// NIPS 2015: Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 91-99.
[8] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 779-788.
[9] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multibox detector [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.
[10] 王黎,陸慧娟,葉敏超,等.Faster R-CNN的癌癥影像檢測方法[J].中國計量大學學報,2018,29(2):136-141.(WANG L, LU H J, YE M C, et al. A cancer image detection method based on Faster R-CNN [J]. Journal of China University of Metrology, 2018, 29(2): 136-141.)
[11] HUANG W Q, HUANG M Z, ZHANG Y T. Detection of traffic signs based on combination of GAN and faster R-CNN [J].Journal of Physics: Conference Series, 2018, 1069(1): 012159.
[12] 戴陳卡,李毅.基于Faster R-CNN以及多部件結合的機場場面靜態(tài)飛機檢測[J].計算機應用,2017,37(z2):85-88.(DAI C K, LI Y. Aeroplane detection in static aerodrome based on faster R-CNN and multi-part model [J]. Journal of Computer Applications, 2017, 37(z2): 85-88.)
[13] 胡炎,單子力,高峰.基于Faster R-CNN和多分辨率SAR的海上艦船目標檢測[J].無線電工程,2018,48(2):96-100.(HU Y, SHAN Z L, GAO F. Ship detection based on Faster R-CNN and multiresolution SAR [J]. Radio Engineering, 2018, 48 (2): 96-100.)
[14] UIJLINGS J R R, van de SANDE K E A, GEVERS T, et al. Selective search for object recognition [J]. International Journal of Computer Vision, 2013, 104(2): 154-171.
[15] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [C]// NIPS 2012: Proceedings of the 25th International Conference on Neural Information Processing Systems. North Miami Beach, FL: Curran Associates Inc., 2012: 1097-1105.
[16] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. arXiv Preprint, 2014, 2014: arXiv. 1409.1556.
[17] SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ:IEEE, 2015: 1-9.
[18] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE, 2016: 770-778.
[19] 彭剛,楊詩琪,黃心漢,等.改進的基于區(qū)域卷積神經網(wǎng)絡的微操作系統(tǒng)目標檢測方法[J].模式識別與人工智能,2018,31(2):142-149.(PENG G, YANG S Q, HUANG X H, et al. Improved object detection method of micro-operating system based on region convolutional neural network [J]. Pattern Recognition and Artificial Intelligence, 2018, 31(2): 142-149.)
[20] LIENHART R, MAYDT J. An extended set of Haar-like features for rapid object detection [C]// Proceedings of the 2002 International Conference on Image Processing. Piscataway, NJ: IEEE, 2002: 900-903.
[21] NEUBECK A, van GOOL L. Efficient non-maximum suppression [C]// ICPR 2006: Proceedings of the 18th International Conference on Pattern Recognition. Washington, DC: IEEE Computer Society, 2006: 850-855.
[22] 李嘉璇.TensorFlow技術解析與實戰(zhàn)[M].北京:人民郵電出版社,2017:12-16.(LI J X. TensorFlow Technology Analysis and Practice [M]. Beijing: Posts and Telecom Press, 2017: 12-16.)
[23] EVERINGHAM M, van GOOL L, WILLIAMS C K I, et al. The pascal Visual Object Classes (VOC) challenge [J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[24] 劉長龍.Python高效開發(fā)實戰(zhàn):Django、Tornado、Flask、Twisted [M].北京:電子工業(yè)出版社,2016:175-177.(LIU C L. Efficient Python Development Practices: Django, Tornado, Flask, Twisted [M]. Beijing: Publishing House of Electronics Industry, 2016: 175-177.)