劉 軍,范長軍,瞿崇曉
1(中國人民解放軍63650 部隊(duì),烏魯木齊 841700)
2(中國電子科技集團(tuán)公司第五十二研究所,杭州 310012)
隨著信息技術(shù)的快速發(fā)展,手機(jī)的使用越來越普遍,人對手機(jī)的依賴程度越來越高,帶來方便快捷的同時(shí)也給人們的生活和工作帶來了一系列問題和挑戰(zhàn).比如,駕駛員在開車時(shí)因?yàn)榇螂娫捇蛲媸謾C(jī)而手離開方向盤,或行人在過馬路時(shí)低頭看手機(jī),從而導(dǎo)致發(fā)生車禍的事件時(shí)有發(fā)生;在學(xué)校里,學(xué)生低頭“刷手機(jī)”的行為也給學(xué)習(xí)效果和課堂紀(jì)律帶來了不良的影響.此外,一些特殊場所,如部隊(duì)駐地或者涉及信息安全的重要資料檔案室,手機(jī)的違規(guī)使用容易造成失泄密事件,對國家安全造成不必要的損失.在上述場景下手機(jī)的使用是被嚴(yán)格控制的,需要對相關(guān)人員的一些違規(guī)使用手機(jī)行為進(jìn)行實(shí)時(shí)預(yù)警,其中就包括通過攝像頭檢測他們是否在打電話、玩手機(jī)或用手機(jī)拍照等.因此,研究對手機(jī)使用狀態(tài)的監(jiān)控具有重要的應(yīng)用價(jià)值和現(xiàn)實(shí)意義.
當(dāng)前,已有一些關(guān)于手機(jī)使用狀態(tài)檢測與監(jiān)控的研究工作,主要集中于安全駕駛領(lǐng)域針對駕駛員打電話行為的檢測.文獻(xiàn)[1]首先采用漸進(jìn)校準(zhǔn)網(wǎng)絡(luò)算法進(jìn)行人臉的檢測與實(shí)時(shí)跟蹤,確定打電話檢測候選區(qū)域,然后通過基于卷積神經(jīng)網(wǎng)絡(luò)的算法在候選區(qū)域?qū)崿F(xiàn)駕駛員打電話行為的檢測.文獻(xiàn)[2]先對監(jiān)控圖像中目標(biāo)車輛的車窗、駕駛員候選區(qū)域進(jìn)行定位,獲得駕駛員的頭肩區(qū)域后,再采用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行接打電話的檢測與識別.除了此類基于計(jì)算機(jī)視覺的方法[3],還可以通過傳感器進(jìn)行駕駛員打電話的識別,如文獻(xiàn)[4]采用WiFi和手機(jī)傳感器相結(jié)合的方式來檢測與識別危險(xiǎn)駕駛動作,此類應(yīng)用受設(shè)備和場景的限制較大.與上述駕駛員打電話相關(guān)的研究工作相比,針對玩手機(jī)等行為進(jìn)行識別的研究工作較少.文獻(xiàn)[5]從采集的圖象中截取包含人體的周圍區(qū)域,判斷人是否拿著手機(jī)或者人體周圍是否有手機(jī),計(jì)算人臉的朝向,然后判斷人的狀態(tài)是否為“玩手機(jī)”.
上述的研究工作均取得了不錯(cuò)的效果,但是目前所監(jiān)控的手機(jī)使用狀態(tài)種類少且單一,針對一些特殊場景下的復(fù)合需求仍缺少相應(yīng)的研究工作.比如,在重要資料檔案室等敏感場所打電話、拍照或玩手機(jī)等各類手機(jī)使用行為具有不同的影響,需要同時(shí)對這些行為進(jìn)行識別與監(jiān)控.此外,現(xiàn)有的方法對異物遮擋、圖像旋轉(zhuǎn)、光照變化等的適應(yīng)性也各有不足.近年來,基于深度學(xué)習(xí)的人體姿態(tài)估計(jì)得到快速發(fā)展,給人體行為分析提供了良好的技術(shù)支撐.本文提出了一種基于人體姿態(tài)估計(jì)的手機(jī)使用狀態(tài)監(jiān)控系統(tǒng),實(shí)現(xiàn)了對打電話、玩手機(jī)、手機(jī)拍照等行為的識別.
基于人體姿態(tài)估計(jì)的手機(jī)使用狀態(tài)監(jiān)控系統(tǒng)的落地應(yīng)用著重考慮兩個(gè)方面:手機(jī)使用狀態(tài)檢測的準(zhǔn)確率和運(yùn)行效率.準(zhǔn)確高效的系統(tǒng)實(shí)現(xiàn)面臨著諸多的挑戰(zhàn),比如,人體姿態(tài)的變化容易遮擋手機(jī),現(xiàn)有的人體姿態(tài)估計(jì)算法計(jì)算量大耗時(shí)較長.為了應(yīng)對上述挑戰(zhàn),設(shè)計(jì)整個(gè)的算法框架與流程如圖1所示.
圖1 算法整體框架與流程圖
總的算法框架涉及到3 個(gè)關(guān)鍵的功能組件,分別是目標(biāo)檢測、人體姿態(tài)估計(jì)以及手機(jī)使用狀態(tài)識別.其中,目標(biāo)檢測包括兩部分,分別是人體檢測與手機(jī)檢測.人體檢測用于判斷圖像中是否有人,手機(jī)檢測進(jìn)而判斷人的手中是否握有手機(jī);人體姿態(tài)估計(jì)則在中間環(huán)節(jié)主要用于對檢測出的人體進(jìn)行姿態(tài)估計(jì),以便于得到手部的位置,方便后續(xù)的手機(jī)檢測;在檢測到手機(jī)并獲取人體姿態(tài)骨架后,基于人體姿態(tài)關(guān)鍵點(diǎn)及其與手機(jī)的空間位置關(guān)系進(jìn)行手機(jī)使用狀態(tài)的分類識別.
總體的系統(tǒng)算法流程如下:首先,采用YOLOv3 檢測圖片中的人體;其次,對檢測出的人體,通過OpenPose進(jìn)行人體關(guān)鍵點(diǎn)的檢測,獲取手部的位置;然后,通過標(biāo)簽為“手”的關(guān)鍵點(diǎn)坐標(biāo)來獲取手部區(qū)域,并采用YOLOv3 對這些區(qū)域進(jìn)行手機(jī)檢測,判斷手機(jī)是否存在;最后,根據(jù)手機(jī)的存在情況設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)分類器,將人體骨架中與手機(jī)操作強(qiáng)相關(guān)的若干關(guān)節(jié)點(diǎn)以及手機(jī)的位置作為輸入,進(jìn)行手機(jī)使用行為的識別.具體的算法流程請參見圖1.
原則上,人體檢測對于采用OpenPose 進(jìn)行的人體姿態(tài)估計(jì)不是必須的,但是對于一個(gè)實(shí)際的應(yīng)用系統(tǒng)而言,監(jiān)控場景中并不總是存在“人”,預(yù)先檢測和截取人體區(qū)域,可減少不必要的人體姿態(tài)估計(jì)計(jì)算資源和時(shí)間,以提高效率.此外,人體關(guān)鍵點(diǎn)檢測和手機(jī)檢測易受身體姿態(tài)、遮擋、光照等的影響,前置步驟估算出目標(biāo)的預(yù)期位置,便于有針對性地對局部區(qū)域進(jìn)行處理,提高相應(yīng)的檢測準(zhǔn)確度.
在數(shù)據(jù)采集之后,首先要對獲取的圖像進(jìn)行人體檢測.在通過OpenPose 推理得到關(guān)鍵點(diǎn)為“手”的坐標(biāo)后,針對手部區(qū)域再進(jìn)行手機(jī)檢測,以判斷其是否攜帶手機(jī).此兩類檢測的功能不同,但是檢測的原理類似,此處選用YOLO v3 來作為算法基線,以實(shí)現(xiàn)相應(yīng)的功能.
YOLO 最早是由Redom 等在2016年提出的一個(gè)端到端的深度卷積神經(jīng)網(wǎng)絡(luò)模型,相比于以 RCNN[6]系列算法為代表的兩步檢測網(wǎng)絡(luò),它能夠兼顧速度和檢測精度[7].經(jīng)過Redmon 等的持續(xù)研究,YOLO 隨后發(fā)展出v2、v3 等版本[8,9].相比于前兩個(gè)版本,YOLOv3采用了特征融合以及多尺度檢測的方法,目標(biāo)檢測的精度和速度都得到了很大提升.
YOLOv3的網(wǎng)絡(luò)架構(gòu)為darknet-53,它去掉了v2中的池化層和全連接層,并在前向傳播過程中通過改變卷積核的步長來實(shí)現(xiàn)張量尺寸的變換;它采用了殘差的設(shè)計(jì)思想,用簡化的殘差塊來加深網(wǎng)絡(luò)結(jié)構(gòu),以提升網(wǎng)絡(luò)的速度;針對手機(jī)等小目標(biāo)漏檢率高的問題,YOLOv3 借鑒了特征圖金字塔網(wǎng)絡(luò),增加了從上至下的多級預(yù)測,采用多尺度來對不同大小的目標(biāo)進(jìn)行檢測,可解決遠(yuǎn)距離目標(biāo)圖象過小的問題,具體參見圖2.YOLOv3的損失函數(shù)主要由3 部分組成:目標(biāo)置信度損失,目標(biāo)分類損失,以及目標(biāo)定位偏移量損失,三者之間通過加權(quán)系數(shù)進(jìn)行平衡.針對前兩者,不同于YOLOv2采用Softmax+交叉熵來處理,YOLOv3 采用n個(gè)二值交叉熵來實(shí)現(xiàn).交叉熵越小,代表兩個(gè)概率分布越接近,可較好地刻畫兩個(gè)概率分布之間的距離.針對后者,采用的是真實(shí)偏差值與預(yù)測值之差的平方和.
圖2 YOLOv3的網(wǎng)絡(luò)結(jié)構(gòu)
人體檢測可以直接采用YOLOv3 在COCO 數(shù)據(jù)集上的預(yù)訓(xùn)練模型來推理[9],手機(jī)檢測對應(yīng)的網(wǎng)絡(luò)模型是在YOLOv3 預(yù)訓(xùn)練模型的基礎(chǔ)上用采集的數(shù)據(jù)集重新訓(xùn)練得到的.在通過人體姿態(tài)估計(jì)算法獲取手部的關(guān)節(jié)點(diǎn)后,以此點(diǎn)為中心將手部及其附近區(qū)域劃出一片固定大小的區(qū)域(如208×208),并調(diào)整為統(tǒng)一的大小(如416×416),再由采集的數(shù)據(jù)集對YOLOv3 模型進(jìn)行訓(xùn)練.
如圖2所示,YOLOv3 分別輸出13×13、26×26、52×52 三種不同尺寸的特征圖,并且在回歸預(yù)測部分每一個(gè)單元格借助3 個(gè)錨點(diǎn)框(anchor box)預(yù)測3 個(gè)邊框,即每個(gè)輸出張量中的任一網(wǎng)格會輸出3 個(gè)預(yù)測框.以包含80 種類別的COCO 數(shù)據(jù)集為例,輸出張量的維度為(5+80)×3=255.其中,5 表示每個(gè)預(yù)測框的置信度以及坐標(biāo)信息,即(c,x,y,w,h),3 則表示每個(gè)網(wǎng)格預(yù)測的模版框個(gè)數(shù).針對手機(jī)檢測場景,僅有一類待檢測目標(biāo),故將輸出維度變?yōu)?5+1)×3=18,以減少計(jì)算量并提高檢測精度和速度.
在人體行為監(jiān)控中,人體關(guān)鍵點(diǎn)檢測與分析是重中之重,此類問題往往又被統(tǒng)一歸為人體姿態(tài)估計(jì)問題.近年來多種人體姿態(tài)估計(jì)方法被研發(fā)出來,早期的方法只用于單人關(guān)鍵點(diǎn)檢測,先識別出人身體的各個(gè)部位,然后再連接各部分來獲得姿態(tài).近年來多人姿態(tài)估計(jì)也取得了較快的發(fā)展.多人姿態(tài)估計(jì)主要分為兩類,第一類是自頂向下(Top-down)的方法,即先檢測出圖像中的所有人,再對每一個(gè)人進(jìn)行姿態(tài)估計(jì),這種方法具有較高的準(zhǔn)確率但是處理速度不高,如AlphaPose;第二類是自底向上(down-top)的方法,即先檢測出所有的關(guān)節(jié)點(diǎn),再判斷每一個(gè)關(guān)節(jié)屬于哪一個(gè)人,這種方法可以做到實(shí)時(shí)檢測人體關(guān)鍵點(diǎn),如OpenPose.
OpenPose 由卡耐基梅隆大學(xué)的研究人員于2017年提出[10],它是一個(gè)實(shí)時(shí)的、多人骨骼關(guān)節(jié)點(diǎn)檢測的二維姿態(tài)估計(jì)開源庫,可以在單目攝像頭的基礎(chǔ)上獲得實(shí)時(shí)且準(zhǔn)確率高的二維人體骨骼關(guān)節(jié)點(diǎn)坐標(biāo).Open-Pose 借鑒了卷積姿態(tài)機(jī)[11]中采用大卷積核獲得大感受野的思想,使得OpenPose 算法可以較好地處理遮擋情況下的人體姿態(tài)估計(jì)問題.其網(wǎng)絡(luò)模型如圖3所示.
圖3 YOLOv3 整體網(wǎng)絡(luò)結(jié)構(gòu)圖
具體地,OpenPose 模型使用VGG-19 深度神經(jīng)網(wǎng)絡(luò)提取圖像的原始特征圖(feature map),然后再分成兩個(gè)分支,第1 個(gè)支路中的每一階段使用卷積神經(jīng)網(wǎng)絡(luò)預(yù)測身體關(guān)鍵點(diǎn)的熱度圖,第2 個(gè)支路中的每一階段使用卷積神經(jīng)網(wǎng)絡(luò)預(yù)測部分親和字段(Part Affinity Fields,PAF).部分親和字段是記錄肢體位置和方向的2 維向量,它表示身體各部分之間的關(guān)聯(lián)程度.關(guān)鍵點(diǎn)熱度圖和部分親和字段在每一個(gè)階段下與輸入特征層的關(guān)系映射視為St和Lt(t∈[1,2,···,T]),輸入層除第一個(gè)階段為VGG-19 網(wǎng)絡(luò)輸出的特征層外,其余階段(即t≥2)的輸入層均為前一個(gè)階段的兩個(gè)輸出向量與VGG-19 輸出層的連接組合,如式(1)所示,其中,F是通過VGGNet 提取出的原始圖像的特征,δt和ξt分別表示在階段t時(shí)L和S的卷積神經(jīng)網(wǎng)絡(luò).在通過各層網(wǎng)絡(luò)模型計(jì)算之后,通過貪心推理分析置信度圖ST和部分親和字段LT,為圖像中的所有人輸出二維身體關(guān)節(jié)點(diǎn).綜上,模型采用尺寸為W×H的彩色圖像作為輸入,生成圖像中每個(gè)人的骨骼關(guān)鍵點(diǎn)的二維圖像位置作為輸出.
OpenPose是一種自下而上的方法,在無人的背景圖區(qū)域可能會誤檢出關(guān)節(jié)點(diǎn),影響整個(gè)系統(tǒng)的性能.上一步驟通過YOLO 算法檢出圖像中的人的位置,可有效緩解此問題.本文采用了基于微軟COCO 數(shù)據(jù)集預(yù)訓(xùn)練的可檢測18 個(gè)身體關(guān)鍵點(diǎn)的模型[12],其以檢測出的人體區(qū)域彩色圖像作為輸入,可輸出圖像中人體的18 個(gè)骨架關(guān)節(jié)點(diǎn)的二維坐標(biāo)及置信度,如圖4所示.
圖4 OpenPose 人體關(guān)鍵點(diǎn)示意圖
經(jīng)過人體檢測、人體姿態(tài)估計(jì)與手機(jī)檢測,能夠得到人本身的姿態(tài)以及是否攜帶手機(jī)的狀態(tài),此時(shí),需要進(jìn)一步判斷當(dāng)前是何種手機(jī)使用狀態(tài),因?yàn)椴煌膱鼍跋聦κ謾C(jī)使用的限制是不同的,即便在同一場景下不同的手機(jī)使用行為造成的潛在影響也是不同的.手機(jī)使用狀態(tài)的識別處于最后的環(huán)節(jié),受前面諸多環(huán)節(jié)的影響.由于受光照變化、遮擋等的影響,人體檢測以及手機(jī)檢測的效果不一定理想.比如,人體檢測時(shí)目標(biāo)的置信度過低,或者手機(jī)被遮擋而無法檢測出等.為了兼容上述各類異常情況并保證主要場景下的識別準(zhǔn)確度,本文采用了可配置的規(guī)則,并且設(shè)計(jì)了閾值配置方案來針對不同情況進(jìn)行處理.
具體地,人體檢測、手機(jī)檢測與人體姿態(tài)估計(jì)都存在著相應(yīng)的置信度,當(dāng)置信度閾值設(shè)定過高時(shí),有可能遺漏待檢測的目標(biāo),當(dāng)置信度閾值設(shè)定過低時(shí),誤檢測的目標(biāo)將會很多,占用大量計(jì)算時(shí)間.簡而言之,置信度閾值設(shè)定是一個(gè)對檢測準(zhǔn)確度和效率進(jìn)行折中的過程,因此要針對具體應(yīng)用場景對其合理設(shè)置.通常情況下,針對具體的應(yīng)用場景可多次試驗(yàn)擇優(yōu)選擇對應(yīng)閾值.在本文中,由OpenPose 采用默認(rèn)配置實(shí)現(xiàn)人體姿態(tài)的估計(jì),并規(guī)定人體檢測的置信度大于50%且手機(jī)檢測的置信度大于30%時(shí)才觸發(fā)下一環(huán)節(jié)的手機(jī)使用狀態(tài)識別.
為設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)分類器,首先預(yù)設(shè)手機(jī)的使用狀態(tài)為4 類:打電話、玩手機(jī)、手機(jī)拍照以及其他活動,因此分類網(wǎng)絡(luò)最后的輸出層的節(jié)點(diǎn)數(shù)為4.神經(jīng)網(wǎng)絡(luò)分類器(圖5)的實(shí)現(xiàn)具體如下:前三層神經(jīng)網(wǎng)絡(luò)的激活函數(shù)采用tanh 函數(shù),最后一層網(wǎng)絡(luò)的激活函數(shù)采用Softmax,對應(yīng)的損失函數(shù)采用交叉熵,以將多個(gè)神經(jīng)元的輸出映射到(0,1)區(qū)間內(nèi),并且這些神經(jīng)元的輸出滿足累和為一的性質(zhì),可以將其理解為概率,也即該圖片樣本中的人的行為被劃分為各類手機(jī)使用狀態(tài)的置信度.當(dāng)檢測得到手機(jī)的置信度大于預(yù)設(shè)的閾值時(shí),訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)模型,網(wǎng)絡(luò)的輸入采用人體姿態(tài)關(guān)鍵點(diǎn)、手機(jī)以及它們的位置坐標(biāo).當(dāng)檢測的置信度無法滿足閾值門限時(shí),將對應(yīng)的樣本自動歸類為其他活動.
圖5 分類網(wǎng)絡(luò)結(jié)構(gòu)
為對提出的方法進(jìn)行驗(yàn)證,搜集了大量的手機(jī)使用狀態(tài)的照片,包括打電話、玩手機(jī)、手機(jī)拍照三類圖片的數(shù)據(jù)各5000 張,以及其他手機(jī)使用場景7000余張,比如手持手機(jī)行走等,并使用LabelImg 工具進(jìn)行標(biāo)注,生成訓(xùn)練所需要的XML 文件.
在實(shí)驗(yàn)過程中,涉及到4 個(gè)神經(jīng)網(wǎng)絡(luò)模型,分別是人體檢測模型、人體姿態(tài)估計(jì)模型、手機(jī)檢測模型以及手機(jī)使用狀態(tài)分類模型.其中,人體檢測和人體姿態(tài)估計(jì)模型分別是在對應(yīng)的COCO 數(shù)據(jù)集上訓(xùn)練得到的開源YOLOv3和OpenPose 預(yù)訓(xùn)練模型,可以直接使用;手機(jī)檢測模型則是采用darknet53.conv.74 預(yù)訓(xùn)練權(quán)重并修改yolov3.cfg 配置文件后,基于收集的數(shù)據(jù)進(jìn)一步訓(xùn)練得到的;手機(jī)使用狀態(tài)分類模型是根據(jù)手機(jī)的存在情況通過將對應(yīng)的人體關(guān)鍵點(diǎn)、手機(jī)及其坐標(biāo)輸入設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)分類器中訓(xùn)練得到的.人體檢測、手機(jī)檢測、人體姿態(tài)估計(jì)與手機(jī)使用狀態(tài)識別的效果如圖6所示,檢測結(jié)果會以檢測框的形式顯示,同時(shí),也會給出對應(yīng)的置信度.從測試的結(jié)果可以看出本文方案具有良好的識別效果,能滿足相關(guān)場景的應(yīng)用需求.
圖6 手機(jī)使用狀態(tài)識別效果圖
為方便進(jìn)行試驗(yàn),每一次將采集的數(shù)據(jù)集隨機(jī)打散并按照比例進(jìn)行分配,訓(xùn)練集90%,測試集10%,并進(jìn)行一次試驗(yàn),如此循環(huán)往復(fù)5 次得到的實(shí)驗(yàn)結(jié)果如下如表1所示.這里選擇分類算法中常用的準(zhǔn)確率(Precision)、召回率(Recall)和F1 值(F1-score)來進(jìn)行評估,它們的定義如下:
其中,TP、FP、FN分別表示將正樣本預(yù)測為正樣本,將負(fù)樣本預(yù)測為正樣本,以及將正樣本預(yù)測為負(fù)樣本的樣本數(shù).
表1 手機(jī)使用狀態(tài)分類結(jié)果(%)
從表1中可以看出,本文方法經(jīng)過5 次測試得到的平均準(zhǔn)確率達(dá)90.95%,平均召回率達(dá)88.70%,平均F1 值達(dá)89.81%.本文提出的方法既能對手機(jī)使用狀態(tài)進(jìn)行準(zhǔn)確地識別,又能做到比較全面地檢測,在4 種手機(jī)使用狀態(tài)識別的各類指標(biāo)上均取得了比較好的效果,并且檢測的結(jié)果相對穩(wěn)定.
目前,已有一些采用OpenPose 人體骨架進(jìn)行行為識別的研究工作[13],其中一些涉及到手機(jī)使用行為識別,如NTU RGB+D 動作分析數(shù)據(jù)集就包含了“打電話”和“玩手機(jī)”兩類行為[14].為驗(yàn)證本文總體方案(以M0 表示)的效果,在其基礎(chǔ)上設(shè)計(jì)以下3 類方法:M1—去掉M0的人體檢測步驟,根據(jù)人體骨架截取人體區(qū)域;M2—去掉M0的手機(jī)檢測步驟,采用YOLO 在人體區(qū)域直接檢測手機(jī);M3—去掉M0的手機(jī)檢測步驟,分類階段網(wǎng)絡(luò)的輸入不采用手機(jī)及其位置信息.針對方法M0~M3,將采集的數(shù)據(jù)集隨機(jī)打散,分割訓(xùn)練集與測試集的比例為8:2,分別訓(xùn)練并測試,得到F1-score的值并比較,結(jié)果如圖7所示.從圖中可以看出,當(dāng)不限定手部位置進(jìn)行手機(jī)的檢測或完全不檢測手機(jī)時(shí),手機(jī)使用狀態(tài)識別的性能明顯下降,而本文方法考慮了諸多方面的因素,整合并發(fā)揮了YOLOv3和OpenPose的優(yōu)勢,取得了較好的識別效果.
圖7 不同方案的性能對比
此外,從表1中還可以看出,在一些測試數(shù)據(jù)集下召回率會偏低,經(jīng)過仔細(xì)對比發(fā)現(xiàn),在這些數(shù)據(jù)集中出現(xiàn)了人體被部分遮擋或手機(jī)被完全遮擋的樣本,此時(shí)人體檢測或手機(jī)檢測的置信度小于閾值,導(dǎo)致了此類樣本被直接認(rèn)定為其他活動,而沒有識別出相應(yīng)的手機(jī)使用狀態(tài).這是本文方法待改進(jìn)之處,是筆者未來算法優(yōu)化的重點(diǎn)方向.
本文給出了基于人體姿態(tài)估計(jì)的手機(jī)使用狀態(tài)監(jiān)控方案,用于監(jiān)控社會生活中的一些手機(jī)違規(guī)使用場景,以避免違規(guī)使用手機(jī)帶來的負(fù)面影響,具有一定的現(xiàn)實(shí)意義.該方案整合了YOLOv3 目標(biāo)檢測算法和OpenPose 人體姿態(tài)估計(jì)算法,先通過人體檢測獲取人的前景圖,再通過人體姿態(tài)估計(jì)獲取手部的位置,以提高手機(jī)檢測的準(zhǔn)確度,并由手機(jī)的位置結(jié)合人體姿態(tài)來判定當(dāng)前的手機(jī)使用狀態(tài).系統(tǒng)測試結(jié)果表明,本文提出的方案應(yīng)用效果良好,可以滿足相關(guān)的應(yīng)用需求.針對由于遮擋等因素導(dǎo)致人體或手機(jī)檢測的置信度過低,并造成漏檢或誤識別的情況,筆者在未來的工作中將優(yōu)化現(xiàn)有方法,并著力加以解決.