葛 嘯
(無錫商院職業(yè)技術(shù)學(xué)院,江蘇 無錫 214000)
目前,吸煙群體已逐漸呈低齡化趨勢(shì),高校學(xué)生在校園公共區(qū)域吸煙的行為屢見不鮮。教育部聯(lián)合國家衛(wèi)生健康委印發(fā)《關(guān)于進(jìn)一步加強(qiáng)無煙學(xué)校建設(shè)工作的通知》要求將學(xué)生吸煙行為作為學(xué)生日常行為規(guī)范管理的重要內(nèi)容,明確提出建設(shè)無煙校園的要求,通過宣傳教育定期檢查等多種方式維護(hù)無煙環(huán)境。目前,校園中禁煙管理工作的展開主要通過人工實(shí)現(xiàn),對(duì)吸煙行為進(jìn)行勸導(dǎo)和處罰為主要管理手段。然而,人工管理效率較低,需要消耗大量的人力、物力,難以及時(shí)全面地對(duì)吸煙行為監(jiān)管并進(jìn)行處置。因此,如何利用吸煙檢測(cè)技術(shù)提升校園的禁煙監(jiān)管效率成為亟待解決的問題之一。
在過去的幾十年中,旨在對(duì)吸煙行為進(jìn)行檢測(cè)的技術(shù)取得了長(zhǎng)足的發(fā)展,包括傳感器、計(jì)算機(jī)視覺與模式識(shí)別等[1]。傳感器技術(shù)對(duì)吸煙行為的檢測(cè)效果受空間大小、通風(fēng)情況、光照強(qiáng)度等因素影響,多適合于較小的空間范圍如酒店房間、車站衛(wèi)生間等。可穿戴設(shè)備對(duì)吸煙的手勢(shì)動(dòng)作、胸部的起伏程度等因素進(jìn)行檢測(cè),雖然能起到一定的檢測(cè)的效果但也易受其他日常行為動(dòng)作的干擾。較高的設(shè)備成本使其在實(shí)際推廣中存在較大的阻力。
隨著計(jì)算機(jī)處理能力的提升,結(jié)合圖像處理技術(shù)與深度學(xué)習(xí)方法對(duì)監(jiān)控獲取到的視頻及圖片進(jìn)行針對(duì)性的目標(biāo)檢測(cè)已成為熱點(diǎn)之一。目前,基于圖像處理技術(shù)對(duì)吸煙圖像數(shù)據(jù)進(jìn)行分析主要從以下幾個(gè)角度進(jìn)行:(1)檢測(cè)圖像中的香煙煙霧,但煙霧形狀抽象、煙霧濃度不可控等因素都易對(duì)檢測(cè)效果造成影響;(2)對(duì)吸煙圖片中的手部姿勢(shì)進(jìn)行分割,該方法要求吸煙手部姿勢(shì)特征更具有代表性,因此對(duì)其他手勢(shì)的識(shí)別效果較差;(3)將香煙作為檢測(cè)目標(biāo),但由于其尺寸較小,易與背景信息混淆。陳睿龍等[2]設(shè)計(jì)一系列卷積神經(jīng)網(wǎng)絡(luò)模塊,定位圖像中的煙頭位置,取得了較好的檢測(cè)效果;孫召龍等[3]采用YOLOv5深度學(xué)習(xí)算法對(duì)油田作業(yè)現(xiàn)場(chǎng)吸煙行為進(jìn)行檢測(cè),檢測(cè)準(zhǔn)確率達(dá)89%;韓貴金等[4]基于結(jié)合圖像分割方法與Faster R-CNN算法能較好地對(duì)煙支目標(biāo)進(jìn)行檢測(cè)。以上研究表明,圖像處理技術(shù)與深度學(xué)習(xí)算法結(jié)合能夠有效地解決檢測(cè)吸煙行為的問題。
通過分析存在的問題與研究現(xiàn)狀,為簡(jiǎn)化對(duì)吸煙行為的判斷,本文將嘴部存在香煙視為吸煙行為即將或正在發(fā)生,主要檢測(cè)過程可分為兩個(gè)階段。第一階段:對(duì)采集的圖像中人臉的位置進(jìn)行定位并裁剪以降低背景圖像的干擾;第二階段,選取人臉圖像中的嘴部作為感興趣區(qū)域(Region of Interst,ROI),利用目標(biāo)檢測(cè)算法結(jié)合遷移學(xué)習(xí)方法對(duì)嘴部是否存在香煙做進(jìn)一步檢測(cè)研究,本文檢測(cè)流程如圖1所示。
圖1 吸煙行為檢測(cè)流程
RetinaFace算法是一種自然場(chǎng)景下較為精確的人臉檢測(cè)算法,利用多任務(wù)聯(lián)合額外監(jiān)督學(xué)習(xí)和自監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn),可以對(duì)不同尺度的人臉進(jìn)行定位[5],該算法在WIDER FACE 數(shù)據(jù)集上有著優(yōu)秀的表現(xiàn)。RetinaFace在實(shí)現(xiàn)人臉檢測(cè)的同時(shí)還能夠?qū)θ四樦械年P(guān)鍵點(diǎn)進(jìn)行定位。
MobileNet V2網(wǎng)絡(luò)是由谷歌提出的準(zhǔn)確率更高、模型更小的卷積神經(jīng)網(wǎng)絡(luò)。該算法在ImageNet數(shù)據(jù)集有著優(yōu)秀的表現(xiàn)。該網(wǎng)絡(luò)除延續(xù)V1版本的深度可分離卷積外,還引入了線性瓶頸(Linear Bottleneck)和倒殘差(Inverted Residual),進(jìn)而減少信息的丟失,豐富特征數(shù)量,有助于提高檢測(cè)精度[6]。本文考慮到模型在終端部署時(shí)應(yīng)盡量降低內(nèi)存需求,因此在實(shí)際的吸煙行為目標(biāo)檢測(cè)中,MobileNet V2網(wǎng)絡(luò)輕量化的特點(diǎn)更適用于本方案。
目前,基于圖像處理技術(shù)與深度學(xué)習(xí)方法對(duì)吸煙行為進(jìn)行分析的諸多研究主要圍繞香煙煙霧、手部姿勢(shì)、香煙特征等建立了數(shù)據(jù)集,且并無通用的、標(biāo)準(zhǔn)統(tǒng)一的數(shù)據(jù)集。因此,在對(duì)吸煙行為進(jìn)行檢測(cè)前,本方案需建立吸煙數(shù)據(jù)集。數(shù)據(jù)集一部分可通過網(wǎng)絡(luò)下載獲取,另一部分可通過對(duì)教學(xué)樓走廊、實(shí)訓(xùn)樓、食堂門口等校園公共區(qū)域的吸煙行為進(jìn)行拍攝獲得。本文對(duì)采集到的圖像進(jìn)行對(duì)比度變換、亮度變換、旋轉(zhuǎn)等操作從而擴(kuò)充數(shù)據(jù)集規(guī)模,在去除無效數(shù)據(jù)后將圖片調(diào)整為合適的輸入尺寸。
本文以校園環(huán)境中教學(xué)樓課間為例,下課時(shí)學(xué)生流量較大,人臉密集程度較高,對(duì)密集人臉進(jìn)行檢測(cè)就對(duì)算法的檢測(cè)效果與實(shí)時(shí)性提出了較高的要求。除此之外,數(shù)據(jù)集中的圖片或是采集到的視頻中通常并非僅有人臉,還包括諸多環(huán)境背景信息。為降低背景信息對(duì)實(shí)驗(yàn)結(jié)果的影響,本文首先需對(duì)圖片中的人臉區(qū)域進(jìn)行定位。當(dāng)吸煙行為發(fā)生時(shí),人臉與監(jiān)控間的角度隨機(jī)并不固定,戶外環(huán)境因素也會(huì)對(duì)人臉的定位產(chǎn)生影響。為獲得較好的人臉檢測(cè)效果,本文引入RetinaFace算法對(duì)人臉中的關(guān)鍵點(diǎn)進(jìn)行定位。由于香煙目標(biāo)較小,為了進(jìn)一步減少背景信息對(duì)檢測(cè)效果的影響,本文對(duì)裁剪后的人臉圖像中的嘴部區(qū)域進(jìn)行定位。由于RetinaFace算法的特點(diǎn)在于對(duì)人臉圖像進(jìn)行檢測(cè)的同時(shí),對(duì)人臉的關(guān)鍵點(diǎn)也會(huì)進(jìn)行標(biāo)注,因此本方案可確定嘴部關(guān)鍵點(diǎn)、眼部關(guān)鍵點(diǎn)、鼻部關(guān)鍵點(diǎn)。本文縱向選取鼻部關(guān)鍵點(diǎn)至圖像底邊,橫向選取人臉圖像左側(cè)邊緣至右側(cè)邊緣,從而盡可能將嘴部區(qū)域以及存在香煙的區(qū)域選取進(jìn)來。
在完成上述的步驟后,本文進(jìn)行香煙目標(biāo)檢測(cè)模塊的設(shè)計(jì)。香煙作為較小的目標(biāo),檢測(cè)難度較大,因此MobileNet V2網(wǎng)絡(luò)被引入以對(duì)香煙目標(biāo)進(jìn)行檢測(cè)。在確定了嘴部感興趣區(qū)域(ROI)后,本文將獲取到的圖像尺度歸一化為適合MobileNet V2網(wǎng)絡(luò)輸入的大小??紤]到建立的數(shù)據(jù)集規(guī)模有限,直接對(duì)其進(jìn)行訓(xùn)練易造成過擬合,而遷移學(xué)習(xí)常用作解決實(shí)際目標(biāo)檢測(cè)任務(wù)中數(shù)據(jù)集圖片數(shù)量不足的常用手段[7]。由于MobileNet V2網(wǎng)絡(luò)是經(jīng)過ImageNet訓(xùn)練過的卷積神經(jīng)網(wǎng)絡(luò),因此其模型參數(shù)結(jié)構(gòu)與其他任務(wù)具有較高的關(guān)聯(lián)性[8]。本文基于MobileNet V2的預(yù)訓(xùn)練模型,設(shè)計(jì)通過遷移模型參數(shù)結(jié)合吸煙數(shù)據(jù)集做進(jìn)一步優(yōu)化。在自建的吸煙數(shù)據(jù)集上,本文使用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取,得到特征向量作為輸入用于訓(xùn)練新的神經(jīng)網(wǎng)絡(luò),通過多次迭代更新得到較優(yōu)的網(wǎng)絡(luò)模型,從而達(dá)到節(jié)約訓(xùn)練時(shí)間、提升檢測(cè)精度的效果。
系統(tǒng)物理架構(gòu)主要包括圖像采集攝像頭、交換機(jī)、管理員主機(jī)、服務(wù)器等設(shè)備,具體拓?fù)淙鐖D2所示。本文為兼顧實(shí)時(shí)性與檢測(cè)精度,將攝像頭采集到的視頻流通過交換機(jī)傳輸至服務(wù)器并通過代碼進(jìn)行抽幀處理,對(duì)抽出的幀做預(yù)處理后交給目標(biāo)檢測(cè)算法進(jìn)行檢測(cè)。本設(shè)計(jì)中,存在吸煙行為的幀將被標(biāo)注并保存在本地。檢測(cè)結(jié)果以圖片的形式出現(xiàn)在管理員主機(jī)上進(jìn)行提醒。
圖2 物理架構(gòu)拓?fù)?/p>
本文提出了校園場(chǎng)景下吸煙行為檢測(cè)方案,并將任務(wù)分為人臉檢測(cè)與香煙檢測(cè)兩個(gè)子任務(wù)。本文使用RetinaFace算法,降低背景信息與冗余信息帶來的影響。為提升模型的訓(xùn)練速度,方案引入MobileNet V2并對(duì)其進(jìn)行遷移學(xué)習(xí),旨在解決數(shù)據(jù)集規(guī)模較小易導(dǎo)致過擬合的問題。MobileNet V2網(wǎng)絡(luò)輕量化的特點(diǎn)也有助于在移動(dòng)端進(jìn)行部署,從而進(jìn)一步增強(qiáng)了本方案的實(shí)用性?;谝陨显O(shè)計(jì),本文能有效地檢測(cè)校園吸煙行為,有助于糾正校園內(nèi)的不文明行為。此外,吸煙群體除抽香煙外,抽電子煙的群體也占據(jù)了一部分的比例,后續(xù)研究擬對(duì)抽電子煙的吸煙人群作進(jìn)一步檢測(cè)以提升檢測(cè)方案的適用性。