張 洋,姚登峰,,江銘虎,李凡姝
(1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.清華大學(xué) 人文學(xué)院 計(jì)算語(yǔ)言學(xué)實(shí)驗(yàn)室,北京 100084)
吸煙行為是目前全世界難以解決的公共衛(wèi)生問(wèn)題,吸煙對(duì)健康的危害已是眾所周知,其會(huì)間接或直接導(dǎo)致很多疾病的發(fā)生甚至出現(xiàn)生命危險(xiǎn)[1]。近年來(lái),我國(guó)人民出現(xiàn)肺癌、心血管疾病的幾率隨著吸煙率的增加而迅速上漲。然而,僅通過(guò)人為管理吸煙行為,難以實(shí)現(xiàn)控?zé)熌繕?biāo)。
吸煙行為識(shí)別的研究起源于上個(gè)世紀(jì),涌現(xiàn)了不同的吸煙行為檢測(cè)方法,其中視頻圖像的吸煙行為檢測(cè)是主流研究方向[2]。吸煙行為檢測(cè)主要分為針對(duì)吸煙手勢(shì)識(shí)別、香煙煙霧識(shí)別、香煙識(shí)別3 種,但這些方法都存在著一定不足。文獻(xiàn)[3]設(shè)計(jì)一種將人體檢測(cè)與嵌入式設(shè)備相結(jié)合的模型,其對(duì)戶外的施工人員進(jìn)行中距離吸煙檢測(cè)。文獻(xiàn)[4]結(jié)合吸煙行為手勢(shì)與香煙目標(biāo)本身特征,提出一種識(shí)別吸煙行為的檢測(cè)模型,由于對(duì)吸煙行為手勢(shì)的識(shí)別存在吸煙手勢(shì)復(fù)雜、膚色多樣、相機(jī)角度等問(wèn)題,使得識(shí)別的手勢(shì)具有差異,且易與吸煙行為類(lèi)似的手勢(shì)相混淆,因此僅使用吸煙手勢(shì)來(lái)判斷吸煙行為,誤判率較大。文獻(xiàn)[5]通過(guò)對(duì)獲得香煙煙霧的HOG 特征以及紋理特征進(jìn)行相關(guān)分析,再結(jié)合相關(guān)特征融合方法對(duì)香煙的煙霧進(jìn)行識(shí)別。在香煙煙霧的檢測(cè)過(guò)程中,因香煙的煙霧濃度較低且易擴(kuò)散、煙霧邊緣不夠明顯,導(dǎo)致香煙煙霧與室內(nèi)的白色背景相融合,從而難以區(qū)分。此外,在室外受復(fù)雜背景干擾,香煙煙霧檢測(cè)更加難以實(shí)現(xiàn)。針對(duì)識(shí)別香煙自身目標(biāo),文獻(xiàn)[6]提出一種吸煙檢測(cè)系統(tǒng),利用Py Qt5 配置上位機(jī)界來(lái)調(diào)用訓(xùn)練過(guò)的改進(jìn)YOLOv3 模型,并對(duì)吸煙行為進(jìn)行檢測(cè)。文獻(xiàn)[7]基于YOLOv3-tiny 模型提出一種針對(duì)室內(nèi)吸煙行為的檢測(cè)算法。YOLOv3-tiny模型通過(guò)K-means 聚類(lèi)算法得到整個(gè)香煙的預(yù)先目標(biāo)框,在初始的YOLOv3-tiny 網(wǎng)絡(luò)架構(gòu)上引入一個(gè)細(xì)微的目標(biāo)檢測(cè)層,使得該模型能夠滿足實(shí)際場(chǎng)景的需求。文獻(xiàn)[8]結(jié)合近紅外監(jiān)視攝像機(jī)與目標(biāo)檢測(cè)技術(shù),提出一種新的吸煙行為檢測(cè)方法。該方法利用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)技術(shù)定位車(chē)輛前擋風(fēng)玻璃和駕駛員的頭部范圍,通過(guò)執(zhí)行雙窗口異常檢測(cè)局部區(qū)域并確定NIR 圖像的高溫白色熱點(diǎn),基于此確定駕駛員是否有吸煙行為。文獻(xiàn)[9]通過(guò)檢測(cè)人臉并將檢測(cè)到的人臉圖像作為煙支檢測(cè)區(qū)域,從而大幅縮小了目標(biāo)檢測(cè)區(qū)域,并使用Faster RCNN 模型對(duì)香煙目標(biāo)進(jìn)行目標(biāo)檢測(cè),以降低檢測(cè)的誤檢率。文獻(xiàn)[10]利用多個(gè)卷積神經(jīng)網(wǎng)絡(luò)任務(wù)算法級(jí)聯(lián)并結(jié)合RET 級(jí)聯(lián)回歸的方式來(lái)實(shí)現(xiàn)迅速定位嘴部敏感區(qū)域,在此基礎(chǔ)上,采用殘差網(wǎng)絡(luò)對(duì)ROI 內(nèi)的目標(biāo)進(jìn)行檢測(cè)和狀態(tài)識(shí)別。文獻(xiàn)[11]將檢測(cè)到的人臉圖像作為煙支檢測(cè)區(qū)域,以縮小目標(biāo)檢測(cè)區(qū)域,并過(guò)濾掉與煙支相似的目標(biāo)。以上算法都是直接對(duì)香煙進(jìn)行檢測(cè),因香煙目標(biāo)較小,其識(shí)別的準(zhǔn)確性并不高,因此能否區(qū)分香煙與類(lèi)煙物成為香煙識(shí)別的關(guān)鍵。
上述算法在一定程度上提升了吸煙行為的識(shí)別精度,但是其吸煙行為識(shí)別效果差。針對(duì)該問(wèn)題,本文設(shè)計(jì)一種基于弱監(jiān)督細(xì)粒度結(jié)構(gòu)與改進(jìn)EfficientDet網(wǎng)絡(luò)的吸煙行為檢測(cè)算法,用于識(shí)別實(shí)際場(chǎng)景中細(xì)微的香煙目標(biāo)。通過(guò)EdgeBox 算法[12]對(duì)邊緣進(jìn)行篩選,形成候選區(qū)域塊,將改進(jìn)的EfficientDet 網(wǎng)絡(luò)[13]作為細(xì)粒度兩級(jí)注意力模型[14]的物體級(jí)篩選器,并在細(xì)粒度兩級(jí)注意力模型的DomainNet網(wǎng)絡(luò)結(jié)構(gòu)中融入通道注意力機(jī)制[15],利用特征多尺度以及局部感受區(qū)域融合空間信息和通道信息,提取包含局部和全局信息的特征,進(jìn)一步提升網(wǎng)絡(luò)的識(shí)別精度。
為快速而精準(zhǔn)地區(qū)分香煙與類(lèi)煙物,本文算法分為2 個(gè)模塊:第1 個(gè)模塊是特征邊緣篩選,通過(guò)將收集到的圖片進(jìn)行有效的邊緣篩選,以保存包含前景物體的候選區(qū)域,得到具有香煙目標(biāo)和背景的像素塊;第2 個(gè)模塊是改進(jìn)的弱監(jiān)督細(xì)粒度網(wǎng)絡(luò)模塊,通過(guò)兩級(jí)注意力模型與改進(jìn)的EfficientDet 網(wǎng)絡(luò)相融合,使其能快速篩選出候選區(qū)域,且具有更優(yōu)的特征捕捉能力。其中細(xì)粒度模型主要分為2 個(gè)子模型:1)物體級(jí)模型,其通過(guò)對(duì)模型的預(yù)訓(xùn)練進(jìn)行對(duì)象級(jí)圖像分類(lèi),以濾除背景信息,保留包含待檢目標(biāo)的候選區(qū)域;2)局部級(jí)模型,其篩選出得分最高的像素塊,最終通過(guò)檢測(cè)結(jié)果獲取吸煙特征,并判定是否存在吸煙行為。本文網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。
圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of the proposed network
以w×h像素的圖片作為模型的輸入,利用邊緣框的結(jié)構(gòu)化邊緣檢測(cè)算子[16]提取圖像邊緣,并通過(guò)策略聚合得到的邊緣段,并用非極大值抑制處理以得到穩(wěn)定的目標(biāo)邊緣。
相似度的計(jì)算如式(1)所示:
邊緣段的權(quán)值如式(2)所示:
其中:T為由t1=Sj∈Sb到t||T=Si的路徑;為滑動(dòng)窗口的邊界上與邊緣段Si相似度最高的邊緣段Sk?;瑒?dòng)窗口得分如式(3)所示:
其中:mi為邊緣段的邊緣強(qiáng)度;bw和bh分別為滑動(dòng)窗口的寬和長(zhǎng);k為算法的平衡系數(shù),以平衡不同窗口邊緣段數(shù)量的差異。本文k取值為1.5。
特征邊緣篩選過(guò)程通過(guò)上述公式得到每個(gè)滑動(dòng)窗口的分?jǐn)?shù),設(shè)定閾值過(guò)濾最低值,則得到候選區(qū)域合集。
在細(xì)粒度分類(lèi)領(lǐng)域中區(qū)分包含待檢測(cè)物體的前景區(qū)域和檢測(cè)物體,分為物體級(jí)篩選與分類(lèi)和局部級(jí)選擇與分類(lèi)兩個(gè)過(guò)程。圖2 表示細(xì)粒度模型的識(shí)別流程。
圖2 細(xì)粒度模型的識(shí)別流程Fig.2 Recognition procedure of fine-grained model
1.2.1 物體級(jí)篩選及分類(lèi)
物體級(jí)篩選器使用EfficientDet-D0 網(wǎng)絡(luò),對(duì)其在自建數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練處理,并在候選區(qū)域內(nèi)進(jìn)行背景噪聲濾除,目的是刪除與對(duì)象無(wú)關(guān)的嘈雜音色。原算法雖然能夠?yàn)V除噪聲,但其在分類(lèi)預(yù)訓(xùn)練時(shí)使用的模型參數(shù)限制了位置回歸準(zhǔn)確率的提高。噪聲的來(lái)源一般為環(huán)境、人物等未包含類(lèi)煙物的候選區(qū)域,由于本文改進(jìn)算法和原算法都使用特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)等結(jié)構(gòu),區(qū)分純背景與類(lèi)煙物的準(zhǔn)確率能達(dá)到98%以上,因此噪聲的濾除效果遠(yuǎn)優(yōu)于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)。本文算法通過(guò)改進(jìn)特征邊緣篩選,以保證在深層特征圖中依然可以提取香煙位置信息,由于特征邊緣篩選通過(guò)EdgeBox算法獲得眾多的候選區(qū)域以及高召回率,并且檢測(cè)網(wǎng)絡(luò)結(jié)合局部級(jí)的注意力特性,能夠完整地保留圖像中的目標(biāo)信息。因此,物體級(jí)篩選器能夠有效地篩選出與香煙類(lèi)別相近的候選區(qū)域和背景候選區(qū)域。EfficientDet-D0 網(wǎng)絡(luò)由3 個(gè)部分構(gòu)成:第1 個(gè)部分是基于EfficientNet-B0 結(jié)構(gòu)的骨干網(wǎng)絡(luò);第2 個(gè)部分是模型的特征提取結(jié)構(gòu)BiFPN,其作用是通過(guò)將骨干網(wǎng)絡(luò)EfficientNet-B0 結(jié)構(gòu)中3~7 層的輸出特征不斷地做自頂向下和自底向上的特征融合;第3 個(gè)部分是分類(lèi)和檢測(cè)框的預(yù)測(cè)網(wǎng)絡(luò)。改進(jìn)的EfficientDet網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。
圖3 改進(jìn)的EfficientDet 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of improved EfficientDet network
在實(shí)際場(chǎng)景中,本文采集的吸煙圖像中香煙目標(biāo)的相對(duì)尺寸為小于0.05 的細(xì)小目標(biāo)對(duì)象(相對(duì)圖像的寬高),從而丟失了較多的空間信息,這種像素級(jí)特征的感受野不夠大,且物體存在多尺度問(wèn)題,使得普通的特征提取方式效果較差。為提高特征提取網(wǎng)絡(luò)的提取能力,本文利用上下不同層級(jí)的語(yǔ)義關(guān)系和位置信息,增加淺層特征的語(yǔ)義信息,在特征提取時(shí)特征提取網(wǎng)絡(luò)具有足夠的上下文信息,同時(shí)也包括目標(biāo)的細(xì)節(jié)信息。因此,本文在BiFPN 中增加了跨級(jí)的數(shù)據(jù)流,將下層節(jié)點(diǎn)特征融合到上層節(jié)點(diǎn)進(jìn)行共同學(xué)習(xí),其結(jié)構(gòu)如圖4 所示。
圖4 特征融合網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Structure of feature fusion network
本文利用雙向路徑(自頂向下和自底向上)進(jìn)行特征融合,將融合得到的全局特征與原始特征圖連接起來(lái),這種改進(jìn)方法的目的是同時(shí)利用低層特征高分辨率和高層特征的高語(yǔ)義信息,通過(guò)融合這些不同層的特征使學(xué)習(xí)權(quán)重自動(dòng)加權(quán)融合到輸入特征,實(shí)現(xiàn)多層次、多節(jié)點(diǎn)融合學(xué)習(xí)。該過(guò)程稱(chēng)為融合目標(biāo)的細(xì)節(jié)特征(淺層特征)和全局特征(深層特征也是上下文語(yǔ)義信息)的過(guò)程,由此得到最后的物體上下文特征表示。圖4 中Pi表示主干網(wǎng)絡(luò)中分辨率為輸入圖像(1/2i)的特征圖,從圖4 可以看出,高語(yǔ)義特征經(jīng)過(guò)上采樣后,其長(zhǎng)、寬與對(duì)應(yīng)的淺層特征相同,而改進(jìn)增加的BiFPN 跨級(jí)數(shù)據(jù)流通道是固定的,因此需要對(duì)底層特征進(jìn)行卷積,使得底層特征輸出的通道數(shù)與BiFPN 跨級(jí)數(shù)據(jù)流通道相同,然后對(duì)兩者進(jìn)行橫向連接,得到最終特征圖。BiFPN 能夠充分利用不同層級(jí)的特征圖信息,且收集不同尺度的語(yǔ)義信息并對(duì)其進(jìn)行融合,以實(shí)現(xiàn)提取細(xì)微特征,這種方式得到的不同尺度的信息比全局池化所得的全局信息更具代表性。與特征未融合方法相比,檢測(cè)到包含香煙目標(biāo)區(qū)域的精確度提升1.4%以上,而計(jì)算量?jī)H增加0.25%。主要原因是在未融合之前,特征未融合方法未考慮到各級(jí)特征對(duì)融合后特征的共享度問(wèn)題,即之前模型認(rèn)為各級(jí)特征的貢獻(xiàn)度相同,而本文考慮到香煙目標(biāo)的尺寸下降,導(dǎo)致它們分辨率不同。因此,不同香煙目標(biāo)的分辨率對(duì)融合后特征的貢獻(xiàn)度不同,在特征融合階段引入了權(quán)重,同時(shí)通過(guò)雙向融合將上下不同層級(jí)的語(yǔ)義關(guān)系和位置信息進(jìn)行整合,將上采樣后的高語(yǔ)義特征與淺層的定位細(xì)節(jié)特征進(jìn)行融合,以達(dá)到對(duì)多個(gè)維度同時(shí)放大的目的。
改進(jìn)的特征融合網(wǎng)絡(luò)結(jié)構(gòu)BiFPN 通過(guò)將雙向的跨尺度連接與快速的歸一化相融合,并對(duì)圖像特征進(jìn)行提取,即將EfficientNet-B0 骨干網(wǎng)絡(luò)中3~7 層的輸出特征結(jié)果不斷地將自頂向下和自底向上的特征進(jìn)行融合。圖5 所示為單個(gè)BiFPN 的流程。
圖5 BiFPN 流程Fig.5 BiFPN procedure
對(duì)BiFPN 的每層輸出進(jìn)行分析。特征融合網(wǎng)絡(luò)結(jié)構(gòu)如式(4)所示:
整個(gè)特征提取網(wǎng)絡(luò)是自底向上的前向傳播過(guò)程,隨著下采樣次數(shù)不斷地增加,獲得的語(yǔ)義信息隨之增多,但位置信息不斷減少。雖然更深層次的特征圖具有較多的語(yǔ)義信息,但其分辨率較低,原始圖像中32×32 像素的物體經(jīng)過(guò)5 次下采樣后大小僅1×1 像素,因此更深層次的特征圖對(duì)小尺寸目標(biāo)進(jìn)行檢測(cè),其精確度較低。改進(jìn)的EfficienDet 網(wǎng)絡(luò)在特征提取過(guò)程中充分利用不同層級(jí)的特征圖信息,并增加前一層級(jí)的位置信息,使得在實(shí)際場(chǎng)景中香煙目標(biāo)的檢測(cè)結(jié)果較優(yōu)。改進(jìn)的EfficienDet 網(wǎng)絡(luò)利用FocalLoss 解決正負(fù)樣本不均勻的問(wèn)題,由于網(wǎng)絡(luò)內(nèi)部具有較多的depthwise conv,因此通過(guò)將結(jié)果緩存在內(nèi)存中以及逐點(diǎn)卷積完成后釋放內(nèi)存這2 個(gè)步驟,使得EfficienDet 網(wǎng)絡(luò)準(zhǔn)確性優(yōu)于未改進(jìn)前的EfficienDet 網(wǎng)絡(luò),且FLOPS 和參數(shù)量減少一個(gè)數(shù)量級(jí)。本文通過(guò)不固定BN 層來(lái)進(jìn)一步提高檢測(cè)性能,與EfficienDet 網(wǎng)絡(luò)相比,改進(jìn)的網(wǎng)絡(luò)增加了參數(shù)量,并且對(duì)收斂的速度影響甚微。
1.2.2 局部級(jí)檢測(cè)及分類(lèi)
局部級(jí)模型通過(guò)選擇其第4 個(gè)卷積層融合通道注意力機(jī)制,并將物體級(jí)篩選出的候選區(qū)域聚類(lèi)成2 類(lèi),同時(shí)利用聚類(lèi)方式形成2 個(gè)部分檢測(cè)器。在檢測(cè)器進(jìn)行聚類(lèi)并選擇輸入的候選區(qū)域過(guò)程中主要分為4 個(gè)步驟:1)修改并整合輸入的圖片尺寸;2)通過(guò)一次前向的傳遞得到篩選器的激活分?jǐn)?shù);3)將相同類(lèi)別篩選器的激活分?jǐn)?shù)相加;4)在每個(gè)選擇器的相同類(lèi)別中選擇獲得分?jǐn)?shù)最高的候選區(qū)域,并把這塊當(dāng)作重要塊。改進(jìn)的模型具有更強(qiáng)的特征捕捉能力,在實(shí)際場(chǎng)景中能夠改進(jìn)類(lèi)煙物與香煙的區(qū)分效果。局部級(jí)檢測(cè)模型結(jié)構(gòu)如圖6 所示。
圖6 局部級(jí)檢測(cè)模型結(jié)構(gòu)Fig.6 Structure of local level detection model
改進(jìn)的DomainNet 融合了注意力機(jī)制,利用通道注意力卷積塊(AC-Block)替換原模型的所有卷積層,學(xué)習(xí)各個(gè)通道間關(guān)系以得到不同通道的權(quán)重,最后乘以原來(lái)的特征圖得到最終特征。該方法使模型關(guān)注信息量最大的通道特征,而抑制不重要的通道特征。該方法主要分為:1)Squeeze 操作,其通過(guò)對(duì)特征進(jìn)行全局平均池化來(lái)實(shí)現(xiàn);2)Excitation 操作,池化輸出的1×1×C數(shù)據(jù)經(jīng)過(guò)兩級(jí)全連接,使用sigmoid 函數(shù)將值限制在[0,1]范圍內(nèi),并將得到的值分別乘到C個(gè)通道上,作為下級(jí)的輸入數(shù)據(jù)。AC-Block 卷積塊結(jié)構(gòu)如圖7所示。
圖7 AC-Block 結(jié)構(gòu)Fig.7 AC-Block structure
由于物體級(jí)和局部級(jí)接受的塊不同,因此其功能和優(yōu)勢(shì)各不同。物體級(jí)篩選器為局部級(jí)檢測(cè)器提供了選擇的候選區(qū)域并進(jìn)行前饋,為獲得圖像的預(yù)測(cè)標(biāo)簽,通過(guò)計(jì)算所有候選區(qū)域輸出的平均分類(lèi)分布以得到平均的預(yù)測(cè)標(biāo)簽。局部級(jí)分類(lèi)器僅對(duì)包含判別力的局部特征進(jìn)行處理。盡管有的塊被兩個(gè)分類(lèi)器同時(shí)使用,但是它們代表不同的特征,能夠潛在的互補(bǔ)。從圖6 可以看出,在局部檢測(cè)后得到的兩組區(qū)域,一組是香煙目標(biāo),另一組是背景噪聲。
物體級(jí)選擇器選擇關(guān)注整個(gè)對(duì)象的多個(gè)視圖,這些候選區(qū)域驅(qū)動(dòng)了細(xì)粒度的局部級(jí)模塊——局部級(jí)檢測(cè)器。局部級(jí)檢測(cè)器通過(guò)選擇并處理包含區(qū)分特征和局部特征的候選區(qū)域,使Alex 網(wǎng)絡(luò)的第4 層卷積層形成2 個(gè)聚類(lèi)檢測(cè)器,以生成候選區(qū)域塊的激活分?jǐn)?shù)。此外,物體級(jí)選擇器通過(guò)對(duì)香煙目標(biāo)進(jìn)行定位,以完成前述算法的物體與局部區(qū)域檢測(cè)工作。局部級(jí)檢測(cè)器對(duì)檢測(cè)到的香煙目標(biāo)位置進(jìn)行特征提取。通過(guò)物體級(jí)選擇器和局部級(jí)檢測(cè)器相互協(xié)調(diào),完成了對(duì)細(xì)粒度香煙目標(biāo)分類(lèi)過(guò)程中物體、局部區(qū)域的檢測(cè)與特征提取工作。以往文獻(xiàn)是將卷積網(wǎng)絡(luò)作為特征提取器,并未從整體上考慮效果,然而本文從整體上使用全局和局部信息對(duì)細(xì)粒度級(jí)別進(jìn)行分類(lèi),在不借助數(shù)據(jù)集部分標(biāo)注的情況下,完全依賴(lài)于物體級(jí)別和局部級(jí)別信息,具有較優(yōu)的局部信息捕捉能力。最后,本文將2 種注意力集中方法的預(yù)測(cè)結(jié)果進(jìn)行合并,以結(jié)合兩者的優(yōu)勢(shì)。即使2 個(gè)分類(lèi)器都接受了某些候選區(qū)域,但這些候選區(qū)域的特征在每個(gè)分類(lèi)中都有不同的表示形式,但具有互補(bǔ)的信息。
本文將兩個(gè)模型的結(jié)果相結(jié)合,通過(guò)最終的分值來(lái)判定是香煙目標(biāo)還是類(lèi)煙物,如式(7)所示:
其中:Oobjectscore為多個(gè)patch 的均值;Ppartscore為局部分類(lèi)產(chǎn)生的決策值;α為通過(guò)實(shí)驗(yàn)確定取值,在本文中,經(jīng)過(guò)實(shí)驗(yàn)論證α過(guò)小會(huì)導(dǎo)致物體級(jí)分類(lèi)影響過(guò)大,使得模型泛化能力差,難以區(qū)分香煙目標(biāo)與類(lèi)煙物,而α 過(guò)大則會(huì)導(dǎo)致局部檢測(cè)器權(quán)值過(guò)高,整個(gè)模型呈現(xiàn)過(guò)擬合狀態(tài),所以將其設(shè)置為0.5。
本文實(shí)驗(yàn)的平臺(tái)系統(tǒng)是Ubuntu 18.04,圖形處理單元(GPU)是NVIDIA GTX 1080Ti,主要為python3.7+numpy1.18.1+torchvision0.5.0+pytorch1.4.0+pycocotools+opencv3.4.2,優(yōu)化器為Adam,其中衰減系數(shù)分別為0.9和0.999。模型訓(xùn)練輸入圖像的像素為512×512,batch_size 都為12,模型迭代次數(shù)設(shè)為300,學(xué)習(xí)率設(shè)置為10-4。
本文算法雖然屬于弱監(jiān)督吸煙行為識(shí)別,所需的樣本無(wú)需目標(biāo)級(jí)別的標(biāo)注,但無(wú)論是在前期的特征分析還是之后的實(shí)驗(yàn)論證都需要數(shù)據(jù)集支撐,由于吸煙行為識(shí)別的研究還不太成熟,沒(méi)有類(lèi)似于其他動(dòng)作識(shí)別的標(biāo)準(zhǔn)數(shù)據(jù)集。為此,本文構(gòu)建了吸煙行為檢測(cè)數(shù)據(jù)集BUU-Smoke,并在該數(shù)據(jù)集上進(jìn)行測(cè)試。BUU-Smoke 數(shù)據(jù)集(19 816 張圖片)是一個(gè)具有挑戰(zhàn)性的吸煙動(dòng)作檢測(cè)數(shù)據(jù)集。本文數(shù)據(jù)集在辦公樓下、街邊等5 個(gè)攝像頭下采集數(shù)據(jù),拍攝于白天,光照條件良好,數(shù)據(jù)集像素主要為512×512 和640×640,其中包含4 881 張通過(guò)網(wǎng)上獲得、視頻截圖的影視圖片以及14 935 張包含生活、工作、街頭等場(chǎng)景采集的真實(shí)圖像數(shù)據(jù),實(shí)景采集的每張圖中至少有3 人存在吸煙行為。其中包括吸煙數(shù)據(jù)、手拿類(lèi)煙物數(shù)據(jù)以及正常無(wú)目標(biāo)數(shù)據(jù)片段,為確保數(shù)據(jù)與實(shí)際場(chǎng)景符合,數(shù)據(jù)集的比例根據(jù)統(tǒng)計(jì)的中國(guó)30%的吸煙率[17]來(lái)設(shè)計(jì),吸煙∶非吸煙比例為3∶7,其非吸煙數(shù)據(jù)中,手拿類(lèi)煙物與正常無(wú)目標(biāo)的比例也為3∶7,為確保檢測(cè)算法的適用性,數(shù)據(jù)片段的背景涉及到各個(gè)生活場(chǎng)景。由于數(shù)據(jù)采集的環(huán)境不同,光照明暗以及設(shè)備的性能優(yōu)劣等,手動(dòng)采集的數(shù)據(jù)存在對(duì)比度低、有噪聲等缺點(diǎn)。本文在模型訓(xùn)練前,對(duì)數(shù)據(jù)集進(jìn)行了圖像增強(qiáng)、灰度取值范圍相同、大小歸一化等預(yù)處理。數(shù)據(jù)集樣例如圖8 所示?;€方法在此數(shù)據(jù)集上的效果只有15.5%,表明本數(shù)據(jù)集具有一定的研究意義和學(xué)術(shù)價(jià)值。
圖8 數(shù)據(jù)集樣例Fig.8 Sample data set
本文通過(guò)對(duì)比實(shí)驗(yàn)和消融實(shí)驗(yàn)對(duì)算法的性能進(jìn)行評(píng)估和分析,
本文實(shí)驗(yàn)采用損失函數(shù)(Loss)、時(shí)間度、準(zhǔn)確率(P)、召回率(R)和mmAP值作為主要評(píng)價(jià)指標(biāo),如式(8)所示:
其中:TTP表示對(duì)象為正例,識(shí)別為正例;FFP表示對(duì)象為負(fù)例,識(shí)別為正例;FFN表示對(duì)象為正例,識(shí)別為負(fù)例;QR為測(cè)試集個(gè)數(shù);AAP為平均精度。
為評(píng)估本文算法在吸煙行為檢測(cè)中的性能,本文在香煙煙霧識(shí)別、吸煙手勢(shì)識(shí)別、香煙識(shí)別這3 種主要的吸煙行為識(shí)別方式中,分別選取最具代表性的算法進(jìn)行對(duì)比。為保證結(jié)果公平,所選取的算法均在本實(shí)驗(yàn)平臺(tái)進(jìn)行重新訓(xùn)練,除本文算法以外,其他算法均采用有預(yù)訓(xùn)練模型的遷移學(xué)習(xí)進(jìn)行訓(xùn)練。為模擬真實(shí)吸煙場(chǎng)景,以保證實(shí)驗(yàn)的可靠性,本文共進(jìn)行10 次測(cè)驗(yàn),根據(jù)文獻(xiàn)[17]中研究的3∶7 的吸煙人數(shù)選取每次測(cè)驗(yàn)數(shù)據(jù)量,隨機(jī)選取70 個(gè)非吸煙場(chǎng)景,30 個(gè)類(lèi)似吸煙場(chǎng)景,其中類(lèi)似吸煙場(chǎng)景包括25 個(gè)真實(shí)吸煙場(chǎng)景和5 個(gè)手拿類(lèi)煙物場(chǎng)景,最終評(píng)判結(jié)果取每次測(cè)驗(yàn)結(jié)果的平均值。
在BUU-Smoke 數(shù)據(jù)集上對(duì)不同模型的性能指標(biāo)進(jìn)行對(duì)比,從表1 可以看出,整個(gè)10 次測(cè)試實(shí)驗(yàn)數(shù)據(jù),文獻(xiàn)[4]、文獻(xiàn)[5]和文獻(xiàn)[8]模型的mmAP相對(duì)最低,都在83%以下,但其誤檢率達(dá)到12%以上,且測(cè)試結(jié)果不穩(wěn)定。文獻(xiàn)[7]、文獻(xiàn)[10]和文獻(xiàn)[11]模型的時(shí)間消耗均較短,誤檢率均在10%及以下,而且在所有算法中文獻(xiàn)[10]的召回率最優(yōu),表明文獻(xiàn)[10]在檢測(cè)吸煙行為上的性能較優(yōu),但是模型mmAP僅在88%左右。文獻(xiàn)[9]采用多模型級(jí)聯(lián)檢測(cè)來(lái)解決單特征檢測(cè)準(zhǔn)確率低的問(wèn)題,因此其mmAP達(dá)到91.6%,但是文獻(xiàn)[9]采用的模型參數(shù)較大,在所有算法中時(shí)間度上的表現(xiàn)最差,且誤檢率也不是很理想,難以在實(shí)際場(chǎng)景中有好的表現(xiàn)。與其他算法相比,本文模型在檢測(cè)過(guò)程中的mmAP和誤檢率均性能較優(yōu),其值分別為93.1%和3.6%,時(shí)間度和召回率方面雖然不是最優(yōu),但接近于最優(yōu)算法的指標(biāo)。因此,本文模型能夠有效地識(shí)別吸煙行為,具有較優(yōu)的精確度和魯棒性。
表1 在BUU-Smoke 數(shù)據(jù)集上不同算法的指標(biāo)對(duì)比Table 1 Indexs comparison among different algorithms on BUU-Smoke data set
不同算法的loss 值對(duì)比如圖9 所示,從圖9 可以看出,相比其他算法,本文算法的loss 不論是收斂值還是曲線平滑程度都具有明顯的優(yōu)勢(shì)。
圖9 不同算法的loss 值對(duì)比Fig.9 Comparison of loss values among different algorithms
對(duì)比實(shí)驗(yàn)Ⅰ評(píng)估了算法在吸煙行為識(shí)別的性能,與其他吸煙算法相比,本文算法具有較優(yōu)的準(zhǔn)確度和誤檢率。由于本文研究還涉及細(xì)粒度方向,對(duì)比實(shí)驗(yàn)Ⅱ主要評(píng)估算法分辨類(lèi)煙物與香煙的性能,采用測(cè)試集數(shù)據(jù)總數(shù)為100 張,其中香煙目標(biāo)場(chǎng)景與類(lèi)煙物場(chǎng)景比例為1∶1。細(xì)粒度與粗粒度算法的實(shí)驗(yàn)結(jié)果對(duì)比如表2 所示。本文分別選取粗粒度與細(xì)粒度最具代表性的算法與本文所提算法進(jìn)行對(duì)比,選 取Faster RCNN[18]、SSD[19]、RetinaNet[20]、EfficientDet-D4[13]作為粗粒度算法,選取MAMC[21]、MVC[22]、DFL-CNN[23]作為細(xì)粒度算法,所有算法均采用預(yù)訓(xùn)練模型的遷移學(xué)習(xí)進(jìn)行訓(xùn)練,由于本文實(shí)驗(yàn)受硬件性能限制,即使將訓(xùn)練過(guò)程中的批大小降為最小的1,硬件性能仍然達(dá)不到訓(xùn)練EfficientDet系列的最優(yōu)算法D7 的程度,所以采用EfficienDet-D4 進(jìn)行對(duì)比實(shí)驗(yàn)。
表2 粗粒度與細(xì)粒度算法的實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Experimental results comparison of coarse-grained and fine-grained algorithms
從表2 可以看出,F(xiàn)aster-RCNN 和SSD 兩個(gè)算法主要是評(píng)估特征金字塔網(wǎng)絡(luò)中受語(yǔ)義多尺度特征的影響。EfficientDet 作為目前性能較優(yōu)的目標(biāo)檢測(cè)器,其D4 模型的mmAP為89.8%,雖然在粗粒度的模型中效果最好,但是相較于細(xì)粒度模型較差。主要原因可能是批大小只有1,在訓(xùn)練過(guò)程中損失值下降不平滑且波動(dòng)性大,而難以收斂。從綜合結(jié)果分析可知,粗粒度模型的準(zhǔn)確度相較于細(xì)粒度較低,說(shuō)明在識(shí)別類(lèi)煙物與香煙目標(biāo)時(shí),使用細(xì)粒度的模型能夠識(shí)別并提取更細(xì)微的特征。雖然文獻(xiàn)[21-23]的模型準(zhǔn)確度高于其他模型,但由于數(shù)據(jù)集的針對(duì)性,本文算法在這次試驗(yàn)中mmAP達(dá)到93.9%,高于其他算法2.7%以上,并且本文算法在時(shí)間度上明顯快于這3 類(lèi)細(xì)粒度算法。因此,本文算法在粗、細(xì)粒度的模型對(duì)比實(shí)驗(yàn)中表現(xiàn)優(yōu)異,具有較優(yōu)的準(zhǔn)確性與實(shí)時(shí)性。
本文設(shè)置了一組消融實(shí)驗(yàn),以全面評(píng)估本文所提算法的性能,將算法進(jìn)行部分剝離,從而評(píng)判模型部分的缺失對(duì)整體效果的影響。
消融實(shí)驗(yàn)描述如表3 所示,本文消融實(shí)驗(yàn)分為5 個(gè)部分:1)算法1 僅使用網(wǎng)絡(luò)中的目標(biāo)檢測(cè)網(wǎng)絡(luò)EfficientDet-D0;2)算法2 僅使用細(xì)粒度兩級(jí)注意力模型;3)算法3 使用整個(gè)網(wǎng)絡(luò),但是將候選區(qū)域提取算法進(jìn)行替換;4)算法4 是去除模型中添加的通道注意力卷積塊(AC-Block);5)本文算法。
表3 消融實(shí)驗(yàn)描述Table 3 Description of ablation experiment
消融實(shí)驗(yàn)結(jié)果如表4 所示,僅使用粗粒度或者細(xì)粒度模型的算法1 和算法2 的mmAP較低,本文算法相較于算法2 提高了3.3 個(gè)百分點(diǎn)。從實(shí)驗(yàn)1 可知,細(xì)粒度兩級(jí)注意力模塊對(duì)mmAP影響最大,說(shuō)明在吸煙行為上細(xì)粒度網(wǎng)絡(luò)比粗粒度網(wǎng)絡(luò)的識(shí)別性能更優(yōu)。本文對(duì)比5 個(gè)模型在速度上的差異,細(xì)粒度網(wǎng)絡(luò)模型由于參數(shù)多,速度較慢,而本文的算法雖然速度并不是最快的,但是經(jīng)過(guò)縮減參數(shù)等輕量化設(shè)計(jì),具有較好的實(shí)時(shí)性。實(shí)驗(yàn)3、4 的對(duì)比也驗(yàn)證了通道注意力機(jī)制能夠提高準(zhǔn)確度。本次消融實(shí)驗(yàn)深度剖析了算法內(nèi)部結(jié)構(gòu)對(duì)性能的影響,說(shuō)明本文模型設(shè)計(jì)的合理性。
表4 消融實(shí)驗(yàn)結(jié)果Table 4 Results of ablation experiment
本文提出一種基于弱監(jiān)督細(xì)粒度結(jié)構(gòu)與改進(jìn)EfficientDet 網(wǎng)絡(luò)的吸煙行為檢測(cè)算法,用于解決真實(shí)場(chǎng)景下吸煙行為識(shí)別過(guò)程中目標(biāo)細(xì)小檢測(cè)效果差的問(wèn)題。通過(guò)改進(jìn)EfficientDet 網(wǎng)絡(luò)中的BiFPN 結(jié)構(gòu),將下層節(jié)點(diǎn)特征融合到上層節(jié)點(diǎn)并共同學(xué)習(xí),利用上下不同層級(jí)的語(yǔ)義關(guān)系和位置信息增加跨級(jí)的數(shù)據(jù)流,實(shí)現(xiàn)多層次、多節(jié)點(diǎn)的融合學(xué)習(xí)。此外,在DomainNet 網(wǎng)絡(luò)結(jié)構(gòu)中融入基于通道注意力機(jī)制的卷積塊(AC-Block),使模型提取到信息量最大的通道特征。實(shí)驗(yàn)結(jié)果表明,本文算法的吸煙行為識(shí)別準(zhǔn)確率為93.1%,并具有較優(yōu)的魯棒性和泛化能力。后續(xù)將擴(kuò)展識(shí)別場(chǎng)景,使模型優(yōu)化為具有普適性的復(fù)雜動(dòng)作識(shí)別架構(gòu),以適應(yīng)更復(fù)雜的場(chǎng)景。