春雨童,韓飛騰,何明珂
(1.首都經(jīng)濟(jì)貿(mào)易大學(xué) 管理工程學(xué)院,北京 100070;2.國能經(jīng)濟(jì)技術(shù)研究院有限責(zé)任公司,北京 102299;3.北京物資學(xué)院 物流學(xué)院,北京 101149)
新冠肺炎一般指新型冠狀病毒肺炎(Corona Virus Disease 2019,COVID-19)。2019 年末,新冠肺炎疫情爆發(fā),全國各地報(bào)道多起聚集性傳染病例。隨著疫情防控進(jìn)入常態(tài)化階段,全國出現(xiàn)多點(diǎn)散發(fā)、局部聚集性疫情反彈的現(xiàn)象。2021 年7 月,南京祿口機(jī)場爆發(fā)聚集性傳染疫情并擴(kuò)散至全國多地,10 月至12 月,內(nèi)蒙古、北京、浙江等多地出現(xiàn)散發(fā)聚集性傳染疫情,疫情防控工作再次面臨嚴(yán)峻考驗(yàn)。在人員密集的公共場所佩戴口罩并保持安全距離是有效防控聚集性傳染的主要方式[1-2]。目前,人工監(jiān)測是對公共場所人群聚集及口罩佩戴情況的主要監(jiān)測手段。然而公共場所具有人流密集且流動性大的特點(diǎn),人工監(jiān)測不僅難以高效識別聚集人群的口罩佩戴情況,而且存在監(jiān)測人員感染、監(jiān)測人力不足等情況。因此,構(gòu)建智能化的聚集性傳染風(fēng)險(xiǎn)監(jiān)測模型對現(xiàn)階段的疫情防控具有重要意義和實(shí)踐價(jià)值。
近年來,很多基于深度學(xué)習(xí)的高精度通用目標(biāo)檢測算法被提出,如Faster R-CNN[3]、R-FCN[4]、Cascade R-CNN[5]、YOLO[6]、SSD[7]、RetinaNet[8]、YOLOv3[9]等,并在很多場景下實(shí)現(xiàn)了落地應(yīng)用[10-12]。在疫情防控背景下,研究者進(jìn)行了一些口罩佩戴檢測算法的研究。王藝皓等[13]針對復(fù)雜場景下存在的目標(biāo)遮擋、密集人群、小尺度目標(biāo)檢測等問題,通過結(jié)合跨階段局部網(wǎng)絡(luò)、優(yōu)化空間金字塔池化結(jié)構(gòu)和使用CIoU 損失函數(shù)改進(jìn)YOLOv3 算法,提出了新的口罩佩戴檢測算法。曹城碩等[14]等同樣針對口罩佩戴檢測任務(wù)中被遮擋目標(biāo)和小目標(biāo)檢測困難的問題,在特征提取網(wǎng)絡(luò)中引入注意力機(jī)制,提出了YOLO-Mask 口罩佩戴目標(biāo)檢測算法。張修寶等[15]在ResNet50 網(wǎng)絡(luò)的基礎(chǔ)上加入空間和通道注意力學(xué)習(xí)機(jī)制,增強(qiáng)了口罩佩戴識別模型對口罩區(qū)域特征的學(xué)習(xí)。彭成等[16]基于YOLOv5 檢測框架,通過將其中的部分特征提取模塊替換為更輕量的GhostBottleNeck 和ShuffleConv 模塊,實(shí)現(xiàn)了一種輕量級口罩佩戴 檢測框架。WANG 等[17]提出了MFDD、RMFRD、SMFRD 3 種類型的蒙面人臉數(shù)據(jù)集以提高口罩檢測識別精度。雖然口罩相關(guān)檢測算法的研究取得了較大進(jìn)展,但所涉及的功能及場景具有單一性,而單獨(dú)一種功能無法有效地實(shí)現(xiàn)聚集性傳染風(fēng)險(xiǎn)監(jiān)測。此外,現(xiàn)有口罩檢測算法的精度仍有待提升。
本文將聚集區(qū)域檢測、行人檢測和行人口罩佩戴情況檢測相結(jié)合,提出多功能多場景的目標(biāo)檢測框算法Cascade-Attention R-CNN。針對任務(wù)中目標(biāo)尺度變化過大的問題,選取高精度兩階段目標(biāo)檢算法Cascade R-CNN作為基礎(chǔ)檢測框架,通過在級聯(lián)的候選區(qū)域分類-回歸網(wǎng)絡(luò)中加入空間注意力機(jī)制,達(dá)到突出候選區(qū)域重要特征和抑制噪聲特征的目的,進(jìn)而提升特征表達(dá)能力。在此基礎(chǔ)上,根據(jù)檢測結(jié)果評定疫情傳染風(fēng)險(xiǎn)等級,實(shí)現(xiàn)對聚集性傳染的無接觸和智能化防控和監(jiān)測。
口罩是預(yù)防呼吸道傳染病的重要防線,能夠大幅降低以新型冠狀病毒為代表的呼吸道傳染疾病感染風(fēng)險(xiǎn)[18]。由于商場、超市、火車站等公共場所具有人流密集且流動性大的特點(diǎn),佩戴口罩更是成為預(yù)防聚集性傳染的必要措施。根據(jù)《新型冠狀病毒感染的肺炎防控方案(第六版)》中對聚集性病例的相關(guān)描述,本文將圖像中兩人及以上,可由人工判斷為近距離相處的人群視為聚集人群(dense)。由于聚集人群中的人員密集程度和口罩佩戴情況是影響聚集性傳染風(fēng)險(xiǎn)的重要因素,因此本文在判斷聚集人群的基礎(chǔ)上,將行人(person)及口罩佩戴(mask)兩個(gè)要素作為變量,劃定聚集性傳染風(fēng)險(xiǎn)等級并以不同顏色標(biāo)記進(jìn)行區(qū)分,其中一級風(fēng)險(xiǎn)為最高等級。
設(shè)一張圖像中dense 的集合為X=[x1,x2,…,xn],xi中person 的集合為Yi=[y1,y2,…,ym],mask 的集合為Zi=[z1,z2,…,zp],三者關(guān)系符合zi?yi?xi。設(shè)定xi中Yi數(shù)量的閾值為δ,則聚集性傳染風(fēng)險(xiǎn)等級劃分如表1 所示。
表1 聚集性傳染風(fēng)險(xiǎn)等級Table 1 Level of aggregated infection risk
在實(shí)際監(jiān)測中,閾值可根據(jù)實(shí)施監(jiān)測的具體環(huán)境及情況進(jìn)行調(diào)整,如密閉室內(nèi)環(huán)境中可將δ降低,在開闊室外環(huán)境則可提高。
目前,人工監(jiān)測是對公共場所人群聚集及口罩佩戴情況的主要監(jiān)測手段。然而由于公共場所人流密集,人工監(jiān)測不僅難以高效識別聚集人群的口罩佩戴情況,且存在監(jiān)測人員感染、監(jiān)測人力不足等情況。雖然已有部分企業(yè)開發(fā)了口罩識別或行人識別模型以幫助疫情防控,但這些模型大多存在功能單一(只可識別口罩或行人)和場景單一(近距離和簡單場景)的問題,難以在多場景下實(shí)現(xiàn)多類別的目標(biāo)檢測。
針對以上問題,本文提出聚集性傳染風(fēng)險(xiǎn)監(jiān)測模型,實(shí)現(xiàn)無接觸和智能化的聚集性傳染風(fēng)險(xiǎn)監(jiān)測,模型架構(gòu)如圖1 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。該模型可通過攝像頭的監(jiān)測畫面識別特定場所的聚集人群、行人和口罩佩戴情況,并根據(jù)表1 判定風(fēng)險(xiǎn)等級。
圖1 聚集性傳染風(fēng)險(xiǎn)監(jiān)測模型架構(gòu)Fig.1 Framework of monitoring model for aggregated infection risk
本文模型包括數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、模型推理、檢測結(jié)果、結(jié)果融合、風(fēng)險(xiǎn)等級6 個(gè)部分,具體過程如下:
1)數(shù)據(jù)獲取:通過攝像頭或其他圖像采集設(shè)備獲得視頻影像。影像獲取設(shè)備可根據(jù)具體場景監(jiān)測需求調(diào)節(jié)距離和角度,以盡可能多地獲取監(jiān)測場景信息。由于攝像頭拍攝的圖像僅包含2 維信息,因此本文在判斷聚集人群時(shí)不考慮3 維空間中的距離因素。
2)數(shù)據(jù)預(yù)處理:利用跨平臺計(jì)算機(jī)視覺庫OpenCV 將視頻按幀切割成圖片,并將圖片作為目標(biāo)檢測模塊的輸入。OpenCV 是由Intel 公司開發(fā)的開源計(jì)算機(jī)視覺庫,具有編寫簡潔而高效的特點(diǎn),在圖像處理領(lǐng)域被廣泛應(yīng)用[19-21]。由于將視頻切分為幀圖片屬于成熟技術(shù)且不是本文討論重點(diǎn),因此對數(shù)據(jù)獲取及數(shù)據(jù)預(yù)處理部分不做討論。
3)模型推理:利用空間注意力機(jī)制優(yōu)化Cascade R-CNN[5]算法,提出Cascade-Attention R-CNN 目標(biāo)檢測算法,并基于該算法建立基于視覺的多功能多場景目標(biāo)檢測模塊,以數(shù)據(jù)預(yù)處理獲得的幀圖片作為輸入,識別圖片中人、口罩、聚集人群3個(gè)目標(biāo)的位置及數(shù)量。具體內(nèi)容詳見1.3 節(jié)。
4)檢測結(jié)果:多功能多場景目標(biāo)檢測模塊的輸出結(jié)果,用紅色、藍(lán)色和綠色的檢測框分別標(biāo)注聚集人群(dense)、人(person)及口罩(mask)的所在區(qū)域。
5)結(jié)果融合:利用結(jié)果融合模塊判斷目標(biāo)檢測結(jié)果中聚集人群(dense)、個(gè)人(person)和佩戴口罩(mask)三要素的隸屬關(guān)系及數(shù)量,同時(shí)將目標(biāo)檢測模塊結(jié)果與表1 中的聚集性傳染風(fēng)險(xiǎn)等級相融合,判定圖片的風(fēng)險(xiǎn)等級。具體內(nèi)容詳見1.4 節(jié)。
Steinhaus(1955年)、Lloyd(1957年)、Ball&Hall(1965年)和McQueen(1967年)分別從不同的學(xué)科研究領(lǐng)域提出了K-means聚類算法,同時(shí),McQueen總結(jié)了 Cox〔1〕、Fisher〔2〕、Sebestyen〔3〕等的研究成果,給出了K-means算法的執(zhí)行步驟,并利用數(shù)學(xué)方法進(jìn)行了理論論證。
6)風(fēng)險(xiǎn)等級:將圖片所對應(yīng)的聚集性傳染風(fēng)險(xiǎn)等級以不同邊框顏色進(jìn)行表示。顏色標(biāo)簽詳見表1。
當(dāng)前主流的通用目標(biāo)檢測算法大致分為兩階段目標(biāo)檢測算法和單階段目標(biāo)檢測算法。相較于單階段目標(biāo)檢測算法,兩階段目標(biāo)檢測算法由于在第一個(gè)階段過濾掉了大部分不包含物體的候選區(qū)域,因此緩解了正負(fù)樣本不平衡的問題,具有更高的檢測精度。Faster R-CNN[3]作為最具代表性的兩階段目標(biāo)檢測算法,是之后很多優(yōu)秀目標(biāo)檢測算法的基礎(chǔ),具有重要的里程碑意義。然而,目標(biāo)尺度變化過大是本文任務(wù)中所存在的關(guān)鍵問題,而Faster R-CNN在處理這一問題上具有局限性[5]。在Faster R-CNN第一個(gè)階段輸出的候選區(qū)域中,絕大部分候選區(qū)域與真實(shí)目標(biāo)的重疊面積較小,這在訓(xùn)練時(shí)會導(dǎo)致訓(xùn)練樣本尺度不平衡,進(jìn)而導(dǎo)致模型對于不同尺度的目標(biāo)識別效果差別較大。為了緩解Faster R-CNN 對于尺度問題的局限性,本文基于Faster R-CNN,通過設(shè)計(jì)多個(gè)級聯(lián)的候選框分類回歸網(wǎng)絡(luò)(RoI-Head),使得不同級別的RoI-Head 負(fù)責(zé)位置偏差不同的候選框的預(yù)測,提升了算法對于尺度變化的魯棒性。然而,Cascade R-CNN 雖然設(shè)置了多個(gè)級聯(lián)的RoIHead,但是每個(gè)RoI-Head 內(nèi)部提取更高辨識度特征的能力仍然有提升空間,更高辨識度的特征更有利于區(qū)分不同尺度的物體。因此,本文基于Cascade R-CNN 提 出Cascade-Attention R-CNN 算法,通過結(jié)合空間注意力和卷積操作,設(shè)計(jì)一種特征提取能力更強(qiáng)的注意力候選框分類回歸網(wǎng)絡(luò)(Attention RoI-Head),進(jìn)一步提升算法的檢測效果。如圖2 所示,算法輸入為視頻幀圖片,通過級聯(lián)3 種結(jié)構(gòu)相同的Attention RoI-Head,輸出行人(person)、聚集人群(dense)及口罩(mask)的檢測類別分?jǐn)?shù)及位置信息。其中,以score 代表每個(gè)類別的預(yù)測概率分?jǐn)?shù),bbox代表回歸后的區(qū)域坐標(biāo)。
圖2 Cascade-Attention R-CNN 算法流程Fig.2 Procedure of Cascade-Attention R-CNN algorithm
Cascade-Attention R-CNN 算法包含兩個(gè)階段:第一階段為候選區(qū)域提取網(wǎng)絡(luò)(Region Proposal Network,RPN),用于提取目標(biāo)區(qū)域,以二分類的方式判斷物體是否存在并對預(yù)先定義的anchor 區(qū)域位置進(jìn)行微調(diào),最終輸出包含物體的候選區(qū)域(proposals),此階段并不考慮具體的物體類別;第二階段為基于空間注意力的候選框分類回歸網(wǎng)絡(luò)(Attention RoI-Head)。在R-CNN 系列的兩階段檢測算法中,RoI-Head 往往先將候選框?qū)?yīng)的特征輸入到連續(xù)兩個(gè)全連接層,然后再分別利用兩個(gè)全連接輸出最終候選框的類別概率分?jǐn)?shù)和位置偏移。Cascade R-CNN 沿用了Faster R-CNN 中的RoI-Head,但并沒有對其結(jié)構(gòu)進(jìn)行改進(jìn)。本文提出的Cascade-Attention R-CNN 算法在使用Cascade R-CNN 級聯(lián)結(jié)構(gòu)的同時(shí),對RoI-Head 的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn),通過在ROI Pooling Feature Map 上進(jìn)行卷積和空間注意力的操作,提出Attention RoI-Head,實(shí)現(xiàn)了更強(qiáng)大的相關(guān)特征提取功能。
具體而言,本文將RoI-Head 中分類和回歸共享的兩個(gè)全連接層改變?yōu)? 個(gè)卷積層和1 個(gè)全連接層,且針對3 個(gè)卷積層分別使用空間注意力機(jī)制來提高特征表達(dá)能力。2 種RoI-Head 結(jié)構(gòu)對比如圖3 所示。
圖3 RoI-Head 結(jié)構(gòu)對比Fig.3 Structure comparison of RoI-Head
本文選擇卷積層和空間注意力機(jī)制結(jié)合使用,是因?yàn)椴煌叨饶繕?biāo)物體的主要差異來源于空間層面的不同,對于其空間特征差異性的捕獲更有助于實(shí)現(xiàn)對不同尺度目標(biāo)物體的區(qū)分。相較于全連接層,卷積層能夠更好地保持目標(biāo)物體特征的空間特性,空間注意力則可對特征的空間層面進(jìn)行顯式加權(quán),過濾噪聲特征,增加更高辨識度空間特征的權(quán)重,進(jìn)而實(shí)現(xiàn)對于不同尺度物體區(qū)分度更高的特征提取,最終提升算法對于任務(wù)中尺度變化過大情況的魯棒性[22]。實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的Attention RoI-Head 具有更好的效果。關(guān)于空間注意力的具體形式,本文采用CBAM[22]中的空間注意力,如圖4 所示。值得注意的是,其他形式的空間注意力或許具有更好的效果,但本文主要研究利用注意力機(jī)制與卷積結(jié)合去提升算法特征表達(dá)能力,進(jìn)而緩解尺度變化過大的問題,而關(guān)于空間注意力的表達(dá)形式不是本文研究內(nèi)容。
圖4 空間注意力機(jī)制流程Fig.4 Procedure of spatial attention mechanism
損失函數(shù)屬于多任務(wù)損失函數(shù),包含第一階段RPN 的損失和第二階段Attention RoI-Head 的損失,且兩部分損失均包含分類損失(cls loss)和回歸損失(bounding box regression loss)。以RPN 階段的損失函數(shù)為例,如式(1)所示:
其中:i表示候選框(anchors)索引;Ncls為總的anchors數(shù)量;Nreg為anchors 所在的中心位置個(gè)數(shù);由于實(shí)際過程中Ncls和Nreg差距過大,因此用參數(shù)λ平衡兩者差距,使網(wǎng)絡(luò)可以均勻地考慮兩種損失;pi表示預(yù)測候選框i為目標(biāo)的概率表示選取候選框?qū)?yīng)的樣本所屬標(biāo)簽,當(dāng)候選框目標(biāo)為正樣本時(shí)取1,否則取0;ti表示預(yù)測的邊界框(bounding box)的4 個(gè)坐標(biāo)參數(shù)表示正確標(biāo)注邊界框的坐標(biāo);Lcls表示二分類器的分類損失,如式(2)所示;Lreg表示回歸損失,如式(3)所示;R表示smoothL1函數(shù),如式(4)所示。
為增強(qiáng)算法對于小目標(biāo)檢測的效果,本文引入特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN),通過采用一種自上而下(top-bottom)的方式,將頂層特征與底層特征進(jìn)行融合,之后在融合后的每層特征上進(jìn)行候選區(qū)域提取、相關(guān)類別預(yù)測和偏移量預(yù)測。
本文通過結(jié)果融合模塊判斷目標(biāo)檢測結(jié)果中聚集人群(dense)、個(gè)人(person)和佩戴口罩(mask)三要素的隸屬關(guān)系及數(shù)量,并將目標(biāo)檢測模塊結(jié)果與風(fēng)險(xiǎn)監(jiān)測等級相結(jié)合。為了更準(zhǔn)確地判斷三要素關(guān)系及數(shù)量,結(jié)果融合模塊對dense 和person、person 和mask 這2 種情況分別進(jìn)行處理。
圖5 圖像坐標(biāo)系示意圖Fig.5 Schematic diagram of image coordinate system
設(shè)dense、person、mask的坐標(biāo)分別為(x0,y0,h0,w0)、(x1,y1,h1,w1)、(x2,y2,h2,w2),其中:x和y分別代表檢測結(jié)果中邊界框左上角點(diǎn)在圖中的橫縱坐標(biāo);w和h分別代表邊界框的寬和高。在判斷dense 中person 個(gè)數(shù)階段,設(shè)dense與person的交集坐標(biāo)為(xi,yi,hi,wi),則有:
根據(jù)式(5)和式(6)可計(jì)算得出dense 和person邊界框的面積交集Sσ以及person 邊界框面積S1。當(dāng)dense 與person 有交集且交集面積Sσ占S1的比例大于等于閾值α,即person 滿足式(7)中所有條件時(shí),判定該person 屬于dense 且計(jì)數(shù)加1。
在判斷person 是否正確佩戴mask 階段,由于mask 的正確佩戴方式是在面部,因此默認(rèn)mask 必須全部在person 邊界框內(nèi)。利用式(8)判斷mask 是否得到正確佩戴:
其中:β代表mask 距person 邊界框頂部的垂直距離占person 邊界框高度h2比例的閾值。當(dāng)mask 滿足式(8)中所有條件時(shí),判定mask 得到正確佩戴且計(jì)數(shù)加1。
由于目標(biāo)檢測模塊的檢測效果直接影響聚集性傳染風(fēng)險(xiǎn)監(jiān)測模型的有效性,因此本文僅針對目標(biāo)檢測模塊中的算法運(yùn)行效果進(jìn)行評價(jià)。為更好地綜合反映精確率和召回率的情況,本文采用平均精度均值(mean Average Precision,mAP)作為對目標(biāo)檢測模塊的評價(jià)指標(biāo),該指標(biāo)兼顧了精確率和召回率。精確率PPrecision和召回率RRecall的計(jì)算公式如下:
其中:TP為正確識別的目標(biāo)數(shù)量;FP為誤識別的目標(biāo)數(shù)量;FN為漏識別的目標(biāo)數(shù)量。
通過選取召回率和精確率的值作為橫坐標(biāo)和縱坐標(biāo),得到的P-R 曲線下的面積即為平均精度(Average Precision,AP)。對所有類別求AP 并取均值即為mAP 指標(biāo)。mAP 是目標(biāo)檢測問題中常用的評價(jià)指標(biāo),可以反映算法的整體性能[23-24]。
基于聚集性傳染風(fēng)險(xiǎn)監(jiān)測模型的定義,本文實(shí)驗(yàn)使用的數(shù)據(jù)集必須同時(shí)包含人群聚集和口罩佩戴兩個(gè)特征,且包含不同場景和視角。為清晰表示不同場景及視角,本文以A1 和A2 分別代表平視及俯視兩個(gè)視角,平視指鏡頭與被拍攝物體保持基本相同水平獲得圖片,俯視指鏡頭中人眼處于平常生活狀態(tài)下的俯視鏡頭獲得圖片。以B1、B2、B3 分別代表近、中、遠(yuǎn)三種距離,C1 和C2 分別代表室內(nèi)及室外兩種場景,如圖6 所示。由于缺少公開數(shù)據(jù)集,本文通過網(wǎng)絡(luò)爬取及整合相關(guān)公開數(shù)據(jù)集的方式構(gòu)建聚集性傳染風(fēng)險(xiǎn)監(jiān)測數(shù)據(jù)集。網(wǎng)絡(luò)爬取部分選擇百度及必應(yīng)(bing)兩個(gè)圖片搜索引擎,分別以“口罩”“人群”“聚集”“疫情”“新型冠狀病毒”等為關(guān)鍵詞,利用爬蟲下載搜索結(jié)果圖片,并通過人工篩選得到1 049張有效圖片。公開數(shù)據(jù)集部分選取大型商場(Mall Dataset)[25]、UCSD[26]、上海科技(Shanghaitech)[27]這3 個(gè)人群統(tǒng)計(jì)數(shù)據(jù)集,以及MAFA 面部口罩檢測數(shù)據(jù)集[28]。經(jīng)過對2 個(gè)渠道數(shù)據(jù)源的篩選和清洗,共得到1 542 張有效圖片,按照5︰5 劃分訓(xùn)練集和測試集。由于數(shù)據(jù)集中涉及部分人臉信息,出于肖像權(quán)保護(hù)及信息安全的考慮,對包含清晰面部信息的圖片均采取去除眼部信息特征的處理。實(shí)驗(yàn)數(shù)據(jù)集的具體數(shù)據(jù)分布如表2 所示。最后,使用目標(biāo)檢測任務(wù)標(biāo)注工具LabelImg將數(shù)據(jù)集標(biāo)注為PASCAL VOC[23]格式。
圖6 數(shù)據(jù)集示例圖片F(xiàn)ig.6 Example images of dataset
表2 數(shù)據(jù)集數(shù)據(jù)分布Table 2 Dataset distribution of dataset
在多功能多場景目標(biāo)檢測模塊的實(shí)驗(yàn)中,本文使用的仿真平臺為Ubuntu 16.04,顯卡采用GeForce GTX TITAN X 12 GB 獨(dú)立顯卡。此外,安裝GPU 開發(fā)包CUDA10.1,深度學(xué)習(xí)框架為Pytorch 1.6.0,代碼運(yùn)行環(huán)境為Python 3.7.9。在訓(xùn)練階段,采用ImageNet[29]上的預(yù)訓(xùn)練模型ResNet-50[30]作為特征提取網(wǎng)絡(luò)。超參數(shù)設(shè)置如下:初始學(xué)習(xí)率為0.001,30 epoch 后調(diào)整為0.000 1,共訓(xùn)練32 epoch;優(yōu)化器選擇帶Momentum 的SGD,其中Momentum 設(shè)置為0.9;batch size 為1。在訓(xùn)練和測試階段,圖片的輸入尺寸統(tǒng)一為600×1 000 像素。
表3展示了本文提出的Cascade-Attention R-CNN算法與其他主流目標(biāo)檢測算法的性能對比。通過表3 可知,兩階段目標(biāo)檢測算法Cascade R-CNN[5]mAP分別超過單階段目標(biāo)檢測算法RetinaNet[8]和SSD512[7](輸入圖片的尺寸為512×512像素)5.8 和0.9 個(gè)百分點(diǎn)。本文提出的Cascade-Attention R-CNN 算法超過Cascade R-CNN 算法2.6 個(gè)百分點(diǎn),結(jié)果表明本文提出的Attention RoI-Head 效果優(yōu)于原始RoI-Head。此外,Cascade-Attention R-CNN算法關(guān)于行人(person)、口罩(mask)的AP 值均達(dá)到90% 以上,關(guān)于聚集人群(dense)的AP 值達(dá)到85%以上。
表3 不同算法的檢測精度對比Table 3 Detection precision comparison of different algorithms %
本文聚集性傳染風(fēng)險(xiǎn)監(jiān)測模型的實(shí)驗(yàn)結(jié)果如圖7 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML版),其中體現(xiàn)了本文通過Cascade-Attention R-CNN算法構(gòu)建的模型在不同場景和視角下對圖片識別出的信息及相應(yīng)的聚集性傳染風(fēng)險(xiǎn)等級。其中:圖片內(nèi)邊界框分別代表所識別的信息person(藍(lán)色)、mask(綠色)及dense(紅色);圖片邊框顏色代表聚集性傳染風(fēng)險(xiǎn)等級;dense 中person 數(shù)量閾值δ設(shè)置為2;結(jié)果融合模塊中的α和β閾值分別設(shè)置為2/3 和1.5。
通過對實(shí)驗(yàn)結(jié)果的分析可得到以下結(jié)論:
1)目標(biāo)檢測模塊對于近、中、遠(yuǎn)距離的目標(biāo)均具有良好的識別效果,如圖7(a)、圖7(e)、圖7(k)所示。
2)目標(biāo)檢測模塊可有效識別面部佩戴口罩情況,但存在特殊案例,如圖7(f)中雖然識別口罩佩戴在面部,但未遮擋住鼻子,感染風(fēng)險(xiǎn)大幅提升。由于類似情況較少,此處不做特殊處理。
3)目標(biāo)檢測模塊對于聚集人群(dense)具有良好的識別效果,但存在瑕疵。如圖7(k)和圖7(l)所示,當(dāng)人群過于密集且視角過遠(yuǎn)時(shí),dense區(qū)域存在漏人情況,但此類情況不影響風(fēng)險(xiǎn)監(jiān)測模型的正確監(jiān)測。
4)目標(biāo)檢測模塊對于除口罩外的面部遮擋干擾具有較強(qiáng)的魯棒性。如圖7(b)和圖7(c)所示,雖然用手和面巾遮住面部,但目標(biāo)檢測模塊未將該類遮擋視為佩戴口罩。
5)結(jié)果融合模塊具有良好的融合效果。對比表1 中定義的聚集性傳風(fēng)險(xiǎn)等級可以看出,結(jié)果融合模塊可以有效地將監(jiān)測結(jié)果與風(fēng)險(xiǎn)等級相結(jié)合,得到正確的監(jiān)測風(fēng)險(xiǎn)等級。
基于以上對實(shí)驗(yàn)結(jié)果的分析可知,多功能多場景目標(biāo)檢測模塊可以識別不同視角(俯視、平視)、不同場景(室內(nèi)、室外)及不同距離(遠(yuǎn)、近)的多類別(個(gè)人、聚集人群及口罩)圖片信息,具有較高的準(zhǔn)確率和魯棒性,同時(shí)結(jié)果融合模塊也可有效融合檢測結(jié)果與風(fēng)險(xiǎn)等級,進(jìn)而驗(yàn)證了本文模型的有效性。
近年來,新冠肺炎疫情嚴(yán)重威脅著人們的生命健康,而對于聚集性活動的監(jiān)管,如聚集性人群以及口罩佩戴狀態(tài)的監(jiān)管,是控制疫情傳播的重要手段。本文提出Cascade-Attention R-CNN 檢測算法,緩解人工監(jiān)管聚集性區(qū)域、行人和口罩佩戴耗費(fèi)人力且增加傳染風(fēng)險(xiǎn)的問題。為應(yīng)對目標(biāo)尺度變化過大的情況,選取Cascade R-CNN 作為基本檢測框架,通過在候選區(qū)域分類-回歸網(wǎng)絡(luò)中加入空間注意力機(jī)制,實(shí)現(xiàn)更高辨識度的特征提取。在此基礎(chǔ)上,通過融合Cascade-Attention R-CNN 的輸出結(jié)果,構(gòu)建聚集性傳染風(fēng)險(xiǎn)監(jiān)測模型,自動判定當(dāng)前場景下的聚集性傳染風(fēng)險(xiǎn)等級。實(shí)驗(yàn)結(jié)果表明,Cascade-Attention R-CNN 較Faster R-CNN、RetinaNet、SSD、Cascade R-CNN 等主流目標(biāo)檢測算法具有更高的檢測精度,并且所構(gòu)建的監(jiān)測模型能夠準(zhǔn)確判定傳染風(fēng)險(xiǎn)等級。本文采用原始的特征金字塔網(wǎng)絡(luò),針對固定尺度范圍的目標(biāo)僅使用單一的特征金字塔層。后續(xù)將利用不同層級的特征提取更高辨識度的特征,進(jìn)一步提升檢測效果。