曾廣華,楊桂忠,郭壽南,陳朝明,羅曉松,夏琪凱,徐貴良
(1.江西廣播電視臺(tái),江西 南昌 330006;2.江西省廣播電視監(jiān)測(cè)中心,江西 南昌 330038)
江西廣播電視臺(tái)每天播出大量的視頻內(nèi)容,疫情常態(tài)化期間,播出的視頻涉及大量戴口罩的相關(guān)視頻。江西廣播電視臺(tái)目前的檢測(cè)系統(tǒng)只能對(duì)節(jié)目黑場(chǎng)、靜幀、超過3 s的靜音進(jìn)行報(bào)警,對(duì)于是否畫面中人員是否正確佩戴口罩的檢測(cè)工作,只能通過人工審核的方式進(jìn)行。以江西衛(wèi)視為例,針對(duì)《江西新聞聯(lián)播》《社會(huì)傳真》《新聞夜航》等節(jié)目,如播出的節(jié)目場(chǎng)景在疫情檢測(cè)現(xiàn)場(chǎng)、公共場(chǎng)所出現(xiàn)人員未佩戴口罩的畫面,將對(duì)受眾釋放錯(cuò)誤的防疫信號(hào)。
相較于傳統(tǒng)的目標(biāo)檢測(cè)算法,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法在精度、速度以及泛用性方面都得到了很多的提升[1]。鑒于此,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法也被應(yīng)用于小區(qū)門禁、火車站刷臉進(jìn)站以及無人機(jī)拍攝等各個(gè)場(chǎng)景。疫情發(fā)生以來,大量的研究將目標(biāo)檢測(cè)應(yīng)用于口罩佩戴識(shí)別領(lǐng)域,如王藝皓等[2]改進(jìn)YOLOv3算法網(wǎng)絡(luò),使其在復(fù)雜場(chǎng)景下能夠精準(zhǔn)地檢測(cè)人員是否佩戴口罩。本文提出基于YOLOv4算法的口罩檢測(cè)模型,能夠?qū)崿F(xiàn)對(duì)口罩的識(shí)別并對(duì)人員是否佩戴口罩進(jìn)行檢測(cè),同時(shí)融入MobileNetv2分類網(wǎng)絡(luò),快速準(zhǔn)確地完成分類。該模型能夠有效地提高節(jié)目審核的效率和準(zhǔn)確性,同時(shí)為新聞工作者制作節(jié)目提供良好的參考,為更好地宣傳江西形象提供技術(shù)支持。
該系統(tǒng)能夠?qū)Υ龑徍斯?jié)目進(jìn)行預(yù)審并檢測(cè)出人員是否佩戴口罩,并根據(jù)是否正確戴口罩將對(duì)象分為兩類,一類是口罩配戴整齊,另一類是口罩未佩戴整齊。系統(tǒng)通過攝像頭模塊提取視頻流圖像,也可以對(duì)圖像畫面一幀一幀地提取檢測(cè)。通過YOLOv4算法檢測(cè)模型[3]對(duì)畫面進(jìn)行檢測(cè),判斷畫面中的人員是否佩戴口罩;再對(duì)口罩在人物面部的位置進(jìn)行精準(zhǔn)定位,輸入MobileNetv2分類網(wǎng)絡(luò),判斷口罩佩戴是否正確。
該系統(tǒng)主要包括圖像采集、圖像處理、圖像顯示功能模塊。圖像采集模塊包含兩臺(tái)上載錄像機(jī),兩臺(tái)應(yīng)急上載錄像機(jī)。在平時(shí)的節(jié)目中,將需要上載的節(jié)目載體(如P2卡、磁帶、藍(lán)光盤)插入上載錄像機(jī)中,在上載模塊提取與之對(duì)應(yīng)的節(jié)目,對(duì)應(yīng)的上載通道顯示出節(jié)目視頻。如出現(xiàn)節(jié)目制作、審核時(shí)間緊張等情況,可直接插入圖像采集模塊下方的應(yīng)急錄像機(jī)中,在應(yīng)急錄像機(jī)打開文件,將節(jié)目視頻內(nèi)容顯示在液晶屏上。上載的節(jié)目一路儲(chǔ)存于主備視頻服務(wù)器中,提供播出視頻;另一路上傳至近線服務(wù)器中,進(jìn)行視頻技術(shù)審核。圖像處理模塊由兩臺(tái)計(jì)算機(jī)組成。一方面,可通過OpenCV使用Python語(yǔ)言編程連接近線視頻服務(wù)器,對(duì)節(jié)目?jī)?nèi)容進(jìn)行技術(shù)審核。另一方面,在節(jié)目緊急播出的情況下,可由OpenCV打開計(jì)算機(jī)的攝像頭采集應(yīng)急錄像機(jī)中的視頻,從而實(shí)時(shí)獲取應(yīng)急錄像機(jī)中的圖像信息。圖像處理模塊將采集的口罩樣本輸入檢測(cè)網(wǎng)絡(luò)[4]中,運(yùn)用深度神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行檢測(cè)分類。圖像顯示模塊將口罩檢測(cè)分類的結(jié)果顯示在系統(tǒng)的可視化界面上,可直觀看到系統(tǒng)檢測(cè)分類的結(jié)果。
YOLOv4是一種實(shí)時(shí)性的單階段目標(biāo)檢測(cè)算法,由主干網(wǎng)絡(luò)Backbone、特征融合的頸部和檢測(cè)頭組成。YOLOv4網(wǎng)絡(luò)將輸入圖像劃分為N×N網(wǎng)格,當(dāng)被測(cè)物體的中心坐標(biāo)落入其中一個(gè)網(wǎng)格時(shí),則該網(wǎng)格負(fù)責(zé)目標(biāo)檢測(cè)。在識(shí)別過程中,每個(gè)網(wǎng)格單元預(yù)測(cè)B個(gè)邊界框,每個(gè)邊界框包含5個(gè)預(yù)測(cè)值:tx,ty,tw,th以及置信度[5],置信度表示預(yù)測(cè)目標(biāo)框的置信水平與預(yù)測(cè)精度。在本次實(shí)驗(yàn)中,置信度設(shè)置為1.00。按式(1)計(jì)算預(yù)測(cè)框的中心坐標(biāo)bx,by和高度bh、寬度bw,σ是sigmoid函數(shù),pw、ph分別為先驗(yàn)框的寬和高,tw、th是要學(xué)習(xí)的參數(shù)。
YOLOv4網(wǎng)絡(luò)檢測(cè)待播出節(jié)目中的人員是否佩戴口罩時(shí),首先將需要檢測(cè)口罩的報(bào)道,如在核酸檢測(cè)現(xiàn)場(chǎng)[6]、火車站、醫(yī)院等公共場(chǎng)所采訪的視頻輸入YOLOv4網(wǎng)絡(luò)中。YOLOv4算法神經(jīng)網(wǎng)絡(luò)將圖片劃分為一張張網(wǎng)格,對(duì)圖片中可能出現(xiàn)口罩的區(qū)域進(jìn)行劃分,精準(zhǔn)地檢測(cè)出口罩,并輸出口罩在系統(tǒng)中的先驗(yàn)中心坐標(biāo)(x,y),框的寬、高以及置信度等信息。
將上述YOLOv4算法神經(jīng)網(wǎng)絡(luò)中輸出的先驗(yàn)中心坐標(biāo)(x,y),框的寬、高以及置信度等信息輸入MobileNetv2網(wǎng)絡(luò)模型中,對(duì)待分類的圖片進(jìn)行分類。MobileNetv2模型在原有的算法基礎(chǔ)上增加了線性瓶頸及有助于提高精度構(gòu)建更深網(wǎng)絡(luò)的倒殘差。實(shí)驗(yàn)中,通過對(duì)口罩在人眼睛、鼻子、耳朵、臉部的位置等比例的準(zhǔn)確比照,能夠準(zhǔn)確地判斷人員是否正確佩戴口罩。其模型如表1所示,n代表瓶頸層重復(fù)的次數(shù),t代表瓶頸層內(nèi)部升維的倍率,c代表特征的維數(shù),k表示寬度縮放因子,s代表瓶頸層中第一個(gè)卷積的步幅。
表1 MobileNetv2模型
本文通過線上線下采集數(shù)據(jù)集。線上的數(shù)據(jù)集來自嗶哩嗶哩、央視頻、江西網(wǎng)絡(luò)廣播電視臺(tái)中的視頻;線下數(shù)據(jù)集采集來自火車站、地鐵、核酸檢測(cè)現(xiàn)場(chǎng)等公共場(chǎng)所。數(shù)據(jù)集包含未佩戴口罩、正確佩戴口罩、口罩佩戴不整齊的圖片。通過LableImg軟件對(duì)圖片進(jìn)行標(biāo)注,將佩戴口罩的標(biāo)注為Pass,口罩佩戴整齊的標(biāo)注為Other,如檢測(cè)的圖片未佩戴口罩標(biāo)注為Out,設(shè)置的置信度為1.00。
本文通過以下指標(biāo)評(píng)價(jià)人臉佩戴口罩檢測(cè)算法的性能。
式中:Tp表示檢測(cè)到的目標(biāo)類別與真實(shí)目標(biāo)類別一致的樣本數(shù)量,F(xiàn)P表示檢測(cè)到的目標(biāo)類別與真實(shí)目標(biāo)類別不一致的樣本數(shù)量,F(xiàn)N表示真實(shí)目標(biāo)存在但未被檢測(cè)出的樣本數(shù)量。
準(zhǔn)確率和平均準(zhǔn)確率計(jì)算如下:
式中:N表示所有目標(biāo)類別的數(shù)量,AP表示準(zhǔn)確率,mAP表示平均準(zhǔn)確率。
使用YOLOv4算法神經(jīng)網(wǎng)絡(luò)對(duì)江西廣播電視臺(tái)的節(jié)目進(jìn)行口罩檢測(cè),并將得到的數(shù)據(jù)輸入MobileNetv2網(wǎng)絡(luò)中進(jìn)行分類,模型能夠精準(zhǔn)地檢測(cè)出視頻中未佩戴口罩的人物并報(bào)警。正確佩戴口罩的結(jié)果如圖1所示。Pass代表江西廣播電視臺(tái)節(jié)目中人員佩戴口罩的結(jié)果,Other代表正確佩戴結(jié)果。如檢測(cè)出人員未佩戴口罩或者未正確佩戴口罩的圖片,輸出的結(jié)果為Out。此時(shí)對(duì)該節(jié)目報(bào)警并停留在該視頻的具體畫面,顯示該幀在節(jié)目中的具體時(shí)間。該系統(tǒng)由專門的技術(shù)員進(jìn)行操作,為了確保節(jié)目審核的準(zhǔn)確性,可以人為地對(duì)模型輸出的結(jié)果進(jìn)行干預(yù),以確保審片工作順利進(jìn)行。經(jīng)測(cè)試,該模型的平均準(zhǔn)確率mAP高達(dá)97.6%。
圖1 正確佩戴口罩檢測(cè)結(jié)果
本文運(yùn)用YOLOv4算法對(duì)江西廣播電視臺(tái)節(jié)目中人員是否佩戴口罩進(jìn)行檢測(cè),同時(shí)引入MobileNetv2網(wǎng)絡(luò)對(duì)人員是否正確佩戴口罩進(jìn)行分類。實(shí)驗(yàn)檢測(cè)平均準(zhǔn)確率達(dá)到97.6%,動(dòng)態(tài)檢測(cè)速度最高每秒65幀,滿足高清電視畫面每秒25幀的標(biāo)準(zhǔn)。該口罩檢測(cè)系統(tǒng)有效地彌補(bǔ)了江西廣播電視臺(tái)對(duì)節(jié)目審核、制作中人員口罩是否正確佩戴的工作只能通過人工審片方式的不足。由于有戶外目標(biāo)較小、人物遮擋、強(qiáng)風(fēng)強(qiáng)雨環(huán)境等其他外界的干擾,導(dǎo)致實(shí)際檢測(cè)中仍然存在少量的漏檢、錯(cuò)誤檢測(cè)的情況,以后將針對(duì)這些情況進(jìn)行更深入的研究。