馮庭有,蔡承偉,田 際,江志宏,周俊煌,陳 樂
(1.華能東莞燃機(jī)熱電有限責(zé)任公司,廣東東莞 523000;2.廣州市奔流電力科技有限公司,廣東廣州 510700)
火災(zāi)發(fā)生具有可預(yù)見性小、蔓延速度快、危害性大的特點(diǎn),是危害生命安全和企業(yè)生產(chǎn)安全的重大事故的因素之一。如何快速并準(zhǔn)確的檢測識(shí)別是安全防控的重要方面。
早期的煙火防控主要依靠人工巡邏查看為主,發(fā)現(xiàn)則及時(shí)進(jìn)行撲滅,該方法依賴于大量人工巡邏。隨著廠房、器件和設(shè)備的增加,導(dǎo)致巡查難度不斷增加,大大降低了巡檢的效率。
隨著傳感器和數(shù)字化監(jiān)管技術(shù)的發(fā)展,針對煙霧和火焰具有的高溫特性,逐漸研發(fā)了基于紅外方式的煙火檢測裝置[1]。此類裝置根據(jù)物體隨溫度所散發(fā)的紅外線多少來繪制熱力圖成像,從而達(dá)到檢測的目的。然而,此類方法無法對高溫類別進(jìn)行甄別和判斷,受檢測區(qū)域易受到高溫設(shè)備的干擾和影響而導(dǎo)致誤報(bào),虛警率高。紅外輻射與監(jiān)控距離增加成反比,距離越遠(yuǎn),成像越差。因此,此類裝置覆蓋傳感監(jiān)測范圍有限,極易出現(xiàn)漏報(bào)。
隨著計(jì)算機(jī)圖像處理技術(shù)不斷發(fā)展,基于圖像處理和識(shí)別的方法在逐步發(fā)展,通過成像的先驗(yàn)特征,如顏色[2]、紋理[3-4]、梯度[5]等因素進(jìn)行特征設(shè)計(jì),結(jié)合霍夫變換、卡爾曼濾波、梯度計(jì)算等方式實(shí)現(xiàn)對目標(biāo)區(qū)域的特征提取和判斷,但受限于人工設(shè)計(jì)算子的感官偏向性,此類算法易受到外部環(huán)境的干擾,魯棒性不強(qiáng)。近年來,隨著計(jì)算機(jī)性能的不斷提升,基于深度學(xué)習(xí)的圖像算法通過自適應(yīng)的特征信息抽取來實(shí)現(xiàn)對物體的識(shí)別與檢測,具備較好的魯棒性和廣泛的應(yīng)用性。
現(xiàn)有的深度學(xué)習(xí)目標(biāo)圖像檢測算法主要是通過多層堆疊的卷積層用以實(shí)現(xiàn)對圖像特征的抽取,本文使用YOLOv3[6](You Only Look Once version 3)檢測煙火圖像進(jìn)行實(shí)驗(yàn),由于煙火圖像的多變性和無規(guī)則性,該算法存在漏檢現(xiàn)象,檢測效果穩(wěn)定性不高。
針對此問題,本文提出一種基于自注意力特征的改進(jìn)YOLOv3煙火檢測算法,融合上下文信息的基礎(chǔ)上引入自注意力機(jī)制,引導(dǎo)模型關(guān)注關(guān)鍵性特征,以增強(qiáng)目標(biāo)檢測的性能和穩(wěn)定性。
隨著計(jì)算機(jī)的不斷發(fā)展和應(yīng)用,人工智能在無人駕駛、機(jī)器翻譯、語音識(shí)別等領(lǐng)域都有著廣泛的應(yīng)用。與傳統(tǒng)的機(jī)器學(xué)習(xí)算法相比,基于深度學(xué)習(xí)的人工智能算法有著更好的表現(xiàn)效果。2012年,Hinton團(tuán)隊(duì)在ILSVRC[7](ImageNet Large-Scale Visual Recognition Challenge)上采用神經(jīng)網(wǎng)絡(luò)并一舉奪得冠軍。2013年,Pierre Sermanet等人提出了OverFeat[8]算法,此算法兼顧了圖像分類,檢測,定位等多項(xiàng)任務(wù)。此后R-CNN[9]與YOLO[10]等系列算法提出,受到目標(biāo)檢測任務(wù)研究人員和眾多工程應(yīng)用人員的青睞。目標(biāo)檢測算法可分為基于區(qū)域候選的雙階段算法和基于目標(biāo)回歸的單階段算法,區(qū)域候選算法具有精度高,檢測速度慢的特點(diǎn),而目標(biāo)回歸算法檢測速度較快,但檢測精度較低。2016年,SSD[11]算法在二者之間找了較好的平衡點(diǎn),此后Mask-RCNN[12]和Retina-Net[13]等算法被相繼提出。
注意力機(jī)制一直都是計(jì)算機(jī)視覺中的一個(gè)研究熱點(diǎn),其想法來源于人的視覺行為特點(diǎn),20世紀(jì)90年代,研究者們發(fā)現(xiàn)人類在圖像觀察中,并非關(guān)注圖像的全部信息,而是重點(diǎn)關(guān)注感興趣的區(qū)域進(jìn)行特征提取和判斷。
2014年,Mnih等[14]在循環(huán)神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制實(shí)現(xiàn)圖像分類。隨后,D Bahdanau等[15]提出了將注意力機(jī)制引入自然語言機(jī)器翻譯任務(wù)中用于實(shí)現(xiàn)翻譯對齊。此后注意力機(jī)制在自然語言處理領(lǐng)域大放異彩,并不斷進(jìn)行改進(jìn)。2017年,Google團(tuán)隊(duì)Vaswani等[16]提出了,一種純注意力特征模塊的用于自然語言處理,并刷新多項(xiàng)記錄。隨后Vi T[17]等算法相繼被提出,基于自注意力的神經(jīng)網(wǎng)絡(luò)算法在圖像領(lǐng)域應(yīng)用廣泛。
注意力機(jī)制按照編碼方式可分為兩種:硬注意力機(jī)制和軟注意力機(jī)制。硬注意力方式采用one-hot編碼的方式進(jìn)行設(shè)定,在每一組待判定的特征編碼中采用概率最高的概率信息,有利于去除噪聲。硬編碼轉(zhuǎn)換不可微,模型整體優(yōu)化較難;軟注意力方式采用加權(quán)的方式將數(shù)據(jù)映射為0-1之間的概率。此種方式有利于模型的優(yōu)化,也可兼顧調(diào)節(jié)不同權(quán)重的信息預(yù)測[18-19]。
本文為了進(jìn)一步提升煙火檢測的精度,提出了一種基于YOLOv3的自注意力特征煙火檢測算法。該自注意力特征模塊,融合上下文信息,引導(dǎo)模型關(guān)注特征關(guān)鍵信息,提升檢測精度。本文提出一種基于YOLOv3的多尺度的自注意力煙火檢測算法,多尺度注意力特征檢測較好地實(shí)現(xiàn)對場景下的煙火監(jiān)控。
本數(shù)據(jù)集基于現(xiàn)實(shí)場景應(yīng)用的基礎(chǔ)上,收集了4 800張內(nèi)容包含有煙霧和火焰的數(shù)據(jù)圖像。如圖1所示,其中數(shù)據(jù)集的標(biāo)注格式采用Pascal VOC[20]進(jìn)行存儲(chǔ)。隨機(jī)選取4 500張圖像作為訓(xùn)練集,剩余圖像作為測試集進(jìn)行模型測試。
圖1 部分?jǐn)?shù)據(jù)集展示
圖像預(yù)處理部分主要包含有數(shù)據(jù)增廣策略,通過圖像處理的方式增加圖像數(shù)據(jù)的多樣,此種策略有利于增強(qiáng)模型的魯棒性。常見的增廣手段包含有旋轉(zhuǎn)、水平翻轉(zhuǎn)、明暗變換、增加噪聲等方式。本文采用旋轉(zhuǎn)、水平翻轉(zhuǎn)和對比度變換3種方式預(yù)處理圖像,如圖2所示。
面對國內(nèi)外食品安全面臨的緊迫形勢及國家食品安全戰(zhàn)略政策導(dǎo)向,培養(yǎng)高水平食品質(zhì)量與安全專業(yè)人才是國家和社會(huì)對高校人才培養(yǎng)的基本要求。在這樣的大背景下,課程團(tuán)隊(duì)對“食品安全控制技術(shù)”課程的內(nèi)容體系及教學(xué)模式進(jìn)行了積極的探索與實(shí)踐,構(gòu)建了以食品全產(chǎn)業(yè)鏈安全危害與控制措施為主線的課程內(nèi)容體系,提出了以案例教學(xué)、分組討論、理論教學(xué)及實(shí)驗(yàn)教學(xué)和實(shí)踐教學(xué)相結(jié)合、綜合考評為標(biāo)志的教學(xué)模式,且成效顯著。最后,結(jié)合近3年的教學(xué)實(shí)踐,提出了適應(yīng)性教材的迫切需要,以期提高“食品安全控制技術(shù)”課程教學(xué)的質(zhì)量與效果,培養(yǎng)出高水平的專業(yè)人才,為切實(shí)保障食品質(zhì)量與安全作出貢獻(xiàn)。
圖2 數(shù)據(jù)增強(qiáng)效果
原有的YOLOv3算法是通過卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)端到端的目標(biāo)回歸預(yù)測任務(wù)。其網(wǎng)絡(luò)結(jié)構(gòu)見2.3.2節(jié)所述。YOLOv3目標(biāo)檢測模型包含3個(gè)部分:主干網(wǎng)絡(luò)、融合層及預(yù)測層。YOLOv3算法采用darknet-53網(wǎng)絡(luò)模型作為模型的主干網(wǎng)絡(luò)提取原始圖像的目標(biāo)特征。通過通道合并的方式融合主干網(wǎng)絡(luò)中多尺度特征的信息,將特征輸入預(yù)測層進(jìn)行目標(biāo)邊界、類別和置信度的預(yù)測。
通道合并的方式實(shí)現(xiàn)多尺度特征的上下文信息融合,但無法捕捉特征圖內(nèi)部信息的差異性,其具體操作如圖3所示。圖中Fi表示高分辨率特征,F(xiàn)i+1表示低分辨率特征。Fi+1通過Fup(·)實(shí)現(xiàn)分辨率大小與Fi保持一致,采用維度疊加以實(shí)現(xiàn)特征信息實(shí)現(xiàn)融合。
圖3 通道融合示意圖
其中Fup(·)表示特征尺寸對齊,其表達(dá)式如式(1)所示。尺寸對齊的方式一般包含有轉(zhuǎn)置卷積、線性插值等方式,本文采用雙線性插值的方式。
式中:F為特征,C′,W′,H′分別為特征原有的通道、寬度、高度維度,W、H為特征的對齊后的尺寸。
2.3.1 自注意力機(jī)制
盡管YOLOv3算法利用基于通道合并的方式實(shí)現(xiàn)了多尺度信息的融合,但為了進(jìn)一步排除非關(guān)鍵信息的干擾,引導(dǎo)網(wǎng)絡(luò)聚焦于特征中的關(guān)鍵特征,本文引入注意力機(jī)制。其結(jié)構(gòu)如圖4所示。
圖4 自注意力機(jī)制結(jié)構(gòu)示意圖
在自注意力模塊中,其輸入為來自主干網(wǎng)絡(luò)的特征圖Fi和Fi+1,結(jié)構(gòu)分別為C×W×H和C′×W′×H′。其中,C、C′為特征通道數(shù),W、W′為特征圖寬度,H、H′為特征圖高度。一般來說,F(xiàn)i大于Fi+1特征分辨率,在模型的最后一層中,F(xiàn)i等于Fi+1特征分辨率,因此不需要Fi與Fi+1特征結(jié)構(gòu)對操作。自注意力模塊運(yùn)算的流程如下所示。
(1)將輸入特征Fi+1先后經(jīng)過Fup(·),F(xiàn)c-align的方式實(shí)現(xiàn)特征結(jié)構(gòu)的對齊,其中Fc-align采用1×1的卷積實(shí)現(xiàn)特征通道對齊,得到結(jié)構(gòu)為C×W×H特征圖FK。
(2)輸入特征Fi分別通過兩次3×3的卷積轉(zhuǎn)換為特征FV和F Q,特征的尺度大小保持不變。
(3)將步驟(1)中的FK特征與步驟(2)中的FQ逐元素相乘實(shí)現(xiàn)上下文信息的融合,經(jīng)過Bnorm實(shí)現(xiàn)對W×H維度標(biāo)準(zhǔn)化得到特征FT,Bnorm降低特征方差防止特征權(quán)重兩極化嚴(yán)重。其中Bnorm計(jì)算如式(2)所示:
式中:F為輸入特征矩陣;d為標(biāo)準(zhǔn)化的維度,值為W×H。
(4)將步驟(3)中得到的特征FT在W×H的維度上進(jìn)行softmax歸一化,與步驟(2)得到的F V進(jìn)行對應(yīng)元素相乘得到注意力特征FA,完成自注意力模塊的計(jì)算。
總體的自注意力模塊的計(jì)算如式(3)所示:
式中:*表式對應(yīng)元素相乘。
2.3.2 網(wǎng)絡(luò)結(jié)構(gòu)
改進(jìn)后模型仍然包含3個(gè)部分:主干網(wǎng)絡(luò),自注意力層及預(yù)測層,如5所示。主干網(wǎng)絡(luò)總體結(jié)構(gòu)借鑒了殘差神經(jīng)網(wǎng)絡(luò)的“short-cut”的思路,有利于梯度在深層網(wǎng)絡(luò)中的傳遞和模型的優(yōu)化,在運(yùn)算速度和表現(xiàn)精度上不遜色于Resnet101網(wǎng)絡(luò),后文也有對比,具備較好的實(shí)用性。其基本的結(jié)構(gòu)如表1所示。
表1 主干網(wǎng)絡(luò)結(jié)構(gòu)表
在主干網(wǎng)絡(luò)中,Conv_res_3、Conv_res_4、Conv_res_5位置輸出特征后嵌入自注意力模塊。融合上下文信息,通過自注意力模塊計(jì)算,輸出特征圖內(nèi)信息的差異性,使網(wǎng)絡(luò)優(yōu)化傾向于目標(biāo)關(guān)鍵特征的提取,提高模型的整體表現(xiàn)性能。
YOLOv3預(yù)測層在多尺度的注意力特征上進(jìn)行預(yù)測,通過包含了類別預(yù)測,目標(biāo)置信度預(yù)測和位置預(yù)測。其優(yōu)化目標(biāo)包含有3個(gè)方面,如式(4)所示:
式中:l為總損失;lbbox為位置損失;lclass為分類損失;lconf為置信度損失。
圖5 模型對比
其中類別預(yù)測采用Sigmoid結(jié)合交叉熵?fù)p失函數(shù)實(shí)現(xiàn)多類別的預(yù)測,其分類損失計(jì)算如式(5)所示:
式中:lclass為分類損失;為預(yù)測類別;ci為真實(shí)類別;如果在i,j表示位置坐標(biāo)處有物體則為1,反之則為0;pc為置信度概率;BC E為二分類用的交叉熵?fù)p失,N為劃分網(wǎng)格的數(shù)量。
位置損失通過計(jì)算預(yù)測框和真實(shí)框之間的偏移量得出。本次采用平方差的形式予以計(jì)算,如式(6)所示:
式中:lbbox為位置損失,i,j為位置坐標(biāo),xi為真實(shí)框中心行坐標(biāo);yi為真實(shí)框中心縱坐標(biāo);wi為真實(shí)框的寬度;h i為真實(shí)框的高度;為預(yù)測框中心行坐標(biāo);為預(yù)測框中心縱坐標(biāo);為預(yù)測框的長度;為預(yù)測框的寬度。λcoord為位置損失系數(shù),一般設(shè)置為1。
目標(biāo)置信度為錯(cuò)誤預(yù)測目標(biāo)的概率之差,其總體的損失計(jì)算如式(7)所示:
式中:λnoobj為置信度損失系數(shù);表示在i,j坐標(biāo)處沒有物體為1,反之為0;pc為預(yù)測的置信度概率;N為劃分網(wǎng)格的數(shù)量。
YOLOv3與基于YOLOv3的自注意力網(wǎng)絡(luò)算法的對比如圖6所示。經(jīng)過80 000次的迭代訓(xùn)練。模型基本處于穩(wěn)定且收斂的狀態(tài)。
圖6 訓(xùn)練損失與迭代次數(shù)
本文在測試集上驗(yàn)證算法,基于YOLOv3的目標(biāo)檢測算法在準(zhǔn)確率和召回率上都取得一定提升。其對比如表2,基于YOLOv3的模型在測試集上的準(zhǔn)確率達(dá)到了92.1%,召回率達(dá)到了90.5%。
表2 準(zhǔn)確率和召回率對比
為了進(jìn)一步提升精度,本文嘗試將主干網(wǎng)絡(luò)替換為Resnet101網(wǎng)絡(luò)。為方便對比,本文在Resnet101中也采用后3個(gè)殘差塊輸出特征作為注意力模型的輸入,如表3所示?;赗esnet101的YOLOv3方法在準(zhǔn)確率上與YOLOv3算法相當(dāng)。基于YOLOv3自注意力網(wǎng)絡(luò)在不同的主干網(wǎng)絡(luò)中仍然具有較好的表現(xiàn)。
表3 主干網(wǎng)絡(luò)方法的精度對比
本文在基于YOLOV3的目標(biāo)檢測算法上引入自注意力機(jī)制,用于煙火圖像檢測,其效果如圖7所示,檢測效果較好。
圖7 煙火檢測效果展示
本文提出了一種基于YOLOv3的自注意力煙火檢測算法,通過融合模型上下文信息,引入自注意力模塊,引導(dǎo)模型自適應(yīng)學(xué)習(xí),提取關(guān)鍵的特征信息,從而有效地提升了模型的特征表達(dá)和檢測精度。本文還通過不同模型方法的結(jié)果對比發(fā)現(xiàn)此結(jié)構(gòu)同樣有效。然而,盡管如此,研究中也發(fā)現(xiàn),采用矩形框的目標(biāo)檢測標(biāo)注框在非剛性物體的檢測中具備較大的難度和缺點(diǎn),矩形框無法較好地框住形態(tài)多變的目標(biāo)。因此,在今后的研究中,一方面將繼續(xù)研究自注意力機(jī)制在神經(jīng)網(wǎng)絡(luò)算法中的深層次擴(kuò)展和應(yīng)用,另一方面,也將探索目標(biāo)標(biāo)記檢測框的設(shè)計(jì)和改進(jìn)方式,以方便更好地實(shí)現(xiàn)對目標(biāo)的檢測,提升模型的表現(xiàn)性能。