基于MaskR-CNN的水面漂浮物識(shí)別方法研究

2021-12-09 00:11:36劉偉王源楠江山馬天肖維

人民長(zhǎng)江 2021年11期

劉偉　王源楠　江山　馬天　肖維　

摘要：為及時(shí)發(fā)現(xiàn)并處理水面漂浮物，提高河湖監(jiān)管水平，提出了一種基于Mask R-CNN模型的水面漂浮物識(shí)別方法。設(shè)計(jì)了一套漂浮物標(biāo)簽分類規(guī)則，建立起河湖領(lǐng)域真實(shí)數(shù)據(jù)樣本集，然后構(gòu)建以抓圖服務(wù)、AI分析和預(yù)警平臺(tái)為核心模塊的水面漂浮物識(shí)別方案。對(duì)比研究了基于Mask R-CNN模型與基于HOG特征的漂浮物識(shí)別方法，并采用不同特征提取網(wǎng)絡(luò)進(jìn)行試驗(yàn)。結(jié)果表明：所提出的方法顯著優(yōu)于傳統(tǒng)的HOG特征方法，平均準(zhǔn)確率提高16%，平均召回率提高13.8%;且基于ResNet的方法對(duì)于不規(guī)則漂浮物的識(shí)別能力更強(qiáng)。新方法成功應(yīng)用于河湖監(jiān)管系統(tǒng)，對(duì)常見(jiàn)目標(biāo)的識(shí)別準(zhǔn)確率達(dá)90%以上。

關(guān)鍵詞：水面漂浮物識(shí)別; Mask R-CNN; 深度學(xué)習(xí); ResNet

中圖法分類號(hào)： TP391

文獻(xiàn)標(biāo)志碼： A

DOI：10.16232/j.cnki.1001-4179.2021.11.037

0引言

隨著社會(huì)經(jīng)濟(jì)的發(fā)展，人們的生活越來(lái)越便捷，但環(huán)境保護(hù)意識(shí)還相對(duì)較弱。水環(huán)境作為人類賴以生存的重要保障也遭到破壞，突出表現(xiàn)在水面垃圾等漂浮物成為屢見(jiàn)不鮮的現(xiàn)象。水面漂浮物不僅影響美觀，更導(dǎo)致水污染、魚(yú)類死亡等各類問(wèn)題，相關(guān)管理部門(mén)對(duì)其也越來(lái)越重視，及時(shí)發(fā)現(xiàn)并處理水面的垃圾漂浮物成為一項(xiàng)任務(wù)。依靠人工巡查來(lái)發(fā)現(xiàn)漂浮物的效率極低，迫切需要智能技術(shù)及時(shí)發(fā)現(xiàn)并預(yù)警。此外，隨著“金山銀山就是綠水青山”論斷的提出，政府部門(mén)也逐步提高了對(duì)水環(huán)境治理的認(rèn)識(shí)，水利部在智慧水利總體方案中也提出了利用智能視頻分析技術(shù)發(fā)現(xiàn)和識(shí)別水面漂浮物的技術(shù)路線。

在視頻監(jiān)控方面，隨著?？?、大華等國(guó)內(nèi)廠商持續(xù)加大研發(fā)，視頻監(jiān)控技術(shù)取得了長(zhǎng)足的發(fā)展。視頻攝像頭的分辨率可以達(dá)到500萬(wàn)像素（4K標(biāo)準(zhǔn)），云臺(tái)控制、視頻傳輸、視頻集成的技術(shù)也十分成熟，價(jià)格較為親民。目前水利及相關(guān)行業(yè)在河道、湖泊、水庫(kù)、渠道等附近已經(jīng)建設(shè)了大量的攝像頭，為分析水面垃圾漂浮提供了數(shù)據(jù)支撐。另外，深度學(xué)習(xí)算法給目標(biāo)檢測(cè)技術(shù)帶來(lái)了劃時(shí)代的進(jìn)步，相對(duì)于傳統(tǒng)的背景差分、光流法等技術(shù)取得了顯著的進(jìn)步，給水面垃圾漂浮物識(shí)別提供了技術(shù)支撐。

1研究現(xiàn)狀

傳統(tǒng)目標(biāo)檢測(cè)算法一般基于圖像特征和級(jí)聯(lián)分類的算法，在運(yùn)動(dòng)目標(biāo)檢測(cè)方面，有背景差分法、幀差法、光流法等。Navneet等首次提出以計(jì)算和統(tǒng)計(jì)圖像局部區(qū)域的梯度方向直方圖作為圖像特征，即HOG特征[1]，此方法作為經(jīng)典的人工設(shè)計(jì)特征而廣泛運(yùn)用于圖像檢測(cè)領(lǐng)域[2]。王敏等[3]針對(duì)靜態(tài)水面的特性，提出了一種水上物體檢測(cè)分割算法，以水面具有較低飽和度的特征對(duì)水面區(qū)域進(jìn)行提取，在此基礎(chǔ)上運(yùn)用浮雕處理凸顯水面區(qū)域的邊緣灰度，利用區(qū)域一致性進(jìn)行邊緣檢測(cè)分割出水面和水上物體，最后提取出目標(biāo)物體的中心位置。但其不足也很明顯，由于采用的圖像相對(duì)簡(jiǎn)單，對(duì)于噪聲污染以及水面存在波浪、陽(yáng)光反射等問(wèn)題時(shí)表現(xiàn)不穩(wěn)定。

基于深度學(xué)習(xí)的檢測(cè)算法對(duì)圖像噪聲表現(xiàn)出了較強(qiáng)的魯棒性，主要分為兩類：二階段的目標(biāo)檢測(cè)算法和一階段的目標(biāo)檢測(cè)算法。前者是先由算法生成一系列作為樣本的候選框，再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本分類;后者則不用產(chǎn)生候選框，直接將目標(biāo)邊框定位的問(wèn)題轉(zhuǎn)化為回歸問(wèn)題處理。正是由于兩種方法的差異，在性能上也有不同，前者在檢測(cè)準(zhǔn)確率和定位精度上占優(yōu)，后者在算法速度上占優(yōu)。二階段算法的代表就是FasterR-CNN[4]，MaskR-CNN[5]，一階段的算法的代表有SSD[6]、YOLOv1-v4[7-10]系列。

具體到水面漂浮物識(shí)別研究，國(guó)內(nèi)外對(duì)此研究不多。國(guó)外因?yàn)槿丝诿芏鹊?、水環(huán)境保護(hù)較好，這方面需求不多。國(guó)內(nèi)有相關(guān)的一些研究，但總體偏少，主要原因是對(duì)水面漂浮物素材的采集十分不易，需到野外長(zhǎng)期觀察和收集，耗費(fèi)人力物力和時(shí)間較多。

李寧等[11]以塑料袋和塑料瓶為素材，訓(xùn)練AlexNet網(wǎng)絡(luò)結(jié)構(gòu)，利用梯度下降法對(duì)網(wǎng)絡(luò)進(jìn)行了微調(diào)，并融合光照矯正法對(duì)待識(shí)別圖像進(jìn)行預(yù)處理，最終對(duì)水面漂浮物的識(shí)別準(zhǔn)確率比基于HOG特征的方法提高了15%。李昌龍[12]以接入一個(gè)攝像機(jī)的圖像為素材，基于R-CNN網(wǎng)絡(luò)進(jìn)行網(wǎng)絡(luò)訓(xùn)練，采用直方圖均衡化與對(duì)數(shù)變換對(duì)圖像進(jìn)行預(yù)處理，并提出了智能識(shí)別流程，在其測(cè)試集上達(dá)到了96%的準(zhǔn)確率。鄧?yán)诘萚13]為垃圾打撈設(shè)備提供視覺(jué)支持，采用了slic方法對(duì)圖像進(jìn)行預(yù)處理，然后提取邊緣、紋理、灰度特征，利用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練，在實(shí)踐中取得較好的識(shí)別效果。雷李義等[14]以自己拍攝的廣西大學(xué)湖面垃圾照片為素材，提出了一個(gè)關(guān)于水面漂浮物的小型數(shù)據(jù)集，并分析了幾種目標(biāo)檢測(cè)模型在數(shù)據(jù)集上的表現(xiàn)，F(xiàn)aster R-CNN，R-FCN和SSD。SSD目標(biāo)檢測(cè)模型有著更高的精確度，F(xiàn)aster R-CNN 模型則能給出更詳細(xì)的預(yù)測(cè)，而同時(shí)擁有豐富結(jié)構(gòu)特征和相當(dāng)深度特征的模型對(duì)于困難目標(biāo)有著更好的表現(xiàn)。Zhang等[15]基于Faster R-CNN將模型劃分為兩個(gè)模塊，分別融合低層和高層特征，在13FPS的速度下，MAP達(dá)到83.7%。

綜上所述，由于水面漂浮物的識(shí)別對(duì)準(zhǔn)確率和定位精度要求較高，本文采用二階段的算法。

2方法理論

2.1數(shù)據(jù)集

近幾年隨著深度學(xué)習(xí)的飛速發(fā)展，神經(jīng)網(wǎng)絡(luò)的層數(shù)不斷增加。相較于傳統(tǒng)模型，深度學(xué)習(xí)模型的表達(dá)能力越來(lái)越強(qiáng)，但同時(shí)也越容易犧牲對(duì)未知數(shù)據(jù)的泛化能力，而專注于解釋或記憶訓(xùn)練數(shù)據(jù)，也就是出現(xiàn)所謂的過(guò)擬合現(xiàn)象。彌補(bǔ)這一缺陷的有效手段之一就是采用高質(zhì)量、大規(guī)模的數(shù)據(jù)集進(jìn)行訓(xùn)練。

本文從湖北省荊州市、武漢市江夏區(qū)、重慶市石柱縣等真實(shí)監(jiān)控場(chǎng)景中，抓拍河流、湖泊的照片，篩選出包含漂浮物的圖片12 782張，整理成數(shù)據(jù)集。大型公開(kāi)數(shù)據(jù)集ImageNet在組織1 400萬(wàn)圖片時(shí)，采用27個(gè)大類，21 841個(gè)小類[16]。李寧等[11]整理數(shù)據(jù)集僅包含常見(jiàn)的塑料袋和塑料瓶?jī)深?，雷李義等[14]則主要對(duì)水面及岸邊植物細(xì)分為四小類。結(jié)合通用數(shù)據(jù)集分類方法及水面漂浮物的常見(jiàn)類型，并兼顧后續(xù)新數(shù)據(jù)的不斷并入，本文按兩級(jí)標(biāo)簽對(duì)漂浮物類別進(jìn)行分類，如表1所列。

本數(shù)據(jù)集共分成20大類，42小類，大類表示范圍包含了小類。由于人、車、船等目標(biāo)在河湖監(jiān)控視頻中經(jīng)常出現(xiàn)，為了更有效地訓(xùn)練模型，把這些目標(biāo)也納入到漂浮物分類表中，并且進(jìn)行單獨(dú)分類。大類對(duì)應(yīng)一級(jí)標(biāo)簽，小類對(duì)應(yīng)二級(jí)標(biāo)簽。一級(jí)標(biāo)簽按照漂浮物對(duì)象劃分，二級(jí)按照材質(zhì)來(lái)區(qū)分，沒(méi)有材質(zhì)區(qū)分的一級(jí)，不細(xì)分二級(jí)，二級(jí)標(biāo)簽同一級(jí)標(biāo)簽。部分漂浮物由于數(shù)量太少，或者不典型，統(tǒng)一劃分到“其他”中。隨著漂浮服務(wù)數(shù)據(jù)量的積累，不屬于以上分類的漂浮物，統(tǒng)一放到其他中，當(dāng)“其他”類別中某一類漂浮物的數(shù)量達(dá)到100個(gè)，則考慮增加標(biāo)簽類別。如果能劃分到表1中的一級(jí)標(biāo)簽下，則給該類別新增一個(gè)二級(jí)標(biāo)簽。如果無(wú)法劃分到一級(jí)標(biāo)簽下，則新增一級(jí)標(biāo)簽，標(biāo)簽序號(hào)在“42”之后繼續(xù)排序，這樣不改變之前已有的標(biāo)簽序號(hào)，可以不用修改標(biāo)注直接兼容新類別，一起參與訓(xùn)練，便于模型識(shí)別能力的不斷擴(kuò)充。

對(duì)于收集到的圖片，統(tǒng)一進(jìn)行白化、降噪，盡可能提高圖片質(zhì)量。本文使用開(kāi)源的標(biāo)注工具CVAT對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注，標(biāo)簽采用“一級(jí)標(biāo)簽_二級(jí)標(biāo)簽“的組合形式，標(biāo)注示例如圖1所示。

標(biāo)注策略采用“人工+模型”預(yù)標(biāo)注方式，前期以人工標(biāo)注為主，標(biāo)注一定量的數(shù)據(jù)之后，開(kāi)始訓(xùn)練模型，使模型具備一定的識(shí)別能力，然后轉(zhuǎn)為以模型標(biāo)注為主，人工標(biāo)注為輔，數(shù)據(jù)集中的圖片樣本均先使用模型進(jìn)行預(yù)標(biāo)注，然后進(jìn)行人工的確認(rèn)。以此節(jié)約人工耗時(shí)，提高標(biāo)注效率。

2.2網(wǎng)絡(luò)模型

Mask R-CNN[5]是Facebook AI Research（FAIR）于2018年提出的，繼承了之前所有R-CNN系列網(wǎng)絡(luò)的優(yōu)點(diǎn)，并在Faster R-CNN[4]的基礎(chǔ)上加入了語(yǔ)義分割功能。相比傳統(tǒng)網(wǎng)絡(luò)VGG16[17]，MaskR-CNN使用了ResNet[18]基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)，使其能在更深的網(wǎng)絡(luò)層里提取有效的特征，所以提升了識(shí)別不規(guī)則或者是傳統(tǒng)網(wǎng)絡(luò)難以擬合的物體特征的概率。并且因?yàn)檎Z(yǔ)義分割功能提取的是ROI網(wǎng)絡(luò)卷積層的結(jié)果，加以拓展得到物體輪廓，所以在計(jì)算效率上與FasterR-CNN保持幾乎不變。網(wǎng)絡(luò)流程大概可分為4步，如圖2所示。

首先，圖片經(jīng)過(guò)預(yù)處理，將長(zhǎng)或?qū)挻笥? 333像素的圖片按比例縮放，并使之縮放結(jié)果可以整除26，以確保在網(wǎng)絡(luò)結(jié)構(gòu)中經(jīng)過(guò)多次池化后保持整數(shù)。同時(shí)將小于分辨率的圖片各個(gè)顏色信道不足之處用像素0填充。并通過(guò)顏色正規(guī)化處理，然后，放入訓(xùn)練網(wǎng)絡(luò)進(jìn)行運(yùn)算。為了加快訓(xùn)練擬合速度，在不超過(guò)顯存容量的前提下盡量加大每次放入模型的圖片數(shù)量，將處理好的圖片集依照預(yù)設(shè)好的批量（batchsize）打包導(dǎo)入顯存。

圖2顯示卷積層（conv layers）為可變的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。以常用的50層ResNet為例將圖片集以[批量，通道（channel），長(zhǎng)，寬]4維數(shù)組形式傳入網(wǎng)絡(luò)，先經(jīng)過(guò)一個(gè)步長(zhǎng)（Stride）為2，7*7*64的卷積層和一個(gè)步長(zhǎng)為2，3*3的池化層，將信道維度從3擴(kuò)張到64，并將像素長(zhǎng)寬壓縮到之前的1/4。再讓其進(jìn)行49組處理，每一組為一次卷積、池化、激活函數(shù)操作，將特征寬度提升到最大1 024。然后按照ResNet預(yù)設(shè)，提取其第10，22，40，49層特征值，經(jīng)過(guò)上采樣處理得到關(guān)聯(lián)性更高的5層特征，最后通過(guò)3*3*256的卷積層消除上采樣的混疊效應(yīng)，得到最終特征圖集，在圖中顯示為特征圖（featuremaps）。

在區(qū)域生成網(wǎng)絡(luò)（Region Proposal Network）中，要通過(guò)上文生成的特征圖，并結(jié)合預(yù)設(shè)錨點(diǎn)（Anchor）得到目標(biāo)物體的大概區(qū)域框，如圖3所示。

創(chuàng)建預(yù)設(shè)錨點(diǎn)時(shí)，根據(jù)目標(biāo)物體尺寸，在預(yù)設(shè)參數(shù)中設(shè)定預(yù)設(shè)框大小（32，64，128，256，512），每一個(gè)預(yù)設(shè)框有3個(gè)尺寸比例（2∶1，1∶1，1∶2），所以每個(gè)位置產(chǎn)生15個(gè)預(yù)設(shè)框。在區(qū)域生成網(wǎng)絡(luò)階段，首先特征圖通過(guò)1個(gè)3*3的卷積和兩個(gè)1*1的卷積，得到1個(gè)數(shù)量為2*15（長(zhǎng)*寬）的特征圖和一個(gè)數(shù)量為4*15（長(zhǎng)*寬）的特征圖。其中第一個(gè)特征圖為每個(gè)前景預(yù)設(shè)框與背景預(yù)設(shè)框的概率，并按照前景與背景1∶4的比例保留背景數(shù)量，第二個(gè)特征圖為每個(gè)預(yù)設(shè)框的左上頂點(diǎn)坐標(biāo)和預(yù)設(shè)框的長(zhǎng)寬邊長(zhǎng)度與真實(shí)框的差值。

運(yùn)用上文中得到的前景框與在第一步得到的特征圖裁剪出大小不等的小特征圖，在感興趣區(qū)域池化（Region of Interest pooling）中使用RoI Align，為每一個(gè)可能的目標(biāo)物體輸出14*14*256大小的特征圖。裁剪之后，用2*2大小的最大池化來(lái)獲得最終的7*7*256特征圖。每個(gè)特征圖通過(guò)線性全連接層輸出目標(biāo)種類和目標(biāo)種類長(zhǎng)度*4的邊界框（Bounding-box）。在Faster R-CNN訓(xùn)練階段，計(jì)算真實(shí)框坐標(biāo)與輸出邊界框坐標(biāo)的距離差，得出Lbox和真實(shí)類別與輸出類別的概率差Lcls，以此反向傳播改進(jìn)網(wǎng)絡(luò)。

2.3應(yīng)用方案

本文構(gòu)建以AI分析服務(wù)為核心，以數(shù)據(jù)為支撐，以預(yù)警平臺(tái)為重點(diǎn)的分布式監(jiān)控方案，核心業(yè)務(wù)邏輯流程圖如圖5所示。

（1）抓圖服務(wù)-數(shù)據(jù)。

抓圖服務(wù)模塊為整個(gè)流程提供數(shù)據(jù)來(lái)源。該模塊基于開(kāi)源的輕量級(jí)框架SpringBoot開(kāi)發(fā)，自動(dòng)采集圖像數(shù)據(jù)，適配多家硬件廠商以及流媒體數(shù)據(jù)，動(dòng)態(tài)配置頻率、時(shí)段，拓展性強(qiáng)，具體如圖6所示。

（2）數(shù)據(jù)庫(kù)-存儲(chǔ)。

抓圖服務(wù)獲取的數(shù)據(jù)存儲(chǔ)于分布式文件存儲(chǔ)系統(tǒng)MongoDB，并通過(guò)GridFS來(lái)處理大文件的存儲(chǔ)。直接將圖片這種大文件存儲(chǔ)于數(shù)據(jù)庫(kù)十分有利于大量圖片文件的復(fù)制、刪除以及備份。同時(shí)由于其分片式存儲(chǔ)機(jī)制，實(shí)現(xiàn)分布式存儲(chǔ)的操作簡(jiǎn)單，拓展性強(qiáng)，安全性高。

（3）中間件-通信。

存儲(chǔ)模塊、展示模塊與AI模塊的通信均采用消息中間件RabbitMQ進(jìn)行，其在整個(gè)分析流程中存儲(chǔ)、轉(zhuǎn)發(fā)消息，可用性高、拓展性強(qiáng)。

（4） AI-分析。

AI分析模塊以Mask R-CNN為核心算法模型，集成FackBook的開(kāi)源框架Detectron 2，實(shí)現(xiàn)對(duì)數(shù)據(jù)的實(shí)時(shí)推理與分析。

（5）預(yù)警平臺(tái)-展示。

預(yù)警平臺(tái)（WEB端）串接整個(gè)系統(tǒng)的各個(gè)模塊，從用戶在WEB端提交定期或即時(shí)的分析請(qǐng)求，請(qǐng)求進(jìn)入到RabbitMQ消息隊(duì)列，然后轉(zhuǎn)發(fā)至AI分析模塊。收到分析請(qǐng)求后，AI分析模塊從存儲(chǔ)模塊提取MongoDB Grid FS文件進(jìn)行智能分析，并將結(jié)果再次推送至Rabbit MQ消息隊(duì)列，最終WEB端收到AI分析模塊的分析結(jié)果，并進(jìn)行展示和統(tǒng)計(jì)，同時(shí)即刻發(fā)送預(yù)警信息至相關(guān)工作人員的操作終端。

整個(gè)監(jiān)控方案實(shí)現(xiàn)全流程自動(dòng)化采集、存儲(chǔ)、分析、展示和推送，極大地提高對(duì)監(jiān)控區(qū)域的監(jiān)管質(zhì)量和效率。

3試驗(yàn)

3.1試驗(yàn)環(huán)境及參數(shù)

本文的模型訓(xùn)練及測(cè)試均在Detectron 2平臺(tái)上進(jìn)行。Detectron 2是繼Detectron目標(biāo)檢測(cè)平臺(tái)之后，F(xiàn)AIR（Facebook AI Research）開(kāi)發(fā)的下一代目標(biāo)目標(biāo)檢測(cè)和分割研究的平臺(tái)。它基于Pytorch框架，以Mask R-CNN基準(zhǔn)測(cè)試作為起點(diǎn)，集成了最先進(jìn)的目標(biāo)檢測(cè)算法。服務(wù)器安裝Ubuntu 18.04系統(tǒng)，并配備了一張NVIDIA Tesla V100顯卡。結(jié)合漂浮物目標(biāo)特點(diǎn)，設(shè)置Mask RCNN模型預(yù)設(shè)參數(shù)如下：

綜合考慮服務(wù)器性能，選擇超參數(shù)為：batch size，8;iteration，49 999;learning rate，0.000 25。

3.2評(píng)估標(biāo)準(zhǔn)

本文評(píng)估標(biāo)準(zhǔn)采用目前主流的目標(biāo)檢測(cè)評(píng)價(jià)方法，即準(zhǔn)確率和召回率。在計(jì)算這兩項(xiàng)指標(biāo)時(shí)，以IoU=0.5作為基本閾值。

（1） IoU。

以IoU作為衡量預(yù)測(cè)目標(biāo)的位置偏差指標(biāo)，當(dāng)識(shí)別出的類別正確且IoU達(dá)到規(guī)定的閾值，則表明該識(shí)別結(jié)果正確。IoU的定義如下：

IoU=P∩GP∪G（5）

式中：P表示預(yù)測(cè)樣本面積，G表示真實(shí)樣本面積，P∩G表示預(yù)測(cè)樣本與真實(shí)樣本的重疊面積，P∪G表示預(yù)測(cè)樣本與真實(shí)樣本原始樣本的并集面積。

傳統(tǒng)目標(biāo)檢測(cè)以及深度學(xué)習(xí)目標(biāo)檢測(cè)算法在計(jì)算IoU時(shí)，均只能從box的層面進(jìn)行計(jì)算，不可避免地引入背景誤差，而Mask R-CNN是從像素層面計(jì)算，去除了計(jì)算IoU時(shí)的背景誤差，尤其當(dāng)水面漂浮物的形狀極不規(guī)則時(shí)，對(duì)模型的識(shí)別效果評(píng)價(jià)更加準(zhǔn)確。

（2）準(zhǔn)確率。

數(shù)據(jù)集中的水面漂浮物，一類是獨(dú)立存在的單個(gè)漂浮物，比如塑料瓶、塑料袋、魚(yú)等等，另一類是以水葫蘆為代表的聚集成一團(tuán)的漂浮物，為統(tǒng)一評(píng)價(jià)標(biāo)準(zhǔn)，把成團(tuán)的水葫蘆當(dāng)作一個(gè)水葫蘆對(duì)象來(lái)處理。針對(duì)預(yù)測(cè)結(jié)果，統(tǒng)計(jì)準(zhǔn)確識(shí)別漂浮物的數(shù)量與識(shí)別出的漂浮物總數(shù)量之比，稱為識(shí)別準(zhǔn)確率，定義如下：

P=TPTP+FP（6）

式中：TP即True Positive，表示正樣本被正確識(shí)別為正樣本的數(shù)量，F(xiàn)P即False Positive，表示負(fù)樣本被錯(cuò)誤識(shí)別正樣本的數(shù)量。TP與FP之和，表示所有被識(shí)別為正樣本的數(shù)量，在本文中則表示識(shí)別出的漂浮物總數(shù)量。

（3）召回率。

準(zhǔn)確率是針對(duì)預(yù)測(cè)結(jié)果而言的性能指標(biāo)，召回率則是針對(duì)原始樣本而言，它表示的是原始樣本中正樣本被正確識(shí)別的比例，定義如下：

R=TPTP+FN（7）

式中：FN即False Negative，表示正樣本被錯(cuò)誤識(shí)別為負(fù)樣本的數(shù)量，TP+FN即表示原始樣本中所有的正樣本數(shù)量，在本文中則表示漂浮物的總數(shù)量。

3.3試驗(yàn)結(jié)果及分析

由于漂浮物數(shù)量分布極不均勻，本文以水面漂浮物中常見(jiàn)的水葫蘆、塑料袋、塑料瓶和魚(yú)為例，從訓(xùn)練樣本數(shù)量、特征提取模型等方面對(duì)Mask RCNN在水面漂浮物場(chǎng)景下的識(shí)別性能進(jìn)行研究。訓(xùn)練集、驗(yàn)證集、測(cè)試集按照8∶1∶1的數(shù)量比例進(jìn)行劃分，在訓(xùn)練集和驗(yàn)證集上調(diào)試出最佳訓(xùn)練參數(shù)后，把所有訓(xùn)練集和驗(yàn)證集的樣本共同作為訓(xùn)練集，以最佳參數(shù)進(jìn)行訓(xùn)練，得到最終的模型，在測(cè)試集上測(cè)試模型性能。

3.3.1樣本數(shù)量

水葫蘆數(shù)據(jù)集一共有2 683個(gè)樣本，預(yù)留10%的樣本作為測(cè)試集，即268個(gè)，在剩余的樣本中隨機(jī)抽取不同數(shù)量的樣本作為訓(xùn)練集和驗(yàn)證集。不同訓(xùn)練樣本總量下，模型性能如圖7所示。

從圖7可以看出：隨著樣本數(shù)量的增加，Mask R-CNN對(duì)水葫蘆的識(shí)別準(zhǔn)確率和召回率顯著增加，當(dāng)水葫蘆的數(shù)量達(dá)到2500左右時(shí)，模型的識(shí)別準(zhǔn)確達(dá)到96.5%，召回率達(dá)到86.2%。但數(shù)量達(dá)到一定程度后，準(zhǔn)確率和召回率的增張速度逐漸放緩。

3.3.2對(duì)比試驗(yàn)

分別以塑料瓶、魚(yú)、塑料袋和水葫蘆數(shù)據(jù)集為對(duì)象，對(duì)比測(cè)試基于HOG特征的傳統(tǒng)目標(biāo)檢測(cè)方法與Mask RCNN模型的性能，如表2所列。所有輸入圖像在輸入模型之前均只做縮放和歸一化處理，不做其他任何預(yù)處理操作。

從試驗(yàn)結(jié)果中可以清晰地看到：Mask R-CNN模型在準(zhǔn)確率和召回率上的均顯著由于傳統(tǒng)基于HOG特征的目標(biāo)檢測(cè)方法，其中平均準(zhǔn)確率提高16.0%，平均召回率提高13.8%。

基于HOG這一類手工設(shè)計(jì)的特征模式進(jìn)行目標(biāo)檢測(cè)的傳統(tǒng)漂浮物識(shí)別方法由于對(duì)圖像噪聲極為敏感，而真實(shí)河湖領(lǐng)域的圖像素材又復(fù)雜多樣，不僅場(chǎng)景豐富，而且由于圖像采集設(shè)備的不同，質(zhì)量差別較大，因此性能不佳。Mask R-CNN基于神經(jīng)網(wǎng)絡(luò)的特征提取方法能從數(shù)據(jù)集中學(xué)習(xí)并找到目標(biāo)更本質(zhì)的特征，識(shí)別準(zhǔn)確率和召回率顯著高于傳統(tǒng)方法。

3.3.3特征提取網(wǎng)絡(luò)

相比于基礎(chǔ)的特征提取網(wǎng)絡(luò)VGG16，Mask R-CNN采用ResNet結(jié)構(gòu)作為特征提取網(wǎng)絡(luò)，試驗(yàn)對(duì)比研究了分別采用VGG16、ResNet50和ResNet101作為Mask R-CNN的特征提取網(wǎng)絡(luò)時(shí)模型對(duì)塑料瓶、魚(yú)、塑料袋與水葫蘆的識(shí)別性能，如圖8所示。

從圖8可以看出：以ResNet 50為特征提取模型時(shí)，Mask R-CNN對(duì)4種常見(jiàn)的水面垃圾漂浮物的識(shí)別準(zhǔn)確率顯著高于VGG16，平均高出3.3%，而ResNet101性能更加優(yōu)異，平均高出ResNet 50網(wǎng)絡(luò)1.5%。由此可見(jiàn)，ResNet的特征提取能力顯著強(qiáng)于VGG16，而且層數(shù)越多，提取能力越強(qiáng)。

詳細(xì)對(duì)比4種類別的性能，可以發(fā)現(xiàn)不論是ResNet系列還是VGG16，對(duì)于塑料瓶和魚(yú)的識(shí)別準(zhǔn)確率均高于塑料袋和水葫蘆。塑料瓶和魚(yú)的形態(tài)特征相對(duì)固定，而塑料袋和水葫蘆的形態(tài)更加不規(guī)則，這對(duì)網(wǎng)絡(luò)擬合能力的挑戰(zhàn)更大。

ResNet 50相比于VGG16對(duì)塑料瓶和魚(yú)的準(zhǔn)確率平均提升2個(gè)百分點(diǎn)，而對(duì)塑料袋和水葫蘆的準(zhǔn)確率提升明顯，達(dá)到平均4.5%，ResNet 101則分別提升了3.1%和6.45%。不難發(fā)現(xiàn)，對(duì)于形態(tài)不規(guī)則的物體，ResNet的擬合效果更佳。

3.4應(yīng)用效果

本文構(gòu)建的深度學(xué)習(xí)預(yù)警方案已成功運(yùn)用于某區(qū)河流監(jiān)控系統(tǒng)。系統(tǒng)總計(jì)接入攝像頭30個(gè)，預(yù)置位100個(gè)，覆蓋區(qū)內(nèi)的主要河流、湖泊和閘口，監(jiān)控面積總計(jì)約25 km2，24 h不間斷進(jìn)行自動(dòng)監(jiān)控。設(shè)置模型識(shí)別置信度閾值t=0.5，IoU閾值i=0.5，即當(dāng)模型識(shí)別目標(biāo)的置信度和重疊率同時(shí)超過(guò)0.5時(shí)，才判定為識(shí)別出漂浮物。

2020年第三季度初的預(yù)警信息統(tǒng)計(jì)如圖9所示，預(yù)警類型及數(shù)量分布如圖10所示，預(yù)警類型僅列出數(shù)量較多的類型。

經(jīng)清漂工作人員抽樣驗(yàn)證，船、工程車和人這3類目標(biāo)平均識(shí)別準(zhǔn)確率高達(dá)95%，水葫蘆、塑料袋以及樹(shù)葉的平均識(shí)別準(zhǔn)確率達(dá)到90%。實(shí)際應(yīng)用性能雖略低于試驗(yàn)結(jié)果，但仍然能達(dá)到較高水平，顯著地提高了清漂工作效率。

4結(jié) 論

基于深度學(xué)習(xí)的相關(guān)技術(shù)現(xiàn)階段處于井噴發(fā)展?fàn)顟B(tài)，大量成熟的目標(biāo)檢測(cè)、分割算法紛紛落地于各行各業(yè)的實(shí)際應(yīng)用場(chǎng)景。以Mask RCNN為代表的一些列優(yōu)秀算法對(duì)于水環(huán)境污染防治發(fā)揮了重要作用。本文研究得到以下主要成果及結(jié)論。

（1）構(gòu)建了常見(jiàn)漂浮物類型分類體系，以目標(biāo)對(duì)象為一級(jí)標(biāo)簽，以對(duì)象的材質(zhì)作為二級(jí)分類依據(jù)，并且與人、車、船等常見(jiàn)目標(biāo)一起參與分類和訓(xùn)練，實(shí)現(xiàn)了對(duì)河湖監(jiān)控視頻信息的系統(tǒng)拆分與組織，為監(jiān)管信息化提供數(shù)據(jù)支持。

（2）數(shù)據(jù)量的提升能有效提高深度學(xué)習(xí)模型Mask R-CNN的性能，以水葫蘆為例，最終達(dá)到96.5%的識(shí)別準(zhǔn)確率和86.2%的召回率。

（3）基于Mask R-CNN的漂浮物識(shí)別方法在識(shí)別性能上顯著優(yōu)于基于HOG特征的傳統(tǒng)漂浮物識(shí)別方法，平均準(zhǔn)確率提高16%，平均召回率提高13.8%。

（4）相比于VGG16網(wǎng)絡(luò)，分別以ResNet 50和ResNet 101作為Mask R-CNN的特征提取網(wǎng)絡(luò)時(shí)的識(shí)別準(zhǔn)確率分別高出3.3%和4.8%，并且ResNet系列對(duì)于不規(guī)則的目標(biāo)的擬合能力更強(qiáng)。

（5）本文以Mask R-CNN為基礎(chǔ)，構(gòu)建一套包含視頻接入、算法推理、前端展示、預(yù)警消息推送的全流程預(yù)警方案，為目前的河湖監(jiān)管提供了有力技術(shù)支撐，有效提升了河湖監(jiān)管的自動(dòng)化和智能化水平。

參考文獻(xiàn)：

[1]DALALN，TRIGGSB.Histograms of oriented gradients for human detection[C]∥Computer Vision and Pattern Recognition，2005（1）：886-893.

[2]蔡強(qiáng)，劉亞奇，曹健，等.圖像目標(biāo)類別檢測(cè)綜述[J].計(jì)算機(jī)科學(xué)與探索，2015，9（3）：257-265.

[3]王敏，周樹(shù)道.靜態(tài)水上物體檢測(cè)分割算法[J].實(shí)驗(yàn)室研究與探索，2010，29（6）：30-32.

[4]REN S Q，HE K M，ROSSG，et al.Faster R-CNN：Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，39（6）：1137-1149.

[5]HE K M，GKIOXARIG，Dollàr P，et al.Mask R-CNN[C]∥Computer vision and pattern recognition，2017：2961-2969.

[6]LIUW，ANGUELOVD，ERHAND，et al.SSD：Single shot multiBox detector[C]∥European Conference on Computer Vision，2016（2）：21-37.

[7]REDMONJ，DIVVALAS，GIRSHICKR，et al.You only look once：unified，real-time object detection[C]∥Computer Vision and Pattern Recognition，2016（2）：779-788.

[8]REDMON J，F(xiàn)ARHADI A.YOLO9000：Better，F(xiàn)aster，Stronger[C]∥Computer Vision and Pattern Recognition，2017（2）：7263-7271.

[9]REDMON J，F(xiàn)ARHADI A.YOLOv3：An incremental improvement[J].arXiv，2018（4）：1804.02767.

[10]BOCHKOVSKIYA，WANG CY，LIAOHY M.YOLOv4：Optimal speed and accuracy of object detection[J].arXiv，2020（3）：2004.10934.

[11]李寧，王雨萱，徐守坤，等.基于AlexNet的小樣本水面漂浮物識(shí)別[J].計(jì)算機(jī)應(yīng)用與軟件，2019，36（2）：245-251.

[12]李昌龍.基于R-CNN訓(xùn)練法的水面漂浮物智能識(shí)別技術(shù)探討[J].信息化技術(shù)研究與應(yīng)用，2019（增1）：18-21.

[13]鄧?yán)冢瑖?yán)立甫，張?jiān)婈?，?基于機(jī)器視覺(jué)的水面漂浮物智能識(shí)別判定系統(tǒng)[J].電子測(cè)試，2019（17）：133-134.

[14]雷李義，艾矯燕，彭婧，等.基于深度學(xué)習(xí)的水面漂浮物目標(biāo)檢測(cè)評(píng)估[J].環(huán)境與發(fā)展，2019（6）：117-123.

[15]ZHANG L L，ZHANG Y，ZHANG Z，et al.Real-time water surface object detection based on improved Faster-RCNN[J].Sensors（Basel），2019（16）：3523.

[16]DENG J，DONG W，SOCHERR，et al.ImageNet：A large-scale hierarchical image database[C]∥Computer Vision and Pattern Recognition，2009：248-255.

[17]SIMONYANK，ZISSERMANA.Verry deep convolutional networks for large-scale image recognition[C]∥International Conference on Learning Representations，2015.

[18]HE K M，ZHANGX Y，RENS P，et al.Deep Residual learning for image recognition[C]∥Computer Vision and Pattern Recognition，2016：770-778.

（編輯：鄭毅）

Abstract：In order to detect and deal with floating objects on water surface in time and improve the supervision level of rivers and lakes，we proposed a method for recognition of floating objects on water surface based on Mask R-CNN algorithm.First，we designed a set of floating object label classification rules，and established a real data sample set in the field of rivers and lakes.Then we built a water surface floating object identification scheme with image capture service，AI analysis and early warning service platform as the core modules.We compared the floating object recognition method base on the Mask R-CNN model and the HOG feature，and conducted experiments with different feature extraction networks.The results showed that the proposed method was significantly better than the traditional HOG method，the average accuracy increased 16%，the average recall rate increased 13.8%，and the ResNet-based method was more capable of identifying irregular floating objects.This method was successfully applied to the river and lake supervision system，and the recognition accuracy of common targets was over 90%.

Key words：recognition of floating objects;Mask R-CNN;deep learning;ResNet

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于MaskR-CNN的水面漂浮物識(shí)別方法研究