胡馨月,謝 非,3,王 軍,馬 磊,黃懿涵,劉益劍,3
(1.南京師范大學(xué) 電氣與自動(dòng)化工程學(xué)院,南京 210023;2.南京三萬物聯(lián)網(wǎng)科技有限公司,南京 210000;3.江蘇省三維打印裝備與制造重點(diǎn)實(shí)驗(yàn)室,南京 210042)
無論是計(jì)算機(jī)視覺領(lǐng)域或是深度學(xué)習(xí)領(lǐng)域,大量的數(shù)據(jù)集必不可少。目前,已經(jīng)存在大量被廣泛應(yīng)用的數(shù)據(jù)集例如coco、Labelme等,然而仍有大部分特定領(lǐng)域缺少足夠的數(shù)據(jù)集,例如在智慧交通領(lǐng)域車型識(shí)別和檢測(cè)[1],車輛數(shù)據(jù)集的分類與標(biāo)定對(duì)于研究車輛的各類特征具有重大意義,例如對(duì)車輛的目標(biāo)檢測(cè)、車輛分類、車牌識(shí)別、車輛測(cè)速和車色識(shí)別等[2-5]。目前與車輛相關(guān)的數(shù)據(jù)集有:KITTI、UA-DETRAC BDD100K數(shù)據(jù)集等[3-6]。但是這些數(shù)據(jù)集中多為正向的車輛,并不適合全部實(shí)際交通情況下的車輛識(shí)別任務(wù)。因此針對(duì)特定領(lǐng)域的數(shù)據(jù)集制作非常重要。通過人工方式對(duì)多目標(biāo)數(shù)據(jù)集進(jìn)行標(biāo)注,不僅耗時(shí)耗力,并且疲勞狀態(tài)下標(biāo)記的數(shù)據(jù)質(zhì)量較低。這種方法難以快捷方便的獲取質(zhì)量高、數(shù)量多且滿足要求的多目標(biāo)數(shù)據(jù)集。
本文結(jié)合Mask Scoring R-CNN網(wǎng)絡(luò)框架與遷移學(xué)習(xí)和深度殘差網(wǎng)絡(luò),并建立多目標(biāo)數(shù)據(jù)質(zhì)量評(píng)分機(jī)制,并且以車輛數(shù)據(jù)集為例,通過基于Mask Scoring R-CNN的高質(zhì)量數(shù)據(jù)集快速自動(dòng)標(biāo)定方法,對(duì)遮擋、目標(biāo)小、種類多和環(huán)境復(fù)雜情況下的車輛目標(biāo)進(jìn)行實(shí)例分割并生成對(duì)應(yīng)標(biāo)簽文件,最終得到高質(zhì)量車輛標(biāo)定數(shù)據(jù)集。
隨著深度學(xué)習(xí)方法的廣泛應(yīng)用,研究人員針對(duì)車輛目標(biāo)檢測(cè)方法和實(shí)例分割的不足也在不斷拓展研究[7-17]。彭博等通過改進(jìn)的Faster R-CNN對(duì)道路中車輛進(jìn)行分類和識(shí)別[7];陳辰等通過級(jí)聯(lián)Adaboost算法針對(duì)各個(gè)子問題分別訓(xùn)練檢測(cè)模型,提高車輛目標(biāo)檢測(cè)精度[8];袁功霖等人利用遷移學(xué)習(xí)和圖像增強(qiáng),使得小規(guī)模數(shù)據(jù)即可訓(xùn)練出有效的識(shí)別網(wǎng)絡(luò)[9]。Yebes等采用兩階段目標(biāo)檢測(cè)網(wǎng)絡(luò)實(shí)現(xiàn)城市道路中的車輛檢測(cè)與目標(biāo)分類[10-14],但是均側(cè)重于車輛檢測(cè)中分類精度、掩膜標(biāo)定精度或訓(xùn)練時(shí)間其中某一方面,沒有對(duì)三方面進(jìn)行綜合考慮。Kim等采用輕量級(jí)神經(jīng)網(wǎng)絡(luò)進(jìn)行車輛檢測(cè),提高了車輛檢測(cè)的實(shí)時(shí)性[15-16]。以上方法雖然可以實(shí)現(xiàn)圖像的檢測(cè)與定位,但是在遮擋的環(huán)境下目標(biāo)圖像分割精度較低。不適用于實(shí)時(shí)交通下的車輛識(shí)別任務(wù)及車輛數(shù)據(jù)集制作。
本文針對(duì)人工標(biāo)定多目標(biāo)數(shù)據(jù)集時(shí)間冗長,訓(xùn)練實(shí)例分割模型需要大量數(shù)據(jù)和較長訓(xùn)練時(shí)間,且傳統(tǒng)實(shí)例分割算法中評(píng)價(jià)目標(biāo)掩膜分割質(zhì)量方法不準(zhǔn)確的問題,開展基于Mask Scoring R-CNN的高質(zhì)量數(shù)據(jù)集快速標(biāo)定方法研究,該方法可以自動(dòng)對(duì)大量無標(biāo)簽數(shù)據(jù)進(jìn)行自動(dòng)標(biāo)注,生成大量的車輛實(shí)例分割圖像。然后,為了篩選出高質(zhì)量的標(biāo)簽文件,提出了基于MaskIoU Head的質(zhì)量判別方法,并以此建立了網(wǎng)絡(luò)評(píng)分機(jī)制,篩選出高質(zhì)量的數(shù)據(jù)集。本文方法具有以下優(yōu)點(diǎn):
1)傳統(tǒng)多目標(biāo)實(shí)例分割方法僅僅針對(duì)識(shí)別分類精度、識(shí)別速度某一方面開展研究,本文結(jié)合遷移學(xué)習(xí)、3種深度殘差神經(jīng)網(wǎng)絡(luò)和優(yōu)化網(wǎng)絡(luò)中各項(xiàng)超參數(shù)有效的提高了實(shí)例分割精度并大幅度降低訓(xùn)練時(shí)間和減少訓(xùn)練樣本,為后續(xù)的數(shù)據(jù)集標(biāo)定奠定了基礎(chǔ)。
2)Mask R-CNN方法采用掩膜重疊像素點(diǎn)的方法衡量掩膜質(zhì)量,但是掩膜是不規(guī)則圖像。這種方法并不準(zhǔn)確。本文結(jié)合Mask Scoring R-CNN中的MaskIoU Head分支,建立多目標(biāo)標(biāo)定圖像評(píng)分機(jī)制,對(duì)網(wǎng)絡(luò)進(jìn)行監(jiān)督訓(xùn)練,可以在遮擋、目標(biāo)小、種類多和環(huán)境復(fù)雜的情況下提高實(shí)例分割精度,并對(duì)掩膜標(biāo)定質(zhì)量進(jìn)行準(zhǔn)確衡量[17]。在相同數(shù)量的圖像輸入下,相較于需要四小時(shí)左右的人工標(biāo)定,本文方法僅需7分56秒,實(shí)現(xiàn)了大量高質(zhì)量數(shù)據(jù)集快速標(biāo)定。
本文以高質(zhì)量車輛數(shù)據(jù)集標(biāo)定方法為例,總體框架如圖1所示,下面針對(duì)此方法的兩部分分別展開說明。
圖1 高質(zhì)量數(shù)據(jù)集自動(dòng)標(biāo)定方法
1)車輛數(shù)據(jù)自動(dòng)標(biāo)定模型訓(xùn)練部分:利用采集的車輛視頻每秒提取一幀圖像,取出少量圖像進(jìn)行人工標(biāo)定(約每個(gè)類別80張圖像),將這些圖像輸入到車型實(shí)例分割網(wǎng)絡(luò)中,結(jié)合coco數(shù)據(jù)集的80分類預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí),減少訓(xùn)練時(shí)間和防止網(wǎng)絡(luò)過擬合。得到車型分類、位置回歸和輪廓標(biāo)定模型[18]。
2)搭建車輛分類與標(biāo)定系統(tǒng):搭建基于Mask Scoring R-CNN的車輛分類與圖像標(biāo)定系統(tǒng),采集與第一部分類似場(chǎng)景下較長的一段車輛視頻,輸入車輛分類與標(biāo)定系統(tǒng),每秒提取兩幀圖像,輸入到第一部分得到的車型分類、位置回歸和輪廓標(biāo)定模型中,得到每幅圖中的車輛類別、邊界框和車輛掩膜,然后,得到標(biāo)定后車輛圖像中每輛車的分?jǐn)?shù),即Smask,如果一幅圖像中全部車輛的Smask都大于90,則這幅圖像為高質(zhì)量車輛圖像,反之為低質(zhì)量圖像,保留高質(zhì)量車輛圖像與對(duì)應(yīng)的標(biāo)簽文件,生成車輛高質(zhì)量數(shù)據(jù)集。
本文提出的高質(zhì)量數(shù)據(jù)自動(dòng)標(biāo)定方法是基于Mask Scoring R-CNN網(wǎng)絡(luò)框架,標(biāo)定網(wǎng)絡(luò)如圖2所示。包括主干網(wǎng)絡(luò)(Backbone network)、圖像金字塔網(wǎng)絡(luò)(FPN,feature pyramid networks)、區(qū)域建議網(wǎng)絡(luò)(RPN,region proposal network)、分類與回歸分支(R-CNN Head)、掩膜分支(mask head)以及掩膜評(píng)分分支(MaskIoU head)組成。此網(wǎng)絡(luò)不僅能輸出具體類別和目標(biāo)框,還能對(duì)物體目標(biāo)輪廓進(jìn)行精準(zhǔn)分類和標(biāo)定。
圖2 車輛圖像標(biāo)定網(wǎng)絡(luò)
本文車輛數(shù)據(jù)自動(dòng)標(biāo)定網(wǎng)絡(luò)可分為4個(gè)部分:第一部分為車輛圖像特征提取,先通過主干網(wǎng)絡(luò)(backbone network)提取圖片特征,再通過FPN網(wǎng)絡(luò)形成圖像特征金字塔。第二部分為區(qū)域生成網(wǎng)絡(luò)(RPN),該部分使用RoIAlign從每個(gè)候選區(qū)域(proposal)提取特征,篩選出目標(biāo)車輛所在區(qū)域。第三部分通過R-CNN Head對(duì)候選區(qū)域進(jìn)行目標(biāo)區(qū)域分類、邊界框的回歸,同時(shí)通過Mask Head將車輛從復(fù)雜環(huán)境分離出來并對(duì)其輪廓進(jìn)行預(yù)測(cè)、標(biāo)定。第四部分為車輛掩膜質(zhì)量評(píng)分部分。本文利用MaskIoU Head建立標(biāo)定的車輛圖像評(píng)分機(jī)制,對(duì)第三部分中車輛掩膜標(biāo)定質(zhì)量進(jìn)行打分,通過分?jǐn)?shù)衡量預(yù)測(cè)車輛掩膜與真實(shí)車輛區(qū)域的一致性,同時(shí)對(duì)車輛圖像進(jìn)行取舍。經(jīng)歷4個(gè)部分后,得到車輛圖像標(biāo)定模型[19]。
2.2.1 基于殘差網(wǎng)絡(luò)的多目標(biāo)特征提取
通過主干網(wǎng)絡(luò)從無標(biāo)簽的車輛圖像中提取特征,并通過FPN(特征金字塔)形成多尺度的特征層,增強(qiáng)網(wǎng)絡(luò)對(duì)小目標(biāo)的識(shí)別能力。
主干網(wǎng)絡(luò):用來特征提取的CNN網(wǎng)絡(luò),主要檢測(cè)圖像中的高級(jí)特征,其中,主干網(wǎng)絡(luò)可以是任意的卷積層進(jìn)行組合構(gòu)成的特征提取網(wǎng)絡(luò),或者是常用的高精度卷積神經(jīng)網(wǎng)絡(luò)(如:ResNet 50、ResNet101、VGG19等)。利用主干網(wǎng)絡(luò),通過卷積操作將圖像從1980*1080*3(RGB)轉(zhuǎn)變?yōu)?2×32×2048的特征圖。這個(gè)特征圖將作為特征金字塔網(wǎng)絡(luò)的輸入[20]。
特征金字塔網(wǎng)絡(luò):使得feature map包含的特征更全面。此特征金字塔一共有五層,從第一個(gè)層提取特征后逐層傳遞到第五層,但尺度逐層下降一倍,生成不同尺度的feature maps,再將相鄰feature maps相減,得到新的feature map。使得新的特征圖既保留了低層次中包含原圖更多信息的特點(diǎn),又包含高層次特征圖像中更深層次特征。本文選擇第四層特征圖作為后續(xù)網(wǎng)絡(luò)的輸入。
2.2.2 遷移學(xué)習(xí)和生成目標(biāo)候選區(qū)域
遷移學(xué)習(xí):遷移學(xué)習(xí)是給網(wǎng)絡(luò)中的權(quán)值一個(gè)初始值,coco數(shù)據(jù)集的80分類預(yù)訓(xùn)練模型與本文需要訓(xùn)練的車輛數(shù)據(jù)標(biāo)定模型均為圖像識(shí)別模型,可以有效防止過擬合與減少訓(xùn)練數(shù)據(jù)量,降低訓(xùn)練時(shí)間。且coco數(shù)據(jù)集中圖像拍攝于城市道路,含有非車輛圖像的類別,可以提高車輛圖像的背景與前景分類精度。因此引入遷移學(xué)習(xí)。
建議區(qū)域網(wǎng)絡(luò)(RPN):用于生成建議區(qū)域(region proposals)作用于特征金字塔提取的feature map中,利用滑動(dòng)窗口在feature map中進(jìn)行掃描,找到包含目標(biāo)的區(qū)域,RPN掃描過的區(qū)域稱為錨點(diǎn),錨點(diǎn)越多精度越高,相應(yīng)訓(xùn)練速度會(huì)降低。為了在精度與速度之間保持平衡,本文的實(shí)驗(yàn)中每張圖像大約有10萬個(gè)不同大小和高寬比的錨點(diǎn),以此覆蓋圖像中更多的面積,提高檢測(cè)精度。
RoI分類器:作用于RPN網(wǎng)絡(luò)產(chǎn)生的建議區(qū)域中,可將屬于背景還是目標(biāo)的區(qū)域進(jìn)行分類,屬于目標(biāo)物體的建議區(qū)域稱為正區(qū)域,屬于背景的建議區(qū)域稱為負(fù)區(qū)域。保留正區(qū)域,丟棄負(fù)區(qū)域。
2.2.3 目標(biāo)位置回歸、分類和輪廓提取
R-CNN Head:位置回歸與目標(biāo)分類。通過此分支將目標(biāo)分類,在feature map上對(duì)邊界框進(jìn)行回歸。同時(shí)對(duì)第二部分的正區(qū)域進(jìn)行合并,并判別目標(biāo)的類別。采用IoU方法對(duì)預(yù)測(cè)的邊界框進(jìn)行評(píng)估。
邊界框IoU如圖3所示。虛線框?yàn)槟繕?biāo)的真實(shí)邊界框(Ground truth),黑色填充部分為R-CNN Head預(yù)測(cè)的Bbox(邊界回歸框),圖3中從左到右Bbox與Ground truth之間重疊越多,說明此網(wǎng)絡(luò)邊界框預(yù)測(cè)效果越好,如圖3最右側(cè)圖形所示。
圖3 邊界框IoU
Mask Head:由全卷積神經(jīng)網(wǎng)絡(luò)(FCN,fully convolutional networks)構(gòu)成,在RoI分類器篩選后的正區(qū)域上生成目標(biāo)的掩膜,這層掩膜可以準(zhǔn)確地包圍目標(biāo)物體,再通過反卷積放大到原圖,得到目標(biāo)圖像的輪廓,并將每個(gè)圖像中目標(biāo)輪廓上的像素點(diǎn)坐標(biāo)保存,生成對(duì)應(yīng)的標(biāo)簽文件,也是多目標(biāo)數(shù)據(jù)集標(biāo)定的關(guān)鍵之一。
但是,主干網(wǎng)絡(luò)中進(jìn)行的卷積操作會(huì)導(dǎo)致原圖信息有所丟失,在Mask Head中,將feature map反卷積到原圖后會(huì)出現(xiàn)預(yù)測(cè)掩膜與真實(shí)掩膜有一定偏差。因此需要一種方法去衡量預(yù)測(cè)掩膜的質(zhì)量。在傳統(tǒng)方法Mask R-CNN中用二者交叉面積與二者累加面積的比值方式計(jì)算MaskIoU,來衡量預(yù)測(cè)掩膜質(zhì)量,但是需要保證二者有相同的高和寬??墒沁@種方法計(jì)算的MaskIoU與預(yù)測(cè)掩膜并不為線性關(guān)系,因此這種方法是不準(zhǔn)確的。
2.2.4 基于MaskIoU Head的多目標(biāo)掩膜標(biāo)定質(zhì)量評(píng)價(jià)
MaskIoU Head:利用卷積神經(jīng)網(wǎng)絡(luò)中回歸原理,精準(zhǔn)地評(píng)定目標(biāo)的mask質(zhì)量,并在網(wǎng)絡(luò)訓(xùn)練中進(jìn)行監(jiān)督,很好地解決了Mask R-CNN對(duì)目標(biāo)mask質(zhì)量評(píng)分不準(zhǔn)的問題。卷積神經(jīng)網(wǎng)絡(luò)常常用來回歸兩個(gè)相似圖像,本文利用這個(gè)卷積神經(jīng)網(wǎng)絡(luò)分支對(duì)真實(shí)掩膜(Truth-mask)與預(yù)測(cè)掩膜(predict-mask)進(jìn)行回歸,并計(jì)算出每個(gè)目標(biāo)mask的MaskIoU值,得到的MaskIoU值為SIoU,也是對(duì)每個(gè)目標(biāo)蒙版質(zhì)量的評(píng)價(jià)分?jǐn)?shù)。該質(zhì)量評(píng)價(jià)方法用于評(píng)定標(biāo)簽文件的質(zhì)量,評(píng)估的內(nèi)容主要包括包圍目標(biāo)輪廓的精度和目標(biāo)分類精度。然后通過設(shè)置質(zhì)量閾值,將質(zhì)量低于閾值的標(biāo)簽丟棄,保留質(zhì)量高于閾值的標(biāo)簽。最后,將高于閾值的標(biāo)簽和對(duì)應(yīng)的車輛圖像數(shù)據(jù)共同構(gòu)成車輛語義分割數(shù)據(jù)集,這也是該網(wǎng)絡(luò)的數(shù)據(jù)增強(qiáng)結(jié)果。
MaskIoU Head輸入結(jié)構(gòu):本文將Truth-mask和predict-mask一起作為Mask Head的輸入。其中Truth-mask存在于RoI feature中,predict-mask為Mask Head 輸出的目標(biāo)預(yù)測(cè)掩膜。由于predict-mask與RoI feature尺寸不同,因此設(shè)計(jì)了兩種輸入結(jié)構(gòu)。MaskIoU Head 的兩種輸入結(jié)構(gòu)如圖4所示。
圖4 MaskIoU Head 的輸入結(jié)構(gòu)
具體說明如下:圖4中左圖設(shè)計(jì)的輸入結(jié)構(gòu)是將所有的mask經(jīng)過kernel size為2,stride為2的max pooing,然后與RoI輸出的RoI feature相乘。右圖設(shè)計(jì)的輸入結(jié)構(gòu)為目標(biāo)mask不經(jīng)過最大池化直接與高分辨率的RoI feature相加。兩種結(jié)構(gòu)均可作為Mask Head的輸入。
MaskIoU Head網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì):由 4個(gè)卷積層和3個(gè)全連接層組成。對(duì)于4個(gè)卷積層,本文將所有卷積層的核大小和濾波器個(gè)數(shù)分別設(shè)置為3和256。對(duì)于3個(gè)全連接層,本文結(jié)合R-CNN Head設(shè)計(jì)原理,將前兩個(gè)FC層輸出設(shè)置為1 024以連接所有神經(jīng)元,最后一個(gè)FC層的C為需要分類的類別數(shù),輸出屬于不同類別的蒙版分?jǐn)?shù)SIoU.MaskIoU Head結(jié)構(gòu)圖如5所示。
圖5 MaskIoU Head結(jié)構(gòu)圖
設(shè)計(jì)完網(wǎng)絡(luò)4個(gè)部分后,需要通過損失函數(shù)來度量網(wǎng)絡(luò)的性能,以及設(shè)計(jì)評(píng)分機(jī)制來評(píng)價(jià)目標(biāo)分割效果。
網(wǎng)絡(luò)損失函數(shù)設(shè)計(jì):本文網(wǎng)絡(luò)結(jié)構(gòu)主要由R-CNN Head、RPN、Mask Head 和MaskIoU Head等各個(gè)分支組成,因此本文損失函數(shù)公式為:
L=Lclass+Lbbox+Lp+Lr+Liou
(1)
其中:Lclass為目標(biāo)檢測(cè)分類的損失,Lbbox是回歸目標(biāo)檢測(cè)框的損失,Lmask為目標(biāo)mask分割的損失,Lp為RPN網(wǎng)絡(luò)損失,Lr為權(quán)重正則化損失。LIoU為MaskIoU Head損失函數(shù)。
網(wǎng)絡(luò)評(píng)分機(jī)制:本文目標(biāo)車輛只屬于一個(gè)類別,這就要求本文方法在兩方面必須同時(shí)表現(xiàn)良好:1)需要對(duì)不同車型進(jìn)行精確的分類;2)預(yù)測(cè)的車輛Mask和真實(shí)車輛Mask之間需要有較高的重合度,用一個(gè)目標(biāo)函數(shù)來表達(dá)這兩個(gè)任務(wù)較為困難。因此,本文將mask質(zhì)量評(píng)判標(biāo)準(zhǔn)分解成目標(biāo)分類和掩膜回歸評(píng)分,公式為:
Smask=Scls×SIoU
(2)
其中:Smask為評(píng)定目標(biāo)檢測(cè)質(zhì)量的分?jǐn)?shù),Scls為RNN Head中對(duì)目標(biāo)分類效果評(píng)定的分?jǐn)?shù),SIoU表示predict-mask與Truth-mask之間重合程度的分?jǐn)?shù)。如果一張圖像中所有目標(biāo)的Smask均高于90分,那么這張圖像即為高質(zhì)量的目標(biāo)圖像,將這些圖像及對(duì)應(yīng)標(biāo)簽文件存儲(chǔ)作為相關(guān)數(shù)據(jù)集。
為了自動(dòng)生成大量車輛高質(zhì)量數(shù)據(jù),首先需要訓(xùn)練一個(gè)車輛數(shù)據(jù)標(biāo)定模型。訓(xùn)練數(shù)據(jù)為親自采集的車輛視頻,每秒提取兩幀車輛圖像,取出少量車輛圖像,使用Labelme軟件進(jìn)行人工標(biāo)注。
其中Labelme標(biāo)記六種車型如圖6所示,圖像數(shù)據(jù)中含有800張含多種車輛的圖像。并將其劃分為680張訓(xùn)練圖像,120張驗(yàn)證圖像。本文設(shè)計(jì)了6種車型進(jìn)行實(shí)驗(yàn):Bus(巴士)、Car(小轎車)、MircoBus(面包車)、SUV(運(yùn)動(dòng)型多用途汽車)、Truck(卡車)、SprotsCar(跑車)。
圖6 Labelme標(biāo)記六種車型
網(wǎng)絡(luò)中不同參數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的結(jié)果影響很大,降低迭代次數(shù)、學(xué)習(xí)率等會(huì)導(dǎo)致網(wǎng)絡(luò)性能的降低。本文網(wǎng)絡(luò)結(jié)構(gòu)與Mask Scoring R-CNN結(jié)構(gòu)相近,因此選擇與Mask Scoring R-CNN一致的固定訓(xùn)練參數(shù)。網(wǎng)絡(luò)中固定訓(xùn)練參數(shù)如表1所示。
表1 網(wǎng)絡(luò)中固定訓(xùn)練參數(shù)
為了設(shè)計(jì)出最佳的車輛數(shù)據(jù)集自動(dòng)標(biāo)定模型,本文在同一主干網(wǎng)絡(luò)ResNet50下,總共進(jìn)行了共10組對(duì)比試驗(yàn),選擇合適的網(wǎng)絡(luò)參數(shù)以及觀察引入遷移學(xué)習(xí)對(duì)本方法在訓(xùn)練時(shí)間、準(zhǔn)確度和訓(xùn)練數(shù)據(jù)量方面的影響,如表2所示。
表2 超參數(shù)選擇與遷移學(xué)習(xí)對(duì)照試驗(yàn)
mIoU和mAP為實(shí)例分割神經(jīng)網(wǎng)絡(luò)中常用的評(píng)價(jià)指標(biāo),用于評(píng)判網(wǎng)絡(luò)模型性能高低。為了嚴(yán)格評(píng)估方法性能,在IoU分別為0.5和0.7下用mAP衡量實(shí)例分割效果,大于閾值是真陽性,小于閾值則為假陽性。每個(gè)實(shí)驗(yàn)的mIoU和mAP指標(biāo)顯示在表的最后三行。下面對(duì)實(shí)驗(yàn)內(nèi)容和結(jié)果進(jìn)行詳細(xì)的分析。
試驗(yàn)1到試驗(yàn)2使用了同樣的NMS閾值、基礎(chǔ)學(xué)習(xí)率等經(jīng)驗(yàn)參數(shù),但是使用了不同數(shù)量的完全迭代次數(shù)。完全迭代次數(shù)的增加使得試驗(yàn)1的mAP (IoU>0.5)值從0.569提高到試驗(yàn)2中的0.586,提升效果較低,且在迭代100次的情況下依然容易收斂,表明本文設(shè)計(jì)的網(wǎng)絡(luò)收斂效果良好。在試驗(yàn)3至試驗(yàn)6中使用了更多數(shù)據(jù)的圖像用于訓(xùn)練和測(cè)試,由于完全迭代次數(shù)與之前的一樣,結(jié)果顯示試驗(yàn)3中準(zhǔn)確度下降,后來在試驗(yàn)4中,通過增加完全迭代次數(shù)來改進(jìn)這一點(diǎn),使得mAP(IoU>0.5)到達(dá)0.565。在試驗(yàn)5中,本文評(píng)估了圖像寬度和高度的影響,將訓(xùn)練圖像的尺寸從1 024×800提高到1 920×1 080,其余參數(shù)和試驗(yàn)4一樣的情況下,算法的性能較差(mAP(IoU>0.5)=0.185)。說明高分辨率圖像在當(dāng)前網(wǎng)絡(luò)參數(shù)下,準(zhǔn)確度較低。在試驗(yàn)6中,將最小蒙版尺寸從56×56縮小到28×28,與試驗(yàn)4進(jìn)行對(duì)比,網(wǎng)絡(luò)性能得到提升。在試驗(yàn)7中,本文降低了Anchor的比例大小,輸入圖像分辨率提升到1 920*1 080,將最小蒙版依然設(shè)置為28×28,發(fā)現(xiàn)將高分辨率圖像作為輸入時(shí),網(wǎng)絡(luò)的性能接近于試驗(yàn)6,維持穩(wěn)定。在試驗(yàn)8中使用了與試驗(yàn)7一樣的配置,并且進(jìn)一步的降低了Anchor的比例大小,發(fā)現(xiàn)網(wǎng)絡(luò)的性能有了較大的提升,于是將(8,16,32,64)作為網(wǎng)絡(luò)的最佳Anchor比例大小。
選擇了最佳完全迭代次數(shù)和圖像分辨率、Anchor的比例大小等最優(yōu)超參數(shù)后,為了減少訓(xùn)練時(shí)間、防止網(wǎng)絡(luò)過擬合,在試驗(yàn)9中削減了一半的訓(xùn)練數(shù)據(jù)量,發(fā)現(xiàn)網(wǎng)絡(luò)性能大幅度降低。因此,在試驗(yàn)10中利用預(yù)訓(xùn)練的COCO數(shù)據(jù)集的80分類模型在試驗(yàn)9基礎(chǔ)上進(jìn)行遷移學(xué)習(xí)。發(fā)現(xiàn)網(wǎng)絡(luò)性能與試驗(yàn)8幾乎一致,達(dá)到較高水平,可以對(duì)車輛目標(biāo)進(jìn)行準(zhǔn)確實(shí)例分割與標(biāo)定,但是訓(xùn)練時(shí)間僅為試驗(yàn)8實(shí)驗(yàn)的一半。
通過10組對(duì)照實(shí)驗(yàn),分析結(jié)果表明,訓(xùn)練數(shù)據(jù)量越大,圖像分辨越高,掩膜越小,RPN錨的尺度越小,網(wǎng)絡(luò)性能越好,且100個(gè)完全迭代次數(shù)就足夠?qū)崿F(xiàn)收斂。同時(shí),結(jié)合遷移學(xué)習(xí)可以大幅度減少本方法的訓(xùn)練數(shù)據(jù)、訓(xùn)練時(shí)間和提高檢測(cè)精度。
主干網(wǎng)絡(luò)對(duì)比試驗(yàn):ResNet50、ResNet101、MobileNet V1這些神經(jīng)網(wǎng)絡(luò)由殘差塊構(gòu)成,以殘差學(xué)習(xí)簡化了網(wǎng)絡(luò)架構(gòu),減少了計(jì)算開銷,很好的解決了梯度消失問題。為了進(jìn)一步優(yōu)化網(wǎng)絡(luò),在識(shí)別速度和準(zhǔn)確度之間達(dá)到一個(gè)平衡,表3為主干網(wǎng)絡(luò)性能對(duì)比表,在Test10的網(wǎng)絡(luò)配置參數(shù)下,分別在網(wǎng)絡(luò)訓(xùn)練時(shí)間、每秒圖像檢測(cè)時(shí)間、網(wǎng)絡(luò)模型大小、準(zhǔn)確度(S>90表示分?jǐn)?shù)大于90的車輛為實(shí)例分割準(zhǔn)確)4個(gè)方面對(duì)其性能做了評(píng)估。
表3 主干網(wǎng)絡(luò)性能對(duì)比
從表格中可以看出,采用ResNet50作為主干網(wǎng)絡(luò),訓(xùn)練時(shí)間為12.65小時(shí),時(shí)間最短;這3種網(wǎng)絡(luò)的標(biāo)定測(cè)試速度分別為每秒2.4張,每秒1.6張,每秒2.2張,采用ResNet50作為主干網(wǎng)絡(luò),標(biāo)定車輛圖像速度最快;在模型大小對(duì)比實(shí)驗(yàn)中,采用ResNet50作為主干網(wǎng)絡(luò),車輛標(biāo)定模型大小最小;一張圖像中車輛Smask均大于90的圖像為準(zhǔn)確圖像,準(zhǔn)確圖像占全部圖像的比例為準(zhǔn)確度,采用ResNe50、ResNet101和MobileNet V1為主干網(wǎng)絡(luò),車輛圖像標(biāo)定準(zhǔn)確度分別為93.4%、93.8%、84.5%。
從上述實(shí)驗(yàn)中發(fā)現(xiàn)ResNet101精度最高、ResNet50次之、MobileNet V1最低。但是ResNet101網(wǎng)絡(luò)層數(shù)更多,訓(xùn)練時(shí)間更長,ResNet50訓(xùn)練時(shí)間和檢測(cè)時(shí)間適中,MobileNetV1訓(xùn)練時(shí)間最短,雖然ResNet50與ResNet101在車輛識(shí)別精度上準(zhǔn)確度都很高,但是ResNet50在識(shí)別速度、訓(xùn)練時(shí)間、網(wǎng)絡(luò)模型大小方面均優(yōu)于ResNet101。ResNet50由于層數(shù)適中,在數(shù)據(jù)量少的情況下,既可以保證網(wǎng)絡(luò)精度又可以防止了過擬合。更深層次的網(wǎng)絡(luò)如ResNet101等需要訓(xùn)練數(shù)據(jù)更多的圖像,反而加重了研究人員繁重的工作量。因此本方法采用ResNet50作為車輛標(biāo)定網(wǎng)絡(luò)中的主干網(wǎng)絡(luò)。
經(jīng)過上述試驗(yàn)1到試驗(yàn)10以及主干網(wǎng)絡(luò)性能評(píng)估共13組對(duì)比試驗(yàn),本文選擇了合適本網(wǎng)絡(luò)的超參數(shù),將ResNet50作為主干網(wǎng)絡(luò),并結(jié)合了coco數(shù)據(jù)集的80分類預(yù)訓(xùn)練模型進(jìn)行遷移學(xué)習(xí)。
由于本文中網(wǎng)絡(luò)是在Mask R-CNN基礎(chǔ)上增加了MaskIoU Head來對(duì)車型圖像數(shù)據(jù)標(biāo)定網(wǎng)絡(luò)進(jìn)行優(yōu)化,且Faster R-CNN是車輛檢測(cè)中最常用識(shí)別網(wǎng)絡(luò)框架。 為了驗(yàn)證所研究方法的效果,將本文方法與傳統(tǒng)的Mask R-CNN框架和Faster R-CNN框架在相同測(cè)試圖像下進(jìn)行對(duì)比實(shí)驗(yàn)。
圖7 多種方法的車輛實(shí)例分割對(duì)比圖
車輛實(shí)例分割對(duì)比如圖7所示。圖(a)為Faster R-CNN目標(biāo)車輛分割圖像,圖(b)為Mask R-CNN車輛分割圖像,(c)圖為本文算法實(shí)例分割圖像. 從圖中可以看出,F(xiàn)aster R-CNN不能對(duì)車輛輪廓進(jìn)行標(biāo)記。 Mask R-CNN將左邊的護(hù)欄誤判成了車輛,且在圖像右上方有很多車輛未被識(shí)別出來,精度不夠。本文算法不僅將車輛從復(fù)雜環(huán)境與重疊車輛中精確區(qū)分出來,且對(duì)于車型種類幾乎沒有誤判,車輛輪廓標(biāo)定更清晰. 因此,本文方法分類準(zhǔn)確度和實(shí)例分割精度均優(yōu)于其他方法。
為了驗(yàn)證本文方法的標(biāo)定速度與標(biāo)定質(zhì)量,進(jìn)一步進(jìn)行了實(shí)驗(yàn)測(cè)試,采集一段的4分59秒車流視頻,每秒提取一幀圖像作為輸入,共358張圖像。這些車輛圖像手動(dòng)打標(biāo)簽需要4小時(shí)左右,本文方法標(biāo)定僅需要7分56秒即可完成高質(zhì)量車輛圖像的篩選和標(biāo)定。
輸入視頻截圖如圖8所示。圖9為車輛數(shù)據(jù)標(biāo)定方法的輸出結(jié)果。同時(shí)為了驗(yàn)證本方法在車輛聚集、重疊車輛環(huán)境中分類與檢測(cè)效果,本文增加了多車輛實(shí)驗(yàn),如圖10所示為輸出的多車輛標(biāo)定圖像。通過圖8~10的實(shí)驗(yàn)可以看到,本方法可以精確區(qū)分出車型,并清晰的標(biāo)定出車輛輪廓,準(zhǔn)確性與人工標(biāo)定相近,但標(biāo)定速度遠(yuǎn)超過人工標(biāo)記。因此本方法在充分考慮車輛遮擋、環(huán)境復(fù)雜、目標(biāo)小、種類多等因素后,本方法依然有較高的準(zhǔn)確性及抗環(huán)境干擾能力。
圖8 輸入視頻截圖
圖9 車輛數(shù)據(jù)標(biāo)定圖像
圖10 多車輛標(biāo)定圖像
最后輸入一段2小時(shí)4分鐘的車輛視頻,本文方法僅需要3小時(shí)23分鐘即可生成14 880張車輛標(biāo)定圖像,人工標(biāo)定需要80小時(shí)左右時(shí)間,標(biāo)定速度相較人工標(biāo)定提升95.77%。本文方法在保證精度的同時(shí),大幅度減少了標(biāo)定時(shí)間。
針對(duì)目前現(xiàn)有人工標(biāo)定方法時(shí)間冗長、效率低下且容易出錯(cuò)的問題,本文提出一種基于Mask Scoring R-CNN的高質(zhì)量數(shù)據(jù)集快速自動(dòng)標(biāo)定方法。通過與ResNet50網(wǎng)絡(luò)相結(jié)合、調(diào)整了不同超參數(shù)并與遷移學(xué)習(xí)結(jié)合,在保證目標(biāo)識(shí)別精度的同時(shí)降低了一半的訓(xùn)練時(shí)間;然后,建立了一種數(shù)據(jù)集評(píng)分機(jī)制,在遮擋、環(huán)境復(fù)雜、目標(biāo)小、種類多環(huán)境下依然提高了目標(biāo)掩膜標(biāo)定精度;最后,提出了高質(zhì)量多目標(biāo)數(shù)據(jù)標(biāo)定方法,保證數(shù)據(jù)集質(zhì)量的同時(shí)大幅度降低了標(biāo)定時(shí)間。從實(shí)驗(yàn)結(jié)果可以看出,本文方法具有精度高、訓(xùn)練數(shù)據(jù)量少、環(huán)境適應(yīng)性強(qiáng)和標(biāo)定時(shí)間短的優(yōu)點(diǎn)。