周奇
摘要:由于人工進(jìn)行的特征提取存在很多不可控的個(gè)人主觀偏見,為了降低人為因素對(duì)實(shí)時(shí)檢測(cè)造成的影響問題,本文中將借鑒先進(jìn)的深度學(xué)習(xí)研究成果,以YOLO網(wǎng)絡(luò)結(jié)構(gòu)為改進(jìn)藍(lán)本,將淺層神經(jīng)網(wǎng)絡(luò)提取的低層特征和高層神經(jīng)網(wǎng)絡(luò)提取的抽象特征進(jìn)行融合,提出一種新的YOLO網(wǎng)絡(luò)模型變種。改進(jìn)后的方法在檢測(cè)視頻中的輪船時(shí)具有較高的精確度,并可對(duì)檢測(cè)到的輪船進(jìn)行定位和計(jì)數(shù)。同時(shí)檢測(cè)速度達(dá)到46幀/s,滿足實(shí)時(shí)性的要求。
關(guān)鍵詞:輪船檢測(cè);YOLO;多目標(biāo);實(shí)時(shí)檢測(cè);神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP183 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)10-0196-02
Abstract:In order to reduce the influence of human factors on real-time detection, there are many uncontrollable individual subjective prejudices in the feature extraction. In the target detection of the article, it will draw on the advanced research results of deep learning, take YOLO network structure as the blueprint for improvement , The low-level features extracted by shallow neural network and the abstract features extracted by high-level neural network are fused, and a new variant of YOLO network model is proposed. The improved method can be applied to real-time detection of video-based multi-targets in ships, and it has a higher detection rate for ships in video The accuracy of the detected ship can be located and counted. At the same time detection speed of 46 frames/s, to meet the real-time requirements.
Key words: ship detection; YOLO; multi-target; real-time detection
1 引言
在計(jì)算機(jī)視覺研究領(lǐng)域中多目標(biāo)檢測(cè)技術(shù)一直是一個(gè)熱門研究方向。在現(xiàn)有的檢測(cè)目標(biāo)技術(shù)方面如人臉檢測(cè)[1]、行人檢測(cè)[2]等已經(jīng)有了非常成熟的應(yīng)用方案,相較而言,在移動(dòng)輪船檢測(cè)上還沒有十分成熟的應(yīng)用方案。傳統(tǒng)的基于卷積神經(jīng)網(wǎng)絡(luò)[3]的目標(biāo)檢測(cè)技術(shù)都會(huì)使用到滑動(dòng)窗口,例如RCNN[4]、SPP-Net[5]、Fast-RCNN[6]、Faster-RCNN[7]方法。但這些方法難以滿足基于視頻的輪船多目標(biāo)實(shí)時(shí)檢測(cè)。直到Y(jié)OLO[8]、SSD[9]的提出才從另一個(gè)思維角度解決了候選區(qū)域選擇的問題,從此目標(biāo)檢測(cè)的精確度和速度進(jìn)入一個(gè)新的不同高度的研究領(lǐng)域。
本文根據(jù)卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺領(lǐng)域的研究,借鑒YOLO算法,將淺層神經(jīng)網(wǎng)絡(luò)提取的低層特征和高層神經(jīng)網(wǎng)絡(luò)提取的抽象特征進(jìn)行融合,提出一種新的YOLO網(wǎng)絡(luò)模型變種。在實(shí)施環(huán)境中對(duì)該算法進(jìn)行真實(shí)測(cè)試,測(cè)驗(yàn)結(jié)果表明YOLO算法在移動(dòng)輪船多目標(biāo)檢測(cè)領(lǐng)域能夠提供較高的檢測(cè)準(zhǔn)確度且檢測(cè)計(jì)算速度保證了實(shí)時(shí)性的性能要求。
2網(wǎng)絡(luò)設(shè)計(jì)
本文所設(shè)計(jì)的網(wǎng)絡(luò)以YOLO的網(wǎng)絡(luò)為設(shè)計(jì)藍(lán)本,根據(jù)輪船目標(biāo)的多特征屬性,使用淺層卷積神經(jīng)網(wǎng)絡(luò)提取輪船的低層特征,并采用卷積層將已提取的高層特征和低層特征進(jìn)行特征融合,以進(jìn)一步提高檢測(cè)的準(zhǔn)確度。
2.1輪船目標(biāo)檢測(cè)及定位
每一個(gè)網(wǎng)格都會(huì)預(yù)測(cè)B個(gè)邊界框(bounding boxes),每個(gè)邊界框都有相應(yīng)的預(yù)測(cè)參數(shù),這些參數(shù)總共有5個(gè),它們分別是:X,Y,W,H,Config(Ship)。X代表邊界框的中心橫坐標(biāo);Y 代表邊界框的中心縱坐標(biāo);W代表邊界框的寬度;H代表邊界框的高度;Config(Ship)代表存在輪船物體的可信度評(píng)分。這個(gè)可信度評(píng)分Config(Ship)用于反應(yīng)根據(jù)當(dāng)前的邊界框模型內(nèi)存在輪船目標(biāo)的可能性Pr(Ship)和邊界框預(yù)測(cè)目標(biāo)輪船位置的準(zhǔn)確度IOU(pred|truth)。可信度Config(Ship)的計(jì)算公式為:
如果邊界框內(nèi)不存在輪船目標(biāo),則Pr(Ship)=0,如果存在目標(biāo)則Pr(Ship)=1,同時(shí)根據(jù)預(yù)測(cè)的邊界框和真實(shí)的邊界框計(jì)算IOU(pred|truth)。IOU(pred|truth)的計(jì)算公式為:
BB(pred)為基于訓(xùn)練數(shù)據(jù)的標(biāo)簽參考標(biāo)準(zhǔn)框;BB(truth)為目標(biāo)檢測(cè)時(shí)的目標(biāo)邊界框;ares(.)表示求面積。
2.2輪船多特征融合
通過卷積神經(jīng)網(wǎng)絡(luò)層[10]對(duì)輪船目標(biāo)進(jìn)行特征提取,在不同層次提取輪船特征的抽象程度不同,高層網(wǎng)絡(luò)提取的特征最為抽象,可視化的結(jié)果類似輪船的整體輪廓;中間層提取的特征抽象程度不高,可視化的結(jié)果類似組成輪船的線條;底層網(wǎng)絡(luò)提取的特征相對(duì)具體,可視化的結(jié)果就更趨近于點(diǎn)。通過融合使不同層級(jí)的特征在同一維度下參與對(duì)于輪船目標(biāo)的檢測(cè),以提高檢測(cè)時(shí)的精度。具體的實(shí)現(xiàn)即在原有的YOLO網(wǎng)絡(luò)中添加新的卷積層用于提取輪船目標(biāo)具體的特征,并將這些特征融合到高層網(wǎng)絡(luò)中提取出的高層抽象特征。設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
3實(shí)驗(yàn)結(jié)果及分析
3.1實(shí)驗(yàn)平臺(tái)
本文的實(shí)驗(yàn)環(huán)境為:Inter(R) Xeon(R) CPUE5-2690 v2 @ 3.00GHz, 32G內(nèi)存,NvidaiaGefore GTX1080, Ubuntu 14.04,64位操作系統(tǒng)。
3.2實(shí)現(xiàn)結(jié)果
在該實(shí)驗(yàn)環(huán)境下,檢測(cè)器檢測(cè)速度達(dá)到46幀/s滿足基于視頻的目標(biāo)實(shí)時(shí)性檢測(cè)和準(zhǔn)確性要求。對(duì)第一組數(shù)據(jù)進(jìn)行檢測(cè)的實(shí)驗(yàn)結(jié)果如圖2所示;對(duì)第二組數(shù)據(jù)進(jìn)行檢測(cè)的實(shí)驗(yàn)結(jié)果如圖3所示。
圖2中給出了第一組數(shù)據(jù)的檢測(cè)結(jié)果,圖像從左到右從上到下依次排列,共4張圖片。在對(duì)視頻進(jìn)行檢測(cè)的過程中每隔20秒截取一張檢測(cè)圖片,對(duì)這4張圖片依次按照從左到右從上到下排列。在每幀圖像中檢測(cè)器會(huì)使用綠色矩形方框標(biāo)記出已檢測(cè)出的輪船,同時(shí)在綠色方框的左上角依次給當(dāng)前方框進(jìn)行編號(hào),編號(hào)的個(gè)數(shù)表示已檢測(cè)出的移動(dòng)輪船目標(biāo)的個(gè)數(shù),每個(gè)不同的編號(hào)用于區(qū)分不同的移動(dòng)目標(biāo)。視頻中輪船的大小各異,背景環(huán)境對(duì)于輪船檢測(cè)的影響也比較大。但檢測(cè)器能夠檢測(cè)出絕大部分的輪船,并依次標(biāo)記出不同的輪船。
在實(shí)驗(yàn)結(jié)果二中先后出現(xiàn)了人、山、視頻logo等干擾視頻檢測(cè)的非輪船物體存在,檢測(cè)器依舊能夠自動(dòng)有效的忽略這些干擾物體的存在,只檢測(cè)輪船目標(biāo)。
3.3實(shí)驗(yàn)結(jié)果分析
通過對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行分析,可以知道該方法能夠應(yīng)用于基于視頻的輪船多目標(biāo)檢測(cè)中。在將原有的多種類目標(biāo)檢測(cè)優(yōu)化為單種類目標(biāo)檢測(cè)后算法的實(shí)時(shí)性進(jìn)一步提高了。同時(shí)在檢測(cè)的過程中該方法能夠自動(dòng)忽略掉人、山、燈塔等非輪船目標(biāo),只識(shí)別檢測(cè)出移動(dòng)輪船目標(biāo),且能夠?qū)z測(cè)出來的輪船進(jìn)行定位與分類標(biāo)記。
4結(jié)束語
通過在實(shí)際的視頻數(shù)據(jù)上進(jìn)行測(cè)試驗(yàn)證,已證實(shí)本文的方法在基于視頻的輪船多目標(biāo)檢測(cè)上,其檢測(cè)準(zhǔn)確率和定位的精準(zhǔn)度都有優(yōu)異的表現(xiàn)。但是該檢測(cè)方法存在的不足有以下兩點(diǎn):1)當(dāng)使用畫面顏色為灰色的視頻進(jìn)行測(cè)試時(shí),即使視頻中出現(xiàn)輪船,檢測(cè)器也不會(huì)進(jìn)行任何處理。該問題的出現(xiàn)是由于在進(jìn)行網(wǎng)絡(luò)設(shè)計(jì)時(shí),對(duì)于輪船顏色特征的融合不夠,融合的特征主要是形狀等低層特征;2)檢測(cè)中當(dāng)輪船目標(biāo)之間相互遮掩的頻率過高時(shí),檢測(cè)容易發(fā)生抖動(dòng)。這是由于算法沒能完全解決輪船相互遮擋、相互影響的問題所導(dǎo)致的?;谝曨l數(shù)據(jù)中上下幀之間的上下文環(huán)境關(guān)聯(lián)關(guān)系,如果引入幀間的數(shù)據(jù)關(guān)聯(lián)信息,對(duì)解決這一檢測(cè)器抖動(dòng)問題有很大的助益。幀間上下文信息在視頻檢測(cè)中的作用也是目前移動(dòng)目標(biāo)檢測(cè)的研究熱點(diǎn)。
參考文獻(xiàn):
[1] 程春玲,劉勝昔.基于BING與卷積神經(jīng)網(wǎng)絡(luò)的人臉檢測(cè)算法[J].南京郵電大學(xué)學(xué)報(bào):自然科學(xué)版,2017(6):1-7.
[2] 芮挺,費(fèi)建超,周遊,方虎生,朱經(jīng)緯.基于深度卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)[J].計(jì)算機(jī)工程與應(yīng)用,2016(13):162-166.
[3] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2017,40(6):1229-12.
[4] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[J]. Computer Science, 2013:580-587.
[5] He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition.[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,37(9):1904.
[6] Girshick R. Fast R-CNN[C]//IEEE International Conference on Computer Vision.IEEE,2015:1440-1448.
[7] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015:1-1.
[8] Redmon J, Farhadi A. YOLO9000: Better, Faster, Stronger[J].2016:6517-6525.
[9] Wei L, A. Dragomir: SSD: Single ShotMulti- BoxDetector. arXiv preprint arXiv: 1512.02325v5,2016.
[10] Lecun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J].Neural Computation, 2014,1(4):541-551.