胡靖逸 郭雪亮 李會軍 朱美強
摘要
R-CNN (Regions withConvolutional Neural NetworkFeatures)算法及其改進,大多數(shù)用于ImageNet,coco等學術競賽中,針對現(xiàn)實應用于現(xiàn)場檢測任務的優(yōu)化及研究相對較少。本文在RCNN結構上,提出了在現(xiàn)實場景數(shù)字檢測任務中,基于經(jīng)典圖像處理技術完成候選框提取的思路,可極大提高目標檢測效率,使其能夠完成實時檢測任務。
【關鍵詞】實時目標檢測 深度學習
1引言
Ross Girshick在2014年于CVPR發(fā)表論文《Rich feature hierarchies for Accurate ObjectDetection and Segmentation》,第一次將在圖像分類任務中表現(xiàn)優(yōu)異的卷積神經(jīng)網(wǎng)絡應用于目標檢測當中,該檢測算法即R-CNN(Regionswith Convolutional Neural Nerwork FeatureS).
但該算法也存在明顯缺陷,檢測效率底下,無法應用于實時檢測任務當中。隨后Ross Girshick嘗試對其進行改進,提出了Fast-RCNN算法,F(xiàn)aster-RCNN算法等,用來提升檢測速度。但即便如此,基本配置的個人電腦及工控機仍然難以滿足計算需求。在處理現(xiàn)實場景數(shù)字檢測任務時,本文提出了基于經(jīng)典圖像處理技術完成候選框提取的思路,可極大提高目標檢測效率,使其能夠完成實時檢測任務。
2 R-CNN算法介紹
2.1候選框提取
在物體識別與定位領域,最傳統(tǒng)的方法是基于窮舉性搜索。但這種方法計算量大,非常低效。尤其在超高分辨率的遙感圖像中,采用基于窮舉性搜索的物體識別與定位算法,將會是一件令人十分頭痛惱火的事情。此時,若能過濾掉一些無用的box將會節(jié)省大量時間。這就是Selective Search(選擇性搜索)的優(yōu)點,選擇性搜索( Selective Search)綜合了蠻力搜索( Exhausticve Search)和分割(Segmentarion)的方法,意在找到可能的目標位置進行物體的識別。
其他在R-CNN框架下用于候選框處理的算法還有Edge Boxes,Bing, Geodesic等,各算法效果比較可參考J Hosang的論文[3]。
2.2卷積神經(jīng)網(wǎng)絡
20世紀60年代,Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時發(fā)現(xiàn)其獨特的網(wǎng)絡結構可以有效地降低反饋神經(jīng)網(wǎng)絡的復雜性,繼而提出了卷積神經(jīng)網(wǎng)絡( Convolutional Neural Networks, CNN)?,F(xiàn)在,CNN已經(jīng)成為眾多科學領域的研究熱點之一,特別是在模式分類領域,由于該網(wǎng)絡避免了對圖像的復雜前期預處理,可以直接輸入原始圖像,因而得到了更為廣泛的應用。
通常由卷積層、池化層、全連接層、分類器等組成,而網(wǎng)絡結構、模型參數(shù)等可具體設計。常用的網(wǎng)絡模型包括LeNet,AlexNet,ResNet等。
3候選框提取算法改進
R-CNN框架使用通用性強的SelectiveSearch算法做候選框提取算法,但在現(xiàn)實環(huán)境當中,檢測目標的圖像特征相對固定,仍舊使用Selective Search算法會造成大量冗余。本文的中心思路是根據(jù)待檢測目標的圖像特點,使用傳統(tǒng)圖像處理算法有針對性地提取圖中候選框??蓸O大的減少候選框提取數(shù)量。在此思路指導下,本文設計了基于邊緣特征的候選框提取算法用于實驗測試,在現(xiàn)實項目使用過程中可借鑒。
基于邊緣特征的候選框提取算法使用Canny算子提取圖像中的邊緣特征。首先通過高斯卷積對圖像進行高斯平滑處理,再是對平滑處理后的圖像按照Sobel濾波器進行微分操作,得到梯度圖,然后利用非極大抑制排除非邊緣像素,最后用滯后值查找圖像邊緣點,得到了圖像的邊緣特征。根據(jù)劉少華的論文,滯后閾值選取是提取邊緣特征的關鍵,既要保證能夠檢測出重要信息,又能夠抑制噪聲的影響。之后,使用最小包圍矩形獲取輪廓,在此過程中,可用矩形寬高比、面積等信息對輪廓進行篩選。篩選后所得矩形輪廓即為提取獲得的候選框。
4實驗測試
4.1實驗環(huán)境
本文遇到的現(xiàn)實場景數(shù)字檢測任務場景為全國機器人大賽RoboMasters的能量機關系統(tǒng),其中需要通過計算機視覺識別出九宮格屏幕中每一格內的手寫體數(shù)字,傳遞給機器人進行目標打擊。所用卷積神經(jīng)網(wǎng)絡結構為LeNet。分別在三段視頻中使用SelectiveSearch算法與基于邊緣特征的候選框提取算法進行候選框提取與內容識別。
4.2實驗結果
在測試實驗中,邊緣檢測算法準確提取出了所需要檢測的九宮格。由表1,表2可知,在各段測試視頻中,采用基于邊緣特征的候選框提取算法提取候選框效率遠遠高于SelectiveSearch算法,且準確率符合要求。5結論
R-CNN無法直接用于現(xiàn)實檢測任務,其檢測每張圖片花費時間較長,無法在實時檢測任務中使用。本文提出改進思路:在現(xiàn)實場景數(shù)字檢測任務中,檢測目標自身具備一定圖像特征,因此在R-CNN框架上設計了基于邊緣特征的候選框提取算法進行候選框提取,代替通用性強的Selective Search算法。經(jīng)過實驗測試,可極大減少所提取候選框數(shù)量,從而使R-CNN方法能夠現(xiàn)實運用于現(xiàn)實場景數(shù)字檢測任務當中。
參考文獻
[l]Trevor Darrell Ross Girshick, JeffDonahue. Rich feature hierarchiesfor accurate object detection andsegmentation[C]. In CVPR, pages 580-587, 2014.
[2]T. Gevers J. R.R.Uijlings,K.E.A.van de Sande. Selective search forobject recognition. InternationalJournal of Computer Vision,104 (2):154 -171, 201 3.
[3]P. Dollar B. Schiele J. Hosang, R.Benenson. What makes for effectivedetection proposals. In IEEETransactions on Pattern Analysis andMachine Intelligence, 2015.