亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學習的物體檢測

2018-11-08 02:32:32張開昕

電子制作 2018年20期

關鍵詞：候選框物體卷積

張開昕

（鄭州外國語新楓楊學校，河南鄭州，450000）

1 概述

■1.1 研究背景與意義

計算機視覺技術在不斷地發(fā)展與進步，人們希望計算機可以代替人類又快又準地完成一件又一件的工作，深度學習便成了計算機視覺領域越來越火熱和成熟的部分之一。欲使計算機可以同人一樣能夠用視覺獲取各種圖像信息并理解，硬件上用了各種傳感器。而我們希望研究計算機視覺技術最終使其能夠分析并處理圖像以適應各種環(huán)境。那么，在計算機讀到圖像或視頻之后，對目標進行檢測便成了接下來的重中之重。

人們希望深度學習能夠在某些方面有突破，于是就出現(xiàn)了Google旗下人工智能程序“AlphaGo”，它在2016年3月成功擊敗了韓國圍棋職業(yè)九段選手李世石，并取得了4∶1的好成績。人們希望深度學習能夠幫助警察排查路口，于是智能檢測違反交通規(guī)則并記錄車牌號碼的系統(tǒng)與智能識別犯罪嫌疑人并聯(lián)網(wǎng)報警的系統(tǒng)便應運而生。但是這些程序所依附的硬件不便移動，我們還在追求硬件與軟件結合的手邊運行系統(tǒng)。雖然如此，目標檢測研究很多，應用效果突出，但大多實際應用的要求高，實時性差。

■1.2 研究現(xiàn)狀

LBP在1994年被T.Ojala和M.Pietik?inen兩人提出。LBP具有旋轉不變性和灰度不變性等優(yōu)點提取的是圖像的局部紋理特征。用LBP可以區(qū)分紋理、人腦特征提取等。原理是根據(jù)像素周邊8個臨近像素的灰度值，和中心灰度值比較，得到八位編碼即大于為1小于為0，然后根據(jù)這樣的編碼的特征統(tǒng)計直方圖作為輸入圖片的特征做分類。AlexNet是具有歷史意義的一個網(wǎng)絡結構，在之前，深度學習已經(jīng)沉寂了很久。在2012年AlexNet 在ImageNet圖像分類競賽中，top-5錯誤率比上一年的冠軍下降了十個百分點，而且遠遠超過當年的第二名。R-CNN是將CNN（卷積神經(jīng)網(wǎng)絡）應用到目標檢測領域的一個里程碑，由年輕有為的Ross Girshick提出，借助CNN良好的特征提取和分類性能，通過候選區(qū)域提取方法實現(xiàn)目標檢測問題的轉化。但R-CNN占用空間大，容易造成圖片中的信息丟失，同時會造成一些計算浪費。Fast R-CNN主要貢獻在于對R-CNN進行加速，主要是將深度網(wǎng)絡和后面的SVM（支持向量機）分類兩個階段整合到一起，使用一個新的網(wǎng)絡直接做分類和回歸。它是使用選擇性搜索算法，找出所有的候選框，這個也非常耗時。 Faster R-CNN加入了一個提取邊緣的神經(jīng)網(wǎng)絡，將RPN（候選區(qū)域提取網(wǎng)絡）放在最后一個卷積層的后面，RPN直接訓練得到候選區(qū)域?？偟膩碚f，從R-CNN,Fast R-CNN, Faster R-CNN發(fā)展來，基于深度學習目標檢測的流程變得越來越精簡，精度越來越高，速度也越來越快?？梢哉f基于候選區(qū)域的R-CNN系列目標檢測方法是當前目標檢測技術領域最主要的一個分支。Yolo算法采用一個單獨的CNN模型實現(xiàn)end-to-end（端到端）的目標檢測，首先將輸入圖片調(diào)整到448x448，然后送入CNN網(wǎng)絡，最后處理網(wǎng)絡預測結果得到檢測的目標。相比R-CNN算法，其是一個統(tǒng)一的框架，其速度更快。Yolo采用卷積網(wǎng)絡來提取特征，然后使用全連接層來得到預測值。Yolo算法可以在較高的mAP（平均準確率）上達到較快的檢測速度，但是相比Faster R-CNN，Yolo的mAP稍低，但是速度更快。所以。Yolo算法算是在速度與準確度上做了折中。Yolo的泛化能力強，在做遷移時，模型魯棒性高。但Yolo各個單元格僅僅預測兩個邊界框，而且屬于一個類別。對于小物體，Yolo的表現(xiàn)會不如人意。Yolo對于在物體的寬高比方面泛化率低，就是無法定位不尋常比例的物體。當然Yolo的定位不準確也是很大的問題。

2 目標檢測

本文使用自己構建的數(shù)據(jù)集，主要包括在北京五環(huán)路上采集的10000張圖片作為訓練集，3000張圖片作為測試集。

目標檢測的一般過程：首先獲得需要訓練以及測試的數(shù)據(jù)集，一般以6∶2∶2的比例將所有的數(shù)據(jù)劃分為訓練集，驗證集以及測試集，接下來對數(shù)據(jù)做預處理，比如將數(shù)據(jù)的類別做成網(wǎng)絡想要的格式，對于某些任務需要將圖像歸一化到同一個尺寸。第三步需要對數(shù)據(jù)做增強，主要方法包括圖像的隨機裁剪，隨機平移，隨機的翻轉等。第四步是將數(shù)據(jù)送入網(wǎng)絡中，用設計好的方法進行訓練以及預測，相關方法在下文詳細的進行介紹。

3 目標檢測方法

目前基于深度學習的目標檢測算法主要包括兩種類型，第一種是端到端的算法，這樣的算法速度比較快，但是準確率不夠高，主要產(chǎn)生的候選框比較多，造成了大量的樣本不均衡的現(xiàn)象，如SSD[3],Yolo[4]等。第二種是兩步的方法，首先第一步使用某些算法產(chǎn)生候選的框，第二步對候選的框進行分類，以區(qū)分真正的物體以及背景等，這樣的算法準確率比較高但是速度比較慢，如Fast R-CNN[1]，F(xiàn)aster R-CNN[2]等。

■3.1 RFCN

R-FCN是一種分兩步進行目標檢測的算法，在Faster R-CNN的基礎上改進而來，主要包括兩步，第一步產(chǎn)生候選的區(qū)域，第二步對候選區(qū)域進行分類。產(chǎn)生候選區(qū)域的算法，遵循Faster R-CNN的設計，同樣使用RPN（候選區(qū)域提取網(wǎng)絡）來提取候選區(qū)域，在這一步中我們只需要檢測出ROI（感興趣區(qū)域）中是否存在物體即可，不關心物體的真正類別是什么，因此在這一步的訓練過程中所使用的類別只有正類以及負類，在分類的同時回歸物體框的左下角的坐標以及物體的長和寬。最近的研究表明，越深的網(wǎng)絡對于圖像分類以及檢測來說效果越好，但是網(wǎng)絡越深了以后網(wǎng)絡越難收斂，同時由于梯度反傳的時候由于網(wǎng)絡過深可能會造成梯度消失的問題，ResNet的出現(xiàn)同時解決了如上的兩個問題，因此本文選擇ResNet作為RPN的基礎網(wǎng)絡，和其他的論文一致，同樣使用在ImageNet上訓練好的參數(shù)對網(wǎng)絡進行初始化，刪除最后的全連接層，并且講最后一個卷積換成了1024的1×1的卷積。

圖1

接下來，我們獲得了ROI，同時第二個網(wǎng)絡的基礎網(wǎng)絡使用的同樣是ResNet101，我們將圖片輸入ResNet101之后，會在最后的卷積層獲得一個不固定大小的特征圖，之所以不固定是由于我們使用訓練的圖像的尺寸本身不固定。然后為了節(jié)約計算成本，直接將獲得到的ROI映射到特征圖上去，這樣我們就可以獲得ROI的特征圖了，但是同樣由于ROI的大小是不一致的，因此這里仍然存在著特征圖大小不一致的問題。在Faster R-CNN中通過ROI 池化來解決圖像尺寸不固定對后續(xù)的分類以及定位困難的問題。這樣做的缺點是無法生成對位置敏感的特征圖，因此檢測的效果一直不是非常好，RFCN在最后一個卷積生成特征圖的時候，生成了k×k×（C+1）個特征圖，其中k表示我們最終想要獲得的固定尺寸的特征圖的大小，C表示需要預測的物體的類別，之所以加1是因為有背景類的存在，這樣對于最終想要獲得的特征圖我們都有C+1個特征圖來表示一塊區(qū)域，如圖1所示，對于第一個C+1個特征圖，主要負責預測左上角的位置的特征，即只扣出左上角的一部分作為新的特征圖的一部分，以此類推，這樣我們可以獲得C+1個最終的特征圖，然后將C+1個特征圖中的每一個進行求和取平均，這樣就獲得了對于每一類的一個score，最后根據(jù)這個score去進行分類就可以獲得每一個ROI（感興趣區(qū)域）的類別了，關于候選框的預測，和Fast R CNN一致，在特征圖后添加4k×k個卷積核預測候選框。

■3.2 PVANet

RFCN在準確性已經(jīng)比大部分的網(wǎng)絡效果要好了，但是我們在實際的應用中發(fā)現(xiàn)，在很多對速度的要求比較高的場景中，RFCN遠遠達不到我們的要求。比如在自動駕駛的場景中，我們需要實時的對輸入的圖像進行預測，這樣我們才能針對不同的情況作出不同的決策。

之所以比較慢，往往是由于目前的很多網(wǎng)絡結構中有著大量的冗余存在。我們在觀察中發(fā)現(xiàn)，在一些比較淺的卷積層中，當前的卷積層的輸出往往是成對出現(xiàn)的，并且每一對的數(shù)正好近似于相反數(shù)，這樣我們就可以利用這一個特點來進行網(wǎng)絡的裁剪，本文做的操作是使用CRelu來作為非線性激活函數(shù)，也就是說將卷積層的卷積核的數(shù)量縮小為原來的一半，然后使用relu進行非線性激活，接下來簡單的將激活后的數(shù)值去反即可作為當前卷積層的輸出，這樣整個網(wǎng)絡的計算量縮小為原來的一半大小。

另外基礎網(wǎng)絡的選擇中，PVANet使用Inception的結構，之所以選擇Inception的結構是因為，一個Inception的模塊中包含幾個不同的卷積快，而且這幾個卷積塊所具備的感受野是不同的，這樣我們在檢測任務中就可以檢測出不同大小的物體，小的卷積核所能看到的視野比價小因此可以檢測比較小的物體，大的卷積核所能看到的視野比較大，因此可以檢測比較大的物體，另外由于最近幾年ResNet在圖像分類以及目標檢測中的優(yōu)秀的表現(xiàn)，PVANet在Inception結構的基礎上添加了捷徑（short cut）以增加網(wǎng)絡的擬合能力。

圖2

整個網(wǎng)絡結構如圖2所示，輸入圖像的尺寸是不固定大小的，后面使用一個卷積以及一個池化層將特征圖的尺寸迅速縮減到原圖大小的1/4，這樣可以降低網(wǎng)絡的計算量，然后后面是7個帶CRelu的卷積以及8個上文中介紹的Inception模塊，為了增加網(wǎng)絡預測不同大小目標的能力，這里使用多個卷積層的輸出作為當前層的特征圖來進行ROI池化以及候選框的預測和候選框的分類。最終我們可以獲得多個候選框以及對應的類別。

4 實驗結果

圖3

圖4

本文使用的硬件環(huán)境是一塊Titan X GPU，顯存為12GB。軟件環(huán)境為，Ubuntu16.04系統(tǒng)，修改版caffe。實驗的詳細配置如下，由于顯存的限制，每個batch中只處理兩張圖像，每一幅圖像產(chǎn)生64個候選框。學習率為0.01，正則化參數(shù)為0.0001。部分實驗結果如圖3和圖4所示。

5 總結與展望

目標檢測在我們的日常生活中的應用越來越多，同時由于硬件技術的進步，使用深度學習解決目標檢測任務在我們的生活中也變得越來越普遍。目標檢測可以應用到多個領域當中，如自動駕駛，人臉識別，文字檢測等。

本文主要介紹了目標檢測的背景，意義，當前的研究現(xiàn)狀，以及目標檢測的多個方法，包括R CNN，F(xiàn)astRCNN，F(xiàn)asterRCNN等方法，最終使用mAP對網(wǎng)絡結構進行了評估。

但是，目前目標檢測的方法仍然存在著比較多的問題，主要包括：（1）誤檢的情況多；(2）對于特別大的物體的檢測效果仍然不是非常好。