亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于YOLO算法的多類目標識別

        2019-06-03 06:52:14于秀萍呂淑平陳志韜
        實驗室研究與探索 2019年3期
        關鍵詞:模型

        于秀萍, 呂淑平, 陳志韜

        (哈爾濱工程大學自動化學院,哈爾濱150001)

        0 引言

        目標識別是計算機視覺領域中的一個新興的應用方向,也是近年來的研究熱點之一。隨著中國城市化的進程不斷加快,很多城市提出了要建設“智慧城市”,視頻監(jiān)控設備作為智慧城市的眼睛,將在未來發(fā)揮重要的作用。人們希望監(jiān)控設備能夠自動捕捉到視頻中的異常情況,并能夠最大限度降低誤報和漏報現(xiàn)象,以最快、最佳的方式發(fā)出警報和提供有用信息。這就需要對視頻中各種各樣的目標進行快速、準確的識別。

        早期的目標識別方法大多是利用尺度不變特征變換(Scale-invariant Feature Transform,SIFT)進行物體檢測,利用方向梯度直方圖(Hist Ogram of Oriented Gradients,HOG)進行行人檢測等。例如利用 HOG+LBP特征處理行人遮擋,提高檢測準確率[1]。上述方法都是將提取到的特征輸入到分類器中來進行識別,本質上是由人手工設計的特征工程。手工設計特征工程存在費時費力,對專業(yè)領域知識要求高,泛化性能差等問題。由于卷積神經(jīng)網(wǎng)絡具有優(yōu)異的特征學習能力,越來越多的研究者開始利用卷積神經(jīng)網(wǎng)絡來完成目標識別任務。

        深層的卷積神經(jīng)網(wǎng)絡在不同的視覺識別任務中取得了巨大的成功[2-5]。在多類目標識別任務上,提出了 R-CNN[6]、 SPP-NET[7]、 Fast-RCNN[8]、 Faster-RCNN[9]、SSD[10]、YOLO[11]等多種算法。其中 YOLO是目前識別效果較好的算法之一。

        本文以tiny-yolo為基礎設計了一個包含15個卷積層的神經(jīng)網(wǎng)絡模型m-yolo,實現(xiàn)多個類別的目標進行識別。改進了tiny-yolo的網(wǎng)絡結構,增加了3×3卷積層的數(shù)量,并在兩個3×3卷積層中間加入了1×1卷積層 NIN[12](Network in Network),使用 voc2007 數(shù)據(jù)集對改進的效果進行了測試。

        1 神經(jīng)網(wǎng)絡模型m-yolo設計

        1.1 m-yolo的網(wǎng)絡結構設計

        tiny-yolo是一種微型的YOLO,僅由9個卷積層和6個最大池化層構成,參數(shù)量僅有標準YOLO模型的22%[11]。為了提高識別的準確性和定位的精確性,對tiny-yolo的網(wǎng)絡結構進行改進,改進后的模型用myolo表示。m-yolo的網(wǎng)絡基于darknet框架實現(xiàn),包括15個卷積層和6個最大池化層。m-yolo網(wǎng)絡的結構如表1所示。

        表1 m-yolo的網(wǎng)絡結構

        所有卷積層的激活函數(shù)都設置為Leaky函數(shù):

        由表1可以看到,改進后的網(wǎng)絡增加了3×3的卷積層,加入3×3的卷積層可以提高特征提取的能力,但是使模型的參數(shù)量有所增加。為了保證模型的識別速度,需要讓模型小型化,盡量壓縮參數(shù)量。為此加入了1×1的卷積層。1×1卷積層不會改變輸入圖像的維度,它的作用是實現(xiàn)多個特征映射的線性組合,壓縮或增加通道的數(shù)量,實現(xiàn)多通道的信息交互和整合。在3×3的卷積層的中間加入1×1的卷積層起到了降低參數(shù)量作用。例如,第8層輸入圖像的尺寸為52×52,通道數(shù)為128,卷積核尺寸為3×3,數(shù)量為128。在沒有第7層1×1卷積層的情況下,第8層的參數(shù)量為128×3×3×128=147 456。加入卷積核數(shù)量為64的1×1卷積層之后,總的參數(shù)量為1×1×128×643×3×64×128=81 920。參數(shù)量降低為原來的55.6%。參數(shù)的降低使層與層之間的連接稀疏化,減輕過擬合的同時減少了計算的復雜度,降低了訓練的難度。輸出層的維度為13×13×5×(20+5)。

        1.2 實驗數(shù)據(jù)

        使用voc2007和voc2012數(shù)據(jù)集進行m-yolo網(wǎng)絡模型的訓練和性能測試。數(shù)據(jù)集中包含有person,car,bicycle,motorbike,train,bus,cat,dog 等 20 類常見的物體,voc2007中包含了9 963張標注過的圖片,一共標注了24 640個物體。voc2012的訓練集包含了11 540張圖片,一共標注了27 450個物體。

        1.3 實驗環(huán)境

        實驗在Windows10環(huán)境下實現(xiàn),電腦的CPU型號為Intel(R)Core(TM)i5-7300HQ,GPU型號為NVIDIA GeForce GTX 1050Ti,顯存為4 GB,內存8 GB。設置動量常數(shù)β為0.9,權值衰減系數(shù)為0.000 5,每個batch訓練64個樣本,采用分段調節(jié)學習率的策略,初始學習率為0.001,steps分別設置為100,25 000,35 000,最大迭代次數(shù)40 200 次,scales分別設置為10,0.1,0.1。

        2 實驗結果與分析

        2.1 訓練結果

        實驗的loss函數(shù)下降散點圖如圖1、2所示。圖1是tiny-yolo模型的loss函數(shù)散點圖,可以看到迭代40 200次時模型基本收斂,loss約在0.7~1.4之間。圖2是m-yolo模型的loss函數(shù)散點圖,loss約在0.6 ~1.2之間。從收斂情況來看,模型訓練比較理想。

        圖1 tiny-yolo模型的loss函數(shù)散點圖

        圖2 m-yolo模型的loss函數(shù)散點圖

        2.2 m-yolo模型和tiny-yolo模型的性能對比

        兩種模型在voc2007的20種物體上的識別準確率如表2、3所示。對比表2、3可以發(fā)現(xiàn),m-yolo模型在所有的20類物體上的識別準確率都比tiny-yolo模型要高。提升最多的是對桌子(table)的識別,提高了14.36%。提升最少的是對瓶子(bottle)的識別,提高了 0.55%。

        表3 m-yolo模型在voc2007數(shù)據(jù)集上的測試結果 %

        3 討論

        在目標識別中有一些重要的指標:平均準確率(mAP),識別速度,查準率(precision),查全率(recall),平均交并比(avg IOU),平均識別時間(avg time)等。計算預測邊界框和實際邊界框的交并比IOU。當IOU>0.5定義為真正例;IOU<0.5定義為假正例;IOU=0.5定義為假反例[13-14]。用TP代表真正例,F(xiàn)P代表假正例,F(xiàn)N代表假反例,則查準率和查全率[15]的計算公式為:

        計算兩個模型的查全率(recall)和查準率(precision),平均識別率(mAP),平均 IOU,平均檢測時間等如表4所示。

        表4 查全率和查準率等指標

        從表4可以看出,m-yolo模型的查準率(precision)提高了 0.01,查全率(recall)提高了 0.1。查全率提高的幅度比較大,說明m-yolo模型的漏檢的數(shù)量明顯減少(將正例判成反例,即假反例FN)。myolo模型的 mAP從 tiny-yolo的44.02%提高到了51.04%,平均交并比(avg IOU)從 tiny-yolo 的41.83%提高到了43.60%。在識別速度方面,測試共使用了4 952張圖片,tiny-yolo模型識別一張圖片平均用時23.2 ms,m-yolo 模型識別一張圖片平均用時 23.8 ms。m-yolo的識別時間僅上升了0.6 ms。

        實驗表明,改進后的模型m-yolo在識別的準確性上,定位的精確性上與tiny-yolo相比均有了明顯的提升,同時平均識別時間僅上升了0.6 ms,識別的速度幾乎沒有下降。說明在m-yolo模型中加入的NIN結構達到了預期的效果,改進的方案有效可行。

        4 結語

        在tiny-yolo網(wǎng)絡結構的基礎之上,m-yolo增加了3×3卷積層的數(shù)量,并在兩個3×3卷積層中間加入了1×1卷積層。實驗表明,改進的方法在提高了模型性能的同時,有效的避免了識別時間大幅度的上升。YOLO算法為了提高識別的速度放棄了Region Proposal策略,直接對輸入圖像劃分格子導致對小目標識別效果差,可以嘗試找尋更好的方法來代替對輸入圖像劃分格子的方法。目前深度學習仍然處于快速發(fā)展的階段,不斷有新的算法提出,所以考慮對網(wǎng)絡的結構進行修改和優(yōu)化也是研究的方向之一。

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        日本熟妇人妻xxxxx视频| 国产人妖在线视频网站| 精品国产av一区二区三区四区| 在线观看精品视频网站| 正在播放一区| 亚洲av伊人久久综合性色| 国产极品大奶在线视频| 欧美性猛交xxxx三人| 两个黑人大战嫩白金发美女| 久久无码高潮喷水抽搐| 一道之本加勒比热东京| 欧美牲交videossexeso欧美| 少妇熟女视频一区二区三区| 国产精品女同学| 亚洲精品中文字幕一二三四| 亚洲av成人片在线观看| 成人性生交大片免费看r| 杨幂Av一区二区三区| 麻豆久久91精品国产| 三年片免费观看大全有| 亚洲免费视频播放| 黄色三级国产在线观看| 国产一区国产二区亚洲精品| 国产av丝袜旗袍无码网站| 亚洲女同精品一区二区久久 | 99精品电影一区二区免费看| 国产一级黄色av影片| 日韩不卡的av二三四区| 日本老熟妇50岁丰满| 日韩丝袜亚洲国产欧美一区| 国产在线一区二区三区不卡| 欧美性猛交xxxx免费看蜜桃| 精品久久无码中文字幕| 日本久久一区二区三区高清| 国产一品二品三品精品在线| 成人白浆超碰人人人人| 无码熟妇人妻AV不卡| 少妇被按摩出高潮了一区二区| 亚洲成av人片在线观看www| 亚洲午夜无码AV不卡| 激情五月六月婷婷俺来也|