亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        改進YOLOv1 的視頻圖像運動目標檢測

        2022-08-15 06:35:38梅健強黃月草
        關(guān)鍵詞:特征提取邊界卷積

        梅健強,黃月草

        (1.天津職業(yè)技術(shù)師范大學(xué)電子工程學(xué)院,天津 300222;2.天津職業(yè)技術(shù)師范大學(xué)理學(xué)院,天津 300222)

        視頻圖像運動目標檢測是在視頻數(shù)據(jù)流中提取前景目標并對其進行定位的技術(shù),是視頻運動目標跟蹤的基礎(chǔ)。近年來,隨著計算機和視頻采集硬件水平的不斷提高以及信息技術(shù)的迅速發(fā)展和廣泛應(yīng)用,視頻圖像運動目標檢測逐漸成為人工智能與計算機視覺領(lǐng)域的研究熱點,在自動駕駛、智慧城市、智能醫(yī)療和視頻監(jiān)控等領(lǐng)域具有廣闊的應(yīng)用前景[1-3]。

        傳統(tǒng)目標檢測算法,如梯度直方圖(histogram of oriented gradient,HOG)算法[4]、局部二值模式(local binary patterns,LBP)特征算法[5]、尺度不變特征(scale invariant feature transform,SIFT)檢測算法[6-7]等,主要針對數(shù)據(jù)所具備的固有特征人工設(shè)計數(shù)學(xué)模型進行特征提取,并通過與比例模板進行比對,實現(xiàn)目標的檢測與定位,其特征提取方法和比例模板的設(shè)計對設(shè)計人員的經(jīng)驗和專業(yè)知識要求較高,且應(yīng)用場景單一,泛化能力較弱,存在模型求解算法復(fù)雜、目標檢測速度慢和平均檢測精度低等諸多問題。

        隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,出現(xiàn)了諸如(regional convolutional neural network,R-CNN)[8]和Faster R-CNN[9]等雙階段(two-stage)目標檢測算法,提高了平均檢測精度和魯棒性,但這些算法網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,計算量較大,而隨后出現(xiàn)的YOLO 算法[10-11]是典型的單階段(one-stage)目標檢測算法,其將整幅圖像作為輸入,直接在輸出層回歸目標的位置和所屬的類別。本文基于改進YOLOv1 搭建運動目標檢測的深度學(xué)習(xí)框架,進而優(yōu)化對不同尺度特征信息的傳遞,并在穩(wěn)定輸出結(jié)果的同時,加快訓(xùn)練速度。

        1 運動目標檢測

        1.1 傳統(tǒng)檢測算法

        在深度神經(jīng)網(wǎng)絡(luò)得到廣泛應(yīng)用之前,傳統(tǒng)目標檢測算法流程主要包含圖像分割、特征提取和目標檢測3 個部分。傳統(tǒng)算法通過選擇合適的數(shù)學(xué)模型和分類器,結(jié)合目標固有特征或人工設(shè)計的特征實現(xiàn)相應(yīng)的計算和分類功能,算法流程相對復(fù)雜、泛化能力較差??勺儾糠帜P停╠eformable parts model,DPM)[12]是典型的傳統(tǒng)運動目標檢測算法之一,其采用經(jīng)典的滑動窗口檢測方式,通過構(gòu)建尺度金字塔在各個尺度搜索,實現(xiàn)目標檢測功能。

        1.2 基于深度學(xué)習(xí)的目標檢測算法

        基于深度學(xué)習(xí)目標檢測算法[13-14]主要分為雙階段和單階段2 個類別。雙階段目標檢測的典型流程如圖1 所示,主要包括圖像預(yù)處理、區(qū)域建議、分類和回歸、輸出結(jié)果4 個環(huán)節(jié),其中區(qū)域建議又可細分為區(qū)域選擇和特征提取等子環(huán)節(jié)。

        圖1 雙階段目標檢測算法流程

        區(qū)域卷積神經(jīng)網(wǎng)絡(luò)R-CNN 和Faster R-CNN 是2 種典型的雙階段檢測算法,其檢測流程主要包括輸入圖像、區(qū)域選擇、特征提取和區(qū)域分類4 個步驟。R-CNN 經(jīng)過一系列卷積運算進行自主特征提取和分類回歸,算法的實時性、準確度等相比傳統(tǒng)方法均有一定提升,但由于每個候選框都采取同樣的方式,存在大量區(qū)域重疊,導(dǎo)致計算量大和目標檢測速度慢的問題,而Faster R-CNN 對整幅圖像進行特征提取,候選框之間的特征圖是可共享的,相比R-CNN 基于區(qū)域建議對候選框進行特征提取后再進行分類和回歸的思路,不僅減少了計算量,還提高了目標檢測速度。

        在雙階段目標檢測算法的基礎(chǔ)上,單階段目標檢測算法摒棄區(qū)域建議環(huán)節(jié),通過對輸入圖像進行卷積操作后直接分類和回歸的做法實現(xiàn)了檢測速度的進一步提高。

        2 改進YOLOv1 的視頻圖像運動目標檢測

        2.1 算法原理

        YOLO 算法是典型的單階段目標檢測算法,其將目標檢測問題等效于回歸問題,算法對輸入的整張圖像進行分析和處理,得到目標相應(yīng)邊界框的坐標信息(x,y,w,h)、置信度(confidence)和類別概率。YOLO 算法首先重新調(diào)整輸入圖像的大小,隨后將整幅圖像送入到卷積層進行卷積運算,并在采用非極大線性抑制算法處理運算結(jié)果后得到最終輸出。

        YOLO 的檢測系統(tǒng)檢測圖如圖2 所示,YOLOv1 算法將輸入的整幅圖像分成S×S 個網(wǎng)格,若某個對象(object)的中心落在某個網(wǎng)格中,該網(wǎng)格就負責(zé)預(yù)測此object。

        圖2 YOLO 的檢測系統(tǒng)檢測圖

        算法網(wǎng)絡(luò)輸入圖像大小為224×224,輸出結(jié)果為S×S×(5×B+C)張量,S 為劃分網(wǎng)格數(shù),B 為每個網(wǎng)格負責(zé)的邊框個數(shù),C 為類別個數(shù)。每個網(wǎng)格有B 個邊界框,每個邊界框?qū)?yīng)一個分值即置信度,代表該處是否有物體及定位準確度。計算公式為

        式中:Pr(object)為邊界框含有目標的可能性大小,當該邊界框是背景時(即不包含目標),Pr(object)=0;當該邊界框包含目標時,Pr(object)=1;邊界框的準確度可以用預(yù)測框與實際框的交并比(intersectionoverunion,IOU)來表征,記為

        在檢測目標時,YOLOv1 算法通過每個網(wǎng)格預(yù)測的類別條件概率和邊界框預(yù)測的自信度信息得到每個邊界框的類概率自信得分,隨后通過設(shè)置合適的閾值與類概率自信得分進行對比,并在對得分高于閾值的邊界框進行非極大值抑制(non-maximum suppression,NMS)[15]后得到目標檢測結(jié)果。

        2.2 網(wǎng)絡(luò)結(jié)構(gòu)

        YOLOv1 的行人目標檢測網(wǎng)絡(luò)結(jié)構(gòu)模型[10]總共包含26 個卷積層,其中前24 個卷積層進行卷積運算提取特征并進行回歸運算,最后2 個全連接層輸出檢測結(jié)果。為了提高系統(tǒng)性能,本文采用如圖3所示的ResNet50殘差網(wǎng)絡(luò)作為框架的特征提取部分,并在去掉該網(wǎng)絡(luò)最后2 層的基礎(chǔ)上,連接YOLOv1 的最后4 個卷積層和2 個全連接層作為訓(xùn)練的網(wǎng)絡(luò)結(jié)構(gòu)。在輸出層中借助Sigmod 非線性激活函數(shù)提取有效的圖像信息,并在激活函數(shù)前通過加入BatchNorm 保證每一層神經(jīng)網(wǎng)絡(luò)的輸入具有相同分布,進一步提高網(wǎng)絡(luò)的檢測能力和速度。改進YOLOv1 網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示。

        圖3 改進YOLOv1 網(wǎng)絡(luò)結(jié)構(gòu)

        3 實驗結(jié)果和分析

        3.1 數(shù)據(jù)和度量參數(shù)

        本文通過PASCAL VOC2007 數(shù)據(jù)集和自行采集的實景數(shù)據(jù)對所提方法針對人像的檢測效果進行驗證。PASCAL VOC2007 是標準數(shù)據(jù)集,其內(nèi)部包含person、chair 等20 個小類,在運動目標檢測領(lǐng)域獲得了廣泛的應(yīng)用。自行采集的實景數(shù)據(jù)共包含308 張圖像和2 個視頻,其中主要包含汽車、自行車、行人、鳥和狗在內(nèi)的11 個類別。

        在實驗過程中,本文將PASCAL VOC2007 數(shù)據(jù)集的17 016 幅圖像作為訓(xùn)練集,并通過縮放、鏡像等圖像處理方式擴充訓(xùn)練數(shù)據(jù)集的數(shù)量,進一步提高網(wǎng)絡(luò)的泛化能力。此外,為了便于神經(jīng)網(wǎng)絡(luò)的處理和加快收斂速度,所有圖像數(shù)據(jù)在輸入網(wǎng)絡(luò)前均將尺寸調(diào)整為224×224,并進行相應(yīng)的數(shù)據(jù)歸一化處理。

        本文采用平均精度均值(mean average precision,mAP)和每秒傳輸幀數(shù)(frames per second,F(xiàn)PS)作為系統(tǒng)的評價指標。其中,F(xiàn)PS 為網(wǎng)絡(luò)模型每秒鐘檢測的圖片數(shù)量,評價系統(tǒng)目標檢測的實時性能,而平均精度均值反應(yīng)的是目標檢測結(jié)果的精確程度。目標檢測系統(tǒng)2 個評價指標分別為精確率(Precision)和召回率(Recall)參數(shù)。

        3.2 訓(xùn)練參數(shù)

        本文采用如表1 所示軟硬件配置搭建所提框架并進行相應(yīng)的訓(xùn)練和測試。

        表1 系統(tǒng)配置

        為避免學(xué)習(xí)率過大導(dǎo)致在全局最優(yōu)附近出現(xiàn)左右震蕩的現(xiàn)象,本文在訓(xùn)練過程中采用隨著迭代次數(shù)遞增而逐漸降低學(xué)習(xí)率的策略,盡快使系統(tǒng)達到全局最優(yōu)。初始學(xué)習(xí)率設(shè)置為0.001,當epoch 達到30時,調(diào)整學(xué)習(xí)率為0.000 1,當epoch 達到40 時,調(diào)整學(xué)習(xí)率為0.000 01。其他部分訓(xùn)練參數(shù)設(shè)置如表2 所示。

        表2 網(wǎng)絡(luò)訓(xùn)練參數(shù)

        3.3 實驗結(jié)果

        3.3.1 檢測結(jié)果分析

        PASCAL VOC2007 測試集數(shù)據(jù)的部分測試結(jié)果如圖4 至圖7 所示。

        圖4 PASCAL VOC2007 原圖

        通過對比可以看出,當目標大小不一、背景環(huán)境復(fù)雜和受光照遮擋影響的條件下,DPM 方法會出現(xiàn)一定的誤檢(圖5(a)和(b))和漏檢現(xiàn)象(圖5(c)和(d)),而基于Faster R-CNN 的方法與本文方法均可檢測出圖像中的對應(yīng)目標,但本文方法可以獲得更為精確的目標邊界,平均檢測精度更高,如圖6(a)和圖7(a)中所提取的目標邊界,以及圖6(d)和圖7(d)中所提取的目標邊界,而且Faster R-CNN 的方法在目標物體大小不一時,也會出現(xiàn)一定的誤檢問題,如圖6(b)中提取狗的邊界并誤識別為人,以及圖6(c)中提取自行車的邊界并誤識別為人。因此,本文所提基于改進YOLOv1 的目標檢測框架可以在PASCAL VOC2007測試集中達到較好的檢測效果。

        圖5 DPM 算法檢測結(jié)果

        圖6 Faster R-CNN 算法檢測結(jié)果

        圖8 至圖11 所示為自行采集數(shù)據(jù)集的部分測試結(jié)果存在遮擋、人像模糊、目標較小和背景復(fù)雜時不同方法的檢測效果。

        圖8 自采數(shù)據(jù)集原圖

        圖11 基于改進的YOLOv1 算法檢測結(jié)果

        通過對比可以看出,當背景環(huán)境復(fù)雜或受其他物體遮擋影響的條件下,DPM 方法會出現(xiàn)一定的漏檢問題(圖9(a)和(c))和誤檢(圖9(b)和(c)),而基于Faster R-CNN 的方法與本文方法均可檢測出圖像中的對應(yīng)目標。但Faster R-CNN 方法在待檢測目標存在遮擋時,也會出現(xiàn)一定的誤檢或檢測邊界不正確的問題(圖10(a)和(d))。相比以上2 種算法,本文方法可以獲得更為精確的目標邊界且平均檢測精度更高。但當圖像中存在遮擋,尤其是背景比較復(fù)雜或被相似目標遮擋時,本文方法所提取的目標邊界會出現(xiàn)如圖11(a)的復(fù)檢問題以及圖11(b)所示的漏檢問題。

        圖9 DPM 算法檢測結(jié)果

        圖10 Faster R-CNN 算法檢測結(jié)果

        本文所提目標檢測算法在自采視頻數(shù)據(jù)的部分檢測結(jié)果如圖12 所示。

        圖12 視頻行人目標檢測效果

        檢測結(jié)果發(fā)現(xiàn),在視頻背景環(huán)境復(fù)雜、運動目標位置和大小變化頻繁的情況下,本文所提方法可以實現(xiàn)對前景目標物體檢測。而本文方法對圖像序列中一名由遠及近逐漸進入場景的成年人的檢測結(jié)果不理想,尤其是在圖12(b)中出現(xiàn)了漏檢,在圖12(c)中出現(xiàn)了誤檢。

        存在漏檢的主要原因是當2 個目標存在遮擋時,系統(tǒng)認為2 個物體是1 個目標,進而在1 個網(wǎng)格中只預(yù)測了1 個框。而存在誤檢的主要原因是2 個目標距離較近時,系統(tǒng)誤認為是1 個目標,屬于待檢測的同一類別。解決以上問題的主要思路還是需要擴大網(wǎng)絡(luò)訓(xùn)練數(shù)據(jù)的類別和相同類別的數(shù)據(jù)內(nèi)容,從而進一步改善網(wǎng)絡(luò)的容錯率和穩(wěn)定性。

        3.3.2 性能分析

        本文所提目標檢測系統(tǒng)損失函數(shù)包含坐標預(yù)測誤差、自信度誤差和物體類別概率誤差3 部分,表達式為

        Loss 損失函數(shù)式(3)是邊界框?qū)捀哳A(yù)測誤差和框中心點誤差,Ilnoobjij的約束意味著只有較大IOU 的邊界框數(shù)據(jù)會被記入誤差,λcoord用來調(diào)節(jié)邊界框位置誤差的權(quán)重。

        式中:Ilobjij為網(wǎng)格i 的第j 個bounding box 是否存在目標,若存在目標,則值為1,否則為0;Ilobjij表示是否有目標中心落在網(wǎng)格i 中,若在網(wǎng)格中心,則值為1,否則為0。

        Loss 損失函數(shù)式(4)為包含目標的格子置信度誤差和不含目標的網(wǎng)格置信度誤差,其中包含目標的網(wǎng)格置信度誤差同樣用Ilnoobjij來限制將最接近真實框的bounding box 數(shù)據(jù)記入誤差,但對于不含目標的網(wǎng)格,用λnoobj調(diào)低不含目標網(wǎng)格的置信度誤差權(quán)重;Loss 損失函數(shù)式(5)為分類預(yù)測誤差,Ilobjij表示只有存在目標網(wǎng)格時才記入誤差。

        式中:Ilnoobjij為網(wǎng)格i 的第j 個bounding box 中是否存在目標,若不存在目標,則值為1,否則為0。

        基于PASCAL VOC2007 訓(xùn)練的網(wǎng)絡(luò)損失函數(shù)曲線如圖13 所示。

        圖13 基于PASCAL VOC2007 訓(xùn)練的網(wǎng)絡(luò)損失函數(shù)曲線

        從圖13 中可以看出,在本文參數(shù)設(shè)定模式下,隨著迭代次數(shù)的增加,算法的損失值在不斷減小,當整體迭代次數(shù)超過40 后,系統(tǒng)損失值基本穩(wěn)定,此時系統(tǒng)的檢測效果也趨于穩(wěn)定。

        基于PASCAL VOC2007 測試集的檢測速度(FPS)和平均檢測精度(mAP)對比如表3 所示。

        表3 基于PASCAL VOC2007 測試集的檢測速度(FPS)和平均檢測精度(mAP)對比

        由于本文所提方法和YOLOv1 均為單階段目標檢測算法,其mAP 略低于典型的雙階段目標檢測算法FasterR-CNN,一方面,本文所提方法的mAP 較YOLOv1提高了4.57%,進一步縮小了與Faster R-CNN 的差別;另一方面,本文所提算法的FPS 較YOLOv1 框架又提高了4.44%,進一步擴大了在FPS 上的優(yōu)勢,可以更好地滿足視頻圖像運動目標檢測的實時性和精度要求。

        4 結(jié) 語

        本文針對視頻圖像中運動目標位置和大小變化頻繁的特點,提出了基于改進YOLOv1 的視頻運動目標檢測框架,該框架采用ResNet50 進行特征提取,通過增加卷積層和全連接層優(yōu)化不同尺度特征信息的傳遞,通過Sigmoid 層和BN 層在穩(wěn)定輸出結(jié)果的同時,加快訓(xùn)練速度。PASCAL VOC2007 數(shù)據(jù)集和實景視頻數(shù)據(jù)的測試結(jié)果表明,相比原始YOLOv1 網(wǎng)絡(luò),本文方法的FPS 和mAP 分別提高了4.44%和4.57%。此外,在目標數(shù)目較多、光照等外界因素影響下,相比其他經(jīng)典運動目標檢測算法,本文方法能夠?qū)崿F(xiàn)較好的檢測效果且檢測精度較高,滿足視頻圖像運動目標檢測的實時性和精度要求。

        猜你喜歡
        特征提取邊界卷積
        拓展閱讀的邊界
        基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        基于Daubechies(dbN)的飛行器音頻特征提取
        電子制作(2018年19期)2018-11-14 02:37:08
        論中立的幫助行為之可罰邊界
        基于傅里葉域卷積表示的目標跟蹤算法
        Bagging RCSP腦電特征提取算法
        基于MED和循環(huán)域解調(diào)的多故障特征提取
        “偽翻譯”:“翻譯”之邊界行走者
        一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
        中文字幕天天躁日日躁狠狠躁免费 | 亚色中文字幕| 嗯啊哦快使劲呻吟高潮视频| 国产精品一区高清在线观看| 中文字幕日本人妻一区| 亚洲中文字幕一区二区在线| 无套内谢老熟女| 国产精品福利视频一区| 亚洲中文欧美日韩在线| 国产女主播强伦视频网站| 亚洲一区二区精品在线看| 亚洲中字永久一区二区三区| 日本av一区二区三区视频| 大陆国产乱人伦| 无码av免费精品一区二区三区| 亚洲色大成网站www尤物| 国产乱子伦农村xxxx| 久久无人码人妻一区二区三区| 精品国产日韩亚洲一区在线| 中文字幕一区二区三区四区| 国产超碰人人做人人爽av大片 | 国产精品二区一区二区aⅴ污介绍| 日韩精品一区二区三区在线视频 | 久久人人爽爽爽人久久久| 久久久久亚洲av无码专区首jn| 国产国语熟妇视频在线观看| 久久久国产精品福利免费| 青青草免费激情自拍视频| 青青草激情视频在线播放| 丰满少妇呻吟高潮经历| 亚洲欧美一区二区三区| 国产啪精品视频网给免丝袜| 亚洲视频一区二区三区免费| 黄片视频免费在线播放观看| 国产成人精品一区二区不卡| 麻豆AⅤ精品无码一区二区| av在线播放一区二区免费| 人人妻人人做人人爽| 大地资源中文在线观看官网第二页 | 少妇被爽到自拍高潮在线观看| 色婷婷精品大在线视频|