亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于PDSSD改進型神經網絡的小目標檢測算法

        2021-01-15 08:29:36陸振宇詹天明戴玉亮
        計算機應用與軟件 2021年1期
        關鍵詞:金字塔空洞尺度

        王 鵬 陸振宇 詹天明 戴玉亮 蘆 佳

        1(南京信息工程大學電子與信息工程學院 江蘇 南京 210044) 2(南京審計大學信息工程學院 江蘇 南京 211815)

        0 引 言

        隨著科技的發(fā)展和進步,人們日常生活中接觸的設備越來越智能化,圖像識別作為智能設備的一個重要因素也獲得了長足的發(fā)展和進步。根據(jù)不同對象自動采取相對應的解決方案是一個智能設備必不可少的能力,而擁有一個高精準率的圖像識別算法對于智能化設備來說在定位對象方面如虎添翼。圖像識別是計算機對一幅圖像進行分析和計算之后,識別出所需要的目標和對象的技術,在算法上可以分為目標檢測,目標分類和通過數(shù)據(jù)庫匹配輸出目標身份三個部分。目標檢測作為圖像識別的首要部分有著舉足輕重的地位,必須將目標成功檢測才能進行識別,目標檢測的精度對最終目標識別的精度有很大的影響,因此目標檢測也一直是計算機視覺領域的熱門話題之一。

        1994年以來,目標檢測算法的研究從未間斷。時至今日目標檢測領域已經誕生了很多算法,如Haar特征加上Adaboost特征檢測[1-3],通過基于級聯(lián)分類模型的分類器和矩形特征來實現(xiàn)目標檢測,由于Haar特征僅僅使用了很弱的特征,用Haar特征做分類的檢測器也是弱分類器,且Haar特征的精度靠的是多個弱分類器來實行一票否決式推舉來提高命中率,因此Haar特征分類的性能有限,分類器的個數(shù)只能通過不斷嘗試才能確定。除此之外,還有Hog特征和Svm算法[4-6]。Hog檢測器沿用了最原始的多尺度金字塔加上滑窗的思路進行檢測,并在圖像提取中引入了區(qū)塊(Block)的概念,將相鄰的細胞單元歸并為一個Block,并在Block內對細胞單元特征進行局部歸一化,這樣可以進一步增強其光照不變性以及非線性表達能力。雖然Hog特征能較好地捕捉局部形狀信息,對幾何和光學變化都有很好的不變性,但對被遮擋的目標以及動作幅度過大的目標檢測都不是很理想。這些傳統(tǒng)的算法都可以實現(xiàn)目標檢測,但是效果不是很理想,不能滿足要求極高的目標檢測任務。隨著硬件條件的提升,目前深度學習在目標檢測領域有了突破性的發(fā)展,并且深度學習算法效果已經全面超越了傳統(tǒng)算法,因此深度學習算法更適合用于目標檢測。

        近年來,隨著目標檢測在各個領域的廣泛運用,在深度學習方面誕生了很多基于卷積神經網絡(CNN)的新算法。在這些算法中最引人注目的有兩個分支,一是雙階段檢測Region-based-CNN(R-CNN)[7]。R-CNN是深度學習在目標檢測領域真正意義上的第一個算法,其思路與傳統(tǒng)目標檢測類似,先尋找目標可能出現(xiàn)的候選區(qū)域,再使用CNN預測相對應的類別,最后對這些候選區(qū)域使用邊界框回歸模型進行修正。隨著研究的不斷深入,在R-CNN的基礎上出現(xiàn)了Mask R-CNN[8]、Fast R-CNN[9]、Faster R-CNN[10]等一系列算法。另一個分支是單階段預測,直接預測每一個默認框的置信度和偏移量算法,包括Single Shot Multibox Detector(SSD)[11]、Deconvolutional SSD(DSSD)[12]、You Only Look Once(YOLOv1)[13]、YOLOv2[14]、YOLOv3[15]等。YOLOv2和YOLOv3是YOLOv1的改良版,在精度和速度上都有了很大的提升。SSD相對于YOLO速度更快但精確度低一點,DSSD是SSD作者對SSD的升級,將基礎網絡VGG16[16]改為了Resnet101[17],并在原特征層后添加了反卷積網絡。DSSD與SSD相比雖然提高了精度,但是訓練速度有大幅度的下降。SSD是2016年提出的網絡結構,在當時擁有遠超其他算法的速度以及拔群的識別效果,雖然與最近提出的一些算法相比,識別效果已經略微落后,但是不可否認的是SSD擁有很高的可以被改進的潛力。最近提出的一些機制能夠有效地對神經網絡進行優(yōu)化,例如空洞卷積、注意力機制和殘差網絡等。將SSD網絡運用于目標檢測最主要的缺點在于圖像中小目標的檢測。針對SSD在目標檢測方面的缺點,選擇融合最近提出的一些算法來對SSD進行改進。

        空洞卷積[18-22]可以降低圖像尺寸提高感受野,并且在很多研究者的實驗中證明了加入空洞卷積的神經網絡在池化、提取特征以及感受野方面有一定的提升。除此之外還有殘差網絡[23-24],可以提高網絡提取特征的能力,大量的實驗證明了殘差具有提高神經網絡提取特征的能力,但同時會損耗大量的時間。基于以上的幾種方法,選擇將空洞卷積對SSD進行強化,將空洞卷積組成空洞金字塔模塊(PDC模塊)結合到SSD的低層網絡特征層中,可以提高底層網絡的語義信息和感受野,將空洞卷積組成特征空洞金字塔模塊(FPDC模塊)結合到SSD的網絡特征層可以提高網絡提取目標特征的能力。在PASCAL-VOC數(shù)據(jù)集上的測試結果表明,本文所提PDSSD方法比目前主流的算法具有更高的識別精度和訓練速度。

        1 SSD簡介

        1.1 網絡結構

        SSD使用簡化的VGG16作為基礎網絡,與傳統(tǒng)VGG16相比,SSD利用Astrous算法將VGG16中的兩個全連接層fc6和fc7層轉化成了conv6和conv7兩個卷積層。并利用conv7層與3×3和1×1大小的卷積核的不斷卷積形成特征金字塔結構。然后從特征金字塔中選出conv7、conv8_2、conv9_2、conv10_2、conv11_2層,以及VGG16中的conv4_3層作為特征層。

        1.2 Prior Box

        (1)

        式中:m是特征層的數(shù)量。由于數(shù)據(jù)集圖片樣本的多樣性,本文采用了SSD作者在DSSD中改進的方法,添加了一組縱橫比,原SSD網絡使用的縱橫比為(1.0,2.0,3.0,1/2,1/3),現(xiàn)在變?yōu)?1,1.6,2.0,3.0)。

        1.3 loss函數(shù)

        SSD的loss函數(shù)包含預測類別損失和預測位置偏移量損失兩部分,其中總損失函數(shù)公式如下:

        (2)

        式中:N表示被挑選出來的包含正樣本和負樣本在內的默認框的總數(shù);x表示輸入的圖像;c為每一類的置信度;l表示預測的框;g表示標簽的框;Lloc(·)表示位置偏移量損失,即默認框與標簽所標記的框之間的位置偏移和網絡所預測出來的位置偏移量之間的損失;Lconf(·)是預測類別損失即多類別Softmax loss;α表示位置偏移量損失的比率,初始值設為1。Lloc(·)定義為:

        (3)

        (4)

        (5)

        (6)

        (7)

        (8)

        (9)

        (10)

        2 PDSSD模型

        本文使用的PDSSD網絡結構如圖1所示,在VGG16中的conv4_3特征層和conv7特征層后加入了特征空洞金字塔模塊(FPDC模塊),并將SSD中conv8_2層通過空洞金字塔模塊(PDC模塊)產生的PD8_2層代替原來的conv8_2層。PD8_2層通過不斷卷積產生的PD9_2、PD10_2、PD11_2層也取代原conv8_2、conv9_2、conv10_2、conv11_2層作為新特征層。

        圖1 PDSSD模型

        2.1 空洞金字塔模塊及其結構優(yōu)化

        SSD網絡在檢測小目標的方面一直表現(xiàn)不佳,原因如RRC[25]和RON[26]所述。SSD在檢測目標時,使用淺層的特征層來檢測小目標,用深層的特征層來檢測大目標,然而淺層所能提取的特征信息遠遠低于深層的特征層,因此SSD對小目標的檢測性能會不太理想?;诖耍J為提升淺層部分的感受野和信息能夠有效地提升SSD網絡對小目標的檢測。不僅如此,提升淺層部分的感受野對于深層部分的檢測精度也有一定的提升。最近提出的空洞卷積是解決這個問題的很好的選擇,空洞卷積能夠在卷積核大小不變的前提下進行擴張,提高卷積核的感受野,并且能保證輸出的特征層的大小不變。

        ASSP[27]和Pyramid Dilated Deeper ConvLSTM[28]等都使用了空洞金字塔的結構,并在圖像語義分割和視頻流檢測上獲得了不錯的成果,證明了空洞金字塔結構用于捕獲多尺度的信息以及更高密度的提取特征時有一定的提升。基于此,我們也使用了類似的結構,并在受到了DSSD和殘差網絡的啟發(fā)后做出了一些改進。DSSD在加入反卷積網絡時,將兩個矩陣進行了點和,豐富了特征層的信息,因此在將SSD中的conv_8層融合了空洞金字塔模塊之后又嘗試與conv_8層本身進行了矩陣相加。整體結構如圖2所示。

        圖2 空洞金字塔模塊

        在空洞金字塔模塊中,輸入的圖片分別進行擴展尺度為3、5、10的空洞卷積,然后將三個空洞卷積的結果用concat算法結合到一起與大小為1×1×512、步長為1的卷積核進行卷積,卷積的結果與原輸入圖片大小為1×1×512、步長為1的卷積核卷積的結果進行矩陣相加得到輸出。

        (11)

        (12)

        (13)

        T=({F1,F(xiàn)2,F(xiàn)3}?(R1×1×512)s2=1)⊕(F0?(R1×1×512)s2=1)

        (14)

        每一個核大小為c、擴展尺度為r的空洞卷積都能提供[(c-1)2r-1]大小的視野,人眼在觀察到物體的一些背景之后才能更加突出物體的特征,使用不同擴展尺度的空洞卷積并且將這些空洞卷積放到一起就能夠模擬出人眼觀察物體的情形。而且空洞卷積具有使輸出的圖片大小不變的特性,這樣能夠提高感受野并提高特征提取密度的方式,很適合用來提升SSD的性能。

        在測試不同擴展尺度時,由于SSD卷積層大小以10、5、3的大小依次下降,嘗試將擴展尺度與SSD額外添加層的大小對應起來設為3、5、10后發(fā)現(xiàn)與ASSP將尺度設為6、12、18,以及Pyramid Dilated Deeper ConvLSTM將尺度設為1、4、8的測試結果相比準確度更高,并且使用數(shù)值更大的擴展尺度測試效果反而會下降。因此最后將其擴展尺度設為3、5、10。將conv8層經過空洞金字塔模塊后產生的層替代原SSD網絡的額外添加層conv8,這樣可以使SSD剩余的添加層的輸入由原來的F0?(Rc×c×C)s2變?yōu)門,在提取特征時也能獲得比之前更高的感受野,對整體網絡的檢測效果有較明顯的提升。由于空洞卷積的性質,能用較少的參數(shù)獲得更多的視野,再加上模塊中使用了很多1×1的卷積進行降維和升維,有效地減少了模塊的計算參數(shù),因此即使在SSD加入了空洞金字塔模塊后,整體網絡的訓練速度也沒有損失多少。

        2.2 特征空洞金字塔模塊

        SSD網絡一共有6個特征層,由淺到深分別是conv4_3、conv7、conv8_2、conv9_2、cov10_2、conv11_2。其中使用conv8_2經過空洞金字塔模塊后產生的PD8_2層代替了SSD原來的conv8_2特征層,所以conv9_2、cov10_2、conv11_2三個深層的特征層也轉化為了PD9_2、PD10_2、PD11_2。雖然加入了空洞金字塔之后的SSD網絡的檢測能力有了不少的提升,但由于SSD使用淺層特征層檢測小目標的原理,conv4_3和conv7兩個最淺的特征層提取小目標的能力仍然不強,因此提出針對特征層優(yōu)化的特征空洞金字塔模塊,如圖3所示。

        圖3 特征空洞金字塔模型

        與空洞金字塔模塊相比特征空洞金字塔沒有在concat算法之后與原矩陣進行相加,并且由實驗測試之后將空洞卷積的擴張尺度擴大為6、12、18。由于特征層會直接輸入到預測算法,將concat算法后的結果與原矩陣相加意義不大而且會增加計算量,因此直接將concat算法后的結果作為新的特征層。在不改變特征層大小的前提下,進一步擴大特征的感受野和語義信息可以有效地提高原conv4_3層和conv7層對小目標的提取能力。

        3 實 驗

        3.1 實驗步驟

        實驗步驟如圖4所示。

        圖4 實驗步驟

        3.2 實驗數(shù)據(jù)集

        實驗時使用的數(shù)據(jù)是PASCAL-VOC數(shù)據(jù)集,PASCAL-VOC是一個用于計算機視覺項目中圖像分類、檢測和分割的一整套標準化的優(yōu)秀的數(shù)據(jù)集。PASCAL-VOC數(shù)據(jù)集文檔詳細,使用非常方便,在計算機視覺領域研究論文中應用非常廣,是圖像領域分類、檢測和分割算法性能檢驗的標準數(shù)據(jù)集之一。

        2005年至2012年每年歐盟資助的PASCAL組織都會舉行一個世界級的計算機視覺挑戰(zhàn)賽PASCAL VOC挑戰(zhàn)賽,這個比賽使用的數(shù)據(jù)集就是PASCAL-VOC數(shù)據(jù)集。

        PASCAL-VOC數(shù)據(jù)集包括VOC2007和VOC2012兩個版本,VOC2012是VOC2007的升級版,包括了11 530幅圖片,兩個版本標注的內容都包含了人、動物、車、家具等20種類別。VOC2007包含9 963幅標注過的圖片,由訓練、驗證和測試三部分組成,VOC2012由訓練和測試兩部分組成。在實驗時將VOC2012和VOC2007的訓練部分組合在一起作為訓練集,由于訓練集直接參與模型調參的過程,不能反映模型的真實性能,并且需要驗證集幫助調整參數(shù)和防止過擬合,因此憑借著充足的數(shù)據(jù)量借鑒留出法將VOC2012和VOC2007的測試部分的四分之三作為測試集,四分之一作為驗證集。因此有19 000多幅訓練集圖片,2 000多幅驗證集圖片,5 000多幅測試集圖片。

        3.3 實驗環(huán)境和模型評估指標

        實驗時使用的機器為TITAN X,編程語言是Python 3.6,框架是Tensorflow1.4。

        實驗時評價網絡性能好壞的標準采用的是AP值、mAP值和FPS。其中AP值是用于評價模型性能指標之一,可由精度(precision)和召回率(recall)組成的PR曲線圖中曲線與xy軸所圍成的圖形面積計算得知。精度(precision)表示檢測正確的數(shù)據(jù)個數(shù)除以總的檢測個數(shù),召回率(recall)表示檢測正確的數(shù)據(jù)個數(shù)除以標簽之中所有正數(shù)據(jù)個數(shù)。mAP值是所有的AP值的和除以檢測的類別,也是鑒定多目標檢測網絡性能的主要指標。FPS代表網絡訓練時的速度表示每秒鐘網絡處理的圖片數(shù)。

        3.4 空洞金字塔模塊擴張尺度

        實驗在構建好SSD網絡后,先加入了空洞金字塔模塊并測試不同的擴張尺度來確定最優(yōu)尺度,為保證實驗準確,每次實驗的學習率設為0.000 1,Batchsize設為8。嘗試的擴張尺度并不是隨意取值,而是以目前主流的空洞卷積最優(yōu)尺度以及被認為可以獲得較好的結果的一些尺度,將只加入空洞金字塔模塊的SSD稱為PDSSD-a,括號內為擴張尺度,在以輸入圖片大小為300×300的前提下,實驗結果如表1所示。

        表1 PDSSD-a300在不同擴張尺度下的結果

        越大的擴張尺度不代表越高的精度,而過小的擴張精度提升有限,為了保證準確,在輸入為512×512的條件下進行一次實驗,結果如表2所示。

        表2 PDSSD-a512在不同擴張尺度下的結果

        續(xù)表2

        結合表1和表2的實驗結果,當擴展尺度為3、5、10時,模型可獲得最高的mAP值,因此本文最終將空洞金字塔模塊的擴張尺度定位為3、5、10。

        3.5 特征空洞金字塔模塊擴張尺度

        在確定了空洞金字塔模塊的擴張尺度后,嘗試單獨加入了特征空洞金字塔模塊,并且都做了不同擴張尺度的實驗測試,結果如表3所示。

        表3 兩個FPDC模塊在不同尺度下的實驗結果

        由實驗結果可得,擴張尺度越大,網絡的表現(xiàn)越穩(wěn)定,并且與小尺度的擴張結果對比,網絡的整體性能有一定的提升。雖然在輸入為512×512的條件下,特征空洞金字塔模塊的擴張尺度設為6、12、18沒有將尺度設為6、12、18和3、5、10的精度高,但兩者精度相差不遠,并且考慮到300×300條件下,兩個特征空洞金字塔模塊尺度都設為6、12、18時的精度最佳,因此根據(jù)實驗結果最終選擇將兩個特征金字塔模塊的擴展尺度定為6、12、18。

        3.6 模型訓練參數(shù)

        在選擇最佳特征空洞金字塔模塊和空洞金字塔模塊的擴張尺度后,對整體的PDSSD網絡進行了調參,由于網絡具有一定的復雜性,過大的學習率和Batchsize會導致loss梯度爆炸和顯存溢出,能保證網絡正常訓練的最大的學習率和Batchsize是0.000 1和8。當學習率降低到0.000 01時,會導致loss收斂過慢。因此在實驗測試之后本文最終將學習率設為0.000 05,Batchsize設為8。

        3.7 算法對比

        將調參后的PDSSD網絡的訓練結果與在同樣學習率和Batchsize以及數(shù)據(jù)集下的目前主流的一些算法進行了對比,包括了SSD作者對SSD的升級網絡DSSD、YOLOv2、Fast-Rcnn、Faster-Rcnn。實驗結果如表4所示。

        表4 VOC2012測試集測試結果

        續(xù)表4

        實驗結果表明:在加入空洞金字塔模塊和特征空洞金字塔模塊之后,在300×300的輸入下,PDSSD檢測大部分類別的AP值相比于SSD都有了很大的提升,mAP值提高了4.1個百分點;在512×512的輸入下,PDSSD的mAP值相對于SSD提高了4.5個百分點,而且在速度方面并沒有降低多少。相比于SSD的升級版DSSD,改進后的網絡擁有更高的mAP值,并且在速度上快了2倍多。與其他主流算法相比,PDSSD網絡在20種類別的檢測中有最多的最高AP值和最高的FPS。

        3.8 不同模塊對模型的提升

        對在SSD300中分別加入空洞金字塔模塊和特征空洞金字塔模塊對網絡性能的提升做了測試,結果如表5所示。

        表5 不同模塊對模型的提升

        單獨添加特征空洞金字塔模塊雖然沒有添加空洞金字塔模塊的提升明顯,但特征空洞金字塔對淺層特征層提取特征的能力有一定加強。因此同時加入空洞金字塔模塊和特征空洞金字塔模塊才能充分地提高模型的檢測能力。

        3.9 對小目標圖片檢測測試

        除了網絡的性能提高之外,加入了空洞金字塔模塊和特征空洞金字塔模塊后的SSD在小目標的檢測的能力上大大提升。從測試集中提取了一些有小目標需要識別的圖片用于對比SSD和PDSSD的小目標的檢測能力,效果如圖5所示。

        (a) SSD檢測效果 (b) PDSSD檢測效果

        圖5中,(a)、(c)、(e)、(g)是SSD的檢測效果圖,(b)、(d)、(f)、(h)是PDSSD的檢測效果圖。(a)和(b)是同一幅測試集圖片,PDSSD相對于SSD能夠成功檢測圖中遠處較小的人和狗;(c)和(d)是同一幅測試集圖片,SSD未能檢測到圖中目標相對較小的船而PDSSD能成功檢測;(e)和(f)是同一幅測試集圖片,其中PDSSD能夠準確地識別出遠處的幾個很小的目標而SSD未能全部識別;(g)和(h)是同一幅測試集圖片,PDSSD相對SSD能成功識別右側的小羊。以上測試圖片的結果證明了加入空洞金字塔模塊和特征空洞金字塔模塊確實能提高SSD對于小目標的檢測能力,從而提高整體網絡檢測目標的mAP值。

        4 結 語

        本文提出一種通過加入空洞金字塔模塊和特征空洞金字塔來提高SSD神經網絡檢測多目標能力的方法。本文改進后的模型在PASCAL-VOC數(shù)據(jù)集上的檢測結果顯示其擁有比目前主流的算法更高的準確率和更快的速度,并且在512×512的輸入下mAP值達到了82.1%,比YOLOv2和DSSD的正確率更高。除此之外,本文根據(jù)SSD對小目標檢測性能不高的原因提出了改善方法,并通過實驗證明了可行性。

        下一步將縮小對不同種類檢測的精確度的差異,提高分類和識別的準確度。然后嘗試引入TDM模塊和反卷積網絡來進一步改善網絡的性能,以及嘗試借鑒GAN對抗網絡來提高檢測的效果。

        猜你喜歡
        金字塔空洞尺度
        “金字塔”
        A Study of the Pit-Aided Construction of Egyptian Pyramids
        財產的五大尺度和五重應對
        海上有座“金字塔”
        神秘金字塔
        童話世界(2017年11期)2017-05-17 05:28:25
        空洞的眼神
        宇宙的尺度
        太空探索(2016年5期)2016-07-12 15:17:55
        用事實說話勝過空洞的說教——以教育類報道為例
        新聞傳播(2015年20期)2015-07-18 11:06:46
        9
        臭氧層空洞也是幫兇
        世界科學(2013年11期)2013-03-11 18:09:47
        亚洲中文字幕亚洲中文| 亚洲av成人无码网天堂| 男人j进女人p免费视频| 亚洲成av在线免费不卡| 一区二区三区福利在线视频| 人妻少妇偷人精品久久人妻| 日韩中文字幕不卡在线| 亚洲国产美女精品久久久久∴| 欧美成a人片在线观看久| 图图国产亚洲综合网站| 麻豆国产VA免费精品高清在线| 亚洲男同免费视频网站| 东京热久久综合久久88| 国产欧美日韩视频一区二区三区| 谁有在线观看av中文| 亚洲自拍偷拍色图综合| 国产免费av片无码永久免费| 又污又黄又无遮挡的网站| 久久久精品中文无码字幕| 亚洲精品中字在线观看| 国产精品无码无在线观看| 久久人妻少妇嫩草av蜜桃| 91青青草久久| 亚洲女同性恋激情网站| 国产一区二区三区内射| 手机福利视频| 欧美丰满熟妇乱xxxxx图片| 国产在亚洲线视频观看| 精品亚洲国产亚洲国产| 91久久精品国产综合另类专区| 国产超碰女人任你爽| 色窝窝免费播放视频在线| 亚洲AV无码一区二区三区精神| 色播视频在线观看麻豆| 少妇人妻中文字幕hd| 人妻去按摩店被黑人按中出| 国产精品亚洲av国产| 国产亚洲精品熟女国产成人| 久久综合九色综合网站| 国产精品欧美久久久久老妞| 亚洲国产精品嫩草影院久久av|