亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于SSD和MobileNet網(wǎng)絡(luò)的目標(biāo)檢測方法的研究

        2019-11-12 05:41:14任宇杰劉方濤張啟堯
        計(jì)算機(jī)與生活 2019年11期
        關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)卷積特征

        任宇杰,楊 劍,劉方濤,張啟堯

        中北大學(xué) 軟件學(xué)院,太原 030051

        1 引言

        眾所周知,近幾年來,深度學(xué)習(xí)[1]的人工智能思想方法在各行各業(yè)中的應(yīng)用更加普及,相比傳統(tǒng)方法其具有更好的魯棒性和更高的準(zhǔn)確性。隨著計(jì)算機(jī)視覺技術(shù)的快速發(fā)展,目標(biāo)檢測的技術(shù)作為其中一個熱點(diǎn)的分支也備受關(guān)注,一直是研究的熱點(diǎn)[2-4]。圖像的目標(biāo)檢測是指識別圖像中的目標(biāo)在原圖像中的大小以及位置?;谏疃葘W(xué)習(xí)方法的圖像目標(biāo)檢測,特別是基于深度卷積神經(jīng)網(wǎng)絡(luò)的圖像目標(biāo)檢測技術(shù)發(fā)展十分迅速。

        另外,現(xiàn)有的基于神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測模型可以做到多目標(biāo)識別的任務(wù)。并且,基于神經(jīng)網(wǎng)絡(luò)[5]的模型,在數(shù)據(jù)樣本量和硬件資源計(jì)算能力有限的情況下可以通過深度學(xué)習(xí)的方法來實(shí)現(xiàn)多目標(biāo)的識別。

        基于圖像的目標(biāo)檢測的研究工作也有其自身的發(fā)展階段,經(jīng)歷了從基于圖像的全局特征進(jìn)行檢測,到基于圖像的局部特征進(jìn)行檢測,再到現(xiàn)在基于深度學(xué)習(xí)方法思想的特征進(jìn)行檢測。

        近幾年來,隨著技術(shù)的快速發(fā)展,相繼出現(xiàn)了很多種基于深度學(xué)習(xí)[6]方法思想的目標(biāo)檢測模型,例如基于區(qū)域建議(region proposal,RP)方法的R-CNN(regionbased convolutional neural network)模型[7]、Fast R-CNN模型[8]、Faster R-CNN 模型[9]、R-FCN(region-based fully convolutional networks)模型[10]和基于回歸方法的SSD(single shot multibox detector)模 型[11]以 及YOLO(you only look once)模型[12]全部都是基于神經(jīng)網(wǎng)絡(luò)。SSD 模型是當(dāng)中檢測精確度相對更高的網(wǎng)絡(luò)結(jié)構(gòu),但是由于其自身也有一定的缺陷,比如只有使用最后一層的低層特征層進(jìn)行目標(biāo)檢測,導(dǎo)致大量的目標(biāo)特征信息丟失,使得檢測效果不盡如人意。

        為了解決SSD 基礎(chǔ)模型的這些基本缺陷,很多學(xué)者針對提升SSD模型在中小目標(biāo)檢測方面的能力進(jìn)行了相應(yīng)的研究。例如,Tang等[13]在原有SSD模型的基礎(chǔ)之上采用多視窗的方法,通過多視窗多通路的思想同時進(jìn)行檢測從而提升準(zhǔn)確率,但是這種方法的區(qū)域劃分不固定,對于目標(biāo)檢測的準(zhǔn)確性和魯棒性產(chǎn)生了一定的影響。Fu等[14]提出了DSSD(deconvolutional single shot detector)模型,通過反卷積的思想提升小目標(biāo)的檢測能力,但是由于網(wǎng)絡(luò)模型結(jié)構(gòu)層數(shù)較深,使得模型的檢測能力在實(shí)時性方面表現(xiàn)較差。Li等[15]提出了FSSD(feature fusion single shot multibox detector)模型,具體方法是通過特征融合和下采樣的操作對獲取到的多尺度特征進(jìn)行重構(gòu),提高中小目標(biāo)的檢測效果,結(jié)果準(zhǔn)確性確實(shí)有明顯提高,但是檢測速度相對較慢,提高檢測的實(shí)時性比較依賴硬件資源條件。陳幻杰等[16]對SSD模型的改進(jìn),通過小目標(biāo)特征區(qū)域進(jìn)行放大提取,額外提取多個高層特征層的信息,利用更深的網(wǎng)絡(luò)結(jié)構(gòu)改善中等目標(biāo)的檢測結(jié)果等方法,較大地提高了對中小目標(biāo)的準(zhǔn)確率,檢測速度相比原有的SSD 模型下降了將近一半,在滿足準(zhǔn)確性的基礎(chǔ)上實(shí)時性受到了較大的影響。

        本文基于SSD基本模型和輕量級的深層神經(jīng)網(wǎng)絡(luò)MobileNet 的思想構(gòu)建目標(biāo)檢測網(wǎng)絡(luò)結(jié)構(gòu)。該網(wǎng)絡(luò)結(jié)構(gòu)采用特征金字塔的多尺度全卷積結(jié)構(gòu),能夠?qū)崿F(xiàn)對多尺度目標(biāo)的檢測;同時獲取到不同特征層的特征信息構(gòu)建新的金字塔特征層,隨后基于該金字塔特征層對其進(jìn)行目標(biāo)的分類和定位的操作。實(shí)驗(yàn)結(jié)果表明,本文模型在較低的硬件資源條件下,滿足當(dāng)前對視頻流圖像的處理速度的前提下,相較于傳統(tǒng)的SSD算法在檢測性能和效果上有明顯提升。

        2 目標(biāo)檢測模型的構(gòu)建

        本文利用Tensorflow 平臺構(gòu)建多目標(biāo)識別深度學(xué)習(xí)模型,由于模型對于大型占比目標(biāo)的檢測已比較成熟,故模型在構(gòu)建的時候著力針對中小型占比目標(biāo)。其中,一般將目標(biāo)檢測框大小小于32×32的目標(biāo)認(rèn)為是小型占比目標(biāo),目標(biāo)檢測框大小介于32×32至96×96的目標(biāo)認(rèn)為是中型占比目標(biāo),目標(biāo)檢測框大小大于96×96的目標(biāo)認(rèn)為是大型占比目標(biāo)。

        首先,配置深度學(xué)習(xí)所需要的開發(fā)環(huán)境。其次,整理模型在訓(xùn)練時所需要的帶有標(biāo)記的圖像數(shù)據(jù)。再者,根據(jù)具體條件選取合適的目標(biāo)檢測模型。最后,在數(shù)據(jù)樣本更加豐富的MS COCO 數(shù)據(jù)集[17]和PASCAL VOC 2007 數(shù)據(jù)集上完成模型的訓(xùn)練、驗(yàn)證和測試,最終獲得符合本文場景的模型。

        2.1 SSD模型結(jié)構(gòu)

        基本的SSD模型是在VGG(visual geometry group)網(wǎng)絡(luò)模型[18]的基礎(chǔ)上構(gòu)建新的網(wǎng)絡(luò)結(jié)構(gòu),通過融合不同卷積層的特征圖來增強(qiáng)網(wǎng)絡(luò)對特征的表達(dá)能力,采用多尺度卷積檢測的方法來進(jìn)行目標(biāo)檢測,進(jìn)而大幅度提升目標(biāo)檢測的速度。具體的SSD模型結(jié)構(gòu)如圖1所示。

        由圖1 可知,模型基于VGG 模型的特征提取方法的思想,將各級的卷積特征圖作為該一級的特征表示,不同的卷積級別的圖像卷積特征分別描述了不同的語義信息[19],卷積層越深則表達(dá)的圖像特征的予以信息的級別也就越高。

        SSD 模型中結(jié)合特征金字塔的多尺度卷積神經(jīng)網(wǎng)絡(luò)的思想主要體現(xiàn)在獲取不同卷積層、不同尺度的特征圖數(shù)據(jù)來進(jìn)行目標(biāo)檢測。而在SSD模型中特征的提取采用的是逐層提取并抽象化的思想,低層的特征主要對應(yīng)于占比較小的目標(biāo),高層的特征主要對應(yīng)于占比較大的目標(biāo)的抽象化的信息[19]。即如果待檢測的目標(biāo)在圖中占比越小,特征圖在經(jīng)過層層卷積、池化的操作之后,在高層特征層可能出現(xiàn)信息丟失的情況,以致于檢測不到占比較小的目標(biāo)。并且在SSD模型中是通過低特征層的特征信息檢測小型占比目標(biāo),通過高特征層的特征信息檢測中型和較大占比目標(biāo)?;镜腟SD模型通過金字塔特征層進(jìn)行特征提取,且不同特征層之間是相互獨(dú)立的,沒有目標(biāo)信息的相互補(bǔ)充,且在SSD 模型的結(jié)構(gòu)之中,低特征層僅有Conv4_3 層用于檢測小型占比目標(biāo),因而在缺乏充足的特征信息的情況下存在特征提取不充分的問題,因而導(dǎo)致對小型目標(biāo)的識別效果一般。

        SSD 模型中多尺度的思想從其算法中也不難看出,其公式[20]為:

        Fig.1 Structure map of SSD圖1 SSD模型結(jié)構(gòu)

        在式(1)、式(2)中,Tn表示第n層的特征圖,Sn表示由第n-1層特征圖經(jīng)過非線性運(yùn)算得到的第n層特征圖,S1(I)表示輸入圖像I經(jīng)過非線性運(yùn)算得到的第一層特征圖;dn(?)表示第n層特征圖上的檢測結(jié)果,D(?)表示將所有檢測的中間結(jié)果進(jìn)行集合化得到的最終的結(jié)果。由式(1)、式(2)可以看出,第n-1層的特征信息決定了第n層的特征信息,且層與層之間相互獨(dú)立。因此,要更加準(zhǔn)確地檢測出對應(yīng)的目標(biāo),就必須獲取足夠量的特征信息,即足夠大小的特征圖,結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)得到要獲取的特征。

        2.2 小占比目標(biāo)檢測改進(jìn)的具體實(shí)現(xiàn)方法

        針對基本的SSD模型對于圖像多目標(biāo)識別的缺陷,無法很好地檢測中小型目標(biāo),本文采用改進(jìn)的多尺度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行目標(biāo)檢測,對SSD 模型中的低特征層和高特征層采用不同的改進(jìn)策略提高模型的檢測能力;同時融合MobileNet 的基本思想,提高網(wǎng)絡(luò)結(jié)構(gòu)的檢測速度,提高模型的準(zhǔn)確性、實(shí)時性和魯棒性。

        為了提高SSD 模型對于小型目標(biāo)的檢測能力,對低特征層采取特征提取、反卷積操作保留特征圖中更多的特征信息,進(jìn)而對于小型目標(biāo)的特征區(qū)域,通過特征映射在保留有更多小型目標(biāo)特征信息的特征圖上進(jìn)行特征提取,對于提高模型的小型占比目標(biāo)的檢測能力是十分有必要的。

        低特征層包含有更多的細(xì)粒度的特征信息,保留更多細(xì)節(jié)的特征信息可以更加準(zhǔn)確地檢測目標(biāo)。反卷積操作擴(kuò)大了卷積運(yùn)算之后的特征圖的大小,同時也保留了更多的細(xì)節(jié)特征信息,提高了模型的特征表達(dá)能力。但是既然保留了更多的特征信息,那么在運(yùn)算時必然會使得運(yùn)算時間增加,降低檢測速度,影響一些模型整體的檢測效果。其基本思想如圖2所示。

        Fig.2 Sketch of convolution and deconvolution圖2 卷積和反卷積示意圖

        反卷積操作[21-23]也稱為空洞卷積操作。反卷積操作和卷積操作過程相反,反卷積操作其實(shí)就是通過對輸入的特征圖填充補(bǔ)零,再通過反卷積核的作用得到放大后的特征圖。反卷積的公式為:

        式中,t表示步長,m表示反卷積核的大小,k表示輸入特征圖的大小,s表示反卷積操作之后獲得的特征圖的大小。具體思想如圖3所示。

        由圖3 可以看出,SSD 模型中主要結(jié)構(gòu)VGG16模型有5個池化層,若不對其進(jìn)行修改,則在pool5層之后特征圖會變成10×10的大小,會丟失大量細(xì)節(jié)特征信息。因此本文通過設(shè)置rate名為擴(kuò)張率的參數(shù),通過反卷積操作將特征區(qū)域放大,保留更多的小型占比目標(biāo)的特征信息,便于提升對小型目標(biāo)的檢測能力。由于SSD 模型是對于300×300 的輸入圖像進(jìn)行輸出的區(qū)域建議,因此本文將反卷積操作之后的圖像增大至300×300,一方面保證了充足的特征信息,另一方面也可以獲得更加準(zhǔn)確的目標(biāo)區(qū)域建議。

        2.3 特征映射策略

        Fig.3 Framework of decovolution of SSD model圖3 SSD模型反卷積操作框架圖

        在進(jìn)行反卷積操作之后,對獲取到的特征圖進(jìn)行特征區(qū)域映射。從而根據(jù)卷積核的大小或圖像與特征圖大小的比例關(guān)系建立起輸入圖像的目標(biāo)區(qū)域與特征圖的某一點(diǎn)的對應(yīng)關(guān)系,將用于進(jìn)行目標(biāo)檢測的特征圖的每個位置映射到原圖像中相應(yīng)的位置,并在對應(yīng)的位置生成不同比例大小的預(yù)測框。

        基本的SSD模型在預(yù)測框映射時是默認(rèn)針對整個圖像數(shù)據(jù)進(jìn)行的,并且對低層特征層的特征圖進(jìn)行區(qū)域映射是針對輸入圖像進(jìn)行的。但是這里低層特征層在執(zhí)行反卷積操作后,是將SSD 模型輸出后的圖像作為特征圖數(shù)據(jù)進(jìn)行區(qū)域映射的模板。

        具體思想如圖4所示。

        在對低層特征層進(jìn)行特征提取、放大特征圖時,原本SSD模型是根據(jù)特征圖與輸入圖像的大小關(guān)系將目標(biāo)區(qū)域映射到特征圖上對應(yīng)位置,具體公式為:

        在式(4)、式(5)中,tw、th表示默認(rèn)框在映射特征圖上的寬度和高度;iw、ih表示輸入圖像的寬度和高度;yw、yh表示映射特征圖的寬度和高度;dw、dh表示區(qū)域建議的寬度和高度。

        由圖5看出,假設(shè)輸入圖像大小是300×300,設(shè)定的產(chǎn)生默認(rèn)框的特征圖大小是5×5,在原圖像上產(chǎn)生的紅色、黃色、藍(lán)色代表不同比例大小的默認(rèn)框。假設(shè)選取特征圖上的(2,2)進(jìn)行默認(rèn)框映射,由于原本SSD 模型是利用產(chǎn)生默認(rèn)框的大小與原圖像的大小之間的比例關(guān)系進(jìn)行映射,可計(jì)算出特征間隔為300/5=60,相應(yīng)的在原圖像上(180×180)的位置產(chǎn)生對應(yīng)的默認(rèn)框。

        在本文模型中,通過將模型輸出圖像作為低層特征經(jīng)反卷積操作之后的區(qū)域映射的模板,默認(rèn)框映射到原圖像的對應(yīng)位置。具體公式為:

        Fig.4 Sketch of low-level feature mapping圖4 低層特征映射示意圖

        Fig.5 Sketch of default box feature mapping of SSD圖5 SSD模型默認(rèn)框特征映射示意圖

        在式(6)、式(7)中,iw、ih表示產(chǎn)生默認(rèn)框的區(qū)域映射特征圖的寬度和高度,cx、cy表示默認(rèn)框在區(qū)域映射特征圖上的中心坐標(biāo),(dxmin,dymin,dxmax,dymax)表示預(yù)測框左上角和右下角的坐標(biāo),Lx、Ly表示默認(rèn)框在原圖像上對應(yīng)位置的中心坐標(biāo)。

        由圖6看出,假設(shè)輸入圖像大小是300×300,設(shè)定的產(chǎn)生默認(rèn)框的特征圖大小是5×5,在原圖像上產(chǎn)生的紅色、黃色、藍(lán)色代表不同比例大小的默認(rèn)框,黑色框表示SSD模型輸出的建議區(qū)域,其位置信息由4部分組成,分別為建議區(qū)域的左上角和右下角的坐標(biāo)。假設(shè)為(90,60,170,200),在X軸方向的映射間隔計(jì)算為(170-90)/5=16,Y軸方向的映射間隔計(jì)算為(200-60)/5=28。在特征圖上對于(0,0),對應(yīng)于黑色建議框中起始位置(90,60)處產(chǎn)生默認(rèn)框;特征圖中Y軸對于(0,1),對應(yīng)于黑色建議框中起始位置(90,88)處產(chǎn)生默認(rèn)框;特征圖中X軸對于(1,0),對應(yīng)于黑色建議框中起始位置(106,60)處產(chǎn)生默認(rèn)框。

        Fig.6 Sketch of default box feature mapping of this paper圖6 本文模型默認(rèn)框特征映射示意圖

        2.4 中型占比目標(biāo)檢測改進(jìn)的具體實(shí)現(xiàn)方法

        本文針對中型占比的目標(biāo)檢測,提取多個高層特征層的信息,對原有的SSD模型結(jié)合MobileNet思想進(jìn)行改進(jìn),通過對參數(shù)的再訓(xùn)練提高模型對中等目標(biāo)的檢測能力。具體思想如圖7所示。

        Fig.7 Sketch of high-level feature extraction圖7 高層特征層特征提取示意圖

        從圖7 中可以看出,分別獲取SSD 模型中的Fc7層、Conv8_2 層、Conv9_2 層、Conv10_2 層、Conv11_2層的特征圖信息。通過目標(biāo)檢測之后的處理策略對目標(biāo)檢測的結(jié)果(包括預(yù)測框的位置和目標(biāo)檢測類別)進(jìn)行篩選并輸出,同時基于再訓(xùn)練的SSD模型的參數(shù)進(jìn)行特征提取,通過多輪多次迭代以及參數(shù)調(diào)整獲取優(yōu)化模型。

        2.5 代價函數(shù)、匹配策略和消除冗余數(shù)據(jù)

        本文原有SSD 模型采取特征金字塔的基本思想,獲取多個卷積層的特征信息。特征金字塔與單層特征圖的區(qū)別如圖8所示。

        圖8 中左邊的單層特征圖的方法是針對輸入的圖片獲取不同尺度的特征映射,但是在預(yù)測階段僅僅使用最后一層的特征映射;而SSD 模型不僅獲得不同尺度的特征映射,同時在不同的特征映射上面進(jìn)行預(yù)測,考慮了更多尺度的特征,在增加運(yùn)算量的同時也提高了檢測的精度。

        Fig.8 Schematic diagram of single feature map and feature pyramid hierarchy圖8 單層特征圖與特征金字塔示意圖

        因?yàn)橐獙Λ@取到各層特征信息的金字塔層進(jìn)行目標(biāo)的分類和定位,所以本文算法的目標(biāo)損失代價函數(shù)主要分為兩部分:一部分是計(jì)算相應(yīng)的預(yù)測框與目標(biāo)類別的置信度的損失Lconf(confidence loss),即分類損失;另一部分是相應(yīng)的位置回歸損失Lloc(location loss),即預(yù)測框的定位損失,具體公式如下:

        在式(8)、式(9)、式(10)中,N表示匹配到默認(rèn)框的預(yù)測框的數(shù)量,α是用于調(diào)整置信度損失(confidence loss)和位置損失(location loss)之間的比例,默認(rèn)α為1,通過調(diào)節(jié)可以降低各層樣本對于整體網(wǎng)絡(luò)訓(xùn)練的影響。i表示第i個默認(rèn)框,j表示第j個真實(shí)框,p表示第p個類。其中={1,0}表示第i個預(yù)測框匹配到了第j個類別為p的真實(shí)框,并且位置回歸的損失函數(shù)(location loss)是L1損失函數(shù),比L2損失函數(shù)具有更強(qiáng)的適應(yīng)性,對異常值不敏感。g表示真實(shí)框(ground truth box),l表示模型輸出的預(yù)測框(predicted box),d表示默認(rèn)框(default bounding box)。

        在模型訓(xùn)練的時候,真實(shí)框與預(yù)測框按照如下的方式進(jìn)行配對:

        (1)尋找與每一個真實(shí)框有著最大交并比(intersection over union,IOU)的預(yù)測框,這樣可以保證每一個真實(shí)標(biāo)注框與唯一的一個預(yù)測框?qū)?yīng)起來。

        (2)將剩余的還沒有配對的預(yù)測框與任意一個真實(shí)框進(jìn)行嘗試配對,只要兩者之間的交并比(IOU)大于閾值,就可以認(rèn)為配對成功(基本的SSD 300 模型的閾值為0.5)。

        (3)成功與真實(shí)框配對的可以認(rèn)定為正樣本(positive,對應(yīng)于式(9)中,沒有配對的認(rèn)定為負(fù)樣本(negative,對應(yīng)式(9)中

        配對匹配的基本思想如圖9所示。

        在訓(xùn)練過程中產(chǎn)生的是不分類的目標(biāo),其中會有很多的包含相互重疊的目標(biāo),如果直接進(jìn)行特征提取,那么在計(jì)算過程中會代入很多的冗余信息,因此本文通過非極大值抑制的思想,消除冗余的目標(biāo)候選區(qū)域,使得負(fù)樣本的數(shù)目減少,使模型效果趨于穩(wěn)定。這里的操作主要為了消除冗余預(yù)測框,不考慮目標(biāo)的具體類別,通過采取設(shè)置較大的閾值(比如設(shè)置為0.8)選取極少的預(yù)測框,保留了最接近真值的目標(biāo)窗口,目標(biāo)被這些預(yù)測框基本上都包含等。

        2.6 MobileNet基本思想

        MobileNet的網(wǎng)絡(luò)結(jié)構(gòu)是基于深度級可分離卷積塊的堆疊設(shè)計(jì)。通過權(quán)衡延遲時間和精度要求,基于寬度因子和分辨率因子構(gòu)建合適規(guī)模、合適速度的MobileNet 結(jié)構(gòu)。其網(wǎng)絡(luò)結(jié)構(gòu)的基本思想是將通道間的相關(guān)性和空間相關(guān)性完全分離出來,同時大大減少計(jì)算量和參數(shù)量。

        Fig.9 Sketch of ground truth boxes and default bounding boxes圖9 真實(shí)框與預(yù)測框匹配示意圖

        該網(wǎng)絡(luò)結(jié)構(gòu)與傳統(tǒng)的卷積網(wǎng)絡(luò)結(jié)構(gòu)有所不同體現(xiàn)在對特征圖的各個通道進(jìn)行卷積操作(比如設(shè)置為3×3×1),將卷積操作之后的各個特征圖通道進(jìn)行合并,通過1×1 卷積降低其通道數(shù)。由于MobileNet網(wǎng)絡(luò)結(jié)構(gòu)中使用了大量的3×3的卷積核,極大減少了計(jì)算量,同時對于模型準(zhǔn)確率下降的影響也很小,不僅保證了模型的準(zhǔn)確率,同時加快了模型的運(yùn)算速度,保證了模型的實(shí)時性要求。

        由于SSD 模型是一種不需要產(chǎn)生候選區(qū)域,直接產(chǎn)生物體的類別概率和位置坐標(biāo),經(jīng)過單次檢測即可得到最終的檢測結(jié)果。而MobileNet 是使用這種算法的具體網(wǎng)絡(luò)結(jié)構(gòu),用于進(jìn)行特征提取。這使得二者可以結(jié)合,文獻(xiàn)[24]也證實(shí)了這一點(diǎn)。通過SSD 模型融合了MobileNet 的網(wǎng)絡(luò)思想,結(jié)合了二者的優(yōu)勢,保留原有SSD 模型的網(wǎng)絡(luò)結(jié)構(gòu),使用3×3 的卷積核進(jìn)行特征處理,保證了模型的準(zhǔn)確率。在此基礎(chǔ)上,本文模型將原本的大量冗余的參數(shù)變成小型參數(shù)結(jié)構(gòu),減少網(wǎng)絡(luò)計(jì)算量的同時,降低了對于硬件資源的消耗,有利于加快模型的收斂速度,改善模型的基本性能。

        通過該網(wǎng)絡(luò)結(jié)構(gòu),有效減少了模型的計(jì)算量和參數(shù)量?;谏鲜鲈摼W(wǎng)絡(luò)結(jié)構(gòu)的思想,也使得它在物體檢測、人臉屬性檢測、細(xì)粒度分類和大規(guī)模地理定位等方面有著廣泛的應(yīng)用。

        3 實(shí)驗(yàn)過程與結(jié)果分析

        在實(shí)際應(yīng)用中,由于不同的場景下有著不同的限制和要求,此時需要根據(jù)實(shí)際情況來權(quán)衡并選擇最適合的檢測方法。本文在實(shí)驗(yàn)時是基于SSD模型和MobileNet 模型針對公開數(shù)據(jù)集MS COCO 和PASCAL VOC2007 上進(jìn)行訓(xùn)練得到適合的模型,進(jìn)而評估提出的模型方法的性能。

        3.1 目標(biāo)檢測模型的生成

        本文基于深度學(xué)習(xí)的思想和相關(guān)理論,利用在大數(shù)據(jù)(COCO[17]、VOC 2007、ImageNet)上訓(xùn)練好的模型,應(yīng)用到多目標(biāo)識別的任務(wù)當(dāng)中,并且不斷對模型當(dāng)中的參數(shù)進(jìn)行微調(diào),從而得到符合本任務(wù)需求的模型。微調(diào)工作是針對已訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)的,因此對于硬件的計(jì)算能力和要求不會特別苛刻,也適合在個人的GPU上進(jìn)行模型的訓(xùn)練。

        通過在數(shù)據(jù)集上訓(xùn)練完成的SSD 和MobileNet模型思想的融合模型,即在原始的訓(xùn)練好模型結(jié)構(gòu)不變的基礎(chǔ)上,把訓(xùn)練好的模型的權(quán)重等參數(shù)作為初始值;然后通過微調(diào)參數(shù)的方法對分類的數(shù)量進(jìn)行修改,設(shè)置本文應(yīng)用場景具體的分類數(shù);最后對于整個模型進(jìn)行不同批次、不同輪次的訓(xùn)練(retrain)。最終得到目標(biāo)檢測精度和速度都有所提升的模型。

        3.2 實(shí)驗(yàn)環(huán)境準(zhǔn)備

        本文提出的目標(biāo)檢測方法的實(shí)驗(yàn)框架基于Python語言,在操作系統(tǒng)為Windows 10 的個人計(jì)算機(jī)上搭建深度學(xué)習(xí)的開發(fā)環(huán)境完成模型的訓(xùn)練、驗(yàn)證以及測試的工作。選用Anaconda集成相關(guān)環(huán)境。

        其中計(jì)算機(jī)的硬件配置為:Windows 10 64 位操作系統(tǒng),處理器(CPU)型號為Intel i7,內(nèi)存(RAM)為8 GB,顯卡(GPU)為NVIDIA GeForce GTX。

        深度學(xué)習(xí)開發(fā)環(huán)境的各個軟件版本為:Visual Studio 2015、Anaconda3、CUDA 9.0、cuDNN 7.3.1、Python 3.6.4、Tensorflow-GPU 1.9.0。同時在個人配置環(huán)境時默認(rèn)安裝Tensorflow-GPU 1.12.0 的版本在訓(xùn)練時會報錯,與其他環(huán)境不匹配,因此這里選擇較低版本1.9.0作為訓(xùn)練環(huán)境。

        最后,在集成環(huán)境上安裝諸如pandas、numpy 等對應(yīng)的Python 第三方庫以及諸如Keras、Tensorflow Research Models 等深度學(xué)習(xí)的API(application programming interface),這樣可以大幅度降低開發(fā)的困難性。

        3.3 數(shù)據(jù)集描述及網(wǎng)絡(luò)參數(shù)

        基于SSD和MobileNet模型,利用在大規(guī)模數(shù)據(jù)集PASCAL VOC 2007(21 個類別)上進(jìn)行接下來的本文的訓(xùn)練工作,可以大大地降低模型訓(xùn)練時需要的計(jì)算能力、數(shù)據(jù)量和時間成本,同時也可以滿足具體任務(wù)對于目標(biāo)檢測的準(zhǔn)確率和識別速率的要求。

        其中再訓(xùn)練數(shù)據(jù)集包含5 011 幅圖像和5 011 個標(biāo)注信息文件,驗(yàn)證數(shù)據(jù)集包含4 952幅圖像和4 952個標(biāo)注信息文件。最后為了檢測模型效果,在測試集中測試435張多目標(biāo)復(fù)雜度較高的圖片(諸如分類物體有交叉重疊或距離較近等特征),其中中小型目標(biāo)的數(shù)量在1 153個,分析特征提取的效果和預(yù)測區(qū)域目標(biāo)精修對目標(biāo)檢測結(jié)果的影響。

        本文融合模型基于基礎(chǔ)的SSD 模型,網(wǎng)絡(luò)閾值設(shè)置為0.7和0.9,在較細(xì)粒度特征上考察訓(xùn)練好的模型在目標(biāo)檢測上對中小目標(biāo)檢測的準(zhǔn)確性和魯棒性。

        根據(jù)網(wǎng)絡(luò)微調(diào),最終選擇基于某目標(biāo)檢測點(diǎn)生成的預(yù)測框數(shù)目為6;預(yù)測框大小與原圖占比最小0.20,最大占比0.95,寬高比率分別為1.00、2.00、3.00、0.50、0.33;網(wǎng)絡(luò)初始化的標(biāo)準(zhǔn)差設(shè)置為0.03,均值設(shè)置為0;學(xué)習(xí)率為0.004,衰減因子為0.005;為防止過擬合,生成預(yù)測框中采用Dropout 方式,用其中隨機(jī)80%的神經(jīng)元進(jìn)行工作計(jì)算;激活函數(shù)使用Relu_6 代替?zhèn)鹘y(tǒng)的Relu 函數(shù),有利于網(wǎng)絡(luò)對數(shù)據(jù)分布的稀疏矩陣的學(xué)習(xí),緩解過擬合的產(chǎn)生等。

        3.4 評價指標(biāo)

        本文基于PASCAL VOC 2007 數(shù)據(jù)集使用平均精度均值(mean average precision,mAP)、圖片傳輸速率、交并比IOU 和目標(biāo)的檢測率這些基礎(chǔ)指標(biāo)對提出的模型效果進(jìn)行評價。

        (1)交并比IOU 指的是對于檢測目標(biāo)產(chǎn)生的預(yù)測框與真實(shí)標(biāo)注框之間的交集與并集的比值。通過該指標(biāo)可以衡量檢測到目標(biāo)位置準(zhǔn)確性。

        (2)平均精度均值(mAP)[25]指的是檢測出的目標(biāo)中正確的目標(biāo)所占比率。

        (3)圖片傳輸速率(frame per second,F(xiàn)PS)用于衡量在現(xiàn)有硬件條件下不同模型處理數(shù)據(jù)的速度,對于目標(biāo)檢測的實(shí)時性的衡量有著重要的作用。

        (4)檢測率指的是檢測出目標(biāo)在所挑選目標(biāo)總數(shù)中的占比,本文主要對中小型目標(biāo)的檢測效果進(jìn)行衡量。

        3.5 模型訓(xùn)練測試的過程及結(jié)果

        本文的目標(biāo)檢測選取VOC 2007數(shù)據(jù)集中的7個類別的圖像數(shù)據(jù)進(jìn)行模型的訓(xùn)練、驗(yàn)證以及測試工作。類別種類分別為:人(person)、自行車(bicycle)、摩托車(motorbike)、汽車(car)、公交車(bus)、貓(cat)、狗(dog)。

        模型訓(xùn)練測試過程如下:

        (1)采用基礎(chǔ)SSD 模型方法以及本文模型針對選取的7類目標(biāo)進(jìn)行檢測。

        (2)從VOC 2007 數(shù)據(jù)集中選取訓(xùn)練集、驗(yàn)證集和測試集。將對本文改進(jìn)的SSD模型應(yīng)用到上面選取到的7類數(shù)據(jù)中進(jìn)行目標(biāo)檢測,通過訓(xùn)練再進(jìn)行調(diào)參,最終通過實(shí)驗(yàn)迭代多輪多批次得到最優(yōu)化模型數(shù)據(jù)結(jié)果。

        (3)使用基本SSD模型結(jié)果、Chen等提出的改進(jìn)FSSD模型,與本文模型的結(jié)果進(jìn)行對比。

        由于該模型準(zhǔn)確性與SSD 模型、DSSD 模型、FSSD模型等相比準(zhǔn)確性最高,因此在本文實(shí)驗(yàn)結(jié)果中選取它作為對照參考模型[13-16]。具體結(jié)果通過平均精度均值(mAP)、檢測速度表示,如表1 所示。通過基本SSD 模型結(jié)果和本文模型結(jié)果,對照改進(jìn)的FSSD 模型結(jié)果,將三者進(jìn)行比較,評價模型的準(zhǔn)確性和魯棒性。

        Table 1 Comparison of detection accuracy results between different algorithms表1 不同算法檢測準(zhǔn)確性的結(jié)果對比

        本文采用多尺度卷積層獲取到的特征信息作用于目標(biāo)檢測,其中中低層特征主要用于檢測小型目標(biāo),高層特征主要用于檢測中型目標(biāo)。

        在同樣的訓(xùn)練集、驗(yàn)證集和測試集的條件下對上述3種模型的檢測結(jié)果進(jìn)行比較,其檢測效果使用評價標(biāo)準(zhǔn)中的mAP值來衡量。

        在網(wǎng)絡(luò)閾值設(shè)置為0.7 的條件下,對比不同的類別在不同模型下的中等目標(biāo)的檢測精確度。其結(jié)果如表2所示。

        從表2中可以看到,基本SSD模型針對中等目標(biāo)的mAP 值為58.5%,Chen 等提出的改進(jìn)FSSD 模型的mAP 值為75.1%,本文模型對中等目標(biāo)的mAP 值為75.6%,相較于基本的SSD 模型再訓(xùn)練擁有17.1%的提升。

        在網(wǎng)絡(luò)閾值設(shè)置為0.9 的條件下,對比不同的類別在不同模型下的小型目標(biāo)的檢測精確度。其結(jié)果如表3所示。

        從表3中可以看到,基本SSD模型針對中等目標(biāo)的mAP值為17.5%,Chen等提出的改進(jìn)FSSD模型的mAP 值為40.5%,本文模型對中等目標(biāo)的mAP 值為41.6%,相較于基本的SSD 模型再訓(xùn)練擁有24.1%的提升。

        Table 2 Comparison of medium targets'mAP among different categories表2 不同類別下中等目標(biāo)mAP對比 %

        Table 3 Comparison of small targets'mAP among different categories表3 不同類別下小型目標(biāo)mAP對比 %

        圖10中左邊的圖表示原有SSD模型再訓(xùn)練的目標(biāo)檢測結(jié)果,右邊的圖表示本文模型的目標(biāo)檢測結(jié)果。通過比較二者的結(jié)果不難看出,左圖中出現(xiàn)了一些檢測率較低或者檢測不到的情況,右圖中很好地對左圖的情況進(jìn)行了完善,對于圖像數(shù)據(jù)當(dāng)中的中小型目標(biāo)檢測效果更好,準(zhǔn)確率也更高,該模型的效果更好。

        再者,針對測試集中測試435張多目標(biāo)復(fù)雜度較高的圖片(諸如分類物體有交叉重疊或距離較近等特征),其中中小型目標(biāo)的數(shù)量在1 153個,通過評價標(biāo)準(zhǔn)中的檢測率[26]來衡量該模型在總體上的目標(biāo)檢測的能力,具體公式如下:

        Fig.10 Comparison of detection results between SSD and model in this paper圖10 SSD模型與本文模型檢測效果對比

        式中,P表示檢測率;C為被檢測圖像數(shù)據(jù)樣本的檢測正確的數(shù)量;S表示當(dāng)前與C對應(yīng)的樣本種類的總數(shù)。根據(jù)不同算法得到的檢測率結(jié)果對比如表4所示。

        Table 4 Comparison of calculation results of detection rates among different algorithms表4 不同算法檢測率計(jì)算結(jié)果對比 %

        從表4中可以看出,經(jīng)過對所有目標(biāo)檢測結(jié)果的統(tǒng)計(jì),本文模型的檢測率相比于Chen等改進(jìn)的FSSD模型提升了3.1%,相比于現(xiàn)有的SSD 模型經(jīng)過再訓(xùn)練的檢測率效果提升了12.8%,并且對于圖像數(shù)據(jù)中的中小型目標(biāo)的定位也更加明確。

        在本文搭建的實(shí)驗(yàn)環(huán)境下,對于基本的SSD 模型再訓(xùn)練、Chen等改進(jìn)的FSSD模型和本文模型在檢測速度上也進(jìn)行了比較。具體結(jié)果如表5所示。

        Table 5 Comparison of detection speeds among different algorithms表5 不同算法檢測速度的結(jié)果對比

        從表5中可以看出,基本SSD模型再訓(xùn)練的檢測速度可以達(dá)到每秒檢測56 幀圖片,Chen 等改進(jìn)的FSSD模型檢測速度為每秒23幀圖像,本文模型的檢測速度為每秒31幀圖像,檢測速度相比SSD模型有所下降,與改進(jìn)的FSSD模型相比又有一些小的提升。

        該模型的檢測速度之所以相比SSD模型有所下降,原因如下:

        (1)在網(wǎng)絡(luò)結(jié)構(gòu)中,對于低特征層進(jìn)行特征提取時使用反卷積操作,在保留了更多的特征信息的時候,也使得數(shù)據(jù)量增大,導(dǎo)致計(jì)算量增大,使得計(jì)算比較耗時。

        (2)在網(wǎng)絡(luò)結(jié)構(gòu)中,對于高特征層進(jìn)行特征提取時由于網(wǎng)絡(luò)結(jié)構(gòu)本身的原因,增加了模型計(jì)算運(yùn)行的時間。

        (3)綜合上面兩方面的原因,使得本文模型的檢測速度有所下降。

        本文模型的檢測速度相較于SSD模型有所上升的原因在于模型結(jié)構(gòu)基于MobileNet的基本思想,使用可分離的卷積在模型計(jì)算的延遲度和準(zhǔn)確率之間達(dá)到有效的平衡,有效減少參數(shù)的同時兼顧模型大小,使得模型的計(jì)算速度有了一定的提升。

        4 結(jié)束語

        為了提升目標(biāo)檢測的SSD模型的檢測準(zhǔn)確率及檢測速度,滿足其在較低的硬件資源配置條件下也能達(dá)到一般性視頻流的檢測速度的要求,本文根據(jù)基本SSD 模型,結(jié)合輕量級的深層神經(jīng)網(wǎng)絡(luò)MobileNet的思想,構(gòu)建一種結(jié)合特征金字塔的多尺度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。結(jié)合反卷積操作、特征提取和區(qū)域映射、正負(fù)樣本處理等方法改善模型對中小型占比目標(biāo)的檢測效果。實(shí)驗(yàn)結(jié)果表明,本文模型模仿精確度優(yōu)于SSD 模型,且在較低的硬件配置條件下達(dá)到視頻流圖像處理的速度要求。在今后的研究工作中,將繼續(xù)優(yōu)化改進(jìn)本文的網(wǎng)絡(luò)模型,盡可能多地嘗試其與更多的深度學(xué)習(xí)模型的思想相融合,進(jìn)一步提升模型的檢測性能。

        猜你喜歡
        網(wǎng)絡(luò)結(jié)構(gòu)卷積特征
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        如何表達(dá)“特征”
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        不忠誠的四個特征
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        抓住特征巧觀察
        基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
        知識網(wǎng)絡(luò)結(jié)構(gòu)維對于創(chuàng)新績效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
        滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實(shí)證分析
        復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對算法研究進(jìn)展
        97超级碰碰人妻中文字幕| 日本激情网站中文字幕 | 人成午夜免费视频无码| 亚洲一区精品无码色成人| 视频国产精品| 国产精品久久国产精麻豆| 国产情侣一区二区| 少妇高潮潮喷到猛进猛出小说| 97日日碰日日摸日日澡| 蜜桃视频一区二区三区| 国产精品亚洲一区二区三区| 99re热视频这里只精品| 极品 在线 视频 大陆 国产| 国产精品自拍视频免费看| 欧美成人家庭影院| 成人无码免费一区二区三区| 91精品91| 亚洲无人区乱码中文字幕动画| 丰满大爆乳波霸奶| 亚洲av无码成人精品区在线观看 | 日本三级香港三级人妇99| 中文字幕乱伦视频| 欧美成人高清手机在线视频| 亚洲精品一区二区三区新线路| 国产精品99精品久久免费| 中文字幕亚洲乱码熟女一区二区| 亚洲国产视频精品一区二区| 久久精品一区二区三区蜜桃| 国产成人无码av一区二区| 亚洲欧美中文在线观看4| 日韩男女av中文字幕| 亚洲一区二区三区小说| 欧美日韩精品一区二区三区不卡| av大片在线无码永久免费网址| 手机在线播放av网址| 少妇下面好紧好多水真爽播放| 亚洲aⅴ无码日韩av无码网站| av一区二区三区有码| 亚洲精品第一国产综合精品 | 精品成人av人一区二区三区| 男人边做边吃奶头视频|