陳 江 昀
(浙江工業(yè)大學(xué)國(guó)際學(xué)院 浙江 杭州 310023)
一種基于深度學(xué)習(xí)的新型小目標(biāo)檢測(cè)方法
陳 江 昀
(浙江工業(yè)大學(xué)國(guó)際學(xué)院 浙江 杭州 310023)
快速、精準(zhǔn)的目標(biāo)檢測(cè)方法是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)之一,目前通用的目標(biāo)檢測(cè)模型主要包括兩個(gè)部分,候選區(qū)域提取和分類(lèi)器設(shè)計(jì)。基于卷積神經(jīng)網(wǎng)絡(luò)CNN和超像素算法提出了一種新型面向微小目標(biāo)的檢測(cè)方法。首先對(duì)目標(biāo)圖像進(jìn)行超像素過(guò)分割,然后提取過(guò)分割區(qū)域的特征并以此進(jìn)行區(qū)域合并,最后提取候選區(qū)域。與傳統(tǒng)建議區(qū)域提取方法相比,本方法能夠在保證召回率的前提下大量減少候選區(qū)域的數(shù)量。為了克服小目標(biāo)特征提取的困難,本算法利用多尺度和多層次CNN提取候選區(qū)域的中高層語(yǔ)義信息進(jìn)行目標(biāo)分類(lèi)。通過(guò)對(duì)車(chē)輛年檢標(biāo)示數(shù)據(jù)的實(shí)驗(yàn)表明提出的基于超像素過(guò)分割候選區(qū)域提取算法具有較高的召回率,在同等候選區(qū)域數(shù)量的情況下與EdgeBox、Bing、Selective search等方法相比分別提高2%、2.4% 和3.5%,同時(shí)基于多層次多尺度的目標(biāo)分類(lèi)算法能有效降低誤檢率,提高檢測(cè)率。
目標(biāo)檢測(cè) CNN 超像素 目標(biāo)建議法
微型目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)研究領(lǐng)域的一大挑戰(zhàn)[1-3]。當(dāng)前基于特征提取的目標(biāo)檢測(cè)算法很難從小目標(biāo)中提取到有用的且適合分類(lèi)的特征,造成這種現(xiàn)象的原因有兩個(gè),其一是由于小目標(biāo)的尺度過(guò)小(30×30 pixel),基于手工特征提取的算法(Hand-crafted),例如SIFT[4](Scale-invariant Feature Transform)、HOG[5](Histogram of Oriented Gradient)和Haar-like[6-7]等,大多利用目標(biāo)周?chē)泥徲蛐畔⒈磉_(dá)目標(biāo);其二是小目標(biāo)本身的特征不夠明顯,容易受圖像噪聲的干擾而最終導(dǎo)致無(wú)檢測(cè)和漏檢測(cè)。當(dāng)目標(biāo)尺度變小時(shí),其內(nèi)部特征的連續(xù)性會(huì)變?nèi)?,而且提取到的特征的維度很低,極容易導(dǎo)致分類(lèi)器出現(xiàn)過(guò)擬合現(xiàn)象。近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)[8-11]在特征提取方面的出色表現(xiàn),幾乎被利用于目標(biāo)檢測(cè)和識(shí)別的各個(gè)領(lǐng)域。卷積神經(jīng)網(wǎng)絡(luò)在尺度較小的目標(biāo)特征提取方面也同樣表現(xiàn)出驚人的準(zhǔn)確率,例如,應(yīng)用與數(shù)字識(shí)別領(lǐng)域的LeNet[12]達(dá)到了當(dāng)前最好的結(jié)果,表明卷積神經(jīng)網(wǎng)絡(luò)在提取小尺度目標(biāo)領(lǐng)域具有較強(qiáng)潛力。
影響提高目標(biāo)檢測(cè)算法精度和效率的另外一個(gè)重要模塊是候選區(qū)域提取方法,相比于傳統(tǒng)的滑動(dòng)窗方法(Window-sliding),高效的候選區(qū)域提取方法能夠在不損失檢測(cè)算法檢測(cè)率的情況下大大提高檢測(cè)效率。當(dāng)前有許多優(yōu)秀的候選區(qū)域提取算法,其中Selective-search[13]、Bing[14]、Edgebox[15]在區(qū)域提取方面達(dá)到了當(dāng)前最為先進(jìn)的精度和效率,但是它們?cè)谔崛⌒∧繕?biāo)方面的表現(xiàn)并不理想,主要原因是該類(lèi)算法大多利用邊緣信息作為候選區(qū)域提取的主要特征,而小目標(biāo)一般沒(méi)有明顯的邊緣結(jié)構(gòu)信息。為了提高小目標(biāo)檢測(cè)算法的精度和執(zhí)行效率,本文提出了一種結(jié)合超像素候選區(qū)域建議方法和多層次多尺度卷積神經(jīng)網(wǎng)絡(luò)特征提取的目標(biāo)檢測(cè)框架。
基于超像素的候選區(qū)域提取方法是通過(guò)利用超像素的過(guò)分割信息提取目標(biāo)候選區(qū)域。首先將檢測(cè)圖像通過(guò)SLIC[16](Simple Linear Iterative Clustering)方法進(jìn)行過(guò)分割,然后提取過(guò)分割區(qū)域的顏色信息和內(nèi)部結(jié)構(gòu)信息,將具有特征一致性的過(guò)分割塊融合為一體,作為目標(biāo)候選目標(biāo)區(qū)域,這種建議策略一方面會(huì)把具有特征一致性的背景信息聚類(lèi)為一個(gè)區(qū)域,同時(shí)作為前景區(qū)域的目標(biāo)則會(huì)被提取出來(lái)。另外,該方法可以通過(guò)尺度約束的方法濾除噪聲的影響,進(jìn)而提取出數(shù)量較少質(zhì)量極高的目標(biāo)候選區(qū)域,降低了后續(xù)特征提取的計(jì)算量,提高算法的目標(biāo)檢測(cè)效率。
為了有效表達(dá)小目標(biāo)的本質(zhì)特征,本文利用基于多尺度的卷積神經(jīng)網(wǎng)絡(luò)特征作為目標(biāo)的特征觀測(cè)。首先通過(guò)圖像金字塔的方式將目標(biāo)區(qū)域進(jìn)行上采樣和降采樣,然后將金字塔的每一層輸入到卷積神經(jīng)網(wǎng)絡(luò)以提取特征。通過(guò)該方法提取到的特征既可對(duì)目標(biāo)的尺度變化具有魯棒性,又可以利用卷積神經(jīng)網(wǎng)絡(luò)的中間層特征豐富目標(biāo)的特征表達(dá)。最后將提取的多層次多尺度卷積特征串聯(lián)輸入支持向量機(jī)[17](SVM)進(jìn)行分類(lèi)模型訓(xùn)練,得到目標(biāo)的觀測(cè)模型。檢測(cè)到的目標(biāo)通過(guò)非極大值抑制的方法進(jìn)行篩選確定。
高質(zhì)量的候選區(qū)域提取方法是目標(biāo)檢測(cè)效率和準(zhǔn)確的保證,為此本文提出一種面向下目標(biāo)檢測(cè)的候選區(qū)域提取算法,該算法相比傳統(tǒng)的方法具有以下優(yōu)點(diǎn):1) 能夠有效提取尺度較小的目標(biāo)區(qū)域,并且能夠?yàn)V除噪聲的影響。2) 候選區(qū)域提取的準(zhǔn)確度和精確度較高,提取的候選區(qū)域與目標(biāo)的標(biāo)注區(qū)域IoU約是傳統(tǒng)方法的1.5倍。3) 算法的執(zhí)行效率高,算法主要是基于超像素過(guò)分割的低層特征提取候選區(qū)域,計(jì)算復(fù)雜度較低。本算法的測(cè)試數(shù)據(jù)主要是基于車(chē)輛年檢標(biāo)志的檢測(cè)方面。算法流程如圖1所示。
圖1 算法流程圖
超像素是由一系列位置相鄰,顏色、亮度、紋理信息具有一致性的像素集合構(gòu)成的圖像區(qū)域,近年來(lái)提出了很多基于超像素分割的算法,如圖割[12]和最大流最小割方法[18]等。該類(lèi)方法都是通過(guò)超像素對(duì)圖像進(jìn)行預(yù)分割,然后將通過(guò)超像素塊之間的特征關(guān)聯(lián)融合。本文選用算法執(zhí)行效率較高的SLIC算法進(jìn)行目標(biāo)圖像過(guò)分割,選用該超像素算法的一個(gè)主要原因是超像素對(duì)區(qū)域邊緣具有極高的敏感性,能夠從像素層面捕捉小目標(biāo)與背景之間的分界線。
超像素合并[19]的目的是為了減少超像素的數(shù)量,將可能是目標(biāo)的區(qū)域提取出來(lái),將背景信息融合并濾除,降低背景和噪聲在目標(biāo)檢測(cè)和分類(lèi)過(guò)程中的干擾。在超像素合并過(guò)程中我們綜合利用了每個(gè)超像素的顏色分布屬性、紋理特征和邊緣信息等三種信息作為特征。
1.2.1 顏色直方圖的距離
超像素之間的顏色直方圖的分布差異是檢測(cè)和計(jì)算超像素之間差異的最為簡(jiǎn)單高效的方式之一,本文首先將RGB空間的超像素分布轉(zhuǎn)化到Lab空間,然后將每個(gè)顏色通道劃分為30個(gè)區(qū)間,分別計(jì)算L、a、b通道的顏色直方圖分布,得到一個(gè)90維的特征ci:
(1)
(2)
該距離值評(píng)估超像素之間的顏色分布差異的指標(biāo),dc越大表示超像素之間的相似度越高,距離越近。
1.2.2 紋理特征提取
紋理特征是評(píng)估兩個(gè)超像素塊之間內(nèi)部結(jié)構(gòu)分布的有效評(píng)價(jià)指標(biāo),反映的是目標(biāo)內(nèi)部結(jié)構(gòu)分布的一致性程度,當(dāng)前提取目標(biāo)紋理信息的算法有很多,例如LBP(Local Binary Pattern)類(lèi)[20]、GLCM(Gray-level Co-occurrence Matrix)類(lèi)[21]、以及SIFT和HOG等。本文采用了在特征的表達(dá)能力較好和計(jì)算復(fù)雜度較低的LBP作為超像素之間的紋理特征表達(dá)。該算法不僅對(duì)光照變化具有較強(qiáng)的魯棒性,而且具有旋轉(zhuǎn)不變形和尺度不變性等優(yōu)點(diǎn)。
(3)
1.2.3 邊緣距離
邊緣距離是衡量?jī)蓚€(gè)超像素之間共有邊緣區(qū)域的差異,反映的是目標(biāo)邊緣結(jié)構(gòu)的相似度,假設(shè)兩個(gè)超像素區(qū)域spi和spj共享邊緣區(qū)域nb(i,j),然后得到邊緣區(qū)域的像素灰度值差pbk(i,j),邊緣距離定義為:
(4)
由于邊緣檢測(cè)的計(jì)算復(fù)雜度較高,盡管邊緣提取是在超像素區(qū)域塊上進(jìn)行,但是由于邊緣像素?cái)?shù)量較高導(dǎo)致計(jì)算量較大,為了簡(jiǎn)化計(jì)算我們利用ne(i,j)表示兩個(gè)超像素塊共有的邊緣像素?cái)?shù)量,邊緣距離定義為:
dB(i,j)=ne(i,j)/nb(i,j)
(5)
dB(i,j)歸一化為[0, 1],其值越大表示超像素塊之間的相似度越高。
1.2.4 候選區(qū)域提取
得到三個(gè)關(guān)于超像素距離之后,我們將綜合通過(guò)它們之間的加權(quán)線性組合作為兩個(gè)超像素之間的最終距離D(i,j),并以此為標(biāo)準(zhǔn)進(jìn)行候選區(qū)域生成。算法流程如圖2所示。
圖2 候選區(qū)域提取算法流程圖
(6)
式(6)中的θC、θT、θE分別表示顏色特征閾值,紋理特征閾值和邊緣特征閾值。ωC、ωT、ωE表示顏色、紋理和邊緣信息決定特征超像素塊的權(quán)重因子。然后通過(guò)迭代的方式融合超像素塊,迭代過(guò)程中生成的區(qū)域較大的塊表示背景信息,在小目標(biāo)檢測(cè)過(guò)程中濾除,而區(qū)域過(guò)小的塊則被認(rèn)為是噪聲同樣予以濾除。由式(7)得到的候選區(qū)域中心為(px,py)。
(7)
為了保證得到的候選區(qū)域的尺度大小和真實(shí)的車(chē)輛年檢標(biāo)識(shí)具有相同的尺度,我們通過(guò)在5 000個(gè)標(biāo)注了年檢標(biāo)識(shí)的圖像中擬合兩個(gè)關(guān)于圖像長(zhǎng)和寬與年檢標(biāo)識(shí)長(zhǎng)和寬關(guān)系的三次函數(shù)(如圖3所示),用于逼近和預(yù)測(cè)任意尺度圖像中年檢標(biāo)識(shí)目標(biāo)的尺度。同時(shí)在處理年檢標(biāo)識(shí)的形變方面,我們將提取的超像素候選區(qū)域進(jìn)行3∶4、1∶1和4∶3的尺度重構(gòu),分類(lèi)過(guò)程中將置信度最高的目標(biāo)作為最終結(jié)果。
圖3 圖像長(zhǎng)和寬與年檢標(biāo)識(shí)長(zhǎng)和寬關(guān)系
本節(jié)的主要任務(wù)是提取出超像素候選區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)特征,并以此進(jìn)行分類(lèi)器訓(xùn)練。利用傳統(tǒng)的手工特征提取小目標(biāo)的特征(顏色特征,紋理特征,邊緣特征)是一項(xiàng)很難實(shí)現(xiàn)的工作,主要是因?yàn)樾〕叨饶繕?biāo)本身缺乏自身特征,而且這些傳統(tǒng)的特征大多是基于統(tǒng)計(jì)的方法得到的,而像素?cái)?shù)量較少的小目標(biāo)在統(tǒng)計(jì)過(guò)程中缺乏信息支持,造成統(tǒng)計(jì)特征的不穩(wěn)定。
卷積神經(jīng)網(wǎng)絡(luò)是一種非線性特征自動(dòng)提取方法,提取到的特征既包括低層次語(yǔ)義信息,也包括高層語(yǔ)義信息。來(lái)自不同層的卷積特征是對(duì)目標(biāo)不同方面的特征表達(dá),例如來(lái)自低層的卷積特征能夠表達(dá)目標(biāo)類(lèi)內(nèi)特征,而來(lái)自高層的特征則能夠提取目標(biāo)類(lèi)間通用特征表達(dá)[22],相比于低層特征對(duì)目標(biāo)本身的變化不大明顯。同時(shí)為了處理小目標(biāo)本身尺度的變化,本文將候選區(qū)域通過(guò)池化和插值的方式構(gòu)成圖像金字塔,卷積神經(jīng)網(wǎng)絡(luò)提取到的每一層金字塔的信息通過(guò)串聯(lián)的方式組合為高維特征,該特征基于處理目標(biāo)尺度變化魯棒性特點(diǎn)。
提取候選區(qū)域卷積神經(jīng)網(wǎng)絡(luò)特征的流程:首先通過(guò)超像素方法提取候選區(qū)域,將得到的候選區(qū)域重構(gòu)成空間金字塔的形式,然后提取卷積神將網(wǎng)絡(luò)的conv_3和conv_5層卷積特征作為目標(biāo)特征觀測(cè)。接著將不同層和不同尺度的特征串聯(lián)成一個(gè)高維特征,該特征不僅能夠處理目標(biāo)尺度的不確定性,而且能夠從不同的特征水平表達(dá)目標(biāo)的本質(zhì)。用于提取目標(biāo)特征的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如表1所示,訓(xùn)練的卷積核視覺(jué)圖如圖4所示。然后將卷積神經(jīng)網(wǎng)絡(luò)特征輸入支持向量機(jī)分類(lèi)器,求解支持向量用于目標(biāo)分類(lèi)。
表1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
圖4 卷積核視覺(jué)圖
目前沒(méi)有針對(duì)小目標(biāo)檢測(cè)的公開(kāi)數(shù)據(jù)集可用,因此本文制作了用于評(píng)測(cè)算法性能的數(shù)據(jù)集。該數(shù)據(jù)集圖像由48個(gè)路口伺服攝像機(jī)采集的視頻構(gòu)成,通過(guò)隨機(jī)方式抽取20 000張圖像進(jìn)行人工標(biāo)注,標(biāo)注的內(nèi)容主要是路過(guò)公路卡口的機(jī)動(dòng)車(chē)輛的年檢標(biāo)示和機(jī)動(dòng)車(chē)輛的車(chē)窗玻璃位置。該20 000張圖像中15 000張圖像提取到的52 000車(chē)輛年檢標(biāo)識(shí)作為訓(xùn)練集,余下的5 000張圖像作為檢測(cè)算法性能的測(cè)試集。
首先,為了評(píng)估本文候選區(qū)域提取方法的有效性,我們用Edge-box, Selective Search和Bing以及滑動(dòng)窗的方式分別提取候選區(qū)域,然后計(jì)算不同方法的時(shí)間消耗和目標(biāo)召回率,如圖5所示。為了測(cè)試我們特征提取算法的有效性,本文將HOG+SVM、LBP+SVM、HOG+LBP+SVM 以及 CNN+SVM作為對(duì)比試驗(yàn),檢驗(yàn)本文提出的多尺度多層次卷積神經(jīng)網(wǎng)絡(luò)特征的有效性。
圖5 目標(biāo)召回率比較
本實(shí)驗(yàn)對(duì)比Edge-box (EB)、Selective Search (SS)、Bing (B) and Sliding-window (SW) and the Super-pixel Based (SP)五種方法的在相同候選區(qū)域數(shù)量的情況下的目標(biāo)召回率。橫坐標(biāo)表示目標(biāo)候選區(qū)域與標(biāo)注區(qū)域不同的IoU指標(biāo),縱坐標(biāo)表示在不同IoU情況下的目標(biāo)召回率。結(jié)果表明本文方法SP的有效性。
本實(shí)驗(yàn)結(jié)果表明,基于小目標(biāo)的候選區(qū)域提取算法相比于其他區(qū)域建議方法具有更好的目標(biāo)召回率,同時(shí)該算法提取的目標(biāo)候選區(qū)域的時(shí)間消耗明顯低于其他方法,如表2所示,候選區(qū)域提取對(duì)比結(jié)果如圖6所示。
表2 算法耗時(shí)比較 s
圖6 候選區(qū)域提取對(duì)比結(jié)果圖
為了比較不同的特征提取方法對(duì)小目標(biāo)檢測(cè)的效果,本文設(shè)計(jì)了實(shí)驗(yàn),通過(guò)提取目標(biāo)候選區(qū)域的LBP、HOG和卷積神經(jīng)網(wǎng)絡(luò)特征(CNN),然后統(tǒng)一將這些特征輸入到SVM分類(lèi)器中訓(xùn)練,通過(guò)計(jì)算LBP+SVM、HOG+SVM、LBP+HOG+SVM和CNN+SVM不同組合的目標(biāo)檢測(cè)準(zhǔn)確率和誤檢率衡量不同特征的性能,實(shí)驗(yàn)結(jié)果,如圖7所示。該結(jié)果表明基于CNN特征的目標(biāo)檢測(cè)算法流程在目標(biāo)檢測(cè)精確率和誤檢率方面具有顯著的優(yōu)勢(shì)。
為了比較不同的特征,本文針對(duì)小目標(biāo)檢測(cè)提出了一種超像素候選區(qū)域提取策略。該方法首先將目標(biāo)圖像進(jìn)行超像素過(guò)分割,然后利用超像素塊之間的顏色信息、紋理信息和邊緣信息的一致性融合超像素區(qū)域,得到高質(zhì)量的目標(biāo)候選區(qū)域,相比于傳統(tǒng)的目標(biāo)建議區(qū)域提取算法在召回率和時(shí)間消耗方面具有顯著優(yōu)勢(shì)。同時(shí)本文提出的基于卷積神經(jīng)網(wǎng)絡(luò)的多層次多尺度特征提取方法能夠有效地表達(dá)小目標(biāo)的本質(zhì)特征,相比于傳統(tǒng)的手工特征提取方法大幅度提升了檢測(cè)算法的性能。本文提出的算法為小目標(biāo)檢測(cè)一種行之有效的解決方案。
[1] Nordstr?m K,O′Carroll D C.Small object detection neurons in female hoverflies[J].Proceedings of the Royal Society of London B:Biological Sciences,2006,273(1591):1211-1216.
[2] Erhan D,Szegedy C,Toshev A,et al.Scalable object detection using deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2014:2147-2154.
[3] 葉斌,彭嘉雄.基于形態(tài)學(xué)Top—Hat算子的小目標(biāo)檢測(cè)方法[J].中國(guó)圖象圖形學(xué)報(bào),2002,7(7):638-642.
[4] Lowe D G.Object recognition from local scale-invariant features[C]//Computer vision,1999.The proceedings of the seventh IEEE international conference on.IEEE,1999,2:1150-1157.
[5] Dalal N,Triggs B,Schmid C.Human detection using oriented histograms of flow and appearance[C]//European conference on computer vision.Springer Berlin Heidelberg,2006:428-441.
[6] Mita T,Kaneko T,Hori O.Joint haar-like features for face detection[C]//Computer Vision,2005.ICCV 2005.Tenth IEEE International Conference on.IEEE,2005,2:1619-1626.
[7] Cho J,Mirzaei S,Oberg J,et al.Fpga-based face detection system using haar classifiers[C]//Proceedings of the ACM/SIGDA international symposium on Field programmable gate arrays.ACM,2009:103-112.
[8] Liu W,Anguelov D,Erhan D,et al.SSD:Single shot multibox detector[C]//European Conference on Computer Vision.Springer International Publishing,2016:21-37.
[9] Ren S,He K,Girshick R,et al.Faster r-cnn:Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems,2015:91-99.
[10] Ren S,He K,Girshick R,et al.Object Detection Networks on Convolutional Feature Maps[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2015(99):1-1.
[11] Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:779-788.
[12] LeCun Y,Bottou L,Bengio Y,et al.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.
[13] Uijlings J R R,Van De Sande K E A,Gevers T,et al.Selective search for object recognition[J].International journal of computer vision,2013,104(2):154-171.
[14] Cheng M M,Zhang Z,Lin W Y,et al.BING:Binarized normed gradients for objectness estimation at 300fps[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2014:3286-3293.
[15] Zitnick C L,Dollár P.Edge boxes:Locating object proposals from edges[C]//European Conference on Computer Vision.Springer International Publishing,2014:391-405.
[16] Achanta R,Shaji A,Smith K,et al.SLIC superpixels compared to state-of-the-art superpixel methods[J].IEEE transactions on pattern analysis and machine intelligence,2012,34(11):2274-2282.
[17] Cortes C,Vapnik V.Support-vector networks[J].Machine learning,1995,20(3):273-297.
[18] Shi J,Malik J.Normalized cuts and image segmentation[J].IEEE Transactions on pattern analysis and machine intelligence,2000,22(8):888-905.
[19] Nordstr?m K,O′Carroll D C.Small object detection neurons in female hoverflies[J].Proceedings of the Royal Society of London B:Biological Sciences,2006,273(1591):1211-1216.
[20] Chen J,Kellokumpu V,Zhao G,et al.RLBP:Robust Local Binary Pattern[C]//British Machine Vision Conference,2013:122.
[21] Mokji M M,Bakar S A R A.Gray level co-occurrence matrix computation based on haar wavelet[C]//Computer Graphics,Imaging and Visualisation,2007.CGIV’07.IEEE,2007:273-279.
[22] Wang L,Ouyang W,Wang X,et al.Visual tracking with fully convolutional networks[C]//Proceedings of the IEEE International Conference on Computer Vision,2015:3119-3127.
ANEWMETHODOFSMALLTARGETDETECTIONBASEDONDEEP-LEARNING
Chen Jiangyun
(InternationalCollege,ZhejiangUniversityofTechnology,Hangzhou310023,Zhejiang,China)
Accurate and fast object detection is one of the research topics in computer vision. At present, the general target detection model mainly consists of two parts, the extraction of candidate regions and the design of classifier. This paper innovatively proposes to apply convolutional neural network (CNN) and super pixel to the detection of a new small target. Firstly, we employed SLIC algorithm to over-segment the image. Then, we extracted the features of the over segmentation region and merged the regions. Finally, candidate regions were extracted. Compared with the traditional proposed region extraction method, our proposed method reduced the number of candidate regions on the premise of ensuring recall rate. To overcome the difficulty of feature extraction of small targets, our algorithm used multi-level and multi-layer CNN to extract semantic information of the middle and high level of candidate regions for target classification. Experiment on detecting vehicle inspection mark shows that our method achieves better recall rate (increased by 2%, 2.4%, 3.5%) compared with the state-of-the-art method including Bing, Selective search, and Edge box. Meanwhile, the multi-level and multi-scale target classification algorithm can effectively reduce the false detection rate and improve the detection rate.
Object detection CNN Super-resolution Object proposal
TP301.6
A
10.3969/j.issn.1000-386x.2017.10.040
2017-03-09。陳江昀,本科生,主研領(lǐng)域:計(jì)算機(jī)的人工智能與識(shí)別。