亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)的顯著性對(duì)象檢測(cè)算法

        2018-03-20 00:43:02李建平陳雷霆
        計(jì)算機(jī)應(yīng)用 2018年1期
        關(guān)鍵詞:深度區(qū)域檢測(cè)

        楊 帆,李建平,李 鑫,陳雷霆

        (電子科技大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,成都 611731)(*通信作者電子郵箱fanyang_uestc@hotmail.com)

        0 引言

        視覺(jué)顯著性可以幫助人類(lèi)快速地過(guò)濾掉不重要的信息,讓我們的注意力更加集中在有意義的區(qū)域,從而能更好地理解眼前的場(chǎng)景。隨著計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,大家希望電腦也能擁有和人類(lèi)相同的能力,即在分析和理解一個(gè)復(fù)雜的場(chǎng)景時(shí),電腦可以更加有針對(duì)性地處理有用的信息,從而能大幅度降低算法的復(fù)雜度,并且排除雜波的干擾。一般來(lái)說(shuō),視覺(jué)顯著性算法主要可以被分為兩大類(lèi):1)眼動(dòng)估計(jì);2)顯著性對(duì)象檢測(cè)。本文的工作主要針對(duì)第2)類(lèi)問(wèn)題進(jìn)行研究。顯著性對(duì)象檢測(cè)算法的目標(biāo)是檢測(cè)圖像(輸入場(chǎng)景)中最能吸引人注意的整個(gè)對(duì)象區(qū)域。目前,顯著性對(duì)象檢測(cè)算法被廣泛運(yùn)用于計(jì)算機(jī)視覺(jué)和多媒體領(lǐng)域的任務(wù)中,包括對(duì)象追蹤[1]、對(duì)象發(fā)現(xiàn)[2]、對(duì)象識(shí)別[3]、稠密匹配[4]、圖像檢索[5]等。

        顯著性對(duì)象檢測(cè)不受限于對(duì)象的類(lèi)別、尺寸大小、位置、個(gè)數(shù),這些不確定因素使得它成為目前計(jì)算機(jī)視覺(jué)和人工智能領(lǐng)域中的一個(gè)難題。在傳統(tǒng)做法中,研究人員根據(jù)觀察到的各種先驗(yàn)知識(shí)對(duì)顯著性對(duì)象檢測(cè)算法進(jìn)行建模,生成顯著性圖。這些先驗(yàn)知識(shí)包括:對(duì)比度、中心先驗(yàn)、邊緣先驗(yàn)、語(yǔ)義先驗(yàn)等,但在復(fù)雜的場(chǎng)景中,傳統(tǒng)方法往往不夠準(zhǔn)確。這是因?yàn)檫@些觀察往往限于低級(jí)別的特征(例如,顏色和對(duì)比度等),而不能準(zhǔn)確反映出顯著性對(duì)象本質(zhì)的共同點(diǎn)。

        近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)廣泛運(yùn)用于計(jì)算機(jī)視覺(jué)的各個(gè)領(lǐng)域,很多困難的視覺(jué)問(wèn)題都獲得了重大的進(jìn)展。不同于傳統(tǒng)方法,深度卷積網(wǎng)絡(luò)可以從大量的樣本中建模并且自動(dòng)地、端到端地學(xué)習(xí)到更為本質(zhì)的特征,從而有效地避免了傳統(tǒng)人工建模和設(shè)計(jì)特征的弊端。在顯著性對(duì)象檢測(cè)領(lǐng)域,深度卷積網(wǎng)絡(luò)也被廣泛地使用[6-8],并且大幅度地提高了顯著性對(duì)象檢測(cè)的準(zhǔn)確性和魯棒性,但是由于深度網(wǎng)絡(luò)需要大量運(yùn)用的池化操作(例如max-pooling和average-pooling)編碼上下文信息,這些方法總是不能很好地保存對(duì)象邊緣的信息,而事實(shí)上,對(duì)象的邊緣信息對(duì)于顯著性檢測(cè)非常重要。認(rèn)知科學(xué)的研究也表明:人的視覺(jué)注意力在對(duì)象中流動(dòng)并且被對(duì)象邊緣所阻擋。忽略這些邊緣信息或者不能正確編碼這些邊緣信息,往往只能得到次優(yōu)的結(jié)果。

        針對(duì)邊緣信息被忽略的問(wèn)題,本文提出一種全新的顯著性對(duì)象檢測(cè)模型,該模型基于一個(gè)新設(shè)計(jì)的多任務(wù)的卷積神經(jīng)網(wǎng)絡(luò),并且該模型同時(shí)訓(xùn)練和學(xué)習(xí)顯著性區(qū)域和邊緣信息。不同于現(xiàn)存單一任務(wù)的深度學(xué)習(xí)方法,本文檢測(cè)結(jié)果的生成同時(shí)依賴(lài)于顯著性對(duì)象邊緣和區(qū)域的信息。在三個(gè)廣泛使用的顯著性對(duì)象檢測(cè)公共數(shù)據(jù)庫(kù)上的實(shí)驗(yàn)結(jié)果表明,本文所提方法在準(zhǔn)確率、召回率以及均方誤差上均優(yōu)于傳統(tǒng)算法和單一任務(wù)的深度學(xué)習(xí)算法。

        1 相關(guān)工作

        顯著性對(duì)象檢測(cè)算法可以被歸納為兩個(gè)類(lèi)別:傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)方法主要基于各種不同的先驗(yàn)知識(shí),然后利用這些先驗(yàn)知識(shí)進(jìn)行數(shù)學(xué)建模,從而計(jì)算出每個(gè)像素的顯著性值。Cheng等[9]利用全局對(duì)比度計(jì)算對(duì)象的顯著性圖,該方法認(rèn)為人的注意力總是傾向于那些對(duì)比度(全局對(duì)比度或者局部對(duì)比度)比較強(qiáng)烈的區(qū)域,從而可以通過(guò)顏色直方圖的計(jì)算,快速找出圖像中那些對(duì)比度強(qiáng)烈的區(qū)域。除此之外,邊緣先驗(yàn)也廣泛地運(yùn)用在顯著性對(duì)象檢測(cè)算法中,并衍生出各種類(lèi)型的算法。這類(lèi)算法假設(shè)圖像邊緣的區(qū)域往往不是顯著性對(duì)象的區(qū)域,因?yàn)槿藗冊(cè)谌粘E恼盏倪^(guò)程中,總是將顯著性的對(duì)象置于相對(duì)中間的位置。其中基于流形排序的散射算法[10]、基于二值圖的顯著性檢測(cè)算法[11]、基于邊緣接觸的顯著性對(duì)象檢測(cè)算法[12]等都取得了不錯(cuò)的效果。除此之外,監(jiān)督學(xué)習(xí)的方法也運(yùn)用在顯著性對(duì)象檢測(cè)的任務(wù)中[13]。另外,Li等[14]提出構(gòu)建顯著性的特征,并且建立與已有樣本的稠密對(duì)應(yīng)關(guān)系,從而引導(dǎo)顯著性對(duì)象的檢測(cè)。傳統(tǒng)方法運(yùn)用各種觀察和先驗(yàn)知識(shí)進(jìn)行數(shù)學(xué)建模,從而檢測(cè)出圖像或者場(chǎng)景中的顯著性對(duì)象。因?yàn)檫@些方法總是缺少了足夠的語(yǔ)義信息,所以它們不可避免地會(huì)在應(yīng)對(duì)復(fù)雜場(chǎng)景和先驗(yàn)矛盾的情況下失效。

        由于深度卷積網(wǎng)絡(luò)強(qiáng)大的建模能力和自動(dòng)的端到端的學(xué)習(xí)方式,很多近期的工作基于深度卷積網(wǎng)絡(luò)學(xué)習(xí)有效的特征,從而進(jìn)行顯著性對(duì)象檢測(cè)。例如:文獻(xiàn)[6]利用更加豐富的上下文信息學(xué)習(xí)顯著性對(duì)象區(qū)域等;文獻(xiàn)[7]基于一個(gè)多尺度編碼上下文的深度卷積網(wǎng)絡(luò)進(jìn)行顯著性對(duì)象檢測(cè);文獻(xiàn)[8]同時(shí)編碼傳統(tǒng)特征向量和深度特征向量,利用它們的互補(bǔ)優(yōu)勢(shì)進(jìn)行顯著性對(duì)象檢測(cè);文獻(xiàn)[15]基于一個(gè)多流卷積網(wǎng)絡(luò)學(xué)習(xí)顯著性對(duì)象的特征;文獻(xiàn)[16]通過(guò)兩個(gè)獨(dú)立的深度神經(jīng)網(wǎng)絡(luò)分別計(jì)算區(qū)域和邊界信息,并且利用條件隨機(jī)場(chǎng)進(jìn)行優(yōu)化。這些方法相對(duì)傳統(tǒng)顯著性對(duì)象檢測(cè)方法大幅度提高了檢測(cè)的準(zhǔn)確率,但是由于深度網(wǎng)絡(luò)的池化操作不能更好地保存對(duì)象的邊緣信息(也稱(chēng)邊緣信息損失),因而導(dǎo)致整個(gè)對(duì)象區(qū)域的邊緣模糊。為了解決上述問(wèn)題,稠密條件隨機(jī)場(chǎng)(Dense Conditional Random Field)被廣泛地運(yùn)用來(lái)優(yōu)化深度網(wǎng)絡(luò)檢測(cè)的結(jié)果,進(jìn)而得到完整的區(qū)域和清晰的邊緣;但是稠密條件隨機(jī)場(chǎng)的計(jì)算比較耗時(shí),而且由于稠密條件隨機(jī)場(chǎng)基于低級(jí)別的圖像特征(比如顏色),因而它在應(yīng)對(duì)復(fù)雜場(chǎng)景時(shí),也并不是特別有效。綜上所述,基于深度卷積網(wǎng)絡(luò)的顯著性對(duì)象檢測(cè)算法仍然有較大的提升空間。

        2 基于多任務(wù)深度CNN的顯著性對(duì)象檢測(cè)

        本文提出的顯著性對(duì)象檢測(cè)算法主要基于一個(gè)多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)。不同于現(xiàn)有基于卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行顯著性對(duì)象檢測(cè)的框架,本文提出的多任務(wù)深度卷積網(wǎng)絡(luò)同時(shí)進(jìn)行顯著性對(duì)象區(qū)域和邊緣兩種特征的學(xué)習(xí),并且它們共享同一個(gè)底層表達(dá)。該網(wǎng)絡(luò)的輸入為任意一張圖像,輸出為一個(gè)顯著性對(duì)象區(qū)域的檢測(cè)結(jié)果以及一個(gè)顯著性邊緣的檢測(cè)結(jié)果。根據(jù)邊緣的檢測(cè)結(jié)果,生成一系列候選區(qū)域,這些區(qū)域結(jié)合顯著性區(qū)域的檢測(cè)結(jié)果重新進(jìn)行排序并且加權(quán)求和,從而最后生成最終的顯著性圖。

        2.1 多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

        多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)是同時(shí)對(duì)圖像的邊緣和區(qū)域信息進(jìn)行編碼。如圖1所示,在編碼過(guò)程中(encode process),該網(wǎng)絡(luò)共享一個(gè)VGG- 16網(wǎng)絡(luò),在解碼過(guò)程(decode process)中,該網(wǎng)絡(luò)包括一個(gè)顯著性區(qū)域檢測(cè)分支以及一個(gè)顯著性邊緣檢測(cè)分支。其中顯著性對(duì)象區(qū)域檢測(cè)子網(wǎng)絡(luò)是一個(gè)整體嵌套網(wǎng)絡(luò)(holistically-nested network)[17],顯著性對(duì)象邊緣檢測(cè)是一個(gè)反卷積網(wǎng)絡(luò)(deconvnet)。在訓(xùn)練的過(guò)程中,采取交互的方式訓(xùn)練這個(gè)網(wǎng)絡(luò):先固定顯著性對(duì)象邊緣檢測(cè)子網(wǎng)絡(luò),訓(xùn)練顯著性對(duì)象區(qū)域子網(wǎng)絡(luò);然后固定顯著性對(duì)象區(qū)域檢測(cè)子網(wǎng)絡(luò),調(diào)整(fine-tune)顯著性對(duì)象邊緣檢測(cè)子網(wǎng)絡(luò)。上述過(guò)程交替執(zhí)行,直到損失函數(shù)(loss function)不再下降為止。在執(zhí)行的過(guò)程中,輸入一張圖像,深度卷積網(wǎng)絡(luò)自動(dòng)同時(shí)生成顯著性對(duì)象區(qū)域圖和顯著性對(duì)象邊緣圖。值得注意的是,兩個(gè)子網(wǎng)絡(luò)共享同一個(gè)底層VGG- 16網(wǎng)絡(luò),因而它們可以保持一定的相關(guān)性,從而更加準(zhǔn)確。

        圖1 多任務(wù)深度卷積網(wǎng)絡(luò)整體框架結(jié)構(gòu)

        2.2 顯著性對(duì)象區(qū)域檢測(cè)子網(wǎng)絡(luò)

        顯著性對(duì)象檢測(cè)是一個(gè)相對(duì)復(fù)雜的任務(wù),它不僅需要高層次的語(yǔ)義信息,還需要低層次的局部信息,因而本文提出的顯著性對(duì)象區(qū)域檢測(cè)子網(wǎng)絡(luò)同時(shí)融合VGG- 16的淺層信息和深層信息。類(lèi)似于整體嵌套網(wǎng)絡(luò),將VGG- 16每個(gè)組的最后一層作為邊緣特征輸出(side-output),另外在每個(gè)邊緣輸出中加入一個(gè)卷積層,從而更好地編碼上下文信息。

        顯著性對(duì)象區(qū)域檢測(cè)子網(wǎng)路的輸入為一張任意圖像I,輸出為顯著性區(qū)域概率圖ψ(I;θR),其中θR為顯著性對(duì)象區(qū)域檢測(cè)子網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。該網(wǎng)絡(luò)學(xué)習(xí)多尺度顯著性對(duì)象區(qū)域特征,然后利用一個(gè)融合網(wǎng)絡(luò)整合各個(gè)尺度計(jì)算的顯著性對(duì)象的預(yù)測(cè)結(jié)果,并且得出最終的顯著性區(qū)域概率圖。VGG- 16有6個(gè)不同的尺度,其中最后一個(gè)尺度更多地整合全局信息,而顯著性對(duì)象檢測(cè)是一個(gè)像素級(jí)的分類(lèi)問(wèn)題,因而只利用VGG- 16的前5個(gè)尺度進(jìn)行顯著性對(duì)象區(qū)域的檢測(cè),并且每個(gè)尺度對(duì)應(yīng)分類(lèi)器的權(quán)重為ki,其中i=1,2,…,5。本文運(yùn)用標(biāo)準(zhǔn)交叉熵代價(jià)函數(shù)(cross-entropy loss)去訓(xùn)練整個(gè)網(wǎng)絡(luò),計(jì)算每個(gè)像素和標(biāo)注的差值。顯著性對(duì)象區(qū)域子網(wǎng)絡(luò)每個(gè)尺度的代價(jià)函數(shù)被定義為:

        (1)

        (2)

        通過(guò)上述代價(jià)函數(shù)訓(xùn)練,顯著性對(duì)象區(qū)域檢測(cè)子網(wǎng)絡(luò)可以有效地對(duì)圖像的顯著性區(qū)域進(jìn)行預(yù)測(cè)。然而正如前文討論,由于深度卷積網(wǎng)絡(luò)固有的信息損失的缺陷(如圖2所示),該網(wǎng)絡(luò)并不能完整地保存對(duì)象的邊緣信息,因此在該網(wǎng)絡(luò)基礎(chǔ)上,設(shè)計(jì)了另一個(gè)重要分支,對(duì)顯著性對(duì)象邊緣的特征進(jìn)行有效的學(xué)習(xí)和提取。

        2.3 顯著性對(duì)象邊緣檢測(cè)子網(wǎng)絡(luò)

        如圖1所示,顯著性對(duì)象邊緣檢測(cè)網(wǎng)絡(luò)分支是一個(gè)反卷積網(wǎng)絡(luò)。理論上,反卷積網(wǎng)絡(luò)可以看成是卷積網(wǎng)絡(luò)的逆過(guò)程,即將上層的卷積圖作為輸入,然后進(jìn)行反卷積操作,得到新的卷積圖。如表1所示,在本文的多任務(wù)深度卷積神經(jīng)網(wǎng)絡(luò)中設(shè)計(jì)了6個(gè)反卷積層,分別對(duì)應(yīng)了VGG- 16的6個(gè)尺度。顯著性對(duì)象邊緣子網(wǎng)絡(luò)的設(shè)計(jì)參考文獻(xiàn)[18],但是這里的任務(wù)是顯著性對(duì)象的檢測(cè),而不是給定類(lèi)別的對(duì)象邊緣檢測(cè),因此,在訓(xùn)練的過(guò)程中,運(yùn)用大量顯著性圖的人工標(biāo)注,提取出邊緣,并且進(jìn)行自動(dòng)的端到端的學(xué)習(xí),從而學(xué)習(xí)到每個(gè)反卷積網(wǎng)絡(luò)的參數(shù)。代價(jià)函數(shù)仍然為交叉熵代價(jià)函數(shù)計(jì)算顯著性對(duì)象邊緣:

        (1-Bp) lnP(Bp=0|I;θB)

        (3)

        其中:Bp表示坐標(biāo)p對(duì)應(yīng)的邊緣標(biāo)注,θB表示反卷積網(wǎng)絡(luò)的所有參數(shù)。因而,整個(gè)多任務(wù)深度卷積網(wǎng)絡(luò)的代價(jià)函數(shù)可以定義為:

        Lall(θ)=Lfuse(θ)+Lb(θ)

        (4)

        其中Lall(θ)為整個(gè)多任務(wù)深度卷積網(wǎng)絡(luò)的代價(jià)函數(shù)?;谏疃葘W(xué)習(xí)的框架,本文用隨機(jī)梯度下降的方式求解上述代價(jià)函數(shù)和訓(xùn)練模型,從而訓(xùn)練好整個(gè)模型。

        在測(cè)試時(shí),多任務(wù)深度卷積網(wǎng)絡(luò)的輸入為任意一張圖像,輸出為一個(gè)顯著性對(duì)象區(qū)域概率圖和一個(gè)顯著性對(duì)象邊緣概率圖。顯著性對(duì)象圖需要融合上述兩種輸出結(jié)果,從而得到一個(gè)更好的顯著性檢測(cè)結(jié)果。

        表1 顯著性對(duì)象邊緣檢測(cè)子網(wǎng)絡(luò)參數(shù)設(shè)置

        2.4 顯著性對(duì)象圖生成

        如圖2,為了融合顯著性對(duì)象區(qū)域和邊緣的所有信息,首先利用顯著性對(duì)象邊緣的概率圖,并且通過(guò)多尺度聯(lián)合分組算法[19],生成大量的候選區(qū)域,再結(jié)合多任務(wù)深度卷積網(wǎng)絡(luò)輸出的顯著性對(duì)象區(qū)域檢測(cè)的結(jié)果,并通過(guò)以下方式重新計(jì)算這些候選區(qū)域?yàn)轱@著性對(duì)象區(qū)域的概率:

        (5)

        (6)

        其中:Scorep(Ri)表示像素p由第i個(gè)候選區(qū)域決定的顯著性分?jǐn)?shù);Norm{·}表示歸一化操作,即最后需要將相加的值重新歸化到[0,1]。

        圖2 顯著性對(duì)象圖生成框架

        2.5 訓(xùn)練和測(cè)試細(xì)節(jié)

        本文運(yùn)用MSRA- 10000[9]作為訓(xùn)練數(shù)據(jù)。對(duì)于每個(gè)訓(xùn)練的樣本,首先將它們的尺度調(diào)整為224×224。邊緣標(biāo)注是通過(guò)對(duì)顯著性圖進(jìn)行梯度計(jì)算提取出來(lái)。本文運(yùn)用“poly”學(xué)習(xí)率衰減方式訓(xùn)練整個(gè)網(wǎng)絡(luò),并且學(xué)習(xí)衰減率被定義為(1-iter/maxiter)power;同時(shí)將初始的學(xué)習(xí)率設(shè)置為10-7,并且power=0.9,最大循環(huán)次數(shù)為60 000,運(yùn)用隨機(jī)梯度下降法,去優(yōu)化整個(gè)網(wǎng)絡(luò)。因?yàn)楸疚牡木W(wǎng)絡(luò)為一個(gè)多任務(wù)網(wǎng)絡(luò),因此在訓(xùn)練的過(guò)程中,需要先固定顯著性對(duì)象區(qū)域檢測(cè)子網(wǎng)絡(luò),學(xué)習(xí)顯著性對(duì)象邊緣檢測(cè)子網(wǎng)絡(luò)的參數(shù);之后再固定顯著性對(duì)象邊緣檢測(cè)子網(wǎng)絡(luò),學(xué)習(xí)顯著性對(duì)象區(qū)域檢測(cè)子網(wǎng)絡(luò)的參數(shù)。上述訓(xùn)練交替進(jìn)行直到代價(jià)函數(shù)收斂,整個(gè)訓(xùn)練過(guò)程耗時(shí)24 h左右。

        測(cè)試過(guò)程中,僅僅只需要輸入任意一張圖像,網(wǎng)絡(luò)會(huì)自動(dòng)生成它對(duì)應(yīng)的顯著性區(qū)域圖和顯著性對(duì)象邊緣圖作為輸出。之后本文利用網(wǎng)絡(luò)輸出結(jié)果,根據(jù)2.4節(jié)描述,生成最終的顯著性對(duì)象圖。

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)庫(kù)和對(duì)比方法

        運(yùn)用3個(gè)廣泛使用的顯著性對(duì)象檢測(cè)數(shù)據(jù)庫(kù),包括擴(kuò)展的復(fù)雜場(chǎng)景顯著性數(shù)據(jù)集(Extended Complex Scene Saliency Dataset, ECSSD)[20]、大連理工-歐姆龍顯著性數(shù)據(jù)集(DUT-OMRON)[10]以及帕斯卡數(shù)據(jù)集(PASCAL-S)[21],作為測(cè)試數(shù)據(jù),驗(yàn)證本文所提方法的有效性。其中ECSSD中有1 000幅圖像,這些圖像包含一個(gè)或者多個(gè)顯著性對(duì)象,并且具有非常復(fù)雜的場(chǎng)景;DUT-OMRON是另外一個(gè)最具有挑戰(zhàn)的顯著性對(duì)象檢測(cè)數(shù)據(jù)庫(kù),含有5 168幅特別具有挑戰(zhàn)的圖像,這些圖像包含非常復(fù)雜的場(chǎng)景;PASCAL-S被認(rèn)為是目前最難的數(shù)據(jù)庫(kù)之一,它包含850幅圖像,這些圖像含有一個(gè)或者多個(gè)對(duì)象,并且這些對(duì)象具有不同的顯著值。上述三個(gè)數(shù)據(jù)庫(kù)被廣泛運(yùn)用于驗(yàn)證顯著性對(duì)象檢測(cè)算法的有效性。

        為了進(jìn)一步驗(yàn)證本文方法的優(yōu)越性,將本文提出的方法與目前常見(jiàn)的顯著性對(duì)象檢測(cè)算法進(jìn)行比較。這些方法分為兩類(lèi):第一類(lèi)是公認(rèn)準(zhǔn)確度排名較高的傳統(tǒng)方法,包括顯著性區(qū)域融合(Discriminative Regional Feature Integration, DRFI)[13]算法、基于最小障礙(Minimum Barrier, MB+)[22]顯著性檢測(cè)算法、基于流排序(Manifold Ranking, MR)[10]顯著性檢測(cè)算法、基于魯棒背景檢測(cè)(Robust Background Detection, RBD)[12]顯著性?xún)?yōu)化、基于高維顏色變換(High-Dimensional Color Transform, HDCT)[23]顯著性檢測(cè)、基于二值圖包圍方式(Boolean Map Saliency, BMS)[11]顯著性檢測(cè)。第二類(lèi)為目前基于深度學(xué)習(xí)的顯著性對(duì)象檢測(cè)算法,包括:基于多信息深度學(xué)習(xí)(Multi-Context, MC)[6]顯著性檢測(cè)、基于多尺度深度紋理(Multi-scale Deep Feature, MDF)[24]顯著性檢測(cè)、基于距離圖深度(Encoded Low-level Distance, ELD)[8]顯著性檢測(cè)。

        3.2 準(zhǔn)確率-召回率曲線

        準(zhǔn)確率-召回率曲線被廣泛用來(lái)驗(yàn)證顯著性對(duì)象檢測(cè)算法。通過(guò)設(shè)置不同的閾值,從而計(jì)算各個(gè)方法檢測(cè)結(jié)果準(zhǔn)確率和召回率。如圖3所示,本文提出的方法在三個(gè)廣泛使用的數(shù)據(jù)集上都獲得最高的準(zhǔn)確率-召回率。總的來(lái)說(shuō),基于深度卷積網(wǎng)絡(luò)的方法具有更高的準(zhǔn)確率。這是因?yàn)樯疃染矸e網(wǎng)絡(luò)在學(xué)習(xí)的過(guò)程中能更好地捕獲高級(jí)的語(yǔ)義信息,因而能更好地應(yīng)對(duì)復(fù)雜的場(chǎng)景。傳統(tǒng)方法(包括DRFI、MB+、MR、RBD、HDCT、BMS)在處理復(fù)雜場(chǎng)景時(shí)(例如DUT-OMRON和PASCAL-S數(shù)據(jù)庫(kù)中的圖像),由于它們基于觀察所得的線索進(jìn)行數(shù)學(xué)建模,而這些線索并不能完全覆蓋所有情形,因而不能很好地應(yīng)對(duì)復(fù)雜的場(chǎng)景。除此之外,本文方法由于克服了深度卷積神經(jīng)網(wǎng)絡(luò)邊緣信息損失缺陷,因而取得更準(zhǔn)確的顯著性圖。

        3.3 F-measure

        為了進(jìn)一步驗(yàn)證本文所提方法,除了準(zhǔn)確率-召回率曲線,本文還運(yùn)用F-measure(Fβ)對(duì)提出的方法進(jìn)行驗(yàn)證和比較。F-measure也一種驗(yàn)證顯著性對(duì)象檢測(cè)算法的方法,通過(guò)如下公式計(jì)算:

        (7)

        其中β為權(quán)重,參照文獻(xiàn)[11,13,22],本文設(shè)置β=0.3,強(qiáng)調(diào)precision的重要性。F-measure值越高表明算法檢測(cè)顯著性對(duì)象檢測(cè)的準(zhǔn)確度越高。表2總結(jié)了本文所提方法與常見(jiàn)的顯著性對(duì)象檢測(cè)算法在三個(gè)廣泛使用的標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)上的檢測(cè)結(jié)果。

        圖3 不同方法的準(zhǔn)確率-召回率曲線

        Tab. 2 Detection results comparison of different methods on three widely-used benchmarks

        從表2可以得出:1)相比傳統(tǒng)顯著性對(duì)象檢測(cè)算法,基于深度學(xué)習(xí)的顯著性對(duì)象檢測(cè)算法能夠計(jì)算出準(zhǔn)確度高的結(jié)果;2)本文所提方法在三個(gè)具有挑戰(zhàn)性的數(shù)據(jù)庫(kù)上都獲得最高準(zhǔn)確率;3)本文所提方法魯棒性相對(duì)較高,在不同難度數(shù)據(jù)庫(kù)上都獲得較高的準(zhǔn)確率。

        3.4 平均絕對(duì)誤差

        平均絕對(duì)誤差(Mean Absolute Error, MAE)是指顯著性圖和人工標(biāo)注的均方誤差,常常作為驗(yàn)證顯著性對(duì)象檢測(cè)的重要指標(biāo)。MAE是計(jì)算檢測(cè)出的顯著性圖的每個(gè)像素和人工標(biāo)注顯著性圖的每個(gè)像素的平均絕對(duì)誤差:

        (8)

        其中:W和H分別表示顯著性圖的寬度和高度;S(x,y)和G(x,y)分別代表在坐標(biāo)為(x,y)處方法預(yù)測(cè)的顯著性值和人工標(biāo)注的顯著性值。

        如表2所示,本文提出的方法在三個(gè)廣泛使用的公共數(shù)據(jù)集上獲取了最低的方差錯(cuò)誤。這是因?yàn)楸疚奶岢龇椒軌蛏筛訙?zhǔn)確的結(jié)果,并且更好地保存了邊緣信息。同樣的,相比傳統(tǒng)方法,基于深度卷積網(wǎng)絡(luò)的方法取得更低的錯(cuò)誤率,而本文方法比現(xiàn)有基于深度學(xué)習(xí)的方法更能有效保存邊緣信息,防止邊緣信息丟失,因而取得準(zhǔn)確度高的結(jié)果。

        3.5 視覺(jué)比較

        視覺(jué)比較的結(jié)果如圖4中所示。和最后一列人工標(biāo)注(GroundTruth, GT)作對(duì)比,本文所提方法生成的最后結(jié)果更接近于人工標(biāo)注,本文所提方法即使在特別具有挑戰(zhàn)的場(chǎng)景中,仍然可以生成準(zhǔn)確的顯著性圖。相比傳統(tǒng)方法,基于深度卷積網(wǎng)絡(luò)的方法的檢測(cè)結(jié)果更加集中在正確的區(qū)域,這是因?yàn)檫@些方法能有效學(xué)習(xí)到高級(jí)的語(yǔ)義信息。本文所提方法由于整合了邊緣和區(qū)域的信息,因而能更有效地保存邊緣信息,在背景復(fù)雜的場(chǎng)景中,本文提出方法仍然具有較高的魯棒性。

        圖4 不同方法的視覺(jué)比較

        3.6 運(yùn)行效率比較

        各種方法的運(yùn)行效率比較如表3所示。

        表3 運(yùn)行效率比較 s

        由于基于深度學(xué)習(xí)的方法需要運(yùn)用GPU加速,因而本文用兩種不同的實(shí)驗(yàn)環(huán)境分別測(cè)試傳統(tǒng)方法和基于深度學(xué)習(xí)方法的運(yùn)行效率。具體來(lái)說(shuō),對(duì)于傳統(tǒng)顯著性對(duì)象檢測(cè)方法,本文的實(shí)驗(yàn)環(huán)境為Windows操作系統(tǒng),CPU為i7 2.50 GHz,內(nèi)存為8 GB;對(duì)于基于深度學(xué)習(xí)的方法,用GPU進(jìn)行加速,實(shí)驗(yàn)環(huán)境為L(zhǎng)inux系統(tǒng),GPU為NVIDIA GTX 1080ti,顯存為11 GB。本文所提算法平均1.1 s完成一張圖像的檢測(cè),運(yùn)行速率上低于一些高效率算法(比如MB+),但是本文所提算法卻獲得了最高的準(zhǔn)確度。另外,本文提出算法的運(yùn)行效率仍然大幅度高于現(xiàn)有的部分算法。

        4 結(jié)語(yǔ)

        本文提出一種基于深度卷積網(wǎng)絡(luò)的顯著性對(duì)象檢測(cè)算法。該算法能有效地整合邊緣信息和區(qū)域信息,從而獲得更高的準(zhǔn)確性。為了實(shí)現(xiàn)對(duì)象邊緣信息和區(qū)域信息的提取,本文提出了一個(gè)多任務(wù)的深度卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)共享相同的底層結(jié)構(gòu),從而大幅度縮減了訓(xùn)練和運(yùn)行時(shí)間。在獲取顯著性對(duì)象邊緣和區(qū)域信息后,本文進(jìn)一步提出一個(gè)簡(jiǎn)單、有效的整合算法,精確地過(guò)濾了錯(cuò)誤信息并且準(zhǔn)確地保存了對(duì)象邊緣信息。實(shí)驗(yàn)結(jié)果表明,本文所提的多任務(wù)深度學(xué)習(xí)框架能更好地整合顯著性對(duì)象邊緣信息和區(qū)域信息,從而能達(dá)到更好的效果。

        當(dāng)然,由于本文算法依賴(lài)于對(duì)象邊緣先驗(yàn)知識(shí)提取對(duì)象候選區(qū)域,因此對(duì)于非常復(fù)雜的場(chǎng)景或者對(duì)象與圖像邊緣過(guò)度接觸的情況,本文算法仍然存在不足。這些問(wèn)題將在后續(xù)的研究中被逐步改善,進(jìn)一步提高算法效果。

        References)

        [1] BORJI A, FRINTROP S, SIHITE D et al. Adaptive object tracking by learning background context [C]// CVPR 2012: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 23-30.

        [2] ZHU J, WU J, XU Y, et al. Unsupervised object class discovery via saliency-guided multiple class learning [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(4): 826-875.

        [3] RUTISHAUSER U, WALTHER D, KOCH C, et al. Is bottom-up attention useful for object recognition? [C]// CVPR 2004: Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2004: 37-44.

        [4] YANG F, LI X, CHENG H, et al. Object-aware dense semantic correspondence [C]// CVPR 2017: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 2777-2785.

        [5] HE J, FENG J, LIU X, et al. Mobile product search with bag of Hash bits and boundary re-ranking [C]// CVPR 2012: Proceedings of the 2012 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2012: 3005-3012.

        [6] ZHAO R, OUYANG W, LI H, et al. Saliency detection by multi-context deep learning [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1265-1274.

        [7] LI G B, YU Y Z. Visual saliency based on multi-scale deep features [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 5455-5463.

        [8] LEE G, TAI Y W, KIM J. Deep saliency with encoded low level distance map and high level features [C]// CVPR 2016: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 660-668.

        [9] CHENG M, NILOY J, HUANG X, et al. Global contrast based salient region detection [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 569-582.

        [10] YANG C, ZHANG L, LU H, et al. Saliency detection via graph-based manifold ranking [C]// CVPR 2013: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 3166-3173.

        [11] ZHANG J, SCLAROFF S. Exploiting surroundedness for saliency detection: a Boolean map approach [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(5): 889-902.

        [12] ZHU W, LIANG S, WEI Y, et al. Saliency optimization from robust background detection [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 2814-2821.

        [13] JIANG H, WANG J, YUAN Z, et al. Salient object detection: a discriminative regional feature integration approach [C]// CVPR 2013: Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2013: 2083-2090.

        [14] LI X, YANG F, CHEN L, et al. Saliency transfer: an example-based method for salient object detection [C]// IJCAI 2016: Proceedings of the 2016 International Joint Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2016: 3411-3417.

        [15] LI X, ZHAO L, WEI L, et al. DeepSaliency: multi-task deep neural network model for salient object detection [J]. IEEE Transactions on Image Processing, 2016, 25(8): 3919-3930.

        [16] 李岳云,許悅雷,馬時(shí)平,等.深度卷積神經(jīng)網(wǎng)絡(luò)的顯著性檢測(cè)[J].中國(guó)圖象圖形學(xué)報(bào),2016,21(1):53-59.(LI Y Y, XU Y L, MA S P, et al. Saliency detection based on deep convolutional neural network [J]. Journal of Image and Graphics, 2016, 21(1): 53-59.)

        [17] XIE S, TU Z. Holistically-nested edge detection [C]// CVPR 2016: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 1395-1403.

        [18] YANG J, PRICE B, COHEN S, et al. Object contour detection with a fully convolutional encoder-decoder network [C]// CVPR 2016: Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 193-202.

        [19] ARBELAEZ P, PONTTUSET J, BSRRO J, et al. Multiscale combinatorial grouping [C]// ICCV 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 328-335.

        [20] XIE Y, LU H, YANG M. Bayesian saliency via low and mid level cues [J]. IEEE Transactions on Image Processing, 2013, 22(5): 1689-1698.

        [21] LI Y, HOU X, KOCH C, et al. The secrets of salient object segmentation [C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 280-287.

        [22] ZHANG J, SCLAROFF S, LIN Z, et al. Minimum barrier salient object detection at 80 FPS [C]// ICCV 2015: Proceedings of the 2015 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 1404-1412.

        [23] KIM J, HAN D, TAI Y W, et al. Salient region detection via high-dimensional color transform [C]// CVPR 2014: Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 883-890.

        [24] LI G, YU Y. Visual saliency based on multiscale deep features [C]// CVPR 2015: Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 5455-5463.

        This work is partially supported by the National Natural Science Foundation (6157021026), the National High Technology Research and Development Program (863 Program) of China (2015AA016010).

        YANGFan, born in 1987, Ph. D. candidate. His research interests include computer vision, deep learning, dense semantic correspondence.

        LIJianping, born in 1964, Ph. D., professor. His research interests include wavelet signal processing, pattern recognition, image processing.

        LIXin, born in 1986, Ph. D. candidate. His research interests include computer vision, deep learning, artificial intelligence.

        CHENLeiting, born in 1966, Ph. D., professor. His research interests include computer graphics, multimedia technology, image processing.

        猜你喜歡
        深度區(qū)域檢測(cè)
        “不等式”檢測(cè)題
        “一元一次不等式”檢測(cè)題
        “一元一次不等式組”檢測(cè)題
        深度理解一元一次方程
        深度觀察
        深度觀察
        深度觀察
        小波變換在PCB缺陷檢測(cè)中的應(yīng)用
        關(guān)于四色猜想
        分區(qū)域
        亚洲精一区二区三av| 成人精品免费av不卡在线观看| 日本在线视频二区一区| 亚洲自拍偷拍色图综合| 久久久久av无码免费网| 亚洲欧洲日产国码无码久久99| 国产成人精品aaaa视频一区| 成人av资源在线观看| 无码爆乳护士让我爽| 丰满五十六十老熟女hd| 欧美日韩国产乱了伦| 亚洲禁区一区二区三区天美| 久久狠狠色噜噜狠狠狠狠97| 97人人超碰国产精品最新o| 久久洲Av无码西西人体| 久久中文字幕一区二区| 正在播放国产多p交换视频| 91日本精品国产免| 亚洲一区精品一区在线观看| 免费亚洲老熟熟女熟女熟女| 久久久国产精品黄毛片| 亚洲午夜成人片| 白白色发布视频在线播放| 三个男吃我奶头一边一个视频| 国产精品黄在线观看免费软件| 丰满熟妇人妻无码区| 不卡免费在线亚洲av| 好吊妞无缓冲视频观看| 成人在线激情网| 一个人的视频免费播放在线观看| 麻豆文化传媒精品一区观看 | 在线视频国产91自拍| 精品无码中文字幕在线| 国产真实乱对白在线观看| 日本中文字幕精品久久| 爆乳熟妇一区二区三区霸乳 | 国产内射视频在线播放| 风韵丰满熟妇啪啪区99杏| 永久免费观看国产裸体美女| 天天插天天干天天操| 东风日产车是不是国产的|