亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        MTMS300:面向顯著物體檢測(cè)的多目標(biāo)多尺度基準(zhǔn)數(shù)據(jù)集

        2022-04-24 10:49:48李楚為張志龍李樹新
        關(guān)鍵詞:集上基準(zhǔn)偏差

        李楚為,張志龍*,李樹新

        1.國(guó)防科技大學(xué)電子科學(xué)學(xué)院自動(dòng)目標(biāo)識(shí)別重點(diǎn)實(shí)驗(yàn)室,長(zhǎng)沙 410073;2.國(guó)防科技大學(xué)信息通信學(xué)院,西安 710106

        0 引 言

        視覺(jué)注意是人類視覺(jué)系統(tǒng)有選擇性地處理顯著視覺(jué)刺激的一種特殊機(jī)制。在計(jì)算機(jī)視覺(jué)領(lǐng)域,視覺(jué)顯著性的典型應(yīng)用包括目標(biāo)檢測(cè)識(shí)別、圖像和視頻壓縮、圖像分割以及視覺(jué)跟蹤等(Borji等,2015)。視覺(jué)顯著性算法大致可以分為3類,即啟發(fā)式的方法、基于超像素分割的方法和基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)或全卷積網(wǎng)絡(luò)(fully convolutional networks,FCN)的方法。啟發(fā)式的方法通常直接或間接利用心理學(xué)和視覺(jué)理論研究成果,此類方法的研究始于1998年左右,典型的有基于認(rèn)知的Itti模型(Itti等,1998)、基于信息論的AIM(attention based on information maximization)模型(Bruce和Tsotsos,2005)、基于圖的GBVS(graph-based visual saliency)模型(Harel等,2006)和基于布爾圖理論的BMS(Boolean map saliency)模型(Zhang和Sclaroff,2013)等?;诔袼胤指畹姆椒ㄊ紫壤贸袼胤指钏惴▽D像劃分為超像素,再計(jì)算顯著性。此類方法的研究始于2011年左右,典型的有RC(region-based contrast)模型(Cheng等,2011)和DRFI(discriminative regional feature integration)模型(Jiang等,2013b)等。在Borji等人(2015)的評(píng)估實(shí)驗(yàn)中,表現(xiàn)最好的6個(gè)視覺(jué)顯著性模型中有5個(gè)是基于超像素分割的方法?;诰矸e神經(jīng)網(wǎng)絡(luò)(CNN)或全卷積網(wǎng)絡(luò)(FCN)(Shelhamer等,2017)的方法一般用預(yù)訓(xùn)練的VGGNet(Visual Geometry Group network)或ResNet(residual neural network)作為基礎(chǔ)網(wǎng)絡(luò)架構(gòu),然后構(gòu)建特定的卷積層或全連接層,再在MSRA-B(Microsoft Research Asia)(Liu等,2011)、MSRA10K(Cheng等,2015)等顯著性基準(zhǔn)數(shù)據(jù)集上進(jìn)行微調(diào)。此類方法的研究始于2015年左右,典型的有MDF(multiscale deep features)(Li和Yu,2016)、ELD(encoded low level distance)(Lee等,2016)和AFNet(attentive feedback network)(Feng等,2019)等。

        在視覺(jué)顯著性模型發(fā)展過(guò)程中,基準(zhǔn)數(shù)據(jù)集起到了至關(guān)重要的作用。在基準(zhǔn)數(shù)據(jù)集上的測(cè)試可以使研究者對(duì)各種視覺(jué)顯著性模型進(jìn)行定量評(píng)估和分析,為模型改進(jìn)與發(fā)展提供助力;此外,基準(zhǔn)數(shù)據(jù)集可以訓(xùn)練基于CNN或FCN的視覺(jué)顯著性模型。

        基準(zhǔn)數(shù)據(jù)集經(jīng)歷了從邊框標(biāo)注到像素級(jí)標(biāo)注、從單目標(biāo)到多目標(biāo)、從簡(jiǎn)單背景到復(fù)雜背景以及從幾百幅圖像到上萬(wàn)幅圖像的發(fā)展歷程,公開(kāi)的基準(zhǔn)數(shù)據(jù)集也越來(lái)越多,如表1所示。然而,并非所有關(guān)于數(shù)據(jù)集的文獻(xiàn)都詳細(xì)介紹數(shù)據(jù)集的構(gòu)建方法和制備過(guò)程,對(duì)不同數(shù)據(jù)集的定量分析和對(duì)比也甚少,隨著基準(zhǔn)數(shù)據(jù)集的規(guī)模和種類不斷擴(kuò)大,這些問(wèn)題不利于視覺(jué)顯著性模型的發(fā)展。

        表1 顯著性檢測(cè)基準(zhǔn)數(shù)據(jù)集Table 1 Saliency detection benchmark dataset

        現(xiàn)有的基準(zhǔn)數(shù)據(jù)集大多存在一些偏差,常見(jiàn)的有中心偏差、選擇偏差和類別偏差等。中心偏差指在拍攝過(guò)程中,拍攝者往往傾向于將目標(biāo)置于相機(jī)視野的中央,這類偏差也稱為相機(jī)拍攝偏差;選擇偏差指在數(shù)據(jù)集構(gòu)建過(guò)程中,設(shè)計(jì)者選擇圖像時(shí)帶有特定傾向,如只選擇背景簡(jiǎn)單的或只選擇目標(biāo)較大的;類別偏差指數(shù)據(jù)集中的類別不均衡,此類問(wèn)題在深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中經(jīng)常遇到。圖1是兩幅MSRA10K數(shù)據(jù)集的典型偏差圖像。圖1(a)具有嚴(yán)重的中心偏差;圖1(b)則選擇偏差過(guò)強(qiáng)(背景極其簡(jiǎn)單)。

        圖1 基準(zhǔn)數(shù)據(jù)集中的偏差問(wèn)題Fig.1 Bias in benchmark datasets((a)center bias;(b)selection bias)

        基準(zhǔn)數(shù)據(jù)集偏差問(wèn)題很大程度上已將顯著性模型發(fā)展帶入歧途,使人們對(duì)顯著性的概念產(chǎn)生了只要目標(biāo)夠大且位于圖像中央就具有顯著性的固化印象。在消除數(shù)據(jù)集偏差方面,已有學(xué)者做了一些工作。Shi等人(2016)認(rèn)為前景和背景相似的圖像對(duì)顯著性檢測(cè)來(lái)說(shuō)更具挑戰(zhàn)性,建立了ECSSD數(shù)據(jù)集(extended complex scene saliency dataset),包含語(yǔ)義上有意義、結(jié)構(gòu)上復(fù)雜的自然圖像,并與MSRA-1000數(shù)據(jù)集(Achanta等,2009)進(jìn)行對(duì)比,在CIELab(commission international eclairage)色彩空間的3個(gè)通道上比較前景和背景的差異。Li等人(2014)指出現(xiàn)有顯著性基準(zhǔn)數(shù)據(jù)集存在嚴(yán)重設(shè)計(jì)缺陷,將誤導(dǎo)模型發(fā)展,認(rèn)為數(shù)據(jù)集偏差來(lái)源于圖像采集和標(biāo)注過(guò)程,提出如果將圖像采集和圖像標(biāo)注分開(kāi)就可以避免設(shè)計(jì)偏差,并基于這一思想建立了PASCAL-S(pattern analysis,statistical modeling and computational learning)數(shù)據(jù)集。另一方面,盡管現(xiàn)有數(shù)據(jù)集存在偏差,但并不意味要否定它們,而是應(yīng)該對(duì)數(shù)據(jù)集偏差進(jìn)行正確理解和分析,從而合理利用現(xiàn)有數(shù)據(jù)集,或避開(kāi)既有偏差去創(chuàng)建新的數(shù)據(jù)集。Bylinskii等人(2019)指出需要研究特定任務(wù)的基準(zhǔn)數(shù)據(jù)集并妥善處理數(shù)據(jù)集偏差。以偵察和監(jiān)視任務(wù)為例,圖像中往往包含多個(gè)小目標(biāo)并且背景復(fù)雜。

        此種情形下,目標(biāo)的顯著性通常體現(xiàn)為目標(biāo)和環(huán)境差異蘊(yùn)含的顯著性,而不是目標(biāo)尺寸或位置帶來(lái)的顯著性(如圖1所示)。在缺少相應(yīng)數(shù)據(jù)集作為支撐的前提下,通用的視覺(jué)顯著性算法往往難以直接應(yīng)用于這類任務(wù)。

        如上所述,現(xiàn)有基準(zhǔn)數(shù)據(jù)集普遍存在偏差,因此難以充分體現(xiàn)不同模型的性能,不能完全反映某些典型應(yīng)用(如偵察監(jiān)視)的技術(shù)特點(diǎn)。為此,本文通過(guò)定量分析目前常用的9個(gè)基準(zhǔn)數(shù)據(jù)集的統(tǒng)計(jì)學(xué)差異,提出兩個(gè)新的基準(zhǔn)數(shù)據(jù)集。本文的貢獻(xiàn)主要有3個(gè)方面:1)設(shè)計(jì)了一個(gè)能體現(xiàn)偵察監(jiān)視應(yīng)用特點(diǎn)的新基準(zhǔn)數(shù)據(jù)集MTMS300(multiple targets and multiple scales)。數(shù)據(jù)集包含300幅來(lái)自海陸空?qǐng)鼍暗牟噬梢?jiàn)光圖像,具有中心偏差小、目標(biāo)面積比分布均衡、圖像尺寸多樣及圖像中包含多個(gè)目標(biāo)等特點(diǎn);2)利用MTMS300數(shù)據(jù)集和公開(kāi)基準(zhǔn)數(shù)據(jù)集對(duì)典型的視覺(jué)顯著性算法展開(kāi)性能評(píng)估,從公開(kāi)基準(zhǔn)數(shù)據(jù)集中找出對(duì)多數(shù)非深度學(xué)習(xí)算法而言都較為困難(指標(biāo)得分低)的圖像,構(gòu)成了一個(gè)新的基準(zhǔn)數(shù)據(jù)集DSC(difficult scenes in common);3)討論了基準(zhǔn)數(shù)據(jù)集的定量評(píng)估方法,從復(fù)雜度和中心偏差的角度對(duì)9個(gè)公開(kāi)基準(zhǔn)數(shù)據(jù)集和本文提出的兩個(gè)數(shù)據(jù)集進(jìn)行分析和對(duì)比。

        本文提出的兩個(gè)數(shù)據(jù)集的在線發(fā)布地址為:https://github.com/iammusili/MTMS300_SOD_dataset/。

        1 數(shù)據(jù)集屬性

        1.1 MTMS300數(shù)據(jù)集

        MTMS300數(shù)據(jù)集包含600幅圖像,彩色可見(jiàn)光圖像和像素級(jí)標(biāo)注圖各300幅,可見(jiàn)光圖像與標(biāo)注圖一一對(duì)應(yīng)。圖像具體信息如下:1)圖像名稱從001開(kāi)始遞增編號(hào),最大為300;2)圖像分辨率不固定;3)可見(jiàn)光圖像以jpg格式保存,位深度為24位;標(biāo)注圖以bmp格式保存,位深度為8位。

        1.2 DSC數(shù)據(jù)集

        DSC數(shù)據(jù)集包含638幅圖像,319幅彩色可見(jiàn)光圖像和319幅像素級(jí)標(biāo)注圖,可見(jiàn)光圖像與標(biāo)注圖一一對(duì)應(yīng)。圖像具體信息如下:1)圖像名稱為數(shù)據(jù)集名稱_數(shù)據(jù)集圖像編號(hào),例如ImgSal數(shù)據(jù)集編號(hào)107的圖像在DSC數(shù)據(jù)集的名稱為ImgSal_107;2)圖像分辨率不固定;3)可見(jiàn)光圖像以jpg格式保存,位深度為24位;標(biāo)注圖以png格式保存,位深度為8位。

        2 數(shù)據(jù)集描述

        顯著性檢測(cè)基準(zhǔn)數(shù)據(jù)集的構(gòu)建通常包括圖像采集、圖像標(biāo)注和顯著物體篩選。圖像標(biāo)注和顯著物體篩選也可同時(shí)進(jìn)行。Li等人(2014)提出將圖像采集和圖像標(biāo)注分開(kāi)以避免數(shù)據(jù)集的設(shè)計(jì)偏差,同時(shí)為確保顯著物體的標(biāo)注一致性,避免帶歧義的標(biāo)注,一種典型做法是多名參與者分別標(biāo)注,然后投票保留票數(shù)高的區(qū)域(Borji等,2013a)。也可以將參與者分為測(cè)試組和真值組,對(duì)測(cè)試組計(jì)算AUC(area under roc curve)值或F值,并用該值表征標(biāo)注的一致性(Li等,2014;Shi等,2016)。Borji等人(2012)和Fan等人(2018)利用交并比(intersection over union,IoU)定義圖像的標(biāo)注一致性,IoU越接近1,一致性越大。

        為避免數(shù)據(jù)集設(shè)計(jì)偏差,提高標(biāo)注一致性,本文將圖像采集和圖像標(biāo)注分開(kāi),分兩步構(gòu)建數(shù)據(jù)集。首先6名參與者分別采集圖像,再進(jìn)行篩選和匯總;然后另外5名參與者對(duì)采集的圖像手工標(biāo)注。在標(biāo)注階段,使用IoU確保標(biāo)注的一致性。

        2.1 圖像采集

        圖像采集分兩階段進(jìn)行以保證圖像質(zhì)量。第1階段是圖像收集,首先明確需要收集的圖像為偵察和監(jiān)視場(chǎng)景下常見(jiàn)的多目標(biāo)、復(fù)雜背景圖像,然后6名參與者通過(guò)關(guān)鍵詞搜索、在相關(guān)網(wǎng)站瀏覽的方式,下載公開(kāi)的可見(jiàn)光圖像,最終得到約400幅圖像。第2階段是圖像篩選,本文結(jié)合HSV(hue saturation value)色彩特征和LBP(local binary pattern)紋理特征,通過(guò)計(jì)算圖像特征直方圖的差異進(jìn)行相似度判斷,排除過(guò)于相似甚至重復(fù)的圖像,保留324幅圖像,然后選擇海陸空?qǐng)鼍案?00幅,最終確定300幅圖像用于標(biāo)注。

        同時(shí),本文對(duì)已有基準(zhǔn)數(shù)據(jù)集進(jìn)行相似度判斷,DUT-OMRON、ImgSal、MSRA10K和THUR15K數(shù)據(jù)集分別有42、28、26和106幅重復(fù)圖像,ECSSD、Judd-A、PASCAL-S、SED1和SED2數(shù)據(jù)集沒(méi)有重復(fù)圖像。

        2.2 圖像標(biāo)注

        圖像標(biāo)注也分兩階段進(jìn)行,以保證標(biāo)注的一致性,第1階段是粗略的邊框式標(biāo)注,第2階段是精細(xì)的像素級(jí)標(biāo)注,如圖2所示。在第1階段,5名參與者先用矩形邊框標(biāo)注圖像的顯著物體,然后用IoU判定物體是否具有顯著性。本文參考Fan等人(2018)方法,僅考慮至少3個(gè)人標(biāo)注的區(qū)域,同時(shí)參考Borji等人(2012)的統(tǒng)計(jì)結(jié)果,將IoU閾值設(shè)為0.6。以圖2(b)為例,圖中有3個(gè)區(qū)域標(biāo)注框(紅色矩形框),但僅兩個(gè)區(qū)域滿足閾值條件,判定為顯著性區(qū)域,另一區(qū)域則丟棄。在第2階段,2名參與者對(duì)包含顯著物體的矩形邊框進(jìn)行精細(xì)的像素級(jí)標(biāo)注,如圖2(c)所示。最終,本文建立了一個(gè)包含海面、陸地和天空3種場(chǎng)景各100幅圖像的基準(zhǔn)數(shù)據(jù)集MTMS300,圖3給出了這個(gè)數(shù)據(jù)集中的一些圖像和對(duì)應(yīng)的標(biāo)注圖。像素級(jí)標(biāo)注的原則是:1)只標(biāo)注顯著物體未遮擋區(qū)域(圖3(a));2)盡可能地將物體獨(dú)立分割,但不強(qiáng)行分割具有重疊區(qū)域的物體(圖3(b));3)盡可能地使圖像使用者能僅通過(guò)輪廓就辨識(shí)出物體(圖3(c))。

        圖2 從粗到細(xì)的圖像標(biāo)注過(guò)程Fig.2 Image annotation process from coarse to fine ((a)original image;(b)bounding-box annotation;(c)pixel-wise annotation)

        圖3 MTMS300數(shù)據(jù)集中的例圖和對(duì)應(yīng)的標(biāo)注圖Fig.3 Examples from MTMS300 dataset and the corresponding annotation maps((a)occluded objects;(b)overlapped objects;(c)discernable contours;(d)multiple objects)

        3 數(shù)據(jù)集驗(yàn)證與評(píng)估

        3.1 公開(kāi)基準(zhǔn)數(shù)據(jù)集

        Borji和Itti(2013)和Borji(2015)詳細(xì)介紹了多種數(shù)據(jù)集的圖像數(shù)量和圖像分辨率。Borji和Itti(2013)介紹的主要是眼動(dòng)(eye movement)數(shù)據(jù)集;Borji(2015)介紹的是顯著物體數(shù)據(jù)集,既有邊框級(jí)標(biāo)注,也有像素級(jí)標(biāo)注。

        本文基于3個(gè)原則選擇公開(kāi)基準(zhǔn)數(shù)據(jù)集:1)具有像素級(jí)標(biāo)注;2)廣泛使用;3)盡可能地包含多個(gè)目標(biāo)。最終確定9個(gè)公開(kāi)數(shù)據(jù)集,如表1所示。由于圖像包含的目標(biāo)數(shù)量一定程度上代表了圖像的復(fù)雜度,本文通過(guò)計(jì)算標(biāo)注圖中連通區(qū)域數(shù)量的方式,統(tǒng)計(jì)數(shù)據(jù)集包含的最大目標(biāo)個(gè)數(shù)和多目標(biāo)圖像的比例,結(jié)果如表2所示??梢钥闯?,無(wú)論多目標(biāo)最大數(shù)量還是圖像比例,本文提出的MTMS300數(shù)據(jù)集都遠(yuǎn)超其他數(shù)據(jù)集,隨后是ImgSal、PASCAL-S、DUT-OMRON和ECSSD數(shù)據(jù)集。Judd-A、THUR15K、MSRA10K和DSC是單目標(biāo)圖像比例最大的4個(gè)數(shù)據(jù)集。

        表2 基準(zhǔn)數(shù)據(jù)集中多目標(biāo)圖像比例Table 2 The percentage of multi-objects images in benchmark datasets

        3.2 基準(zhǔn)數(shù)據(jù)集定量分析

        數(shù)據(jù)集的中心偏差和復(fù)雜度是設(shè)計(jì)和評(píng)價(jià)數(shù)據(jù)集時(shí)必須考慮的問(wèn)題。Alpert等人(2007)、Achanta等人(2009)、Li等人(2011)、Yang等人(2013)和Cheng等人(2015)都提出了新的基準(zhǔn)數(shù)據(jù)集,但是缺乏對(duì)數(shù)據(jù)集的定量分析。

        3.2.1 中心偏差

        圖4 基準(zhǔn)數(shù)據(jù)集的NOD概率密度分布Fig.4 Distributions of normalized object distances of benchmark datasets

        圖5 不同基準(zhǔn)數(shù)據(jù)集的AAM對(duì)比Fig.5 Comparison of AAM among different benchmark datasets

        3.2.2 復(fù)雜度

        Shi等人(2016)、Li等人(2014)和Fan等人(2018)用顏色直方圖對(duì)比方法分析數(shù)據(jù)集的復(fù)雜度。Shi等人(2016)通過(guò)在CIELab色彩空間的3個(gè)通道上計(jì)算前景和背景的直方圖卡方距離比較目標(biāo)和背景的差異,并用ECSSD和MSRA-1000作為對(duì)比數(shù)據(jù)集進(jìn)行評(píng)價(jià)實(shí)驗(yàn),認(rèn)為直方圖卡方距離小的圖像對(duì)顯著物體檢測(cè)更具挑戰(zhàn)性(因?yàn)楸尘昂颓熬案嗨?。Li等人(2014)通過(guò)局部顏色對(duì)比、全局顏色對(duì)比、局部gPB邊界強(qiáng)度和目標(biāo)尺寸4種方法分析數(shù)據(jù)集的復(fù)雜度。Cheng等人(2014)、Borji(2015)和Li等人(2017)用超像素判斷數(shù)據(jù)集的復(fù)雜度。Borji(2015)使用基于圖的超像素分割算法(Felzenszwalb和Huttenlocher,2004)計(jì)算圖像的超像素,認(rèn)為超像素越多,圖像越復(fù)雜,同時(shí)認(rèn)為Bruce-A數(shù)據(jù)集的超像素較少是由顯著物體小造成的。說(shuō)明對(duì)顯著物體小的圖像,超像素?cái)?shù)量不能完全代表其復(fù)雜度。Borji等人(2012)和Judd等人(2009)認(rèn)為熵值高的圖像包含更強(qiáng)的干擾,通常有不同的紋理細(xì)節(jié);Borji等人(2012)、Borji等人(2013a)、Borji(2015)和Li等人(2017)通過(guò)目標(biāo)占圖像比例(歸一化目標(biāo)尺寸)分析復(fù)雜度,認(rèn)為比例越小,圖像越復(fù)雜;Borji(2015)和Fan等人(2018)用圖像中目標(biāo)的數(shù)量判斷復(fù)雜度,認(rèn)為目標(biāo)越多,圖像越復(fù)雜。

        本文采用歸一化目標(biāo)尺寸、前景/背景直方圖卡方距離、超像素?cái)?shù)量和圖像熵等度量方式分析數(shù)據(jù)集的復(fù)雜度。

        表3 基準(zhǔn)數(shù)據(jù)集歸一化目標(biāo)尺寸Table 3 Normalized object sizes of benchmark datasets

        前景/背景直方圖卡方距離的計(jì)算方法為:根據(jù)標(biāo)注圖的真值掩膜將彩色圖像分為前景和背景,然后分別計(jì)算CIELab色彩空間中L、a、b等3個(gè)通道的前景/背景直方圖卡方距離,再取平均值。表4以0.2、0.4、0.6和0.8為分界線給出了前景/背景直方圖卡方距離的統(tǒng)計(jì)結(jié)果。圖像的直方圖卡方距離越小,說(shuō)明前景和背景越接近,對(duì)顯著性檢測(cè)更具挑戰(zhàn)性。事實(shí)上,Li和Yu(2016)構(gòu)建數(shù)據(jù)集時(shí),選擇的都是直方圖卡方距離小于0.7的圖像。

        表4 前景/背景直方圖卡方距離統(tǒng)計(jì)結(jié)果Table 4 Statistical results of Chi-square distance of histograms

        超像素?cái)?shù)量的計(jì)算方法為:先將圖像縮放至400 × 400像素,再計(jì)算超像素?cái)?shù)量。在此,使用基于圖的超像素分割算法(Felzenszwalb和Huttenlocher,2004),算法參數(shù)為σ=1,K=500,min =50。超像素?cái)?shù)量統(tǒng)計(jì)結(jié)果如表5所示??梢钥闯?,MTMS300數(shù)據(jù)集的超像素?cái)?shù)目最少,該結(jié)果與Borji(2015)的結(jié)論吻合,因?yàn)镸TMS300數(shù)據(jù)集包含的主要是小目標(biāo)。SED1和SED2數(shù)據(jù)集的超像素也較少,DSC數(shù)據(jù)集的超像素?cái)?shù)目最多,然后是ECSSD、DUT-OMRON、Judd-A和PASCAL-S數(shù)據(jù)集。

        表5 超像素?cái)?shù)量統(tǒng)計(jì)結(jié)果Table 5 Statistical results of the number of superpixels

        圖像的熵值越大,圖像包含的信息越多,圖像越復(fù)雜。表6是5,7,7.5和7.8為分界線的圖像熵統(tǒng)計(jì)結(jié)果??梢钥闯觯珼SC數(shù)據(jù)集的熵值最大,這也側(cè)面印證了圖像熵在一定程度上代表了數(shù)據(jù)集的復(fù)雜度(DSC數(shù)據(jù)集由多數(shù)模型得分都低的困難圖像組成)。此外,DUT-OMRON、ECSSD、ImgSal、Judd-A和PASCAL-S的熵值都較大,MTMS300數(shù)據(jù)集的熵值分布比較平均。綜合而言,SED2的熵最小,其次是MSRA10K和SED1。

        表6 圖像熵的統(tǒng)計(jì)結(jié)果Table 6 Statistical results of the image entropy

        3.2.3 小結(jié)

        結(jié)合表1—表6、圖4和圖5可以得出以下結(jié)論:1)基準(zhǔn)數(shù)據(jù)集的側(cè)重點(diǎn)不同。例如,Judd-A的圖像場(chǎng)景較為雜亂且視野較大;MSRA10K通常只有1個(gè)無(wú)歧義的顯著目標(biāo);SED1和SED2分別只包含1個(gè)和2個(gè)目標(biāo)但類別多樣化;THUR15K只包含5種特定類別目標(biāo);ECSSD包含語(yǔ)義豐富但結(jié)構(gòu)復(fù)雜的自然圖像。2)通用數(shù)據(jù)集中,MSRA10K、SED1和SED2是最簡(jiǎn)單的3個(gè)數(shù)據(jù)集,ImgSal、DSC、Judd-A和PASCAL-S是最復(fù)雜的4個(gè)數(shù)據(jù)集,DSC數(shù)據(jù)集在前景/背景差異、超像素?cái)?shù)量和圖像熵上較為突出,暗示包含的圖像很復(fù)雜。3)與其他數(shù)據(jù)集相比,MTMS300數(shù)據(jù)集在目標(biāo)數(shù)量、中心偏差和目標(biāo)大小等方面比較突出,能夠較好地滿足偵察監(jiān)視場(chǎng)景的需求。4)不同度量指標(biāo)之間沒(méi)有必然的相關(guān)性。例如,ECSSD、DUT-OMRON和Judd-A等前景/背景差異較大的數(shù)據(jù)集,超像素?cái)?shù)目都較多。但是同樣前景/背景差異較大的MTMS300數(shù)據(jù)集,卻因?yàn)榘撕芏嘈∧繕?biāo),導(dǎo)致超像素?cái)?shù)目不多。綜上所述,在用數(shù)據(jù)集進(jìn)行視覺(jué)顯著性模型的性能評(píng)估或訓(xùn)練時(shí),需要綜合考慮數(shù)據(jù)集的特性。

        3.3 視覺(jué)顯著性模型的性能評(píng)估

        實(shí)驗(yàn)通過(guò)在數(shù)據(jù)集上定量測(cè)試多種算法模型,對(duì)數(shù)據(jù)集的復(fù)雜度和難度進(jìn)行定性對(duì)比分析。

        3.3.1 實(shí)驗(yàn)設(shè)計(jì)

        視覺(jué)顯著性模型包括啟發(fā)式方法、基于超像素分割的方法和基于深度學(xué)習(xí)的方法3大類。實(shí)驗(yàn)時(shí)每類模型選取6種共18種具有代表性的視覺(jué)顯著性模型進(jìn)行評(píng)估,如表7所示。

        表7 視覺(jué)顯著性模型Table 7 Visual saliency models

        3.3.2 性能評(píng)價(jià)指標(biāo)

        (1)

        (2)

        TPR和FPR構(gòu)成受試者工作特征(receiver operating characteristic,ROC)曲線,對(duì)ROC曲線積分即求得AUC值。AUC值的取值范圍為[0,1],值越大,說(shuō)明模型性能越好。

        F值(也稱Fβ)的計(jì)算方法為

        (3)

        F值同時(shí)考慮了精度P和召回R,可以更全面地評(píng)價(jià)顯著圖的質(zhì)量。本文參照Achanta等人(2009)的方法,將β2設(shè)為0.3,以增加精度的權(quán)重,并只使用F值的最大值描述模型性能。

        3.3.3 實(shí)驗(yàn)結(jié)果

        表8和表9分別是視覺(jué)顯著性模型在不同基準(zhǔn)數(shù)據(jù)集上的AUC值和F值。由表8和表9可以得出以下結(jié)論:1)經(jīng)過(guò)多年發(fā)展,視覺(jué)顯著性模型的性能在簡(jiǎn)單數(shù)據(jù)集上已趨于飽和,但在復(fù)雜數(shù)據(jù)集上還遠(yuǎn)遠(yuǎn)不夠。以MSRA10K數(shù)據(jù)集為例,1998年Itti模型的AUC和F值僅為0.87和0.66;2013年MC模型的AUC和F值提高到0.95和0.90;2018年ASNet模型的AUC和F值達(dá)到0.99和0.96。然而,在Judd-A這樣的復(fù)雜數(shù)據(jù)集上,表現(xiàn)最好的ASNet算法的F值也僅為0.6,不能令人滿意。2)數(shù)據(jù)集質(zhì)量與模型性能有緊密聯(lián)系。以DUT-OMRON數(shù)據(jù)集為例,其圖像數(shù)量只有MSRA10K的一半,但用DUT-OMRON訓(xùn)練的ASNet模型與用MSRA10K訓(xùn)練的ELD和AMU模型相比,在多個(gè)復(fù)雜數(shù)據(jù)集上的指標(biāo)得分都更高。3)模型在數(shù)據(jù)集上的指標(biāo)得分與數(shù)據(jù)集復(fù)雜度成反比。MSRA10K、SED1和SED2數(shù)據(jù)集最為簡(jiǎn)單,ImgSal、DSC、Judd-A、PASCAL-S和MTMS300數(shù)據(jù)集最為復(fù)雜,模型在這些數(shù)據(jù)集上的F值和AUC值印證了這一結(jié)論。4)在公開(kāi)基準(zhǔn)數(shù)據(jù)集上訓(xùn)練的算法模型難以直接應(yīng)用到特定場(chǎng)景的視覺(jué)顯著性任務(wù)中。以DRFI和ASNet等模型為例,它們?cè)诠_(kāi)數(shù)據(jù)集上的F值高達(dá)0.9,但是在MTMS300數(shù)據(jù)集上的F值僅為0.66,這也表明針對(duì)偵察監(jiān)視任務(wù)等特定場(chǎng)景,設(shè)計(jì)新的視覺(jué)顯著性算法很有必要。

        表8 不同模型在不同數(shù)據(jù)集上的AUC值Table 8 AUC values of different models on different datasets

        表9 不同模型在不同數(shù)據(jù)集上的F值Table 9 F values of different models on different datasets

        3.4 DSC數(shù)據(jù)集的構(gòu)建

        基于3.3節(jié)的實(shí)驗(yàn),本文從9個(gè)公開(kāi)數(shù)據(jù)集中找出“共同困難”圖像,構(gòu)建DSC數(shù)據(jù)集?!肮餐щy”圖像的定義為:如果12個(gè)非深度學(xué)習(xí)模型中有至少8個(gè)模型都在同一幅圖像上指標(biāo)得分低,就認(rèn)為這幅圖像是“共同困難”圖像。

        具體來(lái)說(shuō),本文分3步構(gòu)建DSC數(shù)據(jù)集:第1步,找出AUC低于0.7的“共同困難”圖像;第2步,找出F值低于0.3的“共同困難”圖像;第3步,兩部分圖像取交集。將AUC閾值設(shè)為0.7的原因是:0.5是隨機(jī)猜測(cè)的得分,如果低于0.7,說(shuō)明不比隨機(jī)猜測(cè)好多少,那么必然是困難的圖像;根據(jù)經(jīng)驗(yàn)將F值的閾值設(shè)為0.3。從各公開(kāi)基準(zhǔn)數(shù)據(jù)集中找出的“共同困難”圖像的數(shù)量如表10所示。

        表10 來(lái)自公開(kāi)基準(zhǔn)數(shù)據(jù)集的“共同困難”圖像數(shù)量Table 10 The number of difficult images in common from public benchmark datasets /幅

        圖6給出了DSC數(shù)據(jù)集的例圖和模型的顯著圖??梢钥闯?,對(duì)傳統(tǒng)算法而言,“共同困難”的圖像對(duì)一些最新的算法模型仍具有挑戰(zhàn)性。

        圖6 DSC數(shù)據(jù)集的例圖和對(duì)應(yīng)的顯著圖Fig.6 Examples from DSC dataset and the corresponding saliency maps((a)original images;(b)annotation maps;(c)ELD;(d)AMD;(e)UCF;(f)WSS)

        4 數(shù)據(jù)集使用說(shuō)明

        4.1 數(shù)據(jù)使用方法

        數(shù)據(jù)集的推薦使用方法如下:1)使用者利用自己編寫的視覺(jué)顯著性算法或軟件讀取1幅或多幅彩色可見(jiàn)光圖像,根據(jù)算法進(jìn)行顯著性判別,輸出與可見(jiàn)光圖像尺寸一致的顯著圖。2)同時(shí)讀取顯著圖和相應(yīng)的標(biāo)注圖,計(jì)算顯著圖對(duì)應(yīng)的AUC值和F值等指標(biāo)得分;也可根據(jù)實(shí)際需求,自行設(shè)計(jì)新的評(píng)估指標(biāo)并計(jì)算。本文數(shù)據(jù)集提供上述評(píng)估指標(biāo)的程序代碼。

        4.2 應(yīng)用場(chǎng)景

        本文數(shù)據(jù)集適用于視覺(jué)顯著性模型的性能評(píng)測(cè)和模型訓(xùn)練。

        5 討 論

        5.1 模型在公開(kāi)數(shù)據(jù)集上的失敗原因

        圖7 低質(zhì)量標(biāo)注的例圖Fig.7 Examples of low-quality annotation((a)original images;(b)annotation maps)

        5.2 模型在MTMS300數(shù)據(jù)集上的失敗原因

        MTMS300數(shù)據(jù)集制備過(guò)程中,將圖像采集和圖像標(biāo)注分開(kāi),用IoU判定標(biāo)注一致性,盡可能避免了數(shù)據(jù)集的設(shè)計(jì)偏差,提高了數(shù)據(jù)集的標(biāo)注一致性。因此,模型在MTMS300數(shù)據(jù)集上得分不高的原因,主要有:1)模型只突出主要目標(biāo),抑制了小目標(biāo)(圖8第1行),甚至完全無(wú)法檢測(cè)到圖像中的小目標(biāo)(圖8第2、3行)。2)對(duì)圖像存在多個(gè)目標(biāo)的情形,不能全部檢測(cè)出來(lái)(圖8第4、5行)。3)模型參數(shù)固定,難以自適應(yīng)圖像尺寸。以RBD模型為例,其超像素大小固定為600像素,對(duì)大圖像而言,該參數(shù)會(huì)使RBD模型容易檢測(cè)出所有目標(biāo),但這將導(dǎo)致小圖像只包含幾十個(gè)超像素。并且對(duì)于圖像中的小目標(biāo)(如10 × 10像素大小的目標(biāo))而言,其面積甚至不如一個(gè)超像素大,因而容易被漏檢。

        圖8 模型在MTMS300數(shù)據(jù)集的失敗例子Fig.8 Failure cases of models over MTMS300 dataset((a)original images;(b)annotation maps;(c)UCF;(d)WSS;(e)ASNet;(f)AFNet)

        6 結(jié) 論

        本文提出一個(gè)面向偵察監(jiān)視應(yīng)用的顯著性檢測(cè)基準(zhǔn)數(shù)據(jù)集MTMS300,主要特點(diǎn)是:中心偏差小、目標(biāo)面積比分布均衡、圖像分辨率多樣以及場(chǎng)景中包含多個(gè)目標(biāo)。

        本文利用6個(gè)度量指標(biāo)對(duì)基準(zhǔn)數(shù)據(jù)集展開(kāi)定量分析,統(tǒng)計(jì)了數(shù)據(jù)集的中心偏差和復(fù)雜度等特性,并評(píng)估了數(shù)據(jù)集的難度系數(shù)。此外,通過(guò)18個(gè)模型在11個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)和評(píng)估,證明了模型的得分和數(shù)據(jù)集的難度系數(shù)是有相關(guān)性的。但是也有一些難度系數(shù)低的數(shù)據(jù)集(如THUR15K),模型的得分不高,本文認(rèn)為這主要與標(biāo)注質(zhì)量有關(guān)。

        本文分析了模型在基準(zhǔn)數(shù)據(jù)集上失敗的原因,并找出了公開(kāi)數(shù)據(jù)集中令多數(shù)傳統(tǒng)模型都覺(jué)得困難(指標(biāo)得分低)的圖像,構(gòu)成了一個(gè)“共同困難”數(shù)據(jù)集DSC。

        結(jié)合實(shí)驗(yàn)和分析,本文發(fā)現(xiàn)仍有一些值得關(guān)注的問(wèn)題:1)構(gòu)建數(shù)據(jù)集時(shí),必須嚴(yán)格把控?cái)?shù)據(jù)集的質(zhì)量。例如,DUT-OMRON數(shù)據(jù)集的圖像數(shù)量只有MSRA10K的一半,但是用DUT-OMRON訓(xùn)練的模型比用MSRA10K訓(xùn)練的模型效果顯然要好,這表明數(shù)據(jù)集的質(zhì)量對(duì)模型有直接影響。2)本文使用 6種度量指標(biāo)對(duì)數(shù)據(jù)集展開(kāi)了定量分析,如何在此基礎(chǔ)上充分利用數(shù)據(jù)集的特性,將不同的數(shù)據(jù)集融合,提升基于深度學(xué)習(xí)的視覺(jué)顯著性模型的性能,是一個(gè)值得研究的問(wèn)題。3)現(xiàn)有顯著性檢測(cè)模型的評(píng)估指標(biāo)無(wú)法適用于特定任務(wù)下的數(shù)據(jù)集。例如,對(duì)于同時(shí)包含大、小目標(biāo)的圖像,如果模型只檢測(cè)出了大目標(biāo)(如圖8第1行)也能獲得不低的指標(biāo)得分,相當(dāng)于評(píng)估指標(biāo)忽視了小目標(biāo)漏檢,這顯然是不理想的。而且,現(xiàn)有評(píng)估指標(biāo)無(wú)法體現(xiàn)顯著圖中的目標(biāo)個(gè)數(shù)和實(shí)際目標(biāo)個(gè)數(shù)的差異。因此,如何設(shè)計(jì)一個(gè)指標(biāo)表征此類場(chǎng)景下顯著物體檢測(cè)模型的性能是一個(gè)值得考慮的方向。

        致 謝MTMS300數(shù)據(jù)集的構(gòu)建得到了新浪軍事、中國(guó)軍事圖片中心和鐵血社區(qū)的支持,在此表示感謝。

        猜你喜歡
        集上基準(zhǔn)偏差
        如何走出文章立意偏差的誤區(qū)
        Cookie-Cutter集上的Gibbs測(cè)度
        兩矩形上的全偏差
        鏈完備偏序集上廣義向量均衡問(wèn)題解映射的保序性
        復(fù)扇形指標(biāo)集上的分布混沌
        明基準(zhǔn)講方法??待R
        關(guān)于均數(shù)與偏差
        滑落還是攀爬
        巧用基準(zhǔn)變換實(shí)現(xiàn)裝配檢測(cè)
        河南科技(2014年15期)2014-02-27 14:12:35
        Imagination率先展示全新Futuremark 3DMark OpenGL ES3.0基準(zhǔn)測(cè)試
        在线观看国产一区亚洲bd| 日本视频一中文有码中文| 久久精品国产亚洲av影院毛片| 草逼动态图视频免费观看网站| 精品国产一区二区三区2021| 日本a级一级淫片免费观看| 人妻无码第一区二区三区| 国产亚洲精品久久久久5区| 精品久久人妻av中文字幕| 18禁裸男晨勃露j毛网站| 亚洲免费网站观看视频| 免费a级毛片无码| 国产又爽又粗又猛的视频| 久久精品成人欧美大片| 日韩一区二区超清视频| 亚洲精品二区在线观看| 亚洲中文字幕人妻诱惑| 亚洲av天堂在线免费观看| 蜜桃av噜噜一区二区三区策驰| 又嫩又硬又黄又爽的视频| 自慰无码一区二区三区| 国产成人精品av| 日韩无码电影| 日韩a毛片免费观看| 亚洲国产精品久久久久久久| 久久亚洲国产精品成人av秋霞| 亚洲国产成人精品女人久久久| 国产九色AV刺激露脸对白| 日韩精品极品视频在线免费| 日本免费大片一区二区三区| 日本视频在线观看一区二区| 2019nv天堂香蕉在线观看 | 国产成人夜色在线视频观看| 玖玖资源站亚洲最大的网站| 中文字幕免费在线观看动作大片 | 亚洲日韩AV无码美腿丝袜| 人妻秘书被社长浓厚接吻| 国产一区二区三区在线综合视频| 欧美怡春院一区二区三区| 亚洲va中文字幕| 欧美极品美女|