王 彤 楊秋菊
1(蘇州高博軟件技術(shù)職業(yè)學(xué)院信息與軟件學(xué)院 江蘇 蘇州 215163)2(西南石油大學(xué)應(yīng)用技術(shù)學(xué)院 四川 南充 637001)
場(chǎng)景解析也稱為語(yǔ)義圖像分割,它將圖像劃分為語(yǔ)義區(qū)域或?qū)ο螅缟?、天空、建筑等,近年?lái)受到了廣泛關(guān)注[1]。場(chǎng)景解析結(jié)合了檢測(cè)、分割和多標(biāo)簽識(shí)別這三個(gè)傳統(tǒng)問(wèn)題[2],將預(yù)定義標(biāo)簽集中的對(duì)象類標(biāo)簽分配給輸入圖像中的每個(gè)像素(或超像素)是一個(gè)熱門的研究領(lǐng)域。
目前,各種場(chǎng)景解析方法被相繼提出,大致可分為三類。第一類是參數(shù)化方法,其使用自動(dòng)上下文技術(shù)以學(xué)習(xí)圖像中感興趣類別的緊湊參數(shù)模型[3]。此方法可以學(xué)習(xí)參數(shù)分類器以識(shí)別物體(如建筑物或天空)。該類方法中,已有幾種深度學(xué)習(xí)技術(shù)應(yīng)用于語(yǔ)義分割,如文獻(xiàn)[4]提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的參數(shù)化場(chǎng)景解析算法,其中CNN旨在學(xué)習(xí)強(qiáng)大的特征和分類器以區(qū)分局部視覺(jué)細(xì)微差別。
第二類是非參數(shù)化方法,其目標(biāo)是通過(guò)將圖像的部分與標(biāo)記圖像的大數(shù)據(jù)集中的相似部分進(jìn)行匹配來(lái)標(biāo)記輸入圖像[5],其中類別分類器學(xué)習(xí)通常由馬爾可夫隨機(jī)場(chǎng)代替,一元?jiǎng)菽芡ㄟ^(guò)最近鄰檢索來(lái)計(jì)算。
在非參數(shù)場(chǎng)景解析方法中,基于在圖像中的不同像素之間編碼的關(guān)系(依賴性),可分為三種類型。第一種類型包含對(duì)每個(gè)像素獨(dú)立地進(jìn)行分類來(lái)解決像素標(biāo)記問(wèn)題的方法。文獻(xiàn)[6]提出的場(chǎng)景解析方法使用包含完全注釋圖像的大數(shù)據(jù)集為輸入圖像選擇最近鄰居的子集,使用SIFT流算法在查詢圖像和每個(gè)最近鄰居之間建立密集的對(duì)應(yīng)關(guān)系[7],然后使用在像素上定義的馬爾可夫隨機(jī)場(chǎng)(Markov Random Field,MRF)將注釋從檢索的子集傳送到輸入圖像。但此類方法的計(jì)算成本高且效率低,導(dǎo)致其無(wú)法在應(yīng)用程序中運(yùn)用。第二種類型基于成對(duì)MRF或條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)模型[8],其圖中的節(jié)點(diǎn)表示與像素相關(guān)聯(lián)的語(yǔ)義標(biāo)簽,并創(chuàng)建電勢(shì)以定義系統(tǒng)的能量,促使外觀相似的相鄰像素采用相同的語(yǔ)義標(biāo)簽。但此類方法對(duì)復(fù)雜成對(duì)術(shù)語(yǔ)的學(xué)習(xí)和推理成本較高,且具有局部性。第三種類型是像素被分組為片段(或超像素),并且為每個(gè)組分配單個(gè)標(biāo)簽[9]。文獻(xiàn)[10]提出了一種稱為Superparsing的高效非參數(shù)圖像解析方法,將MRF應(yīng)用于超像素而不是像素,然后基于超像素相似性將標(biāo)簽從一組相鄰圖像轉(zhuǎn)移到輸入圖像。文獻(xiàn)[11]提出了一種使用混合模型和多個(gè)CRF的基于本體的語(yǔ)義圖像分割,將圖像分割問(wèn)題簡(jiǎn)化為分類任務(wù)問(wèn)題,其中具有CRF模型的基于片段的分類器生成大規(guī)模區(qū)域,然后利用區(qū)域的特征來(lái)訓(xùn)練基于區(qū)域的分類器,為每個(gè)視覺(jué)特征分別將圖像區(qū)域分類為合適的標(biāo)簽。
第三類是非參數(shù)模型與參數(shù)模型集成方法,如文獻(xiàn)[12]提出了一種準(zhǔn)參數(shù)(混合)方法,其集成了基于KNN的非參數(shù)方法和基于CNN的參數(shù)方法;文獻(xiàn)[13]開發(fā)了一種新的自動(dòng)非參數(shù)圖像解析框架,以利用參數(shù)和非參數(shù)方法的優(yōu)勢(shì)。
雖然參數(shù)化方法在場(chǎng)景解析方面取得了巨大成功,但其在訓(xùn)練時(shí)間方面存在一定的局限性,且在添加新的訓(xùn)練數(shù)據(jù)集時(shí)需要重新訓(xùn)練模型。相比之下,對(duì)于非參數(shù)方法,當(dāng)擴(kuò)展語(yǔ)義類別標(biāo)簽的詞匯時(shí),不需要做特殊的調(diào)整。
為此,遵循非參數(shù)方法,本文提出了一種結(jié)合多類特征融合(Multi Feature Fusion,MFF)與ICM目標(biāo)函數(shù)優(yōu)化的圖像語(yǔ)義分割方法,主要?jiǎng)?chuàng)新如下:
(1) 現(xiàn)有大多數(shù)方法從訓(xùn)練數(shù)據(jù)集中為查詢測(cè)試圖像檢索一些類似圖像的成本較高且效率低。故提出一種新的基于全局一致性誤差的幾何檢索策略,用于從包含完全分割和注釋圖像的數(shù)據(jù)庫(kù)中選擇最近鄰居,快速將區(qū)域圖或輸入圖像的分割與數(shù)據(jù)集中每個(gè)圖像的區(qū)域圖匹配。
(2) 現(xiàn)有方法中對(duì)復(fù)雜成對(duì)術(shù)語(yǔ)的學(xué)習(xí)和推理成本較高,而本文方法采用一種新的基于能量最小化(Energy minimization,EM)的方法,即多特征融合語(yǔ)義分割模型(EM-MFF),將多類型特征融合到能量或目標(biāo)函數(shù),并根據(jù)全局適應(yīng)度函數(shù)為每個(gè)區(qū)域分配類別標(biāo)簽,同時(shí)限制參數(shù)數(shù)量,可集成場(chǎng)景中的對(duì)象的更多信息,降低推理成本。
(3) 現(xiàn)有的語(yǔ)義分割模型一般需要大型數(shù)據(jù)集來(lái)訓(xùn)練高精度分類器,工作量大,而本文模型專用于以有限數(shù)量可用圖像為特征的小數(shù)據(jù)集,采用微軟研究劍橋數(shù)據(jù)集(MSRC-21)和斯坦福背景數(shù)據(jù)集(SBD)進(jìn)行實(shí)驗(yàn)論證,結(jié)果表明了該方法的可行性和準(zhǔn)確性。
本文方法主要將圖像I分解為一個(gè)未知的幾何區(qū)域數(shù)K,然后通過(guò)迭代優(yōu)化一個(gè)多特征的能量函數(shù)以識(shí)別圖像類別(即樹、建筑物、山峰等),進(jìn)而評(píng)估所提方案的質(zhì)量。該系統(tǒng)框架如圖1所示,包括四個(gè)步驟:區(qū)域生成創(chuàng)建一組區(qū)域,用于給定的輸入圖像;幾何檢索集通過(guò)基于全局一致性誤差(Global Consistency Error,GCE)測(cè)量的新匹配方案從整個(gè)數(shù)據(jù)集中選擇圖像的子集;區(qū)域特征為每個(gè)區(qū)域提取不同類型的特征,包括顏色、紋理和圖像位置;圖像標(biāo)記通過(guò)使用能量最小化方案為每個(gè)區(qū)域分配對(duì)象類標(biāo)簽。
圖1 系統(tǒng)框架
可見,給定輸入圖像(a),通過(guò)使用GCEBFM算法生成其區(qū)域集(b),然后利用GCE標(biāo)準(zhǔn)從完整數(shù)據(jù)集中檢索相似圖像(c),為輸入圖像提取不同的特征(f)和檢索到的圖像(d),結(jié)合基于標(biāo)記的分割語(yǔ)料庫(kù)(e),使用基于ICM的能量最小化將單個(gè)類別標(biāo)簽分配給每個(gè)區(qū)域(g)。
區(qū)域生成即由基于GCE的新預(yù)分割算法生成一組段(區(qū)域),該算法通過(guò)組合由標(biāo)準(zhǔn)K均值算法生成的多個(gè)和最終弱分割圖來(lái)獲得最終精細(xì)分割。將GCE算法應(yīng)用于12個(gè)不同的顏色空間,以確保分割集合的可變性。
由于使用由過(guò)度分割產(chǎn)生的預(yù)定義超像素,提供的邊界與真實(shí)區(qū)域邊界不一致,且在大多數(shù)情況下,對(duì)象被分割成許多區(qū)域,以致無(wú)法進(jìn)行精確分解圖像。為此,使用GCE算法生成大區(qū)域,允許每個(gè)區(qū)域?qū)С鋈謱傩?,降低整個(gè)模型的復(fù)雜性和內(nèi)存需求。
本文方法使用與查詢圖像類似的圖像子集而不是使用整個(gè)數(shù)據(jù)集,更適用于標(biāo)簽任務(wù)。為了找到相對(duì)較小且有趣的圖像集,使用GCE查找區(qū)域圖與輸入圖像的分割之間的匹配,以及數(shù)據(jù)集中每個(gè)圖像的區(qū)域圖。
(1)
式中:|r|表示像素集合r的基數(shù);表示差異的代數(shù)運(yùn)算符。結(jié)合LRE能夠使所有局部細(xì)化都處于同一方向,而每個(gè)像素pi需要計(jì)算兩次,則可得到全局一致性誤差為:
(2)
式中:GCE*∈[0,1],GCE*=0表示分段RI和RM之間的最大相似度,GCE*=1表示兩個(gè)分段之間不匹配。
根據(jù)GCE值將查詢圖像按升序排列,并對(duì)整個(gè)數(shù)據(jù)集T的所有圖像進(jìn)行排名。以此消除具有較高GCE值的無(wú)用圖像,并且可以從整個(gè)數(shù)據(jù)集T中選擇圖像子集M作為檢索集。
為了執(zhí)行標(biāo)記過(guò)程,需要提取每個(gè)區(qū)域不同的特征來(lái)定義該區(qū)域,所提方法提取顏色、紋理、位置這三類特征。
1) 顏色。顏色特征是用于描述圖像整體或其部分表面屬性的特征,通常來(lái)說(shuō),顏色特征的提取是基于像素點(diǎn)的,而統(tǒng)計(jì)是基于全局或者部分,因此具有旋轉(zhuǎn)和平移不變性,這導(dǎo)致顏色特征無(wú)法完全展現(xiàn)關(guān)鍵點(diǎn)的顏色分布。
本文方法采用對(duì)立顏色空間SIFT描述子[15](Opponent Color SIFT,OCSIFT),以保證獲得特征的稠密性和局部性,以及具備幾何與色彩不變的雙重性能。OCSIFT由原始RGB的三個(gè)通道組成,其通道O3為亮度,通道O1和O2為顏色。
(3)
由于O1和O2中存在減法,當(dāng)三個(gè)通道的值相同時(shí)其值為0。OCSIFT使用SIFT算子描述對(duì)立顏色空間的全部通道,且對(duì)立顏色空間SIFT的性能優(yōu)于其他顏色空間的SIFT。
2) 紋理。為了量化圖像中不同區(qū)域的感知紋理,文獻(xiàn)[16]提出原始LBP算法,通過(guò)編碼中心點(diǎn)的像素值與其相鄰的像素值之間的差異以表示圖像中包含的微觀模式的統(tǒng)計(jì)量。由于LBP算法獲取存有光照變化和隨機(jī)噪聲的圖像特征效果不太理想,為此LDP算法被提出并予以應(yīng)用[17]。
LDP算法通過(guò)將中心像素點(diǎn)與8個(gè)Kirsch掩模作卷積運(yùn)算,獲得相應(yīng)的邊緣響應(yīng)值,再將絕對(duì)值稍大的前k個(gè)邊緣響應(yīng)值的二進(jìn)制位設(shè)為1,剩下8-k個(gè)值設(shè)為0。該算法具體計(jì)算方法為:
(4)
式中:mk為第k個(gè)最大的邊緣響應(yīng)值,計(jì)算中一般令k=3。
3) 位置。位置特征用來(lái)描述像素點(diǎn)在圖像中所處于的坐標(biāo)信息,由于其坐標(biāo)形式龐大的特點(diǎn),一般的K-means聚類算法無(wú)法適用。
本文方法采用基于格論的CBL(C1usterbase on lattice)聚類方法[18],可在不增加空間復(fù)雜度的條件下有效提高聚類精度。將圖像的寬和高進(jìn)行m和n等分,把圖像分割成m+n個(gè)格子,處于同個(gè)格子的像素點(diǎn)就是同一聚類。令I(lǐng)w和Ih分別表示圖像的長(zhǎng)與寬,(i,j)表示圖像中任意像素點(diǎn),該點(diǎn)在x和y方向上的聚類(i,f)cluster_x和(i,f)cluster_y分別為:
(5)
(6)
如此,可以得到一個(gè)二維的聚類中心。實(shí)驗(yàn)取m=n=12,并使用一維值(i,f)cluster表示二維的聚類中心:
(i,f)cluster=(i,f)cluster_x×m+(i,f)cluster_y
(7)
1) 結(jié)合多特征的語(yǔ)義分割模型。在提取用于描述區(qū)域的特征描述符并給出可用的標(biāo)記分割語(yǔ)料庫(kù)之后,通過(guò)優(yōu)化全局適應(yīng)度函數(shù),測(cè)量所生成的解的質(zhì)量,將單個(gè)類標(biāo)簽分配給每個(gè)區(qū)域。
(8)
2) 能量函數(shù)的優(yōu)化。將提出的多特征語(yǔ)義分割模型表述為包含非線性多目標(biāo)函數(shù)的全局優(yōu)化問(wèn)題。為了達(dá)到該能量函數(shù)的最小值,可以利用基于不同優(yōu)化算法的近似方法找到最佳解決方案,如遺傳算法、模擬退火算法等,但計(jì)算時(shí)間長(zhǎng)。
為了避免上述問(wèn)題,采用了迭代條件模式(Iterative Conditional Mode,ICM)方法,即高斯-塞德爾松弛,其中像素一次更新一個(gè),能夠快速收斂[19]。ICM算法的核心是設(shè)定一個(gè)觀測(cè)圖像y,及像素點(diǎn)s鄰域?s中全部點(diǎn)的當(dāng)前預(yù)測(cè)x?s,之后統(tǒng)計(jì)像素點(diǎn)s處的標(biāo)記概率:
P(Xs=xs|y,XS/s=xS/s)=P(ys|xs)P(Xs=xs|X?s=x?s)
(9)
式中:xS/s為圖像中除了像素s外其余像素點(diǎn)的標(biāo)記。
基于ICM的EM-MFF偽代碼如算法1所示。
算法1基于ICM的EM語(yǔ)義分割模型算法
輸入:待標(biāo)記圖像I、k圖像集{Γk}(k≤K)、k個(gè)語(yǔ)義分段集{Sk}(k≤K)。
1.將圖像I分割為不同的相干區(qū)域RI
2.使用類標(biāo)簽集合ε({Sk}k≤K)中的隨機(jī)元素為每個(gè)區(qū)域ri∈RI分配類別標(biāo)簽
3.whilep 4.for每個(gè)區(qū)域ri∈RI執(zhí)行 5.根據(jù)類標(biāo)簽集合ε中的均勻分布,繪制新的標(biāo)簽y 6.對(duì)每一個(gè)像素點(diǎn)s,通過(guò)最大化P(ys|xs)來(lái)初始化x 7.s≤S,通過(guò)最大化式(9)更新xs 12.end if 13.end for 14.s←s+1,p←p+1 15.end while 為了評(píng)估模型的性能,本文將其與不同的非參數(shù)方法進(jìn)行了比較,并在兩個(gè)具有挑戰(zhàn)性的語(yǔ)義分割數(shù)據(jù)集(微軟劍橋研究院數(shù)據(jù)集和斯坦福背景數(shù)據(jù)集)上進(jìn)行了測(cè)試。 1) 微軟劍橋研究院數(shù)據(jù)集(MSRC-21)是目前種類最多且標(biāo)注最完善的圖像語(yǔ)義分割數(shù)據(jù)庫(kù)之一。它包含了591幅彩色圖像,并對(duì)23個(gè)對(duì)象類(建筑、草、樹、牛等)進(jìn)行了相應(yīng)的地面真值標(biāo)記。在23個(gè)對(duì)象類中,只有21個(gè)類是常用的。未使用的標(biāo)簽是(void=0,horse=5,mountain=8),因?yàn)槠浔尘盎蛴?xùn)練樣本太少。 MSRC-21數(shù)據(jù)集如圖2所示,其第一行為原始圖像,第二行為原始圖像對(duì)應(yīng)的手工標(biāo)注圖像,使用不同的顏色代表不同的目標(biāo),第三行顯示了顏色標(biāo)簽的類別含義,其中黑色代表空類。 圖2 MSRC-21語(yǔ)義分割數(shù)據(jù)集 2) 斯坦福背景數(shù)據(jù)集(SBD)包含一組從現(xiàn)有公共數(shù)據(jù)集導(dǎo)入的室外場(chǎng)景圖像,如圖3所示。該數(shù)據(jù)集中的每個(gè)圖像都至少包含一個(gè)前景對(duì)象。數(shù)據(jù)集按像素進(jìn)行注釋(水平位置、像素語(yǔ)義類、像素幾何類和圖像區(qū)域),以評(píng)估語(yǔ)義場(chǎng)景理解的方法。 圖3 場(chǎng)景標(biāo)注 從兩個(gè)層次對(duì)EM-MFF模型進(jìn)行性能對(duì)比分析,即全局每像素精度(Global Pixel Accuracy,GPA)和每類平均準(zhǔn)確度(Average Class Accuracy,ACA)。其中全局每像素精度表示正確標(biāo)記的像素的總比例,其算式為: (10) 式中:v(·)為指標(biāo)函數(shù);n為輸入圖像中的像素?cái)?shù);yi為算法預(yù)測(cè)的像素i的標(biāo)簽;li為像素i的地面真實(shí)標(biāo)簽。 每類平均準(zhǔn)確度表示每個(gè)類別中正確標(biāo)記的像素的平均比例,其算式為: (11) 式中:|C|為輸入圖像中的類數(shù);nb為數(shù)據(jù)集中的圖像數(shù);∧為邏輯運(yùn)算符號(hào)。 1) 本文模型在MSRC-21數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果分析。為了在MSRC-21數(shù)據(jù)集上驗(yàn)證所提模型,采用留一法的評(píng)估策略。即對(duì)于每幅圖像,將其用作查詢圖像,并根據(jù)數(shù)據(jù)集中的其余圖像對(duì)區(qū)域進(jìn)行分類。 為了保證基準(zhǔn)測(cè)試結(jié)果的完整性,本文算法的權(quán)值參數(shù)(α1、α2和α3)通過(guò)使用局部線性搜索過(guò)程的可行范圍參數(shù)值([1,2])與固定步長(zhǎng)為10來(lái)進(jìn)行整體優(yōu)化。經(jīng)過(guò)反復(fù)驗(yàn)證發(fā)現(xiàn),α1=1.83、α2=1.53和α3=1.44是模型中產(chǎn)生最佳性能的可靠超參數(shù)。 本文模型屬于非參數(shù)方法,將其與文獻(xiàn)[10]提出的超解析模型與文獻(xiàn)[11]提出的CRFTree模型,以及與參數(shù)方法中周期性CNN[4]與自動(dòng)上下文[3]模型進(jìn)行相應(yīng)的性能對(duì)比分析。 如表1所示,EM-MFF的性能優(yōu)于非參數(shù)超解析方法,其GPA和ACA得分分別為0.73和0.62。此外,與目前最新的參數(shù)化方法相比,本文方法可提供良好的結(jié)果,且模型訓(xùn)練簡(jiǎn)單、成本低。與非參數(shù)方法相比,參數(shù)場(chǎng)景解析方法在準(zhǔn)確性方面優(yōu)勢(shì)不明顯,且需要大量的模型訓(xùn)練,對(duì)于開放數(shù)據(jù)集不太實(shí)用。 表1 本文模型在MSRC-21數(shù)據(jù)集上的GPA和ACA得分 表2顯示了從MSRC-21數(shù)據(jù)集得到的實(shí)驗(yàn)結(jié)果??梢钥闯?,對(duì)于草地、飛機(jī)、羊和書等類別的準(zhǔn)確性得到了更好的結(jié)果,其精度高于80%。但是,對(duì)于17.4%的椅子類別,其準(zhǔn)確性較低,該類別經(jīng)常與鳥類混淆,因?yàn)檫@兩個(gè)類別在顏色和紋理上具有相似性。 表2 對(duì)MSRC-21類數(shù)據(jù)集的分割精度(%) 此外,將本文模型與超解析、周期性CNN、自動(dòng)上下文和CRFTree(FL)做對(duì)比,在MSRC-21數(shù)據(jù)集上的分類準(zhǔn)確度如表3所示,各模型定性比較如圖4所示。 表3 五種方法在MSRC-21數(shù)據(jù)集上的分類準(zhǔn)確度(%) 圖4 在MSRC-21上EM-MFF和其他算法的圖像分割結(jié)果示例 圖5顯示了本文方法生成的MSRC-21示例結(jié)果。 圖5 EM-MFF模型在MSRC-21數(shù)據(jù)集上獲得的示例結(jié)果 檢索集的大小也會(huì)影響模型準(zhǔn)確度,因此通過(guò)改變K值以驗(yàn)證模型效果,如圖6所示。測(cè)試結(jié)果表明當(dāng)K=197(數(shù)據(jù)集的1/3)時(shí),本文模型的準(zhǔn)確度最佳。 圖6 MSRC-21數(shù)據(jù)集的檢索集大小K值變化的影響 2) 本文模型在SBD數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果分析。在SBD數(shù)據(jù)集上驗(yàn)證了本文模型,并采用了相同的評(píng)估策略,即留一法,但對(duì)于整個(gè)數(shù)據(jù)集,使用了與MSRC-21數(shù)據(jù)集的訓(xùn)練集上固定的參數(shù)相同的值。本文模型的GPA和ACA得分如表4所示。本文模型的GPA值為0.61,ACA值為0.57,不同方法下仍然具有競(jìng)爭(zhēng)力。但與在MSRC-21數(shù)據(jù)集中的值相比,效果不是很好,這是因?yàn)镾BD數(shù)據(jù)集包含一個(gè)前景類,其引用了不同類型的對(duì)象,大大增加了類內(nèi)的可變性。 表4 本文模型在SBD數(shù)據(jù)集上的GPA和ACA得分 表5顯示了本文模型在SBD數(shù)據(jù)集中的精度值??梢钥闯鰧?duì)于天空和草地類,在類別準(zhǔn)確性方面會(huì)產(chǎn)生更好的結(jié)果,其值高于80%。相反,對(duì)于山地級(jí)別,其精度較低。 表5 SBD數(shù)據(jù)集分割的分割精度(%) 此外,將本文模型與超解析、自動(dòng)上下文、周期性CNN和CRFTree(FL)的對(duì)比,在SBD數(shù)據(jù)集上的分類準(zhǔn)確度如表6所示。 表6 五種方法在SBD數(shù)據(jù)集上的分類準(zhǔn)確度(%) 為了測(cè)試迭代優(yōu)化過(guò)程的收斂性,通過(guò)用不同的迭代次數(shù)的優(yōu)化算法評(píng)估了所提出的模型,MSRC-21數(shù)據(jù)集上的GPA和ACA漸近結(jié)果如圖7所示??梢钥闯鯰max=100時(shí)模型性能最佳。 圖7 不同最大迭代次數(shù)下,EM-MFF模型的績(jī)效指標(biāo)變化 所提出模型的計(jì)算復(fù)雜度取決于兩個(gè)因素:數(shù)據(jù)集中的圖像數(shù)量和使用的標(biāo)準(zhǔn)數(shù)量(組合為全局能量函數(shù))。在MSRC-21數(shù)據(jù)集上,對(duì)于Intel 64處理器內(nèi)核i7-4800MQ,2.7 GHz,8 GB RAM內(nèi)存和在Linux上運(yùn)行240×240的圖像的非優(yōu)化代碼,執(zhí)行時(shí)間平均需要5~6 min。更準(zhǔn)確地說(shuō),標(biāo)記過(guò)程需要0.14 s,幾何檢索步驟需要0.32 s。然而,所提模型的計(jì)算時(shí)間主要由205 s的區(qū)域生成代碼和171 s的特征提取所占用的時(shí)間。前者可以通過(guò)并行化實(shí)現(xiàn)而減少,而通過(guò)僅執(zhí)行一次提取,然后將提取的特征存儲(chǔ)在數(shù)據(jù)結(jié)構(gòu)中,可以加速后者。所提模型與其他四種模型的分割時(shí)間對(duì)比如表7所示。 表7 計(jì)算時(shí)間對(duì)比結(jié)果 續(xù)表7 為解決圖像語(yǔ)義分割的問(wèn)題,本文提出了一種新穎且易實(shí)現(xiàn)的結(jié)合多類特征融合與ICM目標(biāo)函數(shù)優(yōu)化的圖像語(yǔ)義分割方法。通過(guò)使用基于稱為全局一致性誤差的幾何檢索策略,從包含完全分割和帶注釋的圖像的數(shù)據(jù)庫(kù)中選擇了最近的鄰居。此外,EM-MFF模型的成本函數(shù)有效地結(jié)合了不同全局非參數(shù)語(yǔ)義似然能量項(xiàng),并將多類特征融合到能量或目標(biāo)函數(shù)中,以集成有關(guān)場(chǎng)景中可能存在的對(duì)象的更多信息。在MSRC-21和SBD數(shù)據(jù)集上對(duì)該方法性能進(jìn)行了實(shí)驗(yàn),結(jié)果表明其具備可行性和較高的分類準(zhǔn)確度,且多特征融合可以顯著改善場(chǎng)景解析的最終結(jié)果。此外,本文方法無(wú)需大數(shù)據(jù)集來(lái)訓(xùn)練高精度分類器,節(jié)約訓(xùn)練成本。 本文方法僅考慮了顏色、紋理和位置這三種特征,未來(lái)工作將結(jié)合更多的特征,在不同的幾何和語(yǔ)義抽象級(jí)別進(jìn)一步提高分類準(zhǔn)確性,以增加所提方法的普適性。2 實(shí) 驗(yàn)
2.1 數(shù)據(jù)集
2.2 評(píng)估指標(biāo)
2.3 實(shí)驗(yàn)結(jié)果
2.4 計(jì)算時(shí)間
3 結(jié) 語(yǔ)