(空軍工程大學(xué) 信息與導(dǎo)航學(xué)院,陜西 西安 710077)
圖像語(yǔ)義分割(Semantic Segmentation)是一種將圖像劃分成一系列具有特定語(yǔ)義信息的圖像區(qū)域的方法,已成為圖像理解分析領(lǐng)域的一個(gè)研究熱點(diǎn),并展現(xiàn)出廣闊的應(yīng)用前景。例如,在智能汽車(chē)領(lǐng)域,通過(guò)對(duì)無(wú)人車(chē)前景物體圖像進(jìn)行語(yǔ)義分割可以有效地幫助計(jì)算機(jī)判斷路況[1-2];在醫(yī)療領(lǐng)域,通過(guò)對(duì)醫(yī)學(xué)圖像進(jìn)行語(yǔ)義分割可幫助醫(yī)生迅速分析和判斷患者病情[3-4]。
鑒于圖像語(yǔ)義分割方法的巨大應(yīng)用價(jià)值,國(guó)內(nèi)外大量研究機(jī)構(gòu)和學(xué)者開(kāi)展了相關(guān)研究,并取得大量研究成果。其中國(guó)外典型的機(jī)構(gòu)包括:加州大學(xué)伯克利分校的機(jī)器視覺(jué)實(shí)驗(yàn)室、普林斯頓大學(xué)的計(jì)算機(jī)視覺(jué)實(shí)驗(yàn)室、斯坦福大學(xué)的人工智能和視覺(jué)實(shí)驗(yàn)室以及卡內(nèi)基梅隆大學(xué)的視覺(jué)與自主系統(tǒng)實(shí)驗(yàn)室等[5-7]。在國(guó)內(nèi),近年來(lái)不少機(jī)構(gòu)也對(duì)圖像語(yǔ)義分割進(jìn)行了較為深入的研究工作,如香港中文大學(xué)、清華大學(xué)、國(guó)防科技大學(xué)、中國(guó)科學(xué)院自動(dòng)化研究所、西安電子科技大學(xué)、上海交通大學(xué)和中山大學(xué)等[8-12]。
從方法研究的角度看,圖像語(yǔ)義分割的研究最早可追溯到計(jì)算機(jī)視覺(jué)的研究,早期的代表性成果是美國(guó)麻省理工學(xué)院Robertsr[13]提出的三維物體感知。之后麻省理工大學(xué)人工智能實(shí)驗(yàn)室的D.Marr[14-15]將圖像處理與生物神經(jīng)學(xué)等多學(xué)科結(jié)合,提出了著名的馬爾視覺(jué)計(jì)算理論,極大地促進(jìn)了計(jì)算機(jī)視覺(jué)的研究進(jìn)展。Bajcsy[16]和Aloimonos[17]等人針對(duì)馬爾視覺(jué)計(jì)算理論缺乏高層知識(shí)反饋等問(wèn)題相繼提出了目的視覺(jué)和主動(dòng)視覺(jué)等理論。從20世紀(jì)80年代以來(lái),馬爾科夫隨機(jī)場(chǎng)(Markov Random Field,MRF)和條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)理論在圖像語(yǔ)義分割中掀起一陣熱潮。Grenande[18]與Geman[19]的工作給出了計(jì)算機(jī)視覺(jué)問(wèn)題通過(guò)MRF建模的完備數(shù)學(xué)描述,成功將MRF模型引入到圖像分析領(lǐng)域。Kumar[20]將CRF模型擴(kuò)展到2-維格型結(jié)構(gòu),開(kāi)始將其引入到圖像分析領(lǐng)域,引起了學(xué)術(shù)界的高度關(guān)注。隨著深度學(xué)習(xí)熱潮的出現(xiàn),很多學(xué)者將其應(yīng)用到圖像語(yǔ)義分割,極大地提高了分割效果[21-23]。
圖像語(yǔ)義分割可以視為一種在傳統(tǒng)圖像分割的基礎(chǔ)上,給各圖像區(qū)域賦予某種語(yǔ)義屬性的特殊的圖像分割方法。為便于理解,圖1給出了一幅圖像的語(yǔ)義分割示意圖,其中圖1(a)為原始圖像,圖1(b)為其語(yǔ)義分割結(jié)果,其將圖像分割為畫(huà)像、椅子、桌子、地板等語(yǔ)義區(qū)域,每個(gè)區(qū)域采用不同顏色進(jìn)行標(biāo)注區(qū)分[24]。
圖1 圖像語(yǔ)義分割示意圖
為了實(shí)現(xiàn)圖像語(yǔ)義分割,國(guó)內(nèi)外眾多學(xué)者提出了大量方法。從驅(qū)動(dòng)類(lèi)型來(lái)看,圖像語(yǔ)義分割方法可分為基于模型驅(qū)動(dòng)的方法和基于數(shù)據(jù)驅(qū)動(dòng)的方法。
基于模型驅(qū)動(dòng)的方法通過(guò)圖像語(yǔ)義分割進(jìn)行數(shù)學(xué)建模,首先建立圖像語(yǔ)義分割的明確的數(shù)學(xué)模型,然后通過(guò)訓(xùn)練數(shù)據(jù)確定相應(yīng)數(shù)學(xué)模型的參數(shù),最終利用確定模型實(shí)現(xiàn)圖像語(yǔ)義分割。
根據(jù)建模方法的不同,基于模型驅(qū)動(dòng)的方法進(jìn)一步可分為生成式(Generative)和判別式 (Discriminative)兩大類(lèi),如表1所示。對(duì)于輸入x,類(lèi)別標(biāo)簽y,用生成式模型估計(jì)它們的聯(lián)合概率分布P(x,y),而判別式模型用于估計(jì)條件概率分布P(y|x)。
(1) 生成式模型。
基于生成式模型的圖像語(yǔ)義分割方法先學(xué)習(xí)圖像特征和標(biāo)簽的聯(lián)合概率,通過(guò)貝葉斯公式計(jì)算給定圖像特征時(shí)各個(gè)標(biāo)簽的后驗(yàn)概率,并依據(jù)后驗(yàn)概率進(jìn)行圖像標(biāo)注[25]。這類(lèi)方法具有可擴(kuò)展的訓(xùn)練過(guò)程,對(duì)訓(xùn)練圖像集人工標(biāo)注的質(zhì)量要求較低。目前生成式模型主要有3類(lèi):概率潛在語(yǔ)義分析(Probabilistic Latent Semantic Analysis,PLSA)、隱狄利克雷分配(Latent Dirichlet Allocation,LDA)和MRF模型。
表1 模型驅(qū)動(dòng)的方法
PLSA和LDA通過(guò)隱主題將圖像的視覺(jué)特征與語(yǔ)義特征相關(guān)聯(lián),對(duì)圖像進(jìn)行語(yǔ)義標(biāo)記。Hofmann[26]等人在2001年提出的PLSA模型最開(kāi)始應(yīng)用于文本與自然語(yǔ)言的研究中,通過(guò)計(jì)算詞語(yǔ)和文本對(duì)應(yīng)的概率分布確定詞語(yǔ)在文本中的相似性。在訓(xùn)練數(shù)據(jù)太少或者存在噪音的情況下, PLSA 有時(shí)會(huì)出現(xiàn)過(guò)擬合的現(xiàn)象,針對(duì)這個(gè)問(wèn)題,PLSA 通常采用期望最大化方法(Expectation Maximization,EM)對(duì)隱變量模型進(jìn)行最大似然估計(jì)[27]。Blei[28]等人提出的LDA模型將超參層引入PLSA 模型,建立了隱變量的概率分布,在圖像語(yǔ)義分割中得到廣泛應(yīng)用。
MRF模型是目前應(yīng)用更為廣泛的一種生成式模型。MRF模型能夠很好地利用標(biāo)記圖像的上下文信息,將標(biāo)記圖像中的上下文信息和輸入的圖像特征包含在一個(gè)統(tǒng)一的理論框架中?,F(xiàn)有的許多圖像標(biāo)記方法,如對(duì)數(shù)回歸分類(lèi)器[29]、支持向量機(jī)(Support Vector Machine,SVM)[30]等,只能用于獨(dú)立分布的標(biāo)記數(shù)據(jù),本身很難對(duì)表征數(shù)據(jù)相關(guān)性的上下文信息建模。圖像上下文信息只是簡(jiǎn)單地用于后處理過(guò)程,而沒(méi)有應(yīng)用在分類(lèi)器的分類(lèi)過(guò)程中,可能會(huì)降低圖像標(biāo)記精度。MRF模型在分類(lèi)過(guò)程可以利用部分先驗(yàn)上下文信息和一些通過(guò)訓(xùn)練得到的上下文信息,提高初步分類(lèi)的結(jié)果。
二是切實(shí)強(qiáng)化防洪薄弱環(huán)節(jié)治理,著力提升防洪保安能力。加快推進(jìn)大中型病險(xiǎn)水庫(kù)、病險(xiǎn)水閘除險(xiǎn)加固工程,開(kāi)工建設(shè)泗河、洙趙新河、大汶河、馬頰河等重要支流治理,力爭(zhēng)完成德惠新河續(xù)建任務(wù);加快進(jìn)一步治淮前期工作并及早組織實(shí)施,加快千里海堤工程建設(shè)。
(2) 判別式模型。
基于判別式模型的圖像語(yǔ)義分割方法假設(shè)圖像特征到標(biāo)簽之間的映射是某種參數(shù)化的函數(shù),直接在訓(xùn)練數(shù)據(jù)上學(xué)習(xí)此函數(shù)的參數(shù)。這類(lèi)方法將各個(gè)語(yǔ)義概念視為獨(dú)立的類(lèi)別,一般來(lái)說(shuō)能取得較高的標(biāo)注精度。判別式的圖像語(yǔ)義分割模型主要包括貝葉斯(Bayes)模型、高斯混合模型(Gaussian Mixture Model,GMM)、SVM模型和CRF模型。
Bayes模型通過(guò)Bayes公式求解后驗(yàn)概率,實(shí)現(xiàn)對(duì)圖像的語(yǔ)義分割。Shi等人[27]對(duì)每個(gè)語(yǔ)義概念進(jìn)行建模,將先驗(yàn)層次知識(shí)與圖像的多級(jí)概念結(jié)構(gòu)表示方法相結(jié)合,再利用Bayes框架實(shí)現(xiàn)圖像語(yǔ)義分割。在基于模型驅(qū)動(dòng)的語(yǔ)義分割方法中,建立的模型往往需要大量的圖像數(shù)據(jù)來(lái)進(jìn)行參數(shù)學(xué)習(xí),這種情況下,很多研究者使用GMM模型進(jìn)行圖像語(yǔ)義分割。Barnard[31]利用GMM模型對(duì)圖像中的每個(gè)語(yǔ)義類(lèi)的分布進(jìn)行建模,最后用EM方法對(duì)模型參數(shù)進(jìn)行學(xué)習(xí)。
SVM定義為特征空間上的間隔最大的線性分類(lèi)器,即確定一個(gè)最優(yōu)分類(lèi)超平面,使兩類(lèi)訓(xùn)練樣本中距離超平面最近的樣本與超平面距離最大。SVM因其可處理非線性、高維小樣本并且具有良好的泛化能力,在圖像語(yǔ)義分割中得到廣泛的應(yīng)用。文獻(xiàn)[32]詳細(xì)介紹了SVM,文獻(xiàn)[5]將SVM用于圖像語(yǔ)義分割,在PASACAL 2009和PASACAL 2010數(shù)據(jù)集上進(jìn)行測(cè)試。Felzenszwalb等人[33]組合梯度下降直方圖和SVM在PASACAL圖像分割挑戰(zhàn)賽上獲得第七名的成績(jī)。
CRF是Lafferty等人[34]提出的一種概率圖模型,最初用于處理序列數(shù)據(jù)。由于可以融合多特征和上下文信息,隨后CRF模型在圖像標(biāo)記中得到了成功的應(yīng)用[35]。相比于MRF模型,CRF模型不僅可以利用標(biāo)記圖像上下文信息,還可以利用觀察圖像中從局部到全局各種形式的上下文信息[9]。
與基于模型驅(qū)動(dòng)的方法不同,基于數(shù)據(jù)驅(qū)動(dòng)的方法從圖像數(shù)據(jù)本身出發(fā),可利用大量訓(xùn)練數(shù)據(jù)自動(dòng)學(xué)習(xí)特征,然后聯(lián)合優(yōu)化特征表示和分類(lèi)器,充分挖掘其中蘊(yùn)含的類(lèi)別信息來(lái)實(shí)現(xiàn)圖像語(yǔ)義分割。最近幾年,深度學(xué)習(xí)技術(shù)在處理多種計(jì)算機(jī)視覺(jué)任務(wù)上取得了巨大進(jìn)展,尤其是一些處理圖像分類(lèi)和目標(biāo)檢測(cè)問(wèn)題的方法,如卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)等[36-38],越來(lái)越多的研究者開(kāi)始利用CNN來(lái)解決圖像標(biāo)記問(wèn)題。相對(duì)于傳統(tǒng)方法, CNN通過(guò)訓(xùn)練數(shù)據(jù)自動(dòng)學(xué)習(xí)特征,可以控制整體模型的擬合能力,是一種典型的數(shù)據(jù)驅(qū)動(dòng)的語(yǔ)義分割方法。很多基于深度學(xué)習(xí)的方法[39-41]既需要大量的訓(xùn)練數(shù)據(jù)來(lái)確定網(wǎng)絡(luò)參數(shù),也需要建立相應(yīng)的模型,本小節(jié)根據(jù)這類(lèi)方法需要通過(guò)大量訓(xùn)練數(shù)據(jù)自動(dòng)學(xué)習(xí)特征的特點(diǎn)將其統(tǒng)一歸為基于數(shù)據(jù)驅(qū)動(dòng)的圖像語(yǔ)義分割方法介紹。
CNN是一種高性能的深層神經(jīng)網(wǎng)絡(luò)模型。一方面,CNN神經(jīng)元間的連接是非全連接的,另一方面,同一層中某些神經(jīng)元之間的連接的權(quán)重是共享的。它的非全連接和權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu)使之更類(lèi)似于生物神經(jīng)網(wǎng)絡(luò),降低了網(wǎng)絡(luò)模型的復(fù)雜度,減少了權(quán)值的數(shù)量。如基于ImageNet訓(xùn)練的AlexNet[37]模型輸出一個(gè)1000維的向量表示輸入圖像屬于每一類(lèi)的概率。AlexNet[42]只能用于對(duì)圖像分類(lèi),無(wú)法完成語(yǔ)義分割任務(wù)。Long等人的FCN(Fully Convolutional Network)[23]提出了使用全卷積網(wǎng)絡(luò)進(jìn)行語(yǔ)義分割,推廣了原有的基于全連接層的網(wǎng)絡(luò)結(jié)構(gòu),在不帶有全連接層的情況下能進(jìn)行密集預(yù)測(cè)。FCN可以接受任意尺寸的輸入圖像,對(duì)最后一個(gè)卷積層的feature map進(jìn)行上采樣,使它恢復(fù)到與輸入圖像相同的尺寸,從而可以對(duì)每個(gè)像素都產(chǎn)生了一個(gè)預(yù)測(cè),同時(shí)保留了原始輸入圖像中的空間信息,最后在上采樣的特征圖上進(jìn)行逐像素分類(lèi)。
盡管FCN具有強(qiáng)大的靈活性,但仍然存在其所提取特征的類(lèi)內(nèi)緊湊度不夠以及類(lèi)間可分性不高的問(wèn)題,針對(duì)這些問(wèn)題,目前針對(duì)FCN的改善主要集中在引入全局上下文信息以及改善分割邊緣兩個(gè)方面。在引入全局上下文信息方面, DeepLab模型[39]將全連接CRF引入到FCN中,對(duì)FCN預(yù)測(cè)結(jié)果進(jìn)行后處理。它將每個(gè)像素點(diǎn)表示為CRF模型中的節(jié)點(diǎn),無(wú)論兩個(gè)像素距離多遠(yuǎn),每個(gè)像素對(duì)都可以用一個(gè)成對(duì)項(xiàng)表示。Zheng[40]等人提出了另外一種引入全局上下文信息的方法CRFasRNN,將CRF的求解推理迭代過(guò)程看成了RNN的相關(guān)運(yùn)算,嵌入CNN模型中,最終實(shí)現(xiàn)FCN與CRF的端到端結(jié)合訓(xùn)練。文獻(xiàn)[41]提出的深度解析網(wǎng)絡(luò)(Deep Parsing Network,DPN)將MRF與傳統(tǒng)CNN結(jié)合,將MRF的單位置函數(shù)和雙位置函數(shù)的推斷和學(xué)習(xí)統(tǒng)一到CNN中,取得了比CRFasRNN更好的分割性能。在改善分割邊緣方面,文獻(xiàn)[43]針對(duì)FCN池化會(huì)造成分辨率下降的問(wèn)題提出使用空洞卷積層(Dilated Convolution Layer),可使感受野呈指數(shù)級(jí)增長(zhǎng),而空間維度不至于下降。2016年劍橋大學(xué)提出的SegNet[44],使用不到1000張圖訓(xùn)練出城市道路分割網(wǎng)絡(luò),對(duì)很多場(chǎng)景都有很好的泛化性,通過(guò)逐步的編碼解碼使其能較好保留細(xì)節(jié)信息。文獻(xiàn)[45]利用金字塔池化實(shí)現(xiàn)整體輪廓信息與細(xì)節(jié)紋理結(jié)合,在一定程度上解決了分割任務(wù)中的多尺度問(wèn)題。
基于模型驅(qū)動(dòng)的語(yǔ)義分割方法對(duì)特征和分類(lèi)器分開(kāi)優(yōu)化,研究者往往采用手工設(shè)計(jì)特征提取方法,再采用合適的分類(lèi)器對(duì)特征進(jìn)行分類(lèi),這類(lèi)方法可顯式地分析特征的表示方式,但描述能力有限。而典型的基于數(shù)據(jù)驅(qū)動(dòng)的語(yǔ)義分割方法,如CNN,可通過(guò)訓(xùn)練數(shù)據(jù)自動(dòng)學(xué)習(xí)特征,然后聯(lián)合優(yōu)化特征表示和分類(lèi)器,最大程度地發(fā)揮了二者聯(lián)合協(xié)作的性能,但是這類(lèi)方法難以有清晰的數(shù)學(xué)表達(dá)。
為評(píng)估圖像語(yǔ)義分割方法的性能,除了時(shí)間、內(nèi)存開(kāi)銷(xiāo)外,主要是從語(yǔ)義分割的準(zhǔn)確性進(jìn)行衡量。目前,圖像語(yǔ)義分割的準(zhǔn)確性度量的指標(biāo)主要包括像素精度(Pixel Accuracy,PA)、平均像素精度(Mean Pixel Accuracy,MPA)和均交并比(Mean Intersection over Union,MIoU),其定義如下。
假設(shè)測(cè)試數(shù)據(jù)集中總共有n個(gè)類(lèi)(從L1~Ln),pij表示第i類(lèi)數(shù)據(jù)中被標(biāo)記為第j類(lèi)的數(shù)量,pji表示第j類(lèi)數(shù)據(jù)中被標(biāo)記為第i類(lèi)的數(shù)量,則
① PA 定義為正確分類(lèi)像素?cái)?shù)與總像素?cái)?shù)的比值。
(1)
② MPA 相較于PA,在每個(gè)類(lèi)別的基礎(chǔ)上計(jì)算正確分類(lèi)像素的比例再求平均。
(2)
③ MIoU是一種最為常用的準(zhǔn)確性評(píng)估標(biāo)準(zhǔn),只需求每一類(lèi)真實(shí)標(biāo)記和預(yù)測(cè)標(biāo)記交集與它們并集的比值再取平均,這種評(píng)估標(biāo)準(zhǔn)可以較好地評(píng)估語(yǔ)義分割方法的性能。
(3)
上述的3種評(píng)價(jià)標(biāo)準(zhǔn)中,PA和MPA僅簡(jiǎn)單地計(jì)算正確分類(lèi)像素的比例,而MIoU通過(guò)計(jì)算每一類(lèi)真實(shí)標(biāo)記和預(yù)測(cè)標(biāo)記交集與它們并集的比值的平均值作為評(píng)估標(biāo)準(zhǔn),相對(duì)于其他兩種方法計(jì)算更為精確。目前研究者主要采用MIoU評(píng)估其方法性能。
圖像語(yǔ)義分割是圖像理解分析的重要組成內(nèi)容,其研究具有重要理論意義和廣闊應(yīng)用前景。介紹了主流的圖像語(yǔ)義分割方法。目前,圖像語(yǔ)義分割方法的研究已取得巨大進(jìn)展,隨著深度學(xué)習(xí)等理論的發(fā)展以及海量圖像數(shù)據(jù)的涌現(xiàn),認(rèn)為圖像語(yǔ)義分割方法面臨的問(wèn)題及其發(fā)展趨勢(shì)包括如下幾方面。
① 深度學(xué)習(xí)模型中的參數(shù)設(shè)置問(wèn)題。深度學(xué)習(xí)模型中的參數(shù)確定在很大程度上會(huì)直接影響最終的性能,當(dāng)前的深度學(xué)習(xí)模型的參數(shù)包括網(wǎng)絡(luò)層數(shù)、迭代次數(shù)和學(xué)習(xí)率等基本都是依據(jù)經(jīng)驗(yàn)得到的,雖然也取得了較為不錯(cuò)的結(jié)果,但沒(méi)有從中總結(jié)出規(guī)律。因此,找到合適的參數(shù)設(shè)置方法是提高深度學(xué)習(xí)模型性能和推動(dòng)深度學(xué)習(xí)技術(shù)向前邁進(jìn)的重要方向。
② 深度學(xué)習(xí)方法的實(shí)時(shí)性問(wèn)題。深度學(xué)習(xí)模型往往包含的層數(shù)較多,其中有海量的參數(shù)需要訓(xùn)練,耗時(shí)非常長(zhǎng),嚴(yán)重降低了方法的實(shí)時(shí)性。因此,如何在保證精度的基礎(chǔ)上提高方法的實(shí)時(shí)性是后續(xù)研究工作的一個(gè)重點(diǎn)研究方向。
③ 基于模型驅(qū)動(dòng)的方法的特征提取問(wèn)題。當(dāng)前基于模型驅(qū)動(dòng)的方法需要依據(jù)先驗(yàn)知識(shí)人工設(shè)計(jì)特征,很多時(shí)候特征設(shè)計(jì)不合理會(huì)導(dǎo)致特征表征性不強(qiáng),因此,如何提取更具表征性的特征是后續(xù)研究的一個(gè)重要方向。