尹蕊(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京100044)
基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的場(chǎng)景標(biāo)記
尹蕊
(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京100044)
場(chǎng)景標(biāo)記是一種非常具有廣泛實(shí)用價(jià)值的應(yīng)用。無(wú)論在體育直播視頻中增加虛擬廣告,還是在某影像當(dāng)中檢測(cè)與識(shí)別關(guān)鍵物體,場(chǎng)景標(biāo)記都是這些應(yīng)用的核心問(wèn)題。解析圖片的難點(diǎn)在于目標(biāo)識(shí)別,也即在整個(gè)圖片背景環(huán)境中將每個(gè)像素所屬的景物標(biāo)記出來(lái)。這一過(guò)程存在如下問(wèn)題:如何準(zhǔn)確地描述圖像信息并被計(jì)算機(jī)識(shí)別,采用什么樣的訓(xùn)練方式才能更加準(zhǔn)確和高效地進(jìn)行學(xué)習(xí)。針對(duì)以上問(wèn)題,本文使用多尺度卷積神經(jīng)網(wǎng)絡(luò)來(lái)訓(xùn)練圖像以提取圖像特征并用于測(cè)試集。
我們有這樣的經(jīng)驗(yàn),圖像場(chǎng)景當(dāng)中對(duì)象的結(jié)構(gòu)尺度有大有小,若能在特征提取階段從多尺度鄰域中來(lái)提取,就會(huì)比從單一尺度當(dāng)中提取到更多的視覺(jué)信息,有可能增加局部特征當(dāng)中所帶的上下文信息,從而增加了特征提取階段對(duì)圖像信息描述的準(zhǔn)確度,如圖1所示。
卷積神經(jīng)網(wǎng)絡(luò)是深度學(xué)習(xí)方法的一種,是當(dāng)下圖像識(shí)別的主要研究方法。其核心思想是將局部感受野、權(quán)值復(fù)制與空間子采樣這三種結(jié)構(gòu)結(jié)合起來(lái)獲得某種程度上的位移、尺度和形變的不變性。在本質(zhì)上,卷積神經(jīng)網(wǎng)絡(luò)是一種輸入到輸出的映射,它能夠?qū)W習(xí)大量的輸入和輸出之間的映射關(guān)系,而并不需要任何輸入和輸出之間的精確數(shù)學(xué)表達(dá)式,只要用已知的模式對(duì)卷積網(wǎng)絡(luò)加以訓(xùn)練,網(wǎng)絡(luò)就具有輸入輸出對(duì)之間的映射能力。卷積網(wǎng)絡(luò)實(shí)行的學(xué)習(xí)算法是有監(jiān)督的,故其樣本集的格式為(輸入向量,理想輸出向量)這樣的向量對(duì)。開(kāi)始訓(xùn)練前,所有的權(quán)都應(yīng)該用一些不同的小隨機(jī)數(shù)進(jìn)行初始化。“小隨機(jī)數(shù)”用來(lái)保證網(wǎng)絡(luò)不會(huì)因權(quán)值過(guò)大而飽和,而導(dǎo)致訓(xùn)練失??;“不同”則用來(lái)保證網(wǎng)絡(luò)的正常學(xué)習(xí)。
圖1
近些年,研究者采用過(guò)很多方法來(lái)解決圖像解析問(wèn)題。其中,許多方法依靠馬爾科夫隨機(jī)域 (MRFs,Markov Random Fields)、條件隨機(jī)域 (CRFs,Condition鄄al Random Fields)或其他圖像模型來(lái)保證對(duì)象標(biāo)記的連續(xù)性和上下文的相關(guān)性。還有一些方法采用超像素或其他分割方法將圖像預(yù)分割為候選碎片,并從每個(gè)碎片或其他相鄰的碎片連接當(dāng)中提取特征和類別。
Socher等人提出了一種方法:使用一種訓(xùn)練得到的評(píng)分函數(shù)以貪心的方式來(lái)然后聚合分割。這種方法的創(chuàng)新之處就在于兩個(gè)連接分割的特征向量是由各自分割通過(guò)訓(xùn)練函數(shù)得到的特征向量計(jì)算得到的。他們也使用深度學(xué)習(xí)來(lái)得到特征提取部分,但其特征提取部分是在人工選取特征的基礎(chǔ)上做的。人工選取特征的方法費(fèi)時(shí)費(fèi)力,而且選取特征時(shí)還需要專業(yè)知識(shí),能否選取準(zhǔn)確還需要經(jīng)驗(yàn)和運(yùn)氣,因此還是需要由具有自動(dòng)選取特征的深度學(xué)習(xí)方法來(lái)代替人工。
在機(jī)器視覺(jué)領(lǐng)域,為簡(jiǎn)化或改變圖像的表示形式,使圖像更易于分析,又產(chǎn)生了圖像分割的做法,通常用于刻畫圖像中的物體和邊界。圖像分割(Segmentation)指的是圖像被細(xì)分為若干圖像子區(qū)域(也稱超像素)的過(guò)程。更準(zhǔn)確地來(lái)說(shuō),它是對(duì)圖像中每個(gè)像素加標(biāo)簽(label)的過(guò)程。
圖像分割使得具有相同標(biāo)簽的像素具有某種共同的視覺(jué)特性。因此,一些研究者利用各種圖像分割(如分割樹)方法,將原始像素聚合成超像素(superpixel)。如,Russell等人利用對(duì)已標(biāo)記圖片處理所得的分割樹進(jìn)行分割。Carreira等人則使用超像素對(duì)圖片進(jìn)行分割。
之前,D.Grangier等人在場(chǎng)景解析中使用過(guò)卷及神經(jīng)網(wǎng)絡(luò)。他們將未處理的原始像素作為輸入進(jìn)行訓(xùn)練,所得到的分類正確率還是令人滿意的。但還能夠綜合各種方法的優(yōu)勢(shì)以提高對(duì)象識(shí)別的正確率。
特征提取階段中以輸入圖像的視野(image patch)為單位對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行輸入,通過(guò)卷及神經(jīng)網(wǎng)絡(luò)完成轉(zhuǎn)換 f:IRP→IRQ,使得圖像視野與線性可分類的IRQ可形成映射。然而,這里有一些問(wèn)題:由于景物的尺寸有大有小,同樣大小的視野窗口很難提供充足的描述,使得學(xué)習(xí)器輸入的信息不全。另外,若固定使用較大的視野窗口則會(huì)增加輸入的維度,訓(xùn)練數(shù)據(jù)是有限的,因此就有必要增加學(xué)習(xí)算法當(dāng)中的常量個(gè)數(shù)。通常,采用池化方法來(lái)達(dá)到這樣的目的,但卻會(huì)降低學(xué)習(xí)模型對(duì)景物的定位與描述,同時(shí)也會(huì)使得卷積神經(jīng)網(wǎng)絡(luò)的規(guī)模變得非常大。
故本文用高斯圖像金字塔來(lái)進(jìn)行多尺度處理來(lái)解決這些問(wèn)題。各尺度輸入共享有同樣參數(shù)的卷積神經(jīng)網(wǎng)絡(luò),這樣保證圖像視野窗口在大小一樣的情況下,各像素包含的背景信息不同,達(dá)到更精細(xì)表示的效果。對(duì)于大小為w×i的圖像I,高斯金字塔Gj由I的幾個(gè)分辨率減小的高斯圖像 Ii(i是下標(biāo),下同)組成,其中,i= {0,1,…,j}代表金字塔的層數(shù)。圖像Ii的大小為(w/2i)× (h/2i)。圖像Ii是通過(guò)對(duì)圖像Ii-1進(jìn)行隔行隔列采樣而得到的圖。獲得高斯金子塔的過(guò)程如圖2所示。
圖2
特征提取由卷積(Convolutions)層完成,前一層輸入的局部感受野與每個(gè)神經(jīng)元相連,其特征被提取,而后與其他局部感受野的特征間的位置關(guān)系也隨之相對(duì)獨(dú)立的確定下來(lái),采用卷積運(yùn)算的一個(gè)重要原因就是它可增強(qiáng)原信號(hào)特征并降低噪音;特征映射由子采樣(Subsampling)層完成,根據(jù)圖像局部相關(guān)性原理,對(duì)圖像進(jìn)行子抽樣,減少數(shù)據(jù)處理量的同時(shí)保留有用信息特征,特征映射平面有多個(gè)且各神經(jīng)元權(quán)值均相等,這樣減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù),降低了網(wǎng)絡(luò)參數(shù)選擇的復(fù)雜度,簡(jiǎn)化了卷積網(wǎng)絡(luò)。其過(guò)程如圖3所示。
圖3
將卷積層和子采樣層放大來(lái)看,一個(gè)完整的卷積采樣過(guò)程如下圖4所示。其中,卷積的過(guò)程是使用一個(gè)可訓(xùn)練的濾波器fx卷積輸入圖像,再增加一個(gè)bx的偏置。子采樣的過(guò)程與卷積類似,將每相鄰的四個(gè)像素求和變?yōu)橐粋€(gè)像素之后再通過(guò)權(quán)值Wx+1加權(quán),加偏置bx+1,最后經(jīng)過(guò)一個(gè)激活函數(shù)(一般是Sigmoid函數(shù))進(jìn)行激活。這樣可以得到一個(gè)大小近似縮小到原先1/4的特征映射圖Sx+1。最初的階段是對(duì)輸入圖像做卷積,而后的卷積目標(biāo)就變成了特征映射。子采樣層可看作是一種模糊濾波器,起二次特征提取的作用。隱層與隱層之間空間分辨率遞減,而每層所含的平面數(shù)遞增,這樣可用于檢測(cè)更多的特征信息。
圖4
本實(shí)驗(yàn)使用的數(shù)據(jù)是“Stanford Background”,它包含了715幅以室外為背景的圖,其中共有9個(gè)類別需要標(biāo)注出來(lái),分別是天空、樹木、道路、草坪、水域、建筑、山巒、前景物(因前景物種類太多,為避免訓(xùn)練時(shí)間成本,故統(tǒng)一歸為前景物)和未知類。每幅圖的尺寸都近似320×240個(gè)像素,且都至少有一個(gè)前景物。數(shù)據(jù)集使用三重交叉驗(yàn)證得到其中572個(gè)作為訓(xùn)練集圖片,另外143個(gè)作為測(cè)試集圖片。此實(shí)驗(yàn)當(dāng)中有若干需要解釋意義的參數(shù)如表1。
對(duì)于nhu,pools和conk三個(gè)參數(shù)的實(shí)驗(yàn)組合和結(jié)果如表2所示。
由實(shí)驗(yàn)結(jié)果說(shuō)明:多尺度卷積神經(jīng)網(wǎng)絡(luò)能夠提高場(chǎng)景解析的正確率,但并非網(wǎng)絡(luò)深度越大,正確率就能越高,訓(xùn)練的正確率與具體問(wèn)題的復(fù)雜程度和網(wǎng)絡(luò)構(gòu)造及參數(shù)設(shè)置都相關(guān)。
表1 實(shí)驗(yàn)參數(shù)意義
場(chǎng)景解析的方法有很多,卷積神經(jīng)網(wǎng)絡(luò)作為深度學(xué)習(xí)的一種方法值得深入研究。但因其網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜、參數(shù)個(gè)數(shù)多、運(yùn)算空間大,因此一直沒(méi)有十分有效的訓(xùn)練方法。但就場(chǎng)景解析這一問(wèn)題,提高正確率還有很多技巧可以增加,如景物分割等。
[1]C.Farabet,C.Couprie,L.Najman,Y.LeCun.Scene Parsing with Multiscale Feature Learning,Purity Trees,and Optimal Covers.Proc. Int'l Conf.Machine Learning,June 2012.
[2]王濤,查紅彬.計(jì)算機(jī)視覺(jué)前沿與深度學(xué)習(xí)[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2015,4.
[3]R.Socher,C.C.Lin,A.Y.Ng,C.D Manning.Parsing Natural Scenes and Natural Language with Recursive Neural Networks.Proc.26th Int'l Conf.Machine Learning,2011.
Multiscale;Convolutional Networks;Scene Labeling;Deep Learning
Scene Labeling Based on Multiscale Convolutional Network
YIN Rui
(School of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044)
1007-1423(2016)06-0048-04
10.3969/j.issn.1007-1423.2016.06.011
尹蕊(1990-),女,河南鄭州人,碩士研究生,研究方向?yàn)樯疃葘W(xué)習(xí)
2015-12-17
2016-02-16
場(chǎng)景標(biāo)記是將圖片中的像素按照其所屬景物的種類來(lái)識(shí)別并進(jìn)行標(biāo)記。傳統(tǒng)學(xué)習(xí)算法將訓(xùn)練集圖片和某種學(xué)習(xí)機(jī)制相結(jié)合,利用后者的特點(diǎn)來(lái)提高訓(xùn)練正確率。提出一種基于多尺度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練已知圖像及其標(biāo)記的方法,用測(cè)試集圖片來(lái)驗(yàn)證其標(biāo)記正確率。通過(guò)在Ubuntu系統(tǒng)上搭建快速機(jī)器學(xué)習(xí)環(huán)境Torch7來(lái)實(shí)現(xiàn)圖片像素的場(chǎng)景標(biāo)記。
多尺度;卷積神經(jīng)網(wǎng)絡(luò);場(chǎng)景標(biāo)記;深度學(xué)習(xí)
Scene labeling is a method which we label each pixel in an image with the category of the object it belongs to.The traditional learning algorithms combine the family of images with some method which is used to improve accuracy of training.Presents a method that uses a multiscale convolution network trained from pixels with label known and gets verified by the test set of graph.The system is built on Ubuntu by Torch7 which is a kind of sharp environment for machine learning.