張曉明,尹鴻峰
(1. 北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044;2. 北京交通大學(xué)海濱學(xué)院 計(jì)算機(jī)科學(xué)系,河北 黃驊 061199)
作為機(jī)器視覺(jué)最常見(jiàn)的圖像識(shí)別任務(wù)之一,場(chǎng)景圖像的分類(lèi)旨在通過(guò)提取并分析圖像中的特征,將內(nèi)容相似的圖像歸為同一類(lèi)別。場(chǎng)景識(shí)別的意義,一方面是幫助計(jì)算機(jī)對(duì)畫(huà)面的場(chǎng)景有一個(gè)總體的認(rèn)識(shí),增加先驗(yàn)知識(shí),從而指導(dǎo)目標(biāo)檢測(cè)和識(shí)別[1];另一方面,目前更多應(yīng)用的是基于內(nèi)容的圖像索引和檢索[2],而互聯(lián)網(wǎng)上的媒體內(nèi)容每天都在快速不斷地大量增多,亟需高效的自動(dòng)方法來(lái)對(duì)這些內(nèi)容進(jìn)行存儲(chǔ)、分類(lèi)以及搜索。因此,場(chǎng)景分類(lèi)成為了對(duì)海量的視覺(jué)內(nèi)容進(jìn)行組織、選擇及索引的關(guān)鍵技術(shù)。
室內(nèi)場(chǎng)景通常具有復(fù)雜的結(jié)構(gòu)以及種類(lèi)繁多的人工制品,容易使得場(chǎng)景類(lèi)內(nèi)差異比較大而類(lèi)間相似性更高;此外,容易受到光照變化、視角變化和尺度變化以及遮擋問(wèn)題的影響。因此,有關(guān)室內(nèi)場(chǎng)景問(wèn)題的處理相對(duì)進(jìn)展較慢,且更具挑戰(zhàn)性。而語(yǔ)義信息在克服上述問(wèn)題方面具有很好的效果。實(shí)際上,場(chǎng)景與其中出現(xiàn)的目標(biāo),目標(biāo)與目標(biāo)共存等都不是互相獨(dú)立、毫無(wú)關(guān)聯(lián)的。因此語(yǔ)義理解是解決場(chǎng)景理解問(wèn)題的重要組成部分,能利用場(chǎng)景及目標(biāo)間的語(yǔ)義信息可以有效提高分類(lèi)效果。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)深度學(xué)習(xí)模型在計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛的應(yīng)用。其中 Lecun網(wǎng)絡(luò)[3]、Alex網(wǎng)絡(luò)[4]、Google網(wǎng)絡(luò)[5]、視覺(jué)幾何組網(wǎng)絡(luò)[6]、殘差網(wǎng)絡(luò)[7]是目前最知名的圖像分類(lèi)深度學(xué)習(xí)網(wǎng)絡(luò)模型。然而這些深度模型有些對(duì)場(chǎng)景分類(lèi)的效果并不好,尤其是復(fù)雜的室內(nèi)場(chǎng)景。構(gòu)建深度卷積網(wǎng)絡(luò)模型,為提高分類(lèi)效果通常做法是增加模型的深度或者寬度(層核或神經(jīng)元數(shù)),如AlexNet有5個(gè)卷積層,VGGNet增加到了16層,GoogLeNet繼續(xù)加深到21層,而ResNet則達(dá)到了151層且還在增加。除了增加計(jì)算成本之外,還需要海量訓(xùn)練數(shù)據(jù)。因此,如何在有限的數(shù)據(jù)集上,有效利用一定層數(shù)的卷積神經(jīng)網(wǎng)絡(luò)取得良好的場(chǎng)景分類(lèi)效果是本文的研究重點(diǎn)。
本文面向復(fù)雜的室內(nèi)場(chǎng)景,提出一種同時(shí)利用神經(jīng)網(wǎng)絡(luò)與語(yǔ)義信息來(lái)進(jìn)行場(chǎng)景分類(lèi)的方法,并在室內(nèi)場(chǎng)景數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對(duì)比,結(jié)果表明本文方法在訓(xùn)練數(shù)據(jù)集有限的情況下仍能取得很好的效果。
傳統(tǒng)場(chǎng)景分類(lèi)方法,如 SPM[8]考慮空間信息,將圖像分成若干塊(sub-regions),分別統(tǒng)計(jì)每一子塊的特征,最后將所有塊的特征拼接起來(lái),形成完整的特征來(lái)進(jìn)行場(chǎng)景分類(lèi)。該方法沒(méi)有考慮圖像中目標(biāo)的完整性,對(duì)旋轉(zhuǎn)等的魯棒性也不高,而且利用的是人工SIFT特征。
而隨著硬件水平的提高以及研究的深入,尤其從2012年AlexNet(Krizhevsky et al., 2012)贏得ILSVRC(ImageNet Large Scale Visual Recognition Challenge)比賽后,深度學(xué)習(xí)在計(jì)算機(jī)視覺(jué)領(lǐng)域展現(xiàn)出了巨大優(yōu)勢(shì),應(yīng)用也越來(lái)越廣泛,已經(jīng)成為計(jì)算機(jī)視覺(jué)的不二選擇。在之后的幾年中,VGGNet,GoogleNet,ResNet等一系列CNN網(wǎng)絡(luò)在圖像處理方面都取得了巨大成功。目前場(chǎng)景分類(lèi)中最成功的CNN網(wǎng)絡(luò)就是 Place-CNN[9],他是利用 Alexnet的結(jié)構(gòu),在由476個(gè)場(chǎng)景組成的共2500萬(wàn)張圖像上進(jìn)行訓(xùn)練得到的,取得了不錯(cuò)的分類(lèi)效果。而他們都需要大量的圖像作為基礎(chǔ),因?yàn)閳?chǎng)景分布樣式的千變?nèi)f化。
Place-CNN中也指出CNN在進(jìn)行場(chǎng)景分類(lèi)時(shí)導(dǎo)致效果差的一個(gè)重要原因就是相比于目標(biāo)圖像來(lái)說(shuō),以場(chǎng)景為中心的圖像更多樣化,這也就意味著需要更多的訓(xùn)練樣本,才能有更好的普適性。而一個(gè)場(chǎng)景中往往出現(xiàn)的目標(biāo)物體是固定的,多個(gè)目標(biāo)之間也會(huì)有固定的位置及依存關(guān)系。研究表明語(yǔ)義信息是解決計(jì)算機(jī)視覺(jué)問(wèn)題的重要線索之一[10,11]。在進(jìn)行場(chǎng)景分類(lèi)識(shí)別時(shí),利用場(chǎng)景和目標(biāo)間的關(guān)系可以有效克服上述問(wèn)題,避免場(chǎng)景多樣化,用更少的訓(xùn)練數(shù)據(jù)得到良好的實(shí)驗(yàn)效果[12-15]。Object Bank[16]是預(yù)先訓(xùn)練好大量的目標(biāo)檢測(cè)器,然后將圖像中檢測(cè)到的目標(biāo)作為特征來(lái)預(yù)測(cè)場(chǎng)景類(lèi)別。但是沒(méi)有明確的指出場(chǎng)景和他的目標(biāo)組成間的關(guān)系以及目標(biāo)間的幾何關(guān)系。SDPM[17]與之類(lèi)似,是利用DPM[18]獲取目標(biāo)信息進(jìn)行場(chǎng)景分類(lèi)。SS-CNN[19]結(jié)合深度信息,利用場(chǎng)景-目標(biāo)間的共存關(guān)系訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò),在SUN RGB-D數(shù)據(jù)集上取得了很好的效果。DeepContext[20]是利用3D語(yǔ)義信息,通過(guò)選定特定神經(jīng)元,然后定義這些神經(jīng)元之間的關(guān)系作為語(yǔ)義信息,訓(xùn)練 3D神經(jīng)網(wǎng)絡(luò),來(lái)進(jìn)行場(chǎng)景分類(lèi)。3D ConvNets也需要預(yù)先訓(xùn)練場(chǎng)景模版,方法取得了很好的效果,但是卻沒(méi)有利用圖像的顏色等2D信息。
因此,本文在利用卷積神經(jīng)網(wǎng)絡(luò)CNN利用顏色信息進(jìn)行場(chǎng)景分類(lèi)的基礎(chǔ)上,利用目標(biāo)與場(chǎng)景間的語(yǔ)義信息對(duì)分類(lèi)結(jié)果進(jìn)行修正。
以RGB三通道圖像作為輸入,本文分別用softmax和SVM作為分類(lèi)器來(lái)進(jìn)行了訓(xùn)練,以softmax為例,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
為了減少計(jì)算量,避免訓(xùn)練集少造成過(guò)擬合,本文并沒(méi)有用過(guò)深的網(wǎng)絡(luò),使用的是一個(gè)7層的卷積神經(jīng)網(wǎng)絡(luò),前4層是卷積層,后3層為全連接層,其中最后一層采用softmax進(jìn)行分類(lèi)。
激活函數(shù)采用激活函數(shù)ReLU(Rectified linear units),實(shí)現(xiàn)起來(lái)非常簡(jiǎn)單,加速了計(jì)算的過(guò)程;且可以加速收斂,解決了飽和問(wèn)題,大大地緩解了梯度消散的現(xiàn)象。
數(shù)據(jù)量比較小會(huì)導(dǎo)致模型過(guò)擬合,為防止模型過(guò)擬合,使得訓(xùn)練誤差很小而測(cè)試誤差特別大,我們通過(guò)對(duì)圖像進(jìn)行裁剪、翻轉(zhuǎn)變換組合數(shù)據(jù)增強(qiáng)來(lái)增加輸入數(shù)據(jù)的量;采用 Deopout[21]進(jìn)行正則化,即在訓(xùn)練期間,對(duì)全連接的神經(jīng)網(wǎng)絡(luò)進(jìn)行子采樣。
網(wǎng)絡(luò)會(huì)輸出一個(gè)場(chǎng)景分類(lèi)結(jié)果,但本文利用其各場(chǎng)景置信度,作為語(yǔ)義模型的輸入,對(duì)分類(lèi)結(jié)果重新進(jìn)行評(píng)估,整體過(guò)程如圖2所示。
圖1 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Examples of the network architecture
圖2 整體分類(lèi)流程Fig.2 Overview of the whole process
本文利用顏色特征與語(yǔ)義信息相結(jié)合進(jìn)行場(chǎng)景分類(lèi),共分兩個(gè)階段。整個(gè)系統(tǒng)分類(lèi)過(guò)程如圖2所示。首先利用卷積神經(jīng)網(wǎng)絡(luò)提取顏色特征對(duì)圖像進(jìn)行初始分類(lèi);然后,利用圖像語(yǔ)義信息,對(duì)分類(lèi)結(jié)果進(jìn)行修正。
第一階段:初始分類(lèi)階段。利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像分類(lèi),要先將圖像轉(zhuǎn)化為可用的lmdb數(shù)據(jù)格式,因?yàn)閿?shù)據(jù)有過(guò)大的均值可能導(dǎo)致參數(shù)的梯度過(guò)大,影響后續(xù)的處理,因此還要數(shù)據(jù)零均值化。零均值化并沒(méi)有消除像素之間的相對(duì)差異,人們對(duì)圖像信息的攝取通常來(lái)自于像素之間的相對(duì)色差,而不是像素值的高低。計(jì)算過(guò)程如公式(1)所示。
其中,i,jX 表示第i行j列的像素值,一列共有n個(gè)值,即每個(gè)像素值為該數(shù)據(jù)值減去該列均值。
這里,我們不直接用網(wǎng)絡(luò)分類(lèi)結(jié)果,而是取網(wǎng)絡(luò)中間結(jié)果各場(chǎng)景置信度作為第二階段輸入。同時(shí),圖像作為輸入使用經(jīng)典 DPM 算法進(jìn)行目標(biāo)檢測(cè)得到目標(biāo)檢測(cè)結(jié)果,同樣作為第二階段輸入。
第二階段:修正階段。我們定義場(chǎng)景與目標(biāo)間的關(guān)系如公式(2)所示。
其中,O代表目標(biāo)物體,OD代表檢測(cè)到的目標(biāo)集合,S表示場(chǎng)景類(lèi)別,()Ψ·表示場(chǎng)景類(lèi)型與目標(biāo)間的語(yǔ)義上下文特征,根據(jù)二者共存的可能性來(lái)定義。
1. for i = 1 to SNum //SNum是場(chǎng)景分類(lèi)的數(shù)目。2. for i = 1 to ONum //SNum是中目標(biāo)數(shù)目。3. CalculateCo-occurence();//計(jì)算每個(gè)目標(biāo)與場(chǎng)景間同時(shí)出現(xiàn)的幾率。4. SumOccurence(); //計(jì)算所有目標(biāo)出現(xiàn)在場(chǎng)景中的幾率作為場(chǎng)景置信度。5. CompareOccurence();//比較每個(gè)場(chǎng)景的置信度//返回一個(gè)場(chǎng)景分類(lèi)結(jié)果
上述算法描述了第二階段偽代碼。在完成 2.1所述卷積神經(jīng)網(wǎng)絡(luò)分類(lèi)獲得初始分類(lèi)結(jié)果,及目標(biāo)檢測(cè)過(guò)程后,利用場(chǎng)景-目標(biāo)間的語(yǔ)義關(guān)系對(duì)場(chǎng)景分類(lèi)結(jié)果進(jìn)行修正,得到最終場(chǎng)景分類(lèi)結(jié)果。
實(shí)驗(yàn)使用 caffe深度學(xué)習(xí)框架,cuda 8.0,在NVIDIA GTX1080 GPU及64G CPU上運(yùn)行。
為了測(cè)試本文方法的效果,我們?cè)赗GB數(shù)據(jù)集上做了大量實(shí)驗(yàn),評(píng)估其場(chǎng)景分類(lèi)效果。實(shí)驗(yàn)中我們采用文獻(xiàn)[22]中數(shù)據(jù)集,含963張圖片,包括臥室、餐廳、客廳三個(gè)場(chǎng)景各300多張。其中540張圖片作為訓(xùn)練樣本,用來(lái)訓(xùn)練網(wǎng)絡(luò)模型,423圖片用作測(cè)試,做了大量對(duì)比實(shí)驗(yàn)。
在實(shí)驗(yàn)過(guò)程中,由于數(shù)據(jù)集比較小,在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí)我們采用全數(shù)據(jù)集(Full Batch Learning)的形式,即batch_size在GPU內(nèi)存及計(jì)算能力允許的情況下盡可能設(shè)得大,因?yàn)?batch的選擇,首先決定的是下降的方向。而選擇全數(shù)據(jù)集,有以下幾點(diǎn)優(yōu)點(diǎn):首先,由全數(shù)據(jù)集確定的方向能夠更好地代表樣本總體,從而更準(zhǔn)確地朝向極值所在的方向,在一定范圍內(nèi),一般來(lái)說(shuō)Batch_Size越大,其確定的下降方向越準(zhǔn),引起訓(xùn)練震蕩越?。黄浯?,由于不同權(quán)重的梯度值差別巨大,因此選取一個(gè)全局的學(xué)習(xí)率很困難。并且,內(nèi)存利用率提高了,大矩陣乘法的并行化效率提高。跑完一次全數(shù)據(jù)集所需的迭代次數(shù)減少,對(duì)于相同數(shù)據(jù)量的處理速度進(jìn)一步加快。
Full Batch Learning 可以使用Rprop只基于梯度符號(hào)并且針對(duì)性單獨(dú)更新各權(quán)值。但是受到內(nèi)存限制,不能無(wú)限制增大,而且對(duì)于大的數(shù)據(jù)集也不可行,因?yàn)殡S著數(shù)據(jù)集的海量增長(zhǎng)和內(nèi)存的限制,一次性載入所有數(shù)據(jù)是不可能的。本文設(shè)置不同的batch_size進(jìn)行實(shí)驗(yàn),如圖 3所示,(a)(b)(c)分別為batch_size等于16,128,622時(shí),訓(xùn)練過(guò)程中損失值loss與準(zhǔn)確率accuracy隨迭代次數(shù)的變化。
由圖3可以看出,隨著batch_size的增大,收斂更快,loss下降更快,準(zhǔn)確率提高更快,且準(zhǔn)確率更高。其中,(a)在迭代2000次左右達(dá)到平穩(wěn),準(zhǔn)確率只有74%,而(c)在迭代不到1000次即達(dá)到平穩(wěn),準(zhǔn)確率可達(dá)80%,達(dá)到時(shí)間以及收斂精度上的最優(yōu)。
我們分別訓(xùn)練了 softmax,linear SVM和 RBF Kernel SVM作為分類(lèi)器。作為對(duì)比,我們用比較經(jīng)典的算法SPM,SDPM和Object bank進(jìn)行了實(shí)驗(yàn)。分別利用Alexnet和Place-CNN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行訓(xùn)練和測(cè)試(兩個(gè)網(wǎng)絡(luò)均為迭代 4萬(wàn)次所得模型),Alexnet和 3DGPs[23]作為評(píng)價(jià)基準(zhǔn),與我們的實(shí)驗(yàn)對(duì)比結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果表明本文方法在場(chǎng)景分類(lèi)效果上優(yōu)于現(xiàn)有的場(chǎng)景分類(lèi)算法。比較方法的簡(jiǎn)介如下:
Object Bank. 將目標(biāo)物體作為特征,它計(jì)算圖像對(duì)不同目標(biāo)特征的響應(yīng)值,然后訓(xùn)練SVM分類(lèi)器根據(jù)響應(yīng)值對(duì)場(chǎng)景類(lèi)型進(jìn)行分類(lèi)。我們總共考慮 6中典型目標(biāo)。
SPM. SPM 提取經(jīng)典的圖像場(chǎng)景描述符 SIFT(Scale Invariant Feature Transform)特征,訓(xùn)練線性SVM作為分類(lèi)器。
SDPM. 與Object Bank相類(lèi)似,SDPM使用基于部件的可變形模型(DPM)學(xué)習(xí)場(chǎng)景的結(jié)構(gòu)特征,并為每類(lèi)場(chǎng)景訓(xùn)練LSVM模型。
Alexnet. 作為Place-CNN和我們的網(wǎng)絡(luò)的結(jié)構(gòu)基礎(chǔ),Alexnet作為評(píng)價(jià)的標(biāo)準(zhǔn)。利用隨機(jī)初始化的權(quán)重,直接訓(xùn)練網(wǎng)絡(luò)的softmax作為分類(lèi)器。
Place-CNN. 與Alexnet一樣,我們使用隨機(jī)初始化權(quán)重的Place-CNN網(wǎng)絡(luò)結(jié)構(gòu)來(lái)進(jìn)行場(chǎng)景分類(lèi)。
3DGPs. 該方法研究3D幾何模型,用于獲取場(chǎng)景中一些常見(jiàn)的 3D空間配置,如經(jīng)常一起出現(xiàn)的對(duì)象以及它們間的位置關(guān)系。通過(guò)迭代訓(xùn)練得到10個(gè)3DGP模型訓(xùn)練線性SVM作為分類(lèi)器。
由表1可知,在訓(xùn)練數(shù)據(jù)少的情況下,深度神經(jīng)網(wǎng)絡(luò)的場(chǎng)景分類(lèi)效果并不是很好,甚至比不上傳統(tǒng)分類(lèi)方法。Alexnet和Place-CNN都是隨機(jī)初始化參數(shù),直接訓(xùn)練 softmax作為分類(lèi)器,而后者的分類(lèi)效果明顯不如前者。因?yàn)镻lace-CNN的網(wǎng)絡(luò)結(jié)構(gòu)更適合進(jìn)行特征提取,而不是直接用作分類(lèi),因此可以利用Place-CNN網(wǎng)絡(luò)結(jié)構(gòu)提取特征,訓(xùn)練SVM作為分類(lèi)器,分類(lèi)效果會(huì)更好。而本文方法實(shí)驗(yàn)效果明顯優(yōu)于其他方法,由于利用神經(jīng)網(wǎng)絡(luò)提取顏色特征結(jié)合語(yǔ)義特征,并且SVM適用于少樣本訓(xùn)練,本文中 SVM 作為分類(lèi)器比 softmax直接分類(lèi)效果好,其中以RBF Kernel SVM作為分類(lèi)器效果最好。
本文利用神經(jīng)網(wǎng)絡(luò)提取顏色特征,結(jié)合目標(biāo)與場(chǎng)景間的語(yǔ)義信息,在利用較少的樣本訓(xùn)練模型的基礎(chǔ)上,在場(chǎng)景分類(lèi)實(shí)驗(yàn)中取得了很好的效果。本文方法既可以減少搜集及標(biāo)記大量圖像樣本所需的人力、物力、財(cái)力,一定程度避免人工標(biāo)記的錯(cuò)誤,也可以避免過(guò)深的網(wǎng)絡(luò)所需的大量?jī)?nèi)存及計(jì)算問(wèn)題。但仍存在一些問(wèn)題,需要繼續(xù)研究。首先,需要訓(xùn)練更多場(chǎng)景模型,才能推廣到更多場(chǎng)景的分類(lèi)中。并且,可以通過(guò)利用場(chǎng)景幾何信息或者提高目標(biāo)檢測(cè)結(jié)果準(zhǔn)確度來(lái)提高結(jié)果準(zhǔn)確性。
圖3 batchsize分別為16,128,622時(shí)的loss-iter曲線以及accuracy-iter曲線Fig.3 Loss-iteration curves, accuracy-iteration curves and loss-second curves when batch size is 16, 128, 622
表1 場(chǎng)景分類(lèi)精確度Tab.1 Scene classification comparison
[1] TORRALBA A, MURPHY K P, FREEMAN W T, et al.Context-based vision system for place and object recognition[C].Computer Vision, Proceedings. Ninth IEEE International Conference on. IEEE, 2003: 273-280.
[2] VAILAYA A, FIGUEIREDO M A T, JAIN A K, et al. Image classification for content-based indexing[J]. Image Processing,IEEE Transactions on, 2001, 10(1): 117-130.
[3] LECUN Y, BOTTOU L, BENGIO Y, and HAFFNER P.Gradient-based learning applied to document recognition.Proceedings of the IEEE, 86(11): 2278–2324, 1998.
[4] KRIZHEVSKY A, SUTSKEVER I, and HINTON G E. Ima-genet classification with deep convolutional neural networks.In In Advances in Neural Information Processing Systems,2012.
[5] SZEGEDY C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A. Going deeper with convolutions. In IEEE, pages 1-9, 2015.
[6] SIMONYAN K and ZISSERMAN A. Very deep convolutional networks for large-scale image recognition. Preprint arXiv:1409. 1556, 2014.
[7] HE K, ZHANG X, REN S, SUN J. Deep Residual Learning for Image Recognition, 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), vol. 00, no., pp.770-778, 2016, doi:10.1109/CVPR.2016.90.
[8] LAZEBNIK S, SCHMID C, and PONCE J. Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In CVPR, 2006. 1, 2, 3, 6
[9] ZHOU B, LAPEDRIZA A, XIAO J, TORRALBA A, and OLIVA A. Learning deep features for scene recognition using places database, Advances in Neural Information Processing Systems, pp. 487–495, 2014.
[10] CHANG A X, FUNKHOUSER T, GUIBAS L, HANRAHAN P, HUANG Q, LI Z, SAVARESE S, SAVVA M, SONG S,SU H, XIAO J, YI L, and YU F. Shapenet: An information-rich 3d model repository. In arXiv, 2015. 5
[11] CHOI M J, LIM J J, TORRALBA A, and WILLSKY A S.Exploiting hierarchical context on a large database of object categories. In CVPR, 2010. 2
[12] YAO J, FIDLER S, and URTASUN R. Describing the scene as a whole: Joint object detection, scene classification and semantic segmentation, Computer Vision and Pattern Recognition(CVPR), 2012 IEEE Conference on, pp. 702–709, IEEE,2012.
[13] LIN D, FIDLER S, and URTASUN R. Holistic scene understanding for 3d object detection with rgbd cameras, Computer Vision (ICCV), 2013 IEEE International Conference on, pp.1417–1424, IEEE, 2013.
[14] LUO R, PIAO S, and MIN H. Simultaneous place and object recognition with mobile robot using pose encoded contextual information. Robotics and Automation (ICRA), 2011 IEEE International Conference on, pp. 2792–2797, IEEE, 2011.
[15] ROGERS J G, CHRISTENSEN H, et al. A conditional random field model for place and object classification.Robotics and Automation (ICRA), 2012 IEEE International Conference on, pp. 1766–1772, IEEE, 2012.
[16] LI L J, SU H, XING E P, and LI F F. Object bank: A high-level image representation for scene classification &semantic feature sparsification. In NIPS, December 2010. 2,6, 7
[17] PANDEY M, LAZEBNIK S. Scene recognition and weakly supervised object localization with deformable part-based models. Computer Vision, IEEE International Conference on,vol. 00, no., pp. 1307-1314, 2011, doi:10.1109/ICCV.2011.6126383.
[18] FELZENSZWALB P, GIRSHICK R, ALLESTER D M, and RAMANAN D. Object detection with discriminatively trained part based models. PAMI, 32(9), Sept. 2010. 1, 2, 3, 5,6, 7.
[19] LIAO Y, KODAGODA S, WANG Y, SHI L and LIU Y.Understand Scene Categories by Objects: {A} Semantic Regularized Scene Classifier Using Convolutional Neural Networks .arXiv preprint arXiv: 1509. 06470.
[20] ZHANG Y, BAI M, KOHLI P, IZADI S, XIAO J. DeepContext:Context-Encoding Neural Pathways for 3D Holistic Scene Understanding.In arXiv: 1603. 04922 [cs.CV].
[21] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, SUTSKEVER I and SALAKHUTDINOV R. Dropout: A Simple Way to Prevent Neural Networks from Overfitting. Journal of Machine Learning Research., pp. 1929-1958, 2014.
[22] CHOI W, CHAO Y, PANTOFARU C, SAVARESE S. Understanding indoor scenes using 3D geometric phrases. In CVPR(2013).
[23] CHOI W, et al. Indoor Scene Understanding with Geometric and Semantic Contexts. International Journal of Computer Vision112.2(2015):204-220.