亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)的室內(nèi)場景識別的研究

2018-07-06 08:51:34張明桂凱

現(xiàn)代計算機 2018年16期

張明，桂凱

（上海海事大學(xué)信息工程學(xué)院，上海 201306）

0 引言

深度學(xué)習(xí)最早由Hinton[1]等人在2006年提出。近年來深度學(xué)習(xí)的快速發(fā)展，在各行各業(yè)都有廣泛的應(yīng)用，例如人臉識別領(lǐng)域，無人駕駛領(lǐng)域等。室內(nèi)場景識別的難點在于場景圖像元素很多而且還很復(fù)雜，傳統(tǒng)的場景識別研究的比較多，然而利用深度學(xué)習(xí)來解決室內(nèi)場景識別的研究還很少。

目標(biāo)檢測是室內(nèi)場景識別的核心組成部分，在多年的發(fā)展過程中產(chǎn)生許多經(jīng)典算法。N.Dalai和B.Triggs提出梯度分布直方圖HOG[2]特征（Histogrames of Oriented Gradients）,使用SVM分類器用于行人的目標(biāo)檢測，該方法的優(yōu)點是提取的邊緣特征可以較好地展示局部特征信息，缺點是需要圖像中的人物保持直立狀態(tài)才有較好的識別效果。Felzenszwalb等人在HOG特征的基礎(chǔ)上提出多尺度形變模型（Deformable Parts Models,DPM）[3]。DPM檢測方法大體與HOG一致，通過使用SVM（Support Vector Machine）訓(xùn)練得到待測物的梯度模型（Model），簡單的說就是模型和目標(biāo)匹配進行檢測。DPM在模型上做了很多改進工作，DPM方法被認(rèn)為是目標(biāo)檢測與識別領(lǐng)域的重要里程碑。

特征提取是室內(nèi)場景識別中另一個重要部分，傳統(tǒng)的人工特征設(shè)計雖然能解決一些問題，但是泛化能力較弱，需要人工深度參與，并且需要人工擁有豐富的專業(yè)知識。相較而言，深度學(xué)習(xí)中特征學(xué)習(xí)不需要人工過多的參與其中，因此逐漸取代了人工設(shè)計特征。研究表明，使用深度學(xué)習(xí)技術(shù)對場景進行識別的準(zhǔn)確率要比傳統(tǒng)方法要高很多[4-5]。

由于傳統(tǒng)的室內(nèi)場景識別中需要大量的專業(yè)人員參與特征設(shè)計，時間長、工作量大。因此本文提出使用深度學(xué)習(xí)技術(shù)來解決特征設(shè)計的難題。具體來說就是先通過原圖得到高斯金字塔圖片集，然后采取優(yōu)化的區(qū)域選擇算法得到待測圖片的顯著區(qū)域，接著使用CNN網(wǎng)絡(luò)對顯著區(qū)域的圖像進行特征學(xué)習(xí)，最后根據(jù)多層感知機對特征進行場景類別判斷。相比傳統(tǒng)的室內(nèi)場景識別方法，本文方法優(yōu)勢主要體現(xiàn)在不需要人工過多的參與特征設(shè)計，利用神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)特征相比人工特征設(shè)計效果提升明顯。同時，使用多尺度提取特征比單一尺度的特征提取，特征信息更豐富，對場景識別準(zhǔn)確度的增加有明顯提升。室內(nèi)場景識別的流程圖如圖1所示。

圖1 室內(nèi)場景識別流程圖

1 顯著區(qū)域提取

顯著區(qū)域是圖像中最能表現(xiàn)圖像內(nèi)容的區(qū)域，對應(yīng)到室內(nèi)場景中就是指能夠代表場景內(nèi)容特征的區(qū)域。通過獲取圖像顯著區(qū)域的特征，可以增加場景識別的準(zhǔn)確度。

1.1 多尺度預(yù)處理

其中G(n+1)(i,j)表示新圖像，Gn表示原始圖像。W(m,n)=W（m）*W（n）是長度為5的高斯卷積和，新圖像Gn+1是通過對原圖像Gn進行偶數(shù)行采樣而得到。用MATLAB編程運行如圖2所示。

根據(jù)人眼視距的特點，景物尺寸的大小和其所在位置的距離都會影響到目標(biāo)物的判斷與識別。在卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)過程中，一般采用池化方法來解決由于景物尺寸大小帶來的影響，不過這樣就會使得卷積神經(jīng)網(wǎng)絡(luò)的規(guī)模變得非常大，影響網(wǎng)絡(luò)的性能，同時還會降低學(xué)習(xí)模型對目標(biāo)的定位與描述。

為了解決這個問題，本文提出利用高斯金字塔[6]對圖像進行預(yù)處理。高斯金字塔過程是對原圖像進行多尺度像素采樣，生成一系列不同分辨率的圖像。本文主要使用下采樣，通過對一張圖片選取高斯金字塔中三張圖片輸入到卷積神經(jīng)網(wǎng)絡(luò)中，由于圖像視野窗口一定，而每張圖片的像素點所包含的背景信息是不同的，可以得到更好的圖像表示效果。高斯金字塔的圖像可以采用如下公式來獲?。?/p>

圖2 高斯金字塔圖片

1.2 區(qū)域選擇

陳媛媛在文獻[7]中介紹了通過閾值法提取圖像顯著矩形區(qū)域的方法。具體做法是通過相關(guān)算法得到二值化的圖像。然后設(shè)定一個初始值為T的閾值，通過計算圖像中所有小于閾值T的像素平均值A(chǔ)1以及大于閾值T的像素平均值A(chǔ)2，新的閾值T'取A1和A2的和的均值，反復(fù)計算直道兩次閾值的差小于1，最后得到的閾值為最終閾值。對于大于閾值的點，用矩形框覆蓋，最后形成的矩形區(qū)域即為顯著區(qū)域。

受陳媛媛方法影響，本文中將待測場景圖像的每一個點進行判斷，分為顯著類或非顯著類。這個點可以是一個像素，一個區(qū)域，或一個目標(biāo)。通過該方法估算每個點的顯著度，顯著度指的是該點屬于顯著類的概率。在知道場景圖像的位置信息以及特征信息的前提下，顯著度檢測可以采用貝葉斯定理公式進行推導(dǎo)，本文在陳媛媛方法的基礎(chǔ)上做了改進，待測場景圖像中某一點的顯著度公式如下：

上式中變量Sx是二值變量，表示該點屬于顯著類還是非顯著類，變量F和變量L分別表示該點的特征信息與位置信息，fx和lx表示的是未知點x的特征信息和位置信息。因此，通過上式待測點x的顯著度SDx的概率可以用公式表示為p(Sx=1|F=fx,L=lx)。

因為特征圖表示的是圖像的不同特征，每個特征之間是相互獨立的，如果需要對不同的特征進行比較，需要將這些特征圖的取值設(shè)定標(biāo)準(zhǔn)，而且取值區(qū)間應(yīng)當(dāng)在相同的范圍內(nèi)，對特征圖進行標(biāo)準(zhǔn)化的操作如下：

（1）對于計算得到的圖像中的點的顯著度，需要轉(zhuǎn)化成一個取值區(qū)間[0，N];

（2）將待測圖劃分成一個個小的區(qū)域，然后將每一個小區(qū)域得到的顯著度最大值N以及周圍的局部最大值n找出來；

（3）對于待測圖中所有點，計算(N-n)2。

通過上述步驟，可以根據(jù)(N-n)2的取值變化對圖像中點的顯著度區(qū)域進行判斷。如果取值變化不大，則表示該幅圖中沒有很顯著的區(qū)域，因為跟周圍的點區(qū)別不明顯。如果取值變化很大，說明該幅圖確實有很明顯的顯著度區(qū)域。

2 特征學(xué)習(xí)

室內(nèi)場景識別研究中，傳統(tǒng)的人工特征設(shè)計都是基于特殊的場景進行。隨著深度學(xué)習(xí)的快速發(fā)展，可以采用深度學(xué)習(xí)技術(shù)對室內(nèi)場景識別進行研究。

卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)[1]（Convolutional Neural Networks，簡稱CNN）是一種多層神經(jīng)網(wǎng)絡(luò)，其隱藏層由卷積層和池化層以及全連接層組成。選用良好的卷積神經(jīng)網(wǎng)絡(luò)模型不僅可以取得較好的識別效果，同時可以提升識別效率，減少訓(xùn)練參數(shù)，加快訓(xùn)練時間等。LeNet-5是最經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò)，其結(jié)構(gòu)如圖3所示。

圖3 LeNet－5卷積神經(jīng)網(wǎng)絡(luò)

上圖中C1,C3,C5表示的是卷積層,S2,S4是池化層，F(xiàn)6是全連接層，最后一層是輸出層。卷積神經(jīng)網(wǎng)絡(luò)通過卷積核提取圖像的特征，每個卷積層中都有多個特征平面（Feature Map），同個特征平面的神經(jīng)元共享權(quán)值。對待測圖像進行卷積操作，利用局部感受野和共享參數(shù)等特性，使用池化層對圖像進行局部下采樣，可以有效減少處理的數(shù)據(jù)量，同時保留有效的數(shù)據(jù)信息。卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程以圖3為例，輸入的圖像大小為32×32，若卷積核大小為5×5，通過第一層卷積操作后，得到28×28的特征圖。然后進入第二層池化層，輸入是以卷基層的輸出為基礎(chǔ)，若池化采用2×2均值操作，則得到14×14的池化層數(shù)據(jù)。如此反復(fù)操作，最后通過損失函數(shù)計算誤差，通過誤差修正權(quán)值，從而達到訓(xùn)練目的。

3 室內(nèi)場景識別方法

利用深度學(xué)習(xí)解決室內(nèi)場景識別的研究主要從兩個方向入手，一個是場景圖像的顯著區(qū)域提取，一個是利用卷積神經(jīng)網(wǎng)絡(luò)進行特征學(xué)習(xí)。本文的研究方法也是從這兩方面展開。

3.1 多尺度顯著區(qū)域的提取

為了解決視距原因造成的目標(biāo)室內(nèi)場景識別準(zhǔn)確度的影響，本文提出多尺度顯著區(qū)域提取的方法來優(yōu)化該問題。具體做法如下，對于一幅室內(nèi)場景圖像A，將原圖標(biāo)記為（Q1=A），使用高斯金字塔對A預(yù)處理，提取兩張不同分辨率圖像，然后通過區(qū)域選擇方法提取兩張圖像的顯著度，標(biāo)記為Q2和Q3。通過Q1，Q2和Q3組成的多尺度顯著區(qū)域進行實驗，結(jié)果表明相比單一尺度的特征提取，多尺度的顯著區(qū)域特征提取可以更好地表示室內(nèi)場景信息，同時識別準(zhǔn)確率有明顯的提升。

3.2 顯著區(qū)域的特征學(xué)習(xí)

通過上述方法提取得到的顯著區(qū)域Q1、Q2和Q3，利用卷積神經(jīng)網(wǎng)絡(luò)對其進行前向傳導(dǎo)，提取對應(yīng)的特征U1，U2和U3。

上式中，W表示權(quán)重，b表示偏置。Q（k）表示輸入，g(G(k);(W,b))表示對輸入Q（k）進行前向傳導(dǎo)。通過卷積神經(jīng)網(wǎng)絡(luò)提取三個不同尺度下的顯著區(qū)域特征，本文采取加權(quán)平均的方式對獲取的特征進行融合，具體如下：

其中α+β+γ=1。

U表示融合后的顯著區(qū)域特征，為了充分提現(xiàn)多尺度下特征提取的互補性,取α=β=γ=1/3，由于多層感知器在圖像識別方面的廣泛應(yīng)用，預(yù)測場景類別時可以訓(xùn)練一個多層感知機（MLP），具體如下：

Z是MLP的輸出，即為針對場景類別的一個概率分布。MLP的損失函數(shù)定義為：

上式中，fj表示得分向量的第j個元素的得分，yi代表正確的類別。Softmax函數(shù)將一組向量的任意數(shù)值壓縮到0和1之間，使其和為上式即模型的優(yōu)化目標(biāo)函數(shù)，其中第二項為二次正則項。我們的目標(biāo)是通過訓(xùn)練，可以最小化損失。因此本文采用了Adam方法［8］對模型進行訓(xùn)練。Adam方法的優(yōu)化公式為：

上式中，L表示損失函數(shù)，下標(biāo)t代表迭代的次數(shù)，i代表訓(xùn)練樣本的標(biāo)號,W為權(quán)值，mt和vt是引入的力矩估計參數(shù)，α是學(xué)習(xí)率，β1和β2是自適應(yīng)參數(shù)。室內(nèi)場景的類別由多層感知機（MPL）中預(yù)測概率最大的那一類所確定。

4 實驗分析

實驗所用的卷積神經(jīng)網(wǎng)絡(luò)框架為Caff，該框架支持Python和MATLAB接口。實驗所需圖片數(shù)據(jù)庫選用的是MIT-67[9],該數(shù)據(jù)庫包含的室內(nèi)場景圖像比較豐富，在場景識別領(lǐng)域使用廣泛，部分場景圖片如圖4。為了驗證本文方法，做了如下說明。

（1）顯著區(qū)域的選擇，選擇了原圖Q1以及經(jīng)過高斯金字塔預(yù)處理得到的Q2和Q3。相比只選用原圖Q1，由Q1、Q2和Q3組成的多尺度顯著區(qū)域可以更準(zhǔn)確地表示場景信息。

（2）特征的提取，對三個不同尺度的顯著區(qū)域特征提取，輸入到卷積神經(jīng)網(wǎng)絡(luò)的圖像大小均為32×32。同時將學(xué)習(xí)速率α和權(quán)值λ的值分別設(shè)置為1×10-5和5×10-4。對于α的取值，試驗結(jié)果表明1×10-5是理想的學(xué)習(xí)速率。而λ則是基于經(jīng)驗值，并未進行特別的調(diào)試。

實驗結(jié)果

本文所選取的MIT-67數(shù)據(jù)庫包含了67個室內(nèi)類別圖像，共15620張圖像。每種類別的圖像數(shù)量上有差異，但是都不少于100張圖像，所有的圖像都是JPG格式。為了方便研究，本文選擇的圖像都是常見的如臥室、廚房等室內(nèi)場景。每種場景圖片各選擇30張，共180張圖片。選擇30張圖像進行室內(nèi)場景識別模型測試，剩下150張進行場景識別模型的訓(xùn)練。表1展示的是預(yù)測準(zhǔn)確度。

從圖表可以看出，辦公室和臥室的識別準(zhǔn)確率最高，達到75%以上，原因可能是它們的室內(nèi)特征相對單一明顯。而客廳和廚房的準(zhǔn)確率在60%-70%之間，要低于臥室和辦公室，分析原因可能是顯著度提取不夠明顯，導(dǎo)致特征學(xué)習(xí)出現(xiàn)偏差?？傮w而言，本文使用的基于深度學(xué)習(xí)的室內(nèi)場景識別方法是有效的。

其次，與傳統(tǒng)單一人工特征設(shè)計的場景識別的準(zhǔn)確率的對比，將待測圖片放入訓(xùn)練好的室內(nèi)場景識別模型中進行測試，其中HOG，LBP，GIST[10]是傳統(tǒng)的單一的人工特征設(shè)計在場景識別中的準(zhǔn)確率。Q1-Q3是指多尺度下特征融合后的場景識別準(zhǔn)確率。測試結(jié)果如圖5所示。

從圖5可以看出，Q1-Q3的識別準(zhǔn)去率在50%左右，相比單一尺度的特征學(xué)習(xí)的準(zhǔn)確度提升5%，即表中Q1、Q2、Q3所示。同時相比傳統(tǒng)的人工特征設(shè)計的場景識別算法優(yōu)勢明顯。從而可以得出本文提出的方法在室內(nèi)場景識別的研究中是有效的，也說明未來使用深度學(xué)習(xí)技術(shù)進行場景識別將會成為主流的研究方向。

5 結(jié)語

室內(nèi)場景識別由于室內(nèi)環(huán)境的復(fù)雜性，一直是研究的熱點與難點，隨著深度學(xué)習(xí)的發(fā)展，采用不同的學(xué)習(xí)模型取得的效果也是不一樣的。通過選擇更好的學(xué)習(xí)模型，同時在優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)方面進行深入研究，可以進一步改善實驗的結(jié)果。

[1]HINTONGE，OSINDEROS，TEHYW.A Fast Learning Algorithm for Deep Belief Nets[J].Neural Computation,2006,18（7）:1527-1554.

[2]Dalal N,Triggs B.Histograms of Oriented Gradients for Human Detection[C].In 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition（CVPR'05）2005 jun 25（Vol.1,pp.886-893）.

[3]Felzenszwalb PF,Girshick R B,McAllester D,et al.Object Detection with Discriminatively Trained Part-Based Models[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2010,32（9）:1627-1645

[4]KRIZHEVSKY A,SUTSKEVER I,HINTON G E.ImageNet Classification with Deep Convolutional Neural Networks[C].Lake Tahoe,USA:MIT Press,2012:1106-1114.

[5]SZEGEDY C,LIU W,JIA Y,et al.Going Deeper with Convolutions[C].Boston,USA:IEEE,2015:1-9.

[6]劉晨羽,蔣云飛,李學(xué)明.基于卷積神經(jīng)網(wǎng)的單幅圖像超分辨率重建算法[J].計算機輔助設(shè)計與圖形學(xué)學(xué)報,2017（09）.

[7]陳媛媛.圖像顯著區(qū)域提取及其在圖像檢索中的應(yīng)用[D].上海交通大學(xué)，2006

[8]D.kingma,J.Ba.Adam.A Method for Stochastic Optimization[C].International Conference for Learning Representations,2015.

[9]QUATTONI A,TORRALBA.A Recognizing Indoor Scenes[C].Miami,USA:IEEE,2009:413-420.

[10]ZUO Z,WANG G,SHUAI B,et al.Learning Discriminative and Shareable Features for Scene Classification[C].ECCV.Zurich,Switzerland:Springer,2014:552-568.