饒佳莉 繆 君
(1、航空工業(yè)江西洪都航空工業(yè)集團(tuán)有限責(zé)任公司,江西 南昌330000 2、南昌航空大學(xué),江西 南昌330063)
基于圖像的房間布局估計(jì)是計(jì)算機(jī)視覺(jué)研究領(lǐng)域的基本問(wèn)題之一,其在室內(nèi)導(dǎo)航,場(chǎng)景重建/渲染和增強(qiáng)現(xiàn)實(shí)等方面有廣泛的用處[1-2]。
單幅圖像估計(jì)房間布局的目標(biāo)是描繪室內(nèi)場(chǎng)景的2D 矩形表示。傳統(tǒng)的布局估計(jì)算法主要利用圖像紋理或邊緣等信息進(jìn)行滅點(diǎn)檢測(cè),并使用結(jié)構(gòu)化的支持向量機(jī)或條件隨機(jī)場(chǎng)等算法生成房間的布局估計(jì)。近年來(lái),隨著用于語(yǔ)義分割的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的快速發(fā)展[3-4],研究人員開(kāi)始使用CNN 進(jìn)行房間布局估計(jì)。Mallyal 等[5]首先訓(xùn)練一個(gè)全卷積網(wǎng)絡(luò)(FCN)模型,產(chǎn)生信息性邊緣圖取代手工設(shè)計(jì)的低級(jí)圖像特征提取。然后將預(yù)測(cè)的邊緣圖用于對(duì)消失線進(jìn)行采樣,以進(jìn)行布局假設(shè)的生成和排名。Dasgupta 等[6]使用FCN 學(xué)習(xí)語(yǔ)義表面標(biāo)簽,例如左墻、前墻、右墻、天花板和地面。然后,使用連接的組件和孔填充技術(shù)來(lái)完善FCN 的每像素原始預(yù)測(cè),然后使用經(jīng)典的消失點(diǎn)/線采樣方法來(lái)生成房間布局。但是,盡管結(jié)果有所改善,但這些方法仍使用CNN 來(lái)生成一組新的“低級(jí)”功能,并且未能充分利用CNN 的端到端學(xué)習(xí)能力。
本文的框架是一個(gè)CNN 網(wǎng)絡(luò),如圖1 所示,它使用2D 關(guān)鍵點(diǎn)來(lái)描繪房間布局結(jié)構(gòu)。網(wǎng)絡(luò)的輸入是單張RGB 圖像,輸出是一組特定順序的2D 關(guān)鍵點(diǎn),并帶有關(guān)聯(lián)的房間類型。關(guān)鍵點(diǎn)估計(jì)的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)源于語(yǔ)義分割算法。該網(wǎng)絡(luò)對(duì)Badrinarayanan 等人提出的SegNet 架構(gòu)進(jìn)行了修改。SegNet 框架由編碼器和解碼器子網(wǎng)組成。編碼器將輸入圖像映射到較低分辨率的特征圖,然后解碼器的作用是將低分辨率編碼的特征圖上采樣為完整圖像。
為了將這種方法推廣到多種房間類型,一些研究者使用單圖像3D 解釋器網(wǎng)絡(luò),為每個(gè)布局類別訓(xùn)練一個(gè)網(wǎng)絡(luò)。但是,為了最大化效率,我們可以增加輸出層中的通道數(shù),以匹配所有11 種房間類型的總共48 個(gè)關(guān)鍵點(diǎn),如圖2 所示。并且還添加了一個(gè)專門的層,該層連接圖像分類層,以進(jìn)行房間類型預(yù)測(cè)。
訓(xùn)練示例表示為(I,y,t),其中y 代表輸入圖像I 的房間類型為t 的k 個(gè)關(guān)鍵點(diǎn)的真實(shí)坐標(biāo)。在訓(xùn)練階段,歐式損失被作為代價(jià)函數(shù)布局關(guān)鍵點(diǎn)熱圖回歸,并將交叉熵?fù)p失用于房間類型預(yù)測(cè)。給定關(guān)鍵點(diǎn)熱圖回歸器φ(從解碼器子網(wǎng)輸出)和房間類型分類器ψ(從全連接層輸出),式(1)表示了損失函數(shù):
損失函數(shù)中的第一項(xiàng)將預(yù)測(cè)的熱圖與針對(duì)每個(gè)關(guān)鍵點(diǎn)分別綜合的真實(shí)熱圖進(jìn)行比較。每個(gè)關(guān)鍵點(diǎn)熱圖的Ground Truth是一個(gè)以真實(shí)關(guān)鍵點(diǎn)位置為中心的2D 高斯,標(biāo)準(zhǔn)偏差為5 個(gè)像素。損失函數(shù)中的第二項(xiàng)是全連接層相對(duì)于正確的房間類型類別標(biāo)簽產(chǎn)生高置信度值。
本文的算法在Hedau[7]數(shù)據(jù)集和LSUN 房間布局?jǐn)?shù)據(jù)集[8]上進(jìn)行了測(cè)試。網(wǎng)絡(luò)輸入為分辨率為320×320 的RGB 圖像,輸出為分辨率為40×40 的房間布局重點(diǎn)熱圖,并帶有相應(yīng)的房間類型類標(biāo)簽。我們使用通過(guò)時(shí)間的反向傳播(BPTT)算法訓(xùn)練批大小為20 隨機(jī)最速下降次數(shù)、回合率(dropout)為0.5、動(dòng)量為0.9、權(quán)重衰減為0.0005 的模型。初始學(xué)習(xí)率為0.00001,在周期(epoch)150 和200 時(shí)分別降低5 倍。所有變量都使用相同的方案,總共有225 個(gè)批次(epoch)。每個(gè)卷積層之后使用批處理歸一化和ReLU 激活函數(shù)來(lái)改進(jìn)訓(xùn)練過(guò)程。(圖3)
圖1 網(wǎng)絡(luò)結(jié)構(gòu)
圖2 布局類型1-11
圖3 布局估計(jì)實(shí)驗(yàn)結(jié)果
本文展示了一種簡(jiǎn)單直接的方法,將房間布局估算作為關(guān)鍵點(diǎn)本地化問(wèn)題。該網(wǎng)絡(luò)架構(gòu)及其擴(kuò)展可以進(jìn)行端到端的訓(xùn)練,以執(zhí)行準(zhǔn)確而有效的房間布局估算。所提出的方法在大量工作中表現(xiàn)良好,它們使用了幾何啟發(fā)的多步處理管道。將來(lái)希望采用門控機(jī)制以允許傳入信號(hào)改變循環(huán)單元的狀態(tài),并將網(wǎng)絡(luò)擴(kuò)展為用于構(gòu)建房間布局圖的順序數(shù)據(jù)。