室內(nèi)場(chǎng)景生成算法綜述

2022-06-01 02:31:34陳寶權(quán)

集成技術(shù) 2022年1期

楊淼陳寶權(quán)

1(山東大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院青島 266237)

2(北京大學(xué)前沿計(jì)算研究中心北京 100871)

1 引言

近年來(lái)，虛擬室內(nèi)場(chǎng)景被廣泛應(yīng)用于虛擬現(xiàn)實(shí)、增強(qiáng)現(xiàn)實(shí)、開(kāi)放式游戲以及機(jī)器人領(lǐng)域，然而，室內(nèi)場(chǎng)景的設(shè)計(jì)需要耗費(fèi)大量時(shí)間且室內(nèi)場(chǎng)景建模也需要復(fù)雜的場(chǎng)景設(shè)計(jì)工具。因此，自動(dòng)化室內(nèi)場(chǎng)景生成任務(wù)成為了研究人員關(guān)注的熱點(diǎn)，并得到了快速發(fā)展。

室內(nèi)場(chǎng)景生成任務(wù)，其目的就是將家具擺放在具有固定大小、結(jié)構(gòu)的三維空間中，并滿足現(xiàn)實(shí)室內(nèi)場(chǎng)景中的功能約束及物理約束。其中，家具在三維空間中的屬性信息可由位置、朝向、類別來(lái)描述。室內(nèi)場(chǎng)景生成的本質(zhì)是確定擺放的家具類別以及家具排列在三維空間中的方式。與室內(nèi)場(chǎng)景生成任務(wù)類似，三維模型生成過(guò)程是確定模型部件的排列方式[1-4]，戶型圖生成則是將房間進(jìn)行排列[5-7]，所以戶型圖、三維模型以及室內(nèi)場(chǎng)景生成任務(wù)的解決方案可以互相借鑒或組合使用。三維模型由于其固定的功能特性，使得模型部件之間具有相對(duì)固定的布局規(guī)律，不具有太多的變化。與三維模型生成相比，室內(nèi)場(chǎng)景生成有以下 3 個(gè)難點(diǎn)：

(1)室內(nèi)場(chǎng)景中家具的擺放方式有很大的自由度，同樣的家具可能有多種合理的布局，所以家具之間的關(guān)系相對(duì)更加復(fù)雜。

(2)三維模型有固定的計(jì)算機(jī)可以理解的表達(dá)方式，如點(diǎn)云、體素、網(wǎng)格等。如何將室內(nèi)場(chǎng)景抽象為計(jì)算機(jī)可以理解的場(chǎng)景表達(dá)方式是一項(xiàng)挑戰(zhàn)。

(3)室內(nèi)場(chǎng)景生成還需要考慮更多特殊的約束，如過(guò)道連通性、視野開(kāi)闊性等。

主流的室內(nèi)場(chǎng)景生成算法，使用物體之間的上下文關(guān)系對(duì)場(chǎng)景布局進(jìn)行結(jié)構(gòu)化，少量基于人類活動(dòng)與物體上下文關(guān)系來(lái)表達(dá)場(chǎng)景布局的室內(nèi)場(chǎng)景生成算法組成了新的分支。無(wú)參考信息的室內(nèi)場(chǎng)景生成任務(wù)是非常具有挑戰(zhàn)性的，由此，出現(xiàn)了一系列基于樣例的場(chǎng)景生成算法。本文從上述 3 個(gè)難點(diǎn)出發(fā)，將場(chǎng)景生成任務(wù)按照無(wú)樣例的基于物體關(guān)系的生成方式、無(wú)樣例的基于人類活動(dòng)的生成方式以及基于樣例和物體關(guān)系的生成方式 3 個(gè)分支，對(duì)場(chǎng)景生成算法進(jìn)行描述和分析。圖 1 展示了整個(gè)場(chǎng)景生成過(guò)程中所涉及的算法框架，其中，室內(nèi)場(chǎng)景效果圖來(lái)自 3D-FRONT 數(shù)據(jù)集[8]。

圖1 場(chǎng)景生成算法框架Fig. 1 The framework of scene generation algorithms

2 室內(nèi)場(chǎng)景數(shù)據(jù)集

基于室內(nèi)場(chǎng)景圖像的圖像檢測(cè)、圖像分割、本征分解等計(jì)算機(jī)視覺(jué)相關(guān)的任務(wù)已經(jīng)得到了深入研究，這些研究致力于使計(jì)算機(jī)能夠像人類一樣更好地理解室內(nèi)場(chǎng)景。然而，在視覺(jué)領(lǐng)域中對(duì)應(yīng)不同任務(wù)的標(biāo)注數(shù)據(jù)是非常難獲得的，因此，該領(lǐng)域迫切需要天然帶有標(biāo)注的室內(nèi)場(chǎng)景數(shù)據(jù)集來(lái)模擬真實(shí)室內(nèi)場(chǎng)景，從而減輕標(biāo)注數(shù)據(jù)的負(fù)擔(dān)。

最早出現(xiàn)的室內(nèi)場(chǎng)景數(shù)據(jù)集是由 Handa 等[9]提出的 SceneNet 數(shù)據(jù)集，該數(shù)據(jù)集僅提供少量帶有三維模型的室內(nèi)場(chǎng)景。Song 等[10]提出了被廣泛使用的大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集 SUNCG，然而，該室內(nèi)場(chǎng)景是由業(yè)余設(shè)計(jì)師設(shè)計(jì)的，所以與真實(shí)場(chǎng)景存在一定的差距。與三維模型組合而來(lái)的合成室內(nèi)場(chǎng)景數(shù)據(jù)集[9-10]不同，Dai 等[11]提出了一個(gè)基于真實(shí)場(chǎng)景掃描且包含豐富注釋的RGB-D 掃描圖像數(shù)據(jù)集 ScanNet。Li 等[12]提出的 InteriorNet 數(shù)據(jù)集使用了更多高質(zhì)量的計(jì)算機(jī)輔助設(shè)計(jì)(Computer Aided Design，CAD)模型，并請(qǐng)專業(yè)設(shè)計(jì)師據(jù)此設(shè)計(jì)了近 2 000 萬(wàn)個(gè)室內(nèi)場(chǎng)景，同時(shí)渲染出了更接近照片效果的室內(nèi)場(chǎng)景圖像，只是其并不公開(kāi)對(duì)應(yīng)的三維模型，僅提供圖像供研究使用。不同于前述的數(shù)據(jù)集(都不包含對(duì)室內(nèi)場(chǎng)景結(jié)構(gòu)的真實(shí)標(biāo)注)，Mo 等[13]提出的 StructureNet 數(shù)據(jù)集提供了由專業(yè)設(shè)計(jì)師設(shè)計(jì)的帶有場(chǎng)景結(jié)構(gòu)信息標(biāo)注的室內(nèi)場(chǎng)景，可以為諸如房間結(jié)構(gòu)預(yù)測(cè)等任務(wù)提供更可靠的標(biāo)注數(shù)據(jù)。之后，F(xiàn)u 等[8]提供了 3D-FRONT 室內(nèi)場(chǎng)景數(shù)據(jù)集，該數(shù)據(jù)集是由家裝領(lǐng)域用戶使用的真實(shí)室內(nèi)場(chǎng)景數(shù)據(jù)構(gòu)成的，其中有將近一半的房間場(chǎng)景被設(shè)計(jì)師認(rèn)作具有一定設(shè)計(jì)理念的高質(zhì)量場(chǎng)景。由 Roberts 等[14]提出的 Hypersim 數(shù)據(jù)集在提供三維模型的同時(shí)，也提供了帶有實(shí)例和語(yǔ)義分割標(biāo)注的渲染圖像，以及圖像解耦之后的表示圖像，是目前標(biāo)注信息最完善的室內(nèi)場(chǎng)景數(shù)據(jù)集。

3 室內(nèi)場(chǎng)景生成算法的分類

室內(nèi)場(chǎng)景生成算法發(fā)展至今已有許多出色的研究成果。本文從已有算法中，抽象出了 5 個(gè)分類標(biāo)準(zhǔn)，并從不同角度對(duì)現(xiàn)有的算法進(jìn)行歸納總結(jié)，分析比較現(xiàn)有算法的優(yōu)劣，用于幫助讀者更好地理解室內(nèi)場(chǎng)景生成算法的發(fā)展現(xiàn)狀，具體如表 1 室內(nèi)場(chǎng)景生成算法分類所示。

表1 室內(nèi)場(chǎng)景生成算法分類Table 1 The classification of scene generation algorithms

3.1 基于場(chǎng)景輸入的分類

根據(jù)場(chǎng)景輸入是否存在參考樣例，可以將室內(nèi)場(chǎng)景生成算法分為無(wú)樣例的場(chǎng)景生成算法和基于樣例的場(chǎng)景生成算法。無(wú)樣例的場(chǎng)景生成算法往往是從大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集中總結(jié)規(guī)則[15]、抽象能量函數(shù)[16-17]，或者將布局規(guī)律融入概率統(tǒng)計(jì)[18-19]、深度學(xué)習(xí)先驗(yàn)[20-22]，進(jìn)而從無(wú)到有地生成合理的室內(nèi)場(chǎng)景。基于樣例的場(chǎng)景生成算法有文本[23]、草圖[24]、圖像[25]、三維信息[26]等輸入形式，要求場(chǎng)景的生成結(jié)果與輸入一定程度上匹配，屬于有條件的場(chǎng)景生成任務(wù)。

在場(chǎng)景生成的實(shí)際應(yīng)用中，往往需要加入用戶的喜好，所以基于樣例的生成算法能夠更好地與人交互，更具有應(yīng)用前景。但是，在需要大量多樣的虛擬室內(nèi)場(chǎng)景時(shí)，無(wú)樣例的場(chǎng)景生成算法更具優(yōu)勢(shì)。

3.2 基于場(chǎng)景上下文關(guān)系的分類

根據(jù)場(chǎng)景上下文信息建模的方式不同，可將室內(nèi)場(chǎng)景生成算法分為基于物體與物體之間的關(guān)系[17,21]和基于人類與物體之間的關(guān)系。大多數(shù)室內(nèi)場(chǎng)景生成算法考慮的都是物體與物體之間的關(guān)系，這種關(guān)系可用來(lái)確定家具擺放的空間位置關(guān)系和判斷家具類別的共現(xiàn)關(guān)系，還有少部分采用隱式的方式學(xué)習(xí)場(chǎng)景布局的上下文信息，如采用神經(jīng)網(wǎng)絡(luò)的注意力機(jī)制或利用 CNN、DNN 網(wǎng)絡(luò)參數(shù)自動(dòng)學(xué)習(xí)。考慮到物體的擺放與人類的活動(dòng)息息相關(guān)，近年來(lái)出現(xiàn)了基于人類與物體之間的關(guān)系進(jìn)行建模的算法，其主要包含人體姿態(tài)-物體[27]、人體動(dòng)作-物體[19,26]以及人體部位-物體[28]3 種形式。

設(shè)計(jì)師在利用計(jì)算機(jī)軟件進(jìn)行室內(nèi)場(chǎng)景設(shè)計(jì)的過(guò)程中，未將人可能在的區(qū)域或動(dòng)作輸入計(jì)算機(jī)中，所以缺少包含人類行為的虛擬室內(nèi)場(chǎng)景數(shù)據(jù)集。另外，在不考慮復(fù)雜度的情況下，基于物體與物體之間的關(guān)系建模是最易實(shí)現(xiàn)的，未來(lái)的算法會(huì)更加傾向于基于這種關(guān)系的建模方式。然而，現(xiàn)有的算法仍避免不了人為定義如支撐、環(huán)繞等物體與物體之間的關(guān)系，采用注意力機(jī)制學(xué)習(xí)物體與物體之間的關(guān)系能更好地解決該問(wèn)題。

3.3 基于場(chǎng)景表達(dá)方式的分類

室內(nèi)場(chǎng)景生成算法根據(jù)其表達(dá)方式的不同主要分為圖結(jié)構(gòu)[29]、層次結(jié)構(gòu)[21]、圖像結(jié)構(gòu)[20]和矩陣結(jié)構(gòu)[22]。圖結(jié)構(gòu)是由節(jié)點(diǎn)集合和邊集合構(gòu)成的，其優(yōu)點(diǎn)是靈活直觀，可以在任意兩個(gè)對(duì)象之間添加聯(lián)系，所以大部分算法都采用圖結(jié)構(gòu)的方式進(jìn)行表達(dá)。層次結(jié)構(gòu)是由一組具有父子關(guān)系的節(jié)點(diǎn)組成，每一個(gè)子節(jié)點(diǎn)都只有一個(gè)父節(jié)點(diǎn)。一般將整個(gè)場(chǎng)景作為根節(jié)點(diǎn)，家具或家具部件作為葉子節(jié)點(diǎn)，節(jié)點(diǎn)之間存在指向性關(guān)系。按照層次遞進(jìn)的方式生成室內(nèi)場(chǎng)景比較符合設(shè)計(jì)師設(shè)計(jì)場(chǎng)景時(shí)的設(shè)計(jì)思路?？紤]到家具一般排列在二維空間中，有研究人員采用俯視圖的方式來(lái)表達(dá)場(chǎng)景，圖像結(jié)構(gòu)的表達(dá)方式可以更加直觀地將家具之間的位置關(guān)系體現(xiàn)到坐標(biāo)上?；诰仃嚨谋磉_(dá)方式，首先將每個(gè)家具節(jié)點(diǎn)的屬性用向量來(lái)表示，然后將所有家具的向量整合為一個(gè)可以代表整個(gè)場(chǎng)景布局信息的矩陣，矩陣的表達(dá)形式最為簡(jiǎn)單，不需要定義物體之間的上下文關(guān)系，但是在生成過(guò)程中同樣無(wú)法體現(xiàn)家具之間的關(guān)系，可解釋性不強(qiáng)。

目前，深度學(xué)習(xí)是主要的場(chǎng)景生成算法，而圖卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)使得圖結(jié)構(gòu)表示的場(chǎng)景也能利用深度學(xué)習(xí)的優(yōu)勢(shì)，自動(dòng)學(xué)習(xí)場(chǎng)景布局規(guī)律。同時(shí)，圖結(jié)構(gòu)本身能靈活增加、刪除節(jié)點(diǎn)的優(yōu)勢(shì)也能使深度學(xué)習(xí)算法更好地與人交互。所以利用圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行深度學(xué)習(xí)的圖結(jié)構(gòu)表達(dá)場(chǎng)景會(huì)更具優(yōu)勢(shì)。

3.4 基于場(chǎng)景生成方式的分類

根據(jù)場(chǎng)景生成方式的不同，可將室內(nèi)場(chǎng)景生成算法主要分為傳統(tǒng)算法和深度學(xué)習(xí)算法。在深度學(xué)習(xí)算法出現(xiàn)以前，為了確定布局參數(shù)，傳統(tǒng)方法采用基于規(guī)則[15]、優(yōu)化[16-17]以及概率統(tǒng)計(jì)[18-19]的傳統(tǒng)方式對(duì)場(chǎng)景的布局規(guī)律進(jìn)行建模。在大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集出現(xiàn)以后，深度學(xué)習(xí)算法由于其強(qiáng)大的特征學(xué)習(xí)和提取能力成為室內(nèi)場(chǎng)景布局算法的主要手段。傳統(tǒng)算法需要耗費(fèi)大量的人工成本對(duì)室內(nèi)場(chǎng)景布局規(guī)律進(jìn)行抽象，并且在生成過(guò)程中耗時(shí)相對(duì)較長(zhǎng)。而深度學(xué)習(xí)算法則通過(guò)端到端的生成神經(jīng)網(wǎng)絡(luò)[20-22,29]，可以自動(dòng)學(xué)習(xí)布局規(guī)律并且快速生成布局，成為目前主流的場(chǎng)景生成算法。

3.5 基于家具擺放順序的分類

根據(jù)場(chǎng)景中家具擺放的順序，可以將室內(nèi)場(chǎng)景生成算法分為順次迭代[15,21]和同步生成[29-30]兩種方式。順次迭代的缺點(diǎn)是后序擺放的物體由于順序性無(wú)法對(duì)前序擺放的物體產(chǎn)生影響，而前序擺放的物體也無(wú)法預(yù)測(cè)后續(xù)擺放的物體類別，但其優(yōu)點(diǎn)是如果發(fā)現(xiàn)放不下的物體可以舍棄，所以只要算法正確就一定能夠生成合理的場(chǎng)景。同步生成的優(yōu)點(diǎn)是所有家具在擺放時(shí)都可以考慮其他所有家具的擺放，缺點(diǎn)是擺放的過(guò)程中不能舍棄家具，可能會(huì)有不合理的場(chǎng)景出現(xiàn)。

4 室內(nèi)場(chǎng)景生成算法

室內(nèi)場(chǎng)景布局生成的目標(biāo)是確定家具的大小、類別及擺放在三維空間中的位置和朝向。目前，主流的場(chǎng)景生成算法是在無(wú)樣例約束的條件下，基于物體關(guān)系對(duì)場(chǎng)景建模后進(jìn)行生成。本節(jié)對(duì)無(wú)樣例的基于物體關(guān)系的場(chǎng)景生成算法，按照傳統(tǒng)算法和深度學(xué)習(xí)算法兩大類進(jìn)行梳理，并概述了場(chǎng)景表達(dá)方式和場(chǎng)景生成順序。在上述主流算法的基礎(chǔ)上，還衍生出了基于人類活動(dòng)的無(wú)樣例場(chǎng)景建模的場(chǎng)景生成方式，以及基于物體關(guān)系和樣例的場(chǎng)景生成方式。

本節(jié)按照無(wú)樣例的基于物體關(guān)系的場(chǎng)景生成算法、無(wú)樣例的基于人類活動(dòng)的場(chǎng)景生成算法以及基于樣例和物體關(guān)系的場(chǎng)景生成算法 3 大類對(duì)場(chǎng)景生成算法進(jìn)行具體地梳理和分析，用于幫助讀者更好地了解場(chǎng)景生成算法的發(fā)展趨勢(shì)。

4.1 無(wú)樣例的基于物體關(guān)系的場(chǎng)景生成算法

4.1.1 傳統(tǒng)生成方法

早期用于研究自動(dòng)室內(nèi)場(chǎng)景生成的傳統(tǒng)方法主要分為 3 種：基于規(guī)則的場(chǎng)景生成、基于能量?jī)?yōu)化的場(chǎng)景生成以及基于概率統(tǒng)計(jì)的場(chǎng)景生成。傳統(tǒng)方法需要充分發(fā)揮科研人員的概括和抽象能力，利用有限的知識(shí)和能力抽象出可能的場(chǎng)景布局規(guī)律，并用算法來(lái)表示。

Xu 等[15]最早提出基于規(guī)則并以順序迭代的方式將家具逐個(gè)擺放到室內(nèi)場(chǎng)景中的場(chǎng)景生成算法。在擺放過(guò)程中，該算法根據(jù)可放置的平面、平面的支撐能力以及擺放物體間的距離來(lái)考慮家具可能擺放的位置，同時(shí)將現(xiàn)實(shí)場(chǎng)景中家具之間的語(yǔ)義相關(guān)性融入到規(guī)則中使得家具擺放更加合理。此外，該算法還增加了物體的非互穿性、穩(wěn)定性及物體間的摩擦等物理約束，避免出現(xiàn)不和諧的場(chǎng)景擺放。

Yu[16]和 Merrell[17]等提出用以布局信息為變量的能量函數(shù)來(lái)表示規(guī)則，通過(guò)優(yōu)化能量函數(shù)的方式生成合理的布局。家具之間的語(yǔ)義相關(guān)性可以概括為層次關(guān)系、空間位置關(guān)系以及成對(duì)關(guān)系，其可作為場(chǎng)景上下文信息融入能量方程[16]。也可以考慮功能性擺放規(guī)則以及視覺(jué)性擺放規(guī)則，來(lái)約束家具的擺放位置[17]。兩種算法從解決問(wèn)題的不同角度分別提出了不同的優(yōu)化能量函數(shù)方式。由于搜索空間過(guò)大，前述算法采用了模擬退火算法，逐步確定家具的擺放后得到一個(gè)合理的室內(nèi)場(chǎng)景。后者則考慮到由于布局的多樣性會(huì)使得場(chǎng)景有多種合理的布局，對(duì)應(yīng)的能量函數(shù)也具有多峰值，所以該算法采用了馬爾科夫蒙特卡洛采樣的方式，對(duì)能量函數(shù)進(jìn)行優(yōu)化。

Fisher 等[18]提出一種基于高斯混合模型和貝葉斯模型的概率模型來(lái)學(xué)習(xí)場(chǎng)景的布局先驗(yàn)，并以此為基礎(chǔ)生成與用戶給定示例場(chǎng)景相似的新室內(nèi)場(chǎng)景。該模型能夠根據(jù)成對(duì)物體在空間位置中的共現(xiàn)概率，預(yù)測(cè)可擺放的家具類別以及場(chǎng)景空間中最有可能擺放該家具的位置。為了增加新場(chǎng)景布局的多樣性，該論文還提出了一種基于場(chǎng)景上下文信息的聚類算法，并以此提供可互相替換的家具類別。除了考慮成對(duì)的對(duì)象關(guān)系以外，Kermani 等[31]還采用了涉及兩個(gè)以上對(duì)象的關(guān)系表示場(chǎng)景的上下文。與前述只考慮局部家具之間的上下文關(guān)系不同，Liu 等[32]利用給定的大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集構(gòu)造了一個(gè)具有層次結(jié)構(gòu)的語(yǔ)法概率模型，用其來(lái)概括整個(gè)室內(nèi)場(chǎng)景的上下文關(guān)系。這種利用數(shù)據(jù)集學(xué)到的層次關(guān)系，將其作為一個(gè)整體進(jìn)行擺放更能增加布局的合理性。Henderson 等[13]也是按照主要物體、小物體、天花板物體、墻面物體這樣層次遞進(jìn)的順序進(jìn)行家具擺放。

4.1.2 深度學(xué)習(xí)生成方法

深度學(xué)習(xí)是一種基于數(shù)據(jù)進(jìn)行表征學(xué)習(xí)的方法。隨著大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集的出現(xiàn)，采用深度學(xué)習(xí)的方式進(jìn)行場(chǎng)景生成成為了可能。傳統(tǒng)生成方法需要人工定義具體的規(guī)則、優(yōu)化函數(shù)或密度函數(shù)，而深度學(xué)習(xí)可以直接利用具有特殊結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)來(lái)隱式地學(xué)習(xí)表達(dá)這些信息，避免人工定義的復(fù)雜性。除此之外，采用深度學(xué)習(xí)的方式從大規(guī)模室內(nèi)場(chǎng)景數(shù)據(jù)集中學(xué)習(xí)到的場(chǎng)景先驗(yàn)?zāi)軌蚝芎玫匮a(bǔ)充人有限的室內(nèi)場(chǎng)景設(shè)計(jì)經(jīng)驗(yàn)。

Wang[20]和 Ritchie[34]等提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的場(chǎng)景生成模型，能夠快速靈活地生成場(chǎng)景。雖然室內(nèi)場(chǎng)景存在于三維空間，但重力決定了大多數(shù)對(duì)象在二維平面上進(jìn)行布局，所以該模型將俯視圖表示的場(chǎng)景作為模型輸入，利用不同的卷積神經(jīng)網(wǎng)絡(luò)對(duì)家具的類別、位置、朝向以及大小進(jìn)行預(yù)測(cè)，并以迭代的方式將家具逐個(gè)添加到場(chǎng)景中。將場(chǎng)景圖表示為俯視圖可以實(shí)現(xiàn)像素級(jí)別的細(xì)粒度的推理過(guò)程，并且可以利用專門(mén)為圖像理解而開(kāi)發(fā)的卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜的室內(nèi)場(chǎng)景結(jié)構(gòu)。

與圖像平鋪表示的室內(nèi)場(chǎng)景不同，Li 等[21]認(rèn)為室內(nèi)場(chǎng)景的結(jié)構(gòu)本質(zhì)上是分層的，提出將室內(nèi)場(chǎng)景抽象為包含支撐關(guān)系、共現(xiàn)關(guān)系、環(huán)繞關(guān)系以及墻依靠關(guān)系的分層樹(shù)結(jié)構(gòu)。首先，循環(huán)神經(jīng)網(wǎng)絡(luò)根據(jù)抽象出的分層樹(shù)結(jié)構(gòu)，由葉子節(jié)點(diǎn)開(kāi)始自下而上地對(duì)家具屬性以及與其他家具的相對(duì)位置關(guān)系進(jìn)行編碼；然后，從根節(jié)點(diǎn)向下解碼出每個(gè)家具節(jié)點(diǎn)的類別、大小、朝向等場(chǎng)景布局信息；最后，以變分自編碼器的方式進(jìn)行訓(xùn)練，由隨機(jī)采樣的噪聲進(jìn)行生成。

與分層樹(shù)結(jié)構(gòu)類似，Zhang 等[22]也采用了變分自編碼器的生成網(wǎng)絡(luò)結(jié)構(gòu)，該結(jié)構(gòu)將場(chǎng)景中所有物體特征排列成固定大小矩陣作為室內(nèi)場(chǎng)景的表達(dá)方式，將參數(shù)化矩陣輸入稀疏連接的前向神經(jīng)網(wǎng)絡(luò)中學(xué)習(xí)室內(nèi)場(chǎng)景粗粒度的全局布局信息，同時(shí)利用有向距離場(chǎng)將場(chǎng)景映射到二維空間中學(xué)習(xí)細(xì)粒度的局部布局信息。Yang 等[35]也采用了矩陣的表達(dá)形式，除了包含單個(gè)物體信息的生成網(wǎng)絡(luò)外，該研究還利用生成網(wǎng)絡(luò)對(duì)物體的相對(duì)屬性進(jìn)行編碼，最后利用貝葉斯方法結(jié)合單獨(dú)對(duì)象屬性、相對(duì)屬性以及參數(shù)先驗(yàn)對(duì)最終布局進(jìn)行優(yōu)化。

隨著圖卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn)和發(fā)展，圖結(jié)構(gòu)表達(dá)的室內(nèi)場(chǎng)景可以利用深度學(xué)習(xí)的方式編碼場(chǎng)景先驗(yàn)，且圖結(jié)構(gòu)是最直觀表達(dá)物體上下文關(guān)系的場(chǎng)景表達(dá)方式。消息傳遞網(wǎng)絡(luò)是實(shí)現(xiàn)圖卷積網(wǎng)絡(luò)常用的框架，Zhou 等[29]提出了一種利用消息傳遞網(wǎng)絡(luò)對(duì)場(chǎng)景圖表示的室內(nèi)場(chǎng)景進(jìn)行場(chǎng)景增強(qiáng)的方法，并利用從大量的室內(nèi)場(chǎng)景數(shù)據(jù)集中抽象出的支撐、環(huán)繞、靠近、共現(xiàn)關(guān)系及消息傳遞的注意力機(jī)制，讓模型更加集中于最相關(guān)的場(chǎng)景上下文對(duì)新物體進(jìn)行預(yù)測(cè)。Wang 等[36]將場(chǎng)景生成拆分成兩個(gè)步驟，首先，在決策模型的框架下，利用圖卷積神經(jīng)網(wǎng)絡(luò)生成場(chǎng)景圖表示場(chǎng)景布局規(guī)劃；然后，利用卷積神經(jīng)網(wǎng)絡(luò)將圖結(jié)構(gòu)中每個(gè)節(jié)點(diǎn)代表的家具實(shí)例化到具體的空間位置中。Luo等[30]將圖卷積神經(jīng)網(wǎng)絡(luò)和條件變分自編碼器結(jié)合起來(lái)，提出了一種端到端生成室內(nèi)場(chǎng)景的算法。Dhamo 等[37]在圖卷積神經(jīng)網(wǎng)絡(luò)和條件變分自編碼器的基礎(chǔ)上，通過(guò)在解碼器之前加入增強(qiáng)后的與原始圖像有差異的場(chǎng)景進(jìn)行訓(xùn)練，能夠根據(jù)人的偏好改變場(chǎng)景圖之后，進(jìn)行室內(nèi)場(chǎng)景生成。

以往的場(chǎng)景生成方式會(huì)對(duì)家具之間的關(guān)系進(jìn)行假設(shè)，Wang 等[38]提出將場(chǎng)景抽象成一個(gè)對(duì)象屬性的序列，將場(chǎng)景生成任務(wù)轉(zhuǎn)化為序列生成任務(wù)，采用 Transformer 結(jié)構(gòu)[39]生成場(chǎng)景，并通過(guò)Transformer 中的注意力機(jī)制隱式學(xué)習(xí)家具物體之間的關(guān)系。

4.2 無(wú)樣例的基于人類活動(dòng)的場(chǎng)景生成算法

真實(shí)場(chǎng)景中物體之間的關(guān)系復(fù)雜多樣，很難從中提取出重要的場(chǎng)景上下文關(guān)系進(jìn)行建?！，F(xiàn)實(shí)中場(chǎng)景的布局往往是按照功能區(qū)劃分，并且和人的活動(dòng)密切相關(guān)，因此可以通過(guò)建模人類活動(dòng)與物體之間的關(guān)系，對(duì)場(chǎng)景布局進(jìn)行解析。

通過(guò)人體姿態(tài)可以預(yù)測(cè)接下來(lái)的動(dòng)作傾向，而動(dòng)作是人和物體之間產(chǎn)生交互的中介，所以人體姿態(tài)和物體之間存在一定的上下文關(guān)系。Jiang等[27]通過(guò)構(gòu)造概率密度函數(shù)來(lái)學(xué)習(xí)物體的支撐性、可達(dá)性以及易用性與人體 6 種標(biāo)準(zhǔn)姿態(tài)的上下文關(guān)系。在場(chǎng)景生成過(guò)程中，模型首先根據(jù)已有物體推斷可能的人體姿態(tài)以及位置，然后再以人體姿態(tài)為中心，從概率密度函數(shù)中采樣找到可能的下一個(gè)物體的擺放位置。

Fisher 等[26]直接利用動(dòng)作建模人和物體之間的聯(lián)系，并且以此為依據(jù)生成與給定粗糙掃描場(chǎng)景在功能和幾何屬性方面都類似的新場(chǎng)景。該研究從掃描場(chǎng)景中提取帶有功能區(qū)的幾何場(chǎng)景模版后，將虛擬人代理放在對(duì)應(yīng)的功能區(qū)。虛擬人代理根據(jù)場(chǎng)景功能確定凝視、觸摸、背部支撐以及臀部支撐等與物體交互的動(dòng)作，將物體擺放成與動(dòng)作相關(guān)的排列。

Ma 等[19]研究了一種由動(dòng)作驅(qū)動(dòng)的場(chǎng)景生成框架，該框架通過(guò)模擬被人類動(dòng)作改變的物體放置確定場(chǎng)景布局。首先，利用標(biāo)注圖像對(duì)動(dòng)作模型進(jìn)行學(xué)習(xí)，其中，每種類型的動(dòng)作結(jié)合了一個(gè)或多個(gè)人體姿勢(shì)、一個(gè)或多個(gè)物體類別和表示人-物體以及物體-物體之間的空間位置關(guān)系信息；然后，通過(guò)采樣動(dòng)作序列生成場(chǎng)景。與其他算法不同的是，由于一個(gè)動(dòng)作可能涉及多個(gè)人體姿勢(shì)和物體，該框架能在確定動(dòng)作后同時(shí)觸發(fā)一系列物體的放置，而且場(chǎng)景中所有動(dòng)作之間具有某種順序關(guān)系，使得整個(gè)場(chǎng)景的生成更具一致性。

不同于其他研究關(guān)注固定的人體姿態(tài)，Savva 等[28]將人體姿態(tài)用動(dòng)作屬性控制，允許更高自由度的人體姿態(tài)與場(chǎng)景的交互。該研究建立能反映人體部位與人附近物體聯(lián)系的人體姿態(tài)屬性，從大規(guī)模數(shù)據(jù)集中構(gòu)建概率模型，將人體姿態(tài)估計(jì)融入場(chǎng)景生成任務(wù)，以生成更合理的場(chǎng)景。Qi 等[40]提出用一種與空間屬性相關(guān)的與或圖來(lái)表示室內(nèi)場(chǎng)景，在終端節(jié)點(diǎn)上將與人類活動(dòng)相關(guān)的上下文關(guān)系編碼進(jìn)馬爾可夫隨機(jī)場(chǎng)，然后以采樣的方式生成新的場(chǎng)景。Fu 等[41]的研究則是在給定一個(gè)空?qǐng)鼍耙约安糠旨揖哳悇e的情況下，通過(guò)人類活動(dòng)與物體之間的聯(lián)系，在給定家具的基礎(chǔ)上進(jìn)行類別擴(kuò)充，構(gòu)造完整的場(chǎng)景功能區(qū)。

4.3 基于樣例和物體關(guān)系的場(chǎng)景生成算法

自動(dòng)化室內(nèi)場(chǎng)景生成的目的是減輕設(shè)計(jì)布局所耗費(fèi)的時(shí)間精力，然而，在某些應(yīng)用上仍需要一定程度的與人交互，才能生成符合用戶需求的室內(nèi)場(chǎng)景布局。除此之外，完全無(wú)參考的室內(nèi)場(chǎng)景生成任務(wù)需要學(xué)習(xí)所有可能的場(chǎng)景布局，較難實(shí)現(xiàn)，而基于樣例的方式大大減少了布局多樣性，使場(chǎng)景生成任務(wù)更加簡(jiǎn)單。本節(jié)將對(duì)文本輸入、草圖輸入、圖像輸入以及三維信息輸入幾種不同的基于樣例的場(chǎng)景生成算法進(jìn)行介紹。

4.3.1 文本輸入

利用自然語(yǔ)言描述來(lái)獲取場(chǎng)景布局是一種較為簡(jiǎn)便的方式，自然語(yǔ)言作為人們?nèi)粘１磉_(dá)思維的方式在描述場(chǎng)景時(shí)不需要任何培訓(xùn)。Seversky[42]和 Coyne[43]等較早地提出了語(yǔ)言驅(qū)動(dòng)的場(chǎng)景生成方式，該方法通過(guò)自然語(yǔ)言詳細(xì)描述對(duì)象及空間位置的關(guān)系，實(shí)現(xiàn)自然語(yǔ)言到場(chǎng)景的映射，這種方式可以生成符合語(yǔ)言表達(dá)的室內(nèi)場(chǎng)景，但限制了用戶表達(dá)場(chǎng)景的自由度和多樣性，只能生成固定的場(chǎng)景布局。Chang 等[44-45]提出將自然語(yǔ)言解析成一個(gè)包含要擺放物體以及物體之間如何排列的場(chǎng)景模版后，根據(jù)數(shù)據(jù)集中學(xué)習(xí)到的物體之間的空間位置先驗(yàn)，將隱含的物體之間的位置關(guān)系擴(kuò)充進(jìn)來(lái)。Ma 等[23]提出的算法不僅考慮了物體之間的空間位置關(guān)系，還對(duì)物體成對(duì)出現(xiàn)的概率進(jìn)行建模，因此，該方法不僅支持隱式位置關(guān)系擴(kuò)充，也支持隱式的物體類別擴(kuò)充，這種利用從數(shù)據(jù)集中提取出的隱式、通用的布局規(guī)律對(duì)場(chǎng)景增強(qiáng)的方式，可以讓用戶不必像以前的大多數(shù)方法一樣提供明確的布局信息。Chang等[46]嘗試將描述內(nèi)容與物體關(guān)聯(lián)起來(lái)，以便找到更適合文本描述的三維模型，還將規(guī)則轉(zhuǎn)化成基于文本的交互式場(chǎng)景編輯操作，并開(kāi)發(fā)出給用戶使用的 UI 界面[47]。

4.3.2 草圖輸入

草圖對(duì)于用戶而言也是一種表達(dá)場(chǎng)景布局的簡(jiǎn)易方式，建模師會(huì)根據(jù)室內(nèi)設(shè)計(jì)師預(yù)先繪制的概念草圖創(chuàng)建對(duì)應(yīng)的三維室內(nèi)場(chǎng)景。現(xiàn)有的三維場(chǎng)景設(shè)計(jì)工具需要建模師多次重復(fù)模型尋找以及模型擺放兩個(gè)步驟將家具逐個(gè)擺放到室內(nèi)場(chǎng)景中。在給定草圖進(jìn)行場(chǎng)景生成的自動(dòng)化算法中，Shin 等[48]也采用了類似的流程，首先，從草圖中識(shí)別出單個(gè)物體；然后，根據(jù)物體的視覺(jué)特征去模型庫(kù)中找到對(duì)應(yīng)的三維模型；最后，擺放到三維空間中。將三維模型拆分成部件，完成部件級(jí)別的模型尋找以及擺放，也能實(shí)現(xiàn)模型草圖到三維模型的生成[49-50]，但是單個(gè)物體的檢索和擺放往往會(huì)產(chǎn)生歧義，為此，Xu 等[24]提出對(duì)數(shù)據(jù)集中提取的具有共現(xiàn)關(guān)系和空間位置關(guān)系的家具組合進(jìn)行提取，從而實(shí)現(xiàn)多個(gè)物體的協(xié)同檢索和放置，該方法極大地減少了用戶干預(yù)。

4.3.3 圖像輸入

手機(jī)是人們?nèi)粘y帶且具有攝像功能的設(shè)備，得到一張場(chǎng)景圖像只需要按下拍照按鈕，所以通過(guò) RGB 圖像生成場(chǎng)景也是用戶可選的方案，并得到了廣泛的研究和發(fā)展。Huang 等[51]提出利用能夠表征場(chǎng)景功能和幾何約束聯(lián)合分布的整體場(chǎng)景語(yǔ)法來(lái)表示三維場(chǎng)景的結(jié)構(gòu)，利用蒙特卡洛方法找到與真實(shí)場(chǎng)景最相似的由場(chǎng)景三維信息渲染得到的場(chǎng)景。Nie 等[25]將圖像重建分為場(chǎng)景布局結(jié)構(gòu)估計(jì)、物體檢測(cè)及網(wǎng)格重建 3 個(gè)子任務(wù)，本質(zhì)上還是檢測(cè)要擺放的物體，根據(jù)相機(jī)姿態(tài)投影到三維空間中。該研究通過(guò)注意力機(jī)制對(duì)所有物體的卷積特征進(jìn)行加權(quán)求和，將上下文信息融入到物體三維空間預(yù)估過(guò)程中。Xiao 等[52]采用了更復(fù)雜的圖卷積神經(jīng)網(wǎng)絡(luò)，通過(guò)消息傳遞融入上下文信息。Zhang 等[53]結(jié)合了以上兩種思路，利用 Nie 等[25]提出的注意力機(jī)制得到初始位置后，再利用 Xiao 等[52]提出的圖卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步優(yōu)化場(chǎng)景布局。

4.3.4 三維信息輸入

用二維 RGB 圖像進(jìn)行三維場(chǎng)景生成較易出現(xiàn)偏差，而基于深度信息構(gòu)建的 RGB-D 場(chǎng)景或掃描場(chǎng)景帶來(lái)的三維場(chǎng)景信息更加明確，但是RGB-D 圖像往往充滿噪聲，所以 Chen 等[54]提出將在數(shù)據(jù)庫(kù)中學(xué)習(xí)到的物體上下文關(guān)系用于約束重建，確保重建家具與掃描家具之間的語(yǔ)義相似性。Hampali 等[55]采用了蒙特卡洛方法，搜尋RGB-D 圖像中可能的家具集合信息，以最小化重建場(chǎng)景與真實(shí)場(chǎng)景的差異。Fisher 等[26]利用人-物體的上下文關(guān)系生成和具有噪聲的掃描場(chǎng)景相似的新場(chǎng)景。Avetisyan 等[56]則是在檢測(cè)出掃描場(chǎng)景中的物體后，利用物體-物體的上下文關(guān)系對(duì)家具的擺放位置進(jìn)行優(yōu)化。

5 總結(jié)與未來(lái)展望

本文對(duì)場(chǎng)景生成算法做了一個(gè)較為全面的分析和描述，分別從基于規(guī)則、概率統(tǒng)計(jì)、優(yōu)化函數(shù)的傳統(tǒng)場(chǎng)景生成方式到基于圖卷積神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)生成方法，從基于物體-物體之間上下文關(guān)系的算法到基于人-物體的上下文關(guān)系的算法，從無(wú)樣例的生成模型到基于樣例的生成模型，從矩陣結(jié)構(gòu)、層次結(jié)構(gòu)、圖像結(jié)構(gòu)到圖結(jié)構(gòu)的場(chǎng)景表達(dá)方式，從順序生成到同步生成的生成順序分析了各個(gè)場(chǎng)景生成算法的優(yōu)缺點(diǎn)，以及近年來(lái)的發(fā)展。

目前，室內(nèi)場(chǎng)景生成算法仍然存在問(wèn)題。主流的深度學(xué)習(xí)方法雖然能學(xué)習(xí)到一定的場(chǎng)景先驗(yàn)知識(shí)，但仍然需要預(yù)定義一些空間位置關(guān)系和共現(xiàn)關(guān)系來(lái)輔助算法進(jìn)行場(chǎng)景理解，且預(yù)定義的關(guān)系所能表達(dá)的場(chǎng)景上下文關(guān)系有限。神經(jīng)網(wǎng)絡(luò)中的注意力機(jī)制[25,29,38]可以很好地解決這個(gè)問(wèn)題，但注意力機(jī)制僅能表示物體之間聯(lián)系的緊密程度，不包含任何語(yǔ)義信息。所以將語(yǔ)義關(guān)系預(yù)測(cè)融入場(chǎng)景生成是未來(lái)研究的方向之一。

最直觀且目前最有發(fā)展前景的場(chǎng)景表達(dá)方式是圖結(jié)構(gòu)和圖像結(jié)構(gòu)的表達(dá)方式。圖結(jié)構(gòu)表達(dá)方式可以忽略家具本身在三維空間中的位置，在任意節(jié)點(diǎn)之間構(gòu)造聯(lián)系，但該表達(dá)方式的節(jié)點(diǎn)之間不具備明確順序。而圖像結(jié)構(gòu)由于其本身排列在二維空間坐標(biāo)系中，所以圖像表示的場(chǎng)景能自然地捕捉到家具之間的位置關(guān)系。因而將圖結(jié)構(gòu)和圖像結(jié)構(gòu)結(jié)合進(jìn)行場(chǎng)景預(yù)估也是一個(gè)值得研究的課題?，F(xiàn)有的算法[36]雖將圖和圖像相結(jié)合但是采用的是兩步走的策略，未來(lái)可以嘗試訓(xùn)練一個(gè)端到端的網(wǎng)絡(luò)將兩者結(jié)合起來(lái)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放