王 磊 | Wang Lei
李鵬波 | Li Pengbo
人工智能研究領(lǐng)域高速發(fā)展,根據(jù)時間順序梳理進程可大致概括為:人工智能(Artificial Intelligence)、機器學(xué)習(xí)(Machine Learning)、深度學(xué)習(xí)(Deep Learning)三大方面,其發(fā)展及包含關(guān)系參看圖1。其中計算機視覺和自然語言處理作為賦予計算機認(rèn)識物體和理解語意的兩大難點,一直是深度學(xué)習(xí)中最具挑戰(zhàn)性及熱度最高的兩大問題。隨著場景解析[1]、重構(gòu)[2]已成為未來發(fā)展的必然趨勢,基于隨機決策森林(Random Decision Forests)[3]、參數(shù)統(tǒng)計方法(Parametric Statistics)[4-5]、聚類分割法(Cluster Segmentation)[6]、閾值分割法(Threshold Image Segment)[7]等在內(nèi)的傳統(tǒng)機器學(xué)習(xí)方法,由于其本質(zhì)是采用統(tǒng)計學(xué)原理的無數(shù)據(jù)訓(xùn)練方式提取特征,難以滿足像素級的圖像識別任務(wù)[8],因而采用人工神經(jīng)網(wǎng)絡(luò)的機器學(xué)習(xí)方法可有效支持城市科學(xué)設(shè)計決策制定過程(圖1)。
圖1 人工智能發(fā)展進程示意圖
選擇對抗生成神經(jīng)網(wǎng)絡(luò)(Generative Adversarial Network,GAN)作為我們的研究工具,因為圖像是建筑學(xué)科領(lǐng)域最主要的數(shù)據(jù)來源之一,例如數(shù)字遙感影像;航拍影像;百度城市地圖街景數(shù)據(jù);園林、建筑、城市平立剖面圖等。深度學(xué)習(xí)中除無人不知的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)外,GAN是另一種基于CNN專門設(shè)計用來處理圖像類型數(shù)據(jù)的算法。2014年蒙特利爾大學(xué)的伊恩·古德菲洛(Lan·Goodfellow)和同事共同發(fā)表的一篇論文中介紹了GA N網(wǎng)絡(luò)之后,它就作為深度學(xué)習(xí)中的熱點研究方向存在。建筑學(xué)科領(lǐng)域因其涉及范圍廣、工作流程復(fù)雜的特點,在融合新時代科技所需的時間往往比其他領(lǐng)域要花費更長的時間,但已有學(xué)者在嘗試將深度學(xué)習(xí)應(yīng)用于建筑學(xué)科領(lǐng)域方向做出探索。
文化景觀(cultural landscape)包含地理文化、遺跡景觀、規(guī)劃設(shè)計等多個對象范疇。隨著文化景觀保護研究的深入,越來越多的遺跡景觀保護修復(fù)項目獲得關(guān)注。2019年天津大學(xué)何捷教授團隊與西北大學(xué)聯(lián)合進行尼泊爾木斯塘(Mustang)地區(qū)文化遺產(chǎn)保護調(diào)研工作,對該地區(qū)包括OSM地形數(shù)據(jù)、建筑布局及地域文化在內(nèi)的多項文化景觀遺產(chǎn)信息進行建檔記錄。2017年中國文化遺產(chǎn)研究院在援烏茲別克斯坦花剌子模州歷史文化遺跡修復(fù)項目中,使用包括三維激光掃描、精密數(shù)字電子水準(zhǔn)儀等在內(nèi)的高精細(xì)測繪設(shè)備技術(shù),因地制宜地進行保護修復(fù)工作[9]。隨著深度學(xué)習(xí)技術(shù)發(fā)展和文化景觀保護修復(fù)性工作需要,依據(jù)文化景觀立地數(shù)據(jù)為對象,討論通過深度學(xué)習(xí)技術(shù)修復(fù)文化景觀的可能性,以分析特征向量數(shù)據(jù)為方法找到文化景觀內(nèi)涵要素的內(nèi)在關(guān)系,成為未來文化景觀修復(fù)新方向。
建筑學(xué)科領(lǐng)域中G A N網(wǎng)絡(luò)可有效加強城市設(shè)計流程中設(shè)計者對復(fù)雜數(shù)據(jù)的分析處理能力,國內(nèi)外已有學(xué)者使用GAN網(wǎng)絡(luò)支持下的城市設(shè)計方法產(chǎn)生全新的數(shù)字城市設(shè)計創(chuàng)作成果,為建筑學(xué)科領(lǐng)域人工智能應(yīng)用研究邁出第一步。包瑞清[10]在地形設(shè)計方法上做出多方面探索,基于GAN網(wǎng)絡(luò)學(xué)習(xí)給定區(qū)域地形特征(全球數(shù)字高程模型GDEM,30m高空分辨率高程數(shù)據(jù))進而自主創(chuàng)作地形。另外一方面應(yīng)用為建立遮罩,預(yù)測未知區(qū)域高程,試圖學(xué)習(xí)已有地形設(shè)計樣板,生成自然山川空間特征來彌補地形缺失的部分。劉躍中[11]以新加坡城市數(shù)據(jù)中的建筑密度和綠化率作為GAN網(wǎng)絡(luò)輸入隨機向量,學(xué)習(xí)榜鵝新城區(qū)公共數(shù)據(jù)及衛(wèi)星影像生成城市設(shè)計方案。除城市設(shè)計外,城市分析領(lǐng)域何宛余團隊做出了探索,對反映區(qū)域文化環(huán)境特征的城市肌理進行評估,該實驗僅構(gòu)建了GAN中的判別網(wǎng)絡(luò)部分,對六種特定要素進行判別并計算出各類區(qū)域占比。畢業(yè)于哈佛大學(xué)的Stanislas Chaillou[12]開發(fā)的ArchiGAN使我們領(lǐng)略到GAN網(wǎng)絡(luò)在建筑學(xué)平面圖生成設(shè)計中的無限可能,運用訓(xùn)練良好神經(jīng)網(wǎng)絡(luò)可快速生成建筑平面布局。其過程大致分為3個步驟:平面布局(Building Footprint)、空間規(guī)劃(Program Repartition)、家居布局(furniture layout),該算法程序除可以生成一個單戶住宅平面設(shè)計外,還使用嵌套方法實現(xiàn)創(chuàng)建整個公寓樓每一樓層客制化改變(圖2)。pix2pix是一種基于GAN基礎(chǔ)網(wǎng)絡(luò)來實現(xiàn)圖像轉(zhuǎn)換的網(wǎng)絡(luò)模型,其特點是訓(xùn)練過程需要成對的輸入和輸出樣本,最終pix2pix模型可視化效果參看圖3,使用包含400張建筑立面圖訓(xùn)練集進行網(wǎng)絡(luò)訓(xùn)練,根據(jù)立面布局標(biāo)注可生成全新風(fēng)格建筑立面風(fēng)格圖。
圖2 ArchiGAN模型建筑平面生成結(jié)果圖例
圖3 pix2pix模型建筑立面風(fēng)格遷移生成圖例
目前GAN神經(jīng)網(wǎng)絡(luò)在建筑學(xué)科領(lǐng)域應(yīng)用還存在一些“通病”問題。首先是數(shù)據(jù)集的構(gòu)建,神經(jīng)網(wǎng)絡(luò)訓(xùn)練效果上限是由訓(xùn)練數(shù)據(jù)集的質(zhì)量所決定,而針對特定問題則需建立對應(yīng)數(shù)據(jù)集群,這需要建筑領(lǐng)域?qū)W科各專業(yè)人員共同、長期的努力。其次是網(wǎng)絡(luò)訓(xùn)練方法及參數(shù)調(diào)優(yōu)問題,對于非計算機和信息科學(xué)出身的研究者來說,網(wǎng)絡(luò)訓(xùn)練過程中諸多細(xì)節(jié)技巧需要掌握。最后是成果轉(zhuǎn)化問題,訓(xùn)練GAN生成的輸出圖像不能直接作為設(shè)計結(jié)果在實際項目中應(yīng)用,還是需要人的先驗經(jīng)驗參與最終決策。
人工智能(Artificial Intelligence)這一概念自1956年在美國達(dá)特茅斯大學(xué)研討會上首次被提出以來,其在城市科學(xué)領(lǐng)域的研究發(fā)展已有近40年的歷史,20世紀(jì)大量學(xué)者對其研究一直以機器模仿和執(zhí)行人腦的某些智力功能,在城市設(shè)計或某一任務(wù)中進行模擬決策為目標(biāo)。但是自21世紀(jì)以來,隨著計算和信息處理能力的大幅提高,突破傳統(tǒng)規(guī)則算法的機器學(xué)習(xí)和模式識別得以實現(xiàn)。
人工智能中對抗生成神經(jīng)網(wǎng)絡(luò)的基本思想源自博弈論中的零和博弈,它有兩個在競爭狀態(tài)中的神經(jīng)網(wǎng)絡(luò)構(gòu)成:即生成網(wǎng)絡(luò)(被提供一個隨機數(shù)向量,并輸出合成數(shù)據(jù))與鑒別網(wǎng)絡(luò)(被分配一個數(shù)據(jù),并輸出來自訓(xùn)練集的概率)(圖4)。通過生成網(wǎng)絡(luò)創(chuàng)造“偽造”數(shù)據(jù),鑒別網(wǎng)絡(luò)嘗試將“偽造”數(shù)據(jù)與“真實”數(shù)據(jù)區(qū)分開,以對抗學(xué)習(xí)方式來訓(xùn)練。隨著迭代次數(shù)增加,生成網(wǎng)絡(luò)與鑒別網(wǎng)絡(luò)會因為學(xué)習(xí)到的樣本數(shù)據(jù)增多而越能達(dá)到生成更加真實的圖像效果。為便于理解,本文以MNIST手寫數(shù)字?jǐn)?shù)據(jù)集為例,依次展示經(jīng)過GA N神經(jīng)網(wǎng)絡(luò)0至25000次迭代后生成結(jié)果(圖5)。作為具有“無上限”生成能力的神經(jīng)網(wǎng)絡(luò)模型,其生成能力上限取決于輸入數(shù)據(jù)的數(shù)量、質(zhì)量及網(wǎng)絡(luò)迭代次數(shù),在經(jīng)過充分訓(xùn)練后其可生成與真實數(shù)據(jù)分布一致的數(shù)據(jù)樣本,因而常見應(yīng)用領(lǐng)域包括圖像、視頻、語音生成等。
圖4 對抗生成神經(jīng)網(wǎng)絡(luò)(GAN)算法結(jié)構(gòu)圖
圖5 對抗生成神經(jīng)網(wǎng)絡(luò)訓(xùn)練結(jié)果示例
以目前數(shù)字技術(shù)和人工智能的發(fā)展速度和趨勢,我們已經(jīng)難以否認(rèn)其會為建筑學(xué)科領(lǐng)域帶來巨大影響。順應(yīng)學(xué)科交融趨勢應(yīng)用人工智能GAN神經(jīng)網(wǎng)絡(luò)方法,訓(xùn)練網(wǎng)絡(luò)學(xué)習(xí)遺跡景觀衛(wèi)星影像空間特征,對遺跡損壞部分進行復(fù)原性設(shè)計;對遺跡空間特征使用pixplot神經(jīng)網(wǎng)絡(luò)進行特征壓縮聚類分析,壓縮生成結(jié)果為二維特征向量,以特征向量建立數(shù)據(jù)庫為空間布局詢證提供理論依據(jù)。本研究以明長城文化景觀遺跡為研究對象,論述基于深度學(xué)習(xí)的遺跡景觀修復(fù)過程。正如田澍在對“長城學(xué)”的論述,必須突破以簡單的軍事防御視角來認(rèn)識明長城的狹隘學(xué)風(fēng),應(yīng)從多角度來理解明長城的作用與意義,以多學(xué)科交融發(fā)展的客觀要求,從廣義和總體兩方面來認(rèn)識明長城的內(nèi)涵[13]。
圖6為本研究的技術(shù)路線,核心算法為基于GAN實現(xiàn)的pix2pix人工神經(jīng)網(wǎng)絡(luò),使用訓(xùn)練完成的神經(jīng)網(wǎng)絡(luò)對明長城遺址進行復(fù)原研究。研究框架共分為5個步驟完成:數(shù)據(jù)收集、數(shù)據(jù)清洗、神經(jīng)網(wǎng)絡(luò)訓(xùn)練、長城遺跡復(fù)原、數(shù)據(jù)庫建立。
圖6 研究框架與技術(shù)路線圖
步驟1數(shù)據(jù)收集中,由于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像特征需要大量樣本數(shù)據(jù),故擬獲取使用衛(wèi)星遙感影像及全球數(shù)字高程模型作為數(shù)據(jù)集中基礎(chǔ)數(shù)據(jù),依據(jù)明長城遺址空間現(xiàn)狀基礎(chǔ)數(shù)據(jù)可分為空間形態(tài)完整及空間形態(tài)破損兩種狀態(tài)(圖7)。
圖7 GAN神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)集構(gòu)建示例——以北京八達(dá)嶺長城國家森林公園段為例
步驟2的重點在于構(gòu)建數(shù)據(jù)集的過程中需要對特征學(xué)習(xí)區(qū)域構(gòu)建遮罩(mask),神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程時遮罩外為已知環(huán)境,遮罩內(nèi)為待學(xué)習(xí)空間特征區(qū)域。
步驟3中基于Python-TensorFlow搭建神經(jīng)網(wǎng)絡(luò)(pix2pix)訓(xùn)練平臺,待神經(jīng)網(wǎng)絡(luò)訓(xùn)練完成后的步驟4使用階段,需將待復(fù)原區(qū)域建立遮罩,遮罩外側(cè)為空間特征推測區(qū)域,運行網(wǎng)絡(luò)便可推算出遮罩內(nèi)復(fù)原區(qū)域的空間布局(圖8)。
圖8 研究技術(shù)路線圖示及遺跡景觀修復(fù)結(jié)果展示
步驟5中使用復(fù)原完成后的完整長城空間布局進行特征壓縮進而構(gòu)建數(shù)據(jù)庫,使用pixplot神經(jīng)網(wǎng)絡(luò)對長城遺跡圖像聚類分析可視化結(jié)果顯示,直觀顯示明長城空間布局特征聚類結(jié)果。
空間布局?jǐn)?shù)據(jù)庫的構(gòu)建中使用了另外一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征向量壓縮方法。在步驟5中使用pixplot神經(jīng)網(wǎng)絡(luò)對步驟2中獲取的圖像數(shù)據(jù)進行特征壓縮并聚類,進而獲得壓縮后的二維空間特征向量(以[x,y]二維特征向量形式表達(dá))建立數(shù)據(jù)庫,使用聚類(Cluster)方法對該數(shù)據(jù)進行處理便可獲得聚類結(jié)果。將數(shù)據(jù)庫每一二維特征向量[x,y]數(shù)據(jù)與坐標(biāo)原點[0,0]進行歐式幾何距離計算得到該坐標(biāo)的空間距離權(quán)重值,將其權(quán)重值及對應(yīng)遺址原地理空間坐標(biāo)點使用python-pandas庫進行可視化顯示,即可獲得該點對應(yīng)數(shù)據(jù)庫聚類類別的權(quán)值。
空間布局?jǐn)?shù)據(jù)庫的建立完善可為未來研究提供數(shù)據(jù)基礎(chǔ),實現(xiàn)面向不同研究領(lǐng)域?qū)W者提供開源數(shù)據(jù)、數(shù)據(jù)檢索分析及數(shù)據(jù)可視化等功能,為研究者提供開展規(guī)劃保護的準(zhǔn)確依據(jù)等相關(guān)模塊內(nèi)容。文化景觀遺跡是凝聚中華民族文化的精神圖騰,需要以原真性與完整性為原則對景觀遺跡進行調(diào)查,對基礎(chǔ)信息數(shù)據(jù)庫進行完善,為系統(tǒng)性的遺跡景觀修復(fù)研究提供科學(xué)依據(jù)。
本研究對以生成對抗神經(jīng)網(wǎng)絡(luò)技術(shù)為基礎(chǔ)的建筑學(xué)科領(lǐng)域研究現(xiàn)狀進行了梳理,構(gòu)建從前期大數(shù)據(jù)爬??;中期人工神經(jīng)網(wǎng)絡(luò)構(gòu)建及訓(xùn)練;后期生成結(jié)果記錄分析的完整研究流程方法。傳統(tǒng)形式的文化景觀資源調(diào)查中,調(diào)查對象主要包括遺跡本體、附屬設(shè)置在內(nèi)的相關(guān)遺存等,然而通過人工智能方法學(xué)習(xí)遺跡景觀空間布局特征進而復(fù)原損壞部分這一方法乃為本研究創(chuàng)新之處,這也得益于靈活運用人工神經(jīng)網(wǎng)絡(luò)遠(yuǎn)高于人類的特定數(shù)據(jù)特征學(xué)習(xí)能力。
通過前文研究過程論述表明,與傳統(tǒng)遺跡景觀復(fù)原設(shè)計相比,應(yīng)用對抗生成網(wǎng)絡(luò)支持下的復(fù)原結(jié)果損失函數(shù)可達(dá)到一定迭代訓(xùn)練批次下實現(xiàn)收斂。證明該特征學(xué)習(xí)生成圖像,進而進行復(fù)原工作的方法對遺跡景觀乃至城市設(shè)計方面的可行性、創(chuàng)新性,成為以智能化方法解決相關(guān)問題的有效途徑,能夠成為引領(lǐng)未來城市設(shè)計、景觀修復(fù)方向的主要途徑之一。
資料來源:
圖2:英偉達(dá)《ArchiGAN:a Generative Stack for Apartment Building Design》;
圖3:根據(jù)pix2pix網(wǎng)絡(luò)模型自行訓(xùn)練生成結(jié)果;
文中其余圖片均為作者自繪。