張春明, 譚人殊, 宋晨明, 趙黨書(shū)
1.云南藝術(shù)學(xué)院,昆明 650101;2.西安交通大學(xué),西安 710049;3.昆明理工大學(xué),昆明 650031
從2012年開(kāi)始, 住房和城鄉(xiāng)建設(shè)部、 文化和旅游部、 財(cái)政部組織開(kāi)展了全國(guó)傳統(tǒng)村落摸底調(diào)查, 截至2019年第5次全國(guó)傳統(tǒng)村落調(diào)查統(tǒng)計(jì), 全國(guó)有6819個(gè)傳統(tǒng)村落進(jìn)入統(tǒng)計(jì)名單.
村落的建筑環(huán)境隨著經(jīng)濟(jì)建設(shè)的發(fā)展, 傳統(tǒng)的民居建筑正在日益遭受到逐步的蠶食, 村落的風(fēng)貌正在逐步的異化, 所幸的是這樣的問(wèn)題已逐漸得到重視, 但是對(duì)于傳統(tǒng)村落的保護(hù)發(fā)展, 如何評(píng)估村落民居的建筑特征風(fēng)貌, 對(duì)其進(jìn)行分類(lèi)統(tǒng)計(jì)管理, 確實(shí)是一件非常必要且困難的工作.
對(duì)于傳統(tǒng)村落的保護(hù), 迫切地需要對(duì)村落民居建筑的數(shù)量、 風(fēng)貌、 建筑質(zhì)量、 建筑高度等信息進(jìn)行量化的評(píng)估和分析, 進(jìn)而完善對(duì)村落規(guī)劃發(fā)展管理, 目前在全國(guó)開(kāi)展的實(shí)用性村莊規(guī)劃編制工作中, 對(duì)此也提出了具體的相關(guān)要求, 然而目前對(duì)于村落建筑信息的統(tǒng)計(jì)主要還是通過(guò)人工現(xiàn)場(chǎng)調(diào)研的方式進(jìn)行, 對(duì)民居進(jìn)行多方位的拍照之后, 對(duì)其建筑特征進(jìn)行人工的判讀識(shí)別. 這樣的方式, 一方面容易受到所在地村落交通、 氣候和地形等因素的限制, 給數(shù)據(jù)的采集帶來(lái)不便, 同時(shí)還會(huì)增加大量的調(diào)研成本; 另一方面由于通過(guò)人工判讀的方式, 勢(shì)必會(huì)因?yàn)榕凶x人學(xué)科背景、 生活經(jīng)歷、 心情情緒等主觀的因素影響, 帶去一些不確定的變化, 給建筑風(fēng)貌的界定的結(jié)果帶去一定的擾動(dòng).
新技術(shù)新數(shù)據(jù)的不斷涌現(xiàn)為更為細(xì)致的空間品質(zhì)研究提供了豐富的數(shù)據(jù)基礎(chǔ), 同時(shí)將機(jī)器學(xué)習(xí)、 邊緣計(jì)算等智能技術(shù)運(yùn)用于各個(gè)行業(yè), 是一個(gè)順應(yīng)時(shí)代發(fā)展的解決方案[1]. 這樣的研究首先需要進(jìn)行一個(gè)數(shù)據(jù)收集過(guò)程來(lái)收集所需的數(shù)據(jù), 該過(guò)程收集關(guān)鍵的建筑影像數(shù)據(jù), 通常依賴于現(xiàn)場(chǎng)調(diào)查. 如此高度的勞動(dòng)密集型和耗時(shí)的工作使得進(jìn)行大規(guī)模的建筑風(fēng)貌評(píng)測(cè)極其困難. 在這方面, 以有效的方式收集和集成建筑風(fēng)貌數(shù)據(jù)仍然是目前學(xué)術(shù)界研究的挑戰(zhàn).
目前的研究, 基于深度神經(jīng)網(wǎng)絡(luò)的信息抽取模型在公開(kāi)數(shù)據(jù)集取得了不錯(cuò)的成績(jī)[2], 但是很難同時(shí)保證大范圍、 細(xì)粒度的計(jì)算結(jié)果[3]. 本研究提出了一個(gè)通用的框架來(lái)解決上述挑戰(zhàn), 它利用現(xiàn)場(chǎng)獲取的民居圖像進(jìn)行民居建筑的特征提取和分類(lèi). 具體來(lái)說(shuō), 調(diào)研現(xiàn)場(chǎng)拍攝的圖像中顯示的立面結(jié)構(gòu)足夠豐富 , 可以進(jìn)行民居建筑特征分類(lèi)(圖1), 圖1中的建筑立面顯示的細(xì)節(jié)比相應(yīng)之前研究通過(guò)衛(wèi)星遙感影像圖顯示的屋頂圖, 揭示了不同類(lèi)型的建筑更多的細(xì)節(jié) . 因此, 在該方法中, 根據(jù)建筑現(xiàn)場(chǎng)圖片對(duì)建筑進(jìn)行分類(lèi)訓(xùn)練, 然后通過(guò)高分影像圖空間聚類(lèi)將推斷出的特征標(biāo)簽與單個(gè)建筑連接起來(lái), 在此基礎(chǔ)之上, 利用卷積神經(jīng)網(wǎng)絡(luò)和反向傳播算法, 通過(guò)卷積操作對(duì)民居建筑圖像的特征進(jìn)行提取, 對(duì)于民居的風(fēng)格, 卷積神經(jīng)網(wǎng)絡(luò)模型的淺層學(xué)習(xí)主要是諸如民居外觀紋理、 顏色等簡(jiǎn)單特征, 而深層學(xué)習(xí)的是一些高緯度語(yǔ)義特征, 將這些高緯度語(yǔ)義特征和民居建筑風(fēng)格的標(biāo)簽對(duì)應(yīng), 通過(guò)反向傳播算法這種監(jiān)督學(xué)習(xí)的方式不斷迭代優(yōu)化模型參數(shù), 最終建立輸入(原始圖像)和輸出(建筑風(fēng)格)映射關(guān)系. 基于此原理, 此次研究中, 試圖建立一個(gè)構(gòu)建民居建筑圖像的基準(zhǔn)數(shù)據(jù)集, 以訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)在建制村范圍內(nèi)進(jìn)行分類(lèi)訓(xùn)練, 進(jìn)而對(duì)民居的多維度特征進(jìn)行機(jī)器識(shí)別與判讀, 因?yàn)镃NN已經(jīng)被證明了其在這類(lèi)任務(wù)中強(qiáng)大的能力[4-5].
圖1 民居建筑數(shù)據(jù)集
綜上所述, 本研究的貢獻(xiàn)如下:
1) 提出了基于單體建筑物層面上的特征分類(lèi)的一般框架;
2) 基于立面結(jié)構(gòu)構(gòu)建了一個(gè)用于訓(xùn)練建筑實(shí)例CNN分類(lèi)器的建筑圖片基準(zhǔn)數(shù)據(jù)集. 本研究所使用的數(shù)據(jù)集主要通過(guò)研究地村落現(xiàn)場(chǎng)圖片拍攝獲取;
3) 所獲得的建筑分類(lèi)圖顯示了數(shù)據(jù)對(duì)于村落量化分析的潛力. 對(duì)后續(xù)理解村落布局結(jié)構(gòu)和成因量化將起到很大的幫助.
隨著大數(shù)據(jù)技術(shù)的推廣深化以及人工智能工業(yè)應(yīng)用的蓬勃發(fā)展, 越來(lái)越多的研究者嘗試結(jié)合人工智能手段和傳統(tǒng)學(xué)科之間的大數(shù)據(jù)展開(kāi)系統(tǒng)、 深入的挖掘[6-7]. 本次研究主要通過(guò)深度學(xué)習(xí)的方法對(duì)傳統(tǒng)民居建筑風(fēng)貌進(jìn)行特征提取判讀. 建筑單體圖片是反映建筑風(fēng)貌的最直觀的數(shù)據(jù), 通過(guò)圖片元素對(duì)建筑的風(fēng)格、 材質(zhì)和結(jié)構(gòu)形式等多個(gè)物理特征進(jìn)行分辨, 在過(guò)去的幾十年里, 對(duì)圖片的機(jī)器理解仍然是模式識(shí)別和圖像分類(lèi)領(lǐng)域的一個(gè)活躍的研究課題. 具體來(lái)說(shuō), 給定一個(gè)建筑單體圖像, 不僅檢測(cè)到單個(gè)建筑立面元素以及它們的物理屬性, 還檢測(cè)到與此更為高級(jí)相關(guān)的有意義的語(yǔ)義單元, 可以識(shí)別出相關(guān)信息(如風(fēng)格、 建筑質(zhì)量). 早期的工作集中于基于低級(jí)圖像處理的平面圖分析, 如通過(guò)霍夫變換[4]的線檢測(cè), 通過(guò)字袋模型[8]的圖形符號(hào)識(shí)別. 對(duì)于建筑幾何特征和外觀形式及組合模式的主要依賴于圖片所反映的建筑物理屬性進(jìn)行判斷識(shí)別. 近年來(lái), 一些基于CNN的數(shù)據(jù)驅(qū)動(dòng)技術(shù)[9-11]已經(jīng)取得了很好的效果. 然而, 他們使用的公共數(shù)據(jù)集[9,12-14]是從城市住宅中收集的 , 居住建筑外觀的復(fù)雜性是有限的, 而圖形元素則是常規(guī)形式. 相比之下, 農(nóng)村住宅受地形、 氣候和居住習(xí)慣等多方面因素的影響, 其建筑結(jié)構(gòu)更加復(fù)雜 , 風(fēng)格更加多元. 因此, 不同農(nóng)村地區(qū)的建筑有著不同的幾何結(jié)構(gòu)形式和建筑外觀風(fēng)格. 這些因素使得人工智能對(duì)于建筑的分類(lèi)效果不能獲得令人滿意的預(yù)測(cè)結(jié)果.
本研究的主要步驟流程是對(duì)村落民居的圖片采集、 圖片預(yù)處理、 民居風(fēng)貌特征分類(lèi)與映射. 此次圖片數(shù)據(jù)的采集主要是通過(guò)對(duì)元陽(yáng)多依樹(shù)村進(jìn)行人工拍照的方式獲取各個(gè)自然村民居建筑圖片, 在此基礎(chǔ)之上, 對(duì)圖片進(jìn)行初期的篩選及圖片預(yù)處理, 同時(shí)結(jié)合規(guī)劃文件的需要, 對(duì)民居建筑的特征提出了4個(gè)方面的特征指標(biāo)描述. 根據(jù)4個(gè)特征特點(diǎn)在多個(gè)不同卷積神經(jīng)網(wǎng)絡(luò)模型上進(jìn)行隨機(jī)分割圖片數(shù)據(jù)的預(yù)測(cè)指標(biāo)得分對(duì)比, 進(jìn)而選出最優(yōu)模型結(jié)構(gòu). 在此基礎(chǔ)上, 采用測(cè)試集數(shù)據(jù)進(jìn)行數(shù)據(jù)驗(yàn)證, 判別模型的可行性.
CNN可以應(yīng)用在場(chǎng)景分類(lèi)和圖像分類(lèi), LeNet是最早的CNN結(jié)構(gòu)之一, 主要用在字符分類(lèi)問(wèn)題(圖2). 由于在程序中使用了卷積運(yùn)算, 不僅可以提取圖片的特征, 而且卷積運(yùn)算保持了像素之間的空間關(guān)系. 在CNN中, 使用了濾波器作為特征提取器, 而通過(guò)卷積得到的矩陣則稱(chēng)為“特征圖”. 在選擇特定的CNN時(shí), 應(yīng)考慮到目標(biāo)對(duì)象的圖像特征, 如農(nóng)村建筑與城市建筑之間的差異, 以及粗粒度建筑的情況. 因?yàn)楝F(xiàn)實(shí)世界的分類(lèi)問(wèn)題都是非線性的, 而卷積運(yùn)算是線性運(yùn)算, 所以在使用CNN來(lái)解決的時(shí)候, 必須使用一個(gè)如ReLU(或其他非線性函數(shù), 如Tanh和Sigmoid, )的非線性函數(shù)來(lái)加入結(jié)果的非線性的性質(zhì), 然后采用下采樣的形式, 提取經(jīng)過(guò)ReLU的處理過(guò)后的特征值, 或提取元素平均值或提取最大值, 從而在保持圖片重要的信息的同時(shí)降低特征圖的維度. 最后通過(guò)全連接層(多層感知器), 使用一個(gè)softmax激活函數(shù), 將前面卷積層提取到的特征結(jié)合在一起然后進(jìn)行分類(lèi). 得出一個(gè)值0-1的向量, 通過(guò)概率值來(lái)判斷圖片分類(lèi).
圖2 CNN示意
近年來(lái), 深度學(xué)習(xí)方法, 特別是CNN在各種計(jì)算機(jī)視覺(jué)任務(wù)中的表現(xiàn)已經(jīng)超越了傳統(tǒng)的方法, 如其在目標(biāo)檢測(cè)、 語(yǔ)義和圖像分割方面均取得很好的研究成果. 用標(biāo)簽標(biāo)注圖像像素的方法是基于圖像中的語(yǔ)義來(lái)進(jìn)行劃分識(shí)別的, 也就是說(shuō)該算法從圖像中將存在于圖像中的, 諸如汽車(chē)、 樹(shù)木或建筑物作為語(yǔ)義從整個(gè)圖像中提取出來(lái), 并將每個(gè)語(yǔ)義進(jìn)行標(biāo)定. 此外, 在計(jì)算機(jī)視覺(jué)領(lǐng)域, 有大量的研究是關(guān)于卷積神經(jīng)網(wǎng)絡(luò)中使用的各種模塊, 這些模塊利用了“每個(gè)對(duì)象分類(lèi)”的概念. 這些模塊, 如卷積和金字塔池, 提高了語(yǔ)義分割任務(wù)的算法性能. 近年來(lái), 隨著芯片處理能力(如GPU單元)的顯著提高, 計(jì)算硬件成本的顯著降低, 以及機(jī)器學(xué)習(xí)算法的顯著進(jìn)展[15], 深度學(xué)習(xí)在圖像識(shí)別領(lǐng)域取得了迅速的進(jìn)展, 從而大大提高了計(jì)算機(jī)的處理能力.
隨著城市更新從“增量時(shí)代”到“存量時(shí)代”的變遷, 建成環(huán)境的數(shù)據(jù)以及與之對(duì)應(yīng)的人類(lèi)行為數(shù)據(jù)之間的關(guān)系愈發(fā)密切, 大數(shù)據(jù)通過(guò)證明以人為本的視角、 及時(shí)和實(shí)時(shí)的信息和精細(xì)分辨率的空間動(dòng)態(tài)規(guī)律[16]. 面對(duì)建成環(huán)境所產(chǎn)生的諸如遙感影像和街景圖片的數(shù)據(jù)研究, 經(jīng)過(guò)過(guò)去幾年的圖像分析研究土地規(guī)劃領(lǐng)域[17], 高分辨率(VHR)遙感圖像的語(yǔ)義標(biāo)簽, 為圖像中的每個(gè)像素分配一個(gè)類(lèi)別的任務(wù), 包括土地使用規(guī)劃、 基礎(chǔ)設(shè)施管理和城市擴(kuò)張檢測(cè), 采用深度學(xué)習(xí)介入的方式已經(jīng)被廣泛采用.
隨著深度學(xué)習(xí)技術(shù)研究的深入, 街景圖片因?yàn)槠渥陨頂?shù)量上的特征, 并且其所附帶的地理位置信息的特點(diǎn), 逐漸成為對(duì)于建成環(huán)境進(jìn)行量化研究的重要數(shù)據(jù)來(lái)源. 基于人本視角的空間量化評(píng)測(cè)成為研究的重要方向, 包括對(duì)于街道的風(fēng)貌特征、 環(huán)境特征、 建筑材料和功能的檢測(cè)、 建筑立面構(gòu)件的語(yǔ)義分割與街景環(huán)境之間的關(guān)系. Gong等[18]開(kāi)發(fā)了一種方法準(zhǔn)確估計(jì)天空景觀因子, 使用公開(kāi)的谷歌街景(GSV)圖像和深度學(xué)習(xí)輸出算法提取街道特征(天空、 樹(shù)木和建筑). 此外, Gonzalez等[19]探索了使用CNN自動(dòng)檢測(cè)基于街道水平圖像的建筑材料和橫向負(fù)載抵抗系統(tǒng)類(lèi)型的潛力. 在本研究測(cè)試的5種網(wǎng)絡(luò)架構(gòu)中, ResNet50的性能最好. Dai等[20]提出了一種新的集成模型, 用于建筑立面組件的語(yǔ)義分割, 以便對(duì)需求進(jìn)行分類(lèi)用于建筑改造的街景建筑立面圖像數(shù)據(jù)集.
本研究提出了一種新的基于深度學(xué)習(xí)的建筑分類(lèi)識(shí)別框架, 重點(diǎn)是更好地理解村落民居的建筑風(fēng)貌劃分. 為此, 首先建立了一個(gè)新的數(shù)據(jù)集, 其中包含420個(gè)真實(shí)民居建筑風(fēng)貌圖片, 其中每個(gè)建筑的特征屬性都進(jìn)行了手工標(biāo)注 . 與之前的工作相比 , 本研究不僅標(biāo)記了建筑的幾何特征和風(fēng)貌信息, 還對(duì)建筑的材質(zhì)特征和建筑質(zhì)量特征進(jìn)行了相應(yīng)的信息標(biāo)注.
基于數(shù)據(jù)集的特點(diǎn), 設(shè)計(jì)了基于ResNet架構(gòu)的3種不同的語(yǔ)義分割模型, 并以集成的方式進(jìn)行訓(xùn)練.
3.1.1 數(shù)據(jù)集和研究區(qū)域
民居建筑單體圖片的采集主要采用EOS 200D II(EF-S 18-55mm f/4-5.6 IS STM1)設(shè)備采集, 由于多數(shù)民居均處于山地, 為了更為全面的反映建筑自身特點(diǎn), 采用3個(gè)獨(dú)立的方位進(jìn)行拍照采集, 每張圖片像素均為2 048×2 048, 3張圖片形成一個(gè)覆蓋建筑單體的圖片數(shù)據(jù)組, 反映建筑單體各項(xiàng)物理特征. 用于構(gòu)建數(shù)據(jù)集的圖像是課題組在被列入世界遺產(chǎn)名錄的紅河哈尼梯田景區(qū)的核心部位——元陽(yáng)多依樹(shù)村進(jìn)行的數(shù)據(jù)采集. 目前還沒(méi)有針對(duì)少數(shù)民族民居建筑類(lèi)型的的數(shù)據(jù)庫(kù), 因此參考英國(guó)住宅建筑類(lèi)型學(xué)數(shù)據(jù)庫(kù)進(jìn)行了特征分類(lèi). 該數(shù)據(jù)庫(kù)根據(jù)建筑類(lèi)型對(duì)建筑特征進(jìn)行分類(lèi), 其定義的3種主要建筑類(lèi)型包括單戶住宅、 多戶住宅和排屋. 此次研究形成的數(shù)據(jù)集共涵蓋420棟獨(dú)立的民居建筑, 共計(jì)1 260張圖片, 其中有133張由于拍攝光線和鏡頭抖動(dòng)的原因, 被判為廢圖, 有效圖片共計(jì)1 127張. 該數(shù)據(jù)集被分為訓(xùn)練集、 驗(yàn)證集和測(cè)試集, 其比例分別為80%,10%和10%. 因此, 訓(xùn)練集有901張圖像, 驗(yàn)證集和測(cè)試集各有113張圖像.
結(jié)合民居建筑和深度學(xué)習(xí)特點(diǎn), 對(duì)圖片分類(lèi)的建筑特征指標(biāo)包括建筑層數(shù)、 建筑風(fēng)格、 建筑質(zhì)量和建筑材料等4個(gè)特征進(jìn)行實(shí)驗(yàn). 同時(shí)為了能夠增強(qiáng)模型的泛化性, 考慮到在實(shí)際的使用場(chǎng)景中, 模型的識(shí)別率會(huì)受到天氣、 拍攝角度和光照等因素的影響, 為了能夠讓數(shù)據(jù)的分布盡可能接近真實(shí)世界, 本研究對(duì)數(shù)據(jù)進(jìn)行了數(shù)據(jù)增強(qiáng), 方式有隨機(jī)翻轉(zhuǎn)、 隨機(jī)旋轉(zhuǎn)、 隨機(jī)顏色和亮度變換等(圖3).
圖3 數(shù)據(jù)增強(qiáng)
考慮到傳統(tǒng)民居建筑的特點(diǎn)和實(shí)際場(chǎng)景應(yīng)用時(shí)對(duì)實(shí)時(shí)性的要求, 選用了3種卷積神經(jīng)網(wǎng)絡(luò)模型在本研究的數(shù)據(jù)集上做了充分的實(shí)驗(yàn), 這3組模型分別是MobileNetV3,ResNet50和EfficientNetB3a, 3組模型的網(wǎng)絡(luò)結(jié)構(gòu)見(jiàn)表1-表3.
表1 EfficientNet網(wǎng)絡(luò)結(jié)構(gòu)
表2 MobileNet 網(wǎng)絡(luò)結(jié)構(gòu)
表3 ResNet50網(wǎng)絡(luò)結(jié)構(gòu)
ResNet通過(guò)殘差模塊解決了深度神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練過(guò)程中梯度消失和爆炸的問(wèn)題, 在多個(gè)數(shù)據(jù)集上都表現(xiàn)出良好的性能, 同樣也適用于本次研究的傳統(tǒng)民居數(shù)據(jù)集. MobileNet使用深度可分離卷積在保證一定模型精度的前提條件下, 大大降低了模型的參數(shù), 相對(duì)于本次實(shí)驗(yàn)的其他兩組模型, 參數(shù)量最少, 更適用于實(shí)時(shí)的計(jì)算場(chǎng)景. EfficientNet通過(guò)復(fù)合模型縮放的技術(shù)在網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行搜索, 對(duì)卷積和的大小、 神經(jīng)網(wǎng)絡(luò)的深度和分辨率大小進(jìn)行調(diào)整, 在保證一定效率的同時(shí)提高模型的精度, 但是模型的參數(shù)較多, 計(jì)算相對(duì)較慢, 更適合于一些對(duì)實(shí)時(shí)性不高的應(yīng)用場(chǎng)景.
本研究模型的實(shí)驗(yàn)環(huán)境為Inter@core i7-9700K處理器, 顯卡為NVIDIA Geforce GTX3090 24GB, 內(nèi)存為32GB, 操作系統(tǒng)為Ubuntu 20.04, 64位系統(tǒng), CUDA11.3, CUDNN8.0.1, 深度學(xué)習(xí)框架為Pyotrch1.8.0, 編程語(yǔ)言為Python3.8.5, 集成開(kāi)發(fā)環(huán)境為PycharmCE2022, 繪圖工具為Matplotlib1.3.1.
本次研究是基于深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行的, 深度學(xué)習(xí)在訓(xùn)練之前需要保證超參數(shù)一致, 在4組數(shù)據(jù)的3個(gè)模型實(shí)驗(yàn)上, 測(cè)試修改了網(wǎng)絡(luò)結(jié)構(gòu)和最后的全連接層, 其余的參數(shù)均保持一致. 數(shù)據(jù)訓(xùn)練的批次大小為4, 輪數(shù)設(shè)置為10, 學(xué)習(xí)率初始為0.001, 采用余弦退火算法動(dòng)態(tài)調(diào)整學(xué)習(xí)率, 優(yōu)化器使用的是ADAM優(yōu)化器, 采用遷移學(xué)習(xí)的方式對(duì)模型進(jìn)行訓(xùn)練, 在模型訓(xùn)練之前加載了模型在Imagenet上的預(yù)訓(xùn)練權(quán)重. 值得一提的是, 為了解決訓(xùn)練過(guò)程中樣本類(lèi)別分布不均的問(wèn)題, 采用了Focalloss的損失函數(shù), 相對(duì)于傳統(tǒng)的交叉熵?fù)p失函數(shù)可以幫助模型快速收斂, 該損失函數(shù)的公式為:
Focal Loss由Facebook人工智能研究院于2018年2月提出[21], 本研究探討了一階段目標(biāo)檢測(cè)比二階段目標(biāo)檢測(cè)精度差的原因, 即分類(lèi)問(wèn)題中類(lèi)別不平衡以及分類(lèi)難度存在差異, 并根據(jù)該原因提出了Focal Loss損失函數(shù). 以二分類(lèi)問(wèn)題為例, 傳統(tǒng)的交叉熵?fù)p失函數(shù)的定義見(jiàn)(1)-(3), 其中y′表示預(yù)測(cè)值, 即使用Sigmoid激活函數(shù)得到的預(yù)測(cè)值,y表示的是真實(shí)標(biāo)簽, 取值為0或1, 1表示正樣本, 0表示負(fù)樣本. 該損失函數(shù)存在的一個(gè)明顯問(wèn)題就是對(duì)于正樣本而言, 輸出概率越大損失越小, 對(duì)于負(fù)樣本而言, 輸出概率越小損失越小, 這樣會(huì)導(dǎo)致模型在大量簡(jiǎn)單樣本的迭代過(guò)程中參數(shù)更新緩慢, 并且無(wú)法優(yōu)化到最優(yōu). 針對(duì)這一問(wèn)題, 本研究在該損失函數(shù)的基礎(chǔ)上引進(jìn)了參數(shù)γ和參數(shù)α, 通常γ取2,α取0.25.γ參數(shù)的主要作用是讓模型關(guān)注難區(qū)分的樣本, 以正樣本為例, 當(dāng)預(yù)測(cè)概率取值較大時(shí), 函數(shù)的損失值會(huì)變得很小, 而當(dāng)概率值取值較小時(shí), 損失函數(shù)值會(huì)變得很大, 從而降低了簡(jiǎn)單樣本的影響, 增加了模型的訓(xùn)練速度和泛化能力.α參數(shù)則主要是解決正負(fù)樣本比例不均衡的問(wèn)題, 用來(lái)平衡正負(fù)樣本的重要性. 將二分類(lèi)的Focal loss推廣到多分類(lèi)問(wèn)題上, 可以得到(1)-(3)式所示的損失函數(shù).
圖4-圖7是4組模型在訓(xùn)練過(guò)程中驗(yàn)證集上Loss和ACC的變化, 其中藍(lán)色曲線表示MobileNetV3, 黃色曲線表示ResNet50, 綠色曲線表示EfficientNet. 從結(jié)果可以看出, 模型的Loss在第5個(gè)Epoch之后基本趨于收斂, 模型驗(yàn)證集上的ACC也在第5個(gè)Epoch之后趨于平穩(wěn), 并且從ACC的曲線中可以看出, 模型整體在數(shù)據(jù)驗(yàn)證集的表現(xiàn)中, EfficientNet的效果最佳, MobileNet的效果較差, ResNet表現(xiàn)適中.
圖4 樓層實(shí)驗(yàn)
圖5 建筑風(fēng)格
圖6 建筑質(zhì)量
圖7 建筑材料
通過(guò)本次實(shí)驗(yàn)對(duì)傳統(tǒng)民居建筑特征進(jìn)行量化研究, 在評(píng)價(jià)指標(biāo)上選用了分類(lèi)模型中常用的3個(gè)指標(biāo), 分別是準(zhǔn)確率P、 召回率R和綜合評(píng)價(jià)指標(biāo)F1.
對(duì)于一個(gè)機(jī)器學(xué)習(xí)模型而言, 可以將樣本的真實(shí)類(lèi)別和模型預(yù)測(cè)的類(lèi)別進(jìn)行組合, 劃分為如表4所示的4種情況, 將4種情況下所對(duì)應(yīng)的樣本數(shù)相加得到的數(shù)量就是樣本總數(shù), 即TP+FP+TN+FN=樣本總數(shù).
表4 樣本真實(shí)情況和預(yù)測(cè)結(jié)果對(duì)照表
根據(jù)定義, 可以衍生出查全率(recall, 簡(jiǎn)寫(xiě)為R)和查準(zhǔn)率(precision, 簡(jiǎn)寫(xiě)為P)兩個(gè)概念, 計(jì)算公式為
(4)
(5)
F1和ACC則是綜合評(píng)價(jià)指標(biāo), 可以同時(shí)兼顧模型的精度和召回率,F1的定義如下:
3.4.1 性能指標(biāo)
在測(cè)試集上對(duì)本研究的模型進(jìn)行了測(cè)試, 測(cè)試的結(jié)果見(jiàn)表5-表7.
表5 召回指標(biāo)R
表6 準(zhǔn)確率指標(biāo)P
表7 F1分?jǐn)?shù)指標(biāo)
3.4.1 速度指標(biāo)
對(duì)訓(xùn)練得到的模型進(jìn)行了速度上的測(cè)試(表8), 測(cè)試的指標(biāo)是FPS, 即模型在1s之內(nèi)能處理多少?gòu)垐D片, 測(cè)試的設(shè)備是RTX3090.
表8 速度指標(biāo)
從結(jié)果上來(lái)看, 使用深度學(xué)習(xí)模型在4種建筑要素分類(lèi)上的指標(biāo)均可以達(dá)到80以上, 其中EfficientNet模型在識(shí)別指標(biāo)上表現(xiàn)最好, 綜合指標(biāo)表現(xiàn)最好; 而MobileNet在速度上表現(xiàn)最好, 但是精度相對(duì)較低. 從總體上看, 模型在建筑風(fēng)格、 建筑質(zhì)量和建筑材料的表現(xiàn)都較好, 在建筑樓層的識(shí)別上表現(xiàn)較差, 分析原因是樓層的特征對(duì)于其他3個(gè)建筑要素來(lái)說(shuō)相對(duì)表面, 深度神經(jīng)網(wǎng)絡(luò)提取的深度特征反而不利于樓層的識(shí)別, 后續(xù)的研究可采用語(yǔ)義分割的方法來(lái)提高建筑樓層識(shí)別的準(zhǔn)確率. 另外, 從總體指標(biāo)上來(lái)看, 本研究的指標(biāo)并沒(méi)有達(dá)到90以上, 其原因是本研究的數(shù)據(jù)多采集自真實(shí)場(chǎng)景, 在建筑周?chē)泻芏噜须s的背景導(dǎo)致模型學(xué)習(xí)的相對(duì)困難, 后續(xù)可以通過(guò)語(yǔ)義分割的方式提取干凈的建筑前景區(qū)域來(lái)進(jìn)一步提高識(shí)別的準(zhǔn)確率和精度.
本次研究的數(shù)據(jù)來(lái)自2021年的元陽(yáng)多依樹(shù)村調(diào)研, 就數(shù)據(jù)來(lái)源的時(shí)效性而言, 能夠很好地體現(xiàn)村落目前的保護(hù)情況. 由于地理環(huán)境和民族地區(qū)發(fā)展的原因限制, 云南本地傳統(tǒng)村落的調(diào)研和保護(hù)受到很大的影響, 現(xiàn)有的數(shù)據(jù)采集方法多依賴于人工現(xiàn)場(chǎng)調(diào)研, 使得調(diào)研的成本變得昂貴, 時(shí)間周期拉長(zhǎng), 本次研究提出的研究方法, 對(duì)采集到的數(shù)據(jù)集的分類(lèi)和映射具有較高的自動(dòng)化性, 從目前的測(cè)試結(jié)果來(lái)看, 能夠?qū)ㄖ亩囗?xiàng)特征指標(biāo)產(chǎn)生一個(gè)較好的評(píng)測(cè)結(jié)果, 有助于減少未來(lái)村落民居建筑研究中因人工認(rèn)知差異而造成的結(jié)果的不穩(wěn)定性. 云南省有25個(gè)少數(shù)民族, 每個(gè)民族由于其自身的文化和地理位置造就了不同的建筑風(fēng)格, 但每種建筑風(fēng)格都不同程度地因?yàn)榘l(fā)展的原因有了變化和異化, 隨著數(shù)據(jù)量的增加和具體參數(shù)的調(diào)整, 本次研究的這種方法是可轉(zhuǎn)移的, 而且準(zhǔn)確性會(huì)逐漸提高, 可以為傳統(tǒng)村落的保護(hù)政策研究提供數(shù)據(jù)上的量化參考.
本次的研究所采集的數(shù)據(jù)目前還是主要依靠人工進(jìn)行現(xiàn)場(chǎng)拍照的形式進(jìn)行, 雖然與目前的圖片數(shù)據(jù)采集技術(shù)(如3維激光采集、 傾斜攝影數(shù)據(jù)采集)相比, 人工采集的圖片具有容量小、 清晰度高和建筑細(xì)節(jié)準(zhǔn)確性等特點(diǎn), 但在數(shù)據(jù)的采集過(guò)程中還存在一定的主觀性和天氣氣候及光線的隨機(jī)性, 給數(shù)據(jù)的客觀性帶來(lái)了一定的波動(dòng)性. 此外, 由于云南省的民族眾多, 村落所在地理環(huán)境復(fù)雜, 導(dǎo)致民居形式豐富, 對(duì)每個(gè)民族或每個(gè)區(qū)域的村落風(fēng)貌的界定需要進(jìn)一步地提高數(shù)據(jù)集數(shù)量, 并且對(duì)模型的參數(shù)做進(jìn)一步的調(diào)試, 找到一定的規(guī)律性(如本次研究中, 對(duì)增強(qiáng)數(shù)據(jù)的參數(shù)進(jìn)行了多輪調(diào)試, 在測(cè)試結(jié)果的ACC和F1值上都取得了很好的提高), 在此過(guò)程中, 通過(guò)對(duì)參數(shù)的調(diào)試, 可以看出CNN模式對(duì)圖像的知覺(jué)認(rèn)知的指標(biāo)分類(lèi)具有很好的潛力, 這是研究下一步需要進(jìn)一步加強(qiáng)和完善的地方.
本研究提出了一個(gè)民居建筑風(fēng)貌分類(lèi)的研究框架, 它能夠?qū)D片進(jìn)行更豐富的分類(lèi). 該方法對(duì)單體民居建筑物的特征分類(lèi)具有較高的識(shí)別精度. 為了完成這個(gè)任務(wù), 本研究構(gòu)建了一個(gè)包含4個(gè)民居建筑特征類(lèi)別的人工采集的基準(zhǔn)數(shù)據(jù)集, 用于訓(xùn)練和測(cè)試. 通過(guò)研 究3種不同的CNN架構(gòu) , 選擇綜合指標(biāo)表現(xiàn)最優(yōu)的EfficientNetB3a進(jìn)行村落尺度上的民居建筑特征分類(lèi). 這樣的研究結(jié)果有助于了解村落民居發(fā)展和異化的規(guī)律.
為了提高模型的泛化力和對(duì)圖片分類(lèi)性能的準(zhǔn)確性, 未來(lái)的工作可以融合其他信息, 如社交媒體圖像和圖像中顯示的文本信息, 又如圖片標(biāo)題和圖片附帶的情感語(yǔ)言信息. 此外, 為了獲得更密集的民居村落圖片, 可以結(jié)合遙感影像圖像和附帶地理信息的傾斜攝影圖像數(shù)據(jù)(建筑數(shù)據(jù)單體化)進(jìn)行多源的數(shù)據(jù)綜合測(cè)評(píng)研究. 在此基礎(chǔ)上, 由于有了量化的數(shù)據(jù)測(cè)評(píng), 如果在后續(xù)的研究中加入時(shí)間維度的考量, 就能夠?qū)Υ迓涿窬语L(fēng)貌的變化有更為準(zhǔn)確的量化描述, 對(duì)于村落保護(hù)的監(jiān)測(cè)具有更為重要的意義.