摘要:為解決無人機影像中建筑物輪廓提取的技術難點,文章提出一種基于深度學習的建筑物輪廓提取方法。通過結合高分辨率無人機影像數(shù)據(jù),應用U-Net、Mask R-CNN及DeepLabV3+等深度學習模型,對輪廓提取的邊界精度、召回率及綜合性能進行全面對比分析。實驗結果顯示,DeepLabV3+的F1分數(shù)在不同時間段均超過92%,顯著優(yōu)于Canny邊緣檢測方法(最高76.2%) 。DeepLabV3+在復雜場景中的邊界清晰度和抗干擾能力表現(xiàn)尤為突出。本研究結果表明,深度學習方法,尤其是DeepLabV3+,可為城市規(guī)劃和建筑監(jiān)測提供更高效、可靠的建筑物輪廓提取方案。
關鍵詞:無人機影像;建筑物輪廓提??;深度學習;語義分割
中圖分類號:TP391" "文獻標識碼:A
文章編號:1009-3044(2025)21-0098-03
開放科學(資源服務) 標識碼(OSID)
隨著無人機遙感技術的迅速發(fā)展,其在建筑物信息提取中的應用逐漸受到重視。建筑物輪廓的精準提取在城市規(guī)劃、災害評估以及三維建模等領域具有重要意義[1]。無人機影像在建筑物輪廓提取中的應用因其在城市規(guī)劃、災害評估及三維建模等領域的重要性而日益受到關注。無人機影像的復雜性(如光照變化、視角干擾) 使得傳統(tǒng)影像處理方法難以滿足高精度要求。
1 無人機影像建筑物輪廓提取概況
1.1 無人機影像特點
無人機影像因其高分辨率和多視角特點,在建筑物輪廓提取中表現(xiàn)出極大的技術優(yōu)勢[2]。高分辨率影像能夠捕捉建筑物的微小細節(jié),例如墻體邊緣、屋頂結構等,為輪廓提取提供了精準的邊界信息;多視角影像通過不同角度的覆蓋,有助于重建建筑物的三維結構,準確還原其復雜的幾何形態(tài)。無人機獲取數(shù)據(jù)方便靈活,不受地形及環(huán)境的制約,可對各種應用場景做出快速反應,其低成本特性也使其適于作為建筑物輪廓提取與監(jiān)測項目的數(shù)據(jù)源。
1.2 深度學習技術在影像處理中的優(yōu)勢
深度學習技術為無人機影像處理提供了革命性的手段,其核心優(yōu)勢在于能夠自動提取和分類圖像中的復雜特征[3]。傳統(tǒng)影像處理技術通常依賴人工設計特征,如邊緣檢測或顏色閾值,但這些方法在復雜場景中難以捕捉圖像的深層信息。深度學習模型(如卷積神經(jīng)網(wǎng)絡CNN) 通過多層網(wǎng)絡結構自動學習圖像中的高維特征,不僅能提取局部邊緣和紋理信息,還能通過特征層的疊加捕獲全局上下文信息。這種自動學習方式能夠動態(tài)適應不同場景和數(shù)據(jù)分布,比人工設計特征更靈活、更精準。
2 主要挑戰(zhàn)及應對措施
2.1 主要挑戰(zhàn)
無人機影像建筑物輪廓提取面臨一系列技術挑戰(zhàn)。無人機影像通常存在光照、陰影以及視角變化等復雜因素,對深度學習模型的泛化能力提出了更高要求。無人機采集的影像數(shù)據(jù)量巨大,數(shù)據(jù)質量參差不齊,這對模型的訓練和預測提出了挑戰(zhàn)[4]。無人機影像建筑物輪廓提取面臨諸多技術挑戰(zhàn):深度學習模型對高質量、標注完善的大規(guī)模數(shù)據(jù)集有較強依賴性,而數(shù)據(jù)獲取與標注的成本較高。建筑物輪廓的復雜性和多樣性,例如不同建筑類型的材質、形狀,以及環(huán)境遮擋和視角變化的影響,進一步增加了提取任務的難度。
2.2 關鍵應對措施
考慮無人機影像復雜性和深度學習模型要求,可采用一系列優(yōu)化措施。數(shù)據(jù)增強技術對于解決數(shù)據(jù)缺乏多樣性問題具有重要意義,它通過圖像的旋轉、裁剪和噪聲添加來增強模型魯棒性[5]。影像預處理技術(例如圖像降噪、畸變校正等) 可以改善數(shù)據(jù)質量,為后續(xù)模型訓練提供高質量輸入。采用多尺度深度學習模型(如U-Net或FPN) ,能夠在不同尺度下提取影像特征,有效提升邊緣細節(jié)的提取精度。
3 基于深度學習的建筑物輪廓提取方法
3.1 數(shù)據(jù)預處理及仿真模型構建
影像數(shù)據(jù)的預處理是提升深度學習在無人機影像建筑物輪廓提取中表現(xiàn)的關鍵步驟,主要包括數(shù)據(jù)清洗、增強和分割。高分辨率無人機影像的采集結合了人工標注的建筑物輪廓數(shù)據(jù)與開源數(shù)據(jù)集(如INRIA Aerial Image Dataset、DeepGlobe數(shù)據(jù)集) ,通過制定嚴格的標注標準和質量控制措施(如多輪標注一致性檢查) 確保數(shù)據(jù)多樣性和標注準確性。為增強模型的適用性,構建了仿真場景用于數(shù)據(jù)擴展,仿真場景的構建包括密集建筑、單體建筑和復雜地形場景,具體通過調(diào)整影像分辨率、添加噪聲和模擬不同光照條件實現(xiàn)多樣化效果。利用影像特征提取模型對建筑物形狀、邊緣和紋理特征進行初步標記,為深度學習模型提供高質量的輸入數(shù)據(jù)。本研究選取了建筑物輪廓提取的四個關鍵指標:邊界精度(Boundary Accuracy, BA) 、召回率(Recall, R) 、提取效率(Efficiency, E) 和綜合性能(F1 Score, F1) ,作為模型性能評價的核心標準。
3.2 深度學習模型及參數(shù)選擇
為提取無人機影像中的建筑物輪廓,本研究選取了以下深度學習模型進行適用性分析。U-Net適用于小樣本數(shù)據(jù)集,具有強大的像素級預測能力。Mask R-CNN能夠在目標檢測與實例分割中表現(xiàn)優(yōu)異,適合復雜場景中的輪廓提取。DeepLabV3+支持多尺度特征提取,對建筑物復雜邊界有較高的適應能力。模型的超參數(shù)選擇直接影響輪廓提取效果。本研究針對學習率、卷積核大小、網(wǎng)絡深度等參數(shù)進行了優(yōu)化,損失函數(shù)(Loss Function) 如下。
[L=-1Ni=1Nyilogyi+1-yilog1-yi]" (1)
式(1) 中[yi]為真實標簽,[yi]為模型預測值,N為樣本總數(shù)。優(yōu)化算法(Optimizer) 如下。
[θt+1=θt-η?θL]" (2)
式(2) 中[η]為學習率[,?θL]為損失函數(shù)的梯度。卷積操作(Convolution) 如下。
[Oi,j=m=1Mn=1NIi+m-1,j+n-1?Km,n]" (3)
式(3) 中I為輸入特征圖,K為卷積核,O為輸出特征圖。評價指標(F1 Score) 如下。
[F1=2?Precision?RecallPrecision+Recall]" (4)
為提取無人機影像中的建筑物輪廓,本研究在模型訓練過程中設置了具體的參數(shù)和優(yōu)化策略,以確保最佳性能。訓練使用的批量大小(batch size) 設置為16,訓練輪數(shù)(epoch) 為50,優(yōu)化器選用Adam,并結合余弦退火學習率調(diào)整策略,將初始學習率設置為0.001。針對不同模型的特性,對卷積核大小和網(wǎng)絡深度分別優(yōu)化,例如在U-Net中選擇3×3的卷積核以平衡計算效率和特征提取能力,而在DeepLabV3+中則采用空洞卷積以增強多尺度特征捕獲能力。此外,為防止過擬合,訓練過程中引入了Dropout(比例為0.5) 和L2正則化,并在數(shù)據(jù)增強時增加了隨機旋轉、翻轉和噪聲注入等操作,從而進一步提升模型的泛化能力和魯棒性。
3.3 技術階段劃分
整個建筑物輪廓提取過程可以劃分為以下三個技術階段:①數(shù)據(jù)準備階段:結合人工標注與開源數(shù)據(jù)集,進行數(shù)據(jù)集劃分(訓練集、驗證集、測試集比例為7∶2∶1) 。通過數(shù)據(jù)增強技術(如翻轉、旋轉、色彩調(diào)整) 增加樣本多樣性,并清洗噪聲數(shù)據(jù)以提高模型泛化能力。②模型訓練階段:在深度學習框架下搭建網(wǎng)絡模型,利用隨機梯度下降法(SGD) 或Adam優(yōu)化器進行參數(shù)優(yōu)化。通過設置學習率衰減策略(如余弦退火學習率) 提升收斂效率。③測試與驗證階段:通過測試集驗證模型的泛化能力,重點分析模型在不同場景下的提取精度、邊界清晰度及抗干擾能力。
3.4 仿真實驗與實驗分析
通過數(shù)值模擬對比密集建筑群和單體建筑的提取效果,實驗分析了模型在不同場景下的性能。提取效果與傳統(tǒng)方法(如Canny邊緣檢測) 進行對比,具體結果如表1所示。
由實驗結果可以看出,深度學習模型在邊界精度、召回率及綜合性能方面均顯著優(yōu)于傳統(tǒng)方法,特別是DeepLabV3+在復雜場景下表現(xiàn)最佳,證明其在無人機影像建筑物輪廓提取中的適用性和穩(wěn)定性。
4 關鍵深度學習技術
4.1 圖像分割技術
圖像分割技術是建筑物輪廓提取的關鍵手段,其核心在于對影像中的每個像素進行分類,從而區(qū)分建筑物與背景區(qū)域。在深度學習語義分割模型中,DeepLab系列網(wǎng)絡(如DeepLabV3+) 因其優(yōu)越的設計而得到廣泛應用。DeepLabV3+引入了空洞卷積(Atrous Convolution) 技術,其通過在卷積核之間插入空洞,可以在不增加計算量的情況下擴大感受野,從而捕獲更加全局的上下文信息。這一機制特別適合處理高分辨率影像中的大尺度建筑物特征,例如提取城市中的大型建筑群邊界。
DeepLabV3+還具備聯(lián)合建模全局與局部特征的能力,這使其在處理復雜背景和遮擋情況下表現(xiàn)尤為突出。例如面對被樹木、廣告牌或其他建筑物部分遮擋的場景,DeepLabV3+能夠通過全局特征建模恢復建筑物的大致輪廓,同時利用局部特征增強細節(jié)還原精度。具體案例中,DeepLabV3+被成功應用于災后評估任務,通過無人機影像快速提取被毀建筑的輪廓,幫助救援人員定位受災區(qū)域。在智慧城市建設中,DeepLabV3+被用于精確分割城市影像中的建筑物形狀,為三維城市建模提供高質量數(shù)據(jù)。
4.2 邊緣檢測技術
邊緣檢測技術是提升建筑物輪廓提取精度的重要補充方法,特別是在處理影像邊界模糊或光照不均勻的情況下表現(xiàn)出色?;谏疃葘W習的邊緣檢測網(wǎng)絡(如HED, Holistically-Nested Edge Detection) 能夠通過多層次的特征學習,提取出更加清晰和完整的邊緣信息。HED網(wǎng)絡采用多尺度邊緣特征融合策略,有效提升了細節(jié)邊界的提取能力,適合建筑物輪廓的精準提取任務。將邊緣檢測與圖像分割技術相結合,可以進一步提高輪廓提取的邊界清晰度,顯著減少過分割或欠分割現(xiàn)象,從而提升建筑物輪廓提取的整體表現(xiàn)。
5 實驗效果分析與性能評估
5.1 實驗結果與現(xiàn)場數(shù)據(jù)對比
為驗證深度學習模型在無人機影像建筑物輪廓提取中的有效性,我們在實際場景中選取了某城市區(qū)域的無人機影像數(shù)據(jù),并與人工標注的建筑物輪廓進行對比分析。本實驗使用了U-Net、Mask R-CNN、DeepLabV3+和傳統(tǒng)的Canny邊緣檢測方法,分別從邊界精度(BA) 、召回率(R) 、提取效率(E) 和綜合性能(F1) 四個指標進行評估。為進一步分析模型的穩(wěn)定性,記錄了不同時間段內(nèi)(早上、正午、傍晚) 的檢測數(shù)據(jù),具體如表2所示。
從結果來看,DeepLabV3+在所有時間段中的邊界精度、召回率和綜合性能指標均優(yōu)于其他方法,而傳統(tǒng)的Canny邊緣檢測方法在所有指標上均顯著低于深度學習模型。這表明,深度學習模型能夠更好地適應無人機影像的復雜場景變化,并在邊界提取和細節(jié)還原上具有顯著優(yōu)勢。
5.2 模型實施效果評價
通過對上述實驗數(shù)據(jù)的分析可知,深度學習模型在無人機影像建筑物輪廓提取中的自動化能力顯著提升。DeepLabV3+的整體性能(F1分數(shù)) 在早晨、中午和傍晚三個時段分別為92.7%、93.2%和92.2%,展現(xiàn)了在不同光照條件下的良好適應性和穩(wěn)定表現(xiàn)。相比之下傳統(tǒng)的Canny邊緣檢測方法綜合性能較低,僅在最佳光照條件的正午達到76.2%,在其他時間段表現(xiàn)更為欠佳,難以滿足高精度需求。深度學習模型的優(yōu)異表現(xiàn)得益于其多尺度特征提取和對光照變化的魯棒性,而傳統(tǒng)方法對光照和陰影變化敏感,難以應對復雜場景。
6 案例分析
在某城市中心的高密度建筑區(qū)域,選取了覆蓋面積約2平方公里的無人機影像數(shù)據(jù)作為研究對象。該區(qū)域建筑物分布復雜,包含多種類型的建筑物,例如高層住宅樓、商業(yè)建筑和小型平房,同時存在大量相鄰建筑和遮擋現(xiàn)象(如樹木、廣告牌等) ,增加了建筑物輪廓提取的難度。數(shù)據(jù)采集使用一臺配備高分辨率傳感器(分辨率為5cm/像素) 的無人機,通過多視角飛行軌跡覆蓋目標區(qū)域,影像獲取高度為100m,傾斜角度為30°,以確保捕捉到建筑物的全方位細節(jié)。影像采集后,對數(shù)據(jù)進行了噪聲過濾和幾何校正,并結合人工標注創(chuàng)建了高質量的訓練數(shù)據(jù)集,涵蓋了密集建筑區(qū)域的多種特征。
在模型訓練中,選用DeepLabV3+網(wǎng)絡進行建筑物輪廓提取。訓練參數(shù)包括:batch size為16,學習率初始值為0.001并采用余弦退火策略,訓練輪數(shù)為50,優(yōu)化器使用Adam。數(shù)據(jù)增強技術(如隨機旋轉、翻轉和光照調(diào)整) 被廣泛應用,以提高模型的泛化能力。實驗中,DeepLabV3+的邊界精度達到94.2%,召回率為90.8%,顯著優(yōu)于傳統(tǒng)Canny邊緣檢測方法的78.5%和74.3%。特別是在密集建筑物區(qū)域,DeepLabV3+成功提取了相鄰建筑物的獨立輪廓,有效解決了輪廓交疊和模糊的問題。實驗結果表明,DeepLabV3+具備較強的邊緣清晰度還原能力,能夠為城市規(guī)劃和空間分析提供高精度的建筑物輪廓數(shù)據(jù)支撐。
7 結論
本研究提出了一種基于深度學習的無人機影像建筑物輪廓提取方法,并對其進行了全面的測試和性能評估。實驗結果顯示,DeepLabV3+在邊界精度(最高94.8%) 、召回率(最高91.5%) 及綜合性能(最高93.2%) 方面表現(xiàn)最優(yōu),特別是在城市高密度建筑區(qū)域和復雜場景中展現(xiàn)出顯著優(yōu)勢,為無人機影像的建筑物輪廓提取提供了一種高效、可靠的技術方案。盡管研究證明了深度學習模型的優(yōu)越性,但仍存在一些局限性,例如對大規(guī)模標注數(shù)據(jù)的依賴和在極端光照條件下性能的進一步優(yōu)化空間。未來的研究方向包括探索更高效的自監(jiān)督學習方法以減少對標注數(shù)據(jù)的依賴,以及結合多時相影像或LiDAR數(shù)據(jù)進一步提升模型的魯棒性,為更廣泛的應用場景提供支持。
參考文獻:
[1] 段倫豪.高分辨率遙感影像建筑物輪廓矢量提取[D].武漢:武漢大學,2021.
[2] 劉法濤.基于深度學習的無人機遙感影像建筑物輪廓提取[D].長春:長春工程學院,2022.
[3] 蔡香玉.基于無人機傾斜攝影場景建模的建筑物單體化方法[D].南京:南京師范大學,2018.
[4] 安文.無人機遙感影像建筑物提取算法研究[D].鄭州:解放軍信息工程大學,2011.
[5] 左仲偉.高分辨率遙感影像建筑物輪廓提取方法研究[D].北京:北京建筑大學,2024.
【通聯(lián)編輯:梁書】