[摘 要]地物分析在村鎮(zhèn)建設(shè)中扮演著至關(guān)重要的角色,其為規(guī)劃、管理和監(jiān)測提供了決策支持的關(guān)鍵信息。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度學(xué)習(xí)的語義分割方法在地物分析領(lǐng)域展現(xiàn)出了強大的潛力。文章針對這一問題進行了研究,調(diào)研了當(dāng)前7 種基于深度學(xué)習(xí)的語義分割方法,并在實際數(shù)據(jù)集上對這些方法進行了廣泛的試驗與驗證。試驗結(jié)果表明,各個模型在地物分割任務(wù)中表現(xiàn)出了不同的優(yōu)勢。同時,為了進一步提高地物分析的準(zhǔn)確性和魯棒性,文章提出了一種集成學(xué)習(xí)的方法,將多個模型的預(yù)測結(jié)果進行加權(quán)融合。該方法使得模型性能取得了顯著的提升,其中像素分類準(zhǔn)確率高達89.64%。這表明集成學(xué)習(xí)在地物分析中的應(yīng)用潛力,為村鎮(zhèn)建設(shè)提供了更可靠的技術(shù)支持。本研究可為深度學(xué)習(xí)在地物分析領(lǐng)域的應(yīng)用提供有益的實踐經(jīng)驗,并為未來相關(guān)研究和應(yīng)用提供重要參考。
[關(guān)鍵詞]地物分析;人工智能;城鄉(xiāng)規(guī)劃;語義分割
[中圖分類號]TG333 [文獻標(biāo)志碼]A [文章編號]2095–6487(2024)05–0147–03
隨著城鎮(zhèn)化進程的不斷推進,城鄉(xiāng)規(guī)劃在國家發(fā)展戰(zhàn)略中占據(jù)著重要位置[1]。地物識別作為村鎮(zhèn)建設(shè)中的關(guān)鍵環(huán)節(jié),對于規(guī)劃、管理和監(jiān)測等方面具有重要的意義。通過對地物進行準(zhǔn)確的識別和分類,可為決策者提供精準(zhǔn)的空間信息支持,有助于合理利用土地資源、優(yōu)化城鎮(zhèn)布局、改善環(huán)境質(zhì)量等。然而,人工標(biāo)注遙感圖像中的地物類型存在著識別準(zhǔn)確度低、工作量大、成本高等難點。傳統(tǒng)的基于規(guī)則和特征工程的方法通常難以應(yīng)對遙感圖像中地物的復(fù)雜多變性,因此亟需一種高效且準(zhǔn)確的地物識別方法。
近年來,深度學(xué)習(xí)技術(shù)的發(fā)展給地物識別帶來了新的機遇。深度學(xué)習(xí)通過建立復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,能夠從大規(guī)模數(shù)據(jù)中學(xué)習(xí)地物的特征表示,具有較強的自動學(xué)習(xí)能力和泛化能力。這種基于數(shù)據(jù)驅(qū)動的方法不僅能夠克服傳統(tǒng)方法中人工設(shè)計特征的局限性,而且能夠有效處理遙感圖像中的高維信息,從而提高地物識別的準(zhǔn)確性和效率。在村鎮(zhèn)建設(shè)領(lǐng)域,深度學(xué)習(xí)技術(shù)的應(yīng)用具有可行性。通過利用深度學(xué)習(xí)模型對遙感圖像進行地物識別,可快速準(zhǔn)確地提取出建筑、道路、植被等地物信息,為村鎮(zhèn)規(guī)劃、土地利用管理、環(huán)境監(jiān)測等工作提供重要的支持和參考。
1 技術(shù)背景
1.1 卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是一種深度學(xué)習(xí)模型,其可自動學(xué)習(xí)圖像特征表示,無需人工干預(yù),因而在圖像識別、目標(biāo)檢測和圖像分割等復(fù)雜任務(wù)中高效運用。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在圖像處理中的應(yīng)用越來越廣泛,成為解決復(fù)雜地物識別和分割問題的主流方法之一。
1.2 語義分割
語義分割是計算機視覺中的重要任務(wù),目的是對圖像中的每個像素進行語義類別的分類,從而實現(xiàn)對物體的精細識別和分割。傳統(tǒng)方法受限于特征表達和算法復(fù)雜性,難以處理復(fù)雜場景和多樣地物類別。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,特別是卷積神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用,語義分割迎來了新的機遇。深度學(xué)習(xí)模型通過端到端的訓(xùn)練,自動學(xué)習(xí)圖像中的特征表示,提高了地物分割的準(zhǔn)確性和效率。
1.3 集成學(xué)習(xí)
集成學(xué)習(xí)是一種機器學(xué)習(xí)技術(shù),通過組合多個學(xué)習(xí)器提高整體模型的性能和魯棒性。其在傳統(tǒng)機器學(xué)習(xí)中已被廣泛應(yīng)用,核心思想是結(jié)合多個弱學(xué)習(xí)器的預(yù)測結(jié)果,產(chǎn)生更強大的整體模型。近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,集成學(xué)習(xí)在深度學(xué)習(xí)領(lǐng)域也備受關(guān)注。通過結(jié)合多個深度學(xué)習(xí)模型的預(yù)測結(jié)果,降低模型方差,提高整體泛化能力,集成學(xué)習(xí)在地物語義分割任務(wù)中也具有重要意義。
2 方法
為了進一步提高地物語義分割的準(zhǔn)確性和魯棒性,本研究提出了一種簡單而有效的集成(Ensemble)方法。該方法基于7 個語義分割模型實施, 包括UNet、UNet++、DeepLabV3、DeepLabV3+、MANet、PSPNet 以及LinkNet。這些模型具有不同的網(wǎng)絡(luò)結(jié)構(gòu)和特征提取方式,因此在地物分割任務(wù)中可表現(xiàn)出各自的優(yōu)勢和局限性。
集成模型采用了一種非常簡單但有效的實現(xiàn)方式,即直接對7 個模型在每個像素上的預(yù)測概率進行加權(quán)平均。具體地,根據(jù)每個基礎(chǔ)模型在驗證集上的分類準(zhǔn)確率來確定其在集成模型中的權(quán)重,即基礎(chǔ)模型準(zhǔn)確率越高,其對集成模型的影響越大。通過這種方式,既考慮了各個基礎(chǔ)模型的表現(xiàn)能力,又使得在集成過程中性能較好的模型起到更大的作用,從而進一步提高了集成模型的性能。
單一模型存在的主要缺陷包括但不限于:①局限性。單一模型通常難以覆蓋所有地物類別的復(fù)雜特征,易受數(shù)據(jù)分布的不均衡和噪聲的干擾。②泛化能力不足。某些模型在特定場景下可能表現(xiàn)出較好的性能,但在其他場景下泛化能力較差。相比之下,集成模型具有以下優(yōu)勢:①綜合多個模型的優(yōu)勢。通過集成多個模型的預(yù)測結(jié)果,能夠有效地彌補單一模型的局限性,提高地物分割的準(zhǔn)確性和魯棒性。②減少模型的風(fēng)險。通過加權(quán)平均的方式融合多個模型,能夠降低單一模型的風(fēng)險和誤差,提高整體模型的穩(wěn)定性。③簡單易行。集成方法采用了簡單直接的加權(quán)平均方式,易于實現(xiàn)和部署。因此,相信提出的集成方法能夠為地物語義分割任務(wù)帶來顯著的性能提升和應(yīng)用價值。
3 試驗
3.1 數(shù)據(jù)集
試驗使用Satellite dataset I( global cities)數(shù)據(jù)集進行性能驗證。Satellite dataset I( global cities)是一個收集自全球各大城市的數(shù)據(jù)集,來源于多種遙感資源,包括QuickBird、Worldview系列、IKONOS、ZY-3等衛(wèi)星。除了衛(wèi)星傳感器的差異外,數(shù)據(jù)集中還存在大氣條件、全色和多光譜融合算法、大氣和輻射校正以及季節(jié)等因素的變化,這些因素使得數(shù)據(jù)集具有挑戰(zhàn)性。數(shù)據(jù)集包含204張圖像,每張圖像分辨率為512×512像素,分辨率范圍為0.3~2.5 m。該數(shù)據(jù)集僅包含兩個分類類別:背景與建筑。將該數(shù)據(jù)隨機劃分為訓(xùn)練集、驗證集和測試集,樣本比例為:60%、20%、20%。
3.2 評估指標(biāo)
為了全面評估地物語義分割模型的性能,采用了多種評估指標(biāo)。準(zhǔn)確率(Accuracy)衡量了模型正確預(yù)測的像素數(shù)量與總像素數(shù)量之比,精確率(Precision)評估了模型預(yù)測為正類別的像素中,真正為正類別的比例,召回率(Recall)衡量了真正為正類別的像素中,模型成功預(yù)測出的比例。F1 分?jǐn)?shù)綜合考慮了精確率和召回率,表示模型在準(zhǔn)確性和全面性之間的平衡。IoU(Intersection over Union)指標(biāo)反映了模型預(yù)測結(jié)果與實際標(biāo)簽的重疊程度,而Dice系數(shù)衡量了預(yù)測結(jié)果與實際標(biāo)簽的重疊程度。通過綜合考慮這些評估指標(biāo),能夠更全面地評價地物語義分割模型的性能表現(xiàn),從而指導(dǎo)模型的優(yōu)化和改進。模型性能評估結(jié)果見表1。
3.3 超參數(shù)設(shè)置
本研究使用 PyTorch Lightning 2.1.2 框架進行試驗,并采用 Adam 優(yōu)化器作為訓(xùn)練優(yōu)化算法。批大小設(shè)置為 8,學(xué)習(xí)率為 1e-4。針對模型的訓(xùn)練過程,設(shè)置了一個早停策略,即如果在十個周期內(nèi)驗證集準(zhǔn)確率沒有提升,則停止訓(xùn)練,以避免過度擬合和節(jié)省訓(xùn)練時間。所有的試驗都在單張3090Ti 英偉達顯卡上完成。
3.4 結(jié)果分析
通過對現(xiàn)有7 種語義分割模型的試驗分析,測試集樣本預(yù)測結(jié)果如圖1 所示。發(fā)現(xiàn)其在不同的評估指標(biāo)上表現(xiàn)各有特點。UNet 和UNet++ 在準(zhǔn)確率上表現(xiàn)較好,但在其他指標(biāo)上稍有不足;DeepLabV3和DeepLabV3+ 在召回率上較為突出,MANet 和PSPNet 在整體性能上表現(xiàn)均衡,而LinkNet 則在召回率上達到最佳水平。這些試驗結(jié)果反映了各個模型在捕捉目標(biāo)區(qū)域、分割精度等方面的優(yōu)勢和局限性。然而,集成算法通過綜合利用現(xiàn)有模型的預(yù)測結(jié)果,顯著提高了語義分割任務(wù)的執(zhí)行效果。在準(zhǔn)確率、精確率、F1 分?jǐn)?shù)、IoU 和Dice 指標(biāo)等方面,集成算法都取得了最佳結(jié)果,表現(xiàn)出優(yōu)異的性能。這說明集成算法能夠充分發(fā)揮各個模型的優(yōu)勢,彌補單一模型的不足,提高了預(yù)測結(jié)果的魯棒性,為語義分割任務(wù)提供了更可靠的解決方案。
值得注意的是,盡管試驗結(jié)果展示了各種模型的性能差異和集成方法的優(yōu)越性,但也必須認識到研究的一些缺陷:①試驗數(shù)據(jù)與真實的鄉(xiāng)鎮(zhèn)數(shù)據(jù)存在差異。這意味著在進行模型訓(xùn)練和評估時所使用的數(shù)據(jù)集可能無法完全反映真實應(yīng)用場景中的復(fù)雜情況。因此,需要采集更真實的鄉(xiāng)鎮(zhèn)數(shù)據(jù),并結(jié)合實際應(yīng)用場景中的地物標(biāo)注,以更準(zhǔn)確地評估模型的性能。②試驗數(shù)據(jù)中僅包含建筑物的分割標(biāo)注,而無法涵蓋到所有可能的應(yīng)用場景。在實際應(yīng)用中,語義分割模型可能需要處理更多類型的地物,如道路、植被、水體等。因此,為了更全面地評估模型的性能,需要補充包含更多地物類別的數(shù)據(jù)集,并進行相應(yīng)的標(biāo)注工作。
4 結(jié)束語
通過本研究的試驗驗證發(fā)現(xiàn),現(xiàn)有的深度學(xué)習(xí)模型在村鎮(zhèn)建設(shè)地物識別任務(wù)中具有較好的效果,顯示出了較高的應(yīng)用價值。試驗結(jié)果表明,現(xiàn)有深度學(xué)習(xí)模型在多種評估指標(biāo)上取得了較好的效果。同時,提出的集成方法相對于單一模型取得了進一步的性能提升,在各項評估指標(biāo)上均取得了最佳結(jié)果。這表明集成方法在提升模型性能和穩(wěn)定性方面具有重要意義。這對于提高村鎮(zhèn)建設(shè)地物識別任務(wù)的自動化程度、準(zhǔn)確性和效率具有重要意義,對于推動智慧村鎮(zhèn)建設(shè)和地理信息系統(tǒng)應(yīng)用具有積極的促進作用。
參考文獻
[1] 王陽,郭開明,蘇練練. 關(guān)于國土空間規(guī)劃中城鄉(xiāng)建設(shè)用地統(tǒng)籌的思考[J]. 西安建筑科技大學(xué)學(xué)報(自然科學(xué)版),2023,55(5):729-738.