段夢夢,李海亭,彭明軍,王閃,陳濤
(武漢市測繪研究院,湖北 武漢 430022)
國家新型基礎測繪建設武漢市試點的技術(shù)體系由“全息采集、智能處理、變化發(fā)現(xiàn)、實體建庫、定制服務”等五項關(guān)鍵技術(shù)組成,其中“變化發(fā)現(xiàn)”技術(shù)的主要目的就是實現(xiàn)地理實體數(shù)據(jù)的高效更新,保證地理實體數(shù)據(jù)庫及相關(guān)衍生產(chǎn)品的現(xiàn)勢性。它是指利用各種技術(shù)手段智能化感知地理實體的變化,實現(xiàn)主動式的地理實體變化監(jiān)測[1,2]?;诎l(fā)現(xiàn)的變化信息,可以定向、定點地更新地理實體,節(jié)省更新成本。根據(jù)數(shù)據(jù)來源不同,變化發(fā)現(xiàn)技術(shù)可分為基于影像的變化發(fā)現(xiàn)[3]、基于點云的變化發(fā)現(xiàn)[4,5,6]以及基于互聯(lián)網(wǎng)的變化發(fā)現(xiàn)[7](圖1)。
圖1 地理實體更新技術(shù)流程
在影像和點云數(shù)據(jù)上可以利用機器學習算法快速進行實體的識別提取,并根據(jù)兩期識別結(jié)果進行對比,快速發(fā)現(xiàn)變化的地理實體。通過互聯(lián)網(wǎng)可以在線抓取數(shù)據(jù)進行大數(shù)據(jù)分析,可以發(fā)現(xiàn)各類無法直接反映在影像數(shù)據(jù)中的地理實體變化信息,如屬性變化、權(quán)屬變更等信息。在實際生產(chǎn)中應將不同變化發(fā)現(xiàn)技術(shù)進行有機的融合,充分提取地理實體的多維度變化信息,實現(xiàn)新型基礎測繪產(chǎn)品的“低成本、高效率”更新。
DOM、TDOM是攝影測量生產(chǎn)的主要數(shù)據(jù)產(chǎn)品,該類產(chǎn)品有較為豐富的地物紋理信息、較高的影像空間分辨率信息。針對這些特點,在基于影像的基礎地理實體變化檢測過程中,關(guān)鍵技術(shù)主要包括圖元識別和圖元變化檢測兩步。
早期的遙感影像分類與識別應用較廣的算法主要包括:最小距離分類法、K-均值分類算法、ISODATA聚類法等傳統(tǒng)監(jiān)督或非監(jiān)督分類算法。隨著影像分辨率的不斷提高,傳統(tǒng)算法在分類識別精度上遭遇瓶頸。在此背景下,以支持向量機、隨機森林、人工神經(jīng)網(wǎng)絡為代表的經(jīng)典機器學習算法,開始在具體分類、識別場景中得到應用。近年來,深度學習得到了快速發(fā)展,以受限玻爾茲曼機(RBM)、深度信念網(wǎng)絡(DBN)、卷積神經(jīng)網(wǎng)絡(CNN)、自動編碼器(AE)為代表的四類主流深度學習模型,也均較好地應用于遙感影像的分類識別中。基于深度學習的基礎地理實體圖元識別包含目標識別與語義分割(圖2)。由于CNN模型在處理高維影像數(shù)據(jù)時有獨特優(yōu)勢,其在兩類任務場景中存在明顯優(yōu)勢。
在目標識別方面,目前主流CNN學習模型通常分為兩階段算法與單階段算法,典型的兩階段算法包括R-CNN、Fast R-CNN、FPN等模型,這類算法需要先進行候選框的生成、再進行邊框回歸。典型的單階段算法包括YOLO系列,SSD、RetinaNet等模型,這類算法直接對候選框進行定位與分類,通常具有更高的效率。在語義分割方面,全卷積網(wǎng)絡(FCN)是深度學習語義分割領域的開山之作,其他應用較為廣泛的模型包括Mask-RCNN和U-Net模型,以及使用空卷積擴大感受野的DeepLab語義分割模型等。
圖2 目標識別(左)與語義分割(右)
在提取得到目標圖元后,通過減法、除法等簡單的代數(shù)運算方法對圖元進行處理,得到相應的差異圖,再通過利用閾值(自適應選擇或手動確定)對差異圖進行分割得到最后的變化檢測結(jié)果。代數(shù)運算方法簡便,能夠很好地顯示出影像中變化迅速的區(qū)域。
實驗以武漢市江岸區(qū)0.5 m分辨率遙感影像為例,利用Mask-RCNN深度學習網(wǎng)絡進行模型訓練與建筑物變化檢測,變化發(fā)現(xiàn)的結(jié)果示例如圖3所示。
圖3 建筑物圖元的變化
與其他常用測繪技術(shù)相比,在基礎地理實體的更新過程中,激光點云掃描可以以較高的精度與速度獲取目標對象的三維特征變化信息。針對這些特點,基于激光點云的變化檢測關(guān)鍵技術(shù)包括:點云配準、點云濾波、點云分類、變化信息提取。
點云數(shù)據(jù)的配準一般分為粗配準與精確配準兩步(如圖4所示)。點云的粗配準指利用標靶、控制點等人為放置的一些標志,作為同名點完成的點云拼接。具有代表性的粗配準算法為RANSAC算法。對于粗配置精度不滿足要求時,可以在粗配準的基礎上進行精確配準。ICP算法(迭代最近點算法)為精確配準領域使用較廣的算法。其原理就是利用一個誤差函數(shù)去驗證點云重疊區(qū)域是否吻合,以及吻合的程度是否使得拼接結(jié)果的誤差最小,也就是利用最小二乘迭代來計算最佳坐標變換。
圖4 點云配準步驟
點云濾波算法用于在三維空間中濾除點云噪音,如飛點、低點等。以使用較多的形態(tài)學濾波算法為例,該算法核心思想是基于形態(tài)學膨脹、腐蝕算子組合而成的開、閉運算(如圖5所示),識別差值點云中的噪聲,對差值點云數(shù)據(jù)進行精細處理。
圖5 點云濾波示意圖
對于點云分類算法而言,按照所選取進行數(shù)據(jù)處理的基本單元(也即基元)的不同,可將常用點云分類算法分為五類,分別為:①基于點基元的分類算法;②基于剖面基元的分類算法;③基于體素基元的分類算法;④基于對象基元的分類算法;⑤融合多基元信息的分類算法。在實際分類任務中,針對傳感器載體平臺、分類目標的不同,需要選擇相適應的基元分類算法。例如對于建筑物變化檢測案例,多使用基于對象基元的分類算法,進行建筑物類型基礎地理實體的變化提取。隨機森林(Random Forest)、支持向量機(SVM)、神經(jīng)元振蕩網(wǎng)絡(Neural Oscillator Network)等在內(nèi)的機器學習、深度學習方法,也被成功應用于具體的分類案例中,點云分類如圖6所示。
圖6 點云分類
不同時相點云數(shù)據(jù)的變化信息提取技術(shù),是基于點云的基礎地理實體變化檢測的核心技術(shù)。該類算法主要分為三類:①DSM差值法,該類算法直接對不同時相點云進行差值類型運算(例如穩(wěn)健影像差值法),獲取變化信息;②信息融合法,該類算法會融合多平臺傳感器光譜、材質(zhì)等多源信息,提取基礎地理實體變化信息(如圖7所示);③分類后提取法,該類算法依托點云分類算法,在點云預分類的基礎上,進行不同時相點云差值數(shù)據(jù)獲取。
實驗以武漢市江漢區(qū)2010年和2016年的兩期機載激光點云數(shù)據(jù)為例,利用DSM差值法進行點云變化檢測,結(jié)果如圖8所示。
圖7 信息融合法
圖8 點云變化檢測結(jié)果
基于互聯(lián)網(wǎng)的變化發(fā)現(xiàn)是指基于自發(fā)地理信息(VGI)或者眾源地理信息數(shù)據(jù)的變化發(fā)現(xiàn)技術(shù)。VGI數(shù)據(jù)是互聯(lián)網(wǎng)用戶共同創(chuàng)建、維護和應用的空間地理信息數(shù)據(jù)。根據(jù)VGI數(shù)據(jù)的性質(zhì),可以分為兩大類:①屬性VGI數(shù)據(jù),包含帶地理信息標識的文本、語音、圖像與視頻信息;②圖形VGI數(shù)據(jù),包括由用戶收集的興趣點,軌跡、地物邊界等圖形信息。
大部分現(xiàn)實空間中的自然地表或人造地物變化(如工程建設)信息,都會在一定程度上映射于互聯(lián)網(wǎng),并通過屬性VGI數(shù)據(jù)表現(xiàn)出來。因此,通過獲取、過濾、解析這些屬性數(shù)據(jù),檢測基礎地理實體的變化形式、程度是一種可行技術(shù)方案。該技術(shù)方案下變化檢測所得結(jié)果,即可作為指導其他變化檢測技術(shù)方案的輔助信息,亦可作為基礎地理實體語義更新的依據(jù)。具體步驟一般為:互聯(lián)網(wǎng)爬蟲、地理實體變化語義知識庫構(gòu)建、變化信息可行度計算。
(1)互聯(lián)網(wǎng)爬蟲
通過網(wǎng)絡爬蟲獲取到的HTML網(wǎng)頁文件并不能直接揭示地理信息的變化情況,要從網(wǎng)頁文件中獲取感興趣的信息,則需要對HTML文件進行解析,將網(wǎng)頁內(nèi)容轉(zhuǎn)換成結(jié)構(gòu)、內(nèi)容清晰的形式,然后再從其中提取地理信息的變化情況。對HTML文件解析可以使用最原始的基于正則表達式的解析方式,正則表達式允許用戶自行定制規(guī)則匹配符合各種特定規(guī)則的字符串,常用于網(wǎng)頁內(nèi)容編寫規(guī)則較強部分的解析。除了正則表達式,還可以使用如HTML Parser、XPath和Beautiful Soup等在內(nèi)的一系列HTML解析工具,這些解析工具使用起來更加方便、高效。
(2)語義知識庫構(gòu)建
基礎地理實體變化語義知識庫是進行基礎地理實體變化信息獲取和推理的基礎,知識庫的建立不僅是基礎地理實體變化領域知識的簡單羅列,還包括基礎地理實體變化領域知識的表達、推理和維護等方面?;A地理實體變化語義知識庫的建立主要包括:①基礎地理實體要素特征詞匯庫建立,如水系、居民地及設施、交通和管線常見地理實體等相關(guān)的關(guān)鍵詞;②基礎地理實體要素變化特征詞匯庫建立,如“新建”“修復”“動工”“重建”等詞匯;③地理信息要素空間關(guān)系詞匯庫建立,如“包含”“相接”“東邊”等。
(3)變化信息可信度計算
在初步獲取基礎地理實體變化信息后,需要對獲取到的變化信息的可信度進行校驗。網(wǎng)絡信息可信度一般可通過精確性、權(quán)威性、客觀性、最新性和覆蓋率5個指標來權(quán)衡。針對基礎地理實體變化發(fā)現(xiàn)的網(wǎng)頁可以具體考慮以下指標:基礎地理實體要素詞匯等級-L、網(wǎng)頁的PageRank值-PR、網(wǎng)頁類型權(quán)值-T、網(wǎng)頁發(fā)布日期權(quán)值-D和網(wǎng)頁元數(shù)據(jù)類型權(quán)值-M,具體的可信度計算實現(xiàn)公式如下:
C=ω1*L+ω2*PR+ω3*T+ω4*D+ω5*M
其中ω1~ω5為各指標的權(quán)重。
圖形類VGI數(shù)據(jù)的獲取渠道主要為互聯(lián)網(wǎng)地圖開源平臺,類似平臺上存儲、發(fā)布的圖形類VGI數(shù)據(jù)主要以矢量數(shù)據(jù)格式表現(xiàn)。該類數(shù)據(jù)與通過專業(yè)測繪技術(shù)獲取的數(shù)據(jù)相比,在時效性、數(shù)據(jù)獲取成本上存在明顯優(yōu)勢,但在準確程度上卻可能有較大偏差。針對以上這些特點,針對圖形類VGI數(shù)據(jù)的變化檢測通常遵循以下基本流程:①圖形VGI數(shù)據(jù)配準;②相似度評價。
(1)數(shù)據(jù)配準
數(shù)據(jù)配準環(huán)節(jié)是基于圖形類VGI數(shù)據(jù)的基礎地理實體變化檢測的基礎。例如在基于OSM開源矢量數(shù)據(jù),進行道路實體更新時,為快速檢測變化發(fā)生具體位置,需首先對OSM路網(wǎng)數(shù)據(jù)與庫內(nèi)現(xiàn)行圖元數(shù)據(jù)進行配準。按照參與配準環(huán)節(jié)基礎數(shù)據(jù)的不同,數(shù)據(jù)配準方法分為與影像配準和與矢量配準。與影像配準時一般采用同名點、線和面進行匹配,計算兩者之間的變換關(guān)系,可采用的主要算法包括多項式糾正、共線方程糾正與仿射變換糾正等。與矢量配準一般分為全局緩沖區(qū)增長算法和ICP算法。全局緩沖區(qū)算法將矢量弧段作為匹配基本單元,根據(jù)現(xiàn)實世界實體的實際寬度設定一個距離閾值,以矢量弧度為中心,距離閾值為半徑生成弧段的多邊形緩沖區(qū),將緩沖區(qū)內(nèi)包含的另一數(shù)據(jù)集中的弧段作為潛在匹配對象加入匹配候選集,然后在匹配候選弧度集中搜索相似度最大的弧度作為匹配的最終結(jié)果。ICP算法的基本思想則是根據(jù)某種幾何特性對兩類點集進行匹配,設這些匹配點為假想的對應點,根據(jù)這種對應關(guān)系求解運動參數(shù)。然后利用這些運動參數(shù)對點群進行變換。并利用同一幾何特征,確定新的對應關(guān)系,最后重復上述過程,直至迭代收斂、最終完成匹配
(2)相似度評價
常用的VGI數(shù)據(jù)相似度評價主要包括:①距離相似度評價;②拓撲相似度評價;③幾何形態(tài)相似度評價。距離相似度主要用于線性要素的質(zhì)量檢驗或變化檢測,常用算法包括基于Hausdorff距離的相似度算法與基于Frechet距離的相似度算法。拓撲相似度主要用于矢量面狀要素的質(zhì)量檢驗或變化檢測。面積算法在拓撲相似度的評價中使用較多。形態(tài)相似度檢測過程中常用算法包括中心距離角度描述子算法、傅立葉變換描述子算法以及形狀上下文描述子算法等。
傳統(tǒng)基礎測繪的基于野外實測和遙感影像數(shù)據(jù)提取的內(nèi)外業(yè)相結(jié)合的變化發(fā)現(xiàn)作業(yè)方式所參照的數(shù)據(jù)標準要求嚴格,時效性不夠,數(shù)據(jù)更新周期長。新型基礎測繪采用的變化發(fā)現(xiàn)技術(shù)可根據(jù)不同的場景采用不同的變化發(fā)現(xiàn)技術(shù),提取地理實體的多種變化維度信息,實現(xiàn)新型基礎測繪產(chǎn)品的“低成本、高效率”的增量式更新,是實現(xiàn)快速、全面發(fā)現(xiàn)基礎地理實體空間信息、屬性信息變化的重要技術(shù)手段。