李海鵬,董有福,張 昊
(南京工業(yè)大學,江蘇 南京 211816)
撞擊坑作為月球、火星等地外行星表面最顯著的地貌結構,是研究行星表面地質(zhì)定年、行星測繪與導航及資源探測的重要基礎[1-4]。撞擊坑自動檢測算法的研究是當前行星研究的重要課題。
撞擊坑自動檢測算法包括候選坑生成和有效坑驗證兩部分,早期研究多使用邊緣檢測算子[5],Hough變換[6]和高光陰影區(qū)域檢測[7-8]等方法確定候選撞擊坑,結合機器學習方法檢測有效坑,這類方法可檢測出影像上明顯的坑,召回率為75%~80%。近年來,許多學者使用目標檢測技術在影像或DEM上檢測撞擊坑,多采用滑動窗口算法生成候選坑,結合傳統(tǒng)機器學習方法或深度學習方法檢測有效坑,傳統(tǒng)機器學習方法需要人工構建特征并應用支持向量機、主動學習等方法進行分類[9-11],而深度學習方法構建多樣的網(wǎng)絡模型[12],這些方法多用于檢測直徑1 km以下的坑,召回率普遍為80%~85%;一些學者嘗試了地形分析方法,如校正后坡向變率[13]、等高線[14]和分水嶺算法[15],對于直徑1 km以上坑的召回率約為80%。此外,個別學者嘗試了采用面向?qū)ο蟮亩喑叨确指钏惴?以檢測直徑為1.5 km以下的坑[16-17]。
綜上所述,一些學者提出了許多有效的撞擊坑檢測方法,且針對直徑為1 km以下的小型坑具有良好的檢測效果,但對于大型坑及巨型坑的檢測率相對較差。因此本文設計一種具有良好穩(wěn)定性的檢測模型,使用面向?qū)ο蟮亩鄬哟畏指罘椒ú⒔Y合機器學習方法提取撞擊坑,以期提高對直徑范圍較大的撞擊坑的檢測率。
為了驗證大尺寸撞擊坑的檢測效果,試驗采用美國國家航空航天局(NASA)LOLA科學團隊(發(fā)布的118 m分辨率全月DEM。選取1個試驗區(qū)和2個測試區(qū),試驗區(qū)用于模型的構建,測試區(qū)用于模型的測試和檢測效果評估。 3個樣區(qū)中撞擊坑類型復雜,直徑范圍為0.5~120 km,每個區(qū)域面積均為5×105km2,位置如圖1所示。
圖1 試驗區(qū)與測試區(qū)分布
撞擊坑檢測算法工作流程如圖2所示。首先根據(jù)月球DEM數(shù)據(jù)計算坡度和校正后的坡向變率[13],并合成為雙通道數(shù)據(jù);然后使用多尺度分割算法生成分割對象層,再應用機器學習方法分類撞擊坑對象與非撞擊坑對象,這一過程需要重復多次,直至撞擊坑提取完全為止;最后與文獻[17]提出的面向?qū)ο蟮淖矒艨訖z測算法進行對比驗證。該過程的關鍵技術主要包括多層次結構的建立及訓練高精度的撞擊坑分類器。
圖2 撞擊坑檢測算法工作流程
基于DEM數(shù)據(jù)獲取坡度和校正后坡向變率,合成為一個雙通道數(shù)據(jù)集后,要重復多次圖像分割及再分類的過程,每次使用多尺度分割算法分割圖像均會產(chǎn)生一個分割對象層,整個過程中會產(chǎn)生多個對象層,即為多層次分割方法[18],多尺度分割算法的超參數(shù)為:波段權重、尺度參數(shù)及形狀因子和緊致度因子權重。超參數(shù)的設置將直接控制分割對象的形狀和大小,多尺度分割算法中超參數(shù)的優(yōu)選策略如下。
2.1.1 波段權重確定
波段權重代表數(shù)據(jù)集中各個通道數(shù)據(jù)參與圖像分割的貢獻度,當在坡度上進行圖像分割時,此時波段權重坡度為1,校正后坡向變率為0。各個對象層的波段權重見表1。
表1 多尺度分割關鍵參數(shù)
2.1.2 尺度參數(shù)選擇
尺度參數(shù)直接控制分割對象的大小,是影響分割結果的關鍵因素,尺度參數(shù)越大,分割結果越大,通常采用試錯法進行選擇。本文需要提取撞擊坑直徑的跨度可達0.5~120 km,經(jīng)過試驗,在坡度或校正后坡向變率上分割的尺度參數(shù)最小為5,最大可達800。試錯法需要試驗上百次分割,以確定適合的尺度參數(shù),可以采用更加高效的非監(jiān)督方法ESP工具[19]評估尺度參數(shù),計算結果如圖3所示。ESP計算了在坡度和校正后坡向變率上根據(jù)某一尺度參數(shù)分割后對象的局部方差(local variance, LV),以及局部方差的變化率(rate of change, ROC)。ESP認為在局部方差變化明顯處可能為適合的尺度參數(shù),即ROC的波峰處(三角形),灰色虛線為初步確定的合適的尺度參數(shù)。在此基礎上使用試錯法進一步評估,最終確定了10個適合分割直徑為0.5~120 km撞擊坑的尺度參數(shù),見表1。
圖3 ESP工具計算結果
2.1.3 形狀因子和緊致度因子權重確定
形狀因子和緊致度因子權重通常是根據(jù)專家經(jīng)驗選擇的,范圍為0~1。本文經(jīng)過多次試驗最終確定形狀因子和緊致度因子權重分別為0.3和0.7,此時分割對象更加擬合月表真實的撞擊坑邊界形態(tài)。
在每次使用多尺度分割算法完成候選撞擊坑的提取后,即生成分割對象層,需要應用機器學習方法在該層上分類有效坑。傳統(tǒng)機器學習包括特征工程和分類器兩部分,在使用分類器之前需要先構建特征空間。本文基于eCognition軟件為坡度和校正后坡向變率分別構建了一個41維的特征空間,包括光譜特征和幾何特征。其中,光譜特征有像素灰度的均值、標準差,最小值、最大值等共24維,幾何特征有面積、長寬比、圓度等共17維,應用分類器在分割對象層上進行候選坑分類時,僅使用參與圖像分割的數(shù)據(jù)構建特征空間。
2.2.1 閾值分類
在分割對象層上的分割對象只有少部分是有效的撞擊坑對象,可通過個別特征的閾值初步分類有效坑。使用的特征來源于構建的特征空間,分別為分割對象的像素值均值(Mean)、圓度及長寬比。特征閾值見表3。
2.2.2 隨機森林分類
使用隨機森林方法分類分割對象,隨機森林方法包括模型訓練和應用分類器兩步,在一定數(shù)量的撞擊坑樣本和非撞擊坑樣本上進行訓練,訓練過程中需要調(diào)整的關鍵參數(shù)為最大分類樹和訓練特征。圖4為在部分對象層上使用隨機森林方法分類撞擊坑的過程。其中,最大分類樹可通過隨機森林模型返回的袋外誤差(out of bag, OOB)確定,如圖4(a)所示;初始的特征空間有41維,是非常龐大的,采用特征遞歸消除法優(yōu)化特征空間,根據(jù)袋外誤差返回的特征重要性度量,如圖4(b)所示;橫軸的特征名稱為41維特征的名稱,以數(shù)字代替,將特征進行排序,然后遞歸消除重要性低的特征,根據(jù)每次遞歸訓練中隨機森林模型返回的混淆矩陣,選擇分類精度最高、特征數(shù)量較少的那組特征,如圖4(c)所示。隨機森林方法在各分割對象層上分類撞擊坑的關鍵參數(shù)最大分類樹和訓練特征空間見表2。
表2 各分割對象層上分類撞擊坑的關鍵參數(shù)
圖4 隨機森林法分類過程
在多尺度分割算法構建的多層次結構中,即多個分割對象層上檢測出有效的撞擊坑對象后,可以通過獲取撞擊坑對象的最小外接圓作為最終的撞擊坑檢測結果。本文在1個試驗區(qū)和2個測試區(qū)上進行了撞擊坑檢測,可檢測的撞擊坑直徑范圍為0.5~120 km,圖5(a)中呈現(xiàn)了直徑在3 km以上的坑,可以明顯看出,直徑較大的坑絕大多數(shù)被成功檢測。
圖5 撞擊坑檢測結果與精度評估
為了客觀地評估撞擊坑檢測模型對于撞擊坑位置的檢測表現(xiàn),本文使用召回率R、精確率P兩個指標,公式分別為
(1)
(2)
式中,TP代表撞擊坑檢測算法正確檢測的坑;FP代表錯誤檢測的坑;FN代表未檢測的坑。進行精度評價的區(qū)域為圖5中的D、E區(qū)域,為了保證驗證的有效性,本文僅評估直徑大于8個像素、直徑在0.8 km以上的撞擊坑。因為當直徑小于一定像素時,即使是人工判斷也不能保證準確性。同時對比了文獻[17]的方法。根據(jù)表3中的評價結果可知,本文提出的撞擊坑檢測模型在召回率和精準率上分別提升了28.7%和26.3%。
表3 精度評價結果
本文基于LOLA全月DEM數(shù)據(jù)生成了坡度和校正后坡向變率兩種地形數(shù)據(jù),在此基礎上應用面向?qū)ο蟮亩鄬哟畏指罘椒ㄟM行圖像分割,然后使用機器學習方法進行圖像分類檢測撞擊坑。在全月范圍選取了3個典型區(qū)域進行了撞擊坑檢測模型的試驗,以驗證模型的穩(wěn)健性,可檢測的直徑范圍在0.5~120 km,選取了一定數(shù)量的樣本進行精度評估,與常規(guī)的基于面向?qū)ο髾z測方法作了對比。結果表明,本文方法對直徑1 km以上撞擊坑實現(xiàn)了較高的召回率,達86.5%。