徐金曉,方 圓
(中國電子科技集團公司第二十七研究所,河南 鄭州 450047)
2010年以來,我國發(fā)射的高分辨率遙感衛(wèi)星空間分辨率已經(jīng)達到亞米級,未來10年全球每天獲取的觀測數(shù)據(jù)將超過10 PB,遙感大數(shù)據(jù)時代已來臨。隨著遙感大數(shù)據(jù)時代的到來,現(xiàn)在的數(shù)據(jù)越來越豐富,已經(jīng)超出傳統(tǒng)手工處理的能力。遙感大數(shù)據(jù)與知識轉(zhuǎn)化及服務能力不足的矛盾將越發(fā)突出,其關(guān)鍵理論挑戰(zhàn)和技術(shù)瓶頸在于遙感影像的自動分析與理解。
深度學習是當前機器學習領(lǐng)域內(nèi)的一項熱點技術(shù),近年來在機器視覺、語音識別等領(lǐng)域取得了突破性進展。卷積神經(jīng)網(wǎng)絡(CNN)更是將圖像特征的提取,與目標的分類過程結(jié)合到一起,實現(xiàn)了網(wǎng)絡端到端的訓練,促進了基于高分辨率遙感影像的目標識別技術(shù)的快速發(fā)展。本文以深度學習在遙感影像解譯領(lǐng)域的應用為主體,分析了遙感影像解譯的難點以及深度學習在遙感影像解譯中的優(yōu)勢。
目前,遙感影像95%以上完全采用人工識別和判讀,無法適應大數(shù)據(jù)與云計算時代的需求和發(fā)展。存在的問題具體如下。
(1)自動化程度低。需要專家才能判讀和分析,費錢費時,不能快速實現(xiàn)“影像到信息”的過程。
(2)錯誤率高。不同專家分析的結(jié)果千差萬別。
(3)應用難。影像包含大量有效信息,因不能開展深入挖掘,無法開展趨勢預測等應用,難以發(fā)展出新的商業(yè)模式。
(4)地物分不開。不同的地物很難準確地分割開。
(5)地物分類不準確,難以準確識別地物類型。
尺度問題是對地觀測的首要挑戰(zhàn),尺度效應決定了同類目標在不同尺度下有不一樣的表現(xiàn)。高分辨率遙感影像信息量大、細節(jié)多,紋理變化復雜,不同類別地物的特征存在很大差異。一般尺度變化主要有兩個原因引起。(1)圖像分辨率的大小。例如,低分影像上,房屋可能是簡簡單單的幾個像元,但在高分影像上,可能不同的房屋形狀、顏色、紋理都不相同。這種由影像可放大可縮小帶來的分辨率大小可變,同時同一地物在不同分辨率下特征不同,給遙感影像解譯帶來了極大的困難。(2)同一類地物的大小本身就不同。例如,有的房屋是高樓大廈,覆蓋面積大,有的則是小建筑。這種地物本身存在的尺度問題又是遙感目標檢測中的一大挑戰(zhàn)。對于第一種問題,可以探索不同尺度下地物的檢測精度,也可以對不同分辨率所抽取到的特征做融合,以捕獲不同分辨率下所抽取得特征。低分辨率下,可以抽取該類別地物的宏觀信息;高分辨率下,可以抽取其細節(jié)信息,將不同分辨率下抽取到的特征進行融合,在一定程度上能削弱由分辨率變化帶來的影響。對于第二種問題,可利用計算機視覺解決。例如,可以利用一個空間金字塔模塊,使用不同大小的卷積核做卷積,還可以利用空洞卷積的方式來捕獲多尺度的特征[1]。
目前,深度學習領(lǐng)域最火熱的檢測算法為R-CNN系列。R-CNN網(wǎng)絡是目標檢測算法發(fā)展的里程碑模型,可將之前在PASCAL VOC2007數(shù)據(jù)集上的mAP指標直接從原始的34.3%提升到66%。R-CNN框架如圖1所示。
圖1 R-CNN框架圖
FastR-CNN算法是由Ren等人在2015年提出的,主要用來解決SPP-net和R-CNN的重復計算問題。
FastR-CNN算法的流程如圖2所示。第一,使用神經(jīng)網(wǎng)絡算法對圖像上的不同對象進行特征提??;第二,對區(qū)域候選框使用滑動窗口策略等不同方法進行提取,并與特征層進行匹配;第三,為得到固定大小的特征表示,需要將存在于特征層上的區(qū)域候選框逐一進行候選區(qū)域池化操作;第四,對兩個全連接層做目標識別,可以采用softmax多分類等方法;第五,用回歸模型進行邊框大小與位置的微調(diào)[2]。
圖2 Fast R-CNN框架圖
以R-CNN為代表的基于區(qū)域提取的算法盡管在檢測精度上達到實際生產(chǎn)需求,但在檢測速度上卻有所不足。可利用端到端的檢測算法解決這個問題。
Yolo算法多使用獨立的CNN模型達到端到端的目標檢測目的。首先將輸入圖片通過重采樣技術(shù)或其他方法將圖像調(diào)整為寬448個像素,高448個像素,然后將該圖片輸入CNN網(wǎng)絡,接著處理網(wǎng)絡預測結(jié)果,最后得到檢測目標。相比R-CNN算法,該算法具有統(tǒng)一的框架,且速度更快。Yolo的訓練過程也是端到端的。具體地,Yolo的CNN網(wǎng)絡將輸入的圖片分割成S×S網(wǎng)格,然后每個單元格負責檢測那些中心點落在該格子內(nèi)的目標。由圖3可知,狗這個目標的中心落在左下角一個單元格內(nèi),那么該單元格負責預測圖片中的狗。每個單元格都會預測產(chǎn)生相應的邊界框,并給每個邊界框賦予一個置信度[3]。
圖3 YOLO框架圖
面向?qū)ο筮b感解譯是一種遙感解譯方法,主要區(qū)別與基于像素的遙感解譯。傳統(tǒng)的基于像素的遙感解譯,只是單一地針對各個像元進行相應處理,沒有綜合考慮各個像元之間的內(nèi)在聯(lián)系。面向?qū)ο筮b感解譯充分結(jié)合不同地物在影像上的幾何特征、紋理特征及光譜特征等,解譯時的最小單元已不再是單個像元,而是將具有相同特征的地物作為單個的對象進行考慮[4]。
面向?qū)ο蠓椒ㄅc深度學習方法在遙感影像解譯方面的優(yōu)缺點如表1所示。
表1 面向?qū)ο笈c深度學習在遙感影像解譯方面的優(yōu)缺點
3.2.1 實現(xiàn)了信息提取規(guī)則自動化提取
面向?qū)ο蠓椒ㄐ枰庾g人員根據(jù)影像人工選擇和調(diào)整光譜、紋理及形狀等特征閾值,“面向?qū)ο?深度學習”方法可以自動學習影像光譜、紋理及形狀等特征,構(gòu)建規(guī)則。
3.2.2 提高了遙感影像自動解譯精度
利用面向?qū)ο筇崛〉膶ο筮吔?,將深度學習地物識別結(jié)果自動映射到“分割對象”上,實現(xiàn)地物邊界和類型準確分類,提高了遙感影像自動解譯精度。
深度學習算法結(jié)合面向?qū)ο蠓椒ㄔ诟叻直媛蔬b感影像解譯中的應用流程如圖4所示。
圖4 深度學習結(jié)合面向?qū)ο蠓椒ǖ倪b感解譯流程
本文通過分析不同深度學習算法在圖像分類中的應用,結(jié)合遙感影像工程解譯中的實際需求,對比分析面向?qū)ο蠓椒ㄅc深度學習算法的不同特點,闡述了深度學習結(jié)合面向?qū)ο蠓椒ㄔ谶b感影像解譯中的具體應用。