劉博斐 雒琛
(1.中電科新型智慧城市研究院有限公司 廣東省深圳市 518000 2.哈爾濱工業(yè)大學(xué) 廣東省深圳市 150001)
研究方向是在遙感數(shù)據(jù)上的變化檢測(cè)問題。變化檢測(cè)的問題主要用于發(fā)現(xiàn)地表在一段時(shí)間的變化,這種變化的檢測(cè)可廣泛用于城市規(guī)劃,環(huán)境監(jiān)測(cè),農(nóng)業(yè)發(fā)展,災(zāi)害評(píng)估等。變換檢測(cè)的過程是通過分析在前后兩個(gè)不同時(shí)間采集到的圖像數(shù)據(jù)來判定物體或現(xiàn)象的變化。準(zhǔn)確的分析結(jié)果需要基于大量、高質(zhì)量的分析數(shù)據(jù),幸運(yùn)的是隨著遙感技術(shù)的發(fā)展,越來越多的高時(shí)空時(shí)相分辨率數(shù)據(jù)可以用于研究,例如衛(wèi)星影像和航空影像都可以提供大量的信息用于檢測(cè)跨越一段時(shí)間的陸地使用及覆蓋變化。除此之外其他數(shù)據(jù)的融入也可以幫助提高分析精度,例如用于表示地面物體高度的點(diǎn)云數(shù)據(jù)可以用于建筑高度的變化檢測(cè),路面拍攝的圖片也可以作為衛(wèi)星圖像的輔助用于更高精度的變化檢測(cè)。
最多用于變化檢測(cè)的三類遙感數(shù)據(jù)是SAR 數(shù)據(jù)、多光譜數(shù)據(jù)和高光譜數(shù)據(jù)。SAR 數(shù)據(jù)是通過衛(wèi)星上的傳感器收集的,得益于微波的穿透性SAR 數(shù)據(jù)不會(huì)受到大氣和光照條件的影響,因此在各種天氣條件下都能非常清楚的記錄地表狀況,這種能力使他成為變化檢測(cè)問題里最有價(jià)值的數(shù)據(jù)。同時(shí)不同的地表類別比如土壤、河流等都有不同的微波表示。同時(shí)SAR 數(shù)據(jù)很容易受到斑點(diǎn)噪音干擾,如果在處理時(shí)不抑制此類噪音將會(huì)影響分析精度。變化檢測(cè)中的光學(xué)數(shù)據(jù)主要由多光譜和高光譜構(gòu)成,他們由圖像波段的個(gè)數(shù)來區(qū)分,多光譜圖像一般波段數(shù)小于10,而高光譜圖像波段數(shù)可以達(dá)到幾百甚至幾千。多光譜圖像一般由衛(wèi)星采集而來,可以很經(jīng)濟(jì)且穩(wěn)定的獲得,時(shí)間和空間覆蓋率都很高,其圖像分辨率范圍可以從很低到很高(10-100 厘米/像素),它能提供非常豐富的顏色、紋理等屬性從而反映真實(shí)的地表結(jié)構(gòu),因此也廣泛的用于變化檢測(cè)領(lǐng)域。高光譜圖像由幾百甚至幾千連續(xù)且非常窄的光譜組成,他們能提供豐富的空間和頻譜信息,詳細(xì)的光譜變換信息是變換檢測(cè)性能的有力保證,但是由于其數(shù)據(jù)量太大,一般需要消耗大量的計(jì)算資源,并且用于訓(xùn)練的數(shù)據(jù)量也不能太大。當(dāng)使用來自相同傳感器的同源數(shù)據(jù)時(shí),數(shù)據(jù)有相同的屬性及特征空間,由于衛(wèi)星的拍攝周期,要獲得高頻率采集的數(shù)據(jù)最簡(jiǎn)單、靈活的辦法就是使用來自不同衛(wèi)星的異源數(shù)據(jù),他們有不同的特征空間,因此在變化檢測(cè)方面需要更可靠的技術(shù)。遙感圖像變化檢測(cè)數(shù)據(jù)分類如圖1 所示。
時(shí)至今日為了解決在變化檢測(cè)過程中高空間高頻譜分辨率帶來的問題,越來越多的變化檢測(cè)方法被提出,這些方法可以大致分為傳統(tǒng)方法和基于人工智能的方法。根據(jù)檢測(cè)單元的不同,這些方法又可分為基于像素級(jí)、特征級(jí)及對(duì)象級(jí)的檢測(cè)。不管使用哪種方法,變化檢測(cè)的過程大致可分為以下三個(gè)步驟:
(1)數(shù)據(jù)預(yù)處理,由于變化檢測(cè)主要的對(duì)象是雙時(shí)相數(shù)據(jù),因此數(shù)據(jù)首先需要進(jìn)行圖像對(duì)準(zhǔn),還需要進(jìn)行正射校正以消除光照影響,同時(shí)還需要對(duì)數(shù)據(jù)的噪音進(jìn)行處理。
(2)特征提取,例如使用基于機(jī)器學(xué)習(xí)的方法提取圖像空間和頻譜的特征,未變化的區(qū)域在隱空間的特征應(yīng)該相似,而變化的區(qū)域則相差甚遠(yuǎn)。
(3)判別/分類,基于提取出來的特征判斷出該區(qū)域/像素是否發(fā)生變化。傳統(tǒng)的變化檢測(cè)方法大致有幾下幾種:
1.代數(shù)分析,基本思想是計(jì)算圖像的特征矩陣,比較后將變化/未變化區(qū)域通過閾值分開,最典型的代表是CVA (Change Vector Analysis)。
2.基于圖像變換,基本思想是將多光譜圖像變換到一個(gè)特別的的特征空間,在這個(gè)空間內(nèi),未變化的時(shí)相數(shù)據(jù)對(duì)有相似的特征表達(dá)而對(duì)于變化的時(shí)相數(shù)據(jù)對(duì)則是不同的,在這類方法中最著名的是主成分分析法(PCA),除此之外還有例如Kauth-Thomas 變換等。
3.圖像分類后比較法,這種方法以分類為基礎(chǔ),運(yùn)用統(tǒng)一的分類方法對(duì)每一個(gè)時(shí)相遙感影響進(jìn)行單獨(dú)分類,通過對(duì)結(jié)果的比較直接發(fā)現(xiàn)變化,這種方法可以回避多時(shí)相數(shù)據(jù)因?yàn)榧竟?jié)或傳感器不同而帶來的歸一化問題,但是其精度又非常大程度受到每個(gè)時(shí)相分類精度的影響。近幾年深度學(xué)習(xí)隨著其發(fā)展在圖像處理領(lǐng)域取得了顯著的成績(jī),例如圖像分類,語義分割當(dāng)然也很大程度推進(jìn)了變化檢測(cè)的發(fā)展。基于深度學(xué)習(xí)的變化檢測(cè)輸入數(shù)據(jù)可以是同源也可以是不同源數(shù)據(jù),通過深度學(xué)習(xí)可以得到雙時(shí)相圖像潛在的特征表達(dá),其處理結(jié)構(gòu)可以是單數(shù)據(jù)流,雙數(shù)據(jù)流和多數(shù)據(jù)流。
圖1:遙感圖像變化檢測(cè)數(shù)據(jù)分類
發(fā)展至今,基于深度學(xué)習(xí)的變化檢測(cè)已經(jīng)能很好的解決大多數(shù)的問題,通過使用傳統(tǒng)方法產(chǎn)生偽標(biāo)記的數(shù)據(jù)集再與深度學(xué)習(xí)方法結(jié)合更彌補(bǔ)了遙感數(shù)據(jù)標(biāo)記耗時(shí)、準(zhǔn)確率低的問題。然而在這一領(lǐng)域還有很多問題值得思考與研究,比如如何更好的處理多時(shí)相數(shù)據(jù),更有效地將大量遙感數(shù)據(jù)用于變化分析。
圖2:剪裁的數(shù)據(jù)塊用作神經(jīng)網(wǎng)絡(luò)輸入
圖3:雙時(shí)相數(shù)據(jù)直接作為輸入
圖4:基于LSTM 的網(wǎng)絡(luò)結(jié)構(gòu)
由于傳統(tǒng)方法基于對(duì)多時(shí)相數(shù)據(jù)的直接對(duì)比或人工提取的特征因此并不能很好的解決變化檢測(cè)的問題。機(jī)器學(xué)習(xí)在很多數(shù)據(jù)處理任務(wù)中都表現(xiàn)出了很好的性能,尤其在特征提取方面更是優(yōu)于其他傳統(tǒng)方法,得益于其強(qiáng)大的建模和學(xué)習(xí)能力機(jī)器學(xué)習(xí)可以盡可能地模擬圖像物體和其幾何特征的關(guān)系[1]?;跈C(jī)器學(xué)習(xí)的網(wǎng)絡(luò)可以是單數(shù)據(jù)流的框架結(jié)構(gòu)也可以是雙數(shù)據(jù)流的框架結(jié)構(gòu)。因?yàn)橐噪p時(shí)相數(shù)據(jù)作為訓(xùn)練集,在基于單數(shù)據(jù)流的框架結(jié)構(gòu)中雙時(shí)相數(shù)據(jù)一般會(huì)以融合的方式生成單一輸入數(shù)據(jù),雙數(shù)據(jù)流使用最多的框架結(jié)構(gòu)是孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在兩個(gè)并行的神經(jīng)網(wǎng)絡(luò)中參數(shù)可以共享,也有研究證明各自訓(xùn)練的參數(shù)由于其可以提取各自領(lǐng)域特有的特征有時(shí)能提供更好的性能,即偽孿生神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。近幾年基于機(jī)器學(xué)習(xí)或其與傳統(tǒng)方法相結(jié)合的變化檢測(cè)策略大致分為以下兩類:
在非監(jiān)督方法中,不會(huì)使用任何人工標(biāo)注的標(biāo)簽,在快速增長(zhǎng)的遙感數(shù)據(jù)上進(jìn)行人工標(biāo)簽非常耗時(shí)耗力,因此非監(jiān)督的方法有著顯著的優(yōu)點(diǎn)?;谧儞Q和聚類的技術(shù)是兩類使用最多的技術(shù)[2]。在近幾年的實(shí)踐過程中,傳統(tǒng)方法通常用于生成差異圖(Different Image)/偽標(biāo)簽,這些差異圖/偽標(biāo)簽及對(duì)應(yīng)的數(shù)據(jù)將作為下一步訓(xùn)練的輸入。其生成最簡(jiǎn)單常用的算法是在同源數(shù)據(jù)上使用差異操作符或比例操作符,差異操作符在光學(xué)圖像上被證明比較有效,而由于SAR 圖像易受斑點(diǎn)噪聲的影響因此效果并不顯著,而且噪聲無法被抑制,比例操作符則是將兩張SAR 圖像相除,然而它也只能使用局部信息。在此基礎(chǔ)上,對(duì)數(shù)操作和均值操作使用面更廣泛[3]。主成分分析也是一種很流行的用來給光學(xué)圖像中時(shí)相,頻譜不變的像素點(diǎn)進(jìn)行建模的計(jì)算方法,它通過將圖像變換到正交的空間內(nèi),再選擇某一空間,這里傳統(tǒng)的做法是選擇第一主成分空間,然后將變化的圖直接進(jìn)行對(duì)比生成差異圖,相似的方法還有光譜相關(guān)角(SCA)?;诰垲惖姆椒ɑ舅枷雱t是將單一像素點(diǎn)分入變化、未變化類,從而實(shí)現(xiàn)像素級(jí)別的變化檢測(cè)。
在傳統(tǒng)聚類中給定對(duì)象的邊界是清晰的,在變化檢測(cè)問題中為了克服傳統(tǒng)聚類方法的弊端一般使用的是K 模糊聚類,即每個(gè)數(shù)據(jù)點(diǎn)不是被硬化分到一個(gè)聚簇而其與聚簇間的關(guān)系取自概率[0,1]之間。在[3]中,作者首先將同源數(shù)據(jù)相減并歸一化得到差異矩陣,對(duì)于每一個(gè)像素點(diǎn)根據(jù)其對(duì)應(yīng)的差異矩陣進(jìn)行k 模糊聚類,根據(jù)聚類結(jié)果將像素標(biāo)記為變化/未變化點(diǎn),為了提高偽標(biāo)簽的精度,相鄰像素點(diǎn)的信息被用來刪除可能的噪音點(diǎn)(KNN)[4],這些噪音點(diǎn)明顯的特點(diǎn)是其大多數(shù)鄰居像素點(diǎn)與其不屬于同一類,經(jīng)過處理的雙時(shí)相圖片可作為四層CNN 網(wǎng)絡(luò)的訓(xùn)練集用以訓(xùn)練一個(gè)能以直接進(jìn)行變化檢測(cè)的分類器?;赑CA 思想的方法也是一個(gè)非常常用的用于生成偽標(biāo)簽的途徑。在[5]中,同[3]作者首先在同源光學(xué)數(shù)據(jù)上使用差異分析來生成一個(gè)非常粗糙的差異圖,進(jìn)行主成分變換,變換后符合條件的主成分空間必須滿足未變化的區(qū)域相對(duì)相關(guān)而變化區(qū)域不相關(guān)。借此選取的訓(xùn)練數(shù)據(jù)作為一個(gè)3D-FCN 網(wǎng)絡(luò)的訓(xùn)練集。
基于監(jiān)督方法的變化檢測(cè)一般都是一個(gè)端到端過程,不會(huì)有預(yù)處理及后處理過程,一般都是有一個(gè)可以直接進(jìn)行變化檢測(cè)的神經(jīng)網(wǎng)絡(luò)組成。這些方法的輸入主要分為兩種,一種是在雙時(shí)相數(shù)據(jù)對(duì)上通過對(duì)原數(shù)據(jù)切割得到的n*n 的一對(duì)數(shù)據(jù)塊,這類網(wǎng)絡(luò)的輸出一般等同于分類器的輸出,也就是可以直接判別雙時(shí)相數(shù)據(jù)對(duì)是否發(fā)生變化;另一種是直接將雙時(shí)相數(shù)據(jù)對(duì)作為輸入,這類網(wǎng)絡(luò)的輸出一般是與輸入數(shù)據(jù)大小相同的變化圖,圖中標(biāo)記發(fā)生變化的像素點(diǎn)[6]。
在[7]中,作者將數(shù)據(jù)塊作為輸入,最后連接一個(gè)全連接層,用于直接分類。同樣在[8]中,作者也使用了同樣的思想,如圖2。
將雙時(shí)相數(shù)據(jù)直接作為輸入的網(wǎng)絡(luò)一般會(huì)使用FCN 網(wǎng)絡(luò),利用與語義分割相似的思想,使用上采樣的方法將處理后的數(shù)據(jù)還原到原大小。在[9]中,作者就采用了這樣的思想來生成雙時(shí)相數(shù)據(jù)的變化圖。如圖3 所示。
隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展,很對(duì)在圖像分析處理其他領(lǐng)域效果顯著的網(wǎng)絡(luò)結(jié)構(gòu)在變化檢測(cè)領(lǐng)域也顯示出了其強(qiáng)大的處理能力。例如循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN, LSTM),遷移學(xué)習(xí),對(duì)抗神經(jīng)網(wǎng)絡(luò)(GAN),注意力機(jī)制等。
圖5:遷移學(xué)習(xí)結(jié)構(gòu)
圖6:對(duì)抗神經(jīng)網(wǎng)絡(luò)在變化檢測(cè)中應(yīng)用網(wǎng)絡(luò)結(jié)構(gòu)1
因?yàn)樽兓瘷z測(cè)問題的基礎(chǔ)是雙時(shí)相數(shù)據(jù),作為一種時(shí)間序列數(shù)據(jù),循環(huán)神經(jīng)網(wǎng)絡(luò)可以充分利用時(shí)間相關(guān)性的特征,通過與CNN的結(jié)合,光譜、空間、時(shí)間特征都能被提取并且用于檢測(cè)分析。LSTM 結(jié)構(gòu)由三個(gè)門控制數(shù)據(jù),即輸入門、輸出門、遺忘門,每個(gè)門都是一個(gè)可以學(xué)習(xí)的權(quán)重,循環(huán)神經(jīng)網(wǎng)絡(luò)通過利用將上一時(shí)的數(shù)據(jù)與當(dāng)前數(shù)據(jù)通過循環(huán)隱藏狀態(tài)想結(jié)合而提取雙時(shí)相數(shù)據(jù)時(shí)間相關(guān)信息[5]。在[10]中作者實(shí)現(xiàn)了一個(gè)最基本的基于CNN 和LSTM 的網(wǎng)絡(luò),雙時(shí)相數(shù)據(jù)的數(shù)據(jù)塊對(duì)作為輸入,網(wǎng)絡(luò)的輸出是此數(shù)據(jù)對(duì)變化/未變化的分類信息。在[11]中,作者使用了一個(gè)U-net 結(jié)構(gòu),在其前半部分,循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)被加入每一層之后,基于數(shù)據(jù)塊的網(wǎng)絡(luò)雖然能保證結(jié)果的準(zhǔn)確性,因?yàn)橐獑为?dú)處理每個(gè)像素點(diǎn),非常耗時(shí),因此與[5]不同的是,作者在這塊直接使用了整張數(shù)據(jù)圖作為輸入,以提高計(jì)算效率。如圖4 所示。
在變化檢測(cè)領(lǐng)域,由于可用于訓(xùn)練的有標(biāo)記的數(shù)據(jù)并不是很豐富,而圖像處理領(lǐng)域的其他標(biāo)記數(shù)據(jù)確實(shí)非常豐富的,如果已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)遷移到變化檢測(cè)的網(wǎng)絡(luò),以此為基礎(chǔ)對(duì)網(wǎng)絡(luò)進(jìn)行進(jìn)一步的訓(xùn)練可以很好的彌補(bǔ)標(biāo)記數(shù)據(jù)不足的問題。在[12]中,作者使用了一個(gè)開源的預(yù)訓(xùn)練的完整U-net 模型,之后使用已標(biāo)記的數(shù)據(jù)對(duì)網(wǎng)絡(luò)進(jìn)一步優(yōu)化。在[13]中,作者使用了非同源數(shù)據(jù)作為數(shù)據(jù)集,由于非同源數(shù)據(jù)有通用的特征比如圖像中的線條、形狀,也有各自獨(dú)有的特征比如圖像光譜、材質(zhì)等,神經(jīng)網(wǎng)絡(luò)的低層提取的一般是圖像中普遍的特征,因此可以用于分享,而高層提取的是圖像特征域獨(dú)有的特征,因此應(yīng)該各自訓(xùn)練。如圖5 所示。
圖7:對(duì)抗神經(jīng)網(wǎng)絡(luò)在變化檢測(cè)中應(yīng)用網(wǎng)絡(luò)結(jié)構(gòu)2
圖8:空間注意力機(jī)制
圖9:通道注意力機(jī)制 1
圖10:基于機(jī)器學(xué)習(xí)的變化檢測(cè)發(fā)展軌跡
對(duì)抗神經(jīng)網(wǎng)絡(luò)可以在生成器和判別器的相互作用下生成從給定的噪音生成結(jié)果圖,結(jié)果圖跟原圖相比可以達(dá)到“以假亂真”的效果,這種能力在非同源數(shù)據(jù)中可以發(fā)揮很大的作用。非同源數(shù)據(jù)因?yàn)樵诓煌奶卣饔蛑幸虼瞬荒苤苯舆M(jìn)行對(duì)比,如果能通過對(duì)抗網(wǎng)絡(luò)將源特征域的圖像轉(zhuǎn)化到目標(biāo)特征域,則圖像可以直接對(duì)比。在[14]中,作者將光學(xué)數(shù)據(jù)通過對(duì)抗神經(jīng)網(wǎng)絡(luò)變化到SAR 圖像特征域,之后進(jìn)行直接對(duì)比,與傳統(tǒng)對(duì)抗神經(jīng)網(wǎng)絡(luò)不同的是,在變化檢測(cè)問題中,用來判別的圖像是雙時(shí)相數(shù)據(jù)中未變化的區(qū)域塊,這能確保生成器能準(zhǔn)確學(xué)習(xí)到圖片特征空間的特征而不受其他影響,訓(xùn)練結(jié)束后,生成器可以直接用于將光學(xué)數(shù)據(jù)轉(zhuǎn)化為類SAR 圖像數(shù)據(jù)。如圖6 所示。
對(duì)抗神經(jīng)網(wǎng)絡(luò)不僅可以用在圖像生成部分,也可以用于圖像判別部分,在[15]中,作者先使用W-net 生成變化檢測(cè)結(jié)果,整個(gè)部分作為對(duì)抗神經(jīng)網(wǎng)絡(luò)的生成器,其結(jié)果和圖像標(biāo)記作為對(duì)抗神經(jīng)網(wǎng)絡(luò)的判別器,整個(gè)網(wǎng)絡(luò)優(yōu)化目標(biāo)是使判別器最后無法再分辨出W-net生成的變化圖和人工標(biāo)記的變化圖。如圖7 所示。
注意力機(jī)制的基本思想是選擇關(guān)注所有信息的一部分同時(shí)忽略其他信息,根據(jù)其注意力在空間或通道可以分為空間注意力機(jī)制和通道注意力機(jī)制,空間注意力機(jī)制更關(guān)注“在哪”而通道注意力機(jī)制更關(guān)注“是什么”。在[16]和[17]作者都通過雙注意力機(jī)制來提高網(wǎng)絡(luò)的辨別能力。如圖8 所示。
總結(jié)來看,當(dāng)前基于機(jī)器學(xué)習(xí)的變化檢測(cè)問題已經(jīng)取得了一定的發(fā)展,大致發(fā)展歷為如圖10 所示。