焦學(xué)軍,趙春峰,張瑞香*,王金娜
(1. 河南省地質(zhì)礦產(chǎn)勘查開發(fā)局測(cè)繪地理信息院,河南 鄭州 450000;2. 中化地質(zhì)(河南)勘測(cè)規(guī)劃設(shè)計(jì)院有限公司,河南 鄭州 450000;3. 河南省天空地遙感智能監(jiān)測(cè)工程技術(shù)研究中心,河南 鄭州 450000;4. 河南省自然資源天空地遙感智能監(jiān)測(cè)研究科技創(chuàng)新中心,河南 鄭州 450000)
隨著衛(wèi)星資源的快速發(fā)展和深度學(xué)習(xí)技術(shù)的進(jìn)步,利用遙感影像進(jìn)行地物分類提取得以開展并且取得許多成果。本文采用VGG-16 網(wǎng)絡(luò)模型,利用遷移學(xué)習(xí)模式,采用自建的訓(xùn)練樣本訓(xùn)練識(shí)別精度較高的模型,以期實(shí)現(xiàn)對(duì)露天礦山的露天采場(chǎng)、尾礦庫(kù)、固體廢棄物、中轉(zhuǎn)場(chǎng)地、恢復(fù)治理等重點(diǎn)監(jiān)管目標(biāo)對(duì)應(yīng)的圖斑范圍及圖斑類別的智能識(shí)別[1]。
本文結(jié)合河南省基于實(shí)景三維的露天礦山智能監(jiān)管示范研究項(xiàng)目及河南省礦業(yè)權(quán)人信息公示項(xiàng)目,采用河南省衛(wèi)星遙感中心提供的GF-1(空間分辨率2 m)、GF-2(空間分辨率0.8 m)遙感影像。利用露天礦山遙感解譯項(xiàng)目成果中歷年的人工解譯成果作為標(biāo)簽制作的數(shù)據(jù)基礎(chǔ)。
對(duì)選取的衛(wèi)片進(jìn)行目視解譯,在解譯成果SHAPE面文件中添加Value 字段,將人工解譯的圖斑類別按表1 轉(zhuǎn)換為對(duì)應(yīng)的Value 值,將沒有解譯的部分造面填充,Value 值設(shè)為255。將被固定大小圖框裁剪好的解譯結(jié)果轉(zhuǎn)為柵格圖片,柵格值為Value,格式為.jpg,分辨率與解譯的原影像保持一致。圖片的命名規(guī)則為原始圖片分兩部分,訓(xùn)練集中的原始圖片命名DT+六位流水碼.jpg, 驗(yàn)證集中的原始圖片命名DV+六位流水碼.jpg;標(biāo)簽圖片的命名與原始圖片相同,保證原始圖片與標(biāo)簽圖片的名稱完全相同,后綴為.png。
表1 標(biāo)簽制作分類標(biāo)準(zhǔn)
原始影像為img 格式的數(shù)據(jù),為了與數(shù)據(jù)的坐標(biāo)保持一致性,將其轉(zhuǎn)換為相同坐標(biāo)的同時(shí),確保數(shù)據(jù)的位數(shù)不會(huì)發(fā)生改變。img 轉(zhuǎn)jpg 格式時(shí)需要將nodate屬性值為空的影像數(shù)據(jù)手動(dòng)設(shè)定為255。
把原始影像與解譯標(biāo)簽對(duì)應(yīng)的數(shù)據(jù)組進(jìn)行旋轉(zhuǎn)變換(旋轉(zhuǎn)角度90°、180°、270°)與翻轉(zhuǎn)變換,把訓(xùn)練圖像集擴(kuò)充到12 049幅,擴(kuò)充訓(xùn)練集與驗(yàn)證集。最后把圖像縮放到224×224像素。
FCN是對(duì)輸入的圖像進(jìn)行像素級(jí)的分類,從而實(shí)現(xiàn)了語(yǔ)義級(jí)別的圖像分割問題。通過若干卷積層(conv)、激活層(relu)、池化層(pool)進(jìn)行圖像特征提取,采用若干反卷積層、池化層對(duì)圖像進(jìn)行上采樣,把圖像分析成果恢復(fù)到與原始圖像一致,從而可以對(duì)每一個(gè)像素都產(chǎn)生預(yù)測(cè),同時(shí)保留了原始輸入圖像中的空間信息,最后在奇偶上采樣的特征圖進(jìn)行像素的分類。FCN將傳統(tǒng)CNN中的全連接層轉(zhuǎn)化成單個(gè)的卷積層,所有的層都是卷積層,故稱為全卷積神經(jīng)網(wǎng)絡(luò)。
卷積核也稱為過濾器,每個(gè)卷積核,具有長(zhǎng)、寬、高3 個(gè)維度。在卷積層中,可以包含多個(gè)卷積核,卷積核個(gè)數(shù)即多卷積核的深度待處理圖像的深度(要素圖的張數(shù))相同,需人工指定參數(shù)。卷積核的尺寸根據(jù)實(shí)際需要指定,常用的過濾器長(zhǎng)寬尺寸為3×3、5×5 等較小數(shù)值,指定卷積核需指定長(zhǎng)和寬2 個(gè)參數(shù)。ReLU(激活函數(shù))的加入,使深度神經(jīng)網(wǎng)絡(luò)具備了分層的非線性映射學(xué)習(xí)能力[2-6]。在本文中采用的ReLU函數(shù)是一種常用的激活函數(shù):
式中,當(dāng)x<0 時(shí),ReLU硬飽和;而當(dāng)x>0 時(shí),則不存在飽和問題。ReLU 能夠在x>0 時(shí)保持梯度不衰減,從而緩解梯度消失問題[7]。
遷移學(xué)習(xí)是將某個(gè)領(lǐng)域或任務(wù)上學(xué)習(xí)到的知識(shí)或模式應(yīng)用到不同但相關(guān)的領(lǐng)域或問題中,從相關(guān)領(lǐng)域中遷移標(biāo)注數(shù)據(jù)或者知識(shí)結(jié)構(gòu)、完成或改進(jìn)目標(biāo)領(lǐng)域或任務(wù)的學(xué)習(xí)效果[8]。
為了優(yōu)化原始模型,本文將遷移學(xué)習(xí)應(yīng)用到深度卷積神經(jīng)網(wǎng)絡(luò)中。與傳統(tǒng)的機(jī)器學(xué)習(xí)不同,遷移學(xué)習(xí)的源域和目標(biāo)域、源任務(wù)和目標(biāo)任務(wù)均可不同[1]。本文中使用成熟神經(jīng)網(wǎng)絡(luò)模型VGG-16,包含了16個(gè)隱藏層(13個(gè)卷積層和3個(gè)全連接層)。數(shù)據(jù)集采用ImageNet 子集,數(shù)據(jù)集圖像總量140 萬幅,共1 000 個(gè)分類。
在VGG-16 模型上的應(yīng)用分為參數(shù)導(dǎo)入和輸出節(jié)點(diǎn)修改2 個(gè)部分。每個(gè)連接層后都添加了Dropout 層,以抑制過擬合[2]。經(jīng)過預(yù)訓(xùn)練的VGG-16 模型的所有卷積層參數(shù)和前2 個(gè)全連接層的參數(shù)導(dǎo)入到初始模型中,然后對(duì)自建數(shù)據(jù)集進(jìn)行訓(xùn)練。
2.3.1 FCN模型
核心VGG網(wǎng)絡(luò)結(jié)構(gòu)如圖1、2所示。
圖1 核心VGG網(wǎng)絡(luò)結(jié)構(gòu)
圖2 遷移學(xué)習(xí)流程
首先輸入圖像尺寸224×224,分類數(shù)目為255。VGG的前5層步長(zhǎng)都是2,也就是前5層的size依次減小1倍,前4層的采用的是平均池化;第5層的池化采用的是最大池化。其中:pool1 size 縮小2 倍, pool2 size縮小4倍,pool3 size縮小8倍,pool4 size縮小16倍,pool5 size縮小32倍。
其次就執(zhí)行丟棄層(Dropout),讓某個(gè)神經(jīng)元按照一定的概率停止工作,使模型的泛化性更強(qiáng),避免過擬合,同時(shí)也減少模型訓(xùn)練時(shí)間。再次,通過全連接輸出分類。最后執(zhí)行對(duì)應(yīng)的5 次反卷積上采樣,提升圖像尺寸到與原始輸入圖像尺寸相同。
2.3.2 空洞卷積
空洞卷積又稱膨脹卷積,顧名思義就是在標(biāo)準(zhǔn)的卷積核里注入空洞,以此來增加感受野。相比原來的正常卷積,空洞卷積多了一個(gè)超參數(shù)稱之為擴(kuò)張率,是指卷積核的間隔數(shù)量。Dilated Conv 的優(yōu)勢(shì)是不做pooling損失信息的情況下,增大了感受野,讓每個(gè)卷積輸出都包含較大范圍的信息。
本文采用tensorflow Gpu 框架,進(jìn)行遷移模型訓(xùn)練。自建數(shù)據(jù)集中訓(xùn)練集包含10 974組成對(duì)的影像和解譯數(shù)據(jù)標(biāo)簽,測(cè)試集包含1 075 組成對(duì)的影像和解譯數(shù)據(jù)標(biāo)簽,訓(xùn)練集與測(cè)試集比例約為10∶1。
設(shè)置學(xué)習(xí)率為0.000 1,輸入數(shù)據(jù)為RGB 三通道,每批次24 幅圖片,訓(xùn)練過程中以損失率驗(yàn)證準(zhǔn)確率。每10組數(shù)據(jù)顯示一次損失率,每500組數(shù)據(jù)顯示損失率并送入模型預(yù)測(cè)損失保存生成的檢查點(diǎn)文件,同時(shí)記錄訓(xùn)練周期,本文設(shè)置最大迭代次數(shù)100 000,F(xiàn)CN訓(xùn)練損失率與迭代次數(shù)關(guān)系如圖3、4所示。
圖3 訓(xùn)練損失率
圖4 FCN訓(xùn)練分項(xiàng)準(zhǔn)確率統(tǒng)計(jì)
采用遷移學(xué)習(xí),學(xué)習(xí)率為0.000 1時(shí),與原始圖像數(shù)據(jù)集準(zhǔn)確率相比,擴(kuò)充圖像數(shù)據(jù)作為訓(xùn)練集測(cè)試準(zhǔn)確率分別提高了6%,表明擴(kuò)充訓(xùn)練的圖像數(shù)據(jù)集可增加數(shù)據(jù)的多樣性,提升機(jī)器視覺的準(zhǔn)確率,表明擴(kuò)充圖像數(shù)據(jù)提高了模型的魯棒性。提高效果的遷移學(xué)習(xí)訓(xùn)練全部層提高4 個(gè)百分點(diǎn),不同擴(kuò)充數(shù)據(jù)集的訓(xùn)練準(zhǔn)確率與測(cè)試準(zhǔn)確率相差不大(圖5)。遷移學(xué)習(xí)使模型在ImageNet數(shù)據(jù)集上訓(xùn)練得到更優(yōu)于數(shù)據(jù)集擴(kuò)充的效果,減弱了數(shù)據(jù)集擴(kuò)充提效的作用。但擴(kuò)充數(shù)據(jù)較原始數(shù)據(jù)集的訓(xùn)練測(cè)試準(zhǔn)確率有所提高,是由于數(shù)據(jù)擴(kuò)充為模型訓(xùn)練提供一定量的訓(xùn)練數(shù)據(jù)量。測(cè)試說明遷移學(xué)習(xí)降低了對(duì)自建數(shù)據(jù)集的擴(kuò)充作用,但訓(xùn)練集還是必要保證有一定的數(shù)據(jù)量,以增加礦山特征地物的識(shí)別能力。
圖5 遷移學(xué)習(xí)訓(xùn)練分項(xiàng)準(zhǔn)確率統(tǒng)
本文采用FCN對(duì)河南省露天礦山監(jiān)管目標(biāo)進(jìn)行自動(dòng)提取,并采用了數(shù)據(jù)集擴(kuò)充、空洞卷積、遷移學(xué)習(xí)等技術(shù)提升目標(biāo)提取的準(zhǔn)確率。
基于FCN 的遷移學(xué)習(xí)減少了機(jī)器學(xué)習(xí)的訓(xùn)練時(shí)間,通過自建數(shù)據(jù)集的擴(kuò)充提高了露天礦山監(jiān)管目標(biāo)的識(shí)別性能,在目標(biāo)圖像類別和范圍識(shí)別方面取得不錯(cuò)的識(shí)別精度。對(duì)露天礦山監(jiān)管目標(biāo)訓(xùn)練數(shù)據(jù)集進(jìn)行數(shù)據(jù)擴(kuò)充的遷移學(xué)習(xí)可以提升模型的識(shí)別精度。在本文的遷移學(xué)習(xí)中,測(cè)試集準(zhǔn)確率由原來的79.66 提升到86.53%,效果比較明顯。