肖和平, 趙宇恒, 米素娟
(1.湖南省交通運輸廳科技信息中心, 湖南 長沙 410015;2.中國地質(zhì)大學(xué)(武漢)地理與信息工程學(xué)院, 湖北 武漢 430074; 3.中國交通通信信息中心, 北京 100011)
當(dāng)前,遙感信息技術(shù)在交通網(wǎng)絡(luò)建設(shè)與監(jiān)管中的應(yīng)用日益廣泛,如何從海量遙感影像數(shù)據(jù)中對橋梁、港口、機場、車站等重要交通設(shè)施場景進(jìn)行計算機自動圖像特征提取,并將提取的設(shè)施場景圖像特征輸入分類算法模型,實現(xiàn)目標(biāo)設(shè)施的準(zhǔn)確分類與識別、及時獲取各類交通設(shè)施狀況,是智能化交通建設(shè)監(jiān)管的難點問題,也是實現(xiàn)交通網(wǎng)絡(luò)數(shù)字化、智能化,建立交通網(wǎng)絡(luò)模型的重要技術(shù)之一,對綜合交通網(wǎng)絡(luò)布局、智慧交通建設(shè)等方面都具有重要的理論意義和實踐應(yīng)用價值[1-3]。近年來,國內(nèi)外學(xué)者基于圖像紋理、形狀、顏色等低層特征和知識、語義等高層特征的提取,以及特征學(xué)習(xí)的方法,針對橋梁、機場、港口等某種交通目標(biāo)的識別與檢測進(jìn)行了一定研究,如Huertas等[4]對航拍圖像的紋理特征進(jìn)行提取,實現(xiàn)機場綜合體跑道的自動檢測;毛玲等[5]提出了一種復(fù)合線索視覺注意模型,利用高分辨率光學(xué)遙感圖像的港口多尺度低層特征和知識線索高層特征,實現(xiàn)了港口檢測;Lu等[6]基于高空間分辨率遙感HSR(High Spatial Resolution)影像提取機場目標(biāo)。韓曉青等[7]提取地物邊緣輪廓,并結(jié)合SURF(Speed Up Robust Features)檢測到圖像中的機場目標(biāo);常永雷等[8]分析高分辨率遙感SAR影像的統(tǒng)計特征和橋梁特征,提出了一種新的橋梁自動識別方法;秦偉鋒[9]基于層次化處理方法進(jìn)行了機場跑道及停機坪輪廓自動提取,并綜合運用Hough變換、數(shù)學(xué)形態(tài)學(xué)等多種圖像處理算法,完成了對機場目標(biāo)的識別;張志龍等[10]提出一種基于內(nèi)港岸線特征譜的方法識別港口。上述研究取得了較好的進(jìn)展,但基于低層特征進(jìn)行目標(biāo)識別與分類有一定的應(yīng)用限制,其識別精度也較低,且特征提取過程中由于圖像質(zhì)量、背景復(fù)雜程度及提取算法等都會影響識別精度,存在較大的不確定性[11]。
20世紀(jì)80年代,Rumelhart等[12]首次提出反向傳播算法,為機器學(xué)習(xí)的發(fā)展奠定了良好基礎(chǔ)。隨后,基于支持向量機(Support Vector Machine, SVM)、Boosting等淺層學(xué)習(xí)算法的應(yīng)用取得較好的效果,如Bhattacharya等[13]基于改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)完成道路目標(biāo)的檢測;馬洪超等[14]以機場為研究對象,采用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)作為算法工具識別機場;Lv等[15]提出一種用模糊支持向量機對圖像進(jìn)行分類,再對所有分類的區(qū)塊構(gòu)建距離空間,通過在距離空間中設(shè)定閾值來定位橋梁。而支持向量機、僅含一層隱層的神經(jīng)網(wǎng)等一些淺層學(xué)習(xí)結(jié)構(gòu)的機器學(xué)習(xí)方法,在有限的樣本數(shù)量和計算單元對復(fù)雜函數(shù)的表示存在明顯不足,在復(fù)雜的分類問題上更難以有效地表現(xiàn)性能和泛化能力[16],且基于反向傳播算法的BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中容易出現(xiàn)梯度消失現(xiàn)象,并在增加網(wǎng)絡(luò)層數(shù)后會出現(xiàn)過擬合問題[17]。
近年來,與淺層結(jié)構(gòu)相對應(yīng)的深度學(xué)習(xí)進(jìn)入快速發(fā)展階段,Hinton等[18]提出深層網(wǎng)絡(luò)訓(xùn)練中梯度消失的解決方案;Yosinski等[19]提出遷移學(xué)習(xí)方法,結(jié)合目前最大的圖像識別數(shù)據(jù)庫ImageNet構(gòu)建深度學(xué)習(xí)模型框架,有效解決小樣本數(shù)據(jù)訓(xùn)練模型易產(chǎn)生的過擬合問題,且大大縮減模型訓(xùn)練時間;Zhang等[20]基于耦合卷積神經(jīng)網(wǎng)絡(luò)的弱監(jiān)督學(xué)習(xí)檢測機場目標(biāo);Cheng等[21]采用高空間分辨率遙感影像VHR(Very High Resolution),結(jié)合自動編碼器的方法提取出了機場、道路等交通目標(biāo);楊淼等[22]基于卷積神經(jīng)網(wǎng)絡(luò)對港口進(jìn)行識別;牛新等[23]采用遷移學(xué)習(xí)方法在有標(biāo)簽樣本稀缺的情況下有效構(gòu)建深度網(wǎng)絡(luò),并利用目標(biāo)先驗知識對潛在目標(biāo)進(jìn)行高效提取,可在秒級時間對機場進(jìn)行識別。大量研究表明基于深度學(xué)習(xí)在交通設(shè)施目標(biāo)的檢測應(yīng)用中精度較高,檢測效果良好,基于深度學(xué)習(xí)的交通設(shè)施目標(biāo)檢測成為研究熱點。
從上述研究現(xiàn)狀分析中可以看出,目前針對特定交通目標(biāo)檢測與識別的研究取得了一定進(jìn)展,但如何對機場、橋梁、港口、火車站、停車場等綜合交通設(shè)施場景進(jìn)行識別與分類還有待深入研究。在綜合交通設(shè)施場景中,相同交通設(shè)施目標(biāo)在場景上往往存在較大的差異,同時一些交通設(shè)施目標(biāo)與非交通設(shè)施在場景上又存在極大的相似性,且有些不同的交通設(shè)施目標(biāo)在場景上也會出現(xiàn)一定的相似性,這無疑給綜合交通設(shè)施目標(biāo)場景的識別與分類帶來了較大難度。而綜合交通設(shè)施場景自動分類與識別對于交通網(wǎng)絡(luò)的規(guī)劃與布局、城市的結(jié)構(gòu)優(yōu)化與發(fā)展等具有重要的價值。
鑒于深度學(xué)習(xí)方法在圖像分類識別領(lǐng)域的潛在優(yōu)勢和廣泛應(yīng)用前景,本文采用Caffe框架中的CaffeNet模型進(jìn)行綜合交通設(shè)施的分類與識別。CaffeNet模型具有模塊化設(shè)置,便于擴展新的任務(wù),能高效處理海量數(shù)據(jù),同時又具有極高的識別精度等優(yōu)勢。數(shù)據(jù)集使用遙感圖像場景分類的AID(Aerial Image Data)數(shù)據(jù)集[24],并根據(jù)遷移學(xué)習(xí)的思想,基于ImageNet圖像庫預(yù)訓(xùn)練出的CaffeNet模型進(jìn)行特征提取,然后將特征輸入到SVM分類器進(jìn)行分類識別。研究結(jié)果證明:相較于基于VGG-16、GoogleNet這2種深度學(xué)習(xí)模型以及典型的基于顏色直方圖特征提取、局部二值化特征提取和尺度不變特征提取等方法,基于CaffeNet模型的方法在機場、橋梁、港口、停車場及火車站等目標(biāo)的分類與識別中,性能最穩(wěn)定,具有最高的分類精度,對各類交通設(shè)施目標(biāo)的識別率均達(dá)到了90%以上,可以有效實現(xiàn)對綜合交通設(shè)施場景的高精度分類與識別。
深度學(xué)習(xí)CaffeNet模型是一種卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)方法,卷積神經(jīng)網(wǎng)絡(luò)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),是深度學(xué)習(xí)的主要方法之一[25]。CaffeNet為卷積神經(jīng)網(wǎng)絡(luò)的一個開源框架,具有速度快、模塊化、開放性等優(yōu)點。圖像輸入CaffeNet模型后經(jīng)過卷積層、池化層、激活函數(shù)、全連接層的處理,獲得特征向量,并將結(jié)果輸出到分類器中進(jìn)行分類。其中卷積層是對圖像的濾波計算過程,卷積運算如公式(1)所示。
g(x,y)=f(x,y)*w(i,j)=
(1)
式中:f(x,y)為圖像中x行y列的灰度值;w為卷積核即濾波器。
卷積層是卷積神經(jīng)網(wǎng)絡(luò)的重要組成之一,用于提取圖像特征。卷積層采用一系列可訓(xùn)練的卷積核對上一層輸出數(shù)據(jù)進(jìn)行卷積運算,并用一個非線性函數(shù)將卷積結(jié)果變換到某一個限定范圍內(nèi),從而使模型具有非線性特征。卷積層計算如式(2)所示。
(2)
通過卷積層獲取的特征維數(shù)一般較大,易出現(xiàn)過擬合,故使用池化層對輸入圖像進(jìn)行降采樣處理。池化層對輸入特征圖像的相鄰像素之間進(jìn)行取平均或求最大值,以降低特征圖的分辨率。池化層的計算如式(3)所示。
(3)
CaffeNet模型采用ReLU(Rectified Linear Units)激活函數(shù),能夠有效緩解梯度彌散問題,從而直接以監(jiān)督的方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)[26]。ReLU的具體形式如式(4)所示。
(4)
全連接層一般出現(xiàn)在網(wǎng)絡(luò)的末端,但并不是必須的,可以是沒有或多個。全連接層的每一個神經(jīng)元都與前一層的所有神經(jīng)元相連接,它的主要作用是將二維特征圖轉(zhuǎn)換成一維向量,便于輸出層進(jìn)行分類。輸出層是卷積神經(jīng)網(wǎng)絡(luò)最后一層,它的作用是對輸入的一維向量進(jìn)行分類。輸出層相當(dāng)于一個分類器,本文采用SVM分類器。輸出層與前一層也是采用全連接形式,輸出也是一個一維向量,維數(shù)等于分類數(shù)目。
實驗數(shù)據(jù)采用AID數(shù)據(jù)集中的機場、橋梁、停車場、港口、火車站等5類交通設(shè)施場景圖像,其中機場場景圖像360幅,橋梁場景圖像360幅、停車場場景圖像390幅,港口場景圖像380幅,火車站場景圖像260幅;同時選取非交通設(shè)施場景圖像800幅。圖像的空間分辨率為0.5~8 m/像元。實驗中,采用隨機抽樣方法,從每類場景圖像中選取50%的圖像作為訓(xùn)練數(shù)據(jù)集,另外50%的圖像作為測試數(shù)據(jù)集,圖1為圖像實驗數(shù)據(jù)示例。
采用的分類方法由CaffeNet深度學(xué)習(xí)模型與支持向量機(SVM)分類器構(gòu)成,為解決基于CaffeNet模型用于綜合交通設(shè)施場景分類識別時需要大量帶標(biāo)簽預(yù)訓(xùn)練樣本的問題,根據(jù)遷移學(xué)習(xí)的思路,采用基于ImageNet圖像庫預(yù)訓(xùn)練的CaffeNet模型,進(jìn)行綜合交通設(shè)施場景圖像的特征提取,避免了小樣本數(shù)據(jù)訓(xùn)練模型可能產(chǎn)生的過擬合問題,同時縮減了模型訓(xùn)練時間。在CaffeNet模型中,圖像經(jīng)過卷積、池化、局部歸一化操作后,以特征圖的形式輸入全連接層中,然后將全連接后得到的一維特征向量輸入至SVM分類器中進(jìn)行分類。采用的CaffeNet模型結(jié)構(gòu)如圖2所示,圖中Ci為卷積層,Si為池化層,Relu為激活函數(shù),fc1為全連接層,共5個卷積層,3個池化層,1個全連接層。輸入場景圖像大小為227像元×227像元,通過上述卷積、池化等操作后,最后全連接為一維4 096單元的特征向量,并將該向量輸入SVM分類器中。
圖1 綜合交通設(shè)施場景圖像實驗數(shù)據(jù)示例
圖2 基于深度學(xué)習(xí)CafeNet模型方法的特征提取與分類流程圖
實驗過程中,首先基于CaffeNet模型針對所有綜合交通設(shè)施場景圖像及非交通設(shè)施場景圖像數(shù)據(jù)集進(jìn)行抽象特征提??;并將其中訓(xùn)練數(shù)據(jù)集的抽象特征輸入SVM分類器,對SVM分類器進(jìn)行訓(xùn)練;然后將測試樣本集的抽象特征數(shù)據(jù)輸入訓(xùn)練后的SVM分類器,進(jìn)行分類。
為驗證方法的可重復(fù)性和有效性,在分類識別實驗中進(jìn)行反復(fù)測試,共完成4 800次實驗,每次實驗均將樣本庫中每一類交通設(shè)施場景圖像的訓(xùn)練樣本與測試樣本進(jìn)行隨機分配,各占50%。圖3為基于CaffeNet深度學(xué)習(xí)模型針對綜合交通設(shè)施目標(biāo)的4 800次實驗分類精度折線圖。通過4 800次實驗,可以看出該算法分類精度穩(wěn)定在一定范圍內(nèi),并呈現(xiàn)出圍繞某一具體值(圖中黑線所指示的值)上下波動的趨勢,該中心值的分類精度為93.8%,即為采用CaffeNet網(wǎng)絡(luò)進(jìn)行綜合交通設(shè)施目標(biāo)分類的平均精度。圖4為基于CaffeNet網(wǎng)絡(luò)深度學(xué)習(xí)分類算法針對不同類別交通設(shè)施場景的識別精度。其中,針對停車場的識別精度最高,為98.5%;機場的識別精度相對最低,為90.6%。通過對分類結(jié)果圖例進(jìn)行分析,由于非交通設(shè)施中存在許多與機場場景特征近似的圖像,導(dǎo)致部分非交通設(shè)施場景圖像被誤判為機場場景。
圖3 基于深度學(xué)習(xí)CaffeNet模型方法的分類精度隨實驗次數(shù)變化曲線
圖4 基于深度學(xué)習(xí)CaffeNet模型方法的綜合交通設(shè)施場景分類實驗結(jié)果
同時,在實驗中將基于CaffeNet模型的分類方法與基于VGG-16和GoogleNet這2種深度學(xué)習(xí)模型以及基于顏色直方圖特征提取算法(Color Histogram, CH)、局部二值化特征提取算法(Local Binary Patterns, LBP)和尺度不變特征提取算法(Scale-invariant Feature Transform,SIFT)進(jìn)行了對比研究。其中VGG-16和GoogleNet都是基于卷積神經(jīng)網(wǎng)絡(luò)原理的深度學(xué)習(xí)模型,均由卷積層、池化層、全連接層組成,本研究選用的VGG-16模型包括12個卷積層以及8個全連接層,其基本原理是通過增加網(wǎng)絡(luò)的層數(shù)優(yōu)化特征提取效果;GoogleNet模型是一種全新的深度學(xué)習(xí)模型,該模型不僅增加網(wǎng)絡(luò)層數(shù),還增加了網(wǎng)絡(luò)中神經(jīng)元數(shù),從寬度與深度2個方面對網(wǎng)絡(luò)的尺寸進(jìn)行提升,進(jìn)而提升模型的特征提取能力。而SIFT、CH以及LBP這3種特征提取算法基于圖像中待識別場景的顏色、紋理、結(jié)構(gòu)等低層特征,是目前常用的典型特征提取算法。本文采用上述方法對圖像場景目標(biāo)進(jìn)行特征提取,再利用SVM分類器對測試集圖像進(jìn)行分類,并與CaffeNet模型進(jìn)行對比分析,分類比較結(jié)果如表1所示。
表1 基于不同方法的場景分類結(jié)果精度對比模型類別不同場景的精度/%機場橋梁停車場港口火車站平均值CaffeNet90.693.998.592.193.893.8VGG-1690.697.897.994.282.792.6GoogleNet86.191.797.991.688.591.2CH61.728.968.758.941.552.0LBP10.07.248.243.716.225.1SIFT1.10.036.927.425.418.2
由表1可以看出,基于深度學(xué)習(xí)模型的場景分類具有精度高、結(jié)果穩(wěn)定的優(yōu)點: 其中VGG-16模型方法的平均分類精度值為92.6%,GoogleNet模型的平均分類精度值為91.2%,CaffeNet模型的分類方法在3類方法中最優(yōu),其平均分類精度達(dá)到了93.8%,而且針對機場、橋梁、停車場、港口、火車站等交通設(shè)施相對都較穩(wěn)定,識別精度均在90%以上。基于低層特征的CH、LBP、SIFT這3種方法相對于深度學(xué)習(xí)的方法而言,準(zhǔn)確率低且分類精度不穩(wěn)定。其中,基于CH特征提取的方法相對較好,平均識別精度達(dá)到52%,而基于LBP和SIFT特征提取方法的平均分類精度僅為25.1%和18.2%,且SIFT算法基本無法識別機場與橋梁等交通場景設(shè)施。
利用CaffeNet深度學(xué)習(xí)模型與支持向量機(SVM)分類器,實現(xiàn)了對綜合交通設(shè)施場景目標(biāo)的識別與分類。基于CaffeNet模型,采用AID數(shù)據(jù)集作為實驗數(shù)據(jù),通過多層卷積、池化、全連接等過程提取機場、橋梁、停車場、港口、火車站等交通設(shè)施場景圖像的特征向量,并將提取的特征向量輸入SVM分類器實現(xiàn)綜合交通設(shè)施場景的分類,對上述5類綜合交通設(shè)施場景的平均分類精度為93.8%,所有交通設(shè)施的場景分類結(jié)果均在90%以上,其中針對停車場的分類精度最高,達(dá)到了98.5%。同時,選取VGG-16與GoogleNet兩種深度學(xué)習(xí)模型以及SIFT、LBP、CH這3種基于低層特征的特征提取算法與基于CaffeNet模型的方法進(jìn)行對比實驗,結(jié)果顯示基于CaffeNet模型的方法識別精度最高,算法的穩(wěn)定性最強。基于深度學(xué)習(xí)CaffeNet模型的綜合交通設(shè)施場景分類,能夠?qū)崿F(xiàn)機場、橋梁、停車場、港口、火車站等場景圖像的較高精度識別,為未來城市規(guī)劃、交通網(wǎng)絡(luò)布局以及智慧城市發(fā)展提供了一定技術(shù)支撐。