亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度學(xué)習(xí)CaffeNet模型的綜合交通設(shè)施場景分類與識別研究

2021-04-28 11:42:28肖和平趙宇恒米素娟

湖南交通科技 2021年1期

肖和平，趙宇恒，米素娟

(1.湖南省交通運輸廳科技信息中心，湖南長沙 410015；2.中國地質(zhì)大學(xué)(武漢)地理與信息工程學(xué)院，湖北武漢 430074； 3.中國交通通信信息中心，北京 100011)

0 引言

當(dāng)前，遙感信息技術(shù)在交通網(wǎng)絡(luò)建設(shè)與監(jiān)管中的應(yīng)用日益廣泛，如何從海量遙感影像數(shù)據(jù)中對橋梁、港口、機場、車站等重要交通設(shè)施場景進(jìn)行計算機自動圖像特征提取，并將提取的設(shè)施場景圖像特征輸入分類算法模型，實現(xiàn)目標(biāo)設(shè)施的準(zhǔn)確分類與識別、及時獲取各類交通設(shè)施狀況，是智能化交通建設(shè)監(jiān)管的難點問題，也是實現(xiàn)交通網(wǎng)絡(luò)數(shù)字化、智能化，建立交通網(wǎng)絡(luò)模型的重要技術(shù)之一，對綜合交通網(wǎng)絡(luò)布局、智慧交通建設(shè)等方面都具有重要的理論意義和實踐應(yīng)用價值[1-3]。近年來，國內(nèi)外學(xué)者基于圖像紋理、形狀、顏色等低層特征和知識、語義等高層特征的提取，以及特征學(xué)習(xí)的方法，針對橋梁、機場、港口等某種交通目標(biāo)的識別與檢測進(jìn)行了一定研究，如Huertas等[4]對航拍圖像的紋理特征進(jìn)行提取，實現(xiàn)機場綜合體跑道的自動檢測；毛玲等[5]提出了一種復(fù)合線索視覺注意模型，利用高分辨率光學(xué)遙感圖像的港口多尺度低層特征和知識線索高層特征，實現(xiàn)了港口檢測；Lu等[6]基于高空間分辨率遙感HSR(High Spatial Resolution)影像提取機場目標(biāo)。韓曉青等[7]提取地物邊緣輪廓，并結(jié)合SURF(Speed Up Robust Features)檢測到圖像中的機場目標(biāo)；常永雷等[8]分析高分辨率遙感SAR影像的統(tǒng)計特征和橋梁特征，提出了一種新的橋梁自動識別方法；秦偉鋒[9]基于層次化處理方法進(jìn)行了機場跑道及停機坪輪廓自動提取，并綜合運用Hough變換、數(shù)學(xué)形態(tài)學(xué)等多種圖像處理算法，完成了對機場目標(biāo)的識別；張志龍等[10]提出一種基于內(nèi)港岸線特征譜的方法識別港口。上述研究取得了較好的進(jìn)展，但基于低層特征進(jìn)行目標(biāo)識別與分類有一定的應(yīng)用限制，其識別精度也較低，且特征提取過程中由于圖像質(zhì)量、背景復(fù)雜程度及提取算法等都會影響識別精度，存在較大的不確定性[11]。

20世紀(jì)80年代，Rumelhart等[12]首次提出反向傳播算法，為機器學(xué)習(xí)的發(fā)展奠定了良好基礎(chǔ)。隨后，基于支持向量機(Support Vector Machine， SVM)、Boosting等淺層學(xué)習(xí)算法的應(yīng)用取得較好的效果，如Bhattacharya等[13]基于改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)完成道路目標(biāo)的檢測；馬洪超等[14]以機場為研究對象，采用改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)作為算法工具識別機場；Lv等[15]提出一種用模糊支持向量機對圖像進(jìn)行分類，再對所有分類的區(qū)塊構(gòu)建距離空間，通過在距離空間中設(shè)定閾值來定位橋梁。而支持向量機、僅含一層隱層的神經(jīng)網(wǎng)等一些淺層學(xué)習(xí)結(jié)構(gòu)的機器學(xué)習(xí)方法，在有限的樣本數(shù)量和計算單元對復(fù)雜函數(shù)的表示存在明顯不足，在復(fù)雜的分類問題上更難以有效地表現(xiàn)性能和泛化能力[16]，且基于反向傳播算法的BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程中容易出現(xiàn)梯度消失現(xiàn)象，并在增加網(wǎng)絡(luò)層數(shù)后會出現(xiàn)過擬合問題[17]。

近年來，與淺層結(jié)構(gòu)相對應(yīng)的深度學(xué)習(xí)進(jìn)入快速發(fā)展階段，Hinton等[18]提出深層網(wǎng)絡(luò)訓(xùn)練中梯度消失的解決方案；Yosinski等[19]提出遷移學(xué)習(xí)方法，結(jié)合目前最大的圖像識別數(shù)據(jù)庫ImageNet構(gòu)建深度學(xué)習(xí)模型框架，有效解決小樣本數(shù)據(jù)訓(xùn)練模型易產(chǎn)生的過擬合問題，且大大縮減模型訓(xùn)練時間；Zhang等[20]基于耦合卷積神經(jīng)網(wǎng)絡(luò)的弱監(jiān)督學(xué)習(xí)檢測機場目標(biāo)；Cheng等[21]采用高空間分辨率遙感影像VHR(Very High Resolution)，結(jié)合自動編碼器的方法提取出了機場、道路等交通目標(biāo)；楊淼等[22]基于卷積神經(jīng)網(wǎng)絡(luò)對港口進(jìn)行識別；牛新等[23]采用遷移學(xué)習(xí)方法在有標(biāo)簽樣本稀缺的情況下有效構(gòu)建深度網(wǎng)絡(luò)，并利用目標(biāo)先驗知識對潛在目標(biāo)進(jìn)行高效提取，可在秒級時間對機場進(jìn)行識別。大量研究表明基于深度學(xué)習(xí)在交通設(shè)施目標(biāo)的檢測應(yīng)用中精度較高，檢測效果良好，基于深度學(xué)習(xí)的交通設(shè)施目標(biāo)檢測成為研究熱點。

從上述研究現(xiàn)狀分析中可以看出，目前針對特定交通目標(biāo)檢測與識別的研究取得了一定進(jìn)展，但如何對機場、橋梁、港口、火車站、停車場等綜合交通設(shè)施場景進(jìn)行識別與分類還有待深入研究。在綜合交通設(shè)施場景中，相同交通設(shè)施目標(biāo)在場景上往往存在較大的差異，同時一些交通設(shè)施目標(biāo)與非交通設(shè)施在場景上又存在極大的相似性，且有些不同的交通設(shè)施目標(biāo)在場景上也會出現(xiàn)一定的相似性，這無疑給綜合交通設(shè)施目標(biāo)場景的識別與分類帶來了較大難度。而綜合交通設(shè)施場景自動分類與識別對于交通網(wǎng)絡(luò)的規(guī)劃與布局、城市的結(jié)構(gòu)優(yōu)化與發(fā)展等具有重要的價值。

鑒于深度學(xué)習(xí)方法在圖像分類識別領(lǐng)域的潛在優(yōu)勢和廣泛應(yīng)用前景，本文采用Caffe框架中的CaffeNet模型進(jìn)行綜合交通設(shè)施的分類與識別。CaffeNet模型具有模塊化設(shè)置，便于擴展新的任務(wù)，能高效處理海量數(shù)據(jù)，同時又具有極高的識別精度等優(yōu)勢。數(shù)據(jù)集使用遙感圖像場景分類的AID(Aerial Image Data)數(shù)據(jù)集[24]，并根據(jù)遷移學(xué)習(xí)的思想，基于ImageNet圖像庫預(yù)訓(xùn)練出的CaffeNet模型進(jìn)行特征提取，然后將特征輸入到SVM分類器進(jìn)行分類識別。研究結(jié)果證明:相較于基于VGG-16、GoogleNet這2種深度學(xué)習(xí)模型以及典型的基于顏色直方圖特征提取、局部二值化特征提取和尺度不變特征提取等方法，基于CaffeNet模型的方法在機場、橋梁、港口、停車場及火車站等目標(biāo)的分類與識別中，性能最穩(wěn)定，具有最高的分類精度，對各類交通設(shè)施目標(biāo)的識別率均達(dá)到了90%以上，可以有效實現(xiàn)對綜合交通設(shè)施場景的高精度分類與識別。

1 深度學(xué)習(xí)CaffeNet模型

深度學(xué)習(xí)CaffeNet模型是一種卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network)方法，卷積神經(jīng)網(wǎng)絡(luò)是一類包含卷積計算且具有深度結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò)，是深度學(xué)習(xí)的主要方法之一[25]。CaffeNet為卷積神經(jīng)網(wǎng)絡(luò)的一個開源框架，具有速度快、模塊化、開放性等優(yōu)點。圖像輸入CaffeNet模型后經(jīng)過卷積層、池化層、激活函數(shù)、全連接層的處理，獲得特征向量，并將結(jié)果輸出到分類器中進(jìn)行分類。其中卷積層是對圖像的濾波計算過程，卷積運算如公式(1)所示。

g(x,y)=f(x,y)*w(i,j)=

(1)

式中：f(x，y)為圖像中x行y列的灰度值；w為卷積核即濾波器。

卷積層是卷積神經(jīng)網(wǎng)絡(luò)的重要組成之一，用于提取圖像特征。卷積層采用一系列可訓(xùn)練的卷積核對上一層輸出數(shù)據(jù)進(jìn)行卷積運算，并用一個非線性函數(shù)將卷積結(jié)果變換到某一個限定范圍內(nèi)，從而使模型具有非線性特征。卷積層計算如式(2)所示。

(2)

通過卷積層獲取的特征維數(shù)一般較大，易出現(xiàn)過擬合，故使用池化層對輸入圖像進(jìn)行降采樣處理。池化層對輸入特征圖像的相鄰像素之間進(jìn)行取平均或求最大值，以降低特征圖的分辨率。池化層的計算如式(3)所示。

(3)

CaffeNet模型采用ReLU(Rectified Linear Units)激活函數(shù)，能夠有效緩解梯度彌散問題，從而直接以監(jiān)督的方式訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)[26]。ReLU的具體形式如式(4)所示。

(4)

全連接層一般出現(xiàn)在網(wǎng)絡(luò)的末端，但并不是必須的，可以是沒有或多個。全連接層的每一個神經(jīng)元都與前一層的所有神經(jīng)元相連接，它的主要作用是將二維特征圖轉(zhuǎn)換成一維向量，便于輸出層進(jìn)行分類。輸出層是卷積神經(jīng)網(wǎng)絡(luò)最后一層，它的作用是對輸入的一維向量進(jìn)行分類。輸出層相當(dāng)于一個分類器，本文采用SVM分類器。輸出層與前一層也是采用全連接形式，輸出也是一個一維向量，維數(shù)等于分類數(shù)目。

2 實驗結(jié)果分析

實驗數(shù)據(jù)采用AID數(shù)據(jù)集中的機場、橋梁、停車場、港口、火車站等5類交通設(shè)施場景圖像，其中機場場景圖像360幅，橋梁場景圖像360幅、停車場場景圖像390幅，港口場景圖像380幅，火車站場景圖像260幅；同時選取非交通設(shè)施場景圖像800幅。圖像的空間分辨率為0.5～8 m/像元。實驗中，采用隨機抽樣方法，從每類場景圖像中選取50%的圖像作為訓(xùn)練數(shù)據(jù)集，另外50%的圖像作為測試數(shù)據(jù)集，圖1為圖像實驗數(shù)據(jù)示例。

采用的分類方法由CaffeNet深度學(xué)習(xí)模型與支持向量機(SVM)分類器構(gòu)成，為解決基于CaffeNet模型用于綜合交通設(shè)施場景分類識別時需要大量帶標(biāo)簽預(yù)訓(xùn)練樣本的問題，根據(jù)遷移學(xué)習(xí)的思路，采用基于ImageNet圖像庫預(yù)訓(xùn)練的CaffeNet模型，進(jìn)行綜合交通設(shè)施場景圖像的特征提取，避免了小樣本數(shù)據(jù)訓(xùn)練模型可能產(chǎn)生的過擬合問題，同時縮減了模型訓(xùn)練時間。在CaffeNet模型中，圖像經(jīng)過卷積、池化、局部歸一化操作后，以特征圖的形式輸入全連接層中，然后將全連接后得到的一維特征向量輸入至SVM分類器中進(jìn)行分類。采用的CaffeNet模型結(jié)構(gòu)如圖2所示，圖中Ci為卷積層，Si為池化層，Relu為激活函數(shù)，fc1為全連接層，共5個卷積層，3個池化層，1個全連接層。輸入場景圖像大小為227像元×227像元，通過上述卷積、池化等操作后，最后全連接為一維4 096單元的特征向量，并將該向量輸入SVM分類器中。

圖1 綜合交通設(shè)施場景圖像實驗數(shù)據(jù)示例

圖2 基于深度學(xué)習(xí)CafeNet模型方法的特征提取與分類流程圖

實驗過程中，首先基于CaffeNet模型針對所有綜合交通設(shè)施場景圖像及非交通設(shè)施場景圖像數(shù)據(jù)集進(jìn)行抽象特征提??；并將其中訓(xùn)練數(shù)據(jù)集的抽象特征輸入SVM分類器，對SVM分類器進(jìn)行訓(xùn)練；然后將測試樣本集的抽象特征數(shù)據(jù)輸入訓(xùn)練后的SVM分類器，進(jìn)行分類。

為驗證方法的可重復(fù)性和有效性，在分類識別實驗中進(jìn)行反復(fù)測試，共完成4 800次實驗，每次實驗均將樣本庫中每一類交通設(shè)施場景圖像的訓(xùn)練樣本與測試樣本進(jìn)行隨機分配，各占50%。圖3為基于CaffeNet深度學(xué)習(xí)模型針對綜合交通設(shè)施目標(biāo)的4 800次實驗分類精度折線圖。通過4 800次實驗，可以看出該算法分類精度穩(wěn)定在一定范圍內(nèi)，并呈現(xiàn)出圍繞某一具體值(圖中黑線所指示的值)上下波動的趨勢，該中心值的分類精度為93.8%，即為采用CaffeNet網(wǎng)絡(luò)進(jìn)行綜合交通設(shè)施目標(biāo)分類的平均精度。圖4為基于CaffeNet網(wǎng)絡(luò)深度學(xué)習(xí)分類算法針對不同類別交通設(shè)施場景的識別精度。其中，針對停車場的識別精度最高，為98.5%；機場的識別精度相對最低，為90.6%。通過對分類結(jié)果圖例進(jìn)行分析，由于非交通設(shè)施中存在許多與機場場景特征近似的圖像，導(dǎo)致部分非交通設(shè)施場景圖像被誤判為機場場景。

圖3 基于深度學(xué)習(xí)CaffeNet模型方法的分類精度隨實驗次數(shù)變化曲線

圖4 基于深度學(xué)習(xí)CaffeNet模型方法的綜合交通設(shè)施場景分類實驗結(jié)果

同時，在實驗中將基于CaffeNet模型的分類方法與基于VGG-16和GoogleNet這2種深度學(xué)習(xí)模型以及基于顏色直方圖特征提取算法(Color Histogram， CH)、局部二值化特征提取算法(Local Binary Patterns， LBP)和尺度不變特征提取算法(Scale-invariant Feature Transform，SIFT)進(jìn)行了對比研究。其中VGG-16和GoogleNet都是基于卷積神經(jīng)網(wǎng)絡(luò)原理的深度學(xué)習(xí)模型，均由卷積層、池化層、全連接層組成，本研究選用的VGG-16模型包括12個卷積層以及8個全連接層，其基本原理是通過增加網(wǎng)絡(luò)的層數(shù)優(yōu)化特征提取效果；GoogleNet模型是一種全新的深度學(xué)習(xí)模型，該模型不僅增加網(wǎng)絡(luò)層數(shù)，還增加了網(wǎng)絡(luò)中神經(jīng)元數(shù)，從寬度與深度2個方面對網(wǎng)絡(luò)的尺寸進(jìn)行提升，進(jìn)而提升模型的特征提取能力。而SIFT、CH以及LBP這3種特征提取算法基于圖像中待識別場景的顏色、紋理、結(jié)構(gòu)等低層特征，是目前常用的典型特征提取算法。本文采用上述方法對圖像場景目標(biāo)進(jìn)行特征提取，再利用SVM分類器對測試集圖像進(jìn)行分類，并與CaffeNet模型進(jìn)行對比分析，分類比較結(jié)果如表1所示。

表1 基于不同方法的場景分類結(jié)果精度對比模型類別不同場景的精度/%機場橋梁停車場港口火車站平均值CaffeNet90.693.998.592.193.893.8VGG-1690.697.897.994.282.792.6GoogleNet86.191.797.991.688.591.2CH61.728.968.758.941.552.0LBP10.07.248.243.716.225.1SIFT1.10.036.927.425.418.2

由表1可以看出，基于深度學(xué)習(xí)模型的場景分類具有精度高、結(jié)果穩(wěn)定的優(yōu)點: 其中VGG-16模型方法的平均分類精度值為92.6%，GoogleNet模型的平均分類精度值為91.2%，CaffeNet模型的分類方法在3類方法中最優(yōu)，其平均分類精度達(dá)到了93.8%，而且針對機場、橋梁、停車場、港口、火車站等交通設(shè)施相對都較穩(wěn)定，識別精度均在90%以上。基于低層特征的CH、LBP、SIFT這3種方法相對于深度學(xué)習(xí)的方法而言，準(zhǔn)確率低且分類精度不穩(wěn)定。其中，基于CH特征提取的方法相對較好，平均識別精度達(dá)到52%，而基于LBP和SIFT特征提取方法的平均分類精度僅為25.1%和18.2%，且SIFT算法基本無法識別機場與橋梁等交通場景設(shè)施。

3 結(jié)論

利用CaffeNet深度學(xué)習(xí)模型與支持向量機(SVM)分類器，實現(xiàn)了對綜合交通設(shè)施場景目標(biāo)的識別與分類。基于CaffeNet模型，采用AID數(shù)據(jù)集作為實驗數(shù)據(jù)，通過多層卷積、池化、全連接等過程提取機場、橋梁、停車場、港口、火車站等交通設(shè)施場景圖像的特征向量，并將提取的特征向量輸入SVM分類器實現(xiàn)綜合交通設(shè)施場景的分類，對上述5類綜合交通設(shè)施場景的平均分類精度為93.8%，所有交通設(shè)施的場景分類結(jié)果均在90%以上，其中針對停車場的分類精度最高，達(dá)到了98.5%。同時，選取VGG-16與GoogleNet兩種深度學(xué)習(xí)模型以及SIFT、LBP、CH這3種基于低層特征的特征提取算法與基于CaffeNet模型的方法進(jìn)行對比實驗，結(jié)果顯示基于CaffeNet模型的方法識別精度最高，算法的穩(wěn)定性最強。基于深度學(xué)習(xí)CaffeNet模型的綜合交通設(shè)施場景分類，能夠?qū)崿F(xiàn)機場、橋梁、停車場、港口、火車站等場景圖像的較高精度識別，為未來城市規(guī)劃、交通網(wǎng)絡(luò)布局以及智慧城市發(fā)展提供了一定技術(shù)支撐。