常莉莉,王賢敏,王春勝
中國地質(zhì)大學(xué)地球物理與空間信息學(xué)院,武漢 430074
隨著建設(shè)“海洋強(qiáng)國”的戰(zhàn)略形勢方興未艾,對于“走向深藍(lán)”發(fā)展戰(zhàn)略的重要一步——合理規(guī)劃、治理港口和碼頭越來越受到關(guān)注。從遙感影像中對其準(zhǔn)確識別能夠?yàn)楦劭诘慕ㄔO(shè)與開發(fā)、海岸帶地理信息的獲取及海上軍事實(shí)力的分析提供重要依據(jù)(劉騰飛,2018)。碼頭作為民用領(lǐng)域的重要交通樞紐和軍事領(lǐng)域的重要打擊目標(biāo),是港口組成的重要部分,對其進(jìn)行自動識別研究具有十分重要的經(jīng)濟(jì)和軍事價(jià)值。然而由于碼頭普遍尺寸小、數(shù)量多、分布散亂,且受周圍船舶、建筑等環(huán)境干擾嚴(yán)重,傳統(tǒng)方法難以滿足對高速發(fā)展的碼頭進(jìn)行精準(zhǔn)監(jiān)測的需求。如何對碼頭目標(biāo)進(jìn)行準(zhǔn)確的識別成為亟需解決的問題。
碼頭目標(biāo)識別的研究方法主要有傳統(tǒng)的邊緣檢測方法(魏軍偉,2007;黎經(jīng)元等,2019;Yu等,2016)、面向?qū)ο蟮拇a頭提取方法(劉亞飛等,2014;Li等,2019;Wang等,2019;Bhagavathy等,2002)以及基于特征的遙感圖像港口檢測方法(畢奇等,2019;李正威等,2018;Bovolo等,2013;Liu 等,2016a)。傳統(tǒng)邊緣檢測方法的研究可以追溯到相位編組法,Burns 等(1986)依據(jù)碼頭邊緣的局部灰度變化特征確定其位置和屬性,該算法作為最早的碼頭檢測方法,為后人提供了寶貴的經(jīng)驗(yàn)。魏軍偉(2007)以SPOT 影像為基礎(chǔ),提出了基于最大熵和形態(tài)學(xué)結(jié)合的邊緣檢測方法,該方法可以實(shí)現(xiàn)對碼頭邊緣的快速提取。在面向?qū)ο蠓椒ǚ矫?,Li 等(2019)建立了面向?qū)ο蟮母劭诳臻g格局遙感檢測方法,對碼頭實(shí)現(xiàn)了有效的檢測;Bhagavathy 等(2002)提出了學(xué)習(xí)共同紋理特征的模型,能夠?qū)Ω劭诩案蹆?nèi)目標(biāo)進(jìn)行有效的描述。在基于特征的檢測方法方面,Bovolo等(2013)等采用雷達(dá)影像,利用變化檢測層次化方法和多尺度技術(shù)實(shí)現(xiàn)了港口及港內(nèi)目標(biāo)的檢測;Mandal 等(1996)利用啟發(fā)式規(guī)則在聚類圖像中加入目標(biāo)及其相互關(guān)系的空間知識,實(shí)現(xiàn)了碼頭的識別。上述研究方法為碼頭識別提供了寶貴的經(jīng)驗(yàn),但傳統(tǒng)的碼頭檢測方法主要依賴于根據(jù)先驗(yàn)知識建立的港口或碼頭特征,受主觀因素影響較大,對含有水域、建筑、船舶等復(fù)雜背景下的碼頭進(jìn)行特征描述較為困難。
近年來,圖像處理、模式識別和計(jì)算機(jī)視覺技術(shù)的飛速發(fā)展為遙感圖像目標(biāo)識別技術(shù)的提升創(chuàng)造了條件,將深度學(xué)習(xí)技術(shù)應(yīng)用于遙感圖像信息提取成為新的趨勢。比如YOLO(Redmon 等,2016)和SSD(Liu等,2016b)等深度學(xué)習(xí)算法在高分遙感影像中的飛機(jī)、車輛、艦船等目標(biāo)的快速檢測(Kharchenko 和Chyrka,2018;Lechgar 等,2019;Li等,2020;Qu等,2020;Zhang等,2019),R-CNN(Girshick 等,2014)和Faster R-CNN(Ren等,2015)等深度學(xué)習(xí)算法在艦船、飛機(jī)、油罐等目標(biāo)的準(zhǔn)確識別(Wei 等,2020;Han 等,2020;Zalpour等,2020)。與此同時深度學(xué)習(xí)算法在碼頭識別中也成為新的發(fā)展趨勢,Salakhutdinov 等(2011)利用SUN 數(shù)據(jù)集,采用層次結(jié)構(gòu)共享的分類模型學(xué)習(xí)識別稀有物體,實(shí)現(xiàn)了船舶、港口、碼頭等多類目標(biāo)的檢測。除此之外,朱廷賀(2018)利用高分遙感影像數(shù)據(jù),基于卷積神經(jīng)網(wǎng)ResNet101(He 等,2016)結(jié)合人工設(shè)計(jì)特征與深度學(xué)習(xí)特征完成了港口及碼頭的目標(biāo)檢測。Ye 等(2017)利用ResNet101 和SSD 檢測算法實(shí)現(xiàn)了大尺度遙感圖像上的港口及碼頭檢測。上述深度學(xué)習(xí)方法通過設(shè)計(jì)各種結(jié)構(gòu)的網(wǎng)絡(luò)模型和強(qiáng)大的訓(xùn)練算法來自適應(yīng)地學(xué)習(xí)圖像特征,完成對目標(biāo)的分類和定位,在檢測精度和效率方面均有很大的提升,并且對環(huán)境的適應(yīng)能力較強(qiáng)。如YOLO 和SSD等單階段算法可直接對輸入的圖像進(jìn)行卷積特征提取,該類方法通過在特征圖上進(jìn)行邊界框的回歸,而將目標(biāo)檢測過程轉(zhuǎn)化為回歸問題處理,具有速度上的優(yōu)勢。與此相比,雙階段方法Faster R-CNN 則在精度上表現(xiàn)更加突出。該系列方法首先通過選擇性搜索、邊緣檢測、區(qū)域提取網(wǎng)絡(luò)等方法生成可能包含目標(biāo)的候選區(qū)域集合,從而進(jìn)行精確的目標(biāo)類別估計(jì)和邊界框位置回歸(周天怡,2019)。當(dāng)前的目標(biāo)檢測算法大多針對于自然場景中分布較為稀疏的中大型目標(biāo),且在通用數(shù)據(jù)集上取得了較好的效果,但對于碼頭此類小目標(biāo)的檢測仍有一定局限性。碼頭尺寸較小,在大幅遙感影像中所占像素?cái)?shù)較少,攜帶的信息十分有限,紋理、形狀、顏色等外觀信息較匱乏,目標(biāo)識別精度低、難度大,更容易出現(xiàn)漏檢與虛警現(xiàn)象。
考慮到Faster R-CNN 將特征提取和目標(biāo)識別定位整合在同一網(wǎng)絡(luò)中,綜合性能強(qiáng),更適合多種尺寸的目標(biāo)提取研究(Ren 等,2015)。因此本文將該算法引入到碼頭的自動識別中,并根據(jù)碼頭的尺寸特征和空間分布特征對算法進(jìn)行了改進(jìn):(1)采用K-Means 算法(Hartigan 和Wong,1979)對候選框進(jìn)行預(yù)設(shè),使其大小更適應(yīng)碼頭的尺寸;(2)采用Soft-NMS (Bodla 等,2017)代替NMS(Non-Maximum Suppression,非極大值抑制)算法(Neubeck 和Van Gool,2006)以降低分布密集地區(qū)碼頭邊框誤刪率和漏檢率。論文采用了多種評價(jià)指標(biāo)對碼頭的識別結(jié)果進(jìn)行定量精度評價(jià)以驗(yàn)證本文方法FKSN(Faster R-CNN+K-Means+Soft-NMS)的可行性,并證明該方法具有良好的普適性。
Faster R-CNN 算法通過引入?yún)^(qū)域建議網(wǎng)絡(luò)RPN(Region Proposal Network)實(shí)現(xiàn)了對R-CNN(Girshick 等,2014)、Fast-RCNN(Girshick,2015)模型的優(yōu)化,它的出現(xiàn)解決了檢測算法中候選框生成耗時的問題,極大的提高了算法效率(Ren 等,2015)。如圖1所示,F(xiàn)aster R-CNN 首先利用卷積神經(jīng)網(wǎng)絡(luò)ResNet101 對整幅圖像進(jìn)行特征提取,并采用RPN 尋找可能包含碼頭目標(biāo)的建議區(qū)域,根據(jù)預(yù)先設(shè)定不同比例、尺度的錨點(diǎn)產(chǎn)生不同候選框,尋找最接近真實(shí)邊框的候選框。通過RPN 提取的建議區(qū)域會和經(jīng)ResNet101 提取的特征圖一起輸入RoI池化層中,最后通過全連接層進(jìn)行碼頭目標(biāo)的分類和邊界框的回歸定位。
圖1 碼頭識別的Faster R-CNN網(wǎng)絡(luò)框架Fig.1 Faster R-CNN network framework for dock recognition
2.1.1 主干網(wǎng)絡(luò)
本文采用殘差網(wǎng)絡(luò)ResNet101作為Faster R-CNN的主干網(wǎng)絡(luò)進(jìn)行碼頭目標(biāo)特征的提取。ResNet101通過增加網(wǎng)絡(luò)層數(shù)以挖掘圖像深層語義特征,同時利用殘差塊以減少層深帶來的計(jì)算量負(fù)擔(dān)(He等,2016)。
通過ResNet101 網(wǎng)絡(luò)7×7 卷積處理后的碼頭原始圖像,經(jīng)最大池化層后,大小由512×512縮小為256×256。在此基礎(chǔ)上連接到由3 個瓶頸架構(gòu)單元構(gòu)成的C2 卷積層,然后依次經(jīng)過C3 卷積層和C4卷積層,之后輸出32×32大小的特征圖F1。F1進(jìn)入RPN與RoI Pooling用于候選框的篩選提?。≧en等,2015),RoI Pooling 根據(jù)RPN 給出的建議區(qū)域,從F1 中得到對應(yīng)的局部特征,并進(jìn)行匯總后輸入到C5 卷積層進(jìn)行再次學(xué)習(xí),得到16×16 大小的特征圖F2,最后進(jìn)行最終的碼頭目標(biāo)分類和定位。相比較常用的通過ResNet101 進(jìn)行32 倍下采樣進(jìn)入RPN,該方法中特征圖F1 的提取只有4 個池化層起到作用,從而更便于建立特征點(diǎn)與原始圖像區(qū)域坐標(biāo)的一一映射,且該方法經(jīng)過初步候選框篩取后再次通過C5 卷積層進(jìn)行學(xué)習(xí),在減少算法對大量無用候選框計(jì)算的同時,能夠通過多次卷積學(xué)習(xí)進(jìn)行更準(zhǔn)確的定位。
2.1.2 RPN網(wǎng)絡(luò)
RPN 網(wǎng)絡(luò)針對碼頭目標(biāo)檢測框進(jìn)行端到端的訓(xùn)練,同時在原圖上鋪設(shè)不同比例的錨框,以產(chǎn)生匹配各種尺度目標(biāo)的候選框進(jìn)行圖像中碼頭目標(biāo)的自動識別(Uijlings 等,2013)。如圖2所示,RPN結(jié)構(gòu)中第一層是3×3卷積層,該卷積層的作用是增加目標(biāo)附近區(qū)域的語義理解(Long等,2015);然后再經(jīng)過兩條支路P1、P2,每條都首先經(jīng)過一個1×1 的卷積。支路P1 的作用是對前景和后景進(jìn)行二分類(Girshick 等,2014),支路P2 的作用是進(jìn)行矩形框的回歸定位(Zitnick 和Dollár,2014)。兩條支路匯合去除后景類別后,對于前景類別,RPN 先將錨框映射到原始圖像上得到建議區(qū)域,然后對數(shù)量過多的建議區(qū)域候選框進(jìn)行兩次篩選:在剔除嚴(yán)重超出邊界的候選框的基礎(chǔ)上,對其余候選框進(jìn)行最大值抑制(Neubeck 和Van Gool,2006)。最后對處理后的候選框根據(jù)類別得分進(jìn)行排序,選取最優(yōu)區(qū)域作為最終的目標(biāo)框(Zitnick和Dollár,2014)。
圖2 RPN網(wǎng)絡(luò)架構(gòu)Fig.2 RPN network architecture
2.1.3 RoI Pooling
RoI Pooling主要是對建議區(qū)域進(jìn)行池化,它的特點(diǎn)是將尺寸不固定的特征圖轉(zhuǎn)變?yōu)楣潭ǖ某叽纾℅irshick,2015)。RoI Pooling 以ResNet101網(wǎng)絡(luò)輸出的特征圖和RPN 網(wǎng)絡(luò)輸出的候選框作為輸入,并與C5 卷積層連接,經(jīng)平均池化后輸出16×16×2048 的特征圖F2。最后Faster R-CNN 利用Softmax層對候選框進(jìn)行碼頭二分類并輸出候選框得分,同時利用Bbox reg 計(jì)算相對標(biāo)注框的偏移量修正其位置,以得到更精確的碼頭候選框,最終完成對碼頭目標(biāo)端到端的識別。
2.2.1 基于K-Means的碼頭候選框預(yù)設(shè)
K-Means 算法常用來解決目標(biāo)檢測出現(xiàn)的漏檢及誤檢等問題(Hartigan 和Wong,1979)。標(biāo)準(zhǔn)K-Means 使用歐氏距離作為度量會導(dǎo)致目標(biāo)框較大的聚類簇產(chǎn)生較大誤差,因此本文以交并比IoU(Intersection over Union)(Rezatofighi 等,2019)為度量對碼頭數(shù)據(jù)集外接矩形的長寬比進(jìn)行聚類,用于發(fā)現(xiàn)最佳的聚類簇?cái)?shù)量。
式中,D(b,m)是預(yù)測框b和聚類中心m的距離,IoU 是交并比,bpre表示預(yù)測框,bgro表示實(shí)際框。由式(1)可知IoU 值越大,預(yù)設(shè)框到聚類中心的距離越小。
碼頭候選框預(yù)設(shè)具體步驟如下:(1)首先隨機(jī)選取k個碼頭外接矩形框作為初始錨框;(2)然后使用IoU 為度量,將每個碼頭外接矩形分配給與其距離最近的初始錨框,得到k個聚類簇;(3)計(jì)算每個簇中碼頭外接矩形框?qū)捄烷L的均值,更新初始錨框。此時,每個簇的中心即為更新后的錨框;(4)重復(fù)第2 步和第3 步,直到錨框不再發(fā)生變化,在此過程中得到的平均IoU 隨聚類中心k的變化曲線如圖3所示;(5)最后結(jié)合變化曲線和elbow 方法(Saputra 等,2020)確定最終的k值。本文使用的elbow 方法其基本思想為:若某k值使平均IoU 的斜率發(fā)生了明顯變化,該值即為真實(shí)聚類數(shù)。如圖3所示,當(dāng)k達(dá)到聚類數(shù)3 時平均IoU上升幅度達(dá)到最高,繼續(xù)增加k值斜率會趨于平緩。因此根據(jù)elbow 方法和圖3得到碼頭真實(shí)聚類數(shù)k為3。
圖3 IoU平均值曲線圖Fig.3 Average IoU curve
根據(jù)上述系列步驟確定聚類數(shù)之后,本文采用K-Means 聚類算法(代碼地址:https://github.com/ybcc2015/DeepLearning-Utils/tree/master/Anchor-Kmeans[2020-10-22],編程語言為Python3)將包括順岸式、突堤式和引橋式的所有碼頭數(shù)據(jù)集聚類成3 個簇,這3 個聚類簇分別對應(yīng)不同的錨框尺寸和長寬比,用于覆蓋不同的碼頭類型。每個聚類中心的長寬比(90∶69,128∶129,317∶258)即(0.76,0.99,1.23),并且將原基本尺度(128,256,512)預(yù)設(shè)為(64,128,256)以更加適應(yīng)碼頭尺寸。此時每個基本尺度對應(yīng)3種不同的長寬比,最終得到9 個錨框(56,73),(64,65),(71, 58),(115, 142),(127, 129),(147,111),(223,293),(254,257),(283,230)。3 種類型碼頭的原始錨框與預(yù)設(shè)錨框?qū)Ρ刃Ч鐖D4所示,其中圖4(a)—(c)分別為突堤式碼頭、順岸式碼頭和引橋式碼頭的原始錨框示意圖,圖4(d)—(f)分別為突堤式碼頭、順岸式碼頭和引橋式碼頭的預(yù)設(shè)錨框示意圖。由圖4可知,原算法候選框在提取碼頭的同時會覆蓋大量背景地物,而算法改進(jìn)后得到的錨框更適合于碼頭尺寸。如圖5所示為原始錨框與預(yù)設(shè)錨框的尺寸對比,其中黃色及藍(lán)色框的基本尺度分別為64 和128,分別對應(yīng)尺寸較小的突堤式碼頭和順岸式碼頭,紅色框基本尺度為256,用于覆蓋尺寸較大的引橋式碼頭。同時,由于將所有碼頭外接矩形即長寬比進(jìn)行聚類針對的是碼頭尺寸,而不是類型,因此對于大小相同但類型不同的碼頭會歸為同一聚類簇中,即應(yīng)用同一尺寸的錨框。
圖4 原始錨框與預(yù)設(shè)錨框?qū)Ρ菷ig.4 Comparison of original anchors and preset anchors
圖5 原始錨框與預(yù)設(shè)錨框的尺寸對比圖Fig.5 Size comparison of original anchors and preset anchors
2.2.2 基于Soft-NMS的碼頭定位
Faster R-CNN 采用NMS 算法去除重復(fù)的候選框(Ren 等,2015),但該算法易對重疊度高的邊框產(chǎn)生誤刪,不能準(zhǔn)確識別密集分布的多個碼頭,如式(3)所示。針對NMS 存在的不足,本文采用Soft-NMS 算法代替NMS。如式(4)所示,候選框bi與最高分候選框M重疊度越高,候選框bi得分越低;而候選框bi與M的重疊度小于閾值Nt,則候選框bi保留。對于碼頭分布較為密集的區(qū)域,NMS 更容易錯過候選物體,而Soft-NMS 通過降低IoU 最大邊框的置信度,保留其參與下一輪比對的可能,從而降低誤刪的可能性(Bodla 等,2017)。
式中,Si是候選框得分集合,M為最高分候選框,bi待處理候選框,Nt為閾值。
如圖6所示為NMS 算法與Soft-NMS 算法識別效果對比示意圖。由圖6可知,傳統(tǒng)Faster R-CNN中的NMS 算法只選取重疊度區(qū)域中較高得分的候選框,造成了碼頭目標(biāo)候選框的漏檢。而改進(jìn)后的Soft-NMS 算法保留了重疊區(qū)域中得分較低的候選框,降低了碼頭識別的漏檢率。
圖6 NMS算法與Soft-NMS算法識別效果對比Fig.6 Comparison of the recognition effect between NMS algorithm and soft NMS algorithm
3.1.1 碼頭解譯標(biāo)志
碼頭在遙感影像上的解譯標(biāo)志主要包括光譜特征、形狀特征、尺寸特征和空間分布特征。碼頭在影像上呈亮灰色和部分船舶顏色接近;典型碼頭形狀在影像上一般呈I 型、L 型和T 型,類型主要分為順岸式碼頭、突堤式碼頭和引橋式碼頭(李正威等,2018)(圖7);碼頭在影像數(shù)據(jù)集上像素占比較小,平均為0.03;在空間分布特征上主要表現(xiàn)在與陸地連通,且分布較為密集。
圖7 不同地區(qū)的碼頭類型及形狀Fig.7 Various types and shapes of docks in different regions
3.1.2 數(shù)據(jù)增廣及數(shù)據(jù)集建立
本文對碼頭數(shù)據(jù)集進(jìn)行隨機(jī)旋轉(zhuǎn)、亮度調(diào)整和增加噪聲等數(shù)據(jù)增廣方式提高數(shù)據(jù)的多樣性(Taylor 和Nitschke,2018),以最終提高模型的泛化性能。本文基于公開遙感數(shù)據(jù)集DIOR(Li 等,2020)和Google Earth 遙感影像構(gòu)建了碼頭目標(biāo)數(shù)據(jù)集。該數(shù)據(jù)集大小為3000,其中各圖像空間分辨率為1 m,尺寸大小為512×512。圖像采集地區(qū)主要包括長江沿岸區(qū)域以及湛江、廈門等港口城市。本文將整個數(shù)據(jù)集分為互斥的訓(xùn)練集和測試集,其中驗(yàn)證集包含在訓(xùn)練集中。數(shù)據(jù)集中碼頭像素占比直方圖如圖8所示,可見像素占比大多在0.15 以下,碼頭目標(biāo)較小導(dǎo)致識別難度增加。數(shù)據(jù)集中碼頭目標(biāo)外接矩形的長度、寬度、面積及像素占比統(tǒng)計(jì)參數(shù)如表1所示。
表1 碼頭目標(biāo)統(tǒng)計(jì)參數(shù)Table 1 Statistical parameters of dock targets
圖8 碼頭目標(biāo)像素占比直方圖Fig.8 Histogram of pixel proportion of docks
對于數(shù)據(jù)集比例R,采用控制變量法對其進(jìn)行選取,當(dāng)訓(xùn)練集、驗(yàn)證集和測試集中樣本數(shù)比例為6∶2∶2 時,訓(xùn)練精度和測試精度均最高(表2)。圖9、10 分別為訓(xùn)練集和測試集中碼頭樣本的情況,訓(xùn)練集采集自大連、秦皇島、宜昌、江陰、廈門、天津等地區(qū),而測試集采集自廣州、湛江、???、珠海、深圳、橫濱等地區(qū),兩數(shù)據(jù)集均包含突堤式、順岸式以及引橋式3種碼頭,具有尺寸及形狀等特征的相似性。同時訓(xùn)練集和測試集中的碼頭來源于不同地區(qū),具有空間差異性。因此算法在測試集中的識別精度能夠很好地體現(xiàn)模型的泛化性能。
圖9 訓(xùn)練集碼頭樣本示例Fig.9 Dock samples in the training set
表2 數(shù)據(jù)集比例參數(shù)R值的選取Tab.2 Determination of the number ratio
本文實(shí)驗(yàn)操作平臺為Ubuntu 16.04 操作系統(tǒng),使用CUDA10.0 和cuDNN7.5 加速訓(xùn)練,處理器為Intel Core i7-8700 CPU@3.20 GHz,GPU 為NVIDIA GeForce RTX 2080(8 G顯存)。使用的編程語言為Python,開發(fā)框架為Tensorflow。Faster R-CNN 算法的框架鏈接為:https://github.com/endernewton/tffaster-rcnn[2020-10-22]。
圖10 測試集碼頭樣本示例Fig.10 Dock samples in the testing set
在碼頭識別過程中,數(shù)據(jù)集比例R、閾值Nt和batch_size 共3 個參數(shù)值的選取對模型性能影響較大,因此本文采用控制變量法進(jìn)行選取。首先固定閾值Nt=0.5,batch_size=128,變化數(shù)據(jù)集比例參數(shù)R的值,當(dāng)訓(xùn)練集、驗(yàn)證集和測試集中樣本數(shù)比例為6∶2∶2 時,訓(xùn)練精度和測試精度均最高(表2),因此數(shù)據(jù)集比例參數(shù)R值取為6∶2∶2。采用同樣的方法得到閾值Nt為0.5(表3),batch_size 為256(表4)。為避免在參數(shù)中引入較大的噪聲導(dǎo)致迭代引起較大的震蕩,本文參閱文獻(xiàn)(Krizhevsky 等, 2012; Bengio, 2012; Smith,2017)選擇了較小的學(xué)習(xí)率0.001。其余參數(shù)對模型影響較小,選擇了初始參數(shù),最終參數(shù)值如表5所示。
表3 閾值參數(shù)Nt的選取Table 3 Determination of the threshold
表4 batch_size參數(shù)的選取Table 4 Determination of the batch_size
表5 深度網(wǎng)絡(luò)中各參數(shù)值的選取Table 5 Values of various parameters in the deep networks
為定量評價(jià)模型的性能,采用平均精度AP(Average precision)、準(zhǔn)確率P(Precision)、召回率R(Recall)(Zhu,2004),以及漏檢率(Missing Alarm)和虛警率(False Alarm)(Ma 和Bai,2015)作為評價(jià)指標(biāo)。本文以TP 作為識別結(jié)果中正確提取的碼頭個數(shù),F(xiàn)P 作為錯誤提取的碼頭個數(shù),F(xiàn)N作為遺漏提取的碼頭個數(shù)。
(1)AP 是評價(jià)模型性能的重要指標(biāo),計(jì)算公式如式(5)所示:
(2)Precision表示在碼頭的預(yù)測結(jié)果中正確識別的比例:
(3)Recall 表示在碼頭的所有真實(shí)標(biāo)記框中正確識別的比例:
(4)虛警率是錯誤提取的碼頭目標(biāo)占總識別數(shù)量的比例,計(jì)算公式如式(8)所示:
(5)漏檢率是遺漏提取的碼頭目標(biāo)占總識別數(shù)量的比例,計(jì)算公式如式(9)所示:
為比較算法的有效性,本文基于構(gòu)建的碼頭數(shù)據(jù)集分別在SSD 算法、傳統(tǒng)Faster R-CNN 算法、Faster R-CNN+Kmeans 算法以及本文FKSN 算法上進(jìn)行了實(shí)驗(yàn)。4 種算法在碼頭數(shù)據(jù)集上的損失函數(shù)值Loss 隨迭代次數(shù)的變化曲線如圖11 所示??傮w來說,4種模型的Loss曲線相對平滑,在模型訓(xùn)練初始階段,各曲線的Loss 值均保持在一個較高的水平,隨著迭代次數(shù)的增加,Loss 值不斷緩慢振蕩下降。當(dāng)4 種算法模型都迭代到80000 次之后,各算法的Loss值基本趨于穩(wěn)定。其中本文FKSN 算法在訓(xùn)練初期下降最快,并較其他3種算法持續(xù)保持更低的Loss值。SSD算法、Faster R-CNN 算法和Faster R-CNN+K-Means 算法的Loss 值最終穩(wěn)定在0.31、0.30 和0.23。本文FKSN 算法的Loss 值在訓(xùn)練到120000次時最小,保持在0.20。
圖11 不同算法的損失函數(shù)Loss曲線對比圖Fig.11 Comparison of loss curves of various algorithms
測試集精度評價(jià)結(jié)果如圖12 所示。相較于前4種算法,本文FKSN 算法的準(zhǔn)確率AP最高,達(dá)到了92.6%,較傳統(tǒng)Faster R-CNN 算法提高了8.3 個百分點(diǎn)。傳統(tǒng)ISODATA 分類方法(Ball 和Hall,1965)的識別精度最低且虛警率(FalseAlarm)最高,說明該方法應(yīng)用到碼頭的自動提取中效果較差。SSD 算法的虛警率及漏檢率(Missing Alarm(%))指標(biāo)表現(xiàn)同樣較差,分別為28.1%和23.2%,說明該方法不能很好的對碼頭目標(biāo)進(jìn)行識別。與此相比,F(xiàn)aster R-CNN 的漏檢率最高,說明該方法在碼頭目標(biāo)識別中漏檢最多。在Faster R-CNN+K-Means 和本文FKSN 方法的識別結(jié)果中,本文方法的召回率和漏檢率最優(yōu),分別為90.2%和7.6%。在虛警率指標(biāo)方面,F(xiàn)aster R-CNN+KMeans算法表現(xiàn)與本文方法相類似,說明通過采用K-Means 算法可以滿足一定的目標(biāo)識別任務(wù),但Faster R-CNN+K-Means 的漏檢率較高,說明該方法對小型目標(biāo)的提取存在一定的缺陷。本文方法在識別精度、虛警率及漏檢率綜合表現(xiàn)更好,說明本文方法完全能滿足對復(fù)雜地區(qū)小型碼頭目標(biāo)自動提取的任務(wù)。
圖12 不同算法精度評價(jià)對比Fig.12 Accuracy comparison of various algorithms
5 種方法在測試集中的識別結(jié)果如圖13 示,(a)—(e)分別為5 種算法在橫濱突堤式碼頭遙感影像上的識別效果圖,(f)—(j)分別為5種算法在湛江順岸式碼頭遙感影像中的識別效果圖,(k)—(o)分別為5 種算法在廣州引橋式碼頭遙感影像中的識別效果圖。其中紅色框?yàn)?種深度學(xué)習(xí)算法的識別結(jié)果。為更好的分析算法性能,本文在4種算法的識別基礎(chǔ)上分別用黃色和藍(lán)色標(biāo)示出了漏檢和虛警情況。傳統(tǒng)ISODATA 分類方法的提取結(jié)果如圖13(a)(f)(k)所示,該方法在識別出部分碼頭的同時產(chǎn)生大量的虛警,即將大量的人工建筑物和部分并排的船舶誤提為碼頭,說明該方法在碼頭目標(biāo)提取中性能較差。SSD算法的識別結(jié)果如圖13(b)(g)(l)所示,F(xiàn)aster RCNN 識別結(jié)果如圖13(c)(h)(m)所示。SSD 算法的識別結(jié)果總體比Faster R-CNN 低,兩者在部分小形碼頭的目標(biāo)識別中易將并排船舶誤識別為碼頭,導(dǎo)致識別結(jié)果出現(xiàn)了明顯的虛警現(xiàn)象。在Faster R-CNN 算法的基礎(chǔ)上,采用K-Means 對候選框進(jìn)行改進(jìn)后得到的識別結(jié)果如圖13(d)(i)(n)所示,與Faster R-CNN 算法比較,由于預(yù)設(shè)了更加適合碼頭尺寸的候選框,使得降低周圍背景影響的同時提高了識別精度,但對于分布密集區(qū)的碼頭仍然存在漏檢現(xiàn)象。本文FKSN 算法的識別結(jié)果如圖13 (e)(j)(o)所示,該算法在Faster R-CNN+K-Means 基礎(chǔ)上使用Soft-NMS 算法替代了原NMS 算法,使得在保持對尺寸較小的碼頭進(jìn)行準(zhǔn)確識別時,降低了分布密集區(qū)碼頭識別的漏檢率。因此可以看出本文方法較好地提高了算法的性能。
圖13 不同算法的碼頭識別結(jié)果Fig.13 Dock identification results of various algorithms
本文選擇沈家門港區(qū)進(jìn)行大幅Google Earth 影像的碼頭自動識別性能驗(yàn)證,其中圖14 為沈家門港區(qū)最終的碼頭識別結(jié)果圖。如圖14 所示,該區(qū)域圖幅像素大小為5000像素×3500像素,空間分辨率為1 m。影像幅內(nèi)共有82個碼頭,經(jīng)過本文算法共識別出75 個碼頭目標(biāo)。本文算法在提取過程中錯誤識別碼頭共3個,主要類型為雜亂排列的集裝箱或者船舶,由藍(lán)色掩膜表示。黃色掩膜為漏提碼頭共有7個,漏提原因一方面是影像分辨率不足以讓算法提取足夠的特征,另一方面是碼頭的尺寸在影像中占比過小且受周圍環(huán)境影響。本文FKSN 算法應(yīng)用在沈家門港區(qū)最終識別結(jié)果的準(zhǔn)確率為96.1%,召回率為91.4%,虛警率為3.6%,漏檢率為8.5%,證明本文提出的FKSN算法在大幅面遙感影像中的識別性能仍然表現(xiàn)良好。
圖14 沈家門港區(qū)識別結(jié)果Fig.14 Dock identification result in the Shenjiamen dock area
碼頭作為民用領(lǐng)域的重要交通樞紐和軍事領(lǐng)域的重要打擊目標(biāo),對其進(jìn)行自動識別研究具有十分重要的經(jīng)濟(jì)和軍事價(jià)值。然而由于碼頭普遍尺寸小、數(shù)量多、分布散亂,傳統(tǒng)方法難以滿足對高速發(fā)展的碼頭進(jìn)行精準(zhǔn)監(jiān)測的需求,從含有水域、建筑、船舶等復(fù)雜背景的遙感影像中對碼頭目標(biāo)進(jìn)行快速識別及精準(zhǔn)定位非常困難。本文將Faster R-CNN 算法應(yīng)用于碼頭的自動識別中,并針對碼頭的尺寸特征和空間分布特征對算法進(jìn)行了改進(jìn)。通過對不同地區(qū)不同類型的碼頭目標(biāo)進(jìn)行識別以及對沈家門港地區(qū)大幅遙感影像的碼頭進(jìn)行自動識別性能驗(yàn)證,得出以下結(jié)論:
(1)通過采用K-Means 算法對候選框尺寸進(jìn)行預(yù)設(shè),使得候選框尺寸更符合碼頭的尺寸特點(diǎn),從而在提高識別率的同時減少了背景中其他目標(biāo)對碼頭檢測的影響,降低了虛警率。
(2)通過采用Soft-NMS 代替NMS 使算法能夠更穩(wěn)定地計(jì)算候選框的得分,從而使得在碼頭密集分布的地區(qū)這些碼頭均能被準(zhǔn)確識別。將K-Means 和Soft-NMS 同時應(yīng)用到Faster R-CNN 算法有效的改善了虛警和漏檢問題,提高了碼頭識別的精度和定位的準(zhǔn)確性。
(3)實(shí)驗(yàn)結(jié)果表明該算法能夠?qū)Σ煌貐^(qū)以及順岸式碼頭、突堤式碼頭和引橋式碼頭等不同形狀的碼頭進(jìn)行較為精準(zhǔn)的識別,具有很強(qiáng)的普適性,未來工作可采取更高分辨率的影像對碼頭進(jìn)行更精細(xì)化的分類。