段俊利
【摘 要】 隨著我國對外經(jīng)濟貿(mào)易的快速發(fā)展,航運市場日益繁榮。為維護航運交通秩序,提高港口營運效率,并能夠根據(jù)不同船型的航運市場現(xiàn)狀作出相應(yīng)調(diào)整,獲得船舶精準類型就顯得尤為重要。但目前只能通過購買入級船舶文件來獲取船舶類型信息。本文提出一種基于AIS的靜態(tài)數(shù)據(jù)進行船舶識別的算法,利用船長、船寬、左舷距、尾距以及吃水深度及其聯(lián)合特征,利用機器學習分類算法,將集裝箱船、散貨船、雜貨船從貨船中識別出來。經(jīng)過模型選擇、參數(shù)調(diào)優(yōu)之后的模型平均準確率為95%。
【關(guān)鍵詞】 AIS靜態(tài)數(shù)據(jù) 機器學習 船舶分類
1.引言
隨著我國航運業(yè)的快速發(fā)展,中國在船舶保有量和港口貨運量方面躋身世界前列。船舶識別成為研究的重點之一。目前大多數(shù)船舶類型識別基于圖形識別。蔣少峰等提出基于結(jié)構(gòu)特征的SAR商用船舶分類算法[1],可對散貨船、集裝箱船和漁船進行分類;梁錦雄用BP神經(jīng)網(wǎng)絡(luò)對六類船舶的紅外圖像進行識別[2];趙亮等人利用卷積神經(jīng)網(wǎng)絡(luò)對數(shù)字船舶圖像提取特征,然后融合HOG和HSV特征構(gòu)建船舶圖像特征,再用支持向量機方法對集裝箱船、客船、漁船、軍艦、帆船進行分類[3]。
本文創(chuàng)新性地提出了一種基于AIS靜態(tài)數(shù)據(jù)的船舶分類識別方法,利用AIS靜態(tài)數(shù)據(jù)中船長、船寬、左舷距、尾距、吃水深度以及長寬比、船寬與吃水深度比和船長與尾距比三個聯(lián)合特征,利用機器學習分類模型,將集裝箱船、散貨船、雜貨船從貨船中識別出來。
2. AIS靜態(tài)數(shù)據(jù)
2.1AIS靜態(tài)數(shù)據(jù)
本文使用的是AIS靜態(tài)數(shù)據(jù),靜態(tài)數(shù)據(jù)包括:MMSI(船舶唯一標識符)、time(收到靜態(tài)數(shù)據(jù)包的時間)、shiptype(船舶類型)、length(船長)、width(船寬)、left(左舷距)、trail(尾距)、imo(船舶編號)、name(船名)、callsign(呼號)、draught(吃水)、destination(目的地)、eta(預抵港時間)。
2.2數(shù)據(jù)獲取與清洗
利用Python語言讀取AIS靜態(tài)數(shù)據(jù)數(shù)據(jù)庫文件,并將貨船篩選出來。使用AIS靜態(tài)數(shù)據(jù)中Name,IMO、MMSI三個字段與入籍船文件進行匹配,來獲得船舶類型信息。并標記集裝箱船為1,雜貨船為2,散貨船為3,其他船型為4。
3.機器學習分類算法
KNN是通過測量不同特征值之間的距離進行分類。如果一個樣本在特征空間中K個最相似的樣本中大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。
支持向量機一般來說是二分類模型,其基本模型是特征空間上的間隔最大的線性分類器,在解決多分類問題時使用“一對一”或者“一對其余”的策略,在解決非線性分類時表現(xiàn)比較好。
決策樹是帶有特殊含義的樹結(jié)構(gòu),其每個根結(jié)點代表數(shù)據(jù)的特征標簽,根據(jù)該特征不同的特征值將數(shù)據(jù)劃分成幾個子集,每個子集都是這個根結(jié)點的子樹,然后對每個子樹遞歸劃分下去,而決策樹的每個葉子結(jié)點則是數(shù)據(jù)的最終類別標簽[4]。
隨機森林屬于集成學習,其基分類器是CART分類樹,集成方法是Bagging。隨機森林將多個基分類器投出最多票數(shù)的類別或者類別之一作為最終類別。隨機森林可使用袋外分數(shù)來評估泛化能力。
4.實驗分析及結(jié)果
本實驗基于2016年8月1日的AIS靜態(tài)數(shù)據(jù),有效數(shù)據(jù)為15644條。將整理好的數(shù)據(jù)進行數(shù)據(jù)預處理。缺失數(shù)據(jù)較少,直接將缺失數(shù)據(jù)剔除,并利用標準差標準化方法對數(shù)據(jù)進行歸一化處理。
本文利用scikit-learn基于樹的特征提取進行特征選擇,特征選擇后保留的特征為:width、length、trail、trail/length、length/width五個特征。
分別建立KNN、支持向量機、決策樹、邏輯回歸以及隨機森林五種分類模型。進行五折交叉驗證,并使用f1-socre作為評價指標,隨機森林分類效果最好,選擇隨機森林模型。
接下來使用網(wǎng)格搜索法對隨機森林參數(shù)進行調(diào)優(yōu)。最終的模型結(jié)果如表3.1所示。
5.結(jié)語
本文利用機器學習分類算法將集裝箱船、散貨船、雜貨船從貨船中識別出來。所用數(shù)據(jù)為AIS靜態(tài)數(shù)據(jù)里面的五個原始靜態(tài)特征以及聯(lián)合特征,經(jīng)過特征選擇,模型選擇,最終選擇隨機森林算法。實驗結(jié)果表明本文算法對貨船的精確分類具有很好的效果。
【參考文獻】
[1] 蔣少峰,王超,吳樊,等.基于結(jié)構(gòu)特征分析的COSMO-SkyMed圖像商用船舶分類算法[J].遙感技術(shù)與應(yīng)用,2014,29(4):607-615.DOI:10.11873/j.issn.1004-0323.2014.4.0607.
[2] 梁錦雄,王刻奇.基于BP神經(jīng)網(wǎng)絡(luò)的船艦目標識別分類[J].艦船科學技術(shù),2015,37(3):206-209.DOI:10.3404/j.issn.1672-7649.2015.03.046.
[3] 趙亮,王曉峰,袁逸濤.基于深度卷積神經(jīng)網(wǎng)絡(luò)的船舶識別方法研究[J].艦船科學技術(shù),2016,38(8):119-123.DOI:10.3404/j.issn.1672-7619.2016.08.025.
[4] 馬景義,吳喜之,謝邦昌.擬自適應(yīng)分類隨機森林算法[J].數(shù)理統(tǒng)計與管理,2010,29(5):805-811.