石常坡,朱武斌
(連云港引航站, 江蘇 連云港 222042)
近年來,海洋資源開發(fā)和國際航運的高速發(fā)展給港口交通和管理提出了更高的要求,迫切需要提高海上交通信息智能化管理水平,因此,基于AIS 的數(shù)據(jù)研究成為智能交通研究領(lǐng)域的研究熱點,AIS 數(shù)據(jù)研究在數(shù)據(jù)挖掘、航行安全、船舶行為分析、貿(mào)易分析等領(lǐng)域發(fā)揮著重要作用。
AIS 數(shù)據(jù)作為時空數(shù)據(jù)類型,記錄著船舶軌跡的位置和時間序列,通過AIS 數(shù)據(jù)挖掘可以識別船舶的航行路線、港口錨泊作業(yè)特殊區(qū)、港口熱點會遇區(qū)和碰撞危險區(qū)等,利用AIS 中蘊含的大量海上交通特征信息,采用數(shù)據(jù)挖掘技術(shù),對船舶軌跡進(jìn)行聚類分析,構(gòu)建軌跡聚類模型,采用改進(jìn)的DBSCAN 算法對大量AIS 數(shù)據(jù)聚類研究,分析船舶進(jìn)出港口的航行路徑、不同季節(jié)的交通流方向以及不同類型船舶的引航方法,為外籍船舶進(jìn)出港口、主管部門實施航路規(guī)劃和智能交通研究提供數(shù)據(jù)支撐。
本文研究區(qū)域為連云港主港區(qū)航道及錨地水域,研究水域從五號錨地至主港區(qū)防波堤,全長22 海里,研究區(qū)域內(nèi)水域開闊無遮擋且附近船舶數(shù)量眾多,包括工程船、漁船、商船等,船舶數(shù)量隨著國家的發(fā)展逐年遞增,船舶引航艘次統(tǒng)計如圖1 所示。根據(jù)《國內(nèi)航行船舶船載電子海圖系統(tǒng)和自動識別系統(tǒng)設(shè)備規(guī)定》:船載 AIS設(shè)備將不定時的發(fā)送動靜態(tài)數(shù)據(jù)。實驗數(shù)據(jù)選取連云港航道主航道2019年 6月份的AIS 數(shù)據(jù),數(shù)據(jù)包括船舶識別碼(MMSI),時間(GPS TIME),經(jīng)度(LONGITUDE),緯度(LATITUDE),速度(SPEED),航向角(COURSE)等信息,如表1 所示,本文研究船舶類型為A 級船臺,研究水域年進(jìn)出船舶量達(dá)6 千多艘次,為連云港繁忙區(qū)。本次研究的AIS 信息來源于連云港港口采集的AIS 數(shù)據(jù),從 AIS 數(shù)據(jù)接收服務(wù)器提取出研究水域所需的AIS 信息報文文件,運用AIS 數(shù)據(jù)解碼模塊實現(xiàn)數(shù)據(jù)解碼,對解碼的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,剔除錯誤信息,建立AIS 數(shù)據(jù)庫并對其數(shù)據(jù)分析,以使得到的AIS 數(shù)據(jù)真實反映船舶航行軌跡。
船舶AIS 數(shù)據(jù)通過船舶AIS 設(shè)備發(fā)射到岸上AIS 基站、地方海事局,再由相關(guān)行業(yè)用戶進(jìn)行下載使用,初始AIS 數(shù)據(jù)存在異常數(shù)據(jù),需要對數(shù)據(jù)進(jìn)行預(yù)處理,剔除包括航向偏差大、MMSI 位數(shù)不對、經(jīng)緯度不在正常范圍內(nèi)等錯誤信息,還包括大量冗余數(shù)據(jù),如果不預(yù)處理會存在影響數(shù)據(jù)準(zhǔn)確性、影響運行速度等問題。AIS數(shù)據(jù)有22 種不同類型,報文分為明暗碼兩大類,其中暗碼遵照IEC61162 進(jìn)行解碼,先對報文進(jìn)行解析。
然后將解碼數(shù)據(jù)進(jìn)行預(yù)處理,挑選出所需水域AIS信息,包括動、靜態(tài)信息,建立數(shù)據(jù)庫,最后將兩者相同MMSI 的動靜態(tài)信息保存到 txt 中,刪除重復(fù)數(shù)據(jù),最終提取出船舶的UTC、MMSI、經(jīng)緯度、速度、航向等船舶信息。以連云港港口AIS 數(shù)據(jù)為例,數(shù)據(jù)處理顯示為圖2 所示,其中如圖a 紅色航跡為異常數(shù)據(jù)顯示,圖b 為經(jīng)過預(yù)處理顯示。
船舶軌跡聚類就是利用聚類算法對船舶軌跡進(jìn)行聚類,找出具有相似船舶運動演化方式的軌跡簇,揭示船舶軌跡內(nèi)在聯(lián)系,目前廣泛應(yīng)用于船舶研究的算法大致分為基于距離、密度、統(tǒng)計學(xué)三種算法,對應(yīng)上述算法的典型代表包括:Hausdorff 距離( Hausdorff Distance,HD) 算法、DBSCAN 算法、混合高斯模型 (Gaussian Mixture Model,GMM) 的軌跡建模方法、K-Means算法等。
目前,軌跡聚類方法選取主要從以下兩方面進(jìn)行:
(1) 將整條軌跡作為目標(biāo)的聚類方法,該方法缺點是軌跡數(shù)據(jù)量大,時間和空間要求高、軌跡子段丟失等問題;
(2) 將軌跡進(jìn)行分段劃分,對軌跡子段作為目標(biāo)的聚類方法,運用該方法 可能無法完全獲取整條軌跡的特征,但能較好地把握軌跡子段的特征,且綜合各子段的特征也能較好地對整條軌跡的特征進(jìn)行描述。
船舶AIS 信息播發(fā)時間間隙根據(jù)船舶航向和航速變化率進(jìn)行,采集到的AIS 信息包含大量不同時間信息的軌跡分段,軌跡劃分不僅需要體現(xiàn)軌跡的特性,又要保證軌跡的準(zhǔn)確性和簡潔性,由于連云港航段路程簡單,彎曲路段少并且彎曲幅度小,因此船舶AIS 體現(xiàn)的特征點簡單,通過船舶轉(zhuǎn)向的航向角閾值與速度變化率閾值就可以進(jìn)行劃分如圖4。
建立特征點集(a、b、c....),將相鄰航段之間的航向和航速進(jìn)行計算,航跡間的夾角為,計算公式如下:
式中av、ac分別為速度變化率和航向變化率,為相鄰時間間隔。
根據(jù)上式公式再結(jié)合航向航速閾值對軌跡進(jìn)行分類,將符合閾值的特征點進(jìn)行收集,閾值設(shè)定的設(shè)定要兼顧計算速率、細(xì)節(jié)以及聚類效果。在復(fù)雜航段航向航速變化較大的水域,簡單的航向閾值和速度閾值不能很好地體現(xiàn)軌跡的原始特征,需要進(jìn)一步優(yōu)化特征點的選取,利用智能算法找點全局最優(yōu)結(jié)果,使得數(shù)據(jù)還原真實軌跡。
船舶軌跡劃分需要利用AIS 數(shù)據(jù)特征信息進(jìn)行聚類,如船舶的MMSI、航向、航速以及船位等4 個主要特征信息,提高軌跡的聚類效果和準(zhǔn)確的,通過對航向、航速、船位進(jìn)行距離計算,并進(jìn)行歸一化處理,本文還將MMSI 作為其他三項度量綜合權(quán)重的系數(shù),MMSI 不符合的軌跡分段直接忽略,減少聚類計算復(fù)雜度。相似度的度量主要包括軌跡間距度量、航速信息度量、MMSI 綜合權(quán)重系數(shù)以及最后的綜合度量。根據(jù)速度、航向、軌跡距離以及MMSI 綜合權(quán)重系數(shù)公式,再對相關(guān)距離進(jìn)行歸一化處理,使得不同量綱之間可以進(jìn)行計算,首先定義相關(guān)權(quán)重,且滿足權(quán)重取值大于等于0,。在對距離進(jìn)行歸一化處理時采用Z-score 標(biāo)準(zhǔn)法進(jìn)行,處理過的數(shù)據(jù)符合正態(tài)分布,公式為:
為進(jìn)一步加強船舶軌跡聚類效果,本文對傳統(tǒng)DBSCAN 算法進(jìn)行改進(jìn),加入AIS 約束條件,提高聚類精度,對基于AIS 改進(jìn)的DBSCAN 中的領(lǐng)域,密度閾值,船舶航向,航速以及MMSI 進(jìn)行定義。定義軌跡數(shù)據(jù)集N 由不超過領(lǐng)域的軌跡組成,且定義核心對象滿足領(lǐng)域內(nèi)的軌跡數(shù)目大于或者等于密度閾值,定義軌跡Li的數(shù)據(jù)集N(),軌跡點集為D,p 為軌跡點且,軌跡聚類滿足航向、航速以及MMSI 三個條件,具體定義如下:
其中短距離范圍為的地球曲度可以忽略不計,在航向計算過程中需要注意臨界數(shù)值的轉(zhuǎn)換。
船舶AIS 信息為船舶航行安全提供了數(shù)據(jù)支持,通過對AIS 數(shù)據(jù)的處理,利用AIS 軌跡聚類模型對有效數(shù)據(jù)進(jìn)行聚類,形成有效的航路軌跡,對不同船舶的航行習(xí)慣、路徑進(jìn)行分析,引航員通過大量的AIS 數(shù)據(jù)分析能直觀有效地指導(dǎo)引航員操縱船舶,避開淺灘或者流急水域,船舶航行的轉(zhuǎn)向時機、轉(zhuǎn)向速度、轉(zhuǎn)頭速率等進(jìn)行學(xué)習(xí),引航員能夠直觀感受船舶的運動態(tài)勢,達(dá)到提高引航員的引航安全性。