朱 剛 胥 剛
中國電子科技集團公司第二十八研究所 江蘇 南京 210007
隨著船舶業(yè)的快速發(fā)展,水上安全監(jiān)管形勢越發(fā)嚴(yán)峻。準(zhǔn)確及時地掌握對方規(guī)律,預(yù)判對手的行為特點,實現(xiàn)戰(zhàn)場態(tài)勢實時感知[1]、海上搜救和海上交通指揮是海事系統(tǒng)的關(guān)鍵內(nèi)容。船舶實時航跡數(shù)據(jù)作為直觀反映船舶與環(huán)境、船舶與船舶的相互作用、相互影響的時空證據(jù),其中蘊含了船舶行為模式,通過有效的方式對船舶航跡數(shù)據(jù)的挖掘,能夠為辨識船舶行為、進行有效的船舶行為監(jiān)控和管理提供新的方式[2],因此,如何有效利用船舶的海量航跡數(shù)據(jù),識別船舶運動模式,進一步輔助水上安全監(jiān)管,已經(jīng)成為當(dāng)前海事領(lǐng)域的熱點課題。
由于海上船舶航跡數(shù)據(jù)無典型的相似性,難以正確選擇樣本進行標(biāo)注,因此本論文采用無需標(biāo)注數(shù)據(jù)的非監(jiān)督學(xué)習(xí)聚類方法,對船舶歷史軌跡進行聚類,并生成航行規(guī)則模型。針對船舶運動建模,通常有基于軌跡點和基于軌跡段兩種。本課題采用基于軌跡段的方式。該方法首先依據(jù)輪廓將船舶航跡分成線段,獲取航跡點數(shù)量不等的軌跡線段集合。在每個線段中,采用起始點、結(jié)束點的運動狀態(tài)(位置、航向、航速)及變化描述船舶的運動特征。線段的集合作為密度空間聚類算法(DBSCAN)的輸入。DBSCAN 將集合中的所有點分為核心點、邊界點和噪聲點,判斷一個數(shù)據(jù)點是何種類型主要由算法中的兩個參數(shù)ε、Min Pts。ε 確定對象的領(lǐng)域范圍大小的半徑,Min Pts是設(shè)定的閾值[3]。
基于線段的密度空間聚類算法原理如下:假定數(shù)據(jù)集Li、Lj、Lk為數(shù)據(jù)集D中的單條線段。
(1)ε-鄰域集Nε:Nε(Li)為Li在數(shù)據(jù)集D 內(nèi)所有與Li距離小于領(lǐng)域范圍ε的數(shù)據(jù)集合。
(2)核心線段;給定數(shù)值參數(shù)ε、Min Pts,若Nε(Li)中的數(shù)據(jù)量大于等于Min Pts,則認(rèn)為Li為核心線段。
(3)直接密度可達;給定數(shù)值參數(shù)ε、Min Pts,若Lj為核心線段,Li在它的ε-鄰域集當(dāng)中,則認(rèn)為Li從Lj直接密度可達。
(4)密度可達:給定數(shù)值參數(shù)ε、Min Pts,若從Li到Lk直接密度可達,從Lk到Lj也直接密度可達,則認(rèn)為Li到Lj密度可達。
(5)密度相連:給定數(shù)值參數(shù)ε、Min Pts 若存在Lk,Li與Lj同時從Lk密度可達,則認(rèn)為Li與Lj互相密度相連。
(6)噪聲:給定數(shù)值參數(shù)ε、Min Pts,若Li與數(shù)據(jù)集D內(nèi)所有數(shù)據(jù)都不密度相連,則認(rèn)為Li為噪聲。
訓(xùn)練數(shù)據(jù)是大量歷史航跡點,其中包含了正常航跡點和部分的異常航跡。本項目使用非監(jiān)督聚類的方法,將航跡聚類,挖掘航跡線段間的關(guān)聯(lián),剔除異常信息,針對聚類后數(shù)據(jù)進行網(wǎng)格訓(xùn)練,生成網(wǎng)格區(qū)域的航向和航速特征。
3.1 數(shù)據(jù)預(yù)處理 數(shù)據(jù)預(yù)處理主要是為了剔除數(shù)據(jù)中的無效數(shù)據(jù),避免異常值產(chǎn)生的偏差。數(shù)據(jù)預(yù)處理首先將歷史數(shù)據(jù)按照船舶類型進行分類,接著去除速度、位置、方向異常值;然后對航跡點位置進行坐標(biāo)變換;最后對目標(biāo)的航跡進行關(guān)鍵點進行提取,進行航跡抽稀處理。
3.2 航跡聚類 對預(yù)處理后的航跡數(shù)據(jù)進行聚類分析,目的是為了提取航跡中具有相似特性的航跡集,剔除離群的航跡。本文使用基于線段的密度空間聚類算法。根據(jù)數(shù)據(jù)中發(fā)現(xiàn)的描述對象及其關(guān)系的信息,將數(shù)據(jù)對象分組。其目標(biāo)是組內(nèi)的對象相互之間相似,而不同組中的對象不相似。針對不同類型的目標(biāo)航跡需要單獨訓(xùn)練相關(guān)屬性,并且從歷史數(shù)據(jù)中剔除異常數(shù)據(jù)。
3.3 區(qū)域網(wǎng)格化 區(qū)域網(wǎng)格化將海上區(qū)域劃分為指定區(qū)域大小的位置網(wǎng)格,分別訓(xùn)練每個網(wǎng)格中航跡點總數(shù)、方向、速度的規(guī)則模型。
3.4 航線規(guī)則訓(xùn)練生成 位置模型訓(xùn)練的是從歷史數(shù)據(jù)中提取船舶位置規(guī)律,學(xué)習(xí)各類型艦船主要去的區(qū)域。具體方法是統(tǒng)計在網(wǎng)格化區(qū)域中的各個區(qū)域通過的船舶數(shù)量,因為船舶航路經(jīng)過的網(wǎng)格會有大量歷史航跡點,而非正常線路的歷史航跡點很少或沒有。位置模型可輔助支持對船舶航行異常區(qū)域行為的監(jiān)測。
速度模型訓(xùn)練的是從歷史數(shù)據(jù)中提取船舶速度規(guī)律,學(xué)習(xí)各艘船舶在不同區(qū)域的速度分布。具體方法是通過統(tǒng)計直方圖和箱型圖來統(tǒng)計區(qū)域網(wǎng)格內(nèi)的最大和最小速度分布。速度模型可以為船舶速度異常、疑似漂航行為提供支持。
方向模型訓(xùn)練是從歷史數(shù)據(jù)中提取船舶在各位置的航向規(guī)律,學(xué)習(xí)各航道各艘船舶在不同區(qū)域的正常航向范圍,方向模型可以為船舶偏離航線行為提供支持。
本文提出一種基于非監(jiān)督學(xué)習(xí)的海上目標(biāo)行為分析方法,利用目標(biāo)航跡的模擬數(shù)據(jù),進行航道聚類,挖掘航跡線段間的關(guān)聯(lián),剔除異常信息,針對聚類后數(shù)據(jù)進行網(wǎng)格訓(xùn)練,生成網(wǎng)格區(qū)域的航向和航速特征,針對實時航跡數(shù)據(jù),進行對船舶行為進行監(jiān)測。
通過試驗,模擬2000批目標(biāo)進行實時檢測,對航行異常區(qū)域行為的發(fā)現(xiàn)率是90%,對船舶速度異常的發(fā)現(xiàn)率是92%,對船舶偏離航線行為的發(fā)現(xiàn)率是95%。
當(dāng)前系統(tǒng)主要靠人工設(shè)定規(guī)則和指揮員經(jīng)驗來發(fā)現(xiàn)船舶的異常行為,過程比較復(fù)雜且與船舶實際航行規(guī)律存在偏差,誤報警過多,且容易遺漏船舶異常行為。本論文將機器學(xué)習(xí)方法應(yīng)用到海上目標(biāo)行為分析中,可以改進系統(tǒng)自動對船舶異常行為監(jiān)控能力,提升系統(tǒng)的自動化和智能化水平。