聶 陽, 初秀民, 劉興龍
(1.武漢理工大學(xué) 智能運(yùn)輸系統(tǒng)研究中心,武漢 430063;2. 水路公路交通安全控制與裝備教育部工程研究中心,武漢 430063;3. 武漢理工大學(xué) 能源與動力工程學(xué)院,武漢 430063)
NIE Yang1,2,3, CHU Xiumin1,2, LIU Xinglong1,2,3
內(nèi)河AIS數(shù)據(jù)有效性分析方法對比
聶 陽1,2,3, 初秀民1,2, 劉興龍1,2,3
(1.武漢理工大學(xué) 智能運(yùn)輸系統(tǒng)研究中心,武漢 430063;2. 水路公路交通安全控制與裝備教育部工程研究中心,武漢 430063;3. 武漢理工大學(xué) 能源與動力工程學(xué)院,武漢 430063)
為確定內(nèi)河AIS數(shù)據(jù)有效性分析的方法,分析內(nèi)河AIS數(shù)據(jù)特性,構(gòu)建內(nèi)河AIS數(shù)據(jù)分析試驗(yàn)平臺。同時(shí),分別使用曲線擬合法和模糊C均值聚類法對采集的典型河段的內(nèi)河船舶AIS數(shù)據(jù)的有效性進(jìn)行歸類分析,并對測試結(jié)果進(jìn)行對比分析。結(jié)果表明:AIS錯(cuò)誤數(shù)據(jù)很少時(shí),模糊C均值聚類法和曲線擬合法對AIS數(shù)據(jù)分類的效果相似;但涉及到海量AIS數(shù)據(jù)時(shí),曲線擬合法優(yōu)于模糊C均值聚類法。
水路運(yùn)輸;船舶自動識別系統(tǒng);曲線擬合;模糊C均值聚類;錯(cuò)誤率
NIEYang1,2,3,CHUXiumin1,2,LIUXinglong1,2,3
Abstract: In order to find rational methods for analyzing the validity of AIS information, the characteristics of inland AIS information are analyzed and an inland AIS information analysis experiment platform is constructed. A set of typical AIS information collected from real inland water traffic is grouped on the effectiveness basis by means of curve fitting method and the Fuzzy C-Means (FCM) clustering respectively. The analysis of the results from both processing methods indicates that the two methods give similar results when the rate of wrong AIS information is low, but when the rate is higher, curve fitting method is superior to FCM algorithm.
Keywords: waterway transportation; AIS; curve fitting; fuzzy c-means clustering; error rate
船舶自動識別系統(tǒng)(Automatic Identification System,AIS)數(shù)據(jù)是監(jiān)控船舶航行和優(yōu)化水上交通管理的基礎(chǔ)。AIS由岸基設(shè)施和船載設(shè)備組成。在當(dāng)前的港口船舶引航和船舶航行監(jiān)控系統(tǒng)中,AIS已得到充分應(yīng)用。AIS信息可顯示在電子江圖上,供使用者直觀地獲取船舶信息,提高船舶航行的監(jiān)控效率。
由于AIS沒有完整的信息驗(yàn)證機(jī)制,實(shí)際應(yīng)用中大量的錯(cuò)誤AIS數(shù)據(jù)需依靠經(jīng)驗(yàn)來判斷,工作量極大,因此需找出一種適用于AIS數(shù)據(jù)有效性分析的方法。關(guān)于數(shù)據(jù)的有效性分析,常用的方法有曲線擬合法、模糊聚類法和一階差分法等。鄭琳等[1]在對海洋監(jiān)測數(shù)據(jù)進(jìn)行質(zhì)量評估時(shí),運(yùn)用曲線擬合法判別數(shù)據(jù)異常值,依據(jù)數(shù)據(jù)分布情況擬合曲線并設(shè)定閾值,有效檢驗(yàn)出極端異常的數(shù)據(jù)。對基于船舶軌跡的AIS數(shù)據(jù)的研究,張文娟等[2]提出用一階差分法去噪,實(shí)際驗(yàn)證結(jié)果表明該方法是可用且有效的,但沒有實(shí)際應(yīng)用到海量的AIS數(shù)據(jù)分析中。目前模糊聚類算法的應(yīng)用已較為廣泛和成熟,其中模糊C均值聚類[3]的應(yīng)用最為廣泛,但應(yīng)用于海量數(shù)據(jù)聚類分析中的較少。
WANG等[4]采用AIS數(shù)據(jù)在仿真平臺重現(xiàn)船舶碰撞事故,為處理水上交通事故取證。PAN等[5]建立AIS數(shù)據(jù)可視化模型,用于評估海上交通狀況和智能運(yùn)輸系統(tǒng)。MULYADI等[6]探討基于AIS數(shù)據(jù)建立的馬都拉海峽海底管線上方的船舶下沉頻率模型的發(fā)展。齊樂等[7]基于AIS數(shù)據(jù)建立避讓的船舶領(lǐng)域模型,但未探討AIS數(shù)據(jù)的有效性。對此,開展AIS數(shù)據(jù)有效性分析方法的研究,分別用曲線擬合法和模糊聚類法分析AIS數(shù)據(jù),以確定較優(yōu)的AIS數(shù)據(jù)有效性分析方法,為提高AIS數(shù)據(jù)質(zhì)量提供理論方法。
1.1數(shù)據(jù)特性
在分析AIS數(shù)據(jù)的有效性時(shí),需首先了解AIS數(shù)據(jù)的特性。AIS是一種廣播式的通信網(wǎng)絡(luò),任何信息的發(fā)送都是點(diǎn)對點(diǎn)發(fā)生的。AIS 信息包括船舶的動態(tài)信息、靜態(tài)信息、航行信息及安全信息。[8]
1) 船舶靜態(tài)信息包括海上移動業(yè)務(wù)標(biāo)識碼(Maritime Mobile Service Identity, MMSI)、船型及船名等。
2) 船舶動態(tài)信息包括船位、航速及航向等。
3) 航行信息包括船舶吃水及預(yù)到時(shí)間等。
4) 安全信息即與船舶航行安全相關(guān)的信息。
這里主要對影響航行船舶實(shí)時(shí)監(jiān)控的船舶AIS動態(tài)數(shù)據(jù)的有效性進(jìn)行分析,并以此確定AIS數(shù)據(jù)的有效性。船舶動態(tài)數(shù)據(jù)的錯(cuò)誤類型有以下3種:
1) 經(jīng)緯度不正常。
2) 經(jīng)緯度在正常值范圍內(nèi),但其值顯著區(qū)別于船舶軌跡正常經(jīng)緯度值。
3) 航向角與正常值沒有明顯的區(qū)別,但在軌跡中顯示轉(zhuǎn)向不平滑。
1.2數(shù)據(jù)采集
根據(jù)AIS數(shù)據(jù)的特性和傳輸方式,分別在武漢白沙洲大橋、長江大橋及天興洲大橋旁邊的躉船的頂部安放AIS數(shù)據(jù)采集點(diǎn)(見圖1)。AIS數(shù)據(jù)采集平臺(見圖2)包括數(shù)據(jù)接收模塊、數(shù)據(jù)傳輸模塊和供電模塊等3個(gè)部分。
1.2.1數(shù)據(jù)接收模塊
AIS數(shù)據(jù)接收模塊由AIS核心板、甚高頻(Very High Frequency, VHF)天線和全球定位系統(tǒng)(Global Positioning System, GPS)天線組成。
(1) AIS核心板是一個(gè)微型的B級船臺[9],不僅能接收其他船舶和岸基發(fā)出的AIS信息,還可向外發(fā)送本船臺的AIS信息和GPS信息;
(2) VHF天線和GPS天線分別將接收到的AIS信息及GPS信息傳送到AIS核心板中,AIS核心板對信號進(jìn)行處理后向外傳輸本船和他船的AIS信息。
圖1 AIS數(shù)據(jù)采集點(diǎn)分布
圖2 AIS數(shù)據(jù)采集平臺實(shí)圖
1.2.2數(shù)據(jù)傳輸模塊
AIS數(shù)據(jù)采集平臺采用網(wǎng)絡(luò)傳輸數(shù)據(jù)。通過RS232轉(zhuǎn)COM口,從AIS核心板輸出封包好的AIS報(bào)文,然后使用3G路由器的DTU(Data Transfer Unit)功能將標(biāo)準(zhǔn)串口通信的傳輸協(xié)議轉(zhuǎn)換成TCP/IP協(xié)議,作為客戶端通過公網(wǎng)向服務(wù)器端傳輸數(shù)據(jù)。
1.2.3供電模塊
AIS基站的供電模塊由太陽能供電板、鉛蓄電池和太陽能控制盒構(gòu)成。供電模塊主要給AIS核心板和DTU供電。服務(wù)器端的主機(jī)直接由220 V的交流電源供電。
1.2.4數(shù)據(jù)解析與存儲模塊
在服務(wù)器端,通過數(shù)據(jù)接收程序?qū)邮盏降腁IS數(shù)據(jù)進(jìn)行解析并將其存儲在SQL Server 2008數(shù)據(jù)庫對應(yīng)的表中。
2.1曲線擬合法
曲線擬合法是一種通過試驗(yàn)獲得有限對測試數(shù)據(jù)來求取近似函數(shù)的方法。常用的曲線擬合方法有:直線擬合、二次多項(xiàng)式擬合、三次多項(xiàng)式擬合、半對數(shù)擬合回歸、Log-Log擬合回歸、Logit-Log擬合、四參數(shù)擬合及三次樣條插值等。
在分析AIS數(shù)據(jù)時(shí),通過曲線擬合和經(jīng)驗(yàn)判斷來確定經(jīng)緯度、航速和航向角閾值,以此來判別AIS數(shù)據(jù)的正確性。以100 000條AIS數(shù)據(jù)為例,錯(cuò)誤數(shù)據(jù)占3.19%,曲線擬合判別出的錯(cuò)誤數(shù)據(jù)為3 140條,占3.14%,接近實(shí)際情況。由此可見,曲線擬合法可用于分析AIS數(shù)據(jù)。
對于長時(shí)間、大樣本的AIS數(shù)據(jù),在航道環(huán)境和電磁干擾等要素變化不大的武漢航段,可運(yùn)用曲線擬合的方法進(jìn)行異常數(shù)據(jù)的判別。對大量的船舶AIS數(shù)據(jù)進(jìn)行曲線擬合,以曲線的邊界點(diǎn)作為控制邊界篩選異常數(shù)據(jù)。在積累具有一定時(shí)間跨度的資料的基礎(chǔ)上,該方法擬合邊界特征曲線得到的曲線方程能對數(shù)據(jù)進(jìn)行可靠的判別。
2.2模糊C均值聚類法
模糊C均值聚類(Fuzzy C-Means,FCM)是用隸屬度確定所分析的數(shù)據(jù)點(diǎn)隸屬于某個(gè)聚類的程度的聚類算法。FCM把n個(gè)向量xi(i=1,2,…,n)分為c個(gè)模糊組,然后求每組的聚類中心,使非相似性指標(biāo)的價(jià)值函數(shù)最小。[10]為與引入的模糊劃分相適應(yīng),隸屬矩陣U只允許有取值在[0,1]間的元素。加上歸一化規(guī)定,一個(gè)數(shù)據(jù)集的隸屬度的和=1,即
?j=1,2,…,n
(1)
由此,F(xiàn)CM的價(jià)值函數(shù)(或目標(biāo)函數(shù))為
(2)
構(gòu)造新的目標(biāo)函數(shù)(見式(3)),可求得使式(2)達(dá)到最小值的必要條件。這里λj,j=1,2,…,n,是式(1)的n個(gè)約束式的拉格朗日乘子。對所有輸入?yún)⒘壳髮?dǎo),使式(2)達(dá)到最小的必要條件見式(4)和式(5)。
(3)
(4)
(5)
由式(4)和式(5)可知,模糊C均值聚類算法是一個(gè)簡單的迭代過程。以此處理方式運(yùn)行時(shí),F(xiàn)CM用下列步驟確定聚類中心ci和隸屬矩陣Uc×n:
1) 用值在[0,1]的隨機(jī)數(shù)初始化隸屬矩陣Uc×n,使其滿足式(1)中的約束條件。
2) 用式(4)計(jì)算c個(gè)聚類中心ci,i=1,2,…,c。
3) 根據(jù)式(2)計(jì)算價(jià)值函數(shù)。若其值小于某個(gè)確定的閾值,或其相對上次價(jià)值函數(shù)值的改變量小于某個(gè)閾值,則算法停止。
4) 用式(5)計(jì)算新的Uc×n矩陣,返回步驟2。
在分析海量AIS數(shù)據(jù)時(shí),計(jì)算的復(fù)雜度難以避免,因此需首先快速確定聚類中心,提高計(jì)算的效率。
試驗(yàn)分析的數(shù)據(jù)是經(jīng)采集處理后存入到SQL Sever 2008數(shù)據(jù)庫中的船舶AIS數(shù)據(jù),包括經(jīng)緯度、航速和航向角等。
從試驗(yàn)平臺SQL Server 2008數(shù)據(jù)庫中取30 000條AIS數(shù)據(jù),并將其分為3組,以每組10 000條數(shù)據(jù)為樣本。分別運(yùn)用以上2種方法對數(shù)據(jù)進(jìn)行分類,對比各組統(tǒng)計(jì)出的數(shù)據(jù)錯(cuò)誤率,以得到較優(yōu)的AIS數(shù)據(jù)有效性分析方法。AIS數(shù)據(jù)分析流程見圖3。
圖3 AIS數(shù)據(jù)分析流程
3.1曲線擬合分析
在分析AIS數(shù)據(jù)時(shí),采用Excel中的多項(xiàng)式擬合功能分別對航速和經(jīng)緯度數(shù)據(jù)進(jìn)行擬合,得到數(shù)據(jù)曲線方程;然后確定閾值邊界并篩選數(shù)據(jù),統(tǒng)計(jì)錯(cuò)誤數(shù)據(jù)量。
用曲線擬合法檢驗(yàn)的船舶信息有經(jīng)緯度和航速,擬合情況見圖4和圖5。航速在0~1 n mile/h的船舶位置未發(fā)生明顯變化,因此可視為靜止,即航速視為0,1 n mile/h航速作為航速頻數(shù)分布擬合曲線的起始位置。根據(jù)經(jīng)驗(yàn)判斷,內(nèi)河船舶航速不可能超過20 kn。
圖4 速度-頻數(shù)分布擬合情況
圖5 經(jīng)緯度分布擬合情況
由圖4可知,速度-頻數(shù)分布的擬合曲線方程為
(6)
式(6)表示的曲線所劃定的最大航速為15.7 n mile/h,因此正確的航速數(shù)據(jù)應(yīng)在[0,15.7] n mile/h內(nèi)。
由圖5可知,經(jīng)緯度擬合的曲線方程為
y=0.612 7x+95.563
(7)
在武漢航段航行的船舶的經(jīng)緯度需在一定的范圍內(nèi)。以擬合直線為準(zhǔn),結(jié)合航道情況,經(jīng)計(jì)算,數(shù)據(jù)密集處經(jīng)緯度應(yīng)滿足式(8)。
|y-0.6127x-95.563|≤0.015 369
(8)
船舶無論是上行還是下行,航向角信息必須滿足基本的規(guī)律,即航向角(C)應(yīng)在[0,360°]內(nèi)。結(jié)合曲線擬合劃定的航速(V)和經(jīng)緯度(φ,λ)閾值邊界,可知正確的AIS數(shù)據(jù)應(yīng)同時(shí)滿足以下條件:
(9)
按式(9)中的條件,運(yùn)用SPSS軟件統(tǒng)計(jì),可得到各組AIS數(shù)據(jù)的正確量。統(tǒng)計(jì)結(jié)果見表1。
3.2模糊C均值聚類分析
模糊聚類分析的目的是將相似的數(shù)據(jù)歸到一起,這里比較的是4類數(shù)據(jù),更具可比性。根據(jù)AIS錯(cuò)誤數(shù)據(jù)的類型,將每組的船舶數(shù)據(jù)分為6類處理,一半為錯(cuò)誤數(shù)據(jù),一半為正確數(shù)據(jù),即聚類數(shù)為6類,6類之外的數(shù)據(jù)視為錯(cuò)誤數(shù)據(jù)。根據(jù)模糊C均值算法處理數(shù)據(jù)的步驟,采用MATLAB程序?qū)崿F(xiàn),流程見圖6。
表1 曲線擬合分析結(jié)果
圖6 模糊C均值聚類分析流程圖
在算法實(shí)現(xiàn)過程中,典型的3類船舶錯(cuò)誤數(shù)據(jù)為錯(cuò)誤數(shù)據(jù)所屬的類,隸屬度以0.5為界,不屬于任何一類的數(shù)據(jù)視為異常錯(cuò)誤數(shù)據(jù)。3組船舶數(shù)據(jù)聚類分析結(jié)果見表2。
表2 模糊C均值聚類分析結(jié)果
3.3計(jì)算結(jié)果分析
比較2種方法統(tǒng)計(jì)出的數(shù)據(jù)錯(cuò)誤率可知:在第1組和第2組數(shù)據(jù)中,2種方法統(tǒng)計(jì)出的數(shù)據(jù)錯(cuò)誤率相近,可見在錯(cuò)誤數(shù)據(jù)所占比例高于5%時(shí),2種方法統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確度相差不大,即2種方法的有效性相似;在第3組數(shù)據(jù)中,2種方法統(tǒng)計(jì)出的錯(cuò)誤數(shù)據(jù)所占比例相差不到1/100,可見在錯(cuò)誤數(shù)據(jù)率<5%時(shí),2種方法的統(tǒng)計(jì)效果基本相同。
分析AIS數(shù)據(jù)采集平臺的各個(gè)模塊,說明AIS數(shù)據(jù)的采集和傳輸特點(diǎn),由此引出AIS數(shù)據(jù)的特性,總結(jié)出AIS數(shù)據(jù)的3種錯(cuò)誤類型。運(yùn)用曲線擬合法和模糊C均值聚類法分析數(shù)據(jù)的過程及特性,分別對3組AIS數(shù)據(jù)進(jìn)行分類分析。結(jié)果表明:曲線擬合法和模糊C均值聚類法在分析錯(cuò)誤較少的海量AIS數(shù)據(jù)時(shí)都是較好的方法;在分析海量的AIS數(shù)據(jù)時(shí),模糊C均值聚類法計(jì)算量增加,效率不及曲線擬合法。對這2種方法的分析結(jié)果進(jìn)行研究,可為提高甄別海量AIS錯(cuò)誤數(shù)據(jù)的效率和準(zhǔn)確度提供一些參考。
[1] 鄭琳, 劉艷, 崔文林, 等. 海洋監(jiān)測數(shù)據(jù)質(zhì)量評估研究[J]. 海洋通報(bào),2014(2):228-234.
[2] ZHANG Wenjuan, WU Qing, SANG Lingzhi, et al. Denoising Method of Inland AIS Information Based on Vessel Track [C]//Distributed Computing and Applications to Business, Engineering & Science (DCABES). 11th International Symposium on, IEEE, 2012.
[3] 張洪艷. 模糊C均值聚類算法及應(yīng)用[J]. 科技資訊,2014(5):178-179.
[4] WANG Yang, ZHANG Jinfen, CHEN Xianqiao, et al. A Spatial-Temporal Forensic Analysis for Inland-Water Ship Collisions Using AIS Data[J]. Safety Science,2013,57:187-202.
[5] PAN Jiacai, JIANG Qingshan, HU Jinxing, et al. An AIS Data Visualization Model for Assessing Maritime Traffic Situation and its Applications[J]. Procedia Engineering,2012,29:365-369.
[6] MULYADI Y, KOBAYASHI E, WAKABAYASHI N, et al. Development of Ship Sinking Frequency Model Over Subsea Pipeline for Madura Strait Using AIS Data[J]. WMU Journal of Maritime Affairs,2014,131:43-59.
[7] 齊樂,鄭中義,李國平. 互見中基于AIS數(shù)據(jù)的船舶領(lǐng)域[J]. 大連海事大學(xué)學(xué)報(bào),2011(1): 48-50.
[8] 史鍵, AIS系統(tǒng)的構(gòu)成及信息處理[J]. 中國水運(yùn)(下半月), 2010(10): 91-92.
[9] 嚴(yán)新平, 馬楓, 初秀民, 等. 長江船舶交通流實(shí)時(shí)采集關(guān)鍵技術(shù)研究[J]. 中國航海,2010,33(2):40-45.
[10] 文傳軍,汪慶淼,詹永照. 均衡模糊C均值聚類算法[J]. 計(jì)算機(jī)科學(xué),2014(8):250-253.
MethodsforAnalyzingValidityofInlandAISInformation
(1. Intelligent Transport System Research Center, Wuhan University of Technology, Wuhan 430063, China; 2. Engineering Research Center of Transportation Safety, Ministry of Education, Wuhan 430063, China; 3. Energy and Power Engineering School, Wuhan University of Technology, Wuhan 430063, China)
U666.1;U698
A
2016-01-11
國家自然科學(xué)基金(61273234);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(2015-ZY-057)
聶 陽(1988—),男,江西宜春人,碩士生,研究方向?yàn)樗辖煌ǜ兄c控制。E-mai:847114398@qq.com 初秀民(1969—),男,吉林通化人,研究員,博士,研究方向?yàn)榻煌ㄐ畔⒉杉c處理技術(shù)。E-mai: chuxium@whut.edu.cn
1000-4653(2016)02-0059-04