郭 昊,李海濱,馮 姣,鄒 瀟
(1.南京信息工程大學(xué)電子與信息工程學(xué)院,江蘇 南京 210044;2.浙江海洋大學(xué)船舶與電機(jī)學(xué)院,浙江 舟山 316022;3.安藍(lán)信息科技有限公司數(shù)據(jù)與算法部,廣東 深圳,518000)
水路運(yùn)輸具有土地利用少、基礎(chǔ)投資少、運(yùn)量大、能耗低的特點(diǎn),在國(guó)內(nèi)外綜合運(yùn)輸體系中占據(jù)重要地位。據(jù)統(tǒng)計(jì),全球約90%的貨運(yùn)量由船完成[1]。國(guó)際海事組織(International Maritime Organization,IMO)為了獲取足夠的船舶信息,以減少自然或人為因素對(duì)船舶造成危害,采取了多種措施對(duì)船舶的活動(dòng)進(jìn)行監(jiān)督和控制,其中船舶自動(dòng)識(shí)別系統(tǒng)(Automatic Identification System,AIS)是最有效的方法[2]。隨著船舶行業(yè)的發(fā)展以及造船技術(shù)的提升,各類(lèi)船舶也逐漸實(shí)現(xiàn)大型化和高速化,再加上全球海洋環(huán)境復(fù)雜多變,使得AIS數(shù)據(jù)在船舶監(jiān)控與管理行業(yè)的利用率越來(lái)越高。
AIS是一種實(shí)時(shí)監(jiān)測(cè)船舶運(yùn)動(dòng)狀態(tài),為船舶航行提供綜合動(dòng)態(tài)信息和靜態(tài)信息的數(shù)字系統(tǒng),可以不間斷地發(fā)送本船的相關(guān)信息,通過(guò)AIS接收機(jī)即可接收到該數(shù)據(jù)。
關(guān)于AIS數(shù)據(jù)的已有研究主要集中在以下六個(gè)方面:1)AIS 配合衛(wèi)星監(jiān)測(cè)技術(shù)增強(qiáng)AIS數(shù)據(jù)的實(shí)時(shí)性、2)基于AIS數(shù)據(jù)的船舶間的避碰研究、3)AIS系統(tǒng)與其它設(shè)備或系統(tǒng)的關(guān)聯(lián)研究、4)使用AIS數(shù)據(jù)模擬船舶在虛擬終端系統(tǒng)(VTS)中的探測(cè)與追蹤、5)基于AIS數(shù)據(jù)的港口交通流規(guī)律分析、6)基于AIS數(shù)據(jù)的船舶軌跡預(yù)測(cè)及異常軌跡檢測(cè)研究[3]。
在以上研究領(lǐng)域中,均會(huì)使用大量的AIS數(shù)據(jù)作為研究對(duì)象。隨著大數(shù)據(jù)技術(shù)、互聯(lián)網(wǎng)等科技的發(fā)展,數(shù)據(jù)資源已經(jīng)成為了一項(xiàng)極具價(jià)值的資產(chǎn)。一個(gè)組織的日常運(yùn)作與決策、一項(xiàng)研究的開(kāi)始與發(fā)展都離不開(kāi)龐大數(shù)據(jù)資源,所以必須高度重視數(shù)據(jù)質(zhì)量問(wèn)題[4]。現(xiàn)如今,如何有效的提高數(shù)據(jù)質(zhì)量、科學(xué)的評(píng)價(jià)數(shù)據(jù)質(zhì)量,已經(jīng)成為了提高信息化建設(shè)水平的重要課題[5]。但是由于AIS系統(tǒng)的差異性以及各數(shù)據(jù)提供商接收信號(hào)的硬件設(shè)施、存儲(chǔ)設(shè)備以及處理方式的不同,導(dǎo)致各個(gè)數(shù)據(jù)源提供的AIS數(shù)據(jù)質(zhì)量參差不齊。并且對(duì)于AIS數(shù)據(jù)并沒(méi)有一項(xiàng)數(shù)據(jù)質(zhì)量評(píng)判標(biāo)準(zhǔn),導(dǎo)致很多AIS數(shù)據(jù)無(wú)法評(píng)估其數(shù)據(jù)質(zhì)量并進(jìn)行有針對(duì)性的數(shù)據(jù)處理與改正,不利于AIS數(shù)據(jù)質(zhì)量的提升。
本文主要貢獻(xiàn)在于提出AIS數(shù)據(jù)質(zhì)量評(píng)價(jià)算法并驗(yàn)證該算法的準(zhǔn)確性。具體內(nèi)容如下:
1)本文首次提出基于AIS數(shù)據(jù)的完整性、連續(xù)性、時(shí)效性的AIS數(shù)據(jù)質(zhì)量評(píng)價(jià)方法。
2)本文通過(guò)對(duì)比衛(wèi)星AIS數(shù)據(jù)和岸基AIS數(shù)據(jù)數(shù)據(jù)質(zhì)量的區(qū)別以及可視化熱力圖分析,得出本文所提出的AIS數(shù)據(jù)質(zhì)量評(píng)價(jià)方法能較為精確的反應(yīng)數(shù)據(jù)質(zhì)量的優(yōu)劣。
數(shù)據(jù)質(zhì)量評(píng)價(jià)指標(biāo)體系的設(shè)計(jì)必須緊緊圍繞數(shù)據(jù)質(zhì)量問(wèn)題的定義與分類(lèi)展開(kāi)。目前,國(guó)內(nèi)外對(duì)數(shù)據(jù)質(zhì)量研究成果很多,但對(duì)于數(shù)據(jù)質(zhì)量問(wèn)題還沒(méi)有一個(gè)統(tǒng)一的分類(lèi),從不同角度也有不同分類(lèi)方法,一般來(lái)講可分為有效性、準(zhǔn)確性、一致性、完整性和時(shí)效性等不同問(wèn)題[6]。由于AIS系統(tǒng)的局限性,船舶易超出岸基接收范圍或受到干擾時(shí)該船舶的AIS信號(hào)會(huì)出現(xiàn)中斷的情況,且本文總結(jié)出AIS應(yīng)用的幾個(gè)主要方面包括:船舶間避碰、軌跡預(yù)測(cè)、航線規(guī)劃、危險(xiǎn)預(yù)警,這幾個(gè)主要方面的研究都需要AIS數(shù)據(jù)具有良好的完整性、連續(xù)性、時(shí)效性,而目前針對(duì)AIS數(shù)據(jù)質(zhì)量的評(píng)價(jià)并沒(méi)有類(lèi)似的指標(biāo),故本文首次將AIS數(shù)據(jù)的數(shù)據(jù)質(zhì)量評(píng)價(jià)總結(jié)為完整性、連續(xù)性、時(shí)效性三個(gè)重點(diǎn)評(píng)價(jià)指標(biāo)。
圖1 AIS數(shù)據(jù)質(zhì)量評(píng)價(jià)方法流程圖
AIS數(shù)據(jù)具有數(shù)據(jù)量龐大、時(shí)間密度不均勻等特點(diǎn);且收到AIS信號(hào)的影響,船舶在停泊與航向狀態(tài)下的數(shù)據(jù)密度差異較大。需要對(duì)AIS數(shù)據(jù)進(jìn)行預(yù)處理和清洗,這樣才能獲得更準(zhǔn)確的數(shù)據(jù)質(zhì)量評(píng)分。除此之外,AIS數(shù)據(jù)還存在明顯錯(cuò)誤的數(shù)據(jù),比如:明顯的數(shù)據(jù)缺失、時(shí)間亂碼、船舶經(jīng)緯度超過(guò)合理值等。所以本研究不僅需要清洗錯(cuò)誤數(shù)據(jù),還需要進(jìn)行數(shù)據(jù)抽稀,故數(shù)據(jù)預(yù)處理的過(guò)程如圖2所示。
圖2 數(shù)據(jù)預(yù)處理流程圖
完整性研究了AIS數(shù)據(jù)在時(shí)間上的覆蓋程度,從數(shù)據(jù)分辨率的角度討論了已有AIS數(shù)據(jù)的時(shí)間分布在整體時(shí)間分布上的占比,對(duì)AIS數(shù)據(jù)在時(shí)間維度上的豐富程度做出評(píng)價(jià)。若已有AIS數(shù)據(jù)的時(shí)間分布完全覆蓋整體時(shí)間段,則該AIS數(shù)據(jù)的完整性指標(biāo)的值為1,1是該指標(biāo)的評(píng)價(jià)上限;若已有AIS數(shù)據(jù)沒(méi)有有效的數(shù)據(jù),則該AIS數(shù)據(jù)的完整性指標(biāo)為0,0是該指標(biāo)的評(píng)價(jià)下限。計(jì)算方法可定義為
(1)
其中b1表示任意一艘船已有AIS數(shù)據(jù)的時(shí)間分布,是以gw為時(shí)間間隔總結(jié)一次AIS數(shù)據(jù)后得到的總結(jié)結(jié)果數(shù)量。假設(shè)某船舶的第n條軌跡點(diǎn)的上傳時(shí)間為tn,該船第n+1條軌跡點(diǎn)的上傳時(shí)間為tn+1,若tn+1-tn的值符合規(guī)則式(4),則該船舶無(wú)法以gw為時(shí)間間隔總結(jié)AIS數(shù)據(jù)。規(guī)則式(4)如下
(tn+1-tn)>gw
(2)
假設(shè)無(wú)法以gw為時(shí)間間隔總結(jié)AIS數(shù)據(jù)數(shù)量為nw,選定的測(cè)試時(shí)間總長(zhǎng)度為α,則任意一艘船的已有AIS數(shù)據(jù)的時(shí)間分布b1可定義為
(3)
對(duì)于b2表示任意一艘船的AIS數(shù)據(jù)的理想時(shí)間分布,假設(shè)該船的AIS數(shù)據(jù)覆蓋了選定測(cè)試時(shí)間段的每一天且數(shù)據(jù)足夠均勻的情況下,b2可定義為
(4)
連續(xù)性研究了AIS數(shù)據(jù)的整體連續(xù)程度,從數(shù)據(jù)可靠性的角度討論了每?jī)蓷lAIS數(shù)據(jù)的時(shí)間間隔的長(zhǎng)短情況,對(duì)AIS數(shù)據(jù)在時(shí)間維度上的連續(xù)程度做出評(píng)價(jià)。若已有AIS數(shù)據(jù)的不存在時(shí)間過(guò)長(zhǎng)的間隔,則該AIS數(shù)據(jù)的連續(xù)性指標(biāo)為0,0為該指標(biāo)的評(píng)價(jià)上限;若已有AIS數(shù)據(jù)所有的時(shí)間間隔均超過(guò)設(shè)置的閾值,則該AIS數(shù)據(jù)的連續(xù)性指標(biāo)為1,1為該指標(biāo)的評(píng)價(jià)下限。計(jì)算方法可定義為
(5)
其中g(shù)1表示任意一艘船的AIS數(shù)據(jù)的所有時(shí)間過(guò)長(zhǎng)的時(shí)間間隔的數(shù)量,g2表示任意一艘船的AIS數(shù)據(jù)所包含的所有時(shí)間間隔的數(shù)量。定義過(guò)長(zhǎng)的時(shí)間間隔的閾值為gc,若tn+1-tn的值符合規(guī)則式(4),則稱(chēng)該時(shí)間間隔為過(guò)長(zhǎng)的時(shí)間間隔。規(guī)則式(4)如下
(tn+1-tn)>gc
(6)
時(shí)效性研究了AIS數(shù)據(jù)的最新更新時(shí)間,對(duì)AIS數(shù)據(jù)在時(shí)間維度上的數(shù)據(jù)利用價(jià)值做出評(píng)價(jià)。若已有AIS數(shù)據(jù)的最新上傳數(shù)據(jù)未超出數(shù)據(jù)更新需求,則該AIS數(shù)據(jù)的時(shí)效性指標(biāo)為1,1為該指標(biāo)的評(píng)價(jià)上限;若已有AIS數(shù)據(jù)的最新上傳時(shí)間超出數(shù)據(jù)更新需求的時(shí)間與預(yù)設(shè)權(quán)重的乘積大于1,則該AIS數(shù)據(jù)的時(shí)效性指標(biāo)為0,0為該指標(biāo)的評(píng)價(jià)下限。計(jì)算方法可定義為
t=1-sk
(7)
其中s表示任意一艘船的AIS數(shù)據(jù)的最后一次更新時(shí)間超出數(shù)據(jù)更新需求范圍的時(shí)間,k表示預(yù)設(shè)的權(quán)重值,其中時(shí)間均以UTC時(shí)間戳為準(zhǔn)。
假設(shè)任意一艘船的最后一次更新時(shí)間為tl,當(dāng)前時(shí)間為tu,滿(mǎn)足數(shù)據(jù)更新需求的閾值為gs,則表示任意一艘船的AIS數(shù)據(jù)的最后一次更新時(shí)間超出數(shù)據(jù)更新需求范圍的時(shí)間s可定義為
s=tu-tl-gs
(8)
根據(jù)上述的三個(gè)重點(diǎn)評(píng)價(jià)指標(biāo)的計(jì)算方法,本文提出了數(shù)據(jù)綜合質(zhì)量評(píng)分算法f
f=t(b×(1-l)×100)
(9)
其中b為完整性指標(biāo),l為連續(xù)性指標(biāo),t為時(shí)效性指標(biāo)。
本文提出的數(shù)據(jù)質(zhì)量評(píng)價(jià)算法,通過(guò)三個(gè)重點(diǎn)評(píng)價(jià)指標(biāo)的比較,定義了數(shù)據(jù)質(zhì)量好壞的評(píng)價(jià)標(biāo)準(zhǔn);使用該數(shù)據(jù)質(zhì)量評(píng)價(jià)算法能夠較為精確的反應(yīng)數(shù)據(jù)質(zhì)量的優(yōu)劣,在下文實(shí)例分析有詳細(xì)介紹。但是,本文提出的數(shù)據(jù)質(zhì)量評(píng)價(jià)算法還存在局限性,該算法需要大量的樣本才能夠獲得較為準(zhǔn)確的評(píng)價(jià)結(jié)果且對(duì)于隨機(jī)采集的數(shù)據(jù)不能獲得很好的評(píng)價(jià)結(jié)果。
本文收集了兩個(gè)平臺(tái)的AIS數(shù)據(jù)源,其中數(shù)據(jù)源一包含4934艘船兩年的全量軌跡數(shù)據(jù),時(shí)間跨度為2017年7月31日到2019年8月1日,用于主要的實(shí)驗(yàn)結(jié)果分析;數(shù)據(jù)源二包含200艘船一年的全量軌跡數(shù)據(jù),數(shù)據(jù)跨度為2019年3月1日到2020年3月1日,用于佐證實(shí)驗(yàn)結(jié)果分析的準(zhǔn)確性。
為了檢測(cè)本文所提出的數(shù)據(jù)質(zhì)量評(píng)價(jià)算法,本文使用Python語(yǔ)言搭建算法模型并對(duì)其結(jié)果進(jìn)行展示與分析。本實(shí)驗(yàn)所使用的軟件環(huán)境為Python 3.6.5,編譯平臺(tái)為Pycharm 2018.2.3。
根據(jù)上文算法搭建的模型進(jìn)行運(yùn)算,得出三個(gè)重點(diǎn)評(píng)價(jià)指標(biāo)的結(jié)果分布圖。數(shù)據(jù)源一的數(shù)據(jù)質(zhì)量評(píng)價(jià)的完整性指標(biāo)結(jié)果如圖3所示,橫坐標(biāo)為完整性指標(biāo),縱坐標(biāo)為該指標(biāo)的概率分布,由圖可見(jiàn)完整性指標(biāo)整體數(shù)值分布偏高,其平均值為0.59,且超過(guò)平均值的比例為55.3%,可以看出數(shù)據(jù)源一的AIS數(shù)據(jù)具有較好的完整性。
圖3 數(shù)據(jù)源一完整性指標(biāo)概率分布圖
數(shù)據(jù)源一的數(shù)據(jù)質(zhì)量評(píng)價(jià)的連續(xù)性指標(biāo)結(jié)果如圖4所示,橫坐標(biāo)為連續(xù)性指標(biāo),縱坐標(biāo)為該指標(biāo)的概率分布,連續(xù)性指標(biāo)為時(shí)間過(guò)長(zhǎng)的間隔在所有間隔中的占比,該指標(biāo)數(shù)值越高連續(xù)性越差,由圖可見(jiàn)連續(xù)性指標(biāo)整體分布均勻,其平均值為0.49,且超過(guò)平均值的比例為49.1%,可以看出數(shù)據(jù)源一的連續(xù)性一般。
圖4 數(shù)據(jù)源一連續(xù)性指標(biāo)概率分布圖
數(shù)據(jù)源一的數(shù)據(jù)質(zhì)量評(píng)價(jià)的時(shí)效性指標(biāo)結(jié)果如圖5所示,橫坐標(biāo)為每艘船的最新上傳時(shí)間至當(dāng)前時(shí)間的時(shí)間間隔,縱坐標(biāo)為該時(shí)間間隔的概率分布,由圖可見(jiàn)時(shí)效性指標(biāo)整體數(shù)值分布偏低但存在個(gè)別數(shù)值極高的存在,其平均值為72845秒(約0.84天),且低于平均值的比例為87.2%,可以看出數(shù)據(jù)源一的AIS數(shù)據(jù)具有較好的時(shí)效性。
圖5 數(shù)據(jù)源一時(shí)效性指標(biāo)概率分布圖
綜合以上三個(gè)重點(diǎn)評(píng)價(jià)指標(biāo)的結(jié)果得出數(shù)據(jù)源一的綜合質(zhì)量評(píng)分,如圖6(a)所示,橫坐標(biāo)為綜合質(zhì)量評(píng)分,若已有AIS數(shù)據(jù)的完整性指標(biāo)、連續(xù)性指標(biāo)、時(shí)效性指標(biāo)均為評(píng)價(jià)上限,則該AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分為100分;若已有AIS數(shù)據(jù)的完整性指標(biāo)、連續(xù)性指標(biāo)、時(shí)效性指標(biāo)存在一項(xiàng)指標(biāo)達(dá)到評(píng)價(jià)下限,則該AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分為0分;縱坐標(biāo)為該評(píng)分的概率分布。由圖可見(jiàn)數(shù)據(jù)源一的綜合質(zhì)量評(píng)分整體數(shù)值分布偏低,其平均分為34.15分,且超過(guò)平均分的比例為44.5%,該數(shù)據(jù)源的綜合質(zhì)量評(píng)分較差。同時(shí)本文還計(jì)算了數(shù)據(jù)源二的綜合質(zhì)量評(píng)分,如圖6(b)所示,橫坐標(biāo)為綜合質(zhì)量評(píng)分,縱坐標(biāo)為該評(píng)分的概率分布,由圖可見(jiàn)數(shù)據(jù)源二的綜合質(zhì)量評(píng)分整體數(shù)值分布較高,其平均分為63.41分,且超過(guò)平均分的比例為58.0%,對(duì)比數(shù)據(jù)源一的綜合質(zhì)量評(píng)分的分布狀況可得這部分?jǐn)?shù)據(jù)源二的數(shù)據(jù)質(zhì)量?jī)?yōu)于數(shù)據(jù)源一。
圖6 數(shù)據(jù)源一、二綜合質(zhì)量評(píng)分概率分布對(duì)比圖
3.3.1 衛(wèi)星AIS數(shù)據(jù)與岸基AIS數(shù)據(jù)質(zhì)量的對(duì)比分析
衛(wèi)星AIS系統(tǒng)是一種船舶定位技術(shù),通過(guò)低軌道的衛(wèi)星接收船舶發(fā)送的AIS報(bào)文信息,衛(wèi)星將接收和解碼AIS報(bào)文信息轉(zhuǎn)發(fā)給相應(yīng)的地球站,從而讓陸地管理機(jī)構(gòu)掌握船舶的相關(guān)動(dòng)態(tài)信息,實(shí)現(xiàn)對(duì)遠(yuǎn)海海域航行船舶的監(jiān)控。衛(wèi)星AIS報(bào)文發(fā)送間隔為幾秒鐘或者幾小時(shí)不等,取決于衛(wèi)星AIS系統(tǒng)網(wǎng)絡(luò)的性能以及所支持的衛(wèi)星軌道位置的設(shè)置[7]。
岸基AIS系統(tǒng)是由岸基(基站)設(shè)施和船載設(shè)備共同組成的船舶定位技術(shù)。作為一種海/陸基系統(tǒng),其覆蓋范圍有限,難以滿(mǎn)足大范圍、遠(yuǎn)距離對(duì)船舶的跟蹤與監(jiān)視。當(dāng)使用岸基AIS系統(tǒng)的船舶駛出信號(hào)接收站范圍,其AIS信號(hào)會(huì)不穩(wěn)定甚至中斷,對(duì)AIS數(shù)據(jù)的完整性、連續(xù)性、時(shí)效性都會(huì)產(chǎn)生很大的影響[8]。
綜上所述,衛(wèi)星AIS數(shù)據(jù)在完整性、連續(xù)性、時(shí)效性這三個(gè)重要評(píng)價(jià)指標(biāo)上都要優(yōu)于岸基AIS數(shù)據(jù)。故本文通過(guò)對(duì)比分析衛(wèi)星AIS數(shù)據(jù)與岸基AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分的概率分布,來(lái)驗(yàn)證本文所提算法的準(zhǔn)確性。
數(shù)據(jù)源一內(nèi)4934艘船舶的衛(wèi)星AIS數(shù)據(jù)與岸基AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分的概率分布對(duì)比結(jié)果如圖7所示,橫坐標(biāo)為綜合質(zhì)量評(píng)分,縱坐標(biāo)為該評(píng)分的概率分布。由圖7(a)可見(jiàn)衛(wèi)星AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分整體數(shù)值分布較高,其平均分為56.10分。因?yàn)檎w平均分反映了數(shù)據(jù)源一4934艘船的綜合質(zhì)量評(píng)分的平均水平,故本文以整體平均分34.15分為閾值,超過(guò)整體平均分的占比為77.5%;由圖7(b)可見(jiàn)岸基AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分整體數(shù)值分布偏低,其平均分為30.96分,以整體平均分34.15分為閾值,超過(guò)整體平均分的占比僅39.7%。故數(shù)據(jù)源一的結(jié)果對(duì)比顯示衛(wèi)星AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分明顯優(yōu)于岸基AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分,算法所得結(jié)果與上文論述的衛(wèi)星AIS數(shù)據(jù)的數(shù)據(jù)質(zhì)量要優(yōu)于岸基AIS數(shù)據(jù)的數(shù)據(jù)質(zhì)量的已知結(jié)果吻合。
圖7 數(shù)據(jù)源一衛(wèi)星AIS數(shù)據(jù)/岸基AIS數(shù)據(jù)綜合質(zhì)量評(píng)分概率分布圖對(duì)比
數(shù)據(jù)源二內(nèi)200艘船舶的衛(wèi)星AIS數(shù)據(jù)與岸基AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分的概率分布對(duì)比結(jié)果如圖8所示,橫坐標(biāo)為綜合質(zhì)量評(píng)分,縱坐標(biāo)為該評(píng)分的概率分布。由圖8(a)可見(jiàn)衛(wèi)星AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分整體數(shù)值分布較高,其平均分為55.49分。因?yàn)檎w平均分反映了數(shù)據(jù)源二200艘船的綜合質(zhì)量評(píng)分的平均水平,以整體平均分63.41分為閾值,超過(guò)整體平均分的占比為47.5%;由圖8(b)可見(jiàn)岸基AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分整體數(shù)值分布整體偏低,其平均值為41.56分,以整體平均分63.41分為閾值,超過(guò)整體平均分的占比僅21.3%。數(shù)據(jù)源二的結(jié)果對(duì)比顯示衛(wèi)星AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分也明顯優(yōu)于岸基AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分,算法所得結(jié)果與上文論述的衛(wèi)星AIS數(shù)據(jù)的數(shù)據(jù)質(zhì)量要優(yōu)于岸基AIS數(shù)據(jù)的數(shù)據(jù)質(zhì)量的已知結(jié)果吻合。
圖8 數(shù)據(jù)源二衛(wèi)星AIS數(shù)據(jù)/岸基AIS數(shù)據(jù)綜合質(zhì)量評(píng)分概率分布圖對(duì)比
綜上所述,通過(guò)兩個(gè)數(shù)據(jù)源的衛(wèi)星AIS數(shù)據(jù)和岸基AIS數(shù)據(jù)的實(shí)驗(yàn)結(jié)果的對(duì)比分析,得出本文首次提出的數(shù)據(jù)質(zhì)量評(píng)價(jià)算法所得出的結(jié)果均與上文論述的衛(wèi)星AIS數(shù)據(jù)的數(shù)據(jù)質(zhì)量要優(yōu)于岸基AIS數(shù)據(jù)的數(shù)據(jù)質(zhì)量的已知結(jié)果吻合,該數(shù)據(jù)質(zhì)量評(píng)價(jià)算法能夠較為精確的反應(yīng)數(shù)據(jù)質(zhì)量的優(yōu)劣。
3.3.2 數(shù)據(jù)可視化對(duì)比分析
本文除了通過(guò)對(duì)比衛(wèi)星AIS數(shù)據(jù)與岸基AIS數(shù)據(jù)的綜合質(zhì)量評(píng)分來(lái)驗(yàn)證本文所提出的數(shù)據(jù)質(zhì)量評(píng)價(jià)算法的準(zhǔn)確性外,還使用數(shù)據(jù)可視化對(duì)比分析來(lái)驗(yàn)證本文所提出的數(shù)據(jù)質(zhì)量評(píng)價(jià)算法的準(zhǔn)確性。
在可視化對(duì)比分析中,本文使用python里的地圖繪制包folium將收集的AIS數(shù)據(jù)用熱力圖的形式呈現(xiàn)的地圖上,AIS信號(hào)好的船舶熱力圖的連續(xù)性更好且呈現(xiàn)的顏色更深,通過(guò)觀察圖片可以直觀的看出AIS數(shù)據(jù)在完整性指標(biāo)和連續(xù)性指標(biāo)的優(yōu)劣。
本文對(duì)4934艘船的AIS數(shù)據(jù)都做了可視化對(duì)比分析并選取部分圖片展示,如上圖所示,圖9(a)、圖9(c)其水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(Maritime Mobile Service Identify,MMSI)為352521000、353801000,均為衛(wèi)星AIS數(shù)據(jù),通過(guò)數(shù)據(jù)可視化分析得出的熱力圖軌跡普遍顏色較深且軌跡連續(xù)不斷,說(shuō)明該AIS數(shù)據(jù)的完整性和連續(xù)性較好;圖9(b)、圖9(d)其水上移動(dòng)通信業(yè)務(wù)標(biāo)識(shí)碼(MMSI)為355495000、370720000,均為岸基AIS數(shù)據(jù),可視化分析得出的熱力圖軌跡普遍顏色較淺且軌跡不連續(xù),如圖所示熱力圖集中在岸邊而遠(yuǎn)離海岸的地區(qū)熱力圖顏色非常的淺;再遠(yuǎn)一點(diǎn)的地方甚至沒(méi)有AIS信號(hào),出現(xiàn)了AIS即時(shí)數(shù)據(jù)中斷的情況,說(shuō)明該AIS數(shù)據(jù)的完整性和連續(xù)性較差,與衛(wèi)星AIS數(shù)據(jù)形成鮮明對(duì)比。
圖9 衛(wèi)星AIS數(shù)據(jù)與岸基AIS數(shù)據(jù)可視化分析效果對(duì)比圖
以上文提及的四艘船舶為例,圖9(a)、圖9(c)所對(duì)應(yīng)的船舶的綜合質(zhì)量評(píng)分為80.21分和94.52分;圖9(b)、圖9(d)所對(duì)應(yīng)的船舶的綜合質(zhì)量評(píng)分為16.81分和18.54分。由此可見(jiàn),本文提出的數(shù)據(jù)質(zhì)量評(píng)價(jià)算法的結(jié)果與數(shù)據(jù)可視化對(duì)比分析所展示的結(jié)果吻合,證明了本文提出的數(shù)據(jù)質(zhì)量評(píng)價(jià)算法的準(zhǔn)確性。
本文首次提出的AIS數(shù)據(jù)質(zhì)量評(píng)價(jià)算法,通過(guò)完整性、連續(xù)性、時(shí)效性三個(gè)重要評(píng)價(jià)指標(biāo)做出評(píng)價(jià),得出綜合質(zhì)量評(píng)分。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證該數(shù)據(jù)質(zhì)量評(píng)價(jià)算法能夠較為精確的反應(yīng)數(shù)據(jù)質(zhì)量的優(yōu)劣。該算法的提出能夠分析出AIS數(shù)據(jù)在完整性、連續(xù)性、時(shí)效性這三個(gè)方面的質(zhì)量問(wèn)題,有助于對(duì)AIS數(shù)據(jù)進(jìn)行針對(duì)性數(shù)據(jù)處理與改正,促進(jìn)AIS數(shù)據(jù)質(zhì)量的提升。同時(shí),也可在選擇AIS數(shù)據(jù)源時(shí)起到輔助決策的作用。