雷進宇, 初秀民,3, 蔣仲廉, 鐘誠, 吳明洋, 郭濤
(1. 國家水運安全工程技術(shù)研究中心, 湖北 武漢 430063;2. 武漢理工大學 能源與動力工程學院, 湖北 武漢 430063;3. 閩江學院 物理與電子信息工程學院, 福建 福州 350108;4. 武漢理工大學 物流工程學院, 湖北 武漢, 430063)
自動識別系統(tǒng)(automatic identification system, AIS)是集現(xiàn)代通信、網(wǎng)絡和信息科技于一體的多門類高科技新型助航設(shè)備和安全信息系統(tǒng),廣泛應用于海事通信及安全監(jiān)測中。作為海事數(shù)據(jù)分析的主要數(shù)據(jù)源,大量的數(shù)據(jù)必然引起“臟”數(shù)據(jù)的產(chǎn)生。受制于通信鏈路、信道干擾以及器件自身固有誤差等因素,伴隨有數(shù)據(jù)異常、數(shù)據(jù)缺失等現(xiàn)象。上述現(xiàn)象產(chǎn)生的數(shù)據(jù)也被稱之為“臟”數(shù)據(jù)。因此在自動識別系統(tǒng)數(shù)據(jù)分析前,數(shù)據(jù)往往需要對臟數(shù)據(jù)進行預處理,然后將處理后的數(shù)據(jù)導入模型進行交通流的分析。
目前,面對“臟”數(shù)據(jù)的主要預處理處理方法有數(shù)據(jù)清洗及數(shù)據(jù)重構(gòu)。數(shù)據(jù)清洗通常是依據(jù)某種規(guī)則或多種規(guī)則的結(jié)合對原始數(shù)據(jù)進行篩選過濾。然后對篩選出不符合要求的數(shù)據(jù)直接剔除[1-2]。數(shù)據(jù)重構(gòu)則是依據(jù)數(shù)據(jù)本身規(guī)律及特點,對原數(shù)據(jù)缺失部分進行修復還原等工作,文獻[3]利用ER推理的方法過濾自動識別系統(tǒng)異常數(shù)據(jù)并結(jié)合船舶動力學對過濾的自動識別系統(tǒng)數(shù)據(jù)進行還原。這意味著其中的一些異常的原始數(shù)據(jù)和缺失的數(shù)據(jù)(也稱作臟數(shù)據(jù))將被完全濾除。
上述方法的主旨思想均在于如何將“臟”數(shù)據(jù)剔除或者是將“臟”數(shù)據(jù)變“好”,但是卻忽略了“臟”數(shù)據(jù)本身蘊藏的價值。例如數(shù)據(jù)的丟失能反映出內(nèi)河沿線基站的覆蓋范圍和其存在的盲區(qū)?!芭K”數(shù)據(jù)中的信息及特征如果得到有效挖掘利用,對自動識別系統(tǒng)數(shù)據(jù)維護管理、錯誤數(shù)據(jù)產(chǎn)生致因等問題,可以提供重要的數(shù)據(jù)支撐。
可視分析方法已經(jīng)成功的應用于眾多領(lǐng)域,特別是數(shù)據(jù)分析以及地理信息GIS系統(tǒng)中。文獻[4]提出了基于特征解選取的n維圖表可視化技術(shù)有效去除 了Pareto最優(yōu)解集中性能相近的冗余解。文獻[5]利用標簽云可視化模型將文本信息和地理信息結(jié)合分析了位置關(guān)聯(lián)信息中的總體特征和信息。WILLEMS等[6]通過對海上船舶軌跡進行可視化,分析船舶的異常行為和航行風險,證明可視分析方法在船舶異常行為模式方面也有廣闊應用前景。
缺失數(shù)據(jù)經(jīng)常被忽視,即使缺失數(shù)據(jù)很重要仍然有些可視分析僅僅利用剩余數(shù)據(jù)并得出相應的結(jié)論。文獻[7]利用帶有斷層的折線圖來可視化數(shù)據(jù)中的缺失。文獻[8]采用的可視化方法是在保持輪廓光滑明亮的情況下通過調(diào)低色調(diào)來展示缺失數(shù)據(jù)。文獻[9]則利用統(tǒng)計學方法計算出缺失數(shù)據(jù)的可能范圍并采用類似盒圖的方法來可視化缺失數(shù)據(jù)的不確定性。文獻[10]則利用了空缺,模糊以及空缺加注釋的方法來進行可視化展示,經(jīng)過實踐分析表明,空缺加注釋的方法更有助于用戶對缺失數(shù)據(jù)的理解。文獻[11]提出一套利用可視分析來理解數(shù)據(jù)質(zhì)量的流程和方法,并采用不同的可視化模型對移動數(shù)據(jù)進行展示分析,發(fā)現(xiàn)了其中一些數(shù)據(jù)的缺失并解釋了其發(fā)生的原因。然而并沒有對這些異常數(shù)據(jù)進行探索,未對異常數(shù)據(jù)的規(guī)律及其間接反映出來的周圍環(huán)境特征進行深入研究。
異常值是指與大多數(shù)數(shù)據(jù)偏離較大的數(shù)據(jù)。交通定位數(shù)據(jù)可視分析中常見的統(tǒng)計、聚類等方法表達的則是海量數(shù)據(jù)的統(tǒng)計信息,無法揭開單個軌跡點中的臟數(shù)據(jù)信息。為了解決這種弊端,文獻[12]利用最原始的地圖路網(wǎng)信息,在經(jīng)過后臺的判斷之后,將含有異常的軌跡映射到二維平面地圖進行可視化。由于平行坐標可視化模型可以表征高維數(shù)據(jù)中各維度的隱含關(guān)系,因此文獻[13]在網(wǎng)絡安全異常檢測中采用了平行坐標,結(jié)果表明該方法可及時發(fā)現(xiàn)網(wǎng)絡入侵行為。文獻[14]則提出一種基于3D多層球面空間可視化模型的異常行為識別模型,該方法能夠更好地表現(xiàn)網(wǎng)絡活動,服務于網(wǎng)絡安全監(jiān)督。文獻[15-16]中結(jié)合可視化與人機交互的手段來從原始定位數(shù)據(jù)中選取出異常數(shù)據(jù)并利用機器學習的方法尋找更多的異常值,從而來發(fā)現(xiàn)數(shù)據(jù)質(zhì)量問題進行數(shù)據(jù)質(zhì)量的評估。然而并未對這些檢測出的異常數(shù)據(jù)進行更深入的挖掘研究。
因此本文試圖通過可視分析方法研究自動識別系統(tǒng)的動態(tài)數(shù)據(jù)從而對內(nèi)河水路交通中存在的幾種主要自動識別系統(tǒng)“臟”數(shù)據(jù)和其致因加以討論分析并循環(huán)利用充分挖掘其中的價值。本文首先對幾種常見的數(shù)據(jù)質(zhì)量問題及其可視方法進行介紹,然后分別闡述了總體分析流程和各個可視化模型的具體功能及其交互手段。最后在實際內(nèi)河的船舶交通流數(shù)據(jù)基礎(chǔ)上結(jié)合典型的案例分析對可視分析方法進行實證測試。
本文通過綜合自動識別系統(tǒng)數(shù)據(jù)可視化展示和人機交互手段來探索異常自動識別系統(tǒng)數(shù)據(jù)中的規(guī)律,具體的異常數(shù)據(jù)的分析框架如圖1所示。首先將原始數(shù)據(jù)進行相鄰點間的時空距離差分計算,然后將計算結(jié)果投影在散點圖中,其次用戶可對散點圖中的正常、異常、靜止以及丟失等不同區(qū)域的軌跡數(shù)據(jù)進行交互篩選探索感興趣的數(shù)據(jù),然后通過對篩選出的軌跡數(shù)據(jù)聚類變換映射在OpenStreetMap(OSM)地圖中,通過人機交互對不同軌跡進行標記存儲進數(shù)據(jù)庫進行下一步分析。
OSM開放平臺提供了基礎(chǔ)地圖編輯組件,用戶根據(jù)自身數(shù)據(jù)內(nèi)容自由繪制點、線等數(shù)據(jù),如圖2所示。因此本在此基礎(chǔ)上,設(shè)計了一套可交互的散點圖設(shè)計來對“臟”數(shù)據(jù)進行可視分析。散點圖視圖設(shè)計為一個橫軸和縱軸分別為同一水上移動通信業(yè)務標識碼(MMSI)船舶的相鄰軌跡點的時間差和距離差如圖3所示。
圖2 基于開放街道地圖的地圖展示Fig.2 Map display based on open street map
圖3 軌跡點散點圖示意Fig.3 Scatter plot of space-time difference
圖中實線、點劃線和虛線依次分別代表最大速度線、最小速度線和最大時間線,由這3條線則把散點圖分為正常行駛區(qū)域、異常區(qū)域、船舶靜止區(qū)域與自動識別系統(tǒng)數(shù)據(jù)丟失區(qū)域,實際效果如圖4所示,圓點和方框軌跡點分別代表選定的不同種類軌跡點。
圖4 軌跡點時空差分的散點Fig.4 Scatter plot of space-time difference of track point
可視化交互是對異常自動識別系統(tǒng)數(shù)據(jù)可視分析起著關(guān)鍵作用??傮w的交互界面如圖5所示,主要由左、中、右3個部分組成。界面左邊部分可通過MMSI列表或時間范圍對異常數(shù)據(jù)實施篩選;界面中間部分可通過與地圖的放大、縮小以及平移等基本操作交互來觀察異常數(shù)據(jù)在航道中的位置分布;界面右邊部分可通過對散點圖的圈選,縮放等操作來進一步探索感興趣的異常數(shù)據(jù)。
圖5 交互界面Fig.5 User interface
地圖部分除了放大、縮小、平移等基本操作外還包括:拉索圈選、方框圈選、方框放大等,其中拉索圈選可以更自由的對任意形狀的軌跡進行篩選。如圖6中有多條軌跡且相對密集的情況下用拉索圈選更加自由方便。
圖6 地圖圈選交互Fig.6 Circle the map selection interaction
散點圖圈選操作與地圖部分類似,被圈選的點用圓點,其中散點圖選中的相應的點在地圖中也以相同方式展示,例如圖7(a)和圖7(b)中的相互對應圓點。
圖7 Gps漂移點Fig.7 The Gps drift points
此外,如圖8所示當選擇提示工具時將鼠標懸停在對應的數(shù)據(jù)點上則可以展示該數(shù)據(jù)的具體信息,例如時間、水上移動通信業(yè)務標識碼(MMSI),航速等。
圖8 信息懸停Fig.8 Information hover
時空過濾的系統(tǒng)部分由時間選擇、水上移動通信業(yè)務標識碼(MMSI)列表構(gòu)成。由散點圖圈選中的點所代表的船舶水上移動通信業(yè)務標識碼(MMSI)以列表形式展現(xiàn)在左側(cè)板塊。當在列表選中一個水上移動通信業(yè)務標識碼(MMSI)時,OSM地圖和散點圖對該水上移動通信業(yè)務標識碼(MMSI)進行相應的展示如圖9。圓點為所有圈選中的水上移動通信業(yè)務標識碼(MMSI)軌跡點,而當前選定的水上移動通信業(yè)務標識碼(MMSI)點以方框以便區(qū)別。在OSM地圖將其相鄰軌跡點聯(lián)結(jié)成軌跡線,這樣便可以清楚識別出軌跡的漂移圖9左半部分。
圖9 交互工具Fig.9 Interactive tools
通過散點圖中選取位于自動識別系統(tǒng)數(shù)據(jù)丟失區(qū)域的數(shù)據(jù),可以發(fā)現(xiàn)對應的軌跡點位于左邊地圖中的位置,如果某區(qū)域數(shù)據(jù)缺失點密集則認為是盲區(qū)。點擊選擇左側(cè)相應的水上移動通信業(yè)務標識碼則可以從自動識別系統(tǒng)軌跡更直觀得展示出明顯的數(shù)據(jù)缺失斷層現(xiàn)象如圖10所示,由于長時間無自動識別系統(tǒng)信號發(fā)出而造成缺失數(shù)據(jù)的區(qū)域呈現(xiàn)出長條直線的模式。如果有多條軌跡線在某個區(qū)域出現(xiàn)這種模式,則可以認定該區(qū)域存在盲區(qū)。
圖10 缺失數(shù)據(jù)軌跡Fig.10 Missing data trajectory
由圖11可以看出,左側(cè)存在3處數(shù)據(jù)大量丟失的基站盲區(qū)。
圖11 基站盲區(qū)檢測Fig.11 Base station blind area detection
船舶異常點可以通過觀察散點圖可得進行提取即其中時間間隔短但行駛距離過長的軌跡點則被認為是異常的船舶行為。首先圈選散點圖中的異常軌跡點如圖12所示。
圖12 異常點圈選Fig.12 Selection of abnormal data
被圈選的軌跡點則在地圖和散點圖中皆被標記為圓點并且所屬的水上移動通信業(yè)務標識碼(MMSI)號出現(xiàn)在左側(cè)列表中。通過點選水上移動通信業(yè)務標識碼(MMSI),發(fā)現(xiàn)其中存在2種常見軌跡異?,F(xiàn)象。
第1種是軌跡的跳變從而形成了Z字形的軌跡線如圖13所示,它是由一個運動和一個靜止的船舶形成的軌跡圖。經(jīng)過分析,該異常是由于長江航道中存在的船員私自篡改水上移動通信業(yè)務標識碼(MMSI)的現(xiàn)象,因此引發(fā)多個運行的船舶在同一時間段內(nèi)發(fā)出了多條水上移動通信業(yè)務標識碼(MMSI)相同的AIS數(shù)據(jù)因此產(chǎn)生蛇形軌跡。
圖13 船舶Z字形軌跡Fig.13 Zigzag trajectory
第2種異常軌跡通常是一段正常軌跡中間出現(xiàn)1、2處的軌跡偏移如圖14所示。經(jīng)過調(diào)查該現(xiàn)象是由于長江內(nèi)河信號經(jīng)常受岸邊無線電干擾以及通航建筑的遮蔽造成了行駛過程中的軌跡跳變。
圖14 軌跡跳變Fig.14 Trajectory jitter
1)在武漢段的實例測試中,通過對缺失數(shù)據(jù)分析,得到了武漢段基站覆蓋盲區(qū)的分布。
2)通過武漢段異常數(shù)據(jù)的可視分析得出該處異常軌跡發(fā)生往往是因為船舶串號現(xiàn)象和環(huán)境干擾。
當前研究中,可視化模型的展示略顯單一,擬增加更為豐富的可視化模型對軌跡數(shù)據(jù)進行多元化的展示。此外,在后續(xù)研究中,將引入Web Graphics Library(webgl)技術(shù),提升可視化圖像生成的效果和效率,使得人機交互更為流暢高效。目前借助先進VR設(shè)備,開發(fā)的三維虛擬可視化系統(tǒng)能給用戶提供一個更好的沉浸式顯示環(huán)境。在水路交通監(jiān)管中可為控制決策和預測風險等提供重要依據(jù)。