亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于BLSTM-RNN的船舶軌跡修復(fù)方法

2019-10-14 07:50:02王貴槐初秀民張代勇

重慶交通大學(xué)學(xué)報(bào)(自然科學(xué)版) 2019年10期

王貴槐，鐘誠，初秀民，張代勇

(1. 武漢交通職業(yè)學(xué)院，湖北武漢 430065； 2. 武漢理工大學(xué) 國家水運(yùn)安全工程技術(shù)研究中心，湖北武漢 430063)

0 引言

在水上交通眾多感知手段中，雷達(dá)與船舶自動識別系統(tǒng)(automatic identification system, AIS)是為核心的部分。受制于AIS設(shè)備自身及環(huán)境因素等影響，AIS數(shù)據(jù)質(zhì)量存在可用性不高的問題。內(nèi)河船舶普遍安裝低成本的Class-B級AIS船臺，船臺本身軟硬件質(zhì)量可靠性不足。此外，AIS基站布設(shè)存在很多盲區(qū)，導(dǎo)致該區(qū)域內(nèi)AIS信號傳播有一定衰減[1]。以上因素導(dǎo)致AIS在實(shí)際應(yīng)用過程中，不可避免產(chǎn)生數(shù)據(jù)異常、丟失等情況。

為保障AIS數(shù)據(jù)質(zhì)量，大量學(xué)者對AIS數(shù)據(jù)的錯誤甄別、缺失修復(fù)開展了研究。研究方法主要分為船舶運(yùn)動學(xué)建模方法，線性插值模型方法以及機(jī)器學(xué)習(xí)方法。在船舶運(yùn)動學(xué)建模中，通常采用建立多自由度的船舶力學(xué)模型來預(yù)測船舶運(yùn)動軌跡和姿態(tài)[2-3]，由于AIS數(shù)據(jù)僅包含船舶位置和速度、航跡向信息，不能為模型提供足夠的參數(shù)，因而該方法實(shí)際上不具有可行性。線性插值方法則通過AIS數(shù)據(jù)對船舶軌跡進(jìn)行建模估計(jì)，在不同模型(直行、轉(zhuǎn)向等)中采用不同的插值方法對船舶運(yùn)動軌跡進(jìn)行修復(fù)，但在軌跡上下文信息丟失過多的情況下，不能取得較好的模擬效果[4]。

和傳統(tǒng)建模方法及線性插值方法相比，機(jī)器學(xué)習(xí)方法對于軌跡的上下文信息應(yīng)用更有優(yōu)勢。徐婷婷等[5]提出一種基于三層BP神經(jīng)網(wǎng)絡(luò)的船舶軌跡預(yù)測模型；王體迎等[6]提出一種基于門限單元循環(huán)神經(jīng)網(wǎng)絡(luò)的船舶預(yù)測方法，通過時間序列的挖掘，對交通流量的上下文數(shù)據(jù)進(jìn)行利用，以數(shù)據(jù)驅(qū)動的方法獲取了較高的預(yù)測精度。

在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)中，循環(huán)神經(jīng)網(wǎng)絡(luò)在時序問題的處理上有較為突出的表現(xiàn)[7-8]。如將船舶軌跡信息視為一種時間序列數(shù)據(jù)，無疑RNN在船舶軌跡信息上可有極為契合的應(yīng)用。然而，循環(huán)神經(jīng)網(wǎng)絡(luò)方法要求輸入數(shù)據(jù)具有固定的時間周期，而內(nèi)河AIS船臺的時間周期通常都不穩(wěn)定，會造成嚴(yán)重的預(yù)測及修復(fù)誤差。

筆者通過對AIS數(shù)據(jù)分析研究，根據(jù)AIS數(shù)據(jù)特性，對船舶軌跡數(shù)據(jù)進(jìn)行了數(shù)據(jù)清洗及采樣頻次統(tǒng)一等預(yù)處理工作，以解決循環(huán)神經(jīng)網(wǎng)絡(luò)應(yīng)用與AIS數(shù)據(jù)建模上的結(jié)構(gòu)問題。并引入雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BLSTM-RNN)方法，對船舶AIS缺失數(shù)據(jù)進(jìn)行修復(fù)。

1 基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的船舶軌跡修復(fù)模型

在船舶AIS軌跡數(shù)據(jù)中，每一個點(diǎn)不僅與其前向點(diǎn)相關(guān)，與后向點(diǎn)也有一定的關(guān)系，而傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)僅能進(jìn)行單向?qū)W習(xí)。SCHUSTER在1997年提出一種雙向遞歸神經(jīng)網(wǎng)絡(luò)(BRNN)，該模型能有效解決雙向?qū)W習(xí)問題。隨后在RNN模型的改進(jìn)上，HOCHREITER提出了一種長短時記憶單元結(jié)構(gòu)(LSTM)來解決循環(huán)神經(jīng)網(wǎng)絡(luò)中存在的長距離依賴問題。由此，基于長短時結(jié)構(gòu)的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BLSTM-RNN)被提出。

在BLSTM-RNN中，隱層需要存儲兩個值，一個值參與計(jì)算，另一個值參與反向計(jì)算。最終輸出值Y是由正反向兩個存儲值共同決定。假設(shè)Ot表示t時刻的輸出，可以表示如式(1)～(3)：

Ot=g(Vst+V′s′t)

(1)

st=f(Uxt+Wst-1)

(2)

(3)

式中：Ot為LSTM結(jié)構(gòu)t時刻的輸出值；g為輸出權(quán)重矩陣；V及V′為別為正向及逆向結(jié)果的權(quán)重矩陣；st及s′t分別為t時刻的正逆向輸出結(jié)果；xt為t時刻的LSTM結(jié)構(gòu)輸入；U及U′為正向及逆向輸入權(quán)重矩陣；W及W′為上一時刻輸入的權(quán)重矩陣?；谠摻Y(jié)構(gòu)，筆者構(gòu)建了一個兩層的雙向深度循環(huán)神經(jīng)網(wǎng)絡(luò)，其LSTM層共設(shè)有兩層，每層均含有正向及反向兩層，其結(jié)構(gòu)如圖1。

圖1 BLSTM-RNN結(jié)構(gòu)Fig. 1 BLSTM-RNN structure diagram

2 模型輸入及超參數(shù)設(shè)置

2.1 BLSTM-RNN模型輸入構(gòu)建

在AIS回傳數(shù)據(jù)中，一條典型的報(bào)文信息包括船號(mmsi)、回傳時間(utc)、經(jīng)緯度信息(lon，lat)、航速(speed)、航向(course)等共含有9個變量。在剔除掉船舶mmsi編號等無關(guān)的3個變量，剩下變量中選擇相關(guān)性最高變量作為輸入元數(shù)據(jù)，變量的數(shù)量即為輸入元數(shù)據(jù)的維度。

表1 經(jīng)緯度相關(guān)性分析結(jié)果Table 1 Analysis results of latitude-longitude correlation

取518個特征點(diǎn)，進(jìn)行相關(guān)性檢測，采用皮爾遜(Pearson)為相關(guān)性準(zhǔn)則，其測試結(jié)果如表1。在測試結(jié)果中，相關(guān)性系數(shù)值越大，則表明兩個變量間的相關(guān)程度越高，顯著性檢測值小于0.05，則兩列數(shù)據(jù)顯著相關(guān)；反之，則兩列數(shù)據(jù)在統(tǒng)計(jì)意義上相關(guān)性不明顯。在實(shí)驗(yàn)結(jié)果中，選擇相關(guān)性系數(shù)高于0.5，且雙側(cè)檢驗(yàn)小于0.05的變量，作為輸入集的選取變量。輸入樣本的長度，采用傳統(tǒng)線性回歸模型的滯后期法進(jìn)行確定(ARIMA/AR)。將經(jīng)緯度序列視為時空自相關(guān)序列，則可以通過其ACF和PACF參數(shù)進(jìn)行自相關(guān)和偏自相關(guān)系數(shù)求取。ACF的定義如下：

(4)

自相關(guān)(ACF)值代表船舶軌跡序列點(diǎn)自身的線型關(guān)系，固定過程的兩個觀測值之間的自相關(guān)僅取決于他們的滯后值k。偏相關(guān)(PACF)是去除線型關(guān)系后的自相關(guān)值，其值求取涉及到求解Yule-Walker方程。經(jīng)緯度自相關(guān)與偏相關(guān)的結(jié)果如圖2。

圖2 自相關(guān)及偏自相關(guān)系數(shù)Fig. 2 Autocorrelation and partial autocorrelation coefficients

由自相關(guān)及偏相關(guān)序列結(jié)果可知，滯后值為37。這意味著軌跡序列自相關(guān)性中，每一個軌跡點(diǎn)xi都與之前的軌跡點(diǎn)xi-37,xi-36,…,xi-1有著較強(qiáng)的相關(guān)性。則每一個訓(xùn)練樣本的輸入由37個軌跡點(diǎn)構(gòu)成，其中每個軌跡點(diǎn)包括4個維度的信息，將訓(xùn)練樣本展開為一維向量，構(gòu)建為RNN單個輸入集，每一個輸入集包括148個神經(jīng)元作為輸入。

2.2 BLSTM-RNN模型及其超參數(shù)設(shè)置

BLSTM-RNN模型中，每層的LSTM結(jié)構(gòu)單元數(shù)設(shè)置為輸入單元數(shù)據(jù)的維度減1[9]，同時添加Dropout層以避免模型過擬合[10]，Dropout參數(shù)設(shè)定為0.5。LSTM門及連接層權(quán)值初始化方法采用SVD法[11],訓(xùn)練輪次設(shè)置為30輪。

傳遞函數(shù)及優(yōu)化方法是另外兩個較為重要的超參數(shù)。由于LSTM門結(jié)構(gòu)的輸出僅能存于[0-1]之間，選擇sigmoid作為其傳遞函數(shù)。在連接層之間的傳遞函數(shù)，測試了sigmoid、tanh以及relu三種傳遞參數(shù)。優(yōu)化方法上，測試了SGD，Adadalta，Adam，RMSprop四種優(yōu)化方法，實(shí)驗(yàn)過程中，學(xué)習(xí)率改變步長均設(shè)置為0.1。測試標(biāo)準(zhǔn)為模型的準(zhǔn)確率(ACC)。測試結(jié)果表明，relu最為傳遞函數(shù)時，收斂最快，精度最高， SGD作為優(yōu)化方法時也有最好的效果。最終選擇relu作為模型的傳遞函數(shù)，SGD作為模型的優(yōu)化方法。實(shí)驗(yàn)結(jié)果如圖3。

圖3 傳遞函數(shù)及優(yōu)化方法實(shí)驗(yàn)結(jié)果Fig. 3 Transfer functions and test results of optimization method

3 實(shí)驗(yàn)及結(jié)果

3.1 數(shù)據(jù)預(yù)處理

實(shí)際AIS數(shù)據(jù)中，船臺回傳數(shù)據(jù)存在兩個問題：①回傳時間不穩(wěn)定，導(dǎo)致采樣頻率無法統(tǒng)一；②由于船舶漂移及AIS船臺錯誤報(bào)文等原因，原始數(shù)據(jù)里有較多錯誤數(shù)據(jù)。

針對第一個問題，對武漢段2015年7月AIS數(shù)據(jù)進(jìn)行統(tǒng)計(jì)，將其回傳頻率統(tǒng)一為6 s，10 s，15 s以及30 s，如圖4。

圖4 A、B型船臺回傳時間分布(武漢段2015年7月)Fig. 4 Return time distribution map of A and B berth(Wuhan section in July, 2015)

時間間隔的確定方式為：對數(shù)據(jù)包中的四類標(biāo)準(zhǔn)時間占比進(jìn)行統(tǒng)計(jì)，若某一標(biāo)準(zhǔn)時間數(shù)據(jù)量占數(shù)據(jù)總量比大于70%，則認(rèn)為該條軌跡的AIS發(fā)送時間間隔為該數(shù)據(jù)值。其中，每一條時間間隔值判斷過程需滿足如下條件：

|ts-T|<=T×0.1

(5)

式中：ts為相鄰數(shù)據(jù)的時間差，s；T為標(biāo)準(zhǔn)時間間隔，s。

采用閾值方法對錯誤軌跡進(jìn)行清洗。對船舶軌跡數(shù)據(jù)中求取4個參數(shù)：COURE_RES，SPEED_RES，TIME以及LL_RES。4個變量分別代表航向加速度，速度加速度，時間差以及偏移距離，其中偏移距離為歐式距離。分別對4個參數(shù)設(shè)定4個閾值，在實(shí)際軌跡中有一個參數(shù)超出該閾值，則刪掉該數(shù)據(jù)。閾值同樣由數(shù)據(jù)分布進(jìn)行確定。以船舶速度為例，圖5是武漢段7月船舶速度統(tǒng)計(jì)數(shù)據(jù)的分布圖及累加百分比圖。

圖5 船舶速度分布及累加百分比(武漢段2015年7月)Fig. 5 Velocity distribution and cumulative percentage diagram ofships (Wuhan section in July, 2015)

其中，船舶速度單位為節(jié)(Knote。統(tǒng)計(jì)結(jié)果中，速度超過12.5節(jié)的船舶數(shù)量百分比占比為0.712%，遠(yuǎn)超出置信區(qū)間，超出該速度值的可以認(rèn)定為異常速度值。同時按照內(nèi)河船舶管理數(shù)據(jù)來看，船舶在內(nèi)河橋區(qū)水域速度基本為5節(jié)之內(nèi)。由此方法確定清洗數(shù)據(jù)的各項(xiàng)閾值后，對原始數(shù)據(jù)進(jìn)行處理。

3.2 實(shí)驗(yàn)結(jié)果及分析

采用中國長江武漢段及重慶段兩處的船舶時空軌跡做為實(shí)驗(yàn)數(shù)據(jù)。其中，武漢段為順直河段，來往船只多，且伴隨有大量輪渡，?？奎c(diǎn)呈密集聚集趨勢；重慶段河段較為彎曲，船舶行進(jìn)軌跡中回轉(zhuǎn)較大。船舶類型主要包括客船、貨船以及油輪，包括有少量的執(zhí)法船舶及工程施工船舶。數(shù)據(jù)采集時間3個月，分別是3月、7月及11月，包含典型的枯水季、豐水季及中水季。武漢段具體區(qū)域選取為軍山至天興洲頭區(qū)域，該區(qū)域輪渡船舶較多，船舶行為相對復(fù)雜。重慶段區(qū)域選取主要為牛頭溪處至石板灘處，以及沙咀向上至臨江門方向河段，該區(qū)域航道曲率半徑較大，船舶在航行過程中需完成較大的轉(zhuǎn)向角度。

通過對武漢段及重慶段的數(shù)據(jù)采集，對原數(shù)據(jù)進(jìn)行拆分重組，共得到142 655組訓(xùn)練數(shù)據(jù)，其中包含重慶段訓(xùn)練集100 129組，武漢段訓(xùn)練集42 526組。樣本集順序被隨機(jī)打亂，并分為2個部分。一部分作為RNN建模數(shù)據(jù)集，包含80%的樣本集數(shù)量，另一部分作為驗(yàn)證集，包含20%的樣本集數(shù)量。訓(xùn)練之前，需要對數(shù)據(jù)進(jìn)行歸一化處理，具體歸一化過程如式(6)：

(6)

式中：xmax,xmin為訓(xùn)練集樣本中最大及最小值；ymax，ymin為歸一化樣本后最大及最小值，筆者取ymax=0，ymin=1。為驗(yàn)證實(shí)驗(yàn)結(jié)果，引入以下指標(biāo)衡量預(yù)測結(jié)果：

(7)

(8)

(9)

式中：系數(shù)RMSE為均方根誤差；MAPE為統(tǒng)計(jì)中對預(yù)測精度的度量方法；指代統(tǒng)計(jì)量誤差R2為決定系數(shù)，數(shù)值在0-1之間，該值越大表明實(shí)驗(yàn)結(jié)果越可靠;Xobx代表原始數(shù)據(jù)，Xpre代表預(yù)測數(shù)據(jù)。對比方法上，引入3種方法作為實(shí)驗(yàn)對比，分別是線型插值方法(PCHIP)，神經(jīng)網(wǎng)絡(luò)方法(ANN)以及單向循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)。通過與其他3種方法修復(fù)結(jié)果進(jìn)行對比，BLSTM-RNN在3個指標(biāo)上均有提升。結(jié)果如表2。

表2 實(shí)驗(yàn)結(jié)果對比Table 2 Comparison of experimental results (°)

由實(shí)驗(yàn)結(jié)果可以看出，3種方法在武漢段的測試效果均好于在重慶段的測試效果，尤其是線性方法在武漢段的測試效果遠(yuǎn)好于重慶段測試效果。這是由于重慶段較彎曲，船舶軌跡數(shù)據(jù)中具有較多的轉(zhuǎn)向操作，從而導(dǎo)致線性方法(插值法)在該區(qū)域內(nèi)效果較差。非線性方法(ANN及RNN)在兩個區(qū)域內(nèi)結(jié)果差異不明顯。在RMSE指標(biāo)上，BLSTM-RNN實(shí)驗(yàn)結(jié)果比ANN及RNN提升了25%左右，而在MAPE指標(biāo)上，提升了約75%，效果顯著。

使用實(shí)例數(shù)據(jù)對長距離丟失點(diǎn)修復(fù)進(jìn)行測試。在長距離丟失點(diǎn)上，非線性方法具有更好的效果，實(shí)驗(yàn)結(jié)果如圖6。

圖6 實(shí)證修復(fù)結(jié)果Fig. 6 The results of empirical repair (A. Chongqing sectionB. Wuhan section)

長距離丟失點(diǎn)由于信息的不全，導(dǎo)致線性方法幾乎失效，而ANN方法及單向RNN方法在建模上，缺少對丟失點(diǎn)下文軌跡點(diǎn)的考慮。BLSTM-RNN在長距離點(diǎn)丟失上，則有較好的效果。實(shí)驗(yàn)結(jié)果如表3。

表3 長距離修復(fù)實(shí)驗(yàn)結(jié)果對比Table 3 Comparison of long distance repair test results m

由結(jié)果可以看出，插值的預(yù)測效果要遠(yuǎn)低于神經(jīng)網(wǎng)絡(luò)的預(yù)測效果，特別是當(dāng)預(yù)測點(diǎn)數(shù)增加時尤為明顯。雖然插值預(yù)測的R2的值仍在0.999以上，但是距離均方根誤差隨預(yù)測點(diǎn)數(shù)增加時變化較大，單向PCHIP線性方法預(yù)測20個點(diǎn)時，距離均方根誤差甚至達(dá)到1 200 m量級，而BLSTM-RNN則將誤差控制在50 m量級上。BLSTM-RNN方法決定系數(shù)R2控制在0.999 9量級上；MAPE指數(shù)上，模型將誤差控制在16 m量級上，較其他方法均有一定精度上的提升。

4 結(jié)論

筆者將船舶軌跡序列作為時序序列輸入，針對船舶時序軌跡數(shù)據(jù)特點(diǎn)，引入BLSTM-RNN方法。實(shí)驗(yàn)結(jié)果證明，與線性及其他機(jī)器學(xué)習(xí)方法相比，BLSTM-RNN方法在精度上有一定提升。在武漢段順直河段實(shí)驗(yàn)中，將修復(fù)誤差控制在15 m量級內(nèi)，遠(yuǎn)低于其他非線性方法的50 m量級。在重慶復(fù)雜河段內(nèi)，線性方法幾乎失效，BLSTM-RNN模型由于多層結(jié)構(gòu)化特征，可充分利用軌跡前后文信息，提高復(fù)雜軌跡的修復(fù)精度，修復(fù)誤差控制在10 m量級。此外，模型解決了傳統(tǒng)方法在長距離丟失點(diǎn)上精度缺失的問題，在20個連續(xù)點(diǎn)丟失的情況上，將修復(fù)誤差降低至50 m量級。