Roger Lloret-Batlle,林 森,郭杰群
(寧波(中國)供應(yīng)鏈創(chuàng)新學(xué)院,浙江 寧波 315832)
供應(yīng)鏈全球化已成為當(dāng)今世界經(jīng)濟(jì)發(fā)展的重要趨勢,是全球生產(chǎn)力與科技發(fā)展的重要推動力。在此趨勢下,國際貿(mào)易成為全球化核心組成部分。然而,隨著物流服務(wù)地理范圍的不斷擴(kuò)大,跨區(qū)域貿(mào)易增加了物流成本與復(fù)雜度。國際物流不僅必須高效完成不同國家與地區(qū)以及各類環(huán)境中的作業(yè),還需應(yīng)對國際環(huán)境所帶來的不確定性。
海洋運(yùn)輸是國際貨物貿(mào)易的最主要方式。根據(jù)聯(lián)合國貿(mào)易和發(fā)展會議統(tǒng)計數(shù)據(jù),70%~80%的全球貨物貿(mào)易都通過海運(yùn)完成[1]。在激烈的市場競爭中,海洋運(yùn)輸流程的透明度對于運(yùn)輸公司提升效率和獲取客戶至關(guān)重要。提高透明度的一個重要方式是對貨運(yùn)準(zhǔn)確到達(dá)目的地港口的時間預(yù)測,通常稱為預(yù)計到達(dá)時間(Estimated Time of Arrival,ETA)。ETA也是集裝箱碼頭制定生產(chǎn)作業(yè)計劃的重要依據(jù)[2]。此外,眾多業(yè)務(wù)相關(guān)方也需根據(jù)船舶到達(dá)特定港口的時間做出業(yè)務(wù)決策,這些相關(guān)者包括但不限于港口當(dāng)局、港口運(yùn)營商、燃料供應(yīng)商和物流服務(wù)商等。碼頭運(yùn)營商需要對船舶ETA進(jìn)行估計,以便準(zhǔn)確地確定每個班次的日常需求;物流服務(wù)商需要根據(jù)船舶ETA來滿足客戶的交付期望。因此,對船舶ETA進(jìn)行可靠的預(yù)測是上述業(yè)務(wù)方關(guān)注的一個關(guān)鍵問題。然而,由于運(yùn)輸方式的不同,海上運(yùn)輸有別于飛機(jī)和火車運(yùn)輸,面臨著更多不確定性因素。對于長距離海洋運(yùn)輸而言,物流容易受天氣、港口擁堵程度、季節(jié)、路線選擇、突發(fā)狀況等一系列因素影響。通常,飛機(jī)或火車的ETA可精確到分鐘甚至是秒,而集裝箱船舶ETA一般只能精確到小時甚至是天,因而在多式聯(lián)運(yùn)中,海運(yùn)也成為最難把控的運(yùn)輸風(fēng)險點(diǎn)。由此,按時運(yùn)輸和交付大型、長周期訂單是一項(xiàng)挑戰(zhàn)。在實(shí)際運(yùn)營中,船舶運(yùn)營商經(jīng)常不得不修改ETA,導(dǎo)致實(shí)際到達(dá)時間(Actual Time of Arrival,ATA)與最初船期表平均誤差高達(dá)30~40h[3]。船舶ATA的不確定性降低了計劃規(guī)則的可靠性,降低了內(nèi)陸運(yùn)輸運(yùn)營商的生產(chǎn)力水平和消費(fèi)者體驗(yàn)。此外,因需要更高的庫存以避免生產(chǎn)過程中斷,船舶到達(dá)的延遲既增加了船舶運(yùn)營成本,也增加了供應(yīng)鏈成本。
本研究以中美航線為例,探討集裝箱船舶ETA預(yù)測問題。這是一項(xiàng)具有挑戰(zhàn)性的課題,因?yàn)殚L距離的跨太平洋航運(yùn)相比短距離航運(yùn)周期性長,且具有更多不確定性因素,這使得ETA的預(yù)測復(fù)雜化。實(shí)際上,此項(xiàng)課題包括兩個問題:船舶軌跡預(yù)測(船舶下一個將??吭谀膫€港口)以及到達(dá)該港口的船舶ETA。為解決這些問題,我們基于機(jī)器學(xué)習(xí)提出了一個模型,以對船舶運(yùn)行軌跡和ETA進(jìn)行預(yù)測。準(zhǔn)確的船舶軌跡預(yù)測對海上交通控制和管理至關(guān)重要,除了避免碰撞外,還有助于規(guī)劃航行路線,縮短航行距離,提高航行效率。準(zhǔn)確的ETA將有助于制定有效的物流計劃,提升運(yùn)營效率,降低運(yùn)營和供應(yīng)鏈成本,并減少供應(yīng)鏈中斷的風(fēng)險。
由于缺乏基準(zhǔn)模型來描述船舶到達(dá)時間和引發(fā)其變化的因素之間的關(guān)系,我們采用了多層感知器(MLP)網(wǎng)絡(luò),并使用AIS歷史數(shù)據(jù)和其他已知信息建立模型。機(jī)器學(xué)習(xí)能夠識別數(shù)據(jù)中的趨勢和模式,從已有數(shù)據(jù)中提取有用見解,因此在預(yù)測分析方面是高效的。目前機(jī)器學(xué)習(xí)已被廣泛用于交通領(lǐng)域的數(shù)據(jù)分析之中,包括空運(yùn)ETA、陸運(yùn)ETA、海運(yùn)ETA等[4-6]。
準(zhǔn)確的船舶軌跡預(yù)測能夠保證海運(yùn)的安全性、智能性與高效性。Zhang,等[7]對船舶軌跡預(yù)測相關(guān)文獻(xiàn)進(jìn)行了梳理,研究結(jié)果表明船舶軌跡預(yù)測相關(guān)研究主要包括評估碰撞風(fēng)險提升海上交通安全、路徑規(guī)劃、海上交通管理、提升碼頭運(yùn)營效率、目的地以及船舶到港時間預(yù)測等方面。學(xué)者們還采用不同的方法對于船舶軌跡預(yù)測進(jìn)行了研究,如仿真方法、基于概率統(tǒng)計方法、機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法等。
仿真方法通常是通過創(chuàng)建一個數(shù)字模型以模擬現(xiàn)實(shí)世界中的船舶運(yùn)動。例如Last,等[8]基于AIS數(shù)據(jù)建立了一種無加速度的基本船舶運(yùn)動模型。然而,當(dāng)AIS數(shù)據(jù)點(diǎn)之間的時間間隔太大時,不確定性通常會隨著時間推移而增加,因此預(yù)測的準(zhǔn)確性較低。
基于概率統(tǒng)計的軌跡預(yù)測方法假設(shè)歷史軌跡數(shù)據(jù)和預(yù)測軌跡數(shù)據(jù)兩者之間存在一定相關(guān)性,通過歷史軌跡數(shù)據(jù)建立相對應(yīng)的數(shù)學(xué)模型,并通過參數(shù)估計和曲線擬合對軌跡進(jìn)行預(yù)測[9]。常見的基于概率統(tǒng)計方法包括隱馬爾可夫模型[8]、貝葉斯網(wǎng)絡(luò)[10]、高斯混合模型[11]等。
隨著人工神經(jīng)網(wǎng)絡(luò)(ANN)的不斷發(fā)展,一些學(xué)者開始使用人工神經(jīng)網(wǎng)絡(luò)對船舶軌跡進(jìn)行預(yù)測。例如Gan,等[12]首先采用k 均值聚類算法對于歷史軌跡進(jìn)行分類,隨后利用上述聚類結(jié)果與其他已知因素(即船舶速度、載重、自重、最大功率和水位)建立人工神經(jīng)網(wǎng)絡(luò)(ANN),通過反向傳播算法(BP 算法)預(yù)測船舶軌跡。研究結(jié)果表明所建立的模型與實(shí)際數(shù)據(jù)吻合較好,準(zhǔn)確率達(dá)70%以上。不過,該研究是針對短距離長江流域船舶軌跡建模。Volkova,等[13]采用Levenberg-Marquardt作為訓(xùn)練算法,在訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)模型的同時更新參數(shù),實(shí)現(xiàn)了梯度下降。
深度學(xué)習(xí)是在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上發(fā)展而來,通過建立更加大而復(fù)雜的神經(jīng)網(wǎng)絡(luò)獲得更精準(zhǔn)的結(jié)果。因此,深度學(xué)習(xí)在軌跡預(yù)測和交通管理方面也引起了極大的關(guān)注。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)模型是一個典型的深度學(xué)習(xí)模型,通常應(yīng)用于軌跡預(yù)測。其中,長短期記憶網(wǎng)絡(luò)(LSTM)模型(循環(huán)神經(jīng)網(wǎng)絡(luò)的一種)是最常用的船舶軌跡預(yù)測方法。例如Liu,等[14]使用LSTM模型對天津港船舶軌跡進(jìn)行預(yù)測。實(shí)驗(yàn)結(jié)果表明,該模型能準(zhǔn)確預(yù)測船舶軌跡,并適用于自主導(dǎo)航系統(tǒng)。Tang,等[15]建立了用于天津港船舶軌跡預(yù)測的LSTM模型,該模型由2層神經(jīng)網(wǎng)絡(luò)疊加而成,可以用來觀察船舶前10min 的狀態(tài),并預(yù)測船舶在第20min 的位置。Fortis,等[16]探索了基于LSTM的神經(jīng)序列模型,用以捕獲序列AIS數(shù)據(jù)的長期時間依賴性并提高整體預(yù)測能力。此外,作為LSTM模型的拓展,雙向時間遞歸神經(jīng)網(wǎng)絡(luò)(BiLSTM)模型使用了輸入序列的正向和反向信息,此模型也被用來預(yù)測船舶軌跡[17],因?yàn)榇四P涂梢栽鰪?qiáng)歷史和未來時間序列數(shù)據(jù)之間的相關(guān)性,一些研究表明其有助于提高預(yù)測準(zhǔn)確性[18-19]。
綜上所述,多種方法可用于預(yù)測船舶的軌跡。其中,仿真方法較為簡單,但準(zhǔn)確性較低,很少被用于船舶軌跡預(yù)測。而隱馬爾可夫模型雖能較好預(yù)測軌跡過程,但通常需要人為設(shè)定參數(shù),容易引起誤差,并且模型的魯棒性和計算精度往往受到限制。高斯混合模型能夠準(zhǔn)確預(yù)測短期軌跡,但極易受到數(shù)據(jù)復(fù)雜度影響,實(shí)用性較低。貝葉斯網(wǎng)絡(luò)較為高效且易于訓(xùn)練,但在實(shí)際運(yùn)用中其預(yù)測效果也存在一定的局限性。神經(jīng)網(wǎng)絡(luò)自適應(yīng)能力強(qiáng),但存在收斂速度較慢、局部最小化等問題。而深度學(xué)習(xí)具有準(zhǔn)確率高、實(shí)時性強(qiáng)等特點(diǎn),但缺點(diǎn)在于模型訓(xùn)練時間通常較長。
準(zhǔn)確預(yù)計船舶ETA有助于提升運(yùn)營效率并降低運(yùn)輸風(fēng)險,因此備受學(xué)界和業(yè)界的關(guān)注。學(xué)者使用不同的方法對船舶ETA進(jìn)行預(yù)測。其中,基于數(shù)據(jù)的方法主要使用傳統(tǒng)的統(tǒng)計方法,如多元線性回歸、邏輯回歸、時間序列分析和貝葉斯網(wǎng)絡(luò)[20]。然而,這些方法在復(fù)雜系統(tǒng)中通常會導(dǎo)致較差的結(jié)果,因?yàn)樗鼈冎荒芙忉尫浅I俚淖兞?,從而過度簡化了復(fù)雜的關(guān)系。而機(jī)器學(xué)習(xí)方法能夠有效解決該問題,并已被一些學(xué)者應(yīng)用于研究中。機(jī)器學(xué)習(xí)通過學(xué)習(xí)歷史數(shù)據(jù)來建立預(yù)測模型,常見的機(jī)器學(xué)習(xí)包括神經(jīng)網(wǎng)絡(luò)模型、分類與回歸樹、隨機(jī)森林等。通過機(jī)器學(xué)習(xí),預(yù)測問題可分為回歸任務(wù)或是分類任務(wù)?;貧w任務(wù)試圖用于預(yù)測船舶提前到達(dá)或延遲到達(dá)的時間、中轉(zhuǎn)時間或是到達(dá)目的港所需的航行時間,而分類任務(wù)則基于提前到達(dá)或延遲到達(dá)提供一個定性的估計[21]。
此外,應(yīng)用機(jī)器學(xué)習(xí)研究預(yù)測船舶ETA可分為靜態(tài)預(yù)測和動態(tài)預(yù)測兩種。在靜態(tài)預(yù)測中,主要基于由碼頭操作系統(tǒng)(TOS)或物流公司等提供的具有靜態(tài)特征的船舶和航次歷史海事數(shù)據(jù)進(jìn)行預(yù)測。Fancello,等[22]首次將基于神經(jīng)網(wǎng)絡(luò)的動態(tài)學(xué)習(xí)預(yù)測算法用于預(yù)測船舶到港時間區(qū)間,并結(jié)合資源分配優(yōu)化算法優(yōu)化碼頭人力資源調(diào)度。研究結(jié)果表明該模型可以減少船舶到達(dá)港口時間的不確定性區(qū)間,將港口到達(dá)時間的不確定性從4h下降到2h40min左右,提高了需求預(yù)測的準(zhǔn)確性。這項(xiàng)研究與本研究相近,然而它只考慮了24h 的時間范圍并采用靜態(tài)預(yù)測。相似地,Pani,等[23]使用新的變量和更大的數(shù)據(jù)集與分類和回歸樹方法探索了相同的情況。Pani,等[24]使用邏輯回歸、分類和回歸樹以及隨機(jī)森林進(jìn)行分類預(yù)測,并在關(guān)鍵軌跡點(diǎn)之間引入天氣數(shù)據(jù)。
與靜態(tài)預(yù)測模型不同,動態(tài)預(yù)測模型通過提取AIS數(shù)據(jù)中的船舶動態(tài)特征,如位置和速度,來預(yù)測船舶全程航行中的ETA。Jahn,等[25]通過神經(jīng)網(wǎng)絡(luò)模型針對德國北部和波羅的海海上交通狀況特別是船舶航行位置和船舶到達(dá)時間進(jìn)行預(yù)測。此外,Kim,等[26]將實(shí)時AIS船舶跟蹤數(shù)據(jù)與歷史航運(yùn)數(shù)據(jù)相結(jié)合,提出了一種以數(shù)據(jù)驅(qū)動的船舶延誤早期檢測方法(CBR),對船舶航行狀態(tài)和到港時間進(jìn)行預(yù)測,并對于延遲原因作出分析。Parolas[27]使用支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò)模型獲得了類似的結(jié)果,在他的研究中,SVM始終優(yōu)于神經(jīng)網(wǎng)絡(luò)模型。采用支持向量機(jī)的平均絕對誤差(MAE)在到達(dá)前5天為5小時,在到達(dá)前20h降至2.6h,而采用神經(jīng)網(wǎng)絡(luò)的MAE在到達(dá)前5天為6.3h,在到達(dá)前20h下降到3.6h。
綜上所述,諸多學(xué)者從不同的角度研究船舶軌跡預(yù)測以及ETA預(yù)測。多數(shù)研究都聚焦于短距離或是局部船舶軌跡以及到港時間,少有研究采用動態(tài)預(yù)測模型對于長距離船舶軌跡和ETA進(jìn)行預(yù)測?;诖?,本文通過機(jī)器學(xué)習(xí)對長距離船舶軌跡以及船舶ETA進(jìn)行預(yù)測具有重要的實(shí)踐意義。
與公路或鐵路運(yùn)輸不同,影響船舶航行軌跡和船舶ETA的原因非常復(fù)雜,見表1。
表1 影響船舶軌跡和ETA的因素
船舶軌跡和ETA主要受船舶自身因素影響,因此在本研究中,我們主要考慮船舶自身因素,并采用機(jī)器學(xué)習(xí)對于船舶運(yùn)行軌跡(目的地)和ETA進(jìn)行預(yù)測,具體研究方法如圖1所示。
圖1 研究方法流程圖
機(jī)器學(xué)習(xí)被廣泛用于解決交通預(yù)測問題,其主要通過學(xué)習(xí)歷史數(shù)據(jù)來建立預(yù)測模型。另一方面預(yù)測問題可以表示為一個回歸或分類任務(wù)。通常回歸任務(wù)用于預(yù)測實(shí)值輸出,而分類任務(wù)則試圖預(yù)測分配一個特定的類別。在船舶目的地預(yù)測和ETA研究中,分類任務(wù)被用于提供一個定性估計即下一目的地的預(yù)測。而在回歸任務(wù)中,目標(biāo)則是船舶到達(dá)目的港所需的旅行時間。
作為機(jī)器學(xué)習(xí)技術(shù)之一的神經(jīng)網(wǎng)絡(luò)是一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的數(shù)學(xué)模型或計算模型,是解決現(xiàn)實(shí)生活中復(fù)雜問題的理想方法。盡管多元線性回歸通常也被作為預(yù)測的方法之一并能給出良好的預(yù)測結(jié)果,但其只適用于當(dāng)輸入變量和輸出變量之間為線性關(guān)系的時候。然而,海上航行速度通常會受眾多因素影響而不斷變化,輸入變量和輸出變量之間的關(guān)系并非一直呈線性。而神經(jīng)網(wǎng)絡(luò)則可以描述輸入變量和輸出變量之間的非線性函數(shù),因?yàn)樗鼈兡軌蚴褂枚鄠€神經(jīng)元進(jìn)行計算。神經(jīng)網(wǎng)絡(luò)能夠通過使用算法,對原始數(shù)據(jù)中的隱藏模式和相關(guān)性進(jìn)行識別,對其進(jìn)行回歸和分類。
在本研究中,我們從港口參與者需要頻繁更新船舶實(shí)時狀態(tài)和到達(dá)時間的角度考慮船舶ETA 問題。通過給定船舶的當(dāng)前航次等相關(guān)信息,我們希望作為分類任務(wù)預(yù)測船舶的目的港以及作為回歸任務(wù)預(yù)測到達(dá)該目的港的航行時間。首先從AIS、船舶資料和港口等來源收集相關(guān)靜態(tài)和動態(tài)數(shù)據(jù)。其中靜態(tài)數(shù)據(jù)主要為船舶資料,包含了國際海事組織(IMO)號、海上實(shí)時移動服務(wù)標(biāo)識(MMSI)號、船名、呼號、長度、船型(貨輪、油輪、客輪等)等數(shù)據(jù)。動態(tài)數(shù)據(jù)包含經(jīng)度、緯度、呼號、真實(shí)航向、對地航速(實(shí)際航速)和對地航向等一系列動態(tài)AIS數(shù)據(jù),時間窗口為3h左右。不同來源收集的信息將被合并為一個單一和統(tǒng)一的數(shù)據(jù)集,并通過數(shù)據(jù)預(yù)處理以提高數(shù)據(jù)質(zhì)量,將其轉(zhuǎn)換為適合的格式(見表2)。通過訓(xùn)練模型獲得最終的模型,并對船舶的目的港及ETA做出預(yù)測。
表2 輸入數(shù)據(jù)特征
研究使用了文獻(xiàn)中使用最廣泛的前向結(jié)構(gòu)人工神經(jīng)網(wǎng)絡(luò)即多層感知器(Cross-sectional Multi-Layer Perception,MLP)模型[28]。如圖2所示,多層感知器一般由輸入層、隱藏層和輸出層構(gòu)成。神經(jīng)網(wǎng)絡(luò)包含一個或多個節(jié)點(diǎn)(神經(jīng)元),分布在一個或多個隱藏層中。在這個模型中,不同層的節(jié)點(diǎn)通過單向鏈路連接。這意味著神經(jīng)網(wǎng)絡(luò)中的信息單方面地從一個層次的單位傳播到下一個層次,輸出不能用作輸入。每個鏈路中的權(quán)重應(yīng)用于輸入值。隨后將這些輸入值的加權(quán)之和插入到節(jié)點(diǎn)中的激活函數(shù)中,以激活節(jié)點(diǎn)。相似地,當(dāng)前節(jié)點(diǎn)將構(gòu)成下一隱藏層或輸出層中的輸入[29-30]。最后輸出h(k),可以表示為式(1):
圖2 人工神經(jīng)網(wǎng)絡(luò)模型
其中h(k-1)為前一層的輸出,g(.) 為激活函數(shù),W(k)為權(quán)重矩陣,b(k)為向量偏差。此外,尋找網(wǎng)絡(luò)的參數(shù)是一個被稱為擬合或?qū)W習(xí)模型的優(yōu)化問題。在回歸任務(wù)中,學(xué)習(xí)模型是通過最小化預(yù)測值和真實(shí)目標(biāo)之間的損失函數(shù)來實(shí)現(xiàn)。在訓(xùn)練階段,神經(jīng)網(wǎng)絡(luò)對來自輸入空間的每個數(shù)據(jù)進(jìn)行前向傳遞處理以獲得預(yù)測值,然后將預(yù)測輸出與真實(shí)目標(biāo)y 進(jìn)行比較。通過利用梯度下降優(yōu)化算法不斷迭代更新權(quán)值,直到達(dá)到最小損失,從而使訓(xùn)練誤差最小化。
我們使用均方誤差(MSE)來訓(xùn)練網(wǎng)絡(luò),通過計算預(yù)測值和實(shí)際值之間距離(即誤差)的平方來衡量模型優(yōu)劣。MSE的表達(dá)式為:
其中n為樣本個數(shù),yi為觀測值,為第i個樣本的預(yù)測值。我們使用平均絕對誤差(MAE)表示目標(biāo)單位內(nèi)的誤差。MAE通常被用于衡量預(yù)測或預(yù)測與最終結(jié)果的接近程度。它是所有平均預(yù)測誤差的平均值,與被測量的數(shù)據(jù)在同一尺度上。這意味著,在這種情況下,它表示預(yù)測值(船舶ETA)與實(shí)際值(船舶ATA)的平均誤差小時數(shù)。MAE的表達(dá)式為:
MSE和MAE值越低,表明模型的精確度越高。
為降低訓(xùn)練集和驗(yàn)證集所導(dǎo)致的偶然性,研究采用十折交叉驗(yàn)證法(10-fold cross-validation method),利用現(xiàn)有的數(shù)據(jù)進(jìn)行多次劃分以測試模型的準(zhǔn)確性。具體而言,原數(shù)據(jù)集隨機(jī)被分為10份子集數(shù)據(jù);此后依次將1份子集數(shù)據(jù)留作驗(yàn)證集,剩下9份子集數(shù)據(jù)作為訓(xùn)練集,對模型進(jìn)行訓(xùn)練與驗(yàn)證。在此過程中,超參數(shù)被保持一致(即保持隱藏層層數(shù)和每層神經(jīng)元個數(shù)相同)。重復(fù)流程,再根據(jù)模型的平方誤差損失(MSE)和平均絕對誤差(MAE),對超參數(shù)進(jìn)行衡量并取得最優(yōu)超參數(shù)。隨后,將原數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),用最優(yōu)超參數(shù)訓(xùn)練獲得最終的模型。
此外,在機(jī)器學(xué)習(xí)分類實(shí)驗(yàn)中,通常根據(jù)數(shù)據(jù)集的分類預(yù)測情況衡量分類的效果。基于混淆矩陣(confusion matrix)的分類評價體系是一種常用的計算指標(biāo)之一[31-32]。
跨太平洋海運(yùn)航線是全球海運(yùn)航線中最重要的一部分,連接著兩個全球最大的經(jīng)濟(jì)區(qū)域。根據(jù)Statista數(shù)據(jù)顯示,跨太平洋航線是載貨量最大的航運(yùn)區(qū)(如圖3)。因此,本研究以中美航線為例,選取中國至美國洛杉磯港和長灘港的航線。洛杉磯港與長灘港相距10km,為美國最繁忙的2個集裝箱港,也都是北美國際貿(mào)易的首要門戶。以長灘港為例,該港口每年處理價值2 000億美元的貿(mào)易,是美國為數(shù)不多的可以停泊當(dāng)今最大船只的港口之一,服務(wù)175條航線,連接世界各地的217個海港。
圖3 2022年全球主要貿(mào)易路線上的集裝箱貨運(yùn)量[33]
本研究中使用的數(shù)據(jù)均來自于準(zhǔn)時達(dá)以及Fleet-Mon(船舶跟蹤服務(wù)提供商)所提供的AIS數(shù)據(jù)。AIS系統(tǒng)通過VHF通信機(jī)、GPS定位儀和船載顯示器及傳感器等通信控制器獲取的GPS信息。AIS信息每隔幾分鐘就會更新一次,并與附近AIS站交換船舶的靜態(tài)和動態(tài)數(shù)據(jù)(如海上移動服務(wù)標(biāo)識(MMSI)、船舶名稱、船舶類型、船舶尺寸、航行狀態(tài)、轉(zhuǎn)向率、對地速度、經(jīng)度、緯度、呼號、真實(shí)航向等)重要信息。我們對2022年10月1日至2022年10月31日從中國多個港口抵達(dá)洛杉磯港和長灘港的船舶進(jìn)行了分析,共包含66個航次,具體如圖4所示。
圖4 中美航線集裝箱船舶軌跡
AIS主要依賴傳感器和人工輸入,其準(zhǔn)確性通常受到人為錯誤、設(shè)備故障、編程錯誤等影響。由于AIS數(shù)據(jù)的高冗余性和從原始AIS數(shù)據(jù)中提取船舶運(yùn)動模式的復(fù)雜性,必須對數(shù)據(jù)進(jìn)行預(yù)處理。我們通過異常值刪除、填補(bǔ)缺失值以及數(shù)據(jù)標(biāo)準(zhǔn)化等方法對數(shù)據(jù)進(jìn)行清洗和處理。以PONA 號集裝箱船(MMSI 為636092984)2022年10月的某航次為例,表3列出了用于預(yù)測該集裝箱船舶目的地和到達(dá)時間的輸入數(shù)據(jù)。該集裝箱船舶于上海港起航,途徑韓國釜山港,最終到達(dá)美國長灘港。
表3 PONA號集裝箱船相關(guān)數(shù)據(jù)
我們采用Pytorch(一種神經(jīng)網(wǎng)絡(luò)庫)構(gòu)建和訓(xùn)練模型。神經(jīng)網(wǎng)絡(luò)的輸出是由預(yù)測問題決定的,在本研究中是預(yù)測集裝箱船舶的目的地。因此,神經(jīng)網(wǎng)絡(luò)的輸出層由單個節(jié)點(diǎn)組成,該節(jié)點(diǎn)將集裝箱船舶的預(yù)測目的地作為輸出,目標(biāo)是使輸出盡可能接近實(shí)際到達(dá)的目的地。神經(jīng)網(wǎng)絡(luò)的輸入是每個航次的特征。在此模型中,神經(jīng)網(wǎng)絡(luò)有4個輸入變量,根據(jù)這些輸入變量對船舶的目的地進(jìn)行預(yù)測。本研究采用2層隱藏層,原因在于采用更深層次的神經(jīng)網(wǎng)絡(luò)能夠提高性能。此外,選擇隱藏層中的神經(jīng)元數(shù)量是至關(guān)重要的,選擇過多或過少神經(jīng)元會導(dǎo)致欠擬合或過擬合。通過不同網(wǎng)絡(luò)模型的仿真模擬,我們選擇誤差最低的網(wǎng)絡(luò)模型。本研究在第一層隱藏層采用30個神經(jīng)元節(jié)點(diǎn),第二層隱藏層采用15個神經(jīng)元節(jié)點(diǎn)。
從模型運(yùn)行結(jié)果中讀取預(yù)測標(biāo)簽與實(shí)際標(biāo)簽,并將讀取的標(biāo)簽信息傳入Python sklearn庫中的混淆矩陣函數(shù),最終得到了歸一化混淆矩陣并進(jìn)行了可視化(如圖5所示)。該混淆矩陣展示了模型的預(yù)測結(jié)果,其中對角線元素代表了正確預(yù)測目的地的程度。以香港港為例,模型顯示正確預(yù)測到達(dá)香港港的概率為91%。由于測試集中港口數(shù)量很多,我們只顯示11個港口或海域的結(jié)果。研究結(jié)果顯示該預(yù)測模型的平均準(zhǔn)確率約為80%,表明神經(jīng)網(wǎng)絡(luò)模型能較好地對于船舶目的地進(jìn)行預(yù)測。
圖5 目的地預(yù)測混淆矩陣
采用Keras(一種高層神經(jīng)網(wǎng)絡(luò)庫)構(gòu)建和訓(xùn)練模型。與船舶目的地預(yù)測模型相似,在船舶預(yù)計到達(dá)目的地時間的預(yù)測模型中,神經(jīng)網(wǎng)絡(luò)輸出層的單個節(jié)點(diǎn)將船舶ETA 作為輸出,目標(biāo)是使輸出盡可能接近ATA。神經(jīng)網(wǎng)絡(luò)的輸入是每個航次的特征。在此模型中,神經(jīng)網(wǎng)絡(luò)有4個輸入變量,根據(jù)這些輸入變量對ETA進(jìn)行預(yù)測。本研究采用2層隱藏層,在第一層隱藏層采用40個神經(jīng)元節(jié)點(diǎn),第二層隱藏層采用10個神經(jīng)元節(jié)點(diǎn)。模型需要搭配適當(dāng)?shù)募せ詈瘮?shù)以表示任意精度的任意決策邊界,并且可以擬合任何精度的任何平滑映射。在此模型中,ReLu函數(shù)被作為激活函數(shù)。
如上文所述,ETA 任務(wù)的目標(biāo)是最小化ETA 和ATA 的差距,通常采用平均絕對誤差(MAE)進(jìn)行衡量。表4展示了在中美航線(起始港距離目的港(長灘港/洛杉磯港)大于5 000 海里)檢測本模型預(yù)測ETA結(jié)果的準(zhǔn)確率。由表4可知,隨著離目的港的距離不斷縮小,應(yīng)用人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測ETA 的MAE 不斷收縮,當(dāng)距離約1 000 海里時,MAE 僅為4h。這一結(jié)果表明人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測ETA 的MAE 較低,因此,本模型能夠有效預(yù)測中美航線中集裝箱船舶的ETA。
表4 人工神經(jīng)網(wǎng)絡(luò)模型所對應(yīng)的平均絕對誤差(MAE)
本研究所使用的人工神經(jīng)網(wǎng)絡(luò)模型已通過眾多航線驗(yàn)證了其有效性。以PONA 號集裝箱船(MMSI為636092984)為例,表5展示了基于人工神經(jīng)網(wǎng)絡(luò)模型預(yù)測該船舶目的地和ETA的結(jié)果。當(dāng)船舶距下一目的港300海里時,模型預(yù)測下一目的港為韓國釜山港,此時基于人工神經(jīng)網(wǎng)絡(luò)模型所預(yù)測的ETA 與ATA 相差3h 之內(nèi)。當(dāng)船舶經(jīng)過釜山港后,距下一目的港1 000海里時,模型預(yù)測下一目的港為美國長灘港,與實(shí)際目的港一致。此時基于人工神經(jīng)網(wǎng)絡(luò)模型所預(yù)測的ETA與ATA相差4h左右。
表5 PONA號集裝箱船舶目的地及其ETA預(yù)測
準(zhǔn)確的集裝箱船舶ETA是保證港口作業(yè)管理高效的重要信息。船舶到達(dá)時間的變動會對港口運(yùn)營工作產(chǎn)生一定的影響,甚至?xí)?dǎo)致海運(yùn)供應(yīng)鏈的中斷。因此,需要通過智能系統(tǒng)準(zhǔn)確預(yù)測船舶的ETA。本文提出了一種基于人工神經(jīng)網(wǎng)絡(luò)的預(yù)測模型,結(jié)合AIS數(shù)據(jù),對集裝箱船舶在長距離海運(yùn)中的目的地和ETA進(jìn)行預(yù)測。
在國際海運(yùn)中,運(yùn)輸距離通常較長,運(yùn)輸情況復(fù)雜,運(yùn)輸時間容易受到眾多因素影響。此外,由于國際貿(mào)易中的物品通常運(yùn)輸量較大,運(yùn)輸?shù)难舆t或?qū)?dǎo)致產(chǎn)品價格波動,造成損失。我們所提出的預(yù)測模型有助于改善港口運(yùn)營規(guī)劃,特別是針對長距離海運(yùn),能夠有效管理多式聯(lián)運(yùn)中的航運(yùn)風(fēng)險,提升海運(yùn)貿(mào)易分析的準(zhǔn)確性。具體而言,針對船舶目的地和ETA的有效預(yù)測有助于有效規(guī)劃和調(diào)度港口業(yè)務(wù)。一方面,工作人員可以對于長途航行中的船舶提前干預(yù),減少在港口的等待時間甚至避免港口擁堵。另一方面,船舶和卡車的周轉(zhuǎn)時間將會減少,碼頭的裝卸作業(yè)效率或?qū)⑻岣?,同時也避免了閑置泊位,減少資源浪費(fèi)。對于貨主而言,提前知道船舶ETA同樣至關(guān)重要,這將有助于其作出相關(guān)決策以減少風(fēng)險。例如,貨主可根據(jù)船舶ETA判斷是否調(diào)整運(yùn)營策略,以減少延誤或提前到達(dá)所造成的損失。此外,改善運(yùn)營規(guī)劃或?qū)p少船舶碳排放量,減少污染。盡管機(jī)器學(xué)習(xí)方法有利于構(gòu)建高效的預(yù)測模型,但它們的訓(xùn)練需要大量的數(shù)據(jù)集和時間。由于時間限制,本研究采用了有限數(shù)量的數(shù)據(jù)集。隨著數(shù)據(jù)庫中的AIS數(shù)據(jù)量不斷更新和增多,未來將進(jìn)一步優(yōu)化模型并提高模型準(zhǔn)確性,從而獲得更好的預(yù)測結(jié)果。同時,還可以將更多因素納入考慮范圍,將該方法推廣到其他不同船舶類型和不同航線,例如將天氣因素納入模型并考慮比較不同類型船舶的預(yù)測模型等。