金 輝 劉克中 馬 杰 楊 星
(武漢理工大學(xué)航運(yùn)學(xué)院1) 武漢 430063) (內(nèi)河航運(yùn)技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室2) 武漢 430063)
船舶到達(dá)規(guī)律分布是航道通過能力確定的主要依據(jù),也是航道通航尺度設(shè)計(jì)及航道事故分析的理論基礎(chǔ),同時(shí),也為船舶行為分析、組織調(diào)度和管理等方面提供數(shù)據(jù)支持.近年來,隨著我國海上貿(mào)易的發(fā)展,各大主航道的船舶交通流量急劇增加,港口船舶交通流量的迅速增加使得港口交通趨于復(fù)雜化,由于船舶到達(dá)種類的混合性、到達(dá)時(shí)間的隨機(jī)性,以及由于經(jīng)濟(jì)和自然等條件帶來的港口差異性,給船舶到達(dá)規(guī)律的研究帶來困難.
目前,國內(nèi)外船舶到達(dá)規(guī)律的研究主要是統(tǒng)計(jì)分析,反映船舶交通特性與規(guī)律的基本形式是統(tǒng)計(jì)分布[1-2].劉亮等[3]通過統(tǒng)計(jì)荊州長江大橋船舶交通流量的觀測數(shù)據(jù),研究得出船舶的到達(dá)規(guī)律服從泊松分布.譚志榮等[4]以2008—2009年荊州長江大橋的船舶交通流量觀測數(shù)據(jù)為樣本,研究得出船舶到達(dá)時(shí)間間隔服從二項(xiàng)分布、船舶交通流量服從泊松分布.劉敬賢等[5]使用數(shù)理統(tǒng)計(jì)的方法以天津港2003—2005年船舶到港觀測數(shù)據(jù)為樣本,得出天津港主航道的船舶日到達(dá)艘數(shù)符合正態(tài)分布.初秀民等[6]發(fā)現(xiàn)蕪湖段船舶到達(dá)時(shí)距符合對數(shù)正態(tài)分布,武漢段則符合正態(tài)分布.Kuo[7]評估航道的通過能力時(shí),發(fā)現(xiàn)船舶到達(dá)時(shí)間間隔符合Erlang分布,其分布系數(shù)k隨數(shù)據(jù)的觀測規(guī)模增大而降低.Lyu[8]在預(yù)測防城港交通流量時(shí),對防城港船舶的到達(dá)和駛離數(shù)據(jù)進(jìn)行詳細(xì)統(tǒng)計(jì)得到到達(dá)的數(shù)量直方圖,最后擬合得出船舶到達(dá)時(shí)距服從負(fù)二項(xiàng)分布和t分布.
除了選取某一單一分布模型對船舶到達(dá)規(guī)律進(jìn)行假設(shè)外,還可選取多個單一分布模型進(jìn)行假設(shè)通過對比得到更能準(zhǔn)確表征到達(dá)規(guī)律的模型.孟范立[9]選用泊松分布和負(fù)二項(xiàng)分布建立船舶到達(dá)規(guī)律模型,實(shí)驗(yàn)發(fā)現(xiàn)負(fù)二項(xiàng)分布能夠更好地表征船舶到達(dá)規(guī)律.熊振南等[10]在統(tǒng)計(jì)研究計(jì)算船舶流分布時(shí),發(fā)現(xiàn)負(fù)二項(xiàng)分布比泊松分布更能反映出交匯水域中船長超過180 m的船舶到達(dá)的實(shí)際情況.Chai[11]研究巴西某港口的到達(dá)規(guī)律時(shí)發(fā)現(xiàn),PearsonVI型分布相比于韋伯分布、愛爾朗分布和指數(shù)分布更能夠反應(yīng)該港口的到達(dá)過程.
上述方法均只考慮了對單個分布的擬合與檢驗(yàn),對船舶交通流的復(fù)雜性與混合性考慮不足,為了盡可能的減小誤差,在上述研究的基礎(chǔ)上,提出了基于高斯混合模型(GMM)的到船舶到達(dá)規(guī)律的建模方法,來提升船舶到達(dá)規(guī)律的擬合優(yōu)度.
高斯混合模型(Gaussian mixture model)是一個常用的描述混合密度分布的模型,即多個高斯分布的混合分布,改模型融合了參數(shù)估計(jì)法和非參數(shù)估計(jì)法的優(yōu)點(diǎn),既不局限于特定的概率密度函數(shù)形式,而且模型的復(fù)雜度僅與所求解的問題有關(guān)、與樣本集合的大小無關(guān).高斯混合模型的一個重要特性是,如果模型中的成員足夠多,它能夠以任意精度逼近任意的連續(xù)分布.
高斯混合模型作為一種統(tǒng)計(jì)模型,能夠很好的刻畫參數(shù)空間中數(shù)據(jù)的分布及其特性,其原理簡單來說就是用高斯概率密度函數(shù)精確地量化事物,它是一個將事物分解為K個基于高斯概率密度函數(shù)的線性組合而形成的模型,其表達(dá)式為
(1)
式中:N(x;θk)為高斯分布函數(shù),每個高斯分布稱為一個高斯部件,每一個分量k有自己的參數(shù)集θk={μk,Σk};μk為均值向量;Σk為協(xié)方差矩陣;πk為混合參數(shù),將它作為數(shù)據(jù)樣本產(chǎn)生自第k個高斯分布的先驗(yàn)概率,則該先驗(yàn)概率滿足條件:
(2)
對于給定的數(shù)據(jù),在使用GMM進(jìn)行曲線擬合時(shí)必須確定模型中高斯部件個數(shù)K以及各個高斯部件內(nèi)的未知參數(shù),即πk,μk和Σk.
最大期望算法(expectation maximization algorithm,EM算法),是常用的一種GMM參數(shù)估計(jì)方法,用于求含有隱含變量的概率參數(shù)模型的最大似然估計(jì)或極大后驗(yàn)概率估計(jì).
EM算法的迭代過程可以分為兩步:
1) E-step 根據(jù)參數(shù)初始值或上一次迭代值來計(jì)算對數(shù)似然函數(shù)的期望,并不斷建立對數(shù)似然函數(shù)的下界.
2) M-step 用第一步得到的結(jié)果將似然函數(shù)最大化以獲得新的參數(shù)值,即優(yōu)化優(yōu)化對數(shù)似然函數(shù)的下界.
當(dāng)高斯混合模型中的高斯部件個數(shù)為K時(shí),EM算法E-step中數(shù)據(jù)xi由第k個部件生成的概率為
(3)
在給定生成的概率后,M-step更新其他參數(shù),以最大化對數(shù)似然估計(jì)值,參數(shù)更新公式為
(4)
(5)
∑(t+1)k=
在使用EM算法進(jìn)行參數(shù)估計(jì)時(shí)通常需要給出初始值,即模型參數(shù)的先驗(yàn)概率,對于本文研究的船舶到達(dá)規(guī)律模型中的參數(shù),無法給出較為可靠的先驗(yàn)概率.因此,本文結(jié)合交叉驗(yàn)證法來對數(shù)據(jù)進(jìn)行分類從而得到高斯部件個數(shù)K,交叉驗(yàn)證的基本思想是將原始數(shù)據(jù)進(jìn)行分組,一部分做為訓(xùn)練集,另一部分做為驗(yàn)證集,首先用訓(xùn)練集對分類器進(jìn)行訓(xùn)練,再利用驗(yàn)證集來測試訓(xùn)練得到的模型,以此來做為評價(jià)分類器的性能指標(biāo).
在用交叉驗(yàn)證得到高斯部件個數(shù)后采取似然估計(jì)值的方法對得到的K進(jìn)行驗(yàn)證.通過先確定高斯部件個數(shù)再用EM算法對未知參數(shù)進(jìn)行估計(jì)的方法,有效的解決了船舶到達(dá)參數(shù)先驗(yàn)概率難以確定的難點(diǎn).
以一月份時(shí)間間隔數(shù)據(jù)為例,使用10折交叉驗(yàn)證,即將數(shù)據(jù)等分為10份,其中9份作為訓(xùn)練集1份作為驗(yàn)證集,來對數(shù)據(jù)進(jìn)行分類,循環(huán)10次得到分類器的平均值為6.在此之后,通過改變EM算法初始高斯部件個數(shù)并比較最大似然估計(jì)值,并與交叉驗(yàn)證得到的結(jié)果進(jìn)行對比,結(jié)果表明,EM算法的似然估計(jì)值在K=6時(shí)收斂,與交叉驗(yàn)證結(jié)果相吻合.結(jié)果見圖1.
圖1 似然估計(jì)值隨高斯分量K的變化
蝦峙門航道呈西北-東南走向,寬5鏈~15鏈,航道水深23.1~123 m,是大型船舶進(jìn)入寧波-舟山港的主要航道,也是對外籍船舶開放的航道,外籍船舶和超大型船舶一律應(yīng)由蝦峙門水道進(jìn)入港域.隨著世界貿(mào)易的加強(qiáng),寧波-舟山港的吞吐量已經(jīng)躋身世界港口前三強(qiáng),蝦峙門水道內(nèi)每日來往的船只數(shù)量呈爆炸式增長.
圖2為蝦峙門水域部分船舶的航跡圖.由圖2可知,蝦峙門水道交通流密度較大,交通十分繁忙,因此對蝦峙門水道船舶到達(dá)數(shù)據(jù)的統(tǒng)計(jì)與到達(dá)規(guī)律的研究就顯得尤為重要.
圖2 蝦峙門水道附近水域AIS航跡圖
經(jīng)統(tǒng)計(jì)得,2015年全年各類船舶進(jìn)入蝦峙門航道2.6萬艘·次,除去特殊船舶以外,平均到達(dá)數(shù)量為1 633艘·次/月.
圖3為將所有船舶數(shù)據(jù)按船舶類型分類統(tǒng)計(jì)的結(jié)果,其中,貨船、危險(xiǎn)品船、未知船舶類型的船舶以及油輪占比超過了70%,是蝦峙門水道到達(dá)船舶的主要類型.
圖4為2015年各月各類船舶到達(dá)數(shù)量,由圖4可知,進(jìn)一步對各月的船舶進(jìn)行統(tǒng)計(jì),各類船舶各月的到達(dá)數(shù)據(jù)分布較為均勻,且每月到達(dá)的主要船舶類型也是貨輪、危險(xiǎn)品船、未知船舶類型的船舶以及油輪.
圖3 2015年達(dá)到船舶分類統(tǒng)計(jì)
圖4 2015年各月各類船舶到達(dá)數(shù)量
為了驗(yàn)證GMM模型的效果,將其與傳統(tǒng)的到達(dá)規(guī)律模型進(jìn)行比較.首先運(yùn)用單樣本的Kolmogorov-Smirnov檢驗(yàn)(KS檢驗(yàn))對數(shù)據(jù)進(jìn)行常見分布最優(yōu)參數(shù)下的假設(shè)檢驗(yàn),單樣本KS檢驗(yàn)是檢驗(yàn)單一樣本是否服從某一預(yù)先假設(shè)的特定分布的方法,p.value為接收原假設(shè)的概率.本文實(shí)驗(yàn)選取的數(shù)據(jù)分為兩組,一組是全年的數(shù)據(jù),包括全年總體數(shù)據(jù)、全年貨船數(shù)據(jù),以及全年油船數(shù)據(jù);另一組是一月份的數(shù)據(jù),包括一月總體數(shù)據(jù)、一月貨船數(shù)據(jù)和一月油船數(shù)據(jù),表1為檢驗(yàn)結(jié)果.
表1 不同船舶到達(dá)數(shù)據(jù)的KS檢驗(yàn)結(jié)果
將數(shù)據(jù)分別對正態(tài)分布、泊松分布、指數(shù)分布、瑞麗分布、伽瑪分布等進(jìn)行KS檢驗(yàn),結(jié)果如上表所示,其中除了全年油船數(shù)據(jù)的指數(shù)分布、一月油船數(shù)據(jù)的指數(shù)分布以及一月油船數(shù)據(jù)的伽馬分布的p.value大于0.001,即接受分布的假設(shè),其余的p.value均小于0.001,即不接受分布的假設(shè).也就是說除了特定時(shí)間力度下的個別船型以外,常見的一元分布模型難以對蝦峙門水道的船舶到達(dá)規(guī)律進(jìn)行表征.
用GMM對2015年全年總體數(shù)據(jù)進(jìn)行擬合,首先通過交叉驗(yàn)證對高斯部件個數(shù)進(jìn)行計(jì)算,結(jié)果為9.在得到高斯部件的個數(shù)后,用EM算法對各個高斯部件的參數(shù)進(jìn)行估計(jì).
根據(jù)式(1)、(4)、(5)、(6),2015年船舶到達(dá)時(shí)間間隔為服從以下參數(shù)的高斯混合分布
即:
p(x)=0.1N(39.779 8,8.619 6)+0.18N(14.662 2,5.333 9)+0.45N(7.672 9,3.679 8)+
0.01N(154.400 3,31.838)+0.01N(214.747 2,71.884 9)+0.12N(25.627 3,7.134)+
0.04N(79.157 8,11.228 9)+0.02N(109.346 5,17.617)+0.07N(58.587 6,10.097 6)
同樣的,通過GMM得到2015年一月船舶到達(dá)時(shí)間間隔服從以下參數(shù)的高斯混合分布:
即:
p(x)=0.1N(39.779 8,8.619 6)+0.18N(14.662 2,5.333 9)+0.45N(7.672 9,3.679 8)+
0.01N(154.400 3,31.838)+0.01N(214.747 2,71.884 9)+0.12N(25.627 3,7.134)+
0.04N(79.157 8,11.228 9)+0.02N(109.346 5,17.617)+0.07N(58.587 6,10.097 6)
將以上模型產(chǎn)生的數(shù)據(jù)與2015年到達(dá)數(shù)據(jù)進(jìn)行比對.圖5為真實(shí)數(shù)據(jù)與隨機(jī)生成的到達(dá)數(shù)據(jù)的核密度估計(jì)曲線,兩圖內(nèi)的兩曲線誤差很小,用KS檢驗(yàn)測試兩組數(shù)據(jù)是否服從同一分布,得到的p.value分別為0.143 3和0.111 9,表明檢驗(yàn)接受了隨機(jī)生成的到達(dá)數(shù)據(jù)與實(shí)際數(shù)據(jù)服從統(tǒng)一分布的假設(shè),證明GMM對船舶到達(dá)時(shí)間間隔數(shù)據(jù)進(jìn)行擬合得到的分布及其參數(shù)能夠比較準(zhǔn)確的反映船舶到達(dá)規(guī)律.
圖5 總體船舶到達(dá)數(shù)據(jù)與模擬數(shù)據(jù)對比圖
同樣的,使用GMM模型可分別得到貨船和油輪到達(dá)數(shù)據(jù)的分布,且均通過KS檢驗(yàn).最后,為了更加直觀的比較GMM模型和傳統(tǒng)模型之間的差異性,使用相對熵(relative entropy)來對兩個概率之間的差異進(jìn)行描述與比較,兩個分布之間的相對熵越大說明兩個分布之間的差異越大.經(jīng)過計(jì)算,一月油輪數(shù)據(jù)概率分布與GMM模型、指數(shù)分布模型與伽瑪分布模型之間的相對熵分別為:0.553 7,0.863 7,1.022 4.說明一月油輪數(shù)據(jù)與GMM模型的模擬數(shù)據(jù)之間最接近,與伽瑪分布模型的模擬數(shù)據(jù)之間差異最大,不同模型的數(shù)據(jù)對比見圖6.
圖6 不同模型間數(shù)據(jù)對比圖
1) 通過實(shí)驗(yàn)與分析可知,船舶的到達(dá)是一個較為復(fù)雜的過程,不同船舶類型的到達(dá)規(guī)律是不同的,通過使用GMM建模發(fā)現(xiàn),在不同時(shí)間長度下,船舶的到達(dá)時(shí)間間隔曲線走勢基本保持一致,即船舶到達(dá)時(shí)間間隔受研究時(shí)間長度的影響較小.全部船舶的到達(dá)時(shí)間間隔分布與各類船舶的到達(dá)時(shí)間間隔分布走勢也大體一致,表明全部船舶到達(dá)時(shí)間間隔分布可以通過各類船舶的到達(dá)時(shí)間間隔按一定的比例混合而成,這也符合了高斯混合模型的建模思想.
2) 將GMM模型運(yùn)用到船舶到達(dá)規(guī)律的研究中,考慮到了船舶到達(dá)過程的隨機(jī)性、復(fù)雜性與區(qū)域差別性,解決了傳統(tǒng)單一分布模型無法較準(zhǔn)確的描述到達(dá)規(guī)律的問題,提高了到達(dá)規(guī)律曲線的擬合優(yōu)度.
3) GMM模型雖然盡可能的提高了船舶到達(dá)規(guī)律曲線的擬合優(yōu)度,但是仍存在一些難以解決的問題,比如:該模型無法像傳統(tǒng)的單一分布模型一樣給出船舶到達(dá)規(guī)律的準(zhǔn)確λ值,最終的模型參數(shù)較為復(fù)雜等,在今后的研究過程中將進(jìn)一步完善.
4) GMM模型的研究對更加精確的掌握船舶通行規(guī)律、交通流量的數(shù)學(xué)分布,以及科學(xué)合理的開展水上交通的控制與管理具有重要意義.