張曉東, 張浩, 陳亮, 肖英杰
(1.上海海事大學(xué) 商船學(xué)院,上海 201306; 2. 上海海事局,上海 200086)
船舶事故的分析、預(yù)測、評價技術(shù)已成為現(xiàn)代船舶安全管理的核心.水上交通事故預(yù)測根據(jù)過去和現(xiàn)在的事故統(tǒng)計資料,分析近期和未來的事故發(fā)展態(tài)勢.事故預(yù)測的精確性[1]主要基于兩個基本前提:一是可知的信息;二是正確的事故預(yù)測方法.近年來,事故調(diào)查分析技術(shù)與方法逐漸成為研究的熱點.國內(nèi)外學(xué)者對水上交通事故的分析和預(yù)測已取得一些重要研究成果.常用事故預(yù)測方法有回歸預(yù)測法、時間序列預(yù)測法、馬爾可夫預(yù)測法、灰色預(yù)測法、貝葉斯網(wǎng)絡(luò)預(yù)測法、人工神經(jīng)網(wǎng)絡(luò)預(yù)測法、支持向量機預(yù)測法等.張玲等[2]提出考慮事件次序及其影響因素的多種調(diào)查技術(shù)組合分析法.楊家軒等[3]提出采用電子海圖技術(shù)建立水上交通事故信息系統(tǒng).黃志[4]采用灰色系統(tǒng)理論中的關(guān)聯(lián)分析原理,對臺灣海峽發(fā)生事故的特點及規(guī)律進(jìn)行分析.徐國裕等[5]運用灰色關(guān)聯(lián)系統(tǒng)分別分析300總噸及以上船舶在臺灣海峽及其附近水域中發(fā)生的海難事故.熊清平等[6]指出目前我國對事故的分類和統(tǒng)計不規(guī)范、不完善,缺乏可比性和準(zhǔn)確性.何易培等[7]構(gòu)建寧波—舟山海區(qū)涉漁碰撞事故多發(fā)原因結(jié)構(gòu)模型,提出針對性的預(yù)警預(yù)防預(yù)控措施.牟軍敏等[8]提出應(yīng)用數(shù)據(jù)挖掘技術(shù)全面整理、分析內(nèi)河船舶交通事故的思想.劉正江等[9]利用數(shù)據(jù)挖掘技術(shù)確定船舶避碰過程中人失誤與引發(fā)因素之間的對應(yīng)關(guān)系.王鳳武等[10]提出針對大風(fēng)浪天氣發(fā)生的海損事故,運用灰色系統(tǒng)理論中的關(guān)聯(lián)分析方法,得出造成海損事故的主因是船舶不適航和人為因素. 張欣欣等[11]基于HFACS對水上交通事故原因進(jìn)行系統(tǒng)分析.周偉等[12]提出艙面集裝箱墜海事故再現(xiàn)仿真方法.陳咫宇等[13]提出基于分形理論的水上交通事故預(yù)測模型.于衛(wèi)紅等[14]提出海難數(shù)據(jù)倉庫的雪花模型. 鐘連德等[15]在路段劃分和影響因素分析的基礎(chǔ)上,利用收集的多條高速公路數(shù)據(jù)建立基于廣義線性回歸的高速公路事故預(yù)測模型.以上研究對事故致因進(jìn)行較詳盡的闡述,本文從我國海事局的事故統(tǒng)計調(diào)查和回歸分析的角度對水上交通事故進(jìn)行預(yù)測.
對事故進(jìn)行分類是分析事故發(fā)生內(nèi)在規(guī)律的一項重要內(nèi)容,目前在各國的海難統(tǒng)計法規(guī)中,大多數(shù)國家按事故的直接原因?qū)Υ昂叫惺鹿蔬M(jìn)行分類.本文以國內(nèi)某港區(qū)航道及附近水域為例進(jìn)行事故統(tǒng)計分析.
該水域船舶交通流量大,船舶大小和類型多樣,航道曲折狹窄,多條航道連通港口,含有單點和雙點系泊浮筒,船舶事故時有發(fā)生.不同類型船舶發(fā)生事故統(tǒng)計結(jié)果見表1.
表1 事故船型分布百分比 %
通過對近幾年(2002—2007年)水上交通事故的收集和整理,按事故類型和事故船舶類型統(tǒng)計的結(jié)果見圖1.
圖1 事故類型統(tǒng)計
由圖1可知,該水域事故種類主要為碰撞、觸碰或浪損事故,其次是沉沒事故,其他類型的事故則相對較少.碰撞、觸碰或浪損事故主要涉及到大船與大船、大船與小船、小船與小船之間發(fā)生的水上交通事故,事故中的小型船舶包括漁船、工程船、交通船、小型運輸船等,該類事故嚴(yán)重時會造成受損船舶的沉沒.
事故發(fā)生水域位置的百分比見表2.
表2 事故發(fā)生位置百分比 %
圖2 事故地點分布
從事故地點可以看出:在主航道和警戒區(qū)等交叉航道較多水域易發(fā)生事故,這與該水域通航環(huán)境復(fù)雜、交通流擁擠和沖突相一致.
2002—2007年有記錄時間的部分水上交通事故按時間統(tǒng)計見圖3.
圖3 事故發(fā)生時間統(tǒng)計圖
從圖3可以看出,船上大副、二副、三副值班的班次都有事故發(fā)生,但根據(jù)時間節(jié)點分析,大多數(shù)事故發(fā)生在白天,而且基本集中在日出和日落期間.由于大船的航行通常不太注重白天黑夜的影響,而在該水域航行的一些小船一般白天開航、夜間停航休息,加上日出和日落期間往往是駕引人員心理疲憊和煩躁的時間段,如果上述兩方面正好相遇,則將在此時間、空間發(fā)生事故.
通過以上對事故數(shù)據(jù)的統(tǒng)計分析,可以對事故發(fā)生的原因進(jìn)行定性分析,為定量分析提供依據(jù).
在建模之前進(jìn)行一系列描述性的統(tǒng)計和相關(guān)分析,確定可能影響事故發(fā)生的最為基本和最為重要的因素,最終確定可以進(jìn)入模型的若干個相互獨立的變量,根據(jù)因變量和自變量的特點選擇計數(shù)模型. EViews軟件提供計數(shù)數(shù)據(jù)的多種估計方法[16],有標(biāo)準(zhǔn)泊松和負(fù)二項極大似然法(ML)及擬極大似然法(QML).
定性變量的常見分布類型有二項分布、多項分布、泊松分布、負(fù)二項分布等.事故數(shù)量、死亡和失蹤人數(shù)、受傷人數(shù)是任意非負(fù)整數(shù),是典型的計數(shù)數(shù)據(jù),不服從正態(tài)分布,而可能服從泊松分布或負(fù)二項分布,所以在計量分析時采用計數(shù)模型比線性模型更合適.假定被解釋變量的離散取值服從某種泊松分布[17],其分布函數(shù)為
(1)
式中:λ=E(yi),λ=Var(yi),即隨機變量y的均值與方差均為λ;若以X=(x1,x2,…,xm)表示影響λ的m個自變量,泊松回歸模型就是描述服從泊松分布的目標(biāo)變量y的均值λ與解釋變量X之間關(guān)系的回歸模型,可以表示為
logλ=Xβ
(2)
式中:β為待估計的參數(shù),它可以采用迭代非線性加權(quán)最小二乘法或極大似然法估算.在給定xi的條件下,yi的條件密度為
(3)
如果隨機變量yi的均值等于方差,那么泊松最大似然估計就是一致和有效的.而實際上的事故數(shù)量數(shù)據(jù)往往具有過離散特征,如果在隨機變量yi過度發(fā)散(即方差大于均值)的情況下仍然使用泊松回歸模型,可能會低估參數(shù)的標(biāo)準(zhǔn)誤差,高估其顯著性水平,從而在模型中保留多余的解釋變量,最終導(dǎo)致不合理的結(jié)果.為消除這種不利影響,使用負(fù)二項回歸模型代替泊松回歸模型進(jìn)行估計,通過引入伽馬分布的誤差項構(gòu)建負(fù)二項分布,負(fù)二項回歸模型在條件均值μ中引入一個獨立的隨機效應(yīng)u,從而擴展泊松回歸模型,即logμi=logλi+logui,則負(fù)二項回歸模型的回歸形式[15]為
logμi=xiβ+ei
(4)
式中:ei為隨機誤差(exp(ei)服從Γ分布).在負(fù)二項回歸模型中,yi對xi,ui的條件分布仍為泊松分布:
f(yi|xi,ui)=(exp(-λiui)(λiui)yi)/yi!
(5)
此時,隨機變量yi的條件均值和方差分別為λ和λ(1+η2λ),其中η2=1/yi,是對條件方差超出條件均值程度即發(fā)散程度的衡量.
(1)用QML進(jìn)行參數(shù)估計.QML是在一系列分布假定下才能實現(xiàn)的,它的估計比較穩(wěn)健,即使分布指定錯誤也能產(chǎn)生正確定義條件均值參數(shù)的一致估計.結(jié)果這種穩(wěn)健性類似于普通回歸:即使殘差分布非正態(tài),ML估計也是一致的.普通最小二乘法中,一致性要求是條件均值m(x,β)=x′β,而在QML中,一致性要求有m(x,β)=exp(x′β).估計標(biāo)準(zhǔn)差的方法是用信息矩陣的逆計算得到,但不具備一致性,除非y的條件分布指定正確.然而即使指定錯誤,用一種穩(wěn)健的方式估計標(biāo)準(zhǔn)差仍是可能的.
(2)參數(shù)估計檢驗.離散數(shù)據(jù)計數(shù)模型的參數(shù)估計是通過極大似然估計實現(xiàn)的,估計參數(shù)的檢驗主要通過Wald檢驗完成.參數(shù)檢驗有助于對抽樣總體的均值作出一些推斷,Wald檢驗類似于線性回歸模型中的t檢驗,因此常被稱為廣義t檢驗.Wald檢驗的假設(shè)為H0:βj=0.建立t統(tǒng)計量為
(6)
(3)按如下準(zhǔn)則進(jìn)行模型的擬合優(yōu)度校準(zhǔn)、驗證和變量的引入判別:①PesudoR2統(tǒng)計量對模型進(jìn)行擬合優(yōu)度檢驗,R2值較大說明擬合得較好;②log likelihood(LL)對數(shù)極大似然函數(shù)值是基于極大似然估計得到的統(tǒng)計量,對數(shù)似然值用于說明模型的精確性,越大說明模型越精確;③t估計參數(shù)的顯著性在5%水平;④Pearson卡方值和自由度的比值在0.8~1.2之間;⑤Akaike’s Information Criteria (AIC)準(zhǔn)則,用于評價模型的好壞,一般要求AIC值越小越好.
使用上述技術(shù)方案得到分析預(yù)測模型.由于建模過程中引入模型擬合優(yōu)度校準(zhǔn)、驗證和變量引入判別規(guī)則,使最終獲得的預(yù)測模型具有較好的擬合優(yōu)度,從而使模型的預(yù)測精度得以提高.
水上交通事故的發(fā)生是多種因素綜合作用的結(jié)果,各個影響因素相互關(guān)聯(lián),而相關(guān)性較大的自變量不能同時加入模型.因此,在建模之前進(jìn)行一系列描述性的統(tǒng)計和相關(guān)分析,最終確定12個相互獨立的變量,見表3.從海事事故數(shù)據(jù)的特點和海事局事故數(shù)據(jù)統(tǒng)計的規(guī)律,以及便于獲取、統(tǒng)計和分析的角度,選取傷亡數(shù)作為輸出變量,選取影響事故發(fā)生的參數(shù)(船舶注冊地、事故類型、事故船舶類型、事故發(fā)生位置和事故發(fā)生時間)作為解釋變量,這5個解釋變量分別有2個、3個、3個、2個和2個風(fēng)險水平,共72個風(fēng)險水平,針對以上風(fēng)險水平運用EViews軟件對數(shù)據(jù)進(jìn)行擬合.
首先采用負(fù)二項分布形式進(jìn)行回歸預(yù)測,把全部自變量代入模型.回歸結(jié)果表明:有些變量在統(tǒng)計模型上是不顯著的,不能拒絕其系數(shù)為0的假設(shè);有些變量的回歸系數(shù)有悖于常理;同時,發(fā)現(xiàn)因為定性指標(biāo)過多而出現(xiàn)多重共線性.采取逐步回歸消除多重共線性,分別擬合被解釋變量相對于每個解釋變量的一元回歸,并將各回歸方程的擬合優(yōu)度R2按照大小順序進(jìn)行排序;然后將R2大的解釋變量加入模型中進(jìn)行估計,根據(jù)模型估計結(jié)果進(jìn)行參數(shù)估計值的t檢驗,若t檢驗顯著,則保留,否則剔除該變量,不斷重復(fù)該過程直到加入所有顯著的變量.最終保留船舶注冊地a1,2個事故類型變量b1和b3,2個船舶類型變量c2和c3,2個事故水域位置變量d1和d2,事故發(fā)生時間e1,重新建立模型.運用EViews軟件對數(shù)據(jù)進(jìn)行擬合,擬合結(jié)果見表4.
表3 統(tǒng)計和相關(guān)分析變量
EViews軟件擬合結(jié)果為:@EXP(-0.271 933 715 6c+1.042 835 302a1-1.079 165 854b1-0.956 563 531 9b3+2.152 955 984c2+2.347 856 323c3+2.619 790 039d1+1.864 938 605d2-0.323 531 493 4e1)其中,@EXP表示返回指數(shù)值.
α是負(fù)二項分布的回歸參數(shù),用來表示數(shù)據(jù)的過離散程度,α越大數(shù)據(jù)越離散(方差大于均值),α為0時,數(shù)據(jù)服從泊松分布.模型間的優(yōu)劣比選以AIC統(tǒng)計量、log likelihood 為判定標(biāo)準(zhǔn), 通過比較表4中2種分布模型的回歸指標(biāo),可以看出負(fù)二項分布形式的預(yù)測模型較好.比較兩個模型的擬合情況,表明負(fù)二項回歸模型的擬合優(yōu)度好于泊松回歸模型. 事故傷亡數(shù)的殘差值、實際值和預(yù)測值結(jié)果見圖4.
建立基于負(fù)二項回歸的事故預(yù)測模型,選取傷亡數(shù)作為輸出變量,選取影響事故發(fā)生的參數(shù)(船舶注冊地、事故類型、事故船舶類型、事故發(fā)生位置等)作為解釋變量,分析發(fā)現(xiàn)事故船舶類型和事故類型對模型的影響顯著.從變量的顯著性看,各個變量都比較顯著,它們對事故受傷人數(shù)的影響較大.估計結(jié)果顯示在表示船舶注冊地的2個屬性中,1.042 835表示來自國內(nèi)注冊的船舶對事故發(fā)生產(chǎn)生較大影響,傷亡數(shù)更多,這反映國內(nèi)注冊船舶與國外還注冊船舶存在較大差距;在表示事故類型的3個屬性變量中,船舶發(fā)生碰撞比沉沒情況下傷亡數(shù)要少;在表示船型的3個屬性變量中,漁船和駁船上船員人數(shù)較多、保障措施比集裝箱船和油船差(模型中未引入,相當(dāng)于0),發(fā)生的傷亡數(shù)明顯大.因為漁船和客船等在白天航行,夜間通航視線較差,船員易出現(xiàn)疲勞等,所以夜間發(fā)生傷亡數(shù)比白天多.研究結(jié)果與國內(nèi)外學(xué)者的研究成果相一致,對防范我國水上交通事故具有參考意義.
表4 回歸結(jié)果比較
圖4 事故傷亡數(shù)的殘差值、實際值和預(yù)測值
參考文獻(xiàn):
[1] 鄭小平, 高金吉, 劉夢婷. 事故預(yù)測理論與方法[M]. 北京: 清華大學(xué)出版社, 2009.
[2] 張玲, 陳國華. 事故調(diào)查分析方法與技術(shù)述評[J]. 中國安全科學(xué)學(xué)報, 2009, 19(4): 169-176.
[3] 楊家軒, 史國友, 賈傳熒. 水上交通事故管理系統(tǒng)設(shè)計與實現(xiàn)[J]. 中國航海, 2008, 31(4): 375-378.
[4] 黃志. 福建沿海船舶事故的灰色關(guān)聯(lián)分析[J]. 上海海事大學(xué)學(xué)報, 2006, 27(1): 21-25.
[5] 徐國裕, 張運杰, 吳兆麟. 臺灣海峽及附近水域海難事故的灰色關(guān)聯(lián)分析[J]. 中國航海, 2007(1): 25-28.
[6] 熊清平, 孫清. 水上交通事故分類與統(tǒng)計方法探討[J]. 天津航海, 2009(2): 39-42.
[7] 何易培, 池方慶, 戴東起. 舟山外海區(qū)涉漁碰撞事故原因分析與對策研究[J]. 中國航海, 2008, 31(4): 400-404.
[8] 牟軍敏, 鄒早建, 齊傳新. 數(shù)據(jù)挖掘技術(shù)在內(nèi)河交通事故分析和預(yù)防中的應(yīng)用[J]. 中國航海, 2004 (1): 27-29.
[9] 劉正江, 吳兆麟. 基于船舶碰撞事故調(diào)查報告的人的因素數(shù)據(jù)挖掘[J]. 中國航海, 2004(2): 1-6.
[10] 王鳳武, 吳兆麟, 鄭中義. 大風(fēng)浪海損事故的灰色關(guān)聯(lián)分析[J]. 大連海事大學(xué)學(xué)報, 2003, 29(4): 31-34.
[11] 張欣欣, 軒少永, 席永濤, 胡甚平. 基于 HFACS 的海上交通事故原因系統(tǒng)分析[J]. 上海海事大學(xué)學(xué)報, 2012, 33(4): 15-19.
[12] 周偉, 吳善剛, 肖英杰, 等. 艙面集裝箱墜海事故再現(xiàn)仿真[J]. 上海海事大學(xué)學(xué)報, 2011, 32(2): 47-51.
[13] 陳咫宇, 胡甚平, 郝嚴(yán)斌. 基于分形理論的水上交通事故預(yù)測[J]. 上海海事大學(xué)學(xué)報, 2009, 30(3): 18-21.
[14] 于衛(wèi)紅, 賈傳熒. 海難事故的數(shù)據(jù)挖掘[J]. 計算機工程, 2007, 33(11): 34-36.
[15] 鐘連德, 孫小端, 陳永勝. 高速公路事故預(yù)測模型[J]. 北京工業(yè)大學(xué)學(xué)報, 2009, 35(7): 966-971.
[16] 易丹輝. 數(shù)據(jù)分析與 EViews 應(yīng)用[M]. 北京: 中國統(tǒng)計出版社, 2012.
[17] 謝建國. 經(jīng)濟影響、政治分歧與制度摩擦——美國對華貿(mào)易反傾銷實證研究[J]. 管理世界, 2006(12): 8-16.
[18] 徐飛. 負(fù)二項回歸模型在過離散型索賠次數(shù)中的應(yīng)用研究[J]. 統(tǒng)計教育, 2009(4): 53-55.