楊柏丞, 馬建斌, 王哲凱, 陳紅玉
(大連海事大學(xué) 航海學(xué)院, 遼寧 大連 116026)
在船舶導(dǎo)航系統(tǒng)的智能化、船舶駕駛員的高素質(zhì)化及各國(guó)海事主管機(jī)關(guān)的努力下,我國(guó)沿海海事事故整體呈逐年下降趨勢(shì)。但部分海域由于航路復(fù)雜、船舶密集及自然環(huán)境惡劣等原因,保障海上航行安全仍是當(dāng)前研究的熱點(diǎn)問(wèn)題。鑒于此,為找出海事事故的主要致因,減少船舶航行風(fēng)險(xiǎn),國(guó)內(nèi)外專家學(xué)者從不同角度對(duì)不同海域的交通事故進(jìn)行了廣泛研究,且取得的成果頗豐。當(dāng)前主要的研究方法是對(duì)復(fù)雜海域進(jìn)行安全評(píng)估,從人-船與貨物-環(huán)境-管理等方面建立指標(biāo)體系,并采用模糊理論、灰色關(guān)聯(lián)及神經(jīng)網(wǎng)絡(luò)等算法,確定不同海域的風(fēng)險(xiǎn)等級(jí),并識(shí)別出目標(biāo)海域的主要風(fēng)險(xiǎn),為駕駛員在操縱船舶過(guò)程中提供一定的指導(dǎo)和借鑒作用;但該類方法在指標(biāo)體系的建立過(guò)程中由于存在較多的主觀因素,且沒(méi)有事故數(shù)據(jù)作為支撐,在精度和航海實(shí)踐驗(yàn)證方面尚有不足[1-5]。
為更加全面尋找事故的潛在致因,驗(yàn)證海事事故信息與各致因之間的關(guān)聯(lián)性,GOERLANDT等[6]對(duì)2007—2013年間冬季北波羅的海海域的自然環(huán)境與船舶事故進(jìn)行數(shù)據(jù)可視化挖掘,分析船舶交通事故與海冰、氣象及人為操作之間的關(guān)系,對(duì)冬季北波羅的海船舶航行安全風(fēng)險(xiǎn)進(jìn)行識(shí)別。與國(guó)外相比,我國(guó)在海事事故信息統(tǒng)計(jì)方面起步較晚,劉正江等[7]調(diào)查國(guó)外近百起船舶碰撞事故報(bào)告,并提取各事故的致因,對(duì)人為因素及其誘發(fā)因素與碰撞事故進(jìn)行關(guān)聯(lián)挖掘,確定了船舶碰撞過(guò)程中人為失誤與誘發(fā)因素之間的對(duì)應(yīng)關(guān)系。張曉輝等[8-9]對(duì)中國(guó)沿海各轄區(qū)水上交通事故進(jìn)行全因素關(guān)聯(lián)挖掘試驗(yàn),識(shí)別出碰撞風(fēng)險(xiǎn)是長(zhǎng)三角水域最突出的風(fēng)險(xiǎn)。黃常海等[10]建立了關(guān)聯(lián)規(guī)則模型和事故因素網(wǎng)絡(luò),在支持度為10%、置信度為70%的條件下提取了15條強(qiáng)關(guān)聯(lián)規(guī)則,對(duì)輕微事故的關(guān)聯(lián)因素進(jìn)行詳盡的分析。
在上述研究成果的基礎(chǔ)上,考慮到各水域自然環(huán)境和交通環(huán)境都不盡相同,進(jìn)一步有針對(duì)性地對(duì)特定海域的海事事故進(jìn)行分析,同時(shí),為了防止對(duì)事故數(shù)據(jù)進(jìn)行全因素關(guān)聯(lián)挖掘,導(dǎo)致弱化其他風(fēng)險(xiǎn)因子,影響挖掘精度,本文提出一種聚類分析與關(guān)聯(lián)規(guī)則組合挖掘方法,以浙江海域的海事事故作為挖掘?qū)ο?,通過(guò)對(duì)2008—2014年間824起海事事故進(jìn)行分析,首先將事故進(jìn)行聚類,然后對(duì)聚類完的數(shù)據(jù)進(jìn)行深度挖掘試驗(yàn),去除負(fù)關(guān)聯(lián)規(guī)則并以提升度為規(guī)則再?gòu)?qiáng)化標(biāo)準(zhǔn),提取出碰撞類事故8條強(qiáng)關(guān)聯(lián)規(guī)則、非碰撞類事故12條強(qiáng)關(guān)聯(lián)規(guī)則,以特定海域的豐富事故數(shù)據(jù)為素材,以更加嚴(yán)謹(jǐn)?shù)乃惴ㄔ囼?yàn)和閾值設(shè)定,確保在自然環(huán)境相同的條件下對(duì)海事事故進(jìn)行深度挖掘,進(jìn)一步提升挖掘試驗(yàn)的精度。
數(shù)據(jù)準(zhǔn)備主要包含數(shù)據(jù)收集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗以及數(shù)據(jù)變換等4個(gè)過(guò)程[11-12]。
1)在數(shù)據(jù)收集過(guò)程中采用調(diào)研方法來(lái)獲取我國(guó)沿海各轄區(qū)海事事故數(shù)據(jù)。
2)對(duì)收集到的數(shù)據(jù)進(jìn)行預(yù)處理是數(shù)據(jù)挖掘中的關(guān)鍵步驟,數(shù)據(jù)的質(zhì)量也決定了挖掘的精度。以數(shù)據(jù)的質(zhì)量和數(shù)量為參考,對(duì)各轄區(qū)事故數(shù)據(jù)進(jìn)行整理和對(duì)比,最終篩選浙江轄區(qū)的事故數(shù)據(jù)作為挖掘試驗(yàn)的對(duì)象。
3)數(shù)據(jù)清洗主要指的是將事故數(shù)據(jù)進(jìn)行統(tǒng)一化、標(biāo)準(zhǔn)化描述,清理殘缺數(shù)據(jù)和無(wú)效數(shù)據(jù),以便于機(jī)器識(shí)別并處理有效信息。
4)最終將描述性語(yǔ)言轉(zhuǎn)化為數(shù)字或者字母,即可進(jìn)行聚類與挖掘處理。
為了實(shí)現(xiàn)對(duì)數(shù)據(jù)的深層次挖掘,首先對(duì)事故數(shù)據(jù)庫(kù)進(jìn)行聚類。從全局性和系統(tǒng)性出發(fā),本數(shù)據(jù)庫(kù)為完整封閉式數(shù)據(jù)庫(kù),因此采用基于劃分的k-medoids聚類算法。k-medoids算法的聚類流程:
1)從n條事故數(shù)據(jù)中任選k個(gè)對(duì)象作為初始聚類中心。
2)根據(jù)每個(gè)聚類對(duì)象的均值(中心對(duì)象),計(jì)算每個(gè)對(duì)象到這些中心對(duì)象的距離;并根據(jù)最小距離重新對(duì)相應(yīng)對(duì)象進(jìn)行劃分。
3)重新計(jì)算每個(gè)(有變化)聚類的均值(中心對(duì)象)。
4)算標(biāo)準(zhǔn)測(cè)度函數(shù)。當(dāng)滿足一定條件,如函數(shù)收斂時(shí),則算法終止;如條件不滿足則回到步驟2)。
k-medoids聚類通常采用誤差平方和準(zhǔn)則函數(shù)來(lái)評(píng)價(jià)聚類性能。
假定有混合樣本X={X1,X2,…,Xn},采用某種相似性度量,X被聚類合成k個(gè)分離開(kāi)的子集X1,X2,…,Xk,每個(gè)子集是一個(gè)類型,他們分別包含n1,n2,…,nk個(gè)樣本。為了衡量聚類的質(zhì)量,采用誤差平方和Jk聚類準(zhǔn)則函數(shù),定義為
(1)
以事故數(shù)據(jù)庫(kù)作為聚類對(duì)象,利用R語(yǔ)言進(jìn)行k-medoids聚類,并以事故類型和事故致因作為聚類中心,引入PAM函數(shù),對(duì)事故全集進(jìn)行聚類。
關(guān)聯(lián)規(guī)則算法是對(duì)數(shù)據(jù)庫(kù)中不同的事務(wù)集之間隱含的規(guī)律性進(jìn)行識(shí)別和分析的方法,通常分為簡(jiǎn)單關(guān)聯(lián)、時(shí)序關(guān)聯(lián)和因果關(guān)聯(lián)。
將聚類完成之后的數(shù)據(jù)庫(kù)作為挖掘的基礎(chǔ)數(shù)據(jù)庫(kù)進(jìn)行挖掘,定義事故數(shù)據(jù)庫(kù)D={t1,t2,…,tk}和數(shù)據(jù)庫(kù)中項(xiàng)集I={i1,i2,…,ik},那么關(guān)聯(lián)規(guī)則是
A?B
(2)
式(2)中:A?I,B?I且A∩B=φ。
項(xiàng)集A′的支持度表示項(xiàng)集A在所有項(xiàng)集I中出現(xiàn)的次數(shù)為
Supp(A)=A/I=P(A)
(3)
那么關(guān)聯(lián)規(guī)則A?B的置信度為
conf(A→B)=Supp(A∪B)/Supp(A)=P(B|A)
(4)
同理,關(guān)聯(lián)規(guī)則A?B的提升度為
lift(A→B)=conf(A→B)/Supp(B)=
P(A∪B)/P(A)P(B)
(5)
式(5)中:提升度lift(A→B)=lift(B→A)。提升度的值反映了關(guān)聯(lián)規(guī)則中A與B的相關(guān)性為
1)提升度>1且越高,表示正相關(guān)性越高。
2)提升度<1且越低,表示負(fù)相關(guān)性越高。
3)提升度=1,表示沒(méi)有相關(guān)性。
由于關(guān)聯(lián)規(guī)則的Apriori算法在設(shè)定支持度和置信度閾值時(shí),往往與研究對(duì)象的數(shù)據(jù)樣本大小和質(zhì)量有關(guān),國(guó)內(nèi)外相關(guān)學(xué)者均通過(guò)不斷探索支持度和置信度的閾值,最終獲得合理且有效的關(guān)聯(lián)規(guī)則,對(duì)算法結(jié)果的分析追求較高的支持度和置信度,卻忽略提升度對(duì)規(guī)則的有效性衡量。因此,本文在分析取得的關(guān)聯(lián)規(guī)則結(jié)果中,首先通過(guò)探索合適的支持度和置信度閾值,取得合理的強(qiáng)關(guān)聯(lián)規(guī)則條數(shù),再通過(guò)去除冗余規(guī)則以及負(fù)關(guān)聯(lián)規(guī)則,最終獲得有效的強(qiáng)關(guān)聯(lián)規(guī)則。R語(yǔ)言相較于其他算法內(nèi)置的軟件在處理固定算法的細(xì)節(jié)上具有很大的靈活性,因此,通過(guò)R語(yǔ)言進(jìn)行編程,可找出存在數(shù)據(jù)庫(kù)中的頻繁項(xiàng)集,此時(shí)通過(guò)設(shè)置最小支持度閾值和置信度閾值,執(zhí)行剪枝過(guò)程,得到所需要的強(qiáng)關(guān)聯(lián)規(guī)則。其流程見(jiàn)圖1。
針對(duì)轄區(qū)的事故特征,以船舶噸位和事故類型為聚類中心,利用R語(yǔ)言實(shí)現(xiàn)對(duì)數(shù)據(jù)庫(kù)的動(dòng)態(tài)聚類。聚類結(jié)果顯示:以事故類型進(jìn)行聚類,該數(shù)據(jù)庫(kù)被聚為兩類,分別為碰撞類事故和非碰撞類事故。將事故聚類完成后,通過(guò)對(duì)各類之間進(jìn)行關(guān)聯(lián),將聚類與關(guān)聯(lián)進(jìn)行可視化,生成以事故類型為導(dǎo)向的網(wǎng)絡(luò)圖和關(guān)聯(lián)規(guī)則分布散點(diǎn)圖??紤]到事故數(shù)據(jù)庫(kù)樣本容量以及挖掘試驗(yàn)的精度,將事故全集聚成兩類,并得到兩組聚類簇(見(jiàn)圖2)。
通過(guò)對(duì)浙江轄區(qū)海事事故數(shù)據(jù)庫(kù)進(jìn)行k-medoids聚類,最終獲得碰撞事故有效數(shù)據(jù)179條。以事故類型為導(dǎo)向生成船舶碰撞事故信息屬性網(wǎng)絡(luò)見(jiàn)圖3。考慮到事故的節(jié)點(diǎn)、鏈接數(shù)量以及圖形的尺寸限制,最終根據(jù)支持度閾值與總數(shù)據(jù)樣本的積作為鏈接閾值,既保留了頻繁候選集,同時(shí)又能準(zhǔn)確和直觀地表達(dá)出各關(guān)聯(lián)規(guī)則的強(qiáng)弱程度。
對(duì)數(shù)據(jù)庫(kù)中碰撞類事故進(jìn)行分析,取支持度閾值為20%,對(duì)生成的碰撞事故導(dǎo)向網(wǎng)絡(luò)圖進(jìn)行分析可看出:導(dǎo)致碰撞類事故產(chǎn)生的一級(jí)致因中的人為因素與碰撞事故的關(guān)聯(lián)性較強(qiáng);人為因素中的二級(jí)致因中出現(xiàn)頻率較高的因素有瞭望疏忽、未使用安全航速、能見(jiàn)度不良和避讓行為不當(dāng)?shù)取?/p>
1)從事故發(fā)生海域來(lái)看,碰撞事故主要發(fā)生在沿海海域。
2)從事故船舶類型來(lái)看,漁船、砂石船和干雜貨船是發(fā)生碰撞事故的主要船型。
3)從船舶噸位來(lái)看,小于3 000總噸的船舶更容易發(fā)生碰撞事故。
4)從時(shí)間序列進(jìn)行分析,2000—2400時(shí)段是浙江轄區(qū)水域碰撞事故的多發(fā)時(shí)段。
5)從季節(jié)性規(guī)律進(jìn)行分析,春季是發(fā)生碰撞事故的主要季節(jié),占比達(dá)到40%以上,其次是夏季。
6)從碰撞事故導(dǎo)致的損失來(lái)看,大部分碰撞事故導(dǎo)致的經(jīng)濟(jì)損失均在100萬(wàn)元人民幣以下。
在對(duì)浙江轄區(qū)水域船舶交通事故關(guān)聯(lián)規(guī)則進(jìn)行分類挖掘中,生成了碰撞類事故關(guān)聯(lián)規(guī)則474條、非碰撞類事故關(guān)聯(lián)規(guī)則304條。以碰撞類事故為例,其全部關(guān)聯(lián)規(guī)則分布散點(diǎn)見(jiàn)圖4。
對(duì)支持度閾值和置信度閾值的調(diào)整,最終設(shè)定碰撞類事故的支持度閾值20%、置信度閾值50%的條件下,根據(jù)提升度進(jìn)行排序,篩選出8條提升度>1.4的碰撞類事故關(guān)聯(lián)規(guī)則。同理,按照提升度排序,在支持度閾值10%、置信度閾值50%的條件下提取出提升度>2.0的非碰撞類事故關(guān)聯(lián)規(guī)則12條。鑒于篇幅限制,選取其中的13條關(guān)聯(lián)規(guī)則進(jìn)行分析(見(jiàn)表1)。
表1 浙江轄區(qū)海事事故關(guān)聯(lián)規(guī)則
在聚類基礎(chǔ)上通過(guò)對(duì)浙江轄區(qū)海事事故進(jìn)行分類和深度挖掘,不僅挖掘出了單一事故特征之間的映射關(guān)系,而且對(duì)多因素之間的潛在規(guī)律的識(shí)別也有較好的效果。通過(guò)此次挖掘試驗(yàn)得出的關(guān)聯(lián)規(guī)則結(jié)果,可以得出:
1)浙江水域發(fā)生海事事故的主要船型為3 000總噸以下的船舶,且船舶超載、大風(fēng)天氣、能見(jiàn)度不良及人為因素是影響該類船舶發(fā)生海事事故的主要致因。
2)導(dǎo)致船舶發(fā)生自沉事故的船舶貨物因素主要是由于貨物裝載不當(dāng)引起的;當(dāng)船舶噸位≤3 000總噸時(shí),船舶有可能存在超載行為。
3)橋區(qū)水域和港口水域是碰撞事故的多發(fā)水域,該類事故發(fā)生的致因主要是操縱行為不當(dāng)。
4)夜間2000—0400時(shí)段是砂石船事故的多發(fā)時(shí)間段,且事故主要發(fā)生在沿海水域。
5)大風(fēng)天氣下,轄區(qū)內(nèi)≤3 000噸的船舶易發(fā)生沉沒(méi)事故,且可能會(huì)導(dǎo)致大事故的發(fā)生。
根據(jù)以上交通事故的潛在規(guī)律,可對(duì)事故的屬性、時(shí)間序列、事故致因和船舶類型等相互之間的關(guān)聯(lián)性進(jìn)行識(shí)別。對(duì)此,根據(jù)以上挖掘試驗(yàn)的結(jié)果分析,為進(jìn)一步提高海上交通安全水平,對(duì)該海事及漁政部門(mén)提出建議如下:
1)鑒于沿海砂石船和漁船是該海域的高風(fēng)險(xiǎn)船舶,且由于漁船和部分私有船舶缺乏相應(yīng)的檢查監(jiān)管,而導(dǎo)致部分船舶配員不足或船舶存在缺陷等安全隱患。因此,加強(qiáng)沿海小型船舶與漁船的監(jiān)管、完善海上交通監(jiān)督機(jī)制可有效減少事故的發(fā)生。
2)加強(qiáng)對(duì)沿海干雜貨船、漁船、砂石船等小于3 000總噸的船舶進(jìn)行監(jiān)督,對(duì)部分船舶配員不足、存在缺陷、船舶老齡化以及船舶貨物裝載和超載等問(wèn)題進(jìn)行隱患排查,降低事故率。
3)霧季是全年事故的高發(fā)期,船舶駕駛員經(jīng)常由于疏于瞭望導(dǎo)致事故發(fā)生。因此,督促航運(yùn)公司制定相關(guān)的安全管理體系,并嚴(yán)格宣貫執(zhí)行,提高船舶駕駛員霧航安全意識(shí),可降低船舶在霧航中的碰撞風(fēng)險(xiǎn)。
4)加大夜間巡查力度,加重對(duì)于砂石運(yùn)輸船舶夜間非法運(yùn)輸?shù)奶幜P力度,降低內(nèi)河沿海干雜貨船、漁船、砂石船的事故率。
5)加強(qiáng)大風(fēng)天氣和能見(jiàn)度不良環(huán)境下的船舶管控,合理對(duì)船舶進(jìn)行組織與疏散,并在霧季和臺(tái)風(fēng)季節(jié)來(lái)臨前,對(duì)船舶缺陷進(jìn)行集中檢查。
海事事故數(shù)據(jù)是海上交通安全與規(guī)劃的重要資料,本文以數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法為基礎(chǔ),結(jié)合聚類算法對(duì)浙江海域事故數(shù)據(jù)庫(kù)分類挖掘,不僅掌握事故特征以及其潛在致因及時(shí)間地點(diǎn)的分布規(guī)律,還對(duì)海事主管機(jī)關(guān)在船舶監(jiān)控與航道規(guī)劃上具有借鑒作用,也為海事事故的預(yù)防提供指導(dǎo)性建議。本次挖掘使用的關(guān)聯(lián)規(guī)則算法與聚類算法相結(jié)合,以浙江海域?qū)嶋H事故數(shù)據(jù)為研究對(duì)象,在研究中取得支持度與置信度閾值條件下,提高了關(guān)聯(lián)規(guī)則算法的提升度,增強(qiáng)了算法的關(guān)聯(lián)性和應(yīng)用價(jià)值。
由于本次挖掘使用的數(shù)據(jù)庫(kù)為調(diào)研所得的2008—2014年的事故數(shù)據(jù),且僅以事故類型為聚類中心進(jìn)行分析,給本次挖掘試驗(yàn)在普遍適用性上帶來(lái)一定影響。在后續(xù)研究中可通過(guò)以事故致因作為聚類中心進(jìn)行分析,并進(jìn)行深度挖掘;同時(shí)建議建立互聯(lián)網(wǎng)模式下的船舶交通事故標(biāo)準(zhǔn)化備案系統(tǒng),對(duì)事故的自然環(huán)境、交通環(huán)境、事故特征、事故基礎(chǔ)信息及事故致因信息等進(jìn)行統(tǒng)一描述,以便對(duì)我國(guó)沿海海域海上交通安全重點(diǎn)水域及風(fēng)險(xiǎn)進(jìn)行識(shí)別,對(duì)事故數(shù)據(jù)庫(kù)進(jìn)行標(biāo)準(zhǔn)化,為交通標(biāo)準(zhǔn)化提供參考,并提高后續(xù)的挖掘精度。