李典 張慶年 何鑫宇
【摘 要】 為降低水上交通事故發(fā)生概率,從人、船、環(huán)境及事故屬性的角度分析不同因素對事故嚴重程度的影響,提出基于支持向量機的水上事故嚴重程度分類模型,利用粗糙集理論對水上事故數據進行約簡預處理,最后利用樣本數據對基于支持向量機的分類模型進行訓練和測試。結果表明,該模型的測試精度達到85%,能較好地識別海事事故嚴重程度。
【關鍵詞】 水上交通安全;事故嚴重程度;遺傳算法;支持向量機;判別模型
0 引 言
水上交通安全一直是國內外學者研究的重點和熱點問題,分析水上交通事故致因可在一定程度上減少水上事故的發(fā)生,提高水上安全狀態(tài)。為保障水上交通安全,國際海事組織(IMO)制定并發(fā)布了大量保障船舶安全航行的規(guī)章制度及船舶安全操作指導方法。目前,我國對水上交通事故等級的分類主要是由人員傷亡和直接經濟損失決定的,大多數研究[1]在分析水上交通事故時將不同等級的事故一概而論,沒有考慮水上交通事故間的差異性。因此,研究不同事故等級之間影響因素的差異性對降低事故等級有重要的現實意義。
由于在水上交通實際運行中發(fā)生較大事故次數不多,能獲取的調查數據較少,為較好地驗證水上交通事故等級判別模型的有效性,本文主要研究小事故和一般事故。在現有統計數據基礎上,分析水上交通事故的特點,多角度研究事故發(fā)生時間、船舶類型及人為因素等,利用粗糙集(RS)理論提取影響水上事故等級的重要特征因素,通過遺傳算法(GA)優(yōu)化支持向量機(SVM)模型中參數c和g,建立GA-SVM基于徑向基為核函數的水上交通事故等級分類模型。分析一般事故與小事故發(fā)生的差異性,對于規(guī)避和減少水上交通事故的發(fā)生具有重要意義,可以更好地預防更嚴重的事故。
1 特征因素的選擇和量化
1.1 事故等級判別特征因素的選擇
《水上交通事故統計辦法》將水上事故劃分為特別重大事故、重大事故、較大事故、一般事故、小事故等5個等級,屬于事后劃分方式。
在分析水上交通事故等級的影響因素時,鑒于水上交通安全范圍廣泛、水況復雜,關鍵性特征因素選取的合理性直接影響到分類模型的準確性?;谒辖煌v史事故調查報告和實地調研,結合專家學者先前的研究,船舶發(fā)生交通事故的主要原因如下:
(1)船舶值班人員疏于瞭望,操縱人員避讓行為不協調、操縱不當等。
(2)船舶積載不當致船舶穩(wěn)性不足,電器電線老化造成短路,航行過程中船舶出現主機故障、舵機失靈等現象。
(3)通航條件不佳,如惡劣的天氣狀況、航線經過水上水下施工區(qū)等。
(4)航運企業(yè)管理不當、船舶違規(guī)使用明火、垃圾未及時處理等。
由于不同的航運企業(yè)管理涉岸人員情況和規(guī)章制度各不相同,因此,本文從人、船、環(huán)境和事故屬性等4個方面分析影響水上交通事故水平的特征因素。結合以上分析,按照科學、系統和易于量化的原則,選取人的身心狀態(tài)、實踐操作能力、是否操作違規(guī)、是否操作錯誤,以及船型、船舶總噸、天氣狀況、能見度、風級、事故類型、事故發(fā)生時間段、事故發(fā)生所屬季節(jié)、人員傷亡及直接經濟損失等14個特征因素作為事故等級分類的條件屬性。
1.2 特征因素的量化約簡
為避免因特征因素的可替代性造成結論的不準確,采用RS理論對各特征因素進行約簡處理,使各個特征因素彼此獨立,以確保結論的客觀性和準確性。
在使用RS理論對水上交通事故等級特征因素進行篩選前,首先需要確定信息系統和決策表,兩者之間存在映射關系。決策表在RS中起著重要作用,表達式為
S=(U, A,V, f)
式中:U為對象的非空有限集合,即論域;A為屬性的非空有限集合,通常分為條件屬性集C(即影響水上事故水平的所有特征因素)、決策屬性集D(即兩種不同類型的事故);V為屬性值的集合; f 為一個信息函數。
在實際中,同屬一個信息系統中的特征因素對決策集的影響是不同的,RS理論的約簡是剔除條件屬性集對決策屬性集的影響為零的特征因素,即權重為零,從而達到約簡的目的。
2 SVM判別模型的構建
為得到較為理想的事故等級判別模型,本文選取徑向基(RBF)核函數,利用GA算法對SVM模型中的懲罰參數c和核函數參數g進行優(yōu)化處理?;贕A-SVM的水上交通事故等級判別模型的構建步驟如下:
(1)選取利用RS理論約簡后的指標數據,將數據集分為80%的訓練樣本、20%的測試樣本,標簽小事故為“ 1”、一般事故為“1”。
(2)利用GA算法優(yōu)化參數c和g。
(3)確定參數c和g最佳值,并在SVM中訓練樣本。
(4)預測SVM模型中的測試集并評估SVM模型的分類性能。
傳統的SVM模型雖然能較好地解決高維及非線性問題,但模型的準確性還依賴于參數c和g。因此,為了得到更高的模型準確度,本文選用GA算法對SVM模型中的參數進行尋優(yōu)處理。
3 模型驗證
3.1 數據的獲取
本文通過查詢和下載長江水域范圍內各海事局官方網站上公布的統計數據,查閱各類水上交通事故分析報告,其中收集到2014―2018年發(fā)生在長江區(qū)域水上交通事故352起。由于本文主要關注小事故、一般事故,剔除了較大、重大及特別重大事故數據,基于數據的完整性和有效性篩選出200組長江水上交通事故數據進行量化約簡處理。
3.2 影響水上事故指標的量化約簡
Rosetta軟件是一款基于RS理論對數據表格進行分析的軟件,其具備常見的數據離散化處理、數據補全及屬性約簡等功能。影響水上交通事故嚴重程度的各特征因素之間存在關聯性,因此,本文應用Rosetta軟件對各特征因素之間進行數據挖掘及分析研究。
本文結合專家意見和問卷調查來量化所使用的特征因素。以環(huán)境因素中能見度為例:當能見度在7級及以上時,這一特征因素并不影響船舶安全航行;當能見度低于3級時,船舶的安全航行將受到嚴重影響。因此,本文將能見度分為4個量級進行量化,即:能見度大于等于7級,賦值1;能見度為5~6級,賦值2;能見度為3~4級,賦值3;能見度為0~2級,賦值4。
以上量化處理后得到的200組事故數據作為Rosetta軟件處理的基本數據,其中將影響水上交通事故等級的16個指標作為條件屬性,決策屬性為事故等級,利用頻率劃分算法對數據進行離散化以生成決策表。最后利用貪婪算法(Johnson's algorithm)得到指標約簡結果。結果表明,人的身心狀態(tài)、實踐操作能力、船型、能見度、事故發(fā)生時間段和季節(jié)可作為影響水上交通事故水平的6個重要指標。具體見表1。
3.3 水上事故等級識別模型的建立
本文選取采用RS約簡后的6個指標,構成新的包含200組樣本的數據集,將數據分為160組的訓練集和40組的測試集。事故等級作為標簽,小事故和一般事故分別用“ 1”、“1”表示。使用Libsvm工具在MATLAB環(huán)境下實現SVM訓練模型,并選擇RBF作為SVM模型中的核函數,即參數選擇“ t=2”。對數據進行預處理,并將訓練集和測試集標準化到[0,1]范圍,運用Mapminmax函數來標準化訓練集和測試集數據,選取參數c、g的值。本文將gaSVMcgForClass.m用于優(yōu)化參數c、g,GA算法中各參數設置如下:最大的遺傳代數為50,種群數量為20,參數c、g的值在[0,100]之間,代溝取值0.9。由GA-SVM適應度曲線(見圖1)可以看出,隨著迭代次數的增加,平均適應度仍在不斷變化,處于跌宕起伏的狀態(tài),在第31~41次迭代過程中,其平均適應度曲線處于較為平緩的狀態(tài)。優(yōu)化結果為最佳懲罰參數c=2.280 9,最佳核函數參數g=56.955。
根據尋優(yōu)后的參數結果,利用Svmtrain建立SVM網絡訓練模型,代入通過GA算法尋優(yōu)后的參數值,得出模型準確率為85%。引入Sigmoid函數對分類結果進行概率運算,測試集中部分概率輸出值(見表2)如下:在包含40組數據的測試集中,有6組被誤判,其中,有4組一般事故被誤判為小事故,2組小事故被誤判為一般事故。這表明通過GA算法參數尋優(yōu)后得到的SVM分類模型可以有效地判別事故等級為一般事故還是小事故。
為了更好地證明GA-SVM模型分類性能,本文選取交叉驗證理論中K-fold Cross Validation(K-CV)方法與遺傳算法作對比,K-CV可以有效地避免過學習以及欠學習狀態(tài)的發(fā)生?;诒疚臉颖緮递^少,選擇K=3,將原始數據均分成3組,每個子集數據分別作為一次驗證集,其余的2組子集數據作為訓練集,依次訓練,最終驗證集的分類準確率的平均數作為此3-CV下分類器的性能指標。
在MATLAB環(huán)境下,利用3-CV-SVM對參數進行優(yōu)化,定義參數c、g取值范圍在[2 5,25],最優(yōu)懲罰參數c=2,最優(yōu)核函數參數g=32,CVaccuracy=90.625%,代入SVM網絡訓練模型,預測精度為80%。通過對比兩種優(yōu)化方法(見表3)可知,GA-SVM模型分類精度更高,準確率更高。
4 結果討論
(1)通過RS理論篩選出的6個特征指標,即身心狀態(tài)、實際操作能力、船舶類型、能見度、事故發(fā)生時間段及季節(jié),可以更好地反映水上交通事故水平。
(2)引入Sigmoid函數進行概率計算,通過調整6個特征指標的不同狀態(tài)可輸出不同的事故水平,由此為降低事故嚴重程度提供了參考方向。
(3)基于GA-SVM的水上交通事故嚴重程度判別模型,準確度達到85%,能較好地判別水上交通事故水平。
(4)通過與CV-SVM模型的對比,GA算法尋優(yōu)后得到的模型準確度高于CV方法尋優(yōu)后的模型準確度。
(5)根據海事局對事故等級的定義,小事故和一般事故的最大區(qū)別在于有無人員傷亡,屬于事故發(fā)生后的定義。通過本文建立的水上交通事故嚴重程度判別模型,能根據易引發(fā)事故的特征因素狀態(tài)有效判別出事故嚴重程度,從而更好地形成預警方案,盡可能地降低事故危害性。
參考文獻:
[1] 雷海.“東方之星”輪沉沒事故對水上客運安全的警示[J].水運管理,2015(10):1-3.