亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于隨機森林的船舶碰撞事故缺失數(shù)據(jù)插補*

        2019-12-27 10:16:36張金奮范存龍胡衛(wèi)東
        關(guān)鍵詞:處理程序經(jīng)緯度經(jīng)濟損失

        吳 郁 張金奮 范存龍 胡衛(wèi)東

        (武漢理工大學航運學院1) 武漢 430063) (武漢理工大學內(nèi)河重點實驗室2) 武漢 430063) (武漢理工大學智能交通系統(tǒng)研究中心3) 武漢 430063) (武漢理工大學國家水運安全工程技術(shù)研究中心4) 武漢 430063)

        0 引 言

        交通事故數(shù)據(jù)是分析事故致因、梳理事故規(guī)律、揭示事故機理、預測事故演化的基礎(chǔ).針對交通事故數(shù)據(jù)的研究主要包括:①基于事故數(shù)據(jù)量的分析,常用的方法如模型驅(qū)動[1-2]、數(shù)據(jù)驅(qū)動[3-4];②基于事故致因或機理的研究,通過事故數(shù)據(jù)凝練事故規(guī)律[5]或通過構(gòu)建事故致因模型分析事故個案[6];③基于事故數(shù)據(jù)和事故模型的交互模式,事故數(shù)據(jù)、專家經(jīng)驗、事故或安全生產(chǎn)理論等為事故模型的構(gòu)建提供支持,或事故致因機理的調(diào)整.且所構(gòu)建的事故模型用于分析或預測事故,該模式應用貝葉斯理論或貝葉斯網(wǎng)絡較多[7-8].但是,水上交通事故數(shù)據(jù)通常存在數(shù)據(jù)缺失、信息不完備、記錄不準確等問題.

        數(shù)據(jù)缺失或不完備問題在實際數(shù)據(jù)分析中廣泛存在.Little等[9]根據(jù)數(shù)據(jù)缺失原因?qū)?shù)據(jù)缺失類型分成三類:完全隨機缺失(missing completely at random,MCAR)、隨機缺失(missing at random,MAR)和非完全隨機缺失(missing not at random,MNAR).按照數(shù)據(jù)缺失模式又可以分為單調(diào)缺失模式和任意缺失模式兩類.本文研究對象屬前者,任意缺失模式下缺失數(shù)據(jù)的插補可參見.數(shù)據(jù)的缺失最終會影響研究結(jié)果的信效度,因此需要對缺失數(shù)據(jù)進行恰當處理.

        針對缺失數(shù)據(jù),常用的處理方法可總結(jié)為四類[10]:①直接去除樣本中缺失數(shù)據(jù),如個案剔除法(listwise deletion)、成對刪除法(pairwise deletion)等;②對樣本中缺失數(shù)據(jù)進行簡單插補,如正確項目平均分替代法(corrected item mean substitution imputation,CM)、平均數(shù)插補法(mean imputation)等;③對樣本中缺失數(shù)據(jù)進行高級插補,如回歸插補法(regression imputation)、多重插補法(MI)、EM算法、機器學習的方法等;④直接分析帶有缺失數(shù)據(jù)的樣本,較多采用機器學習的方法,如直接擴充粗糙集,決策樹等.在事故數(shù)據(jù)維度高時,若用模型驅(qū)動(傳統(tǒng)的概率統(tǒng)計或回歸模型)則需要基于一定的統(tǒng)計假設,而此類假設在實際中是難以完全嚴格保證的;若假定服從某一分布則結(jié)果的準確性存疑.分類水平較多時,由于穩(wěn)健性差和缺乏可操作性使得模型驅(qū)動的應用受限,比如,本文研究對象事故記錄中的時間被分成九個時段.另一方面,隨著機器學習等數(shù)據(jù)驅(qū)動方法的發(fā)展與應用,缺失數(shù)據(jù)插補方法逐漸發(fā)展與豐富,其中比較典型的機器學習方法如隨機森林方法[11].該方法處理缺失數(shù)據(jù)和非平衡的數(shù)據(jù)比較穩(wěn)健,對異常值和噪聲具有很好的容忍度且不容易出現(xiàn)過擬合,對數(shù)據(jù)的分布無限制,能有效分析高維復雜數(shù)據(jù)[12].徐凱等[13]利用隨機森林回歸預測算法地震道缺失數(shù)據(jù)進行插補,且取得良好應用效果,證明隨機森林方法的正確性與有效性.謝翹楚等[14]運用隨機森林算法處理不完全規(guī)律缺失數(shù)據(jù)(連續(xù)型數(shù)據(jù)),以均方根誤差和填補準確度為評判指標,實驗結(jié)果證明該方法的準確性和有效性.

        以江蘇海事局2012—2016年船舶碰撞事故記錄為研究對象,根據(jù)事故記錄中“區(qū)域”“經(jīng)緯度”“事故處理程序”的屬性,采用隨機森林方法進行缺失數(shù)據(jù)插補.其中,針對“區(qū)域”和“經(jīng)緯度”的缺失,主要采用專家經(jīng)驗并結(jié)合電子江圖等進行插補;針對“事故處理程序”缺失,采用隨機森林的分類方法.研究的目的與意義在于插補事故記錄中缺失數(shù)據(jù),為后續(xù)的事故分析和安全研究提供完整的數(shù)據(jù).

        1 數(shù)據(jù)描述

        選取的數(shù)據(jù)主要包括長江干線江蘇段945起船舶碰撞事故,每起事故包含23項記錄,如事故名稱,日期,轄區(qū),水道,區(qū)域等.其中轄區(qū)、區(qū)域和經(jīng)緯度均包含事故地理信息.因為轄區(qū)主要供管理部門參考,所以選取區(qū)域和經(jīng)緯度研究事故地理信息.事故名稱、浮標、地點、事故簡況、事故客觀原因、事故直接原因為詳細的文本描述難以劃分類別而未考慮,但可為部分變量缺失插補提供參考,如事故簡況可為區(qū)域記錄或經(jīng)緯度記錄缺失的插補提供參考,因此,選用16項記錄見表1,共945起事故為研究對象.

        表1 事故記錄項類型或取值范圍

        945起事故記錄完整度為82.65%,存在如下缺失:①只缺失“區(qū)域”記錄有20起,占江蘇段干線碰撞事故的2.116%;②只缺失“經(jīng)度”和“緯度”記錄有19起,占干線事故的2.011%;③只缺失“事故處理程序”記錄有2起,占干線事故的0.211 6%;④缺失“事故處理程序”和“經(jīng)濟損失”記錄有12起,占干線事故的1.27%;⑤只缺失“經(jīng)濟損失”記錄有150起,占干線事故的15.87%.缺失比率越高,參數(shù)估計準確性越差且參數(shù)估計變異性越大.根據(jù)專家經(jīng)驗并結(jié)合事發(fā)地點、事故簡況在長江航道局電子江圖、船訊網(wǎng)提供的專業(yè)江圖上確定“區(qū)域”“經(jīng)度”和“緯度”,由此解決缺失(1)、(2).區(qū)域和經(jīng)緯度缺失數(shù)據(jù)插補后的數(shù)據(jù)見表2.由于篇幅限制,本文主要針對缺失(3)、(4)進行插補,即采用隨機森林的分類方法對“事故處理程序”記錄缺失進行插補,缺失數(shù)據(jù)插補工作流程見圖1.

        表2 區(qū)域和經(jīng)緯度記錄缺失插補后數(shù)據(jù)

        圖1 缺失數(shù)據(jù)插補流程

        2 基于隨機森林的分類方法

        2.1 隨機森林概述

        隨機森林基本思想見圖2[15].隨機森林讓每棵樹盡可能生長,而且不進行修剪.隨機森林也會給出分類中各個變量的重要性.文中采用R語言中的RandomForest包.

        圖2 隨機森林的基本思想

        2.2 隨機森林的分類方法

        步驟2模型評價 通過訓練集獲取隨機森林模型,并通過運用該模型對該訓練集進行分類.對于分類問題,可通過混淆矩陣和基于OOB的誤分率來評價模型.

        步驟3重要度分析 根據(jù)步驟2中隨機森林模型分析自變量對因變量的重要度.

        結(jié)果的驗證,可以將模型預測的結(jié)果與事故記錄、事故簡況等實際情況進行對比分析.

        3 “事故處理程序”記錄缺失插補

        3.1 對兩起事故處理程序的缺失插補

        對于兩起事故只缺失“事故處理程序”記錄的插補,訓練集選取781起完整事故記錄.“事故處理程序”為因變量,其余15個記錄項作為自變量.

        1) 通過遍歷設定mtry參數(shù)為1~15進行15次建模,經(jīng)試算,當mtry取3,ntree取500時,誤分率總體穩(wěn)定.

        2) 設定mtry和ntree參數(shù)后,利用R語言中RandomForest程序包運行得到隨機森林模型.通過該模型對該訓練集數(shù)據(jù)進行分類,所得混淆矩陣見表3,其誤分率為0.249 7.

        表3 基于隨機森林方法所得混淆矩陣

        事故處理程序的判斷屬于分類問題,可采用傳統(tǒng)的統(tǒng)計模型,如Logistic回歸、Probit回歸等模型.從機器學習的角度,該問題屬于監(jiān)督學習(supervised learning),隨機森林還可采用樸素貝葉斯(naive bayesian)等方法.通過對比四種方法對781條完整數(shù)據(jù)(訓練樣本)判斷的誤分率見表4,隨機森林方法優(yōu)于其他方法.

        表4 四種方法對事故處理程序的分類的誤分率

        3) 隨機森林的變量重要度評估.圖3為各個變量對事故處理程序兩種情況的相對影響.由此,可以認為影響事故處理程序的重要因素有經(jīng)濟損失,沉船艘數(shù),事故等級,死亡失蹤,經(jīng)緯度、區(qū)域、船舶航行狀態(tài)、交通態(tài)勢.由此可見,對經(jīng)緯度和區(qū)域的插補是必要的.

        圖3 自變量對因變量水平響應的重要度

        4) 根據(jù)隨機森林對“2014-07-22-1918-新寶航87-海長翔”“2014-08-13-2206-申燃22-皖鳴遠1119”進行事故處理程序分類,結(jié)果均為簡易程序,見表5.對比兩起事故,二者僅在經(jīng)緯度、交通態(tài)勢分析和事故原因有不同差別.盡管經(jīng)濟損失相差較大,但根據(jù)《水上交通事故統(tǒng)計辦法》(中華人民共和國交通運輸部令2014年第15號)第六條,兩起事故從經(jīng)濟損失判斷均屬于小于100萬元的小事故.由此,將這兩起事故的處理程序判斷為簡易具有一定的合理性.

        表5 基于隨機森林的預測概率

        3.2 對12起事故數(shù)據(jù)的處理程序的缺失插補

        對于12起既缺失事故處理程序又缺失經(jīng)濟損失的記錄的插補,訓練集選取931起事故記錄,其中781起為去除經(jīng)濟損失項的完整記錄,150起為只缺失經(jīng)濟損失的記錄.“事故處理程序”為因變量,其余14個記錄項作為自變量.重復上述步驟1~4,設定mtry為6和ntree為500后,通過R語言中RandomForest程序包運行得到隨機森林模型.通過該模型對該訓練集數(shù)據(jù)進行分類,所得混淆矩陣,見表6,誤分率為0.244 9.

        表6 基于隨機森林方法所得混淆矩陣

        圖4為自變量對因變量水平響應的重要度,由圖4可知,沉船艘次、經(jīng)緯度、航行狀態(tài)、事故等級、當事方數(shù)、區(qū)域?qū)Y(jié)果的影響大.

        圖4 自變量對因變量水平響應的重要度

        12起記錄的事故處理程序的預測分類及其概率,見表7.隨機森林方法將除“揚州-碰撞-興航136-長通?!笔鹿逝卸楹喴淄猓渌卸橐话?與其他11起事故相比,“揚州-碰撞-興航136-長通海”事故雙方船舶在事故發(fā)生時間均處于錨泊狀態(tài),由于雙方未留足距離導致碰撞事故發(fā)生,其造成的事故后果較小.而其余事故則是航行船碰撞錨泊船或航行船碰撞航行船,造成的事故后果更大.

        表7 基于隨機森林的預測概率

        4 結(jié) 束 語

        數(shù)據(jù)缺失、信息不完備、記錄不準確是水上交通事故數(shù)據(jù)較為常見的問題.缺失數(shù)據(jù)的存在將降低基于數(shù)據(jù)挖掘的事故規(guī)律解析或事故機理揭示的可信度.水上交通事故記錄項數(shù)據(jù)類型多、維度高、信息冗余等特性在事故缺失數(shù)據(jù)插補過程中決定了方法的選取、變量的篩選等.研究表明:經(jīng)濟損失,沉船艘數(shù),事故等級、區(qū)域等是影響事故處理程序的關(guān)鍵因素;事故等級,死亡失蹤人數(shù),事發(fā)經(jīng)緯度等是影響經(jīng)濟損失的關(guān)鍵因素.在相同測試樣本下,隨機森林方法的精度優(yōu)于Logistic回歸、Probit回歸和樸素貝葉斯等方法.

        猜你喜歡
        處理程序經(jīng)緯度經(jīng)濟損失
        交通運輸部關(guān)于海上交通事故等級劃分的直接經(jīng)濟損失標準的公告
        交通財會(2023年9期)2023-10-29 00:10:38
        美國供水與清潔基礎(chǔ)設施不足造成每年85.8億美元經(jīng)濟損失
        高速公路工程變更與計量支付處理程序的優(yōu)化方法
        自制中學實驗操作型經(jīng)緯測量儀
        基于C++的數(shù)控加工通用后處理程序的開發(fā)應用研究
        企業(yè)危機公關(guān)管理問題分析
        澳洲位移大,需調(diào)經(jīng)緯度
        燒傷創(chuàng)面感染直接經(jīng)濟損失病例對照研究
        一種利用太陽影子定位的數(shù)學模型
        地鐵直流系統(tǒng)中框架保護原理及處理程序
        熟女少妇内射日韩亚洲| 女同在线视频一区二区| 亚洲av熟女一区二区三区站| 人妻av无码一区二区三区| 欧美黑人疯狂性受xxxxx喷水| 欧美综合区自拍亚洲综合| 国内偷拍精品一区二区| 亚洲中国美女精品久久久 | 亚洲国产成人Av毛片大全| 国产在线观看一区二区三区av| 国产97色在线 | 国产| 狼色精品人妻在线视频| 欧美日韩国产在线成人网| 国产一区二区资源在线观看| 天天爽夜夜爽人人爽| 免费无遮挡禁18污污网站| 婷婷综合五月| 亚洲成人色黄网站久久| 国产成人精品久久二区二区91| 疯狂做受xxxx国产| 亚洲熟妇av乱码在线观看| 精品亚洲人伦一区二区三区 | 999精品无码a片在线1级| 国产亚洲日韩在线三区| 亚洲中字幕永久在线观看| 三级日本理论在线观看| 国产ww久久久久久久久久| 精品五月天| 中文字幕乱码在线婷婷| 亚洲日韩中文字幕在线播放| 亚洲av成人精品日韩一区| 日本经典中文字幕人妻| 国产日本精品视频一区二区| 国产精品老熟女露脸视频| 蜜桃一区二区三区在线看| 中文字幕综合一区二区| 三年中文在线观看免费大全| 國产AV天堂| 亚洲最大不卡av网站| 性饥渴的农村熟妇| 免费一区在线观看|