陶 剛,閆永剛,劉 俊,鄒 嬌
(1.長安大學(xué)信息工程學(xué)院,陜西 西安710064;2.安徽科力信息產(chǎn)業(yè)有限責(zé)任公司,安徽 合肥230088;3.智能交通安徽省重點實驗室,安徽 合肥230088)
隨著現(xiàn)代道路交通運輸業(yè)的飛速發(fā)展,交通事故猛增已經(jīng)成為一個嚴(yán)峻的公共安全問題,據(jù)2004 年由世界衛(wèi)生組織發(fā)布的《世界預(yù)防交通傷害報告》統(tǒng)計,從2000 年到2020 年,全球道路交通傷亡總數(shù)將上升65%左右,而中低收入國家道路交通傷亡人數(shù)將增加80%。預(yù)防交通事故發(fā)生的首要任務(wù)就是分析事故成因,找出引發(fā)事故的主要原因,進(jìn)而制定相應(yīng)的對策。但道路交通事故的發(fā)生是道路、交通、環(huán)境等多種因素綜合作用的結(jié)果,要判別哪種因素是引發(fā)事故的主要原因目前還比較困難。因此如何判別眾多含有不確定性的因素對交通事故的影響程度以及有效治理和防范交通事故是當(dāng)前面臨的重要課題。
目前,許多學(xué)者開展了這方面的研究,如2005 年,姚智勝、邵春福等[1]運用粗糙集理論對路段事故多發(fā)點的成因進(jìn)行了分析,提出了路段交通事故成因分析的模型和方法。張鵬等[2]提出了通過粗糙集理論對公路交通中的不利因素進(jìn)行篩選,找到形成事故多發(fā)點的最大誘因并提出了有針對性的整治策略。劉紅、何鵬[3]為定量分析海事事故的影響因素,從最新國內(nèi)外168份海事事故報告中選擇100 份事故報告作為研究樣本,運用粗糙集理論從人、船、環(huán)境的角度研究事故類型、事故發(fā)生時間、船旗國、噸位、船型、船齡、氣象、人等與事故等級之間的重要性隸屬度關(guān)系。王迎、羅小強(qiáng)等[4]歸納總結(jié)了現(xiàn)有事故成因分析方法的特點和適用條件,提出了包括人、車、路和環(huán)境的山區(qū)高速公路交通事故影響因素,分析了各因素間的交互作用,提出了基于FCM 聚類的山區(qū)高速公路事故多發(fā)點成因分析方法。李桃迎、陳燕等[5]通過對交通事故潛在規(guī)律的研究,將關(guān)聯(lián)規(guī)則方法用于交通事故分析,借助FCM 算法進(jìn)行了仿真和可視化顯示,結(jié)果表明模糊關(guān)聯(lián)規(guī)則方法挖掘出的規(guī)則符合現(xiàn)實情況,可以為交通管理提供有效方法。此外,富宏、張雷等[6]通過一些事實、數(shù)據(jù)及道路交通事故原因分析,論述了道路交通事故在偶然的背后隱藏著必然,是可預(yù)防的,說明道路交通事故發(fā)生、發(fā)展也是受一定的客觀規(guī)律所支配。
綜上所述,本文考慮在事故成因分析中引入不確定分析方法,相對于現(xiàn)有的不確定性分析和推理方法,粗糙集理論能在無先驗知識且沒有事先對數(shù)據(jù)或知識進(jìn)行主觀評價的條件下,僅利用數(shù)據(jù)本身所含信息,就可以客觀有效地分析和處理不精確、不確定數(shù)據(jù),并從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律。本文的研究思路是基于已有交通事故統(tǒng)計資料,構(gòu)造影響道路交通事故的因素與事故形態(tài)之間的映射關(guān)系,為防止道路交通事故發(fā)生提供決策依據(jù)。
粗糙集理論是由波蘭數(shù)學(xué)家Z.Pawtak 于1982年提出的,是一種處理不精確、不確定與不完全數(shù)據(jù)的新的數(shù)學(xué)理論。其主要思想是在保持分類能力不變的前提下,通過知識約簡,導(dǎo)出問題的決策或分類規(guī)則。到20世紀(jì)90年代,該理論在數(shù)據(jù)決策與分析、模式識別、機(jī)器學(xué)習(xí)與知識發(fā)現(xiàn)等方面已取得大量成功應(yīng)用,引起了世界各國學(xué)者的廣泛關(guān)注[7-15]。為方便描述粗糙集理論,現(xiàn)給出如下定義。
(1)定義1:不可區(qū)分關(guān)系
設(shè)R是U上的一個等價關(guān)系,U/R表示R的所有等價類構(gòu)成的集合,[x]R表示包含元素x?U的R的等價類,U上的一簇劃分稱為關(guān)于U的一個知識庫。一個知識庫就是一個關(guān)系系統(tǒng)K=(U,R),其中U為非空有限集,稱為論域,R是U上的一族等價關(guān)系。若P?R,且P≠Ф,則∩P(P中所有等價關(guān)系的交集)也是一個等價關(guān)系,稱為P上的不可區(qū)分關(guān)系,記為ind(P),且有:
(2)定義2:知識表達(dá)系統(tǒng)
知識表達(dá)系統(tǒng)是一個四元組S=(U,A,V,f),其中U={x1,x2,…,xn}是一個有限對象集合,A是一個有限屬性集合,v是屬性α的值域,f:U×A→V是一個信息函數(shù),它的每個對象的每個屬性賦予一個信息值,即:?a?A,x?U,f(x,a)?Va,如果A=C∪D,C∩D=?,C為條件屬性,D為決策屬性。
(3)定義3:上、下近似集
下近似集是指當(dāng)一個集合X不能利用有效的等價關(guān)系來恰當(dāng)?shù)胤诸悤r,則可通過另外的集合R來表達(dá)這個集合的近似。上近似集是所有與X的交不為空的R的基本集的并,對于任意的X?U,R是U上的等價關(guān)系,則上、下近似集分別如式(2)、式(3)所示:
(4)定義4:屬性依賴度
令P和Q為U中的等價關(guān)系,Q的P的正域posp(Q)為:
Q的P正域是U中所有根據(jù)分類U/P的信息可以準(zhǔn)確地劃分到關(guān)系Q的等價類中去的對象集合。設(shè)T=(U,A,P,Q)是一個決策表,其條件屬性和決策屬性分別是P和Q,則稱Q在T中以程度k依賴于P,Card(U)為集合的基數(shù),k的計算公式為:
(5)定義5:屬性重要度
單一屬性重要度是指某一條件屬性對決策屬性的重要性,屬性集重要度是指兩個或兩個以上的條件屬性構(gòu)成的屬性集對決策屬性的重要性。
設(shè)在一個決策表中,其條件屬性集合決策屬性集分別是P和Q,屬性子集P′?P 關(guān)于Q的重要性定義為:
特別當(dāng)P′={a}時,單一屬性a?P關(guān)于Q的重要性為:
設(shè)屬性a∈C,C是條件屬性集,D是決策屬性集,則a的屬性重要度定義為γC(D)-γC-a(D)。其中,γC(D)為條件屬性集C對D的屬性依賴度或分類相似度;γC-a(D)為條件屬性子集C-C′對D的屬性依賴度或分類相似度。
根據(jù)條件屬性集和決策屬性集可構(gòu)造一個二維系統(tǒng),每行表示一個對象,每列表示對象一種屬性。把具有條件屬性和決策屬性的知識表達(dá)系統(tǒng)稱為決策表。根據(jù)決策表和粗糙集理論簡約算法,利用知識推理的過程,計算出各個條件屬性集相對于決策屬性集的支持度和重要性。重要性表征當(dāng)前信息條件下條件屬性對決策屬性的重要程度,它根據(jù)有無該屬性的支持度變化進(jìn)行考察。若去掉該屬性,條件屬性對決策屬性的支持度變化較大,則說明該屬性強(qiáng)度大,即重要性高;反之,說明該屬性強(qiáng)度小,即重要性低[16]。
本文收集某省2008—2013 年道路交通事故數(shù)據(jù),共計3 065 條記錄,該數(shù)據(jù)共涉及100 多維數(shù)據(jù),因許多字段值域分布嚴(yán)重不平衡,如果直接進(jìn)行粗糙集計算,不僅會降低計算效率,而且會誤判字段失衡的屬性重要度。因此,本文從人、車、道路、環(huán)境及事故本事因素出發(fā),綜合考量數(shù)據(jù)本身的質(zhì)量,最終定義了24 維參數(shù),如表1所示。
表1 實驗字段屬性概況表
因本文道路交通事故屬性重要度識別研究僅考慮事故形態(tài),故以下實驗只針對事故形態(tài)展開。
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的首要步驟,也是極其重要的一環(huán),研究本實驗的數(shù)據(jù)可以發(fā)現(xiàn),數(shù)據(jù)預(yù)處理主要體現(xiàn)在空缺值的插補以及連續(xù)值的離散化兩方面,其中連續(xù)值的離散化字段有:JL(駕齡)、NL(年齡)兩個字段,處理策略如下:
(1)NL 字段:按照兒童、青少年、成年人、老年人四個階段進(jìn)行劃分,1(0~10歲)、2(11~20歲)、3(21~60歲)、4(≥61歲);
(2)JL 字段:1(0~5 年)、 2(6~10 年)、3(≥11年)。
數(shù)據(jù)中其余字段均出現(xiàn)不同程度的空缺情況,為提高數(shù)據(jù)質(zhì)量,本文采用的插補方法是基于C&RT算法預(yù)測來實現(xiàn)的,而非簡單的均值插補或人為猜測,所有的數(shù)據(jù)預(yù)處理均在SPSS Modeler數(shù)據(jù)挖掘平臺上實現(xiàn),處理過程如圖1所示。
圖1 數(shù)據(jù)預(yù)處理實驗圖
2.3.1 概念約束
根據(jù)粗糙集理論中計算屬性重要度的基本原理,現(xiàn)提出如下基于粗糙集理論的事故形態(tài)成因分析模型:
構(gòu)造知識表達(dá)系統(tǒng)S=(U,A,V,f),其中:U={u1,u2,…,u|U|},A={a1,a2,…,a|A|},A=C∪D,C∩D=?。條件屬性集C為所有事故成因的集合{x1,x2,…,xn},詳見表1 中的條件屬性一列。決策屬性集D為所發(fā)生事故的形態(tài){y},y的值可為11-碰撞運動車輛、12-碰撞靜止車輛、31-側(cè)翻、32-翻滾、33-墜車等,本文據(jù)此建立起事故形態(tài)分析決策表模型。
2.3.2 算法步驟
基于(1)中的概念約束,依據(jù)粗糙集理論,算法共包含以下五個步驟:
第1 步:計算分類U/(C-{xi}),U/C,U/D,i=1,2,3,…,n,可以假設(shè)U/y={W1,W2,…,Wt};
第2 步:分別計算分類U/y的各個子集Wj關(guān)于條件屬性集C-{xi}和C的支持子集:
式中,j=1,2,3,…,t;
第3步:計算決策屬性y?D關(guān)于條件屬性C-{xi}和C的支持子集:
第4 步:計算條件屬性xi在條件屬性集C中相對于Wi和y的重要性:
第5 步:根據(jù)條件屬性xi的重要性判別該路段第i個事故成因相對于第j個事故形態(tài)集的影響以及相對所有事故集的影響程度,本文的計算只針對所有事故形態(tài)的重要性。
2.3.3 實例分析
針對本文整理的道路交通事故數(shù)據(jù),在應(yīng)用上述模型計算后可得到各條件屬性相對事故形態(tài)的重要度,詳見圖2、表2。
圖2 屬性重要度計算結(jié)果圖
表2 高層屬性重要度分布表
表2(續(xù))
通過分析圖2、表2可以得出如下結(jié)論。
(1)各因素對道路交通事故形態(tài)的影響程度不同,即道路交通事故的條件屬性存在主次之分。依據(jù)計算結(jié)果,按照影響作用從大到小將道路交通事故因素依次排列順序:交通方式、交通信號方式、駕齡、道路類型、能見度、照明條件、文化程度、路側(cè)防護(hù)設(shè)施類型、天氣、道路線形、性別、路面結(jié)構(gòu)、路口路段類型、地形、道路物理隔離、年齡、道路安全屬性、路表情況、路面狀況(因主要違法行為字段值域分布稀疏以及車輛安全狀況值域過于單一,根據(jù)重要度計算可以推算,若其參與重要度計算將沒有意義)。
(2)根據(jù)表1的重要度分布表可知:道路因素對事故形態(tài)的影響程度最大,人、車、環(huán)境對事故形態(tài)的影響程度相差不大,進(jìn)一步分析可知:交通方式、交通信號方式、駕齡、道路類型、能見度這五個字段對事故形態(tài)的影響最大(占總重要度的58%),仔細(xì)分析這五個字段的來源可以發(fā)現(xiàn)它們分別來自車、道路、人、道路、環(huán)境四大類別,此結(jié)論亦印證了道路交通事故的形態(tài)是由人、車、道路、環(huán)境綜合作用的結(jié)果,此外,路面狀況和路表情況對事故形態(tài)的影響微乎其微。
本文通過運用粗糙集理論計算、分析了影響道路交通事故形態(tài)的各個成因的影響程度,相比于以往的交通事故成因分析模型,本文提出的成因分析模型能夠在沒有先驗知識和事先主觀評價的條件下,僅利用交通事故統(tǒng)計數(shù)據(jù)本身所含信息,就可以比較客觀、有效地從數(shù)據(jù)中發(fā)現(xiàn)隱含規(guī)則,從眾多的成因中找出主要影響因素并加以防范和治理,這對于盡快預(yù)防和避免交通事故的發(fā)生具有重要意義。
在模型建立過程中,決策表的構(gòu)造是關(guān)鍵步驟,為建立合理有效的事故成因分析模型,條件屬性和決策屬性的選取和賦值需要根據(jù)不同的情況進(jìn)行深入細(xì)致的研究,如本文就創(chuàng)新性地去除了字段值域分布嚴(yán)重不平衡的字段,這樣不僅提高了計算效率,而且也能防止重要度誤判情況出現(xiàn)。然而本文提出的事故形態(tài)成因分析模型,僅考慮了條件屬性對整個事故形態(tài)集的成因分析,并沒有針對每個具體的事故形態(tài)展開研究,此外,由于事故數(shù)據(jù)數(shù)量和類型的限制,本文只對簡單的算例進(jìn)行試驗,實際中交通事故統(tǒng)計數(shù)據(jù)類型要復(fù)雜的多,數(shù)據(jù)規(guī)模也大得多,因此,上述模型和算法的合理性和實用性有待于更大規(guī)模的實際數(shù)據(jù)的檢驗。
[1] 姚智勝,邵春福,龍德璐.基于粗糙集理論的路段交通事故多發(fā)點成因分析[J]. 中國安全科學(xué)學(xué)報,2005(12):107-109.
[2] 張鵬,張靖,劉玉增.粗糙集在事故黑點成因分析中的應(yīng)用[J].電子科技大學(xué)學(xué)報,2007(2):267-270.
[3] 劉紅,何鵬.基于粗糙集的海事事故影響因素分析[J].上海海事大學(xué)學(xué)報,2013,34(2):17-19.
[4] 王迎,羅小強(qiáng),袁長偉.基于FCM 聚類的山區(qū)高速公路事故多發(fā)點成因分析[J].公路,2013(8):218-222.
[5] 李桃迎,陳燕,張琳,等.基于模糊關(guān)聯(lián)規(guī)則的交通事故分析應(yīng)用研究[J].計算機(jī)仿真,2011,28(9):335-337.
[6] 富宏,張雷.淺議道路交通事故的可預(yù)防性及防治措施[J]. 內(nèi)蒙古農(nóng)業(yè)大學(xué)學(xué)報:社會科學(xué)版,2013,15(68):45-48.
[7] Paw1akZ. Rough Sets[J]. International Journal of Computer Information Science,1982(11):341-356.
[8] 任重,邵軍力.粗糙集理論在通偵信息融合中的應(yīng)用[J].解放軍理工大學(xué)學(xué)報:自然科學(xué)版,2002(6):96-99.
[9] 王凱,張永祥,李軍.粗糙集理論在故障診斷專家系統(tǒng)中的應(yīng)用[J].計算機(jī)測量與控制,2003(11):827-829.
[10] 王明慧.粗糙集理論在鐵路行車調(diào)度指揮系統(tǒng)中應(yīng)用的研究[J].中國鐵道科學(xué),2004,25(4):103-107.
[11] 姚琛,羅霞,漢克·范少倫.基于粗集和神經(jīng)網(wǎng)絡(luò)耦合的短時交通流預(yù)測[J]. 公路交通科技. 2010, 27(11):104-107.
[12] 易正俊,張業(yè)亭,黃華.基于粗糙集的道路交通事故預(yù)警算法研究[J].西華大學(xué):自然科學(xué)版,2007,26(5):26-29.
[13] 葉明全,胡學(xué)鋼,胡東輝,等.基于屬性值分類的多層次粗糙集模型[J].模式識別與人工智能,2013,26(5):481-484.
[14] 李巧茹,程長廣,陳亮.基于GA-BP神經(jīng)網(wǎng)絡(luò)算法和粗糙集理論的交通事故黑點模型[J].武漢理工大學(xué)學(xué)報:交通科學(xué)與工程版,2011,35(4):756-759.
[15] 王倩,苗德華,鄧三鵬.基于粗糙集的汽車駕駛員疲勞監(jiān)測方法的研究[J]. 車輛與動力技術(shù),2011(4):18-20.
[16] 張文修,吳偉志,梁吉業(yè),等. 粗糙集理論與方法[M].北京:科學(xué)出版社,2001.