李興兵
(1.湖南交通工程學(xué)院,湖南 衡陽 421001;2.湖南信息學(xué)院,湖南 長沙 410151)
隨著我國交通運輸體系信息化程度不斷提升,特別是大數(shù)據(jù)、云計算、人工智能等信息技術(shù)在交通管理領(lǐng)域的廣泛應(yīng)用,使道路交通管理模式逐漸從傳統(tǒng)的現(xiàn)場管控、事后管控、人工管控,逐漸轉(zhuǎn)為以交通態(tài)勢實時采集、預(yù)先研判、提前干預(yù)為主的智能化交通管控模式,交通管理大數(shù)據(jù)的采集、存儲、融合、開發(fā)、利用成為提升道路交通安全管理水平新的增長點。從交通管理業(yè)務(wù)數(shù)據(jù)中挖掘有效信息,識別易導(dǎo)致交通事故的高風(fēng)險交通要素,成為當(dāng)前控制道路交通事故率、提升道路交通安全水平亟待解決的現(xiàn)實問題。通過應(yīng)用文本挖掘技術(shù),從道路交通事故案情文本數(shù)據(jù)中識別出易導(dǎo)致交通事故的交通參與者及其不規(guī)范交通行為,是提升交通管理大數(shù)據(jù)開發(fā)利用水平的重要突破點。
從道路交通事故數(shù)據(jù)產(chǎn)生和積累情況來看,目前道路交通管理主要側(cè)重對機動車及其駕駛?cè)说淖坟?zé)和處理,對道路交通事故中涉及的非機動車因素分析,如行人隨意橫穿公路等非駕人員交通行為以及未進(jìn)入機動車管理系統(tǒng)的共享單車、電動車、三輪車等非機動車輛的不規(guī)范駕駛等因素,沒有形成結(jié)構(gòu)化存儲和管理,只是融合在用于描述道路交通事故案情的文本數(shù)據(jù)中。如何對非結(jié)構(gòu)化的文本數(shù)據(jù)進(jìn)行挖掘分析,得出能夠支撐道路交通事故風(fēng)險分析的有價值信息,是當(dāng)前道路交通事故數(shù)據(jù)分析利用的一個難點?;谝陨闲枨?,需要研究實現(xiàn)針對道路交通事故案情文本數(shù)據(jù)的挖掘分析方法,通過文本分詞、文本分類、自動識別,將交通事故案情文本數(shù)據(jù)中蘊含的非機動車涉事車輛、行人及其交通違法行為等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行標(biāo)識,識別出交管執(zhí)法中信息錄入不完整,但實際上引發(fā)交通事故的潛在風(fēng)險因素,支撐道路交通事故的致因要素分析和管控。道路交通事故案情文本數(shù)據(jù)中“跑步橫過馬路”“道路右側(cè)橫過”“無號牌電動車”等是需要通過非結(jié)構(gòu)化文本數(shù)據(jù)挖掘技術(shù)識別出來的易導(dǎo)致交通事故因素,而在交管執(zhí)法認(rèn)定的違法行為記錄情況數(shù)據(jù)中,通常沒有對上述因素的結(jié)構(gòu)化記錄。因此,需要通過對交通事故案情文本數(shù)據(jù)進(jìn)行挖掘分析,對其進(jìn)行自動化識別和統(tǒng)計分析。
文本挖掘(TM)又稱文本數(shù)據(jù)挖掘(TDM),指為發(fā)現(xiàn)知識從文本數(shù)據(jù)中抽取隱含的、以前未知的潛在有用模式的過程[1-3]。其中,文本分詞技術(shù)是進(jìn)行文本挖掘和特征提取的基礎(chǔ)性工作[4]。解決道路交通事故案情文本數(shù)據(jù)挖掘問題,關(guān)鍵在于采用合適的中文分詞算法,將半結(jié)構(gòu)化、非結(jié)構(gòu)化的交通事故案情文本數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化的特征描述數(shù)據(jù),在此基礎(chǔ)上識別容易導(dǎo)致道路交通事故的潛在風(fēng)險因素。目前主流的中文文本分詞方法包括基于詞庫的分詞算法和無詞典的分詞技術(shù)[5]。基于詞庫的分詞算法基本思路是構(gòu)建領(lǐng)域關(guān)鍵詞詞庫,按照一定的規(guī)則將待處理文本與詞庫中的關(guān)鍵詞進(jìn)行匹配,得到對待處理文本的結(jié)構(gòu)化分詞匹配結(jié)果,其優(yōu)勢在于直觀簡單,可以根據(jù)業(yè)務(wù)的需求靈活構(gòu)建和維護(hù)領(lǐng)域關(guān)鍵詞詞庫,不斷優(yōu)化分詞效果,缺點是分詞效果依賴領(lǐng)域詞庫是否完善,分詞方法具有領(lǐng)域?qū)S眯浴?/p>
無詞典分詞技術(shù)包括基于統(tǒng)計的分詞方法、基于理解的分詞方法[6]?;诮y(tǒng)計的分詞方法基本思路是基于一定的語法規(guī)則構(gòu)建語言模型,對待處理文本進(jìn)行無差別字詞劃分,對劃分結(jié)果采用隱馬爾可夫(HMM)或條件隨機場(CRF)等算法進(jìn)行概率統(tǒng)計,將概率最大的分詞方式作為最終分詞結(jié)果。基于理解的分詞方法通過引入機器學(xué)習(xí)方法,基于樣本語料庫對機器學(xué)習(xí)模型進(jìn)行訓(xùn)練,構(gòu)建神經(jīng)網(wǎng)絡(luò)、支持向量機等機器學(xué)習(xí)模型,實現(xiàn)對大規(guī)模語料的自動化分詞。無詞典分詞技術(shù)的優(yōu)勢在于分詞效果受領(lǐng)域詞庫的影響較小,分詞方法具有普適性,能夠較好地處理新詞和消除歧義,適合對大規(guī)模語料庫的分詞處理,缺點是分詞算法的訓(xùn)練過程要依賴大量的樣本語料庫,算法訓(xùn)練和運行對計算資源要求較高。
本文研究道路交通事故案情文本分詞與特征提取,目的是解決交通管理中的潛在風(fēng)險因素識別問題,通過對交通管理部門重點關(guān)注的交通參與者、不規(guī)范交通行為等進(jìn)行調(diào)研和統(tǒng)計,可以建立較為完善的領(lǐng)域關(guān)鍵詞詞庫。因此,適合采用基于詞庫的分詞算法解決道路交通事故案情文本分詞問題。
第一,從道路交通事故數(shù)據(jù)庫中讀取待挖掘分析的道路交通案情文本數(shù)據(jù);第二,采用jieba分詞庫中的posseg模塊對案情文本數(shù)據(jù)進(jìn)行分詞處理,同時標(biāo)注詞性;第三,參照交通管理部門業(yè)務(wù)調(diào)研形成的交通參與者業(yè)務(wù)詞庫、交通違法行為業(yè)務(wù)詞庫,對道路交通案情文本數(shù)據(jù)分詞及詞性標(biāo)注結(jié)果數(shù)據(jù)進(jìn)行統(tǒng)計分析,提取出道路交通事故涉及的交通參與者數(shù)據(jù)、交通違法行為數(shù)據(jù);第四,分別對涉交通事故的交通參與者、易導(dǎo)致交通事故的交通違法行為進(jìn)行統(tǒng)計分析;第五,基于統(tǒng)計分析結(jié)果數(shù)據(jù)識別易導(dǎo)致交通事故的潛在風(fēng)險因素,建立交通事故潛在風(fēng)險因素數(shù)據(jù)庫,對結(jié)果進(jìn)行分析與可視化展示,形成可供相關(guān)部門參考的決策建議。道路交通事故案情文本分詞算法框架如圖1所示。
圖1 道路交通事故案情文本分詞算法框架
本研究基于python編程語言實現(xiàn)道路交通事故案情文本分詞算法框架,采用jieba分詞模塊中的中文分詞算法[7],對較大以上事故的簡要案情文本數(shù)據(jù)進(jìn)行挖掘分析。較大以上事故一般指發(fā)生了人員傷亡的道路交通事故,容易導(dǎo)致人身傷害、財產(chǎn)損失等嚴(yán)重后果。通過分析導(dǎo)致該類交通事故的交通參與者及其交通違法行為等潛在風(fēng)險因素,可以為交通管理部門明確工作重點、提升道路交通安全管理水平提供有價值的輔助決策信息。
本研究采集H省2019年第四季度發(fā)生的較大以上道路交通事故數(shù)據(jù)作為示例數(shù)據(jù),采集的道路交通事故數(shù)據(jù)包含事故編號、事故發(fā)生時間、事故發(fā)生地點、事故簡要案情等列。通過對“事故簡要案情”列的道路交通事故案情文本數(shù)據(jù)進(jìn)行挖掘分析,可以提取和分析容易導(dǎo)致較大以上道路交通事故的交通參與者類型及其交通違法行為等信息,將其作為關(guān)鍵詞,識別為容易導(dǎo)致較大以上道路交通事故的風(fēng)險因素。道路交通事故案文本挖掘分析統(tǒng)計如表1所示。
表1 道路交通事故案情文本挖掘分析統(tǒng)計 單位:起
發(fā)生較大以上交通事故的交通參與者類型中,排名前10位的交通參與者包括摩托車、行人、貨車、轎車、客車、無牌車等。其中,摩托車、行人、無牌車、電動車、自行車、三輪車這幾類事故高發(fā)的交通參與者,在機動車數(shù)據(jù)庫中沒有實現(xiàn)完全的結(jié)構(gòu)化數(shù)據(jù)管理,是道路交通安全管控中的難點,應(yīng)引起交通管理部門的重點關(guān)注。
導(dǎo)致較大以上事故發(fā)生的交通違法行為中,排名前10位的交通違法行為包括行人或非機動車橫過馬路、橫穿公路、機動車倒車、機動車駕駛?cè)顺傩旭偟刃袨?。其中,橫過/橫穿公路、逆向行駛、行人跑步過公路等行為,屬于非機動車駕駛?cè)说慕煌ㄟ`法行為,通常沒有對其進(jìn)行專門的結(jié)構(gòu)化錄入和管理,只是在交通事故簡要案情文本中有所體現(xiàn)。從交通事故預(yù)防的角度來說,交通管理部門不能僅著眼于記錄和管控機動車駕駛?cè)说慕煌ㄟ`法行為,對于非駕駛?cè)说慕煌▍⑴c者違法行為也應(yīng)出臺相應(yīng)的管控措施,實現(xiàn)對交通事故的精準(zhǔn)防控。
為了方便把握易導(dǎo)致交通事故的風(fēng)險因素,明確道路交通管理重點,可以繪制容易導(dǎo)致較大以上道路交通事故的高頻風(fēng)險因素詞云圖[8],對其進(jìn)行直觀展示。借助熱點詞云圖能夠直觀展示交通事故頻發(fā)的交通參與者類型、易導(dǎo)致交通事故頻發(fā)的交通違法行為,可以輔助交通管理部門更方便快捷地明確易導(dǎo)致較大以上交通事故發(fā)生的風(fēng)險因素,提高道路交通安全管理的針對性和工作效率。
基于文本挖掘算法對道路交通事故案情文本數(shù)據(jù)進(jìn)行挖掘分析,可以有效提取信息,實現(xiàn)交通事故風(fēng)險因素結(jié)構(gòu)化數(shù)據(jù)的描述、統(tǒng)計和分析,輔助交通管理部門管控道路交通安全風(fēng)險,提高道路交通管理的針對性和準(zhǔn)確性,實現(xiàn)對交通管理大數(shù)據(jù)的進(jìn)一步利用。本研究目前主要實現(xiàn)了對非駕駛?cè)私煌▍⑴c者及其交通違法行為兩類風(fēng)險因素的挖掘和提取。后續(xù)可以考慮引入關(guān)聯(lián)規(guī)則挖掘算法,對交通參與者及其交通違法行為與道路交通事故發(fā)生概率進(jìn)一步挖掘和統(tǒng)計,形成量化描述,提升道路交通事故風(fēng)險識別的科學(xué)性和準(zhǔn)確性。