黃淑兵 張亞洲 繆新頓 陸楊 楊卓敏
(公安部交通管理科學研究所,江蘇 無錫 214151)
近年來,在我國道路交通基礎(chǔ)設(shè)施的建設(shè)快速發(fā)展,汽車保有量持續(xù)增長的背景下,深化警務(wù)機制改革工作也在不斷的推進,城市交通管理警務(wù)效能水平在不斷提高。對公安交通管理領(lǐng)域來說,“信息引領(lǐng)”和“科技賦能”的概念逐步成為建設(shè)現(xiàn)代化警務(wù)機制的導向,多種警用設(shè)備的研發(fā)應(yīng)用以及各個數(shù)據(jù)平臺的建設(shè)運行匯總了大量的警務(wù)數(shù)據(jù),為深度研判分析工作提供了有力的支撐。與此同時,公安交管部門相應(yīng)的信息報送機制也在不斷完善,面對大量的交通安全事故數(shù)據(jù)分析工作,由人工進行數(shù)據(jù)量化統(tǒng)計的分析模式正逐步淘汰,取而代之的是數(shù)據(jù)自動化處理、多維度關(guān)聯(lián)分析等更加智能化的分析模式,這樣才能滿足對大量數(shù)據(jù)的多維度分析需求,即構(gòu)建并維護一個穩(wěn)健的數(shù)據(jù)分析模型能夠有效的輔助人工進行分析研判工作。
建立交通安全事故數(shù)據(jù)分析模型的重點是對事故信息中的文本數(shù)據(jù)進行結(jié)構(gòu)化處理,通常文本數(shù)據(jù)主要包括報警人或接警人對發(fā)生事故的過程描述以及處警人員對事件處置的結(jié)果描述。雖然這些文本數(shù)據(jù)由人工錄入系統(tǒng)時會按照相關(guān)規(guī)定對文字描述進行簡化處理,但是簡化后的文本數(shù)據(jù)并沒有提取關(guān)鍵信息,也不能作為結(jié)構(gòu)化數(shù)據(jù)直接存儲。所以,文本數(shù)據(jù)中描述事件過程或處置結(jié)果的實體和關(guān)系需通過NLP(NaturalLanguageProcessing 自然語言處理)技術(shù)進一步抽取和篩選。包含實體和關(guān)系文本處理完成后,即可對案發(fā)時間、案發(fā)地點、車輛情況、人員情況、道路設(shè)施等多維的因素進行數(shù)據(jù)分析。每起交通事件看似是偶然性事件,其實伴隨事故與隱患排查工作的深入可發(fā)現(xiàn),事故發(fā)生的根源或者安全隱患點往往能關(guān)聯(lián)起多個類似的歷史警情,如多起事故的案發(fā)路段、路口處均存在某個安全隱患;某路口經(jīng)常發(fā)生機動車左轉(zhuǎn)與非機動車碰撞的事故原因之一是該路口缺乏防護裝置和交通安全標志等等。通過挖掘關(guān)聯(lián)規(guī)則,可以發(fā)現(xiàn)一些潛在的規(guī)則和產(chǎn)生事故的誘因,最后采取相應(yīng)的處置措施達到降低此類交通事故發(fā)生概率的目的。
中文警情文本數(shù)據(jù)包括接處警人員錄入數(shù)據(jù)和系統(tǒng)自動疊加的常規(guī)數(shù)據(jù),其中事故數(shù)據(jù)多為非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),針對中文文本復雜的處理流程,陳永俊[1]等人采用BERT+LSTM 的方法進行公安警情數(shù)據(jù)的命名實體識別、采用BERT 與CNN 結(jié)合的方法挖掘關(guān)系;張明芳[2]等人引入分層級聯(lián)強化學習機制抽取涉案新聞實體關(guān)系;哈工大社會計算與信息檢索研究中心研制的語言技術(shù)平臺(LTP)[3]在各種自然語言處理場景中被廣泛應(yīng)用。關(guān)聯(lián)規(guī)則Apriori 等經(jīng)典數(shù)據(jù)挖掘算法被廣泛應(yīng)用于各行業(yè)的數(shù)據(jù)挖掘任務(wù)中。可以用來發(fā)現(xiàn)事情之間的聯(lián)系,但隨著數(shù)據(jù)量的增長,經(jīng)典方法在計算支持度的時候時間和空間復雜度較高,越來越多的研究采用使用并行體系架構(gòu)的GPU 來加速頻繁項集的生成過程。本文設(shè)計的主要分析過程如圖1 所示。
圖1 依存句法分析與關(guān)聯(lián)規(guī)則挖掘流程
因為數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)主要包括警情單編號、數(shù)據(jù)來源、接警人、管轄部門、警情類型、報警時間、處置結(jié)果標記、反饋人、反饋部門、反饋時間、警情倒查標記和警情核實標記等;非結(jié)構(gòu)化數(shù)據(jù)主要包括從各種平臺接入系統(tǒng)的“報警內(nèi)容”和“反饋內(nèi)容”,為了便于后期的關(guān)聯(lián)規(guī)則挖掘,需要對所有數(shù)據(jù)進行編碼,文本信息的編碼工作放在事故因子匹配之后進行。把結(jié)構(gòu)化數(shù)據(jù)的屬性進行編碼,并對屬性的值進行再編碼,即某個屬性的值能用維度較低的編碼來表示。維護的部分數(shù)據(jù)編碼方式示例如表1。
表1
維護的事故因子名稱和編碼方式類似。
表2
使用基于自然語音處理的工具,如LTP 對非結(jié)構(gòu)化數(shù)據(jù)(報警內(nèi)容和反饋內(nèi)容)進行分詞、詞性標注、句法結(jié)構(gòu)描述以及語義依存分析,得到依存句法分析樹。依存分析樹中包含多個依存關(guān)系,根據(jù)LTP 定義的依存關(guān)系如表3。
表3
因為接警人會將報警人口述的信息進行簡化,簡單明確的描述出警情的主要信息,且路面經(jīng)常發(fā)生的交通警情類型相對比較固定,所以進行依存分析后以主要謂語為中心,例如報警內(nèi)容:“在中山路二師附小學校門口,一輛黑色轎車違停在了非機動車道上,轎車后排的乘客打開右側(cè)的車門,后面的一輛紅色電動車碰撞到車門,電動車的駕駛員摔倒在地,其頭部、臉部等多處受傷?!卑选稗I車后排的乘客打開右側(cè)的車門”這個關(guān)鍵的描述單獨進行依存分析結(jié)果如下:
以動詞“打開”與根節(jié)點root 的關(guān)系為HED 得出“打開”是核心,類似的將文本信息均進行依存句法樹的構(gòu)建,然后篩選出SBV 主謂關(guān)系、VOB 動賓等關(guān)系、ATT 定中關(guān)系、POB 介賓關(guān)系,將抽取結(jié)果進行事件三元組的組裝。得出三元組信息如下:
[′一輛黑色轎車′,′違停′,′在非機動車道′]
[′轎車′,′后排′,′乘客打開車門′]
[′乘客′,′打開′,′車門′]
[′一輛紅色電動車′,′碰撞到′,′車門′]
[′電動車駕駛員′,′摔倒′,′在地′]
綜上,對所有待處理的文本信息進行以下技術(shù)路線處理得到文本信息的三元組半結(jié)構(gòu)化信息。
引入事故因子與事件三元組匹配方法,根據(jù)先驗知識維護事故因子數(shù)據(jù),事故因子數(shù)據(jù)同樣按警情類型進行歸類,根據(jù)該條記錄的警情類型進而事故因子與事件三元組的匹配,即該類別的事故因子與事件的三元組逐一匹配。匹配后將該事故的結(jié)構(gòu)化信息與事故因子進行綁定。
以下是list 類型的數(shù)據(jù)為例進行說明:待匹配的事故因子列表:[壓實線,逆行,違停,逃逸,碾壓行人,刮撞行人,開車門,側(cè)翻,翻滾,墜車,…,交通擁堵]。綁定后數(shù)據(jù)擴充為:案發(fā)時間:“某年某月某日某時某分”、案發(fā)地點:“某某地點”、違法行為:“開關(guān)車門妨礙其他車輛違法和行人通行”、是否逃逸:“是”、是否有現(xiàn)場“無”、是否受傷“有”、現(xiàn)場通行情況“擁堵”、車輛是否可移動“是”、涉事車輛類型“02 小型汽車”、事故類型“車輛與非機動車碰撞”、事故因子“開車門、違?!钡?,將這些字段安裝預定的編碼方式進行屬性和屬性值的編碼。
構(gòu)建Apriori 算法模型對每個事故因子對應(yīng)多條綁定的結(jié)構(gòu)化數(shù)據(jù)進行關(guān)聯(lián)規(guī)則的挖掘,首先,根據(jù)事故因子和事故類型的不同,對項集D 的項目也進行不同的設(shè)計,交通事故類的項集Dtrans字段:案發(fā)時間、案發(fā)地點、違法行為、是否逃逸、是否有現(xiàn)場、是否受傷、現(xiàn)場通行情況、車輛是否可移動、涉事車輛類型、人員類型、事故類型、事故因子等。
設(shè)置最小置信度閾值,即min(Confidencem)。
在上述挖掘步驟中,我們的數(shù)據(jù)格式是“橫向表達的”,即每一條警情結(jié)構(gòu)化處理后的數(shù)據(jù)有很多個字段,所以在求頻繁1 階項集至頻繁k 階項集的過程要重復的遍歷每一行待挖掘數(shù)據(jù)集,這樣產(chǎn)生了較大的計算量,而龐大的警情結(jié)構(gòu)化數(shù)據(jù)不適合選擇經(jīng)典的挖掘方法,文獻[4]均提到了將“橫向數(shù)據(jù)”進行“縱向表達”,再利用GPU 并行計算的優(yōu)勢來優(yōu)化頻繁K 階項集的尋找。基于GPU 的挖掘方法,均提進行了大量的可行性分析和測試,本文選擇利用GPU 來加速頻繁k項集的生成。
將上述生成的將關(guān)聯(lián)規(guī)則進行屬性還原,建立并維護一個分析結(jié)果與評價的映射關(guān)系表。例如將2021 年9 月以來的接處警業(yè)務(wù)實驗數(shù)據(jù)經(jīng)過置信度計算后進一步得到某條關(guān)聯(lián)規(guī)則為:[事故因子:刮撞非機動車,違法行為:碰撞非機動車輛,是否有現(xiàn)場:無現(xiàn)場,車輛是否逃逸:是,是否有人受傷:是,案發(fā)時段:上午7 點至8 點]→案發(fā)地點:育紅小學北門],即該規(guī)則等得到的結(jié)果為育紅小學北門,此時記評價因子的數(shù)據(jù)類型為Map,Map 的key 記錄的是生成的規(guī)則結(jié)果,對應(yīng)的value 是結(jié)論對應(yīng)的評價,如Map 的某個Key 值是:“小學”,對應(yīng)的Value 維護的內(nèi)容是“加強學校周邊巡邏及監(jiān)控覆蓋面”。
若產(chǎn)生的關(guān)聯(lián)規(guī)則沒有相匹配的評價信息,則需要進一步人工分析,如果規(guī)則符合常識,的確需要排查,就將此映射關(guān)系添加至評價關(guān)系映射表中,例如實驗得出以下部分規(guī)則:
1:[違法行為:妨礙其他車輛和行人通行,是否有警示標志:無,案發(fā)地點:濱河西路XX 路口北向南,道路類型:一般城市道路,案發(fā)時段:上午09 點至10 點]→事故因子:開車門。
2:[事故因子:別車,事故類型:車輛間事故,隔離設(shè)施:中央護欄,是否有警示標志:無,道路類型:一般城市道路,案發(fā)時段:上午09 點至10 點]→案發(fā)地點:XX 路XX 橋下。
本文通過基于自然語言的處理工具以及關(guān)聯(lián)規(guī)則分析算法,對非結(jié)構(gòu)化的文本信息進行事件三元組提取,并結(jié)合大量數(shù)據(jù)對不同的事故誘因匹配,利用并行計算能力,生成有效的關(guān)聯(lián)規(guī)則,進而提升接處警系統(tǒng)的警情分析能力,能夠更有針對性的開展事故原因排查和相關(guān)行為整治行動,本文亦可結(jié)合知識圖譜構(gòu)建技術(shù)將警情數(shù)據(jù)和挖掘結(jié)果信息可視化展示。