亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文本數(shù)據(jù)驅(qū)動下的高速公路事故持續(xù)時間預(yù)測模型*

        2020-03-14 13:40:54紀(jì)柯柯肖思瑤王祥宇劉亦欣傅志妍
        交通信息與安全 2020年6期
        關(guān)鍵詞:分類文本模型

        紀(jì)柯柯 陳 堅▲ 肖思瑤 王祥宇 劉亦欣 傅志妍

        (1.重慶交通大學(xué)交通運輸學(xué)院 重慶 400074;2.重慶交通大學(xué)信息科學(xué)與工程學(xué)院 重慶 400074;3.西南交通大學(xué)唐山研究生院 河北 唐山 063000;4.重慶第二師范學(xué)院 經(jīng)濟與工商管理學(xué)院 重慶 400067)

        0 引 言

        交通事故是造成道路擁堵的主要原因,尤其是突發(fā)性事故造成的非經(jīng)常性擁堵[1]。為減少交通事故帶來的社會和經(jīng)濟損失,眾多學(xué)者對事故自動檢測[2]、救援車輛誘導(dǎo)[3]、事故下的現(xiàn)場處置[4]等開展研究,而事故持續(xù)時間預(yù)測研究較少。事故持續(xù)時間預(yù)測作為高速公路事故應(yīng)急管理的重要前提,準(zhǔn)確預(yù)測有助于道路交通管理部門針對已發(fā)生的事故做出合理的決策,開展相應(yīng)的道路疏通工作,配置最優(yōu)保障資源,減少事故發(fā)生后可能帶來的后續(xù)損失;同時,也有助于出行者合理調(diào)整自己的出行線路。

        目前,針對于道路交通事故持續(xù)時間預(yù)測的研究主要基于結(jié)構(gòu)化數(shù)據(jù)(數(shù)值),結(jié)合概率分布[5]、機器學(xué)習(xí)[6-7]、生存模型[8]以及混合模型[9]等方法開展,該類研究多是建立在假設(shè)已獲取所有可能信息的基礎(chǔ)上。然而,在真實情景中,事故持續(xù)時間受到各種因素的影響,加之交通事故存在異質(zhì)性,有些影響因素是客觀可測的,如事故車輛數(shù)、事故位置等;另一些則是主觀劃分的,如天氣狀況、道路條件等。大量事故信息被記錄在自由流文本中,難以全部數(shù)值化處理,因此,現(xiàn)有的研究方法由于受數(shù)據(jù)類型、數(shù)據(jù)精度的影響,無論是在時效上還是對數(shù)據(jù)本身挖掘程度上都難以滿足實際需要。

        而自然語言處理(natural language processing,NLP)技術(shù)為事故持續(xù)時間的預(yù)測提供了1 種新的方法。Pereira 等[10]基于自然語言處理中的主題模型,結(jié)合時間序列預(yù)測方法,對道路事故持續(xù)時間進行預(yù)測,結(jié)果提升了預(yù)測模型的性能;Li 等[11]同樣采用主題建模從人類語言中提取有用的信息,并在Pereira 的基礎(chǔ)上建立多項式邏輯和基于參數(shù)風(fēng)險的混合模型,從而提升預(yù)測精度。上述研究均表明,自然語言處理技術(shù)的應(yīng)用,有助于提高事故持續(xù)時間預(yù)測效果。但上訴研究僅僅將自然語言處理(NLP)技術(shù)作為傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的補充,未能真正實現(xiàn)利用事故文本信息數(shù)據(jù)對事故持續(xù)時間進行預(yù)測。

        基于以上分析,考慮到高速公路事故實際處理過程中,通常以主觀經(jīng)驗對事故持續(xù)時間進行估計,并且相似事故狀況所確定的持續(xù)時間以及采取措施往往相同。故筆者提出V-Fisher 有序文本聚類模型,完全基于事故文本數(shù)據(jù),利用文本特征之間的差異程度,實現(xiàn)事故文本的有序聚類。并通過多種文本分類算法對聚類結(jié)果進行學(xué)習(xí)訓(xùn)練,得到事故持續(xù)時間預(yù)測結(jié)果;最后通過仿真實驗驗證所提出方法的可行性和有效性。

        1 數(shù)據(jù)描述

        本文數(shù)據(jù)來源于2 部分,一部分是四川省高速公路管理中心提供的2017—2018 年原始事故記錄數(shù)據(jù),共968條,包含事故發(fā)生的時間、天氣狀況、發(fā)生線路、具體位置、事故類別、傷亡人數(shù)、路產(chǎn)損失(元)、估計經(jīng)損(元)、處理情況以及事故簡要經(jīng)過及原因等字段,部分原始文本數(shù)據(jù)見表1。

        表1 部分原始事故記錄文本數(shù)據(jù)表Tab.1 Partial original accident record text data table

        另一部分來源于對“四川高速”微博賬號發(fā)布的信息,通過式(1)和人工篩選對爬取后的微博信息相似度比較,選擇文本內(nèi)容相似,且包含同一起事故發(fā)生時間與終止時間的完整事故信息。通過收集2018—2020年10 月共40 000 余條數(shù)據(jù),提取完整信息數(shù)據(jù)3 196條。故本文實驗數(shù)據(jù)共有4 164條。

        式中:D1,D2分別表示2個文本,其向量化表示分別為當(dāng)sim(D1,D2)→1時,表示為文本具有較高的相似度。

        1.1 事故持續(xù)時間

        道路事故持續(xù)時間通常定義為事故發(fā)生與響應(yīng)到車輛離開事故現(xiàn)場之間的時間差,根據(jù)《公路通行能力手冊》[12],事故組成部分可分為4個階段:事故檢測/發(fā)現(xiàn)階段(從事故發(fā)生到事故被檢測或發(fā)現(xiàn)之間的時間)、響應(yīng)階段(從事故檢測/發(fā)現(xiàn)到事故救援到達現(xiàn)場之間的時間)、清除階段(從救援組到達現(xiàn)場直到事故清除之間的時間)和交通恢復(fù)階段(從事故清除到恢復(fù)正常交通流的時間,無因事故造成的上游擁堵);康國祥等[13]考慮到交通恢復(fù)階段各種因素的影響比較復(fù)雜,在實際難以獲得關(guān)鍵信息,因此,選擇事故發(fā)生、響應(yīng)以及清除3 個階段作為事故持續(xù)時間的研究內(nèi)容;Li等[14]把事故持續(xù)時間分為:檢測/報告階段、準(zhǔn)備/響應(yīng)階段、行程時間段及清除階段,并選取準(zhǔn)備/響應(yīng)、行程和清除3 個階段作為事故持續(xù)時間。

        考慮到在實際道路交通事故處理過程中,一方面,事故信息傳播的延遲性,難以獲取事故從發(fā)生到響應(yīng)之間的時間段;另一方面,源事故數(shù)據(jù)集中記錄的時間范圍。本文定義事故清除階段和交通恢復(fù)階段2 個部分作為事故持續(xù)時間研究內(nèi)容,見圖1。

        圖1 事故持續(xù)時間區(qū)段圖Fig.1 Section diagram of accident duration

        綜上所述,通過式(2)得到事故持續(xù)時間Yi。

        式中:Yi為事故持續(xù)時間,min;resure_timei為交通管理部門開始展開救援的時間戳,min;recover_timei為交通恢復(fù)的時間戳,min。

        1.2 事故持續(xù)時間分布

        通過對事故持續(xù)時間的處理,剔除無效數(shù)據(jù)后,對原始道路交通事故持續(xù)時間進行統(tǒng)計分析,分別得到記錄數(shù)據(jù)和微博數(shù)據(jù)中持續(xù)時間基本信息,見表2,記錄數(shù)據(jù)中數(shù)據(jù)跨度較大,最小值為10 min,最大值達到1 245 min。通過對事故持續(xù)時間分布擬合,見圖2(a)~(b),二者均近似呈泊松分布,且記錄數(shù)據(jù)主要分布在0~400 min,而微博數(shù)據(jù)則主要分布在0~200 min。

        表2 事故持續(xù)時間基本信息Tab.2 Basic information about accident duration

        圖2 事故持續(xù)時間分布圖Fig.2 A map of accident duration

        從圖2可知,無論是記錄數(shù)據(jù)還是微博數(shù)據(jù),事故持續(xù)時間分布均較為分散,加大了文本特征向量表示的稀疏性,降低預(yù)測結(jié)果的準(zhǔn)確率。因而,根據(jù)四川省高速公路聯(lián)網(wǎng)收費數(shù)據(jù),采用高速公路平均通行時間作為事故時間上限,減小時間跨度,計算方法為

        2 文本數(shù)據(jù)處理

        自然語言處理(NLP)是將人類交流溝通所用的語言經(jīng)過處理轉(zhuǎn)化為機器所能理解的機器語言。事故文本數(shù)據(jù)是1 種短字符集、含有噪聲的非結(jié)構(gòu)化自然語言,不能直接被計算機讀取,須經(jīng)過文本數(shù)據(jù)處理轉(zhuǎn)換成計算機可以識別的結(jié)構(gòu)化數(shù)據(jù)。其中主要包括文本數(shù)據(jù)預(yù)處理和文本向量表示2 個部分,基本流程見圖3。

        圖3 文本數(shù)據(jù)處理流程Fig.3 Text data processing flow

        2.1 文本數(shù)據(jù)預(yù)處理

        文本數(shù)據(jù)預(yù)處理包含2 個方面內(nèi)容:分詞、去停用詞。分詞是保證后續(xù)研究能夠準(zhǔn)確分析句子表達內(nèi)容的基礎(chǔ),由于中文句子中包含大量的虛詞、感嘆詞等無特殊意義的停用詞,故一般先去除文本中無用的停用詞,減少文本冗余特征數(shù)量;再通過Jieba 分詞工具,利用構(gòu)建的交通術(shù)語詞典,實現(xiàn)有效分詞。

        2.2 文本向量表示

        當(dāng)前常用的文本向量表示方法為向量空間模型(vector space model,VSM),它是1 種根據(jù)特定算法將文本數(shù)據(jù)轉(zhuǎn)換成若干特征詞的集合,并且將這些特征詞集合表示成特征向量的1 種文本表示方法。目的是采用向量化的方式將文本數(shù)據(jù)轉(zhuǎn)換為計算機可以讀取的結(jié)構(gòu)化數(shù)據(jù)。常用的有詞袋模型和TF-IDF(term frequency-inverse document frequency)模型2種方法。

        詞袋模型將分詞后的所有詞語看成1 個集合,集合中詞語之間是相互獨立的,沒有考慮相近詞語之間的含義以及詞語在語料庫中的順序,是1 種僅考慮詞語詞頻的文本表示方法;而TF-IDF 模型則以詞頻TF 和逆文本頻率指數(shù)IDF 乘積的形式來表示詞語在文檔中的重要性,詞頻TF和逆文本頻率指數(shù)IDF的計算[15]見式(4)。

        式中:idfi為ti詞的逆文本頻率指數(shù)為語料庫中文件總量為包含ti詞的文件數(shù)。

        得到TF-IDF的結(jié)果為

        由于高速公路道路交通事故文本數(shù)據(jù)中包含大量無意義的描述性信息,使用詞袋模型一方面會產(chǎn)生較大的向量維度,另一方面無法突出關(guān)鍵信息詞的重要性,因此本文選取TF-IDF 模型進行文本向量表示。

        以表1 中的事故經(jīng)過及原因為數(shù)據(jù)對象,應(yīng)用TF-IDF模型進行特征向量表示,設(shè)定最大特征值為15,得到提取結(jié)果:事故、交通、廈蓉高速、廈門、發(fā)生、小貨車、成渝段、成都、斷道、方向、施救、未超限、現(xiàn)場、相撞、輕傷。

        所對應(yīng)的特征矩陣為:[3 1 1 1 1.406 1 1 1.405 1 1.405 1.405 1.405 1.405;1 1 1 1 1 0 1 1 0 1 0 0 0 0 0]

        3 有序文本聚類(V-Fisher)模型

        事故文本信息通常語句較短,且相同事故持續(xù)時間周邊范圍內(nèi)的語義表達較為相似,即存在事故類型、事故地點等因素的相似性,因此,通過聚類算法減少事故持續(xù)時間的稀疏性,將有利于提升最終預(yù)測的準(zhǔn)確率。由于高速公路事故持續(xù)時間具有連續(xù)有序性特點,因此普通的聚類算法并不能依據(jù)時間順序?qū)κ鹿饰谋具M行有序聚類。因此,本文借鑒Fisher聚類算法思想[16],提出V-Fisher有序文本聚類模型,通過對TF-IDF 模型提取的VSM 特征,采用離差平方和表示各文本特征的差異程度,使得同類文本特征之間的差異最小,不同類別文本特征間的差異最大,實現(xiàn)有序聚類。再通過各種文本分類算法,驗證模型的有效性。算法的結(jié)構(gòu)框架見圖4,具體步驟如下。

        步驟1。將事故文本數(shù)據(jù)按照持續(xù)時間大小有序排列。

        步驟2。文本數(shù)據(jù)預(yù)處理。對文本數(shù)據(jù)進行去噪、分詞、去停用詞,并利用TF-IDF 模型提取文本特征,構(gòu)建特征向量。

        步驟3。設(shè)置時間分段數(shù)k,計算可能每段的類直徑D(i)以及最小損失函數(shù)

        步驟4。根據(jù)β檢驗法確定最優(yōu)分類結(jié)果。

        步驟5。按一定比例劃分訓(xùn)練集和測試集,并通過分類算法對模型進行訓(xùn)練,得到訓(xùn)練結(jié)果。

        步驟6。對結(jié)果進行評估。

        圖4 NLP-Fisher預(yù)測模型流程圖Fig.4 Flow chart of NLP-Fisher prediction model

        3.1 模型構(gòu)建

        3.1.1 定義類的直徑

        式中:D(i,j)為該類中不同時間標(biāo)簽i,i+1,…,j對應(yīng)事故文本數(shù)據(jù)之間的差異;Xt為每個文本句向量值,該類的均值向量表示為

        3.1.2 定義分類損失函數(shù)

        將N個有序文本分為k類的表示方法為

        式中:分割點為1=i1,i2,…,ik<N。

        定義不同事故持續(xù)時間對應(yīng)的文本向量劃分為k類的損失函數(shù)為

        從而,得到分類結(jié)果。

        3.1.3 確定最優(yōu)分類數(shù)

        目前常用的k值確定方法是曲線法和β檢驗法。本文在此采用β檢驗法,確定最優(yōu)分類數(shù),其公式為

        當(dāng)β值較大時,說明劃分為k+1 類比k類要更優(yōu);β值越接近于1時,則可認(rèn)為該劃分類數(shù)k為最優(yōu)分類數(shù)。

        3.2 分類算法

        自然語言處理中的分類算法有很多,包括支持向量機(support vector machine,SVM)分類算法、邏輯回歸(logistic regression,LR)、神經(jīng)網(wǎng)絡(luò)分類算法等[17-18]。本文選擇支持向量機、邏輯回歸對文本聚類模型進行評估。

        3.2.1 支持向量機

        支持向量機(SVM)是1 種監(jiān)督式學(xué)習(xí)算法,泛化錯誤率低,具有良好的學(xué)習(xí)能力,可以解決小樣本情況下的預(yù)測問題。其是將輸入的文本向量映射到1個特征空間中,并在這個特征空間中尋找優(yōu)化的線性分界線,隨后構(gòu)造出1個分離類別的超平面,從而實現(xiàn)對文本數(shù)據(jù)的分類。支持向量機(SVM)算法的決策函數(shù)為[19]

        3.2.2 邏輯回歸

        邏輯回歸(LR)是以某種結(jié)果發(fā)生的概率為因變量,影響該結(jié)果發(fā)生的因素為自變量建立的回歸。邏輯回歸本質(zhì)和SVM一致,都是尋找具有最大間隔的超平面,但計算復(fù)雜度要遠低于SVM,且分類速度也要快于SVM。

        這2種算法均既可以用于回歸,又可以用于分類,在參數(shù)不變的情況進行對比分析,可更有效的反應(yīng)本文所建模型的適應(yīng)性,且更適用于小數(shù)據(jù)集的研究。

        3.3.3 模型評價

        選取準(zhǔn)確率P、召回率R、F值作為評價指標(biāo)。準(zhǔn)確率P表示對測試集進行時間區(qū)間分類后,預(yù)測為某類樣本中真正屬于該類別的樣本所占比例,即

        式中:r,t的含義見表3。

        圖5 LR回歸模型與SVR回歸模型預(yù)測結(jié)果圖Fig.5 LR regression model and SVR regression model prediction results

        表3 分類判別混淆矩陣Tab.3 The classification identifies the confusion matrix

        召回率R表示對測試集進行時間區(qū)間分類后,預(yù)測為某類樣本中真實類別占所有真實類別的比例,即

        為了對準(zhǔn)確率P和召回率R進行綜合考慮,本文使用二者的加權(quán)調(diào)和平均數(shù)F來衡量最終的分類效果,即

        考慮到本文對事故時間的分類任務(wù)面向的是多分類任務(wù),因此再計算出各個類別所對應(yīng)的準(zhǔn)確率P、召回率R以及F值,采用各個類別所對應(yīng)的平均準(zhǔn)確率AVP、平均召回率AVR,以及平均F值A(chǔ)VF作為衡量時間區(qū)間分類器性能的評價指標(biāo)。

        4 仿真實驗與分析

        本實驗基于Python 語言編寫,選取預(yù)處理后事故記錄數(shù)據(jù)和微博發(fā)布數(shù)據(jù)作為實驗數(shù)據(jù),運用式(3),計算得到四川省高速公路車輛平均出行時間為275 min,并以此為事故持續(xù)時間上限,在總數(shù)4 164條數(shù)據(jù)的基礎(chǔ)上,篩選得到3 731條有效數(shù)據(jù),有效占比為89.6%。其中訓(xùn)練集3 335條,測試數(shù)據(jù)396條。

        4.1 回歸預(yù)測

        將事故文本數(shù)據(jù)經(jīng)過分詞、去停用詞以及特征提取等基本流程處理后,把得到的特征向量矩陣為自變量,事故持續(xù)時間為自變量,分別采用邏輯回歸(LR),支持向量機回歸(SVR)方法對模型進行回歸預(yù)測。

        針對于測試集,無論是SVR算法還是LR算法,在事故持續(xù)時間預(yù)測擬合精度均較低,見圖5 和表4。從圖5(b)可知,尤其是SVR算法,預(yù)測結(jié)果集中在50~100 min 之間,難以在實際生產(chǎn)活動中產(chǎn)生有效作用;其次,雖然LR 算法的R2遠大于SVR 算法,但其MAE和MSE性能指標(biāo)均大于LR 算法,表明該模型預(yù)測結(jié)果的具有極高的不穩(wěn)定性。因此,采用回歸模型得到的預(yù)測結(jié)果幾乎不具備實際效用。故結(jié)合實際道路交通管理部門的工作流程,根據(jù)事故狀況對持續(xù)時間進行分區(qū)段處理,將更有助于道路管理部門開展應(yīng)急管理工作。

        表4 回歸模型性能表Tab.4 Performance table of regression model

        4.2 V-Fisher有序文本聚類模型

        將經(jīng)過自然語言處理后的特征向量,通過V-Fisher 聚類模型,得到不同分段結(jié)果以及所對應(yīng)的損失函數(shù)值,見表5,并利用β檢驗法確定最優(yōu)分類數(shù);根據(jù)β檢驗值可知,當(dāng)劃分為3 段時β值最小,為1.001 2,且最接近于1,可以認(rèn)為聚類效果最好。

        表5 聚類結(jié)果及損失函數(shù)值、 β 值Tab.5 Clustering results and loss function values, β alues

        對聚類后的結(jié)果分別采用SVM 分類算法、LR分類算法以及集成學(xué)習(xí)的思想對模型進行訓(xùn)練與預(yù)測,并針對于評價指標(biāo)AVP,AVR,AVF進行對比分析,具體結(jié)果見表6和圖6。

        表6 各算法分類性能對比Tab.6 Classification performance comparison of algorithms

        圖6 各算法分類性能對比圖Fig.6 Comparison of classification performance of each algorithm

        從圖6 可知,通過分類預(yù)測算法效果遠好于回歸預(yù)測,各項性能指標(biāo)均在0.65 以上。尤其是在采用對SVM 和LR 集成后,模型準(zhǔn)確率更是達到了0.82。而SVM 算法在預(yù)測過程中各指標(biāo)值表現(xiàn)得較為平穩(wěn),沒有較大的波動。綜上,通過本文提出的V-Fisher 有序聚類模型,在單純自然語言文本數(shù)據(jù)的基礎(chǔ)上,各分類算法均表現(xiàn)出較好的預(yù)測結(jié)果,表明本文所建模型具有較好的適應(yīng)性,將有助于在實際情景中對事故持續(xù)時間做出較為精準(zhǔn)的預(yù)測,并達到預(yù)期的效果。

        5 結(jié)束語

        針對目前智慧交通領(lǐng)域研究熱點,就大量交通事故信息被記錄在自由流文本中的現(xiàn)象,引入自然語言處理技術(shù),對高速公路事故持續(xù)時間預(yù)測問題展開研究。

        1)基于事故文本數(shù)據(jù),利用自然語言處理技術(shù),建立文本驅(qū)動下的事故持續(xù)時間預(yù)測模型。適用于以自然語言形式存在的任何信息文本,更及時、有效、便捷的預(yù)測事故可能持續(xù)時間,從而滿足交通管理和出行服務(wù)需要。

        2)在傳統(tǒng)文本分類基礎(chǔ)上,提出1種針對于有序文本數(shù)據(jù)的聚類算法模型(V-Fisher),在一定程度上提升了事故持續(xù)時間預(yù)測有效性。

        3)由于事故文本數(shù)據(jù)向量表示的稀疏性,傳統(tǒng)回歸預(yù)測模型的有效性較差,預(yù)測結(jié)果與真實結(jié)果存在較大偏差。而分類預(yù)測模型則受文本向量表示影響較小,在集成學(xué)習(xí)模型下準(zhǔn)確率可以達到0.82。

        本研究目前只是利用自然語言處理技術(shù)在交通領(lǐng)域中的試探性研究,因此,該方法還有待于進一步地應(yīng)用檢驗,并不斷擴充訓(xùn)練集數(shù)量,優(yōu)化預(yù)測模型。

        猜你喜歡
        分類文本模型
        一半模型
        分類算一算
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        分類討論求坐標(biāo)
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        3D打印中的模型分割與打包
        国产大学生自拍三级视频| 欧美国产日本高清不卡| 99国产精品视频无码免费 | 中文字幕乱码亚洲无限码| 久久99精品久久只有精品| 国语自产精品视频在线看| 色哟哟网站在线观看| 2021精品国产综合久久| 久久久人妻丰满熟妇av蜜臀| 亚洲国产成人久久综合碰碰| 337p西西人体大胆瓣开下部| 亚洲av无码精品色午夜蛋壳| 久久中文字幕久久久久| 中文字幕手机在线精品| av人摸人人人澡人人超碰下载| 特黄做受又粗又长又大又硬 | 日本熟妇裸体视频在线| 九九九免费观看视频| 孩交精品xxxx视频视频| 久久99久久99精品免观看不卡 | 国产成人精品久久二区二区91| 亚洲国产精品一区二区毛片| 亚洲国色天香卡2卡3卡4| 试看男女炮交视频一区二区三区| 久久国产亚洲av高清色| 国产美女高潮流白浆免费视频| 一区二区av日韩免费| 国产a∨天天免费观看美女| 7777色鬼xxxx欧美色妇| 国产精品99久久久久久宅男| AV无码一区二区三区国产| 午夜精品人妻中字字幕| 欧美性生交大片免费看app麻豆| 成人区人妻精品一熟女| 国产v综合v亚洲欧美大天堂| 亚洲欧美日韩综合久久| 日本在线观看不卡| 国产亚洲精品在线播放| 国产成人精品日本亚洲专区61| 亚洲av无码一区二区三区不卡| 日本a在线看|