亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于優(yōu)化CART的交通事故嚴(yán)重程度影響因素分析

        2023-10-17 02:28:58張萌萌李澤文徐云帆劉永棟
        關(guān)鍵詞:決策樹(shù)交通事故程度

        張萌萌,李澤文,徐云帆,劉永棟

        (山東交通學(xué)院 交通與物流工程學(xué)院,山東 濟(jì)南 250357)

        0 引 言

        據(jù)國(guó)家統(tǒng)計(jì)局[1]顯示,2020年發(fā)生交通事故總數(shù)達(dá)24萬(wàn)余人,其中死亡人數(shù)就占據(jù)了四分之一,我國(guó)道路交通安全面臨嚴(yán)峻挑戰(zhàn)。對(duì)交通事故嚴(yán)重程度影響因素分析,可精準(zhǔn)識(shí)別道路交通安全隱患,實(shí)現(xiàn)交通事故有效防控,減少人員傷亡與損失。

        近幾年,國(guó)內(nèi)外學(xué)者對(duì)影響交通事故嚴(yán)重程度的因素進(jìn)行研究,馬柱等[2]利用Logistic模型構(gòu)建交通事故嚴(yán)重程度分析模型,得出天氣、道路線(xiàn)型、能見(jiàn)度等是交通事故嚴(yán)重程度的主要影響因素;馬壯林等[3]、馮忠祥等[4]、陳昭明等[5]同樣基于Logistic模型,對(duì)事故嚴(yán)重程度相關(guān)因素進(jìn)行研究;胡驥等[6]將Logistic與Probit模型相結(jié)合,但仍需考慮因素間的共線(xiàn)性問(wèn)題;楊曄[7]、王立曉等[8]為克服傳統(tǒng)Logistic回歸模型變量間共線(xiàn)性問(wèn)題,構(gòu)建Scobit模型進(jìn)行嚴(yán)重程度影響因素研究;戢曉峰等[9]則利用結(jié)構(gòu)方程模型,通過(guò)量化計(jì)算獲取的交通事故以及交通流數(shù)據(jù),得出大型車(chē)輛平均日交通量是影響交通事故嚴(yán)重程度的關(guān)鍵因素。國(guó)內(nèi)外學(xué)者也曾使用數(shù)據(jù)挖掘技術(shù)進(jìn)行研究。D.DELEN等[10]利用人工神經(jīng)網(wǎng)絡(luò),對(duì)交通事故嚴(yán)重程度與碰撞相關(guān)性因素之間的潛在非線(xiàn)性關(guān)系進(jìn)行建模,結(jié)果表明事故發(fā)生時(shí)的環(huán)境因素與道路條件對(duì)交通事故嚴(yán)重程度具有影響;許洪國(guó)等[11]運(yùn)用相關(guān)性分析和貝葉斯網(wǎng)絡(luò)結(jié)構(gòu),說(shuō)明了交通控制方式在降低交通事故嚴(yán)重程度方面起到的關(guān)鍵作用;孫軼軒等[12]建立交通事故嚴(yán)重程度支持向量機(jī)分類(lèi)識(shí)別模型,結(jié)果表明追尾和側(cè)撞、大型車(chē)輛等8個(gè)特征變量顯著影響模型分類(lèi)精度。但上述研究方法為了提升模型精度,多需要考慮自變量間共線(xiàn)性問(wèn)題及自變量的概率分布先驗(yàn)信息。

        而決策樹(shù)模型[13]在預(yù)測(cè)精度和解釋能力表現(xiàn)出優(yōu)異的性能,該模型不需要考慮自變量間共線(xiàn)性問(wèn)題和概率分布先驗(yàn)信息,且具有訓(xùn)練速度快、運(yùn)行時(shí)間短的優(yōu)點(diǎn)。雖然孫軼軒等[14]選擇C5.0決策樹(shù)算法建立了事故嚴(yán)重程度分類(lèi)模型,提升了模型預(yù)測(cè)精度,但該模型在建立過(guò)程中,需要對(duì)數(shù)據(jù)集進(jìn)行多次掃描和排序,導(dǎo)致算法計(jì)算效率較低。與C5.0決策樹(shù)算法相比,CART決策樹(shù)算法作為二叉樹(shù),提升了運(yùn)算速度和模型精確度。

        綜上所述,筆者利用CART決策樹(shù)算法構(gòu)建交通事故嚴(yán)重程度影響因素模型,首先基于皮爾遜卡方統(tǒng)計(jì)檢驗(yàn)法確定車(chē)輛屬性、道路屬性以及環(huán)境屬性中交通事故嚴(yán)重程度的候選影響因素指標(biāo),將其作為輸入變量,并以一般事故、較大及以上事故作為二分類(lèi)輸出變量構(gòu)建交通事故嚴(yán)重程度影響因素決策樹(shù)模型,結(jié)合CCP算法優(yōu)化CART決策樹(shù)模型結(jié)構(gòu),最后,剖析道路交通事故嚴(yán)重程度影響因素,為精準(zhǔn)預(yù)防、主動(dòng)防控提供理論依據(jù)和技術(shù)支撐。

        1 數(shù)據(jù)預(yù)處理及相關(guān)指標(biāo)提取

        對(duì)樣本數(shù)據(jù)進(jìn)行預(yù)處理,并提取顯著相關(guān)性較強(qiáng)的指標(biāo),是構(gòu)建決策樹(shù)模型的前提。筆者抽取某市2018—2020年的2 267起交通事故數(shù)據(jù)進(jìn)行分析,以交通事故嚴(yán)重程度為目標(biāo)(輸出)變量,參考安全事故嚴(yán)重程度的劃分標(biāo)準(zhǔn),將無(wú)傷害和輕傷交通事故定義為“一般事故”(y1),將重傷和死亡交通事故定義為“較大及以上事故”(y2)。以人、車(chē)、路、環(huán)境等屬性作為輸入變量,參考文獻(xiàn)[15]將變量合理分類(lèi),且主要從人、車(chē)、路、環(huán)境等屬性中提取顯著相關(guān)的變量進(jìn)行分析。

        考慮到變量離散的特征,筆者采用皮爾遜卡方統(tǒng)計(jì)檢驗(yàn)法度量?jī)蓚€(gè)變量之間的相關(guān)性,提取卡方檢驗(yàn)中顯著性水平小于0.05的指標(biāo)作為輸入變量。

        皮爾遜卡方統(tǒng)計(jì)檢驗(yàn)計(jì)算公式為:

        (1)

        式中:χ2為卡方統(tǒng)計(jì)檢驗(yàn)值,可衡量實(shí)際值與理論值之間的偏離程度;f0為實(shí)際觀察頻數(shù),即輸入變量某個(gè)類(lèi)別的觀察頻數(shù);fe為該類(lèi)別的期望頻數(shù)。當(dāng)χ2檢驗(yàn)的顯著性水平小于0.05時(shí),則表明兩個(gè)變量是獨(dú)立的不具有顯著性,即認(rèn)為兩個(gè)變量是相關(guān)的。

        將與目標(biāo)變量相關(guān)性較強(qiáng)的變量(即顯著性小于0.05)作為模型輸入變量,如表1。

        2 基于CCP算法優(yōu)化的CART交通事故影響因素模型構(gòu)建

        2.1 CART基本理論

        CART是1984年由L.BREIMAN等[16]提出的決策樹(shù)分類(lèi)模型,包含一個(gè)根節(jié)點(diǎn)、多個(gè)中間節(jié)點(diǎn)以及多個(gè)葉節(jié)點(diǎn)。與其他決策樹(shù)算法相比,CART算法計(jì)算速度更快,穩(wěn)定性更好,可精確識(shí)別道路交通事故影響因素。該算法利用基尼系數(shù)作為衡量數(shù)據(jù)集混亂程度的指標(biāo),基尼系數(shù)越小,系統(tǒng)混亂程度越低,即樣本數(shù)據(jù)集純度越高。對(duì)于新的待分類(lèi)項(xiàng),從根節(jié)點(diǎn)開(kāi)始,根據(jù)計(jì)算基尼系數(shù)值選取最佳分類(lèi)節(jié)點(diǎn)項(xiàng),遞歸調(diào)用直至滿(mǎn)足結(jié)束規(guī)則,生成最優(yōu)決策樹(shù)模型[17]。根節(jié)點(diǎn)基尼系數(shù)的計(jì)算公式為:

        (2)

        式中:N為給定節(jié)點(diǎn)的樣本數(shù)據(jù)集(總數(shù)據(jù));pk為類(lèi)別k在樣本N中可能發(fā)生概率,其中k取1和2,分別表示“一般事故”和“較大及以上事故”。

        當(dāng)確定根節(jié)點(diǎn)屬性后,其將該節(jié)點(diǎn)處N劃分為N1和N2,此時(shí)該節(jié)點(diǎn)下一層基尼系數(shù)值表達(dá)式為:

        (3)

        式中:N1和N2分別為劃分后兩節(jié)點(diǎn)各自的樣本量;G(N1)和G(N2)分別為劃分后節(jié)點(diǎn)1和節(jié)點(diǎn)2的基尼系數(shù)。之后按式(3)分別相繼計(jì)算N1和N2的下一層的最小基尼系數(shù)值,直至劃分至葉節(jié)點(diǎn)。

        決策樹(shù)建模屬于有監(jiān)督算法,變量可以是離散變量。一般只要決策樹(shù)充分地生長(zhǎng),就可以將訓(xùn)練樣本中的所有個(gè)體進(jìn)行充分的分類(lèi)。然而在模型應(yīng)用于驗(yàn)證時(shí),精度會(huì)出現(xiàn)大幅度的下降,即所謂的過(guò)擬合現(xiàn)象。故為避免只用CART算法建造決策樹(shù)模型時(shí)出現(xiàn)這種現(xiàn)象,需采用CCP算法優(yōu)化決策樹(shù)模型,使模型更符合實(shí)際需求。

        2.2 CCP算法

        CCP算法又稱(chēng)代價(jià)復(fù)雜度剪枝法[18],其涉及兩則信息,其一是代價(jià),是指將中間節(jié)點(diǎn)換成葉節(jié)點(diǎn)后,導(dǎo)致誤判率有所增加;其二是復(fù)雜度,是指剪枝后葉節(jié)點(diǎn)的個(gè)數(shù)減少,從而降低模型的復(fù)雜度。為平衡增加的誤判率與降低的復(fù)雜度,需加入一個(gè)調(diào)節(jié)系數(shù)α,故代價(jià)復(fù)雜度剪枝法的目標(biāo)函數(shù)可寫(xiě)為:

        (4)

        式中:i為節(jié)點(diǎn)T下的第i個(gè)葉節(jié)點(diǎn);|T|為節(jié)點(diǎn)T下的葉節(jié)點(diǎn)個(gè)數(shù);Ni為第i個(gè)葉節(jié)點(diǎn)的樣本量;G(Ni)為第i個(gè)葉節(jié)點(diǎn)的基尼系數(shù)。

        其中,令節(jié)點(diǎn)T剪枝前的目標(biāo)函數(shù)值等于剪枝后的目標(biāo)函數(shù)值,即Cα(T)a=Cα(T)b,α可表示為:

        (5)

        通過(guò)式(4)、式(5),可計(jì)算出所有非葉節(jié)點(diǎn)的α值,然后循環(huán)剪去最小α值所對(duì)應(yīng)的節(jié)點(diǎn)樹(shù),直到?jīng)Q策樹(shù)被剪枝到根節(jié)點(diǎn),最終得到n棵新樹(shù)。然后將測(cè)試數(shù)據(jù)集運(yùn)用到n棵新樹(shù)中,從中挑選出誤判率最低的樹(shù)作為最佳決策樹(shù)(圖1)。

        圖1 交通事故嚴(yán)重程度影響因素決策樹(shù)模型

        2.3 模型建立

        首先將樣本數(shù)據(jù)按照4∶1的比例劃分為訓(xùn)練集和測(cè)試集,采用CART決策樹(shù)算法對(duì)每個(gè)訓(xùn)練集樣本進(jìn)行學(xué)習(xí),得到基于基尼系數(shù)選擇泛化能力最好的剪枝策略,然后采用CCP算法優(yōu)化,建立一個(gè)過(guò)擬合風(fēng)險(xiǎn)較低的道路交通事故嚴(yán)重程度影響因素分類(lèi)決策樹(shù)模型,如圖1。

        2.4 模型驗(yàn)證

        選擇相對(duì)誤差值、ROC曲線(xiàn)和AUC等作為評(píng)價(jià)指標(biāo)驗(yàn)證模型的有效性。相對(duì)誤差值可以反映模型的可靠程度,誤差值越小,表明模型可行性越強(qiáng)。將測(cè)試數(shù)據(jù)集代入交通事故嚴(yán)重程度影響因素決策樹(shù)模型進(jìn)行驗(yàn)證,相對(duì)誤差僅為6.08%。

        ROC曲線(xiàn)是反映TPR(較大及以上事故覆蓋率)和FPR(一般事故誤判率)的綜合指標(biāo),通過(guò)可視化的方法評(píng)估模型好壞,進(jìn)一步驗(yàn)證模型在測(cè)試集上的預(yù)測(cè)效果。曲線(xiàn)越靠近左上角,模型的準(zhǔn)確率就越高,效果越好。曲線(xiàn)使用兩個(gè)指標(biāo)值進(jìn)行繪制,其中縱坐標(biāo)為T(mén)PR,橫坐標(biāo)為FPR。其中TPR和FPR可定義為:

        (6)

        式中:TP表示實(shí)際為y2預(yù)測(cè)為y2的數(shù)量;TP+FN表示實(shí)際為y2的數(shù)量;FP表示實(shí)際為y1預(yù)測(cè)為y2的數(shù)量;FP+TN表示實(shí)際為y1的數(shù)量。如圖2,ROC曲線(xiàn)靠近左上角,表明模型準(zhǔn)確性較高。

        圖2 決策樹(shù)模型的ROC曲線(xiàn)

        AUC是ROC曲線(xiàn)與其橫軸之間的面積,取值范圍一般在0.5~1.0之間,AUC取值越接近于1,說(shuō)明模型的預(yù)測(cè)價(jià)值越高。如圖2, AUC為0.93,表示該模型擬合效果比較理想,即對(duì)交通事故嚴(yán)重程度的影響因素分析有一定的參考價(jià)值,驗(yàn)證了本文的有效性。

        3 交通事故影響因素決策樹(shù)模型結(jié)果分析

        由2.4節(jié)可知,CART決策樹(shù)模型可有效對(duì)交通事故影響因素進(jìn)行分析。如圖1,決策樹(shù)由上而下為一條非閉合有向路徑,分別對(duì)應(yīng)一般事故、較大及以上事故兩種輸出變量。生成樹(shù)的根節(jié)點(diǎn)是大型貨車(chē),被分為兩個(gè)分支,其對(duì)應(yīng)的右分支點(diǎn)(x15=1)表示大型貨車(chē),左分支點(diǎn)(x15=0)表示車(chē)輛類(lèi)型非大型貨車(chē)車(chē)輛,模型表明:

        1)在交通事故形態(tài)方面,由決策樹(shù)模型左側(cè)部分,非大型貨車(chē)車(chē)輛在凹凸路面發(fā)生較大及以上刮擦事故的概率僅為13%,而發(fā)生較大及以上側(cè)面碰撞事故概率達(dá)51%;尤其在下雨天,發(fā)生較大及以上側(cè)面碰撞事故概率高達(dá)74%。綜上分析可知,側(cè)面碰撞相較刮擦碰撞更容易造成較大及以上事故。

        2)在車(chē)輛類(lèi)型方面,駕駛大型車(chē)輛發(fā)生較大及以上事故的概率比小型汽車(chē)、中型客車(chē)高。尤其是大型貨車(chē),發(fā)生較大及以上事故的概率約為59%,是其他類(lèi)型車(chē)輛的4倍。

        3)在路面狀況方面,由決策樹(shù)模型右側(cè)部分,大型貨車(chē)在非雨天發(fā)生較大及以上事故的概率僅為12.3%;但行駛在塌陷的路面,發(fā)生較大及以上事故的概率將增加近7倍。故大型貨車(chē)遇塌陷路面行駛,駕駛員應(yīng)提高警惕。

        4)在交通信號(hào)控制方面,由決策樹(shù)模型左側(cè)部分,車(chē)輛雨天遇無(wú)控制交叉口時(shí),發(fā)生較大及以上事故的概率達(dá)90%;而模型右側(cè)部分,車(chē)輛遇有信號(hào)交叉口發(fā)生事故時(shí),事故類(lèi)型均為一般事故。綜上分析可知,相比較單一的交通信號(hào)控制方式,車(chē)輛在交通信號(hào)控制方式較完善的交叉口不易發(fā)生較大及以上事故。

        5)在道路安全屬性方面,由決策樹(shù)模型左側(cè)部分,當(dāng)?shù)缆钒踩珜傩詾殡[患路段時(shí),發(fā)生較大及以上事故的概率為80%,是正常路段的1.25倍。

        6)在不同的天氣下,雨天發(fā)生較大及以上事故的概率達(dá)95.3%;且車(chē)輛在非晴天時(shí)發(fā)生較大及以上事故概率為晴天的2.344倍。說(shuō)明良好天氣下發(fā)生較大及以上事故率較惡劣天氣下低。

        7)在能見(jiàn)度方面,大型貨車(chē)在能見(jiàn)度為50~100 m時(shí),發(fā)生較大及以上事故的概率僅為20%,是能見(jiàn)度為200 m以上的0.388倍。說(shuō)明能見(jiàn)度高低并不能與事故嚴(yán)重程度成正比,這和駕駛員的安全意識(shí)有很大關(guān)系。

        綜上,建議駕駛員在惡劣天氣和路面狀況較差時(shí)小心駕駛,規(guī)劃好行車(chē)路線(xiàn),降低交通沖突;道路安全管理部門(mén)應(yīng)及時(shí)整改隱患路段,在事故多發(fā)交叉口盡量設(shè)置信號(hào)燈、標(biāo)志、標(biāo)線(xiàn)等設(shè)施,加強(qiáng)對(duì)大型車(chē)輛的管控和駕駛員安全意識(shí)培訓(xùn)。

        4 結(jié) 論

        1)通過(guò)皮爾遜卡方檢驗(yàn)法提取輸入變量,基于數(shù)據(jù)挖掘技術(shù)中的CART決策樹(shù)算法,結(jié)合代價(jià)復(fù)雜剪枝法,建立交通事故嚴(yán)重程度影響因素決策樹(shù)優(yōu)化模型。與以往研究相比,筆者使用CART算法研究交通事故嚴(yán)重程度,較好地識(shí)別大樣本數(shù)據(jù)下交通事故嚴(yán)重程度的影響因素,為道路交通管理部門(mén)防范重大事故提供科學(xué)、合理的參考。

        2)CART決策樹(shù)模型結(jié)果表明,在道路及交通環(huán)境方面,惡劣天氣、塌陷路面、道路存在隱患、交叉口無(wú)信號(hào)控制時(shí)等情況下,車(chē)輛發(fā)生較大及以上事故的概率均高于50%;在車(chē)輛方面,大型貨車(chē)發(fā)生較大及以上事故概率是其他類(lèi)型車(chē)輛的4倍。故交管部門(mén)應(yīng)加強(qiáng)對(duì)大型車(chē)輛安全管控,及時(shí)整改道路安全隱患,在事故多發(fā)交叉口設(shè)置信號(hào)燈等控制方式。

        3)CART決策樹(shù)算法適用于處理大樣本數(shù)據(jù)集,在處理小樣本數(shù)據(jù)時(shí),模型準(zhǔn)確性會(huì)受到影響,在集成學(xué)習(xí)中使用隨機(jī)森林算法可減輕該問(wèn)題,故在未來(lái)研究中,將結(jié)合兩種算法進(jìn)一步提升交通事故嚴(yán)重程度的模型實(shí)用性。

        猜你喜歡
        決策樹(shù)交通事故程度
        男女身高受歡迎程度表
        意林(2021年2期)2021-02-08 08:32:47
        不同尋常的交通事故
        預(yù)防交通事故
        一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹(shù)算法
        決策樹(shù)和隨機(jī)森林方法在管理決策中的應(yīng)用
        電子制作(2018年16期)2018-09-26 03:27:06
        基于決策樹(shù)的出租車(chē)乘客出行目的識(shí)別
        一起高速交通事故院前急救工作實(shí)踐與探討
        基于肺癌CT的決策樹(shù)模型在肺癌診斷中的應(yīng)用
        斷裂對(duì)油氣富集程度的控制作用
        斷塊油氣田(2014年6期)2014-03-11 15:33:53
        幸福的程度
        99久久免费精品高清特色大片| 亚洲综合偷自成人网第页色| 激情综合色五月丁香六月欧美| 国产午夜亚洲精品午夜鲁丝片 | 国产一区二区三区韩国| 国产精品高清一区二区三区人妖 | 免费无码一区二区三区蜜桃大| 精品伊人久久香线蕉| 国产精品不卡在线视频| 中文字幕乱码在线人妻| 日韩精品久久久肉伦网站| 香蕉视频毛片| 国产精品女人一区二区三区| 无码国产精品色午夜| 国产精品一品二区三区| 中文字幕免费在线观看动作大片 | 国产欧美另类精品久久久| 日韩精品首页在线观看| 国产黑丝美女办公室激情啪啪| 又粗又硬又大又爽免费视频播放 | 一本本月无码-| 91呻吟丰满娇喘国产区| av免费观看在线网站| 国产18禁黄网站免费观看| 欧美猛男军警gay自慰| 依依成人影视国产精品| 日本一区二区三级免费| 成年站免费网站看v片在线| 国产人妻黑人一区二区三区| 亚洲国产精品第一区二区三区 | 人妻制服丝袜中文字幕| 日韩精品久久久肉伦网站| 亚洲AV秘 无码一区二p区三区| 一区二区三区在线观看高清视频| 日韩av无码社区一区二区三区| 国产啪精品视频网站| 亚洲国产日韩在线精品频道| 91亚洲国产成人精品一区.| 国产午夜精品一区二区三区嫩草| 国产成人精品三级在线影院| 亚洲国产91精品一区二区|