亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)規(guī)則挖掘在道路交通事故分析中的應(yīng)用

        2019-05-17 08:12:02馬庚華鄭長江鄧評心
        西華大學學報(自然科學版) 2019年3期
        關(guān)鍵詞:項集置信度度量

        馬庚華, 鄭長江, 鄧評心, 李 銳

        (1.河海大學港口海岸與近海工程學院, 江蘇 南京 210098; 2.河海大學土木與交通學院, 江蘇 南京 210098)

        交通事故是全球所有國家面臨的共同難題[1]。在我國,隨著社會經(jīng)濟的不斷發(fā)展,居民機動車保有量連年上升,城市交通面臨前所未有的巨大壓力。2016年,我國共接報道路交通事故864.3萬起,同比增加65.9萬起,上升16.5%。其中涉及人員傷亡的道路交通事故212 846起,造成63 093人死亡、226 430人受傷,直接財產(chǎn)損失12.1億元[2]。利用交通大數(shù)據(jù)分析事故成因,采取針對措施減少交通事故是保障道路安全的有效手段。

        關(guān)聯(lián)規(guī)則挖掘是一種有效的數(shù)據(jù)挖掘方法,它可以從海量的數(shù)據(jù)中發(fā)現(xiàn)不同類型數(shù)據(jù)之間的關(guān)聯(lián)[3]。針對數(shù)量巨大的交通事故數(shù)據(jù),關(guān)聯(lián)規(guī)則挖掘可以得出事故原因(如駕駛員、車輛、道路、環(huán)境)與事故結(jié)果(如事故類型、嚴重程度)之間的關(guān)系,從而給交通決策者提供參考。國內(nèi)外學者對交通事故成因分析的方法有很多,如貝葉斯網(wǎng)絡(luò)[4]、決策樹[5]、FP-Growth[6]、Apriori算法[7-10]等。他們對關(guān)聯(lián)規(guī)則的篩選都是使用“支持度-置信度”框架,規(guī)則評選標準單一,模式評估度量數(shù)量不足,難以找出更加合理且易于應(yīng)用的關(guān)聯(lián)規(guī)則。

        本文在以上研究的基礎(chǔ)上,采用改進的Apriori算法對交通事故數(shù)據(jù)進行關(guān)聯(lián)規(guī)則挖掘,并結(jié)合支持度、Kulc、平衡比3個模式評估度量[11],引入相關(guān)值,進一步篩選出有價值的關(guān)聯(lián)規(guī)則,得出相應(yīng)結(jié)論,為交通管理部門提供參考。

        1 數(shù)據(jù)預(yù)處理

        1.1 數(shù)據(jù)描述

        本文研究所使用的數(shù)據(jù)為某市2015年全年的交通事故數(shù)據(jù)與天氣數(shù)據(jù)。交通事故數(shù)據(jù)表包括事故發(fā)生的時間、事故違法類型、性別、身份證號碼、車牌號碼、車身顏色、畢業(yè)駕校名稱、駕照初次發(fā)放日期、車輛品牌等屬性,共56 651條記錄。天氣表包括天氣狀況、氣溫、風力風向等屬性,共365條記錄。

        1.2 數(shù)據(jù)清理

        首先要確定關(guān)聯(lián)規(guī)則挖掘所需要的不同屬性?;A(chǔ)數(shù)據(jù)中有著大量的屬性,對于關(guān)聯(lián)規(guī)則挖掘中不需要的屬性進行刪除,如交通事故數(shù)據(jù)表中的車牌號碼以及天氣表中的風力風向。除了原始數(shù)據(jù)已經(jīng)具有的部分屬性之外,一些屬性需要對原始數(shù)據(jù)進一步提取,如從身份證號碼獲得年齡、從駕照初次發(fā)放日期獲得駕齡、從車輛品牌獲得車輛類型。還有一些屬性需要從其他表獲得,如按照日期將天氣表和事故表連接,獲得事故發(fā)生時的天氣狀況、氣溫等屬性。

        部分基礎(chǔ)數(shù)據(jù)存在著不正確、不完整、不一致等問題,需要采取適當?shù)姆椒ㄟM行處理。車身顏色出現(xiàn)的亂碼,刪除之后按照出現(xiàn)最多的顏色填充。年齡的缺失值分性別按照平均值填充。駕齡的缺失值根據(jù)年齡來預(yù)測。對于大量缺失的數(shù)據(jù)另歸為一類,如車輛類型未知歸為一類。

        1.3 數(shù)據(jù)編碼

        數(shù)據(jù)經(jīng)過清理已經(jīng)準確、完整和一致之后,為了方便存儲和數(shù)據(jù)挖掘,需要對部分屬性進行概念分層,并將數(shù)據(jù)的表達形式進行統(tǒng)一描述,因此對各個屬性值編碼,如表1所示。

        表1 屬性值編碼

        2 Apriori算法及改進

        2.1 Apriori算法描述

        Apriori算法是關(guān)聯(lián)規(guī)則挖掘頻繁項集的經(jīng)典算法。Apriori算法采用的是逐層搜索的迭代方法,k項集用于探索(k+1)項集。首先,通過掃描數(shù)據(jù)庫,累計每個項的計數(shù),并收集滿足最小支持度的項,找出頻繁1項集的集合,記為L1。然后,使用L1找出頻繁2項集的集合L2,使用L2找到L3,如此下去,直到不能再找到頻繁k項集。其中,使用Lk-1找出Lk的過程由連接和剪枝組成。

        1)連接。

        為找出Lk,通過將Lk-1與自身連接產(chǎn)生候選k項集的集合,記為Ck。假設(shè)l1和l2是Lk-1中的項集,記li[j]表示li的第j項。假定項集中的項按照字典序排序,即對于(k-1)項集li,其項滿足li[1]

        2)剪枝。

        Ck是Lk的超集,其成員可以是也可以不是頻繁的。掃描事務(wù)數(shù)據(jù)庫,確定Ck中每個候選項集的計數(shù),若小于最小支持度計數(shù),則從Ck中刪除;若不小于最小支持度計數(shù),則保留,最終得出Lk。

        為了提高剪枝的效率,可以采用先驗性質(zhì)對Ck進行壓縮。任何非頻繁的(k-1)項集都不是頻繁k項集的子集。因此,如果一個候選k項集的(k-1)項子集不在Lk-1中,則該候選也不可能是頻繁的,從而可以從Ck中刪除。

        Apriori算法的優(yōu)點在于使用先驗性質(zhì),大大提高了頻繁項集逐層產(chǎn)生的效率,算法整體簡單易理解,同時對數(shù)據(jù)集要求低。但是算法也存在缺點:如當事務(wù)數(shù)據(jù)庫很大時,候選頻繁k項集數(shù)量巨大;在驗證候選頻繁k項集的時候,需要對整個數(shù)據(jù)庫進行掃描,非常耗時。

        2.2 Apriori改進算法

        Apriori算法中從Ck到Lk要經(jīng)過兩次篩選:第一次是利用先驗性質(zhì),通過Lk-1篩選,判斷Ck中候選k項集的(k-1)項子集是否在Lk-1中,如不存在則刪除,這樣每產(chǎn)生一個候選k項集都要掃描一遍Lk-1;第二次是根據(jù)最小支持度計數(shù)篩選,項集的頻數(shù)若小于最小支持度計數(shù)則刪除。改進算法的思路是只需要掃描一遍Lk-1[12]。Lk-1通過與自身連接得到Ck,掃描一次Lk-1,對于Lk-1中的每一個頻繁(k-1)項集,判斷它是否為Ck中各候選項集的子集,如果是,那么該候選項集的計數(shù)加一。掃描完成后,對于候選項集計數(shù)為k的保留,小于k的刪除。然后,再根據(jù)最小支持度計數(shù)進行第二次篩選即可得出Lk。

        2.3 改進算法性能分析

        為了驗證改進Apriori算法的效能,在支持度為0.1、置信度為0.3的條件下,分別取經(jīng)典算法和改進算法在不同數(shù)據(jù)記錄數(shù)下的運行時間對比,結(jié)果如表2所示。

        表2 不同數(shù)據(jù)記錄數(shù)下算法用時

        從表2可以清晰地看出經(jīng)典Apriori算法和改進Apriori算法在處理不同數(shù)據(jù)記錄數(shù)時的耗時情況。實驗結(jié)果表明,隨著數(shù)據(jù)記錄數(shù)的不斷增加,改進Apriori算法的搜索時間始終低于經(jīng)典Apriori算法的搜索時間,算法整體效率提高約4%??梢姼倪M算法的搜索效率要優(yōu)于經(jīng)典算法,在大數(shù)據(jù)的情況下,改進算法更加適用。

        3 關(guān)聯(lián)規(guī)則

        3.1 關(guān)聯(lián)規(guī)則簡介

        假設(shè)I={I1,I2,…,Im}是項的集合。任務(wù)相關(guān)的數(shù)據(jù)D是數(shù)據(jù)庫事務(wù)的集合,其中每個事務(wù)T是一個非空項集,T?I。A是一個項集,事務(wù)T包含A,當且僅當A?T。關(guān)聯(lián)規(guī)則形如A?B,其中A?I,B?I,A≠?,B≠?,且A∩B=?。規(guī)則A?B在事務(wù)集D中成立,具有支持度support和置信度confidence。其中,support(A?B)=P(A∪B),confidence(A?B)=P(B|A)。同時滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則成為強規(guī)則,即用戶所感興趣的規(guī)則。

        挖掘關(guān)聯(lián)規(guī)則分兩步:第一步找出所有的頻繁項集,其頻繁出現(xiàn)的次數(shù)≥min_sup;第二步由頻繁項集產(chǎn)生強關(guān)聯(lián)規(guī)則,其置信度≥min_conf。

        本文在關(guān)聯(lián)分析之后加入相關(guān)分析產(chǎn)生強規(guī)則,關(guān)聯(lián)規(guī)則挖掘模型如圖1所示。

        圖 1 關(guān)聯(lián)規(guī)則挖掘模型

        3.2 相關(guān)性度量

        大部分關(guān)聯(lián)規(guī)則挖掘的研究之中,都采用支持度和置信度來過濾關(guān)聯(lián)規(guī)則,從而保證所得到的關(guān)聯(lián)規(guī)則是用戶感興趣的。然而,僅僅使用支持度和置信度兩個評判標準太少,不足以過濾掉無趣的關(guān)聯(lián)規(guī)則,甚至有時會產(chǎn)生有誤導(dǎo)的“強”關(guān)聯(lián)規(guī)則,因此有部分研究人員加入了一個新的相關(guān)性度量:提升度lift。A和B出現(xiàn)之間的提升度由公式(1)計算。

        lift(A,B)=P(B|A)/P(B)

        (1)

        若提升度小于1,那么A出現(xiàn)與B出現(xiàn)是負相關(guān)的,即一個出現(xiàn)會導(dǎo)致另外一個不出現(xiàn)。若提升度大于1,那么A出現(xiàn)與B出現(xiàn)是正相關(guān)的,即一個出現(xiàn)會導(dǎo)致另外一個出現(xiàn)。若提升度等于1,那么A出現(xiàn)與B出現(xiàn)是相互獨立的,即一個出現(xiàn)和另一個出現(xiàn)之間沒有聯(lián)系。提升度可以在一定程度上反映出A和B兩者的相關(guān)性。

        但是,僅加入提升度衡量相關(guān)性來進行關(guān)聯(lián)規(guī)則挖掘仍然不完善。因為僅使用一個相關(guān)性度量,導(dǎo)致相關(guān)性判斷標準單一,缺乏說服力,更為重要的是,用提升度衡量相關(guān)性存在缺陷。在事務(wù)數(shù)據(jù)庫中,定義零事務(wù)為不包含任何考察項集的事務(wù)。對于一條關(guān)聯(lián)規(guī)則,零事務(wù)的個數(shù)可能會大大超過包含關(guān)聯(lián)規(guī)則中項集的事務(wù)的個數(shù),而提升度這個度量從定義上看,它的值會受到零事務(wù)的影響。因此需要新的相關(guān)性度量來衡量相關(guān)性,在此引入Kulczynski(Kulc)度量和平衡比(Balance Ratio, BR)。

        (2)

        BR(A,B)=(P(A|B))/(P(B|A))

        (3)

        Kulc度量由公式(2)定義,可以看作兩個置信度的平均值,其值可以遍取0~1,并且值越大,A和B的聯(lián)系越密切。平衡比(BR)由公式(3)定義,是兩個置信度的比率,它表示A和B之間相關(guān)性的平衡,越接近1則越平衡,當兩個置信度中的任何一個等于零時,BR也等于零。以上兩個度量僅受P(A|B)和P(B|A)的影響,不受零事務(wù)的影響,也不受事務(wù)總數(shù)的影響。

        在相關(guān)性分析中,本文選用支持度(support)、Kulc、平衡比(BR)3個度量進行判斷??紤]到?jīng)]有前者參考來確定支持度、Kulc和平衡比的閾值應(yīng)當脫離閾值確定的模式或至少能夠減少閾值的數(shù)量,試圖找到三者的統(tǒng)一表示。要做到這一點,BR首先轉(zhuǎn)變?yōu)槠胶舛?balance),采用公式(4),使其與支持度和Kulc具有相同的正相關(guān)性。

        (4)

        平衡度曲線如圖2所示。平衡度越大代表兩個事件越平衡,當平衡度取最大值1時,表示完全平衡。

        在支持度為5%,置信度為30%的條件下,采用改進的Apriori算法,共得出強關(guān)聯(lián)規(guī)則141條。這些規(guī)則的支持度、Kulc和平衡度分布如圖3所示。由圖3可以看出,位于右上方的點具有相對較高的支持度和Kulc,并且顏色越深代表平衡度越高。這3個值呈正相關(guān),因此使用3個值的乘積作為相關(guān)值(correlation)可以簡單地用于表示相關(guān)性,如公式(5)所示:

        correlation=Kulc·support·balance

        (5)

        圖 2 平衡度曲線

        3.3 結(jié)果及分析

        采用上文提出的相關(guān)值(correlation)作為度量指標,對141條強關(guān)聯(lián)規(guī)則進行篩選。將相關(guān)值從大到小排序,相關(guān)值越大,意味著二者之間的關(guān)系越密切,從而對應(yīng)的關(guān)聯(lián)規(guī)則更加有意義。篩選出的部分關(guān)聯(lián)規(guī)則如表3所示。

        圖 3 支持度、Kulc和平衡度分布

        表3 基于相關(guān)值篩選的強關(guān)聯(lián)規(guī)則

        通過對關(guān)聯(lián)規(guī)則挖掘所得出的結(jié)果進行深入分析,可以得出一些有意義的結(jié)論以及相應(yīng)的改進措施:

        1)在所有的事故類型中,未按規(guī)定讓行和未保持安全距離造成的事故數(shù)最多,占總數(shù)的70.0%。需要采取多種方式進行預(yù)防,如在駕駛員培訓中增加此類事故的理論知識學習;在事故高發(fā)地點有針對性地設(shè)置更加合理的標志標線;加強交通管理,在高峰時段對此類事故給予重視。

        2)交通事故絕大多數(shù)都是由于人為原因造成的,從駕駛員特征上看,男性駕駛員事故風險是女性駕駛員的4倍;駕齡為1~5年以及11~15年的駕駛員更容易發(fā)生事故。新駕駛員技術(shù)不嫻熟、經(jīng)驗不足;老駕駛員自恃經(jīng)驗豐富,思想上麻痹。駕駛員的整體素質(zhì)亟待提高,應(yīng)加強對駕駛員的行為干預(yù),嚴格執(zhí)行懲戒制度。

        3)在所有的車輛類型中,小汽車發(fā)生的事故數(shù)最多,占總數(shù)的54.5%;摩托車、電動車引發(fā)的交通事故也占有一定比例,占總數(shù)的14.2%。電動車的出現(xiàn)極大方便了人們的生活,然而電動車駕駛員駕照類型以自培和未知為主,沒有接受過系統(tǒng)的交通規(guī)則學習,很容易發(fā)生事故,交管部門應(yīng)加強對電動車的引導(dǎo)。從車輛顏色看,白色車輛發(fā)生的事故數(shù)最多,這看似與車輛顏色和事故關(guān)系的相關(guān)研究結(jié)果不符,實則是因為人們更傾向于購買白色車,造成白色車輛基數(shù)大,從而事故數(shù)多。

        4)從交通環(huán)境屬性上看,20~25℃和陰雨天更容易發(fā)生交通事故,且女性駕駛員在不良天氣下事故率會發(fā)生較大變化。此時能見度低、路面潮濕、輪胎打滑,很容易因為制動不及時發(fā)生事故。這要求駕駛員在不良氣候條件下更應(yīng)該集中注意力、小心謹慎,尤其是遇到意外情況時處理能力較差的女性駕駛員,同時交管部門要積極做好引導(dǎo)工作。

        4 結(jié)語

        本文以交通事故大數(shù)據(jù)為基礎(chǔ),采用改進的Apriori算法挖掘關(guān)聯(lián)規(guī)則,提高了數(shù)據(jù)挖掘的效率。通過一個結(jié)合支持度、Kulc、平衡比三者的綜合性度量——相關(guān)值對關(guān)聯(lián)規(guī)則進行篩選,使篩選出的關(guān)聯(lián)規(guī)則更加合理,得出的結(jié)論更有價值,從而能夠為交通管理部門采取相應(yīng)措施,制定相關(guān)規(guī)章制度提供參考。

        猜你喜歡
        項集置信度度量
        有趣的度量
        模糊度量空間的強嵌入
        硼鋁復(fù)合材料硼含量置信度臨界安全分析研究
        迷向表示分為6個不可約直和的旗流形上不變愛因斯坦度量
        正負關(guān)聯(lián)規(guī)則兩級置信度閾值設(shè)置方法
        地質(zhì)異常的奇異性度量與隱伏源致礦異常識別
        置信度條件下軸承壽命的可靠度分析
        軸承(2015年2期)2015-07-25 03:51:04
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項集的快速挖掘算法
        計算機工程(2014年6期)2014-02-28 01:26:12
        多假設(shè)用于同一結(jié)論時綜合置信度計算的新方法?
        日本最新免费二区| 热99精品| 久久综合给日咪咪精品欧一区二区三| 无码成人AV在线一区二区| 亚洲午夜精品第一区二区| 国产成人高清在线观看视频| 青青草最新在线视频观看| 亚洲综合一| 国产性猛交╳xxx乱大交| 国产va在线播放| 少妇人妻字幕一区二区| 亚洲精品岛国av一区二区| 国内精品久久久人妻中文字幕| 久久久久亚洲av无码专区| 成激情人妻视频| 亚洲精品久久视频网站| 亚洲av中文无码乱人伦在线视色| 18禁真人抽搐一进一出在线| 中文字幕精品久久久久人妻红杏1 丰满人妻妇伦又伦精品国产 | 亚洲一区二区三区2021| 国产成人亚洲综合| 亚洲国产成人久久综合下载 | 亚洲欧美国产精品久久久| 日韩女优视频网站一区二区三区| 免费a级毛片高清在钱| 韩日午夜在线资源一区二区| 国产看黄网站又黄又爽又色| 一区二区三无码| 丰满少妇被啪啪到高潮迷轩| 专干老熟女视频在线观看| 无码毛片aaa在线| 无码视频一区二区三区在线播放| 三级国产高清在线观看| 亚洲av无码日韩av无码网站冲| 国产在线精品一区二区在线看| 亚洲VA中文字幕欧美VA丝袜| 亚洲国产成人av第一二三区 | 亚洲精品字幕在线观看| 亚洲乱码一区二区三区成人小说| 熟女少妇丰满一区二区 | 日韩精品一区二区在线视|