王倩
摘 要:本文主要研究交通大數(shù)據(jù)的信息挖掘關(guān)鍵技術(shù),研究了如何從海量的結(jié)構(gòu)化的、半結(jié)構(gòu)化以及無結(jié)構(gòu)化的交通數(shù)據(jù)類型中挖掘出有用的知識,充分分析后加以整合,應(yīng)用在城市道路交通控制中,作為決策時的依據(jù)。本文探討了城市交通控制中各個系統(tǒng)產(chǎn)生的海量數(shù)據(jù)的數(shù)據(jù)特點(diǎn),以及數(shù)據(jù)挖掘的關(guān)鍵技術(shù)在道路交通控制領(lǐng)域中的應(yīng)用,從理論上的可行性進(jìn)行了有益的探索。
關(guān)鍵詞:數(shù)據(jù)挖掘; 決策支持; 交通控制;
1 引 言
城市道路管理系統(tǒng)的信息來源的多樣性,導(dǎo)致各類數(shù)據(jù)庫中累積了大量的結(jié)構(gòu)化、半結(jié)構(gòu)化和無結(jié)構(gòu)化的數(shù)據(jù)類型,還有其他動態(tài)的復(fù)雜的數(shù)據(jù)信息。而道路交通系統(tǒng)時刻都產(chǎn)生了大量的數(shù)據(jù),僅就城市的某一個道路交叉口而言,卡口系統(tǒng)、路口的實(shí)時監(jiān)控系統(tǒng)、超速檢測系統(tǒng)、闖紅燈違章拍照系統(tǒng)、埋設(shè)在地面下的環(huán)形線圈車輛檢測器等,這些設(shè)備產(chǎn)生了海量的數(shù)據(jù),且隨著交叉口流量的增多數(shù)據(jù)的增長速度也越來越快。因此,如何存儲和處理這些數(shù)據(jù),它們在整個交通領(lǐng)域中是否都是有價值的,成為了研究的重點(diǎn)。
目前處在信息大爆炸的時代,“數(shù)據(jù)爆炸,知識匱乏”,數(shù)據(jù)挖掘正是從海量的數(shù)據(jù)中發(fā)現(xiàn)潛在的可以描述或者預(yù)測數(shù)據(jù)的特性的知識,達(dá)到知識發(fā)現(xiàn)的目的。工信部發(fā)布的物聯(lián)網(wǎng)“十二五”規(guī)劃中,將信息處理技術(shù)作為4大關(guān)鍵技術(shù)創(chuàng)新工程之一,主要包括海量數(shù)據(jù)存儲、數(shù)據(jù)挖掘和圖像視頻智能分析,可見數(shù)據(jù)挖掘在整個研究領(lǐng)域中的重要程度。道路交通領(lǐng)域作為圖像處理和數(shù)據(jù)挖掘的重要應(yīng)用領(lǐng)域,同樣具備了應(yīng)用大數(shù)據(jù)和數(shù)據(jù)挖掘技術(shù)的可能性。主要研究數(shù)據(jù)挖掘在道路交通控制中的應(yīng)用,是本文重點(diǎn)要探討的問題。接下來先從交通數(shù)據(jù)的數(shù)據(jù)特點(diǎn)開始探究。
本文第2節(jié)介紹了交通大數(shù)據(jù)的數(shù)據(jù)特點(diǎn),第3節(jié)介紹了數(shù)據(jù)挖掘關(guān)鍵技術(shù),第4節(jié)探究了數(shù)據(jù)挖掘技術(shù)在道路交通中的應(yīng)用,最后,進(jìn)行了小結(jié)。
2 交通大數(shù)據(jù)的數(shù)據(jù)特點(diǎn)
當(dāng)前在交通領(lǐng)域,監(jiān)控系統(tǒng)、通信系統(tǒng)、信息采集系統(tǒng)、綜合管理平臺系統(tǒng)無時無刻不在產(chǎn)生海量的數(shù)據(jù)。大數(shù)據(jù)都具備了“4V”特性:規(guī)模性(volume)、多樣性(variety)、高速性(velocity)和價值性(value)。
其中規(guī)模性(volume)集中體現(xiàn)在數(shù)據(jù)的規(guī)模上,當(dāng)前處在信息大爆炸的時代,在交通領(lǐng)域無時無刻不在產(chǎn)生著海量的數(shù)據(jù),數(shù)據(jù)的規(guī)模也從PB、EB級甚至擴(kuò)展到ZB級。由此可見在交通領(lǐng)域數(shù)據(jù)量巨大。
交通大數(shù)據(jù)的多樣性(variety)主要體現(xiàn)在交通數(shù)據(jù)來源眾多,數(shù)據(jù)類型多樣,如車輛檢測器采集到的交通流參數(shù),監(jiān)控系統(tǒng)采集到的圖像和視頻類數(shù)據(jù),交通管控中心從不同的監(jiān)控中心收集到的音視頻以及圖像等數(shù)據(jù),闖紅燈違章拍照系統(tǒng)采集的違章信息等不同來源的數(shù)據(jù)類型,共同構(gòu)成了交通大數(shù)據(jù)的多樣性。
交通大數(shù)據(jù)的高速性(velocity)主要體現(xiàn)在對交通數(shù)據(jù)處理的時效性上,即在規(guī)定的時間內(nèi)及時處理,如交通異常事件檢測系統(tǒng)中,一旦系統(tǒng)發(fā)出火災(zāi)、車禍等異常事件預(yù)警,一般都需要在很短的時間內(nèi)進(jìn)行及時的響應(yīng)。
交通大數(shù)據(jù)的價值性(value)集中體現(xiàn)在決策支持上,即通過數(shù)據(jù)挖掘關(guān)鍵技術(shù)從海量的大數(shù)據(jù)中挖掘出能夠支持決策的有用的知識。
同時,也必須看到,由于交通領(lǐng)域數(shù)據(jù)的特殊性,也具備了數(shù)據(jù)存儲分散的特點(diǎn),不同部門之間,不同城市之間,甚至不同地點(diǎn)之間都有可能存在著多種多樣的數(shù)據(jù),存儲位置的分散性導(dǎo)致了在信息共享方面的不足。針對以上特點(diǎn),第3節(jié)重點(diǎn)介紹數(shù)據(jù)挖掘關(guān)鍵技術(shù)。
3 數(shù)據(jù)挖掘關(guān)鍵技術(shù)
在通常的大數(shù)據(jù)挖掘技術(shù)中,一般都是指基于大規(guī)模文件系統(tǒng)的數(shù)據(jù)挖掘技術(shù),例如基于數(shù)據(jù)庫的數(shù)據(jù)提取、數(shù)據(jù)倉庫集群處理等[1]。 相較于單純的數(shù)據(jù)分析和處理,數(shù)據(jù)挖掘一般不預(yù)先設(shè)定主題,只需在處理后的數(shù)據(jù)上使用現(xiàn)有算法或改進(jìn)算法進(jìn)行計算或預(yù)測,實(shí)現(xiàn)數(shù)據(jù)分析的高級需求。數(shù)據(jù)挖掘可以看作是知識發(fā)現(xiàn)(KDD)其中一個步驟,針對有關(guān)數(shù)據(jù)選擇合適的模型或算法。其中最為經(jīng)典的算法主要有用于聚類的K-Means、用于統(tǒng)計學(xué)習(xí)的支持向量機(jī)SVM和用于分類的樸素貝葉斯(Naive Bayes),數(shù)據(jù)挖掘的算法原理都相對來說很復(fù)雜,計算量和數(shù)據(jù)量也很大。數(shù)據(jù)挖掘在具體應(yīng)用時主要面臨的挑戰(zhàn)有大型的數(shù)據(jù)庫,高維的數(shù)據(jù),統(tǒng)計的有效性和準(zhǔn)確性,數(shù)據(jù)的改變導(dǎo)致的模型的改變等一系列的挑戰(zhàn)。
第3節(jié)主要研究數(shù)據(jù)挖掘的關(guān)鍵技術(shù)及其在交通控制領(lǐng)域中的應(yīng)用探究??傮w而言,在城市道路交通控制領(lǐng)域,數(shù)據(jù)挖掘技術(shù)可以應(yīng)用在智能交通系統(tǒng)中的決策支持子系統(tǒng)中。
3.1 數(shù)據(jù)挖掘經(jīng)典分析法
從功能上進(jìn)行分類,數(shù)據(jù)挖掘主要分成兩大類:分類和預(yù)測。
分類算法對特定的樣本訓(xùn)練和學(xué)習(xí),發(fā)現(xiàn)新的知識,并且能夠在給定一個新的樣本后,自動對其類別歸屬進(jìn)行預(yù)測。具體而言,分類過程主要有兩大步驟:首先,建立一個可以描述數(shù)據(jù)集和概念集的模型,假定每個樣本屬于一個預(yù)定義的類,由類標(biāo)屬性確定訓(xùn)練集,形成訓(xùn)練樣本,單個樣本可以由分類規(guī)則、統(tǒng)計學(xué)、判定樹等方法提供。
其次使用在第一步中建立的模型,對新加進(jìn)來的未知樣本進(jìn)行分類。首先評估模型的預(yù)測準(zhǔn)確率,對每個測試樣本,將已知的類標(biāo)和該樣本的預(yù)測類進(jìn)行比較,統(tǒng)計測試集的被正確分類的百分比。其中,給定的測試集必須獨(dú)立于訓(xùn)練集,以免出現(xiàn)“過分適應(yīng)數(shù)據(jù)”的情況。
比較經(jīng)典的分類算法主要有樸素貝葉斯、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、J48等,從這些經(jīng)典算法中也擴(kuò)展了不少的改進(jìn)算法,提升分類器的分類效果。
預(yù)測是構(gòu)造和使用模型評估無樣本類,或評估給定樣本可能具有的屬性或值空間。和分類法相同之處在于都需要構(gòu)建模型來估計未知值。只是分類法主要是用來預(yù)測類標(biāo),預(yù)測法主要是用來估計連續(xù)值,且預(yù)測更多的采用線性、非線性回歸等統(tǒng)計學(xué)的手段進(jìn)行,大都用在商業(yè)領(lǐng)域中。endprint
在數(shù)據(jù)挖掘過程中,對數(shù)據(jù)的預(yù)處理可以提高模型的準(zhǔn)確性和有效性。預(yù)處理的方法主要有數(shù)據(jù)清洗、相關(guān)性分析、數(shù)據(jù)變換等。數(shù)據(jù)清洗主要是為了消除或減少噪聲,減少空缺和錯誤值,減少學(xué)習(xí)時的混亂,對數(shù)據(jù)中的“臟數(shù)據(jù)”(冗余、噪聲、錯誤、不相關(guān)等)進(jìn)行處理,可以加快數(shù)據(jù)挖掘模型的學(xué)習(xí)速度,使得學(xué)習(xí)結(jié)果更加精確。從而提高模型分析的準(zhǔn)確性。
3.2 大數(shù)據(jù)處理平臺
在智能交通領(lǐng)域中,數(shù)據(jù)瞬息萬變,時效性非常強(qiáng),當(dāng)一個或多個數(shù)據(jù)流到來,需要立即對數(shù)據(jù)進(jìn)行處理或存儲,并且很快,數(shù)據(jù)就會失效,失去利用價值[1]。隨著大數(shù)據(jù)時代的來臨,應(yīng)對大數(shù)據(jù)的處理平臺也應(yīng)運(yùn)而生,主流的平臺主要有Hadoop、Apache Spark、S4, Storm等。Hadoop 本身存在的缺點(diǎn)是不能有效適應(yīng)實(shí)時數(shù)據(jù)處理需求,為了克服該局限,一些實(shí)時處理平臺如S4, Storm 等隨之產(chǎn)生了,他們在處理不間斷的流式數(shù)據(jù)方面有較大的優(yōu)勢[2]。
3.2.1 Hadoop大數(shù)據(jù)處理平臺
Hadoop是一種分布式計算的大數(shù)據(jù)實(shí)時處理平臺,實(shí)現(xiàn)了計算機(jī)集群中的分布式運(yùn)算,在海量大數(shù)據(jù)分析處理中應(yīng)用較為廣泛。它允許用戶在不了解底層細(xì)節(jié)的情況下,開發(fā)分布式應(yīng)用程序,充分利用集群的概念和方法進(jìn)行數(shù)據(jù)的高速運(yùn)算。該框架的核心設(shè)計是分布式文件系統(tǒng)(HDFS)和MapReduce兩部分組成,通過這兩部分存儲資源、內(nèi)存和程序的有效管理。分布式文件系統(tǒng)(HDFS)為海量的數(shù)據(jù)提供了存儲方法,允許以流的形式訪問文件中的數(shù)據(jù);MapReduce提供計算,二者相互獨(dú)立又相互配合。通過Hadoop,可以輕易的將多臺普通的或低性能的服務(wù)器組合成分布式的運(yùn)算-存儲集群,提供大數(shù)據(jù)量的存儲和處理能力。MapReduce通過Map(映射)和Reduce(化簡)來實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的并行計算。通過Map(映射)函數(shù),把一組鍵值對映射成一組新的鍵值對;指定并發(fā)的Reduce(化簡)函數(shù),達(dá)到分散運(yùn)算的效果。
3.2.2 Apache Spark大數(shù)據(jù)處理平臺
Apache Spark是Apache的開源項(xiàng)目之一,可以利用Java、Scala或Python語言編寫程序的大數(shù)據(jù)處理框架,為用戶提供了一個用于管理不同性質(zhì)的數(shù)據(jù)集和數(shù)據(jù)源的大數(shù)據(jù)的處理平臺,它可以提升Hadoop集群在內(nèi)存中的運(yùn)行速度。Spark的處理速度極快,而且支持多種語言為其編寫應(yīng)用,能夠輕松處理實(shí)時數(shù)據(jù)流,支持復(fù)雜的分析操作[3]。
4 數(shù)據(jù)挖掘技術(shù)在交通領(lǐng)域中的應(yīng)用
在城市交通控制技術(shù)領(lǐng)域,從半結(jié)構(gòu)化甚至無結(jié)構(gòu)化的數(shù)據(jù)類型中挖掘出來的有用的知識或發(fā)現(xiàn),可以廣泛的應(yīng)用在了智能交通平臺的基礎(chǔ)平臺上,如交通誘導(dǎo)系統(tǒng),決策支持系統(tǒng);異常事件檢測系統(tǒng)等。下面從幾個方面說明數(shù)據(jù)挖掘技術(shù)的應(yīng)用。
4.1 交通異常事件檢測
交通異常事件檢測主要是通過圖像或視頻數(shù)據(jù)中發(fā)現(xiàn)異常狀況,也就是在數(shù)據(jù)集中和其他顯著不同的異常事件,如交通擁堵、交通事故、逆向行駛、車輛違章等狀況,通過對這些異常的檢測,可以盡早的發(fā)現(xiàn)事件的發(fā)生,從而為后續(xù)的處理提供科學(xué)而準(zhǔn)確的依據(jù)。
4.2交通運(yùn)行狀態(tài)分析和交通誘導(dǎo)
交通誘導(dǎo)是通過分析車輛檢測器檢測到的各項(xiàng)交通流的參數(shù),根據(jù)實(shí)時采集到的數(shù)據(jù)和歷史數(shù)據(jù)記錄的區(qū)別,對交通的實(shí)時運(yùn)行狀態(tài)進(jìn)行分析,如可以使用關(guān)聯(lián)規(guī)則、聚類、分類等挖掘方法,挖掘出路網(wǎng)規(guī)劃和交通擁堵、交通事故之間的關(guān)系,從而依據(jù)挖掘結(jié)果實(shí)現(xiàn)對當(dāng)前交通運(yùn)行狀態(tài)的準(zhǔn)確而有效的分析,為迅速而快捷的實(shí)現(xiàn)交通誘導(dǎo)做數(shù)據(jù)上的支持。
4.3 指揮中心決策支持
城市道路交通指揮中心是整個交通部門的核心,匯集了城市大小各個路口和道路的各項(xiàng)信息,因此信息量也很巨大,并且數(shù)據(jù)來源也比較廣泛,在做出決策時,可以采用大數(shù)據(jù)平臺對有用的知識進(jìn)行挖掘,并將這些知識充分應(yīng)用到?jīng)Q策支持中去,為更好的做出決策做充分的準(zhǔn)備。因此進(jìn)行決策支持時,大數(shù)據(jù)的處理、數(shù)據(jù)挖掘的算法應(yīng)用,都可以有效的應(yīng)用。
指揮中心在進(jìn)行決策支持時,可以充分運(yùn)用GIS地理信息系統(tǒng),將整個城市的交通路網(wǎng)顯示在電子地圖上,通過對交通設(shè)施、交通狀態(tài)、交通結(jié)構(gòu)的分析,結(jié)合駕駛員信息、車輛信息、天氣、路況等相關(guān)信息的綜合整合,積極探索這些數(shù)據(jù)內(nèi)部的規(guī)律性,進(jìn)行深層次的數(shù)據(jù)挖掘,為提升整個城市的交通管理水平提供決策支持和數(shù)據(jù)支持。
5 結(jié) 論
隨著我國社會經(jīng)濟(jì)的發(fā)展,交通領(lǐng)域也發(fā)生著巨大的變化,如數(shù)據(jù)來源的多樣性,海量的數(shù)據(jù)類型,多源異構(gòu)數(shù)據(jù)的樹立,大數(shù)據(jù)的分析和處理等,這些變化帶來的不僅僅是巨大的社會價值,更多的是挑戰(zhàn)。本文探討了數(shù)據(jù)挖掘技術(shù)在交通領(lǐng)域中的應(yīng)用探析,通過對交通大數(shù)據(jù)特點(diǎn)的分析、數(shù)據(jù)挖掘關(guān)鍵技術(shù)、大數(shù)據(jù)平臺應(yīng)用的探討,簡要的分析了數(shù)據(jù)挖掘關(guān)鍵技術(shù)在道路交通控制領(lǐng)域應(yīng)用的可能性,通過應(yīng)用新的技術(shù)和方法,相信可以能夠應(yīng)對越來越嚴(yán)重的交通擁堵、交通事故和環(huán)境污染等一系列的交通問題。
參考文獻(xiàn):
[1]楊曉牧. 試述大數(shù)據(jù)在智能交通領(lǐng)域的應(yīng)用[J]. 交通節(jié)能與環(huán)保, 2015, 11(1):76-79.
[2]周為鋼, 楊良懷, 龔衛(wèi)華,等. 大數(shù)據(jù)處理技術(shù)在智能交通中的應(yīng)用[C]// 中國智能交通年會. 2013
[3]于碩, 李澤宇. 交通大數(shù)據(jù)及應(yīng)用技術(shù)研究[J]. 中國高新技術(shù)企業(yè), 2017(4).endprint