譚 娟,王勝春
(1.北京工商大學 商學院,北京 100048;2.北京交通大學 交通數(shù)據(jù)分析與挖掘北京市重點實驗室,北京 100044 )
?
集成隨機森林的交通擁堵檢測模型
譚娟1,王勝春2
(1.北京工商大學 商學院,北京100048;2.北京交通大學 交通數(shù)據(jù)分析與挖掘北京市重點實驗室,北京100044 )
根據(jù)現(xiàn)有的城市交通網(wǎng)擁堵檢測體系,針對現(xiàn)有方法處理交通網(wǎng)格監(jiān)測數(shù)據(jù)流難以獲得相對穩(wěn)定的準確率的問題,提出了一種集成隨機森林的交通擁堵檢測模型;該模型通過將多個隨機森林分類器進行集成實現(xiàn)了交通網(wǎng)分布式監(jiān)測數(shù)據(jù)流的并行處理,設計了二級級聯(lián)分類器對交通網(wǎng)狀態(tài)進行判定,并可對各監(jiān)控節(jié)點權重進行評估;模型實現(xiàn)主要分為特征提取、集成建模和結合分析3個步驟;在不同規(guī)模的交通狀態(tài)監(jiān)測網(wǎng)絡下分析了模型的綜合性能,并分別與其它主流方法進行了對比;實驗表明:提出模型具有更好的交通網(wǎng)監(jiān)測數(shù)據(jù)流的處理能力,且具備較好的擴展和裁剪性能;該模型提供了一種可應用的交通擁堵檢測方法。
交通擁堵檢測;隨機森林;級聯(lián)分類器;節(jié)點權重
交通擁擠是世界各大中城市所面臨的共同問題。由于汽車保有量逐年持續(xù)增加,以及交通信息供給不足和管理措施不利,造成了現(xiàn)有的大中城市在行車高峰期的交通效率低下,給整個社會發(fā)展帶來了一系列經(jīng)濟、安全、環(huán)境污染等多方面的問題。解決交通擁擠的傳統(tǒng)辦法是拓寬道路或建設新路。但受限于城市土地面積及規(guī)劃,采用這種方法解決交通擁擠的難度越來越大。另外分配道路通行能力雖然可以緩解交通擁擠,但是它存在著經(jīng)濟效率差、影響出行者時間上的公平性等缺點。因此,構建交通擁堵檢測及交通誘導信息系統(tǒng)成為緩解城市交通擁堵的有效手段。
交通擁擠的檢測及交通誘導信息的發(fā)布是依靠傳感器監(jiān)測、信息處理技術、通信技術來共同實現(xiàn)。目前我國大中城市(以北上廣深為例)交通疏導監(jiān)測體系的特點是傳感器布設密集,但交通信息處理技術相對單一,多采用單點分析、統(tǒng)計分析結合帶閾值的多數(shù)投票法[1]進行交通狀態(tài)判別。這些方法存在對于網(wǎng)格化監(jiān)控數(shù)據(jù)處理的集成化程度低,對交通網(wǎng)內造成擁堵節(jié)點的綜合評判正確率不高,以及數(shù)據(jù)有效信息挖掘深度不夠的問題。這已成為這類系統(tǒng)發(fā)揮正常功能的瓶頸,易導致事件檢測率偏低等問題。
目前,有許多學者結合大數(shù)據(jù)思維,開展城際高速公路、城市公路交通等路網(wǎng)監(jiān)測數(shù)據(jù)進行綜合集成處理的研究,以期獲得對較好預測交通擁擠狀態(tài)的檢測模型。不同的擁堵檢測模型盡管在擁堵判別的準則上存在差異,但其理念都是依據(jù)交通流監(jiān)測數(shù)據(jù)的建模分析實現(xiàn)。文獻[2-4]就神經(jīng)網(wǎng)絡算法在交通擁堵預測中的應用進行了研究,但神經(jīng)網(wǎng)絡方法的參數(shù)選取缺少依據(jù),且對訓練過程有較強依賴,模型識別性能不穩(wěn)定。文獻[5]提出了基于ID3方法構建的決策樹分類,但該方法受限于數(shù)據(jù)分布,容易出現(xiàn)過擬合的問題。近年來,隨著數(shù)據(jù)挖掘技術發(fā)展,部分學者把支持向量機(SVM)方法應用于構建交通擁堵監(jiān)測模型[6-7],能獲得90.6%的判別精度,較好的推動了交通監(jiān)測數(shù)據(jù)分析技術的發(fā)展。在交通擁堵分析模型的研究方面,部分學者選擇從其它更多的視角[8]和分析方法力求獲得對交通瞬時數(shù)據(jù)更高的處理精度,比如:基于MapReduce方法[9],基于影響模型[10]方法等。
不同地,本文提出了一種集成隨機森林的交通擁堵檢測模型。隨機森林(random forests,RF)是由Leo Breiman提出,并由諸多數(shù)學家在后續(xù)研究中不斷完善的模式分類算法。它實際上是一個由一系列決策樹形式的基礎分類器以隨機方式構建的組合分類器[11]。該方法適合于處理具有高度相關特征的高維數(shù)據(jù)集,其變量重要性度量為特征選擇提供了一個自然方法。本文基于隨機森林作為基礎算法開展研究的優(yōu)勢在于[12]:1) 決策分類的理論支撐更為完善,具有更好的分類精度,且不會產(chǎn)生過擬合問題;2) 能夠有效地處理大數(shù)據(jù)集和高維數(shù)據(jù)集,適用于交通路網(wǎng)監(jiān)測數(shù)據(jù)分析;3) 能夠在分類過程中對特征變量對分類決策影響的重要性進行估計。借助該項能力,可實現(xiàn)對路網(wǎng)各節(jié)點對交通網(wǎng)總體狀態(tài)的影響程度評估。
本文根據(jù)交通監(jiān)控數(shù)據(jù)的網(wǎng)格分布屬性,構建了一個集成隨機森林的交通擁堵檢測模型。首先采用隨機森林對各監(jiān)測節(jié)點數(shù)據(jù)進行處理,并獲得節(jié)點狀態(tài)的初次分類。然后將各節(jié)點的狀態(tài)輸出結果進行二次組合,再次采用隨機森林算法構建一個總分類器對路網(wǎng)狀態(tài)進行判定,并給出各節(jié)點權重的影響評估方法。論文將在第2部分闡述集成隨機森林的設計和建模過程。第3部分闡述測試情境,訓練集和測試集的構造,重點展示數(shù)據(jù)并分析結果,并給出節(jié)點權重分析的影響方法。
1.1監(jiān)控數(shù)據(jù)采集和特征建模
所謂交通擁擠,是指一定時間內道路的交通需求超過其通行能力或者由于突發(fā)交通事件造成道路通行能力短時下降并低于當時的交通需求而發(fā)生的交通流滯留在道路上的交通現(xiàn)象。對交通狀態(tài)的定義按照以下三類進行定義:
1) 通暢(tc):道路的需求量低,路上車輛較少,出行者可以很快到達目的地;2) 正常(zc):由自由流狀態(tài)逐漸轉化為間歇性停滯,但通行狀態(tài)基本可控;3) 擁堵(yd):車輛走行緩慢,來自上游的交通需求中無法通過瓶頸,形成排隊。本文將交通擁擠定義為 5 min 車道占有率超過 30%的交通狀態(tài)。
交通擁堵狀態(tài)分析數(shù)據(jù)的獲取需以現(xiàn)有的交通監(jiān)測體系為依據(jù)。交通監(jiān)測最常采用的分析模型是網(wǎng)型結構,如圖1所示。在交叉路口的4個通行方向均設立測點,在部分主干道長直線路段的中間也設置測點。本文以各節(jié)點的監(jiān)測數(shù)據(jù)為研究對象,該網(wǎng)絡中各節(jié)點之間的數(shù)據(jù)具有直接(如1、2、3、7節(jié)點)或間接(如1、5節(jié)點)相關性。
圖1 交通監(jiān)測體系的網(wǎng)型結構
依據(jù)常理,在路網(wǎng)中通行的車流方向變化規(guī)律是難以預知的。因此要根據(jù)當前監(jiān)測數(shù)據(jù)檢測路網(wǎng)交通狀態(tài)的變化情況,通過建立數(shù)據(jù)挖掘模型研究歷史數(shù)據(jù)的潛在規(guī)律是解決問題的手段之一。本文根據(jù)隨機森林方法的若干優(yōu)勢,以該方法為基礎,建立集成模型開展研究。
根據(jù)布設的傳感器并進行統(tǒng)計分析建模,對數(shù)據(jù)進行合成處理后定義4個參數(shù)作為基礎變量:1) 流量(fq):指單位時間(1分鐘)行駛通過道路指定地點監(jiān)測斷面的車輛數(shù);2) 空間占有率(spr):在道路的一定路段上,車輛總長度與路段總長度之比稱為空間占有率; 3) 車頭時距離(td):對前后兩車通過車行道上某一點的時間差的測量值; 4) 時間平均速度(mv):是指在特定的時間區(qū)間內,通過道路某一地點的所有車輛點速度的算術平均值。
與傳感器監(jiān)測參數(shù)對應的物理變量相對應,按式(1)定義每個節(jié)點的輸入、輸出特征向量:
(1)
對于集成模型,模型的原始輸入由對應不同節(jié)點的N個觀測組L={(xi,yi),i=1,2,…,N},每組樣本對應一組如式(1)所示向量。
1.2集成模型
本文通過建立集成模型分析并處理交通路網(wǎng)監(jiān)測數(shù)據(jù)。模型設計從兩個角度切入:1) 期望能較好地并行處理各單點監(jiān)測數(shù)據(jù),可根據(jù)點數(shù)據(jù)流判斷單點的交通狀態(tài);2)能對各節(jié)點組成的路網(wǎng)的綜合狀態(tài)進行全局判定,并在一定程度量化給出網(wǎng)內各節(jié)點狀態(tài)的影響評價。
集成模型的構建方式分三步實現(xiàn)。其總體結構如圖2所示。模型設計采用二級級聯(lián)結構。第一級為多個單點分類器的并行結構處理。第二級模型以第一級的判定輸出標簽作為輸入集,構建對路網(wǎng)綜合狀態(tài)的判定模型。模型的核心算法基于隨機森林實現(xiàn)。
圖2 集成模型總體框架圖
第1步:數(shù)據(jù)集構造和輸入。該步驟包含數(shù)據(jù)預處理和分類過程。數(shù)據(jù)預處理過程需多次采集訓練和測試所需的數(shù)據(jù),然后計算相關特征,構成特征集。在數(shù)據(jù)挖掘模型建立之前,對數(shù)據(jù)做歸一化真值處理。根據(jù)經(jīng)驗法設定閾值,選定參數(shù)建立分段閾值函數(shù)(如式(2)所示),將測量值進行分級標注,轉化為特征真值表作為訓練集。
(2)
第2步:訓練和建模。該步驟分兩個階段實現(xiàn)。在步驟1的基礎上,首先建立第一級模型。每個模型是一個獨立的隨機森林模型。訓練過程如下:
1) 給定訓練集L,測試集T,特征維數(shù)M=4。設定參數(shù):確定模型中決策樹的數(shù)量ntree,樹的深度d,每顆樹節(jié)點使用到的特征數(shù)量mtry;并設定訓練的終止條件:樹節(jié)點上樣本數(shù)最小值s,節(jié)點上信息增益最小值f;
2) 從L中有放回的提取新訓練集L(i),保證L(i)的樣本規(guī)模和L一致,并作為根節(jié)點的樣本集開始訓練。
3) 判斷當前節(jié)點是否達到終止條件。如是,則設置當前節(jié)點為葉子節(jié)點,然后繼續(xù)訓練其他節(jié)點;如否,則從M維特征中無放回地隨機選取f維特征。利用這f維特征,尋找分類效果最佳的特征m及其閾值th:在當前節(jié)點,樣本第m維特征小于th的樣本被劃分到左節(jié)點,否則劃分到右節(jié)點。然后繼續(xù)訓練其他節(jié)點。
4) 重復2)、3)直到遍歷節(jié)點,或被標記為葉子節(jié)點。
5) 重復2)~4)直到遍歷所有決策樹。
隨機森林的決策樹分類效果評價采用Gini標準值,其計算公式如式(3):
(3)
式中,P(i)為當前節(jié)點上數(shù)據(jù)集中第i類樣本的比例。評判標準為:尋找最佳的特征f和閾值th,使得當前節(jié)點的Gini值減去左右分支節(jié)點的Gini值最大。
在模型的整體構建上,對應K個監(jiān)測節(jié)點分別建立K個基于隨機森林的模型,分別為RF(1)~RF(K);并將每個隨機森林模型的訓練參數(shù)和模型文件RF(1).dat~RF(K).dat存儲到磁盤。
第二級模型的建立以第一級模型所有節(jié)點的輸出作為輸入,建立新的隨機森林模型分析各節(jié)點交通狀態(tài)所形成的綜合效應。訓練過程與第一級模型的訓練過程類似,但模型特征維數(shù)M的設定根據(jù)節(jié)點數(shù)量K進行設定。模型的訓練集和測試集的建立采用第1步中所述數(shù)據(jù)集構造方式獲得。對于路網(wǎng)交通狀態(tài)監(jiān)測節(jié)點的評價依據(jù)經(jīng)驗確定。該步驟訓練完成后,獲得一個隨機森林模型文件RF.dat。
在預測分類時,各監(jiān)測節(jié)點之構成分布式計算網(wǎng)絡。模型通過實時加載預測數(shù)據(jù)和各步驟已生成的模型文件,通過隨機森林決策樹輸出交通狀態(tài)。在實際處理時,各節(jié)點在某一時刻t同時獲得監(jiān)測數(shù)據(jù),經(jīng)模型處理后輸出獲得t時刻的交通網(wǎng)絡狀態(tài)標簽。
第3步:綜合分析。該步驟是指根據(jù)數(shù)據(jù)處理模型的連續(xù)輸出狀態(tài),設計規(guī)則對路網(wǎng)狀態(tài)進行最終評判并預警。由于路網(wǎng)通行狀態(tài)是一個動態(tài)變化的過程,因此需根據(jù)模型預測結果觀測值的連續(xù)變化情況來判定路網(wǎng)的狀態(tài)。較為常用的設計方法是:定義以時間為自變量的狀態(tài)統(tǒng)計函數(shù),并以量化值作為輸出分級描述交通擁堵狀態(tài)(即擁堵指數(shù))。該函數(shù)的定義更為依賴模型的應用情境,在此不對具體形式進行定義。
同時,利用隨機森林分類效果評價標準所提供的特征重要性度量方法,本文設計的第二級模型可通過對數(shù)據(jù)集的處理,對網(wǎng)絡節(jié)點的影響因數(shù)進行量化評估。從數(shù)據(jù)挖掘角度闡述,影響因子越高,說明該變量對于隨機森林分類器獲得更高正確率的貢獻度越高。對于交通網(wǎng)數(shù)據(jù)分析而言,說明該節(jié)點對整個交通路網(wǎng)中的影響力越高。根據(jù)模型的向量評價系數(shù)進行排序,可以對網(wǎng)絡全部節(jié)點的影響程度進行觀測,以獲得對交通網(wǎng)絡進行疏導改造的建議。
1.3參數(shù)調試方法
隨機森林模型的參數(shù)較多,當模型性能不滿足要求時,需要對模型的參數(shù)進行調整,使模型的誤差率減小,達到更好的性能。其中最主要的兩個參數(shù)為:ntree(隨機森林中樹的數(shù)目)、mtry(節(jié)點隨機選擇的特征數(shù)目)。
(1) 參數(shù)ntree的確定方法。隨機森林基礎理論證明,只要ntree足夠大,模型誤差將達到一個固定上限;但樹的顆樹如果過多,又會損失效率。該參數(shù)調試需結合實際數(shù)據(jù)集進行動態(tài)觀測調試,確定系統(tǒng)到達誤差穩(wěn)態(tài)上限時的臨界區(qū)。
(2) 參數(shù)mtry的確定方法。參數(shù)mtry是指隨機森林模型中決策樹除了根節(jié)點、葉節(jié)點以外的其他節(jié)點處隨機選擇特征的數(shù)目,mtry比其他參數(shù)對模型的性能更加敏感。本文對該參數(shù)的計算采用式(4):
mtry=[sqrt(M)]
(4)
即該參數(shù)的取值為輸入向量特征數(shù)M開平方并向下取整。對于本文模型,第一級中各測點的RF模型取值為2。第二級網(wǎng)絡綜合RF的mtry參數(shù)取值根據(jù)網(wǎng)絡節(jié)點數(shù)量確定。
1.4評估指標
隨機森林模型可在分類器訓練過程中自動生成“袋外”(Out-of-bag)樣本集用于估計模型的泛化誤差。因此本文對RF(n)、RF模型的性能評估均以模型輸出的out-of-bag樣本集估計誤差率(oobE)為依據(jù)[13]。因此對于一級模型的單節(jié)點隨機森林模型而言,該誤差率參數(shù)取值越小,表示模型性能越好。對于模型的總體精度而言,通過考察模型對測試集處理的準確率來評估性能,準確率定義如下:
(5)
本節(jié)從3個方面設計對試驗進行驗證。主要試驗工作如下:1) 通過觀測RF模型中ntree參數(shù)與oobE誤差率的變化關系確定ntee最佳取值;2) 通過建立不同規(guī)模的網(wǎng)絡,驗證模型對交通路網(wǎng)監(jiān)測數(shù)據(jù)的處理精度和處理能力;3) 將本文模型與BP神經(jīng)網(wǎng)絡(BP-NN)、線性支持向量機(LSVM)進行比較,分析模型在交通監(jiān)測處理能力上的差異。
2.1數(shù)據(jù)采集與整理
本研究采用北京市朝陽區(qū)CBD區(qū)域為中心的路網(wǎng)監(jiān)測數(shù)據(jù)構建數(shù)據(jù)集進行測試驗證。數(shù)據(jù)采集和整理方法如下:(1)依據(jù)該區(qū)域交通在不同時間段出現(xiàn)的整體擁堵狀態(tài),按照定義的3種交通狀態(tài)進行分類整理;(2) 與本文提出的二級模型相對應,對每個監(jiān)測點在不同時間段的交通狀態(tài)變化狀況也進行統(tǒng)計;(3) 數(shù)據(jù)搜集考慮了周一早高峰、周五晚高峰等可能出現(xiàn)的極端擁堵情況,但不考慮交通狀態(tài)極度通暢的情況,因此對凌晨0點到6點的數(shù)據(jù)予以剔除。
2.2試驗環(huán)境
測試數(shù)據(jù)集的整理、真值化處理,模型的訓練模塊和分析處理模塊的編程實現(xiàn)均在Matlab(版本:2012b)平臺下完成。工作PC機的操作系統(tǒng)為Windows7(64 bit),硬件配置為CPU:Intel-I7,內存:32 G,硬盤:3 T。
2.3結果和分析
2.3.1ntree參數(shù)與oobE誤差率的變化關系
該項驗證設定隨機森林模型訓練函數(shù)ntree參數(shù)的上限為50,并通過觀測模型在ntree參數(shù)變化時oobE誤差率的變化值。結果如圖3所示。這里分別考察2個一級模型中單測點RF模型和網(wǎng)絡綜合RF模型的變化狀態(tài),從圖上可以看出,ntree參數(shù)取值在[2,10]區(qū)間時,誤差率隨ntree參數(shù)增大出現(xiàn)了急劇衰減;在[10,20]區(qū)間,則呈現(xiàn)平緩衰減狀態(tài),并在之后逐漸達到穩(wěn)態(tài)。系統(tǒng)穩(wěn)態(tài)誤差率oobE的平均值小于3%。綜上所述,本文一級模型各測點RF模型的ntree參數(shù)的理想值區(qū)間為[20,25],二級模型RF模型的ntree參數(shù)的理想?yún)^(qū)間值在[25,30]。
圖3 ntree參數(shù)與oobE變化關系曲線圖
2.3.2模型的綜合性能分析
以驗證模型的綜合處理能力為目標,根據(jù)不同監(jiān)測點的數(shù)量進行組網(wǎng),節(jié)點數(shù)目的規(guī)模分別為14、20、26、32。根據(jù)不同的網(wǎng)絡規(guī)模分別訓練模型,然后以測試數(shù)據(jù)集作為輸入,并校驗模型輸出的準確率。為了便于比較算法性能,在相同的數(shù)據(jù)集上同時采用了BP神經(jīng)網(wǎng)絡(BP-NN)和線性支持向量機(LSVM)進行處理,與本文模型的對比結果如圖4所示。
圖4 本文方法與其他方法的數(shù)據(jù)處理性能對比
從對比結果可以看出,本文方法的平均準確率高出BP-NN方法 15個百分點左右,而LSVM則表現(xiàn)的不太理想。在處理不同規(guī)模的網(wǎng)絡時,隨著網(wǎng)絡節(jié)點數(shù)量的增加,本文方法表現(xiàn)出的性能較為穩(wěn)定,而其它兩種方法則在精度上開始出現(xiàn)衰減。從設計機理分析,由于本文方法對各監(jiān)測節(jié)點采用了分級方法進行處理,使得系統(tǒng)在適應網(wǎng)絡和數(shù)據(jù)規(guī)模擴展方面具備了更為優(yōu)良的性能。
2.3.3各監(jiān)測點影響權重評估分析
隨機森林算法的另一個特點是能在分類過程中對模型變量的影響權重進行評估。本研究利用算法的該項能力,在第二級處理的RF模型中對交通路網(wǎng)中各監(jiān)測節(jié)點對獲得高分類正確率的影響程度進行計算。該值從一定程度上可以反應各監(jiān)測點位置在整個交通路網(wǎng)中的影響程度。這里以B部分中32節(jié)點的交通網(wǎng)絡為例進行分析,并給出排名前5的測點情況。具體數(shù)據(jù)見表1。
二級模型中的RF方法對每個監(jiān)測點都給出了一個數(shù)值評估,該值是一個對模型輸入變量的評估系數(shù),通過排序分析可觀測其實際參考意義。將排序結果與監(jiān)測點所在位置進行對照分析,可以看出排名靠前的監(jiān)測位置表現(xiàn)出了一定程度的聚集性。對應路網(wǎng)的實際情況分析,這些位置可以視為交通通行的“瓶頸”位置。由此可見,本文方法為交通網(wǎng)絡節(jié)點狀態(tài)的綜合評估提供了一種量化分析體系。
表1 各監(jiān)測點在路網(wǎng)中的重要性評估分析
交通網(wǎng)絡擁堵狀態(tài)的檢測模型是城市智能交通技術研究的熱點問題。本文提出的集成隨機深林的處理模型采用二級級聯(lián)結構設計。第一級模型采用RF方法對交通路網(wǎng)監(jiān)測數(shù)據(jù)進行并行集成處理,第二級模型依據(jù)各監(jiān)測節(jié)點狀態(tài)建立RF分類器,實現(xiàn)了對交通路網(wǎng)狀態(tài)的綜合分析。經(jīng)試驗論證,本文模型在處理交通路網(wǎng)監(jiān)測數(shù)據(jù)時的準確率高,同時兼?zhèn)淞藢吸c數(shù)據(jù)和網(wǎng)絡數(shù)據(jù)進行分析挖掘的綜合性能力,是一種可以應用于構建交通擁堵檢測及誘導信息系統(tǒng)的數(shù)據(jù)挖掘模型。同時,該建模方法可供其它應用背景的網(wǎng)格數(shù)據(jù)挖掘分析方法借鑒。
[1] Xiang G Y,Niu S F,An D C.The method of traffic congestion identification and spatial and temporal dispersion range estimation[A]. International Asia Conference on Informatics in Control,Automation and Robotics[C]. 2010,1: 36-39.
[2] 陳陽舟,田秋芳,張利國.基于神經(jīng)網(wǎng)絡的城市快速路交通擁堵判別算法[J].計算機測量與控制,2011,19(1):167-169
[3] 楊祖元,黃席樾,杜長海,等.基于FFCM聚類的城市交通擁堵判別研究[J].計算機應用研究,2008,25(9):2768-2770.
[4] 魯小丫,宋志豪,徐柱,等.利用實時路況數(shù)據(jù)聚類方法檢測城市交通擁堵點[J].地球信息科學學報,2012,14(6):775-779.
[5] Srinivasan D,Sanyal S,Sharma V.Freeway incident detection using hybrid neural network[J].IEEE Transaction on Intelligent Transportation System,2007,1(4):249-259.
[6] 郭倩,黃林.基于粗糙集和支持向量機的高速公路事件檢測[J].計算機工程與應用.2008,44(35):203-205.
[7] 鄭長江,路源.基于支持向量機的城市道路交通擁堵判別算法研究[J].貴州大學學報(自然科學版),2014,31(1):113-117.
[8] 楊聚芬,姜桂艷,李琦.基于收費數(shù)據(jù)的高速公路交通擁擠自動判別方法[J].哈爾濱工業(yè)大學學報,2014,46(12):108-113
[9] 梁軻,譚建軍,李英遠.一種基于MapReduce的短時交通流預測方法[J]. 計算機工程,2015,41(1):174-179.
[10] 丁棟,朱云龍,庫濤,等.基于影響模型的短時交通流預測方法[J].計算機工程.2012,38(10):164-167.
[11] 華楠.基于數(shù)據(jù)挖掘技術的交通擁擠檢測及應用[D].長春:吉林大學,2008.
[12] 鄧生雄,雒江濤,劉勇,等.集成隨機森林的分類模型[J].計算機應用研究,2015,32(6):1621-1625.
[13] 張春霞,郭高.Out_of_bag樣本的應用研究[J].軟件,2011,32(3):1-4.
Traffic Congestion Detection Model Based on Ensemble Random Forests
Tan Juan1,Wang Shengchun2
(1.Business School,Beijing Technology and Business University,Beijing100048,China; 2.Beijing Key Lab of Traffic Data Analysis and Mining,Beijing Jiaotong University,Beijing100044,China)
According to the existing traffic congestion detection system of cities,a detection system is proposed to solve the problems of relatively low and unstable accuracy in processing the traffic monitoring data. This model integrated multiple random forests(RF) to process each node data in the traffic network parallel,then a cascade classifier is designed to recognize the traffic network status. At last,the importance of node in the traffic network is assessed by using RF. The implementation of this model mainly consisted of three levels,that is,feature extraction,building the integrated classification model and combination analysis. Comprehensive performance of the model is analyzed under different size traffic network. and compared respectively with other algorithms. Finally,experiments show the proposed model not only has better comprehensive performance in traffic network monitoring data,but also can be adapt to the change of network size. This model provides an application model for traffic congestion detection.
traffic congestion detection; random forest; cascade classifier; weight factor node
1671-4598(2016)04-0230-04DOI:10.16526/j.cnki.11-4762/tp.2016.04.066
TP39
A
2015-10-27;
2015-11-19。
北京市自然科學青年基金(9144022) ;北京市社會科學基金項目(15JGC159);首都流通業(yè)研究基地支助項目(JD-YB-2016-004)。
譚娟(1983-),女,湖南邵陽人,博士,副教授,主要從事交通運輸規(guī)劃、環(huán)境經(jīng)濟管理方向的研究。