王 全
(廣州千陌互連科技股份有限公司,廣東 廣州 467000)
為了更好地解釋交通流狀態(tài)轉(zhuǎn)變中表現(xiàn)的特性,德國學者Kerner在總結(jié)和研究了大量交通流經(jīng)驗數(shù)據(jù)的基礎(chǔ)上提出了三相交通流理論[1-4],并進行了擴充和完善[5]。不同于經(jīng)典的兩相(自由流和擁堵流)交通流理論,該理論認為交通流狀態(tài)存在三相性,即自由流(Free FLow,F(xiàn))、同步流(Synchronized FLow,S)和寬運動堵塞流(Wide Moving Jam,J)。近年來,國內(nèi)外學者基于三相交通流理論提出了許多相關(guān)研究成果。Jia等[6]提出了基于三相交通流理論的元胞自動機模型,在考慮周期和邊界等條件下,對同步流的基本圖特性及入口匝道導致的不同擁堵模型進行了深入研究。Tian等[7]利用基于交通流基本圖的元胞自動機對三相交通流理論的影響進行還原分析。Rehborn、Schafer及Hermanns等分別利用各自的交通流數(shù)據(jù)樣本對交通流轉(zhuǎn)變過程中的三相狀態(tài)進行驗證和分析[8-10]。
三相交通流理論從交通流運行過程中的數(shù)據(jù)特性入手,假設(shè)交通流狀態(tài)轉(zhuǎn)換包括F→S,S→J和F→J,并認為F→J無存在的可能性[4],因此主要的研究難點在于如何清楚地確定F,S和J的邊界[11]。為了解決該問題,本文將應用KMC算法對交通流數(shù)據(jù)進行相關(guān)聚類分析,研究三相交通流的參數(shù)區(qū)間并得出結(jié)論。
KMC(K-means Clustering,KMC)算法是最經(jīng)典的聚類算法之一,因其具有思路簡單、聚類快速、局部搜索能力強的優(yōu)點而被廣泛應用。設(shè)聚類樣本將其劃分為多個不同的類別為d維向量,k為聚類中心個數(shù)。聚類中心計算公式如下:
KMC的準則函數(shù)如下:
式中:d(xi,Cj)表示數(shù)據(jù)xi與所屬聚類中心Cj的歐式距離;J表示類內(nèi)所有點到類中心的距離之和。KMC的聚類思想即找到一組類中心,使得類中其他點到達本類中心的距離之和最小,即J最小。
KMC的一個缺點是容易陷入局部最優(yōu),因而對初始聚類中心的選擇非常敏感,本文應用如下算法對聚類中心的初始化進行改進,避免KMC陷入局部最優(yōu)。聚類中心初始化算法流程如下:
(1)設(shè)聚類中心集合為C,在數(shù)據(jù)序列中隨機選擇一個加入C;
(2)計算所有數(shù)據(jù)點到C中點的距離,將距離最大的點作為新的聚類中心并加入C;
(3)重復步驟(2),直到C中的聚類中心數(shù)量達到要求;
(4)返回C作為KMC算法的初始聚類中心。
1948年,C.E.Shannon將熵概念引入信息理論,用信息熵來度量數(shù)據(jù)所含的信息量,其表達式定義如下:
式中:xi代表信源端各不同的信號;P(xi)表示信源中每個信號出現(xiàn)的概率;H(x)表示信源總體信息量的統(tǒng)計平均值。因此,將序列劃分為K個類集合,則x的總體信息熵為:
值得說明的是隨著聚類個數(shù)的增加,每個類中的數(shù)據(jù)量減少,每個數(shù)據(jù)屬于一個類的概率增大,該類總體的信息熵就變大。在類個數(shù)由少增多的過程中,類劃分按無序→有序→無序的順序進行,最初的無序是因為聚類太籠統(tǒng),看不清數(shù)據(jù)集的特征,而最后的無序是聚類太細碎,缺少總體認識。因此,可以用數(shù)據(jù)集總體信息熵的躍遷值來確定最佳的聚類數(shù)目[12]。如果當聚類數(shù)量從n增加到n+1,總體信息熵值躍遷值很小,則說明將數(shù)據(jù)集劃分為n個類比較合適,沒有再增加類中心的必要。本文中,我們將利用信息熵的概念及其不同聚類數(shù)目變化幅度對聚類分析的結(jié)果進行探討。
本文所用的交通流數(shù)據(jù)均采集于廣州市廣園快速路在五山路出入口的上下游路段,為了著重分析連續(xù)交通流的三相特性,選取2016年8月22日(星期一)工作日數(shù)據(jù)作為分析樣本,其時間樣本如圖1和圖2所示。由交通流時間序列分布可知,下游路段由于受到出入口的影響比較顯著,速度和占有率在時間上的變化較上游路段稍顯混亂,下文中將進行詳細分析。
圖1 上游路段交通流時間序列
對交通流時間序列進行聚類分析之前,必須先確定最優(yōu)的聚類個數(shù),使得聚類數(shù)據(jù)包含的信息量最大。以交通流速度-占有率關(guān)聯(lián)分布為例,不同的聚類數(shù)目會有不同的聚類效果,數(shù)據(jù)集的總體信息熵會不斷變化。圖3所示為速度-占有率聚類數(shù)目由2~4個的聚類結(jié)果,圖4所示為不同聚類數(shù)目信息熵躍遷值的變化結(jié)果,由此可知,聚類數(shù)目由2增加到3時,信息熵躍遷值降到最低,而由3到4的過程信息熵的躍遷值反而增加,說明有3個聚類中心時交通流時間序列的總體信息量最大,該結(jié)果與三相交通流一致。
圖2 下游路段交通流時間序列
圖3 速度-占有率分布聚類結(jié)果
圖4 信息熵躍遷值變化
據(jù)上所述,從三相交通流及信息熵總量來看,將交通流分為3類時包含的信息量最大。對交通流速度時間序列、占有率時間序列進行分別聚類,可以發(fā)現(xiàn)交通流不同狀態(tài)的邊界,為交通流狀態(tài)判別提供數(shù)據(jù)支撐。
以數(shù)據(jù)樣本中上游路段為例,速度時間序列和占有率時間序列的聚類分析結(jié)果如圖5所示??梢?,聚類算法能夠準確識別出高峰流量區(qū)間,并分出各交通流狀態(tài)的邊界。該路段設(shè)計時速為60 km/h,實際情況下自由流平均速度約52 km/h,同步流速度在31~43 km/h之間,低于30 km/h時,交通處于擁堵狀態(tài)。對應的占有率分別為0~42%,43%~74%,74%~100%。
圖5 上游路段交通流時間序列聚類結(jié)果
綜合上游路段的交通流時間序列的聚類分析結(jié)果與下游路段受出入口的影響,交通流時間序列更加復雜,其聚類結(jié)果如圖6所示。相比上游路段,下游路段的交通流分布稍顯混亂,從聚類結(jié)果來看,各狀態(tài)的速度和占有率區(qū)間發(fā)生了變化,具體見表1所列。
表1 上下游路段交通流參數(shù)聚類區(qū)間對比
由表1可知,兩個路段的自由流速度下界和寬運動堵塞流占有率上界較一致(表中下劃線數(shù)字),而同步流的速度下界和占有率上界存在較大差別。結(jié)合圖5和圖6分析可知,造成上游路段交通流由S→J轉(zhuǎn)變的主要原因是出入口車輛的干擾,而下游路段不僅存在干擾問題,車流量增大也會導致道路占有率分布總體上浮,但由于前方不存在排隊現(xiàn)象,因此交通流的速度也較上游大。無監(jiān)督的KMC聚類中心的全局最優(yōu)值取決于數(shù)據(jù)分布特征,因此兩個路段的聚類區(qū)間存在差別。
圖6 下游路段交通流時間序列聚類結(jié)果
自信息量是指數(shù)據(jù)樣本中每個點在其所屬類中出現(xiàn)的概率,計算公式見式(5)。利用所有數(shù)據(jù)點與其對應自信息量相乘的分布可以分析聚類結(jié)果的成分,進而分析聚類的可靠性。
圖7所示為上游路段聚類結(jié)果的自信息量分布,從中可以看出,速度時間序列的聚類結(jié)果中在自由流狀態(tài)時只有一種成分,另外兩個狀態(tài)則可能出現(xiàn)不同的速度值;同樣,占有率時間序列的聚類結(jié)果中,擁擠流也只包含一種成分,另外兩種狀態(tài)亦不然。由此說明,高速度的交通流只在自由流狀態(tài)時出現(xiàn),同步流和堵塞流時速度變化區(qū)間較大;高占有率的交通流只有堵塞流才會表現(xiàn)出來,自由流和同步流狀態(tài)可能會出現(xiàn)瞬時的占有率浮動。故而在交通流時間序列的聚類結(jié)果中,自由流速度區(qū)間的下界和擁堵流狀態(tài)占有率區(qū)間的下界識別結(jié)果較可靠,也從另一個角度說明了上下游兩個路段聚類結(jié)果中這兩個值較為一致的原因。
本文基于改進的KMC算法,利用信息熵的躍遷值確定交通流時間序列的最優(yōu)聚類數(shù)目,在此基礎(chǔ)上分別對上下游兩個關(guān)聯(lián)路段的交通流時間序列進行聚類分析,根據(jù)數(shù)據(jù)的自信息量分布對聚類結(jié)果進行分析。從本文的研究中可得出以下結(jié)論:
(1)交通流時間序列的聚類分析從數(shù)據(jù)角度證明三相交通流理論適合于交通流狀態(tài)的判別研究;
(2)聚類分析結(jié)果證明交通流在F→S的狀態(tài)轉(zhuǎn)變中,以速度為判據(jù)更可靠,而在S→J的狀態(tài)轉(zhuǎn)變中,以占有率變化作為判據(jù)更可靠;
(3)交通流數(shù)據(jù)的聚類結(jié)果因路段道路條件、交通流組成的不同而存在差異,應結(jié)合具體的數(shù)據(jù)分析給出合理的狀態(tài)判別。
圖7 聚類結(jié)果的自信息量分布