張 見 張 寧 邵家玉
(1. 東南大學(xué)自動化學(xué)院,210096,南京;2. 東南大學(xué)智能運輸系統(tǒng)研究中心軌道交通研究所,210018,南京//第一作者,碩士研究生)
城市軌道交通系統(tǒng)中的實時客流數(shù)據(jù)信息對提高地鐵系統(tǒng)服務(wù)能力至關(guān)重要。然而,由于城市軌道交通自動售檢票(Automatic Fare Collection,AFC)系統(tǒng)中的設(shè)備供應(yīng)商的多樣性以及實時數(shù)據(jù)傳輸過程的復(fù)雜性等原因,使得從AFC系統(tǒng)中獲取的實時客流數(shù)據(jù)并不能完全反映運營實際情況,部分車站在某些時段的實時進站客流量與實際進站客流量差異較大[1]。為了保證所獲取的實時客流數(shù)據(jù)的質(zhì)量,可通過對各車站、各時段客流量設(shè)定合理的閾值,從而對實時獲取的客流數(shù)據(jù)進行異常檢測和糾錯處理。在此過程中,閾值上限和閾值下限的合理設(shè)定最為關(guān)鍵。
根據(jù)同車站、同時段客流分布符合正態(tài)分布的特點,利用均值-三倍標(biāo)準(zhǔn)差法確定客流閾值上、下限是一種簡便易行的方法,但由于樣本數(shù)據(jù)本身存在異常值以及部分車站的季節(jié)性客流波動較大等原因,導(dǎo)致得出的閾值范圍過大,不能有效地對實時獲取的進站客流數(shù)據(jù)進行異常檢測。文獻[1]通過人工設(shè)定各樣本序列均值所對應(yīng)的最大閾值,得到樣本序列的最大標(biāo)準(zhǔn)差,利用樣本標(biāo)準(zhǔn)差與樣本均值的比值判斷閾值設(shè)定是否過大;文獻[2]通過模型確定待檢測點的預(yù)測值和方差值,以確定數(shù)據(jù)異常檢測的閾值范圍,取得了較好的異常檢測效果。文獻[3]的研究表明,混沌支持向量機回歸模型對非線性時間序列回歸預(yù)測效果較好。在客流預(yù)測模型建立過程中,考慮進站客流時間序列的混沌特性,以加強模型對非線性時間序列變化規(guī)律的表征能力?;诖耍疚牟捎没煦缰С窒蛄繖C回歸模型預(yù)測各時段的進站客流量,結(jié)合假設(shè)檢驗方法,利用同類日期、同時段下訓(xùn)練集的擬合殘差構(gòu)造服從特定分布的隨機變量,依次計算各時段對應(yīng)的進站客流預(yù)測殘差在相應(yīng)置信度下的置信區(qū)間,進而得到實際進站客流量的檢測閾值上、下限,以期獲得更有效的異常檢測范圍。
混沌是指在確定性系統(tǒng)中出現(xiàn)的一種貌似無規(guī)則的、類似隨機的現(xiàn)象[4]。文獻[5]中的嵌入定理表明,通過對混沌時間序列進行相空間重構(gòu),可以還原混沌系統(tǒng)的非線性動力特性,從而把握混沌時間序列的性質(zhì)與規(guī)律。通過計算時間序列的Lyapunov指數(shù)[6],可以驗證序列的混沌特性,而混沌時間序列在短期內(nèi)是可以預(yù)測的[7]。
首先對時間序列相空間重構(gòu),計算時間序列的時間延遲和最佳嵌入維數(shù),進而得出Lyapunov指數(shù),為正則意味著該時間序列混沌。
由于C_C方法[8]具有易操作、計算量小、抗噪能力強等優(yōu)點,故本文采用C_C方法計算序列的時間延遲和最佳嵌入維數(shù)。對于Lyapunov指數(shù)的計算,本文選用改進的小數(shù)據(jù)量法[4,9]進行計算,其計算步驟如下:
步驟1 采用C_C方法計算出時間序列(長度為N)的時間延遲τ和嵌入維數(shù)m,相空間重構(gòu)為:
X={Xp}
(1)
其中:Xp={x(p+(m-1)τ),…,x(p+τ),x(p)},p∈{1,2,…,M},M=N-(m-1)τ。
(2)
步驟3 對相空間中的每個點Xp,計算出該鄰點對的第p個離散時間步后的距離為:
(3)
步驟4 對每個q,求出所有p的lndp(q)平均值y(q),即:
(4)
其中:q是非零dp(q)數(shù)目,用最小二乘法做出回歸直線,該直線的斜率即為最大Lyapunov指數(shù)1。
應(yīng)用C_C方法求得混沌時間序列x={xp|p=1,2,…,N}的時間延遲τ和嵌入維數(shù)m,并對原時間序列數(shù)據(jù)進行相空間重構(gòu);利用重構(gòu)后的矢量數(shù)據(jù)進行單步預(yù)測,樣本空間映射函數(shù)f:Rm→R,使得x(n+1)=f(X(n)),即用于模型訓(xùn)練與測試的樣本集可表示為:
D={(X(n),x(n+1))|n=
(m-1)τ+1,(m-1)τ+2,…,N-1}
(5)
為了提高模型的預(yù)測能力和計算速度,需在模型訓(xùn)練之前對樣本集數(shù)據(jù)的輸入部分的各列數(shù)據(jù)進行標(biāo)準(zhǔn)正態(tài)分布轉(zhuǎn)換,并將轉(zhuǎn)換后的樣本集代入支持向量機回歸模型[10]中進行模型訓(xùn)練,同時采用大范圍網(wǎng)格搜索尋優(yōu)確定支持向量機回歸模型中的懲罰系數(shù)C、不敏感系數(shù)ε以及指數(shù)徑向基核函數(shù)參數(shù)λ,以優(yōu)化模型的預(yù)測效果。將待預(yù)測時段的輸入矢量數(shù)據(jù)進行與訓(xùn)練樣本集同分布的正態(tài)分布轉(zhuǎn)換后,代入到訓(xùn)練好的模型中,即可得到待預(yù)測時段的進站客流量預(yù)測值。
(6)
式中:
μ——該時段預(yù)測殘差總體平均值;
σ——該時段殘差總體標(biāo)準(zhǔn)差。
(7)
(8)
[y^(i)+e-(i)-Zα/2·s(i),
y^(i)+e-(i)+Zα/2·s(i)]
(9)
y^(i)+e-(i)-n+1n·tα/2(n-1)·s(i),
y^(i)+e-(i)+n+1n·tα/2(n-1)·s(i)
(10)
由于實時進站客流量數(shù)值為整數(shù),故需要對置信區(qū)間的下界向上取整,上界向下取整,取整后的置信區(qū)間左端點即為閾值下限,右端點即為閾值上限。
由上文可得,基于混沌支持向量機回歸模型的實時進站客流量異常檢測與處理的方法步驟大致如下:
步驟1 根據(jù)C_C方法確定混沌時間序列的時間延遲τ和嵌入維數(shù)m,對混沌時間序列進行相空間重構(gòu),并對相空間中的每一維的數(shù)據(jù)進行標(biāo)準(zhǔn)正態(tài)分布轉(zhuǎn)換,生成訓(xùn)練和測試樣本集。
步驟2 將轉(zhuǎn)換后的樣本集代入到支持向量機回歸模型中進行訓(xùn)練,并利用大范圍網(wǎng)格搜索對模型中的懲罰系數(shù)C、不敏感系數(shù)ε以及指數(shù)徑向基核函數(shù)參數(shù)λ進行尋優(yōu),得到優(yōu)化后的預(yù)測模型。
本文方法的流程描述如圖1所示。
圖1 進站客流量異常檢測與處理流程圖
本文數(shù)據(jù)源于南京地鐵軌道交通2號線大行宮站2013年7月30日至2014年1月20日5:30—23:30之間的進站客流數(shù)據(jù),進站客流數(shù)據(jù)的時間粒度取15 min(即第1天的5:30—5:45記為時段1,5:45—6:00記為時段2,…,23:15—23:30記為時段72,第2天的5:30—5:45記為時段73,以此類推),該時間段內(nèi)的進站客流數(shù)據(jù)的數(shù)學(xué)表示為x={x(i)|i=1,2,…,12 600}。選取長度N=3 000的子時間序列x={x(i)|i=1,2,…,3 000},應(yīng)用C_C方法計算時間序列的時間延遲τ和最優(yōu)嵌入維數(shù)m,算得τ=3,m=15,利用小數(shù)據(jù)量法的改進方法求得該序列的最大Lyapunov指數(shù)λ1=0.06>0,故該地鐵車站進站客流量時間序列具有混沌特性。
對原混沌時間序列進行相空間重構(gòu),并以2013年7月30日至2013年9月24日的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),2013年9月25日至2013年12月28日數(shù)據(jù)作為驗證數(shù)據(jù),2013年12月29日至2014年1月20日的數(shù)據(jù)作為測試數(shù)據(jù),對訓(xùn)練、驗證和測試數(shù)據(jù)集進行標(biāo)準(zhǔn)化轉(zhuǎn)換后,運用大范圍網(wǎng)格搜索法優(yōu)化支持向量機回歸模型中的參數(shù),即懲罰系數(shù)C、不敏感系數(shù)ε以及核函數(shù)參數(shù)λ,尋優(yōu)得到優(yōu)化后的模型參數(shù)C=360,ε=3,λ=0.03。
圖2為2013年8月5—18日大行宮站進站客流數(shù)據(jù)分布圖。由圖可知,工作日的客流變化規(guī)律大致相同,非工作日的客流變化規(guī)律亦大致相同,但工作日與非工作日的客流分布情況差異較大。由計算可知,訓(xùn)練樣本集中工作日與非工作日各時段殘差序列的統(tǒng)計參量值差別較大,故各時段的模型訓(xùn)練殘差數(shù)據(jù)要區(qū)分工作日與非工作日,利用支持向量機回歸模型得到模型訓(xùn)練樣本中各時段進站量殘差數(shù)據(jù),進而獲取工作日與非工作日各時段模型預(yù)測殘差的統(tǒng)計參量值,即樣本均值、樣本方差和樣本數(shù)。為了測試本模型對兩類日期進站量異常檢測的效果,對2013年12月29日至2014年1月20日間的進站客流量數(shù)據(jù)進行了有效性檢驗,并給出2013年12月31日(工作日)閾值設(shè)定和異常檢測的具體計算過程(非工作日計算過程與此類似)。
圖2 2013年8月5—18日大行宮站進站客流量分布圖
圖3 2013年12月31日進站客流量異常檢測閾值對比圖
應(yīng)用本文閾值計算的方法(記為方法1)與文獻[1]中的方法(記為方法2)得到2013年11月31日各時段的進站客流量異常檢測閾值上、下限如圖3所示。方法2的閾值范圍主要是根據(jù)歷史同期進站客流數(shù)據(jù)的樣本均值和樣本標(biāo)準(zhǔn)差計算確定的,并通過樣本標(biāo)準(zhǔn)差和樣本均值的比值對閾值范圍是否過大進行判斷,進而有效控制各時段閾值范圍的大小;而方法1的閾值范圍主要是由待檢測時段的模型預(yù)測值、歷史同類日期同時段進站客流數(shù)據(jù)模型預(yù)測殘差序列的樣本均值和樣本標(biāo)準(zhǔn)差共同確定。因此,從方法機理角度分析可得,方法1相比方法2具有更好的客流規(guī)律適應(yīng)能力和數(shù)據(jù)異常檢測效果。通過實例計算可知,利用方法1對2013年12月29日至2014年1月20日間的進站客流量數(shù)據(jù)進行異常檢測,計算得到各時段閾值范圍大小的均值為223.4,數(shù)據(jù)異常檢測的誤報率為3.2%;而利用方法2計算得到的各時段閾值范圍的大小均值為256.3,數(shù)據(jù)異常檢測的誤報率為5.8%。因此,方法1相較于方法2算得的各時段閾值范圍收縮了12.8%,數(shù)據(jù)異常檢測的誤報率下降了44.8%,即本文方法有效收縮了實時進站客流量數(shù)據(jù)的有效性檢測范圍,降低了數(shù)據(jù)有效性檢測的誤報率,進一步加強了對數(shù)據(jù)有效性檢測的能力。
本文采用支持向量機回歸模型進行實時進站客流量預(yù)測,根據(jù)訓(xùn)練集工作日和非工作日各時段擬合殘差序列統(tǒng)計分布特性,確定實時進站客流量異常檢測閾值。由實例可見,該方法有效收縮了進站客流量的異常檢測范圍,降低了數(shù)據(jù)異常檢測的誤報率,強化了對異??土鲾?shù)據(jù)的檢測能力,保證了實時獲取客流數(shù)據(jù)的準(zhǔn)確性和及時性,為乘客信息服務(wù)系統(tǒng)、實時客流預(yù)測以及大客流預(yù)警等應(yīng)用提供了可靠的數(shù)據(jù)支持,從而增強了軌道交通的服務(wù)能力。