郇 寧,姚恩建,薛 飛
(綜合交通運(yùn)輸大數(shù)據(jù)應(yīng)用技術(shù)交通運(yùn)輸行業(yè)重點(diǎn)實(shí)驗(yàn)室(北京交通大學(xué)), 北京 100044)
近年來,中國各大城市地鐵線網(wǎng)不斷擴(kuò)張,軌道交通在城市綜合交通系統(tǒng)中的作用愈發(fā)重要. 在乘客出行需求日趨多樣化的背景下,大型文體賽事、慶典活動、道路交通管制等外部因素可能引發(fā)大量乘客于短時間內(nèi)涌入車站,如果組織不當(dāng),可能導(dǎo)致乘客服務(wù)體驗(yàn)下降、運(yùn)行風(fēng)險升高,引發(fā)站內(nèi)、車廂過飽和甚至乘客人身安全事故. 因此,有必要形成一套適應(yīng)城市軌道交通客流特性的異常狀態(tài)識別方法,以填補(bǔ)運(yùn)營管理中異常信息的不對稱性,健全客運(yùn)組織的風(fēng)險預(yù)警機(jī)制.
異常識別(又稱異常檢測)是數(shù)據(jù)挖掘的一個重要分支,其目的在于發(fā)現(xiàn)數(shù)據(jù)集中與其他數(shù)據(jù)有顯著差異的樣本,如入侵檢測[1]、醫(yī)療診斷[2]、工業(yè)損檢[3]等. 在城軌運(yùn)營管理領(lǐng)域,同類技術(shù)主要體現(xiàn)在車輛設(shè)備和工控系統(tǒng)的硬件安全檢查等方面[4-5],客運(yùn)部門往往以基礎(chǔ)的統(tǒng)計(jì)分析或閾值判斷方法來識別客流的異常狀態(tài),存在時間滯后性、誤判率高、難以適應(yīng)客流的長期演化規(guī)律等不足. 相關(guān)研究中,文獻(xiàn)[6]系統(tǒng)地分析了城市軌道交通運(yùn)營事故的特點(diǎn)及風(fēng)險因素;文獻(xiàn)[7]基于時間序列相似性度量的思想,分析了進(jìn)站量時間序列中的突發(fā)客流現(xiàn)象. 整體上,現(xiàn)有研究尚未形成關(guān)于城軌客流異常識別的成熟理論和方法,本研究從自動售檢票系統(tǒng)實(shí)時采集的刷卡數(shù)據(jù)中提取分鐘進(jìn)站量時間序列,實(shí)現(xiàn)對客流狀態(tài)異常值的同步量化,主要內(nèi)容包括特征提取和異常判定兩個部分.
廣義上的特征提取通常依托于機(jī)器學(xué)習(xí)算法,尤其是深度學(xué)習(xí)模型,利用深層次的非線性結(jié)構(gòu)網(wǎng)絡(luò)模型獲取觀測樣本中的高階相關(guān)性信息,現(xiàn)已廣泛應(yīng)用于模式識別領(lǐng)域[8-9]. 典型地,卷積神經(jīng)網(wǎng)絡(luò)采用非全連接和權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu),擅長從局部特征逼近整體特征,在圖像識別方面應(yīng)用廣泛;堆疊自編碼器與深度置信網(wǎng)絡(luò)(deep belief network, DBN)都是以逐層訓(xùn)練的方式提取訓(xùn)練集特征,前者利用非線性變換尋找主特征方向,后者基于樣本概率分布獲取高層特征表示,在手寫識別、語音識別等方面有較好表現(xiàn). 在以時間序列為對象的研究中[10-11],通常以多項(xiàng)式曲線擬合、離散傅里葉變換、連續(xù)小波變換、分段聚合近似等手段實(shí)現(xiàn)時間序列的降維、降噪表示,進(jìn)而實(shí)現(xiàn)對隱含信息的深層挖掘.
異常判定按實(shí)現(xiàn)原理可大致分為4類:1)基于統(tǒng)計(jì)與數(shù)據(jù)分布的方法[12],通過假設(shè)數(shù)據(jù)集服從某種分布模式(如多元正態(tài)分布)來識別異常點(diǎn),但對于包含非線性動態(tài)特征的復(fù)雜問題適用性較差. 2)基于閾值判斷的方法[13-14],依據(jù)客觀規(guī)律或人工經(jīng)驗(yàn)對異常事件的關(guān)鍵特征設(shè)置診斷條件,此類方法較為依賴對異常事件及其影響的先驗(yàn)知識. 3)基于劃分思想的方法[15-16],如孤立森林算法利用隨機(jī)超平面切割每個子空間,將落在稀疏區(qū)域內(nèi)的樣本判定為異常;單類支持向量機(jī)通過學(xué)習(xí)機(jī)制構(gòu)建一個能夠圍繞全體正常樣本的幾何支撐域,將之以外的樣本視為異常. 該類方法的建模機(jī)理決定其僅適用于特定結(jié)構(gòu)的數(shù)據(jù)集,且易受到噪音維度或無關(guān)維度的干擾;4)基于距離或密度的方法[17],如局部異常因子(local outlier factor, LOF)算法,通過衡量樣本點(diǎn)與其鄰域內(nèi)其他樣本點(diǎn)的分隔程度來判定異常狀態(tài),在方法效率及擴(kuò)展性能上具有優(yōu)勢,但當(dāng)樣本集內(nèi)簇群分布過于復(fù)雜時,存在靈敏度下降的現(xiàn)象.
本文在綜合考慮數(shù)據(jù)獲取條件與檢測需求的基礎(chǔ)上,提出一種基于DBN和LOF的異常識別方法,實(shí)現(xiàn)以數(shù)據(jù)特征為導(dǎo)向的特征提取與模式劃分,為異常判定提供精細(xì)、可靠的樣本子集,進(jìn)而實(shí)現(xiàn)對異??土鳡顟B(tài)的有效判別.
城市軌道交通作為公共交通系統(tǒng)的重要組成,其客流不僅會受到外部異常因素的影響,自身也處于長期的動態(tài)變化之中. 因此,異常識別應(yīng)建立在充分考慮客流常態(tài)變化的基礎(chǔ)之上,進(jìn)而準(zhǔn)確判定由外部因素引起的異常變化. 以廣州地鐵某站為例,分別選擇工作日、雙休日和節(jié)假日下的客流樣本進(jìn)行對比,如圖1所示.
圖1 某站客流常態(tài)變化
圖1中,該站工作日的晨間通勤高峰強(qiáng)度大、持續(xù)時間短,雙休日與節(jié)假日白天的客流強(qiáng)度相對較高,但節(jié)假日不存在晚高峰現(xiàn)象. 上述客流樣本均應(yīng)視為相應(yīng)場景下的正??土鳡顟B(tài),即異常識別應(yīng)兼容的常態(tài)客流變化. 此外,對于不同車站,在受到節(jié)假日等因素影響時,其客流也會呈現(xiàn)出不同的變化規(guī)律,此類變化也應(yīng)為異常識別方法所兼容.
進(jìn)一步,結(jié)合典型案例分析由外部因素引發(fā)的客流異常變化. 案例1,2017年6月3日、6月17日,廣州國際體育演藝中心舉辦文藝演出活動,晚間散場客流規(guī)模超出預(yù)期,蘿崗站內(nèi)付費(fèi)區(qū)發(fā)生乘客滯留現(xiàn)象;案例2,2017年8月1日、9月12日,廣州天河體育館舉辦大型體育賽事,體育中心站呈現(xiàn)不同強(qiáng)度的夜間高峰. 同時,選擇與案例日期客流規(guī)律相近的正常樣本作為參照,如圖2所示.
在本質(zhì)上,客流異常變化源于各類事件對乘客出行行為的影響,映射到客流層面,表現(xiàn)形式往往復(fù)雜多變,加之各類影響因素對客流的耦合效應(yīng),使得傳統(tǒng)的人工檢測、閾值判別的識別方法難以應(yīng)對復(fù)雜多變的現(xiàn)實(shí)環(huán)境,呈現(xiàn)出較高的誤檢率、漏檢率. 由此,本文引入與客流數(shù)據(jù)特征相適應(yīng)的深度學(xué)習(xí)方法,以提升異常識別的精細(xì)化、智能化水平.
(a)案例1 (b)案例2
圖3為客流異常狀態(tài)識別流程圖. 首先,建立考慮客流時變規(guī)律的滑動時間窗口機(jī)制,以追蹤進(jìn)站客流的動態(tài)變化;其次,基于深度學(xué)習(xí)模型實(shí)現(xiàn)對窗口內(nèi)客流特征的提取與模式識別;然后,依據(jù)模式劃分結(jié)果確定歷史樣本集范圍,根據(jù)所獲取的客流特征對樣本的異常狀態(tài)進(jìn)行量化.
圖3 客流異常狀態(tài)識別流程
滑動時間窗口的長度是影響識別效果的重要因素. 當(dāng)窗口長度較大時,包含充足的采樣信息,但易導(dǎo)致判別滯后;當(dāng)窗口長度較小時,對客流變化的感知更為細(xì)致,但易發(fā)生信息不足條件下的誤判. 因此,窗口長度應(yīng)與客流數(shù)據(jù)的時變規(guī)律相適應(yīng). 由于進(jìn)站客流的變化具有時間關(guān)聯(lián)性,故采用相關(guān)性分析方法挖掘歷史客流的時變規(guī)律,以符合關(guān)聯(lián)性約束的最大時間跨度作為窗口長度. 車站分時進(jìn)站量的自相關(guān)性系數(shù)計(jì)算公式[18]為
(1)
(2)
針對分鐘進(jìn)站量時間序列特征維數(shù)高、分類復(fù)雜度高的特點(diǎn),為提升檢測性能,在異常判定前對樣本進(jìn)行特征提取與模式劃分處理. 采用預(yù)訓(xùn)練和微調(diào)相結(jié)合的訓(xùn)練機(jī)制,構(gòu)建如圖4所示的DBN模型.
圖4 DBN結(jié)構(gòu)示意圖
DBN模型自文獻(xiàn)[19]提出后廣泛用于模式識別領(lǐng)域. 具體地,DBN由受限玻爾茲曼機(jī)(restricted boltzmann machine, RBM)堆疊而成,RBM包含可視層V和隱含層H,層間采用全連接形式,層內(nèi)無連接. 定義V層包含M個節(jié)點(diǎn),即V=(v1,v2,...,vm),H層包含N個節(jié)點(diǎn),即H=(h1,h2,...,hn). 對于一組給定狀態(tài)的(v,h),RBM的能量為
(3)
在給定可視層節(jié)點(diǎn)狀態(tài)時,隱含層節(jié)點(diǎn)hn的激活概率可表示為
(4)
同理,在給定隱含層節(jié)點(diǎn)狀態(tài)時,可視層節(jié)點(diǎn)vm的激活概率為
(5)
采用對比散度(k-step contrastive divergence)算法進(jìn)行參數(shù)訓(xùn)練[20],權(quán)值與偏置的更新規(guī)則為
(6)
(7)
(8)
頂端BP層作為一種有監(jiān)督的分類器,根據(jù)預(yù)訓(xùn)練獲取的隱含特征對樣本進(jìn)行類別劃分,并通過誤差反向傳播微調(diào)DBN網(wǎng)絡(luò)參數(shù). 定義樣本z于參數(shù)θ條件下的輸出為f(z,θ),類別y∈{1,...,i,...,C},預(yù)測結(jié)果屬于第i類的條件概率為
(9)
將fy(z,θ)視為真實(shí)類別y的似然函數(shù),通過極大似然估計(jì)確定參數(shù). 具體地,以最小化負(fù)的對數(shù)似然方法來確定參數(shù),即交叉熵?fù)p失函數(shù)為
L[y,f(z,θ)]=-lnfy(z,θ).
(10)
以獨(dú)熱編碼向量y表示目標(biāo)類別c,yi表示真實(shí)類別的分布,即僅存在yc=1,其余向量元素均取0,損失函數(shù)可表示為
(11)
如前述客流長期處于動態(tài)變化之中,不存在絕對標(biāo)準(zhǔn)的正常樣本,故根據(jù)樣本間的相對分布界定異常狀態(tài). 因此,在獲得DBN模型輸出的樣本特征和模式劃分結(jié)果后,將待檢樣本與相同模式的歷史樣本映射至多維特征空間,以樣本的特征向量為依據(jù),進(jìn)行如下基于密度的異常判定[17].
對于特征空間Φ中的任一客流樣本p,定義k鄰近距離dk(p)為p與距離p第k遠(yuǎn)的樣本q間的歐式距離d(p,q),則q至少存在k個樣本x,x∈Φ且x≠p,滿足d(p,x)≤d(p,q);且存在至多k-1個樣本不滿足該條件. 基于此,定義p的第k距離鄰域Fk(p)為到p距離在dk(p)以內(nèi)的全部樣本,即
Fk(p)={x|d(p,x)≤dk(p)}.
(12)
(13)
(14)
由此可得樣本p的LOF值χk(p)的計(jì)算方法,計(jì)算公式為
(15)
由式(15)可知,χk(p)為樣本p鄰域樣本的局部可達(dá)密度與自身局部可達(dá)密度比的均值. 當(dāng)一組樣本的特征向量相等時,χk(p)=1;當(dāng)χk(p)的取值越大于1,說明樣本p的密度越小于其鄰域樣本密度,即p為異常的可能性越大.
以2018年3月份至6月份廣州地鐵早高峰(7:00—9:00)的分鐘進(jìn)站量數(shù)據(jù)為實(shí)驗(yàn)對象. 在前3個月內(nèi),采集5 000條樣本構(gòu)成訓(xùn)練集,用于標(biāo)定模型參數(shù);在最后1個月內(nèi),采集1 000條樣本構(gòu)成測試集,用于檢驗(yàn)?zāi)P途? 經(jīng)歸一化處理,限制樣本振幅于[0,1],即實(shí)驗(yàn)所用的分鐘進(jìn)站量時間序列樣本.
綜合考慮采樣時段客流特性、分類命中率以及異常識別準(zhǔn)確率等因素,結(jié)合實(shí)驗(yàn)測試結(jié)果,建立樣本標(biāo)簽體系見表1,從客流的波動特性和變化趨勢兩個方面描述樣本的形態(tài)特征,并采用數(shù)值規(guī)則與人工判別相結(jié)合的方式對樣本集進(jìn)行標(biāo)注.
表1 樣本標(biāo)簽描述
經(jīng)實(shí)驗(yàn)測試,確定DBN模型參數(shù)如下:節(jié)點(diǎn)結(jié)構(gòu)為{60-30-20-20-15-8},批訓(xùn)練的塊大小取100,學(xué)習(xí)率取0.05,迭代輪次取120. 為評價模式劃分效果,定義混淆矩陣H,其元素hij表示屬于i類樣本被劃分到j(luò)類的數(shù)目,總體精度η表達(dá)式[21]為
(16)
經(jīng)統(tǒng)計(jì),表2為測試樣本集的模式劃分結(jié)果. 此外,對比傳統(tǒng)反向傳播神經(jīng)網(wǎng)絡(luò)以及二、三、四隱含層DBN的模式劃分效果,取得的整體精度分別為83.1%,63.7%,92.5%和87.6%. 可見,三隱含層DBN的表現(xiàn)較優(yōu),也表明該模型能夠在降低樣本數(shù)據(jù)維度的同時,有效提取客流特征,為異常判定匹配合理的參考樣本.
表2 測試集分類混淆矩陣
為全面檢驗(yàn)異常識別方法的有效性,在測試集中正常樣本的基礎(chǔ)上,引入不同的干擾策略以模擬典型的客流異常狀態(tài),規(guī)則見表3. 為直觀展示異常識別過程,以測試集中的一組樣本為例,按分鐘進(jìn)站量同步計(jì)算LOF值的變化情況,如圖5所示.
表3 測試集異常樣本模擬干擾策略
(a)策略Ⅱ、策略Ⅲ
(b)策略Ⅳ、策略Ⅴ
利用策略Ⅰ下的測試集測試此方法的誤檢率,利用策略Ⅱ、Ⅲ、Ⅳ和Ⅴ下的測試集測試此方法的準(zhǔn)確率. 以訓(xùn)練集中97%可靠度下的LOF值控制限為標(biāo)準(zhǔn),取反應(yīng)時間為5 min. 具體地,對于策略Ⅰ,若任意連續(xù)5 min內(nèi)LOF均值超出控制限,則認(rèn)為發(fā)生誤判;對于策略Ⅱ、Ⅲ、Ⅳ和Ⅴ,若干擾引入后5 min內(nèi)LOF均值達(dá)到控制限,則認(rèn)為識別準(zhǔn)確. 測試集異常識別結(jié)果見表4.
可見,識別效果與異常狀態(tài)的形式和程度相關(guān),且受到合格條件中反應(yīng)時效要求的影響. 整體上,該方法的平均誤檢率為3.98%,對于4類策略下異常樣本的平均識別準(zhǔn)確率分別為87.53%、91.74%、92.07%和96.17%,能夠在保證較低誤檢率的情況下,實(shí)現(xiàn)對各類異常狀態(tài)的準(zhǔn)確識別.
表4 測試集異常識別結(jié)果
1)通過分析分時進(jìn)站量時間序列的自相關(guān)性,建立了與客流時變特性相適應(yīng)的滑動時間窗口機(jī)制,確定最佳窗口長度為60 min,為異常狀態(tài)動態(tài)識別奠定了基礎(chǔ).
2)設(shè)計(jì)了解決待檢樣本特征提取與模式劃分的DBN模型,確定了三隱層的模型結(jié)構(gòu),實(shí)現(xiàn)了精確率為92.5%的客流樣本模式劃分,為異常判定提供了精細(xì)化的樣本分類結(jié)果.
3)引入了4類干擾策略模擬客流的異常狀態(tài),通過計(jì)算時間窗口內(nèi)待檢樣本的LOF值,實(shí)現(xiàn)了對各類異常狀態(tài)的靈敏識別,平均準(zhǔn)確率為91.9%,為城軌車站大客流預(yù)警提供了有效的解決方案.