亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于集成學(xué)習(xí)模型的城市軌道交通車載數(shù)據(jù)分析與列車停車誤差預(yù)測(cè)

        2021-04-27 08:26:12張興凱張立鵬王曉玲
        城市軌道交通研究 2021年4期
        關(guān)鍵詞:車載列車基礎(chǔ)

        張興凱 張立鵬 陳 鈺 李 欣 王曉玲

        (1.鄭州地鐵集團(tuán)有限公司運(yùn)營(yíng)分公司,450046,鄭州;2.卡斯柯信號(hào)有限公司,200071,上海;3.華東師范大學(xué)軟件工程學(xué)院,200070,上海 ∥ 第一作者,高級(jí)工程師)

        城市軌道交通數(shù)據(jù)分析有利于更好地提升服務(wù)效果,提高管理效率。在票價(jià)變更實(shí)施之前,可通過數(shù)據(jù)分析來評(píng)估票價(jià)變化可能帶來的影響[1-2];通過數(shù)據(jù)分析為城市軌道交通出行者提供最有效的出行計(jì)劃[3-4];數(shù)據(jù)分析還應(yīng)用在停站跳站方案設(shè)計(jì)[5]、公共交通網(wǎng)絡(luò)設(shè)計(jì)[6]、路線性能評(píng)估[7]和公共交通結(jié)構(gòu)圖設(shè)計(jì)[8]等工作中。目前,對(duì)車載數(shù)據(jù)分析的研究尚屬空白。

        1 車載數(shù)據(jù)分析模型的建立

        1. 1 車載數(shù)據(jù)

        城市軌道交通車載數(shù)據(jù)是列車在運(yùn)行過程中通過各傳感器采集到的、標(biāo)記列車各項(xiàng)指標(biāo)的數(shù)據(jù)集合,是一種典型的大數(shù)據(jù),數(shù)據(jù)量龐大、特征多、數(shù)據(jù)類型豐富。車載數(shù)據(jù)可反映車輪是否發(fā)生打滑、車門狀態(tài)、車輛負(fù)載及坡度等列車當(dāng)前的狀態(tài)。列車停車誤差為列車實(shí)際停車位置和期望位置之間的差值,其實(shí)際表現(xiàn)為列車停穩(wěn)后車門與對(duì)應(yīng)屏蔽門之間距離。該誤差是車載數(shù)據(jù)的最后一個(gè)標(biāo)簽。若列車停車誤差較大,輕則影響乘客乘車體驗(yàn),重則使乘客無法輕松地進(jìn)入客室,此時(shí)列車需要通過重新起動(dòng)及制動(dòng)來調(diào)整停車位置。

        本文進(jìn)行車載數(shù)據(jù)分析的主要目標(biāo)是找到影響列車停車誤差的相關(guān)因素,并通過學(xué)習(xí)模型根據(jù)車載數(shù)據(jù)進(jìn)行停車誤差預(yù)測(cè)。將除列車停車誤差之外的所有列車狀態(tài)值作為自變量X(向量),將停車誤差作為因變量y,則可將停車誤差預(yù)測(cè)問題轉(zhuǎn)化為一組自變量對(duì)因變量的影響。又因y為連續(xù)變量,若假設(shè)共有m個(gè)自變量,則可將該停車誤差問題表示為回歸問題。LR(邏輯回歸)、SVR(支持向量回歸)等眾多基礎(chǔ)的機(jī)器學(xué)習(xí)算法都可解決回歸問題,并且在解決簡(jiǎn)單的回歸問題或某些特定領(lǐng)域的問題中取得很好的效果。然而,經(jīng)試驗(yàn)發(fā)現(xiàn),在面對(duì)特征維度較高、特征較為復(fù)雜的車載數(shù)據(jù)時(shí),單個(gè)算法很難取得令人滿意的結(jié)果。

        1.2 集成學(xué)習(xí)模型思路

        集成學(xué)習(xí)算法為通過組合多種學(xué)習(xí)算法,進(jìn)而得到比單一算法預(yù)測(cè)性能更好的算法。其潛在的思想是:即使集成學(xué)習(xí)算法中的某個(gè)學(xué)習(xí)算法得出了錯(cuò)誤的預(yù)測(cè),其他學(xué)習(xí)算法也可以通過最終結(jié)果的集成來糾正錯(cuò)誤。集成學(xué)習(xí)的策略主要有Bagging、Boosting及Stacking等3種。Bagging策略主要基于重復(fù)采樣思想,在采樣一定次數(shù)之后計(jì)算統(tǒng)計(jì)量的置信區(qū)間,其主要代表算法模型為隨機(jī)森林(Random Forest)。Boosting策略主要基于減小監(jiān)督學(xué)習(xí)中的偏差思想,經(jīng)過訓(xùn)練得到一系列弱學(xué)習(xí)器,并將其組合為1個(gè)強(qiáng)學(xué)習(xí)器。Stacking策略主要是訓(xùn)練1個(gè)模型用于組合其他模型:先訓(xùn)練多個(gè)不同的模型,再把各訓(xùn)練模型的輸出為輸入來訓(xùn)練1個(gè)新模型,以得到最終的輸出。Stacking策略在理論上可表示上述兩種集成學(xué)習(xí)策略,且其設(shè)計(jì)方法更靈活,可根據(jù)實(shí)際場(chǎng)景設(shè)計(jì)合適的集成模型。

        基于Stacking策略的集成學(xué)習(xí)算法集各基礎(chǔ)算法的優(yōu)點(diǎn)于一身,且最終能給出一個(gè)用于實(shí)行的完整算法,并因此受到了學(xué)術(shù)界和業(yè)界的普遍關(guān)注。按實(shí)行階段,基于Stacking策略的集成學(xué)習(xí)算法可分為基礎(chǔ)模型算法評(píng)估階段和基礎(chǔ)模型算法集成階段?;A(chǔ)模型評(píng)估階段通常要衡量基礎(chǔ)模型的準(zhǔn)確度。在基礎(chǔ)模型集成階段,對(duì)于分類問題,通常采取基礎(chǔ)模型投票表決的方式,以票數(shù)最多的類別為樣本數(shù)據(jù)的最終類別;對(duì)于回歸問題,多采用基礎(chǔ)模型加權(quán)平均法計(jì)算,從而得到樣本數(shù)據(jù)的標(biāo)簽值。

        在基礎(chǔ)模型的評(píng)估中,除了基礎(chǔ)模型的準(zhǔn)確度之外,基礎(chǔ)模型之間的差異性也應(yīng)作為基礎(chǔ)模型的評(píng)估標(biāo)準(zhǔn)。如果2個(gè)基礎(chǔ)模型的相似度非常高,甚至完全一樣,那么這兩個(gè)基礎(chǔ)模型的集成結(jié)果不會(huì)高于其中任意一個(gè)基礎(chǔ)模型的結(jié)果。因此,基礎(chǔ)模型之間的差異性越大,越能從差異的個(gè)體基礎(chǔ)模型之間尋找到可以優(yōu)化提升的地方。

        在基礎(chǔ)模型集成過程中,僅僅依靠簡(jiǎn)單的加權(quán)平均并不能讓準(zhǔn)確度高的基礎(chǔ)模型發(fā)揮較大的作用。有必要設(shè)計(jì)相關(guān)的模型集成算法,使得精確度較高的基礎(chǔ)模型可獲得較高的權(quán)重,對(duì)最終的集成結(jié)果貢獻(xiàn)更大。

        2 基于Stacking策略的集成學(xué)習(xí)模型

        2.1 基礎(chǔ)模型算法評(píng)估階段

        2.1.1 基礎(chǔ)模型算法的評(píng)估內(nèi)容

        基礎(chǔ)模型算法的評(píng)估內(nèi)容主要包括準(zhǔn)確度評(píng)估和差異度評(píng)估。列車停車誤差y是一個(gè)連續(xù)型變量,也就是一個(gè)回歸問題?;貧w問題的模型準(zhǔn)確度主要是基于均方誤差EMS進(jìn)行衡量的。其計(jì)算式為:

        1)

        式中:

        N——包含列車停車誤差的車載數(shù)據(jù)記錄數(shù)量;

        yi——車載數(shù)據(jù)記錄中的第i條真實(shí)停車誤差值,i=1,2,…,N;

        f(xi)——基礎(chǔ)模型根據(jù)第i條車載數(shù)據(jù)預(yù)測(cè)的停車誤差值。

        式(1)反映了預(yù)測(cè)值與真實(shí)值之間的誤差。EMS的值越小,表示模型的準(zhǔn)確度越高。

        差異度評(píng)估主要采用ICC(組內(nèi)相關(guān)系數(shù))作為衡量指標(biāo)。ICC是衡量和評(píng)價(jià)觀察者間信度和復(fù)測(cè)信度的信度系數(shù)指標(biāo)。將2個(gè)基礎(chǔ)模型視作2位觀察者,則在同一批包含N條車載數(shù)據(jù)的數(shù)據(jù)集上,ICC的值r為:

        2)

        式中:

        f1(xi)——觀察者1對(duì)第i條車載數(shù)據(jù)的停車誤差的預(yù)測(cè);

        f2(xi)——觀察者2對(duì)第i條車載數(shù)據(jù)的停車誤差的預(yù)測(cè);

        r值越大,則表明組內(nèi)觀察者之間的相似度越高。因此,可用1-r來衡量組內(nèi)各個(gè)模型之間的不相似性。在保證模型精確度的前提下,為了盡量使得組內(nèi)的基礎(chǔ)模型不相似,1-r的值越高越好。

        2.1.2 基礎(chǔ)模型的篩選

        基于基礎(chǔ)模型的精確度和差異性,篩選了K個(gè)基礎(chǔ)模型,再之后集成為最終模型。集成模型的質(zhì)量為:

        (1-α)[1-rC(R1,R2,…,RK)]

        3)

        式中:

        α——超參數(shù),用來衡量模型在準(zhǔn)確度和差異性之間的選擇度,取值范圍為[0,1]。通常來說,α應(yīng)該設(shè)置為一個(gè)較大的數(shù),畢竟集成模型最終的目的是提高模型的準(zhǔn)確度。

        Rj——表示第j個(gè)模型,j=1,2,…,K;

        rC(R1,R2,…,RK)——各基礎(chǔ)模型之間的相似度;則1-rC(R1,R2,…,RK)反映各基礎(chǔ)模型之間的不相似性。

        為確定K值,在車載數(shù)據(jù)分析預(yù)測(cè)的場(chǎng)景中,假設(shè)篩選出的每個(gè)基礎(chǔ)模型都只有1個(gè)輸出(即對(duì)停車誤差的預(yù)測(cè)),則每個(gè)基礎(chǔ)模型都可以形式化為函數(shù)f:Rm→R,其中m表示車載數(shù)據(jù)的特征維數(shù)。例如:在1條列車停車車載記錄中,包含了m維特征,用于表征車輪是否打滑、車門狀態(tài)、車輛旁路信息及車輛負(fù)載等列車當(dāng)前狀態(tài);每條車載數(shù)據(jù)都包含m維特征及1個(gè)標(biāo)簽數(shù)據(jù)y(停車誤差)。表1為車載數(shù)據(jù)具體格式示例。

        表1 車載數(shù)據(jù)示例(部分)

        表1中,每一列都表示每一條車載數(shù)據(jù)在該特征上的取值,所有特征都可以看做是模型的輸入值X。X是包含N行m維車載數(shù)據(jù)的向量,表示為X∈Rm。假設(shè)車載數(shù)據(jù)服從p(X)分布,且這N條數(shù)據(jù)都是從p(X)分布中采樣出來的,則列車真實(shí)的停車誤差可表示為y(X)。假設(shè)第j個(gè)基礎(chǔ)模型對(duì)X的預(yù)測(cè)結(jié)果表示為fj(X),則K個(gè)基礎(chǔ)模型集成后的模型f(X)可表示為:

        4)

        式中:

        ωj——第j個(gè)基礎(chǔ)模型的權(quán)重。

        那么第j個(gè)基學(xué)習(xí)器及集成模型在當(dāng)前X上的誤差可以分別表示為:

        5)

        那么第j個(gè)基學(xué)習(xí)器及集成后的集成模型在數(shù)據(jù)分布p(X)上的誤差可以分別表示為:

        6)

        那么第j個(gè)基學(xué)習(xí)器及第l個(gè)(l=1,2,…,K)基學(xué)習(xí)器在數(shù)據(jù)分布p(X)上的相關(guān)性可以表示為:

        7)

        可以很容易看出來Cjl=Clj,且Cjj=Ej??梢詮氖?4)及式(5)中得到:

        8)

        由式(6)~(8)可得:

        9)

        如果假設(shè)所有基礎(chǔ)模型在集成階段都有相同的重要性,即所有基礎(chǔ)模型的權(quán)重都一樣,則式(9)可表示為:

        10)

        如假設(shè)第k個(gè)基礎(chǔ)模型被從候選基礎(chǔ)模型中剔除,用數(shù)學(xué)符號(hào)表示取k的補(bǔ)集,則式(10)可以表示為:

        11)

        由式(10)及式(11)明顯可見,E比E大。由此可得,基礎(chǔ)模型篩選基本條件為:

        12)

        如果滿足式(12),則意味著對(duì)最終集成的模型而言,包含第k個(gè)基礎(chǔ)模型比沒有包含第k個(gè)基礎(chǔ)模型效果差。此時(shí),應(yīng)將第k個(gè)基礎(chǔ)模型剔除出候選集。綜合考慮式(10)及式(12),可以得到如下約束:

        13)

        基于式(13)可對(duì)于每個(gè)基礎(chǔ)模型做出判斷,將不符合的基礎(chǔ)模型直接剔除出候選集。

        2.2 基礎(chǔ)模型算法集成階段

        14)

        本文使用留一法來確定基礎(chǔ)模型的權(quán)重。對(duì)一個(gè)基礎(chǔ)模型而言,留一法通過對(duì)包含N條數(shù)據(jù)的整個(gè)數(shù)據(jù)集進(jìn)行N次訓(xùn)練和預(yù)測(cè)來確定權(quán)重:第1次,使用2~N條數(shù)據(jù)對(duì)基礎(chǔ)模型進(jìn)行訓(xùn)練,并使用第1條數(shù)據(jù)作為測(cè)試集;第2次,使用除了第2條數(shù)據(jù)之外的所有數(shù)據(jù)進(jìn)行模型訓(xùn)練,并使用第2條數(shù)據(jù)作為測(cè)試集;如此繼續(xù),直至第N次,使用除了第N條數(shù)據(jù)之外的所有數(shù)據(jù)進(jìn)行模型訓(xùn)練,并使用第N條數(shù)據(jù)作為測(cè)試集。

        15)

        留一法交叉驗(yàn)證的標(biāo)準(zhǔn)是使用殘差平方和來計(jì)算的:

        Vcr(ω)=(y-η)-1(y-η)=

        對(duì)目標(biāo)函數(shù)求解,當(dāng)Vcr(ω)取最小值時(shí),ω的取值為最優(yōu)解。即最終每個(gè)基礎(chǔ)模型的權(quán)重為:

        16)

        式中:

        QN——整個(gè)權(quán)重的搜索空間,可表示為QN={ω∈[0,1]K,0≤ωk≤1}。

        經(jīng)過基礎(chǔ)模型評(píng)估階段及基礎(chǔ)模型集成階段,可成功選出K個(gè)基礎(chǔ)模型,進(jìn)而基于模型集成策略完成模型的集成工作,完成集成模型的創(chuàng)建。

        3 集成模型算法的評(píng)估

        為了驗(yàn)證基于Stacking策略的集成學(xué)習(xí)模型算法的效果,本文以鄭州地鐵5號(hào)線為例進(jìn)行驗(yàn)證。從鄭州地鐵5號(hào)線的車載數(shù)據(jù)中解析出約10 000條列車停車數(shù)據(jù)相關(guān)記錄,其每條數(shù)據(jù)都包含180維特征及列車停車誤差標(biāo)簽。在研究開始前,對(duì)車載數(shù)據(jù)的特征進(jìn)行處理,清理出一些靜態(tài)特征數(shù)據(jù),并對(duì)相關(guān)度極高的特征數(shù)據(jù)進(jìn)行刪減合并等,最終保留了75維特征。本研究在試驗(yàn)中用到的基礎(chǔ)模型都來自于sklearn包(Scikit-Learn機(jī)器學(xué)習(xí)開源工具包)。

        本文從Sklearn包中挑選出20個(gè)最常使用的基礎(chǔ)模型作為候選模型庫(kù)。這20個(gè)基礎(chǔ)模型根據(jù)鄭州地鐵5號(hào)線車載數(shù)據(jù)得到的停車誤差預(yù)測(cè)值(如表2所示),分別按均方誤差EMS和模型擬合度(Adjusted R-squared)來進(jìn)行衡量。模型擬合度是一個(gè)比例式,比例區(qū)間為[0,1],越接近1,表示模型擬合度越高。由表2可以看出,模型之間優(yōu)劣性是很明顯的。總的來說,Decision TreeRegressor模型等基于決策樹的模型表現(xiàn)都優(yōu)于其他模型。這可能是因?yàn)榈罔F車載數(shù)據(jù)中存在較多離散的特征,非常適合采用決策樹做節(jié)點(diǎn)的分裂。

        表2 基礎(chǔ)模型的評(píng)估結(jié)果

        表3為多回歸器集成學(xué)習(xí)模型與各基礎(chǔ)模型的預(yù)測(cè)結(jié)果對(duì)比。由表3可以看出,多回歸器集成學(xué)習(xí)模型的預(yù)測(cè)準(zhǔn)確度有了極大的提高。

        表4為基于Stacking策略的集成學(xué)習(xí)算法模型與其他集成模型的預(yù)測(cè)結(jié)果對(duì)比。由表4可以看出,基于Stacking策略的集成學(xué)習(xí)算法模型的效率最優(yōu)。

        表4 基于Stacking策略的集成學(xué)習(xí)算法模型與其他集成模型的預(yù)測(cè)結(jié)果對(duì)比

        表5展示的是部分預(yù)測(cè)和實(shí)際數(shù)據(jù)的對(duì)比結(jié)果。由表5可以看出,模型預(yù)測(cè)數(shù)據(jù)與真實(shí)數(shù)據(jù)非常接近,具備非常好的精度。

        表5 鄭州地鐵5號(hào)線停車誤差的真實(shí)值與預(yù)測(cè)值對(duì)比

        4 結(jié)語

        本文提出了一種基于Stacking策略的集成學(xué)習(xí)模型算法。通過基礎(chǔ)模型算法評(píng)估階段和基礎(chǔ)模型算法集成階段,成功選出K個(gè)基礎(chǔ)模型,并基于模型集成策略完成了模型的集成工作,最終得到了基于Stacking策略的集成預(yù)測(cè)模型。基于實(shí)際案例,使用該集成模型對(duì)列車停車誤差進(jìn)行預(yù)測(cè),并對(duì)預(yù)測(cè)結(jié)果進(jìn)行驗(yàn)證。驗(yàn)證結(jié)果顯示,基于Stacking策略的集成學(xué)習(xí)算法模型的訓(xùn)練效率高、預(yù)測(cè)精度高,與其他傳統(tǒng)模型相比具有較強(qiáng)優(yōu)勢(shì)。

        猜你喜歡
        車載列車基礎(chǔ)
        “不等式”基礎(chǔ)鞏固
        “整式”基礎(chǔ)鞏固
        登上末日列車
        關(guān)愛向列車下延伸
        高速磁浮車載運(yùn)行控制系統(tǒng)綜述
        穿越時(shí)空的列車
        “防”“治”并舉 筑牢基礎(chǔ)
        智能互聯(lián)勢(shì)不可擋 車載存儲(chǔ)需求爆發(fā)
        基于ZVS-PWM的車載隔離DC-DC的研究
        西去的列車
        欧美牲交a欧美牲交aⅴ| 青青草视频国产在线观看| 亚洲av无吗国产精品| 蜜臀久久99精品久久久久久| 欧美极品色午夜在线视频| 成人激情四射网| 蜜臀av一区二区三区精品 | 少妇高潮尖叫黑人激情在线| 久久中文字幕无码一区二区| 国产麻豆成人精品av| 亚洲在线视频免费视频| 亚洲成av人在线观看天堂无码 | 粉嫩小泬无遮挡久久久久久| 久久99国产综合精品女同| 91热久久免费频精品99| 久久亚洲av成人无码电影| 国产精品无码av天天爽| 欧美成人精品三级在线观看| 日韩一区二区中文字幕| 久久国产精品一国产精品金尊| 亚洲av日韩av高潮潮喷无码 | 国产视频不卡在线| 少妇又骚又多水的视频| 51看片免费视频在观看| 中文字幕欧美一区| 有码中文字幕一区二区| 视频在线观看一区二区三区| 香蕉免费一区二区三区| 中文字幕+乱码+中文字幕无忧| 免费观看视频在线播放| 加勒比av在线一区二区| 成人网站在线进入爽爽爽| 日韩精品无码久久久久久| 国产高清亚洲精品视频| 亚洲一区二区三区成人网| 宅男66lu国产在线观看| 在线视频一区色| 蜜桃视频高清在线观看| 欧美白人战黑吊| 色一情一区二| 在线一区二区三区视频观看|