亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于屬性相關(guān)分析與聚類的鐵路列車時刻表非均衡數(shù)據(jù)集預(yù)處理方法

        2021-11-05 13:28:50孔德越周姍琪朱建生閆力斌
        鐵路計算機應(yīng)用 2021年10期

        孔德越,周姍琪,朱建生,閆力斌,吳 穎

        (1. 中國鐵道科學(xué)研究院集團有限公司 電子計算技術(shù)研究所,北京 100081;2. 中國國家鐵路集團有限公司,北京 100844)

        隨著鐵路客運市場化改革的 不斷深化,高速鐵路動態(tài)列車開行方案、“一日一圖”等鐵路客運精細化管理策略正在逐步實施[1],列車運行圖調(diào)整(簡稱:調(diào)圖)日趨頻繁。調(diào)圖時,不同車次時刻表的變動頻率和屬性調(diào)整范圍不盡相同,部分車次時刻表調(diào)整頻率極低,但調(diào)整幅度大,甚至?xí)淖冮_行區(qū)間;部分車次時刻表逐周、逐月調(diào)整,但每次僅對某一屬性進行小幅微調(diào)[2]。對列車時刻表數(shù)據(jù)進行挖掘分析時,會面臨非均衡數(shù)據(jù)集問題,即數(shù)據(jù)集中不同車次的時刻表數(shù)據(jù)樣本量差別較大,不同時期運行圖中同一車次的時刻表數(shù)據(jù)樣本的屬性差異不大。通常,非均衡數(shù)據(jù)集會對數(shù)據(jù)分析模型的適用性和準(zhǔn)確度產(chǎn)生不利影響,在選擇數(shù)據(jù)分析模型時存在較大局限。因此,解決數(shù)據(jù)集不均衡問題是高效、準(zhǔn)確地提取列車時刻表數(shù)據(jù)所蘊含信息的關(guān)鍵[3]。

        在實際數(shù)據(jù)分析工作中,為解決非均衡數(shù)據(jù)集問題,通常需要進行數(shù)據(jù)預(yù)處理。常用的數(shù)據(jù)預(yù)處理方法有重采樣算法和懲罰模型算法,這2類算法各有利弊。重采樣算法是解決非均衡數(shù)據(jù)集最通用的一類方法,近年來學(xué)術(shù)界提出合成數(shù)據(jù)采樣、聚類采樣以及集成采樣等多種具體算法,其中最常用的是SMOTE算法[4-5]。重采樣算法根據(jù)需要從原數(shù)據(jù)集中隨機選擇數(shù)據(jù)樣本,生成新的均勻數(shù)據(jù)集,常用于音頻、圖像數(shù)據(jù)處理,其缺點是:新數(shù)據(jù)集與原數(shù)據(jù)集存在一定差異,且隨機性較大,采樣結(jié)果不可重現(xiàn),影響后續(xù)數(shù)據(jù)分析中模型的應(yīng)用效果[6-7]。懲罰模型算法是在分類模型的損失函數(shù)中引入懲罰項,通過合理分配錯誤分類樣本的懲罰系數(shù),對樣本中數(shù)量多、屬性值差異小的類別分配更低的誤分類懲罰系數(shù),以降低其影響[8];這類方法多應(yīng)用于樣本中分類不均衡的場合[9-10],但對于類別較多的數(shù)據(jù)集,采用懲罰模型算法會出現(xiàn)數(shù)據(jù)集權(quán)重分配規(guī)則計算量大、算法復(fù)雜、且懲罰權(quán)重選擇較為困難等問題。因此,這2類算法無法有效處理列車時刻表非均衡數(shù)據(jù)集問題。

        本文研究提出一種基于屬性相關(guān)分析與聚類的非均衡列車時刻表數(shù)據(jù)集預(yù)處理方法,可有效合并相似數(shù)據(jù),降低數(shù)據(jù)集中此類相似數(shù)據(jù)的占比,削弱非均衡數(shù)據(jù)集對后續(xù)數(shù)據(jù)分析的不利影響,并能保留數(shù)據(jù)所蘊含的主要信息,是一種行之有效的數(shù)據(jù)預(yù)處理方法。

        1 列車時刻表屬性相關(guān)分析

        1.1 列車時刻表數(shù)據(jù)集特征

        目前,在我國鐵路運輸生產(chǎn)中,調(diào)圖是一項經(jīng)常性工作。每次調(diào)圖時,會對列車時刻表的始發(fā)時間、停站方案、運行編組等屬性進行調(diào)整[11-12]。由于不同車次的時刻表調(diào)整頻率不同,一段時期內(nèi)不同車次的時刻表數(shù)據(jù)記錄的數(shù)量存在較大差異,形成不均衡的列車時刻表數(shù)據(jù)集;不同車次時刻表調(diào)整幅度不盡相同,調(diào)整較大的會對列車運營造成較大影響,而有的車次僅只微調(diào)時刻表的某個特定屬性,調(diào)圖前后的列車運營情況基本一致,可將這些車次調(diào)圖前后的時刻表數(shù)據(jù)記錄視作重復(fù)數(shù)據(jù)樣本。

        為此,在對列車時刻表數(shù)據(jù)進行預(yù)處理時,判斷是否合并樣本數(shù)據(jù),主要考察屬性值變化是否對列車運營產(chǎn)生顯著影響:對于不顯著影響列車運營的時刻表調(diào)整,視為列車時刻表記錄的屬性值無顯著變化,故將調(diào)圖前后的數(shù)據(jù)記錄合并后生成一條新的記錄,原記錄中相同的屬性值保留在合并后的新記錄中,而不同的屬性值則經(jīng)同化處理得到新記錄對應(yīng)的屬性值;對于調(diào)圖后列車運營情況發(fā)生顯著變化的車次,該車次調(diào)圖前后的時刻表記錄全部保留,視為不同的數(shù)據(jù)。

        1.2 列車時刻表屬性與列車運營指標(biāo)的相關(guān)分析

        列車時刻表調(diào)整涉及的主要屬性包括:列車始發(fā)/終到時間、停站個數(shù)、開行區(qū)間等。列車運營通常采用旅客發(fā)送量、旅客周轉(zhuǎn)量、列車客票收入及客座率等指標(biāo)進行評價,本文選用客座率作為被解釋變量[13-14]。

        鑒于普速列車與高速鐵路動車組列車是不同性質(zhì)的客運產(chǎn)品,需分別分析兩類列車時刻表屬性調(diào)整對列車運營的影響。使用歷史上幾次大規(guī)模調(diào)圖前后的列車運營數(shù)據(jù),對調(diào)圖前后兩類列車的客座率變化與列車時刻表屬性變化進行相關(guān)分析。

        1.2.1 未調(diào)整時刻表的列車

        未調(diào)整時刻表的列車總樣本數(shù)共計4 031條,采用單因素方差分析法(one-way ANOVA),分析調(diào)圖日前后這些列車的客座率是否發(fā)生顯著變化,檢驗結(jié)果如表1所示。表中:SS表示離均差平方和,df表示組間自由度,MS表示均方差,F(xiàn)表示F檢驗的檢驗值,P- value表示F檢驗的結(jié)果值,即出現(xiàn)F值的概率,其小于0.05時可以認為兩組數(shù)據(jù)相同的可能性較小,存在顯著差異,F(xiàn) crit表示結(jié)果顯著時F值的臨界值。故結(jié)果顯示,調(diào)圖后未調(diào)整開行計劃的列車客座率降低0.2%,方差分析P=0.986>0.05,由此表明:在觀察期內(nèi),未調(diào)整時刻表的列車客座率沒有顯著變化。

        表1 調(diào)圖前后單因素方差分析結(jié)果

        1.2.2 僅調(diào)整始發(fā)時間的列車

        對于列車時刻表數(shù)據(jù)集中僅調(diào)整始發(fā)時間的列車,按始發(fā)時間調(diào)整幅度劃分為7組,分別對列車始發(fā)時間調(diào)整時長與列車客座率變化進行相關(guān)性分析,如圖1所示。

        圖1 調(diào)圖前后列車始發(fā)時間調(diào)整與列車客座率變化的相關(guān)分析結(jié)果

        由圖1可知:(1)動車組列車始發(fā)時間調(diào)整在30 min以內(nèi),對列車客座率變化無顯著影響;列車始發(fā)時間調(diào)整在30 min以上,對列車客座率變化有顯著影響;(2)普速列車始發(fā)時間調(diào)整在60 min以內(nèi),對列車客座率變化無顯著影響;列車始發(fā)時間調(diào)整在60 min以上,對列車客座率變化有顯著影響。

        1.2.3 調(diào)整停站個數(shù)的列車

        對于列車時刻表數(shù)據(jù)集中開行區(qū)間(即列車始發(fā)站與終到站)不變、始發(fā)時間不變、僅調(diào)整停站個數(shù)列車,分別對動車組列車與普速列車調(diào)圖前后列車客座率進行單因素方差分析,其結(jié)果如表2和表3所示。

        表2 動車組列車停站個數(shù)調(diào)整后客座率變化單因素方差分析結(jié)果

        表3 普速列車停站個數(shù)增加1站客座率變化單因素方差分析結(jié)果

        (1)對于動車組列車,當(dāng)開行區(qū)間不變時,不論停站個數(shù)如何調(diào)整,其客座率均不會發(fā)生顯著變化(P=0.559>0.05,不顯著),即停站個數(shù)調(diào)整對客座率無顯著影響;

        (2)對于普速列車,當(dāng)開行區(qū)間不變時,即使僅增加1個停站,其客座率也會發(fā)生顯著變化(P=0.047<0.05,顯著),即停站個數(shù)調(diào)整對客座率變化有顯著影響。

        2 列車時刻表數(shù)據(jù)聚類(合并處理)

        由1.2小節(jié)的列車時刻表屬性相關(guān)分析可知:

        (1)對于動車組列車,其它屬性不變時,如果始發(fā)時間調(diào)整在30 min以內(nèi)的列車時刻表樣本數(shù)據(jù)可以進行合并處理;僅停站個數(shù)調(diào)整的,也可以進行合并處理;

        (2)對于普速列車,其它屬性不變時,始發(fā)時間調(diào)整在90 min以內(nèi)的時刻表樣本數(shù)據(jù)可以進行合并處理;停站個數(shù)有調(diào)整的,不能進行合并處理;

        (3)當(dāng)動車組列車或普速列車的開行區(qū)間發(fā)生變化時,客運產(chǎn)品的實質(zhì)已發(fā)生變化,不能進行合并處理。

        以某普速列車Z(X)為例,假設(shè)某一年度內(nèi)Z(X)次列車共有4條時刻表數(shù)據(jù)記錄,編號分別為A、B、C、D,如表4所示。其中,記錄A與記錄B的基礎(chǔ)屬性相同,記錄C與記錄D的基礎(chǔ)屬性中僅始發(fā)時間相距1 min,其它屬性值相同,記錄A、B與記錄C、D的始發(fā)時間及停站個數(shù)不同。

        表4 普速列車Z(X) 某一年度時刻表原始數(shù)據(jù)

        因此,可將記錄A和B進行合并,以記錄A和B的相同基礎(chǔ)屬性值作為合并后的新記錄A'的基礎(chǔ)屬性值,以記錄A和B的運營結(jié)果之和作為新記錄A'的運營結(jié)果。同理,對記錄C和D也進行合并,以開行天數(shù)更多的記錄D的基礎(chǔ)屬性值作為合并后的新記錄B'的基礎(chǔ)屬性值,以記錄C和D運營結(jié)果之和作為記錄B'的運營結(jié)果,如表5所示。

        表5 普速列車Z(X) 列車時刻表數(shù)據(jù)的預(yù)處理結(jié)果

        由表4和表5可知:對普速列車Z(X)時刻表數(shù)據(jù)進行聚類處理后,普速列車Z(X) 原先的4條數(shù)據(jù)記錄可合并為2條運營結(jié)果不同的數(shù)據(jù)記錄,既消除了屬性值相似數(shù)據(jù)記錄造成的數(shù)據(jù)集重復(fù)問題,又能夠保留屬性值差異對運營結(jié)果的影響特征,可有效提升列車時刻表數(shù)據(jù)質(zhì)量。

        3 一般數(shù)據(jù)集的屬性相關(guān)分析與聚類算法

        對于具有與列車時刻表相同特征的非均衡數(shù)據(jù)集,即不同類別的數(shù)據(jù)記錄數(shù)量差異較大、相同類別的數(shù)據(jù)記錄屬性值相似,可使用基于屬性相關(guān)分析與聚類算法進行預(yù)處理,具體處理流程如下。

        (1)初步清洗數(shù)據(jù)集:糾正明顯的錯誤數(shù)據(jù),如檢查出有異常值或缺失值的數(shù)據(jù)記錄,對其進行修正、填充或?qū)㈠e誤記錄刪除,統(tǒng)一屬性值格式。

        (2)連續(xù)屬性離散化:對數(shù)據(jù)集中所有連續(xù)屬性進行離散化劃分,通過分組分析找出某一屬性引起被解釋變量顯著變化的屬性值差異的最小值;進行屬性離散化劃分時需要根據(jù)數(shù)據(jù)集特征慎重權(quán)衡劃分粒度,如果劃分粒度過大,會導(dǎo)致找出的最小屬性值精度不足,而劃分粒度過小則會導(dǎo)致計算量增大,影響效率。

        (3)確定對被解釋變量產(chǎn)生顯著影響的屬性值差異閾值:采取控制變量法,選取待分析屬性值不同、其它屬性值相似的數(shù)據(jù)記錄,將待分析屬性值離散化分組后,根據(jù)屬性值大小對各組數(shù)據(jù)進行升序排列;對首組數(shù)據(jù)的屬性值與被解釋變量進行相關(guān)性分析,當(dāng)皮爾森相關(guān)性系數(shù)達到0.3時,首組數(shù)據(jù)的屬性值變化對被解釋變量產(chǎn)生顯著影響,此時設(shè)定閾值為0,即該屬性值的任意變化均對被解釋變量有顯著影響;若相關(guān)性系數(shù)小于0.3,則按順序依次選擇首組數(shù)據(jù)與后續(xù)組別數(shù)據(jù),分別進行單因素方差分析;當(dāng)單因素方差分析結(jié)果值P<0.05時,兩組數(shù)據(jù)間的屬性值差異對被解釋變量產(chǎn)生顯著影響,此時設(shè)定閾值為兩組數(shù)據(jù)屬性值下限的差值。

        (4)數(shù)據(jù)集聚類:將其它屬性值相同、單屬性值差異小于(3)中所確定的閾值的數(shù)據(jù)記錄聚類后進行合并,保留共有屬性值,以各記錄非共有屬性值的均值,或選擇其中最重要記錄的屬性值作為該屬性的新屬性值,并將各記錄的被解釋變量按業(yè)務(wù)規(guī)則進行匯總得到新的樣本數(shù)據(jù),新的數(shù)據(jù)樣本包含合并前各樣本數(shù)據(jù)的主要信息。

        4 結(jié)果檢驗與分析

        為驗證基于屬性相關(guān)分析與聚類的數(shù)據(jù)預(yù)處理算法的有效性,采用不同的數(shù)據(jù)預(yù)處理方式生成訓(xùn)練集,再利用相同的分析模型對列車客座率進行預(yù)測,以檢驗不同的數(shù)據(jù)預(yù)處理方式對預(yù)測結(jié)果的影響。

        使用某年度歷次調(diào)圖前后的全部列車時刻表數(shù)據(jù)和列車運營統(tǒng)計數(shù)據(jù)(即客座率)作為訓(xùn)練集,數(shù)據(jù)記錄屬性包括開行區(qū)間、始發(fā)時間、停站個數(shù)、客座率,以次年的數(shù)據(jù)作為測試集。針對訓(xùn)練集的數(shù)據(jù)樣本非均衡性問題,分別采取不處理、重采樣、屬性相關(guān)分析與聚類3種數(shù)據(jù)預(yù)處理方式,生成3組樣本數(shù)據(jù);使用R語言,分別利用這3組樣本數(shù)據(jù)訓(xùn)練K近鄰算法模型(KNN),再用相同的測試集對列車客座率進行預(yù)測,以檢驗該模型的預(yù)測準(zhǔn)確度,對應(yīng)的預(yù)測效果對比如表6所示。

        表6 3種數(shù)據(jù)預(yù)處理方式對應(yīng)的KNN算法模型的預(yù)測效果對比

        由表6可知:未經(jīng)預(yù)處理的原始樣本預(yù)測準(zhǔn)確率最低,為77.9%;重采樣處理后的訓(xùn)練集樣本數(shù)量為2 303條,預(yù)測準(zhǔn)確率為79.3%,能夠有效降低模型計算量,但由于重采樣導(dǎo)致未被采樣記錄所蘊含信息的丟失,限制了預(yù)測準(zhǔn)確度的提升;經(jīng)屬性相關(guān)與聚類算法處理后的訓(xùn)練集樣本數(shù)量為2 511條,預(yù)測準(zhǔn)確率達到81.4%,表明該算法對減輕預(yù)測模型計算量和提升模型準(zhǔn)確度均有良好效果。

        5 結(jié)束語

        針對列車時刻表非均衡數(shù)據(jù)集的特征,研究提出基于屬性相分析與聚類的數(shù)據(jù)預(yù)處理方法,以客座率為被解釋變量,分別對動車組列車和普速列車在調(diào)圖前后的客座率變化與列車時刻表屬性變化進行相關(guān)分析,依據(jù)分析結(jié)果完成列車時刻表數(shù)據(jù)聚類處理;歸納提出一般數(shù)據(jù)集的屬性相關(guān)分析與聚類算法流程,適用于具有相似特征的非均衡數(shù)據(jù)集的數(shù)據(jù)預(yù)處理。經(jīng)分析驗證,此方法可在有效保留原始數(shù)據(jù)集主要信息的前提下,將屬性值相似的數(shù)據(jù)進行合并,提高數(shù)據(jù)集質(zhì)量,有助于減少數(shù)據(jù)分析計算量,降低過多相似數(shù)據(jù)對模型分析效果的影響,為后續(xù)的數(shù)據(jù)分析和挖掘提供有利條件。

        亚洲一码二码在线观看| 久久久无码人妻精品一区| 国产成人无码精品午夜福利a| 国产成人亚洲精品电影| 日韩激情av不卡在线| 麻豆亚洲一区| 又粗又硬又黄又爽的免费视频| 精品国产一区二区三区AV小说| 区三区久久精品水蜜桃av| 国产午夜在线视频观看| 中文字幕天天躁日日躁狠狠躁免费 | 人妻少妇猛烈井进入中文字幕 | 天天综合网在线观看视频| 91av精品视频| 美腿丝袜美腿国产在线| av影院手机在线观看| 亚洲一区二区三区播放| 人妻在线中文字幕| 亚洲一区二区三区资源| 久久婷婷五月综合色高清| 内射少妇36p九色| 欧美在线成人免费国产| 尤物精品国产亚洲亚洲av麻豆 | 亚洲va视频一区二区三区| 最新亚洲人成网站在线观看| 国产爆乳乱码女大生Av| 日本女优爱爱中文字幕| 国产一区二区三区四区三区| 亚洲日韩∨a无码中文字幕| 亚洲中文字幕精品一区二区| 最新日本人妻中文字幕| 亚洲av无码专区首页| 欧美xxxx新一区二区三区| 亚洲精品大全中文字幕| 色视频线观看在线网站| 亚洲精品高清你懂的| 成在人线av无码免观看麻豆| 一区二区三区日本大片| 久久精品国产9久久综合| 国产一精品一av一免费| 亚洲国产精品日韩av专区|