亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于決策樹算法的廣州南至珠海旅客發(fā)送量預(yù)測

        2020-02-02 06:46:44林少毅
        電子技術(shù)與軟件工程 2020年15期
        關(guān)鍵詞:特征模型

        林少毅

        (中國鐵路集團廣州局鐵路集團公司 廣東省廣州市 510000)

        目前,對鐵路客流預(yù)測的研究“汗牛充棟”,不同學(xué)者采用不同的模型方法進行預(yù)測。不同模型算法都有明顯的優(yōu)點也必然存在明顯的局限性,比如:

        (1)以神經(jīng)網(wǎng)絡(luò)模型為代表的深度學(xué)習(xí)算法[1],該算法較為復(fù)雜,在梯度下降更新權(quán)重時有概率落入局部極值,同時,隨著神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,梯度下降優(yōu)化損失函數(shù)導(dǎo)致計算量和計算時間呈指數(shù)級增加,經(jīng)濟性較差。

        (2)多元回歸算法[2]與時間序列模型及算法[3-5],多元回歸算法和時間序列算法屬于正統(tǒng)的統(tǒng)計學(xué)模型,以線性假設(shè)為基礎(chǔ),對輸入的樣本數(shù)量和樣本質(zhì)量要求較高,遇到非線性結(jié)構(gòu)數(shù)據(jù)時往往“水土不服”,預(yù)測結(jié)果自然也較差。

        (3)灰色理論模型[6]、集成學(xué)習(xí)算法模型,支持向量機算法等[7],其中,集成學(xué)習(xí)算法建立在單個決策樹算法的基礎(chǔ)上,在數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)量并不復(fù)雜時,容易產(chǎn)生過擬合現(xiàn)象,需要根據(jù)經(jīng)驗設(shè)置合理的學(xué)習(xí)率等參數(shù),添加正則項,而且迭代過程占用很大的計算資源。

        綜合以上考慮,本文選擇決策樹理論中的CART 算法對廣州南至珠海區(qū)間的二等座旅客發(fā)送量進行預(yù)測。

        1 決策樹理論及算法選擇

        1.1 決策樹算法選擇

        決策樹算法是一種監(jiān)督學(xué)習(xí),就是事先給定樣本,按照一系列規(guī)則對樣本數(shù)據(jù)的特征值進行判斷,并不斷迭代循環(huán)最終完成分類或回歸的過程,最后形成一個類似于“倒立的樹”的模型(算法)。由于樣本包含許多特征,總有一些特征在分類時起到“關(guān)鍵”作用,就需要通過規(guī)則找到這些具有決定性作用的特征,決定性作用最大的那個特征先找到并作為根節(jié)點,然后迭代循環(huán)找到各分支下次大的決定性特征,直至各個分支下所有數(shù)據(jù)都屬于同一類[8]。本文選擇CART 算法來構(gòu)建決策樹。

        1.2 CART算法

        CART 算法生成決策樹可以分為分類樹和回歸樹兩種類型,生成方式有一定的區(qū)別。當(dāng)輸出結(jié)果為離散值時,代表CART 決策樹;當(dāng)輸出結(jié)果為連續(xù)值時,便是CART 回歸樹,此時不再采用基尼系數(shù)而是采用下面公式(1)來選擇特征值和特征值劃分點。其算法過程如下:設(shè)xi為第i 個樣本的輸入值,yi為對應(yīng)的輸出值。對于每一個特征變量j 選擇最優(yōu)切分點s,選擇切分的依據(jù)是:

        在選擇特征變量j 和該特征變量對應(yīng)的切分點s 的情況下,選擇使式(1)取得最小值的對(j,s),其中,R1和R2是選擇特征變量j 和該特征變量對應(yīng)的切分點s 的情況下將輸出集合分為了兩部分,R1和R2的計算方法如式(2)所示:

        圖1:旅客發(fā)送量情況

        圖2:預(yù)測值與真實值比較

        c1和c2為輸出集合的均值,計算方法如式(3)所示:

        不斷的重復(fù)上述過程,直到達到終止條件,便得到了CART 回歸樹。

        圖3:三種算法預(yù)測精度的比較(RMSE)

        2 算例應(yīng)用

        2.1 樣本與特征選擇

        影響旅客出行需求的因素較多,比如:臺風(fēng)、暴雨、降雪,或者疫情、事故等人為封鎖導(dǎo)致交通無法正常運營等短期因素。從長期來看,影響廣州南至珠海間鐵路客流的主導(dǎo)因素是兩地間經(jīng)濟人文交流以及其他運輸方式的競爭性替代。而短期內(nèi),其他交通方式供給比較穩(wěn)定,不會有大的波動;兩地間的經(jīng)濟人文交流也呈現(xiàn)出一種總體穩(wěn)定趨勢上升的情況。因而,廣州南至珠海的鐵路日旅客發(fā)送量呈現(xiàn)出一種長期的趨勢性增長和短期的以月份,周號為代表的周期波動特點。綜上所述,選擇月份,周號,當(dāng)月當(dāng)周號平均發(fā)送量、去年同期當(dāng)月當(dāng)周號的平均發(fā)送量為樣本輸入特征值。

        樣本數(shù)據(jù)方面,選取2019年6月1日至2019年8月25日為本期的樣本日期段,由于小長假客流特點與平時的客流特點截然不同,為了防止小長假客流對最終的算法輸出結(jié)果產(chǎn)生干擾,去除2019年端午節(jié)包含的3 天假期。由于端午節(jié)節(jié)前一天和節(jié)后一天的客流特點也受到小長假放假的影響,因而一并去掉,最終選擇樣本數(shù)據(jù)一共包含81 天。每個樣本包含月份,周號,當(dāng)月當(dāng)周號平均發(fā)送量、去年同期當(dāng)月當(dāng)周號的平均發(fā)送量這4 個特征指標。日旅客發(fā)送量整體情況如圖1所示,可知,日旅客發(fā)送量最大為17358人次,最小為8331 人次。平均日旅客發(fā)送量為12426 人次。另一方面,從圖1(a)明顯看出日旅客發(fā)送量有很明顯的趨勢性和周期性(大致以一個星期為周期單位)。圖1(b)分周號旅客日發(fā)送量平均值,可以看到周六旅客平均日發(fā)送量最高為13660 人次,其次為周五,旅客平均日發(fā)送量為13366 人次,最低為周二,旅客平均日發(fā)送量為11322 人次。

        2.2 算法實踐

        本文使用Python 來進行CART 回歸樹的算法建立。將81 組樣本分為訓(xùn)練集和測試(預(yù)測)集兩部分,訓(xùn)練集包括前71 組樣本數(shù)據(jù),后10 組樣本數(shù)據(jù)進行模型測試檢驗和預(yù)測。最終得到CART 回歸樹算法。將測試集樣本數(shù)據(jù)輸入算法進行檢驗,最終預(yù)測值與原樣本數(shù)據(jù)進行比較,結(jié)果如圖2所示,我們選擇公式(4)來對每個樣本的誤差相對值進行計算和評價??梢钥吹?,10 個測試樣本中相對誤差最大14.16%,相對誤差最小為0.87%,相對誤差平均值為5.22%。訓(xùn)練出的CART 回歸樹算法擬合效果基本達到預(yù)期,如圖2所示。

        2.3 結(jié)果分析與比較

        為了更準確客觀的對預(yù)測結(jié)果進行分析和比較,采用均方根誤差(RMSE)和平均絕對誤差(MAE)兩個指標來對預(yù)測結(jié)果進行評價。計算公式如下:

        其中,yi為樣本真實值,為算法預(yù)測值,n 為測試集的樣本個數(shù)(本算例中n=10)。同時采用多元回歸算法和時間序列算法中的ARIMA 模型進行比較驗證。使用的訓(xùn)練樣本和測試樣本與輸入CART 回歸樹算法保持一致,最后使用式(5)和式(6)對預(yù)測結(jié)果進行評價,最終三種算法的預(yù)測效果和精度如圖3(a)和圖3(b)所示。可知CART 回歸樹算法在均方根誤差(RMSE)和平均絕對誤差(MAE)的評價下預(yù)測精度都是最高的,明顯優(yōu)于多元回歸算法和時間序列算法中的ARIMA 模型。

        3 結(jié)論

        本文采用決策樹理論中的CART 回歸樹算法對廣州南至珠海區(qū)間的旅客發(fā)送量進行預(yù)測,結(jié)果表明采用的CART 回歸樹算法能夠較好的完成預(yù)測任務(wù),預(yù)測精度明顯優(yōu)于多元回歸算法和時間序列中的ARIMA 模型。但本文使用的CART 回歸樹算法能夠?qū)⒄`差范圍限定在一個較小合理的范圍內(nèi),則輸出的預(yù)測結(jié)果就完全可以為鐵路運輸企業(yè)制定決策提供依據(jù)。下一步,將逐步引入天氣、經(jīng)濟活動等其他影響因素進入CART 回歸樹算法,通過不斷優(yōu)化迭代,進一步提高算法的預(yù)測精度。

        猜你喜歡
        特征模型
        一半模型
        抓住特征巧觀察
        重要模型『一線三等角』
        新型冠狀病毒及其流行病學(xué)特征認識
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        如何表達“特征”
        不忠誠的四個特征
        抓住特征巧觀察
        3D打印中的模型分割與打包
        FLUKA幾何模型到CAD幾何模型轉(zhuǎn)換方法初步研究
        久久久久久久久毛片精品| 人妻精品人妻一区二区三区四五| 91国产熟女自拍视频| 久久99精品久久久久久清纯| 麻豆果冻传媒在线观看| 国产又色又爽又刺激视频| 国产美女高潮流的白浆久久| 91九色成人蝌蚪首页| 777亚洲精品乱码久久久久久| 亚洲美女影院| 最新日韩人妻中文字幕一区| 美女视频在线观看亚洲色图| 18禁黄久久久aaa片| 图图国产亚洲综合网站| 国产三级在线观看不卡| 午夜天堂一区人妻| 男女性高爱潮免费网站| 四虎成人精品国产一区a| 少妇久久一区二区三区| 亚洲第一狼人天堂网亚洲av| 性一乱一搞一交一伦一性| 国产中文久久精品| av免费观看网站大全| 精品无码av一区二区三区| 双腿张开被9个黑人调教影片| 在线观看极品裸体淫片av| 免费看黄色亚洲一区久久| 免费人成视频xvideos入口| 任你躁国产自任一区二区三区| 免费黄网站永久地址进入| 蜜桃视频一区二区在线观看| 久久精品亚洲中文字幕无码网站| 国产精品成人无码久久久久久| 美腿丝袜在线观看视频| 少妇高潮惨叫久久久久久电影| 天天综合久久| 看中文字幕一区二区三区| 国产免码va在线观看免费| 窝窝影院午夜看片| 久久久婷婷综合亚洲av| 一二三四五区av蜜桃|