亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機器學習的公交站間運行時間冪律分布分析①

        2019-12-20 02:32:04徐文進尋晴晴
        計算機系統(tǒng)應用 2019年12期
        關鍵詞:模型

        徐文進,尋晴晴,周 笛

        1(青島科技大學 信息科學技術學院,青島 266061)

        2(解放軍北部戰(zhàn)區(qū)91049部隊,青島 266000)

        城際公交是指在城市群或大城市與周邊中小城鎮(zhèn)間設立的長途公交系統(tǒng),它作為行人出行的交通工具,即方便又價廉;城際公交具有自身的特點,與一般的長途和城際快客有所不同,是在通勤距離在十幾到幾十公里的公交體系,在重要的城區(qū)之間開行的多班次,具有固定公交站點和較明確營運計劃表的通勤系統(tǒng),是趨向公交化的短途旅客營運車輛,是市內(nèi)公交車的延伸和拓展,對乘客來講更加便捷,票價相比城際長途客運和軌道交通也更低廉,在我國有較大的發(fā)展空間.

        但是國內(nèi)對城際公交的研究不多,已有的研究主要集中在城際公交建立的政策和規(guī)劃領域,如文獻[1-6],較少涉及到城域公交的數(shù)據(jù)挖掘.近年來蓬勃發(fā)展的人工智能機器學習技術是利用機器學習[7,8]算法對已知數(shù)據(jù)進行分析、計算得到合乎實際的規(guī)律、模型,并進行合理的預測.實踐證明,利用人工智能機器學習算法進行數(shù)據(jù)挖掘是分析城際公交運行規(guī)律的有效方法.

        本文基于南方某城市和北方某城市公交線路的公交卡的交易記錄,通過對數(shù)據(jù)的合理分析,結合機器學習分類算法,合理設定分站標準,找出公交站點[9];使用Python編程,通過智能公交卡記錄,對乘車的人群行為進行挖掘和預測,分析得出乘坐公交車的習慣和偏好;同時在研究中證明城域公交車運行時站間時間間隔遵循人類行為動力學理論[10-13],滿足冪律分布.

        1 公交智能卡數(shù)據(jù)集和數(shù)據(jù)預處理

        1.1 公交智能卡數(shù)據(jù)集

        城際公交作為城市群間重要的交通聯(lián)系方式,蘊含著大量的數(shù)據(jù).通過研究城際公交數(shù)據(jù)可提供大量、豐富的數(shù)據(jù),可以挖掘出助力城際公交發(fā)展的信息.本文主要通過提取公交IC卡的數(shù)據(jù)來進行研究的;公交IC卡現(xiàn)在一般采用射頻識別技術進行數(shù)據(jù)通信,使用集成電路芯片存儲用戶數(shù)據(jù),數(shù)據(jù)的可靠性和真實性有保障.因此圍繞著北方某城市和南方某城市城際公交的數(shù)據(jù),對公交IC卡的數(shù)據(jù)進行分析和應用,發(fā)現(xiàn)公交客流量出行的一個規(guī)律.如表1和表2描述了原始數(shù)據(jù)的類型.

        表1 南方某城市數(shù)據(jù)類型

        1.2 智能數(shù)據(jù)卡的預處理

        智能卡打卡數(shù)據(jù)首先要進行數(shù)據(jù)的預處理,如對打卡數(shù)據(jù)的時間戳進行轉換、合并重復數(shù)據(jù),數(shù)據(jù)的預處理由以下步驟組成:

        (1)不完整數(shù)據(jù)清洗;在智能卡打卡數(shù)據(jù)中,一組完整的數(shù)據(jù)至少應該包括卡類型、卡號、智能終端號和打卡時間;缺失一個,就會對后面的算法實驗造成影響,因此對打卡數(shù)據(jù)中缺失數(shù)據(jù)項的進行清洗.

        (2)剔除不合理的數(shù)據(jù),在數(shù)據(jù)處理時發(fā)現(xiàn)有的打卡數(shù)據(jù)是在凌晨,此時公交車并不運行,所以應該剔除這些不合理的數(shù)據(jù).

        (3)重復數(shù)據(jù)合并,在數(shù)據(jù)預處理中發(fā)現(xiàn),在短時間內(nèi)(1分鐘)有的卡打卡次數(shù)超過2次,這是由于不小心重復打卡或是在數(shù)據(jù)傳輸中的錯誤造成的,重復的打卡數(shù)據(jù)其實對應的同一次乘車行為,所以這些重復的打卡數(shù)據(jù)要合并成為一項.

        表2 北方某城市數(shù)據(jù)類型

        1.3 智能數(shù)據(jù)卡的特征

        1.3.1 卡類型分布特征

        數(shù)據(jù)預處理后,對打卡數(shù)據(jù)的分布進行分析.首先根據(jù)原始數(shù)據(jù)刷卡的情況,卡類型進行分類,得到的殘疾卡,老人卡,普通卡,學生卡,員工卡,治安監(jiān)督卡所占的頻數(shù)和比例,如表3和表4所示.

        表3 南方某城市公交卡刷卡比例

        通過表3和表4發(fā)現(xiàn)老年卡、學生卡、普通卡的出行所占比例挺高的,但殘疾卡的比例相對較少,這可能與城際公交車設置無障礙設備有關.

        1.3.2 客流量分布特征

        把城際公交線路全日客流情況的刷卡的數(shù)據(jù)累加起來,從中可得到該全日累計客流的時間分布的數(shù)據(jù).獲取的公交車的數(shù)據(jù)通過刷卡時間反映出刷卡乘客在全日內(nèi)的高峰期,如圖1選取了某一天的客流情況.

        表4 北方某市公交車刷卡比例

        圖1(a)是南方某城市數(shù)據(jù)的客流量折線圖,圖1(b)圖是北方某城市數(shù)據(jù)的客流量折線圖,橫軸表示的是刷卡的時間,從0點到24點,縱軸表示的刷卡的次數(shù);可以從圖1中得出以下結論:

        (1)由圖1得出早晨5點后至上午8點是一個出行高峰,而且乘車人數(shù)幾乎是隨著時間成正比增加,符合上班、上學的出行時間規(guī)律,上午8點后乘坐公交車出行人數(shù)明顯下降,說明公共交通乘坐的主要人流還是上班族和上學族.

        (2)由圖1(a)顯示中午12點,圖1(b)顯示13點乘車有一個小高峰,這是因為中午是午休時段,而且有的小學生下午不上課,這部分乘客利用中午時段乘坐公交車出行.

        (3)由圖1得出下午16點開始至傍晚18點乘車人數(shù)較多,刷卡數(shù)據(jù)一直在增長.18點左右達到高峰,是學生流和下班乘車疊加所致.

        圖1 客流量分布圖

        2 公交車站間運行規(guī)律

        在經(jīng)過簡單公交車智能卡數(shù)據(jù)分析后,然后從時域角度分析公交車站間運行時間.

        2.1 公交車分站算法

        本論文選取南方某城市和北方某城市數(shù)據(jù)的4條線路,對智能卡實際交易記錄進行分站算法的研究;合理的設計的分站算法,進而找出公交站間的運行時間,算法1是本文設計的公共交通分站算法.

        算法1主要的思想是確定站間運行時間的閾值,看查找的閾值是否符合實際的設站數(shù)量,若符合,算法結束;否則,繼續(xù)查找.由算法獲得分站數(shù)據(jù),可以進一步進行數(shù)據(jù)擬合,分析公交車站間運行的時間間隔規(guī)律.

        算法1.公共交通分站算法1.輸入:data,Time//data輸入智能卡刷卡數(shù)據(jù),按照線路和POS終端號進行排列,Time為公交智能卡打卡時間信息;2.Stime=House(Time)×3600+Minute(Time)×60+Second //將打卡的自然時間轉換為可以用于算法的以秒(s)為單位的時間;3.對打卡時間進行排序;4.尋找排序后的打卡數(shù)據(jù)中時間相差最小閾值的兩個數(shù)據(jù),作為站間分割;5.找出所有的站間后,與實際設站數(shù)量進行比較,如果大于時間設站數(shù)量,回到步驟4重新設置站間運行時間閾值(一般是增大閾值,減少分站數(shù)量),否則說明分站成功;6.得到站內(nèi)打卡數(shù)據(jù)集并保存;7.end// 算法結束.

        2.2 線性擬合

        本文通過分站算法,得到公交車相鄰兩站的運行時間,對相鄰兩站的運行時間和相鄰兩站的運行時間的累計頻數(shù)做雙對數(shù)運算,再通過機器學習線性回歸[14-16]算法對其進行擬合.

        2.2.1 最佳擬合函數(shù)

        本文用到線性模型是一元一次的方程,所以預測本文預測線性函數(shù)如式(1):

        式(1)得到的模型為數(shù)據(jù)預測的線性回歸模型,x表示的是站與站時間間隔進行對數(shù)運算的結果;θ0和θ1表示的是兩個變量建立聯(lián)系的相關系數(shù).hθ(x)用參數(shù)θ和x預 測出來的y值.

        對于式(1),為了找到最佳的 θ0和 θ1,使擬合線的預測值更加接近y,使用式(2):

        在式(2)中,m表 示訓練樣本的個數(shù);y表示原訓練樣本中的y值,也就是標準答案.

        式(2)函數(shù)被稱為平方誤差函數(shù),這個平方誤差函數(shù)結果越小,即各個數(shù)據(jù)點更加接近擬合的函數(shù),這時找到 θ0和 θ1也是最佳的值.得到的線性回歸方程也是最佳的擬合函數(shù).

        2.2.2 梯度下降法

        對于損失函數(shù),想要得到最優(yōu)解,找出最佳的 θ0和θ1,這里用到了梯度下降法.梯度下降法,就是沿著梯度下降最快的地方求偏導,得到損失函數(shù)最小值時的 θ0和θ1.所以計算J(θ)關于 θT的偏導數(shù),也就得到了向量中每一個 θ 的梯度.即式(3):

        再沿著梯度的反方向更新參數(shù) θ的值,即式(4):

        一直迭代下去,直到收斂某一個值,就是最終要找的θ值.

        3 實驗結果和模型評價

        3.1 分站算法仿真結果

        對于本文提出的分站算法,用了4條線路上的數(shù)據(jù)進行仿真實驗.仿真結果如圖2所示.

        圖2中,橫坐標表示刷卡的時間間隔,縱坐標表示分站的個數(shù);圖2(a)為南方某城市地區(qū)的某兩條公交路線的仿真結果,兩條路線的實際站數(shù)為32和33站,得到的實驗結果與實際結果一致,對應的站與站的時間間隔最小值分別為60秒和88秒;圖2(b)為北方某城市地區(qū)的某兩條公交路線的仿真結果;兩條路線的實際站數(shù)為52和31站,得到的實驗結果與實際結果也一致,對應的站與站的時間間隔最小值分別為56秒和81秒.由圖可知隨著刷卡時間間隔的增大,分站的個數(shù)也相應的減少;所以對于用分站算法找出相應的分站個數(shù),是可行的.如圖2中的特殊標記就是得出的分站個數(shù)和最小的站與站的時間間隔.

        3.2 擬合結果

        本文對南方某城市北方某城市的城際公交刷卡的時間做了計算,所有的刷卡時間都是以秒為單位計算的,得出來刷卡的時間間隔,并對時間間隔和時間間隔累計的頻數(shù)做雙對數(shù)運算,得出了數(shù)據(jù)的散點圖,如圖3所示,該散點圖是符合人類行為動力學.

        圖3橫坐標表示每站與每站的時間間隔的對數(shù)運算結果,縱坐標表示是公交車每站與每站時間間隔的累計頻數(shù)的對數(shù)運算結果.由圖3中可以看出數(shù)據(jù)是出現(xiàn)重尾特征,是符合人類行為動力學的,即大部分公交車站間的時間間隔較短,而有少數(shù)部分公交車站間的時間間隔較長.這種分布可能與出行的高峰期有關;在出行高峰期,由于乘車人數(shù)多、交通擁擠等狀況,可能出現(xiàn)公交車的站間時間間隔比較長;在其他時間,公交車站間的時間間隔相對較短.

        3.3 擬合線路

        本文通過線性回歸方程對公交車的時間間隔的冪指數(shù)運算與累計的頻數(shù)的散點圖進行擬合.如圖4所示.

        圖4是繪制出使用經(jīng)過函數(shù)優(yōu)化得出的最優(yōu)參數(shù)θ值所做預測的圖形.得到的曲線擬合方程是一元一次方程,即式(5)和式(6):

        3.4 模型評價

        對于本文得到的模型式(5)和式(6)進行檢驗,判定模型是否符合,得到結果如表5.

        如表5所示,R方為判定系數(shù),一般認為需要大于60%,用于判定線性方程擬合優(yōu)度的重要指標,體現(xiàn)了回歸模型解釋因變量變異的能力,越接近1越好.模型得到的R方分別為0.74和0.83,判斷模型擬合效果良好.顯著性為方差分析的顯著性,值都為0.000<0.01<0.05,表明由自變量時間間隔和因變量頻數(shù)建立的線性關系回歸模型具有極顯著的統(tǒng)計學意義,所建立的模型符合預期的規(guī)定.

        圖2 分站算法仿真結果

        圖3 散點圖

        對于式(7)和式(8)為原始數(shù)據(jù)得到的公式,N表示的是公交站間運行時間出現(xiàn)的次數(shù),T表示公交站間的運行時間.由于驗證了模型式(5)和式(6)的模型擬合效果良好,式(7)和式(8)的模型擬合效果也良好.所以式(7)和式(8)滿足了冪指函數(shù)的判定準則,由模型可以得出城市公交車站與站之間的運行時間符合冪律分布.

        圖4 擬合圖

        表5 模型結果驗證

        4 結論

        對于本文設計公交車分站算法,通過刷卡的時間間隔去找分站的個數(shù),這使得分站的結果可靠準確;并且運用2個數(shù)據(jù)集進行實驗,都能夠準確的找到分站的個數(shù)和相應的最小的站與站的時間間隔,該算法具有可行性.

        對于用分站算法得到的站與站的時間間隔,實驗結果證明了城際公交車站與站之間的運行時間符合冪律分布;站與站的時間間隔符合人類行為動力學的.可以得出,公交車站與站時間間隔序列具有強記憶和較弱的突發(fā)性.這意味著大多數(shù)站與站的時間間隔相對均勻,這個時間序列具有一定的記憶性,并且長時間間隔可能遵循較長的時間間隔,短時間間隔可能遵循較短的時間間隔,有比較弱的突發(fā)性.這與日常時間表一致,在高峰時段,有許多乘客在等車,刷卡的人較多,站與站的時間間隔相對長點.但是在大多數(shù)人呆在家里的夜晚,乘客很少,刷卡的人相對較少,站與站的時間間隔相對較短.

        猜你喜歡
        模型
        一半模型
        一種去中心化的域名服務本地化模型
        適用于BDS-3 PPP的隨機模型
        提煉模型 突破難點
        函數(shù)模型及應用
        p150Glued在帕金森病模型中的表達及分布
        函數(shù)模型及應用
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權M-估計的漸近分布
        3D打印中的模型分割與打包
        亚洲一区二区三区在线| 中美日韩在线一区黄色大片| 免费黄网站一区二区三区| 中文字幕影片免费人妻少妇| 精品综合一区二区三区| 中国娇小与黑人巨大交| 国产国拍亚洲精品mv在线观看| 精品人妻一区二区三区四区| 国产精品女同一区二区久久| 日本久久精品国产精品| 亚洲色图视频在线免费看| 亚洲日韩一区精品射精| 亚洲av成人无码网站…| 蜜臀av一区二区| 国产伦精品一区二区三区视| 九月色婷婷免费| 69精品国产乱码久久久| 蜜桃av在线免费网站| 小荡货奶真大水真多紧视频| 国产成人综合久久精品免费| 最新在线观看精品国产福利片 | 国产激情一区二区三区不卡av | av 日韩 人妻 黑人 综合 无码| 亚洲熟妇20| 久草91这里只有精品| 老熟女老女人国产老太| 日本高清h色视频在线观看| 亚洲精品综合第一国产综合| 亚洲男人在线无码视频| 各类熟女熟妇激情自拍 | 真人无码作爱免费视频禁hnn| 加勒比黑人在线| 久久成人精品国产免费网站| 久久综合激情的五月天| av天堂精品久久综合网| 国产精品久久一区二区三区| 国产精品黄色片在线观看| 美女被内射中出在线观看 | 亚洲综合日韩中文字幕| 成人爽a毛片在线播放| 免费人成激情视频在线观看冫|