亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度強化學(xué)習(xí)的城市公共交通票價優(yōu)化模型構(gòu)建

        2024-12-08 00:00:00萬玲
        中國新技術(shù)新產(chǎn)品 2024年3期

        摘 要:本文介紹了一種基于深度強化學(xué)習(xí)的城市公共交通票價優(yōu)化模型,構(gòu)建該模型的目的在于提高城市交通系統(tǒng)的效率和服務(wù)質(zhì)量。首先,分析了該模型的基本假設(shè)和建立過程。其次,探討了使用DQN方法對模型進(jìn)行訓(xùn)練和優(yōu)化的過程,最后,該文展示了持續(xù)監(jiān)測系統(tǒng)性能、乘客數(shù)量、收入和交通擁堵情況等票價模型的優(yōu)化結(jié)果,以期為城市公共交通系統(tǒng)的管理和改進(jìn)提供一種前瞻性方法。

        關(guān)鍵詞:深度強化學(xué)習(xí);城市公交;票價優(yōu)化模型

        中圖分類號:U-9 " " " " " " " 文獻(xiàn)標(biāo)志碼:A

        隨著城市化的快速發(fā)展,公共交通成為減少城市交通擁堵、減少污染、提高居民生活質(zhì)量的關(guān)鍵組成部分[1]。而公共交通票價策略是管理城市公共交通系統(tǒng)的關(guān)鍵因素之一,合理的票價策略不僅可以吸引更多乘客乘坐公共交通,還可以提高運營效益,減少擁堵,降低碳排放?;诖吮尘?,深度強化學(xué)習(xí)(Deep Reinforcement Learning,DRL)應(yīng)運而生。DRL結(jié)合深度學(xué)習(xí)和強化學(xué)習(xí)的技術(shù),能夠使系統(tǒng)在與環(huán)境的互動中學(xué)習(xí)并適應(yīng)最佳策略。本文的目標(biāo)是開發(fā)一種基于DRL的城市公共交通票價優(yōu)化模型,該文將詳細(xì)介紹基于深度強化學(xué)習(xí)的城市公共交通票價優(yōu)化模型的構(gòu)建和訓(xùn)練過程,通過模擬和學(xué)習(xí),使模型能夠自主決策最佳票價策略,有望為城市交通管理者提供一個靈活、自適應(yīng)的工具,以優(yōu)化票價策略,提高乘客體驗,降低交通擁堵,并最大化運營收益。

        1 城市公共交通票價優(yōu)化模型

        1.1 基本假設(shè)模型

        假設(shè)城市公共交通市場存在一定數(shù)量的潛在乘客,那么這些乘客具有出行需求,前往不同的目的地、出行時間和距離各不相同[2]。這個需求可以根據(jù)不同地點和時間段而變化,形成一個動態(tài)的需求曲線。而市場中存在一定數(shù)量的公交車、地鐵列車等交通資源,用于滿足潛在乘客的出行需求,這些資源在不同線路和時段提供不同的服務(wù)。根據(jù)乘客的出行需求選擇使用公共交通,而交通資源會根據(jù)需求提供相應(yīng)的服務(wù)。因此,需求與供給之間存在一定的匹配關(guān)系,交通資源的利用率會受到乘客需求的影響。在模型中,假設(shè)市場存在私人汽車、出租車以及共享單車等多種出行方式,這些方式會構(gòu)成城市公共交通的競爭或替代。當(dāng)乘客出行時,會考慮這些替代方式,根據(jù)其特點和成本來選擇最適合自己的方式。同時,票價是乘客出行選擇的一個重要因素,當(dāng)其他出行方式提供相似的服務(wù)時,公共交通的票價策略可能會影響乘客的選擇。因此,模型需要考慮在競爭環(huán)境下的票價策略,以吸引乘客選擇公共交通方式。當(dāng)乘客選擇出行方式時會綜合考慮票價、出行時間以及便捷性等方面,而模型需要考慮這些因素來制定具有競爭力的票價策略。

        1.2 模型建立

        在模型建立的過程中,對狀態(tài)空間的定義、動作空間的設(shè)定以及獎勵函數(shù)的設(shè)計等要素都是構(gòu)成深度強化學(xué)習(xí)模型的核心[3]。模型的狀態(tài)空間包括城市的不同交通線路、不同時段、天氣情況以及乘客需求等多個因素。狀態(tài)空間可以表示為S={s1,s2,...,sn},其中每個sn表示一個狀態(tài)因子,例如,s1表示線路,s2表示時段,s3表示天氣等。動作空間(Action Space)包括不同線路或時段的票價設(shè)定,其可以表示為A={a1,a2,a3,.....am},其中每個am表示一個票價策略,例如,a1表示提價Δp1%,a2表示降價Δp2%,以此類推。此外,建立模型設(shè)置獎勵函數(shù),用于評估模型每個動作的好壞,其主要影響模型的學(xué)習(xí)和決策過程。獎勵函數(shù)R(s,a)考慮多個因素,如乘客數(shù)量、收入以及交通擁堵情況等,如公式(1)所示。

        R(s,a)=ζ·(pinewci)·qi " " " " " " " " " " " " (1)

        式中:ζ為獎勵系數(shù);pinew為新的票價;ci為單位成本;qi為出行需求。

        此外,建立模型還需要構(gòu)建一個虛擬環(huán)境,以模擬乘客的行為、交通流量以及票價策略的影響等。這個模型將與深度強化學(xué)習(xí)代理進(jìn)行互動,提供有關(guān)城市交通系統(tǒng)的反饋信息。深度強化學(xué)習(xí)代理將使用神經(jīng)網(wǎng)絡(luò)Q(S,A)來表示價值函數(shù),其中S表示狀態(tài)空間,A表示動作空間。價值函數(shù)表示了在給定狀態(tài)下采取某個動作的預(yù)期回報。模型將基于貝爾曼方程來更新Q值,以逐步優(yōu)化策略。

        2 基于深度強化學(xué)習(xí)票價優(yōu)化模型訓(xùn)練

        2.1 DQN法訓(xùn)練

        在基于深度強化學(xué)習(xí)的票價優(yōu)化模型中,該文主要采用了深度Q網(wǎng)絡(luò)(Deep Q-Network,DQN)來進(jìn)行模型訓(xùn)練[4]。DQN是一種強化學(xué)習(xí)算法,用于訓(xùn)練智能代理以學(xué)習(xí)最佳的決策策略。DQN法訓(xùn)練的核心思想是使用深度神經(jīng)網(wǎng)絡(luò)來估計每個狀態(tài)-動作對的價值函數(shù),以便選擇最佳的行動。具體步驟如下:1)神經(jīng)網(wǎng)絡(luò)的輸入是狀態(tài)空間的表示,輸出是每個動作的Q值估計。神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包括輸入層、隱藏層和輸出層。輸入層接收狀態(tài)空間的表示,描述城市交通系統(tǒng)當(dāng)前狀態(tài)的信息,每個狀態(tài)因子都被編碼為網(wǎng)絡(luò)的輸入節(jié)點,這些輸入節(jié)點構(gòu)成狀態(tài)向量,作為神經(jīng)網(wǎng)絡(luò)的輸入。隱藏層是神經(jīng)網(wǎng)絡(luò)的核心,包括多個神經(jīng)元節(jié)點,用于處理輸入數(shù)據(jù)并提取特征。隱藏層通過學(xué)習(xí)權(quán)重和偏差來逐步優(yōu)化狀態(tài)-動作對的Q值估計。輸出層的節(jié)點數(shù)等于動作空間的大小,每個節(jié)點對應(yīng)一個不同的票價策略。輸出層的值表示每個動作對應(yīng)的Q值估計。而神經(jīng)網(wǎng)絡(luò)的訓(xùn)練目標(biāo)就是使輸出層的Q值逼近真實的最優(yōu)Q值。2)在神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上估計Q值,對于每個狀態(tài)-動作對(s,a),將狀態(tài)s作為輸入,通過前向傳播計算神經(jīng)網(wǎng)絡(luò)的輸出,即預(yù)測的Q值,表示為Q(s,a)。這個預(yù)測的Q值估計是基于模型學(xué)到的知識來估計在狀態(tài)s下采取動作a的長期回報。在訓(xùn)練階段,神經(jīng)網(wǎng)絡(luò)會通過與環(huán)境的互動來不斷調(diào)整其參數(shù),以更準(zhǔn)確地估計Q值。模型會根據(jù)當(dāng)前策略選擇動作a,進(jìn)入下一個狀態(tài)s',并觀察獲得的即時獎勵R(s,a)。3)用貝爾曼方程用于更新Q值,計算模型當(dāng)前預(yù)測的Q值和目標(biāo)Q值之間的誤差,逐步優(yōu)化模型的決策策略。具體更新如公式(2)所示。

        Q(s,a)=Q(s,a)+a[R(s,a)+γ·max(Q(s',a'))-Q(s,a)] (2)

        式中:α為學(xué)習(xí)率,控制每次更新的幅度。R(s,a)為采取動作a后在狀態(tài)s下獲得的即時獎勵。γ為折扣因子,代表未來獎勵的重要性。s'為下一個狀態(tài),a'為在下一個狀態(tài)下選擇的最佳動作。該預(yù)估公式主要利用誤差進(jìn)行反向傳播,調(diào)整神經(jīng)網(wǎng)絡(luò)的權(quán)重和參數(shù),使預(yù)測的Q值逐漸逼近目標(biāo)Q值。此步驟允許模型不斷更新Q值,以更準(zhǔn)確地估計每個動作的長期回報,從而指導(dǎo)模型選擇最佳的票價策略。

        總之,DQN法的訓(xùn)練過程是一個迭代的過程,模型不斷嘗試不同的動作并觀察獎勵,以學(xué)習(xí)如何制定最佳的票價策略。通過該過程,模型可以優(yōu)化城市公共交通系統(tǒng)的票價,以滿足乘客需求并最大化運營效益。

        2.2 優(yōu)化模型

        為了提高模型訓(xùn)練的穩(wěn)定性,可使用經(jīng)驗回放技術(shù)觀察模型的狀態(tài)、動作、獎勵和下一個狀態(tài)的數(shù)據(jù)點存儲在一個經(jīng)驗緩沖區(qū)中,然后隨機抽樣這些經(jīng)驗數(shù)據(jù)來構(gòu)建訓(xùn)練批次[5]。主要技術(shù)要點如下。在每個時間t,將當(dāng)前狀態(tài)st、采取的動作at、獲得的即時獎勵rt和下一個狀態(tài)s{t+1}組成如下經(jīng)驗元祖。

        這些經(jīng)驗元組將被存儲在一個經(jīng)驗池中,而經(jīng)驗池的大小通常是有限的,較大的經(jīng)驗池可以存儲更多的經(jīng)驗元組,但也需要更多的內(nèi)存空間。在訓(xùn)練過程中,從經(jīng)驗池中隨機抽樣一批數(shù)據(jù),通常包括N個經(jīng)驗元組,其中N是抽樣的批次大小。隨機抽樣可打破數(shù)據(jù)的時間相關(guān)性,提高訓(xùn)練的穩(wěn)定性。由于經(jīng)驗池包括了之前的經(jīng)驗,因此模型可以在不同的狀態(tài)和時間步上進(jìn)行訓(xùn)練,而不僅是在連續(xù)的時間步上。對于每個抽樣的經(jīng)驗元組(st,at,rt,s{t+1}),采用公式(4)計算更新Q值。

        (3)

        式中:Qt表示目標(biāo)Q值,即更新的Q值;rt表示即時獎勵,即在狀態(tài)st下采取動作at后獲得的獎勵;γ表示折扣因子,代表未來獎勵的重要性;max(Qtnext)表示下一個狀態(tài)s{t+1}中可選動作的最大Q值。這個目標(biāo)Q值Qt用于計算Q網(wǎng)絡(luò)的損失,通常采用均方誤差損失,計算過程如公式(5)所示。

        (4)

        式中:Qt表示目標(biāo)Q值,即通過貝爾曼方程計算得到的目標(biāo)值;Q(s,a)表示模型估計的Q值,即模型在狀態(tài)s下采取動作a的估計值。通過調(diào)整模型參數(shù)可優(yōu)化這個損失函數(shù),使模型估計的Q值逐漸逼近目標(biāo)Q值。在深度強化學(xué)習(xí)中,通常使用梯度下降或其變種來優(yōu)化MS損失,通過反向傳播算法來更新神經(jīng)網(wǎng)絡(luò)的參數(shù),以提高模型的性能。

        3 票價模型優(yōu)化結(jié)果

        乘客數(shù)量是監(jiān)測模型優(yōu)化的關(guān)鍵指標(biāo),可以用于評估模型的效用。跟蹤不同線路和時段的乘客數(shù)量,并與模型的票價策略進(jìn)行對比。具體結(jié)果如圖1所示。

        由圖1可知,在所有時段中,線路A的乘客數(shù)量都明顯高于線路B。這表明線路A在吸引乘客方面表現(xiàn)更好。在早高峰和晚高峰時段,乘客數(shù)量相對較高,而在非高峰時段,乘客數(shù)量較低。這符合通常的交通模式,乘客更容易在高峰時段使用公共交通工具。如果模型的票價策略能夠成功地吸引更多的乘客,那么乘客數(shù)量值可能會上升,這表明模型的優(yōu)化結(jié)果在增加乘客數(shù)量方面取得了成功。收入是城市公共交通系統(tǒng)的重要經(jīng)濟(jì)指標(biāo),模型的優(yōu)化應(yīng)該能夠平衡提高乘客數(shù)量和增加收入之間的關(guān)系。具體結(jié)果如圖2所示。

        由圖2可知,在給定的時段下,線路A的總收入明顯高于線路B。早高峰時段,線路A的總收入最高為450元,而線路B的最高總收入為300元。對每個線路在不同時段的收入進(jìn)行比較,可以看到在07:00—08:00早高峰時段收入最高,在08:30—11:00非高峰時段的收入較低。這種時段間的差異可能受到乘客數(shù)量和需求的影響。線路A和線路B在各時段的收入都不同。這表明不同線路的乘客數(shù)量和票價策略可能有差異,導(dǎo)致2個線路的收入不同。城市公共交通原票價、優(yōu)化后票價以及由此帶來的收入變化,都反映了模型優(yōu)化對城市公共交通系統(tǒng)的影響,原票價代表了在模型介入前的公共交通票價水平。這些價格通常根據(jù)市場需求、運營成本和其他因素設(shè)定。優(yōu)化后票價反映了深度強化學(xué)習(xí)模型在考慮乘客需求、交通擁堵情況和城市經(jīng)濟(jì)狀況等多個因素后,對票價策略進(jìn)行調(diào)整后的結(jié)果,這些調(diào)整可以包括提價或降價,具體取決于線路和時段的情況。通過觀察收入變化,可以判斷模型的票價策略是否在經(jīng)濟(jì)上有效。具體結(jié)果如圖3所示。

        由圖3可知,大多數(shù)情況下,模型的優(yōu)化導(dǎo)致了票價的降價或提價變化。這種變化可能會影響乘客數(shù)量和城市公共交通的收入。在優(yōu)化票價后,交通收入的變化是呈正值趨勢增長的,這表示模型的優(yōu)化策略在經(jīng)濟(jì)上是有效的。在不同時段的票價優(yōu)化結(jié)果不同。在早高峰時段,模型降低了票價,導(dǎo)致乘客數(shù)量上升,在晚高峰時段,模型提高票價,但仍然提高了收入??偟膩碚f,模型的票價優(yōu)化策略在不同線路和時段表現(xiàn)了靈活性和適應(yīng)性,有助于提高收入并在某些情況下減輕交通擁堵。這對于城市公共交通系統(tǒng)的可持續(xù)發(fā)展非常重要。

        4 結(jié)語

        城市公共交通票價策略對于減少交通擁堵、提高居民生活質(zhì)量以及降低環(huán)境污染具有重要影響,本文結(jié)合深度學(xué)習(xí)技術(shù),研究構(gòu)建一種基于深度強化學(xué)習(xí)的城市公共交通票價優(yōu)化模型,用于優(yōu)化城市公共交通的票價策略,同時在訓(xùn)練該模型的過程中采用DQN法訓(xùn)練,不斷更新模型的Q值,以更好地估計最佳策略,提高模型訓(xùn)練的穩(wěn)定性。通過本文的研究,希望提高乘客體驗,減輕交通擁堵,最大程度地提升城市公共交通的運營收益。

        參考文獻(xiàn)

        [1]李雪巖,張漢坤,李靜,等.基于深度強化學(xué)習(xí)的城市公共交通票價優(yōu)化模型[J].管理工程學(xué)報,2022,36(6):12.

        [2]鄭欣宇,毛俊,弓埔政,等.地鐵共線公交線路的優(yōu)化調(diào)整方法研究——以大連地鐵二號線為例[J].內(nèi)江科技,2022,43(10):41-42.

        [3]周杰.智慧城市軌道交通發(fā)展模型的構(gòu)建及其發(fā)展趨勢探討[J].城市軌道交通研究,2023,26(6):7-11.

        [4]鐘力文.一種基于DQN模型提取交通信號配時決策樹的方法:CN202310189392.X[P].2023-10-16.

        [5]李蘭鵬.基于蟻群算法的城市軌道交通列車節(jié)能運行優(yōu)化模型仿真分析[J].城市軌道交通研究,2023,26(2):11-15.

        国产自拍视频一区在线| 国产欧美日韩专区| 99re6久精品国产首页| 青青草视频在线观看9| 日韩亚洲精品中文字幕在线观看 | 国产亚av手机在线观看| 久久午夜无码鲁丝片直播午夜精品| 亚洲国产精品久久久性色av| 日本一道本加勒比东京热| 国产区女主播在线观看| 亚洲av无码精品色午夜| 综合91在线精品| 亚洲国产综合精品一区| 亚洲成av人片乱码色午夜| 色综合中文综合网| 亚洲色拍拍噜噜噜最新网站| 亚州av高清不卡一区二区| 99在线精品视频在线观看| 国产欧美精品区一区二区三区| 五月天婷婷一区二区三区久久| 久久精品熟女亚洲av香蕉| 国产动作大片中文字幕| 久操视频新免费伊人| 能看的网站中文字幕不卡av| 美女下蹲露大唇无遮挡| 亚洲第一av导航av尤物| 久久免费视亚洲无码视频 | 久久精品成人91一区二区| 熟女少妇精品一区二区三区| 久久久久国产精品| 欧美黑人又粗又大久久久| 少妇特殊按摩高潮不断| 亚洲精品视频在线一区二区| 亚洲国产精品福利片在线观看| 中文AV怡红院| 视频一区视频二区自拍偷拍| 男人的天堂免费a级毛片无码| 国产精品亚洲欧美云霸高清| 日韩av他人妻中文字幕| 亚洲成熟女人毛毛耸耸多| 欧洲日本一线二线三线区本庄铃|