基于合作博弈和強(qiáng)化學(xué)習(xí)的優(yōu)先信號控制方法

2024-12-31 00:00:00秦浩張維石

計(jì)算機(jī)應(yīng)用研究 2024年11期

摘要：針對智能交通系統(tǒng)優(yōu)先信號控制效率低問題，提出一種基于合作博弈與強(qiáng)化學(xué)習(xí)混合決策的八相位優(yōu)先信號控制方法CBQL-TSP。該方法將公交信號優(yōu)先權(quán)分配抽象成一個八相位信號時序的多目標(biāo)決策問題，將信號相序細(xì)化為優(yōu)先相位與非優(yōu)相位，構(gòu)建合作博弈模型。提出一種混合決策算法CBQL，解決八相位信號時序的多目標(biāo)決策問題，通過求解夏普利值函數(shù)獲取博弈各成員邊緣貢獻(xiàn)，根據(jù)夏普利值比構(gòu)建狀態(tài)轉(zhuǎn)移概率方程。與常見控制方法相比，CBQL-TSP具有合作博弈的公平性原則和Q-learning的適應(yīng)性學(xué)習(xí)能力，能夠根據(jù)實(shí)時交通狀況動態(tài)調(diào)整信號時序，在優(yōu)先信號控制上具有更高的靈活性和效率。建立仿真測試平臺，比較不同需求量下系統(tǒng)平均等待車數(shù)和平均通行時間，評估方法的穩(wěn)定性和效率。實(shí)驗(yàn)結(jié)果表明，提出方法具有更高的穩(wěn)定性，并且整體平均通行時間減少了約24.57%，公交平均通行時間減少約37.40%。CBQL-TSP在公交優(yōu)先路口具有更高的控制效率，可顯著減少整體和公交平均通行時間。

關(guān)鍵詞：交通信號優(yōu)先控制；合作博弈；強(qiáng)化學(xué)習(xí)；八相位優(yōu)先信號

中圖分類號：TP391.9 文獻(xiàn)標(biāo)志碼：A 文章編號：1001-3695（2024）11-021-3350-07

doi：10.19734/j.issn.1001-3695.2024.03.0090

Control method of transit signal priority based on coalitional bargaining games and reinforcement learning

Qin Hao， Zhang Weishi^?

（College of Information Science amp; Technology， Dalian Maritime University， Dalian Liaoning 116026， China）

Abstract：This paper proposed an eight-phase transit signal priority control method， CBQL-TSP， based on a hybrid decision-making approach combining cooperative game theory and reinforcement learning， aiming to address the low efficiency of transit signal priority control in intelligent transportation systems. The method abstracted the allocation of bus signal priority into a multi-objective decision-making problem with an eight-phase signal sequence， refining the signal phase sequence into priority and non-priority phases， and constructing a cooperative game model. The paper introduced a hybrid decision-making algorithm， CBQL， to solve the multi-objective decision-making problem of eight-phase signal timing. The algorithm calculated the marginal contributions of each game member by solving the Shapley value function and constructed the state transition probabi-lity equation based on the Shapley value ratio. Compared to conventional control methods， CBQL-TSP incorporated the fairness principle of cooperative game theory and the adaptive learning ability of Q-learning， enabling dynamic adjustment of signal timing based on real-time traffic conditions. This method offered higher flexibility and efficiency in priority signal control. This paper established a simulation test platform to compare the average waiting car count and average travel time under different demand levels， evaluating the stability and efficiency of the method. The experimental results demonstrate that the proposed method exhibits higher stability. Furthermore， the overall average travel time is reduced by approximately 24.57%， and the average travel time for buses is reduced by about 37.40%. CBQL-TSP demonstrates higher control efficiency at bus-priority intersections， significantly reducing both overall and bus average travel times.

Key words：transit signal priority（TSP）; coalitional bargaining; reinforcement learning; eight-phase priority signal

0 引言

公交優(yōu)先是城市發(fā)展與規(guī)劃中的核心戰(zhàn)略之一，它通過政策扶持、資金投入和技術(shù)支持，確保公交建設(shè)與管理的優(yōu)先地位，進(jìn)而為廣大市民提供更為快捷、高效的交通服務(wù)。以國內(nèi)外城市交通建設(shè)的經(jīng)驗(yàn)為基礎(chǔ)，公交優(yōu)先是解決交通問題的重要舉措。公交運(yùn)載能力是私家車和出租車的數(shù)倍，可以有效地降低道路交通流量。

優(yōu)先信號控制（TSP）是公交優(yōu)先的一種重要技術(shù)手段，是交通工程和智能交通系統(tǒng)（ITS）的一個重要研究領(lǐng)域。TSP系統(tǒng)通過調(diào)整交通信號的時序，為公交車輛在交叉口提供優(yōu)先通行權(quán)，從而顯著減少公交車輛的行程時間和等待時間。這不僅提升了公交服務(wù)的可靠性和效率，還增加了公交的吸引力，進(jìn)一步鼓勵市民選擇公共交通作為出行方式，有助于減輕城市交通擁堵。TSP的主要目的是提高交通系統(tǒng)的效率和安全性，特別是對公共交通和緊急車輛。交叉口公交優(yōu)先智能信號控制對緩解交通擁堵具有重要意義?？焖俟幌到y(tǒng)（bus rapid transit，BRT）是將ITS與具有優(yōu)先權(quán)的專用道進(jìn)行整合，用來提供一種類似鐵路的可靠、高速和低成本的運(yùn)輸服務(wù)^［1^］。但是與鐵路運(yùn)輸情況不同的是，BRT車輛將與其他車輛在路口發(fā)生沖突。因此通過研究TSP的控制方法可以加大提高BRT運(yùn)行效率^［2^］。

最早的交通信號控制方法依賴于固定時間信號時間表，即交通信號按照預(yù)定時間表變化。這種方法雖然簡單易行，但往往效率低下，在交通需求低時導(dǎo)致不必要的延誤，而在交通需求高時則造成擁堵?，F(xiàn)有TSP方法存在協(xié)調(diào)效率低、優(yōu)先權(quán)不平衡等問題。存在這些問題的原因是，不同類型車輛之間的優(yōu)先級和通行需求不同，如果信號控制無法合理協(xié)調(diào)優(yōu)先車輛與非優(yōu)先車輛的通行時間，會導(dǎo)致交通流的混亂和不平衡，增加交通擁堵、延長通行時間，對整體交通效率產(chǎn)生負(fù)面影響。目前對于優(yōu)先車輛與非優(yōu)車輛的協(xié)同優(yōu)化模型研究較少，缺乏對等因素的考慮，完整控制模型的構(gòu)建等研究還相對缺乏。本文提出一種八相位優(yōu)先信號控制方法，考慮到快速公交系統(tǒng)的公交信號優(yōu)先，以實(shí)現(xiàn)私家車的最大穩(wěn)定性和可靠的公交服務(wù)。該方法基于合作博弈與強(qiáng)化學(xué)習(xí)，對公交車和私家車的優(yōu)先權(quán)進(jìn)行聯(lián)合決策，決策包括條件限制和提供優(yōu)先權(quán)的公交車策略。合作博弈能夠有效模擬不同優(yōu)先級車輛之間的相互作用與決策過程，提供策略框架，通過協(xié)同優(yōu)化達(dá)到平衡各方利益的目的。強(qiáng)化學(xué)習(xí)適用于處理具有高度動態(tài)性和不確定性的環(huán)境，能夠基于交通流的實(shí)時數(shù)據(jù)不斷學(xué)習(xí)和調(diào)整信號控制策略。此外，該策略是離散的，即只取決于每個交叉路口的局部條件。本文將模擬設(shè)定在一個有快速公交系統(tǒng)的真實(shí)道路網(wǎng)絡(luò)上。

1 相關(guān)工作

面向公交優(yōu)先的信號控制方法主要分為被動優(yōu)先控制、主動優(yōu)先控制和自適應(yīng)優(yōu)先控制三種。

被動優(yōu)先概念的提出可追溯到1972年，Urbanik和Holder提出了利用信號周期、區(qū)域綠波協(xié)調(diào)和匝道控制來實(shí)現(xiàn)公交被動信號優(yōu)先的概念^［3^］。被動優(yōu)先的最大優(yōu)點(diǎn)是不需要增加專門的檢測設(shè)備，因此實(shí)施成本通常較低^［⁴^］。但是，由于被動優(yōu)先技術(shù)缺乏對公交實(shí)時運(yùn)營狀態(tài)的感知能力，需要對公交線路的客流情況、運(yùn)營班次等方面有充分的了解。現(xiàn)階段被動優(yōu)先往往設(shè)置在公交車輛頻繁通過的路口，通過被動優(yōu)先邏輯來解決因優(yōu)先請求頻率高而導(dǎo)致的決策難問題^［^5，6^］。Ni等人^［7^］提出了一種基于微觀模擬的被動TSP方法，使用遺傳算法求解最優(yōu)TSP策略，通過協(xié)調(diào)BRT信號偏移最小化車輛延誤，并在真實(shí)BRT系統(tǒng)中進(jìn)行了以系統(tǒng)容量為指標(biāo)的實(shí)驗(yàn)。

主動優(yōu)先控制是指在公交車上或交叉路口安裝傳感設(shè)備，以提高交通狀態(tài)識別能力。觸發(fā)條件的分類包括手動控制^［8^］和自動控制^［⁹^］，后者主要基于模型的決策觸發(fā)^［^10，11^］。在研究信號調(diào)整策略時，現(xiàn)有文獻(xiàn)重點(diǎn)介紹了截?cái)嗉t燈信號或提前綠燈信號^［¹²^］和延長綠燈信號^［¹³^］兩種突出的主動方法。研究人員還對復(fù)雜控制策略進(jìn)行了研究，這些策略雖然要求更強(qiáng)的交通感知和信號調(diào)整能力，但由于其在相位切換方面可能更具侵略性，所以也帶來了挑戰(zhàn)^［14^］。盡管存在潛在的安全風(fēng)險(xiǎn)以及較高的成本，但這些策略為TSP 控制方法的創(chuàng)新作出了貢獻(xiàn)^［¹⁵^］。

自適應(yīng)優(yōu)先控制是利用道路檢測、車輛定位技術(shù)等，獲得該地區(qū)的道路交通狀態(tài)以及公交車輛的運(yùn)行狀態(tài)，從而對信號進(jìn)行實(shí)時控制，以確保公交優(yōu)先^［16^］。道路交通狀態(tài)包括該地區(qū)車輛的平均車速、各路口的交通狀況、公共汽車的運(yùn)營情況等。隨著強(qiáng)化學(xué)習(xí)理論的發(fā)展，強(qiáng)化學(xué)習(xí)因?yàn)閺?qiáng)大的經(jīng)驗(yàn)學(xué)習(xí)優(yōu)勢而在交通控制領(lǐng)域得到應(yīng)用，被認(rèn)為是交通網(wǎng)絡(luò)控制領(lǐng)域最有前景的方法^［^17，18^］。Li等人^［19^］提出了一種使用合作自適應(yīng)巡航控制模型CACC和深度Q網(wǎng)絡(luò)DQN算法的自適應(yīng)TSP方法，利用DQN算法促進(jìn)場景數(shù)據(jù)收集、分析和反饋，在獎勵函數(shù)中加入均衡獎勵項(xiàng)，以優(yōu)化交通平衡。Kolat等人^［20^］提出了一種基于強(qiáng)化學(xué)習(xí)的信號控制方法，該方法基于多智能體和深度Q學(xué)習(xí)算法，將多智能體和DQN相結(jié)合，從多目標(biāo)優(yōu)化角度解決信號控制問題。文獻(xiàn)［21］采用深度神經(jīng)網(wǎng)絡(luò)處理交叉口視頻，提取交通狀態(tài)，并應(yīng)用深度強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)交叉口信號控制策略，構(gòu)建了一種智能信號燈控制方法。對于基于視頻的交通控制，本質(zhì)上是監(jiān)督學(xué)習(xí)，需要借助具有代表性的訓(xùn)練實(shí)例進(jìn)行訓(xùn)練，但在交通網(wǎng)絡(luò)的實(shí)際交互環(huán)境中應(yīng)用這些實(shí)例可能存在一定困難。為理解交通參與者的競爭與合作行為并建立模型，博弈論已被廣泛應(yīng)用于研究互動過程中的理性自私或合作行為，并被應(yīng)用于先進(jìn)的交叉口管理^［22^］。Abdoos等人^［23^］提出了一種基于博弈論的雙模式智能體架構(gòu)，利用多智能體系統(tǒng)MAS，通過獨(dú)立模式和合作模式調(diào)整信號控制策略。澳大利亞斯威本科技大學(xué)與莫納什大學(xué)^［24^］聯(lián)合提出了一個數(shù)學(xué)框架，建立了基于單一目標(biāo)網(wǎng)絡(luò)的TSP系統(tǒng)，以及動態(tài)交通分配方法。美國明尼蘇達(dá)大學(xué)^［25^］對最大壓力控制方法^［²⁶^］進(jìn)行了針對TSP問題的優(yōu)化，提出了一種基于最大壓力控制算法的TSP方法，為公交車提供優(yōu)先級的約束，以實(shí)現(xiàn)非優(yōu)車輛的最大穩(wěn)定性和可靠的公交服務(wù)，實(shí)現(xiàn)BRT的自適應(yīng)TSP控制。Zhang等人^［27^］提出了一種自適應(yīng)TSP方法，采用D3QN算法以公交車和私家車總乘客等待時間為優(yōu)化目標(biāo)，求解最優(yōu)TSP策略，并在廣州BRT系統(tǒng)中進(jìn)行了以車輛等待時間為指標(biāo)的實(shí)驗(yàn)。

交通信號優(yōu)先控制領(lǐng)域仍面臨一些挑戰(zhàn)。自適應(yīng)信號控制雖可根據(jù)實(shí)時交通情況調(diào)整信號時間，但對交通流的突發(fā)或不尋常變化可能難以迅速適應(yīng)。協(xié)調(diào)多個交叉口的信號時間存在困難，優(yōu)先信號可能改善一個路口的車輛行駛時間，但也可能引發(fā)連鎖反應(yīng)，干擾下游路口的交通流。研究者傾向于采用基于交叉口的代理模型，模擬信號控制的決策行為，通過人工智能決策方法實(shí)現(xiàn)協(xié)同優(yōu)化。在私家車和優(yōu)先車輛協(xié)同決策時，需要解決博弈論中多方互動決策問題，通過分析各方策略、目標(biāo)和利益，設(shè)計(jì)交叉口信號控制方法，以最大程度實(shí)現(xiàn)協(xié)同效果。

2 八相位優(yōu)先信號模型

2.1 研究路線

本文提出一個新的TSP控制方法CBQL-TSP（cooperative bargaining games and Q-learning for transit signal priority），將TSP系統(tǒng)的交通信號問題建模成一個多智能體多動作空間的馬爾可夫模型，采用合作博弈策略來解決模型中關(guān)于優(yōu)先信號和非信號決策的問題，其中模型的優(yōu)化目標(biāo)是將總延遲時間和優(yōu)先車輛的最大延遲時間最小化。

CBQL-TSP 控制方法的設(shè)計(jì)過程如圖1所示。首先是對交通信號優(yōu)先問題的全面描述。該方法結(jié)合了博弈分析，重點(diǎn)關(guān)注優(yōu)先級車輛與非優(yōu)先級車輛之間的互動。這一分析為 CBQL 算法的實(shí)施奠定基礎(chǔ)。CBQL算法是一種動態(tài)學(xué)習(xí)方法，可調(diào)整兩類車輛的信號控制策略，以實(shí)現(xiàn)多智能體的貢獻(xiàn)均衡，確保在博弈論背景下獲得均衡和最優(yōu)解決方案?？紤]到優(yōu)先信號控制的復(fù)雜性，對交通信號優(yōu)先級環(huán)境進(jìn)行配置，根據(jù)算法得到的最優(yōu)策略對優(yōu)先信號配時。系統(tǒng)輸出交通優(yōu)先信號控制結(jié)果，驗(yàn)證CBQL-TSP的有效性。為了增強(qiáng)系統(tǒng)的適應(yīng)性，提出了八相位優(yōu)先信號控制方法，同時對核心參數(shù)進(jìn)行嚴(yán)格定義和整合，確保所提方法在動態(tài)控制交通信號的穩(wěn)定性和效率。

2.2 優(yōu)先車輛的元胞傳輸模型

利用短時交通流預(yù)測得到的數(shù)據(jù)在元胞傳輸模型CTM（cell transmission model）基礎(chǔ)上進(jìn)行建模。在 CTM 中，道路被離散化為單元，交通狀態(tài)的演變發(fā)生在離散的時間步長內(nèi)。本文將在這個單元框架內(nèi)表示公共汽車和非公共汽車的交通密度、流量和速度。

讓ρⁱ_bus和ρⁱ_non_-bus表示t 時刻i 單元中公交車和非公交車的密度，qⁱ_bus和qⁱ_non_-bus表示相應(yīng)的流量。速度vⁱ_bus和vⁱ_non_-bus表示i單元中公共汽車和非公共汽車的平均速度。

基于 CTM 的方程表達(dá)如下：

ρ^i，t+1_bus=ρ^i，t_bus+ΔtΔx（qⁱ^－1，t_bus－q^i，t_bus）

ρ^i，t+1_non_-bus=ρ^i，t_non_-bus+ΔtΔx（qⁱ^－1，t_non_-bus－q^i，t_non_-bus）（1）

其中：

q^i，t_bus=min（ρ^i，t_bus，v^i，t_bus·Δx）

q^i，t_non_-bus=min（ρ^i，t_non_-bus，v^i，t_non_-bus·Δx）（2）

單元i在時刻t的總密度ρ^i，t是公交密度和非公交密度之和：

ρ^i，t=ρ^i，t_bus+ρ^i，t_non_-bus（3）

如圖2所示，以6個交叉路口的交通網(wǎng)絡(luò)為例，該網(wǎng)絡(luò)包含10個起點(diǎn)和目的地。起點(diǎn)和目的地之間的路線選擇以及每條路線的交通流量比例已納入CTM。由于交叉口的相位數(shù)對CTM的結(jié)構(gòu)沒有很大的影響，所以模型易擴(kuò)展到非對稱網(wǎng)絡(luò)。

針對每個交叉口，研究使用鏈路相交的單元格表示。在鏈路中，交通流沿正反的移動方向分為上游發(fā)送區(qū)和下游接收區(qū)兩部分。并根據(jù)預(yù)測路線進(jìn)一步分為左轉(zhuǎn)、直行和右轉(zhuǎn)交通流。

如圖3所示中間黑色虛線的區(qū)域是決策區(qū)也是沖突區(qū)，用于模擬車輛的沖突行為。由于考慮了不同的車輛行駛路線，交叉路口的交通流存在復(fù)雜的合并和發(fā)散行為。每個信號控制單元（L_i，S_i和R_i）將交通流發(fā)散到交叉路口的三個下游接收區(qū)，同時每個接收區(qū)從三個上游發(fā)送區(qū)接收交通流。

2.3 八相位信號相序模型

本文將公交信號優(yōu)先權(quán)的實(shí)現(xiàn)視為信號相位序列的多步?jīng)Q策問題，并提出了一種八相位信號控制方法。該方法基于智慧公交的具體路線進(jìn)行制定，將交叉口信號控制相序分為優(yōu)先信號與非優(yōu)信號兩類進(jìn)行深入研究。圖4展示了根據(jù)不同優(yōu)先公交路線是直行還是左行，將交叉口信號劃分為八個相位模型的相位設(shè)計(jì)。在圖例的左行模型的相位中，相位1和8被定義為包含優(yōu)先公交線路的優(yōu)先相位；在圖例的直行模型的相位中，相位4、5和8則被確定為包含優(yōu)先公交線路的優(yōu)先相位。

由于交通信號配時具有無后效性，第3章將該問題建模為一個馬爾可夫決策過程（MDP）。這種決策模型能夠更好地捕捉信號相位序列的多步?jīng)Q策特性，有助于在智能交通系統(tǒng)中實(shí)現(xiàn)有效的公交信號優(yōu)先權(quán)控制。

3 合作博弈與強(qiáng)化學(xué)習(xí)混合決策方法

3.1 CBQL

本文提出一種基于合作博弈Q學(xué)習(xí)算法（cooperative bargaining Q-learning，CBQL）。

CBQL的核心思想是將合作博弈中夏普利值和邊際貢獻(xiàn)與Q-learning框架相結(jié)合，定義智能體合作決策。通過夏普利值和邊際貢獻(xiàn)，調(diào)節(jié)狀態(tài)轉(zhuǎn)移概率，使智能體在學(xué)習(xí)過程中根據(jù)合作博弈中的貢獻(xiàn)程度調(diào)整行為。在Q-learning學(xué)習(xí)過程中，智能體能夠更加有效地選擇動作，促進(jìn)合作學(xué)習(xí)進(jìn)展，達(dá)到更加公平和高效合作決策策略的目的。Q值函數(shù)定義如下：

Q^*（s，a）=E（s，a）+γ∑s′p（s′|s，a）v（s′，π^*）（4）

其中：Q^*（s，a）是在狀態(tài)s中采取行動a并遵循最優(yōu)策略的總折現(xiàn)獎勵；E（s，a）是即時獎勵，表示狀態(tài)s下采取行動a得到的即時回報(bào)；γ是折現(xiàn)系數(shù)，表示學(xué)習(xí)隨著時間推移的衰減率；π^*是最優(yōu)策略，是使得從任何狀態(tài)s開始的期望累積獎勵最大化的策略。

采用Shapley value函數(shù)求解由Q定義的當(dāng)前博弈各成員的邊際貢獻(xiàn)C。記I={1，2，…，N}為N個博弈成員的集合，定義i為其中一個成員，則vⁱ_Shapley表示成員i的夏普利值，即成員i的貢獻(xiàn)度，可以表示為

vⁱ_Shapley（v）=∑SN＼{i}ω（|S|）·C（5）

其中：S是N的一個不包括參與者i子集。邊際貢獻(xiàn)C是聯(lián)盟收益與去掉成員i后聯(lián)盟收益之差，即成員i對聯(lián)盟帶來的增益貢獻(xiàn)，也叫邊際貢獻(xiàn)。成員i在聯(lián)盟中的邊際貢獻(xiàn)C可以表示為

C=v（s）－v（S＼{i}）（6）

其中：v表示合作博弈的特征函數(shù)，定義每個可能的聯(lián)盟（包含一個或多個參與者）所獲得的價(jià)值或收益；

ω是聯(lián)盟中的權(quán)重因子，ω的計(jì)算公式為

ω（|S|）=|S|?。╪－|S|－1）！n！（7）

其中：n表示聯(lián)盟中合作人的總數(shù)；|S|是集合S元素的個數(shù)。

在夏普利值計(jì)算過程中，研究對所有可能的合作組合S進(jìn)行遍歷，并計(jì)算參與者i加入組合之后的新增貢獻(xiàn)，再對所有組合的新增貢獻(xiàn)進(jìn)行加權(quán)平均，其中的權(quán)重根據(jù)組合的大小決定。

在時間步長t處agent觀察當(dāng)前狀態(tài)s并采取行動，然后觀察自己的獎勵Rⁱ_t、其他agent的行動、其他agent的獎勵R′_t以及新的狀態(tài)s′。根據(jù)式（4）（5），CBQL的Q值為

H_ShapleyQ（s，a）=（1－a_t）Qⁱ_t（s，a）+a_t［Eⁱ_t+γvⁱ_Shapley（v）］（8）

根據(jù)各成員的夏普利值改進(jìn)對Q函數(shù)的估計(jì)。不斷迭代上式直到Q值滿足終止條件。對于所有s∈S，a∈A的Q（s，a）的初始化，Q值的更新方程為

Q_t+1（s_t，a_t）←（1－a_t）Q（s_t，a_t）+a_t［E_t+γmax_a_′Q_t（s_t+1，a_t+1）］（9）

其中：a_t表示在選擇動作a時收到最大回報(bào)在所有回報(bào)中所占比例的估計(jì)值。

a_t=1 E_tgt;Q_max（a）

（1－a_f）a_t+a_f E_t=Q_max（a）

（1－a_f）a_t E_tlt;Q_max（a）（10）

其中：a_f是學(xué)習(xí)率。對于每個動作a，算法在計(jì)算更新Q 值的同時，記錄在過去經(jīng)歷中該動作下智能體曾獲得的最大回報(bào)Q_max。

混合決策的策略更新方式是逐步增加選擇Q最大的動作的概率，減少其他動作被選擇的概率：

π（s，a）←π（s，a）+a_f if a=arg max_a_′Q（s，a′）

－a_f|A|－1others（11）

CBQL算法的偽代碼如下：

算法1 CBQL算法

初始化

設(shè)定時間步 t=0

獲取初始狀態(tài) s₀

設(shè)學(xué)習(xí)代理由 i 索引

循環(huán)：

對于所有代理 i ：

根據(jù)夏普利值選擇一個動作aⁱ_t

執(zhí)行動作aⁱ_t，轉(zhuǎn)移到下一個狀態(tài)s_（t+1）=s′，環(huán)境返還獎勵r

更新代理i的Q值：

H_ShapleyQ（s，a）=（1－a_t）Qⁱ_t（s，a）+a_t［Eⁱ_t+γvⁱ_Shapley（v）］

其中a_t∈（0，1）是學(xué)習(xí)率， γ是折現(xiàn)系數(shù)

將時間步t增加1

如果滿足終止條件：

退出循環(huán)

3.2 混合決策方法

本文提出一個基于CBQL的八相位TSP方法（CBQL-TSP），根據(jù)3.1節(jié)所提CBQL決策算法，解決八相位優(yōu)先信號控制決策問題。將TSP系統(tǒng)建模為一個MDP模型，第2章提出的八相位信號相序模型將作為依據(jù)定義MDP的動作空間集合。

為了解決TSP問題，需要將交通信號的狀態(tài)和相應(yīng)的控制方案映射到智能體的狀態(tài)空間中。將交叉口信號控制智能體k的狀態(tài)表示為一個向量s_k［j］，包含P+3個分量j，其中P是當(dāng)前交叉口的相位數(shù)量，分量j=0，1，…，P+2。前三個分量是：當(dāng)前處于綠燈階段的相位、當(dāng)前相位的綠信比λ和當(dāng)前相位信號周期時長T，剩下P個分量對應(yīng)于每個相位的當(dāng)前交通流量。狀態(tài)向量的公式如下：

s_k［j］=φ^k j=0λ_a^k j=1T_a^k j=2Q^k［j－3］j∈{3，…，P+2}（12）

MDP的狀態(tài)空間集合為S=［S₁，…，S_k，…，S_n］，其中n是交叉口的數(shù)量，根據(jù)式（12），狀態(tài)空間包括綠燈相位φ、綠信比λ、信號周期T、以及每個相位的當(dāng)前交通流量Q［j］，則交叉口k的狀態(tài)向量為s_k={f_k，λ_k，T_k，Q_k［0］，…，Q_k［P-1］}。

MDP的動作空間為集合A={a₁，a₂，…，a₈}，集合中元素分別對應(yīng)2.3節(jié)提出的八個優(yōu)先信號相位。其中a_i表示信號將從當(dāng)前相位執(zhí)行動作a_i至相位i狀態(tài)。agent采取獨(dú)立于其他狀態(tài)下的任何行動a∈A（s）A時，系統(tǒng)狀態(tài)s∈S隨著動作的執(zhí)行而改變，其中A（s）是在狀態(tài)s∈S中可用的行動集合。

A=∪s∈SA（s）（13）

V∈2^{{i， j}}表示成員i和j形成的聯(lián)盟。遍歷所有可能的聯(lián)盟TV，并將他們的特征函數(shù)值相加，得到成員i的回報(bào)期望：

E_i（V）=∑TVR（T）=∑TVα·v_j+β·v_if_j+ω·f_i（14）

其中：v_i和v_j分別表示公交車和私家車的平均行駛速度； f_i和f_j分別表示公交車和私家車的交通流量；α、β和ω是調(diào)節(jié)參數(shù)。獎勵參數(shù)α用于調(diào)整不同因素獎勵的總體規(guī)模，控制整體獎勵規(guī)模，速度參數(shù)β用于調(diào)節(jié)公交車速度對獎勵的影響，流量參數(shù)ω用于調(diào)整公交車流量對獎勵的影響。

根據(jù)式（8）（14），CBQL的Q函數(shù)可以表示為

H_ShapleyQ（s，a）=（1－a_t）Qⁱ_t（s，a）+a_t［∑TVRⁱ_t（T）+γvⁱ_Shapley（v）］（15）

CBQL-TSP方法的基本思想是將交通環(huán)境的當(dāng)前狀態(tài)傳遞給兩個模型。CB模型根據(jù)狀態(tài)計(jì)算動作轉(zhuǎn)移概率，根據(jù)動作轉(zhuǎn)移概率選擇動作。動作執(zhí)行會改變環(huán)境狀態(tài)，形成下一個動作間隔的新狀態(tài)，新狀態(tài)被評估實(shí)時獎勵。實(shí)時獎勵和新狀態(tài)被傳遞到QL模型。計(jì)算從執(zhí)行動作到該特定狀態(tài)的Q值，而CB通過使用QL計(jì)算的Q值來更新其策略參數(shù)。CB根據(jù)更新的Q值和新狀態(tài)計(jì)算下一個動作，同時QL模型更新自身權(quán)重。CBQL-TSP的框架如圖5所示。

其中CBQL-TSP采用時序差分誤差TD_error來調(diào)節(jié)狀態(tài)轉(zhuǎn)移概率。不同于傳統(tǒng)Q-learning，CBQL算法中的動作選擇取決于邊緣貢獻(xiàn)，而非直接使用Q值函數(shù)。TD誤差評估預(yù)期值與實(shí)際值之間的差異。采用TD誤差來調(diào)整狀態(tài)轉(zhuǎn)移概率增強(qiáng)智能體與環(huán)境的適應(yīng)能力。盡管動作選擇取決于邊緣貢獻(xiàn)，但Q值函數(shù)仍然通過其更新過程來輔助算法的學(xué)習(xí)過程。Q值函數(shù)的更新基于智能體與環(huán)境的交互，反映了智能體對狀態(tài)-動作對的價(jià)值估計(jì)。CBQL算法綜合了邊緣貢獻(xiàn)和Q值函數(shù)信息，以優(yōu)化智能體學(xué)習(xí)過程和策略改進(jìn)。其中TD誤差公式為

TD_error=E_t+γmax_a_′Q_t（s_t+1，a_t+1）－Q_t（s_t，a_t）（16）

CBQL-TSP提供了一個基本的理論和結(jié)構(gòu)，用于解決交通信號控制的優(yōu)化問題。圖6描述了CBQL-TSP從初始化到最終決策的過程。

4 仿真和測試

為了測試本文提出的聯(lián)合控制策略的效果，進(jìn)行實(shí)驗(yàn)驗(yàn)證及面向城市區(qū)域交通環(huán)境的應(yīng)用驗(yàn)證。實(shí)驗(yàn)采用擁有Python 接口的微觀交通仿真軟件PARAMICS 創(chuàng)建一個包含公交專用道的交叉口的路網(wǎng)模型來定義研究區(qū)域。

4.1 仿真平臺構(gòu)建

大連市高新區(qū)擁有兩條優(yōu)先車輛專用車道，經(jīng)過調(diào)查該道路在高峰期車流量足夠大，適宜作為實(shí)驗(yàn)對象。首先將車道的相關(guān)地圖信息轉(zhuǎn)換成OpenStreetMap 格式，包括每個路段的屬性，如限速、交通量和車道數(shù)等。然后通過PARAMICS 的外部地圖導(dǎo)入功能部署到模擬設(shè)置中。

如圖7所示，為了建立一個包含五個協(xié)調(diào)交叉口的測試通道，首先收集了大連市10路公交車在這些交叉口運(yùn)行時的交通流量數(shù)據(jù)。然后對這些數(shù)據(jù)進(jìn)行預(yù)處理，以滿足PARAMICS仿真軟件的格式要求。這包括對數(shù)據(jù)進(jìn)行整理，使其包括車輛位置、速度、方向和其他相關(guān)參數(shù)等關(guān)鍵信息，詳細(xì)參數(shù)設(shè)置如表1所示。

數(shù)據(jù)準(zhǔn)備完畢后，將按照PARAMICS的輸入規(guī)格進(jìn)行格式化。這確保了與模擬軟件的兼容性，以便進(jìn)一步分析。格式化后的數(shù)據(jù)文件通過PARAMICS軟件提供的數(shù)據(jù)導(dǎo)入工具無縫部署到PARAMICS中。

在 PARAMICS 環(huán)境中，沿指定通道配置了五個交叉口。這些交叉口被設(shè)置為協(xié)調(diào)交叉口，允許同步交通信號控制和穿越通道的車輛之間的互動。所有交叉口的道路都有兩條直行車道和一條專用左轉(zhuǎn)車道。總體交通量處于中等擁堵水平，2和3號交叉口接近飽和，整體效果如圖8所示。

在測試通道上設(shè)置了兩條公交專用線路，一條向東，一條向西。在模擬中，所有公交車的最大速度都設(shè)置為50 km/h，比私家車慢約10 km/h。兩條巴士路線的首站和末站均被視為主要站點(diǎn)，其預(yù)定發(fā)車時間是已知的。公交線路的基本情況如表2所示。其中自由行駛時間指在沒有交通擁堵或其他干擾情況下，車輛在道路上自由行駛所需的時間。最后一列表示沒有使用交通信號優(yōu)先（TSP）情況下晚點(diǎn)0～40 s的公交占總公交車數(shù)量的比例。

最后驗(yàn)證網(wǎng)絡(luò)模型，以確保它準(zhǔn)確地代表道路網(wǎng)絡(luò)和信號控制要求。通過以上步驟，實(shí)驗(yàn)在PARAMICS 上部署了需要信號控制并具有優(yōu)先道路的交叉口網(wǎng)絡(luò)模型，作為本文的優(yōu)先信號控制的研究平臺。后續(xù)實(shí)驗(yàn)將分析不同情況，并評估各種控制策略在優(yōu)化通道性能方面的有效性。

4.2 對比算法

實(shí)驗(yàn)選擇了三種近期效果較好的TSP控制方法作為對比算法。a）基于微觀模擬的TSP算法（簡稱MB-TSP）^［7^］，屬于被動式TSP；b）基于最大壓力控制算法的主動式TSP（簡稱MP-TSP）^［25^］；c）考慮公交信號優(yōu)先的自適應(yīng)信號控制（簡稱ASC-TSP），屬于自適應(yīng)TSP^［27^］。值得注意的是，本文只對內(nèi)置公交專用道的道路給予公交信號優(yōu)先權(quán)，而當(dāng)BRT線路上沒有公交專用道時，本仿真中的任何信號控制器都將無法實(shí)現(xiàn)公交信號優(yōu)先。在此模擬中，網(wǎng)絡(luò)中的公交專用道沒有沖突的運(yùn)動，對于本文中的所有交通信號控制策略，公交信號優(yōu)先策略是相同的。

4.3 穩(wěn)定性對比

首先，對于穩(wěn)定性的定義：如果網(wǎng)絡(luò)中私家車的數(shù)量能保持一個有界的期望，那么就認(rèn)為該網(wǎng)絡(luò)是穩(wěn)定的。也就存在一個slt;∞，滿足

limT→∞sup{1T∑Tt=1 ∑（i ， j）∈A^2?{x^P_ij（t）}}≤s（17）

在此基礎(chǔ)上，研究測試網(wǎng)絡(luò)中的私家車總數(shù)是否隨著時間的推移而增加，在不同的私家車需求水平設(shè)置下，公交車發(fā)車間隔為30 min。當(dāng)私家車需求量在穩(wěn)定區(qū)域內(nèi)時，私家車平均保有量將收斂于一個常數(shù)。對于不穩(wěn)定的需求，私人車輛的平均數(shù)量將增加到任意大的數(shù)量。

圖9比較了MP-TSP、MB-TSP、ASC-TSP 和CBQL-TSP 的平均等待私家車數(shù)的結(jié)果。在相同的私家車需求量設(shè)置下，CBQL-TSP 的私家車等待數(shù)均小于MP-TSP、MB-TSP、ASC-TSP 的實(shí)驗(yàn)結(jié)果。此外，當(dāng)私家車總數(shù)從6k增加到8k時，四種方法的平均等待私家車數(shù)都有所增加，相比于MB-TSP 和ASC-TSP、MP-TSP 和CBQL-TSP 均有更好的穩(wěn)定區(qū)域，而CBQL-TSP 則具有更低的等待私家車數(shù)量。這些結(jié)果表明，CBQL-TSP比MP-TSP、MB-TSP、ASC-TSP 具有更大的穩(wěn)定區(qū)域，并且能夠在更高的私家車需求量下保持網(wǎng)絡(luò)的穩(wěn)定。

信號優(yōu)先策略是否對交叉口的穩(wěn)定區(qū)域產(chǎn)生影響是一項(xiàng)必要的研究。在不同的私家車需求量設(shè)置下（7k和9k需求量）進(jìn)行了對比分析，涉及經(jīng)典相位下CBQL 信號控制（CBQL-noTSP）以及在不同發(fā)車間隔（20 min和30 min）下采用八相位信號TSP 方法控制的情況（CBQL-TSP）。如圖10所示，本文通過對各種條件下私家車在網(wǎng)絡(luò)中平均等待量的研究，發(fā)現(xiàn)在相同的需求設(shè)置下，采用CBQL-noTSP策略時，等待私家車的數(shù)量最少。產(chǎn)生這種結(jié)果是可預(yù)見的，因?yàn)槿绻诮徊婵谠O(shè)置公交優(yōu)先信號控制，勢必會減少私家車的通行權(quán)。

當(dāng)公交車的發(fā)車頻率增加（即發(fā)車間隔縮短），采用CBQL-TSP 策略時等待私家車的數(shù)量增加。這個結(jié)果是合理的，因?yàn)殡S著公交需求的增加，給予公交車優(yōu)先通行的時間也相應(yīng)增多。與此同時本文發(fā)現(xiàn)當(dāng)需求量從7k增加到9k時，無論是CBQL-noTSP 還是CBQL-TSP 在網(wǎng)絡(luò)中等待的私家車數(shù)量都增加了約300輛。相同條件下，當(dāng)信號優(yōu)先策略從CBQL-noTSP 改變成CBQL-TSP 時，在網(wǎng)絡(luò)中增加的私家車等待數(shù)量都保持一個穩(wěn)定的數(shù)值，大約是10輛。這說明了在不同需求水平下本文算法對于私家車等待數(shù)量的影響較小且穩(wěn)定。

4.4 通行時間對比

除了穩(wěn)定性的對比，探究公交信號優(yōu)先是如何影響網(wǎng)絡(luò)層面的車輛行程時間也是必要的。在30 min 公交車發(fā)車間隔時間的情況下，CBQL-TSP、ASC-TSP、MP-TSP 和MB-TSP 的公交車平均通行時間如圖11所示。隨著私家車需求量的不斷增加，車輛在路段和交叉口上花費(fèi)的時間也越來越多，車輛在路段和交叉口上的通行時間也逐漸增加，這是可以預(yù)見的。在私家車需求量從5 000 輛/h逐漸增加至13 000 輛/h的過程中，分析公交車通過測試通道的通行時間。初始階段隨著私家車數(shù)量的增加，公交車的通行時間也增加，這是由于交通擁堵導(dǎo)致的。然而，當(dāng)私家車需求量達(dá)到一定程度（例如11 000 輛/h）時，公交車的通行時間不再隨私家車數(shù)量的增加而增加，這表明采取的多種方法有效地緩解了交通擁堵。然而，當(dāng)私家車的需求量繼續(xù)增加并達(dá)到更高水平（例如13 000 輛/h），交通擁堵可能會進(jìn)一步加劇，導(dǎo)致公交車的通行時間再次增加。

其中MB-TSP 的平均通行時間最長，MP-TSP和ASC-TSP的效果在不同私家車需求量的情況下表現(xiàn)各有優(yōu)勢。本文算法在任何需求量的情況下對比其他三種算法都有更短的平均公交通行時間，尤其當(dāng)私家車需求量在7k至10k的時候效果更為明顯。

為了更好地進(jìn)行比較，研究將實(shí)驗(yàn)結(jié)果匯總在表3中。MB-TSP，MP-TSP和ASC-TSP的平均通行時間分別為868.53 s、599.19 s以及603.00 s。CBQL-TSP的平均通行時間約為520.63 s，對比其他算法在平均通行時間上減少了約24.57%。

在公交車實(shí)施聯(lián)合決策控制和公交信號優(yōu)先的情況下，測試其在干道的行程時間波動。實(shí)驗(yàn)比較在一個固定的時間段內(nèi)，不考慮信號優(yōu)先的最大壓力控制（簡稱為MP-noTSP）、ASC-TSP、MP-TSP、MB-TSP、CBQL-noTSP 和CBQL-TSP 六種算法下公交車通過5個交叉口的平均通行時間。私家車需求量設(shè)置從6 000 輛/h逐漸增加到13 000 輛/h。

公交車平均通行時間的實(shí)驗(yàn)結(jié)果如圖12所示。隨著私家車的需求量增加，五種公交信號控制方法的公交車在測試干道的平均行程時間都不斷增加。MP-noTSP下公交車平均通行時間最高，相比之下CBQL-noTSP可以降低一些中心城區(qū)公交車平均行程時間，但不是最優(yōu)的。

沒有公交信號優(yōu)先（FT-noTSP和CBQL-noTSP）時公交車在市中心區(qū)的平均行程時間均大于公交信號優(yōu)先的交通信號控制方法（MB-TSP、ASC-TSP 和CBQL-TSP）下的公交車行程時間。與MB-TSP、FT-noTSP 和MP-noTSP相比，ASC-TSP 基于更多的循環(huán)檢測器，所以它的效果是第二好的。最后，研究發(fā)現(xiàn)當(dāng)兩個公交車發(fā)車間隔設(shè)置為30 min的情況下，CBQL-TSP 下公交車在市中心區(qū)的通行時間相對較少。表4是實(shí)驗(yàn)結(jié)果的具體數(shù)據(jù)。

CBQL-TSP的市中心公交車平均通行時間約為468.22 s，而CBQL-noTSP的市中心公交車平均通行時間約為747.93 s，TSP使市中心公交車平均通行時間減少約37.40%。而MB-TSP、ASC-TSP和MB-TSP的市中心公交車平均通行時間分別為491.50 s、526.79 s和568.28 s，CBQL-TSP對比三種TSP在市中心公交車平均通行時間上減少約11.46%。

5 結(jié)束語

本文提出了一種八相位優(yōu)先信號控制方法，將信號控制相序分為優(yōu)先信號與非優(yōu)信號進(jìn)行研究。構(gòu)建混合決策模型，研究優(yōu)先信號與非優(yōu)信號的合作博弈，通過求解夏普利值函數(shù)得到合作博弈各成員的夏普利值比例，根據(jù)夏普利值比例得到MDP狀態(tài)轉(zhuǎn)移概率。設(shè)計(jì)對比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明提出方法在具有公交優(yōu)先的路口具有更好的穩(wěn)定性，并且整體平均通行時間對比其他TSP方法減少了約24.57%，公交平均通行時間對比無TSP方法減少約37.40%。本文實(shí)現(xiàn)了基于合作博弈和強(qiáng)化學(xué)習(xí)的公交信號優(yōu)先策略，從邊際貢獻(xiàn)的角度平衡車輛優(yōu)先權(quán)，通過對交叉口優(yōu)先權(quán)的合理分配，提高了公共車輛在交叉口的通行效率，同時也保證了私家車輛的通行效率，使交叉口整體運(yùn)行更加高效。本文方法不僅提升了交通系統(tǒng)的整體性能，還增強(qiáng)了城市交通的可持續(xù)性和公平性，為所有道路使用者創(chuàng)造更加平衡和高效的行駛環(huán)境。對于未來的研究方向，可以引入多級優(yōu)先信號控制系統(tǒng)，尤其是對優(yōu)先級進(jìn)行內(nèi)部分層方面，仍然有待提出進(jìn)一步解決方案?？梢钥紤]引入機(jī)器學(xué)習(xí)算法，根據(jù)優(yōu)先車輛的交通行為模式和影響，對優(yōu)先級進(jìn)行細(xì)粒度控制，進(jìn)一步優(yōu)化優(yōu)先信號控制方法。

參考文獻(xiàn)：

［1］Lahon D. Modeling transit signal priority and queue jumpers for BRT ［J］. ITE Journal， 2011， 81（12）： 20-24.

［2］Wang Jingwei， Han Yin， Li Peng. Integrated robust optimization of scheduling and signal timing for bus rapid transit［J］. Sustainability， 2022， 14（24）： 16922.

［3］Sperry R. Urban traffic control and bus priority system［J］. Design And Installation， 1972， 1： 1-22.

［4］Zhang Tong， Mao Baohua， Xu Qi， et al. Timetable optimization for a two-way tram line with an active signal priority strategy［J］. IEEE Access， 2019， 7： 176896-176911.

［5］Liu Minglei， Zhang Huizhen， Chen Youqing， et al. An adaptive ti-ming mechanism for urban traffic pre-signal based on hybrid exploration strategy to improve double deep Q network［J］. Complex amp; Intelligent Systems， 2023， 9（2）： 2129-2145.

［6］Li Jiajie， Bai Yun， Chen Yao， et al. A two-stage stochastic optimization model for integrated tram timetable and speed control with uncertain dwell times［J］. Energy， 2022， 260： 125059.

［7］Ni Yingchuan， Lo Hsienhao， Hsu Yuting， et al. Exploring the effects of passive transit signal priority design on bus rapid transit operation： a microsimulation-based optimization approach［J］. Transportation Letters， 2022， 14（1）： 14-27.

［8］Gu Weihua， Mei Yu， Chen Haoyu， et al. An integrated intersection design for promoting bus and car traffic［J］. Transportation Research Part C： Emerging Technologies， 2021， 128： 103211.

［9］Cvijovic Z， Zlatkovic M， Stevanovic A. Multi-level conditional transit signal priority in connected vehicle environments［J］. Journal of Road and Traffic Engineering， 2021， 67（2）： 1-12.

［10］Truong L T， Currie G， Wallace M， et al. Coordinated transit signal priority model considering stochastic bus arrival time［J］. IEEE Trans on Intelligent Transportation Systems， 2019， 20（4）： 1269-1277.

［11］Xu Mingtao， An Kun， Ye Zhirui， et al. A bi-level model to resolve conflicting transit priority requests at urban arterials［J］. IEEE Trans on Intelligent Transportation Systems， 2019， 20（4）： 1353-1364.

［12］Zeng Xiaosi， Zhang Yunlong， Jiao Jian， et al. Route-based transit signal priority using connected vehicle technology to promote bus schedule adherence［J］. IEEE Trans on Intelligent Transportation Systems， 2021， 22（2）： 1174-1184.

［13］Seredynski M， Laskaris G， Viti F. Analysis of cooperative bus priority at traffic signals［J］. IEEE Trans on Intelligent Transportation Systems， 2020， 21（5）： 1929-1940.

［14］Zhao Xuanming， Mo Hong， Yan Kefu， et al. Type-2 fuzzy control for driving state and behavioral decisions of unmanned vehicle［J］. IEEE/CAA Journal of Automatica Sinica， 2019， 7（1）： 178-186.

［15］Fournier N. Hybrid pedestrian and transit priority zoning policies in an urban street network： evaluating network traffic flow impacts with analytical approximation［J］. Transportation Research Part A： Policy and Practice， 2021， 152： 254-274.

［16］Zhang Changlong， Yang Xiaodong， Wei Jimin， et al. Cooperative transit signal priority considering bus stops under adaptive signal control［J］. IEEE Access， 2023， 11： 66808-66817.

［17］Ma Dongfang， Zhou Bin， Song Xiang， et al. A deep reinforcement learning approach to traffic signal control with temporal traffic pattern mining［J］. IEEE Trans on Intelligent Transportation Systems， 2022， 23（8）： 11789-11800.

［18］翟子洋，郝茹茹，董世浩. 大規(guī)模智慧交通信號控制中的強(qiáng)化學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)方法綜述［J］. 計(jì)算機(jī)應(yīng)用研究， 2024， 41（6）： 1618-1627. （Zhai Ziyang， Hao Ruru， Dong Shihao. Review of reinforcement learning and deep reinforcement learning methods in large-scale intelligent traffic signal control［J］. Application Research of Computers， 2024， 41（6）： 1618-1627.）

［19］Li Hui， Li Shuxin， Zhang Xu. Coordination optimization of real-time signal priority of self-driving buses at arterial intersections considering private vehicles［J］. Applied Sciences， 2023， 13（19）： 10803.

［20］Kolat M， K?vári B， Bécsi T， et al. Multi-agent reinforcement lear-ning for traffic signal control： a cooperative approach［J］. Sustainability， 2023， 15（4）： 3479.

［21］Liang Xiaoyuan， Du Xunsheng， Wang Guiling， et al. A deep reinforcement learning network for traffic light cycle control［J］. IEEE Trans on Vehicular Technology， 2019， 68（2）： 1243-1253.

［22］Qin Ziye， Ji Ang， Sun Zhanbo， et al. Game theoretic application to intersection management： a literature review［EB/OL］. （2023-11-21）. https：//arxiv.org/abs/2311.12341.

［23］Abdoos M. A cooperative multiagent system for traffic signal control using game theory and reinforcement learning［J］. IEEE Intelligent Transportation Systems Magazine， 2021， 13（4）： 6-16.

［24］Islam T， Vu H L， Hoang N H， et al. A linear bus rapid transit with transit signal priority formulation［J］. Transportation Research Part E： Logistics and Transportation Review， 2018， 114： 163-184.

［25］Xu Te， Barman S， Levin M W， et al. Integrating public transit signal priority into max-pressure signal control： methodology and simulation study on a downtown network［J］. Transportation Research Part C： Emerging Technologies， 2022， 138： 103614.

［26］Varaiya P. Max pressure control of a network of signalized intersections［J］. Transportation Research Part C： Emerging Techno-logies， 2013， 36： 177-195.

［27］Zhang Xinshao， He Zhaocheng， Zhu Yiting， et al. DRL-based adaptive signal control for bus priority service under connected vehicle environment［J］. Transportmetrica B： Transport Dynamics， 2023， 11： 1455-1477.

計(jì)算機(jī)應(yīng)用研究2024年11期

計(jì)算機(jī)應(yīng)用研究的其它文章: 下期要目; 基于參考單元編碼失真時域影響的率失真優(yōu)化算法; 雙U型門控網(wǎng)絡(luò)融合非局部先驗(yàn)的圖像壓縮感知重建方法; 基于自分塊輕量化Transformer的醫(yī)學(xué)圖像分割網(wǎng)絡(luò); 區(qū)域時間變化學(xué)習(xí)的行為識別; 融合物理信息的多材料模擬學(xué)習(xí)模型

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于合作博弈和強(qiáng)化學(xué)習(xí)的優(yōu)先信號控制方法