亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

對(duì)策論下的交叉口TSCA 間的多交互學(xué)習(xí)

2014-02-28 06:10:17夏新海

重慶交通大學(xué)學(xué)報(bào)(自然科學(xué)版) 2014年1期

夏新海

(廣州航海學(xué)院港口與航運(yùn)管理學(xué)院，廣東廣州 510725)

對(duì)交叉口設(shè)置一個(gè)信號(hào)控制Agent，稱為TSCA(Traffic Signal Control Agent)，其主要功能是針對(duì)本交叉口當(dāng)前交通流的狀態(tài)制定相應(yīng)的控制策略，讓執(zhí)行裝置執(zhí)行，進(jìn)而改善本交叉口交通流環(huán)境。路網(wǎng)中交叉口之間交通流是相互關(guān)聯(lián)的。由于對(duì)策論是研究理性的主體之間沖突及合作的理論，也是研究人類社會(huì)交互的最佳數(shù)學(xué)工具，因此非常適合協(xié)調(diào)交叉口TSCA之間的關(guān)系。目前對(duì)策論主要應(yīng)用在交通誘導(dǎo)中交通管理者和出行者之間的博弈分析。劉建美，等[1]建立了誘導(dǎo)-出行信號(hào)博弈模型。有文獻(xiàn)初步探討了博弈論進(jìn)行交叉口交通信號(hào)交互研究，馬壽峰[2]、Shahaboddin[3]利用Q學(xué)習(xí)及二人非零和合作型對(duì)策來進(jìn)行交叉口間的信號(hào)協(xié)調(diào)控制，但假定交叉口TSCA的效用值為公共知識(shí)；李振龍，等[4]應(yīng)用對(duì)策論的Nash平衡理論建立了交叉口之間的交互模型并給出協(xié)調(diào)算法；I.Alvarez，等[5]利用馬爾科夫決策過程為交叉口交通信號(hào)控制進(jìn)行建模，在每一迭代過程中求得Stackelberbg平衡和Nash平衡，但其研究的為孤立交叉口。由于單交互學(xué)習(xí)方法不考慮歷史上的交互，只根據(jù)交叉口TSCA本身的先驗(yàn)知識(shí)決策，在知識(shí)不完備的情形下無法達(dá)到協(xié)調(diào)。而標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)方法僅考慮最近一次的交互信息，因此筆者采用多交互學(xué)習(xí)方法進(jìn)行信號(hào)控制。

1 交叉口TSCA多交互數(shù)學(xué)模型

利用對(duì)策論的Nash平衡理論構(gòu)建交叉口TSCA多交互數(shù)學(xué)模型，可用如式(1)中的3元組表示：

(1)

2 交叉口TSCA間博弈交互過程

Step 1：當(dāng)交叉口TSCA 1在預(yù)測(cè)某相位排隊(duì)車輛數(shù)超過閥值時(shí)，向相鄰的交叉口TSCA 2發(fā)出交互請(qǐng)求，如用車輛排隊(duì)數(shù)表示的效用矩陣值。

Step 2：相鄰的交叉口TSCA 2收到交互請(qǐng)求并響應(yīng)，并對(duì)相鄰交叉口TSCA1的類型(即下一周期到達(dá)的車流量的大小)進(jìn)行預(yù)測(cè)，按照多交互數(shù)學(xué)模型求解納什均衡策略。

Step 3：若納什均衡策略存在，TSCA 2同時(shí)將計(jì)算得到的TSCA 1應(yīng)執(zhí)行的行為發(fā)送給TSCA 1，即TSCA 1和TSCA 2按照均衡策略執(zhí)行；若納什均衡策略不存在，則交互結(jié)束，各交叉口采用自主定時(shí)信號(hào)控制策略。

在交互過程中，可以引入一些規(guī)則如綠波帶思想。如某一交叉口TSCA某一相位車輛數(shù)超過閥值，向下游交叉口TSCA發(fā)送交互請(qǐng)求時(shí)，下游交叉口TSCA根據(jù)其知識(shí)模型中的路段長(zhǎng)度及路段上車輛的平均速度計(jì)算上游交叉口放行的車輛到達(dá)下游交叉口的時(shí)間，并在此時(shí)刻將對(duì)應(yīng)相位放綠燈。

3 交叉口TSCA間多交互學(xué)習(xí)算法

開始：

k=0，初始化交叉口TSCA水平參數(shù)[βi(交叉口i交通狀態(tài)變化的概率)，pi]以及路網(wǎng)參數(shù)[γ(路網(wǎng)交通狀態(tài)變化的概率),α(交叉口TSCA學(xué)習(xí)概率)，r(交叉口TSCA與相鄰交叉口TSCA交互幅度)，K(最大交互次數(shù)限制),δ( 記憶因子)]。

當(dāng)沒有達(dá)到最大限制交互次數(shù)K，對(duì)于路網(wǎng)中每一交叉口TSCAi重復(fù)如下過程:

k=k+1

While路網(wǎng)交通狀況沒有發(fā)生變化

調(diào)查交叉口交通狀況

While not 交叉口TSCA狀態(tài)變化期間

While not 學(xué)習(xí)期間

結(jié)束(與上第1個(gè)while對(duì)齊)

其中，當(dāng)交叉口TSCA間進(jìn)行信號(hào)學(xué)習(xí)時(shí)，可能考慮到由安全規(guī)則引起的一般的約束,如最小(大)綠燈時(shí)間要求等。

4 實(shí)例分析

將多交互學(xué)習(xí)方法與下面兩種控制策略進(jìn)行比較：

1)隨機(jī)策略。初始策略對(duì)應(yīng)于均勻隨機(jī)策略，即采用softmax函數(shù)對(duì)所有相位分配相同的概率；

2)均勻策略。對(duì)所有相位分配相等的時(shí)長(zhǎng)，其中相位遵守固定的順序。

用到的交通情景見圖1。設(shè)置東西和南北兩個(gè)相位，每條路的兩個(gè)末端交叉口作為車輛的起始結(jié)點(diǎn)和終止結(jié)點(diǎn)，這些交叉口的TSCA的控制策略對(duì)網(wǎng)絡(luò)沒有影響，而其他3個(gè)交叉口作為控制路口。道路長(zhǎng)度設(shè)為3個(gè)時(shí)間單位，則每輛車最大行駛時(shí)間為12個(gè)時(shí)間單位。

圖1 用到的交通網(wǎng)絡(luò)Fig.1 Traffic network used in the simulation

東西方向和北南方向進(jìn)入系統(tǒng)的交通量分別是時(shí)間的正弦和余弦函數(shù)，因此，中心交叉口的交通需求也隨著時(shí)間振蕩。上游交叉口釋放周期性的突發(fā)交通流后，在道路行進(jìn)過程中消散，因此此情景建立了一個(gè)具有某種形式的快速變化需求的模型，具有一定的現(xiàn)實(shí)意義。

令cn(t)為在時(shí)間步0t從北向進(jìn)入系統(tǒng)的車輛數(shù)，cw(t)為從西向進(jìn)入的車輛數(shù)，其計(jì)算如下：

cn(t)=[(sin(f(t))+1)/2*base_num]

cw(t)=[(cos(f(t))+1)/2*base_num]

式中：f(t)是當(dāng)前時(shí)間步的函數(shù),base_num是系統(tǒng)產(chǎn)生的平均車輛數(shù)，這里設(shè)置f(t)=πt/10，base_num=3，這樣經(jīng)過20時(shí)間步后完成了一個(gè)周期。

4.1 有效性分析

采用平均車輛行駛時(shí)間作為性能指標(biāo)，多交互學(xué)習(xí)算法到達(dá)穩(wěn)定狀態(tài)后的運(yùn)算超過100 000次，截止時(shí)間是887 150 s。多交互學(xué)習(xí)方法取得了良好的結(jié)果，行駛時(shí)間為14.3，與理論優(yōu)化值12很接近。而隨機(jī)策略及均勻策略行駛時(shí)間分別為250和102，相對(duì)于多交互學(xué)習(xí)方法其性能要差得多。

4.2 收斂性分析

圖2給出了算法運(yùn)行K=30次的結(jié)果，其中βi=0.2，γ=0.9，α=0.8，r=2，δ=0.8，反映了多交互學(xué)習(xí)方法的行為的極值情況。從圖2可以看出，多交互學(xué)習(xí)在某一時(shí)間點(diǎn)取得了明顯改進(jìn)，算法在大約7 000～8 000時(shí)間步后達(dá)到“準(zhǔn)定態(tài)”。

圖2 多交互學(xué)習(xí)算法收斂情況Fig.2 Convergence of the multi-interactive learning algorithm

5 結(jié) 語(yǔ)

構(gòu)建了交叉口TSCA多交互數(shù)學(xué)模型，在此模型中，每次交叉口TSCA間進(jìn)行交互時(shí)，僅根據(jù)選擇策略獲得的效用值來更新它的混合策略，此模型克服了單交互及標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)的不足。在此基礎(chǔ)上分析了相鄰兩交叉口TSCA間博弈交互過程，并提出了交叉口TSCA間多交互學(xué)習(xí)算法。通過實(shí)例分析，基于多交互的交通信號(hào)控制優(yōu)于基于隨機(jī)策略和均勻策略的交通信號(hào)控制，并具有一定的收斂性。

[1] 劉建美,馬壽峰.交通誘導(dǎo)-出行信號(hào)博弈分析及其虛擬行動(dòng)學(xué)習(xí)模型[J].武漢大學(xué)學(xué)報(bào):工學(xué)版,2010,43(1):102-107.Liu Jianmei,Ma Shoufeng.Analysis of guidance-travel signaling game and fictitious play model [J].Journal of Wuhan University:Engineering,2010,43(1):102-107.

[2] 馬壽峰.一種基于agent協(xié)調(diào)的兩路口交通控制方法[J].系統(tǒng)工程學(xué)報(bào),2003,6(3):273-278.Ma Shoufeng.Agent-based traffic coordination control method for two adjacent intersections [J].Journal of Systems Engineering,2003,6(3):273-278.

[3] Shamshirband S.A distributed approach for coordination between traffic lights based on game theory [J].The International Arab Journal of Information Technology,2012,9(2):148-152.

[4] 李振龍,陳德望.交通信號(hào)區(qū)域協(xié)調(diào)優(yōu)化的多智能體博弈模型[J].公路交通科技,2004,21(1):85-88.Li Zhenlong,Chen Dewang.A game theoretical model of multi-agents in area coordination and optimization of traffic signals [J].Journal of Highway and Transportation,2004,21(1):85-88.

[5] Alvarez I,Poznyak A,Malo A.Urban traffic control problem a game theory approach [C]//Proceedings of the 47thIEEE Conference on Decision and Control.Cancun,Mexico:IEEE,2008:2168-2172.

[6] 夏新海,許倫輝.交叉口TSCA間的博弈學(xué)習(xí)協(xié)調(diào)方法[J].重慶交通大學(xué)學(xué)報(bào):自然科學(xué)版,2010,29(2):269-271.Xia Xinhai,Xu Lunhui.Method of intersection agent coordination based on game-learning [J].Journal of Chongqing Jiaotong University:Natural Science,2010,29(2):269-271.

[7] 石純一.基于Agent 的計(jì)算[M].北京:清華大學(xué)出版社,2007:149-161.Shi Chunyi.Computation Based on Agent [M].Beijing:Tsinghua University Press,2007:149-161.

[8] 汪賢裕,肖玉明.博弈論及其應(yīng)用[M].北京:科學(xué)出版社,2008.Wang Xianyu,Xiao Yuming.Game Theory and Its Application [M].Beijing:Science Press,2008.