亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于信號(hào)博弈模型的交通誘導(dǎo)－路徑選擇分析

2015-04-18 08:02:44王中奇

武漢理工大學(xué)學(xué)報(bào)(交通科學(xué)與工程版) 2015年3期

王中奇馬俊

（北京交通大學(xué)交通運(yùn)輸學(xué)院1）北京 100044）（北京信息科技大學(xué)機(jī)電工程學(xué)院2）北京 100192）

0 引言

交通誘導(dǎo)是一種非強(qiáng)制性的交通管理手段，交通管理者期望通過(guò)發(fā)布誘導(dǎo)信息合理地分配路網(wǎng)流量以使網(wǎng)絡(luò)整體出行費(fèi)用最低，而出行者的目標(biāo)是使個(gè)人出行費(fèi)用最少.當(dāng)網(wǎng)絡(luò)略去擁擠效應(yīng)時(shí)Wardrop系統(tǒng)最優(yōu)和用戶均衡是相等的［1］，而在網(wǎng)絡(luò)擁擠情況下交通管理者與出行者的目標(biāo)并不完全一致.因此，在交通誘導(dǎo)系統(tǒng)中交通管理者與出行者之間存在一種博弈關(guān)系，兩者之間的互動(dòng)決策過(guò)程會(huì)對(duì)路網(wǎng)交通流分布產(chǎn)生影響.博弈論很早在交通領(lǐng)域就有應(yīng)用，Chen等［2］應(yīng)用Cournot模型、Stackelberg模型和Monoply模型等，把動(dòng)態(tài)交通控制和動(dòng)態(tài)交通分配結(jié)合為交通管理者和出行者之間的非合作博弈；李艷君［3］在系統(tǒng)最優(yōu)的原則下制定誘導(dǎo)與交通控制結(jié)合的交通管理策略，建立了以管理者為主出行者為從的Stckelberg模型；李學(xué)勇等［4］為實(shí)現(xiàn)路網(wǎng)流量的Nash均衡，建立了交通出行誘導(dǎo)離散Stackelberg動(dòng)態(tài)博弈模型，并用逆向歸納法進(jìn)行模型求解，進(jìn)而得到用于網(wǎng)絡(luò)發(fā)布的誘導(dǎo)策略.上述相關(guān)研究中所建立的模型均為靜態(tài)博弈，交通領(lǐng)域的很多問(wèn)題可以等價(jià)為非合作Nash均衡和Stackelberg博弈［5］.但是，在真實(shí)駕駛環(huán)境下出行者通常只能對(duì)當(dāng)前所處路段的交通狀況有一個(gè)認(rèn)識(shí)而很難獲知所處路網(wǎng)的交通狀態(tài)，出行者只能通過(guò)管理者所發(fā)布的誘導(dǎo)信息對(duì)路網(wǎng)的交通狀態(tài)做出判斷進(jìn)而選擇出行路徑.靜態(tài)博弈模型不能體現(xiàn)真實(shí)路網(wǎng)中交通管理者與出行者之間的信息不對(duì)稱性，為此，劉建美等［6］提出誘導(dǎo)－出行信號(hào)博弈模型，并通過(guò)虛擬行動(dòng)模型驗(yàn)證了均衡解的合理性.交通管理者的誘導(dǎo)信息發(fā)布與出行者的路徑選擇之間的博弈關(guān)系符合不完全信息動(dòng)態(tài)博弈中信號(hào)博弈模型所描述的情形，本文借助在信息經(jīng)濟(jì)學(xué)領(lǐng)域廣泛應(yīng)用的信號(hào)博弈模型來(lái)對(duì)兩者之間的博弈行為進(jìn)行分析，并提出基于分離均衡點(diǎn)的誘導(dǎo)信息的分類方法，對(duì)誘導(dǎo)信息生成策略的研究提供了一種新的思路.

1 交通管理者與出行者之間的信號(hào)博弈模型

單個(gè)出行者對(duì)路網(wǎng)交通狀態(tài)的影響可以忽略，此處考慮的是路網(wǎng)同一OD對(duì)間具有一定數(shù)量出行者的集體行為特征.

1.1 模型假設(shè)和說(shuō)明

1）采用交通擁堵指數(shù)（TPI）描述路網(wǎng)交通狀態(tài)，把路網(wǎng)狀態(tài)分為“暢通”“基本暢通”“輕度擁堵”“中度擁堵”“嚴(yán)重?fù)矶隆?種.不同日期（工作日或節(jié)假日）不同時(shí)段同一路網(wǎng)各種交通狀態(tài)出現(xiàn)的概率是不同的，一般可以根據(jù)歷史數(shù)據(jù)統(tǒng)計(jì)得到.某些路網(wǎng)早晚高峰等特定時(shí)段“暢通”狀態(tài)出現(xiàn)的概率可以認(rèn)為為0，且交通誘導(dǎo)對(duì)“暢通”路網(wǎng)運(yùn)行狀況的改善作用有限，故本文不考慮路網(wǎng)“暢通”的情形.

2）管理者向使用者發(fā)布的誘導(dǎo)信息為誘導(dǎo)路徑和預(yù)期旅行時(shí)間.

3）隨著路網(wǎng)規(guī)模的增大，出行路徑迅速增加.對(duì)于具有一定規(guī)模的路網(wǎng)，可以近似認(rèn)為交通管理者與出行者的策略在區(qū)間［0，1］是連續(xù)的.用M＝［0，1］之間的實(shí)數(shù)m來(lái)描述所發(fā)布的誘導(dǎo)信息，m＝0表示發(fā)布按隨機(jī)用戶最優(yōu)分配的誘導(dǎo)路徑，以下簡(jiǎn)稱隨機(jī)用戶最優(yōu)路徑，m＝1表示發(fā)布按系統(tǒng)最優(yōu)分配的誘導(dǎo)路徑，以下簡(jiǎn)稱系統(tǒng)最優(yōu)路徑；（0，1）間的實(shí)數(shù)m趨于0表示誘導(dǎo)路徑趨于隨機(jī)用戶最優(yōu)，m趨于1表示誘導(dǎo)路徑趨于系統(tǒng)最優(yōu)；出行者的策略空間用區(qū)間A＝［0，1］之間的實(shí)數(shù)a表示，a＝0表示出行者選擇隨機(jī)用戶最優(yōu)路徑，a＝1表示出行者選擇系統(tǒng)最優(yōu)路徑，（0，1）間的實(shí)數(shù)a趨于0表示出行者選擇路徑趨于隨機(jī)用戶最優(yōu)路徑，a趨于1表示出行者選擇路徑趨于系統(tǒng)最優(yōu)路徑.

4）出行者根據(jù)以往使用誘導(dǎo)信息的經(jīng)驗(yàn)建立對(duì)交通管理者的信任，交通管理者形成對(duì)出行者的信譽(yù)，交通管理者信譽(yù)越高出行者對(duì)誘導(dǎo)信息的服從率越高，誘導(dǎo)信息發(fā)布的效果越好.誘導(dǎo)路徑與出行者感知效用最大路徑的差異會(huì)影響服從率，兩者差異越大，誘導(dǎo)信息的服從率越低，這里將按隨機(jī)用戶最優(yōu)分配的誘導(dǎo)路徑近似看作出行者感知效用最大路徑.交通誘導(dǎo)系統(tǒng)中交通管理者發(fā)布誘導(dǎo)路徑需要承擔(dān)信譽(yù)成本，所謂信譽(yù)成本就是發(fā)布高信號(hào)即趨于系統(tǒng)最優(yōu)的誘導(dǎo)路徑之后，誘導(dǎo)信息服從率降低所造成的誘導(dǎo)效果減弱和由于信譽(yù)受損導(dǎo)致的管理者未來(lái)收益降低.信譽(yù)成本在某種程度上是一種預(yù)期信用損失.誘導(dǎo)路徑越是趨于系統(tǒng)最優(yōu)，管理者承擔(dān)的信譽(yù)成本越高.

5）對(duì)于一定數(shù)量的出行者，所有出行者關(guān)于路網(wǎng)狀態(tài)的推斷是相同的，所有出行者都可以接收到管理者所發(fā)布的誘導(dǎo)信息.若無(wú)誘導(dǎo)信息發(fā)布，出行者按隨機(jī)用戶最優(yōu)原則選擇出行路徑.

1.2 模型的建立

信號(hào)博弈是2個(gè)參與者之間的非完全信息動(dòng)態(tài)博弈，在交通誘導(dǎo)信號(hào)博弈模型中的參與人是：交通管理者（信號(hào)發(fā)送者），記為S；出行者（信號(hào)接收者），記為R.本文建立的模型屬于多類型無(wú)限戰(zhàn)略博弈（4種交通狀態(tài)，參與人的策略空間為實(shí)數(shù)區(qū)間［0，1］），博弈的時(shí)間順序如下.

1）自然根據(jù)特定的概率分布p（ti），從可行的類型集 T＝｛t1，t2，t3，t4｝中賦予發(fā)送者某種類型ti，這里對(duì)所有的i，p（ti）＞0并且p（t1）＋p（t2）＋p（t3）＋p（t4）＝1.

2）發(fā)送者觀察到ti，然后從可行的信號(hào)集M＝［0，1］中選擇一個(gè)發(fā)送信號(hào)m.

3）接收者觀察到m（但不能觀察到ti），然后從可行的行動(dòng)集A＝［0，1］中選擇一個(gè)行動(dòng)a.

4）交通管理者與出行者的收益函數(shù)分別為Us（ti，m，a）和Ur（ti，m，a），且為雙方的共同知識(shí).

其中：T＝｛t1，t2，t3，t4｝為類型空間，表示路網(wǎng)交通狀態(tài)，t1＝1為路網(wǎng)基本暢通，t2＝2為路網(wǎng)輕度擁堵，t3＝3為路網(wǎng)中度擁堵，t4＝4為路網(wǎng)嚴(yán)重?fù)矶?P（ti）為路網(wǎng)交通狀態(tài)為ti時(shí)的概率.這是一個(gè)3階段不完全信息動(dòng)態(tài)博弈.首先，虛擬的局中人－自然決定當(dāng)前路網(wǎng)的交通狀態(tài)；第二階段，交通管理者觀察到路網(wǎng)交通狀態(tài)并根據(jù)路網(wǎng)交通狀態(tài)發(fā)布誘導(dǎo)信息；第三階段，出行者根據(jù)交通管理者發(fā)布的誘導(dǎo)信息對(duì)路網(wǎng)交通狀態(tài)做出判斷并決定以何種程度接受誘導(dǎo)信息，進(jìn)而做出路徑選擇.

2 效用函數(shù)性質(zhì)分析

以往研究中，通常將交通流分配理論中系統(tǒng)最優(yōu)和隨機(jī)用戶最優(yōu)分配模型（或動(dòng)態(tài)系統(tǒng)最優(yōu)和動(dòng)態(tài)隨機(jī)用戶最優(yōu)分配模型）的目標(biāo)函數(shù)分別作為交通管理者和出行者的收益函數(shù)，對(duì)于Stackelberg這類靜態(tài)博弈模型，可以通過(guò)逆向歸納的求解方法找出理想均衡點(diǎn).但是不完全信息動(dòng)態(tài)博弈的求解更加復(fù)雜，解決該類問(wèn)題尚無(wú)有效算法，因此，上述目標(biāo)函數(shù)的設(shè)定在信號(hào)博弈模型中不適合直接作為交通管理者與出行者的收益函數(shù).本文用交通管理者與出行者的效用函數(shù)Us（ti，m，a）和Ur（ti，m，a）分別表示兩者的收益，效用函數(shù)的引入可以方便信號(hào)博弈模型的分析.這里Us（ti，m，a）表示交通管理者對(duì)誘導(dǎo)信息發(fā)布效果的滿意程度，Ur（ti，m，a）表示出行者對(duì)接收誘導(dǎo)信息后行動(dòng)的滿意程度.

對(duì)于具有一定規(guī)模的路網(wǎng)，可以假設(shè)對(duì)于每個(gè)類型t，收益函數(shù)Us（ti，m，a）和Ur（ti，m，a）是關(guān)于（m，a）的連續(xù)函數(shù).根據(jù)實(shí)際路網(wǎng)運(yùn)行經(jīng)驗(yàn)Us（ti，m，a）和Ur（ti，m，a）具有以下特點(diǎn)：

1）在某一路網(wǎng)狀況下，若交通管理者的策略保持不變，出行者選擇的出行路徑越趨于系統(tǒng)最優(yōu)，誘導(dǎo)信息發(fā)布的效果就越好，交通管理者的效用也越大，即給定0且為連續(xù)的.而在使用者策略不變的情況下，交通管理者發(fā)布的誘導(dǎo)信息越是趨于系統(tǒng)最優(yōu)，其承擔(dān)的信譽(yù)風(fēng)險(xiǎn)越高，擔(dān)負(fù)的信譽(yù)成本越大，收益隨之減小，即且為連續(xù)的.假設(shè)出行者了解路網(wǎng)交通狀態(tài)，即完全信息條件下，出行者按隨機(jī)用戶最優(yōu)原則選擇出行路徑，此時(shí)若管理者發(fā)布偏離該路徑不大的誘導(dǎo)路徑即小信號(hào)時(shí)，仍會(huì)有部分出行者受交通管理者積累的聲譽(yù)影響采納誘導(dǎo)信息，此時(shí)管理者效用是遞增的，即，ε＞0且足夠小.當(dāng)信號(hào)m1足夠大即交通誘導(dǎo)路徑偏離隨機(jī)用戶最優(yōu)路徑一定程度時(shí)，出行者對(duì)誘導(dǎo)信息服從率迅速降低使得交通管理者效用降低，即＜0.完全信息條件下，在小信號(hào)范圍內(nèi)，相同信號(hào)改變量對(duì)路網(wǎng)運(yùn)行狀態(tài)的改善作用逐漸減??；當(dāng)發(fā)送的信號(hào)超過(guò)m1時(shí)，誘導(dǎo)路徑越趨于系統(tǒng)最優(yōu)，誘導(dǎo)信息服從率下降的越快，所造成的交通管理者效用損失越大，所以誘導(dǎo)信息的邊際效益是遞減的，即0.交通管理者效用與發(fā)送信號(hào)之間的關(guān)系見(jiàn)圖1.

圖1 交通管理者效用－信號(hào)發(fā)送關(guān)系圖

2）系統(tǒng)最優(yōu)解相對(duì)于用戶最優(yōu)解，總出行費(fèi)用的節(jié)約隨交通擁擠度的增加而增加［7］，因此路網(wǎng)越擁擠出行者對(duì)誘導(dǎo)信息的需求越高.對(duì)交通管理者來(lái)說(shuō)，給定使用者的策略，擁擠路網(wǎng)誘導(dǎo)信息發(fā)布的效果較好，交通管理者發(fā)布誘導(dǎo)信息的邊際效益嚴(yán) 格越高，即＜；路網(wǎng)越擁擠，出行者相同程度的路徑選擇調(diào)整對(duì)路網(wǎng)運(yùn)行狀態(tài)的改善效果越好，出行者的行為為交通管理者帶來(lái)的邊際效益遞增，即.對(duì)出行者來(lái)說(shuō)，給定誘導(dǎo)策略，路網(wǎng)越擁擠出行者一定范圍內(nèi)相同程度的路徑選擇調(diào)整會(huì)為其帶來(lái)更大的效用，即，但是隨著出行者的路徑選擇趨于系統(tǒng)最優(yōu)，會(huì)造成部分出行者的收益降低，其行動(dòng)為出行者整體帶來(lái)的邊際效用遞減，即0.

3）在出行者不了解道路交通狀態(tài)的情況下，交通管理者發(fā)送的信號(hào)越是趨于系統(tǒng)最優(yōu)其承擔(dān)的信譽(yù)成本越大，為使管理者的收益保持穩(wěn)定，需要出行者采取更積極配合的行動(dòng)才能補(bǔ)償交通管理者因信譽(yù)成本增加所造成的損失，即≥0，at（m）是在交通管理者無(wú)差異曲線Us（t，m，a）＝C上接收者對(duì)類型t發(fā)送的信號(hào)m所采取的行動(dòng).在出行者了解道路交通狀態(tài)的情況下，路網(wǎng)越擁擠，出行者能夠改善自身出行的可調(diào)整的出行路徑越有限，因此出行者整體的最優(yōu)路徑調(diào)整（，）程度越小，即0.atm為完全信息條件下，路網(wǎng)交通狀態(tài)為t時(shí)出行者的最優(yōu)反應(yīng)函數(shù).

4）當(dāng)t＝4路網(wǎng)嚴(yán)重?fù)矶聲r(shí)，發(fā)送趨于隨機(jī)用戶最優(yōu)路徑的誘導(dǎo)路徑即小信號(hào)時(shí)，出行者的行動(dòng)往往低于此時(shí)的效用最大行動(dòng)，即出行者的路徑選擇較效用最大路徑更趨于隨機(jī)用戶最優(yōu)路徑；而當(dāng)發(fā)送超過(guò)m′的大信號(hào)時(shí)，交通管理者的信譽(yù)成本增大，若要保持管理者效用不變，出行者需要采取高于出行者效用最大行動(dòng)的行動(dòng)，所選路徑應(yīng)更趨于系統(tǒng)最優(yōu)以彌補(bǔ)發(fā)送大信號(hào)造成的損失.也就是說(shuō)，存在信號(hào)m′發(fā)送者需要高于完全信息下的行動(dòng)來(lái)補(bǔ)貼，如圖2高信號(hào)示意圖.

3 均衡點(diǎn)分析

交通管理者和出行者的之間的信號(hào)博弈模型應(yīng)符合上述所做的分析，該模型滿足文獻(xiàn)［8］中對(duì)一類信號(hào)博弈模型的基本假設(shè)A1～A6.根據(jù)文獻(xiàn)［8］中的證明，該類信號(hào)博弈模型存在惟一的分離均衡.因此，本文所建立的交通管理者與出行者之間的信號(hào)博弈模型具有分離均衡且該分離均衡是惟一的，這在實(shí)際應(yīng)用中是非常有意義的.

圖2 高信號(hào)示意圖

根據(jù)上述對(duì)效用函數(shù)性質(zhì)的分析，交通管理者的效用函數(shù)可以表示為

式中：λ為服從率；M 為一個(gè)足夠大的正數(shù)；xp為路段p的流量；tp（xp）為路段p上的阻抗；m為交通管理者發(fā)布的信號(hào)；a為出行者對(duì)交通管理者發(fā)布的信號(hào)做出的反應(yīng)；t為路網(wǎng)交通狀態(tài)；θ1＞1，β＞1，兩者均與路網(wǎng)有關(guān)；0＜b（4）＜b（3）＜b（2）＜b（1）.

出行者的效用函數(shù)可以表示為

式中：Tmax為當(dāng)前路網(wǎng)出行時(shí)間最長(zhǎng)路徑的出行時(shí)間；Tfree為自由流最短路徑在當(dāng)前路網(wǎng)的出行時(shí)間；θ2＞1與路網(wǎng)有關(guān).

在完全信息條件下出行者的最優(yōu)反應(yīng)函數(shù)為

式中：θ3＞0與路網(wǎng)有關(guān).記（）為類型一即基本暢通路網(wǎng)的分離均衡點(diǎn)，（）為類型二即輕度擁堵路網(wǎng)的分離均衡點(diǎn)，（）為類型三即中度擁堵路網(wǎng)的分離均衡點(diǎn)，）為類型四即嚴(yán)重?fù)矶侣肪W(wǎng)的分離均衡點(diǎn).［（），（），（），（）］為此信號(hào)博弈模型的惟一分離均衡.

4 結(jié)束語(yǔ)

本文提出了交通管理者與出行者之間的信號(hào)博弈模型，該模型能夠較好的描述出行者處于信息劣勢(shì)的條件下兩者的行為相互影響的過(guò)程.通過(guò)對(duì)建立的信號(hào)博弈模型的定性分析，得出了此博弈模型具有唯一分離均衡的結(jié)論.交通管理者可以通過(guò)信號(hào)傳遞幫助出行者對(duì)不同的路網(wǎng)狀況進(jìn)行區(qū)分，并根據(jù)分離均衡點(diǎn)選擇發(fā)布相應(yīng)的誘導(dǎo)信息，出行者可以據(jù)此選擇合適的出行路徑進(jìn)而提高路網(wǎng)效率.交通管理者還可以根據(jù)分離均衡點(diǎn)對(duì)誘導(dǎo)信息進(jìn)行分類，這為交通管理者制定誘導(dǎo)方案、發(fā)布誘導(dǎo)信息提供了新的理論方法.目前，對(duì)于不完全信息動(dòng)態(tài)博弈問(wèn)這類題尚無(wú)有效的求解算法，本文所建立的模型只涉及了相關(guān)問(wèn)題的定性分析，下一步將對(duì)不同路網(wǎng)條件下效用函數(shù)的表示以及分離均衡的求解算法進(jìn)行研究.

［1］黃海軍.城市交通網(wǎng)絡(luò)平衡分析理論與實(shí)踐［M］.北京：人民交通出版社，1994.

［2］CHEN O J，BEN A M E.Game＿theoretic formulations of interaction between dynamic traffic control and dynamic traffic assignment［J］.Transportation Research Record，1998，1617：179－188.

［3］李艷君.基于博弈論的交通控制與誘導(dǎo)一體化模型的研究［D］.天津：天津大學(xué)，2003.

［4］李文勇，陳學(xué)武，陸建.交通出行誘導(dǎo)的離散Stackelberg動(dòng)態(tài)博弈模型及其求解算法［J］.控制理論與應(yīng)用，2009（10）：1157－1161.

［5］馬壽峰，卜軍峰，張安訓(xùn).交通誘導(dǎo)系統(tǒng)中系統(tǒng)最優(yōu)與用戶最優(yōu)的博弈協(xié)調(diào)［J］.系統(tǒng)工程學(xué)報(bào)，2005，30（1）：30－37.

［6］劉建美馬壽峰.交通誘導(dǎo)－出行信號(hào)博弈分析及其虛擬行動(dòng)學(xué)習(xí)模型［J］.武漢大學(xué)學(xué)報(bào)：工學(xué)版，2010，43（1）：102－107.

［7］WIE B W，TOBIN R L.Comparison of system optimum and user equilibrium dynamic traffic assignments with schedule delays［J］.Transportation Research，Par t C：Emerging Technologies，1995，36：389－411.

［8］YU Gang，SHENG Zhaohan，XIAO Tiaojun.An effective algorithm for computing equilibrium outcome of class of signaling games［J］.International Journal of Information Technology ＆ Decision Making，2002，1（2）：209－228.