亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于累積自學(xué)習(xí)機(jī)制的駕駛員路徑選擇博弈模型

2015-01-09 01:55:36周代平

交通運(yùn)輸研究 2015年4期

關(guān)鍵詞：局中人路網(wǎng)駕駛員

賀琳，周代平

（1.重慶交通大學(xué) 交通運(yùn)輸學(xué)院，重慶 400074；2.深圳市新城市規(guī)劃建筑設(shè)計(jì)有限公司城市交通所，廣東深圳 518100）

基于累積自學(xué)習(xí)機(jī)制的駕駛員路徑選擇博弈模型

賀琳1，周代平2

（1.重慶交通大學(xué) 交通運(yùn)輸學(xué)院，重慶 400074；2.深圳市新城市規(guī)劃建筑設(shè)計(jì)有限公司城市交通所，廣東深圳 518100）

為彌補(bǔ)已有駕駛員路徑選擇博弈模型將駕駛員視為完全理性的不足，探求無(wú)誘導(dǎo)信息情況下路網(wǎng)交通流臨界狀態(tài)，將駕駛員視為有限理性，其依賴(lài)?yán)鄯e時(shí)間感受收益做出下一次的路徑選擇策略，并以駕駛員的行程時(shí)間感受作為決策收益建立了基于累積自學(xué)習(xí)機(jī)制的無(wú)誘導(dǎo)信息駕駛員路徑選擇博弈模型。利用該模型，分析了駕駛員路徑選擇行為對(duì)路網(wǎng)交通流的影響，并通過(guò)仿真驗(yàn)證得出了不同初始狀態(tài)下的模型博弈平衡結(jié)果。仿真結(jié)果表明：博弈平衡狀態(tài)與路網(wǎng)車(chē)流總量及初始流量分配比例密切相關(guān)。當(dāng)路網(wǎng)車(chē)流總量小于或接近路網(wǎng)總通行能力時(shí)，不發(fā)布誘導(dǎo)信息，路網(wǎng)的交通流分布達(dá)到穩(wěn)定平衡，路網(wǎng)通行能力利用率較高；當(dāng)路網(wǎng)車(chē)流總量遠(yuǎn)大于路網(wǎng)總通行能力時(shí)，不發(fā)布誘導(dǎo)信息，路網(wǎng)交通流分布會(huì)形成峰谷平衡，不能有效利用路網(wǎng)通行能力，應(yīng)采取相應(yīng)的交通管理措施。

交通誘導(dǎo)；累積自學(xué)習(xí)機(jī)制；模糊博弈；駕駛員路徑選擇；有限理性

0 引言

進(jìn)入21世紀(jì)后，我國(guó)經(jīng)濟(jì)的高速發(fā)展帶動(dòng)了汽車(chē)行業(yè)的快速發(fā)展，人均汽車(chē)擁有量的增長(zhǎng)速度相當(dāng)驚人，道路建設(shè)土地面積的不足與汽車(chē)擁有量飛速增長(zhǎng)之間的矛盾日益突出。隨著路網(wǎng)系統(tǒng)的完善，交通壓力逐漸增大，交通誘導(dǎo)開(kāi)始引起人們的注意。由于誘導(dǎo)信息是建議性的，當(dāng)誘導(dǎo)信息發(fā)布以后，駕駛員是否接受誘導(dǎo)信息、是否會(huì)形成擁堵漂移以及是否有必要發(fā)布誘導(dǎo)信息等都是管理者所需要考慮的問(wèn)題。另一方面，在實(shí)際交通網(wǎng)絡(luò)中，大部分路網(wǎng)并沒(méi)有交通誘導(dǎo)系統(tǒng)，因此有必要分析在無(wú)誘導(dǎo)信息條件下路網(wǎng)交通流的分布平衡，用以指導(dǎo)該路網(wǎng)系統(tǒng)是否有必要發(fā)布誘導(dǎo)信息。由此可知，對(duì)駕駛員路徑選擇行為的研究是分析解決路網(wǎng)交通壓力逐漸增大問(wèn)題的關(guān)鍵。

針對(duì)駕駛員路徑選擇問(wèn)題，國(guó)內(nèi)外學(xué)者開(kāi)展了相關(guān)研究。李振龍[1]建立了駕駛員在誘導(dǎo)信息下的路徑選擇模型；魯叢林[2]運(yùn)用Stackberg博弈建立了無(wú)誘導(dǎo)信息條件下的駕駛員反應(yīng)行為博弈模型和完全信息條件下駕駛員反應(yīng)行為博弈模型，并得出了相同的路況條件下，不同性質(zhì)的誘導(dǎo)信息對(duì)路網(wǎng)交通流的分布影響不同的結(jié)論。但是，以上博弈模型都是將駕駛員視作完全理性的，這與現(xiàn)實(shí)情況略有出入。Katsikopoulos K.V.等[3]發(fā)現(xiàn)在路徑選擇的實(shí)驗(yàn)中，如果一組出行時(shí)間的平均值低于某一參照出行時(shí)間，出行者表現(xiàn)為“風(fēng)險(xiǎn)規(guī)避”；而當(dāng)平均值高于某一參照出行時(shí)間時(shí)，則表現(xiàn)為“風(fēng)險(xiǎn)追求”；曾松等[4]提出了駕駛員的某條路徑期望行程時(shí)間源于駕駛員的駕駛經(jīng)驗(yàn)；趙凜等[5]建立了基于前景理論的先驗(yàn)信息下路徑選擇理論模型，指出了駕駛員的駕駛經(jīng)驗(yàn)?zāi)苡行в绊戱{駛員的路徑選擇。Roth A.E.等[6]、Erev I.等[7]認(rèn)為出行者進(jìn)行路徑選擇的同時(shí)也是在不斷地實(shí)踐，通過(guò)多次不同的選擇，出行者會(huì)總結(jié)出幾次選擇的路徑中最佳的路徑，并將其作為自己今后選擇路徑的依據(jù)，所以路徑的選擇也是一個(gè)學(xué)習(xí)的過(guò)程，進(jìn)而轉(zhuǎn)化成自身的經(jīng)驗(yàn)。故在實(shí)際出行中，駕駛員不是完全理性的，對(duì)駕駛員路徑選擇影響最大的是近期經(jīng)驗(yàn)。

本文認(rèn)為自學(xué)習(xí)機(jī)制的“近期經(jīng)驗(yàn)”參考的不僅是駕駛員的上一次出行的路徑選擇，而是考慮駕駛員前k次的時(shí)間感受經(jīng)驗(yàn)對(duì)其第k+1次的路徑選擇的影響，故將每位駕駛員每次路徑選擇的時(shí)間感受進(jìn)行累積，駕駛員依賴(lài)?yán)鄯e的時(shí)間感受收益做出下一次的路徑選擇策略，即：“累積自學(xué)習(xí)機(jī)制”。本文以模糊數(shù)學(xué)為工具，建立基于有限理性累積自學(xué)習(xí)機(jī)制的博弈模型，并給出模型的求解算法，最后對(duì)仿真結(jié)果進(jìn)行分析討論。

1 累積自學(xué)習(xí)機(jī)制

交通出行是一個(gè)多人參與的復(fù)雜社會(huì)活動(dòng)，出行選擇必然受到多方面的影響。首先，雖然駕駛員在出行前追求的是自身利益的最大化，但是其在做出路徑選擇策略時(shí)會(huì)受到其他駕駛員決策的影響，即駕駛員之間存在博弈的關(guān)系[8]。其次，受駕駛員自身的局限性限制（如信息了解不全面、判斷不準(zhǔn)確等），駕駛員并不是完全理性地做出決策，故應(yīng)將駕駛員看作是有限理性的決策者。最后，駕駛員每次出行所對(duì)應(yīng)的交通狀況不是固定不變的，駕駛員要在一次次的出行中學(xué)習(xí)和調(diào)整策略，從而達(dá)到自己的出行期望，故應(yīng)將駕駛員的出行過(guò)程看作是一個(gè)學(xué)習(xí)過(guò)程來(lái)討論。綜上所述，駕駛員的出行路徑選擇過(guò)程應(yīng)作為一個(gè)有限理性博弈過(guò)程來(lái)研究。

以往的研究包括最優(yōu)反應(yīng)動(dòng)態(tài)模型[9]、復(fù)制者動(dòng)態(tài)模型[10]和虛擬行動(dòng)模型[14]這三大有限理性博弈中經(jīng)典的學(xué)習(xí)模型，要求局中人對(duì)其他博弈方的決策策略有一定的了解。然而在駕駛員的實(shí)際出行選擇中，駕駛員很難了解到其他大部分出行者的路徑選擇策略，故有學(xué)者提出駕駛員的策略選擇更多地取決于自身的近期經(jīng)驗(yàn)[7]。

因此，本文以在出行之前駕駛員對(duì)行程時(shí)間有一個(gè)模糊的預(yù)期為基礎(chǔ)，認(rèn)為博弈的演化過(guò)程中局中人是一種“自我學(xué)習(xí)”，提出了自學(xué)習(xí)機(jī)制：若駕駛員第k次選擇的路徑行程時(shí)間能達(dá)到模糊預(yù)期，即駕駛員對(duì)第k次決策的收益感到滿(mǎn)意，則駕駛員第k+1次將會(huì)繼續(xù)選擇該路徑；若駕駛員在第k次選擇的路徑行程時(shí)間未能達(dá)到模糊預(yù)期，則駕駛員第k+1次就有可能改變決策，選擇其他路徑。在自學(xué)習(xí)機(jī)制的基礎(chǔ)上，考慮駕駛員決策收益的累積效應(yīng)，提出累積自學(xué)習(xí)機(jī)制，即駕駛員將過(guò)去的各決策收益進(jìn)行累積，借以判斷選擇出最佳決策。

2 模型建立

2.1 模型假設(shè)

出行時(shí)間的長(zhǎng)短是影響路徑選擇最重要的標(biāo)準(zhǔn)[11]，美國(guó)聯(lián)邦總局（BPR）提出路段行程時(shí)間函數(shù)的公式為[12]：

式中：T為自由行駛時(shí)（交通量為0）的路段行程時(shí)間（h）；c為路段通行能力（pcu/h）；q為路段實(shí)際交通量（pcu/h）；?,γ為模型待定參數(shù)，一般取?=0.15,γ=4。

本文以駕駛員的實(shí)際行駛時(shí)間作為駕駛員選擇某條路徑所獲得的收益。考慮如圖1所示的簡(jiǎn)單路網(wǎng)，A到B地有L1與L2兩條路徑，L1與L2的道路通行能力分別為c1與c2,q1,k與q2,k為駕駛員第k次通過(guò)L1與L2的實(shí)際交通量，t1,k與t2,k為車(chē)輛第k次通過(guò)L1與L2到達(dá)B地的實(shí)際通行時(shí)間，t0為駕駛員從A地開(kāi)往B地的期望時(shí)間。

圖1 路網(wǎng)示意圖

將路徑L1與L2座位化處理：座位化處理作為一種虛擬處理手段，沒(méi)有長(zhǎng)度之分，為了記錄每位駕駛員每次選擇了哪條路徑，同時(shí)保證每個(gè)駕駛員都能記錄到，故將兩條路徑都虛擬成具有Q個(gè)座位的路徑，如圖2所示。

圖2 路徑L1、L2的座位化處理

設(shè)每次參與博弈的局中人總數(shù)一定（等于Q），給參與博弈的每位駕駛員依次編上從1到Q的號(hào)碼，且駕駛員的編號(hào)保持不變。

設(shè)LN1p,i與LN2p,i分別表示路徑L1與L2第i次博弈第p個(gè)座位的狀態(tài)，若LN1p,i=1,LN2p,i=1，則表示路徑L1與L2第i次博弈第p個(gè)座位有人；若LN1p,i=0,LN2p,i=0，則表示路徑L1與L2第i次博弈第p個(gè)座位為空。因此，若第p位駕駛員在第i次博弈選擇路徑L1，則：LN1p,i=1,LN2p,i=0；反之，若第p位駕駛員在第i次博弈選擇路徑L2，則：LN1p,i=0,LN2p,i=1。所以第i次博弈路徑L1與L2的流量為：

2.2 滿(mǎn)意度隸屬函數(shù)

滿(mǎn)意度是指駕駛員對(duì)從A地開(kāi)往B地所花實(shí)際時(shí)間的滿(mǎn)意程度，它是個(gè)模糊的概念。隸屬函數(shù)是模糊數(shù)學(xué)的一種理論，它的作用是將模糊信息定量化。故用隸屬度函數(shù)來(lái)確定駕駛員滿(mǎn)意度，其取值本身也反映了從A地開(kāi)往B地所花實(shí)際時(shí)間對(duì)駕駛員滿(mǎn)意度的隸屬程度。取論域，模糊集A1,A2,A3分別表示“滿(mǎn)意”、“一般”、“差”，則它們的隸屬函數(shù)分別為[13]：

若Max(A1(t),A2(t),A3(t))=A1(t)，則t∈A1，駕駛員對(duì)實(shí)際駕駛時(shí)間t感覺(jué)“滿(mǎn)意”；若Max (A1(t),A2(t),A3(t))=A2(t)，則t∈A2，駕駛員對(duì)實(shí)際駕駛時(shí)間t感覺(jué)“一般”，若Max(A1(t),A2(t),A3(t))=A3(t)，則t∈A3，駕駛員對(duì)實(shí)際駕駛時(shí)間t感覺(jué)“差”。

建立路徑L1和L2的時(shí)間感受收益函數(shù)E1(t1)與E2(t2)：

式中：t1,t2為路徑L1和L2上的駕駛員時(shí)間感受。

2.3 無(wú)誘導(dǎo)信息累積自學(xué)習(xí)機(jī)制

無(wú)誘導(dǎo)信息條件下的累積自學(xué)習(xí)機(jī)制是指：在有限理性自學(xué)習(xí)機(jī)制下，第p位駕駛員第k+1次的車(chē)輛路徑選擇策略取決其前k次某條路徑選擇所獲得的累積收益。具體表達(dá)如下：

式中：AE1p為第p位駕駛員前k次路徑選擇中，選擇路徑L1的累積時(shí)間感受收益；AE2p為第p位駕駛員前k次路徑選擇中，選擇路徑L2的累積時(shí)間感受收益；E1p,i為第p位駕駛員第i次選擇路徑L1的駕駛員時(shí)間感受收益；E2p,i為第p位駕駛員第i次選擇路徑L2的駕駛員時(shí)間感受收益；Q為參與博弈的總車(chē)輛數(shù)（設(shè)每次參與博弈車(chē)輛總數(shù)不變）。若第p位駕駛員第i次選擇路徑L1，則：E1p,i=E1(t1),E2p,i=0；若第p位駕駛員第i次選擇路徑L2，則：E1p,i=0,E2p,i=E2(t2)。

在無(wú)誘導(dǎo)信息累積自學(xué)習(xí)機(jī)制中，第p位駕駛員的第i+1次路徑選擇策略取決于其自身的累積時(shí)間感受收益AE1p和AE2p。駕駛員通過(guò)對(duì)自身經(jīng)驗(yàn)的累積與學(xué)習(xí)，判斷選擇出“有限理性的最優(yōu)方案”，借以得出第i+1次的路徑選擇方案，即若AE1p＞AE2p，則第i+1次選擇路徑L1；若AE1p＜AE2p，則第i+1次選擇路徑L2；若AE1p=AE2p，則駕駛員的第i+1次路徑選擇以行為強(qiáng)化理論為依據(jù)，通過(guò)第i次的路徑選擇收益來(lái)決定第i+1的路徑選擇方案。也就是，當(dāng)駕駛員對(duì)第i次的路徑選擇收益滿(mǎn)意時(shí)，則其第i+1次的選擇將與第i次保持相同；而當(dāng)駕駛員對(duì)第i次的路徑選擇收益的滿(mǎn)意度為差時(shí)，則其第i+1次將會(huì)選擇其他路徑；當(dāng)駕駛員對(duì)第i次的路徑選擇收益的滿(mǎn)意度為一般時(shí)，則第i+1次駕駛員將會(huì)有β的概率選擇其他路徑。該模型的戰(zhàn)略表達(dá)式如下：

（1）局中人：

（2）局中人的策略集：

（3）局中人的收益函數(shù)：

3 模型求解算法

為了求解模型的博弈平衡結(jié)果，本文設(shè)計(jì)了基于累積自學(xué)習(xí)機(jī)制無(wú)誘導(dǎo)信息條件下的仿真實(shí)驗(yàn)，仿真對(duì)象為圖1所示的簡(jiǎn)單路網(wǎng)，并以路徑L1上的流量反映模型的博弈平衡結(jié)果。具體算法如下：

Step1：初始化模型，給c1,c2(c1＞c2)，T,β賦值（定值），給m,Q賦上初始值m=0.1（m為路徑L1的初始分配比例），Q=1000，座位化路徑L1,L2，確定路徑L1,L2的初始交通量q1(1)=round (mQ),q2(1)=Q-q1(1)，將q1(1)名駕駛員隨機(jī)坐到路徑L1的座位上，將q2(1)名駕駛員隨機(jī)坐到對(duì)應(yīng)L1上空位置的L2的座位上，最后找出初始時(shí)每位駕駛員路徑選擇方案；

Step2：i=1，統(tǒng)計(jì)第i次路徑L1和L2的交通量，計(jì)算第i次路徑L1和L2的時(shí)間感受E1p,i,E2p,i，并統(tǒng)計(jì)前i次的累積時(shí)間感受收益AE1p和AE2p；

Step3：判斷AE1p和AE2p大小，確定駕駛員的第i+1次路徑選擇方案；

Step4：若i＞100，則轉(zhuǎn)Step5，否則i=i+1，轉(zhuǎn)Step2；

Step5：若m＞1，則轉(zhuǎn)Step6，否則m=m+ 0.1，轉(zhuǎn)Step1；

4 具體算例

為了驗(yàn)證基于累積自學(xué)習(xí)機(jī)制無(wú)誘導(dǎo)信息模型的博弈結(jié)果能否達(dá)到平衡，本文對(duì)該模型進(jìn)行了仿真驗(yàn)證。在模型驗(yàn)證中，局中人總數(shù)Q，即參與博弈的車(chē)輛的初始值為1 000輛；道路L1的通行能力c1=1500pcu/h，道路L2的通行能力c2=1000pcu/h；自由行駛時(shí)（交通量為0）的路段行程時(shí)間T=30min；滿(mǎn)意度為一般時(shí)駕駛員變換路徑選擇的概率β=0.25[14]；局中人總數(shù)的增加步長(zhǎng)Δq= 500pcu/h；重復(fù)博弈的次數(shù)k=100。仿真結(jié)果如圖3所示。

圖3 第k次博弈路徑L1上的流量

由圖3可知，在局中人總數(shù)Q和路徑L1的初始分配比例m一定時(shí)，經(jīng)過(guò)多次重復(fù)博弈，路徑L1上的流量總為1個(gè)定值或?yàn)槟?個(gè)值，即在累積自學(xué)習(xí)機(jī)制下，無(wú)誘導(dǎo)信息博弈模型最終會(huì)達(dá)到平衡。若路徑L1上的流量在博弈達(dá)到平衡時(shí)總為1個(gè)定值，則其博弈結(jié)果狀態(tài)為穩(wěn)定平衡，若路徑L1上的流量在博弈達(dá)到平衡時(shí)為某2個(gè)值交替出現(xiàn)，則其博弈結(jié)果狀態(tài)為交替平衡或峰谷平衡。圖3的仿真結(jié)果顯示，隨著參與博弈的車(chē)輛總數(shù)增加，博弈結(jié)果的平衡狀態(tài)由穩(wěn)定平衡逐漸轉(zhuǎn)變成了交替平衡和峰谷平衡。為進(jìn)一步分析模型的仿真結(jié)果，本文在進(jìn)行足夠多次博弈后（以保證博弈達(dá)到平衡），抽取了不同的局中人總數(shù)Q下，隨著m的變化第99次和第100次的仿真結(jié)果（見(jiàn)圖4、圖5）。

圖4 無(wú)誘導(dǎo)信息下累積自學(xué)習(xí)機(jī)制第99次博弈結(jié)果

圖5 無(wú)誘導(dǎo)信息下累積自學(xué)習(xí)機(jī)制第100次博弈結(jié)果

對(duì)比圖4和圖5可知：當(dāng)Q小于路網(wǎng)總通行能力2 500pcu/h時(shí)，第100次的博弈結(jié)果和第99次的博弈結(jié)果相同，當(dāng)Q大于路網(wǎng)總通行能力2 500pcu/h時(shí)，第100次的博弈結(jié)果和第99次的博弈結(jié)果具有顯著差異，當(dāng)Q保持一定時(shí)，博弈結(jié)果會(huì)隨L1的初始分配比例變化而變化。故當(dāng)路網(wǎng)車(chē)流總量遠(yuǎn)小于路網(wǎng)總通行能力時(shí)，路徑L1的初始流量所占比例m對(duì)路網(wǎng)博弈平衡狀態(tài)無(wú)顯著影響，博弈平衡狀態(tài)為穩(wěn)定平衡；當(dāng)路網(wǎng)車(chē)流總量接近路網(wǎng)總通行能力時(shí)，路網(wǎng)博弈平衡狀態(tài)與m相關(guān)，博弈狀態(tài)會(huì)呈現(xiàn)穩(wěn)定平衡或交替平衡；當(dāng)路網(wǎng)車(chē)流總量超過(guò)路網(wǎng)總通行能力時(shí)，博弈平衡狀態(tài)呈現(xiàn)峰谷平衡。

仿真結(jié)果表明，基于累積自學(xué)習(xí)機(jī)制無(wú)誘導(dǎo)信息模型的博弈結(jié)果最終會(huì)達(dá)到平衡，且博弈結(jié)果的平衡狀態(tài)與Q,m相關(guān)。當(dāng)路網(wǎng)車(chē)流總量小于或接近路網(wǎng)總通行能力時(shí)，若不發(fā)布誘導(dǎo)信息，路徑L1,L2的擁擠度接近，對(duì)路網(wǎng)通行能力具有較高的利用率；當(dāng)路網(wǎng)車(chē)流總量遠(yuǎn)大于路網(wǎng)總通行能力時(shí)，若不發(fā)布誘導(dǎo)信息，路網(wǎng)系統(tǒng)會(huì)形成峰谷平衡，路徑L1,L2的擁擠度出現(xiàn)“兩極化”現(xiàn)象，對(duì)路網(wǎng)總通行能力的利用率較低，此時(shí)應(yīng)采取相應(yīng)的交通管理措施，提高路網(wǎng)通行能力的利用率。

5 結(jié)語(yǔ)

本文討論了基于累積自學(xué)習(xí)機(jī)制的無(wú)誘導(dǎo)信息車(chē)輛路徑選擇問(wèn)題，建立了以駕駛員累積時(shí)間感受為收益函數(shù)的博弈模型，并通過(guò)仿真得出了模型的博弈平衡結(jié)果。仿真結(jié)果表明，在有些初始情形下，不發(fā)布誘導(dǎo)信息，路網(wǎng)的交通流分布也能達(dá)到穩(wěn)定平衡，并且對(duì)路網(wǎng)通行能力具有較高的利用率；在路網(wǎng)總流量遠(yuǎn)大于路網(wǎng)總通行能力或其他特殊初始情形下，不發(fā)布誘導(dǎo)信息，路網(wǎng)交通流分布呈現(xiàn)峰谷平衡，不能有效利用整個(gè)路網(wǎng)系統(tǒng)，應(yīng)采取相應(yīng)的交通管理措施，如發(fā)布誘導(dǎo)信息。

本文只研究了不發(fā)布誘導(dǎo)信息下的博弈平衡結(jié)果，今后的研究可以討論在發(fā)布誘導(dǎo)信息條件下的博弈平衡結(jié)果，借以對(duì)比得到在各種初始情形下發(fā)布誘導(dǎo)信息是否能有效提高路網(wǎng)總通行能力的利用率，是否有必要發(fā)布誘導(dǎo)信息等相關(guān)結(jié)論，為交通誘導(dǎo)決策提供依據(jù)。

[1]李振龍.誘導(dǎo)條件下駕駛員路徑選擇行為的演化博弈分析[J].交通運(yùn)輸系統(tǒng)工程與信息，2003，3（2）：23-27.

[2]魯叢林.誘導(dǎo)條件下的駕駛員反應(yīng)行為的博弈模型[J].交通運(yùn)輸系統(tǒng)工程與信息，2005，5（1）：58-61.

[3]KATSIKOPOULOS K V,DUSE-ANTHONY Y,FISHER D L,et al.Risk Attitude Reversals in Driver's Route Choice When Range of Travel Time is Provided[J].Human Factors, 2002,44(3):466-473.

[4]曾松，史春華，楊曉光.基于實(shí)驗(yàn)分析的駕駛員路線(xiàn)選擇模式研究[J].公路交通科技，2002，19（4）：84-88.

[5]趙凜，張星臣.基于“前景理論”的先驗(yàn)信息下出行者路徑選擇模型[J].交通運(yùn)輸系統(tǒng)工程與信息，2006，2（6）：42-46.

[6]ROTH A E,EREV I.Learning in Extensive-Form Games: Experimental Data and Simple Dynamic Models in the In?termediate Term[J].Games and Economic Behavior,1995 (8):164-212.

[7]EREV I,BEREBY-MEYER Y,ROTH A E,The Effect of Adding a Constant to All Payoffs:Experimental Investiga?tion and Implications for Reinforcement Learning Models [J].Journal of Economic Behavior and Organization,1999, 39(1):111-128.

[8]劉建美.誘導(dǎo)條件下的路徑選擇行為及協(xié)調(diào)方法研究[D].天津：天津大學(xué)，2010.

[9]謝識(shí)予.經(jīng)濟(jì)博弈論[M].2版.上海：復(fù)旦大學(xué)出版社，2002.

[10]王濟(jì)川，郭麗芳.抑制效益型團(tuán)隊(duì)合作中“搭便車(chē)”現(xiàn)象研究——基于演化博弈的復(fù)制者動(dòng)態(tài)模型[J].科技管理研究，2013，12（21）：191-195.

[11]OUTRAM V E,THOMPSON E.Driver Route Choice[C]// Proceedings of PTRC Annual Meeting.London:PTRC An?nual Meeting,1977:39-53.

[12]楊佩坤，錢(qián)林波.交通分配中路段行程時(shí)間函數(shù)研究[J].同濟(jì)大學(xué)學(xué)報(bào)：自然科學(xué)版，1994（1）：27-32.

[13]楊綸標(biāo)，高英儀，凌衛(wèi)新.模糊數(shù)學(xué)原理及應(yīng)用[M].廣州：華南理工大學(xué)出版社，2011：1-67.

[14]周元峰.基于信息的駕駛員路徑選擇行為及動(dòng)態(tài)誘導(dǎo)模型研究[D].北京：北京交通大學(xué)，2007.

Game Theory Model of Driver's Route Selection Based on Cumulative Self-Learning Mechanism

HE Lin1,ZHOU Dai-ping2
(1.School of Traffic&Transportation,Chongqing Jiaotong University,Chongqing 400074,China; 2.Shenzhen New Land Tool Consultants Pte.,Ltd.,Urban Traffic Brunch,Shenzhen 518100,China)

In order to make up the shortage of regarding the drivers as totally rational by the existing game theory models of driver's route selection,and search the fettle of network traffic flow without induc?ing information,the drivers'rationality was deemed bounded,so he or she made the selection decision of next path according to the cumulative feeling gains of time.The driver's feeling of travel time was consid?ered as the gains of decision,then the model of the driver's routing selection without inducing informa?tion was established based on cumulative self-learning mechanism,and the impact of the driver's route choice behavior on road network traffic flow was analyzed.Finally the equilibrium results of fuzzy game on different initial states were obtained by the simulation.The simulation results show that the balance of fuzzy game is closely related to the total amount of road network traffic and initiatory flow distributionratio.When the total amount of road network traffic is less than or close to the capacity of network,the distribution of network traffic flow reaches a stable equilibrium and the utilization rate of the capacity of network is higher without inducing information.When the total amount of road network traffic is over the capacity of network,the distribution of network traffic flow forms a peak balance,the capacity of network can't be used effectively,and appropriate traffic management measures should be taken.

traffic guidance;cumulative self-learning mechanism;fuzzy game;drivers'route selec?tion;bounded rationality

U491.13

：A

：2095-9931（2015）04-0049-07

10.16503/j.cnki.2095-9931.2015.04.008

2015-04-18

賀琳（1991—），女，四川廣安人，碩士研究生，研究方向?yàn)榻煌ㄒ?guī)劃。E-mail：helin19911127@163.com。