亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于累積自學(xué)習(xí)機(jī)制的誘導(dǎo)信息條件下駕駛員路徑選擇

        2015-02-24 06:01:30周代平

        羅 佳,周代平,賀 琳

        (重慶交通大學(xué)交通運(yùn)輸學(xué)院,重慶 400074)

        ?

        基于累積自學(xué)習(xí)機(jī)制的誘導(dǎo)信息條件下駕駛員路徑選擇

        羅佳,周代平,賀琳

        (重慶交通大學(xué)交通運(yùn)輸學(xué)院,重慶400074)

        摘要:將駕駛員視為有限理性,并以駕駛員的行程時(shí)間感受作為決策收益,建立基于累積自學(xué)習(xí)機(jī)制的誘導(dǎo)信息條件下的駕駛員路徑選擇模型。通過(guò)仿真驗(yàn)證得出不同初始狀態(tài)下的模型博弈平衡結(jié)果。仿真結(jié)果表明:誘導(dǎo)信息的發(fā)布并不是一直有效的,它與路網(wǎng)的車流總量以及初始流量的分配密切相關(guān)。

        關(guān)鍵詞:誘導(dǎo)信息;累積自學(xué)習(xí)機(jī)制;駕駛員路徑選擇

        博弈論中復(fù)雜的邏輯分析,使其在交通領(lǐng)域得到廣泛的應(yīng)用。文獻(xiàn)[1]建立靜態(tài)博弈模型,研究誘導(dǎo)信息的出行者選擇路徑的可能;文獻(xiàn)[2]運(yùn)用博弈論的概念與方法,剖析駕駛員對(duì)誘導(dǎo)信息的反應(yīng)行為,最終得到建議性誘導(dǎo)信息能夠有效地改善博弈的結(jié)果;文獻(xiàn)[3]針對(duì)誘導(dǎo)系統(tǒng)提供無(wú)誘導(dǎo)信息、完全誘導(dǎo)信息、描述型誘導(dǎo)信息和建議型誘導(dǎo)信息4種情況的駕駛員反應(yīng)行為建立博弈論模型。以上研究都將駕駛員視為完全理性,與實(shí)際情況略有差異。由于誘導(dǎo)信息是建議性信息,因此當(dāng)發(fā)布誘導(dǎo)信息時(shí),駕駛員可以選擇接受和不接受誘導(dǎo)信息,并且駕駛員在做出路徑選擇策略時(shí)會(huì)受到其他駕駛員決策的影響,駕駛員之間彼此存在博弈的關(guān)系。

        本文將駕駛員視為有限理性,分析討論誘導(dǎo)信息條件下基于累積自學(xué)習(xí)機(jī)制的駕駛員路徑選擇問(wèn)題。

        1自學(xué)習(xí)機(jī)制

        雖然駕駛員在出行前追求的是自身利益的最大化,但是在做出路徑選擇時(shí)駕駛員之間存在博弈關(guān)系,因此有必要將博弈思想引入駕駛員出行路徑選擇的問(wèn)題中[4]。交通出行是一項(xiàng)復(fù)雜的社會(huì)活動(dòng),受駕駛員自身的局限性限制(如信息了解不全面、判斷不準(zhǔn)確等),駕駛員在作出決策時(shí)并不是完全理性的,故應(yīng)將駕駛員看作是有限理性的決策者。另一方面,駕駛員每次出行對(duì)應(yīng)的交通狀況不是固定不變的,駕駛員要在一次次的出行中學(xué)習(xí)和調(diào)整策略,故應(yīng)將出行過(guò)程看作是一個(gè)學(xué)習(xí)過(guò)程來(lái)討論。因此,駕駛員的出行路徑選擇過(guò)程就是一個(gè)有限理性博弈過(guò)程。

        最優(yōu)反應(yīng)動(dòng)態(tài)模型[5]、復(fù)制者動(dòng)態(tài)模型[6]和虛擬行動(dòng)模型[7]是有限理性博弈中經(jīng)典的三大學(xué)習(xí)模型。以上3種模型都要求局中人對(duì)其他博弈方的決策策略有一定的了解,然而在駕駛員的實(shí)際出行選擇中,駕駛員很難了解到其他大部分出行者的路徑選擇策略,駕駛員出行路徑的選擇更多的決定于自身的近期經(jīng)驗(yàn)[8]。

        在出行之前駕駛員對(duì)行程時(shí)間有一個(gè)模糊預(yù)期。若駕駛員在第k次選擇的路徑行程時(shí)間能達(dá)到模糊預(yù)期,即駕駛員對(duì)第k次決策的收益感到滿意,則第k+1次將會(huì)繼續(xù)選擇該路徑;若駕駛員在第k次選擇的路徑行程時(shí)間未能達(dá)到模糊預(yù)期,則第k+1次就有可能改變決策,選擇其他路徑。在此機(jī)制下,博弈的演化過(guò)程中局中人是一種“自我學(xué)習(xí)”,即自學(xué)習(xí)機(jī)制。

        2誘導(dǎo)信息條件下的累積自學(xué)習(xí)機(jī)制

        2.1滿意度隸屬函數(shù)

        出行時(shí)間的長(zhǎng)短是影響路徑選擇最重要的標(biāo)準(zhǔn)[9],最常見(jiàn)的路段行程時(shí)間函數(shù)是美國(guó)聯(lián)邦公路局函數(shù)(BPR函數(shù))[10],其表達(dá)式為:

        式中:t為駕駛員實(shí)際駕駛時(shí)間;T為自由行駛時(shí)(交通量為0)的路段行程時(shí)間;c為路段通行能力;q為路段實(shí)際交通量,?、r為路段行程時(shí)間函數(shù)參數(shù),一般取?=0.15,r=4。

        滿意度是指駕駛員對(duì)從A地開(kāi)往B地所花實(shí)際時(shí)間的滿意程度,它是個(gè)模糊的概念。本文將駕駛員的行程時(shí)間感受作為駕駛員的路徑選擇收益,并將其時(shí)間感受劃分成3個(gè)模糊集A1、A2、A3,運(yùn)用模糊集的隸屬度函數(shù)[11],其中取論域U=(0,+∞),將A1、A2、A3分別表示為“滿意”、“一般”、“差”。

        根據(jù)模糊集A1、A2、A3的隸屬函數(shù)A1(t)、A2(t)、A3(t)[11]的計(jì)算結(jié)果,若max(A1(t),A2(t),A3(t))=A1(t),則t∈A1,駕駛員對(duì)實(shí)際駕駛時(shí)間t感覺(jué)“滿意”;若max(A1(t),A2(t),A3(t))=A2(t),則t∈A2,駕駛員對(duì)t感覺(jué)“一般”;若max(A1(t),A2(t),A3(t))=A3(t),則t∈A3,駕駛員對(duì)t感覺(jué)“差”。建立路徑L1和L2的時(shí)間感受收益函數(shù)E1(t1)、E2(t2),令

        式中t1、t2分別為車輛在路徑L1和L2上的實(shí)際行駛時(shí)間。

        2.2累積自學(xué)習(xí)機(jī)制

        誘導(dǎo)信息條件下的累積自學(xué)習(xí)機(jī)制是指在有限理性自學(xué)習(xí)機(jī)制下,第p位駕駛員第k+1次的車輛路徑選擇策略(是否接受誘導(dǎo))取決其前k次接受誘導(dǎo)的累積時(shí)間感受收益和不接受誘導(dǎo)的累積時(shí)間感受收益,數(shù)學(xué)表達(dá)式為:

        式中:Yp為第p位駕駛員前i次路徑選擇中,選擇接受誘導(dǎo)的累積時(shí)間感受收益;Np為第p位駕駛員前i次路徑選擇中,選擇不接受誘導(dǎo)的累積時(shí)間感受收益;Ypi為第p位駕駛員第i次路徑接受誘導(dǎo)的駕駛員時(shí)間感受收益;Npi為第p位駕駛員第i次路徑不接受誘導(dǎo)的駕駛員時(shí)間感受收益;Q為參與博弈的車輛總數(shù)(設(shè)每次參與博弈車輛總數(shù)不變,且每位駕駛員只能駕駛1輛車)。

        若第p位駕駛員第i次接受誘導(dǎo),則:Ypi=E1(t1),Npi=0。若第p位駕駛員第i次不接受誘導(dǎo),則:Npi=E2(t2),Ypi=0。以choice(p,i)表示第p位駕駛員第i次的選擇,choice(p,i)=1表示第p位駕駛員第i次博弈接受誘導(dǎo);choice(p,i)=0表示第p位駕駛員第i次博弈不接受誘導(dǎo)。

        若發(fā)布信息建議路徑L1,有

        圖1 路網(wǎng)示意圖

        2.3模型基本假設(shè)

        以駕駛員的實(shí)際行駛時(shí)間作為駕駛員選擇某條路徑所獲得的收益??紤]如圖1所示的路網(wǎng),建立虛擬路徑:接受誘導(dǎo)路徑Ly和不接受誘導(dǎo)路徑Ln。將路徑Ly、Ln、L1和L2座位化處理,即:分別將各路徑劃分為具有Q個(gè)座位的方格化路徑。

        設(shè)每次參與博弈的駕駛員總數(shù)等于Q,初始接受誘導(dǎo)的駕駛員比例為m,則初始接受誘導(dǎo)的車輛總數(shù)qy(i)=mQ,不接受誘導(dǎo)的車輛總數(shù)qn(i)=Q-qy(i)。將qy(i)位駕駛員隨機(jī)坐在路徑Ly上,將qn(i)位駕駛員坐在Ly空的位置所對(duì)應(yīng)的Ln的座位上,并給每位駕駛員按照座位號(hào)標(biāo)上從1~Q的號(hào)碼,且保持該號(hào)碼不變。若第p位駕駛員第i次選擇接受誘導(dǎo),即choice(p,i)=1,則在路徑Ly上第p個(gè)座位為“有”,在路徑Ln上第p個(gè)座位為“空”,即:Ly(p)=1,Ln(p)=0;若第p位駕駛員第i次選擇不接受誘導(dǎo),即choice(p,i)=0,則在路徑Ly上第p個(gè)座位為“空”,在路徑Ln上第p個(gè)座位為“有”,即:Ly(p)=0,Ln(p)=1;所以,若第i次發(fā)布信息建議駕駛員走路徑L1,則L1(p)=Ly(p),L2(p)=Ln(p);若第i次發(fā)布信息建議駕駛員走路徑L2,則L1(p)=Ln(p),L2(p)=Ly(p)。因此第i次路徑L1、L2上的交通量q1(i)、q2(i)的求解公式為:

        2.4收益函數(shù)模型建立

        在誘導(dǎo)信息累積自學(xué)習(xí)機(jī)制中,第p位駕駛員的第i+1次路徑選擇策略取決于其自身的累積時(shí)間感受收益Yp和Np。駕駛員通過(guò)對(duì)自身前i次接受與不接受誘導(dǎo)的經(jīng)驗(yàn)的累積與學(xué)習(xí),判斷選擇出“有限理性的最優(yōu)方案”,借以得出第i+1次是否接受誘導(dǎo),即:若Yp>Np,則第i+1次駕駛員p選擇接受誘導(dǎo)(choice(p,i+1)=1);若Yp

        式中:Gi為局中人;Sp為局中人所做的決定(即策略);Up為局中人收益函數(shù)。

        3模型求解算法

        1)初始化模型。給C1、C2(C1>C2)、T、ζ賦值(定值),其中C1、C2分別為路徑L1、L2的通行能力,T為自由流時(shí)從A到B地的行駛時(shí)間,ζ為當(dāng)?shù)趐位駕駛員前k次路徑選擇中接受誘導(dǎo)的累積收益等于不接受誘導(dǎo)的累積收益時(shí),駕駛員p第k+1次改變路徑選擇策略的概率。給m、Q賦初始值m=0.1,Q=1 000(m為路徑L1的初始分配比例,初始誘導(dǎo)信息的建議路徑為L(zhǎng)1)。fabu(1)=1,座位化路徑Ln、Ly、L1、L2,確定初始接受誘導(dǎo)的駕駛員qy(1)=round(mQ),不接受誘導(dǎo)的駕駛員qn(1)=Q-qy(1),將qy(1)名駕駛員隨機(jī)坐到路徑Ly的座位上,將qn(1)名駕駛員坐到對(duì)應(yīng)Ly上空位置的Ln的座位上。

        Ln=zeros(1,q);

        Ly=zeros(1,q); %座位化虛擬路徑Ln、Ly

        L1=zeros(1,q);L2=zeros(1,q);%座位化路徑L1、L2

        e=ones(1,q);

        qy(1)=round(mq);%確定初始接受誘導(dǎo)的駕駛員總數(shù)

        qn(1)=q-qy(1);

        kk=randperm(q,qy(1));

        forg=1:qy(1);%將接受誘導(dǎo)的車輛隨機(jī)坐到路徑Ly上

        Ly(kk(g))=1;

        end

        Ly=e-Ly;%將不接受誘導(dǎo)的駕駛員坐在Ln上

        forg=1:q

        ifLy(g)==1

        choice(g,1)=1;

        else

        choice(g,1)=0;

        end

        end。

        2)判斷第p位駕駛員第i次的路徑選擇策略choice(p,i)。若choice(p,i)=1,即:接受誘導(dǎo),則Ly(p)=1,Ln(p)=0;若choice(p,i)=0,即第p位駕駛員不接受誘導(dǎo),則Ln(p)=1,Ly(p)=0。

        forp=1:q

        if choice(p,i)=1

        Ly(p)=1;

        Ln(p)=0;

        else

        Ly(p)=0;

        Ln(p)=1;

        end

        end。

        3)判斷第i次誘導(dǎo)信息發(fā)布的建議路徑。若fabu(i)=1,則L1=Ly,L2=Ln;若fabu(i)=2,則L2=Ly,L1=Ln;分別統(tǒng)計(jì)路徑L1,L2上的駕駛員數(shù)q1(i)和q2(i)。

        if fabu(i)==1

        L1=Ly;

        L2=Ln;

        else

        L1=Ln;

        L2=Ly;

        end

        q1(i)=sum(L1);

        q2(i)=sum(L2); %統(tǒng)計(jì)路徑L1、L2第i次博弈的流量(車輛數(shù))。

        4)計(jì)算路徑L1、L2上的駕駛員時(shí)間感受,并根據(jù)第i次的發(fā)布信息得出第p位駕駛員第i次的接受誘導(dǎo)信息的時(shí)間感受Ypi和不接受誘導(dǎo)信息的時(shí)間感受Npi。

        5)累積駕駛員接受誘導(dǎo)信息的時(shí)間感受Ypi和不接受誘導(dǎo)信息的時(shí)間感受Npi。

        Yp=Yp+Ypi;%累積駕駛員接受誘導(dǎo)的時(shí)間感受收益;

        Np=Np+Npi,%累積駕駛員不接受誘導(dǎo)的時(shí)間感受收益。

        6)判斷Yp和Np大小,確定第p位駕駛員第i+1次的路徑選擇方案choie(p,i)。

        7)根據(jù)choice(p,i+1)計(jì)算第i+1次接受誘導(dǎo)的駕駛員總數(shù)和不接受誘導(dǎo)的駕駛員總數(shù),確定第i+1次發(fā)布的誘導(dǎo)信息fabu(i+1)。

        8)判斷博弈次數(shù)是否>100。若i>100,則轉(zhuǎn)9),否則i=i+1,轉(zhuǎn)2)。

        9)判斷初始接受誘導(dǎo)信息的駕駛員比例是否大于1。若m>1,則轉(zhuǎn)10),否則m=m+0.1,轉(zhuǎn)1)。

        10)終止條件。若Q>3(C1+C2)則終止循環(huán),否則Q=Q+Δq,轉(zhuǎn)1)。

        4模型仿真

        本算例中,C1=1 500,C2=1 000,T=30,ζ=0.333[12],Q=1 000,Δq=500。仿真結(jié)果如下:(本算例中,fabu(1)=1,即第1次誘導(dǎo)信息的建議路徑為L(zhǎng)1)。第99次和第100次的博弈結(jié)果如圖2所示。

        a)第99次博弈                       b)第100次博弈圖2 誘導(dǎo)信息下累積自學(xué)習(xí)機(jī)制博弈結(jié)果

        仿真結(jié)果表明:在累積自學(xué)習(xí)機(jī)制下,當(dāng)參與博弈的車輛總數(shù)遠(yuǎn)大于路網(wǎng)總通行能力時(shí),初始接受誘導(dǎo)的駕駛員比例m對(duì)博弈平衡狀態(tài)無(wú)影響,其博弈結(jié)果均為峰谷平衡;當(dāng)路網(wǎng)車輛總量接近路網(wǎng)總通行能力時(shí),路網(wǎng)博弈平衡結(jié)果與初始接受誘導(dǎo)的駕駛員比例相關(guān),其博弈結(jié)果會(huì)呈現(xiàn)穩(wěn)定平衡或交替平衡;當(dāng)路網(wǎng)車輛總量遠(yuǎn)小于路網(wǎng)總通行能力時(shí),初始接受誘導(dǎo)的駕駛員比例對(duì)路網(wǎng)博弈平衡結(jié)果無(wú)顯著影響,其博弈結(jié)果為穩(wěn)定平衡。

        因此,當(dāng)路網(wǎng)車流總量小于或接近路網(wǎng)總通行能力時(shí),若發(fā)布誘導(dǎo)信息,路徑L1、L2的擁擠度接近,對(duì)路網(wǎng)通行能力具有較高的利用率;當(dāng)路網(wǎng)車流總量遠(yuǎn)大于路網(wǎng)總通行能力時(shí),若發(fā)布誘導(dǎo)信息,路網(wǎng)系統(tǒng)會(huì)形成峰谷平衡,路徑L1、L2的擁擠度出現(xiàn)“兩極化”現(xiàn)象,可發(fā)布誘導(dǎo)信息對(duì)路網(wǎng)總通行能力的利用率較低,可采取相應(yīng)的交通管理措施,提高路網(wǎng)通行能力的利用率。

        5結(jié)語(yǔ)

        1)討論了基于累積自學(xué)習(xí)機(jī)制的有誘導(dǎo)信息車輛路徑選擇問(wèn)題,建立以駕駛員累積時(shí)間感受為收益函數(shù)的博弈模型,并通過(guò)仿真得出模型的博弈平衡結(jié)果。

        2)當(dāng)路網(wǎng)車輛總量接近路網(wǎng)總通行能力時(shí),發(fā)布誘導(dǎo)信息,路網(wǎng)的交通流分布也能達(dá)到穩(wěn)定平衡,并且對(duì)路網(wǎng)通行能力具有較高的利用率;在路網(wǎng)總流量遠(yuǎn)大于路網(wǎng)總通行能力或發(fā)生緊急交通事故及節(jié)假日時(shí),發(fā)布誘導(dǎo)信息,路網(wǎng)交通流分布呈現(xiàn)峰谷平衡,不能有效利用整個(gè)路網(wǎng)系統(tǒng),此時(shí)應(yīng)采取相應(yīng)的交通管理措施。

        參考文獻(xiàn):

        [1]董斌杰,李克平,廖明軍,等,誘導(dǎo)信息下基于博弈論的路徑選擇模型[J].北華大學(xué)學(xué)報(bào)(自然科學(xué)版),2007, 8(1):88-91.

        [2]李靜,范炳全.基于駕駛員反應(yīng)行為的誘導(dǎo)博弈分析[J].上海理工大學(xué)學(xué)報(bào),2003, 25(4): 398-400.

        [3]魯叢林.誘導(dǎo)條件下的駕駛員反應(yīng)行為的博弈模型[J].交通運(yùn)輸系統(tǒng)工程與信息,2005,5(1): 58-61.

        [4]劉建美.誘導(dǎo)條件下的路徑選擇行為及協(xié)調(diào)方法研究[D].天津:天津大學(xué),2010.

        [5]謝識(shí)予.經(jīng)濟(jì)博弈論[M]. 2版.上海:復(fù)旦大學(xué)出版社,2002.

        [6]王濟(jì)川,郭麗芳.抑制效益型團(tuán)隊(duì)合作中“搭便車“現(xiàn)象研究——基于演化博弈的復(fù)制者動(dòng)態(tài)模型[J].科技管理研究,2013,12(21):191-195.

        [7]劉建美,馬壽峰.交通誘導(dǎo)-出行信號(hào)博弈分析及其虛擬行動(dòng)學(xué)習(xí)模型[J].武漢大學(xué)學(xué)報(bào)(工學(xué)版),2010,40(1):102-107.

        [8]EREV I,BEREBY-MEYER Y,ROTH A.The effect of adding a constant to all payoffs:experimental investigation and implications for reinforcement learning models[J].Journal of Economic Behavior and Organization,1999(39):111-128.

        [9]OUTRAM V E, THOMPSON E.Driver route choice Proceeding[C].London:PTRC Annual Meeting ,1977.

        [10]楊佩坤,錢林波.交通分配中路段行程時(shí)間函數(shù)研究[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),1994,22(1):41-44.

        [11]楊綸標(biāo),高英儀,凌衛(wèi)新.模糊數(shù)學(xué)原理及應(yīng)用[M].廣州:華南理工大學(xué)出版社,2011:1-67.

        [12]周元峰.基于信息的駕駛員路徑選擇行為及動(dòng)態(tài)誘導(dǎo)模型研究[D].北京:北京交通大學(xué),2007.

        (責(zé)任編輯:楊秀紅)

        Driver′s Route Choice with Help of Induced Information Based on

        Cumulative Self-Learning Mechanism

        LUOJia,ZHOUDaiping,HELin

        (SchoolofTraffic&Transportation,ChongqingJiaotongUniversity,Chongqing400074,China)

        Abstract:Regarding the driver as the bounded rationality and driver′s feelings of travel time as a decision benefits, a driver′s route choice model of the induced information based on the cumulative self-learning mechanism is established. The game balance results are verified by the simulation in the different initial states. The simulation results show that the induction information release is not always effective and it is closely related to the total network traffic flow and initial flow.

        Key words:induced information; cumulative self-learning mechanism; driver′s route choice

        文章編號(hào):1672-0032(2015)04-0034-06

        中圖分類號(hào):U471.3

        文獻(xiàn)標(biāo)志碼:A

        DOI:10.3969/j.issn.1672-0032.2015.04.008

        作者簡(jiǎn)介:羅佳(1993—),女,四川宜賓人,碩士研究生,主要研究方向?yàn)榻煌ㄒ?guī)劃.

        收稿日期:2015-05-22

        综合亚洲二区三区四区在线| 狼人国产精品亚洲| 伊人狠狠色j香婷婷综合| 九九久久精品一区二区三区av| 午夜福利理论片在线观看播放| 亚洲欧洲精品无码av| 欧美日韩色| 国产亚洲精品视频在线| 蜜桃av在线免费网站| 97人妻碰碰视频免费上线| 久久精品无码一区二区三区蜜费| 天堂a版一区二区av| 国产日本精品一二三四区| 骚片av蜜桃精品一区| 精品国产高清一区二区广区| 亚洲一区二区三区国产精品视频 | 亚洲视频网站大全免费看| 无码人妻久久一区二区三区免费| 国产啪精品视频网给免丝袜| 亚洲天堂色婷婷一区二区| 精品日韩一级免费视频| 久久午夜夜伦鲁鲁片免费无码| 天天躁日日操狠狠操欧美老妇 | 熟女人妻丰满熟妇啪啪| 97人妻中文字幕总站| 超碰色偷偷男人的天堂| 曰本无码人妻丰满熟妇5g影院| 国产粉嫩嫩00在线正在播放| 亚洲女同恋av中文一区二区 | 国产精品久久久久久人妻精品| 热re99久久精品国产66热6| 国产精品27页| 蜜桃激情视频一区二区| 国产猛烈高潮尖叫视频免费| 亚洲欧美日韩中文无线码| 国产精品女丝袜白丝袜| 亚洲视频在线观看一区二区三区| 又大又粗又爽18禁免费看| 无码成人片一区二区三区| 白白在线免费观看视频| 国产精品无码一区二区三区电影 |