彭 勇,李邦蘭,周代平
(1.重慶交通大學 交通運輸學院,重慶 400074;2.深圳市新城市規(guī)劃建筑設計有限公司,廣東 深圳 518000)
?
車輛路徑選擇對交通流分布的影響
彭勇1,李邦蘭1,周代平2
(1.重慶交通大學交通運輸學院,重慶400074;2.深圳市新城市規(guī)劃建筑設計有限公司,廣東深圳518000)
在無誘導信息條件下,駕駛員通常依靠近期經驗選擇出行路徑。在行為強化理論基礎上,建立了基于有限理性模糊博弈的無誘導信息車輛路徑選擇模型,得出了不同初始狀態(tài)下的博弈平衡結果。數值仿真結果表明:在無誘導信息條件下,路網的交通流分布最終會達到理論分析所給出的某種平衡;在某些路網環(huán)境下,不發(fā)布誘導信息交通流分布能形成良好的穩(wěn)定博弈平衡,但在某些路網環(huán)境下,路網交通流分布會形成非穩(wěn)定博弈平衡,不能充分利用整個路網的通行能力,需要采取一定的管理措施。
交通工程;交通流分布;模糊博弈;路徑選擇;自學習機制
駕駛員出行選擇行為會對道路交通流的分布產生影響,文獻[1-6]研究了無交通誘導或有交通誘導下駕駛員的出行選擇對交通流分布的影響。已有的大部分研究假設駕駛員完全理性,這不完全符合現實。此外,在實際交通網絡中,交通誘導系統(tǒng)建設需要成本支出,因此有必要分析基于駕駛員有限理性和無誘導信息條件下路網交通流的分布平衡狀況,用以確定該路網系統(tǒng)是否有必要建設交通誘導系統(tǒng),發(fā)布誘導信息。
劉建美等[3-5]提出了基于有限理性的博弈出行模型,并重點討論了最優(yōu)反應動態(tài)學習機制條件下的博弈模型,得出了在無誘導信息條件下有限理性的博弈模型平衡鞍點,但該模型僅考慮了其他駕駛員的決策對自身決策的影響,并沒有考慮駕駛員自身的決策影響。然而在實際出行中,對駕駛員路徑選擇影響最大的是近期經驗[7]。筆者在基于行為強化理論的基礎上,將駕駛員視為具有有限理性,考慮駕駛員決策的相互影響及自身駕駛經驗對路徑選擇決策的影響,提出有限理性條件下的自學習機制,研究基于有限理性模糊博弈的無誘導信息條件下的車輛路徑選擇對交通流的分布影響問題。
交通出行是一個多人參與的復雜社會活動,出行選擇必然受到多方面的影響。首先,雖然駕駛員在出行前追求的是自身利益的最大化,但是其在做出路徑選擇策略時會受到其他駕駛員決策的影響,即駕駛員之間存在博弈關系[7]。其次,受駕駛員自身的局限性限制(如信息了解不全面、判斷不準確等),駕駛員并不是完全理性地做出決策,故應將駕駛員看作是有限理性的決策者。最后,駕駛員每次出行所對應的交通狀況不是固定不變的,駕駛員要在多次出行中學習和調整策略,從而達到自己的出行期望,故應將駕駛員的出行過程看作是一個學習過程來討論。綜上所述,駕駛員的出行路徑選擇過程應作為一個有限理性博弈過程來研究。以往的研究包括最優(yōu)反應動態(tài)模型[6]、復制者動態(tài)模型[8]和虛擬行動模型[9]這三大有限理性博弈中經典的學習模型,要求局中人對其他博弈方的決策策略有一定的了解。然而在駕駛員的實際出行選擇中,駕駛員很難了解到其他大部分出行者的路徑選擇策略,故有學者提出駕駛員的策略選擇更多地取決于自身的近期經驗[7]。
Skinner的操作條件反射理論(也稱行為強化理論)認為:人或動物為了達到某種目的,會采取一定的行為作用于環(huán)境,當這種行為的后果對他有利時,這種行為就會在以后重復出現;不利時,這種行為就減弱或消失[10]。人們可以用這種正強化或負強化的辦法來影響行為的后果,從而修正其行為[11]。
因此,本文以在出行之前駕駛員對行程時間有一個模糊預期為基礎,認為博弈的演化過程中局中人是一種自我學習行為,提出了自學習機制:若駕駛員第k次(k為駕駛員車輛路徑選擇次數)選擇的路徑行程時間能達到模糊預期,即駕駛員對第k次決策的收益感到滿意,則駕駛員第k+1次將會繼續(xù)選擇該路徑;若當駕駛員對第k次的路徑選擇收益的滿意度為差時,則其第k+1次將會選擇其他路徑;當駕駛員對k次的路徑選擇收益的滿意度為一般時,則駕駛員第k+1次將會以一定概率選擇其他路徑。
2.1模型基本假設
出行時間的長短是影響路徑選擇最重要的標準[12],美國聯(lián)邦總局(BPR)提出路段行程時間函數[13]:
(1)
式中,T為自由行駛時(交通量為零)的路段行程時間;c為路段通行能力;q為路段實際交通量;δ和γ為參數,一般取δ=0.15,γ=4。
本文以駕駛員的實際行駛時間作為駕駛員選擇某條路徑所獲得的收益。考慮如圖1所示的簡單路網,A點到B點有L1,L2兩條路徑,其路通行能力分別為C1,C2,表示駕駛員第k次通過L1,L2的實際交通量;t1,k,t2,k為駕駛員第k次通過、到達B點的實際通行時間;t0為駕駛員從A點開往B點的期望時間。
圖1 路網示意圖Fig.1 Schematic diagram of road network
2.2滿意度隸屬函數
滿意度是指駕駛員對從A點開往B點所花實際時間的滿意程度,它是個模糊的概念。隸屬函數是模糊數學的一種理論,它的作用是將模糊信息定量化。故用隸屬度函數來確定駕駛員滿意度,其取值本身也反映了從A點開往B點所花實際時間對駕駛員滿意度的隸屬程度。取研究范圍論域U=(0,+∞), 模糊集A1,A2,A3分別表示“滿意”、“一般”、“差”,則它們的隸屬函數分別為[14]:
(2)
(3)
(4)
式中u為論域內任一元素。
若Max{A1(t),A2(t),A3(t)}=A1(t),則t∈A1,駕駛員對實際駕駛時間t的感受為“滿意”;若Max{A1(t),A2(t),A3(t)}=A2(t),則t∈A2,駕駛員對實際駕駛時間t的感受為“一般”;若Max{A1(t),A2(t),A3(t)}=A3(t),則t∈A3,駕駛員對實際駕駛時間t感受為“差”。若駕駛員對實際駕駛時間感覺滿意,則令其收益為1;若駕駛員對實際駕駛時間感覺一般,則令其收益為0;若駕駛員對實際駕駛時間感覺差,則令其收益為-1。建立路徑L1和L2的時間感受收益函數Ei,k(ti,k):
(5)
式中,Ei,k(ti,k)為第k次路徑i上的駕駛員的收益;ti,k為第k次路徑Li上的車輛實際行駛時間。
2.3博弈模型的建立
當駕駛員的第k次收益為滿意時,則其第k+1次選擇將與第k次選擇保持相同路徑;而當駕駛員對第k次路徑選擇收益的滿意度為差時,則其第k+1次將會選擇其他路徑;當駕駛員對k次路徑選擇收益的滿意度為一般時,則駕駛員將會有β的概率選擇其他路徑。設每次博弈時參與的車輛總數一定,q1,k和q2,k分別為第k次博弈中路徑L1和L2上的車流量,則q1,k+q2,k=Q(Q為參與博弈的車輛總數)。若Gk為局中人集合,Sk為局中人選擇策略集合,UGk為局中人選擇策略收益集合,此博弈的戰(zhàn)略表達式如下:
局中人:Gk∈{q1,k,q2,k},k=1,2,3,…,n;
局中人策略集:Sk∈{L1,L2};
局中人收益函數:UGk∈{E1,k(t1,k),E2,k(t2,k)}。
2.4模型初始狀態(tài)
設q1,0和q2,0為路徑L1和L2上的初始流量,t1,0和t2,0為路徑L1和L2上的初始行駛時間,則在自學習機制下,初始狀態(tài)將出現如下9種情形(為方便行文,若E1,0(t1,0)=1,E2,0(t2,0)=1,則記為(1,1)狀態(tài);若E1,0(t1,0)=1,E2,0(t2,0)=0,則記為(1,0)狀態(tài)),其余狀態(tài)類推。
情形1:(1,1)狀態(tài),則q1,1=q1,0,q2,1=q2,0;
情形2:(1,0)狀態(tài),則q1,1=q1,0+βq2,0,q2,1=(1-β)q2,0;
情形3:(1,-1)狀態(tài),則q1,1=q1,0+q2,0,q2,1=0;
情形4:(0,1)狀態(tài),則q1,1=(1-β)q1,0,q2,1=βq1,0+q2,0;
情形5:(0,0)狀態(tài),則q1,1=βq2,0+(1-β)q1,0,q2,1=βq1,0+(1-β)q2,0;
情形6:(0,-1)狀態(tài),則q1,1=(1-β)q1,0+q2,0,q2,1=βq1,0;
情形7:(-1,1)狀態(tài), 則q1,1=0,q2,1=q1,0+q2,0;
情形8:(-1,0)狀態(tài),則q1,1=βq2,0,q2,1=q1,0+(1-β)q2,0;
情形9:(-1,-1)狀態(tài),則q1,1=q2,0,q2,1=q1,0。
由于情形2和4、3和7、6和8類似,所以只需要討論情形1,2,3,5,6和9這6種情形。
情形1:
t1,1∈A1,t2,1∈A1,則q1,1=q1,0,q2,1=q2,0。
∵q1,1=q1,0,q2,1=q2,0,
∴t1,1=t1,0,t2,1=t2,0,
∴t1,1∈A1,t2,1∈A1,
∴q1,2=q1,1,q2,2=q2,1,
?
即情形1最終將達到穩(wěn)定平衡。
同理可證: 情形3和9最終將達到谷峰平衡、交替平衡。
情形2:
t1,0∈A1,t2,0∈A2,則q1,1=q1,0+βq2,0,q2,1=(1-β)q2,0,
∴q1,1>q1,0,q2,1 ∴t1,1∈A1或A2或A3,t2,1∈A1或A2。 所以,情形2可能會演化為情形1,3,6或依舊為情形2,當其演化為其他情形時,其最終博弈結果將與其他情形相同。因此,在此情形中只考慮其依舊為情形2的情況。為方便起見,后面討論的情形均只考慮其保持原情形不變的情況(不管情形第幾次博弈轉換為其他情形,其最終博弈結果將與轉換后的情形博弈結果相同,故不予一一討論)。 考慮其保持情形2不變,則: t1,1∈A2,t2,1∈A1, ∵q1,2=(1-β)q1,1,q2,2=q2,1+βq1,1, ? q1,2k=(1-β)q1,2k-1,q2,2k=q2,2k-1+βq1,2k-1, q1,2k+1=q1,2k+βq2,2k,q2,2k+1=(1-β)q2,2k, ∴q1,2k+1-q1,2k-1=(1-β)2(q1,2k-1-q1,2k-3), ∴q1,2k+1-q1,2k-1與q1,2k-1-q1,2k-3的符號一致, ∴q1,2k+1-q1,2k-1與q1,3-q1,1的符號一致, ∴數列{q1,2k+1}單調。 又 ∵0≤q1,2k+1≤Q, 同理可得: 情形2最終博弈結果為交替平衡。 情形5: t1,0∈A2,t2,0∈A2, 則q1,1=βq2,0+(1-β)q1,0, q2,1=βq1,0+(1-β)q2,0。 I:q2,0>q1,0時, ∵q2,0>q1,0, ∴q1,1=q1,0+β(q2,0-q1,0)>q1,0, ∴q2,1 ∴t2,1 又t1,1∈A2或A3,t2,1∈A1或A2, 因為考慮其保持情形5不變,則: q2,k+1=β+(1-β)q2,k=q2,k+β(Q-2q2,k), q1,k+1=q1,k+β(Q-2q1,k), q2,k+1-q2,k=(q2,k-q2,k-1)(1-2β), 而q2,1-q2,0=β(q1,0-q2,0)>0, ∴q2,k+1-q2,k>0, ∴數列{q2,k}單調遞增,又0≤q2,k≤Q, ∴q2,k+1-q2,k與q2,k-1-q2,k-2同號, ∴q2,k+1-q2,k與q2,3-q2,1同號, 而q2,3-q2,1=2β(1-β)(1-2β)(q2,0-q1,0)>0, ∴q2,k+1>q2,k, ∴ 數列{q2,2k+1} 單調遞增。 又0≤q2,2k+1≤Q, 因此,情形5最終將達到穩(wěn)定平衡。 情形6: t1,0∈A2,t2,0∈A3,則q1,1=(1-β)q1,0+q2,0,q2,1=βq1,0。 因為考慮其保持情形6不變,則: q2,1=(1-β)q2,0+q1,1,q1,1=βq2,0, ∴t2,1∈A3,t1,1∈A2, ∴q2,2=βq1,1=β2q2,0, q1,2=Q-β2q2,0, ? ∴?ξ∈N, 使得:t1,ξ∈A1,t2,ξ∈A3, 即在ξ次博弈后,情形6會演化為情形3。 所以,情形(6)的博弈結果為峰谷平衡。 不同初始狀態(tài)下的博弈結果如表1所示。 表1 不同初始狀態(tài)下的博弈結果Tab.1 Game results in different initial states 圖2 第k次博弈中路徑L1上的流量Fig.2 Traffic volume of path L1 in kth game 圖3 不同初始狀態(tài)下第100和99次的博弈結果Fig.3 Results of 100th and 99th games in different initial states 將操作條件反射理論應用于駕駛員的車輛路徑選擇行為中,建立了基于行為強化理論的自學習機制。將駕駛員的行程時間感受作為駕駛員的路徑選擇收益,建立了基于有限理性模糊博弈無誘導信息條件下的車輛路徑選擇模型。通過理論分析給出了模型博弈結果。數值仿真結果表明:(1)在無誘導信息條件下,路網的交通流分布最終會達到理論分析所給出的某種平衡;(2)在路網交通流總量一定的條件下,初始狀態(tài)不同,博弈結果的平衡狀態(tài)可能不同;(3)在某些路網環(huán)境下,不發(fā)布誘導信息,交通流分布能形成良好的穩(wěn)定博弈平衡;(4)但在某些路網環(huán)境下,路網交通流分布會形成非穩(wěn)定博弈平衡,不能充分利用整個路網的通行能力,需要采取一定的管理措施。 References: [1]李振龍.誘導條件下駕駛員路徑選擇行為的演化博弈分析[J].交通運輸系統(tǒng)工程與信息,2003,3(2):23-27. LIZhen-long.AStudyofRouteChoiceBehaviorofDriversBasedontheEvolutionaryGameundertheConditionofTrafficFlowGuidance[J].JournalofTransportationSystemsEngineeringandInformationTechnology,2003,3(2):23-27. [2]魯叢林.誘導條件下的駕駛員反應行為的博弈模型[J].交通運輸系統(tǒng)工程與信息,2005,5(1):58-61.LUCong-lin.TheModelsofDriver’sResponseBehaviorwithGameTheoryunderGuideInformation[J].JournalofTransportationSystemsEngineeringandInformationTechnology,2005,5(1):58-61. [3]劉建美,馬壽峰.基于有限理性的個體出行路徑選擇進化博弈分析[J].控制與決策,2009,24(10):1450-1454. LIUJian-mei,MAShou-feng.EvolutionaryGameModeaboutIndividualTravelRouteChoiceBasedonBoundedRationality[J].ControlandDecision, 2009,24(10):1450-1454. [4]LIUJM,MASF,HUANGCC,etal.ADimension-reducedMethodofSensitivityAnalysisforStochasticUserEquilibriumAssignmentModel[J].AppliedMathematicalModelling,2010,34(2):325-333. [5]LIUJM,MASF.AlgorithmsofGameModelsonIndividualTravelBehavior[C]//The8thInternationalIEEEConferenceofChineseLogisticsandTransProfessionals.Chengdu:IEEE,2008: 3060-3066. [6]劉建美,馬壽峰,馬帥奇.多種博弈個體出行模型的比較與分析[J].統(tǒng)計與決策,2014(2):52-54. LIUJian-mei,MAShou-feng,MAShuai-qi.ComparisonandAnalysisofaVarietyofIndividualTravelModelGames[J].StatisticsandDecision,2014(2):52-54.[7]YANGH,KITAMURAR,JOVANISPP,etal.ExplorationofRouteChoiceBehaviorwithAdvancedTravelInformationUsingNeuralNetworkConcepts[J].Transportation,1993,20(2):199-223. [8]謝識予.經濟博弈論[M]. 2版. 上海:復旦大學出版社,2002. XIEShi-yu.EconomicGameTheory[M]. 2nded.Shanghai:FudanUniversityPress, 2002. [10]王濟川,郭麗芳.抑制效益型團隊合作中“搭便車”現象研究: 基于演化博弈的復制者動態(tài)模型[J].科技管理研究,2013,12(21):191-195. WANGJi-chuan,GUOLi-fang.StudyonInhibitionof“Free-riding”PhenomenoninTeamCooperation-basedonReplicatorDynamicModelofEvolutionaryGameTheory[J].ScienceandTechnologyManagementResearch, 2013,12(21): 191-195. [11]周元峰.基于信息的駕駛員路徑選擇行為及動態(tài)誘導模型研究 [D].北京:北京交通大學,2007. ZHOUYuan-feng.ResearchonDriverRouteChoiceBehaviorBasedonVMSInformationandDynamicGuidanceModel[D].Beijing:BeijingJiaotongUniversity, 2007. [12]OUTRAMVE,THOMPSONE.DriverRouteChoice[C]//ProceedingsofthePTRCSummerAnnualMeeting.Warwick:UniversityofWarwickUK, 1977:35-42. [13]楊佩坤,錢林波.交通分配中路段行程時間函數研究[J].同濟大學學報:自然科學版,1994,22(1):41-44. YANGPei-kun,QIANLin-bo.ResearchonLinkTravelTimeFunctionsforTrafficAssignment[J].JournalofTongjiUniversity:NaturalScienceEdition,1994,22(1):41-44. [14]楊綸標,高英儀,凌衛(wèi)新.模糊數學原理及應用[M].廣州:華南理工大學出版社,2011. YANGLun-biao,GAOYing-yi,LINGWei-xin.FuzzyMathematicalTheoryandApplication[M].Guangzhou:SouthChinaUniversityofTechnologyPress,2011. Influence of Route Choice Behavior on Traffic Distribution PENG Yong1, LI Bang-lan1, ZHOU Dai-ping2 (1. School of Traffic & Transportation, Chongqing Jiaotong University, Chongqing 400074, China;2. Shenzhen New Land Tool Co., Ltd., Shenzhen Guangdong 518000, China) Under the condition of no guidance information, drivers often choose travel route depend on recent experience. Based on the theory of behavior reinforcement, we established the vehicle routing model without guidance information based on finite rational fuzzy game, and the game equilibrium results under different initial conditions are obtained. The numerical simulation result shows that (1) under the condition of no guidance information, the traffic flow distribution of road network will eventually reach a balance which is given by theoretical analysis; (2) in some road network environments, the traffic flow distribution can form a good stable equilibrium game without release the induction information, however, in some other network environments, the traffic flow distribution will form a non-stable equilibrium game, the traffic capacity of the entire network is inadequate utilized, and certain management measures should be taken. traffic engineering; traffic flow distribution; fuzzy game; path selection; self learning mechanism 2015-05-19 國家山區(qū)公路工程技術研究中心開放基金項目(gsgzj-2012-12) 彭勇(1973-),男,重慶人,博士,教授.(pengyong@cquc.edu.cn) U491.1 A 1002-0268(2016)08-0140-06 doi:10.3969/j.issn.1002-0268.2016.08.0214 結論