宋成舉,楊 光,趙 靜
(1.東北林業(yè)大學 交通學院, 哈爾濱 150040; 2.交通運輸部科學研究院 現(xiàn)代物流研究中心, 北京 100049;3. 黑龍江工程學院 汽車與交通工程學院, 哈爾濱 150050)
共享單車(互聯(lián)網(wǎng)租賃自行車)是一種基于移動互聯(lián)網(wǎng)的自行車分時租賃模式,是城市綠色交通系統(tǒng)的組成部分,是慢行交通的一種創(chuàng)新模式,作為共享經(jīng)濟的一種新形態(tài),由于其具有方便快捷、低碳環(huán)保、緩解擁堵、經(jīng)濟靈活等優(yōu)勢,從2016年至今短短5年,在資本與市場的共同推動下取得了飛速發(fā)展。然而當前行業(yè)監(jiān)管尚存在亂停亂放、藏匿私用、惡意破壞等諸多問題,嚴重制約共享單車發(fā)揮更大作用,不利于慢行交通體系的發(fā)展。
在我國,隨著移動互聯(lián)網(wǎng)技術的日趨成熟,共享單車取得了飛躍發(fā)展,但由共享單車而引發(fā)的各類交通問題、社會問題也日趨增多,多個部門逐漸聚焦共享單車運營監(jiān)管,逐步脫離被動監(jiān)管或多部門重疊管理方式,走向監(jiān)管策略事前評估和多方聯(lián)動監(jiān)管方式。
事實上,共享單車在誕生伊始就存在各種監(jiān)管問題,也引來了國內(nèi)外學者的廣泛關注[1-4]。Caggiani等[5]基于運營區(qū)域節(jié)點數(shù)據(jù)預測單車時空需求,采用動態(tài)單車分配算法提高用戶滿意度;Reiss等[6]利用GPS數(shù)據(jù)建立共享單車時空需求預測模型,建立了運營商和用戶兩種單車搬遷策略,以滿足單車系統(tǒng)的時空需求,節(jié)約用戶等待時間,提升服務滿意度;Shui和Szeto[7]在戰(zhàn)略、戰(zhàn)術和運作決策層面對共享自行車監(jiān)管問題展開分析,根據(jù)監(jiān)管過程中存在的多樣性、現(xiàn)實性、完整性和技術性四大類問題,有針對性地提出了三層決策應對等級;李琨浩[8]運用PEST模型和SWOT-PEST矩陣對共享單車內(nèi)部因素和外部因素進行全面分析,從政府、單車平臺和用戶3個方面提出了解決對策;霍雯艷[9]通過對城市交通環(huán)境、公共自行車的使用需求和政府供給情況進行分析,并比較摩拜等共享單車的運營優(yōu)劣勢,為政府制定有效監(jiān)管措施提供參考;王彥等[10]運用“囚徒困境”博弈描述共享單車平臺之間的價格競爭機制,并提出價格監(jiān)管建議;傅俊堯[11]結合城市治理方向,從政府管理、規(guī)劃編制和學術探討三個角度提出了相應建議;張一進等[12]建立了政府監(jiān)管與共享單車平臺策略選擇的演化博弈模型,分析兩者之間的動態(tài)演化過程,并提出了監(jiān)管建議;何曉平等[13]在共享經(jīng)濟背景下利用演化博弈論分析描述了政府、私營企業(yè)、出行者三者之間的博弈關系,在動態(tài)博弈模型下逐漸演化形成穩(wěn)定策略,分析博弈穩(wěn)定條件,從而為進入市場的企業(yè)提供一定參考;文獻[2]分析政府在共享單車交通安全監(jiān)管方面存在的問題,提出完善共享單車交通安全的政府監(jiān)管對策;周濤等[14]分析政府、企業(yè)和消費者三方相互作用的利益關系,構建動態(tài)博弈演化模型,驗證三方動態(tài)博弈演變路徑及各影響因素的靈敏度變化方向與強度;陳佳惠等[15]以調(diào)度車輛最少和調(diào)度成本最低為目標,構建多車場有時間窗要求的共享單車調(diào)度路徑優(yōu)化模型并求解。
綜上所述,國內(nèi)外針對共享單車監(jiān)管模式、監(jiān)管理論等方面開展了很多有益的研究與探索。對于共享單車監(jiān)管模式,我國政府態(tài)度已經(jīng)十分明確,但對于監(jiān)管策略和監(jiān)管效果,國內(nèi)外均未有成熟的經(jīng)驗可供借鑒參考,監(jiān)管策略仍然以被動制定、事后評估為主,缺乏對共享單車發(fā)展的科學引領?;诖耍闹幸怨蚕韱诬嚤O(jiān)管過程為研究對象,應用博弈論和系統(tǒng)動力學理論分析共享單車監(jiān)管過程中的博弈關系,構建共享單車監(jiān)管策略評估環(huán)境,分別分析不同監(jiān)管策略的實施效果,為規(guī)范引導共享單車行業(yè)的快速健康有序發(fā)展提供科學依據(jù)。
在共享單車監(jiān)管過程中,存在多個利益相關者,考慮到相關性,文中重點剖析單車用戶、單車平臺和監(jiān)管部門3個主體之間的博弈關系。在監(jiān)管過程中,單車用戶是出行服務的使用者,對單車平臺服務質(zhì)量開展直接評價;單車平臺是出行服務的提供者,承擔共享單車出行服務的實際運營行為,在接受監(jiān)管部門監(jiān)管的同時,也對單車用戶具有一定的獎懲權限;而監(jiān)管部門是單車平臺的監(jiān)管者,并接受單車用戶和社會對自身滿意度的反饋與評估??傊?,三者之間的博弈關系如圖1所示。
圖1 共享單車監(jiān)管博弈關系
監(jiān)管博弈的監(jiān)管對象,單車平臺是單車用戶的服務提供商,也是監(jiān)管部門的管控對象,監(jiān)管部門則承擔單車平臺和單車用戶的規(guī)范與監(jiān)管責任,并接受社會公眾監(jiān)督。
為描述共享單車在運營監(jiān)管過程中的博弈關系,文中假定博弈參與者均為有限理性主體。其中監(jiān)管部門對單車用戶的檢查概率為α(0≤α≤1),α值的大小表征了監(jiān)管部門的檢查力度,檢查活動需要支付一定的成本,平均單次檢查成本為C1;如果單車用戶存在不規(guī)范使用情況,但未被及時檢查出來時,社會公眾的期望將受損,轉(zhuǎn)移到監(jiān)管部門的期望損失記為C2;當該不規(guī)范使用情況被檢查出來,則監(jiān)管部門對單車用戶的罰款記為C3。同樣,如果單車平臺被檢查出不嚴格管理情況,對單車平臺的罰款記為C4;反之,如果檢查后未發(fā)現(xiàn)單車用戶和單車平臺存在不規(guī)范使用和不嚴格管理情況時,需要對二者進行獎勵,單車用戶的獎勵記為C5,單車平臺的獎勵記為C6。
單車用戶以概率β(0≤β≤1)采取違規(guī)停放、故意破壞等不規(guī)范使用策略,β值的大小表征單車用戶不規(guī)范行為的嚴重程度。當單車用戶能夠按照管理要求規(guī)范使用時,用戶所得到的正常收益記為B1,而當單車用戶通過隨意停放等不規(guī)范行為而獲得的額外收益記為B2。
單車平臺以概率γ(0≤γ≤1)對單車用戶的使用行為進行日常監(jiān)管,γ值大小表征單車平臺的管理嚴格程度。假定單車平臺在遵循法律法規(guī)條件下獲得的正常收益記為P1,但當單車平臺的管理嚴格程度下降時,單車平臺所承擔的機會成本記為P2,當單車平臺不嚴格管理時,所節(jié)約的管理成本記為P3;單車平臺在嚴格管理時,需要對單車用戶的違規(guī)行為進行懲罰,不存在違規(guī)行為進行獎勵,其中懲罰收益記為P4,獎勵收益記為P5。
策略空間是博弈參與者對應策略的集合,記為Si(i=1,2,3)。其中監(jiān)管部門的策略空間為S1={S11,S12}={檢查,不檢查},單車用戶的策略空間為S2={S21,S22}={不規(guī)范使用,規(guī)范使用};單車平臺的策略空間為S3={S31,S32}={嚴格管理,不嚴格管理},每個參與者所對應的收益函數(shù)記為ui(i={1,2,3})。
根據(jù)上述假定,可求出不同策略組合下,各參與方的收益函數(shù)。對于博弈三方的參與者而言,其收益值取決于博弈三方的策略組合。
當監(jiān)管部門采取檢查策略,單車用戶采取不規(guī)范使用,單車平臺采取嚴格管理時,可知博弈參與者對應的收益值,其中監(jiān)管部門的收益值由三部分組成,即檢查所需支付成本C1,對于單車用戶的違規(guī)罰款收益C3,對于單車平臺嚴格管理的獎勵支付C6。則其收益函數(shù)可表示為
u1{S11,S21,S31}=-C1+C3-C6
(1)
而對于單車用戶而言,其收益值包括:正常收益為B1,不規(guī)范使用策略所獲得的額外收益B2,所需要支付給監(jiān)管部門的罰款C3,支付給單車平臺的罰款P4。則其收益函數(shù)可表示為
u2{S11,S21,S31}=B1+B2-C3-P4
(2)
對于單車平臺而言,其收益值包括:正常收益值P1,監(jiān)管部門的獎勵收益C6,對于單車用戶的罰款收益P4。則其收益函數(shù)可表示為
u3{S11,S21,S31}=P1+C6+P4
(3)
同理,根據(jù)上述假設,給出監(jiān)管部門、單車用戶和單車平臺三者之間在不同策略組合下的收益,匯總至表1。
表1 三方博弈收益矩陣
文中采用Uα表征監(jiān)管部門在選擇檢查策略時的期望收益,U1-α表征監(jiān)管部門選擇不檢查策略的期望收益;Uβ表征單車用戶選擇規(guī)范使用時的期望收益,U1-β表征選擇不規(guī)范使用時的期望收益;Uγ表征單車平臺選擇嚴格管理策略時的期望收益,U1-γ表征單車平臺選擇不嚴格管理策略時的期望收益。
根據(jù)期望定義,監(jiān)管部門不同策略條件下的期望收益函數(shù)可表示為
Uα=βγu1{S11,S21,S31}+β(1-γ)u1{S11,S21,
S32}+(1-β)γu1{S11,S22,S31}+(1-β)(1-
γ)u1{S11,S22,S32}
Uα=β(C5+C3)-γ(C6+C4)+(-C1+C4-C5)
(4)
U1-α=-βC2
(5)
則監(jiān)管部門的平均期望收益可表示為
U1=αUα+(1-α)U1-α
復制動態(tài)方程是對策略演化過程的描述,認為在演化博弈過程中,參與者選擇策略概率的變化率只與上一時刻的策略比例和純策略收益與平均期望收益之間的差值兩個因素相關[14]。其算式可表達為
α)[β(C2+C3+C5)-γ(C4+C6)-C1+C4-C5]
(6)
將式(6)整理即可得到監(jiān)管部門檢查策略的概率變化率。同理,單車平臺及單車用戶的策略概率變化率可分別表示為
Uβ=B1+B2-αC3-γP4
U1-β=B1+αC5+γP5
β)(B2-αC3-γP4-αC5-γP5)
(7)
Uγ=αC6+β(P4+P5)+P1-P5
U1-γ=-α(P2+C4)+P1+P3
γ)(α(C6+P2+C4)+β(P4+P5)-P3-P5)
(8)
一般來說,演化穩(wěn)定均衡的特征之一就是具有嚴格的納什均衡,而缺乏演化穩(wěn)定均衡在相當長的時間內(nèi)將使得系統(tǒng)行為無法預測。另外,即使假設博弈過程中各參與者是完全理性的,雖然通過數(shù)學方法能夠計算出納什均衡,但計算所得納什均衡在整個博弈過程中并不具有穩(wěn)定性。
因此,共享單車監(jiān)管的三方博弈過程使得結果具有明顯的復雜性,很難直接預測,且隨著博弈過程的持續(xù)和博弈時間的增加,各博弈參與者無法逼近甚至穩(wěn)定于某一個策略。
針對共享單車監(jiān)管問題,文中應用系統(tǒng)動力學仿真軟件Vensim PLE構建共享單車監(jiān)管博弈演化策略仿真環(huán)境。依據(jù)建模,各變量間存在以下邏輯關系。
1)對于監(jiān)管部門而言,社會期望損失為公眾評價的量化描述,為體現(xiàn)社會反饋的積極作用,該值應大于各種獎懲支出;為進一步提升監(jiān)管對象的行為規(guī)范性,對單車平臺和單車用戶獎勵收益應小于懲罰收益。
2)對于單車用戶而言,由于其不規(guī)范行為更多體現(xiàn)在違規(guī)停放、上私鎖等行為上,相對于使用便利性帶來的時間收益,違規(guī)收益應小于正常收益。
3)對于單車平臺而言,平臺不嚴格管理時所獲得額外收益的總和應大于不嚴格管理時監(jiān)管部門的懲罰值。
假設INITIAL TIME=0,F(xiàn)INAL TIME=100,其中,13個外部變量的名稱、含義及初值匯總如表2所示。
表2 模型變量名稱、含義及初值
模型中涉及到的水準方程如下:檢查=INTEG(檢查變化率);不規(guī)范=INTEG(不規(guī)范變化率);嚴格管理=INTEG(嚴格管理變化率)。
為分析博弈過程中策略的變化趨勢,文中擬定純策略:博弈參與者一定采用或一定不采用某種策略時的數(shù)學描述,即當博弈參與者以0或1的策略概率初始值參與博弈過程。同時,輸入上述變量初始值,則博弈參與者策略變化曲線如圖2所示。
圖2 純策略條件下各參與者策略曲線變化
圖2中的3條曲線分別代表監(jiān)管部門選擇檢查策略、單車用戶選擇違規(guī)策略和單車平臺選擇嚴格策略的概率變化曲線,從圖1可以看出,各參與者策略在經(jīng)過短暫的波動后達到穩(wěn)定態(tài),即在當前固定懲罰與收益條件下,參與者很容易選擇符合自身最大收益的最優(yōu)策略。
事實上,在博弈過程中,當參與者代表群體時,自身策略的選擇就會呈現(xiàn)一定的概率分布。一方面,各參與者群體中的個體對獎懲與收益的衡量和比較不會呈現(xiàn)純理性,且獎懲與收益值對于每個個體而言未必都是已知的;另一方面,為了引導參與者策略逐漸趨于穩(wěn)定,高效的引導策略顯得尤為重要。通常在管理中比較有效的引導策略包括階梯策略和動態(tài)策略兩種。
階梯策略描述:在管理過程中,針對管理對象行為的不同策略概率而采取不同量化獎懲標準的管理策略,一般分為獎勵分級和懲罰分級兩種。
以共享單車運營監(jiān)管為例,單車用戶違規(guī)程度越嚴重,不失一般性,文中分別擬定的階梯策略包括兩部分,即階梯策略部分一:當單車用戶的違規(guī)概率<0.3時,監(jiān)管部門對其懲罰收益C3為3,當違規(guī)概率介于0.3~0.6時,懲罰收益C3為5,當違規(guī)概率>0.6時,懲罰收益為10;階梯策略部分二:當單車平臺嚴格管理的概率<0.2時,監(jiān)管部門對其罰款收益C4為8,當嚴格概率介于0.2~0.5時,罰款收益C4為5,當嚴格概率>0.5時,罰款收益為2。通過仿真得到博弈參與者策略變化曲線(見圖3)。
圖3 階梯策略下三方策略概率變化曲線
圖3中曲線分別代表監(jiān)管部門、單車用戶和單車平臺的策略概率變化曲線,從結果可以看出,博弈參與者的策略概率總體呈現(xiàn)先收斂后震蕩趨勢,說明階梯策略并不能讓參與者的策略趨于穩(wěn)定。
動態(tài)策略描述:為了更好地抑制參與者策略的波動性,在管理過程中,管理部門對于單車用戶不規(guī)范策略的懲罰收益隨著單車用戶不規(guī)范使用比例的增加而增加。假定單車用戶不規(guī)范策略下的懲罰收益與單車不規(guī)范使用比例正相關;單車平臺不嚴格管理策略下的懲罰收益與單車平臺不嚴格管理比例正相關;社會期望損失與單車用戶不規(guī)范使用比例和單車平臺不嚴格管理比例線性相關。為簡化計算,假定其相關性呈線性,即可以采用單車平臺不規(guī)范使用概率β和單車平臺不嚴格管理概率γ分別表示社會期望損失C2、單車用戶罰款收益C3和單車平臺的懲罰收益C4,算式為
(9)
根據(jù)前文假設,分別取C2max=8,C3max=5,C4max=2,可得三方策略演變曲線,如圖4所示。從圖4可以看出,單車用戶不規(guī)范策略的波動特性得到了明顯抑制,但單車平臺和監(jiān)管部門的策略仍保持較大范圍的波動,說明盡管該策略能夠較好抑制單車用戶不規(guī)范使用行為的波動現(xiàn)象,但對于監(jiān)管部門和共享單車公司的效果并不明顯。
圖4 C3max=5,C4max=2條件下三方概率策略變化曲線
再分別取C3max=8,C4max=4,同樣可得三方博弈曲線,如圖5所示。從圖5可以看出,隨著C3max和C4max的增大,三方策略的波動均呈現(xiàn)一定程度的衰減,當三方策略均穩(wěn)定在均衡值時,但繼續(xù)增大C3max和C4max僅能在一定程度上縮短收斂時間,效果并不明顯。
圖5 C3max=8,C4max=4條件下三方概率策略變化曲線
從上面的仿真結果可以看出,動態(tài)策略對于穩(wěn)定三方博弈行為具有較為明顯的管理效果。此外,在動態(tài)策略下,適當增大對于共享單車和共享單車公司的懲罰收益最大值能夠顯著縮短三方博弈到達穩(wěn)定態(tài)的時間。博弈過程中三方策略的動態(tài)變化如圖6所示。
圖6 博弈三方策略動態(tài)變化
從圖6可以看出,動態(tài)懲罰策略條件下,博弈三方的策略曲線在三維空間中擺動,且三方策略的博弈曲線很快收斂到穩(wěn)定值。博弈參與者的策略波動得到了很好抑制,縮短了收斂時間,取得了較好的監(jiān)管效果。
針對共享單車運營過程中存在的管理問題,分析共享單車用戶、共享單車平臺和監(jiān)管部門三者之間的博弈關系,給出收益矩陣,采用系統(tǒng)動力學評估不同策略條件下博弈參與者策略變化,主要結論如下:
1)共享單車監(jiān)管過程中存在多個參與主體,主體之間存在復雜的博弈關系;
2)純策略條件下,博弈三方都能在短期波動后迅速選擇最優(yōu)策略,但無法代表群體的行為概率;
3)階梯策略條件下,部分參與者策略概率的波動呈現(xiàn)放大趨勢,直至穩(wěn)定態(tài),但部分參與者的策略概率波動性則在一定范圍內(nèi)震蕩;
4)動態(tài)策略條件下,系統(tǒng)波動很快呈收斂狀態(tài),直至穩(wěn)定態(tài),對于參與者策略的波動抑制具有很好效果,且增加懲罰收益能夠提高收斂速度。