劉根旺,周 穎,張 磊,康增信
河北工業(yè)大學(xué) 人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300130
在人員疏散的過程中,挑戰(zhàn)研究人員的最有趣的任務(wù)之一在于對人群沖突機(jī)制以及一些自組織效應(yīng)[1]的探索,這些探索對人員疏散[2-3]具有重要意義。人員疏散研究大多都是基于微觀模型,如社會力模型、格子氣模型、元胞自動機(jī)模型等。這些模型在一定的程度上可以描述許多典型現(xiàn)象,例如拱型、快即是慢、車道形成等,并且這些現(xiàn)象確實(shí)發(fā)生在真正的緊急撤離過程中。人員疏散是一種由具有強(qiáng)烈相互作用的行人組成的多智能體復(fù)雜系統(tǒng)。為了盡快逃離危險,撤離人員會盡可能靠近離出口更近的地點(diǎn)。在這個過程中,當(dāng)兩個或更多行人的下一個移動步驟選擇相同的地點(diǎn)時,不可避免地會發(fā)生沖突。很多研究者采用社會力模型來探究這種現(xiàn)象。社會力模型是基于牛頓力學(xué)的多粒子自驅(qū)動連續(xù)模型,非常適合模擬行人的復(fù)雜運(yùn)動[1]。然而,由于計算效率,社會力模型僅適用于小規(guī)模的人員疏散。而離散模型(例如格子氣體模型和元胞自動機(jī)(CA)模型)由于其特殊特征而沒有規(guī)模限制,因此被廣泛應(yīng)用于疏散動力學(xué)研究,如在CA 模型基礎(chǔ)上,文獻(xiàn)[4]研究了出口障礙物對撤離人員逃逸狀態(tài)的影響,文獻(xiàn)[5]確定了視野條件不佳時信息的準(zhǔn)確性對疏散效率的重要性,文獻(xiàn)[6]發(fā)現(xiàn)了視覺半徑和行人密度對撤離者疏散的影響。而文獻(xiàn)[7]提出一種三角形的元胞自動機(jī)模型來模擬高密度人群的疏散過程。但這些模型均沒解決撤離者之間如果發(fā)生沖突進(jìn)行爭搶目標(biāo)地點(diǎn)時應(yīng)該如何處理的問題。為了進(jìn)一步了解這一行為,試著將博弈論用于人員疏散。事實(shí)上,博弈論被認(rèn)為是在疏散過程中探索人群沖突的好工具[8-9],行人之間復(fù)雜的互動力可以通過收益矩陣反映出來,行人可能的行動可以通過相關(guān)的收益來確定[10-11]。
在上述工作的推動下,本文提出了一種結(jié)合博弈論[12]的元胞自動機(jī)模型[13]來模擬行人疏散過程。在提出的模型中考慮了兩個重要因素,即人員的慣性系數(shù)和恐慌指數(shù),并且研究它們的變化對人員演化和疏散效率的影響。
元胞自動機(jī)(CA)模型常用于描述疏散動力學(xué)。CA 可以充分代表現(xiàn)實(shí)世界中任意復(fù)雜性的現(xiàn)象,并揭示復(fù)雜系統(tǒng)的演化。它是研究動力學(xué)和非平衡系統(tǒng)的一個非常有用的工具,并且被應(yīng)用于許多科學(xué)領(lǐng)域[14]。在人員疏散領(lǐng)域,人的移動的轉(zhuǎn)移概率可表示如下:
其中,Sij和Dij是網(wǎng)格(i,j)中靜態(tài)場和動態(tài)場的值,動態(tài)場Dij表示行人留下的虛擬軌跡。每當(dāng)行人離開網(wǎng)格(i,j)時,(i,j)中的Dij值增加1,動態(tài)場反映了人們的從眾心理。反過來,靜態(tài)場Sij的值不會隨著時間改變,其值反映了網(wǎng)格到門口的距離,取決于房間的幾何形狀。有幾種方法[15-16]來計算靜態(tài)場的值,如歐幾里德距離、曼哈頓距離、Dijkstra 距離等等。在本文中,靜態(tài)場Sij是通過歐幾里德方法計算的。如圖1 所模擬的房間的靜態(tài)場,出口單元的靜態(tài)場的值等于0,這是最小值,在沒有動態(tài)場的干擾下,人會有由靜態(tài)場的大值走向小值的意愿。nij是占用數(shù)字。如果網(wǎng)格(i,j)為空,則nij=0。如果網(wǎng)格(i,j)被撤離者占用,則nij=1。ξij是布爾值,它是為了防止行人進(jìn)入障礙物。它在公式(2)中當(dāng)網(wǎng)格(i,j)屬于障礙物時等于0,否則等于1。而kS作為噪聲反映了撤離者和出口的距離感,本文中kS是一個比較大的數(shù),代表撤離者對于自己和門的距離有很準(zhǔn)確的認(rèn)識。
圖1 模擬房間的靜態(tài)場
在模擬中,使用并行更新規(guī)則。當(dāng)兩個或多個行人打算在同一時刻移動到同一個網(wǎng)格時,就會產(chǎn)生沖突。當(dāng)沖突發(fā)生時,撤離者將保持溫和或激進(jìn)的態(tài)度。對此設(shè)置了兩種行人策略,如果有人保持謙虛且禮讓,他/她將選擇合作策略,他/她被稱為合作者(C)。如果有人保持攻擊性,他/她將選擇有缺陷的策略,那么他/她被稱為叛逃者(D),叛逃者不耐煩且有競爭力。行人到目標(biāo)網(wǎng)格的移動概率由囚徒博弈和公式(3)給出,囚徒博弈非常適合描述沖突個體之間復(fù)雜的相互作用。其收益矩陣如表1所示,其中R=1,T=b,S=0,P=0,分別代表合作獎勵,誘惑,支付,懲罰。人在較為恐慌時,叛逃者此時會更激烈地競爭下一個目標(biāo)地點(diǎn),將更有可能進(jìn)入下一個有利位置,從合作者身上獲取的收益會更高,因此定義b 為恐慌指數(shù)。
表1 囚徒博弈收益矩陣
在這個模型中,為了描述撤離者的運(yùn)動,使用了具有馮諾依曼鄰域的CA模型,如圖2所示,撤離者下一步行動會有上下左右四個方向的選擇。
圖2 人的方向選擇
當(dāng)有多位撤離者想進(jìn)入同一網(wǎng)格時,這幾個人將陷入博弈,撤離者將以公式(3)確定的概率進(jìn)入格子:
其中,Ui 是平均收益,指的是在此次博弈中的撤離者兩兩進(jìn)行博弈以后的收益總和除以參與此次博弈的人數(shù),α 是一個某次博弈中隨著D 數(shù)目變大而變大的數(shù),再現(xiàn)了叛逃者比較多的情況下,由于競爭過于激烈,撤離者進(jìn)入網(wǎng)格的幾率變低的情況。Φ 是此次沖突所有參加博弈的人。
當(dāng)撤離者在一次博弈中失敗了,導(dǎo)致他不能進(jìn)入快速離開房間的目標(biāo)地點(diǎn),這時他沒有從此次博弈中獲益,所以他會試著改變自己的策略。這里采用費(fèi)米更新規(guī)則來更新撤離者的疏散策略:
其中,sx代表當(dāng)前策略,sy代表相反策略,πx表示在此次博弈中的收益,πy表示在此次博弈中假如采取相反的策略會獲得的收益,τ 代表人的慣性。慣性代表人保持當(dāng)前策略的能力,假如人是懶惰的不敏感的,那么收益的吸引力將會對他們降低,他們根據(jù)實(shí)際情況更新自己策略的能力也會變?nèi)酰谫M(fèi)米函數(shù)中引入慣性可以有效降低人更新策略的概率。在此模型中,如果撤離者在此次博弈中獲得了勝利,那么他將不改變當(dāng)前策略。
因?yàn)橘M(fèi)米更新規(guī)則非常符合人類的心理和行為特征,因此被廣泛應(yīng)用于演化博弈論中。公式(4)的演化是基于自我反思的機(jī)制。對于某一次博弈完成后,C策略的收益較低,在博弈中獲勝的幾率不高,尤其是在恐慌比較大時,進(jìn)入目標(biāo)格子的可能性越發(fā)得小,所以策略C 對D 的吸引力不高,體現(xiàn)在費(fèi)米更新規(guī)則中就是D→C的幾率不高,但在人員疏散的這個復(fù)雜情景中,高理智的人仍有可能出于自利性而選擇合作者策略,所以D→C 概率并不是完全為零;對于C→D 過程則相反,恐慌越大,D的收益越高,D策略對于C的吸引力越大,這個策略變化的可能性越大,在費(fèi)米更新規(guī)則中概率也就越大。
在人員疏散的過程中,撤離者的異質(zhì)性經(jīng)常會被搭建模型的人所忽略。在以往的模型中,當(dāng)有多名撤離者搶奪同一地點(diǎn)而發(fā)生沖突時,這類模型的處理是非常粗糙的,它會根據(jù)隨機(jī)概率選擇一位撤離者進(jìn)入此地點(diǎn),這樣顯然是不符合常理的。因此本文在充分考慮人員異質(zhì)性情況下,把撤離者分成兩類,通過博弈論的方式確定勝利者,并且在人員疏散這個復(fù)雜的系統(tǒng)中,人會根據(jù)自己所處的情況不斷地更新策略,這樣也可以通過不停影響身邊的人進(jìn)而影響到整個系統(tǒng)中的人,增強(qiáng)了整個系統(tǒng)中信息的傳播性。
本文使用Visual Studio 軟件搭建基于博弈論的人群疏散仿真模型,在模型中,使用帶有一個出口的房間,房間由方形格子描述,大小為25 m×25 m。出口位于右側(cè)墻壁,寬度為1 m。撤離者的總?cè)藬?shù)設(shè)定為500人,每0.5 s移動0.5 m。所有的人初始狀態(tài)在場館中都是隨機(jī)分布的。并且每個參數(shù)值的仿真做了100次,以減少偶然誤差。初始狀態(tài)的合作者人數(shù)設(shè)置為NC,叛逃者人數(shù)設(shè)置為ND。
圖3 是人員疏散過程的一些快照,從圖中可以看出,在人群中更加密集的地方,由于擁擠會產(chǎn)生更多的叛逃者,同時叛逃者會成塊出現(xiàn),叛逃者“侵入”合作者的現(xiàn)象很明顯,這反應(yīng)了合作者對于叛逃者在沖突博弈中的高收益行為進(jìn)行學(xué)習(xí)的過程,也說明了恐慌情緒是會傳染的。由行人運(yùn)動的堵塞問題引起的拱形現(xiàn)象出現(xiàn)在圖中,這種自組織現(xiàn)象的產(chǎn)生極大支持了本文模型的正確性。
圖3 不同時間的疏散情形
當(dāng)設(shè)置了ND=250,然后用不同的慣性系數(shù)和恐慌指數(shù)做仿真實(shí)驗(yàn),得到了表2,從中可以看出隨著恐慌指數(shù)b 的變大,疏散時間也有變大的趨勢,人們越是恐慌地去爭搶,想快速地逃離,最終的疏散時間越長,這成功再現(xiàn)了人員疏散這個復(fù)雜系統(tǒng)中快即是慢的這種自組織效應(yīng)。
表2 在不同的恐慌和慣性情況下的疏散時間 s
如圖4所示,探究了在慣性系數(shù)為0,不同的恐慌指數(shù)下的疏散演化過程。當(dāng)情況不太危急時,恐慌指數(shù)較小,人們處于比較輕松的狀態(tài),這時人們對于成為叛逃者并且跟別人發(fā)生沖突不太熱衷,從圖中看出,此時疏散完成時叛逃者的數(shù)目是相對少的。當(dāng)情況比較危急時,比如發(fā)生了火災(zāi)地震等災(zāi)害引起人們較大的恐懼時,這時恐慌指數(shù)b 是較大的,撤離者會更激烈競爭下一個可以抵達(dá)的地點(diǎn),這種情況下疏散完成時,叛逃者的數(shù)目相對較大,這樣的情況跟實(shí)際情況較為相符。從表2可以看出恐慌指數(shù)越大,疏散的整體時間越長。這是很好理解的,恐慌變大將導(dǎo)致叛逃者變多,恐慌情緒傳染,叛逃者“侵入”合作者的現(xiàn)象會更加明顯。而叛逃者變多,群體中的惡性沖突會增多,由于模型中參數(shù)α的設(shè)定,叛逃者比例越大越會導(dǎo)致進(jìn)行博弈的人都不能進(jìn)入目標(biāo)地點(diǎn),這樣的惡性競爭會降低疏散效率,讓整個系統(tǒng)的收益變低,從而疏散時間變長。在圖中顯而易見的是,對于相同的恐慌指數(shù),即使最初人們由于各種事故原因致使叛逃者的人數(shù)有所不同,最終合作者與叛逃者的比例也會趨同,這也是一種支持模型正確的自組織效應(yīng)。
假如人都是理性的,由于叛逃者的高收益,叛逃者和合作者的比例應(yīng)該不會趨于平衡,叛逃者的比例應(yīng)該越來越大才對,但仿真表明事實(shí)并非這樣,這說明一個問題,人們選擇合作者的策略的原因并不一定是高素質(zhì),而可能是因?yàn)樽岳?,因?yàn)槿绻晃兜臓帗尶赡軙?dǎo)致大家都不能達(dá)到指定地點(diǎn),很多人才會選擇合作者策略。隨著恐慌的增大,帶給叛逃者的不只是簡單的高進(jìn)攻性和高收益,同時會降低他們的理智,這樣的情況下,可能不會有太多人考慮到合作會給整體帶來更高的收益,所以在喪失理智和更高收益的吸引下,叛逃者的比例會越來越高。模型可以很好地還原人們在疏散時的心理。
慣性系數(shù)τ 和恐慌指數(shù)b 會影響策略更新過程。研究表明,慣性τ 和其他因素共同作用會在進(jìn)化博弈中產(chǎn)生驚人的現(xiàn)象,圖5 和表2 詳細(xì)表示出了合作頻率與τ ,b 之間的關(guān)系。有趣的是,在圖中隨著慣性的變大,并不呈現(xiàn)出簡單的單調(diào)現(xiàn)象??梢酝ㄟ^評估τ 從小到大對整個系統(tǒng)的影響來理解這種現(xiàn)象。
圖4 慣性系數(shù)等于零時人的演化過程
圖5 慣性系數(shù)不為零對人群演化的影響
通過將慣性τ 引入費(fèi)米更新規(guī)則來研究慣性對人員疏散中合作演化的影響。發(fā)現(xiàn)慣性確實(shí)會影響系統(tǒng)的協(xié)作水平。并且對于人員疏散這個系統(tǒng)來說,不同的緊急事件可能會導(dǎo)致不同的初始合作者的比例,而對于不同的初始比例存在可以引起高協(xié)作頻率的最佳慣性τ 。當(dāng)初始的叛逃者頻率比較大時如在ND=400 或者ND=450 時,從圖中看出當(dāng)慣性系數(shù)趨向于零可以獲得較好的合作者頻率。而當(dāng)叛逃者的初始比例較小時如ND=50 或者ND=100 等,從圖中可以看出,可以在慣性系數(shù)τ 比較大時得到較高的協(xié)作水平。無論初始的人員比例如何,他們均在慣性比較適中時,得到較大的叛逃者比例,從而使得疏散時間變得很長。對于這些現(xiàn)象可以很容易聯(lián)想到:當(dāng)τ 為零時,此時疏散者都是沒有慣性的,他們根據(jù)收益來更新策略,此時根據(jù)不同的恐慌指數(shù)b 將會有不同的平衡態(tài),顯而易見,恐慌指數(shù)較大將會導(dǎo)致較多的叛逃者出現(xiàn),從而導(dǎo)致疏散時間變長。而當(dāng)把撤離者設(shè)置為具有中小程度的慣性時,比如當(dāng)τ=1 或者τ=2 時,對于撤離者來說,他進(jìn)行策略更新時,會有保持當(dāng)前策略的能力,也就是策略更新的幾率會變低??墒遣呗愿掠袃煞N情況,當(dāng)慣性比較小的時候,對于C→D 和D→C 兩個演化過程來說產(chǎn)生的影響是不一樣的,對于C→D這個過程來說,因?yàn)榕烟诱叩氖找姹容^高,小程度的慣性對于這個過程影響較?。欢鴮τ贒→C這個過程,因?yàn)楹献髡叩氖找孑^小,這個策略對叛逃者的誘惑比較小,所以人們比較容易能夠保持住當(dāng)前的策略。在這種情況下,叛逃者的恐慌情緒會比較容易傳染合作者,導(dǎo)致合作者的比例變低,反而會對疏散過程產(chǎn)生不利的影響。當(dāng)慣性過大時(在模型中慣性大于4 時),所有的疏散者由于保持當(dāng)前策略的能力過于巨大,而無法改變策略,此時系統(tǒng)會陷入凍結(jié)狀態(tài),系統(tǒng)中的撤離者將以較低的速度更新策略,并且合作者可以形成集群抵抗叛逃者的入侵直到疏散完成。這是符合實(shí)際情況的,支持了所做模型的正確性。
從計算機(jī)的運(yùn)算復(fù)雜度來說,本文的模型除了在每一個時間步都需要和傳統(tǒng)模型一樣計算動態(tài)場和靜態(tài)場以決定每一個撤離者下一步路線之外,還需要通過博弈計算收益確定沖突的勝利者,并且要進(jìn)行策略更新,而傳統(tǒng)的模型在處理人的沖突過程只使用了一個隨機(jī)數(shù)來決定誰可以在競爭中進(jìn)入目標(biāo)地點(diǎn),因此本文的模型要比傳統(tǒng)的模型運(yùn)算復(fù)雜度高一些。但和社會力模型相比,因?yàn)楸疚牡哪P褪请x散模型,并且沒有引入積分微分等復(fù)雜的運(yùn)算,每次仿真并不會占用太多的時間以及內(nèi)存空間,因此可以進(jìn)行成千上萬次的模擬,也可以大量增加疏散的人數(shù)。而本文模型又能較好地模擬人的心理和行為,這樣就可以有效地為場館設(shè)計時提供良好的疏散模擬。
(1)為了對疏散過程中的行人之間復(fù)雜的相互作用進(jìn)行探索以及建模,本文在元胞自動機(jī)的模型上引入了博弈論的方法來解決行人的沖突。仿真結(jié)果顯示的“拱形”“快即是慢”的自組織效應(yīng)表明模型是可行的。
(2)本文還研究了恐慌指數(shù)對人群演化和疏散時間的影響,當(dāng)恐慌越大時,叛逃者越多,疏散時間越長,再現(xiàn)的真實(shí)場景證明了模型的合理性。并且相同的恐慌下,由于自組織效應(yīng),叛逃者和合作者的比例趨同。
(3)本文還研究了慣性對策略演化的影響,當(dāng)慣性為零時,主要是恐慌引起的人群的演變;而當(dāng)慣性較小時,在收益和慣性的共同作用下,將促使人群向叛逃者演變;當(dāng)慣性較大時,人們保持當(dāng)下能力過于巨大,系統(tǒng)策略演化會陷入凍結(jié)。這些研究可以對社會學(xué)以及復(fù)雜系統(tǒng)建模起到一定的推動作用。