摘要:為了更好地解決學生上學安全問題,對安全程度、出行成本、家校距離、家庭位置等多因素共同作用下的上學出行方式選擇行為進行了研究。建立了神經(jīng)網(wǎng)絡模型和多項式 Logit 模型,結(jié)果顯示神經(jīng)網(wǎng)絡模型可以更好地預測人們在學校旅行中的選擇,但是多項式 Logit 模型更能體現(xiàn)影響因素與結(jié)果的關系。因此在制定更加合理的交通發(fā)展戰(zhàn)略時應參考多項式 Logit 模型。
關鍵詞:神經(jīng)網(wǎng)絡模型(ANN);多項式Logit模型(MNL);交通出行方式預測
一、簡介
本文研究目標是為學生的上學出行方式選擇開發(fā)一個模型。由于出行方式受到各種因素的影響,本文根據(jù)參與者的個人和家庭屬性以及位置因素設置了幾個自變量。研究的主要解決方案是使用神經(jīng)網(wǎng)絡模型(ANN)和多項式 Logit 模型(MNL)來測試人們的出行方式選擇與其屬性之間的相關性。根據(jù)結(jié)果,此次研究將能夠在做出選擇時預測趨勢,并提出改進想法以優(yōu)化整體交通系統(tǒng)。通常,大多數(shù)學生的上學是乘坐校車或汽車。由于學生中擁有駕照的比例仍然不高,此次研究還會考慮到測試者的家庭情況屬性,因為父母可能會在上班途中接送孩子??赡苡绊懗鲂蟹绞降囊蛩乩镆舶ㄒ恍O端天氣,例如暴風雨或暴風雪,所有考慮因素對于我們?yōu)槟J竭x擇模型選擇原始自變量都變得至關重要。本研究以 NHTS 2017 數(shù)據(jù)為基礎,參照 NHTS 碼本對數(shù)據(jù)集進行過濾,形成樣本數(shù)據(jù)庫。研究的重點是威斯康星州產(chǎn)生的以學校為目的地的旅行。
二、文獻綜述
一般將各種影響學生出行模式選擇的影響因素分為六組:物理環(huán)境和城市形態(tài)因素(例如:人口密度和土地利用)、特定模式因素(例如 :可達性和便利性)、出行者的個人屬性(例如:性別和年齡)、出行特征(例如:出行目的和出行距離)、出行需求管理的存在(例如:停車費用)和心理因素(例如:習慣和態(tài)度)。不同的研究側(cè)重于不同的群體。
大多數(shù)研究都使用了MNL、NL、混合Logit模型。 一開始研究者們建立了二元 Logit 模型來分析影響學生選擇自行車和步行上學的因素。 學生的出行模式選擇是由情境因素和心理因素共同決定的,這兩個因素的分類更籠統(tǒng)。充分了解學生的出行模式選擇和促成因素可以幫助政府和學校制定和改進政策和基礎設施,以幫助學生安全有效地通勤。
三、數(shù)據(jù)集
本研究使用的數(shù)據(jù)集是 NHTS(全國家庭出行調(diào)查)2017。通常,NHTS 數(shù)據(jù)集是最適合交通選擇建模的來源之一。 所有數(shù)據(jù)均收集了 24 小時內(nèi)的每日出行數(shù)據(jù),包括各種出行和出行者的屬性,例如出行目的、方式和出行時間,收集了全州所有出行、所有模式和所有目的的數(shù)據(jù)。數(shù)據(jù)集包括各種類型的數(shù)據(jù),如家庭數(shù)據(jù)、經(jīng)濟狀況、住房特征和其他人口統(tǒng)計信息等。雖然它不包括出行費用或具體出行路線的信息,但此次研究創(chuàng)建了時間成本列作為模型開發(fā)需要。
四、數(shù)據(jù)處理
為了定位項目區(qū)域,此次研究過濾了威斯康星州的個人出行。但在瀏覽了代表上學出行模式的SCHTRN1一欄后,此次研究注意到只有一小部分參與者有正確的答案。大多數(shù)參與者在調(diào)查中選擇了“適當跳過”,未加權百分比約為 90%。因此,刪除SCHTRN1列中帶有否定代碼的數(shù)據(jù),這4個無意義的選擇是:“適當跳過”、“我不想回答”、“我不知道”和“未確定”。
威斯康辛州的數(shù)據(jù)集的原始大小約為 2800 個觀測值,但經(jīng)過第一步數(shù)據(jù)清理后,它變成了大約 300 個觀測值。
在密碼本列出的所有模式中發(fā)現(xiàn),2017 年的數(shù)據(jù)中從未出現(xiàn)過休閑車(房車、ATV、雪地摩托)和輔助客運系統(tǒng)等幾種替代方案。更重要的是,幾種選擇是少數(shù),只有個位數(shù)的觀察。步行、汽車和校車是三種主要的選擇。因此,此次研究決定將這些模式分為 3 種新的不同類型:私家車、公共交通和非機動車。
對于 Logit 模型,此次研究還需要對將數(shù)據(jù)集傳輸?shù)?Limdep 進行一些調(diào)整。由于某些變量是選擇變量,例如 R_RACE 是受訪者的種族。 01 到 97 的值分別代表白人、黑人、亞洲人等。對于離散模型,尤其是多項式 Logit 建模,此次研究需要將這些變量轉(zhuǎn)換為只有 2 個值的二元變量:0 表示負數(shù),1 表示正數(shù)。因此,原始變量中的每個選擇都將其單獨的列作為新的二元自變量。
此外,由于模式選擇是模型的因變量,因此還需要進行一些調(diào)整。 此次研究開發(fā)了 3 個新列,即 Activity、Nij 和 Altij。 Activity 顯示是否選擇了這種方法,Nij 表示受訪者能夠選擇的備選方案的數(shù)量,Altij 是每個受訪者從 1 到 3 的備選方案代碼,也就是上面提到的三個維度。 因此,每個單獨的觀察將有 3 行具有相同的旅行者屬性和不同的模式選擇。
五、方法論
(一)MNL 模型
本文考慮了兩種方法來開發(fā)本研究的預測模型。多項式Logit模型是一種特殊的離散選擇建模,它可以為不同的模式提出效用函數(shù)。 基本公式如下所示:一個明確的學校模式選擇多項式模型將采用以下形式:
其中Pk是學校旅行選擇模式k的概率,Uk是模式k的效用函數(shù),定義如下:
其中∝k= 常數(shù)向量;
和β = 以模式 k 從 i 到 j 的出行的行程特征和相應的參數(shù)向量,包括出行時間;
SEm和 γ= 來自家庭m的學生的社會經(jīng)濟特征和相應的參數(shù)向量,諸如收入和汽車擁有量等特征;
SCn和θ= 學校特征,例如入學率和學校 n 的相應參數(shù)向量;
BE i和δ = 原點 i 的建成環(huán)境特征和相應的參數(shù)向量,其中 i 是社區(qū)、人口普查區(qū)、交通分析區(qū) (TAZ) 或其他小區(qū)域(向量可能包括密度、土地利用組合、步行質(zhì)量的測量和網(wǎng)站設計);
BE j和 ω= 目的地 j 的構建環(huán)境特征和相應的參數(shù)向量;
k= 特定于模式 k的極值誤差向量。
輸入數(shù)據(jù)后可以得到一個 Logit 模型,該模型將概率分配給來自家庭 m 的學生,在起點 i 和目的地 j 之間旅行,選擇模式 k 去學校 n 的旅行。 MNL 模型將捕獲大多數(shù)影響為相關學校旅行選擇模式的效用或收益的變量。
(二)人工神經(jīng)網(wǎng)絡模型(ANN)
人工神經(jīng)網(wǎng)絡是一種受生物學啟發(fā)的計算模型,由數(shù)百個單個單元人工神經(jīng)元組成,這些單元與構成神經(jīng)結(jié)構的系數(shù)(權重)相連。該網(wǎng)絡最近被廣泛用于大數(shù)據(jù)處理。它可以在處理數(shù)據(jù)時提供高精度的分類功能。
對于這項研究,為了獲得更準確的模型,使用了 ANN 方法。首先,15% 的數(shù)據(jù)集作為測試數(shù)據(jù)來測試我們得到的最終模型。然后使用數(shù)據(jù)集的其余部分作為程序的訓練數(shù)據(jù)。最重要的一步是開發(fā)整個網(wǎng)絡。MSE(均方誤差)在網(wǎng)絡中用作成本函數(shù),旨在為網(wǎng)絡找到最佳輸出的成本函數(shù)。用于接近成本函數(shù)優(yōu)化值的方法是梯度下降。通過這種方式,神經(jīng)網(wǎng)絡的學習率正在逐層替換。因此,在論文中構建了一個三層神經(jīng)網(wǎng)絡,包括輸入層、隱藏層和輸出層。
六、結(jié)果
有一半以上的學生乘私家車上學(54.26%),也有很多學生乘坐公交(38.8%)。只有少數(shù)學生步行或騎自行車上學(6.94%)。與此同時,此次研究將這種分布與所有旅行的分布進行了比較。發(fā)現(xiàn)這兩種分布非常不同,其主要原因是有很多學生選擇校車上下學。
(一)MNL 模型
對于 MNL 模型,三個效用函數(shù)的結(jié)果如下:
U(私家車)= A_car +B1*TIMECOST+C1*URBRUR_1+D1*WALK4EX
U(非機動車)= A_nmotor +B2*MSACAT_3 +C2*WALK4EX
U(公交)= B3*TIMECOST+C3*WORKER_Y+D3*HHVEHCNT
在該模型中,該模型的卡方滿足標準值,這意味著這三個效用函數(shù)的置信度為 95%。
每個變量的系數(shù)如下:
許多其他論文和研究證明大量的時間成本促使人們出行方式選擇汽車,降低了選擇公共交通的可能。對于有工作和私家車多的家庭一般不會選擇公共交通,這些人更有可能使用汽車。還有兩個變量在其他論文中不常見。 WALK4EX 代表“因為鍛煉而選擇步行”,它對使用汽車有積極影響,而對步行或騎自行車有負面影響。此次研究認為,如果一個人喜歡將步行視為運動,他可能不喜歡將步行視為通勤方式。對于變量 MSACAT(居住地區(qū)),此次研究認為,如果學生生活在人口較少的地區(qū)而且他們的學校就在附近,他們可以輕松步行上學。因此,這種情況促成非運動的概率更大。
(二)人工神經(jīng)網(wǎng)絡
在該網(wǎng)絡中,首先設置了網(wǎng)絡中的第一層,該網(wǎng)絡具有 31 個神經(jīng)元,用于每個人的 31 個特征。然后在隱藏層中,5 個神經(jīng)元工作足以獲得優(yōu)化值。此外,輸出層是一個三行矩陣,表示人們的模式選擇。在這個過程中,模型將步長設置為 0.01,以獲得更多具有相同錯誤分類的迭代。
在陷入局部最優(yōu)解的情況下,該模型使用隨機梯度下降。 此外,成本函數(shù)是 MSE(均方誤差),旨在獲得輸出和目標之間的最小二乘差。
結(jié)果如圖1所示。在 10 次迭代之前,錯誤分類的數(shù)量迅速下降;并且經(jīng)過 20 次迭代,誤分類數(shù)出現(xiàn)振蕩,最終降為零。振蕩的原因是步長太大,不能有效地達到優(yōu)化值。
圖1? ? 人工神經(jīng)網(wǎng)絡模型圖
根據(jù)人工神經(jīng)網(wǎng)絡模型的結(jié)果,可以采用“權重”分析來解釋人工神經(jīng)網(wǎng)絡中輸入變量和輸出變量之間的關系。用作為敏感分析的“權重”分析定量計算輸入因素和輸出因素之間的聯(lián)系強度。通過這種方式,人工神經(jīng)網(wǎng)絡模型可以成功預測出行模式的選擇,從而比其他模型提供的估計精度更高。
從模型提供的權重可以看出,個人使用汽車的年里程對于判斷他是否使用非機動車上學很重要。對于家庭父母是工人身份,判斷他使用汽車還是公交很重要,有工作的人的薪水更有可能買得起汽車。其他變量,如城市或郊區(qū)、家庭車輛數(shù)量、房屋是出租還是自有,也對結(jié)果有很大影響。一件有趣的事情是,我們曾假設家庭收入對模式選擇的影響很大,但結(jié)果表明影響并不比其他影響顯著。
七、局限
選擇威斯康星州的數(shù)據(jù)集并過濾數(shù)據(jù)后,只有大約 300 條有效數(shù)據(jù)而小數(shù)據(jù)集可能會降低模型的準確性。特別是適用于大數(shù)據(jù)集的神經(jīng)網(wǎng)絡在適用于小數(shù)據(jù)集時準確性會降低。此外,模式選擇分布不平衡。選擇非動員的人數(shù)與其他兩種相比太少了,這也影響了模型的準確性。
另外,數(shù)據(jù)集沒有囊括上學的時間成本,只有距離。為了考慮這個變量,此次研究只是用模態(tài)的距離和平均速度來計算時間成本,不夠準確。如果數(shù)據(jù)集有起點和終點,最好使用 GOOGLE API 來獲取準確的時間成本。
就現(xiàn)實意義而言,影響上學和返校方式選擇的因素可能略有不同。政策制定和進一步研究,需要綜合考慮更多方面。
八、結(jié)束語
在決定選擇上學的方式時,有很多可能的影響。在本文中,它討論了影響人們的一些一般特征,例如家庭車輛擁有量、家庭位置等。本文使用ANN和MNL模型來嘗試預測個人選擇。
從結(jié)果可以看出,ANN模型可以很好地預測人們在學校旅行中的選擇;但是,我們無法得到變量和人的決策之間的具體關系,而 MNL 模型可以清楚地呈現(xiàn)這種關系并且更具可解釋性。
此外,利用效用函數(shù),可以進一步研究模型選擇的概率。因此,未來我們可能會花時間在 ANN 算法上做更多的推廣,以獲得更具體的結(jié)果,但在制定計劃或政策時,應該使用 MNL 模型。接下來可能會考慮如何將這兩個模型結(jié)合起來,以在模型構建中提供高精度和特定的關系。隨著模式開發(fā)效率的提高,學生出行的交通擁堵問題將得到緩解。
作者單位:劉婉瑩? ? 長安大學公路學院
參? 考? 文? 獻
[1]宗芳,雋志才.基于活動的出行方式選擇模型與交通需求管理策略[J].吉林大學學報(工學版),2007(01):48-53.
[2]姚麗亞,孫立山,關宏志.基于分層Logit模型的交通方式選擇行為研究[J].武漢理工大學學報(交通科學與工程版),2010,34(04):738-741.
[3]何保紅. 城市停車換乘設施規(guī)劃方法研究[D].東南大學,2006.
[4]宋潔. 城市居民出行方式選擇預測方法研究[D].吉林大學,2005.