吳美玲 金迪 徐楚臻 何穎俞
摘? 要:文章基于各城市機場與出租車的實際情況,對機場等級、機場吞吐量等因素進行主成分分析,通過綜合評價模型預(yù)測司機去留,結(jié)合ID3算法建立決策出租車去留模型,分析不同情況下司機的選擇策略。結(jié)果表明,發(fā)現(xiàn)該模型訓練集和檢驗集的風險估算值分別為0.143和0.121,正確率分別為85.70%和87.90%,風險較小,分類正確率較高。
關(guān)鍵詞:主成分分析;ID3算法;決策出租車去留模型
中圖法分類號:O29? ? ? ? ?文獻標志碼:A? ? ? ? ?文章編號:2095-2945(2020)18-0127-03
Abstract: Based on the actual situation of airports and taxis in each city, this paper analyzes the factors such as airport level and airport throughput, forecasts the driver's leaving and staying through the comprehensive evaluation model, establishes the decision-making taxi leaving and staying model with ID3 algorithm, and analyzes the driver's choice strategy in different situations. According to the results, it is found that the risk estimates of the training set and the test set are 0.143 and 0.121, respectively, and the accuracy is 85.70% and 87.90%, respectively. The risk is small and the classification accuracy is high.
Keywords: principal component analysis; ID3 algorithm; decision-making taxi leaving and staying model
乘客下飛機后去往市區(qū),在合適的時機,乘搭出租車無疑是優(yōu)選。而國內(nèi)多數(shù)機場的車道都是將送客與接客通道分開。這樣送客到機場的出租車司機將會面臨兩個選擇:前往機場蓄車池排隊等待載客、放棄機場載客直接空載返回市區(qū)拉客。對此,筆者作為數(shù)學與應(yīng)用數(shù)學、應(yīng)用統(tǒng)計學專業(yè)、物聯(lián)網(wǎng)工程的學生,基于計算方法、數(shù)據(jù)分析、數(shù)學模型等課程的理論,為了減輕機場的人流量負擔,并保障司機的利益最大化的情況,以各城市的機場與出租車的實際情況為例,對決策出租車的去留選擇進行了研究。
1 基于ID3算法的決策出租車去留模型
根據(jù)機場等級[1]、機場吞吐量[2]、機場所在城市的出租車萬人擁有量[3]來選定所要研究的城市及其機場。其次,將影響出租車司機選擇的相關(guān)因素分為機場乘客數(shù)量的變化以及出租車司機的收益兩大類,層次劃分為:當日屬性、天氣情況[4]、日旅客吞吐量;接客時間段、機場到達市區(qū)的距離、里程利用率[5]?;谝陨闲畔⒘?,分析影響出租車司機決策的最佳因子。
1.1 信息分類
將影響司機選擇決策的7個影響因素進行編號,分別為當日屬性X1、天氣情況X2、日旅客吞吐量X3、接客時間段X4、機場到市區(qū)的距離X5、里程利用率X6和機場等級X7,并將這7個影響因素作為訓練集:
D={X1,X2,X3,X4,X5,X6,X7}
其中,當日屬性為X1={A1,A2},分別表示節(jié)假日、工作日;天氣情況為X2={B1,B2,B3},分別表示晴天、陰天和雨天;日旅客吞吐量為X3={C1,C2,C3,C4},分別表示[50,70)、[30,50)、[20,30)和[1,20)(萬/人次);接客時間段為X4={D1,D2},分別表示早間{5:00-23:00}和晚間{23:00-5:00};機場到市區(qū)的距離為X5={E1,E2,E3},分別表示[45,70)、[35,45)和[25,35)(公里);里程利用率為X6={F1,F(xiàn)2,F(xiàn)3},分別表示[80%,90%)、[70%,80%)和[60%,70%);機場等級為X7={G1,G2,G3,G4},分別表示I、II、III和IV級。
1.2 基于主成分分析的綜合評價模型
將收集的數(shù)據(jù)集通過軟件實現(xiàn),標準化后分析提取了四個主成分因子(當日屬性、天氣情況[4]、日旅客吞吐量、接客時間段),數(shù)據(jù)處理得到每個影響因素在各主成分因子中所占的比重,結(jié)合每個主成分因子的貢獻率,得到基于7個影響因素的出租車司機選擇決策評價模型:
基于評價模型,根據(jù)Z/*100%的綜合得分,給出在不同情況下司機的選擇方案,部分數(shù)據(jù)詳見表1:
1.3 決策樹模型[6]
基于上述結(jié)果,結(jié)合ID3算法,將每個分類進行信息處理,并構(gòu)建一個含有上述7個影響因素的訓練集,編程實現(xiàn)不同屬性下的信息熵和信息增益值[7],生成一個關(guān)于出租車司機選擇策略的決策樹,具體見圖1。
由圖1可知,機場等級是劃分司機決策最主要的因素,最次要的是里程利用率。機場等級不同,對應(yīng)的旅客吞吐量就不同,機場到市區(qū)的距離也不盡相同,但里程利用率一般在同一城市內(nèi)都相對固定且相差不大,因此對司機的影響相對較小。同時,節(jié)假日和好的天氣也會增加旅客乘飛機的概率,而旅客吞吐量和接客時間段以及里程長短也會影響司機的收益。
2 模型檢驗
以“南京祿口國際機場”為例,搜集數(shù)據(jù)對決策出租車去留模型用生長法進行檢驗,用75%的樣本數(shù)據(jù)作為訓練樣本,用25%的樣本數(shù)據(jù)作為檢驗樣本。
2.1 合理度分析
通過SPSS分析,得到風險檢驗表和分類檢驗表(表2和表3):
由表2可知,訓練集中風險估算值為0.143,表明其中會存在14個左右的個案會被錯誤歸類,模型檢驗集中風險估算為0.121,表明其中會存在4個左右的個案被錯誤分類,因此生成的決策樹存在一定的風險,但風險較小。
由表3可知,訓練集中總體的正確百分比為85.70%,模型檢驗集中總體的正確百分比為87.90%,同時每個觀察值的正確百分比都超過了80%,即生成的決策樹的分類正確率較高。
綜上所述,生成的決策樹的分類正確率較高,同時風險較小,說明模型合理性較高。
2.2 相關(guān)度分析
由SPSS實現(xiàn),得到最終模型摘要見表4。
由表4可知,在規(guī)定了機場的條件下,對出租車司機選擇影響較大的因素從高到低分別為:天氣情況、是否節(jié)假日、接客時間段、機場到市區(qū)的距離、日旅客吞吐量和里程利用率,與決策樹各個節(jié)點的排序基本類似,影響較大的都為天氣情況和是否節(jié)假日,影響一般的都為接客時間段、機場到市區(qū)的距離和日旅客吞吐量,影響較小的都為里程利用率。
3 結(jié)束語
本文采用的基于ID3算法的決策樹模型,考察到計算量相對較小,易于處理數(shù)據(jù),但容易引起過度擬合,從而導致抽樣數(shù)據(jù)不足以有效地代表實際待求問題。再進一步作模型優(yōu)化,可以改用CART算法,采用剪枝手段,提前停止樹的增長或者對已經(jīng)生成的樹干按照一定的規(guī)則進行后剪枝。同時該模型除了在本文中應(yīng)用于機場出租車司機決策方案的確定,還可適用于預(yù)測市場商品的銷售情況、數(shù)據(jù)挖掘等情景。
參考文獻:
[1]https://baike.so.com/doc/4114578-4313773.html#4114578-4313773-2[EB/OL].
[2]https://wiki.mbalib.com/wiki/Airport_passenger_throughput[EB/OL].
[3]https://baike.so.com/doc/25554755-26597454.html[EB/OL].
[4]http://www.360doc.com/content/14/0330/09/2283188_364852531.shtml[EB/OL].
[5]https://baike.baidu.com/item/%E9%87%8C%E7%A8%8B%E5%88%A9%E7%94%A8%E7%8E%87/18611617[EB/OL].
[6]張琳,陳燕,李桃迎,等.決策樹分類算法研究[J].計算機工程,2011,37(13):66-67+70.
[7]許允之.基于隨機森林算法的徐州霧霾回歸預(yù)測模型[A].《環(huán)境工程》編委會、工業(yè)建筑雜志社有限公司.《環(huán)境工程》2019年全國學術(shù)年會論文集[C].《環(huán)境工程》編委會、工業(yè)建筑雜志社有限公司:《環(huán)境工程》編輯部,2019:175-179+185.