周 順 陳大偉 史立凱(.東南大學(xué)交通學(xué)院,江蘇南京 0098;.南京市城市與交通規(guī)劃設(shè)計研究院有限責(zé)任公司,江蘇南京 0008)
?
基于k-均值聚類方法的寧滬高速收費站聚類分析研究★
周順1陳大偉1史立凱2
(1.東南大學(xué)交通學(xué)院,江蘇南京210098;2.南京市城市與交通規(guī)劃設(shè)計研究院有限責(zé)任公司,江蘇南京210008)
摘要:基于寧滬高速公路收費站ETC及MTC OD月報表,選取ETC站點出發(fā)流量、到達(dá)流量、方向不均衡系數(shù)等10個單因子,運用主成分分析法,得到FAC1_1,F(xiàn)AC1_2兩個主因子,并采用k-均值聚類方法將160個高速公路收費站點聚為9類,為實際運營中站點的分類管理提供科學(xué)依據(jù)。
關(guān)鍵詞:高速公路,收費站,聚類分析,主成分分析
★:“中央高?;究蒲袠I(yè)務(wù)費專項資金資助”和“江蘇省普通高校研究生科研創(chuàng)新計劃資助項目”(項目編號:SJLX_0092)資助
在當(dāng)今這個信息爆炸的大數(shù)據(jù)時代,怎樣從大量的歷史數(shù)據(jù)中發(fā)現(xiàn)有用的知識逐漸成為人們?nèi)找骊P(guān)心的問題。為了使歷史數(shù)據(jù)變成一種有用的資源,需要借助一系列外部手段或技術(shù)對歷史數(shù)據(jù)進行處理和分析。另一方面,高速公路收費站點的運營及人員調(diào)度是整個高速公路公司運營環(huán)節(jié)中的重要一環(huán),做好站點的運營不僅能夠提升節(jié)點運營效率還能夠較好地解決系統(tǒng)問題。因此本文借助聚類分析方法在對各站點指標(biāo)值統(tǒng)計的基礎(chǔ)上對站點進行聚類,為實際運營中站點的分類管理提供科學(xué)依據(jù)。
本次數(shù)據(jù)挖掘基于寧滬高速公路有限公司2013年1月~4月收費站刷卡收費OD矩陣數(shù)據(jù),構(gòu)建Hadoop數(shù)據(jù)挖掘平臺,選取聚類分析影響因素,在完成主因子分析的基礎(chǔ)上,應(yīng)用k-均值方法完成收費站的聚類分析,進而為實際運營中站點的分類管理提供科學(xué)依據(jù)[1,2]。
1.1主成分分析
主成分分析主要是用較少的不相關(guān)新變量或指標(biāo)替代較多的相關(guān)聯(lián)變量或指標(biāo)用的方法,并且新變量為原有變量的線性組合。所選取的新變量被稱為主成分,選取的原則是盡可能保留原有變量中所包含的信息。從統(tǒng)計學(xué)的角度分析,一個變量所含有的信息可用其方差來表征。方差越大,所包含的信息量越大[3]。
1.2收費站聚類分析[4,5]
本次聚類分析采用k-均值聚類方法,該方法以各類樣本的中心代表該類進行不斷迭代,其對超球形分布的數(shù)據(jù)有較好的聚類效果,具體計算過程如下所示:
假設(shè)聚類的樣本集為X ={x1,…,xi,…,xl}且xi∈Rd,其中,l為樣本個數(shù),d為樣本維度。k-均值聚類方法首先從樣本集中隨機選擇k個樣本作為初始聚類中心C ={c1,…,cj,…,ck}(k為聚類個數(shù)參數(shù)),然后計算每個樣本xi∈X到聚類中心cj∈C距離d(xi,cj),樣本xi∈X到中心cj∈C的距離d(xi,cj)的計算方法為:
根據(jù)每個樣本到聚類中心的距離將樣本分到與之最近類中,并計算更新后每個類的中心C。不妨假設(shè)第j類的樣本集合為Xj={xj1,…,xjnj},其中nj為該類樣本規(guī)模,新的中心cj為:
通過式(2)得到類心,根據(jù)式(1)計算每個樣本xi(i =1,…,l)到每個更新后的聚類中心cj{j = 1,…,k}的距離并重新判斷樣本歸屬,如此循環(huán)迭代,直到更新后的類中心與更新前的類中心一致時停止。
滬寧高速公路收費站的聚類需要綜合考慮多方面影響因素,本次聚類主要基于2013年1月~4月收費站ETC及MTC OD月報表進行,選取ETC站點出發(fā)流量(FlowETC+),ETC站點到達(dá)流量(FlowETC-),ETC站點方向不均衡系數(shù)(DiETC),ETC站點客流發(fā)散均勻系數(shù)(EmETC),ETC站點客流集中均勻系數(shù)(FOETC)及MTC站點出發(fā)流量(FlowMTC+),MTC站點到達(dá)流量(FlowMTC-),MTC站點方向不均衡系數(shù)(DiMTC),MTC站點客流發(fā)散均勻系數(shù)(EmMTC),MTC站點客流集中均勻系數(shù)(FOMTC)等10項指標(biāo),指標(biāo)定義表如表1所示。
表1 聚類指標(biāo)定義表
圖1 主成分分析碎石圖
在對各站點對應(yīng)各月份指標(biāo)值集計化、歸一化并剔除異常值處理后進行主因子分析得到兩個主因子,主因子分析結(jié)果如圖1,表2,表3所示。
表2 主成分分析結(jié)果表
表3 主成分分析指標(biāo)表
借助k-均值聚類算法基于主成分分析所得到的主成分指標(biāo)值,針對剔除異常站點的160個滬寧高速收費站進行聚類分析,經(jīng)過10次聚類迭代后,總共得到9類站點,聚類結(jié)果表如表4所示。
表4 站點聚類結(jié)果表
本文基于寧滬高速公路2013年1月~4月收費站ETC及MTC OD月報表,選取ETC站點出發(fā)流量、ETC站點到達(dá)流量、ETC站點方向不均衡系數(shù)等10個單因子,接著運用主成分分析法得到FAC1_1,F(xiàn)AC1_2兩個主因子,最后運用k-均值聚類方法將160個高速公路收費站點聚為9類,用以現(xiàn)狀收費站點運營策略的優(yōu)化及調(diào)整,能夠滿足現(xiàn)狀需要,有較高實用價值。然而本文也存在兩點不足:1)尚未運用其他聚類分析方法對本次聚類進行驗證和校核;2)影響聚類分析的因素尚未考慮完全,此兩點均有待研究和補充。
參考文獻:
[1]王光宏,蔣平.數(shù)據(jù)挖掘綜述[J].同濟大學(xué)學(xué)報,2004,32 (2):3-5.
[2]MECHMED,KANTARDZEC. Data Mining concepts,models,method sandalgorithms[M]. American:IEEEPress,2002.
[3]毛國君,段立娟,王實,等.數(shù)據(jù)挖掘原理與算法[M].北京:清華大學(xué)出版社,2007:5-10.
[4]鐘足峰.聯(lián)網(wǎng)收費系統(tǒng)數(shù)據(jù)分析與挖掘的理論與實現(xiàn)[D].長沙:長沙理工大學(xué),2007.
[5]蘇成.數(shù)據(jù)挖掘中不可忽視的環(huán)節(jié)——數(shù)據(jù)預(yù)處理[J].應(yīng)用技術(shù),2006(4):64-66.
Cluster analysis method for Ning-Hu highway toll station based on k-clustering★
Zhou shun1Chen Dawei1Shi Likai2
(1. School of Transportation Southeast University,Nanjing 210098,China;2. Nanjing Institute of City & Transport Planning Co.,Ltd,Nanjing 210008,China)
Abstract:This paper based on ETC and MTC OD statements of Ning-Hu highway toll station,principal component analysis method it selects more than 10 single factors of ETC station,such as starting flow,arrival flow,direction won-equilibrium coeffcient and so on. Then this paper used the principal component analysis method to get FAC1_1 and FAC1_2. k-means clustering method was used to get the 9 clustering from 160 highway,toll stations. Research findings can provide scientific basis for the actual operation.
Key words:highway,toll stations,clustering analysis,the principal component analysis
中圖分類號:U412. 366
文獻標(biāo)識碼:A
文章編號:1009-6825(2016)09-0130-03
收稿日期:2016-01-20
作者簡介:周順(1992-),男,在讀碩士