孫進(jìn)進(jìn),王苗苗
(1.中國民航大學(xué) 機(jī)場學(xué)院,天津 300300;2.長安大學(xué) 公路學(xué)院,陜西 西安 710000)
對于事物的分類,過去人們主要利用統(tǒng)計學(xué)方法對事物進(jìn)行分類處理,這些分類方法往往帶有較強(qiáng)的主觀性和任意性,不能很好地揭示待分類物之間的內(nèi)在本質(zhì)差別和聯(lián)系,而且數(shù)據(jù)處理的量級以及計算效率較低。自組織特征映射神經(jīng)網(wǎng)絡(luò)(SOM)是一種無監(jiān)督競爭式學(xué)習(xí)的前饋網(wǎng)絡(luò),這種神經(jīng)網(wǎng)絡(luò)接收外界輸入時,將會對應(yīng)分成不同的相應(yīng)區(qū)域,各相應(yīng)區(qū)域?qū)μ囟ǖ妮斎刖哂胁煌捻憫?yīng)特征,而且這個相應(yīng)分類過程是網(wǎng)絡(luò)自動完成的。這種分類方法能夠反映輸入樣本的本質(zhì)特征,大大消減一致性準(zhǔn)則中的人為因素。
國內(nèi)外已有許多學(xué)者對機(jī)場分類進(jìn)行研究。例如,美國聯(lián)邦航空局FAA按照旅客吞吐量占當(dāng)年旅客總運(yùn)輸量的比例將美國的機(jī)場分為4類。我國楊英寶等依據(jù)旅客吞吐量以及機(jī)場當(dāng)?shù)氐腉DP和人口等指標(biāo)對機(jī)場進(jìn)行分類。褚衍昌同樣依據(jù)吞吐量與機(jī)場當(dāng)?shù)亟?jīng)濟(jì)指標(biāo)進(jìn)行分類,但通過對眾多指標(biāo)的主成分分析,找出關(guān)鍵指標(biāo)。
人工神經(jīng)網(wǎng)絡(luò)具有并行處理和自適應(yīng)、自組織的學(xué)習(xí)能力,對處理非線性問題十分有效?,F(xiàn)有多種神經(jīng)網(wǎng)絡(luò)類型,如誤差反向傳播BP(Error back prorogation)、徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)RBF(Radical Basis Function)和SOM網(wǎng)絡(luò)等。其中自組織特征映射神經(jīng)網(wǎng)絡(luò)SOM(Self-Organizing feature Map)是由Kohonen提出的神經(jīng)網(wǎng)絡(luò)數(shù)值模擬方法。SOM模擬大腦神經(jīng)系統(tǒng)的自組織特征映射功能,可在訓(xùn)練中無監(jiān)督自組織學(xué)習(xí),通過學(xué)習(xí)提取數(shù)據(jù)中的重要特征或內(nèi)在規(guī)律。進(jìn)而實(shí)現(xiàn)分類分析的功能。
SOM是輸入層、輸出層的構(gòu)成兩層網(wǎng)絡(luò)。與傳統(tǒng)的聚類方法相比,SOM網(wǎng)絡(luò)形成的聚類中心可以被映射到一個曲面或平面上,以保持固定不變的拓?fù)浣Y(jié)構(gòu)。在輸入層的神經(jīng)元個數(shù)為n,M=n2個競爭層組成的一個兩維平面的神經(jīng)元陣列上,輸入層和競爭層的各神經(jīng)元之間能夠?qū)崿F(xiàn)完整的全連接。
SOM的基本結(jié)構(gòu)中,網(wǎng)絡(luò)的輸出層為一個二維的平面拓?fù)浣Y(jié)構(gòu)。輸入層和競爭層各神經(jīng)元之間可以實(shí)現(xiàn)全向連接,即每個輸出節(jié)點(diǎn)與所有的輸入節(jié)點(diǎn)之間存在連接,每個連接權(quán)重被用來指示連接強(qiáng)度。各個神經(jīng)元的連接權(quán)值具有一定的分布,每個輸入節(jié)點(diǎn)與輸出節(jié)點(diǎn)通過連接權(quán)重w相連接,輸出層節(jié)點(diǎn)j與輸入層各個階段xi(i=1,2,…,N)的連接權(quán)Wij為第j類的聚類中心;競爭層之間實(shí)行橫向連接,鄰近的神經(jīng)元互相激勵,而相互較遠(yuǎn)的神經(jīng)元則互相抑制,而更遠(yuǎn)的神經(jīng)元之間又具有較弱的激勵。
SOM運(yùn)行分為訓(xùn)練和工作兩個階段進(jìn)行,當(dāng)輸入模式的類別發(fā)生改變后,獲勝節(jié)點(diǎn)也將在節(jié)點(diǎn)二維平面上改變。在獲勝節(jié)點(diǎn)相互連接的外側(cè)因?yàn)榇嬖谙嗷ゴ碳づd奮作用,所以產(chǎn)生一個較大的響應(yīng),然后獲勝節(jié)點(diǎn)及其周圍獲勝鄰域內(nèi)節(jié)點(diǎn)的權(quán)向量值也將進(jìn)行不同程度調(diào)整,其調(diào)整的方向、大小根據(jù)距離獲勝節(jié)點(diǎn)的遠(yuǎn)近而變化。通過自組織網(wǎng)絡(luò)中的大量的輸入訓(xùn)練樣本用來調(diào)整網(wǎng)絡(luò)的權(quán)值,最終使得輸入層的每個節(jié)點(diǎn)成為對一個特定的輸入模式敏感的神經(jīng)細(xì)胞,其對應(yīng)的一個權(quán)向量的成為某個特定輸入模式的中心向量。當(dāng)有兩個類別的特征向量非常接近時,這意味著這兩個節(jié)點(diǎn)的在節(jié)點(diǎn)拓?fù)鋱D上位置接近,從而在輸出層上形成輸入模式類別的特征向量圖。
SOM訓(xùn)練結(jié)束,輸出層中對于每一個輸入模式類的特定關(guān)系是完全確定地,這個網(wǎng)絡(luò)即可用來模式識別。當(dāng)你任意輸入一個模式,網(wǎng)絡(luò)輸出層神經(jīng)元中一個特定的類將有最大的響應(yīng),從而實(shí)現(xiàn)自動分類。
1)對由歸一化處理過的隨機(jī)數(shù)組成輸出層的權(quán)值向量進(jìn)行初始化,并對學(xué)習(xí)率賦予初始值。
2)從訓(xùn)練樣本集中接收一個輸入模式并進(jìn)行歸一化處理。
3)計算點(diǎn)積,尋找獲勝節(jié)點(diǎn),以計算得到的點(diǎn)積結(jié)果中最大的作為獲勝節(jié)點(diǎn),如果輸入是非規(guī)范的未經(jīng)歸一化處理,則需計算歐氏距離,以歐式距離最小的作為獲勝節(jié)點(diǎn)。
4)確定獲勝鄰域,以中心時刻作為確定權(quán)重的調(diào)整時間域,在訓(xùn)練期間獲勝鄰域隨時間逐漸收縮。
5)對獲勝鄰域內(nèi)所有節(jié)點(diǎn)進(jìn)行權(quán)值調(diào)整。
6)判斷是否結(jié)束,在SOM網(wǎng)絡(luò)中有沒有類似的BP網(wǎng)絡(luò)的輸出誤差的概念,以學(xué)習(xí)率是否到達(dá)預(yù)定條件作為結(jié)束依據(jù)。未到達(dá)則返回第二步。具體算法流程見圖1。
圖1 算法流程
遴選8個因素作為運(yùn)輸機(jī)場的聚類指標(biāo),依次為旅客吞吐量(x1)、貨郵吞吐量(x2)、起降架次(x3)、航站樓面積(x4)、航線條數(shù)(x5)、機(jī)場服務(wù)城市的就業(yè)人數(shù)(x6)、GDP(x7)、外商直接投資(x8)。從關(guān)鍵指標(biāo)看出,影響機(jī)場分類還是基于機(jī)場自身的運(yùn)營數(shù)據(jù)指標(biāo),這些指標(biāo)直接反映機(jī)場的運(yùn)營規(guī)模和發(fā)展情況。除此之外,也不能忽視機(jī)場地區(qū)的社會經(jīng)濟(jì)發(fā)展?fàn)顩r對機(jī)場分類帶來的影響,例如,機(jī)場所在地的經(jīng)濟(jì)總量、人口規(guī)模等,這些指標(biāo)都直接或間接影響機(jī)場的運(yùn)營與發(fā)展情況。
本文采用2010年全國主要機(jī)場的指標(biāo)數(shù)據(jù)進(jìn)行聚類分析。由于2010年排名前40位機(jī)場的客、貨吞吐量分別占全國吞吐量的90%、92%以上,所以本文選取排名前40位機(jī)場作為聚類分類對象。
使用的SOM網(wǎng)絡(luò)模型是基于MATLAB語言構(gòu)建,利用其中的神經(jīng)網(wǎng)絡(luò)工具箱可以方便實(shí)現(xiàn)整個學(xué)習(xí)、訓(xùn)練和模擬過程,輸入層共8個節(jié)點(diǎn),分別對應(yīng)上述機(jī)場評價指標(biāo)體系中的8項(xiàng)指標(biāo)。以40個機(jī)場為樣本,確定的網(wǎng)絡(luò)輸入模式為
其中:k=1,2,…,q(q=40,n=8),構(gòu)成樣本數(shù)為40,指標(biāo)為8的輸入矩陣。競爭層組織結(jié)構(gòu)根據(jù)分類方法將SOM神經(jīng)網(wǎng)絡(luò)的競爭層結(jié)構(gòu)選為[8,1]類型,即將40個樣本最終分別劃為8類進(jìn)行學(xué)習(xí),使用Newsom函數(shù)創(chuàng)建一個SOM網(wǎng)絡(luò):net=netsom([01],[81])。其中,[01](為網(wǎng)絡(luò)輸入P的最大值和最小值,[8,1]為競爭層的網(wǎng)絡(luò)結(jié)構(gòu);SOM網(wǎng)絡(luò)參數(shù)設(shè)置,拓?fù)浜瘮?shù)默認(rèn)為‘hextop’,距離函數(shù)為‘linkdist’,排列階段鄰域半徑為兩個神經(jīng)元的最大可能距離,排列階段學(xué)習(xí)速率設(shè)定為1,排列階段學(xué)習(xí)次數(shù)為10000次,調(diào)整階段鄰域半徑為1,調(diào)整階段學(xué)習(xí)速率為0.02。
通過SOM神經(jīng)網(wǎng)絡(luò)對所選指標(biāo)數(shù)據(jù)的處理和分析,最終得到2010年全國主要的40個機(jī)場的分類結(jié)果,見表1。
從表2可以看出,第一類至第二類機(jī)場的客貨量突出,起降架次較多,航線條數(shù)密集,所在城市的各項(xiàng)數(shù)據(jù)明顯領(lǐng)先于其他機(jī)場所在城市。我國機(jī)場布局中的大型樞紐機(jī)場,所在的城市屬于國家的政治經(jīng)濟(jì)、中心,是我國經(jīng)濟(jì)最為發(fā)達(dá)、人口流動量大的城市。其中第一類機(jī)場的各項(xiàng)指標(biāo)均明顯高于其他機(jī)場,是國家級的航空樞紐。第二類機(jī)場指標(biāo)稍弱與第一類機(jī)場,為大區(qū)域級航空樞紐。
第三類、第四類的客運(yùn)量基本持平,但是第三類的貨運(yùn)量和所在城市的經(jīng)濟(jì)指標(biāo)明顯大于第四類,因此,區(qū)域級的航空樞紐,特別是區(qū)域的物流集散中心。第四類機(jī)場所在城市為旅游性城市,機(jī)場的航線條數(shù)、起降架次以及航站樓面積均大于第三類,也是區(qū)域的航空樞紐。第三類與第四類機(jī)場均是服務(wù)于各自所在的主要經(jīng)濟(jì)圈,機(jī)場所在城市經(jīng)濟(jì)發(fā)達(dá),人口密度較大,所以機(jī)場客流量較大,未來成長潛力巨大。
表1 分類結(jié)果
表2 各個類別的平均指標(biāo)
第五類機(jī)場客貨量中等、航線條數(shù)中等、所在城市的人口較多、GDP較高,多為所在地區(qū)的客流中轉(zhuǎn)中心,為地區(qū)級的航空樞紐。
第六類機(jī)場客貨量不多,所在城市經(jīng)濟(jì)發(fā)展水平較高,人口密度稍多,多為省會級的航空樞紐。
第七類、第八類機(jī)場客貨量較低,航線條數(shù)一般,多為中小型機(jī)場,所處城市人口不多,經(jīng)濟(jì)發(fā)展水平不高,多為中西部省份經(jīng)濟(jì)中心城市,其旅游資源比較豐富,第八類人口密度眾多,除個別城市外,機(jī)場運(yùn)輸量近幾年增長平穩(wěn)。
將SOM原理應(yīng)用于民用機(jī)場的聚類分析中,其分類結(jié)果有較強(qiáng)的客觀性,能夠準(zhǔn)確地把握各個類別的本質(zhì)聯(lián)系。這種民用機(jī)場的新地分類方法,將對全國整體機(jī)場布局研究以及各個機(jī)場在未來制定運(yùn)營策略和定位分析上都具有非常重要的現(xiàn)實(shí)意義。
[1] 趙曉丹,齊志.基于SOM神經(jīng)網(wǎng)絡(luò)的聚類方法研究[J].吉林省經(jīng)濟(jì)管理干部學(xué)院學(xué)報,2008,22(2):1-3.
[2] 董志毅,夏新平,褚衍昌.我國機(jī)場分類的影響機(jī)理與聚類分析研究[J].商場現(xiàn)代化,2006(36):1-2.
[3] 伊春華.基于SOM神經(jīng)網(wǎng)絡(luò)的人力資本聚類分析[J].遼東學(xué)院學(xué)報,2006,13(1):1-2.
[4] 韓力群.人工神經(jīng)網(wǎng)絡(luò)理論、設(shè)計及應(yīng)用[M].北京:化學(xué)工業(yè)出版社,2007.
[5] 褚衍昌.機(jī)場運(yùn)營效率評價及改善研究[D].天津:天津大學(xué),2009.
[6] 趙威,李磊,李琳.基于SOM 網(wǎng)絡(luò)的中原城市群可持續(xù)發(fā)展水平研究[J].河南科學(xué),2009,27(12):3-4.
[7] 褚衍昌,于劍,李艷偉.民航運(yùn)輸產(chǎn)業(yè)競爭力的組合評價方法[J].交通運(yùn)輸工程學(xué)報,2009,9(6):6-8.