王 鵬
(中國鐵道科學研究院 運輸及經濟研究所,北京 100081)
鐵路行包運輸是利用鐵路客運設施,以加掛旅客列車的行李車為主要載體的一種運輸形式,具有定時、便捷、快速、安全等特點,特別適合價值高、對運輸質量要求嚴格的貨物運輸[1]。近年來,隨著鐵路普包市場趨于飽和,以及高附加值快運貨物運輸的迅猛發(fā)展,行包運輸需求的增加與普包運能的不足之間的矛盾逐漸明顯,再加上旅客列車提速帶來中間站停站時間大大縮短,使得普包運輸在繁忙干線上的能力緊張程度更進一步加劇。在這種形勢下,鐵路行包快運專列應運而生,打破了行包運輸市場中供需雙方的長期不均衡。行包專列是指按照旅客列車運輸方式組織,使用專用貨車編組,利用行包基地和客、貨運站場、設備,整列裝載包裹等小件貨物的列車,它實現了行包運輸的專業(yè)化、集裝化,以及裝卸作業(yè)的機械化、現代化,是鐵路行包運輸體制改革的成果,是鐵路行包運輸組織一次新的質的飛躍。
自1998年3月18日全路開行第一列鐵路行包快運專列以來,行包運量逐年遞增,取得了較好的經濟效益和社會效益。至2007年鐵路第六次大面積提速,行包快運專列最高技術速度達到160 km/h。據統(tǒng)計,近幾年來雖然鐵路普包運量一直徘徊在260萬t左右,但鐵路行包運量卻呈大幅上升趨勢,1998—2007年10年間平均每年增加110.22萬t,年均增幅21.87%。行包行郵專列所代表的專業(yè)化運輸方式,突破了傳統(tǒng)的行包攬貨和運輸方式,已經成為鐵路運輸走向市場、積極拓展行包運輸市場新的階段。因此,隨著鐵路行包運輸能力的穩(wěn)步提升過程,建立模型和預測其發(fā)展歷程和趨勢具有重要的現實意義。
鐵路行包運量預測是對鐵路行包運輸的發(fā)展趨勢進行動態(tài)分析和推測,是定性基礎上的定量計算。對鐵路行包運量的正確把握,關系到鐵路運輸資源的有效配置和經濟結構的協(xié)調發(fā)展,對以中鐵快運為代表的鐵路企業(yè)的經營管理、投資決策等有重要作用。但是長久以來鐵路行包運量飽受影響因素繁多且統(tǒng)計數據樣本量不足所困,使得運量預測極為復雜和充滿非線性等問題。
鐵路行包運輸受外部市場需求和內部運輸體系供給多種因素的共同影響,總體上可分為規(guī)模因素和結構因素兩類[2]。其中規(guī)模類因素包括各種經濟總量因素,而結構類因素主要反映產業(yè)結構和運輸結構。內外多種因素對行包運量的影響程度各異,且作用形式無法精確估計。傳統(tǒng)的預測方法如時間序列法、回歸分析法、灰色預測法和組合預測法等所建立的模型,很難找到一個恰當的參數估計方法,在預測精度和收斂速度上也不夠理想。
近年來,人工神經網絡的發(fā)展為解決這個問題提供了有效的途徑,其并行計算的特點和良好的非線性映射能力,能夠較好地滿足鐵路行包運量預報的精度和速度。目前應用最廣的是BP網絡和RBF網絡模型,但廣義回歸神經網絡 (Generalized Regression Neural Network,GRNN) 在解決樣本量小且噪聲較多的問題時,逼近能力、分類能力和學習速度上較前兩種有優(yōu)勢[3],因此選用廣義回歸神經網絡建立仿真模型對鐵路行包運量進行預測。
在建立GRNN網絡模型時,為了更準確地反映事物的特征,通??紤]盡量多的指標因素,即使模型中包含了較多的解釋變量。但如果將所有指標都作為神經網絡的輸入端,會增加網絡的復雜度并降低網絡性能,增加計算時間,影響計算精度;而且變量之間的多重共線性會使數據提供的信息發(fā)生重疊,甚至抹殺事物的真正特征。如果舍棄其中一些因素,勢必會造成某些有用信息的丟失。因此,可結合主成分分析方法對指標因素進行預處理,利用降維的思想,將所有指標的信息通過少數幾個指標來反映,在低維空間將信息分解為互不相關的部分以獲得更有意義的解釋。
將經過主成分分析后的新樣本集作為GRNN神經網絡的數據輸入層,可以在有效保留數據信息的前提下對數據進行降維,減少輸入層神經元的個數,增強網絡性能,改善預測效果。
對鐵路行包運量的統(tǒng)計特征的度量主要通過行包運量及行包周轉量來反映。影響鐵路行包運量的指標因素有很多,總體上可分為規(guī)模類因素和結構類因素。首先通過定性分析,篩選出了17個主要的顯著性指標因素。
(1) 規(guī)模類因素。GDP、第三產業(yè)總產值、交通運輸業(yè)增加值、第三產業(yè)貢獻率、第三產業(yè)對GDP的拉動、城鎮(zhèn)居民交通類消費支出、農村居民交通類消費支出。
(2) 結構類因素。鐵路營業(yè)里程、叉車數量、牽引搬運車數量、行李運費收入、行李車數量、行包列車機車日車公里、行包列車機車旅行速度、行包列車機車技術速度、行包列車專運機車走行公里、行包列車專運機車總重噸公里。初始指標樣本區(qū)間為1998—2007年,數據來源于2008年《中國統(tǒng)計年鑒》等資料。
主成分分析(Principal Components Analysis,PCA)是多元數理統(tǒng)計中常用的一種數據處理方法,由Hotelling于1933年首先提出。它通過投影的方法,實現數據的降維,在損失較少數據信息的基礎上把多個指標轉化為幾個有代表意義的綜合指標,即用主成分來描述并解釋大部分變量的協(xié)方差結構特征。它的主要用途是數據壓縮和數據解釋,其分析結果主要用于指標篩選、回歸、聚類、多維度評價、系統(tǒng)演化過程分析等方面[4]。
將以上兩類共17個指標變量標準化后,通過EViews6.0進行主成分分析,主要步驟[5]如下。
(1) 將數據進行標準化,消除原始變量量綱的影響。令:
其中:zki為第i個指標第k年的標準化值,i=1,2,…,p,k=1,2,…,n;xki∈X,為原始數據矩陣X中第i個指標第k年的實際值,i=1,2,…,p,k=1,2,…,n;為第i個指標在時間區(qū)間[1,n]內的平均值,i=1,2,…,p;為樣本協(xié)方差矩陣S的對角線上元素,i=1,2,…,p,k=1,2,…,n。
(2) 根據標準化后的數據矩陣Z=(zki)n×p,求得相關矩陣R。
再根據相關矩陣R求出其特征值λ,并按大小排序λ1≥ λ2≥…≥ λp≥0,相應的特征向量為e1,e2,…,ep。則第i個主成分yi的表達式為:
分析表中數據可知,規(guī)模類指標的前兩個主成分的累積貢獻度為99.63%,結構類指標的前兩個主成分的累積貢獻度也達到了96.11%。
(4) 確定主成分個數。累積貢獻度達到85%以上就說明已包含原始變量的絕大部分信息,也可通過碎石圖選擇斜率變化較大的拐點的序號為主成分個數。
研究以累積貢獻度95%為標準,說明兩類指標的各第一、第二主成分分別代表了原始數據中蘊涵的絕大部分信息。通過碎石圖(圖1和圖2)也可以看出,在i=2處兩類指標因素的特征值斜率均變化明顯。因此,主成分個數為2。
通過式(3)分別計算出兩類指標各自前2個主成分數據,構成新的指標樣本數據集,如表2所示。
圖1 規(guī)模類因素碎石圖
圖2 結構類因素碎石圖
表1 特征值及貢獻度
廣義回歸神經網絡是由Donald F Sprecht在1991年提出的,其基礎為數理統(tǒng)計,主要用于系統(tǒng)辨識和預測控制。它能夠根據樣本數據逼近其中隱含的映射關系,學習速度快,網絡最后收斂于樣本量集聚最多的優(yōu)化回歸面。一旦學習樣本確定,則相應的網絡結構和神經元之間的連接權值也隨之確定,網絡訓練過程實際上只是確定平滑參數的過程,并且在樣本數據較少時效果也很好[2]。GRNN神經網絡由輸入層、徑向基隱含層和線性輸出層組成,其網絡結構如圖3所示。
圖3中,P 表示網絡輸入向量;R 表示網絡輸入的維數;S 表示每層網絡中的神經元個數;徑向基隱含層的權值函數為歐式距離函數(用‖dist‖表示),其作用為計算網絡輸入層與徑向基隱含層的權值 IW1之間的距離;b1為隱含層閾值。隱含層的傳
遞函數通常采用高斯函數[3]:
其中:σi為光滑因子,其決定了第i個隱含層位置中基函數的形狀。
線性輸出層的權函數為規(guī)范化點積權函數,計算網絡的向量n2,它的每個元素是由向量a1和權值矩陣LW2中每行元素的點積再除以向量a1的各元素之和得到,并將結果n2提供給線性傳遞函數a2=purelin(n2),計算出網絡輸出。
研究取新構成的指標樣本集中1998—2006年數據作為訓練樣本集,2007年的數據作為測試樣本集,以鐵路行包運量及行包周轉量作為網絡輸出,通過Matlab7神經網絡工具箱構建三層廣義回歸神經網絡。首先,利用公式對數據做歸一化處理,統(tǒng)一映射到[0,1]區(qū)間。其后構建廣義回歸神經網絡,將訓練樣本數據和行包運量、周轉量分別放入網絡的輸入輸出層,進行網絡學習。通過對光滑因子的不斷調整改進發(fā)現,當光滑因子設置為0.1時,無論逼近性能還是預測性能,誤差都比較小。最后在學習完成后,用測試樣本集的數據進行仿真,考察預測效果。
表2 新指標樣本集
圖3 GRNN神經網絡結構
表3分別列出了PCA-GRNN模型和GRNN模型對鐵路行包運量的預測值。GDP的拉動、城鎮(zhèn)居民交通類消費支出等經濟規(guī)模因素,還考慮了機械化作業(yè)程度、行李車走行公里等產業(yè)結構因素,做到全面利用樣本信息,提高了預測的精度。
實證分析表明,采用主成分分析法的廣義回歸神經網絡模型具有結構簡單、學習速度快、預測精度高的特點。相比一般直接采用廣義回歸神經網絡模型,網絡結構更加簡潔,并且運算時間大幅縮短,且效率更高。應用于鐵路行包運量的預測取得了滿意的結果,可以取代利用全部指標的GRNN模型。
表3 兩種模型預測值的比較
對比完全利用17個指標、未經過主成分分析的GRNN模型仿真發(fā)現,PCA-GRNN模型預測結果很接近。說明利用主成分分析處理影響指標因素后的廣義回歸神經網絡模型,可以近似取代單純、完全利用全部指標的廣義回歸神經網絡模型,對鐵路行包運量進行預測,其結果相差不明顯。
GRNN神經網絡所具有的自學習、自組織、全息聯想、推廣泛化能力,以及很強的魯棒性和容錯性,是進行鐵路行包運量預測的基礎。影響鐵路行包量的因素多而復雜,且之間存在多重共線性,使得行包運量分析變得很困難。而利用主成分分析法構建的GRNN模型,能夠將所有指標的信息通過生成的少數幾個指標來反映,不但考慮了第三產業(yè)對
[1] 李先進. 鐵路行包運輸組織方法及其優(yōu)化研究[D]. 北京:北京交通大學,2007.
[2] 葛哲學,孫志強. 神經網絡理論與MATLAB R2007實現[M]. 北京:電子工業(yè)出版社,2008.
[3] 魏晉雁,茹 鋒. 采用GRNN模型進行交通量預測及實現研究[J]· 長沙交通學院學報,2006(6):46-50.
[4] 高鐵梅. 計量經濟分析方法與建模[M]. 北京:清華大學出版社,2009.
[5] 楊勵雅,邵春福. 基于主成分分析-BP神經網絡的道路客運站場布局決策研究[C]∥2008城市發(fā)展與規(guī)劃國際論壇論文集. 河北:中國科學技術協(xié)會, 2008:89-92.