翟久剛,田延飛,嚴新平
(1.武漢理工大學a.能源與動力工程學院;b.航運學院,武漢 430063;2.交通運輸部 中國海上搜救中心,北京 100736)
船舶交通流量的準確預測有助于提高海事管理的效能,是船舶通航、航路規(guī)劃與設計的重要參考依據.船舶交通流量實際上具有很大的隨機性,月度船舶交通流量數據構成一個典型的非線性時間序列[1-2],采用線性回歸、曲線方程等對其進行回歸分析往往難以奏效.而人工神經網絡具有極強的非線性映射能力,對非線性系統有良好的識別、預測能力,在信息預測領域已經得到廣泛應用.以BP神經網絡為例,由于其具有極強的非線性映射能力,對非線性時間序列具有很好的擬合能力,但過度擬合將導致其外推能力不佳,測試和預測精度變差,甚至出現與實際變化趨勢相反的現象.為協調兩者的矛盾,本文用神經網絡對交通流量進行仿真及預測,從控制仿真殘差入手設計和構建具有合適結構和預測精度等的網絡,并應用于實際問題.
殘差是指在回歸分析中的實際觀察值與回歸估計值之差,以δ表示.顯然,有多少對數據,就有多少個殘差.針對交通流量這樣的非線性系統,可通過建立合適的神經網絡代替常規(guī)的回歸方程,從而實現對該類特征系統的仿真及預測.神經網絡對樣本數據的仿真也會存在一定的偏差,因此將交通流量的觀測值與按神經網絡進行的仿真值之差定義為本文所指的殘差.
殘差分析[3-4]就是通過殘差所提供的信息,分析出數據的可靠性、周期性或其他干擾.對殘差的基本要求或殘差分析的基本原理是:δ遵從正態(tài)分布N(0,σ2);δ與 σ 之比,稱為標準化殘差,以 δ*表示;δ*遵從標準正態(tài)分布N(0,1).實驗點的標準化殘差落在(-2,2)區(qū)間以外的概率≤0.05,若某一實驗點的標準化殘差落在(-2,2)區(qū)間以外,可在95%置信度將其判為異常實驗點.
用神經網絡替代回歸方程的功能,結合殘差分析,本文設計的基于BP神經網絡與殘差分析的船舶交通流量預測及分析流程見圖1.
圖1 基于BP神經網絡與殘差分析的交通流量預測流程
采用上述流程對月度船舶交通流量進行仿真及預測.結合所做項目,調研得長江九江大橋觀測線2008年8月—2011年7月之間月節(jié)點上船舶交通流量數據,見表1.
[5]和[6],本文用前3個月的交通流量數據預測第4個月的交通流量,如用2008年8—10月的交通流量數據,預測2008年11月的交通流量數據,即輸入為[620504529],輸出為[406].依次類推,從而表1的36個月度節(jié)點的原始交通流量數據構成33組原始樣本.將前30組用作網絡訓練樣本,后3組用作網絡測試樣本,則樣本構成見表2.
表1 長江九江大橋觀測線月度船舶交通流量
表2 原始數據樣本分組列表
根據數據分組及輸入輸出的對應,設計網絡結構為3-8-1的3層BP網絡:其中輸入層為3個神經元,輸出層為1個神經元[7],中間隱含層神經元數為 8[8],見圖 2.
圖2 設計的BP網絡結構
神經網絡的建立及仿真通過MATLAB軟件實現.[9]主要設置為:隱層傳遞函數為“tansig”,輸出層傳遞函數為“purelin”,訓練函數為“trainlm”,訓練目標為“0.1”學習速率,輸入層權值閾值、網絡層權值閾值均采取默認值(將訓練目標分別設置為1e-2和1e-4,學習速率設置為0.01時分別進行訓練,得到訓練樣本很高的擬合精度,但對測試樣本仿真效果很差,甚至出現負值,故此處僅以最后一次的訓練及仿真過程為例進行分析,其他情形的描述、圖表等不再列出).在最后一次仿真過程中,采用33組樣本時網絡經過3步訓練就達到設定的目標(0.1)要求.該網絡經訓練是否適合于對測試樣本的仿真以及對未來交通流量的預測,可借助下面的殘差分析判定.
殘差分析可利用MATLAB或SPSS軟件實現.用MATLAB畫出殘差和標準殘差分布相關性特征,見圖3和4[10];用SPSS畫出殘差和標準殘差的正態(tài)統計性特征,見圖 5 和 6[11].
由圖3可知:用神經網絡對船舶交通流量仿真的殘差和標準殘差均落在0線附近的帶狀區(qū)域內,且無明顯的趨勢[3],初步說明該網絡能夠較好地擬合過去的流量數據;標準殘差絕大多數落入[-1,1]區(qū)間,且?guī)缀跞柯淙耄郏?,2]區(qū)間內,說明在95%置信度下該網絡的擬合過程幾乎沒有異常點.由圖4可知,殘差和標準殘差的自相關因數具有明顯的截尾性,說明殘差和標準殘差時間序列已不存在相關性,可判定殘差和標準殘差為白噪聲序列[12].根據圖5和6,殘差和標準殘差具有相同的概率分布特征,且其概率分布與期望的正態(tài)分布檢驗直線基本吻合,故判斷該網絡擬合結果的殘差和標準殘差時間序列符合正態(tài)分布[13].
綜上分析,采用前面建立的神經網絡,得到交通流量仿真的殘差和標準殘差為正態(tài)白噪聲時間序列,所建立的神經網絡在95%的置信度水平下對歷史數據的仿真較好,因此可以嘗試利用該網絡對交通流量進行仿真及預測.
采用前述訓練好的網絡對所有樣本進行仿真,畫出相對誤差((預測值-觀測值)/觀測值)曲線,并對未來12個月的交通流量進行預測.對長江九江大橋觀測線2011年8月—2012年7月12個月節(jié)點上的船舶交通流量預測結果見表3(小數點后數字均省略,在整數位進1);仿真及預測結果見圖7,其中第31~33節(jié)點處的值分別為測試樣本的觀測值和仿真值.
表3 長江九江大橋觀測線船舶交通流量預測
由圖7可知,該網絡能很好地擬合出前30組樣本所反映的交通流量變化趨勢,特別是對后3組測試樣本,該網絡也已仿真出交通流量“升高—滑落”的局部變化.另外,分析圖7的相對誤差曲線可知,所有樣本仿真的相對誤差在0.05左右波動,并沒有出現較大的偏離或異常值.在預測部分,最先的兩個預測值體現出交通流量的短時下降(在第35個節(jié)點處的值最小),其后的交通流量體現出較為平穩(wěn)的波動變化,這與實際情況相符.由仿真及預測的效果可見,本文建立的網絡能用于對交通流量的仿真及預測,網絡輸出值能夠作為實際交通流量的參考.同時,其仿真和預測效果也與文中所述的殘差分析和控制相呼應,即在控制殘差的前提下設置神經網絡的訓練參數(如設置訓練目標為0.1),以協調“過度擬合”與“預測誤差”之間的矛盾.
從應用角度出發(fā),以解決實際問題為目的,嘗試將神經網絡擬合與殘差分析相結合,從控制殘差為正態(tài)分布、殘差通過白噪聲檢驗[14]等方面協調神經網絡的“擬合精度不夠”與“因過度擬合導致預測誤差偏大”之間的矛盾,以使所建立的BP神經網絡能夠較好地擬合過去時段的數據,又能對未來作出較合理、可信的預測.
將基于BP神經網絡與殘差分析的船舶交通流量預測應用于長江九江大橋觀測線交通流量分析中,從預測效果分析可知,該方法可行,結論具有較高的參考價值.交通流量預測結果可作為海事管理部門合理配備海事管理資源的參考依據,以規(guī)范航行秩序、保障通航安全.
參考文獻:
[1]曾慧,鄭彩萍,王濤濤.基于(殘差)Auto-Regressive模型利用MATLAB解決經濟非平穩(wěn)時間序列的預測分析[J].佳木斯大學學報:自然科學版,2008,26(1):71-74.
[2]王麗娜,肖冬榮.基于ARMA模型的經濟非平穩(wěn)時間序列的預測分析[J].武漢理工大學學報,2004,28(2):133-136.
[3]王敏.殘差分析在統計中的應用[J].江蘇統計,2000(8):24-25.
[4]王燕.應用時間序列分析[M].北京:中國人民大學出版社,2005.
[5]周少龍,周鋒.基于時間序列的港口貨物吞吐量GRNN預測模型[J].上海海事大學學報,2011,32(1):70-73.
[6]飛思科技產品研發(fā)中心.神經網絡理論與MATLAB 7實現[M].北京:電子工業(yè)出版社,2005.
[7]朱武亭,劉以建.BP網絡應用中的問題及其解決[J].上海海事大學學報,2005,26(2):64-66.
[8]嚴鴻,管燕萍.BP神經網絡隱層單元數的確定方法及實例[J].控制工程,2009,16(S1):100-102.
[9]朱凱,王正林.精通MATLAB神經網絡[M].北京:電子工業(yè)出版社,2010.
[10]張善文,雷英杰,馮有前.MATLAB在時間序列分析中的應用[M].西安:西安電子科技大學出版社,2007.
[11]楊小平,劉剛,趙晉.統計分析方法與SPSS應用[M].北京:清華大學出版社,2008.
[12]于寧莉,易東云,涂先勤.時間序列中自相關與偏相關函數分析[J].數學理論與應用,2007,27(1):54-57.
[13]宗序平,姚玉蘭.利用Q-Q圖與P-P圖快速檢驗數據的統計分布[J].統計與決策,2010(20):151-152.
[14]施亮星,何楨.殘差分析在計量型測量系統分析中的應用[J].工業(yè)工程,2008,11(3):108-111.