王威娜,闞中勛
(1.吉林化工學院理學院,吉林 吉林 132022;2.中石油東北煉化工程有限公司吉林設計院 設備室,吉林 吉林132002)
從統(tǒng)計意義上講,所謂時間序列就是將某一個指標在不同時間上的不同數(shù)值,按照時間的先后順序排列而成的數(shù)列.時間序列分析是根據(jù)歷史數(shù)據(jù)的相互關系和變化趨勢預測未來的行為和特征,它在股票和醫(yī)療等眾多不同的領域都有著廣泛的應用[1-4].
1993年Song和Chissom[5-7]首先提出了模糊時間序列模型,由于該模型利用模糊邏輯理論,能夠在不確定環(huán)境下處理不完整和含糊的數(shù)據(jù),使得其在經(jīng)濟、社會生活等領域得到廣泛應用[8-10].
發(fā)展節(jié)約型社會已是我國重要的戰(zhàn)略之一,因此如何能準確的預測能源消耗,確保能源供應,已成為現(xiàn)今社會迫切需要解決的問題.針對這一問題,學者們已將神經(jīng)網(wǎng)絡、回歸分析、遺傳算法及時間序列分析模型引入到能源需要的預測中.本文結合模糊C-均值(FCM)算法提出一個新的模糊時間序列模型,并將其應用到中國的能源預測中,實驗結果表明了該方法的可行性和有效性.
FCM是一種經(jīng)典的聚類算法,是目前被廣泛采用的一種聚類算法,它能夠給出每個樣本隸屬于某個聚類的隸屬度,它通過對目標函數(shù)迭代優(yōu)化從而使得聚類結果體現(xiàn)出每一個數(shù)據(jù)對聚類中心的隸屬程度[11-12].
假設 X={x1,x2,…,xn}是n個數(shù)據(jù)點,并將其分成c類,聚類中心表示為v={v1,v2,…,vc},u={uij}是隸屬度矩陣,uij表示xj屬于第i類的隸屬度.FCM算法通過最小化目標函數(shù)來獲得數(shù)據(jù)樣本的最優(yōu)劃分,也即是尋求合適的隸屬度和聚類中心,使得目標函數(shù)最小.FCM目標函數(shù)表達形式為
其中目標函數(shù)J(U,V)的值越小聚類效果越好.m是隸屬度的模糊加權指數(shù),決定了聚類結果的模糊程度,典型值取m=2,d(xj,vi)=||xj- vi||2表示xj到聚類中心vi的歐式聚類.式(1)滿足如下約束條件
模糊C-均值聚類算法的具體步驟如下:
步驟一:初始化聚類中心V0,給定聚類類別數(shù)C,設置算法停止閾值ε.
步驟二:根據(jù)公式(3)更新隸屬度矩陣Ut
步驟四:如果滿足||Vt+1-Vt||≤ε,則算法達到停止條件,算法結束并輸出聚類中心V和隸屬度矩陣U;否則令t=t+1,算法轉向步驟二.
本文基于FCM聚類算法提出一個新的時間序列預測模型.模型分為三個階段:首先,將觀察的時間序列轉化為w維的時間序列數(shù)據(jù)集;然后,利用FCM算法對構造的時間序列數(shù)據(jù)集進行聚類;最后,根據(jù)聚類結果進行預測.得到預測值以后,可以反饋給時間序列繼續(xù)進行預測,這使得提出的模型能夠進行長期預測.模型的流程如圖1所示.
圖1 算法流程圖
具體步驟如下:
步驟一:設時間序列為 Z={z1,z2,……,zn},給定時間窗口的長度為w,構造時間序列數(shù)據(jù)集
步驟二:由于FCM算法需要預先指定聚類數(shù)C,所以先利用PBMF有效性指標確定最優(yōu)的聚類數(shù).PBMF有效性指標定義如下:
PBMF有效性指標由1/c,E1/Jm和Dc三個部分組成,其中1/c是用聚類數(shù)協(xié)調(diào)有效性指標,E1/Jm和Dc分別反應了聚類的緊致性和分離性.因此,VPBMF的最大值對應最優(yōu)的聚類數(shù).
然后根據(jù)確定的最優(yōu)聚類數(shù)C,利用FCM算法對時間序列數(shù)據(jù)集進行聚類,得到每個數(shù)據(jù)的類標號.
步驟三:根據(jù)預測點的鄰近數(shù)據(jù) xn-w+1=[zn-w+1,zn-w+2,……,zn]的類標號,找到與之同類的所有數(shù)據(jù)及其對應的鄰接時間序列點,把這些時間序列點的平均值作為n+1時刻zn+1的預測值,如圖2所示.
圖2 預測示意圖
步驟四:判斷是否需要繼續(xù)預測,如需要繼續(xù)預測則把預測值反饋給時間序列,執(zhí)行步驟一,否則算法終止.
為了驗證提出算法的可行性和有效性,該算法應用于中國能源消耗數(shù)據(jù)的預測中.本文用到從1957年到2007年的中國能源消耗數(shù)據(jù),共51個觀察值,其中從1961年到1998年的數(shù)據(jù)作為訓練數(shù)據(jù)(38個觀察值),從1999年到2007年的數(shù)據(jù)作為測試數(shù)據(jù)(9個觀察值).
本文利用均方根誤差來度量預測精度,即
其中,F(xiàn)f(t)和Fr(t)分別代表t時刻的預測值和真實值,n代表待預測的數(shù)據(jù)個數(shù).
從表1可以看出,本文提出的算法的預測精度要優(yōu)于傳統(tǒng)的時間序列模型-ARIMA,即預測的誤差小于ARIMA模型,從而表明了此算法的可行性和有效性.
表1 預測值及預測誤差
本文首先利用模糊C-均值(FCM)算法對構造的時間序列數(shù)據(jù)進行聚類,然后結合模糊時間序列模型構造出一個模糊預測模型,并將此模型應用到了中國能源預測中.實驗表明該方法優(yōu)于傳統(tǒng)的時間序列模型,進一步驗證了該方法的可行性和有效性.該模型還可以應用到其它領域,例如經(jīng)濟、醫(yī)療和天氣預報等方面,因此具有較高的實用意義.
[1] Chen S.-M.,Kao P.-Y..TAIEX forecasting based on fuzzy time series,particle swarm optimization techniques and support vector machines[J].Information Sciences,2013,247:62-71.
[2] Pai P.-F.,Lin C.-S..A hybrid ARIMA and support vector machines model in stock price forecasting[J].Omega,2005,33(6):497-505.
[3] Catalano R.,Hansen H.-T..Using time-series analyses to detect the health effects of medical care reforms:a Norwegian example[J].Social Science & Medicine,2001,53(8):1037-1043.
[4] Aach J.,Church G..Aligning gene expression time series with time warping algorithms[J].Bioinfor-matics,2001,17:495-508.
[5] Song Q.,Chissom B.S..Fuzzy time series and its models[J].Fuzzy Sets Syst.,1993,54:269-277.
[6] Song Q.,Chissom B.S..Forecasting enrollments with fuzzy time series-Part I[J].Fuzzy Sets Syst.,1993,54:1-10.
[7] Song Q.,Chissom B.S..Forecasting enrollments with fuzzy time series-Part II[J].Fuzzy Sets Syst.,1993,52:1-8.
[8] Yolcu U.,Aladag C.H..Egrioglu E.,et al.Time series forecasting with a novel fuzzy time series approach:an example for Istanbul stock market[J].J.Stat.Comput.Simul.,2013,83(4):597-610.
[9] Yu T.H.K.,Huarng K.H..A bivariate fuzzy time series model to forecast the TAIEX[J].Expert Syst.Appl.,2008,34:2945-2952.
[10] Lee L.W.,Wang L.H.,Chen S.M..Temperature prediction and TAIFEX forecasting based on high-order fuzzy logical relationships and genetic simulated annealing techniques [J].ExpertSyst.Appl.,2008,34:328-336.
[11] Bezdek J.C..Fuzzy mathematics in pattern classification[D].Ph.D.Dissertation,Cornell University,Ithaca,NY,1973.
[12] Dave R.N.,Bhaswan K..Adaptive fuzzy c-shells clustering and detection of ellipses[J].IEEE Trans.Neural Networks,1992,3(5):643-662.