張人上,安俊娥
(1.山西財經(jīng)大學(xué)信息管理學(xué)院,太原 030006;2.中國電子科技集團(tuán)第三十三研究所,太原 030006)
基于智能集成架構(gòu)的時間序列數(shù)據(jù)挖掘算法研究*
張人上1,安俊娥2
(1.山西財經(jīng)大學(xué)信息管理學(xué)院,太原 030006;2.中國電子科技集團(tuán)第三十三研究所,太原 030006)
針對單一算法在處理復(fù)雜時間序列數(shù)據(jù)時存在缺陷以致無法挖掘全部信息的問題,提出了智能集成架構(gòu),給出了4種集成結(jié)構(gòu),并分析了它們的適用情況。針對一類隨機噪聲干擾的時間序列數(shù)據(jù),采用并聯(lián)嵌套建模結(jié)構(gòu),提出嵌套雙種群粒子群算法的自回歸滑動平均(ARMA)模型,用于挖掘數(shù)據(jù)中的隨機性趨勢;提出基于概率密度控制(PDF)的最小二乘支持向量機(LSSVM),用于挖掘數(shù)據(jù)中的確定性趨勢,兩種模型并聯(lián)補集成實現(xiàn)對數(shù)據(jù)信息的充分挖掘。通過一組實驗驗證了所提方法的效果。
時間序列,支持向量機,智能集成,自回歸滑動平均
隨著信息時代的到來,大數(shù)據(jù)分析已成為各個領(lǐng)域愈來愈重視與依賴的技術(shù)手段。通過時間序列數(shù)據(jù)挖掘,能夠掌握事物的發(fā)展規(guī)律,從而對其未來趨勢進(jìn)行預(yù)測。
本文提出了智能集成架構(gòu),針對一類隨機噪聲干擾的時間序列數(shù)據(jù),采用并聯(lián)嵌套建模結(jié)構(gòu),提出嵌套雙種群粒子群算法的自回歸滑動平均模型,用于挖掘數(shù)據(jù)中的隨機性趨勢;提出基于概率密度控制的最小二乘支持向量機,用于挖掘數(shù)據(jù)中的確定性趨勢,兩種模型并聯(lián)補集成實現(xiàn)對數(shù)據(jù)信息的充分挖掘。通過一組實驗驗證了所提方法的效果。
智能集成模式挖掘方法的形式與結(jié)構(gòu)主要包括4種:
第1種稱為并聯(lián)補集成,其結(jié)構(gòu)包括兩個子模型,兩個模型沒有主次之分,且相互之間互為補充。該結(jié)構(gòu)中的兩個子模型通常由兩種建模方法得到,單一建模方法能夠挖掘時間序列數(shù)據(jù)中的部分信息以獲知對應(yīng)規(guī)律,但由于方法所限,無法獲知數(shù)據(jù)中的全部信息,因此,依靠兩種建模方法互為補充以充分挖掘數(shù)據(jù)中隱含的規(guī)律或模式。
疊加形式分為相加與相乘兩種。并聯(lián)疊加集成結(jié)構(gòu)如圖1、圖2所示。圖中X1為模型1的輸入,Y1為模型1的輸出,Y1=f1(X1)。X2為模型2的輸入,δ為模型2的輸出,δ=f2(X2)。在圖1中Y=Y0+δ,在圖2中Y=δY0。
圖1 相加形式的并聯(lián)補結(jié)構(gòu)
圖2 相乘形式的并聯(lián)補結(jié)構(gòu)
第2種稱為加權(quán)疊加集成,該結(jié)構(gòu)由多個子模型加權(quán)后疊加構(gòu)成,其中每個子模型對應(yīng)的權(quán)重大小決定了它在集成模型中所起的作用。該結(jié)構(gòu)中的多個子模型通常由多種建模方法得到,單一建模方法能夠挖掘時間序列數(shù)據(jù)中的部分信息以獲知對應(yīng)規(guī)律,但由于方法所限,無法獲知數(shù)據(jù)中的全部信息,因此,依靠多種建模方法互為補充以充分挖掘數(shù)據(jù)中隱含的規(guī)律或模式。
圖3 加權(quán)并集成結(jié)構(gòu)
第3種為串聯(lián)集成,該結(jié)構(gòu)包括兩個或多個子模型,其中一個子模型的輸出為另一個子模型的輸入。非線性動態(tài)系統(tǒng)通常采用這種形式,比如采用神經(jīng)網(wǎng)絡(luò)反映系統(tǒng)靜態(tài)時的非線性特性,采用NARMX(具有外生變量的非線性自回歸滑動平均)表征動態(tài)特性。串聯(lián)集成結(jié)構(gòu)如圖4所示。
第4種為模型嵌套集成,該結(jié)構(gòu)包括至少兩個子模型,其中一個稱為基模型,用來對工業(yè)過程的主體結(jié)構(gòu)進(jìn)行建模,其他子模型則嵌套在基模型中,用來對基模型中的未知參數(shù)建模,如圖5所示。比如將蟻群算法、粒子群優(yōu)化算法、遺傳算法等仿生算法應(yīng)用到系統(tǒng)辨識中,用來實現(xiàn)模型中的參數(shù)估計。
圖4 串聯(lián)集成結(jié)構(gòu)
圖5 模型嵌套集成
ARMA時間序列模型理論非常完善,對于一個平穩(wěn)、零均值的時間序列,如采取合適的階次與系數(shù),能保證擬合出的模型預(yù)報殘差為零均值噪聲。
本文提出雙種群粒子群優(yōu)化算法(cPSO),其中一個子群執(zhí)行自適應(yīng)網(wǎng)格粒子搜索,以保持種群的多樣性,提高算法的全局搜索能力;另外一個子群按照快速收縮粒子群算法搜索,具有非常出色的收斂性能。采用cPSO算法優(yōu)化確定ARMA模型的階次與系數(shù)以最小化模型預(yù)報殘差。
算法步驟如下:
第1步:采用單位根檢驗法(ADF)對時間序列數(shù)據(jù)進(jìn)行平穩(wěn)性檢驗,如果序列為零均值平穩(wěn)序列則直接用于ARMA模型建模,否則需要對時間序列數(shù)據(jù)進(jìn)行平穩(wěn)化處理;
第2步:設(shè)置模型階次與系數(shù)優(yōu)化準(zhǔn)則為模型預(yù)報的均方根誤差最小化;
第3步:采用cPSO算法擬合ARMA模型系數(shù)與階次。
cPSO算法原理如圖6所示,算法步驟如下:
圖6 cPSO算法流程
A、劃分網(wǎng)格
將每一維決策變量平均分成gp段。
B、劃分子種群
將整個種群分為兩個子群即自適應(yīng)網(wǎng)格搜索子群(簡稱網(wǎng)格子群)與收縮PSO子群(簡稱PSO子群),兩個子種群的粒子個數(shù)分別為Popz與Pops。
C、種群初始化
在每一個格子內(nèi)都隨機生成一個粒子pxq∈R2,從而構(gòu)成網(wǎng)格子群,{pxq|q=1,…,Popz}。另外,在整個決策空間內(nèi)隨機生成Pops個粒子,從而得到PSO子群{pxq|q=Popz+1,…,Popz+Pops}。令PSO子群的初始速度為0,第k個粒子的初始個體向?qū)bestq為自身即pbestq=pxq,q=Popz+1,…,Popz+Pops,初始全局向?qū)best為隨機選擇的某個粒子位置。
D、向?qū)д{(diào)整
根據(jù)優(yōu)化準(zhǔn)則即模型預(yù)報誤差均方根最小化評估每個粒子,得到 feval(pxq),q=Popz+1,…,Popz+Pops,并按照下式調(diào)整PSO子群的個體向?qū)c全局向?qū)В?/p>
E、網(wǎng)格調(diào)整
根據(jù)gbest所在格子(這里稱為向?qū)ЬW(wǎng)格)的位置調(diào)整每個網(wǎng)格粒子的搜索范圍。調(diào)整后使所有網(wǎng)格粒子的搜索范圍都包括向?qū)ЬW(wǎng)格區(qū)間。如圖7所示,為了表述簡單,假設(shè)將每一維決策變量范圍分成3段,兩維空間,因此,總共分割成9個網(wǎng)格,其中g(shù)best位于第5個網(wǎng)格內(nèi)。在調(diào)整前粒子1的搜索范圍為網(wǎng)格1,調(diào)整后粒子1的搜索范圍變?yōu)榫W(wǎng)格1、2、4、5構(gòu)成的空間。同樣,在調(diào)整前粒子2的搜索范圍為網(wǎng)格2,調(diào)整后粒子2的搜索范圍變?yōu)榫W(wǎng)格2、網(wǎng)格5構(gòu)成的空間。
圖7 網(wǎng)格調(diào)整實例
F、網(wǎng)格子群位置更新
網(wǎng)格子群的位置pxq(q=1,…,Popz)按照下式進(jìn)行更新:
G、PSO子群位置更新
收縮 PSO子群的位置 pxq(q=Popz+1,…,Popz+Pops)按照下式進(jìn)行更新:
第4步:驗證所建立的時間序列ARMA模型。
提出了一種新的LSSVM模型參數(shù)選擇準(zhǔn)則即使模型殘差PDF逼近給定的高斯分布,以提高數(shù)據(jù)分析與預(yù)測的精度與泛化性。PDF調(diào)整與控制思想起源于隨機控制領(lǐng)域,其目標(biāo)是使系統(tǒng)輸出的概率密度函數(shù)跟蹤一個給定的分布形狀。
算法原理如下:
LSSVM將優(yōu)化問題描述如下:
其中,ζj∈R是殘差,C是懲罰系數(shù)。
建立Lagrangian函數(shù),并根據(jù)Karush-Kuhn-Tuc ker(KKT)條件,得到:
消除ω,ζ后,得到線性方程:
核函數(shù)取高斯徑向基函數(shù)
則,待求LSSVM回歸模型為:
其中,αj,b由方程組式(8)求解得到。
在LSSVM回歸建模過程中,懲罰系數(shù)C和核函數(shù)參數(shù)σ是可調(diào)參數(shù),一旦選擇出這兩個參數(shù),則可以獲得最小二乘支持向量機模型。
基于殘差PDF控制的LSSVM數(shù)據(jù)分析與預(yù)測原理是利用系統(tǒng)輸入輸出的數(shù)據(jù),在模型結(jié)構(gòu)確定的基礎(chǔ)上,調(diào)整模型內(nèi)部參數(shù)使模型誤差方差最小且具有零均值。因此,在系統(tǒng)的輸入、輸出存在隨機干擾時,該方法仍然能夠保證建模精度。如果隨機干擾為高斯分布,因此,調(diào)整模型參數(shù)的目標(biāo)是使得模型殘差概率密度函數(shù)(PDF)越窄越好。如果隨機干擾為非高斯分布,以模型可調(diào)參數(shù)為輸入,模型殘差的概率密度函數(shù)為輸出分布,通過建立關(guān)于輸入的在線調(diào)整算法,實現(xiàn)輸出概率密度函數(shù)跟蹤一個定義在一個窄區(qū)間上的零均值高斯分布。下面詳細(xì)介紹這一參數(shù)選擇準(zhǔn)則,并采用標(biāo)準(zhǔn)網(wǎng)格搜索算法[20]確定LSSVM模型參數(shù)的過程。
殘差ξ可以表示為:
進(jìn)一步可以寫成如下函數(shù)形成:
設(shè)殘差ξ的概率密度分布為γξ,則γξ為可調(diào)參數(shù)懲罰系數(shù)C和核函數(shù)參數(shù)σ的函數(shù),即γξ(x,y,C,σ),因此,可以通過調(diào)整C和來使γξ接近于一目標(biāo)高斯分布。
設(shè)目標(biāo)高斯分布概率密度函數(shù)γtarget為:
定義參數(shù)選擇準(zhǔn)則:
針對一類隨機噪聲干擾的時間序列數(shù)據(jù),本文采用上述并聯(lián)嵌套建模結(jié)構(gòu),采用子模型嵌套cPSO的ARMA模型挖掘數(shù)據(jù)中的隨機性趨勢;采用基于PDF的LSSVM挖掘數(shù)據(jù)中的確定性趨勢,兩種模型并聯(lián)補集成實現(xiàn)對數(shù)據(jù)信息的充分挖掘。
以選礦生產(chǎn)過程時間序列數(shù)據(jù)為收集對象,該數(shù)據(jù)集受到嚴(yán)重的工業(yè)噪聲干擾。
分別采用本文所提方法(ARMA-LSSVM)與單純的PDF-LSSVM分別對上述工業(yè)對象進(jìn)行數(shù)據(jù)分析與預(yù)測,給定的目標(biāo)高斯概率密度函數(shù)的均值μ=0,方差σ2G=7.5。模型驗證結(jié)果顯示在圖8~下頁圖13中。
圖8PDF-LSSVM與ARMA-LSSVM模型訓(xùn)練結(jié)果與樣本數(shù)據(jù)對比
圖9PDF-LSSVM與ARMA-LSSVM模型預(yù)報結(jié)果與測試數(shù)據(jù)對比
圖10PDF-LSSVM與ARMA-LSSVM模型訓(xùn)練殘差
圖8顯示了PDF-LSSVM與ARMA-LSSVM模型訓(xùn)練結(jié)果于訓(xùn)練樣本數(shù)據(jù)的擬合程度,圖10反映了PDF-LSSVM與ARMA-LSSVM模型訓(xùn)練精度。由圖8可以發(fā)現(xiàn),兩個方法的模型訓(xùn)練結(jié)果都能近似擬合上訓(xùn)練樣本數(shù)據(jù),圖10結(jié)果顯示兩個方法的模型訓(xùn)練精度都能滿足要求,并且ARMA-LSSVM具有一定的優(yōu)勢。
圖11PDF-LSSVM與ARMA-LSSVM模型預(yù)報殘差
圖12PDF-LSSVM與ARMA-LSSVM訓(xùn)練模型殘差的自相關(guān)分析
圖13PDF-LSSVM與ARMA-LSSVM預(yù)報殘差的自相關(guān)分析
圖9為PDF-LSSVM與ARMA-LSSVM模型預(yù)報結(jié)果與測試數(shù)據(jù)的對比,圖11為PDF-LSSVM與ARMA-LSSVM模型預(yù)報精度。根據(jù)圖9、圖11,ARMA-LSSVM建模方法的預(yù)報精度要高于PDF-LSSVM建模方法,這說明ARMA-LSSVM的泛化性要高于PDF-LSSVM建模方法,因此,其建模結(jié)果更具有實際應(yīng)用價值。
圖12、圖13為PDF-LSSVM及ARMA-LSSVM模型訓(xùn)練殘差、預(yù)報殘差的自相關(guān)分析。根據(jù)該圖,可以發(fā)現(xiàn)PDF-LSSVM模型的訓(xùn)練殘差與預(yù)報殘差均不為白噪聲,即PDFLSSVM所建模型沒有提取出建模對象的全部信息,造成模型精度不高、泛化性差等問題。與之相比,ARMA-LSSVM模型的訓(xùn)練殘差與預(yù)報殘差近似為白噪聲,因此,其模型結(jié)果具有更高精度與應(yīng)用價值。
[1]孫翔,王景成.基于回歸模型的城市長期水量預(yù)測[J].微型電腦應(yīng)用,2010,38(11):7-9.
[2]才讓加.化學(xué)數(shù)據(jù)的一元線性回歸分析[J].青海師范大學(xué)學(xué)報(自然科學(xué)版),2005,29(2):13-15.
[3]姚偉.稅收組合預(yù)測仿真研究[J].計算機仿真,2012,39(10):374-377.
[4]葉宗裕.非線性回歸模型參數(shù)估計方法研究-以C-D生產(chǎn)函數(shù)為例[J].統(tǒng)計與信息論壇,2010(1):41-45.
[5]張金旺,劉紅,華琳,等.非線性回歸模型擬合生存資料分析[J].數(shù)理醫(yī)藥學(xué)雜志,2009,29(6):641-642.
[6]Ratkowsky D A.Nonlinear Regression Modeling-a Unified Practical Approach[M].Marcel Dekker Inc,1983.
[7]張新波.時間序列模型在稅收預(yù)測中的應(yīng)用[J].湖南稅務(wù)高等??茖W(xué)校學(xué)報,2010,25(4):30-32.
[8]林錦朗.時間序列模型在海關(guān)稅收預(yù)測中的應(yīng)用[J].統(tǒng)計與咨詢,2009,28(1):26-27.
[9]王時繪,周健.時間序列數(shù)學(xué)模型在稅收分析中的應(yīng)用[J].科技廣場,2011,31(7):150-154.
[10]張伏生,汪鴻,韓悌,等.基于偏最小二乘回歸分析的短期負(fù)荷預(yù)測[J].電網(wǎng)技術(shù),2003,25(3):27-31.
[11]肖蘇,熊炎.基于灰度統(tǒng)計和神經(jīng)網(wǎng)絡(luò)的物流稅收預(yù)測模型[J].物流技術(shù),2013,35(23):131-132.
Research on Time Series Data Mining Algorithm Based on Intelligent Integrated Architecture
ZHANG Ren-shang1,AN Jun-e2
(1.Shanxi University of Finance and Economics,Taiyuan 030006,China;
2.The Thirty-third Research Institute of China Electronic Technology Group Corporation,Taiyuan 030006,China)
Aiming for the setbacks that a single algorithm can't dig all information in dealing with complex time-series data defects,the intelligent integrated architecture is proposed,providing four kinds of integration architecture,and analyzing their application.Time-series data for one category of random noise,utilizing series nested modeling structure,proposes Auto Regressive Moving Average model(ARMA)nested with double population particle swarm optimization algorithm for date mining,and figures out its stochastic trends;a probability density control based on support vector machine is provided,aimed to determine the trend of data mining,two categories of model of parallel compensation are set to implement the objective of thoroughly data mining,via a series of experiments that revealed the effectiveness of the proposed method.
time series,Support Vector Machine(SVM),intelligent integrated,ARMA
TP393
A
1002-0640(2015)03-0067-05
2014-01-18
2014-03-27
山西省自然科學(xué)基金資助項目(20120005)
張人上(1978- ),男,山西忻州人,碩士,講師。研究方向:計算機應(yīng)用、網(wǎng)絡(luò)安全。