鄒 小 云
(湖北職業(yè)技術(shù)學(xué)院公共課部 湖北 孝感 432000)
在許多領(lǐng)域內(nèi)均存在多元的時間序列數(shù)據(jù)[1],如互聯(lián)網(wǎng)中服務(wù)器的通信流量數(shù)據(jù)、虛擬現(xiàn)實技術(shù)的人體運動捕捉數(shù)據(jù)[2]和病人的腦電波實時監(jiān)測數(shù)據(jù)等。多元時間序列一般伴隨著高維數(shù)據(jù)的屬性,導(dǎo)致多元時間序列的預(yù)測難度升高,且難以在合理的時間內(nèi)取得理想的預(yù)測準(zhǔn)確率[3]。
目前研究人員大多以時間為約束條件,以最大化預(yù)測準(zhǔn)確率為研究目標(biāo),設(shè)計了不同的多元時間序列預(yù)測算法。文獻(xiàn)[4]提出了基于無核相關(guān)向量機(jī)的多元時間序列預(yù)測算法,利用無核相關(guān)向量機(jī)不受核函數(shù)約束的特性,構(gòu)建了高維特征空間。但無核相關(guān)向量機(jī)的非線性擬合能力不足,導(dǎo)致多元時間序列的預(yù)測準(zhǔn)確率較低。文獻(xiàn)[5]通過因子分析提取高維儲備池狀態(tài)矩陣的公因子,利用降維后的因子變量與期望輸出之間的線性回歸關(guān)系,求解神經(jīng)網(wǎng)絡(luò)的未知參數(shù)。文獻(xiàn)[6]采用集群卷積神經(jīng)網(wǎng)絡(luò)對多元時間序列進(jìn)行預(yù)測,提出了訓(xùn)練階段新的數(shù)據(jù)結(jié)構(gòu),通過協(xié)方差矩陣對時間序列進(jìn)行快速分類。該網(wǎng)絡(luò)通過卷積運算和下采樣自動對時間域特征和空間域特征進(jìn)行選擇,獲得了較好的預(yù)測效果。但該網(wǎng)絡(luò)模型需要實時更新卷積層參數(shù)、隱層單元數(shù)量和權(quán)重向量等超參數(shù),訓(xùn)練時間過長。文獻(xiàn)[7]通過遞歸神經(jīng)網(wǎng)絡(luò)預(yù)測多元時間序列的類別,該算法的準(zhǔn)確率較高,但是對每個新到達(dá)時間序列需要很多輪數(shù)才能達(dá)到收斂??傮w而言,基于神經(jīng)網(wǎng)絡(luò)的預(yù)測算法具有學(xué)習(xí)能力強的優(yōu)勢,但存在網(wǎng)絡(luò)參數(shù)學(xué)習(xí)難度大的問題。當(dāng)前的時間序列學(xué)習(xí)方法大多基于前饋神經(jīng)網(wǎng)絡(luò)實現(xiàn),并通過梯度下降法和后向傳播算法實現(xiàn)在線地學(xué)習(xí)和更新,但梯度下降法和后向傳播需要很長的訓(xùn)練時間和復(fù)雜的參數(shù)調(diào)節(jié)。
為了解決上述問題,本文提出了基于圖拉普拉斯特征提取和極限學(xué)習(xí)機(jī)(Extreme Learning Machine,ELM)在線學(xué)習(xí)的多元時間序列預(yù)測算法。將標(biāo)記觀察樣本和無標(biāo)記觀察樣本分別構(gòu)建圖拉普拉斯的散布矩陣,再利用圖拉普拉斯相關(guān)理論提取時間序列的特征子集。設(shè)計了新的時間序列在線極限學(xué)習(xí)機(jī),該模型隨機(jī)初始化隱層單元數(shù)量,在線學(xué)習(xí)程序通過最小二乘法遞歸地逼近問題最優(yōu)解,從而更新網(wǎng)絡(luò)的輸出權(quán)重。在線學(xué)習(xí)過程中僅需要學(xué)習(xí)和更新隱層和輸出層之間的權(quán)重即可完成訓(xùn)練。本文的貢獻(xiàn)主要如下:(1) 提出基于圖拉普拉斯的稀疏特征選擇方法,利用凸l2-p范數(shù)(p=1)和非凸l2,p范數(shù)(0
本文基于圖拉普拉斯建模特征學(xué)習(xí)問題[8],計算特征選擇的稀疏變換向量,采用l2-p范數(shù)保證向量的稀疏性,使其符合特征選擇的問題模型。圖1是時間序列特征提取流程。設(shè)X=[x1,x2,…,xl,xl+1,…,xn]T∈Rd×n為訓(xùn)練數(shù)據(jù)矩陣,X=[x1,x2,…,xl]T∈Rd×l為X的標(biāo)記訓(xùn)練數(shù)據(jù),n為訓(xùn)練數(shù)據(jù)的數(shù)量,l為標(biāo)記訓(xùn)練數(shù)據(jù)的數(shù)量。xi∈Rd(1≤i≤n)表示第i個訓(xùn)練樣本,Y=[y1,y2,…,yl]T∈Rl表示訓(xùn)練數(shù)據(jù)的標(biāo)記向量,yi∈R(1≤i≤l)為第i個標(biāo)記樣本的標(biāo)記。定義W∈Rd為特征選擇問題的變換向量。
圖1 時間序列特征提取流程
將l2-p范數(shù)引入圖拉普拉斯矩陣,以實現(xiàn)降維處理,目標(biāo)函數(shù)定義為:
(1)
第1個散布矩陣定義為圖拉普拉斯的監(jiān)督散布矩陣和無監(jiān)督散布矩陣的結(jié)合,其計算式為:
(2)
(3)
式中:Lunsup∈Rn×n為訓(xùn)練數(shù)據(jù)的無監(jiān)督圖拉普拉斯矩陣?;谌繑?shù)據(jù)建立近鄰圖Gunsup,每個節(jié)點對應(yīng)一個觀察數(shù)據(jù)。如果xi屬于xj的k-近鄰,或者xj屬于xi的k-近鄰,則在兩個樣本間建立連接。圖Gunsup中邊權(quán)重的計算式為:
(4)
(5)
式中:Lsup∈Rl×l為標(biāo)記數(shù)據(jù)的監(jiān)督圖拉普拉斯矩陣。
基于標(biāo)記數(shù)據(jù)建立監(jiān)督近鄰圖Gsup,每個標(biāo)記數(shù)據(jù)為一個節(jié)點,根據(jù)觀察樣本的標(biāo)記信息在相似的樣本之間建立連接。圖Gsup的權(quán)重矩陣Ssup定義為:
(6)
第2個散布矩陣定義為:
M2=XLSemiXT
(7)
式中:Lsemi∈Rn×n為半監(jiān)督圖拉普拉斯矩陣,表示標(biāo)記數(shù)據(jù)的標(biāo)記信息和局部結(jié)構(gòu)信息。為了計算半監(jiān)督圖拉普拉斯矩陣Lsemi,首先使用所有數(shù)據(jù)建立近鄰圖Gsemi,圖Gsemi的權(quán)重矩陣Ssemi定義為:
(8)
式中:dist為每對樣本的距離矩陣,其定義為:
(9)
(10)
通過拉格朗日乘法求解式(10)的優(yōu)化問題,式(10)轉(zhuǎn)化為:
(11)
式(11)對W求導(dǎo),可得:
(12)
式(12)說明W為R=M+(2/p)λD的特征向量,“∧”為特征值。目標(biāo)問題是最小化式(1)的問題,即選擇特征值最小的特征向量來最小化目標(biāo)函數(shù)。
算法1是計算l2-p范數(shù)的迭代搜索求解算法,其中,第5行迭代地求解了l2,p范數(shù)的最小化問題。
算法1l2-p范數(shù)的迭代搜索求解算法
輸入:訓(xùn)練數(shù)據(jù)X∈Rd×n,標(biāo)記訓(xùn)練數(shù)據(jù)X∈Rd×l,標(biāo)記訓(xùn)練數(shù)據(jù)的標(biāo)記向量Y∈Rl,泛化參數(shù)λ。
輸出:選擇的特征。
//式(3)
//式(5)
3. 計算半監(jiān)督散布矩陣M1和M2;
//式(2)和式(7)
4. 初始化:t=0,Wt∈Rd;
//隨機(jī)初始化Wt
5. while未達(dá)到收斂條件do
計算對角矩陣:
Rt=M+(2/p)λDt;
更新Wt+1=r1;
//r1為Rt的特征向量
t=t+1;
end while
計算無監(jiān)督圖拉普拉斯矩陣的復(fù)雜度和半監(jiān)督拉普拉斯矩陣的復(fù)雜度均為O(n2),Rt特征分解的復(fù)雜度為O(d3),特征排序的復(fù)雜度為O(dlogd)。因此特征選擇的總體復(fù)雜度為O(n2)+O(d3)+O(dlogd)。
考慮一個單層前饋神經(jīng)網(wǎng)絡(luò)的ELM模型:
(13)
式中:gi(·)對應(yīng)第i個隱層單元的激活函數(shù)G(ai,bi,x);x∈Rd,βi∈Rm,d為輸入層節(jié)點的數(shù)量,m為輸出層節(jié)點的數(shù)量;L為隱層節(jié)點的數(shù)量;ai為輸入層和隱層的連接權(quán)重;bi為輸入層偏差向量;βi為隱層和輸出層的連接權(quán)重。gi定義為:
gi=G(ai,bi,x)=g(ai·x+bi)
(14)
式中:ai∈Rd,bi∈R。采用徑向基激活函數(shù)(Radical Basis Function,RBF),其計算式為:
(15)
式中:ai∈Rd,bi∈R。假設(shè)共有N個實例(xi,ti)∈Rd×m,網(wǎng)絡(luò)的輸出oj定義為:
(16)
式中:j=1,2,…,N。
(17)
式中:j=1,2,…,N。式(17)的廣義形式為:
Hβ=T
(18)
(19)
(20)
(21)
式(18)中:H為隱層輸出的矩陣,H的第i列對應(yīng)第i個單元的輸出;x1,x2,…,xN為輸入。h(x)=G(a1,b1,x),G(a2,b2,x),…,G(aL,bL,x)為隱層的特征映射函數(shù)。
本文將隱層單元的數(shù)量設(shè)為隨機(jī)數(shù),所以通過最小二乘解直接估計權(quán)重向量βi,訓(xùn)練ELM網(wǎng)絡(luò)的目標(biāo)等價于尋找線性系統(tǒng)Hβ=T的最小二乘解βms:
(22)
一般情況的隱層單元數(shù)量遠(yuǎn)小于數(shù)據(jù)量,即L< βms=H?T (23) 式中:H?表示H的Moore-Penrose廣義逆矩陣。 在線ELM通過式(23)計算矩陣βms,Moore-Penrose廣義逆矩陣的計算式為: H?=(HTH)-1HT (24) 將式(24)代入式(23),矩陣βms變?yōu)椋?/p> βms=(HTH)-1HTT (25) (26) (27) (28) 其中:Tk+1和Hk+1定義為: (29) (30) 在線ELM的學(xué)習(xí)程序總結(jié)為以下5個步驟: ① 初始化階段。估計時間k的初始化矩陣βk,通過計算協(xié)方差直接估計Rk。 ④ 在網(wǎng)絡(luò)中傳播狀態(tài)βk和誤差協(xié)方差矩陣。 ⑤ 校準(zhǔn)網(wǎng)絡(luò)的狀態(tài)βk和誤差協(xié)方差矩陣。 實驗環(huán)境為PC機(jī),Windows 10操作系統(tǒng),Intel Core i5處理器,主頻為3.10 GHz,內(nèi)存為8 GB。編程環(huán)境為MATLAB R2014b。 選擇6個公開的多元時間序列數(shù)據(jù)集作為本文的benchmark數(shù)據(jù)集,如表1所示。將SinC之外的5個數(shù)據(jù)集屬性值均歸一化為[0,1]區(qū)間,SinC數(shù)據(jù)集的屬性值歸一化為[-1,1]區(qū)間。按照50%、25%和25%的比例將每個數(shù)據(jù)集分別劃分為訓(xùn)練集、驗證集和測試集。 表1 數(shù)據(jù)集的基本屬性信息 網(wǎng)絡(luò)的訓(xùn)練程序和測試程序均采用根均方誤差(RMSE)作為評價指標(biāo),其計算式為: (31) 每組參數(shù)的實驗重復(fù)若干次,使實驗結(jié)果的置信度達(dá)到α=0.05。實驗將本文算法的參數(shù)t設(shè)為0.1,μ設(shè)為1(兩個散布矩陣重要性相同),參數(shù)p設(shè)為0.5?;€學(xué)習(xí)機(jī)隱層節(jié)點數(shù)量等于數(shù)據(jù)集的維度。 采用3個維度較高的時間序列數(shù)據(jù)集Lorentz、Mackey-Glass和Rossler數(shù)據(jù)集驗證本文特征選擇算法的降維效果,選擇幾個支持時間序列特征選擇的算法作為對比方法。對比方法分別為:MODIS[9]、TSD[10]、RHFE[11]、CFAP[12]和FBDST[13]。其中:MODIS采用隨機(jī)森林估計每個特征的重要性得分,再利用Jeffries-Matusita距離度量每個時間序列的類分離性;TSD通過時間序列的特征判別能力將選擇判別能力強的特征子集;RHFE是一種基于直方圖統(tǒng)計的時間序列特征選擇算法;CFAP是一種支持海量數(shù)據(jù)的時間序列特征選擇算法;FBDST是一種基于標(biāo)記符號檢測的時間序列特征選擇算法。 采用4個分類指標(biāo)評價特征選擇的效果,包括:預(yù)測活動值R2、RMSE、平均絕對誤差(Mean Absolute Error,MAE)和一致性相關(guān)系數(shù)(Concordance Correlation Coefficient,CCC)。 R2的計算式為: (32) MAE的計算式為: (33) 式中:n為測試集的樣本數(shù)量。 CCC的計算式為: (34) R2和CCC的值越大說明時間序列預(yù)測算法的性能越好,MAE和RMSE的值越小說明性能越好。 圖2所示為時間序列特征選擇算法提取的特征數(shù)量。可以看出本文算法對于3個時間序列提取的特征數(shù)量均低于其他對比算法。因此,本文基于圖拉普拉斯的特征選擇算法具有較好的降維效果。圖3所示為不同算法對3個時間序列的分類準(zhǔn)確率結(jié)果??梢钥闯觯疚乃惴ǖ腗AE和RMSE值均低于其他5個對比算法,而R2和CCC值均高于其他5個對比算法,說明本文算法的分類性能優(yōu)于其他5個特征選擇算法。綜合特征選擇的實驗結(jié)果可得出結(jié)論:本文算法對時間序列實現(xiàn)了較好的降維效果,并且有助于后續(xù)的分類處理和預(yù)測處理。 圖2 時間序列特征選擇算法提取的特征數(shù)量 (a) R2指標(biāo) 采用表1的6個時間序列數(shù)據(jù)集驗證本文時間序列預(yù)測算法的預(yù)測效果,選擇5個預(yù)測性能優(yōu)秀的算法作為比較方法,分別為:FS-ELM[9]、OS-ELM[10]、MC-ELM[11]、FDS-ELM[12]和MMA-SLA[13]。FS-ELM將隨機(jī)森林和極限學(xué)習(xí)機(jī)結(jié)合。OS-ELM通過選擇判別能力強的特征,提高極限學(xué)習(xí)機(jī)的效率和泛化性能。MC-ELM引入直方圖建模時間序列的走勢,對噪聲具有較強的魯棒性。FDS-ELM也是一種將特征選擇和極限學(xué)習(xí)機(jī)結(jié)合的算法,增強了極限學(xué)習(xí)機(jī)的效率和泛化性能。對比方法的模型采用對應(yīng)文獻(xiàn)內(nèi)推薦的參數(shù)。 MMA-SLA對單層前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行了進(jìn)一步的簡化處理,其實驗結(jié)果表明該網(wǎng)絡(luò)對時間序列的預(yù)測效果優(yōu)于許多經(jīng)典的網(wǎng)絡(luò)模型。 為了觀察激活函數(shù)對極限學(xué)習(xí)機(jī)預(yù)測性能的影響,實驗中極限學(xué)習(xí)機(jī)和MMA-SLA分別在RBF和Sigmod兩種激活函數(shù)的網(wǎng)絡(luò)模型下完成了預(yù)測實驗。圖4所示為時間序列預(yù)測實驗的結(jié)果,本文算法對Istanbul、Lorentz、Mackey-Glass、Rossler和Wine共5種數(shù)據(jù)集的平均預(yù)測誤差均明顯低于其他5種算法,并且兩種激活函數(shù)獲得了相同的結(jié)論。本文算法對于SinC數(shù)據(jù)集的平均預(yù)測誤差和FS-ELM、OS-ELM、FDS-ELM較為接近,SinC數(shù)據(jù)集的維度較低(僅為2),本文算法的特征選擇程序未能發(fā)揮作用。 (a) RBF激活函數(shù) 為了提高多元時間序列預(yù)測算法的預(yù)測準(zhǔn)確率,提出基于圖拉普拉斯變換和極限學(xué)習(xí)機(jī)的時間序列預(yù)測算法。將標(biāo)記觀察樣本和無標(biāo)記觀察樣本分別構(gòu)建圖拉普拉斯的散布矩陣,再利用圖拉普拉斯相關(guān)理論提取時間序列的特征子集。設(shè)計了新的時間序列在線極限學(xué)習(xí)機(jī),在線學(xué)習(xí)程序通過最小二乘法遞歸地逼近問題最優(yōu)解,從而更新網(wǎng)絡(luò)的輸出權(quán)重。 本文的特征選擇程序和后續(xù)的極限學(xué)習(xí)機(jī)程序是兩個分離的模塊,未來將研究把特征提取的迭代程序和極限學(xué)習(xí)機(jī)的迭代程序融合,從而提高總體的學(xué)習(xí)速度并降低迭代的次數(shù)。3 在線ELM的學(xué)習(xí)算法
4 實 驗
4.1 實驗方法和參數(shù)設(shè)置
4.2 多元時間序列的特征選擇實驗
4.3 時間序列的預(yù)測性能實驗
5 結(jié) 語