朱海浩,祝永新,汪 輝
(1.中國科學(xué)院上海高等研究院,上海 201210;2.中國科學(xué)院大學(xué),北京 100049;3.上??萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院,上海 201210)
多變量時間序列(Multivariate Time Series,MTS)指的是在同一時間內(nèi),多個變量有序地記錄觀測數(shù)據(jù)[1]。它是一種復(fù)雜的結(jié)構(gòu)化對象,MTS通常由傳感器獲取,其多個變量之間存在相關(guān)性,具有高維性和可變性等特點(diǎn)[2]。在各個領(lǐng)域中,更是得到了廣泛的應(yīng)用,如語音識別、監(jiān)控視頻、氣象信息的獲取、醫(yī)療技術(shù)和金融技術(shù)等。對于多變量時間序列的分類,一直都是時間序列分析相關(guān)領(lǐng)域重點(diǎn)研究項目和熱點(diǎn)問題之一。
文獻(xiàn)[3]提出基于BP和樸素貝葉斯的時間序列分類模型,采用BP神經(jīng)網(wǎng)絡(luò)非線性映射能力,結(jié)合樸素貝葉斯分類器,標(biāo)記數(shù)據(jù)分類能力,在樸素貝葉斯分類器中,設(shè)定BP神經(jīng)網(wǎng)絡(luò)作為輸入特征,實現(xiàn)時間序列分類,該方法具有較高的分類準(zhǔn)確度,但分類時間較長。文獻(xiàn)[4]提出基于shapelet的時間序列分類方法,通過分析優(yōu)化現(xiàn)有時間序列shapelet發(fā)現(xiàn)算法,將其劃分為兩類,分別為空間搜索發(fā)現(xiàn)shapelet和目標(biāo)函數(shù)優(yōu)化學(xué)習(xí)shapelet并進(jìn)行應(yīng)用,采用shapelet的一元時間序列和多元時間序列分類算法,實現(xiàn)時間序列分類,該方法的分類時間較短,但存在分類精度較低的問題。
針對上述問題,提出了基于深度置信網(wǎng)絡(luò)的多變量時間序列分類方法。利用深度置信網(wǎng)絡(luò),基于受限玻爾茲曼機(jī),提取特征信息,減少參數(shù)尋優(yōu)空間范圍,采用Isomap算法,附加約束構(gòu)造半正定矩陣,實現(xiàn)降維處理,提高泛化能力,利用支持向量機(jī)實現(xiàn)對多變量時間序列的分類。提出方法具有較好的分類性能和泛化性能,能夠有效降低分類時間。
深度置信網(wǎng)絡(luò)由一層BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)和若干層受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)棧式疊加構(gòu)成,在時間序列分類領(lǐng)域應(yīng)用非常廣泛。
DBN的學(xué)習(xí)主要通過兩個過程來實現(xiàn):預(yù)訓(xùn)練和微調(diào)[5-6]。通過這兩個過程的無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)后,可使模型達(dá)到理想的狀態(tài),并且在數(shù)據(jù)不足的情況下仍然可以表現(xiàn)出很好的效果。與此同時,這種訓(xùn)練方法可以在一定程度上減少參數(shù)尋優(yōu)的空間范圍,由此減少有監(jiān)督的訓(xùn)練時間。DBN模型結(jié)構(gòu)如圖1所示。
圖1 DBN模型結(jié)構(gòu)
受限玻爾茲曼機(jī)主要由隱藏單元和可見單元兩層神經(jīng)網(wǎng)絡(luò)構(gòu)成,連接單元與單元之間的線段為權(quán)值[7],RBM模型結(jié)構(gòu)如圖2所示。
圖2 RBM模型結(jié)構(gòu)
從圖2中可知,可見單元與可見變量v相互對應(yīng),隱藏單元與隱藏變量h相對應(yīng)[8]。RBM是在能量函數(shù)的基礎(chǔ)上延伸而來的。假設(shè)已知一組狀態(tài)為(v,h),那么可見單元與隱藏單元之間的能量函數(shù)為
(1)
其中,θ=(w,a,b)表示模型參數(shù),ae、ve分別表示第e個可見單元的偏置信息和狀態(tài)信息;bq、hq分別表示第q個隱藏單元的偏置信息和狀態(tài)信息;weq表示連接兩個單元e、q之間的權(quán)值大小。在式(1)的基礎(chǔ)上,計算(v,h)的狀態(tài)概率如式(2)所示
(2)
(3)
(4)
給定一個訓(xùn)練樣本集S=(v1,v2,…,vs),將其容量大小設(shè)置為s。計算RBM模型的對數(shù)似然函數(shù)L(θ),得到模型的參數(shù)θ,接下來進(jìn)行擬合操作,將可見單元與隱藏單元的特征信息擬合在一起,則有
(5)
將RBM模型進(jìn)行訓(xùn)練,對L(θ)與θ進(jìn)行對比散度計算。以weq為例,如式(6)所示
(6)
式中:(vehq)data表示數(shù)據(jù)分布期望值;(vehq)model為模型最初定義的期望值。具體的期望值,可根據(jù)吉布斯采樣算法得到。從理論上說,吉布斯采樣次數(shù)越多,得到的結(jié)果越精準(zhǔn),但是從實際應(yīng)用中發(fā)現(xiàn),只通過一次吉布斯采樣就可得到理想效果[11]。因此,本文通過一次吉布斯采樣結(jié)果作為RBM模型定義的期望值。那么,即可根據(jù)式(7)對權(quán)重參數(shù)weq進(jìn)行更新計算
weq=?weq+η[(vehq)data-(vehq)model]
(7)
式中:?表示動量;η表示學(xué)習(xí)率。
多變量時間序列屬于高維數(shù)據(jù),需要對多變量時間序列進(jìn)行降維處理。采用Isomap算法,結(jié)合深度置信網(wǎng)絡(luò),通過優(yōu)先特征提取操作,不但有效降低噪聲,并且能夠?qū)⒏呔S數(shù)據(jù)特征精準(zhǔn)映射到對應(yīng)空間內(nèi),具有較好的泛化能力和魯棒性。
(8)
(9)
(10)
(11)
(12)
其中,αi為拉格朗日乘子,n(nN)為與αi對應(yīng)且不等于零的訓(xùn)練樣本數(shù),b為閾值。αi可通過計算式(13)得到
(13)
其中,γ(γ?0)表示正則化參數(shù),γ的值越大,對經(jīng)驗誤差的懲罰也會相應(yīng)增大。通過求解式(13),可得到αi的值,與αi對應(yīng)且在αi?0的情況下得到的訓(xùn)練樣本被稱為支持向量,數(shù)量為n個。b可通過式(14)計算得到
(14)
再通過高斯核函數(shù)計算,可得
(15)
式中,σ表示核參數(shù)。通過上述步驟,在低維特征空間內(nèi),通過支持向量機(jī)中分線性分類函數(shù),計算得到拉格朗日乘子,憑借正則化參數(shù)特性,通過高斯核函數(shù),計算得到最優(yōu)核函數(shù),完成多變量時間序列分類。
為了驗證基于深度置信網(wǎng)絡(luò)的多變量時間序列分類方法的有效性,仿真在Windows7系統(tǒng)上完成,利用eviews5.0軟件工具,采用MATLAB7.6搭建實驗平臺,并分別采用文獻(xiàn)[3]方法、文獻(xiàn)[4]方法與所提方法進(jìn)行對比,驗證所提方法的有效性。
實驗數(shù)據(jù)集選用三組分別為ASL(Australian Sign Language)、JV(Japanese Vowels)和Wafer。根據(jù)三組數(shù)據(jù)集的序列長度,將其分為兩類:ASL和Wafer序列長度較長,可以表達(dá)出一個完整的MTS,而JV序列長度較短,可以準(zhǔn)確表達(dá)出狀態(tài)點(diǎn)的MTS。接下來具體介紹三組數(shù)據(jù)集分別為:
ASL數(shù)據(jù)集:通過多個傳感器獲取到澳大利亞本地手語者不同語意的序列集合,一種手語者所表達(dá)的一種語意用一個MTS表示,實驗中選擇了270個樣本作為數(shù)據(jù)集。
JV數(shù)據(jù)集:通過采集9名志愿者產(chǎn)生的12個LPC(Linear Predictive Coding,線性預(yù)測編碼)同態(tài)譜數(shù)據(jù)描述的日本元音發(fā)音,每次發(fā)音記為一個MTS。每名志愿者發(fā)音次數(shù)均不同,采集到640個實驗樣本。
Wafer數(shù)據(jù)集:由6個傳感器在硅晶體生產(chǎn)過程中采集到的半導(dǎo)體微電子序列,每個硅晶體用一個MTS來表示,并將其分為normal和abnormal兩類。實驗中選取的樣本總數(shù)為327個。設(shè)置的實驗數(shù)據(jù)如表1所示。
表1 實驗數(shù)據(jù)
為了對比分析三種方法對于不同數(shù)據(jù)集的分類處理能力,首先需要對數(shù)據(jù)集進(jìn)行統(tǒng)計檢驗。本文使用Friedman檢驗驗證作為顯著性水平標(biāo)準(zhǔn)值,通過泛化誤差來驗證方法的分類性能。
Friedman檢驗可通過秩對若干個分布的總體是否存在顯著差異進(jìn)行非參數(shù)檢測。在零假設(shè)的環(huán)境下,如果方法的泛化誤差小于Friedman檢驗統(tǒng)計量,則方法之間不存在明顯的差異性,均為等價關(guān)系,分類性能均為相同;如果方法的泛化誤差大于Friedman檢驗統(tǒng)計量,就可以拒絕原假設(shè),認(rèn)為方法分類性能存在明顯的差異性,并且泛化誤差越小,表明方法的分類期望風(fēng)險越小,同時分類集內(nèi)個體的特征越明顯,其分類值越靠近真實值,分類精度越高。
Friedman檢驗統(tǒng)計量CD計算公式如式(16)所示
(16)
其中,g表示實驗中算法的個數(shù),A表示實驗中數(shù)據(jù)集的個數(shù),α表示算法的顯著性水平,dα則表示臨界差異。
顯著性水平可體現(xiàn)多個分類器之間的性能差異,由于影響分類結(jié)果的因素有很多,顯著性水平可在進(jìn)行假設(shè)檢驗時,先確定好一個作為評判標(biāo)準(zhǔn)的小概率標(biāo)準(zhǔn),通常為0.05,此時臨界差異dα值如表2所示。
表2 顯著性水平為0.05時dα的值
由表2可知,當(dāng)顯著性水平為0.05時,dα的5種分類器均值為2.3338,結(jié)合式(18)可得到標(biāo)準(zhǔn)Friedman檢驗統(tǒng)計量CD值為1.9051,其中g(shù)=3,A=3。泛化誤差計算公式
(17)
根據(jù)泛化誤差計算公式,得到不同方法的泛化誤差對比結(jié)果如表3所示。
表3 不同方法的泛化誤差對比結(jié)果
從表3中的數(shù)據(jù)可知,文獻(xiàn)[3]方法、文獻(xiàn)[4]方法和提出方法的泛化誤差均值分別為1.9797、2.0293和1.9087,由此可知,三種方法的泛化誤差均值均大于標(biāo)準(zhǔn)Friedman檢驗統(tǒng)計量,因此,三種方法的分類性能存在明顯差異性。并且通過對比三種方法的泛化誤差均值可以得出:2.0293文獻(xiàn)[4]方法>1.9797(文獻(xiàn)[3]方法)>1.9087(提出方法),提出方法的泛化誤差較小,在保持分類集內(nèi)個體特征顯著性的基礎(chǔ)上,具有較小的分類期望風(fēng)險,能夠有效提高分類精度,因為提出方法采用Isomap算法,在深度置信網(wǎng)絡(luò)內(nèi)進(jìn)行優(yōu)先特征提取操作,不但有效降低噪聲,并且能夠?qū)⒏呔S數(shù)據(jù)特征精準(zhǔn)映射到對應(yīng)空間內(nèi),具有較好的泛化能力,從而提高了多變量時間序列分類精度。
在此基礎(chǔ)上,進(jìn)一步驗證提出方法的分類時間,分別采用文獻(xiàn)[3]方法、文獻(xiàn)[4]方法與所提方法進(jìn)行對比,得到不同方法的多變量時間序列分類時間對比結(jié)果如圖3所示。
圖3 不同方法的多變量時間序列分類時間對比結(jié)果
根據(jù)圖3可知,隨著數(shù)據(jù)集樣本總數(shù)的增加,不同方法的多變量時間序列分類時間均隨之增大。當(dāng)JV數(shù)據(jù)集樣本總數(shù)為640個時,文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的多變量時間序列分類時間分別為20s和16s,而提出方法的多變量時間序列分類時間為11s。由此可知,提出方法的多變量時間序列分類時間較短,因為提出方法構(gòu)建深度置信網(wǎng)絡(luò)模型結(jié)構(gòu),在一定程度上減少參數(shù)尋優(yōu)的空間范圍,由此降低監(jiān)督訓(xùn)練時間,從而縮短多變量時間序列分類時間。
針對當(dāng)前多變量時間序列分類問題,提出基于深度置信網(wǎng)絡(luò)的多變量時間序列分類方法,在基于深度置信網(wǎng)絡(luò)的基礎(chǔ)上,對于高維數(shù)據(jù),采用Isomap算法進(jìn)行降維處理,通過支持向量機(jī)實現(xiàn)對多變量時間序列的分類。該方法在保持分類集內(nèi)個體特征顯著性的基礎(chǔ)上,具有較小的泛化誤差,能夠有效提高分類精度,縮短多變量時間序列分類時間。