亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于深度置信網(wǎng)絡(luò)的多變量時間序列分類方法

2022-01-22 02:16:44朱海浩祝永新

計算機(jī)仿真 2021年12期

朱海浩，祝永新，汪輝

(1.中國科學(xué)院上海高等研究院，上海 201210；2.中國科學(xué)院大學(xué)，北京 100049；3.上?？萍即髮W(xué)信息科學(xué)與技術(shù)學(xué)院，上海 201210)

1 引言

多變量時間序列(Multivariate Time Series，MTS)指的是在同一時間內(nèi)，多個變量有序地記錄觀測數(shù)據(jù)[1]。它是一種復(fù)雜的結(jié)構(gòu)化對象，MTS通常由傳感器獲取，其多個變量之間存在相關(guān)性，具有高維性和可變性等特點(diǎn)[2]。在各個領(lǐng)域中，更是得到了廣泛的應(yīng)用，如語音識別、監(jiān)控視頻、氣象信息的獲取、醫(yī)療技術(shù)和金融技術(shù)等。對于多變量時間序列的分類，一直都是時間序列分析相關(guān)領(lǐng)域重點(diǎn)研究項目和熱點(diǎn)問題之一。

文獻(xiàn)[3]提出基于BP和樸素貝葉斯的時間序列分類模型，采用BP神經(jīng)網(wǎng)絡(luò)非線性映射能力，結(jié)合樸素貝葉斯分類器，標(biāo)記數(shù)據(jù)分類能力，在樸素貝葉斯分類器中，設(shè)定BP神經(jīng)網(wǎng)絡(luò)作為輸入特征，實現(xiàn)時間序列分類，該方法具有較高的分類準(zhǔn)確度，但分類時間較長。文獻(xiàn)[4]提出基于shapelet的時間序列分類方法，通過分析優(yōu)化現(xiàn)有時間序列shapelet發(fā)現(xiàn)算法，將其劃分為兩類，分別為空間搜索發(fā)現(xiàn)shapelet和目標(biāo)函數(shù)優(yōu)化學(xué)習(xí)shapelet并進(jìn)行應(yīng)用，采用shapelet的一元時間序列和多元時間序列分類算法，實現(xiàn)時間序列分類，該方法的分類時間較短，但存在分類精度較低的問題。

針對上述問題，提出了基于深度置信網(wǎng)絡(luò)的多變量時間序列分類方法。利用深度置信網(wǎng)絡(luò)，基于受限玻爾茲曼機(jī)，提取特征信息，減少參數(shù)尋優(yōu)空間范圍，采用Isomap算法，附加約束構(gòu)造半正定矩陣，實現(xiàn)降維處理，提高泛化能力，利用支持向量機(jī)實現(xiàn)對多變量時間序列的分類。提出方法具有較好的分類性能和泛化性能，能夠有效降低分類時間。

2 深度置信網(wǎng)絡(luò)構(gòu)建

深度置信網(wǎng)絡(luò)由一層BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)和若干層受限玻爾茲曼機(jī)(Restricted Boltzmann Machine，RBM)棧式疊加構(gòu)成，在時間序列分類領(lǐng)域應(yīng)用非常廣泛。

2.1 深度置信網(wǎng)絡(luò)結(jié)構(gòu)

DBN的學(xué)習(xí)主要通過兩個過程來實現(xiàn)：預(yù)訓(xùn)練和微調(diào)[5-6]。通過這兩個過程的無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)后，可使模型達(dá)到理想的狀態(tài)，并且在數(shù)據(jù)不足的情況下仍然可以表現(xiàn)出很好的效果。與此同時，這種訓(xùn)練方法可以在一定程度上減少參數(shù)尋優(yōu)的空間范圍，由此減少有監(jiān)督的訓(xùn)練時間。DBN模型結(jié)構(gòu)如圖1所示。

圖1 DBN模型結(jié)構(gòu)

2.2 受限玻爾茲曼機(jī)下特征信息提取

受限玻爾茲曼機(jī)主要由隱藏單元和可見單元兩層神經(jīng)網(wǎng)絡(luò)構(gòu)成，連接單元與單元之間的線段為權(quán)值[7]，RBM模型結(jié)構(gòu)如圖2所示。

圖2 RBM模型結(jié)構(gòu)

從圖2中可知，可見單元與可見變量v相互對應(yīng)，隱藏單元與隱藏變量h相對應(yīng)[8]。RBM是在能量函數(shù)的基礎(chǔ)上延伸而來的。假設(shè)已知一組狀態(tài)為(v，h)，那么可見單元與隱藏單元之間的能量函數(shù)為

(1)

其中，θ=(w，a，b)表示模型參數(shù)，ae、ve分別表示第e個可見單元的偏置信息和狀態(tài)信息；bq、hq分別表示第q個隱藏單元的偏置信息和狀態(tài)信息；weq表示連接兩個單元e、q之間的權(quán)值大小。在式(1)的基礎(chǔ)上，計算(v，h)的狀態(tài)概率如式(2)所示

(2)

(3)

(4)

給定一個訓(xùn)練樣本集S=(v1，v2，…，vs)，將其容量大小設(shè)置為s。計算RBM模型的對數(shù)似然函數(shù)L(θ)，得到模型的參數(shù)θ，接下來進(jìn)行擬合操作，將可見單元與隱藏單元的特征信息擬合在一起，則有

(5)

將RBM模型進(jìn)行訓(xùn)練，對L(θ)與θ進(jìn)行對比散度計算。以weq為例，如式(6)所示

(6)

式中：(vehq)data表示數(shù)據(jù)分布期望值；(vehq)model為模型最初定義的期望值。具體的期望值，可根據(jù)吉布斯采樣算法得到。從理論上說，吉布斯采樣次數(shù)越多，得到的結(jié)果越精準(zhǔn)，但是從實際應(yīng)用中發(fā)現(xiàn)，只通過一次吉布斯采樣就可得到理想效果[11]。因此，本文通過一次吉布斯采樣結(jié)果作為RBM模型定義的期望值。那么，即可根據(jù)式(7)對權(quán)重參數(shù)weq進(jìn)行更新計算

weq=?weq+η[(vehq)data-(vehq)model]

(7)

式中：?表示動量；η表示學(xué)習(xí)率。

3 多變量時間序列降維處理

多變量時間序列屬于高維數(shù)據(jù)，需要對多變量時間序列進(jìn)行降維處理。采用Isomap算法，結(jié)合深度置信網(wǎng)絡(luò)，通過優(yōu)先特征提取操作，不但有效降低噪聲，并且能夠?qū)⒏呔S數(shù)據(jù)特征精準(zhǔn)映射到對應(yīng)空間內(nèi)，具有較好的泛化能力和魯棒性。

3.1 降維計算

(8)

(9)

3.2 算法泛化特征分析

(10)

(11)

4 低維空間上多變量時間序列分類

(12)

其中，αi為拉格朗日乘子，n(nN)為與αi對應(yīng)且不等于零的訓(xùn)練樣本數(shù)，b為閾值。αi可通過計算式(13)得到

(13)

其中，γ(γ?0)表示正則化參數(shù)，γ的值越大，對經(jīng)驗誤差的懲罰也會相應(yīng)增大。通過求解式(13)，可得到αi的值，與αi對應(yīng)且在αi?0的情況下得到的訓(xùn)練樣本被稱為支持向量，數(shù)量為n個。b可通過式(14)計算得到

(14)

再通過高斯核函數(shù)計算，可得

(15)

式中，σ表示核參數(shù)。通過上述步驟，在低維特征空間內(nèi)，通過支持向量機(jī)中分線性分類函數(shù)，計算得到拉格朗日乘子，憑借正則化參數(shù)特性，通過高斯核函數(shù)，計算得到最優(yōu)核函數(shù)，完成多變量時間序列分類。

5 仿真研究

為了驗證基于深度置信網(wǎng)絡(luò)的多變量時間序列分類方法的有效性，仿真在Windows7系統(tǒng)上完成，利用eviews5.0軟件工具，采用MATLAB7.6搭建實驗平臺，并分別采用文獻(xiàn)[3]方法、文獻(xiàn)[4]方法與所提方法進(jìn)行對比，驗證所提方法的有效性。

5.1 實驗數(shù)據(jù)

實驗數(shù)據(jù)集選用三組分別為ASL(Australian Sign Language)、JV(Japanese Vowels)和Wafer。根據(jù)三組數(shù)據(jù)集的序列長度，將其分為兩類：ASL和Wafer序列長度較長，可以表達(dá)出一個完整的MTS，而JV序列長度較短，可以準(zhǔn)確表達(dá)出狀態(tài)點(diǎn)的MTS。接下來具體介紹三組數(shù)據(jù)集分別為：

ASL數(shù)據(jù)集：通過多個傳感器獲取到澳大利亞本地手語者不同語意的序列集合，一種手語者所表達(dá)的一種語意用一個MTS表示，實驗中選擇了270個樣本作為數(shù)據(jù)集。

JV數(shù)據(jù)集：通過采集9名志愿者產(chǎn)生的12個LPC(Linear Predictive Coding，線性預(yù)測編碼)同態(tài)譜數(shù)據(jù)描述的日本元音發(fā)音，每次發(fā)音記為一個MTS。每名志愿者發(fā)音次數(shù)均不同，采集到640個實驗樣本。

Wafer數(shù)據(jù)集：由6個傳感器在硅晶體生產(chǎn)過程中采集到的半導(dǎo)體微電子序列，每個硅晶體用一個MTS來表示，并將其分為normal和abnormal兩類。實驗中選取的樣本總數(shù)為327個。設(shè)置的實驗數(shù)據(jù)如表1所示。

表1 實驗數(shù)據(jù)

5.2 實驗內(nèi)容

為了對比分析三種方法對于不同數(shù)據(jù)集的分類處理能力，首先需要對數(shù)據(jù)集進(jìn)行統(tǒng)計檢驗。本文使用Friedman檢驗驗證作為顯著性水平標(biāo)準(zhǔn)值，通過泛化誤差來驗證方法的分類性能。

Friedman檢驗可通過秩對若干個分布的總體是否存在顯著差異進(jìn)行非參數(shù)檢測。在零假設(shè)的環(huán)境下，如果方法的泛化誤差小于Friedman檢驗統(tǒng)計量，則方法之間不存在明顯的差異性，均為等價關(guān)系，分類性能均為相同；如果方法的泛化誤差大于Friedman檢驗統(tǒng)計量，就可以拒絕原假設(shè)，認(rèn)為方法分類性能存在明顯的差異性，并且泛化誤差越小，表明方法的分類期望風(fēng)險越小，同時分類集內(nèi)個體的特征越明顯，其分類值越靠近真實值，分類精度越高。

Friedman檢驗統(tǒng)計量CD計算公式如式(16)所示

(16)

其中，g表示實驗中算法的個數(shù)，A表示實驗中數(shù)據(jù)集的個數(shù)，α表示算法的顯著性水平，dα則表示臨界差異。

顯著性水平可體現(xiàn)多個分類器之間的性能差異，由于影響分類結(jié)果的因素有很多，顯著性水平可在進(jìn)行假設(shè)檢驗時，先確定好一個作為評判標(biāo)準(zhǔn)的小概率標(biāo)準(zhǔn)，通常為0.05，此時臨界差異dα值如表2所示。

表2 顯著性水平為0.05時dα的值

由表2可知，當(dāng)顯著性水平為0.05時，dα的5種分類器均值為2.3338，結(jié)合式(18)可得到標(biāo)準(zhǔn)Friedman檢驗統(tǒng)計量CD值為1.9051，其中g(shù)=3，A=3。泛化誤差計算公式

(17)

根據(jù)泛化誤差計算公式，得到不同方法的泛化誤差對比結(jié)果如表3所示。

表3 不同方法的泛化誤差對比結(jié)果

從表3中的數(shù)據(jù)可知，文獻(xiàn)[3]方法、文獻(xiàn)[4]方法和提出方法的泛化誤差均值分別為1.9797、2.0293和1.9087，由此可知，三種方法的泛化誤差均值均大于標(biāo)準(zhǔn)Friedman檢驗統(tǒng)計量，因此，三種方法的分類性能存在明顯差異性。并且通過對比三種方法的泛化誤差均值可以得出：2.0293文獻(xiàn)[4]方法>1.9797(文獻(xiàn)[3]方法)>1.9087(提出方法)，提出方法的泛化誤差較小，在保持分類集內(nèi)個體特征顯著性的基礎(chǔ)上，具有較小的分類期望風(fēng)險，能夠有效提高分類精度，因為提出方法采用Isomap算法，在深度置信網(wǎng)絡(luò)內(nèi)進(jìn)行優(yōu)先特征提取操作，不但有效降低噪聲，并且能夠?qū)⒏呔S數(shù)據(jù)特征精準(zhǔn)映射到對應(yīng)空間內(nèi)，具有較好的泛化能力，從而提高了多變量時間序列分類精度。

在此基礎(chǔ)上，進(jìn)一步驗證提出方法的分類時間，分別采用文獻(xiàn)[3]方法、文獻(xiàn)[4]方法與所提方法進(jìn)行對比，得到不同方法的多變量時間序列分類時間對比結(jié)果如圖3所示。

圖3 不同方法的多變量時間序列分類時間對比結(jié)果

根據(jù)圖3可知，隨著數(shù)據(jù)集樣本總數(shù)的增加，不同方法的多變量時間序列分類時間均隨之增大。當(dāng)JV數(shù)據(jù)集樣本總數(shù)為640個時，文獻(xiàn)[3]方法和文獻(xiàn)[4]方法的多變量時間序列分類時間分別為20s和16s，而提出方法的多變量時間序列分類時間為11s。由此可知，提出方法的多變量時間序列分類時間較短，因為提出方法構(gòu)建深度置信網(wǎng)絡(luò)模型結(jié)構(gòu)，在一定程度上減少參數(shù)尋優(yōu)的空間范圍，由此降低監(jiān)督訓(xùn)練時間，從而縮短多變量時間序列分類時間。

6 結(jié)論

針對當(dāng)前多變量時間序列分類問題，提出基于深度置信網(wǎng)絡(luò)的多變量時間序列分類方法，在基于深度置信網(wǎng)絡(luò)的基礎(chǔ)上，對于高維數(shù)據(jù)，采用Isomap算法進(jìn)行降維處理，通過支持向量機(jī)實現(xiàn)對多變量時間序列的分類。該方法在保持分類集內(nèi)個體特征顯著性的基礎(chǔ)上，具有較小的泛化誤差，能夠有效提高分類精度，縮短多變量時間序列分類時間。