周曉園,余旌胡
(武漢理工大學(xué) 理學(xué)院,湖北 武漢 430070)
?
基于平穩(wěn)子空間分析和相對(duì)熵的分類算法
周曉園,余旌胡
(武漢理工大學(xué) 理學(xué)院,湖北 武漢 430070)
針對(duì)多維時(shí)間序列維數(shù)多、變量間關(guān)系復(fù)雜的特點(diǎn),提出了一種基于平穩(wěn)子空間分析和相對(duì)熵的分類算法。首先,利用平穩(wěn)子空間分析法將多維數(shù)據(jù)分離為平穩(wěn)子空間和非平穩(wěn)子空間;其次,利用相對(duì)熵衡量平穩(wěn)子空間的分布相似性;最后,進(jìn)行真實(shí)數(shù)據(jù)集的分類。研究結(jié)果表明:平穩(wěn)子空間分析和相對(duì)熵分類算法優(yōu)于DTW算法和PCA-ED算法。
多維時(shí)間序列;平穩(wěn)子空間分析;相對(duì)熵;分類算法
多維時(shí)間序列在日常生活中普遍存在,其分類研究廣泛應(yīng)用于遙感圖像分類[1]、電腦圖分析[2]和航空機(jī)械設(shè)備的質(zhì)量評(píng)估[3]等領(lǐng)域中。因此,研究多維時(shí)間序列分類具有重大的現(xiàn)實(shí)意義。由于多維時(shí)間序列具有維數(shù)多和變量間關(guān)系復(fù)雜的特點(diǎn),文獻(xiàn)[4]基于動(dòng)態(tài)時(shí)間規(guī)整(dynamic time warping,DTW)的動(dòng)態(tài)算法對(duì)多維時(shí)間序列進(jìn)行了分類。DTW算法的缺點(diǎn)是運(yùn)算量大、耗時(shí)長(zhǎng)且匹配效果對(duì)端點(diǎn)的選擇過于依賴[5]。文獻(xiàn)[6]采用主成分分析(principal component analysis,PCA)對(duì)原始樣本進(jìn)行降維,然后借助歐氏距離(Euclid distance,ED)將測(cè)試樣本歸入與其最近的類別中,減少了冗余信息造成的誤差,提高了分類精度。由于PCA計(jì)算簡(jiǎn)單且能保留原始變量的重要信息,因此被應(yīng)用于人臉識(shí)別[7]和文本特征提取[8]等方面。PCA的缺點(diǎn)是需要很大的存儲(chǔ)空間和計(jì)算復(fù)雜度,且要求有足夠多的樣本點(diǎn)[9]。
針對(duì)DTW算法和PCA-ED算法對(duì)時(shí)間跨度小和樣本數(shù)量少的多維時(shí)間序列分類效果不佳的缺點(diǎn),本文提出一種基于平穩(wěn)子空間分析[10](stationary subspace analysis,SSA)和相對(duì)熵(relative entropy)[11](KL距離)多維時(shí)間序列的分類算法,簡(jiǎn)稱SSA-KL算法。SSA是由Bunau等提出的一種盲源分離方法,可以把多維時(shí)間序列分解為相互獨(dú)立的兩個(gè)部分:平穩(wěn)部分和非平穩(wěn)部分。SSA方法在故障診斷[12-13]等方面獲得了成功的應(yīng)用,而相對(duì)熵作為一種衡量相似度的方法也已被用于行為識(shí)別[14]等方面。
SSA-KL算法主要思想為:利用SSA方法對(duì)訓(xùn)練集和測(cè)試集進(jìn)行降維,在降維后的空間里,采用基于相對(duì)熵的近鄰法對(duì)測(cè)試樣本實(shí)現(xiàn)分類。該算法可描述為:針對(duì)訓(xùn)練樣本利用SSA提取出各類時(shí)間序列的平穩(wěn)子空間和平穩(wěn)子空間的投影算子;針對(duì)測(cè)試樣本把投影算子作用在測(cè)試樣本上得到相應(yīng)類別的投影子空間;再利用相對(duì)熵衡量各類平穩(wěn)子空間的分布與測(cè)試樣本投影子空間分布的近似程度;最后把測(cè)試樣本歸入相對(duì)熵最小的平穩(wěn)子空間中,從而得到該測(cè)試樣本的類別。具體地講,本文采用如下步驟來完成多維時(shí)間序列的分類過程,這里c指類別的個(gè)數(shù)。
步驟Ⅰ:獲得c類多維時(shí)間序列。
步驟Ⅱ:將c類多維時(shí)間序列分為訓(xùn)練集和測(cè)試集。
步驟Ⅲ:利用SSA求解每類訓(xùn)練集平穩(wěn)子空間的投影算子和分布。
(1)
(2)
(3)
(4)
(5)
步驟Ⅳ:針對(duì)每類測(cè)試集中每個(gè)測(cè)試樣本,得到相應(yīng)類別的投影子空間。
(6)
(7)
步驟Ⅴ:將測(cè)試樣本分類。
(8)
根據(jù)分類步驟Ⅰ~Ⅴ,可以計(jì)算出分類正確率e,其計(jì)算公式為:
(9)
為了驗(yàn)證SSA-KL算法對(duì)真實(shí)多維數(shù)據(jù)分類的有效性,分別采用DTW算法、PCA-ED算法和SSA-KL算法對(duì)機(jī)器人執(zhí)行失敗[15](robot execution failures,REF)數(shù)據(jù)集進(jìn)行分類。其實(shí)驗(yàn)環(huán)境為:Windows 7系統(tǒng),CPU 2.20 GHz,內(nèi)存2 GB,算法采用MATLAB 2011a平臺(tái)下的M語言實(shí)現(xiàn)。
REF數(shù)據(jù)集包含對(duì)機(jī)器人的力和力矩的測(cè)量,共有5個(gè)數(shù)據(jù)集:LP1、LP2、LP3、LP4和LP5。每個(gè)數(shù)據(jù)集包含6個(gè)變量,時(shí)間間隔均為15 ms。每個(gè)數(shù)據(jù)集的樣本數(shù)和分類數(shù)如表1所示。在實(shí)驗(yàn)中5個(gè)數(shù)據(jù)集的每類訓(xùn)練樣本和測(cè)試樣本的個(gè)數(shù)如表2所示。
表1 每個(gè)數(shù)據(jù)集的樣本數(shù)和分類數(shù)
注:括號(hào)內(nèi)的數(shù)字為所屬類包含的樣本數(shù)。
表2 5個(gè)數(shù)據(jù)集的每類訓(xùn)練樣本和測(cè)試樣本的個(gè)數(shù)
PCA-ED算法分別提取前5個(gè)、前4個(gè)、前4個(gè)、前4個(gè)和前4個(gè)主成分(所有主成分的貢獻(xiàn)率都大于90%)。而SSA-KL算法對(duì)數(shù)據(jù)集LP1每類提取的平穩(wěn)信源個(gè)數(shù)分別為3個(gè)、4個(gè)、4個(gè)和3個(gè);對(duì)數(shù)據(jù)集LP2每類提取的平穩(wěn)信源個(gè)數(shù)分別為3個(gè)、3個(gè)、3個(gè)、4個(gè)和3個(gè);對(duì)數(shù)據(jù)集LP3每類提取的平穩(wěn)信源個(gè)數(shù)分別為4個(gè)、4個(gè)、4個(gè)和5個(gè);對(duì)數(shù)據(jù)集LP4每類提取的平穩(wěn)信源個(gè)數(shù)分別為3個(gè)、4個(gè)和4個(gè);對(duì)數(shù)據(jù)集LP5每類提取的平穩(wěn)信源個(gè)數(shù)分別為4個(gè)、4個(gè)、4個(gè)、4個(gè)和4個(gè)。這5個(gè)數(shù)據(jù)集的分類正確率如表3所示。
表3 5個(gè)數(shù)據(jù)集的分類正確率 %
從表3中可以看出:SSA-KL算法在數(shù)據(jù)集LP1、LP2、LP3、LP4和LP5的分類正確率最高,PCA-ED算法次之,DTW算法最低,表明SSA-KL算法的分類效果優(yōu)于DTW算法和PCA-ED算法。 可見,SSA-KL算法對(duì)此種時(shí)間跨度小和樣本數(shù)量少的數(shù)據(jù)具有一定的優(yōu)勢(shì)。DTW算法能有效地處理局部時(shí)間位移和時(shí)間跨度較大的多維時(shí)間序列,而本文數(shù)據(jù)集的時(shí)間跨度較小,因此DTW算法對(duì)于本文中的REF數(shù)據(jù)集分類效果不佳。PCA-ED算法是一種基于統(tǒng)計(jì)方法的分類算法,通常要求足夠的樣本點(diǎn)才能有效求得比較準(zhǔn)確的主成分,并且它適應(yīng)于等時(shí)間跨度的大規(guī)模數(shù)據(jù)集,對(duì)小規(guī)模時(shí)間序列的分類效果不佳。而本文的SSA-KL算法的分類效果對(duì)訓(xùn)練樣本個(gè)數(shù)的依賴程度不高,主要取決于對(duì)平穩(wěn)特征的有效提取程度。該算法獲取了每類樣本數(shù)據(jù)的時(shí)間不變量(即平穩(wěn)特征),準(zhǔn)確描述了數(shù)據(jù)內(nèi)部的本質(zhì)結(jié)構(gòu)特征,也降低了原數(shù)據(jù)的維數(shù),減小了冗余信息所造成的誤差,進(jìn)而提高了分類精度。因此,SSA-KL算法對(duì)每類數(shù)據(jù)集的分類正確率都優(yōu)于DTW算法和PCA-ED算法,克服了DTW算法和PCA-ED算法的缺陷。
本文研究了基于平穩(wěn)子空間分析和相對(duì)熵對(duì)多維時(shí)間序列的分類算法。SSA-KL算法利用SSA對(duì)多維時(shí)間序列進(jìn)行降維處理,不僅節(jié)約了數(shù)據(jù)的存儲(chǔ)空間,而且獲取了數(shù)據(jù)中潛在的時(shí)間不變量。相對(duì)熵具有準(zhǔn)確刻畫不同分布之間差異性的優(yōu)點(diǎn),運(yùn)用相對(duì)熵來處理所提取的平穩(wěn)子空間有助于得到更加準(zhǔn)確的分類結(jié)果。針對(duì)時(shí)間跨度小、樣本數(shù)量少的多維時(shí)間序列,SSA-KL算法比DTW算法和PCA-ED算法的分類精度更高。由于SSA方法對(duì)平穩(wěn)信源的個(gè)數(shù)有一定的要求,選取不同的個(gè)數(shù)對(duì)分類精度會(huì)有所改變,本文并沒有作詳細(xì)解釋,以后可以從這個(gè)方面繼續(xù)研究,進(jìn)一步提高SSA-KL算法的分類精度。
[1]胡偉強(qiáng),鹿艷晶.遙感圖像分類方法綜述[J].中小企業(yè)管理與科技(下旬刊),2015(8):231.
[2]PAULVB,MEINECKEFC,SCHOLLERS,etal.FindingstationarybrainsourcesinEEGdata[C]//EngineeringinMedicineandBiologySociety(EMBC),2010AnnualInternationalConferenceoftheIEEE.IEEE,2010:2810-2813.
[3]王曉強(qiáng),張東英,崔鳳奎.航空滾動(dòng)軸承典型缺陷的分類識(shí)別[J].河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,34(6):13-18.
[4]STEPHANS,JAINBJ,LUCAEWD,etal.Patternrecognitioninmultivariatetimeseries:dissertationproposal[C]//Proceedingsofthe4thWorkshoponWorkshopforPh.D.StudentsinInformation&KnowledgeManagement.ACM,2011:34-42.
[5]李正欣,張鳳鳴,李克武.多元時(shí)間序列模式匹配方法研究[J].控制與決策,2011,26(4):565-570.
[6]蘇靜,趙毅強(qiáng),何家冀,等.旁路多維時(shí)間主成分分析的歐式距離硬件木馬檢測(cè)[J].微電子學(xué)與計(jì)算機(jī),2015,32(1):1-4.
[7]倪世貴,白寶鋼.基于PCA的人臉識(shí)別研究[J].現(xiàn)代計(jì)算機(jī)(專業(yè)版),2011(3):44-47.
[8]洪軍建,珠杰.分塊主成分分析在文本特征抽取中的應(yīng)用[J].河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,36(6):30-34.
[9]吳虎勝,張鳳鳴,鐘斌.基于二維奇異值分解的多元時(shí)間序列相似匹配方法[J].電子與信息學(xué)報(bào),2014,36(4):847-854.
[10]PAULVB,FRANKCM,FRANZCK,etal.Findingstationarysubspacesinmultivariatetimeseries[J].Physicalreviewletters,2009,103(21):214101.
[11]田寶玉,楊潔,賀志強(qiáng),等.信息論基礎(chǔ)[M].北京:人民郵電出版社,2008.
[12]嚴(yán)如強(qiáng),錢宇寧,胡世杰,等.基于小波域平穩(wěn)子空間分析的風(fēng)力發(fā)電機(jī)齒輪故障診斷[J].機(jī)械工程學(xué)報(bào),2014,50:9-16.
[13]唐貴基,龐彬,劉尚坤.基于奇異差分譜和平穩(wěn)子空間分析的滾動(dòng)軸承故障診斷[J].振動(dòng)與沖擊,2015,34(11):83-87.
[14]曾青松,賀衛(wèi)國(guó).基于相對(duì)熵度量的行為識(shí)別方法[J].河南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,30(6):53-55.
[15]LUISSL,LUISMCM.Robotexecutionfailuresdataset[EB/OL].(1999-04-23)[2016-02-10].http://archive.ics.uci.edu/ml/datasets/Robot+Execution+Failures.
國(guó)家自然科學(xué)基金項(xiàng)目(114331011);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)基金項(xiàng)目(2015-zy-115)
周曉園(1992-),女,河南伊川人,碩士生;余旌胡(1967-),女,湖南岳陽人,教授,博士,碩士生導(dǎo)師,主要研究方向?yàn)轳R氏過程及其應(yīng)用、統(tǒng)計(jì)學(xué)習(xí)理論與方法.
2016-02-26
1672-6871(2016)06-0042-04
10.15926/j.cnki.issn1672-6871.2016.06.009
TP391
A