李曉翠,張新玉,羅慶云,任長(zhǎng)安
(湖南工學(xué)院計(jì)算機(jī)與信息科學(xué)學(xué)院,湖南 衡陽(yáng)421002)
基于統(tǒng)計(jì)特征向量的時(shí)序符號(hào)化改進(jìn)算法
李曉翠,張新玉,羅慶云,任長(zhǎng)安
(湖南工學(xué)院計(jì)算機(jī)與信息科學(xué)學(xué)院,湖南 衡陽(yáng)421002)
傳統(tǒng)基于統(tǒng)計(jì)特征向量的時(shí)間序列符號(hào)化算法不能較好地保留時(shí)序數(shù)據(jù)的特征信息,且不支持多維時(shí)間序列的符號(hào)化。為此,提出一種改進(jìn)算法。對(duì)于單維時(shí)間序列,引入特殊點(diǎn)時(shí)間序列分割方法,在其基礎(chǔ)上實(shí)施符號(hào)化。對(duì)于多維時(shí)間序列,在利用基于加權(quán)屬性的主成分分析方法將多維時(shí)間序列轉(zhuǎn)化為單維時(shí)間序列后,再實(shí)施符號(hào)化。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)算法相比,改進(jìn)算法具有較高的精確度,且能保留時(shí)序特征點(diǎn),同時(shí)支持多維時(shí)間序列的符號(hào)化。
多維時(shí)間序列;特征向量;加權(quán)屬性;符號(hào)化;主成分分析
DO I:10.3969/j.issn.1000-3428.2015.10.029
時(shí)序關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘領(lǐng)域中的研究熱點(diǎn)[1],而時(shí)序符號(hào)化則是時(shí)序關(guān)聯(lián)規(guī)則挖掘的前提[2-3]。時(shí)序符號(hào)化一方面能夠壓縮時(shí)序,大幅減少時(shí)序關(guān)聯(lián)規(guī)則挖掘的時(shí)間,另一方面能夠使挖掘的時(shí)序關(guān)聯(lián)規(guī)則更加精確。但由于時(shí)序數(shù)據(jù)的密集性、隨機(jī)波動(dòng)性及數(shù)據(jù)海量性,使得時(shí)序關(guān)聯(lián)規(guī)則挖掘還存在諸多問(wèn)題和難關(guān),尤其在多維時(shí)序的關(guān)聯(lián)規(guī)則挖掘方面更是如此。2003年,由Keogh等人提出了SAX符號(hào)化方法(Symbolic Aggregate Approximation)[4],使得符號(hào)化方法進(jìn)入了一個(gè)新的階段,然而SAX僅用平均值來(lái)表示近似表示時(shí)序,使得符號(hào)化的結(jié)果不夠精確。文獻(xiàn)[5]提出了基于統(tǒng)計(jì)特征的時(shí)序數(shù)據(jù)符號(hào)化算法(SFVS),該算法將時(shí)序符號(hào)看作矢量,而各時(shí)序子段的均值和方差則分別作為描述其平均值及發(fā)散的程度。然而該算法中同樣運(yùn)用PAA方法(Piece-wise Aggregate Approximation)對(duì)時(shí)
序進(jìn)行等寬分割,這樣也就同樣存在PAA分割方法的缺點(diǎn):不能較好地保留時(shí)序的變化趨勢(shì)及形態(tài),且不支持多維時(shí)序的符號(hào)化。
本文針對(duì)單維時(shí)序和多維時(shí)序,分別引入特殊點(diǎn)的時(shí)序分割方法和加權(quán)屬性的主成分方法,基于統(tǒng)計(jì)特征向量提出一種改進(jìn)的時(shí)序符號(hào)化算法(ISFVS)。
傳統(tǒng)基于統(tǒng)計(jì)特征特征向量的時(shí)序符號(hào)化算法具體過(guò)程如下:
(1)時(shí)序規(guī)格化。
時(shí)序規(guī)格化計(jì)算公式如下:
其中,yi為時(shí)序的原始值;χi為規(guī)則化后的新值;μ和 σ分別為原始時(shí)序的期望值和方差[6]。
(2)PAA分段線性表示,并求出個(gè)時(shí)序字段的平均值和方差。
用wi,si分別表示第i個(gè)子序列上的平均值和方差,則:
其中,ω為最大壓縮比,ω一般采用如下經(jīng)驗(yàn)公式:
(3)根據(jù)符號(hào)集大小確定分裂點(diǎn)。
經(jīng)過(guò)規(guī)格化的時(shí)序服從標(biāo)準(zhǔn)正態(tài)分布,因此,可以查表得到各等概率劃分的分裂點(diǎn),符號(hào)集與分裂點(diǎn)的關(guān)系如表1所示。
表1 k取不同值時(shí)所對(duì)應(yīng)的劃分點(diǎn)
(4)時(shí)序符號(hào)化的實(shí)施。
若用Ai來(lái)表示字符集A中的第i個(gè)字符。符號(hào)化準(zhǔn)則為:將所有小于 C1的預(yù)處理數(shù)據(jù)用符號(hào) A1表示,將大于C1且小于C2的預(yù)處理數(shù)據(jù)用符號(hào)A2表示,而將所有大于Ck-1的預(yù)處理數(shù)據(jù)用符號(hào)Ak表示。用向量Xi表示第Cs(SX,2)個(gè)子序列的符號(hào)結(jié)果。 則:
統(tǒng)計(jì)特征向量符號(hào)化[5]在對(duì)時(shí)序符號(hào)化時(shí),針對(duì)SAX方法的缺陷,引入了方差這一因素,能夠較好地描述時(shí)序特征,然而該方法中同樣運(yùn)用PAA方法對(duì)時(shí)序等寬分割,這樣也就同樣繼承了PAA分割方法的缺點(diǎn),不能較好地保留時(shí)序的變化趨勢(shì)及形態(tài),進(jìn)一步影響時(shí)序關(guān)聯(lián)規(guī)則挖掘的可信度?;谶@個(gè)缺陷,結(jié)合時(shí)序分割方法,ISFVS方法引入了基于分段點(diǎn)的時(shí)序分割方法[6-7],先對(duì)時(shí)序進(jìn)行分割,然后用基于統(tǒng)計(jì)特征向量符號(hào)化的方法對(duì)時(shí)序?qū)嵤┓?hào)化。
3.1 時(shí)序的分割
時(shí)序的分割是將時(shí)序數(shù)據(jù)表示成多段首尾相鄰的近似直線,能夠?qū)r(shí)序進(jìn)行有效壓縮[8-9],如圖 1所示。
圖1 時(shí)序分段線性化示意圖
時(shí)序分段線性表示記為:將長(zhǎng)度為 L的時(shí)序的n段時(shí)序,分段線性模型表示為S,如式(6)所示:
其中,i=1,2,…,n;χiL表示第i段的起始點(diǎn)的數(shù)值;χiR表示第i段結(jié)束點(diǎn)的數(shù)值;ti表示第i段的結(jié)束時(shí)間;n表示整個(gè)時(shí)序劃分的直線段數(shù)目,tn=L。
3.2 符號(hào)化算法
單維時(shí)序符號(hào)化算法的具體步驟如下:
(1)時(shí)序規(guī)格化。
對(duì)時(shí)序?qū)嵤┓?hào)化是基于標(biāo)準(zhǔn)正態(tài)分布的等概率規(guī)則來(lái)劃分的。為了消除不同偏移量和振幅對(duì)符號(hào)化后相似性的影響,在對(duì)時(shí)序符號(hào)化之前必須先對(duì)其進(jìn)行規(guī)則化處理,使時(shí)序滿足平均值為0,方差為1的高斯分布。這一步驟和統(tǒng)計(jì)特征向量符號(hào)化方法是一致的。
定義1 將規(guī)則化后的時(shí)序記為 X={χ1(ν1,t1),χ1(ν2,t2),…,χn(νn,tn)}。
(2)時(shí)序的分段點(diǎn)。
將規(guī)則化后的時(shí)序 X={χ1(ν1,t1),χ1(ν2,t2),…χn(νn,tn)},用基于特殊點(diǎn)的線段化方法求出規(guī)則化時(shí)序的所有分段點(diǎn)。
定義2 如果時(shí)序X上的某點(diǎn)滿足如下條件之一:(1)νi>νi-1且 νi≥νi+1,νi≥νi-1且 νi>νi+1,其中1<i<n,則稱 χi(νi,ti)為 X的正極值點(diǎn);(2)νi<
νi-1且νi≤νi+1,νi≤νi-1且νi<νi+1,其中1<i<n,則稱χi(νi,ti)為X的負(fù)極值點(diǎn),稱 χi(νi,ti)為局部極值點(diǎn),即轉(zhuǎn)折點(diǎn)。
定義3 定義時(shí)序X上的所有轉(zhuǎn)折點(diǎn)為 S={S1,S2,…,Sn}。
定義4 如果保持轉(zhuǎn)折點(diǎn)Si的時(shí)間段與該序列的總長(zhǎng)度的比值大于給定的閾值 C,則轉(zhuǎn)折點(diǎn)Si為該時(shí)序的分段點(diǎn)。正轉(zhuǎn)折點(diǎn)形成的分割點(diǎn)為正分割點(diǎn),負(fù)轉(zhuǎn)折點(diǎn)處形成的分割點(diǎn)為負(fù)分割點(diǎn)[10]。
由中心極限定理,可得 Δti滿足 N[μ,σ2]的正態(tài)分布,其中n為局部極值點(diǎn)S集中元素的個(gè)數(shù)。
給定時(shí)序的最大壓縮率[11]為 P,則被保留的分割點(diǎn)的總數(shù)占時(shí)序長(zhǎng)度總個(gè)數(shù)的比例應(yīng)不大于(1-P),即分割點(diǎn)的存在概率應(yīng)小于或等于(1-P)。因此,被保留的分割點(diǎn)的Δti應(yīng)分布在[u-χσ,u+χσ]的范圍內(nèi)(σ代表偏離 u的程度),概率小于或等于(1-P),令Y表示該隨機(jī)事件,則有:
即2Φ(χ)-1≤1-P。
例如,要得到大于 90%的數(shù)據(jù)壓縮率,則由式(9)得:
查表得χ=0.13,即若極值點(diǎn)χi為分段點(diǎn),則該點(diǎn)的應(yīng)用分布在[u-0.13σ,u+0.13σ]范圍內(nèi)。
根據(jù)以上算法,從局部極值點(diǎn)集合中,選擇符合要求的分段點(diǎn)。
定義5 定義時(shí)間 D(S′1,S′2)≤D(S′1,S′3)+ D(S′3,S′2)上的所有分段點(diǎn)的所在位置集合為P={P1,P2,…,Pk}。
(3)計(jì)算出各時(shí)序子段的均值和方差。
假設(shè)時(shí)序的起點(diǎn)位置為P0,終點(diǎn)位置為Pk+1,將其并入分段點(diǎn)位置集合 P,則 P={P0,P1,…,Pk,Pk+1},根據(jù)分段點(diǎn)集合P,可以將時(shí)序分割成k個(gè)子序列。用wi和si分別表示第i個(gè)子序列的平均值和方差,則第i個(gè)子序列的平均值為:
第i個(gè)子序列的方差為:
對(duì)時(shí)序預(yù)處理后,就可以根據(jù)字符集規(guī)模k(取3~20)和數(shù)據(jù)分布得到各個(gè)字符所代表數(shù)據(jù)區(qū)域的劃分點(diǎn)。因此,劃分點(diǎn)可以表示為:C={C1,C2,…,Ck-1}。而劃分點(diǎn)C是通過(guò)將整個(gè)正態(tài)分布區(qū)間劃分成k個(gè)等概率區(qū)間的方式來(lái)確定,符號(hào)集規(guī)模 k和劃分點(diǎn)的關(guān)系如表1所示。
(4)時(shí)序符號(hào)化的實(shí)施。
根據(jù)預(yù)處理結(jié)果及劃分點(diǎn)集,將時(shí)序?qū)嵤┓?hào)化。若用Ai來(lái)表示字符集A中的第i個(gè)字符。符號(hào)化準(zhǔn)則為:將所有小于 C1的預(yù)處理數(shù)據(jù)用符號(hào) A1表示,將大于C1且小于C2的預(yù)處理數(shù)據(jù)用符號(hào)A2表示,而將所有大于Ck-1的預(yù)處理數(shù)據(jù)用符號(hào)Ak表示。用Xi表示第 Cs(SX,2)個(gè)子序列的符號(hào)結(jié)果。 則:
其中,Ai1表示第i個(gè)子序列的平均值wi所在區(qū)間的符號(hào);Ai2表示第 i個(gè)子序列的方差 si所在區(qū)間的符號(hào)。
目前,主流的時(shí)序符號(hào)化方法只能解決單維時(shí)序的符號(hào)化問(wèn)題或者對(duì)多維時(shí)序的符號(hào)化效果不佳。然而多維時(shí)序卻普遍存在于各個(gè)領(lǐng)域,例如股票交易數(shù)據(jù)、移動(dòng)通訊數(shù)據(jù)、氣象數(shù)據(jù)等,多維時(shí)序的數(shù)據(jù)挖掘及關(guān)聯(lián)規(guī)則的獲取也必須建立在多維時(shí)序的相似性度量上?;诖?,結(jié)合主成分分析法的思想,利用基于加權(quán)屬性[12]的主成分法將多維時(shí)序轉(zhuǎn)化成單維時(shí)序,然后按照單維時(shí)序的符號(hào)化方法對(duì)時(shí)序符號(hào)化。
4.1 基于加權(quán)屬性的主成分方法
定義6 定義多維時(shí)序[13]為:
其中,m為多維時(shí)序的維數(shù)。
利用主成分分析法,求出原變量協(xié)方差矩陣的特征值 λi,并將它們從大到小排列,依次為 λ1,λ2,…,λm,相應(yīng)的特征化標(biāo)準(zhǔn)向量為 γ1,γ2,…,γm,將所得的m個(gè)主成分按由大到小的順序排列[14],記為向量Y=(Y1,Y2,…,Ym),則主成分與原始變量之間存在如下關(guān)系:
通過(guò)以上方法將多維時(shí)序簡(jiǎn)化成單維時(shí)序。基于加權(quán)屬性的主成分方法摒棄了直接選取個(gè)別主成分進(jìn)行降維而造成的信息丟失的弊端,同時(shí)也避免了不降維而帶來(lái)的算法復(fù)雜度高的缺陷。
4.2 符號(hào)化算法
多維時(shí)序符號(hào)化算法的具體步驟如下:
(1)用4.1節(jié)中基于加權(quán)屬性的主成分方法將多維時(shí)序轉(zhuǎn)化為單維時(shí)序;
(2)根據(jù)式(1)將上一步得到的單維時(shí)序規(guī)范化,使時(shí)序服從標(biāo)準(zhǔn)正態(tài)分布;
(3)用3.2節(jié)定義4中描述的方法,確定時(shí)序的分段點(diǎn)集合;
(4)由分段點(diǎn)集合,根據(jù)式(10)和式(11)計(jì)算出各時(shí)序子段的均值和方差;
(5)根據(jù)預(yù)設(shè)的符號(hào)集C,查表1確定各分裂點(diǎn)取值,從而實(shí)施對(duì)多維時(shí)序的符號(hào)化,將多維時(shí)序轉(zhuǎn)化為符號(hào)化序列。
步驟(2)~步驟(5)的具體方法與統(tǒng)計(jì)特征特征向量符號(hào)化方法保持一致,這里不再具體闡述。
本文實(shí)驗(yàn)的運(yùn)行環(huán)境為Interl?Celeron?CPU E3300@2.50 GHz,2.50 GHz,2 GB內(nèi)存,500 GB硬盤,操作系統(tǒng)為32位W in 7,開(kāi)發(fā)工具為Matlab 6.0及VS 2008,開(kāi)發(fā)語(yǔ)言為C++及C#。為了驗(yàn)證改進(jìn)統(tǒng)計(jì)特征符號(hào)化算法的優(yōu)越性,及在多維時(shí)序中的可擴(kuò)展性,采用了 2組數(shù)據(jù)進(jìn)行實(shí)驗(yàn)分析。第1組數(shù)據(jù)來(lái)源于Time Series Data Library,http:// www.robhyndman.info/TS-DL。第2組數(shù)據(jù)為開(kāi)灤集團(tuán)某礦的提升機(jī)運(yùn)行數(shù)據(jù)。其中,第1組數(shù)據(jù)均為單維時(shí)序數(shù)據(jù),第2組為多維時(shí)序數(shù)據(jù)(提升機(jī)運(yùn)行曲線包括給定速度、包絡(luò)速度、實(shí)際速度、給定電壓、電流)。
實(shí)驗(yàn)1 考察ISFVS算法是否能較好地保留時(shí)序特征點(diǎn)且具有較高的魯棒性。
圖2是原始序列圖,圖3是經(jīng)過(guò)加入噪音數(shù)據(jù)后的序列圖,圖4則是加入噪音數(shù)據(jù)前后的時(shí)序分段點(diǎn)圖。從圖4可以看出加噪后的時(shí)序分割點(diǎn)與原始時(shí)序的分割點(diǎn)變化不大,絕大多數(shù)的分割點(diǎn)為時(shí)序特征點(diǎn)且位置保持不變,這是因?yàn)樗惴A(yù)處理階段對(duì)時(shí)序進(jìn)行了規(guī)范化處理,并且在選擇分段點(diǎn)時(shí),根據(jù)中心極限定理很好的去除了局部波動(dòng)點(diǎn),即實(shí)驗(yàn)中的噪聲數(shù)據(jù),因此,本文通過(guò)實(shí)驗(yàn)證明了改進(jìn)ISFVS算法具有能保留時(shí)序特征信息且魯棒性強(qiáng)的優(yōu)點(diǎn)。
圖2 原始時(shí)序圖
圖3 加噪序列圖
圖4 分段結(jié)果
實(shí)驗(yàn)2 考察ISFVS算法對(duì)單維時(shí)序符號(hào)化優(yōu)越性。為驗(yàn)證ISFVS算法對(duì)單維時(shí)序符號(hào)化表示的優(yōu)越性,采用第1組實(shí)驗(yàn)數(shù)據(jù),并將ISFVS算法同SFVS算法進(jìn)行比較。
圖5為ISFVS和SFVS符號(hào)化算法擬合誤差結(jié)果比較。從圖5可以看出,隨著符號(hào)集的增大,SFVS和ISFVS算法的擬合誤差逐漸減小,使得符號(hào)化后的序列逐漸接近于原始時(shí)序。同時(shí),從圖5還可以看出
ISFVS算法比SFVS算法更快的接近于原始序列,這是由于SFVS算法在對(duì)時(shí)序分割時(shí),采用等分的原則,沒(méi)有較好地保留時(shí)序形態(tài)模式,而ISFVS算法在對(duì)時(shí)序進(jìn)行分割時(shí),引入了特殊點(diǎn)的時(shí)序分割算法,該分割算法能夠較好地保留時(shí)序的形態(tài),使得符號(hào)化后的時(shí)序能夠更加精確地表示原始時(shí)序。
圖5 單維時(shí)序擬合誤差比較
實(shí)驗(yàn)3 考察ISFVS算法中提出的基于加權(quán)屬性主成分算法的多維時(shí)序符號(hào)化算法的優(yōu)越性。實(shí)驗(yàn)數(shù)據(jù)為第2組數(shù)據(jù)。為了驗(yàn)證ISFVS算法的優(yōu)越性,同基于主成分算法多維時(shí)序符號(hào)化算法進(jìn)行比較(選取第一主成分將多維時(shí)序轉(zhuǎn)化為單維時(shí)序)。主成分算法的符號(hào)化算法簡(jiǎn)記為PCAS。圖6給出了ISFVS和PCAS的執(zhí)行時(shí)間;圖7給出了ISFVS和PCAS在相同情況下的擬合誤差。
圖6 執(zhí)行時(shí)間比較
圖7 多維時(shí)序擬合誤差比較
從圖6和圖7可以看出,2種算法的執(zhí)行時(shí)間即算法的運(yùn)行效率是差不多的,然而基于加權(quán)屬性的主成分的多維時(shí)序符號(hào)化算法在近似表示原始序列的能力上相對(duì)于PCAS有了較大的提升,由此可見(jiàn)ISFVS算法對(duì)多維時(shí)序符號(hào)化的優(yōu)越性。
SFVS算法在SAX算法的基礎(chǔ)上,增加了方差來(lái)描述時(shí)序,但沒(méi)有解決必須等分時(shí)序的問(wèn)題,且不能較好地保留時(shí)序形態(tài)特征。因此,本文將基于特殊點(diǎn)的時(shí)序分割算法引入到時(shí)序符號(hào)化算法中,結(jié)合統(tǒng)計(jì)特征向量提出了改進(jìn)的符號(hào)化算法,同時(shí)利用主成分分析算法將其擴(kuò)展到多維時(shí)序,設(shè)計(jì)基于加權(quán)屬性的主成分多維時(shí)序符號(hào)化算法。實(shí)驗(yàn)結(jié)果表明,該算法在解決了必須等分時(shí)序問(wèn)題的同時(shí),也能夠較好地保留時(shí)序形態(tài)特征,其在單維和多維時(shí)序符號(hào)化上均具有有效性及優(yōu)越性。下一步將研究時(shí)序符號(hào)化算法在數(shù)據(jù)挖掘中的應(yīng)用。
[1] Butzer P L,Nessel R J.Fourier Analysis and Approximation[M].[S.l.]:Academic Press,2011.
[2] Chaovalit P,Gangopadhyay A,Karabatis G,et al.Discrete Wavelet Transform-based Time Series Analysis and Mining[J].ACM Computing Surveys,2011,43(2).
[3] Fu T.A Review on Time Series Data Mining[J]. Engineering Applications of Artificial Intelligence,2011,24(1):164-181.
[4] Lin J,Keogh E,Lonardi S,et al.A Symbolic Representation of Time Series,with Implications for Streaming Algorithms[C]//Proceedings of the 8 th ACM SIGMOD Workshop on Research Issues in Data Mining and Know ledge Discovery.New York,USA:ACM Press,2003:2-11.
[5] 鐘清流,蔡自興.基于統(tǒng)計(jì)特征的時(shí)序數(shù)據(jù)符號(hào)化算法[J].計(jì)算機(jī)學(xué)報(bào),2008,31(10):1857-1864.
[6] 閆秋艷,夏士雄.一種無(wú)限長(zhǎng)時(shí)序的分段線性擬合算法[J].電子學(xué)報(bào),2010,38(2):444-448.
[7] 周大鐲,李敏強(qiáng).基于序列重要點(diǎn)的時(shí)間序列分割[J].計(jì)算機(jī)工程,2008,34(23):14-16.
[8] 李重文,鄧騰彬,馬世龍.基于分段極值的時(shí)間序列數(shù)據(jù)查詢顯示方法[J].計(jì)算機(jī)工程,2014,40(9):27-30.
[9] 李愛(ài)國(guó),覃 征.在線分割時(shí)序數(shù)據(jù)[J].軟件學(xué)報(bào),2004,15(11):1671-1678.
[10] 肖 輝,馬海兵,龔 薇.基于時(shí)態(tài)邊緣算子的時(shí)間序列分段線性表示[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(19):156-159.
[11] 詹艷艷,徐榮聰,陳曉云.基于斜率提取邊緣點(diǎn)的時(shí)間序列分段線性表示方法[J].計(jì)算機(jī)科學(xué),2006,33(11):139-142.
[12] 杜 奕,盧德唐,李道倫,等.基于層次聚類的時(shí)間序列在線劃分算法[J].模式識(shí)別與人工智能,2007,20(3):23-27.
[13] Keogh E,Chakrabarti K,Pazzani M J,et al.Dimensionality Reduction for Fast Similarity Search in Large Tim e Series Databases[J].Know ledge and Information System s,2008,3(3):263-286.
[14] Yi B K,F(xiàn)aloustsos C.Fast Time Sequence Indexing for Arbitrary Lp Norm s[C]//Proceedings of the 26th International Conference on Very Large Databases. Cairo,Egypt:[s.n.],2000:385-394.
編輯 金胡考
Improved Symbolic Algorithm of Time Series Based on Statistical Feature Vector
LI Xiaocui,ZHANG Xinyu,LUO Qingyun,REN Chang’an
(School of Computer and Information Science,Hunan Institute of Technology,Hengyang 421002,China)
The traditional symbolic algorithm of time series based on statistical feature vector can not retain the timing characteristics well and support multidimensional time series symbolic.Aiming at this problem,this paper proposes an improved symbolic algorithm of time series based on statistical feature vector.The specific methods are as follow s:for single-dimensional time series,using special points’time series segmentation method to segment the time series and making it symbolic;for multi-dimensional time series,using weighted attributes’Principal Component Analysis(PCA)method to transform the multi-dimensional time series into single time series,then making it symbolic.Experimental result show s that the improved algorithm has higher accuracy than traditional algorithm.It can retain the timing characteristics and has more superiority in the aspect of multidimensional time series symbolization.
multidimensional time series;feature vector;weighted attribute;symbolic;Principal Component Analysis(PCA)
李曉翠,張新玉,羅慶云,等.基于統(tǒng)計(jì)特征向量的時(shí)序符號(hào)化改進(jìn)算法[J].計(jì)算機(jī)工程,2015,41(10):155-159.
英文引用格式:Li Xiaocui,Zhang Xinyu,Luo Qingyun,et al.Improved Symbolic Algorithm of Time Series Based on Statistical Feature Vector[J].Computer Engineering,2015,41(10):155-159.
1000-3428(2015)10-0155-05
A
TP18
湖南省教育廳科學(xué)研究基金資助項(xiàng)目(14C0304);國(guó)家自然科學(xué)基金資助項(xiàng)目(61402164);湖南省科技計(jì)劃基金資助項(xiàng)目(S2013F1023)。
李曉翠(1986-),女,碩士研究生,主研方向:數(shù)據(jù)挖掘;張新玉,碩士研究生;羅慶云,教授;任長(zhǎng)安,講師。
2014-10-10
2014-11-14E-mail:xiaocuiworld@163.com