武天鴻 翁小清
(河北經(jīng)貿(mào)大學信息技術(shù)學院 河北 石家莊 050061)
時間序列通常是指按時間順序排列而成的一組數(shù)據(jù),任何有序的實值型數(shù)據(jù)都可以當作時間序列處理[1]。時間序列分類根據(jù)訓練集中對象所構(gòu)建的分類模型,判別被分類對象所屬的類別[2]。時間序列分類已經(jīng)被廣泛應用于生活的各個方面,如模式識別、工業(yè)控制、金融和交通等,但時間序列數(shù)據(jù)維度高,分類難度大。
時間序列符號表示是一種重要的時間序列分析方法,是指將連續(xù)的實值型數(shù)據(jù)表示成低維離散的符號序列數(shù)據(jù)。時間序列符號表示方法不僅簡單高效,對噪聲具有魯棒性,還可以利用來自文本處理、信息檢索和生物信息學等領(lǐng)域的算法,對于提高時間序列分類算法的性能和效率具有重要意義。SAX(Symbolic Aggregate approXimation)[3-4]是一種經(jīng)典的時間序列符號表示方法,該方法能較好地體現(xiàn)時間序列的整體趨勢且簡單高效。但SAX只適用于服從高斯分布的時序數(shù)據(jù),且僅用分段的均值并不能很好地描述時間序列的局部特征,完全不同的時間序列可能會得到相似的符號表示,SAX的MINDIST距離度量的緊性較差,容易產(chǎn)生誤報。目前,大部分基于符號表示的時間序列分類研究主要集中在SAX性能的改進上,符號化時只考慮了單個時間序列樣本的數(shù)據(jù),沒有考慮數(shù)據(jù)集樣本間的近鄰關(guān)系對分類的影響,且降維過程中沒有利用類標簽的信息,是無監(jiān)督的表示方法。
本文提出一種基于正交局部保持映射[5]符號表示的時間序列分類方法OLPP_SC(OLPP Symbolic Classification)。該方法使用OLPP 將原始高維的時間序列數(shù)據(jù)映射到低維空間,在降維的同時很好地保留數(shù)據(jù)在原始空間的局部近鄰結(jié)構(gòu);利用信息增益在降維后的數(shù)據(jù)上尋找最佳符號區(qū)間劃分點,采用多重系數(shù)分箱技術(shù)[6]將維數(shù)約簡后數(shù)據(jù)離散表示成符號序列,最后根據(jù)最近鄰法對符號表示的時間序列進行分類。OLPP_SC清晰地考慮了樣本間近鄰關(guān)系和類標簽信息對符號化分類的影響,具有自適應的符號區(qū)間分段點,且僅需要較少的維數(shù)和字母個數(shù)就能達到不錯的分類效果,對于解決時間序列分類中的維數(shù)災難問題具有重要意義,在計算資源和存儲資源較少的設(shè)備中具有適用性。
正交局部保持映射是由局部保留投影(Locality Preserving Projection,LPP)[7]衍生的一種線性維數(shù)約減方法。LPP可得到一個簡單的線性變換,這個線性變換能夠最優(yōu)地將時間序列數(shù)據(jù)在高維空間的局部幾何結(jié)構(gòu)信息保留到低維空間。LPP的變換向量是非正交的,數(shù)據(jù)重構(gòu)困難,而OLPP的變換向量是正交的,具有比LPP更強的局部保留能力。非線性降維方法如局部線性嵌入[8](Locally Linear Embedding,LLE)、等距映射[9](Isometric Mapping,IsoMap)以及拉普拉斯特征映射(Laplacian Eigenmaps,LE)[10]等,只能用于給定的數(shù)據(jù)集,缺乏將新數(shù)據(jù)或?qū)ο笥成涞降途S空間的泛化能力,不適合解決分類問題。由于OLPP對測試樣本的適用性,相較于非線性降維方法,OLPP更適用于分類問題。OLPP降維算法可應用于人臉識別[11]和文本索引[12]等方面。OLPP的實現(xiàn)[5]可簡述如下:
OLPP方法尋找一個變換矩陣G,該變換矩陣能夠?qū)⒁阎呔S空間訓練數(shù)據(jù)集X=[x1,x2,…,xk]∈Rm映射到低維空間數(shù)據(jù)集Y=[y1,y2,…,yk]∈Rd,(d?m),即yi=GTxi。通過對如式(1)所示的最小值問題進行優(yōu)化求解轉(zhuǎn)換矩陣G,約束條件為gTXDXg=1,其中g(shù)為轉(zhuǎn)換向量。
(1)
可以采用兩種模式構(gòu)造鄰近圖:KNN模式和Supervised模式。KNN模式是指采用歐氏距離計算數(shù)據(jù)點間的距離,選取最近的k個點作為近鄰構(gòu)造近鄰圖,是無監(jiān)督的方法;Supervised模式是指根據(jù)類標簽將屬于同一類的數(shù)據(jù)點相連,是有監(jiān)督的方法。定義相似矩陣(或權(quán)重矩陣)S,Sij評估數(shù)據(jù)集的局部近鄰結(jié)構(gòu),其數(shù)學定義如下:
(2)
式中:t為常數(shù)。
令變換矩陣G中的變換向量為{g1,g2,…,gk},定義G(k-1)=[g1,g2,…,gk-1],B(k-1)=[G(k-1)]T(XDXT)-1G(k-1),可通過如下方式迭代計算正交變換基向量:g1等于與(XDXT)-1XLXT的最小特征值對應的特征向量;gk等于與式(3)的最小特征值對應的特征向量。
M(k)={I-(XDXT)-1G(k-1)[B(k-1)]-1[G(k-1)]T}
(XDXT)-1XLXT
(3)
xi→yi=GTxi
(4)
式中:yi是d維向量;G是m×d變換矩陣。
降維后的兩個數(shù)據(jù)點在低維空間的歐氏距離可以表示為:
Dolpp(yi,yj)=‖yi-yj‖=
‖xi-xj‖
(5)
G為正交矩陣,GGT=I也是單位矩陣,原始數(shù)據(jù)集的空間結(jié)構(gòu)能夠被很好地保留。
信息增益(Information Gain)[6]表示得知特征X的信息而使得類Y的信息的不確定性減少的程度。對于分類系統(tǒng)而言,假設(shè)Y={(s1,y1),(s2,y2),…,(sN,yN)}是由N個值與類標簽對組成的列表,pyi是標簽yi在Y中出現(xiàn)的頻率,則多分類的熵定義為:
(6)
若以sp為符號區(qū)間分割點,則sp的熵如下:
(7)
式中:YL={(si,yi)|si≤sp,(si,yi)∈Y};YR={(si,yi)|si>sp,(si,yi)∈Y}。分割點sp的信息增益為:
inf_gain=Ent(Y)-Ent(Y,sp)
(8)
本文提出的時間序列符號表示方法,利用信息增益尋找符號區(qū)間的最佳劃分點,使每個分區(qū)中的大多數(shù)值對應于同一個類,可以用同一個字母表示。這種有監(jiān)督的符號表示方法能夠充分利用類別的標簽信息,有效提高訓練模型的分類能力。
基于符號表示的時間序列分類方法,根據(jù)時間序列數(shù)據(jù)轉(zhuǎn)化成符號序列的不同方式大致可以劃分為4類:基于趨勢分析,基于聚類或進化計算,基于文本,基于頻率域。
針對SAX存在的缺陷,學者們提出的改進方法大致可歸結(jié)為從局部趨勢特征描述、距離度量、符號區(qū)間劃分和序列分段4個方面,不同程度地提高算法分類性能,但是也不可避免地帶來一些新的問題,如參數(shù)選擇困難、計算復雜度高和維數(shù)約簡性能較差等。
Lkhagva等[13]提出使用每個分段的最小值、最大值和均值表示的 ESAX(Extended SAX),字符串長度是SAX的三倍,且較SAX分類效果不顯著。將每個分段的線性回歸量化為字母表中一個符號的表示方法1d-SAX[14]在分段有噪聲時擬合誤差較大。首先將時間序列轉(zhuǎn)換成比值序列,再根據(jù)比值序列分段的趨勢特征進行符號表示的方法[15-17],在一定程度上保留原始時間序列的整體趨勢變化信息,但是對于變化特征不明顯的時間序列具有一定的局限。雖然符號與數(shù)值混合的表示方法[18-21]能夠顯著提高分類準確率,但是不能應用來自信息檢索、文本處理和生物信息學等領(lǐng)域算法,應用領(lǐng)域受到限制。
為了減少SAX離散化過程中的信息丟失,Yin等[22]根據(jù)全局關(guān)鍵點將長時間序列分成若干個分段,依據(jù)各分段的趨勢特征對時間序列符號化,F(xiàn)uad等[23]對距離查找表進行改進提出UMD,這兩種方法在下界距離緊性和分類性能方面都好于SAX。Bai等[24]提出的rSAX通過小距離調(diào)整分段點使得彼此接近的點以更高的概率映射到相同符號。Sharabiani等[25]先使用SAX將時間序列轉(zhuǎn)化為符號序列,在符號序列上使用Bayesian規(guī)則和概率鏈規(guī)則建立模型BCM,然后用BCM對待測符號序列進行分類,然而,BCM的分類準確率與原始時間序列使用歐氏距離的1NN分類的準確率差別不顯著。基于聚類和進化計算的符號表示方法[26-31],不管數(shù)據(jù)集是否具有Gaussian分布性質(zhì)都具有較好的適應性,擴展了SAX方法的適用范圍,但這類方法對于合適的聚類半徑、種群數(shù)量和進化代數(shù)等參數(shù)的選擇是非常困難的,且所需存儲空間大、計算復雜度高。
將時間序列表示成符號序列后可利用自然語言處理的方法進行分類,如:Boer等[32]使用Edit距離對符號序列進行分類,分類性能好于Lin等[33]提出的BOP(Bag-Of-Patterns)模型;Senin等[34]提出將SAX與向量空間模型相結(jié)合的SAX-VSM模型。BOP和SAX-VSM可兼顧時間序列數(shù)據(jù)的局部特性和整體特性,對偏移量和噪聲具有魯棒性,分類準確度高,但是,這類方法通常在訓練階段的時間復雜度比較高,需要存儲空間也較大。
目前基于頻率域的符號表示分類方法的相關(guān)研究較少,主要是Schafer等[6]提出的SFA(Symbolic Fourier Approximation)以及以SFA為基礎(chǔ)的改進算法[35-37]。SFA首先對時間序列進行離散傅里葉變換,利用信息增益尋找前n個傅里葉系數(shù)的符號區(qū)間劃分點,并使用等寬離散方法對每一維系數(shù)進行符號表示。基于頻率域的符號表示方法能夠有效解決分類任務中的維數(shù)災難問題,而且能夠在一定程度上反映時間序列的整體變化趨勢。
武天鴻等[38]提出一種有監(jiān)督的時間序列符號化分類算法LDA_SC(LDA Symbolic Classification),該算法考慮了樣本類別的標簽信息對符號化分類的影響,分類效果好于已有方法。
大多數(shù)已有方法對原始時間序列進行符號表示時,僅考慮了單個時間序列樣本的局部形態(tài)特征或整體趨勢,沒有考慮樣本之間的近鄰關(guān)系對符號化分類性能的影響。在分類問題中,清晰的樣本間近鄰關(guān)系能夠提高算法的分類性能,有監(jiān)督的符號表示方法具有更好的分類效果。
本文提出基于正交局部保持映射的符號表示方法SOLPPA (Symbolic OLPP Approximation),該方法使用OLPP將時間序列的長度由n降到w(w?n),采用數(shù)據(jù)自適應的MCB方法,對維數(shù)約減后數(shù)據(jù)使用大小為a(2≤a≤20)的字母表進行符號表示。使用SOLPPA將時間序列T近似表示成符號序列的過程如圖1所示。
圖1 SOLPPA符號近似表示過程
MCB是指根據(jù)每組數(shù)據(jù)的自身特點確定不同的離散間隔,各組數(shù)據(jù)之間離散間隔的分布是不同的,比如對時間序列的每一維數(shù)據(jù)可以采用等深或等寬的方式離散化,但是各個維度的數(shù)據(jù)的離散間隔分布不同。在SOLPPA算法中,使用信息增益確定降維后數(shù)據(jù)每一維的a-1個最佳分段點,即對應a個符號的離散區(qū)間,落入任意區(qū)間的時間序列數(shù)據(jù)用相應的符號表示。由于每維數(shù)據(jù)分段點的位置是不同的,長度為w的時間序列就有w組不同的分段間隔。這種方法能夠?qū)㈦x散化過程中的信息損失降到最小,在一定程度上提高分類準確性。
考慮兩條具有相同長度n的時間序列Q和C,它們之間的歐氏距離可表示為:
(9)
式中:qi和ci表示時間序列Q和C在時間點i的值。
(10)
(11)
本文提出的基于OLPP符號表示的時間序列分類算法主要包括三個步驟:(1) 使用OLPP將訓練集和測試集從高維空間映射到低維空間;(2) 在降維后訓練集的每一維上尋找符號區(qū)間分割點,根據(jù)分割點將降維后訓練樣本表示成符號序列;(3) 利用訓練集的分割點,將低維空間的測試樣本表示成符號序列并分類?;贠LPP符號表示的分類算法如下:
OLPP_SC(TRAIN,TEST,w,a,PCAratio,k,t)
輸入:訓練集TRAIN,測試集TEST,OLPP降維數(shù)w,字母個數(shù)a,PCA率PCA_ratio,近鄰個數(shù)k和參數(shù)t。
輸出:分類準確率accuracy。
Step1將TRAIN投影到PCA子空間,可通過PCA_ratio調(diào)整對原始數(shù)據(jù)降噪和消除矩陣奇異性的程度,PCA的轉(zhuǎn)換矩陣用WPCA表示。
Step2構(gòu)建鄰接圖P:在KNN模式中,若xi是xj的k近鄰或xj是xi的k近鄰,將xi與xj用一條邊相連,默認t=1;在Supervised模式中,將屬于同類別的兩個樣本用一條邊相連,通過調(diào)節(jié)t值控制各邊權(quán)重,此時k不起作用。
Step3根據(jù)式(2)計算相似矩陣S及拉普拉斯矩陣G,L=D-S。
Step4根據(jù)式(3),計算由正交基向量組成的轉(zhuǎn)換矩陣Gk={g1,g2,…,gk}。
Step5根據(jù)式(4)計算嵌入結(jié)果,yi=WTxi,其中W=WPCAGk。
Step6取出低維空間中訓練集的某一維數(shù)據(jù),根據(jù)式(6)-式(8)尋找信息增益最大的分段點sp1。
Step7分別在sp1前后兩段數(shù)據(jù)中找出分段點sp2和sp3,重復執(zhí)行,直至找出(a-1)個分段點,將該維數(shù)據(jù)劃分成a個區(qū)間,分別用a個不同字母表示。
Step8將每個樣本在該維的數(shù)據(jù),根據(jù)其所在區(qū)間,轉(zhuǎn)換為相應的字母。
Step9重復執(zhí)行Step 6-Step 8,直到訓練集每一維數(shù)據(jù)都映射成字母,每個樣本也就表示成了符號序列。
Step10使用Step 5中的變換矩陣W,將TEST樣本映射到低維空間,使用TRAIN的分段點將低維空間的測試樣本表示成符號序列。
Step11使用最近鄰分類器,根據(jù)距離函數(shù)DIST對表示成符號序列的測試樣本進行分類。
OLPP_SC根據(jù)OLPP構(gòu)造鄰接圖的兩種方法分為OLPP_SC的KNN模式和Supervised模式。OLPP_SC主要分為數(shù)據(jù)降維和符號表示兩個階段,Step 1是使用PCA對m個長度為n的樣本組成的訓練集進行預處理,其時間復雜度為O(m×n2),Step 2搜索具有相同類標號的樣本構(gòu)建鄰接圖,時間復雜度為O(n×m2),Step 3-Step 5為計算正交基向量,若將n維降到d維,時間復雜度為O(d×m×n);Step 6-Step 9為符號表示階段,用大小為a的字母表,將降維后的樣本表示成符號序列的時間復雜度為O((a-1)×m×d),Step 10對表示成符號序列的測試樣本進行分類,時間復雜度為O(m2),所以算法總的時間復雜度為O((m×n2)+(n×m2)+(d×m×n)+((a-1)×m×d)+m2)。
本節(jié)對OLPP_SC在20個來自UCR[39]檔案庫的單變量時間序列數(shù)據(jù)集上的分類性能進行評估,評估標準是分類準確率。
20個時間序列數(shù)據(jù)集主要來自工業(yè)控制、人臉識別、醫(yī)療監(jiān)測等領(lǐng)域,表1描述了這些數(shù)據(jù)集的主要特征。
表1 數(shù)據(jù)集描述
將OLPP_SC方法的分類性能與SAX、ESAX、BCM、SAX_SM、LDA_SC五種方法進行比較,評估標準為分類準確率。為了實驗對照,將字母個數(shù)限制在2~10之間。表2中分別給出了使用SAX、ESAX、BCM和LDA_SC四種方法在測試集上的分類準確率及相應參數(shù),其中:w是符號序列的長度(即低維空間的維數(shù));a是字母表的大小;PCA_ratio是LDA_SC算法中的PCA比率。
表2 SAX、ESAX、BCM和LDA_SC的分類準確率比較
表3給出了使用SAX_SM和OLPP_SC的兩種模式在測試集上的分類準確率和相應的參數(shù)設(shè)置,其中:PCA_ratio是OLPP_SC算法中的PCA比率,k是近鄰個數(shù);t是相似矩陣中的計算權(quán)重系數(shù)的常數(shù)。
表3 SAX_SM和OLPP_SC的兩種模式的分類準確率
續(xù)表3
分析表2和表3中實驗結(jié)果可知,OLPP_SC算法的兩種模式在20個數(shù)據(jù)集上分類的平均準確率高于另外五種方法的平均準確率,且OLPP_SC僅需要較少的維數(shù)就能夠達到較好的分類效果;OLPP_SC的Supervised模式的平均分類準確率大于KNN模式的平均分類準確率,Supervised模式分類性能比KNN模式的分類性能更好。
采用Wilcoxon符號秩檢驗對實驗結(jié)果進行進一步評價。從表4可以看出,OLPP_SC的KNN模式與SAX、ESAX、BCM、SAX_SM的Wilcoxon符號秩檢驗的概率p值都小于0.05,說明OLPP_SC_KNN的分類性能顯著地好于這四種分類方法。OLPP_SC_KNN的平均分類準確率高于LDA_SC,但分類效果與LDA_SC差別不顯著;OLPP_SC的Supervised模式同時考慮了樣本間近鄰關(guān)系和類別的標簽信息,OLPP_SC_Supervised與另外五種算法的Wilcoxon符號秩檢驗的概率p值都小于0.05, 說明OLPP_SC_Supervised的分類效果顯著好于其他算法,樣本間的近鄰關(guān)系對符號化分類效果具有重要影響。
表4 Wilcoxon符號秩檢驗
本文提出的OLPP_SC算法的KNN模式有4個參數(shù),即嵌入維數(shù)w、字母表大小a、PCA_ratio和近鄰個數(shù)k,Supervised模式有4個參數(shù),即嵌入維數(shù)w、字母表大小a、PCA_ratio和參數(shù)t。
圖2給出了OLPP_SC的KNN模式在Synthetic_control數(shù)據(jù)集上,當嵌入維數(shù)為20,k=9,PCA_ratio=0.99時,準確率隨字母表大小a的變化情況。圖3給出了OLPP_SC的Supervised模式在Synthetic_control數(shù)據(jù)集上,當嵌入維數(shù)為22,t=8,PCA_ratio=1時,準確率隨字母表大小a的變化情況。分析圖2和圖3可以得出,字母個數(shù)小于3時,accuracy相對較低,字母個數(shù)在4~6之間分類準確率較高,隨著字母個數(shù)繼續(xù)增加,準確率趨于平穩(wěn)。字母表的大小對OLPP_SC的分類性能具有較大影響,OLPP_SC僅需要較小的字母表就能取得不錯的分類效果,不需要太多的資源存儲距離查找表,分類計算復雜性也較低。
圖2 KNN模式準確率隨a的變化(Snthetic_control數(shù)據(jù)集)
圖3 Supervised模式準確率隨a的變化(Snthetic_control數(shù)據(jù)集)
圖4給出了OLPP_SC的KNN模式在Facefour數(shù)據(jù)集上,使用大小為8的字母表,k=7,當PCA_ratio=0.99時,準確率隨嵌入維數(shù)w的變化情況。圖5給出了OLPP_SC的Supervised模式在Synthetic_control數(shù)據(jù)集上,使用大小為8的字母表,t=8,當PCA_ratio=0.99時,準確率隨嵌入維數(shù)w的變化情況。分析圖4和圖5可知,當嵌入維數(shù)w比較小時,分類準確率比較低,隨著嵌入維數(shù)w逐步增加,準確率快速升高并趨于穩(wěn)定。這說明嵌入維數(shù)對OLPP_SC具有較大影響,OLPP_SC不需要很高的嵌入維數(shù)就可以獲得很好的分類效果,良好的維數(shù)約簡性能對于解決時間序列分類中的維數(shù)災難問題具有重要意義,且對計算資源和存儲資源較少的設(shè)備具有適用性。
圖4 KNN模式準確率隨w的變化(Facefour數(shù)據(jù)集)
圖5 Supervised模式準確率隨w的變化(Synthetic_control數(shù)據(jù)集)
圖6給出了OLPP_SC的KNN模式在Synthetic_control數(shù)據(jù)集上,當字母個數(shù)為8,嵌入維數(shù)為25,k=7時,準確率隨PCA_ratio變化的情況。圖7展示了OLPP_SC的Supervised模式在Synthetic_control數(shù)據(jù)集上,當字母個數(shù)為8,降維數(shù)為22,t=8時,準確率隨PCA_ratio變化的情況。分析圖6和圖7可知,準確率在一定區(qū)域內(nèi)波動,PCA_ratio對OLPP_SC算法性能影響較小。PCA_ratio的主要作用是消除噪聲和矩陣奇異性,如果PCA_ratio太小會造成信息損失過多,一般PCA_ratio的取值為80%~100%。
圖6 KNN模式準確率隨PCA_ratio變化(Synthetic_control數(shù)據(jù)集)
圖8和圖9分別給出OLPP_SC的KNN模式在gun-point數(shù)據(jù)集和Oliveoil數(shù)據(jù)集上,使用大小為6的字母表,嵌入維數(shù)為20,當PCA_ratio=0.99時,準確率隨近鄰個數(shù)k的變化情況。可以看出,近鄰個數(shù)k對分類性能影響較大,通常選取較小的k值就能達到較好的分類效果,k值取得越小,表示的線性結(jié)構(gòu)越明顯,但是若鄰域過小,無法保證距離較遠的數(shù)據(jù)間有足夠的聯(lián)系,算法不穩(wěn)定;如果k值較大則會無法較好地逼近局部線性結(jié)構(gòu),且計算量較大,準確率較低。
圖8 KNN模式準確率隨k的變化(gun-point數(shù)據(jù)集)
圖9 KNN模式準確率隨k的變化(Oliveoil數(shù)據(jù)集)
權(quán)重的設(shè)置與空間結(jié)構(gòu)的保留情況有很大關(guān)系,調(diào)節(jié)OLPP鄰接圖各邊上的權(quán)重大小可通過改變t值實現(xiàn),當t取無窮大時,權(quán)重逼近于1,此時可看作是LPP相似矩陣的推廣,t的取值與局部保留規(guī)模有關(guān)。圖10 給出OLPP_SC的Supervised模式在Trace數(shù)據(jù)集上,當字母個數(shù)為9,嵌入維數(shù)為35,PCA_ratio=0.99時,準確率隨t的變化情況。圖11是OLPP_SC的Supervised模式在Synthetic_control數(shù)據(jù)集上,當字母個數(shù)為8,嵌入維數(shù)為22,PCA_ratio=0.99時,準確率隨t的變化情況。分析圖10和圖11可得出,參數(shù)t對算法具有較大影響,t的值選取過大或過小都會使算法的分類準確率降低,恰當?shù)剡x取t值能夠使OLPP_SC得到較好的分類效果。
圖10 Supervised模式準確率隨參數(shù)t的變化(Trace數(shù)據(jù)集)
圖11 Supervised模式準確率隨參數(shù)t的變化(Synthetic_control數(shù)據(jù)集)
本文提出的基于OLPP符號表示的時間序列分類方法,在降維去噪的同時清晰地保留了樣本間的近鄰關(guān)系,使用信息增益尋找分段點能夠減少離散過程中的信息丟失,且有效利用樣本的類別信息。在20個時間序列數(shù)據(jù)集上的實驗結(jié)果表明,OLPP_SC好于已有的基于符號表示的時間序列分類方法,清晰的樣本間近鄰關(guān)系能夠提高算法的分類性能,有監(jiān)督的符號表示方法具有更好的分類效果。本文提出的OLPP_SC方法在目前使用全局統(tǒng)一的鄰域參數(shù),對于如何根據(jù)樣本分布尋找自適應的參數(shù)有待討論,如何將該算法與向量空間模型結(jié)合以及如何將OLPP_SC應用于多變量時間序列的分類,還需要進步一研究。