宋春雷,路曉亞,何笑笑
(商丘工學院 信息與電子工程學院,河南 商丘 476000)
隨著信息時代的進步和科技的快速發(fā)展,實際生產(chǎn)和生活中產(chǎn)生了越來越多的數(shù)據(jù),時間序列數(shù)據(jù)是一類有序的、帶有時間戳的數(shù)據(jù)點序列[1]。由于數(shù)據(jù)的爆炸式增長,如何從數(shù)據(jù)中準確地找出有價值的規(guī)律是一個艱巨的任務(wù)。有研究表明,通過對時間序列數(shù)據(jù)進行特征提取以生成新的數(shù)據(jù)形式[2],這種新的數(shù)據(jù)可以很好地體現(xiàn)原始數(shù)據(jù)的變化趨勢和形態(tài)特征,利用提取的特征進行數(shù)據(jù)分析,可以提高數(shù)據(jù)挖掘的效率。此外,時間序列數(shù)據(jù)的特征表示是將原始時間序列數(shù)據(jù)轉(zhuǎn)換為另一論域中的數(shù)據(jù),可以有效提取數(shù)據(jù)特征并且可以起到數(shù)據(jù)降維的作用。同時,特征提取可以使得在低維空間下的數(shù)據(jù)盡可能地反映原始時間序列的重要信息。
針對時間序列數(shù)據(jù)[3]的海量和高維特性,如果直接在原始序列數(shù)據(jù)上執(zhí)行分類[4]、聚類[5]和預測[6]任務(wù),不僅效率低下,而且算法的時間復雜度與空間復雜度相對較高。因此,本文通過研究時間序列的狀態(tài)和趨勢信息,發(fā)現(xiàn)了時間序列的穩(wěn)定特性,提出了基于多尺度模糊熵的時間序列特征提取算法。該方法首先計算時間序列的差分數(shù)據(jù),去除數(shù)據(jù)的中心點,以消除數(shù)據(jù)的異常波動;其次,在此基礎(chǔ)上,將數(shù)據(jù)表示為等長的區(qū)間分段,得到重構(gòu)的時間序列;最后,提取模糊熵特征并進行多尺度粗粒化表示,得到時間序列數(shù)據(jù)的特征表示,在降低時間序列數(shù)據(jù)的維度和算法復雜度的同時,保留數(shù)據(jù)的穩(wěn)定性和變化趨勢信息,保存了時間序列數(shù)據(jù)的全局形態(tài)特征,為深入研究時間序列數(shù)據(jù)的特征提取打下基礎(chǔ)。
首先,給定長度為n的時間序列,將其表示為如下形式:
X(i)={x1,x2,...,xn}
(1)
其中,i=1,2,...,n,X(i)表示時間序列數(shù)據(jù)由n個連續(xù)的數(shù)值組成。
(2)
最后,構(gòu)造維數(shù)為m的向量,并將其形式化表示,如公式(3)所示。
(3)
本文采用模糊隸屬度函數(shù)使得模糊熵隨著參數(shù)的變化而平滑變化,從而減少模糊熵值對參數(shù)的依賴,最終使得統(tǒng)計的穩(wěn)定性更好。
(4)
(5)
(6)
其中,i,j=1,2,...,k且i≠j。
模糊隸屬度函數(shù)在一定程度上提高了原始時間序列的抗干擾能力。針對每個i,求其平均值,如公式(7)所示。
(7)
其中,k=n-m+1。根據(jù)公式(8)可以得出m維度下的關(guān)系維度。
(8)
同理,由公式(8)可以求出m+1維度下的關(guān)系維度。因此,針對有限的數(shù)據(jù)集,原始時間序列的模糊熵可以定義為如公式(9)所示。
FuEn(m,r,n)=lnφm(r)-lnφm+1(r)
(9)
其中,m表示模式維度,r為相似容限參數(shù),n為原始時間序列數(shù)據(jù)長度。為了更好地刻畫時間序列數(shù)據(jù)的復雜特性,Wang等[7]提出一種多尺度的概念。
對于長度為n的時間序列Xi,給定嵌入維度m和相似容限參數(shù)r,進行粗粒度劃分,得到新的向量,如公式(10)所示。
(10)
(11)
其中,多尺度因子τ可以確定粗?;指顢?shù)量,對結(jié)果也會產(chǎn)生影響。
利用多尺度模糊熵提取時間序列數(shù)據(jù)的特征,經(jīng)過訓練的分類器再使用測試數(shù)據(jù)集進行識別,最終完成時間序列數(shù)據(jù)的分類任務(wù)。多尺度的粗?;^程如圖1所示。
圖1 多尺度粗?;^程(尺度因子為3)
本文實驗配置是基于Python環(huán)境,仿真環(huán)境的硬件參數(shù)為CPU Intel(R)Core(TM)i5-8265U,1.80 GHz,運行內(nèi)存8 GB。實驗采用5種時間序列分類數(shù)據(jù)集進行測試,分類數(shù)據(jù)集的特征描述如表1所示。
表1 分類數(shù)據(jù)集描述
本文主要采用4種經(jīng)典分類算法來執(zhí)行時間序列數(shù)據(jù)的分類任務(wù),以驗證本文算法的有效性。
(1)決策樹(Decision Tree)方法。決策樹方法是一種基于實例的分類算法,從給定的無序的訓練樣本中,提煉出樹形的分類模型。
(2)K最近鄰(KNN)方法。K最近鄰方法是一種基于統(tǒng)計學習的分類器,將近鄰數(shù)據(jù)中出現(xiàn)次數(shù)最多的分類作為新的對象所屬的類別。
(3)隨機森林(Random Forest)方法。隨機森林方法是一種集成方法,包含多個決策樹的分類器,并集成了所有分類器的分類結(jié)果。
(4)多項式樸素貝葉斯(Multinomial NB)方法。多項式樸素貝葉斯方法基于原始的貝葉斯理論,將最大概率作為最終樣本所屬的類別。
對于分類器的性能,本文采用靈敏度、準確率及F1分數(shù)3個評估指標進行表征。靈敏度主要用于評估二分類問題,計算如公式(12)所示。
(12)
其中,TP表示預測的正樣本確實為真的正樣本數(shù)量,FN表示預測為負樣本實際為正樣本的數(shù)量。
準確率表示分類正確的總樣本數(shù)占樣本總數(shù)的比例,計算如公式(13)所示。
(13)
其中,FP表示預測的正樣本實際為負樣本的數(shù)量,TN表示預測為負樣本實際也為負樣本的數(shù)量。
F1分數(shù)是分類精度和靈敏度的加權(quán)調(diào)和平均,定義如公式(14)所示。
(14)
其中,precision表示分類精度,sensitivity表示靈敏度。
在保持參數(shù)不變的情況下,本文首先對5種數(shù)據(jù)集利用本文算法進行特征提取,然后分別測試4種分類算法在不同時間序列分類數(shù)據(jù)集的性能。分類精度的變化趨勢如圖2所示,在測試的數(shù)據(jù)集中,Random Forest算法在每種數(shù)據(jù)集上的分類精度相對較高且逐漸趨于穩(wěn)定,而其余分類器在5種分類數(shù)據(jù)集上分類精度表現(xiàn)較低,且存在明顯下降現(xiàn)象。因此,需要考慮計算的復雜性,合理調(diào)整參數(shù)的值域變化,有效提取數(shù)據(jù)的關(guān)鍵特征至關(guān)重要。
圖2 分類算法的精度對比
本實驗最終的性能指標F1分數(shù)變化如圖3所示,從結(jié)果上可以看出,單一的分類性能指標不能決定最終分類結(jié)果的好壞,應(yīng)綜合考慮分類精度和召回率的變化來評估分類器的性能。從F1分數(shù)變化趨勢的結(jié)果來看,Random Forest算法和KNN算法的分類性能比較穩(wěn)定,最佳分類的F1分數(shù)分別為0.996和0.997,2種分類器的效果差異較小,屬于最優(yōu)分類結(jié)果。
圖3 分類算法的F1分數(shù)對比
綜合上述分析,本文提出的方法在經(jīng)典的分類算法上表現(xiàn)出良好性能,基于多尺度模糊熵的時間序列特征提取算法實際可行,且對時間序列數(shù)據(jù)有很好的分類結(jié)果。
本文將多尺度模糊熵應(yīng)用于時間序列特征提取,并結(jié)合分類器進行分類性能測試。實驗結(jié)果表明,采用多尺度模糊熵算法進行特征提取具有更好的分類性能。在實際傳感器收集的不同信號數(shù)據(jù)中,分別對相應(yīng)的時間序列數(shù)據(jù)進行多尺度模糊熵計算和時間序列分類,驗證了本文提出方法的可行性和有效性,同時為時間序列數(shù)據(jù)中的特征提取提供新思路。