胡世杰, 錢宇寧, 嚴(yán)如強(qiáng)
(東南大學(xué)儀器科學(xué)與工程學(xué)院,江蘇 南京 210096)
在機(jī)械系統(tǒng)中異常檢測是指在給定的數(shù)據(jù)集中提取出特征,并利用提取出的特征來判斷其狀態(tài)是正常還是異常。隨著科學(xué)技術(shù)和現(xiàn)代工業(yè)的飛速發(fā)展,國民經(jīng)濟(jì)的機(jī)械、能源、石化、運載和國防等行業(yè)的機(jī)械設(shè)備日趨大型化、高速化、集成化和自動化,這對中國經(jīng)濟(jì)高速發(fā)展提供了有力保障。但是由于機(jī)械設(shè)備的故障失效引起的災(zāi)難性事故屢有發(fā)生,若能準(zhǔn)確及時識別機(jī)械系統(tǒng)運行當(dāng)中異常狀態(tài),對機(jī)械系統(tǒng)的安全運行,避免重大和災(zāi)難性事故意義重大[1]。隨著對高質(zhì)量、低能耗以及安全生產(chǎn)的需求,已經(jīng)有多種信號處理方法引入到機(jī)械系統(tǒng)的異常檢測當(dāng)中。其中,符號化時間序列分析由于具有計算效率高,高信噪比等特性被廣泛地應(yīng)用在異常診斷當(dāng)中。
符號化時間序列分析STSA起源于上世紀(jì)90年代中期,它是由符號動力學(xué)理論、混沌時間序列分析和信息論發(fā)展起來的一種新的信息分析方法。在符號化時間序列分析當(dāng)中,最關(guān)鍵的一步是對原始時間序列的符號化。符號化即是對原始時間序列進(jìn)行離散化,將有多種不同值的數(shù)據(jù)序列變?yōu)閮H有幾個互不相同符號的序列。這一過程能夠保留原始時間序列當(dāng)中的大尺度特征,從而降低動力學(xué)噪聲和測量噪聲的影響[2];同時由于數(shù)據(jù)的符號化,其計算效率大大提高。目前,符號化方法可以分為兩類:1)基于值域的符號化方法;2)基于分布的符號化方法。基于值域的符號化方法主要是通過對時間序列值域的分析來進(jìn)行符號化。例如,Asoky Ray提出了統(tǒng)一劃分符號化的方法[3],該方法首先確定時間序列的最小值與最大值,然后將值域劃分為N個值域大小相同并且連續(xù)的區(qū)間。其中N為采用符號的個數(shù)。Rajagopalan在統(tǒng)一劃分符號化方法的基礎(chǔ)上提出了最大信息熵符號化方法[4],該方法在符號化過程當(dāng)中使每個符號出現(xiàn)的概率相同,從而保證在使用相同符號來符號化原始時間序列時系統(tǒng)擁有最大的信息熵。該方法可以通過以下步驟實現(xiàn):首先將原始時間序列按照從小到大的順序排列,然后將整個序列劃分為N段長度相同的區(qū)間,最后將每個區(qū)間對應(yīng)到一個符號即完成了符號化。這些基于值域的符號化方法(例如,等區(qū)間的統(tǒng)一劃分,等概率的最大信息熵劃分)在大多數(shù)情況下是有效的,但是機(jī)械系統(tǒng)的運行狀態(tài)與時間序列概率分布是密切相關(guān)的,符號化過程當(dāng)中不考慮其分布將會導(dǎo)致符號化后的信息丟失。另一類是基于分布的符號化方法,這類方法基于時間序列符合高斯分布假設(shè)。例如,Lin假設(shè)時間序列符合高斯分布(N(0,1)),然后根據(jù)高斯分布確定“斷點”以得到若干等概率的區(qū)域[5]。然而實際應(yīng)用中時間序列可能形成于一種未知的動力系統(tǒng)或者伴隨著不同水平的噪聲,這將導(dǎo)致時間序列實際分布與高斯分布相差甚遠(yuǎn)。所以基于分布的符號化方法有一定的局限性,不是一種普遍適用的方法。受上述研究的啟發(fā),本文提出一種稱為概率密度空間劃分的符號化方法。概率密度符號化方法結(jié)合了基于值域的符號化方法與基于分布的符號化方法的優(yōu)點。該方法首先對原始時間序列進(jìn)行統(tǒng)計分析并計算其概率密度圖,然后選擇時間序列的平均值作為概率密度圖的中心點,以中心點為對稱中心時間序列將被劃分為等概率的若干區(qū)域,之后將每個區(qū)域映射到一個符號。通過上述步驟,可以得到基于概率密度符號化方法的符號序列。為了對符號序列進(jìn)行異常檢測,最后對符號化時間序列進(jìn)行編碼。本文第二部分將介紹符號化時間序列分析的理論背景以及概率密度符號化方法的實現(xiàn);第三部分通過實際軸承疲勞實驗數(shù)據(jù)驗證算法并與其他劃分方法的檢測效果進(jìn)行比較,最后一部分得出結(jié)論。
時間序列的符號化分析分為兩步[6,7]:先將時間序列轉(zhuǎn)化為符號序列,再對符號序列進(jìn)行統(tǒng)計分析。
為了詳細(xì)介紹算法流程,先定義以下變量:xn={x(1),x(2),…,x(n)}表示直接從傳感器獲得的時間序列。而原始時間序列xn的符號化表示為sn={s(1),s(2),…,s(n)}。其中sn通過將xn劃分為q(q≥2)個不相交的區(qū)域并且將每個區(qū)域映射到一個符號s(i)∈{0,1,2,… ,q-1}=S,其中符號集S是有限個符號的集合,集合的大小為q。符號化過程所采用的空間劃分方法對接下來的符號序列統(tǒng)計分析影響十分重大。在下一小節(jié),將會詳細(xì)介紹文中提出的概率密度符號化方法。
要將時間序列符號化,首先要選擇符號集S的大小q,這是目前還有待研究的一個問題。若q太小將導(dǎo)致“粗?;边^程當(dāng)中原始時間序列有用信息丟失;若q太大將會導(dǎo)致計算效率大大降低。文獻(xiàn)[3~5]選擇q=2,3,4。為了闡述符號化的原理,在這里選取q=4簡化說明
(1)
式中Ci為對xn進(jìn)行空間劃分得到的不相交集合。通過上述閾值函數(shù),時間序列xn被轉(zhuǎn)化符號序列sn。
在將獲取的時間序列轉(zhuǎn)化為符號序列之后,為了提取符號序列當(dāng)中的特征信息需要對其編碼[8]。首先選擇一個標(biāo)準(zhǔn)長度L(L≥2),L個連續(xù)的符號組成一個字,每個字被編碼成qL進(jìn)制,這樣就形成了新的編碼序列。圖1為L=4,q=4時符號序列的編碼示意圖。
圖1 編碼示意圖(L=4, q=4)
符號序列當(dāng)中所含有的特征信息可以通過對編碼序列進(jìn)行統(tǒng)計學(xué)分析提取出來。對編碼序列的分析方法有很多種,最常見的方法有信息熵法、標(biāo)準(zhǔn)差法。香農(nóng)熵是通過計算編碼序列的復(fù)雜度來確定系統(tǒng)的運行狀態(tài)。香農(nóng)熵越大則表示編碼序列復(fù)雜度大,進(jìn)而可以確定系統(tǒng)的不穩(wěn)定性較大[9]。標(biāo)準(zhǔn)差法通過計算編碼序列的標(biāo)準(zhǔn)差來衡量系統(tǒng)的運行狀態(tài),當(dāng)機(jī)械系統(tǒng)運行正常時其編碼序列的標(biāo)準(zhǔn)差較小,同時它會隨著機(jī)械系統(tǒng)故障程度的加深而增大[10]。鑒于標(biāo)準(zhǔn)差法計算效率較高,本算法當(dāng)中選取標(biāo)準(zhǔn)差法來對編碼序列進(jìn)行統(tǒng)計分析。
綜上所述,符號化時間序列分析異常檢測方法流程如圖2所示。
圖2 符號化時間序列分析異常檢測算法流程圖
具體步驟如下所示:
(1)符號化:確定符號化當(dāng)中符號集大小q,并選取劃分方法將原始時間序列xn進(jìn)行符號化。為了對比概率密度劃分方法與其他符號化方法,本文中統(tǒng)一選取q=4。
(2)編碼:確定編碼字長L,并對符號序列sn進(jìn)行編碼。
(3)統(tǒng)計學(xué)分析:對編碼序列進(jìn)行統(tǒng)計學(xué)分析,本文中選取標(biāo)準(zhǔn)差為特征量。
(4)異常檢測:將統(tǒng)計學(xué)分析中獲得的表征系統(tǒng)運行狀況的特征量與正常時系統(tǒng)運行特征量進(jìn)行對比,從而判斷當(dāng)前系統(tǒng)運行狀況。
為了對原始時間序列進(jìn)行概率密度劃分,可以假設(shè)原始時間序列為連續(xù)型隨機(jī)變量。然后對其進(jìn)行數(shù)理統(tǒng)計分析,可以得到其概率密度函數(shù)f(x) 。密度函數(shù)f(x) 有如下性質(zhì):
(a)f(x)≥0;
上述式子中,P(a 在確定概率密度函數(shù)f(x) 之后,選擇時間序列的平均值xave作為中心點,可以按照下式分別計算右概率函數(shù)Fr(x) 和左概率函數(shù)Fl(x): (2) (3) 式中Fr(x) 表示時間序列當(dāng)中取值在中心點xave到xave+x之間的概率。同理Fl(x)表示時間序列取值在(xave-x,xave]之間的概率。 接下來需要將原始時間序列進(jìn)行空間劃分, 即將其劃分為q個區(qū)域。由于每個區(qū)域是連續(xù)的,所以其可以由兩端“斷點”來確定?!皵帱c”是一系列點的集合,例如,概率密度劃分P=[P1,…,Pi,…,Pq-2Pq-1],其中“斷點”Pi到“斷點”Pi+1為一個劃分區(qū)域并且該區(qū)域的概率為1/q。根據(jù)符號集q的奇偶性,“斷點”由兩種不同的方式確定。如果q為偶數(shù),按照表1來確定“斷點”。如果q為大于2的奇數(shù),其“斷點”的確定方式如表2所示。 表1 偶數(shù)符號化斷點 表2 奇數(shù)符號化斷點 得到“斷點”之后,空間劃分的q個區(qū)域也就確定了。通過類似式(1)當(dāng)中的閾值函數(shù),原始時間序列將被轉(zhuǎn)化為符號化時間序列。如圖3所示為對實際機(jī)械振動信號進(jìn)行概率密度劃分的實例。其中圖3(a)為原始信號,圖3(b)為概率密度分布圖。按照上述劃分方法,信號被劃分為4(q=4)個區(qū)間,每個區(qū)間分別表示為符號“0”, “1”,“2” ,“3”。 圖3 概率密度劃分示例 為了在實際實驗中檢驗本劃分方法的有效性,將基于概率密度劃分的符號化方法應(yīng)用在實際軸承故障數(shù)據(jù)上進(jìn)行實驗,并對結(jié)果進(jìn)行分析。 軸承疲勞實驗數(shù)據(jù)來自美國智能維護(hù)系統(tǒng)中心(IMS)[11],實驗裝置如圖4所示。一個軸上安裝了4套Rexnord ZA-2115 雙列滾子軸承,每列滾子數(shù)量為16,滾子組節(jié)圓直徑為75.501 mm,滾子直徑為8.470 74 mm,接觸角為15.17°。軸的轉(zhuǎn)速保持2 000 r/min恒定不變,通過彈簧裝置在軸上加載6 000 lb(2 721.554 kg)的徑向載荷。所有軸承潤滑固定,并且每個軸承座都安裝2個PCB加速度傳感器用來采集軸承的振動數(shù)據(jù)。振動信號由NI公司DAQCard-6062E數(shù)據(jù)采集卡每隔10 min采集一次,采樣長度為20 480個點,采樣頻率為20 kHz。試驗臺中的4套軸承從2月12日11∶16∶18運行至2月19日06∶22∶39,一共采集到984個文件數(shù)據(jù)。在疲勞實驗結(jié)束時,軸承1檢測到外圈故障。 圖4 軸承實驗裝置 對軸承1的振動數(shù)據(jù)進(jìn)行基于概率密度劃分的時間序列異常診斷。首先對軸承1的振動數(shù)據(jù)進(jìn)行統(tǒng)計學(xué)分析,從而得到時間序列的概率密度分布。然后確定符號集q的大小。采用較大的q值劃分之后的符號序列中含有更多的細(xì)節(jié)信息,但是這也會導(dǎo)致由噪聲引起的錯誤符號增多,同時計算量也大大提高。采用較小的q值劃分,則可能導(dǎo)致信息丟失[12]。合理的選取q值是很重要的,但是q值的選取不是本文主要研究內(nèi)容。在本實驗當(dāng)中,參照以往文獻(xiàn)經(jīng)驗性地選取符號集q=4。在完成對符號序列編碼之后,每個文件編碼序列的標(biāo)準(zhǔn)差如圖5所示。編碼序列的標(biāo)準(zhǔn)差越大,則其偏離正常狀態(tài)越遠(yuǎn)。由于疲勞試驗前期(前540個點)軸承處于健康狀態(tài),所以其編碼序列標(biāo)準(zhǔn)差比較平穩(wěn)并且處于較低水平。在541點時編碼序列標(biāo)準(zhǔn)差檢測到劇烈的增長,可以判斷軸承故障在此時開始。編碼序列的標(biāo)準(zhǔn)差隨著故障程度的加深也逐漸增大。 為了檢驗基于概率密度劃分符號序列分析算法的優(yōu)劣,進(jìn)行了對比實驗2。在對比試驗2中不采用符號序列分析方法,直接計算原始時間序列的標(biāo)準(zhǔn)差,其實驗結(jié)果如圖6所示。從圖中可以看到在741點時標(biāo)準(zhǔn)差有劇烈增長,由異常檢測原理可以判斷該點為故障的起始點。與實驗1的結(jié)果對比,檢測到異常起始點滯后了200個點。本次對比實驗可以證明基于概率密度劃分的符號化方法對于系統(tǒng)中的異常更加敏感。 圖5 基于概率密度劃分符號序列分析結(jié)果 圖6 原始時間序列標(biāo)準(zhǔn)差分析結(jié)果 對比實驗3使用傳統(tǒng)統(tǒng)一劃分的STSA算法與本文方法進(jìn)行比較。實驗結(jié)果如圖7所示。通過曲線可以觀察到,當(dāng)軸承處于健康狀態(tài)時,曲線較為平穩(wěn)。但是當(dāng)異常發(fā)生時曲線發(fā)生劇烈的抖動,從而導(dǎo)致人們無法判斷異常起始點。從本實驗可以看到劃分方法對于基于符號化時間序列分析異常診斷的影響,同時此實驗結(jié)果也證明概率密度符號化方法相比統(tǒng)一劃分方法更好。 圖7 基于統(tǒng)一劃分符號序列分析結(jié)果 在符號化時間序列分析當(dāng)中,生成符號化序列這一步至關(guān)重要。本文提出了一種新穎的符號化方法,該方法利用原始時間序列的概率密度分布來對其劃分,具有適用性強(qiáng)、符號化效果好的特點。同時將基于概率密度劃分的STSA應(yīng)用于實際軸承系統(tǒng)的異常診斷中。對比實驗結(jié)果表明,相比直接標(biāo)準(zhǔn)差分析,本文提出的基于概率密度劃分的符號化方法對于軸承的異常信息更加敏感,能夠更早地發(fā)現(xiàn)故障。這對于故障的預(yù)防、軸承維護(hù)、安全生產(chǎn)具有重大意義。通過對比實驗進(jìn)一步發(fā)現(xiàn),概率密度符號化方法相比于傳統(tǒng)的統(tǒng)一劃分在軸承的異常診斷當(dāng)中更加有效、穩(wěn)定。 本文當(dāng)中也存在一些不足之處,例如未對符號集q的大小以及編碼序列長度L進(jìn)行細(xì)致的研究,只是根據(jù)以往文獻(xiàn)經(jīng)驗性地取值。然而這些取值對與符號化時間序列分析具有很大的影響,這些問題需要更加深入的研究和驗證。 參考文獻(xiàn): [1] 何正嘉, 陳進(jìn), 王太勇. 機(jī)械故障診斷理論及應(yīng)用[M].北京:高等教育出版社,2010.He Z J, Chen Jin , Wang T Y. Theories and Applications of Machinery Fault Diagnostics[M]. Beijing:Higher Education Press, 2010. [2] 郭勁松, 衛(wèi)武迪. 基于稀疏符號時間序列分析的轉(zhuǎn)子碰摩故障早期檢測方法[J]. 振動與沖擊, 2008, 27(12): 148—150.Guo J S, Wei W D.Methods for identification and early detection of rub-impact fault in rotors based sparse symbolic time series analysis[J]. Journal of Vibration and Shock, 2008, 27(12): 148—150. [3] Ray A, Symbolic dynamics analysis of complex for anomaly detection[J]. Signal Processing, 2004, 84(7):1 115—1 130. [4] Rajagopalan V, Ray A. Symbolic time series analysis via wavelet-based partitioning[J]. Signal Processing, 2006, 86:3 309—3 320. [5] Lin J, Keogh E, Lonardi S, et al. A symbolic representation of time series with implications for streaming algorithms[A].Proceedings of the 8th ACM SIGMOD workshop on Research Issues in Data Mining and Knowledge Discovery[C]. ACM, 2003: 2—11. [6] 王妍, 徐偉. Lorenz 系統(tǒng)中時間序列的相空間重構(gòu)方法與特性[J]. 振動工程學(xué)報, 2006, 19(2): 277—282.Wang Y, Xu W. The methods and performance of phase spacereconstruction for the time series in Lorenz system[J].Journal of Vibration Engineering, 2006, 19(2): 277—282. [7] Daw C S, Finney C E A, Tracy E R. A review of symbolic analysis of experimental data[J]. Review of Scientific Instruments, 2003, 74(2): 915—930. [8] Das G, Lin K I, Mannila H, et al. Rule discovery from time series[J]. Knowledge Discovery and Data Mining, 1998,98:16—22. [9] Tang X Z, Tracy E R, Boozer A D, et al. Symbol sequence statistics in noisy chaotic signal reconstruction[J]. Physical Review E, 1995, 51(5): 3 871—3 889. [10] Bishop C M. Pattern recognition and machine learning[M]. New York: Springer, 2006. [11] Qiu H,Lee J,Lin J,et al. Robust performance degradation assessment methods for enhanced rolling element bearing prognostics[J].Advanced Engineering Informatics,2003,17(3):127—140. [12] Finney C E A, Nguyen K, Daw C S, et al. Symbol-sequence statistics for monitoring fluidization[J]. ASME HEAT TRANSFER DIV PUBL HTD, 1998, 361: 405—412.3 實驗驗證
4 結(jié) 論