李偉賀 陳志軍 鄭建軍
(新疆大學(xué)電氣工程學(xué)院,烏魯木齊 830047)
電梯屬于特種設(shè)備,其結(jié)構(gòu)復(fù)雜、可靠性要求高,國(guó)家對(duì)其質(zhì)量和安全提出了嚴(yán)格的要求,電梯故障診斷技術(shù)成為了電梯行業(yè)技術(shù)改造的重心之一。電梯發(fā)生故障時(shí)輕則可能會(huì)造成財(cái)產(chǎn)損失,重則造成人員傷亡,所以電梯的安全問(wèn)題變得尤為重要。統(tǒng)計(jì)表明,電梯事故占重大特種設(shè)備事故總數(shù)的21%,電梯運(yùn)行的安全問(wèn)題已經(jīng)引起社會(huì)大眾的廣泛關(guān)注,據(jù)對(duì)運(yùn)行了5~10年的電梯進(jìn)行故障統(tǒng)計(jì),一部電梯平均每年發(fā)生36.5次機(jī)械、電氣等一般故障,以及33次沖頂、夾人等對(duì)設(shè)備和人身安全危害較大的事故[1],電梯的安全問(wèn)題受到社會(huì)的廣泛關(guān)注。
電梯是一種高維、強(qiáng)非線性和強(qiáng)耦合的特殊機(jī)電設(shè)備,其故障具有突發(fā)性、多樣性、不確定性、并存性及漸進(jìn)性等特點(diǎn),難以使用物理和數(shù)學(xué)模型準(zhǔn)確描述故障部位和原因,而且在實(shí)際中不可能采集各種電梯的所有特征信號(hào),多年來(lái)國(guó)內(nèi)外學(xué)者對(duì)其故障診斷進(jìn)行了研究并提出了多種故障診斷算法。Niu G等為了實(shí)時(shí)、快速診斷電梯曳引機(jī)故障,使用了貝葉斯理論決策融合多個(gè)智能分類(lèi)器的診斷結(jié)果,有效調(diào)高了故障診斷的準(zhǔn)確率,在實(shí)踐中取得了較好的效果[2]。針對(duì)電梯系統(tǒng)復(fù)雜、難以建模和具有離散時(shí)間動(dòng)態(tài)系統(tǒng)的典型特征,宗群等采用了隨機(jī)自動(dòng)機(jī)的離散事件動(dòng)態(tài)系統(tǒng)(DEDS)故障診斷方法、BP神經(jīng)網(wǎng)絡(luò)及神經(jīng)網(wǎng)絡(luò)模糊Petri(FFPTN)模型等方法,完成了對(duì)電梯門(mén)系統(tǒng)的故障診斷[3]。但神經(jīng)網(wǎng)絡(luò)屬于傳統(tǒng)統(tǒng)計(jì)學(xué)方法中的樣本數(shù)目無(wú)窮大漸進(jìn)理論,在實(shí)際中對(duì)復(fù)雜機(jī)械設(shè)備故障診斷時(shí),需要大量的故障數(shù)據(jù),這在實(shí)際應(yīng)用中是很困難的,從而制約了神經(jīng)網(wǎng)絡(luò)在智能故障診斷中的進(jìn)一步應(yīng)用與發(fā)展[4]。因電梯制動(dòng)器失效而引發(fā)電梯傷人事件,針對(duì)電梯制動(dòng)器故障特點(diǎn),Wang P等將小波包變換和支持向量機(jī)相結(jié)合應(yīng)用于電梯制動(dòng)器故障診斷,有效實(shí)現(xiàn)了電梯制動(dòng)器的狀態(tài)監(jiān)測(cè)和故障診斷[5]。SVM(Support Vector Machine)采用結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,具有很強(qiáng)的泛化能力,克服了神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)方法中網(wǎng)絡(luò)結(jié)構(gòu)難以確定、收斂速度慢、過(guò)學(xué)習(xí)與欠學(xué)習(xí)以及訓(xùn)練時(shí)需要大量數(shù)據(jù)樣本等缺點(diǎn),但其模型參數(shù)的選擇影響了模型學(xué)習(xí)能力和最終診斷準(zhǔn)確率[6,7]。
針對(duì)上述問(wèn)題,筆者利用核主元成分分析在高維空間具有較強(qiáng)的特征選取能力和隨機(jī)森林優(yōu)秀的故障辨識(shí)能力,通過(guò)核主元成分分析法將原始特征樣本映射到高維特征空間提取主元,構(gòu)造新的特征樣本,再利用隨機(jī)森林模型進(jìn)行電梯急停故障診斷。
核主成分分析(KPCA)是線性主成分分析(PCA)的非線性擴(kuò)展算法,采用非線性的方法抽取主成分,即KPCA是通過(guò)映射函數(shù)Φ:Rm→F把原始向量x映射到高維空間F,在F上進(jìn)行PCA分析。KPCA不僅適合于解決非線性特征提取問(wèn)題,而且它還能比PCA提供更多的特征數(shù)目和更高的特征質(zhì)量。
對(duì)于給定的樣本x1,x2,…,xN∈Rm,通過(guò)非線性映射函數(shù)Φ映射到高維特征空間F,Φ(xi)的協(xié)方差矩陣為:
(1)
其中C為協(xié)方差矩陣,對(duì)C進(jìn)行特征值分解,得到:
λV=CV
(2)
式中λ、V——C的特征值矩陣和特征向量。
特征向量V∈span{Φ(x1),Φ(x2),…,Φ(xN)},存在a1,…,an,使得:
(3)
其中ai為常系數(shù)。定義核矩陣K和核函數(shù)為:
(4)
將式(3)、(4)代入式(1),將求特征向量V轉(zhuǎn)化為求核矩陣K的特征值和特征向量:
Nλa=Ka
(5)
設(shè)ak表示λk對(duì)應(yīng)的特征向量,樣本Φ(x)在F中vk方向的投影為:
(6)
決策樹(shù)分為分類(lèi)樹(shù)與回歸樹(shù),顧名思義,一個(gè)用于分類(lèi),一個(gè)用于回歸。此處從模式識(shí)別的角度闡述決策樹(shù)的分類(lèi)功能。決策樹(shù)可以視為一個(gè)樹(shù)狀預(yù)測(cè)模型,它是由節(jié)點(diǎn)和有向邊組成的層次結(jié)構(gòu),如圖1所示。樹(shù)中包含3個(gè)節(jié)點(diǎn):根節(jié)點(diǎn)、內(nèi)部節(jié)點(diǎn)、葉節(jié)點(diǎn)。決策樹(shù)只有一個(gè)根節(jié)點(diǎn),是全體訓(xùn)練集的集合。樹(shù)中的每個(gè)內(nèi)部節(jié)點(diǎn)都是一個(gè)分裂問(wèn)題,它將到達(dá)該節(jié)點(diǎn)的樣本按某個(gè)特定的屬性進(jìn)行分割,可以將數(shù)據(jù)集合分割成兩塊或若干塊。每個(gè)葉節(jié)點(diǎn)是帶有分裂標(biāo)簽的數(shù)據(jù)集合,從決策樹(shù)的根節(jié)點(diǎn)到葉節(jié)點(diǎn)的每一條路徑都形成一個(gè)類(lèi);決策樹(shù)的算法很多,例如ID3算法及CART(Classification and Regression Tree)算法等。這些算法均采用自上而下的貪婪算法,每個(gè)內(nèi)部節(jié)點(diǎn)選擇分類(lèi)效果最好的屬性進(jìn)行分裂節(jié)點(diǎn),可以分為兩個(gè)或若干個(gè)子節(jié)點(diǎn),繼續(xù)此過(guò)程,直到這棵決策樹(shù)能夠?qū)⑷坑?xùn)練樣本準(zhǔn)確分類(lèi),或所有屬性都被用盡為止。
圖1 決策樹(shù)分類(lèi)原理
隨機(jī)森林是Leo Breiman于2001年提出來(lái)的,是結(jié)合Breimans 的“Bootstrap aggregating”和Ho的“random subspace method”思想建造多個(gè)決策樹(shù)的分類(lèi)器。建立隨機(jī)森林的基本思想是:通過(guò)自助法(bootstrap)重采樣技術(shù),不斷生成訓(xùn)練樣本和測(cè)試樣本,由訓(xùn)練樣本生成多個(gè)分類(lèi)樹(shù)組成隨機(jī)森林,測(cè)試數(shù)據(jù)的分類(lèi)結(jié)果按分類(lèi)樹(shù)投票多少形成的分?jǐn)?shù)而定。因此隨機(jī)森林具有很高的分類(lèi)準(zhǔn)確率,對(duì)異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過(guò)擬合。
隨機(jī)森林作為一種非線性建模工具,目前廣泛運(yùn)用于數(shù)據(jù)挖掘、生物信息學(xué)(醫(yī)學(xué)診斷)及經(jīng)濟(jì)金融等領(lǐng)域。近年來(lái),隨機(jī)森林在故障診斷領(lǐng)域也開(kāi)始嶄露頭角。Yang B S等將隨機(jī)森林與遺傳算法相結(jié)合應(yīng)用于電機(jī)故障診斷,并將該方法分別與采用SVM、ART-KNN和CART的診斷結(jié)果進(jìn)行對(duì)比,結(jié)果表明:隨機(jī)森林診斷速度更快,精度更高[8]。胡青等將KPCA-RF模型成功運(yùn)用于變壓器故障診斷,診斷結(jié)果表明:隨機(jī)森林診斷效果理想,而且抗干擾能力強(qiáng)[9]。
隨機(jī)森林具有以下優(yōu)點(diǎn):
a. 只有3個(gè)參數(shù),使用默認(rèn)的參數(shù)即可得到很好的效果;
b. 能夠?qū)μ卣鞯牡闹匾远颗袛啵欣谶M(jìn)行特征選擇操作;
c. 運(yùn)行速度非??欤苊膺^(guò)擬合問(wèn)題,分類(lèi)精度高,穩(wěn)定性好;
d. 能夠處理部分?jǐn)?shù)據(jù)丟失問(wèn)題;
e. 隨機(jī)森林保留了多值分類(lèi)的特性,適合處理多值分類(lèi)問(wèn)題[10]。
隨機(jī)森林算法實(shí)現(xiàn)步驟為:
a. 采用bootstrap重采樣技術(shù)從原始數(shù)據(jù)集中抽取ntree個(gè)訓(xùn)練集,每個(gè)訓(xùn)練集的大小約為原始數(shù)據(jù)集的2/3。
b. 為每一個(gè)bootstrap訓(xùn)練集分別建立CART,共產(chǎn)生ntree棵決策樹(shù)構(gòu)成一片“森林”,這些決策樹(shù)均不進(jìn)行剪枝。在每棵樹(shù)生長(zhǎng)過(guò)程中,并不選擇全部M個(gè)屬性中的最優(yōu)屬性作為內(nèi)部節(jié)點(diǎn)進(jìn)行分裂,而是從隨機(jī)選擇的mtry≤M個(gè)屬性中選擇最優(yōu)屬性進(jìn)行分裂。
c. 集合ntree棵決策樹(shù)的預(yù)測(cè)結(jié)果,采用投票的方式?jīng)Q定新樣本的類(lèi)別。
隨機(jī)森林在訓(xùn)練過(guò)程中的每次bootstrap抽樣,將有約1/3的數(shù)據(jù)未被抽中,這部分?jǐn)?shù)據(jù)被稱(chēng)為袋外(out-of-bag)數(shù)據(jù)。隨機(jī)森林利用這部分?jǐn)?shù)據(jù)進(jìn)行內(nèi)部的誤差估計(jì),產(chǎn)生OOB誤差(out-of-bag error)。Breiman通過(guò)實(shí)驗(yàn)證明:OOB誤差是無(wú)偏估計(jì),近似于交叉驗(yàn)證得到的誤差。
利用核主元成分分析方法對(duì)特征樣本進(jìn)行降維處理,消除特征之間的相關(guān)性,提取達(dá)到需要的累積貢獻(xiàn)率主元特征,再利用隨機(jī)森林對(duì)提取的主元進(jìn)行電梯急停故障診斷。基于KPCA-RF模型的電梯急停故障診斷具體步驟為:
a. 對(duì)特征樣本進(jìn)行歸一化處理,歸一到[0,1]之間,以消除量綱影響,有助于加快診斷模型訓(xùn)練速度。歸一化公式為:y=(ymax-ymin)·(x-xmin)/(xmax-xmin)+ymin。
b. 實(shí)際采樣時(shí)可能引入一定的噪聲,為了檢驗(yàn)?zāi)P偷目垢蓴_能力,對(duì)采樣特征樣本加入隨機(jī)噪聲。設(shè)D1為加入噪聲前的試驗(yàn)特征樣本矩陣,加入噪聲后的試驗(yàn)特征樣本矩陣D2(i,j)=D1(i,j)×[1+α×rands(1)],噪聲控制系數(shù)α=0.0、0.2、0.5、0.8;rands(1)用于生成-1~1的隨機(jī)函數(shù)。
c. 利用公式(1)~(6)進(jìn)行核主元選取,并確定核主元數(shù)量,得到新的特征樣本矩陣D3。
d. 選擇適當(dāng)?shù)腞F模型參數(shù):樹(shù)節(jié)點(diǎn)預(yù)選的變量個(gè)數(shù)mtry和隨機(jī)森林中決策樹(shù)的個(gè)數(shù)ntree,使用訓(xùn)練集訓(xùn)練RF模型,完成RF模型的建立。
e. 使用測(cè)試集檢驗(yàn)訓(xùn)練好的RF模型,并適當(dāng)調(diào)整相關(guān)參數(shù)。
f. 使用建立好的KPCA-RF模型進(jìn)行故障診斷。
筆者采用加州大學(xué)的UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)Wine數(shù)據(jù)集(該數(shù)據(jù)集包含3種不同品質(zhì)葡萄酒,共178組樣本,每個(gè)樣本包含13個(gè)特征),來(lái)驗(yàn)證KPCA-RF模型的分類(lèi)性能。其中特征樣本的降維結(jié)果如圖2所示。
圖2 KPCA進(jìn)行特征樣本降維結(jié)果
由圖2可知,使用KPCA能夠有效對(duì)特征樣本進(jìn)行降維,其中降維后的前8個(gè)主元的累積貢獻(xiàn)率就高達(dá)90%,所以取前8個(gè)主成分取代初始樣本集,作為隨機(jī)森林的輸入。從圖3分類(lèi)正確率隨KPCA主元個(gè)數(shù)變化曲線可明顯看出,特征向量的主元個(gè)數(shù)為8時(shí),達(dá)到最優(yōu)的診斷準(zhǔn)確率96%。在最優(yōu)主元個(gè)數(shù)附近,當(dāng)減小主元個(gè)數(shù)時(shí),引起信息丟失,從而導(dǎo)致識(shí)別率下降;當(dāng)增大主元個(gè)數(shù)時(shí),識(shí)別率也會(huì)下降,因?yàn)樘崛〉母嗵卣髦邪哂嗟男畔ⅲ瑥亩鴮?dǎo)致分類(lèi)性能的惡化,因此,KPCA有助于消除特征樣本的非線性,提取有效特征樣本,提高分類(lèi)器分類(lèi)速度。
圖3 分類(lèi)正確率隨KPCA主元個(gè)數(shù)變化曲線
由圖4 KPCA-RF模型的預(yù)測(cè)分類(lèi)結(jié)果可知,在90組測(cè)試樣本中,只有兩組未能正確識(shí)別,KPCA-RA模型識(shí)別準(zhǔn)確率高達(dá)97.8%。
圖4 基于KPCA-RF模型的預(yù)測(cè)分類(lèi)結(jié)果
為了驗(yàn)證KPCA-RF診斷模型的魯棒性、快速性和診斷準(zhǔn)確率,將KPCA-RF與BPNN、SVM、LSSVM分別進(jìn)行電梯急停故障診斷對(duì)比實(shí)驗(yàn)研究。
在以上理論基礎(chǔ)之上,進(jìn)行實(shí)驗(yàn)驗(yàn)證。以33個(gè)正常樣本和7個(gè)故障樣本作為訓(xùn)練樣本,取另外任意8個(gè)作為測(cè)試樣本(包括5個(gè)正常和3個(gè)故障)。其中,特征樣本是以最優(yōu)小波包技術(shù)和時(shí)域特征提取的9個(gè)特征參數(shù),時(shí)域特征量為4個(gè)(即Z向的峭度、X和Y向的峰峰值,曳引機(jī)溫度),頻特征量為5個(gè)小波包能量譜,經(jīng)歸一化處理后作為KPCA-RF模型的輸入量,輸出量為電梯轎廂急停狀態(tài)評(píng)估結(jié)果。
評(píng)估實(shí)驗(yàn)結(jié)果見(jiàn)表1,在運(yùn)行速度上,KPCA-RF性能與BPNN相當(dāng),在評(píng)估準(zhǔn)確率上,KPCA-RF性能與SVM相當(dāng)。模型的評(píng)估準(zhǔn)確率受到噪聲控制系數(shù)α影響,當(dāng)特征樣本數(shù)據(jù)中不包含噪聲(α=0)或噪聲較小(α=0.2)時(shí),4種模型均能達(dá)到很高的評(píng)估準(zhǔn)確率。當(dāng)特征樣本數(shù)據(jù)噪聲較大(α=0.5、0.8)時(shí),4種模型的評(píng)估準(zhǔn)確率均出現(xiàn)下降,但KPCA-RF模型評(píng)估準(zhǔn)確率下降幅度不大,顯示出KPCA-RF模型具有更好的魯棒性和更高的穩(wěn)定性。
表1 故障診斷結(jié)果對(duì)比
采用基于核主元成分分析和隨機(jī)森林算法相結(jié)合的電梯急停故障診斷的新方法,具有較高的評(píng)估準(zhǔn)確率。仿真結(jié)果表明,在有噪聲干擾的情況下,采用KPCA-RF模型進(jìn)行電梯急停故障診斷,在抗干擾能力及故障診斷準(zhǔn)確率等方面有明顯的優(yōu)勢(shì),在實(shí)際工程應(yīng)用中有很高的應(yīng)用和參考價(jià)值。