(浙江理工大學(xué) 信息學(xué)院,浙江 杭州 310018)
現(xiàn)代社會(huì)機(jī)械設(shè)備構(gòu)造復(fù)雜且生產(chǎn)環(huán)境多樣,在自動(dòng)化程度高的生產(chǎn)線上一旦機(jī)器發(fā)生故障,將給生產(chǎn)作業(yè)帶來不同程度的損失。通用設(shè)備配有相當(dāng)數(shù)量的滾動(dòng)軸承。據(jù)統(tǒng)計(jì),只有不到一成的軸承能夠正常運(yùn)行到預(yù)期壽命年限,大多數(shù)軸承在使用年限內(nèi)出現(xiàn)故障后,其造成的機(jī)器生產(chǎn)損失遠(yuǎn)大于軸承自身價(jià)值。滾動(dòng)軸承使用場景多樣,因此及時(shí)準(zhǔn)確診斷軸承狀況可減少生產(chǎn)損失,相關(guān)研究具有十分重要的意義。
機(jī)器故障診斷技術(shù)主要分兩個(gè)階段:第一個(gè)階段以傳感器和信號(hào)技術(shù)為基礎(chǔ),以信號(hào)處理作為手段進(jìn)行故障診斷;第二個(gè)階段以機(jī)器學(xué)習(xí)算法為代表進(jìn)行人工智能診斷[1]。對于滾動(dòng)軸承故障診斷,主要利用以支持向量機(jī)(Support Vector Machine,SVM)為代表的人工智能領(lǐng)域算法。支持向量機(jī)是基于統(tǒng)計(jì)學(xué)的分類方法[2],通過使用不同方法尋找多維超平面實(shí)現(xiàn)多維非線性數(shù)據(jù)分類和預(yù)測任務(wù),此外支持向量機(jī)因易操作、自學(xué)習(xí)和比較強(qiáng)的泛化能力等特點(diǎn),在機(jī)械故障診斷方面的應(yīng)用較多,也積累了豐富的研究成果[3-5]。支持向量機(jī)分類效果很大程度上取決于參數(shù)選擇(如懲罰參數(shù)C 和核函數(shù)參數(shù)G)[6],故一些學(xué)者通過智能搜索算法尋優(yōu)支持向量機(jī)參數(shù)。方清等[7]提出粒子群(Particle Swarm Optimization,PSO)改進(jìn)支持向量機(jī)算法,進(jìn)行數(shù)據(jù)分類和趨勢預(yù)測,針對滾動(dòng)軸承故障的分類實(shí)驗(yàn)取得了良好效果;胡勤等[8]通過遺傳算法(Geneti?cAlgorithm,GA)改進(jìn)支持向量機(jī)算法進(jìn)行滾動(dòng)軸承的故障診斷,較SVM 耗時(shí)短且精度高。但遺傳算法在解決規(guī)模計(jì)算問題時(shí)容易陷入早熟和搜索效率低的問題,粒子群算法容易陷入局部最優(yōu)、過早收斂從而無法尋到全局最優(yōu)解[9-11]。
本文利用基于PSO 算法與遺傳算法GA 的混合算法GAPSO 搜尋SVM 最優(yōu)參數(shù),利用改進(jìn)算法對實(shí)驗(yàn)數(shù)據(jù)進(jìn)行測試,并將測試結(jié)果分別與GA-SVM、PSO-SVM 進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,GAPSO-SVM 算法可提高滾動(dòng)軸承故障分類模型準(zhǔn)確率,評價(jià)結(jié)果更優(yōu)。
SVM 是監(jiān)督學(xué)習(xí)中最有影響力的方法之一。其基本模型是定義在空間上最大間隔的線性分類器,由于其遵循經(jīng)驗(yàn)風(fēng)險(xiǎn)與置信風(fēng)險(xiǎn)之和最小化(即結(jié)構(gòu)風(fēng)險(xiǎn))原理,因此SVM 泛化能力強(qiáng)。SVM 學(xué)習(xí)策略是使間隔最大化,對于已知數(shù)據(jù)集:T={(x1,y1),(x2,y2),……(xn,yn)}其中,xi屬于Rn,yi屬于{+1,-1},i=1,2,…N,xi為第i個(gè)特征向量,yi為類標(biāo)記。如若yi>0,則xi屬于正類,若yi<0,則xi屬于負(fù)類。可形式化為凸二次規(guī)劃問題:
其中,ξ為松弛變量,w為超平面權(quán)系數(shù)向量,b是偏移量,C 是懲罰參數(shù)。引入拉格朗日乘子法,得到最優(yōu)分類決策函數(shù)。
本文取徑向基核函數(shù)為:
其中ai為拉格朗日乘子,K(x,xi)本文取徑向基核函數(shù),式(3)中g(shù) 為核函數(shù)參數(shù)。核函數(shù)參數(shù)g 的取值對樣本劃分精細(xì)程度有重要影響,g 越小,低維空間中選擇的曲線越復(fù)雜,容易出現(xiàn)過擬合;反之分類結(jié)果粒度越粗從而欠擬合。懲罰因子C 的取值綜合考慮了經(jīng)驗(yàn)風(fēng)險(xiǎn)與結(jié)構(gòu)風(fēng)險(xiǎn),C 越大,經(jīng)驗(yàn)風(fēng)險(xiǎn)越小,結(jié)構(gòu)風(fēng)險(xiǎn)越大,容易出現(xiàn)過擬合;C 越小,經(jīng)驗(yàn)風(fēng)險(xiǎn)越大結(jié)構(gòu)風(fēng)險(xiǎn)越小。從而出現(xiàn)欠擬合。由此可見,懲罰因子C 與核函數(shù)參數(shù)g 的取值對支持向量機(jī)的結(jié)果精度有著至關(guān)重要的作用。
粒子群算法源于模擬鳥群捕食行為的過程,對1 個(gè)粒子種群而言,所有粒子可根據(jù)群體中對環(huán)境適應(yīng)度最佳的個(gè)體位置調(diào)整自己位置,每個(gè)個(gè)體在搜索最佳適應(yīng)度值時(shí)均可看作一個(gè)D 維空間中沒有體積的微粒,通過個(gè)體和同伴的飛行經(jīng)驗(yàn)調(diào)整自身飛行速度。第i個(gè)微粒表示為xi=(xi1,xi2,…,xid),其經(jīng)歷的最好的適應(yīng)值記錄為Pd=(p1d,p2d,…,pnd),也稱為pbest。群體所有經(jīng)歷過的最好位置索引用符號(hào)g表示,即Pg,也稱為gbest。微粒i速度用Vi=(vi1,vi2,…,viD)表示。對每一代,它的第d+1 維(1≤d+1≤D)根據(jù)方程(4)、(5)進(jìn)行變化。
其中,w為慣性權(quán)重(inertia weight),c1、c2為加速常數(shù)(acceleration constants),rand()和Rand()為兩個(gè)在[0,1]范圍變化里的隨機(jī)值。
遺傳算法是借鑒生物進(jìn)化規(guī)律演化而來的隨機(jī)搜索方法,無需導(dǎo)數(shù)或其它輔助信息,直接尋求最優(yōu)適應(yīng)度。遺傳算法的選擇、交叉、變異操作可按照概率化方法確定搜索空間和搜索方向,從而確定全局最優(yōu)個(gè)體。
粒子群算法在搜索時(shí)容易陷入局部最優(yōu)從而過早收斂,對處理多峰搜索任務(wù)時(shí)效果欠佳。遺傳算法搜索能力較強(qiáng),當(dāng)設(shè)置交叉參數(shù)較大時(shí)可產(chǎn)生足夠多的新個(gè)體從而增強(qiáng)全局搜索能力,因此本文提出利用遺傳算法改進(jìn)粒子群算法。GAPSO 算法根據(jù)待優(yōu)化參數(shù)的個(gè)數(shù)生成對應(yīng)維度的粒子并進(jìn)行模型訓(xùn)練,在達(dá)到迭代次數(shù)時(shí)最佳適應(yīng)度對應(yīng)的粒子各維度參數(shù)即為尋優(yōu)的最佳參數(shù)。算法流程包含8 個(gè)步驟:①確定目標(biāo)函數(shù)。本文目標(biāo)函數(shù)為SVM 的分類結(jié)果;②種群初始化。將C、G 初始化值作為粒子個(gè)體兩個(gè)維度;③參數(shù)初始化。根據(jù)經(jīng)驗(yàn)確定算法相關(guān)參數(shù),包括粒子種群規(guī)模、每個(gè)維度上下界、迭代次數(shù)、交叉和變異概率;④適應(yīng)度計(jì)算。本文以支持向量機(jī)的的交叉驗(yàn)證準(zhǔn)確率作為適應(yīng)度;⑤確定最優(yōu)解。根據(jù)最佳適應(yīng)度大小,分別確定粒子群群體最佳極值與個(gè)體極值及遺傳算法全局極值并進(jìn)行比較;最后得到GAPSO 全局極值,判斷全局極值是否滿足條件或已到達(dá)迭代次數(shù),若是則輸出全局最優(yōu)解,否則繼續(xù)更新迭代;⑥種群更新。更新遺傳算法全局極值及粒子群算法全局和個(gè)體極值。根據(jù)改進(jìn)的選擇方法選擇種群,對種群進(jìn)行交叉和變異操作,產(chǎn)生新的粒子。新粒子更新位置和速度,并按概率進(jìn)行變異操作;⑦輸出全局最優(yōu)解。得到全局最優(yōu)的C、G;⑧將輸出的結(jié)果作為支持向量機(jī)的初始參數(shù)。
從圖1 中可以看出,相比PSO 算法,GAPSO 引入遺傳算法思想中的變異和雜交思想,一定程度上拓寬了粒子搜索空間,使粒子能在更大搜索空間搜索。遺傳算法改進(jìn)的粒子群算法按給定的概率參數(shù)進(jìn)行交叉和變異,在保持種群多樣性的同時(shí)擴(kuò)大了搜索范圍、提高了搜索到最優(yōu)值的幾率,擁有更廣泛的搜索能力。
Fig.1 GAPSO algorithm flow圖1 GAPSO 算法流程
為驗(yàn)證算法可行性和可靠性,本文從UCI 數(shù)據(jù)庫中取Wine、Iris、Heart 3 個(gè)數(shù)據(jù)集進(jìn)行GAPSO-SVM 算法驗(yàn)證與對比,算法平臺(tái)采用MATLAB2017a 軟件,實(shí)驗(yàn)環(huán)境為Windows10 操作系統(tǒng),Intel 3.1Ghz 處理器,從Libsvm 軟件庫選擇徑向基核函數(shù)工具箱。其中Wine 數(shù)據(jù)集來自意大利葡萄酒含量數(shù)據(jù),包含蘋果酸、酚類、酮類和色調(diào)等13個(gè)維度特征,共3 個(gè)分類標(biāo)簽;Iris 則是3 種鳶尾花數(shù)據(jù)集,共150 組數(shù)據(jù)包含萼片和花瓣長寬四維特征;Heart 數(shù)據(jù)集主要從易導(dǎo)致心臟病的13 個(gè)特征維度區(qū)分有無心臟病。3 種數(shù)據(jù)集劃分如表1 所示。
Table 1 Three kinds of data set sample division situation表1 3 種數(shù)據(jù)集樣本劃分
其中SVM 參數(shù)中懲罰因子C 取值范圍[0.1,100],核函數(shù)參數(shù)g 取值范圍為[0.01,1000],在GAPSO-SVM、GASVM 和PSO-SVM 算法中粒子群均為20 組,進(jìn)化迭代次數(shù)為100 次。GAPSO-SVM 和PSO-SVM 學(xué)習(xí)因子C1和C2分別取1.5 和1.7,彈性系數(shù)為1,慣性權(quán)重取值[0.1,1.0],GAPSO-SVM 中變異概率pm 取0.05,交叉概率取pc=0.5。利用這3 種分類器對這3 種數(shù)據(jù)集進(jìn)行分類。分類結(jié)果如表2 所示。
由表2 看出GAPSO-SVM 在較低迭代次數(shù)時(shí)達(dá)到全局最優(yōu),在Wine 中雖代次數(shù)花費(fèi)較高,但準(zhǔn)確率提高5.3%,在另外兩個(gè)模型中,本文算法可快速找到全局最優(yōu),在相對錯(cuò)誤率高的Heart 數(shù)據(jù)集中以85.56% 的準(zhǔn)確率進(jìn)行分類任務(wù),由此可見,該算法在分類任務(wù)中可行可靠。
Table 2 Classification results of the three diagnostic models on the data set表2 3 種診斷模型對數(shù)據(jù)集的分類結(jié)果
本文研究數(shù)據(jù)來自浙江紹興某軸承廠試驗(yàn)臺(tái)采集信號(hào),采集用傳感器為PCB PIEZOTRONICS,型號(hào)48OB,其中采樣頻率為10 240Hz,采集卡為CBOOK2000 高精度數(shù)據(jù)采集器。盡可能控制不同故障的外部環(huán)境,因此外部因素忽略不計(jì)。滾動(dòng)軸承按正常和不同故障類型分為5 類:正常、保持架故障、滾動(dòng)體故障、內(nèi)圈故障、外圈故障。不同故障振動(dòng)數(shù)據(jù)樣本見圖2。
Fig.2 Time-domain waveforms under different faults of rolling bearings圖2 滾動(dòng)軸承不同故障下的時(shí)域波形
滾動(dòng)軸承發(fā)生異常時(shí)通常會(huì)導(dǎo)致振動(dòng)信號(hào)時(shí)頻域特征參數(shù)發(fā)生變化[12-14]。本文首先對信號(hào)進(jìn)行小波降噪,然后提取時(shí)頻域特征,其中7 個(gè)時(shí)域特征為:有效值、峰峰值、峰值指標(biāo)、波形指標(biāo)、脈沖指標(biāo)、裕度指標(biāo)、峭度指標(biāo)[15],如表3 所示。
振動(dòng)頻譜通常在不同運(yùn)行狀態(tài)下有很大差別,故通過頻譜分析亦可判斷滾動(dòng)軸承故障類型。根據(jù)傅里葉技術(shù)理論,假設(shè)離散化后的振動(dòng)信號(hào)時(shí)間序列為x(n),采樣頻率為fs,采樣點(diǎn)數(shù)為N,頻譜為s(k),k=1,2,…k,k 為譜線數(shù)。本文采用6 個(gè)頻域指標(biāo),如表4 所示。
Table 3 Time domain feature samples表3 時(shí)域特征樣本
Table 4 Frequency domain feature samples表4 頻域特征樣本
表4 中F1表示振動(dòng)能量大?。籉2反映信號(hào)頻譜與信號(hào)頻譜均值的偏離程度;F3反映信號(hào)頻譜相對均值不對應(yīng)程度;F4反映了信號(hào)在均值處峰值大??;F5反映了信號(hào)主頻帶位置的變化;F6反映了頻譜集中或分散程度。將經(jīng)過小波降噪的振動(dòng)數(shù)據(jù)提取時(shí)頻域后進(jìn)行歸一化到[0,1]之間并喂入SVM 進(jìn)行訓(xùn)練。
本實(shí)驗(yàn)特征集共分為時(shí)域、頻域、時(shí)頻域特征,各特征集取正常和4 種不同的故障狀態(tài)數(shù)據(jù),各24 組共120 組訓(xùn)練模型。其中設(shè)置GAPSOSVM 中參數(shù)搜索范圍c(0.1,100),g(0.01,1 000),種群規(guī)模為20,迭代次數(shù)為100,雜交概率為0.5,變異概率取0.05,最佳適應(yīng)度采用SVM 最大交叉驗(yàn)證正確率,其中GAPSO-SVM 對時(shí)頻域特征集的適應(yīng)度曲線如圖3 所示。
由圖3 可知GAPSO 為SVM 尋優(yōu)的最佳參數(shù)cbest=38.07,gbest=0.18。其中最佳適應(yīng)度在最初幾代時(shí)陷入局部最優(yōu),但在接近迭代第42 次時(shí)跳出局部最優(yōu)尋找到全局最優(yōu),準(zhǔn)確率也達(dá)到98.75%。分類和預(yù)測數(shù)據(jù)取每種狀態(tài)8 組數(shù)據(jù)共40 數(shù)據(jù)。測試結(jié)果如圖4 所示。
Fig.3 GAPSO-SVM best fitness curve圖3 GAPSO-SVM 最佳適應(yīng)度曲線
Fig.4 GAPSOSVM test set prediction accuracy圖4 GAPSOSVM 測試集預(yù)測精度
測試樣本按每種故障和正常各取8 組,本文分別采用PSO-SVM、GA-SVM 對相同訓(xùn)練數(shù)據(jù)集和測試集進(jìn)行效果對比。結(jié)果如表5 所示。時(shí)頻域集對應(yīng)的3 種算法適應(yīng)度如圖5 所示。
Table 5 Comparison of classifier efficiencywith different features表5 不同特征下的分類器效率對比
由表5 可看出GAPSO-SVM 明顯優(yōu)于GA-SVM 和PSO-SVM 分類器。在時(shí)域和頻域單一特征集中,GAPSOSVM 分類精度達(dá)到96.26% 和95.00%,而在時(shí)頻域特征集中,精度高達(dá)97.50%,在40 個(gè)樣本中只有1 個(gè)樣本分類預(yù)測錯(cuò)誤。圖5 中最佳適應(yīng)度值的搜索曲線可以看出PSOSVM 在迭代不到10 次時(shí)即陷入局部最優(yōu),GA-SVM 在迭代接近40 次時(shí),最優(yōu)值產(chǎn)生變異,跳到適應(yīng)度較小的值后又找到局部最優(yōu),而GAPSO-SVM 則在迭代次數(shù)不超過20次時(shí)找到全局最優(yōu)。由此可見結(jié)合了遺傳思想和粒子群思想的分類器在滾動(dòng)軸承故障分類中效果較好。在實(shí)時(shí)工業(yè)作業(yè)中,故障預(yù)測精度提升可在工業(yè)生產(chǎn)中減少損失并提高生產(chǎn)效率,而本文分類算法能以較少迭代次數(shù)尋找到最優(yōu)模型,具有可觀的工業(yè)實(shí)際應(yīng)用價(jià)值。
Fig.5 Fitness curves of three optimization algorithms圖5 3 種優(yōu)化算法的適應(yīng)度曲線
本文結(jié)合遺傳算法和粒子群算法特點(diǎn),提出GAPSOSVM 算法以實(shí)現(xiàn)全局搜索與局部搜索平衡。通過雜交變異部分粒子一定程度上提高了粒子群跳出局部最優(yōu)的可能性,同時(shí)本文算法通過靈活控制雜交和變異概率、擴(kuò)大粒子個(gè)數(shù),可在復(fù)雜的分類任務(wù)中取得不錯(cuò)的效果。
GAPSO-SVM 利用SVM 自學(xué)習(xí)、易操作、泛化能力強(qiáng)等特點(diǎn),在小樣本、非線性問題上具有深度學(xué)習(xí)不可取代的優(yōu)勢,且沒有過學(xué)習(xí)和欠學(xué)習(xí)的問題,應(yīng)用場景廣泛。
利用提取后的特征集進(jìn)行分類時(shí),時(shí)域或頻域分類較時(shí)頻域集精度較低,通常需結(jié)合多個(gè)特征集進(jìn)行模型訓(xùn)練。本文通過時(shí)域、頻域及時(shí)頻域3 個(gè)數(shù)據(jù)集進(jìn)行訓(xùn)練,得出時(shí)頻域特征集表現(xiàn)最接近真實(shí)值。因此如何有效選用最具有代表的特征值進(jìn)行分類任務(wù)是值得探討的內(nèi)容。