孫 晨,文 龍,李新宇,高 亮+,叢建臣
(1.華中科技大學(xué) 數(shù)字制造裝備與技術(shù)國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430074;2.中國(guó)地質(zhì)大學(xué)(武漢) 機(jī)械與電子信息學(xué)院,湖北 武漢 430074;3.山東理工大學(xué) 機(jī)械工程學(xué)院,山東 淄博 255000)
隨著智能制造技術(shù)的發(fā)展,現(xiàn)代設(shè)備日益復(fù)雜化。面對(duì)繁瑣的工業(yè)流程和海量的工業(yè)數(shù)據(jù),現(xiàn)代裝備對(duì)可靠性、安全性和可維護(hù)性的要求不斷增強(qiáng)[1]?;跀?shù)據(jù)驅(qū)動(dòng)的故障診斷方法成為時(shí)下研究的熱點(diǎn)[2-3]。但是在實(shí)際生產(chǎn)中,設(shè)備故障發(fā)生的頻率遠(yuǎn)遠(yuǎn)小于正常情況,不同類型的故障發(fā)生頻率也不同,導(dǎo)致故障樣本與正常樣本數(shù)據(jù)體量不均衡,該問(wèn)題被稱為數(shù)據(jù)不平衡問(wèn)題,廣泛存在于各種工程行業(yè)中[4]。故障樣本作為少數(shù)類,數(shù)量稀少、分布復(fù)雜,使得數(shù)據(jù)驅(qū)動(dòng)的方法無(wú)法充分學(xué)習(xí)故障樣本的特征,影響了故障診斷的效果。
針對(duì)數(shù)據(jù)不平衡問(wèn)題,現(xiàn)有研究主要從數(shù)據(jù)、算法和集成學(xué)習(xí)3個(gè)層面來(lái)解決,其中,數(shù)據(jù)層面的重采樣技術(shù)是使用最廣泛的方法之一[5]。重采樣方法通過(guò)復(fù)制或合成少數(shù)類樣本、刪除多數(shù)類樣本,改善原有樣本的分布情況,不需要針對(duì)特定問(wèn)題修改分類器[6],因此更具有通用性。合成少數(shù)類過(guò)采樣(Synthetic Minority Over-sampling Technique, SMOTE)[7]是最具代表性的重采樣方法,通過(guò)對(duì)少數(shù)類合成新樣本的方式獲得分布均衡的數(shù)據(jù)集。
重采樣與分類器的組合,是處理故障診斷不平衡問(wèn)題的通用流程。SANTOS等[8]將SMOTE和Bagging方法結(jié)合,用于風(fēng)力發(fā)電機(jī)齒輪箱的故障診斷;BUSTILLO等[9]針對(duì)多齒輪工具的破損檢測(cè),研究多種算法的組合,得出SMOTE和邏輯回歸的組合結(jié)果最優(yōu);MAO等[10]使用SMOTE方法對(duì)少數(shù)類樣本進(jìn)行過(guò)采樣,對(duì)多數(shù)類樣本進(jìn)行欠采樣以平衡數(shù)據(jù)集,最后使用在線順序極限學(xué)習(xí)機(jī)(Online Sequence Extreme Learning Machine, OSELM)來(lái)診斷軸承故障;TAO等[11]采用SMOTE方法生成少數(shù)類樣本,然后使用原始樣本和生成樣本訓(xùn)練SVM進(jìn)行軸承故障診斷。
然而,在使用重采樣方法解決故障診斷中的不平衡問(wèn)題時(shí),需要根據(jù)特定的問(wèn)題選擇合適的方法,并調(diào)整k近鄰、采樣策略等超參數(shù)?,F(xiàn)有研究大多基于經(jīng)驗(yàn)選擇重采樣方法,手動(dòng)調(diào)整參數(shù),這一過(guò)程不但依賴豐富的專家經(jīng)驗(yàn),而且調(diào)試過(guò)程耗費(fèi)大量時(shí)間[12]。
自動(dòng)機(jī)器學(xué)習(xí)技術(shù)可以針對(duì)特定問(wèn)題自動(dòng)選擇合適的算法、優(yōu)化超參數(shù),克服人工選擇和調(diào)參的不足,成為了當(dāng)前研究的熱門[12]。網(wǎng)格搜索、隨機(jī)搜索、貝葉斯優(yōu)化等自動(dòng)機(jī)器學(xué)習(xí)技術(shù)也被應(yīng)用于解決不平衡問(wèn)題:AL-RIFAIE等[13]將不平衡數(shù)據(jù)經(jīng)過(guò)SMOTE和隨機(jī)欠采樣方法處理,再使用網(wǎng)格搜索選擇最優(yōu)參數(shù)配置的SVM進(jìn)行分類;ZUGHRAT等[14]采用基于自助法的混合采樣技術(shù),獲得分布均衡的數(shù)據(jù)集,然后使用網(wǎng)格搜索優(yōu)化SVM算法的參數(shù);CAI等[15]將SMOTE方法用于分布不均衡的乳腺癌數(shù)據(jù)集中,并使用貝葉斯優(yōu)化對(duì)集成學(xué)習(xí)的基分類器進(jìn)行參數(shù)調(diào)優(yōu)。
綜上所述,現(xiàn)階段應(yīng)用重采樣方法解決不平衡故障診斷問(wèn)題時(shí),仍然需要手動(dòng)選擇模型和人工調(diào)參。在已使用自動(dòng)機(jī)器學(xué)習(xí)的不平衡分類問(wèn)題中,研究主要集中在優(yōu)化分類算法的超參數(shù),而針對(duì)重采樣法仍然停留在手動(dòng)選擇和手動(dòng)調(diào)參階段。
本文將自動(dòng)機(jī)器學(xué)習(xí)技術(shù)用于故障診斷的數(shù)據(jù)不平衡問(wèn)題,提出一種基于貝葉斯優(yōu)化的自動(dòng)不平衡故障診斷方法,解決在不同數(shù)據(jù)分布下,重采樣算法和分類器的組合算法選擇和超參數(shù)優(yōu)化問(wèn)題(Combined Algorithm Selection and Hyperparameter optimization problem, CASH)[16]。該方法首先構(gòu)建了一種分層多模型的參數(shù)空間,包括采樣層和分類層,在這兩層中可分別設(shè)置多個(gè)備選的模型及其超參數(shù);其次,使用基于樹形結(jié)構(gòu)Parzen估計(jì)器(Tree-Structured Parzen Estimator, TPE)的貝葉斯優(yōu)化器對(duì)參數(shù)空間中的模型進(jìn)行組合選擇和超參數(shù)優(yōu)化;最后將所得的最優(yōu)配置模型在測(cè)試集上進(jìn)行預(yù)測(cè),評(píng)價(jià)模型的性能。所提方法在UCI(university of California Irvine)標(biāo)準(zhǔn)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明該方法極大地提高了分類器在不平衡數(shù)據(jù)上的分類性能,且效果較傳統(tǒng)的隨機(jī)搜索方法更好;所提方法在凱斯西儲(chǔ)大學(xué)(Case Western Reserve University,CWRU)軸承數(shù)據(jù)集和帕德博恩大學(xué)(Paderborn)軸承數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),設(shè)置了多種不平衡情況的數(shù)據(jù)集,結(jié)果表明該方法與隨機(jī)搜索方法相比,能夠用更短的時(shí)間得到性能更好的結(jié)果,優(yōu)化過(guò)程也更加穩(wěn)定,提升了參數(shù)優(yōu)化的效率。
根據(jù)對(duì)原始不平衡數(shù)據(jù)的處理方式,重采樣方法可以分為欠采樣、過(guò)采樣和混合采樣法[4]。VAN HULSE等[17]通過(guò)大量實(shí)驗(yàn)發(fā)現(xiàn),不同類型的重采樣法適合于不同的分類器,選擇合適的算法組合可以提升分類效果。在不平衡故障診斷問(wèn)題中,數(shù)據(jù)隨著運(yùn)行條件的變化而呈現(xiàn)不同程度的分布。針對(duì)不同的數(shù)據(jù)分布選擇合適的算法組合不但費(fèi)事費(fèi)力,而且依賴大量的專家經(jīng)驗(yàn)。
本文提出一種基于貝葉斯優(yōu)化的自動(dòng)不平衡故障診斷方法,通過(guò)自動(dòng)機(jī)器學(xué)習(xí)技術(shù)獲得參數(shù)空間中的最優(yōu)配置組合,解決現(xiàn)有不平衡故障診斷中基于人工經(jīng)驗(yàn)選擇模型、調(diào)試參數(shù)出現(xiàn)的低效問(wèn)題。方法流程如圖1所示,主要包括數(shù)據(jù)預(yù)處理、分層多模型的參數(shù)空間配置、基于TPE模型的訓(xùn)練與優(yōu)化、性能評(píng)估4個(gè)步驟。
為了提高模型對(duì)故障數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確性,本文對(duì)故障診斷數(shù)據(jù)的原始一維信號(hào)進(jìn)行數(shù)據(jù)預(yù)處理,主要包括特征提取和標(biāo)準(zhǔn)化。
特征提取包括一維振動(dòng)信號(hào)進(jìn)行片段采樣、經(jīng)過(guò)信號(hào)處理從中提取故障特征等過(guò)程。表1列出了本文所用的3類故障特征,主要包括時(shí)域特征、頻域特征和時(shí)頻特征。
表1 故障信號(hào)特征
在獲得故障特征后,對(duì)所提取特征進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,消除因原變量量綱不同和數(shù)值差異太大帶來(lái)的影響,數(shù)據(jù)標(biāo)準(zhǔn)化過(guò)程如式(1)所示。
(1)
在數(shù)據(jù)預(yù)處理階段,將原始數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集。訓(xùn)練集用于訓(xùn)練模型,選擇出最優(yōu)配置的超參數(shù)組合;測(cè)試集用于評(píng)估經(jīng)過(guò)優(yōu)化之后算法的最終性能。
本文設(shè)置了一種分層多模型參數(shù)空間,探索重采樣和分類器的組合選擇和超參數(shù)優(yōu)化問(wèn)題。如圖2所示,參數(shù)空間分為重采樣層和分類器層,分別設(shè)置了多個(gè)備選的算法及其超參數(shù)。重采樣層包含多種重采樣方法,分類器層包含常見(jiàn)的機(jī)器學(xué)習(xí)模型,整個(gè)參數(shù)空間為樹狀結(jié)構(gòu)。
針對(duì)特定的不平衡問(wèn)題,為了獲得最優(yōu)的算法組合和超參數(shù)配置,需要對(duì)重采樣層和分類器層的模型及超參數(shù)進(jìn)行組合優(yōu)化。首先將重采樣層和分類器層的模型做笛卡爾積,如式(2)所示,獲得模型空間Α,如圖3所示。
Α=Res×Clf=(res1,…,resi)×(clf1,…,clfj)
={(res1,clf1),…,(resi,clfj)}。
(2)
式中:Res=(res1,…,resi),Clf=(clf1,…,clfj)分別為重采樣層和分類器層的所有備選模型。記A(i,j)=(resi,clfj)為重采樣模型resi和分類器模型clfj的算法組合。
算法組合A(i,j)=(resi,clfj)中的每個(gè)模型都包含若干超參數(shù),設(shè)置每個(gè)超參數(shù)的待搜索范圍,可得A(i,j)的超參數(shù)空間θ(i,j),如式(3)所示:
θ(i,j)=(θresi∪θclfj)。
(3)
進(jìn)一步地,由模型空間Α生成的超參數(shù)空間Θ可用公式(4)表示,具體結(jié)構(gòu)如圖3所示。
Θ=θ(1,1)∪…∪θ(i,j)。
(4)
式中θresi和θclfj分別表示重采樣模型resi和分類器模型clfj的超參數(shù)空間。
針對(duì)分層多模型的參數(shù)空間配置,模型訓(xùn)練和優(yōu)化的一般過(guò)程如式(5)所示:
(5)
本文采用自動(dòng)機(jī)器學(xué)習(xí)技術(shù)中的貝葉斯優(yōu)化模型,選擇TPE為代理模型[19],用于構(gòu)建模型的訓(xùn)練與優(yōu)化過(guò)程。TPE模型能有效應(yīng)對(duì)多種復(fù)雜的超參數(shù)配置情況,算法流程如下所示。
算法1基于TPE的貝葉斯優(yōu)化模型。
2. for n=1,2,3,…,do
3. 使用代理模型TPE,計(jì)算先驗(yàn)數(shù)據(jù)集Dn中每組超參數(shù)的后驗(yàn)分布
4. 最大化采集函數(shù)α,尋找下一組參數(shù)配置xn+1
5. 計(jì)算yn+1=f(xn+1)
6. 擴(kuò)充數(shù)據(jù)集Dn+1=(Dn,(xn,yn))
7.end for
(1)代理模型 本文選擇TPE為代理模型,有別于傳統(tǒng)的基于p(y|x)建模的貝葉斯優(yōu)化模型,如基于高斯過(guò)程和基于隨機(jī)森林的貝葉斯優(yōu)化,TPE對(duì)p(x|y)和p(y)建模,能夠處理更加復(fù)雜的超參數(shù)分布。TPE將每個(gè)參數(shù)的先驗(yàn)分布轉(zhuǎn)換成高斯混合分布,再基于已觀測(cè)值修改后驗(yàn)分布,從已有的y計(jì)算分位數(shù)y*,對(duì)大于y*和小于y*的數(shù)據(jù),分別建立條件概率密度公式,如式(6)所示:
(6)
式中:y*為基于已觀測(cè)y計(jì)算得到的分位數(shù),本文取y*為第一分位數(shù),即將已觀測(cè)的y由小到大排列后第25%的數(shù)字;l(x)和g(x)為服從高斯過(guò)程的概率密度函數(shù),其中l(wèi)(x)表示y (2)采集函數(shù) TPE模型選擇的采集函數(shù)為EI[20],定義如式(7)所示: (7) (8) 取每次訓(xùn)練結(jié)果的相反數(shù)為貝葉斯優(yōu)化的目標(biāo)函數(shù),經(jīng)過(guò)多次迭代,選擇其中性能最優(yōu)的算法組合作為最終模型。 在性能評(píng)估階段,本文將經(jīng)過(guò)模型訓(xùn)練與優(yōu)化得到的最優(yōu)組合用于測(cè)試集的分類。在傳統(tǒng)的分類學(xué)習(xí)中,常用的評(píng)價(jià)指標(biāo)是精確度但精確度用于類別不平衡數(shù)據(jù)訓(xùn)練時(shí),會(huì)導(dǎo)致分類器向多數(shù)類樣本偏移,無(wú)法反映算法在不平衡數(shù)據(jù)上的性能。 因此,本文選用的評(píng)價(jià)指標(biāo)為F1-score,如式(9)所示: (9) F1-score是查準(zhǔn)率precision和查全率recall的調(diào)和平均數(shù),分別如式(10)和式(11)所示。F1-score可以綜合考察模型在不平衡數(shù)據(jù)上的表現(xiàn)。 (10) (11) UCI數(shù)據(jù)集是不平衡學(xué)習(xí)領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)集[21],本文從UCI數(shù)據(jù)集中選擇了5個(gè)標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),各個(gè)數(shù)據(jù)集的具體信息如表2所示。 表2 實(shí)驗(yàn)所用UCI數(shù)據(jù)集信息 實(shí)驗(yàn)采用5折交叉驗(yàn)證法,原始樣本分為5個(gè)數(shù)量相同且不重疊的子集,每次選擇其中1個(gè)作為驗(yàn)證集,剩余4個(gè)作為訓(xùn)練集,得到5組訓(xùn)練—測(cè)試數(shù)據(jù)集。為避免訓(xùn)練中的過(guò)擬合和過(guò)度優(yōu)化,僅針對(duì)訓(xùn)練集使用重采樣法,測(cè)試集仍為原始分布。 在分層多模型的參數(shù)空間設(shè)置上,本文在分類器層選擇堆疊自編碼器(Stacked Auto Encoder, SAE)、支持向量機(jī)(Support Vector Machine, SVM)、多層感知機(jī)(Multi-Layer Perceptron, MLP)和LinearSVM為備選模型,在重采樣層選擇SMOTE、NCL[22]、Borderline-SMOTE[23]、SMOTETL[24]和SMOTEENN[25]為備選模型。表3列出了上述算法待優(yōu)化的超參數(shù)、作用描述及參數(shù)搜索范圍。整合所有的參數(shù)范圍,獲得待優(yōu)化的超參數(shù)空間。 表3 待優(yōu)化的超參數(shù)范圍及其描述 續(xù)表3 為了證明所提方法的有效性,本文設(shè)置了兩種對(duì)比實(shí)驗(yàn):①與使用默認(rèn)配置的分類器進(jìn)行對(duì)比,默認(rèn)配置如表4所示;②與隨機(jī)搜索方法進(jìn)行對(duì)比,隨機(jī)搜索方法參數(shù)空間如表2所示。實(shí)驗(yàn)采用Hyperopt庫(kù)進(jìn)行超參數(shù)優(yōu)化,采樣方法采用Imbalanced-Learn庫(kù)實(shí)現(xiàn),SAE算法基于Tensorflow編寫,其余機(jī)器學(xué)習(xí)算法通過(guò)sklearn庫(kù)實(shí)現(xiàn)。所有程序均在AMD 3500X和RTX 2060s下運(yùn)行。 表4 分類器的默認(rèn)配置 續(xù)表4 為了對(duì)比兩種超參數(shù)優(yōu)化方法的性能,實(shí)驗(yàn)將迭代次數(shù)統(tǒng)一設(shè)置為50,重復(fù)10次,不同參數(shù)優(yōu)化方法使用的參數(shù)空間相同。此外,由于參數(shù)空間較為復(fù)雜,采用網(wǎng)格搜索遍歷所有組合需要耗費(fèi)大量時(shí)間,實(shí)驗(yàn)對(duì)機(jī)器學(xué)習(xí)分類器進(jìn)行了簡(jiǎn)易的搜索:將SVM、MLP、SAE和LinearSVM四種分類器的默認(rèn)配置直接用于不平衡數(shù)據(jù)的分類,取平均值。重復(fù)10次,記錄實(shí)驗(yàn)結(jié)果如表4所示。兩種超參數(shù)優(yōu)化方法經(jīng)過(guò)10次優(yōu)化,所得結(jié)果的箱型圖如圖4所示。 如表5所示為3種不同方法在5個(gè)不平衡標(biāo)準(zhǔn)數(shù)據(jù)集下的結(jié)果對(duì)比,分別為:所有模型使用默認(rèn)配置所得結(jié)果(即單模型結(jié)果)、經(jīng)過(guò)隨機(jī)搜索優(yōu)化后的結(jié)果、經(jīng)過(guò)貝葉斯優(yōu)化后的結(jié)果。以單模型結(jié)果為基礎(chǔ),可以發(fā)現(xiàn)隨機(jī)搜索和所提方法在所有5個(gè)數(shù)據(jù)集上均提升了原有的分類結(jié)果。在Oil和yeast_me2兩個(gè)不平衡比較大的數(shù)據(jù)集上性能提升效果最為明顯,這體現(xiàn)了分層多模型參數(shù)空間的有效性。針對(duì)特定的數(shù)據(jù)集,選擇采樣算法和機(jī)器學(xué)習(xí)的組合進(jìn)行訓(xùn)練和優(yōu)化,消除了單個(gè)分類器在不平衡數(shù)據(jù)上的分類偏差。貝葉斯優(yōu)化方法在5個(gè)數(shù)據(jù)集上的結(jié)果均值都高于隨機(jī)搜索方法,對(duì)單模型的性能提升效果更好。 表5 結(jié)果對(duì)比 在圖4a~圖4e表示的所有5個(gè)數(shù)據(jù)集上,貝葉斯優(yōu)化方法的箱盒所處位置更高,證明所提方法的整體性能更好。在Ecoli、Spectrometer、Oil和yeast_me-2數(shù)據(jù)集上,所提方法箱盒圖的上邊緣(最大值)明顯高于隨機(jī)搜索方法,在libras_move數(shù)據(jù)集上,所提方法箱盒圖的上邊緣(最大值)與隨機(jī)搜索方法接近,但整體優(yōu)于隨機(jī)搜索方法且所得結(jié)果的分布更加集中,這證明了所提方法可以基于已優(yōu)化結(jié)果搜尋出下一個(gè)性能更好的點(diǎn),避免了陷入局部最優(yōu)解。 本章將所提方法用于故障診斷的不平衡數(shù)據(jù)集,分別在凱斯西儲(chǔ)大學(xué)軸承數(shù)據(jù)集和帕德博恩大學(xué)軸承數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。 3.1.1 數(shù)據(jù)集描述 凱斯西儲(chǔ)大學(xué)(CWRU)軸承數(shù)據(jù)中心的公開標(biāo)準(zhǔn)數(shù)據(jù)集,是故障診斷領(lǐng)域最常用的標(biāo)準(zhǔn)數(shù)據(jù)集[26]。如圖5所示為軸承數(shù)據(jù)采集裝置,使用電火花技術(shù)在3個(gè)位置獲得了缺陷故障,分別是外圈故障(OF)、內(nèi)圈故障(IF)和滾珠故障(RF),每種缺陷故障有3種尺寸的損傷直徑:0.18 mm,0.36 mm和0.54 mm。作為參考,正常狀態(tài)(Normal)下的信號(hào)也得到了采集。因此,數(shù)據(jù)集共有10種狀態(tài),分別表示為:OF0.18,OF0.36,OF0.54,IF0.18,IF0.36,IF0.54,RF0.18,RF0.36,RF0.54,Normal。 3.1.2 實(shí)驗(yàn)設(shè)置 實(shí)驗(yàn)采用的故障數(shù)據(jù)集經(jīng)過(guò)數(shù)據(jù)預(yù)處理,將一維振動(dòng)信號(hào)轉(zhuǎn)換為37個(gè)故障特征。數(shù)據(jù)集有9個(gè)故障類和1個(gè)正常類,訓(xùn)練集中每個(gè)類別有4 000個(gè)樣本,測(cè)試集中每個(gè)類別有800個(gè)樣本。 為研究基于貝葉斯優(yōu)化的模型在分布不平衡的故障數(shù)據(jù)下的表現(xiàn),本文在分布均衡的訓(xùn)練集上生成了多種的不平衡數(shù)據(jù)集,如表6所示。正常類樣本為多數(shù)類樣本,其余9種故障樣本為少數(shù)類樣本,且少數(shù)類樣本數(shù)量相同。表6中ρ表示正常類樣本數(shù)和單個(gè)故障類樣本數(shù)的比值。 表6 多種不平衡分布的訓(xùn)練集 實(shí)驗(yàn)采用的參數(shù)空間配置與算法實(shí)現(xiàn)與標(biāo)準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)相同。 3.1.3 實(shí)驗(yàn)結(jié)果分析 為了對(duì)比兩種超參數(shù)優(yōu)化方法的性能,實(shí)驗(yàn)將迭代次數(shù)統(tǒng)一設(shè)置為50,重復(fù)10次,不同參數(shù)優(yōu)化方法使用的參數(shù)空間相同,如表2所示。作為對(duì)比,4個(gè)默認(rèn)配置的分類器模型也被用于CWRU不平衡數(shù)據(jù)集中,取4種方案的均值,重復(fù)10次,記錄結(jié)果如表7所示。 表7 超參數(shù)優(yōu)化方法在CWRU數(shù)據(jù)集上的結(jié)果對(duì)比 續(xù)表7 從表7可以看出,單模型在CWRU不平衡數(shù)據(jù)集上的性能更加穩(wěn)定。與標(biāo)準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)相比,CWRU不平衡數(shù)據(jù)集上的少數(shù)類樣本數(shù)量相對(duì)豐富,使得分類器能夠更加充分地學(xué)習(xí)到故障特征。但隨著ρ的增加,單模型的分類性能也有所降低。與單模型分類的結(jié)果相比,使用隨機(jī)搜索和貝葉斯優(yōu)化的分類方法在不同數(shù)據(jù)分布下的結(jié)果更加穩(wěn)定,受ρ的影響更小?;谪惾~斯優(yōu)化的方法和基于隨機(jī)搜索的方法在5種數(shù)據(jù)分布下的分類結(jié)果相近,但在所有5個(gè)數(shù)據(jù)集下基于貝葉斯的方法結(jié)果更好,且每50次優(yōu)化所用時(shí)長(zhǎng)更短,即該方法可以用更短的時(shí)間得到結(jié)果更好的超參數(shù)配置。 如圖6所示為兩種超參數(shù)優(yōu)化方法在5種數(shù)據(jù)集上結(jié)果的箱型圖。從圖6a~圖6e表示的5個(gè)數(shù)據(jù)集可以看出,貝葉斯方法的整體結(jié)果更好,且上限更好。在圖6b~圖6e上,隨機(jī)搜索方法出現(xiàn)了較多的異常值,表明該方法的穩(wěn)定性較差,相比之下,貝葉斯優(yōu)化方法的箱盒高度更低,結(jié)果分布更加集中。 綜上分析,基于貝葉斯優(yōu)化的方法在CWRU不平衡數(shù)據(jù)集上能夠更高效、穩(wěn)定地得到更優(yōu)的結(jié)果。 3.2.1 數(shù)據(jù)集描述 帕德博恩大學(xué)軸承數(shù)據(jù)集是故障診斷領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)集,來(lái)自帕德博恩大學(xué)KAT數(shù)據(jù)中心[27]。實(shí)驗(yàn)的硬件如圖7所示,用4個(gè)不同的工作參數(shù)進(jìn)行實(shí)驗(yàn),每個(gè)實(shí)驗(yàn)重復(fù)進(jìn)行20次,收集振動(dòng)信號(hào)進(jìn)行分析,采樣率為64 kHz。KAT數(shù)據(jù)集可按照健康狀況分為3類:K0系列(K001~005)為健康狀況、KA系列(KA04,KA05,KA16,KA22,KA30)為軸承外圈損壞、KI(KI04,KI14,KI16,KI18,KI21)為軸承內(nèi)圈損壞。 3.2.2 實(shí)驗(yàn)設(shè)置 實(shí)驗(yàn)所用數(shù)據(jù)集同樣經(jīng)過(guò)特征提取和標(biāo)準(zhǔn)化處理。數(shù)據(jù)集共有2個(gè)故障類和1個(gè)正常類,訓(xùn)練集每類9 000個(gè)樣本,測(cè)試集每類900個(gè)樣本。實(shí)驗(yàn)設(shè)置多種不平衡分布的訓(xùn)練集,如表8所示。 表8 多種不平衡分布的訓(xùn)練集 實(shí)驗(yàn)所用參數(shù)空間配置和算法實(shí)現(xiàn)與標(biāo)準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)相同。 3.2.3 實(shí)驗(yàn)結(jié)果分析 兩種超參數(shù)優(yōu)化方法的迭代次數(shù)統(tǒng)一設(shè)置為50,重復(fù)10次,使用超參數(shù)空間如表9所示。作為對(duì)比,4個(gè)默認(rèn)配置的分類器也被用于KAT不平衡數(shù)據(jù)集中,取四種分類器結(jié)果的均值,重復(fù)10次,記錄結(jié)果如表9所示。 表9列出了在多種不平衡條件下不同方法在KAT數(shù)據(jù)集上的結(jié)果對(duì)比。從表9可以看出,單個(gè)分類模型在不同分布下的KAT數(shù)據(jù)集上的結(jié)果也相對(duì)穩(wěn)定,隨著ρ的增加,模型性能有小幅降低,當(dāng)少數(shù)類樣本比較稀少(ρ=100)時(shí),結(jié)果有明顯的降低。相比之下,基于超參數(shù)優(yōu)化的兩種方法維持了更加穩(wěn)定的性能?;谪惾~斯優(yōu)化的方法在5種數(shù)據(jù)分布下的結(jié)果略高于隨機(jī)搜索方法,但每50次優(yōu)化所用時(shí)間更短,效率更高。 表9 超參數(shù)優(yōu)化方法在KAT數(shù)據(jù)集上的結(jié)果對(duì)比 如圖8所示為兩種超參數(shù)優(yōu)化方法在5種數(shù)據(jù)集上的結(jié)果箱型圖。從圖8a~圖8e可以看出,兩種優(yōu)化方法的結(jié)果十分接近,在圖8a、圖8b、圖8d、圖8e的數(shù)據(jù)集上,基于貝葉斯優(yōu)化的方法箱盒高度更低,分布更加集中,而隨機(jī)搜索方法存在一定數(shù)量的異常值,結(jié)果分布并不集中。 針對(duì)故障診斷中的數(shù)據(jù)不平衡問(wèn)題,本文研究了基于自動(dòng)機(jī)器學(xué)習(xí)的不平衡故障診斷方法,提出了基于TPE的不平衡故障診斷方法,主要包括數(shù)據(jù)預(yù)處理、參數(shù)空間配置、模型訓(xùn)練與優(yōu)化和性能評(píng)估4個(gè)步驟。所提方法構(gòu)建了一種分層多模型的參數(shù)空間,可以設(shè)置多個(gè)備選的重采樣和分類器模型,并配置器其超參數(shù),然后使用TPE方法對(duì)模型的訓(xùn)練過(guò)程進(jìn)行優(yōu)化,將獲得的最優(yōu)配置模型用于測(cè)試集的評(píng)估。本文在5個(gè)UCI標(biāo)準(zhǔn)數(shù)據(jù)集和2個(gè)軸承故障診斷數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),結(jié)果表明,本文所提方法可以提升分類器在不平衡數(shù)據(jù)上的結(jié)果;與隨機(jī)搜索相比,性能提升幅度更大,在故障數(shù)據(jù)集上所用時(shí)間更短,結(jié)果更加穩(wěn)定。同時(shí),所提方法也存在不足之處,主要適用于不平衡比較大、數(shù)據(jù)量適中的數(shù)據(jù)集,對(duì)于不平衡比例較小或者數(shù)據(jù)量大的數(shù)據(jù)集,需要在計(jì)算成本和性能提升之間做出權(quán)衡。 不平衡問(wèn)題的難點(diǎn)在于稀少數(shù)據(jù)在空間中的復(fù)雜分布特性。當(dāng)前僅用不平衡比這一個(gè)指標(biāo)無(wú)法完全描述數(shù)據(jù)的分布特點(diǎn),未來(lái)可以研究多種數(shù)據(jù)復(fù)雜度指標(biāo),探究不平衡數(shù)據(jù)的分布特性對(duì)分類器決策邊界的影響。1.4 性能評(píng)估
2 標(biāo)準(zhǔn)數(shù)據(jù)集實(shí)驗(yàn)
2.1 數(shù)據(jù)集描述
2.2 實(shí)驗(yàn)設(shè)置
2.3 結(jié)果分析
3 故障診斷數(shù)據(jù)集實(shí)驗(yàn)
3.1 CWRU數(shù)據(jù)集
3.2 KAT數(shù)據(jù)集
4 結(jié)束語(yǔ)