周 曉,馬圣杰
(武漢理工大學(xué) 機(jī)電工程學(xué)院,湖北 武漢 430070)
轉(zhuǎn)子系統(tǒng)是發(fā)動(dòng)機(jī)的核心系統(tǒng),一旦發(fā)生轉(zhuǎn)子部件脫落的故障,便會(huì)給機(jī)組的運(yùn)行留下嚴(yán)重隱患。因此,能及時(shí)發(fā)現(xiàn)征兆信息,對(duì)于轉(zhuǎn)子機(jī)組的健康管理具有重要意義[1-2]。
常用的轉(zhuǎn)子故障診斷方法有基于模型的方法。轉(zhuǎn)子系統(tǒng)動(dòng)力學(xué)模型主要是從系統(tǒng)機(jī)理、故障原因和轉(zhuǎn)子系統(tǒng)狀態(tài)的影響角度出發(fā)的物理或數(shù)學(xué)模型。主要通過安裝特定傳感器,依托于內(nèi)積運(yùn)算[3],通過傅里葉變換和全息譜等方法[4-5]實(shí)現(xiàn)故障特征提取與故障識(shí)別。
隨著機(jī)器學(xué)習(xí)相關(guān)技術(shù)被廣泛應(yīng)用于工業(yè)場(chǎng)景。傳統(tǒng)的故障診斷方法已逐漸無法滿足診斷要求[6]。常用的機(jī)器學(xué)習(xí)算法有決策樹、神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(support vector machines,SVM)等算法[7]。
工業(yè)大數(shù)據(jù)時(shí)代下的轉(zhuǎn)子故障數(shù)據(jù)具有信息復(fù)雜和耦合不確定等特點(diǎn)[8],因此需要使用大數(shù)據(jù)計(jì)算框架?;赟park框架實(shí)現(xiàn)的算法在時(shí)間效率和伸縮性方面均具有優(yōu)越性[9],相比于其他框架,在迭代和機(jī)器學(xué)習(xí)算法上具有更好的性能[10]。
筆者將大數(shù)據(jù)分析技術(shù)與故障診斷技術(shù)相結(jié)合,研究基于數(shù)據(jù)驅(qū)動(dòng)的轉(zhuǎn)子脫落故障診斷模型,提高故障診斷的識(shí)別準(zhǔn)確率,幫助運(yùn)行人員發(fā)現(xiàn)轉(zhuǎn)子脫落故障的早期征兆,實(shí)現(xiàn)智能診斷轉(zhuǎn)子的故障。
在機(jī)器學(xué)習(xí)工作流程中,特征工程的作用是將原始數(shù)據(jù)轉(zhuǎn)換成算法可理解的形式。這個(gè)過程從數(shù)據(jù)中提取出對(duì)于表征業(yè)務(wù)邏輯來說更合適的特征,將依次進(jìn)行數(shù)據(jù)清洗、特征提取和特征優(yōu)選,為后續(xù)的故障診斷模型的構(gòu)建提供支持。
本文采用的轉(zhuǎn)子故障數(shù)據(jù)集是由國(guó)內(nèi)某工廠提供的真實(shí)運(yùn)行數(shù)據(jù),通過在轉(zhuǎn)子兩端和軸端布置電渦流位移傳感器進(jìn)行振動(dòng)位移值的采集,包含聯(lián)端XY、非聯(lián)端XY和軸向AB6個(gè)通道的位移數(shù)據(jù),聯(lián)端表示傳感器安裝在靠近聯(lián)軸器的軸承上。采集數(shù)據(jù)包含采樣率、轉(zhuǎn)速、采樣點(diǎn)數(shù)、轉(zhuǎn)動(dòng)周數(shù)和振動(dòng)數(shù)據(jù)。共有10臺(tái)機(jī)組的數(shù)據(jù),其中5臺(tái)故障機(jī)組的數(shù)據(jù)采集自發(fā)生轉(zhuǎn)子部件脫落之前的半年內(nèi)。另外5臺(tái)機(jī)組在獲取數(shù)據(jù)之后的一年以上,未發(fā)生此類故障。
為保證模型建立時(shí)輸入數(shù)據(jù)的完整性和可靠性,首先進(jìn)行數(shù)據(jù)清洗。對(duì)轉(zhuǎn)速分析后發(fā)現(xiàn),部分機(jī)組存在轉(zhuǎn)速為0的無效數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行刪除處理。此外,少數(shù)時(shí)段內(nèi)存在各通道測(cè)點(diǎn)數(shù)據(jù)的采集時(shí)間不對(duì)齊的現(xiàn)象,表現(xiàn)為某通道缺失一個(gè)時(shí)間單位的數(shù)據(jù),使得該通道后續(xù)數(shù)據(jù)相比其他通道均有所提前。為了提高模型的準(zhǔn)確率,將該缺失時(shí)間點(diǎn)的其他通道數(shù)據(jù)刪除,保持?jǐn)?shù)據(jù)采集時(shí)間一致。數(shù)據(jù)對(duì)齊前后的轉(zhuǎn)速變化如圖1所示。
圖1 數(shù)據(jù)對(duì)齊前后的轉(zhuǎn)速變化圖
為了從多個(gè)角度全面分析轉(zhuǎn)子運(yùn)行狀況,將從振動(dòng)信號(hào)的時(shí)域、頻域中提取不同的故障特征量,使用的信號(hào)處理方法如圖 2所示。
圖2 信號(hào)處理方法
1.2.1 時(shí)域特征提取
轉(zhuǎn)子的時(shí)域信號(hào)分為有量綱和無量綱特征值。有量綱特征值針對(duì)轉(zhuǎn)子振動(dòng)波形數(shù)據(jù)進(jìn)行提取,包括振幅的最大值、最小值、平均值、峰-峰值、整流平均值、方差、均方值和均方根值。除提取有量綱特征值外,還提取了多種常被應(yīng)用于旋轉(zhuǎn)機(jī)械故障診斷中的無量綱指標(biāo),包括振動(dòng)信號(hào)的峭度、偏度、波形因子、峰值因子、脈沖因子和裕度因子,以此來提高特征對(duì)于不同轉(zhuǎn)子運(yùn)行情況的泛化描述能力。
1.2.2 頻域特征提取
由于轉(zhuǎn)子故障的發(fā)生,常表現(xiàn)為一定的頻譜分布特點(diǎn),因此使用快速傅里葉變換作為頻域分析方法。在位移振動(dòng)頻域中,提取一倍轉(zhuǎn)頻、二倍轉(zhuǎn)頻、三倍轉(zhuǎn)頻的幅值和相位,以及一倍轉(zhuǎn)頻、二倍轉(zhuǎn)頻、三倍轉(zhuǎn)頻占位移振動(dòng)總能量的百分比作為故障特征。
由于轉(zhuǎn)子數(shù)據(jù)同時(shí)使用了XY方向的傳感器進(jìn)行數(shù)據(jù)采集,針對(duì)傳感器方向是互成90°的關(guān)系,采用全息譜技術(shù)對(duì)于振動(dòng)信號(hào)進(jìn)行診斷分析。全息譜技術(shù)實(shí)質(zhì)上是對(duì)于多傳感器信息的融合,使用合成的橢圓來描述不同倍頻分量下轉(zhuǎn)子的振動(dòng)表現(xiàn)。
對(duì)于轉(zhuǎn)子某截面k在頻率(ωj)對(duì)應(yīng)的振動(dòng)數(shù)據(jù),其全息譜參數(shù)使用式(1)進(jìn)行計(jì)算:
xk=Akxsin(ωkjt+αkj)cosαn-
Bkysin(ωkjt+βkj)sinαn
yk=Akxsin(ωkjt+αkj)sinαn-
Bkysin(ωkjt+βkj)cosαn
(1)
式中:Akx、αkj、Bky、βkj分別為X、Y方向的幅值和相位;ωkj為旋轉(zhuǎn)頻率;αn為X、Y方向傳感器之間的安裝夾角;xk、yk分別為X、Y方向的頻率分量信號(hào)。
若X方向代表水平時(shí),某截面的工頻振動(dòng)信號(hào)可表示為:
(2)
式中:sx,cx分別為X方向振動(dòng)信號(hào)的正弦和余弦系數(shù);sy,cy分別為Y方向振動(dòng)信號(hào)的正弦和余弦系數(shù);ω為轉(zhuǎn)子的工頻;x,y分別為X、Y方向的頻率分量信號(hào)。
在轉(zhuǎn)子故障數(shù)據(jù)中,非聯(lián)端X與非聯(lián)端Y,聯(lián)端X與聯(lián)端Y分別是兩組相互垂直的振動(dòng)信號(hào)。這里分別挑選故障機(jī)組和非故障機(jī)組的全息譜進(jìn)行繪制,如圖3和圖4所示。
圖3 故障機(jī)組的全息譜
圖4 非故障機(jī)組的全息譜
由于四倍頻的橢圓在故障和非故障機(jī)組中差異不明顯,這里選擇一倍頻到三倍頻的橢圓長(zhǎng)半軸半徑、短半軸半徑以及橢圓離心率作為全息譜分析技術(shù)提取的特征。
由于提取的特征之間可能存在高度相關(guān)性,在建模之前需要對(duì)特征進(jìn)行優(yōu)選。筆者結(jié)合低方差過濾、信息增益以及高相關(guān)篩選3個(gè)特征選擇方法對(duì)轉(zhuǎn)子故障數(shù)據(jù)進(jìn)行優(yōu)選。
首先進(jìn)行低方差過濾。通常認(rèn)為低方差變量攜帶的信息量很少,可對(duì)其直接過濾。接下來計(jì)算信息增益。這是以熵為基礎(chǔ)的特征選擇方法,通過度量不確定性的減少程度算出每個(gè)特征對(duì)于目標(biāo)的貢獻(xiàn)度。最后結(jié)合皮爾遜相關(guān)性系數(shù)進(jìn)行高相關(guān)篩選。計(jì)算兩兩特征之間的相關(guān)性,相關(guān)系數(shù)的絕對(duì)值越大,代表相關(guān)性越強(qiáng)。當(dāng)相關(guān)性過強(qiáng)時(shí),則選擇刪除其中一個(gè)特征。由于應(yīng)盡量保留與目標(biāo)特征具有高相關(guān)性的特征,選擇結(jié)合兩個(gè)特征的信息增益進(jìn)行判斷,刪除信息增益更低的一個(gè)特征。
為了提高故障診斷的準(zhǔn)確率,提出一種兩層結(jié)構(gòu)的Stacking集成學(xué)習(xí)模型。集成學(xué)習(xí)的構(gòu)建思路是將多個(gè)學(xué)習(xí)器進(jìn)行集成,以得到比單獨(dú)學(xué)習(xí)器更優(yōu)的故障診斷效果,其效果來自于不同學(xué)習(xí)器對(duì)于不同特征的學(xué)習(xí)能力。由于超過兩層的結(jié)構(gòu)會(huì)面臨更為復(fù)雜的過擬合問題,且收益有限,因此采用兩層結(jié)構(gòu)。
模型的第一層由多個(gè)基模型構(gòu)成,針對(duì)決策樹和支持向量機(jī)適合二分類任務(wù)的特點(diǎn),將它們作為基模型。第二層由元模型構(gòu)成,為了防止模型出現(xiàn)嚴(yán)重的過擬合現(xiàn)象,元模型一般使用原理簡(jiǎn)單的模型,因此選擇邏輯回歸作為元模型。
決策樹通常作為二元分類器,并且不需要對(duì)特征進(jìn)行歸一化處理,能很好地識(shí)別非線性對(duì)應(yīng)關(guān)系。決策樹算法的核心過程就是將整個(gè)轉(zhuǎn)子故障數(shù)據(jù)訓(xùn)練集作為整顆樹的根節(jié)點(diǎn),然后根據(jù)是否能夠使得整個(gè)樹的葉子結(jié)點(diǎn)純度更高來決定當(dāng)前節(jié)點(diǎn)是否需要分裂成子節(jié)點(diǎn)。
SVM是一種基于幾何意義的非概率線性二分類模型,是定義在數(shù)據(jù)特征空間上的間隔最大的線性分類器。SVM不對(duì)數(shù)據(jù)概率進(jìn)行建模,而是基于判別式找到最優(yōu)的超平面作為二分類問題的決策邊界。
邏輯回歸是一種廣義線性分類模型,使用似然度來區(qū)分回歸結(jié)果,根據(jù)回歸值和似然性的關(guān)系輸出樣本屬于某個(gè)類別的概率。
在第一層的基模型訓(xùn)練中,以SVM模型為例進(jìn)行說明,首先使用5折交叉驗(yàn)證對(duì)轉(zhuǎn)子脫落故障訓(xùn)練集進(jìn)行劃分,接下來針對(duì)每一折里的訓(xùn)練子集訓(xùn)練一個(gè)SVM模型,并對(duì)測(cè)試子集進(jìn)行預(yù)測(cè),在5個(gè)模型全部預(yù)測(cè)完成后將預(yù)測(cè)結(jié)果進(jìn)行合并。在轉(zhuǎn)子脫落故障測(cè)試集上,則分別使用5個(gè)訓(xùn)練好的模型對(duì)全部測(cè)試集進(jìn)行結(jié)果預(yù)測(cè),并將5個(gè)預(yù)測(cè)結(jié)果進(jìn)行取平均值的處理。同理,決策樹也采取一致的步驟進(jìn)行訓(xùn)練和預(yù)測(cè)。當(dāng)基模型全部預(yù)測(cè)完畢后,將每個(gè)基模型的輸出聚合,作為元模型的輸入訓(xùn)練數(shù)據(jù)和輸入測(cè)試數(shù)據(jù)。當(dāng)兩層模型都訓(xùn)練完畢時(shí),即可得到最終預(yù)測(cè)模型,其中元模型輸出的便是最終的診斷結(jié)果。Stacking集成學(xué)習(xí)框架流程如圖5所示。
從圖5可知,Stacking集成學(xué)習(xí)實(shí)質(zhì)上是利用不同模型對(duì)特征提取能力的不同而使結(jié)果的準(zhǔn)確率提高。
圖5 Stacking集成學(xué)習(xí)流程圖
隨著轉(zhuǎn)子監(jiān)測(cè)數(shù)據(jù)不斷積累,數(shù)據(jù)的處理速度將會(huì)限制故障的診斷效率。由于傳統(tǒng)的單機(jī)模式難以達(dá)到處理海量數(shù)據(jù)的要求,引入Spark計(jì)算框架對(duì)算法實(shí)現(xiàn)并行化,通過多節(jié)點(diǎn)進(jìn)行并行計(jì)算,從而及時(shí)高效地處理離線數(shù)據(jù)。
集成學(xué)習(xí)模型中的每個(gè)基模型相互孤立,可分別針對(duì)每個(gè)基模型的可并行化部分的訓(xùn)練來實(shí)現(xiàn)并行化。決策樹并行設(shè)計(jì)流程如圖6所示。
圖6 決策樹并行設(shè)計(jì)流程圖
決策樹并行化設(shè)計(jì)的思路如下:
(1)首先統(tǒng)計(jì)每個(gè)特征值出現(xiàn)的次數(shù),之后根據(jù)次數(shù)進(jìn)行排序,然后等頻分割;
(2)根據(jù)分裂組合將節(jié)點(diǎn)分裂成左右子節(jié)點(diǎn)后,通過reduceByKey,將同一個(gè)節(jié)點(diǎn)的數(shù)據(jù)合并到一起,根據(jù)Gini系數(shù)并行計(jì)算每個(gè)特征的增益,并排序選出其中最小的特征進(jìn)行分裂,進(jìn)而得到最優(yōu)分裂組合;
(3)每次迭代分裂節(jié)點(diǎn)的過程都將取出若干個(gè)節(jié)點(diǎn),將一組節(jié)點(diǎn)并行分配到不同的Executor上處理;
(4)在達(dá)到建樹的最大深度或分類增益小于設(shè)定閾值后停止建樹,從而完成建模。
支持向量機(jī)并行流程設(shè)計(jì)如圖7所示。其并行化設(shè)計(jì)的思路如下:
圖7 支持向量機(jī)并行設(shè)計(jì)流程圖
(1)首先讀入轉(zhuǎn)子故障數(shù)據(jù)集,并將其轉(zhuǎn)換為RDD(resilient distributed dataset),通過map分片到各計(jì)算節(jié)點(diǎn)Worker上。初始化模型的參數(shù);
(2)對(duì)讀入的數(shù)據(jù)利用隨機(jī)梯度下降來求解模型參數(shù),以得到有故障征兆和無故障征兆所對(duì)應(yīng)于的支持向量;
(3)每個(gè)Executor上對(duì)數(shù)據(jù)進(jìn)行抽樣得到數(shù)據(jù)子集,然后計(jì)算數(shù)據(jù)子集上的梯度值Gradient;
(4)利用treeAggregate的RDD操作實(shí)現(xiàn)梯度的分布式聚合計(jì)算,利用所得梯度,完成模型權(quán)重更新,至此完成模型的一次迭代;
(5)當(dāng)模型的誤差收斂或者到達(dá)迭代次數(shù)時(shí),停止模型的訓(xùn)練,完成支持向量機(jī)模型的生成工作;否則對(duì)整個(gè)訓(xùn)練過程重復(fù)迭代。
邏輯回歸并行化設(shè)計(jì)流程如圖8所示。
圖8 邏輯回歸并行化設(shè)計(jì)流程圖
其并行化設(shè)計(jì)的思路如下:
(1)首先讀入轉(zhuǎn)子故障數(shù)據(jù)集,并將其轉(zhuǎn)換為RDD,通過map分片到各計(jì)算節(jié)點(diǎn)Worker上。初始化模型的參數(shù);
(2)對(duì)讀入數(shù)據(jù)中的特征進(jìn)行訓(xùn)練,利用隨機(jī)梯度下降迭代求解梯度;
(3)實(shí)現(xiàn)分布式聚合計(jì)算,利用所得梯度完成模型權(quán)重更新,至此完成模型的一次迭代;
(4)當(dāng)模型的誤差收斂或者到達(dá)迭代次數(shù)時(shí),停止模型的訓(xùn)練,完成模型的生成工作;否則對(duì)整個(gè)訓(xùn)練過程重復(fù)迭代。
通過對(duì)3個(gè)單模型的并行化設(shè)計(jì),完成了集成學(xué)習(xí)模型的并行化設(shè)計(jì)。
經(jīng)過時(shí)域和頻域分析后提取的特征參數(shù)如表 1所示,序號(hào)1~23號(hào)特征為1個(gè)通道的特征參數(shù)情況,該轉(zhuǎn)子系統(tǒng)共有 6個(gè)通道,序號(hào)24~32為聯(lián)端和非聯(lián)端所共有的特征,即得6×23+2×9=156維高維故障數(shù)據(jù)集。通過結(jié)合3種特征選擇方法,最終從特征集中篩選出30個(gè)敏感特征,得到利于模型建立的優(yōu)選轉(zhuǎn)子故障數(shù)據(jù)集。在數(shù)據(jù)劃分上,將轉(zhuǎn)子故障數(shù)據(jù)集中的兩臺(tái)故障機(jī)組和3臺(tái)非故障機(jī)組的數(shù)據(jù)作為訓(xùn)練集,余下的機(jī)組數(shù)據(jù)作為測(cè)試集。轉(zhuǎn)子故障數(shù)據(jù)集組成如表2所示。
表1 各通道故障特征參數(shù)
表2 轉(zhuǎn)子故障數(shù)據(jù)集組成表
進(jìn)行兩組對(duì)比實(shí)驗(yàn),分別比較不同單模型和集成模型的效果以及并行化算法的加速比效果。
3.2.1 模型診斷能力比較
由于集成學(xué)習(xí)模型主要通過基模型完成對(duì)訓(xùn)練數(shù)據(jù)的信息提取,因此這里將對(duì)比基模型與集成學(xué)習(xí)模型的效果。在模型的選擇上,采用決策樹、支持向量機(jī)以及集成學(xué)習(xí)模型進(jìn)行訓(xùn)練,并對(duì)測(cè)試數(shù)據(jù)預(yù)測(cè)其是否故障,來判斷轉(zhuǎn)子的狀態(tài)。
以集成學(xué)習(xí)模型的試驗(yàn)過程為例進(jìn)行說明:首先使用交叉驗(yàn)證對(duì)訓(xùn)練集進(jìn)行劃分,在每次實(shí)驗(yàn)中,使用訓(xùn)練子集來訓(xùn)練模型,并結(jié)合驗(yàn)證子集進(jìn)行模型參數(shù)的優(yōu)化,選出診斷效果最好的模型。然后將測(cè)試集輸入已訓(xùn)練好的模型中得到結(jié)果。另外兩種算法的實(shí)驗(yàn)過程同上,不再贅述。
為了準(zhǔn)確地描述故障診斷模型的性能,需要使用相關(guān)指標(biāo)對(duì)模型預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。分類效果指標(biāo)的計(jì)算通常都基于混淆矩陣,如表3所示。
表3 混淆矩陣
矩陣中每個(gè)位置的單位均為數(shù)據(jù)量大小,其中,TN為被模型成功診斷識(shí)別的無故障征兆數(shù)據(jù);FN為被模型錯(cuò)誤診斷識(shí)別為無故障征兆類別的有故障征兆數(shù)據(jù);FP為被模型錯(cuò)誤診斷識(shí)別為有故障征兆類別的無故障征兆數(shù)據(jù);TP為被模型成功診斷識(shí)別的有故障征兆數(shù)據(jù)。
準(zhǔn)確率(accuracy)是在進(jìn)行模型診斷時(shí)的一個(gè)常用指標(biāo),它反映地是在全部數(shù)據(jù)中診斷成功的數(shù)據(jù)占比,準(zhǔn)確率的表達(dá)式為:
(3)
F1分?jǐn)?shù)(F1-score)是針對(duì)兩個(gè)概率的調(diào)和平均值,分別在所有診斷為有故障的樣本中實(shí)際為故障樣本的概率,與在所有實(shí)際有故障的樣本中被診斷為故障樣本的概率。其取值范圍為0到1,值越大代表診斷能力越強(qiáng)。F1分?jǐn)?shù)能綜合評(píng)價(jià)模型的性能,其表達(dá)式為:
(4)
分別對(duì)模型進(jìn)行實(shí)驗(yàn),并針對(duì)診斷效果進(jìn)行評(píng)價(jià)指標(biāo)的計(jì)算,診斷效果如表 4所示。
表4 模型診斷效果表
從表4可知,基于Stacking集成學(xué)習(xí)的診斷模型的故障識(shí)別準(zhǔn)確率均高于單模型,平均準(zhǔn)確率可達(dá)到96.07%。此外,在F1分?jǐn)?shù)的度量下,Stacking集成學(xué)習(xí)模型的性能同樣優(yōu)于決策樹和支持向量機(jī),達(dá)到了96.24%。這說明相較于單模型,集成學(xué)習(xí)模型在分類效果和穩(wěn)定性方面均具有優(yōu)勢(shì),在轉(zhuǎn)子部件脫落故障診斷上具有良好的診斷效果。
為了深入探索Stacking集成學(xué)習(xí)故障診斷模型能提高故障識(shí)別準(zhǔn)確率的原因,對(duì)作為基模型的決策樹和支持向量機(jī)的混淆矩陣輸出進(jìn)行分析,其混淆矩陣輸出分別如表5和表6所示。
表5 決策樹的混淆矩陣
表6 支持向量機(jī)的混淆矩陣
從表5和表6可知,決策樹診斷錯(cuò)誤主要發(fā)生在將有故障征兆的樣本錯(cuò)誤預(yù)測(cè)為了無故障征兆的樣本,而支持向量機(jī)診斷錯(cuò)誤主要發(fā)生在將無故障征兆的樣本錯(cuò)誤預(yù)測(cè)為了有故障征兆的樣本。從混淆矩陣中可以看出,當(dāng)決策樹對(duì)支持向量機(jī)診斷錯(cuò)誤的樣本進(jìn)行診斷識(shí)別時(shí),大部分樣本都能正確診斷,而支持向量機(jī)相對(duì)決策樹也是如此,兩者在診斷識(shí)別能力上可以進(jìn)行互補(bǔ)。集成學(xué)習(xí)正是通過綜合兩種算法各自對(duì)故障診斷識(shí)別的優(yōu)勢(shì),使用邏輯回歸作為元模型,對(duì)基模型輸出的數(shù)據(jù)再次擬合,達(dá)到了提升效果的目的。
3.2.2 并行算法加速效果實(shí)驗(yàn)
在Spark集群環(huán)境下進(jìn)行集成學(xué)習(xí)模型加速效果驗(yàn)證。本實(shí)驗(yàn)在5臺(tái)服務(wù)器上進(jìn)行測(cè)試,服務(wù)器之間通過千兆核心交換機(jī)來互聯(lián)交換數(shù)據(jù)。
這里引入加速比這個(gè)衡量指標(biāo)來度量算法的并行加速效率,其計(jì)算公式為:
σ=t1/tN
(5)
式中:t1為當(dāng)集群中只有一個(gè)計(jì)算節(jié)點(diǎn)時(shí)的模型運(yùn)行時(shí)間;tN為集群開啟多個(gè)計(jì)算節(jié)點(diǎn)時(shí)的模型運(yùn)行時(shí)間。
使用該指標(biāo)能直觀地衡量模型并行化的效果,加速比越大,說明對(duì)數(shù)據(jù)的并行處理性能越好。該集成學(xué)習(xí)模型在配置不同節(jié)點(diǎn)數(shù)的情況下,運(yùn)行時(shí)間如表7所示。
表7 模型運(yùn)行時(shí)間對(duì)比
集成學(xué)習(xí)模型的加速比趨勢(shì)如圖9所示。
圖9 加速比趨勢(shì)圖
由圖9可知,以集群只有1個(gè)節(jié)點(diǎn)時(shí)的模型運(yùn)行時(shí)間為基準(zhǔn),集成學(xué)習(xí)診斷模型隨著工作節(jié)點(diǎn)數(shù)量的持續(xù)增加,其運(yùn)行效率也在不斷提高,從而基于Spark實(shí)現(xiàn)了良好的加速擴(kuò)展性能。但與此同時(shí)可以發(fā)現(xiàn),更多的工作節(jié)點(diǎn)數(shù)量也意味著更高的數(shù)據(jù)通信負(fù)擔(dān),額外消耗的增加使得模型的加速比并不能保持線性增加,而是表現(xiàn)出斜率呈現(xiàn)逐漸減少的趨勢(shì)。因此,基于Spark對(duì)模型的加速效果不是無限制的,在實(shí)際應(yīng)用中可以結(jié)合加速比的變化趨勢(shì),選擇一個(gè)合適的節(jié)點(diǎn)數(shù)目。從上述分析可知,基于Spark進(jìn)行并行化的Stacking集成學(xué)習(xí)模型能夠有效地進(jìn)行轉(zhuǎn)子故障診斷的大數(shù)據(jù)分析處理。
圍繞轉(zhuǎn)子部件脫落故障的診斷,結(jié)合機(jī)器學(xué)習(xí)和大數(shù)據(jù)相關(guān)理論和技術(shù)對(duì)其進(jìn)行了深入研究,通過特征工程技術(shù),采用時(shí)頻域分析等方法提取出了故障數(shù)據(jù)集的相關(guān)特征。針對(duì)轉(zhuǎn)子脫落故障診斷識(shí)別準(zhǔn)確率的問題,提出并驗(yàn)證了一種基于集成學(xué)習(xí)模型的轉(zhuǎn)子部件脫落故障診斷方法。并基于Spark計(jì)算框架,對(duì)模型進(jìn)行了并行化的分析和設(shè)計(jì),取得了一定的效果。