曹現(xiàn)剛,陳瑞昊,李彥川,伍宇澤,岳 東
(1.西安科技大學(xué) 機(jī)械工程學(xué)院,陜西 西安 710054;2.陜西省礦山機(jī)電裝備智能監(jiān)測(cè)重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710054;3.陜西陜煤銅川礦業(yè)有限公司,陜西 銅川 727000)
采煤機(jī)作為多部件復(fù)雜系統(tǒng),在運(yùn)行過程中由于截割煤巖時(shí)受到變工況、環(huán)境噪聲等各種復(fù)雜因素影響,采集到的振動(dòng)、電流等監(jiān)測(cè)信號(hào)往往難以提取關(guān)鍵信息[1]。復(fù)雜設(shè)備的健康狀態(tài)評(píng)估方法根據(jù)不同的評(píng)估原理,大致可以分為以下三類:基于經(jīng)驗(yàn)的健康狀態(tài)評(píng)估[2]、基于模型的健康狀態(tài)評(píng)估[3]和基于人工智能的健康狀態(tài)評(píng)估[4]。其中,基于經(jīng)驗(yàn)的評(píng)估方法包括:灰色理論法、模糊綜合評(píng)判法[5]、云模型理論[6]、層次分析法、D-S證據(jù)理論;基于模型的評(píng)估方法主要包括失效物理模型、故障樹等[7,8];基于人工智能的評(píng)估方法主要有:支持向量機(jī)[9]、馬爾科夫理論、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)[10-12]等。
目前國內(nèi)外設(shè)備健康狀態(tài)評(píng)估研究多集中于電力[13,14]、導(dǎo)彈[15]、航空航天[16,17]等領(lǐng)域,針對(duì)煤礦設(shè)備的狀態(tài)評(píng)估研究并不多見;在評(píng)估對(duì)象上主要集中于對(duì)單一或者簡(jiǎn)單部件系統(tǒng)進(jìn)行狀態(tài)評(píng)估,對(duì)于多部件復(fù)雜系統(tǒng)[18]的健康狀態(tài)評(píng)估研究成果較少。采煤機(jī)健康狀態(tài)評(píng)估工作是一個(gè)多層次、多屬性評(píng)估過程,基于模型的評(píng)估方法建模困難求解異常復(fù)雜,而基于經(jīng)驗(yàn)的評(píng)估方法受主觀因素影響較大,各部件、指標(biāo)權(quán)重難以確定?;趥鹘y(tǒng)神經(jīng)網(wǎng)絡(luò)的評(píng)估方法可解釋性較差,易陷入局部極小值。此外,大多數(shù)健康狀態(tài)評(píng)估方法無法針對(duì)冗余性、突變性、不平衡數(shù)據(jù)集,導(dǎo)致評(píng)估效率較低。針對(duì)以上問題,本文提出了XGBooost的采煤機(jī)健康狀態(tài)評(píng)估方法研究,首先篩選出相關(guān)性較低的參數(shù)數(shù)據(jù),構(gòu)建采煤機(jī)健康狀態(tài)評(píng)估指標(biāo)體系;采用XGBoost算法對(duì)采煤機(jī)健康狀態(tài)進(jìn)行評(píng)估,調(diào)優(yōu)模型確定關(guān)鍵參數(shù),通過實(shí)驗(yàn)驗(yàn)證,得到XGBoost算法的評(píng)估結(jié)果和混淆矩陣為采煤機(jī)健康狀態(tài)評(píng)估工作提供依據(jù),對(duì)采煤機(jī)健康管理具有一定意義。
本文主要研究電牽引雙滾筒式采煤機(jī),雙滾筒采煤機(jī)可分為牽引部、截割部、電氣系統(tǒng)和輔助裝置。雙滾筒電牽引采煤機(jī)各部位名稱如圖1所示。
根據(jù)采煤機(jī)結(jié)構(gòu)組成和工作方式,同時(shí)考慮采煤機(jī)實(shí)際可安裝部位,分析得到采煤機(jī)主要運(yùn)行狀態(tài)監(jiān)測(cè)數(shù)據(jù)。采煤機(jī)的各個(gè)關(guān)鍵部件或部位均安裝對(duì)應(yīng)的傳感器對(duì)其進(jìn)行實(shí)時(shí)監(jiān)測(cè),保證采煤機(jī)的健康狀態(tài)。采煤機(jī)需要監(jiān)測(cè)的部分狀態(tài)參數(shù)見表1。
1—截割滾筒;2—搖臂;3—截割電機(jī);4—牽引電機(jī);5—油泵電機(jī);6—液壓?jiǎn)卧?—電氣控制箱;8—變頻箱;9—電磁閥柜;10—變壓器箱;11—牽引減速箱;12—調(diào)高調(diào)斜裝置;13—破碎機(jī)構(gòu);14—破碎電機(jī)圖1 電牽引采煤機(jī)基本結(jié)構(gòu)
表1 采煤機(jī)的部分狀態(tài)監(jiān)測(cè)參數(shù)
采煤機(jī)運(yùn)行過程中各部件監(jiān)測(cè)的狀態(tài)參數(shù)間存在復(fù)雜的關(guān)聯(lián)關(guān)系,因此需要找出這些關(guān)聯(lián)數(shù)據(jù),去除數(shù)據(jù)的冗余性和相關(guān)性,為采煤機(jī)健康狀態(tài)評(píng)估工作做準(zhǔn)備。單一的相關(guān)系數(shù)并不能客觀地表征數(shù)據(jù)變量間密切的相關(guān)關(guān)系,因此本文選擇綜合相關(guān)系數(shù),即將Spearman相關(guān)系數(shù)、Person相關(guān)系數(shù)進(jìn)行綜合用于表征采煤機(jī)狀態(tài)數(shù)據(jù)變量間的相關(guān)關(guān)系。
Spearman相關(guān)系數(shù)計(jì)算公式如下:
式中,ρ1為兩變量間的Spearman相關(guān)系數(shù);N為樣本容量;di為變量間秩次差值。
Person相關(guān)系數(shù)ρ2的計(jì)算公式如下:
式中,cov(X,Y)為X和Y的協(xié)方差;σX、σY為X和Y的標(biāo)準(zhǔn)差;μX、μY為變量X和Y的平均值。Person相關(guān)系數(shù)一般在-1到1之間取值,當(dāng)前提條件一定的情況下,一般使用絕對(duì)值表示兩參數(shù)變量間的相關(guān)性。
狀態(tài)參量間的綜合相關(guān)系數(shù)用rxy表示,則rxy為:
通過計(jì)算狀態(tài)參數(shù)間的綜合相關(guān)系數(shù)rxy,篩選出狀態(tài)評(píng)估指標(biāo),構(gòu)建出采煤機(jī)健康狀態(tài)評(píng)估體系。采用rxy表示狀態(tài)監(jiān)測(cè)參數(shù)x和y之間的綜合相關(guān)系數(shù),兩狀態(tài)參數(shù)間的相關(guān)系數(shù)rxy的值與對(duì)應(yīng)的兩個(gè)變量之間的相關(guān)性描述見表2。
表2 綜合相關(guān)系數(shù)rxy的絕對(duì)值與對(duì)應(yīng)的兩個(gè)變量間關(guān)系
本文以采煤機(jī)牽引部各監(jiān)測(cè)參數(shù)為例,完成監(jiān)測(cè)參數(shù)間相關(guān)性分析,進(jìn)而完成采煤機(jī)狀態(tài)評(píng)估指標(biāo)篩選。為了分析采煤機(jī)狀態(tài)監(jiān)測(cè)參數(shù)和指標(biāo)間的相關(guān)性,選取正常工況下的采煤機(jī)牽引部8項(xiàng)狀態(tài)參數(shù)序列數(shù)據(jù),包括牽引電機(jī)溫度、牽引電機(jī)轉(zhuǎn)速、牽引電機(jī)振動(dòng)、牽引電機(jī)電流、冷卻水壓、牽引電機(jī)轉(zhuǎn)矩、油缸內(nèi)油壓、牽引減速箱溫度等八項(xiàng)參數(shù),分別計(jì)算這八項(xiàng)參數(shù)之間的綜合相關(guān)系數(shù),將相關(guān)度高于閾值0.6的幾個(gè)參數(shù)用同一指標(biāo)參數(shù)替代,減少監(jiān)測(cè)參數(shù)間的冗余屬性,通過相關(guān)性分析得到的相關(guān)性熱力圖結(jié)果如圖2所示。
圖2 牽引部狀態(tài)參數(shù)間綜合相關(guān)系數(shù)熱力圖
由圖2可知,C1牽引電機(jī)溫度與C2牽引電機(jī)轉(zhuǎn)矩密切相關(guān),因此可以用C1即牽引電機(jī)溫度代替這兩個(gè)指標(biāo),以此類推,篩選出狀態(tài)參數(shù)間相關(guān)性都低于0.6的四項(xiàng)基本監(jiān)測(cè)參數(shù),依次為:牽引電機(jī)振動(dòng)、牽引電機(jī)溫度、牽引電機(jī)電流、牽引電機(jī)轉(zhuǎn)速。同理,得到其他部件的狀態(tài)參數(shù)相關(guān)性分析結(jié)果,篩選出相關(guān)性低的狀態(tài)參數(shù)作為采煤機(jī)健康狀態(tài)評(píng)估指標(biāo),剔除掉相關(guān)性較強(qiáng)的數(shù)據(jù)。
由于采煤機(jī)集機(jī)械,電力和液壓系統(tǒng)于一體,因此影響采煤機(jī)的狀態(tài)監(jiān)測(cè)參數(shù)眾多,但若將其全部用作采煤機(jī)狀態(tài)評(píng)估指標(biāo),會(huì)增加不必要的工作量和影響評(píng)估工作效率。因此,本文在煤礦調(diào)研的基礎(chǔ)上,結(jié)合采煤機(jī)結(jié)構(gòu)、易發(fā)故障部位置和采煤機(jī)監(jiān)測(cè)參數(shù)相關(guān)性分析,篩選出影響采煤機(jī)健康狀態(tài)的最重要的多維指標(biāo),在此基礎(chǔ)上確定采煤機(jī)健康狀態(tài)評(píng)估指標(biāo)體系的組成,分別從指標(biāo)層、部件層到整機(jī)層進(jìn)行分層劃分,如圖3所示。
圖3 采煤機(jī)健康狀態(tài)評(píng)估指標(biāo)體系
采煤機(jī)作為一個(gè)復(fù)雜設(shè)備,它的健康狀態(tài)等級(jí)變化是一個(gè)漸變過程,從健康狀態(tài)到劣化再到故障,因此為了便于量化計(jì)算和結(jié)合專家經(jīng)驗(yàn),本實(shí)驗(yàn)將其分為四個(gè)健康狀態(tài)等級(jí),分別是健康、良好、劣化、故障,采煤機(jī)健康狀態(tài)對(duì)應(yīng)的采煤機(jī)各等級(jí)描述見表3。
極端梯度提升算法(extreme gradient boosting,XGBoost)采用多線程加速樹的構(gòu)建,使用樹模型作為基礎(chǔ)分類器來形成強(qiáng)大的分類器,并通過將多個(gè)基礎(chǔ)分類器集成在一起,這在分類任務(wù)中具有高效、準(zhǔn)確和解釋性好的優(yōu)點(diǎn)[19]。XGBoost算法的基本概念和理論如下:
表3 數(shù)據(jù)集基本信息
1)基學(xué)習(xí)器。極限梯度提升樹由回歸樹和分類樹這兩個(gè)基本部分構(gòu)成,XGBoost是以分類和回歸樹(classification and regression tree,CART)作為基礎(chǔ)學(xué)習(xí)器,采用XGBoost對(duì)評(píng)估模型進(jìn)行訓(xùn)練,特征的屬性被轉(zhuǎn)移到每個(gè)葉子節(jié)點(diǎn),對(duì)應(yīng)于每個(gè)葉子的分?jǐn)?shù)。
2)樹的復(fù)雜度。每一棵回歸樹,可拆分為結(jié)構(gòu)部分和葉子節(jié)點(diǎn)權(quán)重部分,則第t個(gè)樹模型:
ft(x)=wq(x),w∈RT
(4)
式中,w為葉子節(jié)點(diǎn)分值;q(x)為樣本x對(duì)應(yīng)的葉子節(jié)點(diǎn)號(hào);T為葉子數(shù),RT是T維實(shí)數(shù),表示葉子權(quán)重的集合。復(fù)雜度包含了一棵樹里面節(jié)點(diǎn)的個(gè)數(shù)以及每個(gè)數(shù)葉子節(jié)點(diǎn)上面輸出分?jǐn)?shù)的模平方,因此,樹的復(fù)雜度為:
式中,Ω為復(fù)雜度;γ是葉子節(jié)點(diǎn)數(shù)的懲罰系數(shù);λ是正則項(xiàng)系數(shù);wj是葉子節(jié)點(diǎn)j對(duì)應(yīng)的分值。
3)目標(biāo)函數(shù)為:
式中,I={i|q(xi)=j},Gj=∑i∈Ijgi,Hj=∑i∈Ijhi。
5)增益。在創(chuàng)建樹模型時(shí),可采用貪心算法,每次對(duì)已有的葉子加入分割。對(duì)于一個(gè)決提的分割方案,其獲得的增益為:
式中,第一項(xiàng)為左子樹分?jǐn)?shù),GL為樹分類后左子樹gi之和,HL為樹分類后左子樹hi之和;第二項(xiàng)為右子樹分?jǐn)?shù),GR為樹分類后左子樹gi之和,HR為樹分類后左子樹hi之和;第三項(xiàng)為不分割下的分?jǐn)?shù),表示新葉子節(jié)點(diǎn)帶來的復(fù)雜度代價(jià)。由以上原理可知XGBoost將多個(gè)弱學(xué)習(xí)器結(jié)合,因而可以獲得更好的性能。
將采煤機(jī)狀態(tài)數(shù)據(jù)作為特征量輸入,采煤機(jī)的四種健康狀態(tài)作為分類輸出結(jié)果,通過模型訓(xùn)練,通過各項(xiàng)模型參數(shù)調(diào)優(yōu),得到最佳參數(shù)值。
本節(jié)采用XGBoost集成學(xué)習(xí)建立采煤機(jī)健康狀態(tài)評(píng)估模型,通過劃分采煤機(jī)健康狀態(tài)等級(jí),建立訓(xùn)練樣本,并對(duì)XGBoost模型內(nèi)部關(guān)鍵參數(shù)優(yōu)化,最后對(duì)采煤機(jī)健康狀態(tài)進(jìn)行評(píng)估,得出結(jié)論。應(yīng)用XGBoost對(duì)采煤機(jī)健康狀態(tài)進(jìn)行評(píng)估的主要過程如下:
第一步是將相關(guān)分析、特征選擇后的指標(biāo)數(shù)據(jù)作為XGBoost的輸入特征,將采煤機(jī)不同的健康狀態(tài)等級(jí)作為評(píng)估算法的類別標(biāo)簽。
第二步是將采煤機(jī)狀態(tài)數(shù)據(jù)集進(jìn)行劃分。通過狀態(tài)量的選取和指標(biāo)體系的構(gòu)建,將采煤機(jī)狀態(tài)數(shù)據(jù)集分為訓(xùn)練集和測(cè)試集,按照一定的比例對(duì)其進(jìn)行劃分。
第三步是對(duì)XGBoost分類模型的主要參數(shù)進(jìn)行初始設(shè)置。模型建立后對(duì)采煤機(jī)狀態(tài)評(píng)估模型的各項(xiàng)參數(shù)進(jìn)行設(shè)置,如樹的最大深度、模型的學(xué)習(xí)率、最小葉子權(quán)重和等。
第四步是用訓(xùn)練集數(shù)據(jù)對(duì)采煤機(jī)XGBoost狀態(tài)評(píng)估模型進(jìn)行訓(xùn)練,用采煤機(jī)數(shù)據(jù)測(cè)試集對(duì)模型進(jìn)行測(cè)試。通過構(gòu)建一棵CART決策樹,然后依次增加狀態(tài)分類節(jié)點(diǎn),分別對(duì)前一次的評(píng)估結(jié)果進(jìn)行擬合,訓(xùn)練過程中的目標(biāo)是損失函數(shù)最小,通過求取損失函數(shù)最小的特征作為分叉樹的特征,在此基礎(chǔ)上求出每一個(gè)葉子節(jié)點(diǎn)即狀態(tài)的預(yù)測(cè)分?jǐn)?shù),將每棵樹的每種評(píng)估結(jié)果的預(yù)測(cè)分值作為概率值,根據(jù)概率值最大完成狀態(tài)分類和評(píng)估。
最后一步是不斷調(diào)整XGBoost模型參數(shù)。通過改變各項(xiàng)參數(shù)值查看評(píng)估模型分類效果,以綜合評(píng)估效果最優(yōu)的XGBoost各項(xiàng)參數(shù)作為最終的評(píng)估模型參數(shù)。具體的評(píng)估流程如圖4所示。
圖4 XGBoost模型評(píng)估流程
為保證評(píng)估結(jié)果的準(zhǔn)確性,本節(jié)通過選取采煤機(jī)狀態(tài)指標(biāo)數(shù)據(jù)1000條作為實(shí)驗(yàn)數(shù)據(jù),將采煤機(jī)指標(biāo)參數(shù)如牽引電動(dòng)機(jī)溫度等歸一化后的15維數(shù)據(jù)導(dǎo)入XGBoost評(píng)估模型中,數(shù)據(jù)集中80%作為訓(xùn)練集,20%作為測(cè)試集。通過交叉驗(yàn)證[20]的方法對(duì)XGBoost評(píng)估模型的參數(shù)進(jìn)行調(diào)優(yōu),將訓(xùn)練集和測(cè)試集分類錯(cuò)誤率作為模型的評(píng)估指標(biāo),多次調(diào)參得到采煤機(jī)狀態(tài)評(píng)估模型的最優(yōu)參數(shù)。
在對(duì)XGBoost的采煤機(jī)評(píng)估模型參數(shù)優(yōu)化前,首先需要對(duì)影響XGBoost模型評(píng)估效率的關(guān)鍵參數(shù)進(jìn)行分析。第一類參數(shù)是調(diào)節(jié)過擬合的參數(shù)即樹的最大深度max_depth、最小葉子節(jié)點(diǎn)權(quán)重和min_child_weight等。一般來說max_depth越深,說明評(píng)估模型可以學(xué)習(xí)到更細(xì)微具體的數(shù)據(jù)樣本信息,但當(dāng)樹的深度的過深時(shí),就可能發(fā)生過擬合現(xiàn)象。此時(shí)測(cè)試集數(shù)據(jù)分類錯(cuò)誤率較高、訓(xùn)練集分類錯(cuò)誤率較低;min_child_weight的值越大時(shí),越能全面學(xué)習(xí)到樣本的各項(xiàng)特征,但當(dāng)min_child_weight值過大時(shí),模型學(xué)習(xí)到較多無用信息,因而發(fā)生過擬合現(xiàn)象。因此,本章主要對(duì)這兩個(gè)關(guān)鍵參數(shù)進(jìn)行優(yōu)化。
最小葉子節(jié)點(diǎn)權(quán)重和“min_child_weight”的取值一般在4~10之間,本章取“min_child_weight”取值為4、6、8、10時(shí),得到XGBoost模型的訓(xùn)練集和測(cè)試集的分類錯(cuò)誤率如圖5所示。由圖5可知,當(dāng)設(shè)置樹的高度為2、4時(shí),訓(xùn)練集合測(cè)試集的分類錯(cuò)誤率相差不大且能控制在相對(duì)較小的范圍內(nèi)且樹高度為4時(shí)平均分類錯(cuò)誤率更小;當(dāng)設(shè)置樹的高度為6、8時(shí),錯(cuò)誤率雖較小,但是訓(xùn)練集和測(cè)試集差距過大,不適合作為最佳參數(shù)。因此,綜合以上因素,選擇樹高度為4時(shí)最為合理。
圖5 不同樹高度時(shí)XGBoost模型分類錯(cuò)誤率對(duì)比
不同min_child_weight時(shí)XGBoost模型分類錯(cuò)誤率對(duì)比如圖6所示,可知,當(dāng)設(shè)置min_child_weight為4、6時(shí),訓(xùn)練集合測(cè)試集的分類錯(cuò)誤率相差不大且能控制在相對(duì)較小的范圍內(nèi),min_child_weight值為6時(shí)分類錯(cuò)誤率更??;當(dāng)設(shè)置min_child_weight值為8、10時(shí),錯(cuò)誤率雖不大,但是訓(xùn)練集和測(cè)試集差距過大,訓(xùn)練集誤差率過高,因此不適合作為最佳參數(shù)。因此,綜合以上因素,選擇最小葉子節(jié)點(diǎn)權(quán)重為6時(shí)最為合理。
圖6 不同最小葉子節(jié)點(diǎn)權(quán)重和時(shí)分類錯(cuò)誤率對(duì)比
接下來要調(diào)整的參數(shù)為最小損失函數(shù)下降值gamma與隨機(jī)采樣比例subsample、隨機(jī)列數(shù)比例colsample_bytree。gamma表示每個(gè)節(jié)點(diǎn)劃分時(shí)對(duì)應(yīng)的損失函數(shù)的下降值,若算法越保守gamma的數(shù)值越大。本章中,gamma的大小依據(jù)經(jīng)驗(yàn)在0~0.5之間進(jìn)行調(diào)整,每次相隔0.1,通過實(shí)驗(yàn)得出當(dāng)gamma的值為0.1時(shí)最佳,準(zhǔn)確率為0.985。隨機(jī)列數(shù)比例colsample_bytree表示決策樹的生成時(shí)間,而隨機(jī)采樣比例subsample表示采樣的樣本占整個(gè)樣本的比例。通過不斷調(diào)整參數(shù),求得colsample_bytree和subsample的最佳組合參數(shù)為前者的值為1,后者的值為0.8時(shí)模型的效果最佳主要模型參數(shù)見表4。
表4 模型參數(shù)
參數(shù)調(diào)優(yōu)后,將數(shù)據(jù)集導(dǎo)入XGBoost評(píng)估模型,因?yàn)閄GBoost采用集成樹模型,因此將模型可視化,可以看到評(píng)估過程樹的結(jié)構(gòu),因?yàn)闃涞臄?shù)量較多,以第一個(gè)類別(即健康狀態(tài)1)的第一棵樹為例,可得到樹結(jié)構(gòu)如圖7所示。
圖7 樹結(jié)構(gòu)
由圖7可知,每一棵樹劃分的狀態(tài)指標(biāo)參數(shù)和對(duì)應(yīng)的劃分閾值,其和采煤機(jī)狀態(tài)數(shù)據(jù)集的第一組數(shù)據(jù)對(duì)應(yīng),將每組數(shù)據(jù)4種狀態(tài)的相對(duì)應(yīng)的葉子節(jié)點(diǎn)分值相加,即得到該組狀態(tài)數(shù)據(jù)所對(duì)應(yīng)的4種健康狀態(tài)的分值[X1,X2,X3,X4],以此類推可計(jì)算出該組數(shù)據(jù)對(duì)應(yīng)的每個(gè)健康狀態(tài)的概率[P1,P1,P1,P1],依據(jù)概率最大即可得到采煤機(jī)對(duì)應(yīng)的健康狀態(tài)等級(jí)。
本文選取陜北煤礦某型采煤機(jī)監(jiān)測(cè)數(shù)據(jù)篩選出采煤機(jī)狀態(tài)指標(biāo)數(shù)據(jù)1000組作為實(shí)驗(yàn)數(shù)據(jù),每種狀態(tài)數(shù)據(jù)包括15維狀態(tài)指標(biāo)數(shù)據(jù)和對(duì)應(yīng)的健康狀態(tài)等級(jí)標(biāo)簽。其中“健康”狀態(tài)數(shù)據(jù)400組、“良好”狀態(tài)數(shù)據(jù)300組、“劣化”狀態(tài)數(shù)據(jù)200組、“故障”狀態(tài)數(shù)據(jù)100組,采煤機(jī)各個(gè)健康狀態(tài)等級(jí)對(duì)應(yīng)的狀態(tài)等級(jí)描述見表3。
在設(shè)置各項(xiàng)參數(shù)最優(yōu)值的基礎(chǔ)上,將采煤機(jī)狀態(tài)數(shù)據(jù)集導(dǎo)入進(jìn)行訓(xùn)練和測(cè)試,模型訓(xùn)練步驟如圖4所示。模型訓(xùn)練完畢后,將200組測(cè)試數(shù)據(jù)導(dǎo)入XGBoost狀態(tài)評(píng)估模型,分別計(jì)算評(píng)估準(zhǔn)確率、每種健康狀態(tài)的召回率、以及綜合評(píng)估參數(shù)F1的值來評(píng)判模型。評(píng)估準(zhǔn)確率是表示評(píng)估模型總體好壞的指標(biāo),然而采煤機(jī)健康狀態(tài)評(píng)估樣本存在不平衡問題,即健康樣本數(shù)量遠(yuǎn)多于不健康的樣本,僅憑單一的準(zhǔn)確率指標(biāo)無法定性模型的評(píng)估效果,因此用每一類樣本中被正確分類的數(shù)量占該類健康狀態(tài)樣本中的比例即來評(píng)價(jià)模型對(duì)樣本不平衡問題的適用程度。同時(shí)為避免單一準(zhǔn)確率和召回率評(píng)價(jià)指標(biāo)的弊端,采用兩者的綜合評(píng)價(jià)指標(biāo)F1值來綜合反映評(píng)估模型的效果,F(xiàn)1值越接近于1,評(píng)估模型的分類效果越好。通過程序運(yùn)行,評(píng)估過程中測(cè)試集的多分類錯(cuò)誤率merror如圖8所示,得到模型的具體評(píng)估結(jié)果用混淆矩陣表示如圖9所示。
由圖9可以看出,在200組數(shù)據(jù)中,有197組狀態(tài)數(shù)據(jù)被正確分類,即197組狀態(tài)數(shù)據(jù)可以被準(zhǔn)確得到對(duì)應(yīng)的健康狀態(tài),有1組數(shù)據(jù)屬于“健康”狀態(tài)而被分類為“良好”狀態(tài),有2組數(shù)據(jù)屬于“劣化”狀態(tài)而被分類為故障狀態(tài),但狀態(tài)預(yù)測(cè)結(jié)果與實(shí)際只相差一個(gè)等級(jí),對(duì)結(jié)果影響不是特別大。模型總體評(píng)估效果較好,總體準(zhǔn)確率高達(dá)98.50%,“健康”狀態(tài)等級(jí)準(zhǔn)確率為98.66%,“良好”狀態(tài)等級(jí)準(zhǔn)確率為100%,“劣化”狀態(tài)等級(jí)準(zhǔn)確率為94.87%,“故障”狀態(tài)等級(jí)評(píng)估準(zhǔn)確率為100%,4種健康狀態(tài)等級(jí)的平均召回率為98.38%,F(xiàn)1平均值為97.61%,平均召回率和FI值較高,說明模型對(duì)采煤機(jī)數(shù)據(jù)集每種狀態(tài)和總體的評(píng)估效果都較好。
本文針對(duì)采煤機(jī)變工況、工作環(huán)境惡劣等特點(diǎn),將XGBoost集成學(xué)習(xí)方法引入采煤機(jī)健康狀態(tài)評(píng)估工作中,根據(jù)綜合相關(guān)系數(shù),對(duì)采煤機(jī)狀態(tài)指標(biāo)進(jìn)行篩選。實(shí)驗(yàn)表明,經(jīng)過調(diào)參以后的模型評(píng)估效率和準(zhǔn)確性較高,更適用于采煤機(jī)不平衡數(shù)據(jù)集。