程芳明 容芷君 但斌斌 劉洋
(1:武漢科技大學(xué)冶金裝備及其控制教育部重點(diǎn)實(shí)驗(yàn)室 湖北武漢430081;2:武漢科技大學(xué)機(jī)械傳動(dòng)與制造工程湖北省重點(diǎn)實(shí)驗(yàn)室 湖北武漢430081;3:寶鋼股份中央研究院 湖北武漢430080)
在連鑄生產(chǎn)中,及時(shí)在線預(yù)報(bào)和檢測鑄坯質(zhì)量,對(duì)確保生產(chǎn)的連續(xù)性、提高產(chǎn)品質(zhì)量及降低生產(chǎn)成本具有重要的意義[1]。目前對(duì)鑄坯質(zhì)量預(yù)測的研究主要有專家系統(tǒng)、統(tǒng)計(jì)學(xué)分析、數(shù)據(jù)分析等方法,但由于在連鑄生產(chǎn)過程中影響連鑄坯質(zhì)量的環(huán)節(jié)眾多,各因素之間的耦合作用,使得鑄坯質(zhì)量預(yù)測精度不高,質(zhì)量缺陷問題得不到有效改善[2-3]。隨著大數(shù)據(jù)時(shí)代的到來,數(shù)據(jù)挖掘因其及時(shí)性、智能性、極強(qiáng)的大數(shù)據(jù)處理能力逐步成為預(yù)測鑄坯質(zhì)量及提高預(yù)測精度的主要方式。
當(dāng)前已有眾多研究通過數(shù)據(jù)挖掘方法預(yù)測鑄坯質(zhì)量,將生產(chǎn)過程中涉及的影響因素作為模型的輸入特征,采用模糊識(shí)別[4]、神經(jīng)網(wǎng)絡(luò)[5-7]、隨機(jī)森林[8]等模型實(shí)現(xiàn)鑄坯質(zhì)量的預(yù)測。這些研究是根據(jù)冶金原理分析影響鑄坯質(zhì)量的因素,將其作為預(yù)測模型的輸入特征,雖然可以提取用于預(yù)測的所有信息,但煉鋼是一個(gè)非常復(fù)雜的過程,且影響機(jī)理復(fù)雜,這使得鑄坯質(zhì)量與各影響因素間具有非線性和不確定性關(guān)系,所以通常會(huì)得到無關(guān)特征和冗余特征。無關(guān)特征和冗余特征的存在會(huì)極大影響模型的預(yù)測準(zhǔn)確率與算法效率,因此,選用合適的特征選擇方法對(duì)特征進(jìn)行處理,能有效提高預(yù)測精度與效率。
本文提出一種混合式特征選擇方法,首先采用融合互信息的最大相關(guān)最小冗余特征評(píng)價(jià)函數(shù)對(duì)原始特征集進(jìn)行篩選,剔除部分不相關(guān)特征和冗余特征,減少特征的個(gè)數(shù),得到特征子集S;然后采用遞歸特征消除法與隨機(jī)森林相結(jié)合的包裝式精選方法,考慮特征組合對(duì)分類性能的影響,使用隨機(jī)森林分類器的分類性能來評(píng)價(jià)特征子集,同時(shí)得到當(dāng)前特征子集中每個(gè)特征的重要性,并使用遞歸特征消除法從特征子集S開始,以最小化鑄坯夾雜缺陷的分類錯(cuò)誤率為目標(biāo),每次剔除重要性較小的一個(gè)或幾個(gè)特征;最后選擇分類錯(cuò)誤率最低的特征子集作為最優(yōu)特征子集。
針對(duì)鑄坯質(zhì)量的預(yù)測與控制,各大鋼鐵企業(yè)先后開發(fā)了許多應(yīng)用系統(tǒng)。如傳統(tǒng)的離線檢查冷態(tài)鑄坯質(zhì)量、基于冶金原理的專家系統(tǒng)等,但隨著連鑄坯的質(zhì)量要求越來越高這些方法已經(jīng)遠(yuǎn)遠(yuǎn)不能適應(yīng)當(dāng)下工藝和質(zhì)量的要求,因此利用鑄坯生產(chǎn)過程中的數(shù)據(jù)對(duì)鑄坯質(zhì)量進(jìn)行分析對(duì)于鋼廠來說是非常重要的。某鋼廠2020年2月至6月鑄坯質(zhì)量缺陷統(tǒng)計(jì)結(jié)果如表1所示,可知夾雜發(fā)生的頻率最高,達(dá)到62.6%,是該鋼廠最常見的質(zhì)量缺陷,因此本文以夾雜缺陷為例。
表1 某鋼廠2020年2月至6月鑄坯質(zhì)量缺陷統(tǒng)計(jì)
收集某鋼廠2020年2月至6月共5個(gè)月的生產(chǎn)數(shù)據(jù),提取有鑄坯夾雜質(zhì)量缺陷的2552條數(shù)據(jù),考慮到數(shù)據(jù)采集的滯后性,同時(shí)選取未出現(xiàn)質(zhì)量缺陷的2291個(gè)樣本作為對(duì)照,最終得到包含4843個(gè)樣本的數(shù)據(jù)集。首先刪除數(shù)據(jù)集中與夾雜缺陷明顯無關(guān)的記錄,例如熔煉號(hào)、日期等,然后根據(jù)對(duì)夾雜缺陷成因的相關(guān)研究,同時(shí)結(jié)合專家經(jīng)驗(yàn),最終確定夾雜質(zhì)量缺陷的21個(gè)影響因素,構(gòu)成鑄坯質(zhì)量預(yù)測原始特征集,如表2所示。最終數(shù)據(jù)集共包含22列,其中有21列為特征,剩余一列為鑄坯質(zhì)量分類標(biāo)簽,其包含“正常”和“夾雜”兩種類別。為了后續(xù)分類任務(wù),采用數(shù)值化編碼的方式對(duì)字符型特征預(yù)處理,然后利用Z-Score標(biāo)準(zhǔn)化消除量綱的影響。
表2 鑄坯質(zhì)量原始特征集
對(duì)于無關(guān)特征和冗余特征對(duì)分類任務(wù)的干擾,大多數(shù)研究采用特征選擇方法來解決。常見的特征選擇方法分為過濾式、包裝式和嵌入式[9]。包裝式需要多次訓(xùn)練模型,得到的特征子集性能最好,但時(shí)間復(fù)雜度較高;嵌入式將特征選擇與機(jī)器學(xué)習(xí)算法訓(xùn)練放在同一過程中進(jìn)行,特征子集性能比包裝式差,但時(shí)間復(fù)雜度較低[10];過濾式不依賴于特定的機(jī)器學(xué)習(xí)算法,直接對(duì)特征的相關(guān)性和冗余性進(jìn)行度量,運(yùn)行效率最高,但特征子集的性能較差[11]。
針對(duì)鑄坯質(zhì)量預(yù)測問題中特征冗余性強(qiáng)、關(guān)鍵特征不顯著的特點(diǎn),并綜合考慮現(xiàn)有的特征選擇方法,提出一種混合式特征選擇方法,方法的主要流程如圖1所示。該方法包括預(yù)篩選和精選兩個(gè)過程,在預(yù)篩選中,使用互信息對(duì)特征的相關(guān)性和冗余性進(jìn)行度量,并使用融合互信息的最大相關(guān)最小冗余特征預(yù)篩選函數(shù),從而在特征選擇過程中綜合考慮特征的相關(guān)性和冗余性,剔除特征的相關(guān)性和冗余性,同時(shí)減少精選階段的計(jì)算規(guī)模;在精選階段,使用基于RFE-RF的包裝式特征選擇方法,考慮特征的組合對(duì)分類性能的影響。經(jīng)過預(yù)篩選和精選,可以得到高相關(guān)低冗余的最優(yōu)特征子集,同時(shí)保證該特征子集具有較高的分類性能。
圖1 混合式特征選擇方法框架圖
對(duì)于過濾式,特征與鑄坯質(zhì)量分類標(biāo)簽間的相關(guān)性越強(qiáng),該特征越重要;特征與特征間的相關(guān)性越強(qiáng),則兩個(gè)特征的冗余性就越強(qiáng),即這兩個(gè)特征越不應(yīng)該被同時(shí)選擇進(jìn)入特征子集。因此,在過濾式預(yù)篩選中,最關(guān)鍵的是找到一種合適的指標(biāo)來度量相關(guān)性。考慮到煉鋼過程的復(fù)雜性,本文使用互信息(MI)來衡量特征與鑄坯質(zhì)量分類間標(biāo)簽以及特征與特征間的相關(guān)性。對(duì)于任意兩個(gè)變量和,其互信息定義為:
文獻(xiàn)[12-13]中提出了一種最小冗余最大相關(guān)算法(mRMR),該算法通過設(shè)置特征評(píng)價(jià)函數(shù),對(duì)特征的最大相關(guān)和最小冗余進(jìn)行定義?;谠撍惴?,本文提出融合互信息的最大相關(guān)最小冗余特征預(yù)篩選評(píng)價(jià)函數(shù),令原始特征集為X={xi|i=1,2……,21},鑄坯質(zhì)量分類標(biāo)簽為Y,函數(shù)定義如下:
式中:x—特征,且x∈X;
Ic(xi,Y)—特征與鑄坯質(zhì)量分類標(biāo)簽間的互信息值;
S—已選的特征子集;
Ir(xi,xj)—特征與特征間的互信息值,i≠j。
使用預(yù)篩選評(píng)價(jià)函數(shù)進(jìn)行特征選擇的過程如圖2所示:
圖2 特征預(yù)篩選過程
包裝式直接考慮的是特征子集的分類性能,通過迭代的過程,精選出使模型性能最優(yōu)的特征組合作為特征子集。該方法得到的特征子集的分類性能較好,但一般要結(jié)合相應(yīng)的子集搜索策略,因?yàn)樘卣鹘M合的種類很多,且每種特征組合都需要訓(xùn)練分類模型進(jìn)行驗(yàn)證,計(jì)算量將非常龐大。為此,本文提出基于遞歸特征消除法(RFE)-隨機(jī)森林(RF)的包裝式精選方法,該方法以最小化分類錯(cuò)誤率為目標(biāo),使用RF分類器的分類性能來評(píng)價(jià)特征子集,同時(shí)得到當(dāng)前特征子集中每個(gè)特征的重要性,并使用RFE作為每次迭代過程的特征子集更新方法,從特征子集S開始,每次固定剔除重要性較小的一個(gè)或幾個(gè)特征,最后選擇分類錯(cuò)誤率最低的特征子集作為最優(yōu)特征子集。使用RF進(jìn)行分類的同時(shí),可以得到當(dāng)前特征子集S中每個(gè)特征的重要性評(píng)分,這是由于RF算法是一種基于bagging的集成分類器,由多棵完全生長的決策樹組成,每棵決策樹的訓(xùn)練集由自助重采樣產(chǎn)生,即從樣本數(shù)量為N的原始訓(xùn)練集中,有放回地重復(fù)隨機(jī)抽取N個(gè)樣本。因此,有的樣本可能會(huì)多次被抽取,而有的樣本則可能不會(huì)被抽取,這些不被抽取的數(shù)據(jù)構(gòu)成了袋外數(shù)據(jù)(OOB data)。對(duì)袋外數(shù)據(jù)的某個(gè)特征的值進(jìn)行擾動(dòng),通過擾動(dòng)前后分類錯(cuò)誤率的變化來度量該特征的重要性,計(jì)算方式如下:
該方法的過程如圖3所示:
圖3 特征精選過程
對(duì)表2中的21個(gè)特征,計(jì)算這些特征與鑄坯質(zhì)量分類標(biāo)簽間及特征與特征間的相關(guān)性值,得到結(jié)果如圖4所示。由圖4(a)可知,“結(jié)晶器渣類型”、“長水口廠家”、“精煉方式”、“廢鋼加入量”這4個(gè)特征與鑄坯質(zhì)量分類標(biāo)簽間的相關(guān)性值大于0.2,相關(guān)性較高。圖4(b)可以看到,“最低拉速”與“最高拉速”的相關(guān)性值為0.98、“鑄機(jī)號(hào)”與“結(jié)晶器渣類型”的相關(guān)性值為0.65、“鑄機(jī)號(hào)”與“斷面寬度”和“斷面寬度”與“結(jié)晶器渣類型”的相關(guān)性值為0.62,這些特征之間的冗余性較大。
根據(jù)相關(guān)性計(jì)算結(jié)果,結(jié)合特征評(píng)價(jià)函數(shù),完成特征預(yù)篩選過程。由圖2知,需要先指定要選擇的特征個(gè)數(shù)k。因?yàn)榈谝粋€(gè)被選中的特征是相關(guān)性最大的特征,所以不管k取何值,根據(jù)評(píng)價(jià)函數(shù),待選特征進(jìn)入特征子集的順序是相同的。圖5給出了k取21時(shí),每次進(jìn)入特征子集的一個(gè)特征對(duì)應(yīng)的評(píng)價(jià)函數(shù)取值。開始時(shí)特征子集S中沒有特征,第一個(gè)進(jìn)入特征子集S的特征為“結(jié)晶器渣類型”,此時(shí)特征評(píng)價(jià)函數(shù)的取值即“結(jié)晶器渣類型”與鑄坯質(zhì)量分類標(biāo)簽的相關(guān)性值,由圖4(a)可知為0.473。第一個(gè)特征進(jìn)入后,后續(xù)特征再進(jìn)入特征子集時(shí),特征評(píng)價(jià)函數(shù)綜合地考慮特征與鑄坯質(zhì)量分類標(biāo)簽間的相關(guān)性以及該特征與特征子集中已有特征間的冗余性。特征評(píng)價(jià)函數(shù)的取值不斷減小,是因?yàn)橄鄬?duì)前面進(jìn)入的特征,后面進(jìn)入的特征其相關(guān)性較小而冗余性較大,直到“鋼水節(jié)奏”這個(gè)特征進(jìn)入特征子集時(shí),特征評(píng)價(jià)函數(shù)取值為負(fù),表明該特征對(duì)已選特征子集來說,其冗余性已經(jīng)大于相關(guān)性,而后續(xù)再進(jìn)入的特征,評(píng)價(jià)函數(shù)的取值進(jìn)一步減小。綜合上述分析可知,應(yīng)該選擇使得特征評(píng)價(jià)函數(shù)取值大于零的特征,即為“結(jié)晶器渣類型”、“長水口廠家”、“精煉方式”、“廢鋼加入量”、“溫度是否合格”、“罐況”、“拉速落差”、“澆鑄周期”、“水表號(hào)”、“斷面寬度”、“配水方式”、“中包爐序”,共12個(gè)特征。
圖5 特征評(píng)價(jià)函數(shù)取值變化
在RFE-RF的特征精選中,使用特征子集更新算法RFE和隨機(jī)森林分類算法RF,這兩個(gè)算法都需要設(shè)定相關(guān)的參數(shù)。對(duì)于RFE算法,需要設(shè)置每次迭代時(shí)剔除的特征個(gè)數(shù)n,其決定了算法的計(jì)算規(guī)模,因?yàn)榻?jīng)過預(yù)篩選后僅剩12個(gè)特征,所以該參數(shù)設(shè)置為1即可。對(duì)于RF需要設(shè)置的參數(shù)包括決策樹的個(gè)數(shù)a和每棵樹分類時(shí)選用的最大特征數(shù),考慮到共有4843個(gè)數(shù)據(jù)樣本,a設(shè)置為100即可,而每次迭代特征的個(gè)數(shù)都不一樣,所以將b設(shè)置為當(dāng)次迭代時(shí)特征的總個(gè)數(shù)。每次訓(xùn)練分類器時(shí),隨機(jī)將4843個(gè)樣本中的70%劃分為訓(xùn)練集,剩余30%為測試集。圖6顯示了隨著特征的剔除,隨機(jī)森林分類器在測試集上錯(cuò)誤率的變化。開始時(shí),隨著重要性較小的特征的剔除,分類錯(cuò)誤率逐漸降低,而當(dāng)重要性較大的特征被剔除時(shí),分類的錯(cuò)誤率隨之增大。當(dāng)剔除“水表號(hào)”、“澆鑄周期”、“中包爐序”、“配水方式”、“罐況”、“廢鋼加入量”這6個(gè)重要性較小的特征時(shí),分類的錯(cuò)誤率最小,為9.8%,因此最終選擇的特征為“精煉方式”、“斷面寬度”、“拉速落差”、“溫度是否合格”、“長水口廠家”、“結(jié)晶器渣類型”,共計(jì)6個(gè)特征。
圖6 隨機(jī)森林分類準(zhǔn)確率變化
為了驗(yàn)證混合式特征選擇方法在鑄坯質(zhì)量預(yù)測問題中進(jìn)行特征選擇的有效性,本文用隨機(jī)森林分類器的分類錯(cuò)誤率來評(píng)價(jià)該方法選取特征子集的優(yōu)劣,對(duì)過濾式、包裝式和混合式特征選擇的效果進(jìn)行比較,如表3所示。可以看到采用混合式特征選擇方法選出的特征子集的分類錯(cuò)誤率為9.8%,分類錯(cuò)誤率比過濾式降低了13.5%,比包裝式降低了8.2%,更好地達(dá)到了降低分類錯(cuò)誤率的目的。
表3 4種特征處理方式下的分類錯(cuò)誤率比較
本文提出的混合式特征選擇方法,首先在過濾式預(yù)篩選過程中充分考慮特征和鑄坯質(zhì)量分類標(biāo)簽之間的相關(guān)性和冗余性,避免了將無關(guān)特征引入模型,同時(shí)降低特征間的冗余性;然后在包裝式精選過程中進(jìn)一步考慮特征組合對(duì)鑄坯質(zhì)量分類效果的關(guān)聯(lián)影響,進(jìn)而提高模型的準(zhǔn)確率。通過不同特征處理方法的對(duì)比,與采用單一的過濾式和包裝式相比,混合式特征選擇方法的分類錯(cuò)誤率最低,證明了在鑄坯夾雜質(zhì)量預(yù)測問題中,本文所提出的混合式特征選擇方法的優(yōu)越性。