朱雯瓊,周木春,趙 琦,廖 俊
南京理工大學(xué)電子工程與光電技術(shù)學(xué)院,江蘇 南京 210094
轉(zhuǎn)爐煉鋼是我國(guó)主要的煉鋼技術(shù),它通過吹入氧氣與鐵水進(jìn)行化學(xué)反應(yīng),以消除鐵水中的雜質(zhì),最終產(chǎn)出鋼鐵的質(zhì)量與出鋼時(shí)的溫度和鋼鐵中的成分含量密切相關(guān),因此對(duì)煉鋼終點(diǎn)的精準(zhǔn)控制尤為重要。近年來,針對(duì)傳統(tǒng)控制方法如人工經(jīng)驗(yàn)控制、 副槍控制、 煙氣分析等命中率低、 成本高、 難以實(shí)時(shí)控制的缺陷,火焰光譜分析技術(shù)被提出并用于煉鋼終點(diǎn)的控制[1]。光譜分析早在冶金、 化學(xué)等方面被廣泛應(yīng)用,不僅可以用于測(cè)量溫度,也可用于檢測(cè)物質(zhì)成分含量, 它所提供的的實(shí)時(shí)測(cè)量信息可保證生產(chǎn)過程的優(yōu)化控制[2]。目前,機(jī)器學(xué)習(xí)方法隨著硬件的發(fā)展,在各個(gè)領(lǐng)域顯示出優(yōu)越的性能,特別在數(shù)據(jù)分析預(yù)測(cè)方面表現(xiàn)出色,若將火焰光譜分析與機(jī)器學(xué)習(xí)方法相結(jié)合,建立煉鋼終點(diǎn)預(yù)測(cè)模型,能夠有效對(duì)煉鋼過程進(jìn)行實(shí)時(shí)控制,從而提高鋼鐵產(chǎn)量、 降低工業(yè)成本。但由于爐口火焰光譜數(shù)據(jù)量大,包含大量冗余信息,直接使用其進(jìn)行建模會(huì)導(dǎo)致模型預(yù)測(cè)精度低且耗時(shí)長(zhǎng),因此需要首先對(duì)光譜進(jìn)行處理,提取出相應(yīng)特征用于建模。
目前的光譜特征提取方法主要分為兩種,一種是連續(xù)譜分段處理法, 通過對(duì)光譜整體特征的分析,使用數(shù)學(xué)方法計(jì)算出能夠代表光譜整體信息的某些參數(shù),如張彩軍等[3]對(duì)爐口火焰光譜進(jìn)行分段最小二乘擬合得到擬合參數(shù)作為光譜穩(wěn)定特征,并對(duì)特征峰區(qū)域光強(qiáng)積分值作為光譜不穩(wěn)定特征; Anton Stadler等[4]通過計(jì)算光譜的連續(xù)差異、 加權(quán)差異、 二值差異以及在小波域的過零點(diǎn)和高通差異作為光譜特征; SedatGolgiyaz等[5]通過計(jì)算功率譜密度來提取火焰光譜的閃爍特性; Chang等[6]對(duì)光譜進(jìn)行希爾伯特黃變換(HHT),將原始數(shù)據(jù)進(jìn)行經(jīng)驗(yàn)?zāi)J椒纸猓玫酱砉庾V有效信息的固有模態(tài)函數(shù); Yin等[7]對(duì)火焰光譜進(jìn)行傅里葉變換,并用直方圖均衡和能量譜對(duì)光譜特征進(jìn)行計(jì)算。另一種特征波長(zhǎng)選取法是使用變量選擇算法直接從原始光譜中選出具有顯著特征的波長(zhǎng),如Fan等[8]用競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣(CARS)方法提取特征波長(zhǎng)用于建立醋酸含量預(yù)測(cè)模型; Li等[9]用蒙特卡洛無信息變量消除方法對(duì)棉籽近紅外光譜進(jìn)行波長(zhǎng)選擇,并將其用于測(cè)定其棉酚含量; Shao等[10]直接選取了光譜峰值點(diǎn)并進(jìn)行計(jì)算處理,用于煉鋼終點(diǎn)的分類研究。
由于光譜分段處理方法計(jì)算緩慢,無法滿足工業(yè)煉鋼的實(shí)時(shí)控制要求,且在計(jì)算過程中容易模糊原始光譜中的某些信息,導(dǎo)致預(yù)測(cè)結(jié)果差,因此常使用特征波長(zhǎng)選擇法對(duì)爐口火焰光譜進(jìn)行處理,而一些傳統(tǒng)的特征選擇算法存在選取的特征可信度低、 結(jié)果過擬合等問題。為解決以上方法的缺陷,提高碳含量的預(yù)測(cè)準(zhǔn)確度,提出了一種窗口競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣(WCARS)結(jié)合迭代式連續(xù)投影算法(ISPA)的特征變量選擇方法,先用WCARS對(duì)原始光譜進(jìn)行粗選,再用ISPA方法精選得到特征波長(zhǎng),最后使用支持向量機(jī)回歸(SVR)建立煉鋼終點(diǎn)C含量預(yù)測(cè)模型,并將模型預(yù)測(cè)結(jié)果與其他方法進(jìn)行比較。
數(shù)據(jù)選用了包鋼煉鋼廠實(shí)際冶煉的156個(gè)爐次共363組煉鋼后期爐口火焰光譜數(shù)據(jù),光譜波段為400~1 100 nm,采樣維數(shù)為3 648。采集到的原始光譜存在較多噪聲毛刺,對(duì)光譜特征的提取可能產(chǎn)生干擾,因此使用Savitzky-Golay平滑濾波對(duì)光譜進(jìn)行預(yù)處理。圖1為預(yù)處理后的爐口火焰光譜。
圖1 爐口火焰光譜數(shù)據(jù)集Fig.1 Furnace mouth flame spectrum data sets
傳統(tǒng)競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣過于注重校正集交叉驗(yàn)證結(jié)果,容易導(dǎo)致過擬合,而窗口競(jìng)爭(zhēng)性自適應(yīng)重加權(quán)采樣(window competitive adaptive reweighted sampling,WCARS)[11]可以有效解決過擬合問題。WCARS是在傳統(tǒng)CARS算法的基礎(chǔ)上,考慮相鄰波長(zhǎng)之間的協(xié)同關(guān)系,將變量沿著波長(zhǎng)方向劃分為窗口,對(duì)數(shù)據(jù)建立PLS模型,以窗口的回歸系數(shù)絕對(duì)值的均值作為衡量窗口重要性的指標(biāo),最終利用k折交叉驗(yàn)證選出RMSECV最小的窗口子集。圖2為WCARS的算法流程圖。
圖2 WCARS流程圖Fig.2 Flowchart of WCARS
連續(xù)投影算法(successive projections algorithm, SPA)[12]是一種前向變量選取法,它通過計(jì)算剩余變量與選取變量的投影向量大小來選擇特征變量,能夠保證選取變量間的線性關(guān)系最小,以消除變量間的冗余信息,達(dá)到選擇特征波長(zhǎng)的目的。
迭代式選擇是將待選擇的變量集分為k份,先對(duì)第一份進(jìn)行特征選擇,將得到的特征變量加入第二份,再對(duì)第二份進(jìn)行特征選擇,直到第k份。將迭代式選擇與連續(xù)投影算法相結(jié)合,能夠降低高維數(shù)據(jù)計(jì)算的復(fù)雜度,避免計(jì)算過程中的遺漏,通過重復(fù)迭代最終選出最優(yōu)特征變量。
迭代式連續(xù)投影算法(ISPA)的步驟如下:
(1)將待選擇的光譜矩陣按波長(zhǎng)分為k份,記為Xm×nw,w=1, 2, …,k,m為光譜數(shù),N為需要選擇的波長(zhǎng)個(gè)數(shù);
(2)在光譜矩陣中任選一列向量,記為xjo;
(3)計(jì)算剩余列向量xj與當(dāng)前所選向量的投影
p=1, 2, …,N
(1)
(4)取投影向量最大的變量序號(hào)
jp=arg[max(‖pxj‖)]
(2)
(5)令xj=Pxj,P=P+1,返回第(3)步,直到p=N;
(6)將得到的N個(gè)特征變量加入下一份待選擇變量中,返回第(2)步進(jìn)行計(jì)算,直到w=k。
支持向量機(jī)回歸(support vector regression,SVR)是根據(jù)結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,以尋找一個(gè)最優(yōu)超平面為目的機(jī)器學(xué)習(xí)算法。SVR通過核函數(shù)將原始數(shù)據(jù)映射到高維空間,保證數(shù)據(jù)集可以與目標(biāo)值具有最大偏差ε,同時(shí)平坦度應(yīng)盡可能高[13]。應(yīng)用線性學(xué)習(xí)機(jī)的方法解決樣本空間中的非線性問題,具有很強(qiáng)的非線性建模能力。本文使用SVR建立碳含量預(yù)測(cè)模型,選用徑向基函數(shù)(RBF)作為核函數(shù),使用粒子群算法選擇最佳參數(shù)c和g[14]。
在進(jìn)行波長(zhǎng)篩選之前需要先設(shè)定合適的窗口數(shù)目對(duì)光譜進(jìn)行劃分。一幀爐口火焰光譜有3 648個(gè)波長(zhǎng)采樣點(diǎn),窗口太少可能導(dǎo)致有效數(shù)據(jù)與大量冗余數(shù)據(jù)被分在同個(gè)窗口,降低了被選中的概率,太多則與傳統(tǒng)CARS無異,因此選擇150~450個(gè)窗口計(jì)算建模,根據(jù)模型RMSE選擇最佳窗口數(shù)。
計(jì)算得到的RMSE隨選擇窗口數(shù)的變化如圖3所示。可以看出隨著窗口數(shù)的增大RMSE先逐漸減小,在窗口數(shù)為400時(shí)達(dá)到最小,而后重新增大。因此選擇400個(gè)窗口對(duì)原始光譜進(jìn)行劃分。圖4為當(dāng)窗口數(shù)為400時(shí),WCARS對(duì)原始光譜計(jì)算得到的結(jié)果,共選出48段特征波長(zhǎng)子集,包含434個(gè)波長(zhǎng)。
圖3 RMSE與窗口數(shù)的變化情況Fig.3 Variation of RMSE with the number of windows
圖4 WCARS粗選結(jié)果Fig.4 Rough selection result of WCARS
WCARS以窗口為單位進(jìn)行波長(zhǎng)選擇,每個(gè)窗口中包含多個(gè)相鄰波長(zhǎng),其互相影響會(huì)導(dǎo)致一些干擾信息的存在,且粗選得到434個(gè)波長(zhǎng),數(shù)據(jù)量仍較大,影響模型預(yù)測(cè)速度。因此使用ISPA算法對(duì)選出的波長(zhǎng)進(jìn)行精選,通過消除變量間的無效冗余信息來進(jìn)一步壓縮數(shù)據(jù)。
圖5(a)為用ISPA對(duì)粗選波長(zhǎng)進(jìn)行計(jì)算得到的結(jié)果,可以看出隨選擇變量數(shù)的增多,模型RMSE迅速減小,當(dāng)選擇變量數(shù)為10時(shí),RMSE達(dá)到最小值,為0.094 482,而后增大。圖5(b)為傳統(tǒng)SPA對(duì)粗選波長(zhǎng)的計(jì)算結(jié)果,當(dāng)選擇變量數(shù)為8時(shí),RMSE最小為0.096 096,可以看出ISPA相比SPA結(jié)果更好,且ISPA所選波長(zhǎng)包含這8個(gè)波長(zhǎng)。因此選用ISPA計(jì)算得到的10個(gè)特征變量作為最終結(jié)果,這10個(gè)特征波長(zhǎng)序號(hào)為252,253,971,1 189,1 217,1 502,2 039,2 142,2 662和2 782,如圖6所示。
圖5 RMSE與選擇變量數(shù)的變化情況(a): ISPA; (b): SPAFig.5 Variation of RMSE with the numberof selected variables(a): ISPA; (b): SPA
煉鋼過程十分復(fù)雜,光譜特征與碳含量的關(guān)系并非簡(jiǎn)單的線性關(guān)系,支持向量機(jī)回歸(SVR)對(duì)于非線性建模問題具有很強(qiáng)的能力,因此常用于煉鋼終點(diǎn)模型的建立。SVR是一種有監(jiān)督的學(xué)習(xí)方法,其性能取決于訓(xùn)練和測(cè)試數(shù)據(jù)集,模型的輸入?yún)?shù)對(duì)最終結(jié)果的影響極大,因此,光譜特征的選取對(duì)最終碳含量的預(yù)測(cè)十分重要。為驗(yàn)證WCARS-ISPA算法選取出的火焰光譜特征波長(zhǎng)點(diǎn)用于預(yù)測(cè)煉鋼終點(diǎn)碳含量的有效性,本文使用SVR建立終點(diǎn)碳含量預(yù)測(cè)模型。
圖6 WCARS-ISPA特征波長(zhǎng)選擇結(jié)果Fig.6 Selection result of characteristicwavelengths with WCARS-ISPA
將選取的10個(gè)光譜特征波長(zhǎng)與16個(gè)爐口火焰圖像特征、 2個(gè)峰值特征共28個(gè)變量作為輸入,碳含量為輸出。使用kennard-stone算法對(duì)訓(xùn)練集和測(cè)試集進(jìn)行劃分,將363個(gè)數(shù)據(jù)分為290個(gè)訓(xùn)練數(shù)據(jù)和73個(gè)測(cè)試數(shù)據(jù)。將C含量的平均誤差、 預(yù)測(cè)誤差在±2%以內(nèi)的命中率以及運(yùn)行30次的平均時(shí)間作為模型評(píng)價(jià)指標(biāo)。圖7為WCARS-ISPA-SVM模型的訓(xùn)練結(jié)果,從圖中可以看出預(yù)測(cè)C含量與實(shí)際數(shù)據(jù)基本重合。WCARS-ISPA-SVR模型得到的平均C含量誤差為1.413 2%,命中率高達(dá)90.63%,平均時(shí)間為0.019 679 s,能夠滿足工業(yè)生產(chǎn)實(shí)時(shí)預(yù)報(bào)要求。
圖7 WCARS-ISPA模型的訓(xùn)練結(jié)果Fig.7 Training results of the WCARS-ISPA model
為證明本方法的優(yōu)越性,分別使用全光譜和WCARS-ISPA,CARS-SPA,WCARS,SPA四種不同特征選取方法選出的特征波長(zhǎng)建模,并對(duì)其結(jié)果進(jìn)行比較。表1總結(jié)了五個(gè)模型的三項(xiàng)評(píng)價(jià)指標(biāo),從表中可以看到,使用全光譜建立終點(diǎn)碳預(yù)測(cè)模型得到的平均預(yù)測(cè)誤差高達(dá)3.369 1,遠(yuǎn)遠(yuǎn)超過其他模型,命中率低且運(yùn)行時(shí)間過長(zhǎng),無法滿足工業(yè)生產(chǎn)要求,因此說明對(duì)原始光譜進(jìn)行特征提取是必要的。而與其他三種常用特征選取方法相比,WCARS-ISPA模型得到的終點(diǎn)碳平均預(yù)測(cè)誤差更小,且命中率最高,說明該方法效果更好,能夠進(jìn)一步提高煉鋼終點(diǎn)碳含量的預(yù)測(cè)精度。
表1 不同模型的預(yù)測(cè)結(jié)果Table 1 Prediction results of different models
針對(duì)轉(zhuǎn)爐火焰光譜數(shù)據(jù)量大、 傳統(tǒng)特征選擇算法選取的特征可信度低、 結(jié)果過擬合等問題,提出了一種WCARS-ISPA算法,對(duì)爐口火焰光譜進(jìn)行特征波長(zhǎng)選取,并在此基礎(chǔ)上使用SVR建立煉鋼終點(diǎn)碳含量預(yù)測(cè)模型。先使用WCARS對(duì)爐口火焰光譜進(jìn)行粗選,再用ISPA對(duì)選出波長(zhǎng)進(jìn)一步精選,最終選出10個(gè)特征波長(zhǎng)作為SVR輸入變量。該方法能夠得到較好的實(shí)驗(yàn)結(jié)果,模型預(yù)測(cè)平均碳含量誤差為1.413 2%,誤差在±2%以內(nèi)的命中率高達(dá)90.63%,運(yùn)行時(shí)間小于0.02 s,結(jié)果優(yōu)于現(xiàn)有其他波長(zhǎng)選擇方法。將該模型用于實(shí)際生產(chǎn),能夠有效地對(duì)轉(zhuǎn)爐煉鋼終點(diǎn)進(jìn)行控制,滿足煉鋼終點(diǎn)實(shí)時(shí)預(yù)測(cè)的需求,幫助降低工業(yè)成本、 提高鋼鐵產(chǎn)量。