薛 潔
(北京信息科技大學(xué) 經(jīng)濟(jì)管理學(xué)院, 北京 100192)
近年來,隨著汽車尾氣污染問題日趨嚴(yán)重,世界各國都制定了嚴(yán)格的汽油質(zhì)量標(biāo)準(zhǔn)。 為此,中國大力發(fā)展以催化裂化為核心的重油輕質(zhì)化工藝技術(shù),對汽油進(jìn)行精制處理,以實(shí)現(xiàn)汽油清潔化。
經(jīng)研究發(fā)現(xiàn),辛烷值(RON)作為反映汽油燃燒性能最重要的指標(biāo),在實(shí)現(xiàn)汽油清潔化的過程中,卻不可避免地出現(xiàn)較大的損失值單位。 據(jù)統(tǒng)計,RON每降低1 個單位,相當(dāng)于每噸損失約150 元,這對于一個企業(yè)來說,無疑是增加了其生產(chǎn)成本,減少了收益。 以一個100 萬噸/年的催化裂化汽油精制裝置為例,若能降低0.3 個單位的RON 損失,其經(jīng)濟(jì)效益將達(dá)到4 500 萬元,因此,降低汽油RON 損失具有重要的意義。
本文以某石化企業(yè)為例,研究其RON 損失值的諸多問題。 經(jīng)廣泛收集各類相關(guān)數(shù)據(jù),并進(jìn)行相應(yīng)處理,綜合運(yùn)用隨機(jī)森林、遺傳算法等統(tǒng)計知識建立并優(yōu)化相關(guān)問題的損失預(yù)測模型,利用SPSS(Statistical Product and Service Solutions)、Matlab(Matrix&laboratory)等軟件對汽油精制過程中的RON 損失進(jìn)行可視化展示及分析,力求降低其損失值15%以上,增加企業(yè)效益。
為了方便統(tǒng)計與計算,將所需的354 個操作變量以“M+變量編號”命名,如1 號位點(diǎn)氫油比命名為“M1”。 同樣,將13 個材料性質(zhì)以“A+變量編號”命名,如原料的RON 命名為“A2”,依次據(jù)此方式對366 個變量進(jìn)行命名。
因樣本中存在許多特征相同的變量,冗余程度較高,而相關(guān)性較強(qiáng)的變量較多會影響隨機(jī)森林模型的準(zhǔn)確性,使得隨機(jī)森林的優(yōu)勢被削弱;同時,高相關(guān)度的屬性會擠占其他屬性被選擇的機(jī)會,導(dǎo)致其他具有不同特征信息的屬性無法得到評估,所以在使用隨機(jī)森林降維之前, 需對相關(guān)度較高的變量進(jìn)行剔除,以此提高隨機(jī)森林的泛化能力。
計算366 個變量的相關(guān)性矩陣,按照相關(guān)度矩陣的值進(jìn)行填色。 如圖1 所示, 亮黃色和深藍(lán)色表示變量間存在強(qiáng)相關(guān)性,本文定義為相關(guān)度大于0.8,對于強(qiáng)相關(guān)的變量,保留其一即可,刪除冗余變量后,剩余158 個變量,再進(jìn)行隨機(jī)森林的構(gòu)造,進(jìn)行再一次降維。
圖1 366 個變量的相關(guān)性矩陣Fig.1 Correlation matrix of 366 variables
使用隨機(jī)森林算法找出剩余158 個變量的統(tǒng)計結(jié)果中信息量最大的特征子集,從而進(jìn)行降維,重復(fù)10 次實(shí)驗(yàn),對158 個變量的重要程度求平均值后進(jìn)行排序,得出前30 個主要變量,如圖2 所示。
圖2 隨機(jī)森林算法計算出前30 個主要變量Fig.2 The first 30 main variables calculated by the random forest algorithm
對前30 個主要變量再次進(jìn)行篩選,本文保留重要性程度在0.1 以上的主要變量,如圖2 中的2468, 共13 個變量,而后使用SPSS(Statistical Product and Service Solutions)軟件對前6 個變量進(jìn)行相關(guān)性計算,得出表示相關(guān)關(guān)系強(qiáng)弱情況的皮爾遜相關(guān)性與顯著性(雙尾)計算結(jié)果,見表1。
表1 皮爾遜相關(guān)性與顯著性(雙尾)計算結(jié)果Tab.1 Pearson correlation and significance (two tailed) calculation results
隨機(jī)森林是一種分類和預(yù)測集成的學(xué)習(xí)算法,其預(yù)測模型對部分變量壞值的容忍度較高,能夠更好地利用不同變量與預(yù)測值之間的特征信息進(jìn)行預(yù)測。 預(yù)測步驟如下:
(1)劃分訓(xùn)練集與測試集:對原始樣本進(jìn)行劃分,選出訓(xùn)練集與測試集。
(2)訓(xùn)練預(yù)測模型:使用帶有輸出的訓(xùn)練集訓(xùn)練隨機(jī)森林模型。
(3)對測試集進(jìn)行測試:刪除測試集中的輸出結(jié)果,將測試集輸入模型,得到測試集樣本的預(yù)測值。
(4)模型評價:對模型預(yù)測的誤差進(jìn)行計算,得到更接進(jìn)于真實(shí)值的最佳測量結(jié)果。
首先對樣本的366 個變量進(jìn)行處理,刪除冗余變量,保留主要的13 個變量;再將某石化企業(yè)的325 個數(shù)據(jù)樣本以6:4 的比例進(jìn)行劃分,隨機(jī)選出訓(xùn)練集與測試集;構(gòu)建隨機(jī)森林模型,以訓(xùn)練集的RON 損失值作為標(biāo)簽,以13 個主要變量作為特征值輸入訓(xùn)練模型;最后,將測試集中的13 個變量輸入到訓(xùn)練好的模型中,得到測試集樣本的預(yù)測值,以測試集中預(yù)測值與真實(shí)值的均方對數(shù)誤差作為評價指標(biāo),對模型預(yù)測的誤差進(jìn)行計算。 隨機(jī)森林模型預(yù)測值與真實(shí)值曲線對比,如圖3 所示。
圖3 隨機(jī)森林模型預(yù)測值與真實(shí)值曲線對比圖Fig.3 Comparison of predicted value and true value curve of random forest model
在13 個主要變量中,除原料的RON 是固定值以外,依次對其他12 個操作變量進(jìn)行編碼,并在不同取值范圍內(nèi)進(jìn)行限幅。 將最大迭代次數(shù)設(shè)置為100,將預(yù)測樣本RON 損失值的倒數(shù)作為個體的適應(yīng)度函數(shù),對325 個數(shù)據(jù)樣本逐一進(jìn)行交叉、遺傳、變異、選擇等優(yōu)化操作;而后運(yùn)用隨機(jī)森林預(yù)測模型進(jìn)行封裝,但個別樣本的適應(yīng)度在100 次迭代內(nèi)出現(xiàn)了明顯提高,遺傳算法100 次迭代適應(yīng)度變化曲線如圖4 所示。 大部分?jǐn)?shù)據(jù)無法在迭代內(nèi)得到優(yōu)化,效果并不理想,沒有產(chǎn)生降幅大于15%的樣本。
圖4 遺傳算法100 次迭代適應(yīng)度變化曲線Fig.4 The fitness curve of 100 iterations of genetic algorithm
受計算速度和計算時間的限制,無法對全部數(shù)據(jù)增加優(yōu)化的迭代次數(shù),因此只能對小部分樣本進(jìn)行再一次優(yōu)化。 如:對129 號樣本在500 次迭代內(nèi)先后進(jìn)行2 次優(yōu)化,迭代適應(yīng)度變化曲線如圖5所示,其RON 損失值由0.9 降低至0.78,降幅為13.3%,依然沒有產(chǎn)生降幅超過15%的優(yōu)化數(shù)據(jù)。
圖5 129 號樣本500 次迭代適應(yīng)度變化曲線Fig.5 The fitness curve of sample No.129 during 500 iterations
對170 號樣本在1 000 次迭代內(nèi)先后進(jìn)行3 次優(yōu)化,迭代適應(yīng)度變化曲線如圖6 所示,其RON 損失由0.98 降低至0.81,降幅為17.3%,實(shí)現(xiàn)了降幅超過15%的優(yōu)化目標(biāo)。
圖6 170 號樣本1 000 次迭代適應(yīng)度變化曲線Fig.6 The fitness curve of sample No.170 during 1 000 iterations
為了工業(yè)裝置穩(wěn)定高效運(yùn)行,優(yōu)化后的主要變量只能逐步調(diào)整到位。 因此,若只改變一種變量,保持其他變量不變,便可得出該變量在優(yōu)化調(diào)整過程中所對應(yīng)的RON 損失變化軌跡。 以133 號樣本為例,其RON 損失變化曲線如圖7 所示。
圖7 133 號樣本的RON 損失變化曲線Fig.7 RON loss curve of sample No.133
本文通過對某石化企業(yè)原始數(shù)據(jù)進(jìn)行處理,將得到預(yù)處理后的數(shù)據(jù)降維,建立基于隨機(jī)森林的RON 損失預(yù)測模型,對RON 損失及其指標(biāo)進(jìn)行預(yù)測,通過預(yù)測值曲線與真實(shí)值曲線的對比,發(fā)現(xiàn)其預(yù)測結(jié)果接近于真實(shí)值,說明預(yù)測模型有效。
運(yùn)用遺傳算法優(yōu)化主要變量,經(jīng)過多次迭代優(yōu)化后,最終完成了降幅超過15%的優(yōu)化目標(biāo)。 本文基于隨機(jī)森林的汽油精制過程中辛烷值損失模型為中國車用汽油質(zhì)量升級的關(guān)鍵技術(shù)及其深度開發(fā)提供了可靠依據(jù)。