陳 曦,劉都鑫,孫嘯宇
(北方工業(yè)大學(xué) 信息學(xué)院,北京 100144)
目前,計(jì)算機(jī)模擬燃料配混是一個(gè)重要的研究方向,因?yàn)樗蟠鬁p少了通過(guò)實(shí)驗(yàn)定義辛烷值的成本。過(guò)去的大量研究試圖用數(shù)學(xué)方法將辛烷值描述為汽油成分。
所有這些方法都有優(yōu)點(diǎn)和缺點(diǎn)。最大的興趣是基于數(shù)學(xué)模型的開(kāi)發(fā)復(fù)合過(guò)程的物理化學(xué)性質(zhì),因?yàn)槟P涂紤]了特性的非可加性汽油。
許多模型基于回歸分析,其形式為汽油不同性質(zhì)的辛烷值函數(shù),用于例如,蒸氣壓,密度和分?jǐn)?shù)組成。這些方法有兩個(gè)缺點(diǎn)。首先,模型有很多系數(shù),需要重新計(jì)算原料含量變化。其次,這些模型沒(méi)有考慮到原材料的變化文獻(xiàn)綜述表明,在過(guò)去的十年中,許多研究致力于優(yōu)化復(fù)合工藝。然而,大多數(shù)計(jì)算混合辛烷值的方法都是建立在依賴任何物理和化學(xué)性質(zhì)的基礎(chǔ)上,而沒(méi)有考慮混合過(guò)程的性質(zhì)。
本文通過(guò)數(shù)學(xué)建模的方法,建立了一種辛烷值失損預(yù)測(cè)模型。首先通過(guò)PCA 降維的方法從在汽油生產(chǎn)過(guò)程中對(duì)辛烷值有影響的300 多個(gè)操作變量中篩選出20 個(gè)主要的操作變量,作為下一步建立預(yù)測(cè)模型的主要依據(jù)。隨后利用BP 神經(jīng)網(wǎng)絡(luò)建立預(yù)測(cè)辛烷值損失的模型,最后利用最小二乘法來(lái)擬合汽油辛烷值和硫含量的分析,分析的結(jié)果可以畫出汽油的辛烷值和硫含量的變化視圖。
本文主要研究了辛烷值損失預(yù)測(cè)模型的建模與價(jià)值評(píng)估,需要解決優(yōu)化操作中各個(gè)參數(shù)模型的優(yōu)化、主要操作變量?jī)?yōu)化調(diào)整過(guò)程中對(duì)汽油中辛烷值硫含量的變化預(yù)測(cè)等問(wèn)題。從而改善該模型的整體價(jià)值。
由于工廠得到的原始數(shù)據(jù)存在一定數(shù)據(jù)缺失和數(shù)據(jù)失真的情況,所以需要對(duì)數(shù)據(jù)中的壞值或者短缺值進(jìn)行排除,對(duì)失真的數(shù)據(jù)進(jìn)行修正。在選擇方法數(shù)據(jù)處理方法上確定了多因素加權(quán)[1]的方法,并調(diào)整了表格中的參數(shù),盡量保留有效參數(shù),增加最終結(jié)果的泛化能力和魯棒性。
數(shù)據(jù)處理方法步驟的確定:(1)對(duì)于殘缺數(shù)據(jù)較多的點(diǎn),進(jìn)行整列的數(shù)據(jù)剔除。(2)刪除325 個(gè)樣本中數(shù)據(jù)全部為空值的位點(diǎn)。(3)對(duì)于空缺較少的位點(diǎn)我們采用通過(guò)周圍點(diǎn)位取平均填補(bǔ)的方式。(4)總結(jié)出原始數(shù)據(jù)變量的操作范圍,然后采用最大最小的限幅方法剔除一部分不在此范圍的樣本。(5)根據(jù)拉依達(dá)準(zhǔn)則(3σ 準(zhǔn)則)去除異常值。
3σ 準(zhǔn)則:首先設(shè)對(duì)被測(cè)量變量進(jìn)行等精度測(cè)量,得到x1,x2,……,xn,算出其算術(shù)平均值 x 及剩余誤差 vi=xi-x(i=1,2,...,n),并按貝塞爾公式[2]算出標(biāo)準(zhǔn)誤差 σ,若某個(gè)測(cè)量值xb的剩余誤差vb(1<=b<=n),滿足|vb|=|xb-x|>3σ,則認(rèn)為xb是含有粗大誤差值的壞值,應(yīng)予剔除。
在這里主要通過(guò)3σ 準(zhǔn)則,去除大量粗大誤差值。取平均后求方差的步驟相比插值對(duì)算力開(kāi)銷有了很大的節(jié)省,整體效果比較穩(wěn)定,如圖1 所示。
圖1 去除異常值和原始值對(duì)比圖
以下為在程序結(jié)果中截出的壞點(diǎn)和殘缺點(diǎn)(圖2,圖3)。
首先對(duì)樣本數(shù)據(jù)進(jìn)行處理,操作包括刪除時(shí)間標(biāo)號(hào)和樣本編號(hào)等對(duì)降維無(wú)關(guān)的信息并把生產(chǎn)之后的辛烷值放到第一列作為其他操作變量是否進(jìn)行降維的重要參考因素。
為使數(shù)據(jù)方便后續(xù)降維處理首先對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化和歸一化,標(biāo)準(zhǔn)化和歸一化如圖4 所示。
經(jīng)過(guò)標(biāo)準(zhǔn)化和歸一化的操作之后我們能準(zhǔn)確的看出產(chǎn)品性質(zhì)中的辛烷值的數(shù)值和原料性質(zhì)中的辛烷值數(shù)值,為了二者準(zhǔn)確表示出來(lái),需要進(jìn)行數(shù)據(jù)降維,325 個(gè)樣本數(shù)據(jù)中用PCA 算法進(jìn)行降維運(yùn)算。降維的好處:(1)減少數(shù)據(jù)存儲(chǔ)所需的空間,節(jié)約成本。(2)減少數(shù)據(jù)處理與建模的時(shí)間,提高效率。(3)提高該算法的性能因?yàn)闀?huì)有一些算法在這300 維的數(shù)據(jù)上表現(xiàn)不佳。(4)有助于數(shù)據(jù)可視化能更直觀地看出降維的結(jié)果。
在眾多降維的算法中,PCA 算法具有耗時(shí)短而且速度快的特點(diǎn),因此選用PCA 算法來(lái)進(jìn)行降維[3],后文會(huì)詳細(xì)說(shuō)明建模主要變量的篩選過(guò)程及其合理性并將原料的辛烷值作為建模變量之一。
主成分分析(PCA):主成分分析通過(guò)累計(jì)的解釋方差之和來(lái)判斷主成分對(duì)所有特征的解釋程度[4]。其兩個(gè)性質(zhì)為最大可分性和最近重構(gòu)性也就是說(shuō)使樣本點(diǎn)盡可能分開(kāi)保證樣本點(diǎn)的方差最大化。
圖2 誤差值顯示
圖3 誤差值顯示
圖4 標(biāo)準(zhǔn)化和歸一化結(jié)果圖
體操作步驟首先導(dǎo)出附錄里操作變量指標(biāo)所在的列接著對(duì)數(shù)據(jù)進(jìn)行填補(bǔ)缺失值,補(bǔ)充完成后進(jìn)行標(biāo)準(zhǔn)化根據(jù)問(wèn)題二的要求選取主成分30 個(gè)最后觀察主成分對(duì)特征解釋的程度并繪制曲線。PCA 分量和累積解釋方差如圖5 所示。
圖5 中柱狀圖一共30 個(gè)柱子,代表提取的30 個(gè)主成分,其高度代表每個(gè)主成分對(duì)方差的解釋程度。
折線圖代表30 個(gè)主成分對(duì)方差的累計(jì)解釋程度。我們可以看到,30 個(gè)主成分對(duì)100 個(gè)特征方差的累計(jì)解釋程度已經(jīng)達(dá)到了80%,因此這30 個(gè)主成分?jǐn)y帶了原始特征中的大部分信息,成功降維。
首先,辛烷值與變量之間的關(guān)系并不明確,所以在這里應(yīng)考慮線性和非線性兩種關(guān)系,但在大多數(shù)情況下,在多尺度變量下,往往是非線性的,所以這里建立了非線性回歸模型?;貧w分析的建立主要利用最小二乘法[5]計(jì)算自變量與因變量之間的映射關(guān)系,所以這里可以采用兩種普遍方法,一是神經(jīng)網(wǎng)絡(luò)算法,二是BP 神經(jīng)網(wǎng)絡(luò)。
BP 神經(jīng)網(wǎng)絡(luò)按照有監(jiān)督學(xué)習(xí)的方式進(jìn)行訓(xùn)練,神經(jīng)元把激活值從輸入層經(jīng)過(guò)各個(gè)隱藏層傳給輸出層,然后,從輸出層經(jīng)過(guò)各個(gè)隱藏層最終傳給輸入層,之后進(jìn)行修正,因此把這樣的反饋形式,稱為“誤差逆?zhèn)鞑シā?,隨著不斷地進(jìn)行修正,整個(gè)網(wǎng)絡(luò)響應(yīng)的準(zhǔn)確率也會(huì)不斷提升。
圖5 PCA 分量和累積解釋方差
本次建立的模型采用的是問(wèn)題二中經(jīng)過(guò)PCA 降維后所產(chǎn)生30 個(gè)主要操作變量的歸一化[6]數(shù)據(jù),此數(shù)據(jù)使用BP神經(jīng)網(wǎng)絡(luò)建立預(yù)測(cè)辛烷值損失的模型。在傳統(tǒng)建立辛烷值損失模型的實(shí)驗(yàn)中存在原始數(shù)據(jù)過(guò)多,測(cè)試時(shí)間很長(zhǎng)等問(wèn)題。
整體包括3 層網(wǎng)絡(luò)層,50 個(gè)隱藏層,1 個(gè)輸入層和1 個(gè)輸出層,并增加了激活函數(shù)f(neti),以防止發(fā)生過(guò)擬合的現(xiàn)象[7]。出現(xiàn)過(guò)擬合的情況時(shí)說(shuō)明對(duì)于當(dāng)前數(shù)據(jù)集的特征捕捉過(guò)于精準(zhǔn),導(dǎo)致模型的泛化能力較差,不能夠在測(cè)試集中或者是此外的訓(xùn)練中產(chǎn)生利于推廣的模型。
在實(shí)際操作過(guò)程中,產(chǎn)生了過(guò)擬合問(wèn)題,訓(xùn)練出的分類模型如圖6 所示。
由于的數(shù)據(jù)較少出現(xiàn)過(guò)了擬合的情況,針對(duì)這種情況,采取正則化的方式,在正則化中使用L2 正則化。
經(jīng)過(guò)調(diào)整后,擬合程度有所下降,不再出現(xiàn)過(guò)度擬合的情況,圖像的分類也不再過(guò)于集中,正常分類如圖7 所示。
由圖7 可以看到,通過(guò)增加L2 正則化我們的分類模型已經(jīng)可以正常分類,經(jīng)過(guò)優(yōu)化后,損失函數(shù)LOSS 已經(jīng)降到0.0964,并且泛化能力也相較之前的過(guò)擬合情況有了很大的提升,同時(shí)也大幅度的提高了模型的魯棒性[8]。
模型的可視化,固定原料性質(zhì)、待生吸附劑和再生吸附劑的性質(zhì)數(shù)據(jù)保持不變,通過(guò)網(wǎng)絡(luò)前期的震蕩到平穩(wěn)[9],記錄此過(guò)程中的汽油辛烷值和硫含量的變化軌跡。該問(wèn)題通過(guò)最小二乘法來(lái)擬合汽油辛烷值和硫含量的分析,分析的結(jié)果可以確定汽油的辛烷值和硫含量的變化視圖。
圖6 過(guò)擬合情況
圖7 正常分類
根據(jù)分析得出用最小二乘法計(jì)汽油辛烷值和硫含量模型中的參數(shù)N。
最小二乘法模型設(shè)P(β)為模型的輸出代入公式求出結(jié)果:
求出P(β)之后為了使β 盡可能的最小,因?yàn)棣?的大小決定P(β)的好壞,所以接下來(lái)用P(β)得到β 的最小二乘估計(jì),記作F,可由公式得出
算出F(2)之后的結(jié)果代回到E 的模型里來(lái)進(jìn)行的估計(jì)值
求出模型E(3)的估計(jì)值之后對(duì)汽油辛烷值和硫含量模型數(shù)據(jù)進(jìn)行擬合,求出該模型的擬合為E′=D′B′,由最小二乘法算出擬合誤差e=E-E′稱為汽油辛烷值和硫含量模型該、殘差,將隨機(jī)誤差Ψ 的估計(jì)可得出:
求出的L(4)即為汽油辛烷值和硫含量的最優(yōu)調(diào)整系數(shù)。
本文對(duì)如何降低汽油精制過(guò)程中的辛烷值損失建立了數(shù)學(xué)模型并進(jìn)行了分析,通過(guò)對(duì)數(shù)據(jù)的預(yù)處理[10]將數(shù)據(jù)進(jìn)行歸一化處理方便建立模型研究,接著使用PCA 主成分分析法對(duì)數(shù)據(jù)進(jìn)行降維確??闯霎a(chǎn)品性質(zhì)中的辛烷值的數(shù)值和原料性質(zhì)中的辛烷值數(shù)值的變化,變得可視化,并用BP 神經(jīng)網(wǎng)絡(luò)來(lái)建立預(yù)測(cè)辛烷值損失的模型。該神經(jīng)網(wǎng)絡(luò)可以解決辛烷值損失模型的實(shí)驗(yàn)中存在原始數(shù)據(jù)過(guò)多,測(cè)試時(shí)間過(guò)長(zhǎng)等問(wèn)題。最后用最小二乘法大將模型可視化并優(yōu)化油辛烷值和硫含量的調(diào)整系數(shù)。
圖8 硫含量?jī)?yōu)化前后對(duì)比圖
圖9 汽油辛烷值優(yōu)化前后對(duì)比圖