劉秋芳,褚小立,陳 瀑,李敬巖
(中國石化石油化工科學研究院,北京 100083)
煉油過程與原料油的性質息息相關,而原料油的性質是由其組成分子性質決定的,因而從分子水平上認識原料油的組成和性質,深入研究煉油過程的分子化學反應,有利于原料油加工路線的優(yōu)化。
石腦油是蒸汽裂解制乙烯裝置[1-3]和催化重整裝置[4-5]的主要原料之一。色譜分析是石腦油分子組成表征最直接、最準確的方法[6-8],通過色譜分析可以定性、定量地表征出上百個單體烴分子[4-5,9-10];但色譜分析周期較長,且需要專業(yè)人員操作,很難滿足煉油廠優(yōu)化控制效率的需求。而近紅外光譜(NIR)分析方法因具有分析快、成本低、樣品不需前處理、適于在線分析等優(yōu)點而越來越受到重視。
隨著化學計量學的應用和計算機的快速發(fā)展,NIR與化學計量學相結合的方法可以很好地測定石腦油的族組成(PINA)[2,4-5,10-14]。Chung等[4]采用偏最小二乘(PLS)方法建立了NIR校準模型預測石腦油的詳細族組成,預測結果與氣相色譜法(GC)分析結果的相關性較好;而且,其進一步探討了特征區(qū)間的選擇對模型準確性的影響,優(yōu)選的特征區(qū)間分別為1 100~1 650 nm、1 800~2 100 nm及其合并區(qū)間。Lambert等[15]將NIR與多元校正PLS結合建立了TOPNIR在線分析模型,用以優(yōu)化石腦油蒸汽裂解工藝,發(fā)現(xiàn)其優(yōu)化結果與GC分析結果一致,可以應用于工廠在線遠程控制。
針對模型構建優(yōu)化過程中數(shù)據(jù)樣本少、分布不均勻、代表性差等小樣本問題,解決的方法主要有機器學習(Machine Learning)、灰色理論(Grey Theory)、特征提取(Feature Extraction)和虛擬樣本生成(VSG)等。其中,VSG方法是在已知樣本的基礎上通過一定轉換關系產(chǎn)生新的虛擬樣本,然后加入到原有樣本中的過程[16-17]。目前,常用的VSG方法有插值法、噪聲注入法、數(shù)據(jù)采樣法、樣本增強(DA)法等,其中DA法是將插值法與噪聲注入法相結合的方法。采用DA法引入未觀測數(shù)據(jù)或潛在變量,可以構建更準確、適用范圍更廣的模型,有利于提高模型的分類能力和通用性,克服小樣本問題,而且PLS模型的預測誤差更小[18-21]。
基于上述分析,本研究提出一種基于近紅外光譜快速測定石腦油分子水平組成的方法,以近紅外光譜分析結果作為輸入項,通過構建石腦油的單體烴分布比例庫,并采用DA法解決小樣本問題,建立石腦油PINA值和單體烴分布比例預測模型,對石腦油的單體烴分布進行預測。
直餾石腦油樣本(餾程為15~180 ℃),由中國石化石油化工科學研究院(簡稱石科院)分析實驗室油品常壓蒸餾裝置收集,共50個。收集周期為6個月,為防止樣本中輕組分揮發(fā),樣本保存在4 ℃的冰箱內。樣本的PINA組成(w,%)和單體烴含量(w,%)按照《石腦油單體烴組成測定(毛細管氣相色譜法)》(SH/T 0714—2002)方法分析獲得。
石腦油樣本的近紅外光譜利用Thermo Fisher Antaris Ⅱ傅里葉變換近紅外分析儀表征,采集波數(shù)為3 500~10 000 cm-1,分辨率為8 cm-1,掃描128次。
針對石腦油的分子水平組成,提出一種預測方法:①以石腦油PINOA(P,I,N,O,A分別為正構烷烴、異構烷烴、環(huán)烷烴、烯烴、芳烴)組成和單體烴含量的GC分析結果為基礎,建立石腦油單體烴分布比例庫,包括石腦油NIR和單體烴分布比例;②采用DA法生成大量虛擬樣本,并與實際樣本混合;③以混合樣本的近紅外導數(shù)光譜在特征區(qū)間內的吸光度為輸入變量、以樣本的PINA組成為輸出變量,采用偏最小二乘法(PLS)算法建立PINA組成預測模型;④以混合樣本NIR的吸光度為輸入變量、以單體烴分布比例為輸出變量,采用K-近鄰回歸法(KNR)建立石腦油單體烴分布比例預測模型。
在對待測樣本進行單體烴分布預測時,首先測定該樣本的NIR;然后利用上述兩個預測模型,分別得到待測樣本的PINA組成和單體烴的分布比例;最后將PINA組成與相應單體烴分布比例相乘,即得到該樣本的單體烴分布結果。
1.3.1 虛擬樣本生成
采用Spxy算法將50個實驗室樣本分為校正集和預測集。校正集樣本用于模型建立,預測集樣本用于檢驗模型預測的準確度。對于PINA組成預測模型,校正集樣本40個、預測集樣本10個;對于單體烴分布比例模型,校正集樣本44個、預測集樣本6個。
在實驗室樣本的基礎上,采用樣本增強方法,對實際樣本信息進行一定范圍的擴散,生成虛擬樣本。其中,注入的噪聲使用重復性光譜的差譜;插值法為樣本間隨機插值并乘以擴散系數(shù)方法,擴散系數(shù)設為1.2。
生成虛擬樣本時,先采用樣本增強方法生成虛擬樣本的近紅外光譜,然后通過相同的插值方式生成虛擬樣本的PINA組成和單體烴分布比例。具體生成步驟:在預測集選取某個樣本作為待測樣本,近紅外光譜范圍內,根據(jù)待測樣本與校正集中所有樣本之間的歐氏距離尋找5個距離最近的樣本為相似樣本;在5個相似樣本中任意選取2個樣本,進行線性組合并乘以一定的擴散系數(shù)生成虛擬樣本,共生成虛擬樣本250個;然后在5個相似樣本和其余樣本中各自隨機選取 1 個樣本,進行線性組合并乘以擴散系數(shù)生成虛擬樣本,共生成虛擬樣本250個??傆嫻采?00個虛擬樣本。
1.3.2 偏最小二乘(PLS)模型的建立
建立模型過程中,首先將采集的校正集樣本與樣本增強生成的虛擬樣本混合,形成混合校正樣本集;同時采用2017版Matlab處理光譜數(shù)據(jù),對混合樣本集的NIR進行二階差分求導,得到其導數(shù)光譜;然后基于混合樣本的導數(shù)光譜和PINA值,采用PLS算法建立模型;最后采用內部留一交叉驗證法,得到最小校正標準偏差(RMSECV);并用RMSECV評估模型不同主因子數(shù)(一般為1,2,…,30)的建模效果,確定模型最佳主因子數(shù)。
針對石腦油不同PINA族組成,共構建了32個PINA值的預測模型,分別命名為P3~P12,I4~I12,N5~N12,A6~A11模型,如N6表示碳數(shù)為6的環(huán)烷烴組成模型,A6為碳數(shù)為6的芳烴組成模型。
由于樣本的NIR特征區(qū)間對PLS建模的準確性至關重要[4,22],圖1給出了實際校正集樣本的NIR及其在特征區(qū)間內的近紅外導數(shù)光譜。由圖1可知,石腦油單體烴分子中C—H鍵(甲基、亞甲基、芳環(huán))的光譜特征區(qū)間為5 600~6 100 cm-1和4 000~4 800 cm-1。
圖1 樣本的NIR及其在特征區(qū)間內的近紅外導數(shù)光譜
1.3.3 單體烴分布比例模型的構建
石腦油單體烴分布比例模型包括石腦油的NIR和單體烴分布比例,石腦油中共有234種單體烴分子。將石腦油樣本的NIR按照相同波數(shù)的吸光度和樣本一一對應整理成矩陣,矩陣的行表示不同樣本同一波數(shù)的NIR吸光度,矩陣的列表示同一樣本的NIR;將單體烴含量按分子類型和樣本一一對應整理成矩陣,矩陣的行表示不同樣本同一分子的分布比例,矩陣的列表示同一樣本的所有單體烴分布比例。因此NIR矩陣的列、單體烴分布比例矩陣的列均與樣本一一對應。單體烴分布比例的計算如式(1)所示。
(1)
式中:zi為石腦油中某單體烴的分布比例;xi為某單體烴的質量分數(shù);yi為某單體烴對應其所屬PINA族的質量分數(shù)。
對于待測樣本單體烴分布比例的預測,采用樣本增強方法生成的混合樣本,然后將待測樣本的NIR作為輸入變量,采用K-近鄰回歸法(KNR)建立線性擬合預測模型。KNR是通過比較待測樣本與所有樣本之間的歐氏距離,選取k個鄰近樣本進行回歸判別。
主成分分析是一種統(tǒng)計學方法,通過正交變換可將相關度較高的變量轉變?yōu)闊o關的變量來表示。該方法盡可能保持了原來變量的信息,并對變量進行降維,減少了計算量。本研究中,在預測集中任選1個樣本作為待測樣本,對待測樣本、實際校正集樣本和樣本增強后混合校正集樣本的NIR進行主成分分析,觀察實際樣本、虛擬樣本相對于待測樣本的位置關系,結果見圖2和圖3。由圖2和圖3可以看出:實際樣本與待測樣本間的差異性較大,以實際樣本來預測待測樣本,準確性較差;而樣本增強后的虛擬樣本,在一定范圍內大幅增加了待測樣本周圍訓練樣本的密度,甚至完全覆蓋了待測樣本,二者之間的歐氏距離很小。待測樣本周圍的樣本越多,越易找到相似樣本,預測的準確度越高。
圖2 樣本增強前實際樣本的NIR主成分分析
圖3 樣本增強后混合樣本的NIR主成分分析
基于混合校正樣本集,對采用PLS算法建立的模型進行優(yōu)化訓練,選取最佳主因子數(shù),并用預測集樣本對模型預測效果進行檢驗,計算模型的預測標準偏差(RMSEP)和相關系數(shù)(R)。RMSEP越小、R越接近于1,說明預測的效果越好。樣本增強前后構建的PLS模型的預測結果如表1所示。從表1可知:與樣本增強前相比,多數(shù)樣本增強后PLS模型的預測準確度提高,RMSEP減小,R均增大,更接近1;但是,對于單體烴P3,P4,P12,I4,I12,A11,其分布PLS預測模型的校正結果均不理想。這主要是因為:①收集的石腦油樣本P3的質量分數(shù)范圍為0~0.12,P12的質量分數(shù)范圍為0~0.02,I12的質量分數(shù)范圍為0~0.15,A11的質量分數(shù)范圍為0~0.014,含量較少且部分樣本檢測到質量分數(shù)為0,在GC檢測限以下,尤其是P3、P12。②由于P3,P4,I4具有一定的揮發(fā)性,在進行樣品收集、近紅外和氣相色譜檢測時揮發(fā)了一部分。綜合來看,樣本增強方法對基于小樣本構建的PLS模型的預測準確度有一定的提高作用,32個PINA組成預測模型中,有26個模型的RMSEP減小,R更接近1。
表1 樣本增強前后PLS模型的預測結果
因構建的PINA組成預測模型很多(32個),無法一一說明,因而隨機選擇3個模型說明其預測結果。圖4~圖6為樣本增強前后所建立的PLS模型對P5,I8,A8的預測值與其GC測定值的對比。由圖4~圖6可知,采用PLS算法所建PINA組成模型P5,I8,A8的預測值與GC測定值基本一致,說明所建PINA組成模型的預測結果具有較高的準確性。
圖4 樣本增強前后石腦油P5組分的GC測定值和模型預測值
圖5 樣本增強前后石腦油I8組分的GC測定值和模型預測值
圖6 樣本增強前后石腦油A8組分的GC測定值和模型預測值
采用KNR線性擬合預測模型對于待測樣本的單體烴分布比例進行預測,預測的關鍵是確定近鄰樣本的數(shù)量(k)。模擬過程中,通過計算預測集中6個樣本預測值與實際值的RMSEP來確定k。樣本增強后KNR方法中k與RMSEP的關系見圖7。由圖7可知,當k=2時,RMSEP最小,因此k的最佳取值為2。
圖7 樣本增強后KNR模型k與預測集樣本預測RMSEP的關系
6個預測集樣本單體烴分子比例的KNR預測結果見表2。由表2可知,每個樣本單體烴分布比例的預測值與氣相色譜測定值的R均在0.91以上,接近于1,且其RMSEP均在0.1以下,說明采用KNR模型預測單體烴樣本分子分布比例的效果很好。
表2 預測集樣本的模型預測結果
圖8~圖13分別為預測集樣本1~樣本6單體烴分布比例的模型預測值與氣相色譜測定值的擬合結果。由圖8~圖13可以觀察到,預測集樣本的單體烴分布比例的GC測定值和KNR預測值基本吻合。由表2和圖8~圖13可以看出,在構建石腦油單體烴分布比例數(shù)據(jù)庫的基礎上,利用樣本增強方法與K-近鄰回歸法預測未知石腦油單體烴分布比例,具有較好的準確性。
圖8 預測集樣本1單體烴分布比例的預測值與測定值
圖9 預測集樣本2單體烴分布比例的預測值與測定值
圖10 預測集樣本3單體烴分布比例的預測值與測定值
圖11 預測集樣本4單體烴分布比例的預測值與測定值
圖12 預測集樣本5單體烴分布比例的預測值與測定值
圖13 預測集樣本6單體烴分布比例的預測值與測定值
提出了一種基于近紅外光譜預測石腦油分子水平組分的方法。該方法以氣相色譜法測定的石腦油PINA數(shù)據(jù)和單體烴含量為基礎,通過構建石腦油單體烴分布比例庫、建立石腦油PINA組成預測模型,石腦油單體烴分布比例預測模型,成功實現(xiàn)對未知石腦油樣本進行單體烴組成進行定性、定量分析。
此外,采用樣本增強方法很好地解決了建模過程的小樣本問題,擴充了樣本量。預測結果表明:所建的模型的預測值與GC實測值吻合度高,預測準確性好。