張福東, 劉 杰, 王智宏
(吉林大學(xué)儀器科學(xué)與電氣工程學(xué)院, 長春 130021)
?
基于最小二乘支持向量機(jī)的油頁巖含油率近紅外光譜分析
張福東, 劉杰, 王智宏
(吉林大學(xué)儀器科學(xué)與電氣工程學(xué)院, 長春 130021)
為了提高油頁巖含油率近紅外光譜分析建模的預(yù)測(cè)精度和穩(wěn)定性, 開展了基于最小二乘支持向量機(jī)(LS-SVM)建模方法的對(duì)比研究. 采用主成分-馬氏距離(PCA-MD)和基于蒙特卡洛采樣(MCS)2種方法進(jìn)行了奇異樣本的檢測(cè), 采用徑向基核函數(shù)的LS-SVM、 偏最小二乘(PLS)和反向傳播神經(jīng)網(wǎng)絡(luò)(BPANN)3種方法進(jìn)行建模方法對(duì)比. 結(jié)果表明, 對(duì)于64個(gè)油頁巖巖芯樣本, 與PCA-MD方法相比, 采用MCS方法剔除奇異樣本后所建PLS模型的預(yù)測(cè)精度提高了28%. 對(duì)于MCS方法剔除奇異樣本后的58個(gè)樣品, 采用Kennard-Stone法劃分了44個(gè)樣品的校正集和14個(gè)樣品的預(yù)測(cè)集, 采用2階導(dǎo)數(shù)和標(biāo)準(zhǔn)化預(yù)處理方法, 建立了100個(gè)LS-SVM的校正模型, 模型的預(yù)測(cè)決定系數(shù)R2平均值達(dá)到0.90以上, 高于PLS和BPANN模型的對(duì)應(yīng)值; 且R2的變化量(0.02)小于BPANN模型的對(duì)應(yīng)值(0.32). 因此, MCS奇異樣本檢測(cè)結(jié)合LS-SVM方法可提高油頁巖含油率樣本建模的精度和穩(wěn)定性.
最小二乘支持向量機(jī); 油頁巖; 含油率; 近紅外光譜分析; 奇異樣本
油頁巖資源作為非常規(guī)石油資源, 因其儲(chǔ)量豐富、 具有開發(fā)應(yīng)用潛力, 且開采技術(shù)不斷成熟而受到極大關(guān)注[1~3]. 油頁巖(又稱油母頁巖)是一種高灰分的固體可燃有機(jī)沉積巖, 熱解可產(chǎn)生油母, 油母(也稱為頁巖油)主要由碳、 氫、 氧及少量的硫和氮元素組成. 含油率是油頁巖中頁巖油所占的質(zhì)量分?jǐn)?shù), 是油頁巖最重要的評(píng)價(jià)指標(biāo). 含油率的標(biāo)準(zhǔn)測(cè)量方法是低溫干餾法(SH/T 0508-92), 此法需要在實(shí)驗(yàn)室進(jìn)行高溫?zé)峤? 過程繁瑣且效率低, 嚴(yán)重制約了油頁巖資源勘查和開采的效率[4]. 目前, 油頁巖開發(fā)利用亟需在線或現(xiàn)場(chǎng)分析技術(shù)對(duì)大量樣品進(jìn)行測(cè)試.
近紅外光譜分析技術(shù)具有快速、 高效和無損等特點(diǎn)[5], 將其與化學(xué)計(jì)量學(xué)方法結(jié)合可實(shí)現(xiàn)物質(zhì)的定性和定量分析, 已在農(nóng)業(yè)、 食品、 化工和醫(yī)藥等領(lǐng)域被廣泛應(yīng)用[6]. 2002年, Romeo等[7]等首次使用近紅外光譜技術(shù)獲取了澳大利亞中昆士蘭地區(qū)的油頁巖樣本的光譜數(shù)據(jù), 采用多元散射校正(MSC)和二階導(dǎo)數(shù)預(yù)處理方法, 并結(jié)合偏最小二乘(PLS)回歸算法建立了油頁巖校正模型, 證明了近紅外光譜技術(shù)可用于預(yù)測(cè)油頁巖含油率. 我們[8]研究了不同的光譜數(shù)據(jù)形式、 4種不同的建模區(qū)間以及11種數(shù)據(jù)預(yù)處理方法對(duì)PLS模型精度的影響. 但以上研究均未考慮奇異樣本的存在, 在近紅外光譜分析油頁巖含油率過程中, 因?yàn)闃悠方M分異常以及儀器的隨機(jī)誤差等會(huì)產(chǎn)生奇異樣本, 奇異樣本的存在會(huì)使基于偏最小二乘建立的模型不穩(wěn)健, 很難準(zhǔn)確地評(píng)價(jià)所建模型. 趙振英等[9]研究了漫反射近紅外光譜分析油頁巖含油率過程中奇異樣本的識(shí)別和剔除方法, 發(fā)現(xiàn)主成分-馬氏距離(PCA-MD)分析方法可有效地識(shí)別奇異樣本并提高分析模型的預(yù)測(cè)能力. PLS方法是基于線性回歸方式的多元校正方法, 而近紅外光譜數(shù)據(jù)與濃度之間通常是非線性關(guān)系, 從而導(dǎo)致無法獲得理想的校正模型. 我們[10,11]將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用于油頁巖含油率的預(yù)測(cè), 發(fā)現(xiàn)采用反向傳播神經(jīng)網(wǎng)絡(luò)(BPANN)方法的建模精度略優(yōu)于PLS方法, 但模型的預(yù)測(cè)決定系數(shù)最大為0.85, 而且所建模型的穩(wěn)定性較差, 30次BPANN所建模型的決定系數(shù)平均值為0.59, 無法滿足實(shí)際分析的精度要求. 以上方法推動(dòng)了油頁巖含油率快速檢測(cè)技術(shù)的應(yīng)用, 但仍存在模型精度低和穩(wěn)定性差等問題, 而模型的預(yù)測(cè)決定系數(shù)需至少達(dá)到0.90, 預(yù)測(cè)結(jié)果才可以被接受[12], 因此需選擇合適的多元校正方法使模型預(yù)測(cè)決定系數(shù)達(dá)到0.90以上.
支持向量機(jī)(SVM)是基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法[13,14], 它以核函數(shù)和結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則為基礎(chǔ), 采用優(yōu)化算法訓(xùn)練得到一個(gè)具有最大邊界的模型, 以提高模型的泛化能力. SVM回歸方法的核心思想是通過選定的核函數(shù)將非線性問題映射到高維特征空間的線性問題. 與基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則的人工神經(jīng)網(wǎng)絡(luò)(ANN)方法相比, SVM不僅結(jié)構(gòu)簡(jiǎn)單, 而且能夠較好地解決小樣本、 非線性以及高維數(shù)等問題. 目前, SVM回歸算法已廣泛應(yīng)用于水文地質(zhì)[15]、 化學(xué)[16]和農(nóng)業(yè)[17,18]等領(lǐng)域. 本文針對(duì)使用自主研制的光譜儀獲取的吉林扶余油頁巖科研基地2號(hào)鉆井(FK2)巖芯樣品數(shù)據(jù)所建模型精度偏低的問題, 基于預(yù)測(cè)殘差和蒙特卡洛采樣方法的奇異樣本檢測(cè)方法[19,20]識(shí)別奇異樣本, 以確保所建模型的穩(wěn)健性, 并采用二階導(dǎo)數(shù)+標(biāo)準(zhǔn)化的組合預(yù)處理方法, 開展最小二乘支持向量機(jī)(LS-SVM)、 PLS和ANN建模分析對(duì)比研究, 以確定LS-SVM方法是否適合油頁巖含油率的快速分析.
1.1儀器
自主研發(fā)的油頁巖現(xiàn)場(chǎng)近紅外光譜(PISA-OS)儀[21], 采用光柵掃描分光原理, 探測(cè)器為制冷PbS, 波長范圍1300~2500 nm, 光譜信噪比為2000@1600 nm, 采樣間隔1~8 nm可選, 取樣方式: 積分球/光纖取樣, 光譜數(shù)據(jù)形式: 反射率、 吸光度和K-M函數(shù)可多選.
1.2樣品
油頁巖樣品來自吉林扶余扶科油頁巖基地, 取2號(hào)鉆井359.7~390.8 m深處的巖芯, 間隔0.1~0.5 m為一段, 每段內(nèi)均勻取樣裝袋, 共65袋樣品, 恒溫干燥24 h. 將樣品粉碎后每袋取200 g, 用低溫干餾法測(cè)焦油產(chǎn)率Tar.ad(%), 范圍0.45%~10.87%, 平均值3.33%, 標(biāo)準(zhǔn)偏差1.92%.
1.3光譜數(shù)據(jù)采集
Fig.1 Original NIR spectra of 58 oil shale samples
每袋樣品取3塊, 選擇一處較平整面置于PISA-OS儀的測(cè)樣窗口, 測(cè)量其相對(duì)參比(參比為鍍金白板)的吸光度, 采樣間隔為2 nm, 每袋樣品得到3個(gè)光譜數(shù)據(jù), 取平均值得到樣品的吸光度數(shù)據(jù), 如圖1所示.
1.4建模方法對(duì)比
1.4.1模型試建PLS建模: 為了選取PLS建模的最佳潛變量數(shù), 首先對(duì)光譜數(shù)據(jù)和含油率數(shù)據(jù)分別進(jìn)行標(biāo)準(zhǔn)化預(yù)處理, 然后設(shè)置重復(fù)雙重交叉校驗(yàn)(RDCV)方法的初始參數(shù), 最大潛變量數(shù)A為10, 校驗(yàn)方法為5折交叉校驗(yàn), 蒙特卡洛采樣次數(shù)N為200, 利用設(shè)置好的重復(fù)雙重交叉校驗(yàn)方法對(duì)油頁巖樣品進(jìn)行PLS建模, 統(tǒng)計(jì)各子模型所選取的最優(yōu)模型主成分?jǐn)?shù)以及模型預(yù)測(cè)標(biāo)準(zhǔn)偏差RMSEP, 選取出現(xiàn)頻次最高的潛變量數(shù)為PLS建模的最佳潛變量數(shù)Aopt.
BPANN建模[22,23]: 為了選取BPANN建模的最佳隱含層節(jié)點(diǎn)數(shù), 采用上述PLS建模中的預(yù)處理方法, 以及選取的最佳潛變量數(shù)作為主成分分析(PCA)的最佳主成分?jǐn)?shù), 構(gòu)建3層BPANN, 輸入層節(jié)點(diǎn)數(shù)為采用PCA的得分作為輸入變量, 輸出層節(jié)點(diǎn)數(shù)為1, 選取預(yù)測(cè)誤差均方根較小的傳遞函數(shù)組合為“tansig”和“purelin”, 訓(xùn)練函數(shù)為“traniscg”, 訓(xùn)練迭代次數(shù)為300. 設(shè)置隱含層節(jié)點(diǎn)數(shù)P范圍為5~30, 利用網(wǎng)格尋優(yōu)的方法進(jìn)行5次BPANN建模, 計(jì)算5次平均的RMSEPi, 選取RMSEPi最小對(duì)應(yīng)的節(jié)點(diǎn)數(shù)為BPANN建模的最佳節(jié)點(diǎn)Popt.
1.4.2奇異樣本剔除方法對(duì)比主成分-馬氏距離(PCA-MD)方法: 采用1.4.1節(jié)PLS建模中的方法預(yù)處理后, 利用PCA-MD檢測(cè)奇異樣本, 計(jì)算Aopt的馬氏距離, 剔除馬氏距離>3Aopt/n(其中n為樣本數(shù))的奇異樣本.
基于預(yù)測(cè)殘差和蒙特卡洛采樣(MCS)方法: 采用1.4.1節(jié)PLS建模中的方法預(yù)處理后, 設(shè)置 MCS方法的參數(shù), 最佳潛變量為Aopt, 采樣次數(shù)為2000, 隨機(jī)選取75%的校正集. 運(yùn)行此算法, 得到預(yù)測(cè)殘差均值-方差分布圖. 采用硬閾值方法, 參考文獻(xiàn)[19,20]并根據(jù)經(jīng)驗(yàn)設(shè)置閾值參數(shù)分別為殘差均值和方差均值的0.75倍, 依據(jù)閾值參數(shù)剔除奇異樣本.
分別利用2種分析方法剔除奇異樣品后的數(shù)據(jù)庫, 采用1.4.1節(jié)PLS建模中的預(yù)處理方法, 建立PLS回歸模型, 通過模型統(tǒng)計(jì)參數(shù)(RMSEP和R2)的對(duì)比分析, 評(píng)價(jià)2種奇異樣本剔除方法的優(yōu)劣.
1.4.3數(shù)據(jù)預(yù)處理及校正集選取光譜預(yù)處理: 為了消除光譜噪聲和基線漂移等問題, 分析了不同預(yù)處理方法的效果, 經(jīng)過反復(fù)驗(yàn)證, 采用一階導(dǎo)數(shù)對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理, 然后分別對(duì)光譜數(shù)據(jù)和含油率數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理.
校正集選取: 采用Kennard-Stone(KS)法劃分75%樣本作為校正集, 剩余25%樣本作為預(yù)測(cè)集. KS算法[24,25]基于變量之間的歐式距離, 在特征空間里均勻地選取樣本, 使劃分到的校正集代表性較強(qiáng), 而且其不受樣本數(shù)量的限制, 因此能有效地改善模型的預(yù)測(cè)能力.
1.4.4建模方法及模型對(duì)比建模方法: PLS方法是應(yīng)用最廣泛的線性校正方法, 選取最佳潛變量數(shù)的變量建立回歸方程, 通過交叉驗(yàn)證方法來防止過擬合現(xiàn)象, 具有建模速度快、 優(yōu)化參數(shù)少的優(yōu)勢(shì). BPANN方法基于誤差反向傳播的多層前向神經(jīng)網(wǎng)絡(luò), 需要依據(jù)所解決的問題的復(fù)雜度、 樣本集大小等選取合適的層數(shù)、 學(xué)習(xí)算法以及誤差函數(shù)等, 通過網(wǎng)絡(luò)訓(xùn)練優(yōu)化相應(yīng)參數(shù), BPANN方法較PLS方法訓(xùn)練過程復(fù)雜, 優(yōu)化的參數(shù)較多. LS-SVM方法具有結(jié)構(gòu)簡(jiǎn)單, 可以避免神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)選擇和局部極小點(diǎn)問題, 適合處理高維數(shù)小樣本數(shù)據(jù), 需要依據(jù)不同問題選取合適的核函數(shù), 優(yōu)化相應(yīng)的核函數(shù)參數(shù)使模型具有更高的精度和泛化能力.
建模過程: 為了對(duì)比3種多元校正方法對(duì)油頁巖樣品所建模型的預(yù)測(cè)精度和穩(wěn)定性, 分別對(duì)PLS建立1個(gè)模型, 對(duì)BPANN和LS-SVM 2種方法分別隨機(jī)建立100個(gè)模型. 利用1.4.1節(jié)中PLS試建時(shí)選取的Aopt, 對(duì)校正集建立PLS回歸模型, 得到PLS模型統(tǒng)計(jì)參數(shù); 利用1.4.1節(jié)中選取的Popt以及BPANN初始參數(shù)對(duì)校正集進(jìn)行100次BPANN建模, 得到BPANN模型統(tǒng)計(jì)參數(shù); 采用了徑向基(RBF)核函數(shù), 使用模擬退火算法優(yōu)化LS-SVM參數(shù)(正則參數(shù)gama和平方帶寬sig2), 然后用最優(yōu)參數(shù)建立LS-SVM的回歸模型, 重復(fù)此過程100次, 得到LS-SVM模型的統(tǒng)計(jì)參數(shù).
2.1PLS和BPANN回歸模型試建
Fig.2 Frequency distribution of the optimum latent variable number of components based on RDCV method
Fig.3 Frequency distribution of the RMSEP of oil yield for oil shale
采用RDCV方法進(jìn)行PLS模型試建, 得到的最優(yōu)模型最佳潛變量數(shù)的最高頻度值分布和RMSEP的分布如圖2和圖3所示. 由圖2可知, 出現(xiàn)頻次最高的潛變量數(shù)為5, 表明PLS所建模型的Aopt為5. 由圖3可知, 所有樣本參與建模的RMSEP分布在0.5~2之間, 其平均值為1.20, 表明模型預(yù)測(cè)精度很低, 可能存在奇異樣本, 因此需進(jìn)行奇異樣本檢測(cè).
為了降低過擬合的風(fēng)險(xiǎn), 設(shè)置BPANN試建模的訓(xùn)練目標(biāo)的均方誤差為0.01, 然后采用BPANN校正方法建立模型選取Popt, 得到模型平均的RMSEPi最小對(duì)應(yīng)的節(jié)點(diǎn)數(shù)為7, 表明Popt選擇7最佳.
2.2奇異樣本剔除
采用了PCA-MD診斷方法, 計(jì)算得出Aopt下所有樣品的馬氏距離, 以及界定奇異樣本的閾值, 進(jìn)行歸一化處理后如圖4所示. 圖4中直線為閾值界限, 閾值為0.5548. 超出閾值范圍的樣品有37, 61和20號(hào)樣品. 采用了蒙特卡洛奇異樣本檢測(cè)分析方法, 計(jì)算得到所有樣品的預(yù)測(cè)殘差的均值和標(biāo)準(zhǔn)偏差, 經(jīng)歸一化處理后如圖5所示. 由圖5可見, 部分樣本位于高均值或者高標(biāo)準(zhǔn)差的區(qū)域, 屬于奇異樣品, 計(jì)算得出預(yù)測(cè)殘差均值閾值和均方根閾值分別為0.7500和0.7500. 超出閾值的樣本被認(rèn)定為奇異樣本, 經(jīng)統(tǒng)計(jì)為37, 61, 12, 33, 35, 14和27號(hào)樣品. 由PCA-MD和MCS 2種方法均診斷出37和61號(hào)樣品(圖1中加號(hào)虛點(diǎn)線), PCA-MD方法診斷出的其余樣品為20號(hào)(圖1中圓點(diǎn)虛線), 而MCS方法診斷出的其它樣品為12, 33, 35, 14和27(圖1中方形虛線). 由圖1可知, 37號(hào)樣品光譜明顯偏離, 與檢測(cè)方法一致, 而其它被診斷出的奇異樣本無法直接判斷. 因此, 利用2種方法剔除異常樣品后的數(shù)據(jù)庫進(jìn)行PLS建模. 由圖6和圖7可知, 利用1.4.1節(jié)中相同的過程建立PLS模型后, 經(jīng)PCA-MD剔除異常樣本后所有樣本建模的RMSEP在0.8~1.5之間, 其預(yù)測(cè)誤差平均值為1.17; 而經(jīng)MCS剔除異常樣本后所有樣本建模的RMSEP在0.6~1之間, 其平均值為0.84. 以上結(jié)果表明, 與PCA-MD方法相比, 采用MCS方法剔除奇異樣本后所建PLS模型的預(yù)測(cè)精度提高了28%. 因此, 將MCS方法所選取的奇異樣本均從數(shù)據(jù)庫中剔除, 可得到共58個(gè)新的建模樣本.
Fig.4 MD values between each sample spectrum and the center of spectra of all samples
Fig.5 Result of variance of residuals versus mean of residuals on oil shale data
Fig.6 Frequency distribution of the RMSEP for oil shale data using PCA-MD
Fig.7 Frequency distribution of the RMSEP for oil shale data using MCS
2.3數(shù)據(jù)集劃分
采用KS算法按照3∶1比例劃分樣品, 得到44個(gè)校正集樣本和14個(gè)預(yù)測(cè)集樣本, 表1列出了數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果. 可見, 校正集的含油率含量的最大值大于預(yù)測(cè)集中的最大值, 而校正集的含油率含量的最小值小于預(yù)測(cè)集中的最小值, 并且校正集的標(biāo)準(zhǔn)偏差和變異系數(shù)均比預(yù)測(cè)集的大. 此結(jié)果表明, 校正集含量分布比較分散, 所選樣本具有一定的代表性.
Table 1 Statistical results of the oil yield in the oil shale samples
2.4三種校正方法的模型對(duì)比
2.4.1PLS和BPANN模型結(jié)果PLS建模: 經(jīng)試建模得到PLS的最佳潛變量數(shù)為5. 由表2可見, 采用一階導(dǎo)數(shù)+標(biāo)準(zhǔn)化的預(yù)處理后建立的PLS模型的RMSEP為0.36,R2為0.85, 表明PLS所建模型的預(yù)測(cè)精度較低.
Table 2 Prediction results for the oil yield in the oil shale samples
Fig.8 RMSEP distribution of 100 runs results for BPANN
Fig.9 RMSEP distribution of 100 runs results for LS-SVM
Fig.10 Predicted value vs. reference value of oil yield for optimal LS-SVM model
2.5模型結(jié)果討論
對(duì)于單次最優(yōu)建模條件, BPANN方法最優(yōu), 其基于經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化原則, 利用正則化方法和提前停止法在一定程度上提高了神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)精度; LS-SVM方法基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原理, 利用模擬退火算法提高了模型的泛化能力和穩(wěn)定性; PLS建?;诠庾V數(shù)據(jù)和目標(biāo)分析物性質(zhì)之間的方差最大化原則, 由于油頁巖樣品性質(zhì)的復(fù)雜化以及模型的非線性問題使PLS方法建模精度略低, 而且易受奇異樣本的影響, 但其建模速度快. 對(duì)于多次建模條件, LS-SVM方法最優(yōu), BPANN方法在一定程度上提高了模型的預(yù)測(cè)精度, 但由于利用經(jīng)驗(yàn)最小化原則, 過分強(qiáng)調(diào)得到較小的訓(xùn)練誤差, 導(dǎo)致模型的穩(wěn)健性和泛化能力有所降低. LS-SVM基于統(tǒng)計(jì)學(xué)習(xí)理論, 利用高斯徑向基核函數(shù)使其模型結(jié)構(gòu)簡(jiǎn)單, 而且通過模擬退火算法優(yōu)化LS-SVM模型參數(shù)獲取最優(yōu)模型不僅提高了模型的泛化能力, 并且增強(qiáng)了模型的穩(wěn)健性. 因此, 對(duì)于小樣本復(fù)雜的油頁巖樣品體系, 正好與LS-SVM方法在小樣本、 非線性及高維數(shù)等實(shí)際問題中應(yīng)用效果較好相吻合.
針對(duì)油頁巖近紅外光譜分析建模中的預(yù)測(cè)精度低和穩(wěn)定性差的問題, 對(duì)比研究了PCA-MD和MCS奇異樣本檢測(cè)方法, 發(fā)現(xiàn)MCS方法可有效剔除油頁巖樣本中的7個(gè)奇異樣本, 所建PLS模型精度提高了28%. 采用 2階導(dǎo)數(shù)對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理, 以標(biāo)準(zhǔn)化對(duì)光譜數(shù)據(jù)和含油率數(shù)據(jù)進(jìn)行處理, 利用徑向基核函數(shù)的LS-SVM算法建立了校正模型. 與PLS校正方法相比, LS-SVM方法所建模型的精度比PLS高, 達(dá)到了0.90以上; 與BPANN校正方法相比, LS-SVM方法的最優(yōu)模型的精度比BPANN低, 但100個(gè)LS-SVM模型的精度平均值比BPANN高, 精度平均值達(dá)到90%以上, 而且100個(gè)LS-SVM模型的ΔR2(0.02)明顯低于BPANN(0.32). 因此, 對(duì)于油頁巖含油率近紅外光譜分析而言, MCS奇異樣本檢測(cè)結(jié)合LS-SVM建模方法具有很高的建模的精度和穩(wěn)定性.
[ 1 ]Hou J. L., Ma Y., Li S. Y., Teng J. S.,Chem.Ind.Eng.Prog., 2015, 34(5), 1183—1190(侯吉禮, 馬躍, 李術(shù)元, 藤錦生. 化工進(jìn)展, 2015, 34(5), 1183—1190)
[ 2 ]Zhao Z. Y., Lin J., Yu Y.,Chem.Res.ChineseUniversities, 2015, 31(3), 352—356
[ 3 ]Kristin N. A., Dinesh R. K., Kalpana S. K.,SpectrochimicaActaPartAMolecular&BiomolecularSpectroscopy, 2012, 89(89), 105—113
[ 4 ]Mike J. A., Firas A., Suresh B., Stephen G.,Fuel, 2005, 84(Suppl.14/15), 1986—1991
[ 5 ]Luypaert J., Massart D. L., Heyden Y. V.,Talanta, 2007, 72(3), 865—83
[ 6 ]Chu X. L.,J.NearInfraredSpec., 2015, 23(5), v—vii
[ 7 ]Melissa J. R., Michael J. A., Andrew R. H.,J.NearInfraredSpec., 2002, 10(3), 223—231
[ 8 ]Wang Z. H., Liu J., Wang J. R., Sun Y. Y., Yu Y., Lin J.,J.JilinU.Techno.Ed., 2013, 43(4), 1017—1022(王智宏, 劉杰, 王婧茹, 孫玉洋, 于永, 林君. 吉林大學(xué)學(xué)報(bào): 工學(xué)版, 2013, 43(4), 1017—1022)
[ 9 ]Zhao Z. Y., Lin J., Zhang H. Z.,Spectrosc.Spect.Anal., 2014, 34(6), 1707—1710(趙振英, 林君, 張懷柱. 光譜學(xué)與光譜分析, 2014, 34(6), 1707—1710)
[10]Li S. Y., Ji Y. J., Liu W. Y., Wang Z. H.,Spectrosc.Spect.Anal., 2013, 33(4), 968—971(李素義, 嵇艷鞠, 劉偉宇, 王智宏. 光譜學(xué)與光譜分析, 2013, 33(4), 968—971)
[11]Liu J., Zhang F. D., Teng F., Li J., Wang Z. H.,Spectrosc.Spect.Anal., 2014, 34(10), 2779—2784(劉杰, 張福東, 滕飛, 李軍, 王智宏. 光譜學(xué)與光譜分析, 2014, 34(10), 2779—2784)
[12]Kim K., Lee J. M., Lee I. B.,Chemometrics&IntelligentLaboratorySystems, 2005, 79(1/2), 22—30
[13]Olivier D., Cyril R., Alexandra D., Ludovic D.,Chemometrics&IntelligentLaboratorySystems, 2009, 96(1), 27—33
[14]Suykens J. A. K., Gestel T. V., Brabanter J. D.,LeastSquaresSupportVectorMachines, World Scientific, Singapore, 2002, 1—24
[15]Sujay R. N., Paresh C. D.,AppliedSoftComputing, 2014, 19(6), 372—386
[16]Li H. D., Liang Y. Z., Xu Q. S.,Chemometrics&IntelligentLaboratorySystems, 2009, 95(2), 188—198
[17]Xie Q. Y., Huang W. J., Liang D., Peng D. L., Huang L. S., Song X. Y., Zhang D. Y., Yang G. J.,Spectrosc.Spect.Anal., 2014, 34(2), 489—493(謝巧云, 黃文江, 梁棟, 彭代亮, 黃林生, 宋曉宇, 張東彥, 楊貴軍. 光譜學(xué)與光譜分析, 2014, 34(2), 489—493)
[18]Zhang H. Y., Peng Y. K., Wang W., Zhao S. W., Liu Q. Q.,Spectrosc.Spect.Anal., 2012, 32(10), 2794—2798(張海云, 彭彥昆, 王偉, 趙松瑋, 劉巧巧. 光譜學(xué)與光譜分析, 2012, 32(10), 2794—2798)
[19]Cao D. S., Liang Y. Z., Xu Q. S., Li H. D.,JournalofComputationalChemistry, 2010, 31(3), 592—602
[20]Liu Z. C., Cai W. S., Shao X. G.,ScienceinChinaSeriesB:Chemistry, 2008, 51(8), 751—759
[21]Wang Z. H., Lin J., Wu Z. Y., Zhu H., Zhan X. X.,ChineseJournalofScientificInstrument, 2005, 26(11), 1135—1138, 1154(王智宏, 林君, 武子玉, 朱虹, 占細(xì)雄. 儀器儀表學(xué)報(bào), 2005, 26(11), 1135—1138, 1154)
[22]Shan H. Y., Fei Y. Q., Huan Y. F.,Chem.Res.ChineseUniversities, 2014, 30(4), 582—586
[23]Zhang H., He Y. H., Tang D., Li Y. W.,Chem.J.ChineseUniversities, 2014, 35(6), 1199—1203(張匯, 何玉韓, 唐鐸, 李彥威. 高等學(xué)校化學(xué)學(xué)報(bào), 2014, 35(6), 1199—1203)
[24]Kennard R. W., Stone L. A.,Technometrics, 1969, 11, 137—148
[25]Pravdova V., Walczak B., Massart D. L.,AnalyticaChimicaActa, 2002, 456(1), 77—92
(Ed.: N, K)
? Supported by the National Potential Oil and Gas Resources(Oil Shale Resources Exploration and Exploitation) Research Cooperation Innovation Project of China(No.OSR-02-04) and the Jilin Provincial Science and Technology Development Major Science and Technology Project, China(No.20116014).
Analysis of Oil Yield from Oil Shale Minerals Based on Near-infrared Spectroscopy with Least Squares Support Vector Machines?
ZHANG Fudong, LIU Jie, WANG Zhihong*
(CollegeofInstrumentationScience&ElectricalEngineering,JilinUniversity,Changchun130021,China)
In order to improve the prediction accuracy and precision of near-infrared(NIR) spectroscopy model for analyzing the oil yield from oil shale, sixty-four oil shale samples from the No.2 well drilling of Fuyu oil shale base were analyzed based on least squares support vector machines(LS-SVM) calibration models. The Principal component-mahalanobis distance(PCA-MD) method and the Monte-Carlo sampling-based detection of outliers(MCS) method were investigated as means of removing the outliers. The modeling methods of radial basis function-based LS-SVM, partial least squares(PLS) and back propagation neural network (BPANN) were compared. The results showed that, compared with PCA-MD, the prediction accuracy of PLS models based on MCS was improved by 28%. The samples after eliminating the outliers were divided into the calibration set with 44 samples and the prediction set with 14 samples using the Kennard Stone method. One hundred LS-SVM calibration models were established based on preprocessing method of second-derivative and autoscaling. The mean determination coefficient(R2) were more than 90% and higher than PLS and BPANN models, and the fluctuation ofR2were less than BPANN models. Thus, LS-SVM regression with MCS method can improve the accuracy and precision of oil yield of oil shale modeling.
Least squares support vector machine; Oil shale; Oil yield; Near-infrared spectroscopy; Outlier
10.7503/cjcu20160344
2016-05-16. 網(wǎng)絡(luò)出版日期: 2016-09-20.
國家潛在油氣資源(油頁巖勘探開發(fā)利用)產(chǎn)學(xué)研用合作創(chuàng)新子課題(批準(zhǔn)號(hào): OSR-02-04)和吉林省科技發(fā)展計(jì)劃項(xiàng)目重大科技專項(xiàng)(批準(zhǔn)號(hào): 20116014)資助.
O657.33
A
聯(lián)系人簡(jiǎn)介: 王智宏, 女, 博士, 教授, 博士生導(dǎo)師, 主要從事近紅外光譜儀器研制及應(yīng)用技術(shù)研究.E-mail: zhwang@jlu.edu.cn.