郭 歌,張夢玲,鞏志杰,張世壯,王曉玉,周仲華,楊 玉,謝光輝
1. 湖南農業(yè)大學農學院,湖南 長沙 410128 2. 湖南省農業(yè)信息與工程研究所,湖南 長沙 410125 3. 中國農業(yè)大學農學院,北京 100193 4. 國家能源非糧生物質原料研發(fā)中心,北京 100193 5. 湖南省智慧農業(yè)工程技術研究中心,湖南 長沙 410125 6. 湖南省產業(yè)技術基礎公共服務平臺,湖南 長沙 410125
生物質作為可再生可貯藏的清潔能源,是目前國內外最有前景的替代化石能源之一,被廣泛應用于發(fā)電及生產燃料乙醇、生物柴油、沼氣等產業(yè)[1],對固碳或減緩氣候變化的作用越發(fā)顯著。生物質原料主要分為林業(yè)剩余物(木質)和作物秸稈(草質)[2],其化學成分均含纖維素、半纖維素、木質素和灰分。灰分含量雖少,但直接關系著生產效率,因此灰分含量是工業(yè)工藝設計重要參數指標[3-4]。利用傳統(tǒng)方法測定生物質樣品灰分存在耗時長、污染環(huán)境,檢測成本高的弊端,而利用近紅外光譜技術(near-infrared spectroscopy,NIRS)建立模型,尤其在大量、無損的復雜樣品的測試中極具優(yōu)勢[5-7]。
生物質光譜的主要信息來源于C—H、N—H、O—H等含氫官能團的倍頻和合頻吸收[8]。由于纖維素、半纖維素和木質素等結構為含氫基團,所以基于生物質纖維素、半纖維素和木質素等的近紅外光譜(NIRS)建立模型均獲得理想的結果;灰分是礦質元素氧化物的總和,結構為無機鹽類,在近紅外區(qū)域并沒有特征光譜,但灰分常與有機物成分之間存在相關性,利用這種相關性可以對灰分進行NIRS定量測定[9]。Ye等建立玉米秸稈木質素和灰分模型,結果表明木質素和灰分NIRS模型的RMSEP分別為0.987和1.435預測結果木質素優(yōu)于灰分,模型需進一步優(yōu)化[10];劉麗英在建立的NIRS測定玉米秸稈中灰分、半纖維素、纖維素等組分含量的校正模型中,灰分、纖維素和Klason木素R2分別為0.934 1、0.956 9和0.964 7[11]。為解決生物質灰分預測模型優(yōu)化問題,本研究選用不同地區(qū)、不同類型的生物質原料樣品,通過不同建模方法的組合及樣本篩選劃分集合方式,建立并優(yōu)化灰分含量模型,比較樣品集合劃分方式對模型擬合性和穩(wěn)健性的影響,篩選最優(yōu)生物質樣品集合劃分方式,以期解決生物質電廠發(fā)電原料種類繁多復雜、測定困難和成本高等難題,為生物質發(fā)電廠測定原料灰分含量提供可靠依據。
樣本來自河北省吳橋縣、河北省行唐縣、江西省贛縣、遼寧省鐵嶺縣和山東省郯城縣,共計1 465份,包含有木本生物質樣本(1 084份)和草本生物質樣本(381份)。木本生物質樣本(木質樣品)包含樹皮、樹根枝丫、木材邊角料和長白皮,草本生物質樣本(草質樣品)包括園林葉、玉米秸稈、棉花秸稈、小麥秸稈、園林葉和雜草(表1)。
表1 供試生物質原料樣品基本信息Table 1 Basic information of tested biomass raw material samples
將生物質樣品切割為<5 cm的樣段后,用生物質粉碎機(CBSS11,北京慧明雨)粉碎過6 mm篩網,在105 ℃烘干后應用微型高速萬能粉碎機(FW100,天津泰斯特)粉碎為細度0.9 mm的樣品,用于化學測定和近紅外光譜掃描灰分含量。
根據國家標準NB/T 34057.6—2017《木質纖維素類生物質原料化學成分的測定第6部分:灰分的測定》[12],生物質樣品灰分含量用干灰化法測定,將2 g樣品放置于Vulcan 3-550馬弗爐(Neytech 美國)550 ℃下灰化5 h后測定其灰分質量,供試生物質樣品的灰分含量參考值在0.5%~36.3%之間(表2)。
表2 生物質樣品集合劃分及灰分含量的建模集和預測集的取值范圍Table 2 Biomass sample set division and ash value ranges of calibration and validation sets
應用Scientific-Antaris Ⅱ傅里葉近紅外光譜儀(Thermo Fisher 美國)采集樣品的光譜。波長范圍為4 000~10 000 cm-1,分辨率為8 cm-1,波數精度為±0.03 cm-1。單份樣品光譜采集次數為64次。該儀器配備有InGaAs檢測器,使用積分球收集光譜,將平均光譜作為樣本光譜,每條光譜包含1 557個光譜變量。
通過主成分分析(principal component analysis,PCA)剔除異常樣本20份,有效樣本1 445份(表1)。
由表2可知,按照3類不同方法,樣品可劃分為9個樣品集合,包括1個集合即“全樣品”(1 445份有效樣品),2個集合即草質和木質樣本和6個子類樣本集合。在6個子類樣本建模集和預測集模型中,玉米秸稈灰分含量的均值最高,分別為14.4%和13.8%,木材邊角料灰分含量最低為3.7%和4.0%;木質樣本的灰分含量的極值和均值較草質樣本低;長白皮+棉花秸稈(WC)集合標準差最小分別為2.4%和1.6%,玉米秸稈集合標準差最大均為7.0%;全樣本混合模型建模集的灰分含量范圍為0.5%~36.3%,預測集的范圍為0.9%~32%,分布范圍一致且預測集兩端極值均在建模集之中,可說明該劃分結果合理。該分類方法歸納為“篩選分類集合法”。
采用Kennard-Stone法[13]將樣品量按4∶1的比例劃分為建模集和預測集,其中建模集用于模型的建立和內部交叉驗證預測,預測集用于預測未知樣品性能評價。應用Chem Data Solution 3.1.0(大連達碩)軟件,構建9個近紅外光譜生物質樣品集合灰分含量的模型。
樣品的近紅外光譜信息量豐富,為了解決光譜峰重疊并消除線性基線漂移和降低隨機噪聲的影響,經過多次篩選嘗試,確定使用Savitzky-Golay(SG)求導或者SG求導+多元散射校正(MSC)組合對光譜進行預處理。其中,全樣本、草質樣本和木材邊角料3個樣品集合采用SG求導進行光譜預處理,木質、樹皮、玉米秸稈、長白皮+棉花秸稈、小麥秸稈+玉米秸稈+棉花秸稈和小麥秸稈+雜草+園林葉共6個樣品集合采用SG求導+MSC方法預處理光譜。9個集合建模的變量選擇方法均為競爭性自適應重加權(CARS),校正方法均為偏最小二乘法(PLS)組合。
評價近紅外光譜模型的指標主要有4個,分別為決定系數(R2)、均方根誤差(RMSE)、相對分析誤差(RPD)和平均相對偏差(ARD)。R2是回歸偏差占總偏差的比率,用來判斷模型的擬合優(yōu)度,其值越接近1表示模型預測效果越好[式(1)]。RMSE表示NIRS結果與參比值差異的標準誤差[式(2)],交叉驗證均方根誤差(RMSECV)是檢驗模型的穩(wěn)定性和內部預測能力的重要指標,預測均方根誤差(RMSEP)是外部驗證檢驗模型實際預測能力的重要指標預測值與參考值之間的方差,其值越小即RMSECV和RMSEP越接近0,模型的擬合效果越好。RPD可用來驗證模型的穩(wěn)定性和預測能力[式(3)],若RPD>3,說明該模型預測精確度高,所建模型可用于樣品相關組分的預測;若2.5 圖2 生物質樣本預處理后光譜圖(n=1 445)(a):SG求導處理后光譜圖;(b):SG求導+MSC組合處理后光譜圖Fig.2 Preprocessed spectra of biomass samples (n=1 445)(a):Savitzky-Golay (SG) derivative;(b):Savitzky-Golay (SG) derivative and multiple scattering correction (MSC) (1) (2) RPD=SD/RMSE (3) 式(3)中,RPD為相對分析誤差;SD為建模集或預測集參比值的標準偏差;RMSE為均方根誤差。 (4) 式(4)中,ARD為平均相對偏差;Xi為第i份樣本的參比值;Yi為第i份樣本的預測值;n為樣本量。 2結果與討論 由表3可知,不同種類的生物質樣品灰分含量差異較大,集合建模效果也會存在較大差異。建模的主成分因子數會直接影響模型精度和擬合性。主成分因子數過多,會出現模型過擬合現象,從而導致模型預測結果不穩(wěn)定,預測誤差會顯著增大。對1 445份樣品劃分集合方法獲得的9個集合建立NIRS灰分模型的主因子數(Factors)范圍為5~9。其中,木質樣本(W)和草質樣本(H)2個集合NIRS模型主因子數高達9和8,模型擬合性有待進一步驗證以防止模型過擬合。而分析基于6個集合劃分下的近紅外灰分模型主成分因子數,除木材邊角料(L)的因子數為8外,其他模型的因子數變化范圍為5~7,綜上所述,劃分6個集合建立近紅外生物質灰分模型擬合度較優(yōu)。 表3 生物質灰分近紅外模型評價Table 3 Evaluation of near infrared models for ash content in biomass 模型的穩(wěn)健性是模型應用的重要指征之一,通常用RMSECV/RMSEP值評價,其值越接近1,表示模型越穩(wěn)定。由表3可知,9個樣本集合模型的RMSECV/RMSEP在0.75~1.41(表3),其中,W集合的RMSECV/RMSEP最高為1.01,表示W集合模型穩(wěn)健性最好;在6個子類樣本模型中,M集合的RMSECV/RMSEP為1.10,表示其模型的穩(wěn)健性最優(yōu)。綜合9個樣本集合的RMSECV/RMSEP分析,除H集合(1.41)和WWL集合(1.34),其他模型的比值均相對接近于1。 9個樣品集合模型中F、M、長白皮+棉花秸稈(WC)、WCM和WWL等5個集合模型的交叉驗證平均相對偏差(ARDcv)較小,分別為9%、6%、7%、7%和9%,模型的內部預測準確度較高;H、M、WC、WCM和WWL等5個集合模型的預測平均相對偏差(ARDp)較小,分別為11%、8%、9%、8%和10%,外部預測準確度較高,因此,草質樣品集合模型的預測準確度高于木質樣品集合。 分析表3可知,9個生物質樣品集合的灰分模型的交叉驗證均方根誤差(RMSECV)和預測均方根誤差(RMSEP)范圍分別為0.588 7~2.422 8和0.486 4~2.860 6。其中,WC集合模型RMSECV最小為0.588 7,該模型擬合準確度最高;WCM、M、L、WWL和H等5個樣品集合模型的RMSECV分別為1.088 8、1.108 6、1.144 4、1.193 6和1.659 4,均低于W、B和F等3個集合模型;基于6個子類樣本模型分析,WC集合模型RMSEP最低為0.486 4;基于2個子類樣本模型分析,H集合的RMSEP為最低為1.177 7。因此,草質樣本集合所建立模型的精確度優(yōu)于木質集合且劃分6個集合建立生物質NIRS灰分模型精確度較高。 不同生物質樣品集合建立近紅外灰分含量模型的交叉驗證相對分析誤差(RPDcv)范圍為2.0~6.3(表3)。其中,草質樣品集合中的H(RPDcv=3.7)、WC(RPDcv=4.1)、WCM(RPDcv=6.2)、M(RPDcv=6.3)、F(RPDcv=2.5)和W(RPDcv=2.6)這6個集合模型可滿足灰分含量的定量分析,可直接應用于生物質樣品灰分的近紅外分析檢測;L、B和WWL等3個集合的RPDcv均<2.5,因此模型待優(yōu)化。9個集合灰分模型的預測相對分析誤差(RPDp)范圍變化較大為1.3~7.8,草質樣品集合中的WCM(RPDp=7.8)、M(RPDp=7.0)、H(RPDp=5.1)和WC(RPDp=3.3)4個集合灰分模型表現出顯著優(yōu)越性,模型均可用于生物質樣品灰分外部驗證的預測和評估;而F、W、WWL、B和L等5個集合RPDp<2.5,模型待優(yōu)化。 圖3 不同生物質樣品集合近紅外光譜灰分模型建模集和預測集的散點關系F:全樣本;W:木質樣本;H:草質樣本;L:木材邊角料;B:樹皮;M:玉米秸稈;WC:長白皮+棉花秸稈;WCM:小麥秸稈+玉米秸稈+棉花秸稈;WWL:小麥秸稈+雜草+園林葉×:建模集;○:預測集Fig.3 Scatter relationships between Calibration set and prediction set of near-infrared spectral ash model for different biomass sample sets×:Calibration;○:PredictionF:Full set;W :Woody subset;H:Herbaceous subset;L:Leftover material;B:Bark;M:Maize straw;WC:White bark+cotton straw;WCM:Wheat+Maize+cotton straw;WWL:Wheat straw+weed+garden leaf 通過對1 445份生物質樣品灰分含量的分析,發(fā)現木本生物質樣品灰分含量平均為6.8%,而草本生物質樣品灰分含量平均為10.8 %,差異高達1.6倍,這與Tao等[16]的結論較為一致,這是由于木本植物為多年生植物,其碳水化合物的多年積累所造成的。 對6個子類樣本分析可知,單一樣品建模的擬合性和精確度最差,如L集合和B集合,M模型綜合表現是最優(yōu);對混合樣品建模,WCM集合模型綜合表現最優(yōu)。這是由于木質樣本受環(huán)境影響較大,樹皮、碎木片和長白皮泥沙較多,樹根枝丫樣品分類混雜;木材邊角料含有建筑用膠、油漆、布料、皮革和泥土等雜質,都會影響近紅外光譜掃描及其化學測定,而草、葉和秸稈樣本純凈,來源單一而明確,因此模型的擬合度和穩(wěn)健度都較好。 為解決生物質電廠發(fā)電原料測定步驟繁瑣且成本高這一問題,利用9個近紅外生物質樣品集合模型對11種電廠生物質樣品的ARD進行預測評估,分別選出最適合這11種生物質樣品預測的近紅外應用模型(表4)。除玉米芯樣本外,草質樣本ARD預測范圍為3.7%~16.5%,而木質樣本中只有長白皮、樹根枝丫和碎木片樣本的ARD低于20%,因此,草質與木質樣本相比預測精度更高,預測效果更好。由于建模數據庫中的玉米芯的樣本量少,篩選出未參與建模的玉米芯最適宜用草質樣本模型進行預測,但ARD預測精度為38.3%,預測效果較差,不適于直接模型應用。綜上所述,目前草質樣本集合所建立模型的精確性優(yōu)于木質樣本集合,木質樣本集合灰分含量模型有待進一步擴充優(yōu)化。 表4 應用近紅外光譜模型預測生物質樣品灰分含量的解決方案Table 4 Solution for predicting ash content of biomass samples by using near infrared spectral model 運用篩選分類集合法將生物質原料樣本進行分類建模,劃分為不同類型的集合有助構建生物質樣本灰分含量的不同層級預測模型,有利于構建擬合度和預測精度更高的灰分含量模型。綜合9個生物質樣品集合的灰分含量模型分析,草質樣品集合的灰分含量預測模型的擬合性、準確性和精確度均優(yōu)于全樣本集合、木質樣品集合及劃分的6個子類樣本集合。這都將為生物質能源轉化和優(yōu)化生物質原料檢測技術提供可靠的理論和技術支持。2.1 不同樣品集合模型的擬合性
2.2 不同樣品集合模型的穩(wěn)健性
2.3 不同樣品集合模型的精確性
2.4 不同樣品集合模型建模集與外部預測集的相關關系
3 結 論
3.1 生物質樣品集合模型的綜合評價
3.2 生物質樣品近紅外光譜技術預測應用解決方案