吳 珽, 梁 龍, 朱北平, 鄧擁軍, 房桂干*
(1.中國林業(yè)科學研究院 林產化學工業(yè)研究所;生物質化學利用國家工程實驗室;國家林業(yè)和草原局林產化學工程重點實驗室;江蘇省生物質能源與材料重點實驗室;江蘇省林業(yè)資源高效加工利用協(xié)同創(chuàng)新中心,江蘇 南京 210042; 2.金東紙業(yè)(江蘇)股份有限公司,江蘇 鎮(zhèn)江 212132)
2019年全年,我國制漿造紙行業(yè)紙漿消耗總量為9 609萬噸,較上年增長2.36%。木漿共消耗3 581 萬噸,占紙漿消耗總量的37%,同比增長8.42%;其中進口木漿占24%,同比增長6.97%;國產木漿占13%,同比增長11.17%[1]。當前制漿造紙行業(yè)存在紙與紙板低檔產品過剩,中高檔產品供應不足引發(fā)的產品附加值低,行業(yè)利潤率低等實際問題,因此用于制取高檔紙產品的木漿需求將進一步增加[2]。受疫情與貿易戰(zhàn)影響,美洲、東南亞等地無法保證長期穩(wěn)定的木漿供應,提高國內木漿產量和利用率是滿足當前行業(yè)木漿需求的可行方法。我國云南、廣西、廣東、貴州、海南等省份近年廣泛種植速生桉木,同時混交速生相思以維持土壤肥力,防止水土流失[3]。速生材經采伐并在林場配套木片加工廠處理后,為求產量最大化,來到生產線上的制漿原料往往是桉木片、相思木片及枝杈材、小徑材等加工剩余物的混合。在實際生產中,大批量原料無法保證混合均勻,因此各批次原料組分不一,按原定制漿工藝參數生產,則難以保證紙漿性能合格;提高磨漿能耗輸入,加大化學品用量,固然能滿足紙漿性能要求,但又引發(fā)成本高、污染重等問題[4]。針對我國南方特定的制漿原料模式——桉木-相思混合原料進行快速分析研究,以期根據生產線原料的實時材性數據調整制漿工藝參數,在保證紙漿性能同時,做到用藥、電耗、成本最小化,有其實際意義[5]。近紅外光譜(NIR)屬于分子光譜,當分子受到780~2 526 nm的電磁波輻射后,吸收特定頻率的近紅外光,原子的振動、轉動能級發(fā)生躍遷,從而形成吸收光譜。NIR結合化學計量學方法作為一種快速分析手段,通過已知樣品信息的光譜數據構建模型,利用模型對待測樣品進行分析,可以提高常規(guī)定性定量分析的效率[6],近年已廣泛應用于農業(yè)[7]、林業(yè)[8-9]、石油化工[10]等領域;并在常見單一制漿原料的識別[11]、物理性質研究[12-13]及化學成分含量的測定[14-15]等方面發(fā)揮著較大作用。本研究將多種中國南方常見的桉木與相思人為混合,采集近紅外光譜,結合樣本外預測能力強且多用于經濟學[16]、統(tǒng)計學[17]的最小絕對收縮和選擇(LASSO)算法建立校正模型,通過對桉木含量(混合程度)的預測確定原料的混合情況,并實現(xiàn)了桉木-相思混合原料綜纖維素、Klason木質素、聚戊糖、苯醇抽出物和1%NaOH抽出物含量的分析預測。
1.1 原料
實驗原料為制漿用混合桉木片和混合相思木片,桉木片由樹齡5~6年的尾巨桉、尾葉桉U6、尾葉桉L11和藍桉木片混合而成;相思木片由樹齡6年的馬占相思、厚莢相思、紋莢相思、大葉相思和雜交相思木片混合而成,原料具體情況如表1。將混合桉木片、混合相思木片磨粉后分別過篩,截取粒徑0.25~0.42 mm的木粉。待木粉含水量穩(wěn)定在12%左右,且相隔24 h差值不超過0.1%時,認為原料已經水分平衡。將桉木粉、相思木粉按人為設置的不同質量比均勻混合成135個樣品,記為S1,其混合情況以樣品中桉木的質量分數表示,設定數據均勻分布在0%到100%之間。另選取單一樹種的桉木樣本各5個制作木粉樣品,記桉木質量分數為100%;選取單一樹種的相思樣本各5個制作木粉樣品,記桉木質量分數為0%。以上45個單一樹種樣品記為S2,S1、S2共180個樣本作為訓練集,其作用在于各種混合比例情況及特殊情況(某次原料全部為桉木或相思)的模擬。據此訓練集建立混合程度(桉木含量)、化學成分校正模型。此外,按質量分數梯度設定比例將桉木粉和相思木粉混合成40個樣品,記下其中桉木的質量分數,記為S3。S3作為驗證集,考察模型對于桉木-相思混合原料的分析能力。
表1 原料來源Table 1 Source of wood chips
1.2 數據采集
1.2.1NIR光譜數據采集 利用全息光柵分光(陣列檢測器)近紅外光譜儀,采集訓練集和驗證集共220個樣品的近紅外光譜數據。近紅外光譜儀參數如下:光譜波長范圍900~2 500 nm;波長點數為256個;光譜儀掃描速度為360(°)/min;采集次數為20次/圈;每個樣品裝樣3次取平均光譜;采樣時砝碼對木粉壓強為1.41 kPa;采樣溫度為20 ℃,相對濕度為50%[18]。
1.2.2原料特征數據采集 樣品混合程度以其中桉木質量分數表示,混合時人為控制在0%~100%之間均勻分布。所有樣品采集完近紅外光譜后,測定其主要化學成分含量。綜纖維素含量的測定按GB/T 2677.10—1995進行;Klason木質素含量的測定按GB/T 2677.8—1994進行;聚戊糖含量按GB/T 2677.9—1994測定;苯醇抽出物的測定方法參照國標GB/T 2677.6—1994進行;1% NaOH抽出物含量按國標GB/T 2677.5—1993測定。
1.3 基于LASSO算法分析模型的建立
1.3.1NIR數據預處理 為降低無關信息的影響,通常對近紅外光譜數據進行預處理。常用預處理方法如信號平滑可用于降低噪聲干擾,一階導數(1st Der)、二階導數(2nd Der)預處理用以消除基線和背景干擾,矢量歸一化(V-Norm)用于消除光程變化對光譜產生的影響,多元散射校正(MSC)用以消除木粉顆粒大小不均勻導致的非特異性散射的影響。為求最大程度地降低無關信息影響,在Matlab 8.0中分別使用S-G 13點3倍平滑、V-Norm、1st Der;S-G 13點3倍平滑、V-Norm、 2nd Der;S-G 13點3倍平滑、MSC、1st Der;S-G 13點3倍平滑、 MSC、 2nd Der的組合預處理方法預處理900~2 500 nm間的全波段近紅外光譜。
1.3.2LASSO算法原理 LASSO算法本質上是一種處理具有復共線性數據的有偏估計。設有p個自變量x1,x2,…,xp和因變量y,它們之間可建立如式(1)的線性回歸模型,其中α為常數項,β1,β2,…,βp為回歸系數,為隨機擾動項。
y=α+β1x1+β2x2+…+βpxp+
(1)
設(xi1,xi2,…,xip;yi),i=1,2,…,n是變量的n組觀測值,假定數據已經過中心標準化,即:
LASSO算法通過添加令回歸系數的絕對值之和小于等于常數λ的約束條件,使殘差平方和最小化以產生嚴格等于0的回歸系數,從而得到參數估計值。對系數絕對值進行懲罰,用殘差平方和的最小值加上對回歸系數進行的懲罰函數表示,即:
(2)
(3)
1.3.3模型的建立 在Matlab 8.0中加載經不同組合方法預處理后的近紅外光譜數據,以及樣本混合程度、化學成分含量的訓練集數據,運行LASSO算法,運用留一法進行交互驗證建立校正模型,即針對不同的調整參數μ,每次從訓練集S1、S2共180個樣品中留1個樣品作為預測對象,其他樣品用于建模并預測該樣品,不斷重復上述流程,完結時訓練集的每個樣品均被預測1次且用于建模179次。當交互驗證均方根誤差(RMSECV)最小時對應的μ為最優(yōu)調整參數,此時模型性能最優(yōu)。
2.1 測定數據的分布
樣品混合程度情況如表2所示,桉木-相思混合原料訓練集中S1部分和驗證集S3中樣品混合的程度在0%~100%區(qū)間上均勻分布,訓練集中S2部分混合程度為0%或100%。
表2 樣品混合程度分布Table 2 Mixing degree distribution of mixed samples
測定S1、S2、S3共220個樣品的化學成分含量,S1、S3共175個混合樣品的化學成分含量如表3所示。
表3 混合樣品化學成分質量分數的分布Table 3 Distribution of chemical composition mass fraction of the mixed samples
圖1 樣品的近紅外原始光譜Fig.1 The original near infrared spectra of samples
S1、S3的綜纖維素質量分數包含在S2的分布區(qū)間73.30%~81.31%內;S1、S3的Klason木質素質量分數包含在S2的分布區(qū)間21.39%~27.61%內;S1、S3的聚戊糖質量分數包含在S2的分布區(qū)間17.52%~30.31%內;S1、S3的苯醇抽出物質量分數包含在S2的分布區(qū)間0.69%~5.13%內;S1、S3的1%NaOH抽出物質量分數與S2的分布區(qū)間11.41%~16.30%基本重合,其原因是桉木和相思的1% NaOH抽出物含量無顯著差異,因此經過混合后可能出現(xiàn)含量范圍略大于單一樹種含量范圍的情況??傮w上175個混合樣品的化學成分含量包含在單一樣品化學成分含量分布區(qū)間以內,數據較為穩(wěn)定。由S1混合樣品和S2單一樣品構成的訓練集可以涵蓋各種桉木-相思實際混合情況,由此可以建立適應性較強的桉木-相思混合原料化學成分含量分析模型。
2.2 樣品的近紅外光譜
采集S1、S2和S3共220個樣品的近紅外光譜,如圖1所示?;旌蠘悠泛蛦我徊姆N樣品的近紅外光譜沒有明顯差別,1 400~1 500 nm和1 900~2 000 nm 間的水分子特征峰沒有顯著位移,樣品間的差異僅集中在漫反射吸光度上。
2.3 建模方法的確定
對近紅外光譜數據采用組合方法進行預處理后建模,4種不同預處理方法結合LASSO算法所得混合程度校正模型性能如表4所示。
表4 LASSO算法結合不同預處理方法建立模型情況Table 4 Models established by LASSO algorithm combined with different pretreatment methods
由表4可見,采用平滑、V-Norm、1st Der組合預處理原始光譜建立的混合程度校正模型RMSECV值最小,為1.63%,對應的μ值為13.62,此時確定的混合程度校正模型性能最優(yōu)。同樣,使用上述4種組合預處理方法結合LASSO算法,與訓練集樣本化學成分(綜纖維素、Klason木質素、聚戊糖、苯醇抽出物、1%NaOH抽出物)含量分別建立分析模型,所得模型情況亦如表4所示。可見針對綜纖維素建模應選擇平滑、V-Norm、1st Der的預處理方法,最優(yōu)調整參數μ為18.30;針對Klason木質素建模應選擇平滑、MSC、2nd Der的預處理方法,最優(yōu)調整參數μ為6.39;針對聚戊糖含量建模應選擇平滑、V-Norm、2nd Der 的預處理方法,最優(yōu)調整參數μ為9.64;針對苯醇抽出物含量建模應選擇平滑、MSC、1st Der的預處理方法,最優(yōu)調整參數μ為7.49;針對1%NaOH含量建模應選擇平滑、V-Norm、1st Der,最優(yōu)調整參數μ為12.07。
2.4 模型評價
對表4中經特定預處理方法、LASSO算法、特定最優(yōu)調整參數建立的分析校正模型進行獨立驗證。在Matlab 8.0中加載驗證集S3經預處理后的光譜數據和模型文件,經過計算分析得到預測值,并將預測值與測定值進行統(tǒng)計比較,6種模型的性能如表5所示,散點圖見圖2。
表5 模型的獨立驗證Table 5 The independent verification of the calibration models
a.混合程度mixing degree; b.綜纖維素holocellulose; c.Klason木質素Klason lignin; d.聚戊糖pentosan;
分別以實測值為橫坐標,預測值為縱坐標作散點圖(圖2),可看出6個分析模型對相應性質的詳細預測情況。混合程度模型Bias值為0.217 3%,模型存在一定系統(tǒng)誤差,使得預測結果略高于傳統(tǒng)分析結果;雙尾T檢驗P值為0.478 4(>0.05),預測值和測定值無顯著性差異。綜纖維素模型Bias值為0.011 3%,同樣存在系統(tǒng)誤差使得預測結果偏高;雙尾T檢驗P值為0.907 7(>0.05),預測值和測定值無顯著性差異。Klason木質素模型偏差值為- 0.019 0%,模型系統(tǒng)誤差將使得預測結果偏??;雙尾T檢驗P值為0.814 2(>0.05),預測值和測定值無顯著性差異。聚戊糖模型所得點在y=x直線兩側分布均勻,模型不存在明顯的系統(tǒng)性誤差;雙尾T檢驗P值為0.990 6(>0.05),預測值和測定值無顯著性差異。苯醇抽出物模型偏差值為-0.011 0%,系統(tǒng)誤差將使得預測結果偏小;雙尾T檢驗P值為0.808 0(>0.05),預測值和測定值無顯著性差異。1% NaOH抽出物模型所得點在y=x直線兩側分布均勻,模型不存在明顯的系統(tǒng)性誤差;雙尾T檢驗P值為0.896 4(>0.05),預測值和測定值無顯著性差異。
3.1通過多種方法預處理桉木-相思混合原料近紅外光譜,結合LASSO算法,建立了桉木-相思混合原料混合程度(以桉木質量分數表示)、綜纖維素、Klason木質素、聚戊糖、苯醇抽出物和1%NaOH含量分析模型。建模過程中的最優(yōu)調整參數μ值分別為13.62、 18.30、 6.39、 9.64、 7.49、 12.07;6種模型的RMSEP值分別為1.93%、 0.61%、 0.51%、 0.80%、 0.28%、 0.41%;絕對偏差范圍分別為-3.19%~3.24%、-0.96%~1.01%、 -0.89%~0.84%、 -1.37%~1.46%、 -0.43%~0.39%、 -0.58%~0.60%。其中混合程度、綜纖維素、苯醇抽出物、1%NaOH抽出物含量分析模型符合行業(yè)快速分析要求,能用于較精確的分析;Klason木質素和聚戊糖含量分析模型適用于非精確性測定?;旌铣潭?桉木質量分數)和化學成分含量分布基本覆蓋了可能的取值范圍,模型適應性好。
3.2本研究證實了LASSO算法用于混合制漿原料分析的可行性,這為算法擇優(yōu)以建立更精確的校正模型提供了更多的可能。