摘 要 以相思樹樣本的克拉森木素含量為研究對(duì)象,利用多波長(zhǎng)下的近紅外光譜數(shù)據(jù)建立了若干個(gè)預(yù)測(cè)木素含量的子數(shù)學(xué)模型。使用加權(quán)平均值公式給出了木素含量的首次近似值。根據(jù)木素含量實(shí)驗(yàn)值與近似值之間所具有的較強(qiáng)線性關(guān)系,給出了建立近紅外光譜數(shù)據(jù)預(yù)測(cè)模型的迭代法。模型的預(yù)測(cè)精度隨迭代次數(shù)的增加而提高。本迭代法有望用于其它樹木某些化學(xué)成分含量的測(cè)定。
關(guān)鍵詞 光譜學(xué);近紅外;迭代法;木素
1 引 言
近紅外光譜分析技術(shù)是一項(xiàng)新的無損檢測(cè)技術(shù),它可以充分利用全譜段或多波長(zhǎng)下的光譜數(shù)據(jù)進(jìn)行定性或定量分析,具有速度快、效率高、成本低、測(cè)試重現(xiàn)性好和測(cè)量方便等特點(diǎn),已經(jīng)被越來越多地應(yīng)用于食品工業(yè)、石油化工和醫(yī)藥等領(lǐng)域[1~6],近年來也在木材科學(xué)研究方面得到了越來越多的應(yīng)用[7~10]。木材化學(xué)成分的測(cè)定和評(píng)價(jià)需要消耗大量人力、物力及時(shí)間。因此,尋求一種快速、準(zhǔn)確、低成本的評(píng)價(jià)方法對(duì)于林木遺傳改良、木材化學(xué)組成分析具有重要的理論指導(dǎo)意義和實(shí)際應(yīng)用價(jià)值。
建立優(yōu)秀的數(shù)學(xué)模型,是實(shí)現(xiàn)快速測(cè)定木材化學(xué)成分的關(guān)鍵。目前,用近紅外光譜數(shù)據(jù)建模常用的方法有:多元線性回歸(MLR)、主成分分析(PCA)、主成分回歸(PCR)、偏最小二乘法(PLS)、拓?fù)鋵W(xué)和人工神經(jīng)網(wǎng)絡(luò)(ANN)等方法。本研究以相思樹樣本的克拉森木素含量為研究對(duì)象,在朗伯-比爾定律的基礎(chǔ)上,利用多波長(zhǎng)下的近紅外光譜數(shù)據(jù)建立了若干個(gè)預(yù)測(cè)木素含量的子數(shù)學(xué)模型。然后使用加權(quán)平均值公式給出了木素含量的首次近似值,再利用木素含量實(shí)驗(yàn)值與近似值之間所具有的較強(qiáng)線性關(guān)系,給出了建立近紅外光譜數(shù)據(jù)預(yù)測(cè)模型的迭代法。本研究建模只使用了1/10的光譜數(shù)據(jù),如將全部光譜數(shù)據(jù)用于建模,模型的預(yù)測(cè)誤差有望進(jìn)一步減小。本建模方法有望用于其它樹木某些化學(xué)成分含量的測(cè)定。
2 儀器與數(shù)據(jù)
2.1 樣品制備及化學(xué)成分含量的測(cè)定
原材料為16棵采自廣西的相思樹,每棵樹從胸高到樹梢間隔1.5 m取一個(gè)圓盤,在實(shí)驗(yàn)室將圓盤磨碎后,篩取0.24~0.18 mm粒徑的木粉供分析, 共制得78個(gè)樣品。用苯醇混合液抽提木粉2 h,再以72% H2SO4水解,稀釋煮沸4 h后,定量測(cè)定其水解殘余物的質(zhì)量,得到克拉森木素含量。
2.2 儀器設(shè)備與光譜數(shù)據(jù)的采集
傅立葉變換近紅外光譜儀(德國布魯克光譜儀器公司),帶有RT-PbS檢測(cè)器,OPUS/OVP自檢功能,內(nèi)置鍍金漫反射積分球,分辨率為8 cm-1;采用旋轉(zhuǎn)臺(tái)以增加采樣面積,采集樣品的漫反射光譜。將木粉樣品置于直徑50 mm石英杯內(nèi),在4000~12000 cm-1譜區(qū)內(nèi),用近紅外光譜儀掃描64次,取平均值成為一個(gè)光譜數(shù)據(jù),每個(gè)光譜數(shù)據(jù)包含2074個(gè)吸光值。
2.3 數(shù)據(jù)的分組
將78個(gè)光譜數(shù)據(jù)分成兩組,用59個(gè)光譜數(shù)據(jù)構(gòu)成校正集,其余19個(gè)光譜數(shù)據(jù)構(gòu)成驗(yàn)證集。校正集中的光譜數(shù)據(jù)編號(hào)為1~59,并用YA=(y1, y2,…,y59)表示校正集所對(duì)應(yīng)的克拉森木素含量向量;驗(yàn)證集中的光譜數(shù)據(jù)編號(hào)為60~78,并用YB=(y60, y61,…,y78)表示驗(yàn)證集所對(duì)應(yīng)的克拉森木素含量向量。校正集中每個(gè)波長(zhǎng)處的吸光值構(gòu)成一個(gè)59維的向量,將吸光值向量按波數(shù)從小到大的次序排列,依次記為XA0001, XA0002,…, XA2074,驗(yàn)證集的吸光值向量類似地記為XB0001, XB0002,…,XB2074(每個(gè)吸光值向量均為19維)。由于波長(zhǎng)較小的數(shù)據(jù)噪音成分較大,建模時(shí)不使用下標(biāo)超過1400的吸光值向量。為減小計(jì)算量,本研究只使用校正集中1/10的吸光值向量(XA0001, XA0011, XA0021,XA0031,…,XA1391)建模,然后用與之對(duì)應(yīng)的驗(yàn)證集的吸光值向量(XB0001, XB0011, XB0021,XB0031,…, XB1391)檢驗(yàn)?zāi)P汀?/p>
本研究建模的基本方法是每次先建立10個(gè)子模型,根據(jù)子模型的預(yù)測(cè)結(jié)果用加權(quán)平均值公式得出總的預(yù)測(cè)值。為此需將校正集中的吸光值向量XA0001, XA0011, XA0021,XA0031,…, XA1391進(jìn)一步劃分為10個(gè)小組,第k+1組由XA00k1, XA01k1, XA02k1, …,XA13k1構(gòu)成(k=0,1,2,…,9)。為便于數(shù)學(xué)表達(dá),將它們簡(jiǎn)記為WAk1, WAk2,…WAk14。對(duì)與之對(duì)應(yīng)的驗(yàn)證集的吸光值向量也做同樣的劃分,并簡(jiǎn)記為WBk1, WBk2,…,WBk14。
分 析 化 學(xué)第39卷
第1期劉 勝等:迭代法在相思樹近紅外光譜分析中的應(yīng)用
2.4 木素含量的首次估計(jì)值
先用WAk1, WAk2,…,WAk14建立子模型。參考朗伯-比爾定律,設(shè)YA可由ck0 IA+∑14i=1cki ln(IA-WAki) 近似表示(IA是分量均為1的59維向量),其中cki (i=0,1,…,14)為待定常數(shù)。即設(shè)
YA=ck0 IA+∑14i=1cki ln(IA-WAki)+εk(1)
其中,εk為誤差向量(設(shè)εk=(εk(1), εk(2),….εk(59)))。為減小誤差,不限定cki的正負(fù)。為增強(qiáng)模型的預(yù)測(cè)能力,從cki中選出4個(gè)常數(shù),并令它們的值為零(具體做法見3.3節(jié))。
用擬合法求出式(1)中剩余的11個(gè)待定常數(shù)的值,可得由校正集第k+1組的吸光值向量確定的YA的首次近似值向量YAk1=ck0 IA+∑14i=1cki ln(IA-WAki)。計(jì)算子模型的誤差向量εk=Y(jié)A-YAk1 及平均誤差εk=159∑59j=1εk(j),再對(duì)10個(gè)近似值向量進(jìn)行加權(quán)平均,可得YA的首次估計(jì)值向量ZA1=∑9k=0qk1 YAk1,其中qk1為權(quán)重系數(shù),由經(jīng)驗(yàn)公式qk1=(εk)-16∑9r=0(εr)-16確定。
由驗(yàn)證集吸光值向量WBk1, WBk2,…,WBk14確定的木素含量向量YB的首次近似值向量為YBk1=ck0 IB+∑14i=1cki ln(IB-WBki),其中IB是分量均為1的19維向量。YB的首次預(yù)測(cè)值向量為ZB1=∑9k=0qk1 YBk1。
2.5 迭代法建模
用WAk1, WAk2,…,WAk14建立子模型。設(shè)WAki=(wki(1),wki(2),…,wki(59)), ZA=(z1,z2,…,z59)是YA的某個(gè)估計(jì)值向量。因?yàn)槟舅氐膶?shí)驗(yàn)值與估計(jì)值之間具有較強(qiáng)的線性關(guān)系,所以可用D1+D2 zj作為yj的近似值(j=1,2,…,59),其中D1, D2為常數(shù)。為減小誤差,將D1, D2分別用與光譜數(shù)據(jù)有關(guān)的變量ak0I(xiàn)A+∑14i=1akiln(IA-WAki和bk0ZA+∑14i=1bkiln(IA-Wki))代替,則YA可由[ak0 IA+∑14i=1akiln(IA-WAki)+(bk0ZA+
∑14i=1bki(ZAln(IA-WAki))]近似表示,其中ZAln(IA-WAki)定義為向量。(z1ln(1-wki(1)), z2ln(1-wki(2)),…, z59ln(1-wki(59))),aki, bki (i=0,1,…,14)為待定常數(shù)。為減少式(3)中所含待定常數(shù)的個(gè)數(shù),從而增強(qiáng)模型的預(yù)測(cè)能力,本研究建立下面的兩種子模型:
YA=ak0IA+∑7i=1ak(2i) ln(IA-WAk(2i))+bk0ZA+∑7i=1bk(2i-1)(ZAln(IA-WAk(2i-1)))+εk′ (2)
YA=ak0IA+∑7i=1ak(2i-1) ln(IA-WAk(2i-1))+bk0ZA+∑7i=1bk(2i)(ZAln(IA-WAk(2i)))+εk″ (3)
其中,εk′和εk″為誤差向量。
交替使用式(2)和(3),減小模型的預(yù)測(cè)誤差。將ZA=ZA1(YA的首次估計(jì)值向量)帶入式(2),為增強(qiáng)模型的預(yù)測(cè)能力,從ak(2i) (i=1,2,…,7)中選出2個(gè)常數(shù),并令它們的值為零(具體做法見3.3節(jié))。用擬合法求出式(2)中剩余的14個(gè)待定常數(shù)的值,則由WAk1, WAk2,WAk14確定的YA的第二次近似值向量為
YAk2=ak0IA+∑7i=1ak(2i) ln(IA-WAk(2i))+bk0ZA1+∑7i=1bk(2i-1)(ZA1ln(IA-WAk(2i-1))) (4)
仿照第2.4節(jié)的方法計(jì)算平均誤差εk′ 和權(quán)重系數(shù)qk2=(εk′)-16∑9r=0(εr′)-16,可得YA的第二次估計(jì)值向量ZA2=∑9k=0qk2 YAk2,類似可得YB的第二次預(yù)測(cè)值向量ZB2=∑9k=0qk2YBk2,其中YBk2是由WBk1, WBk2,WBk14確定的YB的第二次近似值向量,其表達(dá)與式(4)類似。
將ZA=ZA2帶入式(3),仿照前面的做法從ak(2i-1) (i=1,2,…,7)中選出2個(gè)常數(shù),并令它們的值為零,用擬合法求出其余14個(gè)待定常數(shù)的值,與前述方法類似可得YA的第3次估計(jì)值向量ZA3和YB的第3次預(yù)測(cè)值向量ZB3。將ZA=ZA3帶入式(2),與得出ZA2和ZB2的方法完全類似可得YA的第4次估計(jì)值向量ZA4和YB的第4次預(yù)測(cè)值向量ZB4。再將ZA=ZA4帶入式(3),與得出ZA3和ZB3的方法完全類似可得YA的第5次估計(jì)值向量ZA5和YB的第5次預(yù)測(cè)值向量ZB5。
3 結(jié)果與討論
3.1 誤差情況
表1給出了YB的分量的各次預(yù)測(cè)值所產(chǎn)生的平均相對(duì)誤差,實(shí)驗(yàn)值與預(yù)測(cè)值之間的相關(guān)系數(shù)r以及模型的擬合優(yōu)度R2。 圖1 模型的預(yù)測(cè)圖
Fig.1 Prediction figure of model
表1 對(duì)ZB1,ZB2,ZB3,ZB4,ZB5的評(píng)價(jià)
Table 1 Evaluations to ZB1,ZB2,ZB3,ZB4,ZB5
向量Vector平均相對(duì)誤差
Mean relative errorrR2
ZB10.0172 0.95910.9121
ZB20.0147 0.96860.9226
ZB30.0136 0.97060.9247
ZB40.0140 0.97040.9295
ZB50.0134 0.97050.9291
由表1可見:模型的預(yù)測(cè)精度總體上隨迭代次數(shù)的增加而提高;如果用ZB5作為YB的預(yù)測(cè)值向量,則預(yù)測(cè)值所產(chǎn)生的平均相對(duì)誤差為0.0134,實(shí)驗(yàn)值與預(yù)測(cè)值之間的相關(guān)系數(shù)為r=09705,模型的擬合優(yōu)度為R2=09291;ZB5與YB的對(duì)比情況見圖1。
3.2 建模方法的變化
在得到ZA1和ZB1后,如果不使用迭代法,而用最小二乘法算式(2)中常數(shù)D1 , D2的值,并用D1+D2 Z1B作為YB的預(yù)測(cè)值向量,則預(yù)測(cè)值所產(chǎn)生的平均相對(duì)誤差為0.0168,實(shí)驗(yàn)值與預(yù)測(cè)值之間的相關(guān)系數(shù)為r=0.9591,模型的擬合優(yōu)度為R2=0.9199。顯然迭代法具有更高的預(yù)測(cè)精度。
如果用得出ZB2,ZB3,ZB4,ZB5的方法繼續(xù)使用迭代法得出ZB6,ZB7等預(yù)測(cè)值向量,模型的預(yù)測(cè)誤差有望進(jìn)一步減小。本研究在建模和預(yù)測(cè)過程中只使用了1/10的光譜數(shù)據(jù),如果將全部光譜數(shù)據(jù)用于建模和預(yù)測(cè),模型的預(yù)測(cè)誤差有望進(jìn)一步減小。本研究為得出YAk1所用的子模型中待定常數(shù)的實(shí)際個(gè)數(shù)為11,用于得出YAki (i=2, 3, …)的子模型中待定常數(shù)的實(shí)際個(gè)數(shù)為14,這是根據(jù)建模經(jīng)驗(yàn)所做的一種嘗試;改變子模型中待定常數(shù)的實(shí)際個(gè)數(shù)(11和14)有可能會(huì)得出更好的預(yù)測(cè)模型,但這需要做大量的計(jì)算和嘗試。
3.3 待定常數(shù)個(gè)數(shù)的減少方法
為減少式(1)中待定常數(shù)的實(shí)際個(gè)數(shù),先用擬合法求出常數(shù)cki (i=0,1,…,14)的值,設(shè)使cki (i=1,2,…,14)最小的系數(shù)為cki1 (1
SymbolcB@ i1
SymbolcB@ 14),令cki1=0;重新使用擬合法求出其余14個(gè)待定常數(shù)的值,設(shè)使cki (1
SymbolcB@ i
SymbolcB@ 14,i≠i1)最小的系數(shù)為cki2 (1
SymbolcB@ i2
SymbolcB@ 14),令cki2=0;繼續(xù)使用上述方法找出另外兩個(gè)系數(shù)cki3和cki4,并令它們的值為零,則式(1)中待定常數(shù)的實(shí)際個(gè)數(shù)減少為11。
為減少式(4)中待定常數(shù)的實(shí)際個(gè)數(shù),先用擬合法求出ak0, bk0, ak(2i), bk(2i-1) (i=1,2,…,7)的值,設(shè)使ak(2i) (i=1,2,…,7)最小的系數(shù)為ak(2i1),令ak(2i1)=0;重新使用擬合法求出其余15個(gè)待定常數(shù)的值,設(shè)使ak(2i) (1
SymbolcB@ i
SymbolcB@ 7,i≠i1)最小的系數(shù)為ak(2i2),將ak(2i2)=0,則式(4)中待定常數(shù)的實(shí)際個(gè)數(shù)減少為14。
3.4 小結(jié)
本研究利用化學(xué)組成含量實(shí)驗(yàn)值與近似值之間所具有的較強(qiáng)線性關(guān)系及加權(quán)平均值公式,給出了建立近紅外光譜數(shù)據(jù)預(yù)測(cè)模型的迭代法。將本方法用于建立相思樹的克拉森木素含量預(yù)測(cè)模型,所得預(yù)測(cè)值的平均相對(duì)誤差為0.0134,實(shí)驗(yàn)值與預(yù)測(cè)值之間的相關(guān)系數(shù)為0.9705,模型的擬合優(yōu)度為0.9291。上述結(jié)果表明,這種建模方法還有望用于其它樹木某些化學(xué)成分含量的測(cè)定。
致 謝 本研究所用數(shù)據(jù)均由北京林業(yè)大學(xué)材料學(xué)院提供,感謝姚勝博士所提供的幫助。
References
1 XIE Jun, PAN Tao, CHEN Jie-Mei, CHEN Hua-Zhou, REN Xiao-Huan(謝 軍, 潘 濤, 陳潔梅, 陳華舟, 任小煥). Chinese J. Anal. Chem.(分析化學(xué)),2010, 38(3): 342~346
2 DAI Chuan-Yun, GAO Xiao-Yan, TANG Bo, FU Ya, LIU Huo-An(戴傳云, 高曉燕, 湯 波, 傅 亞, 劉火安). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2010, 30(2): 358~362
3 Balabin R M, Safieva R Z. Journal of Near Infrared Spectroscopy, 2007, 15 (6): 343~349
4 LIU Yan-De, LUO Ji, CHEN Xing-Miao(劉燕德, 羅 吉, 陳興苗). J. Infrared Millim. Waves(紅外與毫米波學(xué)報(bào)), 2008, 27(2): 119~122
5 LI Yan-Kun,SHAO Xue-Guang,CAI Wen-Sheng(李艷坤, 邵學(xué)廣, 蔡文生). Chem. J. Chinese Universities(高等學(xué)?;瘜W(xué)學(xué)報(bào)), 2007, 28(2): 246~249
6 CHENG Zhong, ZHU Ai-Shi, CHEN De-Zhao(成 忠, 諸愛士, 陳德釗). Chinese J. Anal. Chem. (分析化學(xué)), 2007, 35(7): 978~982
7 Poke F S, Raymond C A. Journal of Wood Chemistry and Technology, 2006, 26(2): 187~199
8 Schimleck L R, Payne P, Wearne R H. Wood and Fiber Science, 2005, 37(3): 462~471
9 Schimleck L R, Kube P D, Raymond C A. Canadian Journal of Forest Research, 2004, 34(11): 2363~2370
10 HUANG An-Min, JIANG Ze-Hui, LI Gai-Yun(黃安民, 江澤慧, 李改云). Spectroscopy and Spectral Analysis(光譜學(xué)與光譜分析), 2007, 27(7): 1328~1331
Application of Iterative Method to Near Infrared
Spectra Analysis of Acacia
LIU Sheng*, ZHANG Wen-Jie
(Beijing Forestry University, Beijing 100083)
Abstract Using contents of Klason lignin of acacia specimens as an object of study, several sub mathematical models that can be used to predict the contents of lignin were built by using near infrared(NIR) spectral data of multi wavelength. Then, the first time approximation values of the contents of lignin were given by the weighted mean value equation. From the relatively strong linear relation between the experiment values and the predicted values of the contents of lignin, the iterative method of constructing prediction model by near infrared spectral data was given. The accuracy of prediction of the model will rise when the number of repeating times increases. It is possible that the repeated method can be used to determine the contents of some chemical components of other kind of trees.
Keywords Spectroscopy; Near infrared; Iterative method; Lignin
(Received 19 May 2010; accepted 06 July 2010)