涂白連,謝陽志,伍艷芳,,鄭永杰,劉新亮,張?jiān)骆?,徐海寧?/p>
(1.江西農(nóng)業(yè)大學(xué)·林學(xué)院,江西 南昌 330045;2.江西省林業(yè)科學(xué)院·國家林業(yè)草原樟樹工程技術(shù)研究中心,江西 南昌 330013)
樹種識(shí)別技術(shù)從來都是林學(xué)學(xué)科的重點(diǎn)研究內(nèi)容[1]。傳統(tǒng)的樹種識(shí)別主要依靠樹木的形態(tài)學(xué)特征對(duì)其進(jìn)行準(zhǔn)確識(shí)別,需具備較為全面的專業(yè)知識(shí)和經(jīng)驗(yàn),并對(duì)樹木分類學(xué)有著很深入的研究和認(rèn)識(shí)[2]。除此之外,細(xì)胞學(xué)鑒定[3-4]、生物化學(xué)鑒定[5-6]、分子標(biāo)記[7-9]等方法也可用于樹種識(shí)別。但以上幾種方法均存在一些弊端,如識(shí)別過程復(fù)雜、持續(xù)時(shí)間長、準(zhǔn)確率難以保證等[10],因此多數(shù)研究者開始尋求一種更為便捷、快速、準(zhǔn)確的樹種識(shí)別方法——近紅外光譜分析技術(shù)(NIRS)。
近紅外光譜分析技術(shù)是一種新型光學(xué)檢測技術(shù),主要是由分子振動(dòng)的非諧振性使分子振動(dòng)從基態(tài)向高能級(jí)躍遷時(shí)產(chǎn)生的,記錄的主要是含氫基團(tuán)X-H(X=C、N、O)振動(dòng)的倍頻和合頻吸收[11]。不同基團(tuán)(如甲基、亞甲基、苯環(huán)等)或同一基團(tuán)在不同化學(xué)環(huán)境中的近紅外吸收波長與強(qiáng)度都有明顯差別,NIR光譜具有豐富的結(jié)構(gòu)和組成信息,非常適合用于碳?xì)溆袡C(jī)物質(zhì)的組成與性質(zhì)的測量。由于這些含氫基團(tuán)的吸收特征性強(qiáng),受分子內(nèi)外環(huán)境的影響小,且光譜特性穩(wěn)定,獲取光譜容易,因此近紅外光譜分析技術(shù)有著“分析巨人”之美譽(yù)[12]。植物鮮葉中的化學(xué)成分主要是水分和一些有機(jī)成分,化學(xué)式主要由C-H、O-H鍵組成,與近紅外光譜分子振動(dòng)基團(tuán)相符合。葉片是有機(jī)化合物的復(fù)雜組合,不同的物種因此會(huì)表現(xiàn)出不同的光譜特征,其內(nèi)部結(jié)構(gòu)和生化組分都會(huì)影響其光譜變化。楊玉杰等[13]利用PROSPECT模型[14]來模擬樟樹葉片在400~2 500 nm波段內(nèi)的實(shí)測光譜,以分析植物葉片結(jié)構(gòu)和組分對(duì)其反射光譜的影響,研究表明,葉綠素主要影響植物葉片反射光譜的可見光波段(400~780 nm),會(huì)形成“綠峰”和“紅邊”兩個(gè)獨(dú)特的光譜特征,但不影響近紅外和短波近紅外波段(780~2 500 nm),這與梁守真等[15]、郭利等[16]、王晶等[17]的研究結(jié)果均一致;植物葉片葉肉結(jié)構(gòu)的變化會(huì)使葉片在400~2 500 nm全波段范圍內(nèi)的反射率產(chǎn)生變化,但其改變并不會(huì)對(duì)葉片反射光譜的形狀和特征造成影響。因此,近紅外光譜分析技術(shù)可用于植物種類的鑒別,且目前近紅外光譜分析技術(shù)在植物種類鑒別方面已開展多項(xiàng)研究[10,18-19]。王逸之等[20]使用便攜式光譜儀結(jié)合偏最小二乘判別分析法(PLS-DA)對(duì)人面竹(Phyllostachys aurea)、矢竹(Pseudosasa japonica)、淡竹(Ph.glauca)、巴山木竹(Bashania fargesii)4個(gè)竹種葉片的野外實(shí)測光譜建立判別模型,利用所建模型對(duì)驗(yàn)證集竹種葉片進(jìn)行判別,識(shí)別率均為100%。汪紫陽等[2]利用PLS-DA結(jié)合多列識(shí)別變量矩陣對(duì)9種樹葉建模,識(shí)別準(zhǔn)確率達(dá)到99.58%,進(jìn)一步顯示了利用近紅外光譜技術(shù)識(shí)別樹種的可行性。目前,我國利用樹種葉片結(jié)合近紅外光譜分析技術(shù)進(jìn)行樹種鑒別的研究并不多[2]。
猴樟(Cinnamomum bodinieri)、黃樟(C.parthenoxylon)、油樟(C.longepaniculatum)、銀木(C.septentrionale)均為樟科(Lauraceae)樟屬(Cinnamomum)植物,猴樟和銀木為我國特有種[21-22],4者皆為集材用、油用、觀賞、綠化等多功能于一身的優(yōu)良樹種[23-25]。在形態(tài)方面,樟屬植物大都極為相似,一般人僅通過比較形態(tài)難以正確識(shí)別該屬植物,需具備一定的專業(yè)知識(shí)[26-27]。因此,本研究提出利用近紅外光譜儀采集猴樟、黃樟、油樟、銀木4種樟屬植物葉片的光譜信息,結(jié)合PCA聚類分析(PCA-Cluster)[28-29]和偏最小二乘判別分析法(PLS-DA),對(duì)這4種植物進(jìn)行判別分析,以期為樟屬植物的快速準(zhǔn)確識(shí)別提供一種新方法。
試驗(yàn)所用的樣品均來源于江西省林業(yè)科學(xué)院資源保存基地(28°44'41″N,115°48'46″E)。2021年7月,隨機(jī)選擇猴樟、油樟、黃樟和銀木4種植物的多年生成年植株各5株,每單株采集40片樹葉,每個(gè)樹種分別采集得到200片樹葉。采摘時(shí)選擇葉面完整、無蟲眼、無破損的當(dāng)年生成熟期功能葉,采集后的樹葉及時(shí)帶回實(shí)驗(yàn)室進(jìn)行光譜采集。
光譜采集儀器為瑞士步琦(BUCHI)公司生產(chǎn)的傅立葉變換近紅外光譜儀NIRFlex N-500,及配套的Operator光譜采集軟件和NIRCal分析軟件,儀器光譜范圍為4 000~10 000 cm-1,分辨率為8 cm-1。研究表明,樹葉表面的灰塵會(huì)對(duì)光譜采集的反射率產(chǎn)生一定的影響[30-31],因此在進(jìn)行光譜采集前,需將葉片表面的灰塵擦拭干凈,以免其影響模型效果。葉片有腹面和背面,光譜采集時(shí),分別對(duì)葉片的腹面和背面進(jìn)行光譜掃描,每個(gè)面取上、中(葉脈主脈上)、下3個(gè)部位進(jìn)行光譜采集。每片樹葉得到6條光譜,取這6條光譜的平均光譜作為該葉片的表征光譜。
剔除因保存不當(dāng)?shù)仍蛟斐扇~面破損的樣品及因操作不當(dāng)?shù)仍蛟斐傻漠惓9庾V,最終掃描得到646條葉片的近紅外光譜信息。每個(gè)樹種隨機(jī)選取10片葉片作為未知樣品,用于模型的外部驗(yàn)證,即外部驗(yàn)證集。余下的樣品隨機(jī)劃分至建模集和驗(yàn)證集,其中建模集樣品占所有樣品的2/3,驗(yàn)證集樣品占1/3,驗(yàn)證集樣品不參與建模,用于模型的內(nèi)部驗(yàn)證。樣品具體分布情況見表1。
1.4.1 PCA-Cluster判別模型
該步驟在儀器配套分析軟件NIRCal中完成。將采集得到的光譜數(shù)據(jù)導(dǎo)入配套軟件Management console中,對(duì)其賦值,賦值后的光譜導(dǎo)入軟件NIRCal中進(jìn)行化學(xué)計(jì)量學(xué)分析。選擇NIRCal軟件中的聚類分析(Cluster)方法建立模型,主成分分析(PCA)算法將用于該模型的計(jì)算。選擇不同建模波段、不同預(yù)處理?xiàng)l件進(jìn)行建模,根據(jù)模型評(píng)價(jià)指標(biāo)屬性單一聚類(Cluster per Property)、光譜殘差值(Spectra Residual)、屬性殘差(Property Residual)3個(gè)指標(biāo)和模型對(duì)建模集和驗(yàn)證集樣品的識(shí)別率對(duì)模型進(jìn)行評(píng)價(jià)[28]。屬性單一聚類等于1時(shí),表示每個(gè)屬性只有一個(gè)聚類。光譜殘差值等于0時(shí),表示無光譜殘差異常值。屬性殘差指屬性原始特性和預(yù)測特性之間的差異:其值為0時(shí),表明全部樣品的光譜圖均被正確識(shí)別;其值為+1時(shí),表明該光譜未被識(shí)別;其值為-1時(shí),表明該光譜未被正確識(shí)別[28,32]。觀察比較這3個(gè)評(píng)價(jià)指標(biāo),確定最優(yōu)鑒別模型。
表1 樣品信息及樣本集劃分Tab.1 Sample information and sample set division
1.4.2 PLS-DA判別模型
該步驟在Matlab 2018b軟件中完成。PLS-DA是一種用于判別分析的多變量統(tǒng)計(jì)分析方法。主要經(jīng)3個(gè)步驟完成:1)建立建模集樣本分類變量;2)對(duì)分類變量和光譜數(shù)據(jù)進(jìn)行PLS分析,建立PLS模型;3)根據(jù)建模集樣本建立的分類變量和光譜特征的PLS模型,計(jì)算驗(yàn)證集樣本的分類變量值(Yp),根據(jù)Yp判定樣本類別,具體判定標(biāo)準(zhǔn)為:①Yp>0.5,偏差<0.5時(shí),樣本屬于該類;②Yp<0.5,且偏差<0.5時(shí),樣本不屬于該類;③偏差>0.5時(shí),判別模型不穩(wěn)定[33-34]。
以1 100 nm(約9 000 cm-1)為分界線,近紅外光譜可以劃分為短波近紅外光譜段和長波近紅外光譜段,波長大于1 100 nm的即為長波近紅外光譜段[35],本試驗(yàn)光譜儀器所采集的樣品光譜范圍是4000~10 000 cm-1,屬于長波近紅外光譜段。長波近紅外光譜段主要是含氫基團(tuán)的一級(jí)或二級(jí)倍頻吸收,常用于分析粉末、固體顆粒、織物等不規(guī)則樣品,適用于漫反射光譜分析,有利于開展葉片光譜分析[19]。
4個(gè)樹種樹葉的原始光譜如圖1所示。總體看,4個(gè)樹種葉片近紅外光譜的整體變化趨勢基本相同,但可觀察到在4 400~4 800 cm-1、5 400~6 600 cm-1和7 800~10 000 cm-1這3個(gè)波段范圍內(nèi)均有較高的反射率,且在4 400~4 800 cm-1、5 400~6 600 cm-1這兩個(gè)范圍內(nèi)存在明顯的波峰,在5 200 cm-1、7 000 cm-1附近有非常明顯的波谷。
圖1 4種樟屬植物所有樣本原始光譜圖Fig.1 Original spectrograms of all samples of four Cinnamomum plants
以猴樟、黃樟、油樟和銀木4種植物的近紅外光譜信息為變量,運(yùn)用PCA方法進(jìn)行光譜數(shù)據(jù)降維,讓原先多維空間的大部分信息能夠由恰當(dāng)?shù)闹鞒煞謹(jǐn)?shù)組成的二維或三維空間展示出來[28,32]。由圖2可知,主成分1(PC1)和主成分2(PC2)分別能解釋93.2%和4.4%的信息量,主成分3(PC3)解釋1.5%的信息量,前3個(gè)主成分的累積能解釋99.1%的信息量。觀察圖2,發(fā)現(xiàn)4種植物樣品均具有一定的聚集范圍,總體看4種植物樣品信息均存在重疊部分,尤其在二維空間,這表明在原始光譜上的PCA聚類效果不佳,不能清晰地區(qū)別4種植物,需對(duì)原始光譜進(jìn)行預(yù)處理,以提高其聚類效果。
圖2 4種樟屬植物的主成分二維得分圖(左)和三維得分圖(右)Fig.2 Two-dimensional(left)and Three-dimensional(right)score chart of principal component of four Cinnamomum plants
采用NIRCal軟件選擇不同的預(yù)處理方法,對(duì)不同的波段范圍和主成分?jǐn)?shù)分別建立定性鑒別模型,經(jīng)過多種建模條件試驗(yàn),最終建立性能較好6個(gè)定性鑒別模型,結(jié)果如表2和圖3所示。由表2可看出,對(duì)于建模集樣品,所建模型均能準(zhǔn)確識(shí)別,但對(duì)驗(yàn)證集樣品存在一定的誤判。對(duì)比不同條件下所建模型對(duì)于驗(yàn)證集樣品的識(shí)別率可以得出:在4 400~4 800 cm-1、5 400~6 600 cm-1、7 800~10 000 cm-1波段范圍內(nèi)所建模型的識(shí)別率均高于90%,且經(jīng)ds2(Segment 5 Gap5的3點(diǎn)二階泰勒求導(dǎo))預(yù)處理后的模型識(shí)別率最高,為96.42%。圖3是不同條件下所建模型的評(píng)價(jià)參數(shù)屬性殘差結(jié)果圖,可看出,編號(hào)6條件下所建模型未被識(shí)別和未被正確識(shí)別的光譜圖最少,即該條件下所建的模型鑒定效果最佳。圖4和圖5分別表示的是編號(hào)6條件下所建模型的屬性單一聚類值和光譜殘差值。
表2 建立4種樟屬植物識(shí)別模型的條件和對(duì)應(yīng)結(jié)果Tab.2 The conditions and results of four species of Cinnamomum recognition model
圖3 不同條件下所建模型的屬性殘差值Fig.3 Property residual values of the models under different conditions
圖4 屬性單一聚類值Fig.4 Cluster per property
圖5 光譜殘差值Fig.5 Spectra residual
用外部驗(yàn)證集樣品對(duì)所建模型的實(shí)際鑒別能力進(jìn)行檢驗(yàn),驗(yàn)證結(jié)果如表3所示。由表3可知,模型對(duì)外部驗(yàn)證集中的猴樟、黃樟、油樟的識(shí)別率為100%,均準(zhǔn)確識(shí)別,僅對(duì)銀木樣品產(chǎn)生了一個(gè)錯(cuò)判,未成功識(shí)別,總識(shí)別率達(dá)到97.5%。
表3 外部驗(yàn)證結(jié)果Tab.3 External validation results
第一步根據(jù)樣品的實(shí)際類別特征,對(duì)建模集樣品賦予分類變量值,如表4所示。第二步利用PLS回歸方法對(duì)校正集樣品光譜和樣品對(duì)應(yīng)的分類變量值進(jìn)行回歸分析,建立近紅外光譜特征和樣品分類變量間的PLS回歸模型。
表4 4種樟屬植物樣品的分類變量Tab.4 Category variables of four species of Cinnamomum
對(duì)校正集樣品進(jìn)行不同的預(yù)處理,并結(jié)合PLSDA方法建立判別模型,不同預(yù)處理下建立的判別模型的預(yù)測效果如表5和圖6所示。由表5可知,選擇4 000~8 000 cm-1波段,經(jīng)一階導(dǎo)數(shù)和5點(diǎn)平滑兩種預(yù)處理方法相結(jié)合后所建模型效果最好,即該條件為最佳建模條件,其校正集相關(guān)系數(shù)最高,為0.9230,內(nèi)部驗(yàn)證均方根誤差最小,為0.1202,對(duì)校正集樣品識(shí)別率為100%。
圖6為建模集樣品分類變量的PLS預(yù)測值和實(shí)測值回歸圖。由圖6可看出,分散在參考分類(即實(shí)測值)等于1的線上的樟屬植物樣品點(diǎn)均能和參考分類等于0的線上的其余3個(gè)樟屬植物明顯分開,說明所建模型具有較高的可靠性,能夠清晰地區(qū)分4種樟屬植物。
表5 不同光譜預(yù)處理下的PLS-DA判別模型預(yù)測效果Tab.5 Predictive effect of PLS-DA discrimination model with different preprocessing methods
圖6 PLS-DA判別模型樣品分類變量的PLS預(yù)測值和實(shí)測值的回歸圖Fig.6 Regression plots of reference and prediction category variables of sample by PLS-DA model
選擇最佳建模條件建立PLS-DA判別模型,利用所建模型對(duì)未參與建模的外部驗(yàn)證集樣品進(jìn)行判別分析,結(jié)果如圖7和表5所示。圖7A為驗(yàn)證集中猴樟樣品的預(yù)測結(jié)果,從圖中可看出,外部驗(yàn)證集中猴樟所有樣品的預(yù)測值都在1附近,且偏差較小,而黃樟、油樟和銀木三類樣品的預(yù)測值均在0附近,偏差小于0.5。據(jù)1.4.2所述的判別準(zhǔn)則可知,模型對(duì)猴樟樣品的識(shí)別率為100%,同理觀察圖7B、7C、7D可知,模型對(duì)驗(yàn)證集中的黃樟、油樟和銀木樣品均能準(zhǔn)確識(shí)別。由表5可知,最佳條件下所建模型對(duì)外部驗(yàn)證集樣品的相關(guān)系數(shù)最高,為0.8960,預(yù)測均方根誤差最小,為0.1396,對(duì)外部驗(yàn)證集樣品的識(shí)別率為100%。
圖7 外部驗(yàn)證集中4種樟屬植物樣品的PLS-DA模型判別結(jié)果Fig.7 Discriminant results of four species of Cinnamomum in validation set by PLS-DA models
該試驗(yàn)光譜采集的波段范圍是4 000~10 000 cm-1,該波段主要是含氫基團(tuán)(X-H,X=C、N、O等)的倍頻和合頻吸收帶,譜帶寬且信息量大。選用全光譜參與建模會(huì)在一定程度上影響建模的精確度和準(zhǔn)確度[36-39],需要對(duì)全光譜波段進(jìn)行特征波長選擇,從中提取包含有意義信息的光譜波段,除去噪聲光譜和無意義的光譜波段,提高建模效率和模型精度[40]。孫曉明等[41]選擇4 000~10 000 cm-1全光譜波段,建立了水蜜桃(Prunus persica)產(chǎn)地溯源模型;王澄林[28]通過軟件優(yōu)化選擇5 000~10 000 cm-1波段成功建立了不同栽培方式金線蓮(Anoectochilus roxburghii)鑒別模型,本研究首先運(yùn)用PCA-Cluster方法建模,經(jīng)建模軟件NIRCal選擇不同波段范圍,進(jìn)行多種嘗試,通過軟件自動(dòng)優(yōu)化,結(jié)果表明在4 400~4 800 cm-1,5 400~6 600 cm-1,7 800~10 000 cm-1組合波段內(nèi)建立PCA-Cluster判別模型效果最好。運(yùn)用PLS-DA方法建模時(shí),同樣對(duì)不同的波段范圍進(jìn)行建模,結(jié)果表明在4 000~8 000 cm-1范圍內(nèi)建立的PLS-DA判別模型性能最佳。由此可得出,最佳建模波段并不是一成不變的,要根據(jù)不同的樣品和實(shí)際情況恰當(dāng)?shù)倪x擇建模波段,以獲得最優(yōu)模型。
采集得到的樣品光譜包含了大量物理、化學(xué)和生物等信息,包含建模所需的相關(guān)信息和影響模型精度的無關(guān)信息,同時(shí)也包括了因光譜儀器、所處環(huán)境或操作人員等原因造成的光譜基線偏移、高頻噪音等偏差信息,這均會(huì)對(duì)模型的建立產(chǎn)生影響,增加近紅外光譜分析的難度[42-44],因此需要對(duì)原始光譜進(jìn)行預(yù)處理。浦宇文等[45]通過先采用標(biāo)準(zhǔn)正態(tài)變量變換(SNV)再結(jié)合多元散射校正(MSC)預(yù)處理的方法建立機(jī)采名優(yōu)茶識(shí)別模型,所建模型訓(xùn)練集準(zhǔn)確率達(dá)98.5%,驗(yàn)證集準(zhǔn)確率達(dá)98.1%;汪紫陽等[2]使用一階導(dǎo)數(shù)+平滑的預(yù)處理方法,使用單列識(shí)別變量矩陣的PLS-DA方法建立4個(gè)樹種的樹葉識(shí)別模型,模型準(zhǔn)確率達(dá)100%。本研究中,通過采取不同的預(yù)處理方法對(duì)光譜數(shù)據(jù)進(jìn)行處理,選擇ds2(Segment 5 Gap5的3點(diǎn)二階泰勒求導(dǎo))結(jié)合PCA-Cluster方法建立最優(yōu)識(shí)別模型,對(duì)未知樣品識(shí)別率達(dá)96.42%;選擇一階導(dǎo)數(shù)+5點(diǎn)平滑預(yù)處理方法建立PLS-DA判別模型,模型對(duì)未知樣品的識(shí)別率為100%。
近紅外光譜分析技術(shù)是1980年代以來發(fā)展最快、最受關(guān)注的一項(xiàng)光譜分析技術(shù),具有強(qiáng)大的分析能力[11],它在植物品種鑒定方面的應(yīng)用,改善了利用形態(tài)學(xué)、細(xì)胞學(xué)等植物鑒別方法的不足之處,提高了植物鑒別的速度和準(zhǔn)確度。但近紅外光譜分析技術(shù)本身存在一定的時(shí)限性,樣品所處時(shí)間和空間的改變可能會(huì)對(duì)模型的精度和準(zhǔn)確度產(chǎn)生一定的影響,因此需要對(duì)模型進(jìn)行不斷的維護(hù)和擴(kuò)充[10],確保模型能夠更加適用于日常分析工作。本試驗(yàn)用于建模的樣品均取自同一地點(diǎn)和時(shí)間,在后續(xù)的使用中,應(yīng)當(dāng)不斷的對(duì)模型進(jìn)行升級(jí)和優(yōu)化,收集來自不同地點(diǎn)和時(shí)間的樣品擴(kuò)充模型,增加其適應(yīng)性。除了本文所涉及的4種樟科植物外,筆者對(duì)樟科常見種香樟(C.camphora)5種化學(xué)型的近紅外光譜識(shí)別方法也進(jìn)行了研究(尚未發(fā)表),初步建立了近紅外光譜識(shí)別模型。
應(yīng)用近紅外光譜分析技術(shù)結(jié)合PCA-Cluster和PLS-DA兩種方法對(duì)猴樟、黃樟、油樟、銀木4種樟屬植物葉片光譜建立近紅外光譜識(shí)別模型,兩種方法均成功地建立了判別模型,結(jié)果顯示所建模型具有較高的識(shí)別能力,能夠準(zhǔn)確識(shí)別校正集樣品。外部驗(yàn)證方面,PCA-Cluster模型對(duì)外部驗(yàn)證集樣品的識(shí)別率為97.5%,PLS-DA判別模型的識(shí)別率為100%,說明應(yīng)用近紅外光譜分析技術(shù)能夠用于4種樟屬植物的識(shí)別。這對(duì)進(jìn)一步利用近紅外光譜分析技術(shù)進(jìn)行樟科植物的識(shí)別研究或者其他樹種樹葉的識(shí)別研究是具有一定的參考價(jià)值的。