駱 立, 王靜儀, 徐兆軍, 那 斌
南京林業(yè)大學材料科學與工程學院, 江蘇 南京 210037
我國地域遼闊, 跨溫寒帶、 溫帶、 亞熱帶, 地形復雜, 環(huán)境差異大, 樹木種類繁多且區(qū)系成分復雜, 即使是同一樹種的木材, 其理化性質也會因生長條件不同而產(chǎn)生差異, 為達到“適材適用”的目的和確保木制品質量的一致性, 需要快速準確地識別木材產(chǎn)地。 《瀕危野生動植物國際貿(mào)易公約》指出, 為打擊非法砍伐、 保護瀕危樹種, 需要建立木材追溯系統(tǒng)以追蹤木材的地理來源。 因此對于木材及其木制品亟需一種原產(chǎn)地的快速精準識別方法, 而近紅外光譜技術是一種簡易、 快速、 無損的檢測技術, 與機器學習算法相結合被廣泛應用于農(nóng)業(yè)、 制藥、 環(huán)境、 石油化工和生命科學等多個領域。 近年來, 許多學者采用近紅外光譜技術結合機器學習對食物(水果、 肉類、 食用油等)[1]、 農(nóng)作物(玉米、 核桃、 小麥等)[2]和中藥材(葛根、 黃柏、 毛地黃等)[3]的地理來源進行識別, 而在木材工業(yè)中多用于木材樹種識別、 木材分級、 質量評估和缺陷檢測等, 關于木材產(chǎn)地鑒別的研究鮮見報道。
近紅外光譜是光吸收和光散射兩個主要信號的疊加。 光散射是與光從表面反射現(xiàn)象相關的物理信息, 受到微觀結構、 表面粗糙度、 內(nèi)部反射和衍射等影響, 可能與分子的空間分布有關, 但與其化學成分沒有直接關系。 然而, 光吸收與聚合物基質中官能團的分子振動有關, 只有具有偶極矩的分子才能被激發(fā)到特定的振動模式從而吸收特定波段的紅外輻射, 在近紅外光譜范圍內(nèi)的光吸收是在中紅外光譜范圍內(nèi)發(fā)生的基本振動的組合和高階諧波的結果。 特別是木材作為一種生物質材料, 其具有的吸濕性、 各向異性是影響光譜質量的關鍵因素。 此外木材樣本狀態(tài)及測試環(huán)境也會影響光譜, 使得近紅外光譜比其他光譜區(qū)域更為復雜且更難以解釋[4], 因此必須依賴于校準方法和模型開發(fā)[5]。 近紅外光譜主要包含C—H、 O—H和N—H三種化學鍵產(chǎn)生的吸收帶, 采集木材的近紅外光譜, 由于不同基團產(chǎn)生的光譜吸收峰位置和強度均不同, 吸收光譜也會隨著樣品成分組成變化而變化, 可結合機器學習算法對木材進行定量分析和定性分析[6]。 機器學習(machine learning, ML)是一門通過編程讓計算機從數(shù)據(jù)中進行學習的科學, 按照不同的分類標準可以分為監(jiān)督學習和無監(jiān)督學習, 在線學習和批量學習, 基于實例學習和基于模型學習。 隨著數(shù)據(jù)規(guī)模和計算資源的快速增長, 機器學習在理論和實踐兩方面都取得了重要進展, 為多學科交叉的林業(yè)技術領域的數(shù)據(jù)密集型科學創(chuàng)造了新的機遇[7-8], 為木材質量追溯系統(tǒng)的構建及制約非法木材貿(mào)易提供了新的思路和方法。
采用近紅外光譜技術對木材進行定性分析主要有樹種分類和產(chǎn)地鑒別兩個方面。 目前, 已有大量研究證實了近紅外光譜技術結合機器學習算法在木材樹種分類中存在的巨大潛能[9]。 然而, 木材產(chǎn)地的鑒別模型卻多采用傳統(tǒng)的化學計量學方法, 例如Prades等[10]基于近紅外光譜建立PLS(partial least squares, PLS)模型識別針葉材木塞的產(chǎn)地來源, 驗證了近紅外光譜技術用于鑒別木材產(chǎn)地的潛力, Yang等[11]研究了近紅外光譜對不同樹種和不同產(chǎn)地木材樣品的鑒別能力, 采用PLS-DA(partial least squares discriminant analysis, PLS-DA)模型, 結果表明近紅外光譜技術可以準確地識別木材樹種, 但產(chǎn)地的識別精度有待提高。
本工作以近紅外光譜技術和機器學習結合為主要技術路線, 探究其在木材地理來源檢測領域的可行性, 分別從非線性算法、 回歸算法、 分類算法、 概率算法、 集成算法和深度學習算法六個角度選取了支持向量機、 邏輯回歸、 K最近鄰、 樸素貝葉斯、 隨機森林和人工神經(jīng)網(wǎng)絡算法來建立木材產(chǎn)地鑒別模型, 并分別基于主成分分析法(principal component analysis, PCA)與線性判別分析法(linear discriminant analysis, LDA)進行降維處理, 對模型輸入降維后的特征矩陣再輸出木材產(chǎn)地類別, 并采用學習曲線、 網(wǎng)格搜索法、 K折交叉驗證等算法優(yōu)化模型參數(shù), 最后從模型的準確率與運行時間兩個層面評估模型效果。
以來自兩種產(chǎn)地的樟子松、 泡桐、 櫸木、 柚木、 椴木和臭椿木塊為研究對象, 木塊尺寸均為4 cm×4 cm×2 cm(長×寬×高), 每個樹種均備有200個木塊, 其中每個產(chǎn)地100個木塊, 共計1 200個試驗樣本, 樣本樹種及產(chǎn)地如表1所示。 為避免木材表面鋸痕與老化的影響, 采用100目(粒徑150 μm)砂紙對木塊進行打磨[12], 并存放在溫度為(20±2) ℃、 相對濕度為60%±2%的受控環(huán)境中。
表1 樣本樹種及來源
近紅外光譜的采集系統(tǒng)主要由光譜儀(臺灣五鈴光學公司, 型號: NIRez)、 計算機(獨立顯卡, CPU型號: i5)、 光源盒、 光纖探頭、 暗箱等構建而成。 為避免室溫、 光線等環(huán)境變化對實驗造成影響, 在暗箱內(nèi)進行采集作業(yè), 為最大限度地減少木材各向異性對光譜的影響, 每個樣本隨機采集3個點的光譜數(shù)據(jù), 并求其均值作為該樣本的光譜數(shù)據(jù), 不考慮徑切面與弦切面的區(qū)別[13]。 將待測樣本放置在支架平臺上, 光纖探頭距待測樣本表面約5 mm, 每采集20個樣本采用標準聚四氟乙烯白板進行校正。 利用光譜儀配套軟件SpectraSmart(臺灣五鈴光學公司, 版本號: 2018)采集數(shù)據(jù), 采樣的參數(shù)設置為: 光譜范圍900~1 650 nm, 光譜分辨率10 nm, 積分時間1 ms, 掃描平均次數(shù)500次, 平滑度為5, 同時啟用Savitzky-Golay濾波器、 電子暗噪聲校正和雜散光校正。 獲取光譜數(shù)據(jù)集后需將其劃分為訓練集和測試集, 劃分前對數(shù)據(jù)進行亂序處理, 隨機抽取30%作為測試集, 70%作為訓練集。
在基于機器學習算法建立模型之前需要對光譜數(shù)據(jù)進行清洗和組織, 這個環(huán)節(jié)稱為特征工程, 即從原始數(shù)據(jù)中提取特征并將其轉換為適合機器學習模型的模式, 從而提高機器學習的性能。 采集得到的木材光譜數(shù)據(jù)具有112個特征, 屬于高維數(shù)據(jù)。 高維特征會含有冗余數(shù)據(jù), 這將不利于分類模型的構建, 因此需要對高維特征向量進行降維處理。 PCA是一種無監(jiān)督學習的降維技術, 即在保留數(shù)據(jù)重要信息的同時消除那些“無信息量的信息”。 PCA關注的是線性相關性, 試圖將數(shù)據(jù)擠壓到一個維度大小小于原空間的線性子空間從而消除這些“臃腫”, 其核心思想是使用一些新特征代替冗余特征, 這些新特征能恰當?shù)乜偨Y初始特征控件中包含的信息。 除了去除高維光譜數(shù)據(jù)中的重疊信號, PCA還常常將數(shù)據(jù)降維到2維或3維以可視化數(shù)據(jù), 有利于了解和探索數(shù)據(jù)集。 與PCA不同, LDA是有監(jiān)督學習的降維技術, 即每個樣本是有類別輸出的。 其核心思想是“投影后類內(nèi)方差最小, 類間方差最大”, 即將數(shù)據(jù)投影在低維度上, 并且投影后同種類別數(shù)據(jù)的投影點盡可能接近, 不同類別數(shù)據(jù)的投影中心點盡可能遠, 局限性是最多只能降到類別數(shù)減1的維度。
支持向量機[14]是一種基于統(tǒng)計學習理論的非線性機器學習方法, 其基本思想是通過非線性變換將輸入空間變換到一個高維的特征空間, 并在新空間中尋找最優(yōu)的線性分界面, 在處理小樣本、 高維特征和非線性等數(shù)據(jù)集上具有優(yōu)異的表現(xiàn)。
邏輯回歸是一種常用的分類算法, 也是一種因變量為離散值的回歸模型。 在木材產(chǎn)地識別的決策問題中, 邏輯回歸基于木材的高維光譜特征值來估計木材產(chǎn)地類別的概率, 模型本身并不是一個分類器, 而是選擇一個閾值, 將概率大于此閾值的輸入視為一類, 小于此閾值的視為另一類。
K最近鄰算法通過測量不同特征之間的歐幾里德距離或曼哈頓距離來進行分類[15], 其分類的核心思想是在樣本特征空間中選擇K個相鄰的樣本, 如果K個相鄰的樣本大多數(shù)屬于某一類, 則該測試樣本也屬于這個類。
樸素貝葉斯是一種直接衡量標簽和特征之間的概率關系的有監(jiān)督學習算法, 是一種專注分類的算法, 采用了“特征條件獨立”的假設, 假設已知類別的情況下所有特征相互獨立。
隨機森林[16]是非常具有代表性的Bagging集成算法, 其基評估器均為決策樹, 在樹的生長上引入了更多的隨機性, 分裂節(jié)點時不再是搜索最好的特征, 而是在一個隨機生成的特征子集里搜索最好的特征, 從而生成一個整體性能更優(yōu)的模型。
人工神經(jīng)網(wǎng)絡是一種可用于處理具有多個節(jié)點和多個輸出點實際問題的網(wǎng)絡結構[17], 其為深度學習的核心, 功能強大且可擴展, 非常適合處理大型和高度復雜的機器學習任務。 人工神經(jīng)網(wǎng)絡領域中的多層感知器(multilayer perceptron, MLP), 由一層輸入層、 一層或多層隱藏層和一層輸出層組成, 信號僅從輸入到輸出流動, 又稱多層前饋神經(jīng)網(wǎng)絡。
公元前481年,田常在民眾的支持下,打敗了齊國當權貴族監(jiān)止,并殺死了齊國奴隸主貴族的最高代表齊簡公。從此,以田氏為首的齊國地主階級勢力反對奴隸主舊有階級的斗爭,取得了決定性的勝利。據(jù)《史記·田敬仲世家》記載,在田常殺死齊簡公以后的五年,即公元前476年,“齊國之政,皆歸田?!?,由奴隸主貴族統(tǒng)治的姜齊政杖已名存實亡,中國歷史上第一個封建地主政權——田齊政權建立起來了。
木材的原始近紅外高維光譜包含大量冗余信息、 特征峰高度混疊、 信噪比較低, 為探索和深入了解數(shù)據(jù)的分布情況, 采用PCA降維技術將高維空間降至2維, 并以第一主成分為橫坐標、 第二主成分為縱坐標可視化光譜數(shù)據(jù), 如圖1。 由圖1可知, 櫸木不同產(chǎn)地的光譜數(shù)據(jù)之間區(qū)分界限十分明晰, 樟子松、 泡桐、 柚木不同產(chǎn)地的光譜數(shù)據(jù)呈現(xiàn)出較高的聚合度但邊界線處數(shù)據(jù)點重疊混淆, 而臭椿和椴木兩個產(chǎn)地的光譜數(shù)據(jù)重疊度較高。 由此可得, 櫸木的產(chǎn)地鑒別模型易于建立, 而臭椿和椴木的建模難度較大。
圖1 6種木材的前2個主成分散點圖
基于對光譜數(shù)據(jù)集的分析, 分別采用無監(jiān)督的PCA和有監(jiān)督的LDA對木材原始光譜進行降維處理。 降維算法最重要的參數(shù)是降維后保留的特征維度, 由于只有兩個樹種標簽, LDA只能將維度降到1維, 而PCA需要通過學習曲線來確定特征維度。 對于PCA降維技術, 訓練集的前5個主成分累計貢獻率見表2, 6個樹種的前5個主成分累計貢獻率均達到了99.99%, 表明在濾掉噪聲的同時攜帶了原始數(shù)據(jù)足夠的信息。 為對比降維前后的數(shù)據(jù)差異, 分別將未降維的原始數(shù)據(jù)、 PCA降維后的數(shù)據(jù)和LDA降維后的數(shù)據(jù)作為模型輸入導入支持向量機模型中, 模型的各項參數(shù)均為默認值(kernel=“rbf”、 gamma=“scale”), 不同輸入得到的準確率如表3。 由表3可知, 經(jīng)過降維處理, 模型的準確率得到了顯著地提升, 其中LDA的效果優(yōu)于PCA。
表2 訓練集的主成分累計貢獻率(%)
表3 不同模型輸入的模型準確率(%)
模型的超參數(shù)是模型外部的配置, 對模型效果具有至關重要的作用, 通常需要使用者自行定義, 為了提高模型的泛化能力, 采用學習曲線、 網(wǎng)格搜索法、 K折交叉驗證等算法對模型的超參數(shù)進行選取和優(yōu)化, 表4為不同模型的參數(shù)設置。
表4 不同模型的參數(shù)設置
支持向量機模型實現(xiàn)的關鍵是核函數(shù)kernel的選取[18], 支持向量機常用的核函數(shù)有線性內(nèi)核、 多項式內(nèi)核、 雙曲正切內(nèi)核和高斯徑向內(nèi)核, 在此選擇效果最佳的高斯徑向內(nèi)核(Radial Basis Function, RBF), 即kernel=“rbf”。 此外, 還需自定義懲罰因子C和RBF核函數(shù)寬度gamma這兩個超參數(shù), 采用網(wǎng)格搜索法結合5折交叉驗證來獲取C與gamma的最佳組合, 即C=20、 gamma=0.038 9。
正則化是用于防止模型過擬合的過程, 邏輯回歸常用的有L1-范數(shù)正則化和L2-范數(shù)正則化, 分別通過在損失函數(shù)后加上參數(shù)向量θ的L1范式和L2范式的倍數(shù)來實現(xiàn)。 L1-范數(shù)正則化和L2-范數(shù)正則化都能控制模型的過擬合, 但作用效果并不相同, 當正則化的強度增大, L1-范數(shù)正則化正則化會使參數(shù)θ壓縮為0, 其本質是一個特征選擇的過程, L2-范數(shù)正則化只會讓攜帶信息少, 對模型貢獻不大的特征參數(shù)接近于0。 由于在特征工程中已進行降維處理, 數(shù)據(jù)維度不高, 正則化的主要目的是防止過擬合, 選擇L2即可。
K最近鄰算法的核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別, 則該樣本也屬于這個類別, 并具有這個類別上樣本的特性, K最近鄰近算法的K值通過n_neighbors參數(shù)來調節(jié), 通過學習曲線得到n_neighbors=1。
在實例化模型時, 不需要對高斯樸素貝葉斯類輸入任何的參數(shù), 模型易于建立, 但沒有參數(shù)以供調整, 意味著貝葉斯算法的成長空間不大, 若是效果不理想, 一般考慮替換效果更佳的模型。
在分類問題中, 隨機森林的基評估器決策樹視為分類樹, 基評估器的數(shù)量n_estimators是隨機森林分類器最重要的參數(shù)。 n_estimators越大, 模型往往越好, 但當n_estimators接近決策邊界后, 模型的精確性便不會發(fā)生大的波動, 且n_estimators越大, 所需的計算量與內(nèi)存也相應地增加。 因此, 需要在訓練難度與模型效果之間尋求平衡點, 通過學習曲線獲取最佳的n_estimators為80。 隨機森林的本質是一種袋裝集成算法, 是對每棵分類樹的預測結果進行平均或用多數(shù)表決原則來決定集成評估器的結果, 采用參數(shù)random_state可以控制生成森林的模式。 當random_state固定時, 隨機森林生成是一組固定的樹, 但是每棵分類樹均具有“隨機挑選特征進行分枝”的隨機性, 當這種隨機性越大時, 袋裝法的效果就越好。 基于本光譜數(shù)據(jù)集, 選取random_state=0。
按照表4的參數(shù)對每個樹種建立相同的模型, 各個模型對木材產(chǎn)地鑒別的準確率見表5。 由表5可知, 樟子松、 泡桐、 櫸木、 柚木、 椴木和臭椿產(chǎn)地鑒別的最高準確率分別為98.3%、 100%、 100%、 100%、 100%、 98.3%, 值得注意的是, 大多數(shù)基于LDA的分類模型效果要優(yōu)于基于PCA的分類模型。 其中, 泡桐、 櫸木和柚木兩種產(chǎn)地的區(qū)分度較高, 在PCA或LDA的降維處理下, 6種模型均能達到100%的識別率。 此外, 對于樟子松產(chǎn)地的鑒別, 6種模型的準確率也均能達到98.3%。 但對于椴木與臭椿而言, 6種模型的準確率差異較大, 分別在65%~100%和76%~98.3%之間波動。
表5 六個樹種不同模型的準確率(%)
在機器學習算法領域, 追求的主要包括算法效果與運算速度兩個方面。 對于樟子松、 泡桐、 櫸木、 柚木4個樹種的產(chǎn)地鑒別, 6種機器學習算法均能達到相同的準確率, 因此, 需要對比分析6種模型的運行時間, 6個樹種不同模型的運行時間見表6。 由表6可知, 基于SVM、 LR、 KNN和NB建立的木材產(chǎn)地鑒別模型運行時間相差較小, 運行時間最長的是ANN, 遠遠超過于其余算法, RF次之。 因此, 對于這4個樹種而言, ANN和RF的運行時間過長, 不是最佳的模型選擇。
表6 六個樹種不同模型的運行時間(s)
而對于椴木與臭椿, 各個模型效果差別較大, 評價模型時需要平衡模型的精度與速度。 但首先追求的是模型的高準確率, 椴木產(chǎn)地識別率最高的前兩個模型是LDA-NB模型與PCA-ANN模型, 分別達到95%和100%, 臭椿產(chǎn)地識別率最高的前兩個模型是PCA-KNN和PCA-ANN模型, 分別達到96.7%和98.3%。 為進一步探索模型的運行時間, 繪制椴木和臭椿在不同訓練樣本量下的擬合時間曲線, 由圖2可以發(fā)現(xiàn), PCA-ANN的運行時間是LDA-NB和PCA-KNN的幾十倍, 且擬合時間隨著訓練樣本量的不同而產(chǎn)生較大的波動, 這是由于十分復雜的人工神經(jīng)網(wǎng)絡為追求算法效果的極致而幾乎放棄了運算速度。
圖2 椴木與臭椿不同訓練樣本量下的擬合時間
圖3為4種模型的混淆矩陣, 椴木與臭椿準確率最高的兩種分類器差距較小, 因此需要進一步評估模型的精度。 混淆矩陣是二分類問題的多維衡量指標體系, 在該體系中可以獲取真正、 真負、 假正和假負四種分類結果。 由圖3可知, 臭椿的兩種模型能正確識別所有產(chǎn)地2的木材, 而對于產(chǎn)地1, PCA-KNN誤判了2個樣本, PCA-ANN誤判了1個樣本, 結合兩種模型的運行速率, 綜合考慮認為臭椿的PCA-KNN模型優(yōu)于PCA-ANN模型。 椴木兩種模型產(chǎn)地1的識別率均能達到100%, 而當PCA-ANN對產(chǎn)地2的木材全部正確識別時LDA-NB誤識了3個樣本。
圖3 四種模型的混淆矩陣
基于近紅外光譜技術, 采用6種機器算法構建校準模型, 以期對木材的地理來源進行識別, 主要從精度和速度兩個層面評估模型, 主要結論如下:
(1)基于近紅外光譜技術結合機器學習能有效地識別木材產(chǎn)地, 6種模型均能正確分類。 整體而言, 基于LDA降維的模型效果優(yōu)于基于PCA降維的模型效果, 非線性模型的效果優(yōu)于線性模型的效果。
(2)對于相同的數(shù)據(jù)集, SVM、 LR、 KNN和NB的運行時間較短且相差較小, 其次是RF。 對比其余算法, 人工神經(jīng)網(wǎng)絡在各個數(shù)據(jù)集上均具有優(yōu)異的精度, 但是在運行時長上不具備競爭力。
(3)為基于近紅外光譜技術結合機器學習識別木材產(chǎn)地提供了一定的理論依據(jù), 但未來需要代表性更廣泛的大型數(shù)據(jù)來構建更穩(wěn)健的模型以檢測更多的地理來源。