陳金浩, 蔣大鵬, 張怡卓, 王克奇
東北林業(yè)大學(xué)機電工程學(xué)院, 黑龍江 哈爾濱 150040
抗彎強度(MOR)是木材重要的力學(xué)指標(biāo), 影響實木產(chǎn)品的質(zhì)量與安全性。 近年來, 隨著近紅外(NIR)光譜分析的廣泛應(yīng)用, 力學(xué)性能方面的近紅外光譜檢測已開展大量研究[1-3]。 但是, 近紅外光譜設(shè)備的波段精度差異、 元器件間的分散性, 使得光譜模型的通用性有待于提升[4-5]。
光譜模型遷移的相關(guān)研究始于上世紀(jì)90年代[6], 按照策略的不同可以將相關(guān)方法劃分為反饋標(biāo)準(zhǔn)化法、 預(yù)測值標(biāo)準(zhǔn)化法以及模型系數(shù)標(biāo)準(zhǔn)化法[7-8]。 反饋標(biāo)準(zhǔn)化法通過主、 從機的輸出反饋, 將從機光譜校正為與主機相似的響應(yīng)光譜并進行建模, 這類方法包括直接標(biāo)準(zhǔn)化(direct standardization, DS)與分段直接標(biāo)準(zhǔn)化(piece-wise direct standardization, PDS)[9]。 DS方法使用變換矩陣將從機光譜線性變換為主機光譜, 而PDS方法則將從機光譜分割為一個個滑窗, 在每個滑窗中使用DS方法進行變換。 DS與PDS方法均為線性變換方法, 當(dāng)主從設(shè)備差異較大時, 方法適應(yīng)性較差。 預(yù)測值的標(biāo)準(zhǔn)化法通過計算主機和從機預(yù)測值之間的線性關(guān)系來校正從機預(yù)測值, 代表方法為斜率截距校正方法(slope and bias correction, SBC)[10]; 但SBC方法僅通過調(diào)整線性模型的截距來縮小主機與從機的差距, 局限性大。 模型系數(shù)標(biāo)準(zhǔn)化法通過調(diào)整從機模型參數(shù)來實現(xiàn)主機與從機模型的一致性[11-12], 校準(zhǔn)轉(zhuǎn)移方法還包括一些全局建模等特殊方法, 該類方法以犧牲精度建立起所有儀器條件都適用的模型, 模型預(yù)測精度普遍較低[13-15], 代表性的方法為兩步偏最小二乘(two step partial least squares)方法[16], 廣義最小二乘加權(quán)法以及遷移學(xué)習(xí)(transfer learning)等方法[17]。
近年來, 隨著深度學(xué)習(xí)等技術(shù)的逐漸發(fā)展, 遷移學(xué)習(xí)引起了廣泛關(guān)注[18]。 遷移學(xué)習(xí)能夠?qū)⒁延?xùn)練好的模型參數(shù)轉(zhuǎn)移到新模型來幫助新模型訓(xùn)練, 并將某個領(lǐng)域或任務(wù)上學(xué)習(xí)到的知識或模式應(yīng)用到相同領(lǐng)域不同問題中。 Geodesic Flow Kernel(GFK)方法是一種遷移學(xué)習(xí)方法, 目前主要應(yīng)用于圖像處理領(lǐng)域中[19]。 該方法將源域子空間和目標(biāo)域子空間嵌入到格拉斯曼流形中, 通過構(gòu)建測地線核函數(shù), 將主機與從機光譜數(shù)據(jù)集映射到一個高維流形空間, 實現(xiàn)數(shù)據(jù)從源域到目標(biāo)域之間的遷移, 使源域與目標(biāo)域共享特征。 此外, 在數(shù)據(jù)遷移中, 波段優(yōu)選可以通過數(shù)據(jù)降維提高模型精度。 波段優(yōu)選方法既要表征待測樣本特征, 且不同平臺的優(yōu)選波段偏差不能過大[20]。 穩(wěn)定一致波長優(yōu)選方法(screening wavelengths with consistent and stable signals, SWCSS)是由Ni L等人提出的一種光譜波段優(yōu)選方法[21], 通過計算主機與從機采集的兩組光譜差, 優(yōu)選出具有一致性和穩(wěn)定性的光譜波段。
以落葉松(Larixgmelinii(Rupr.))板材抗彎強度預(yù)測為研究對象, 分別應(yīng)用One-chip微型集成光纖光譜儀和NIRQuest512光譜儀采集落葉松試材的近紅外光譜, 使用預(yù)處理與PDS模型遷移方法處理不同光譜儀平臺采集的原始光譜后, 將GFK-SVM遷移模型引入近紅外校準(zhǔn)轉(zhuǎn)移中, 結(jié)合SWCSS特征提取方法構(gòu)建SWCSS-GFK-SVM落葉松板材力學(xué)性能檢測遷移模型, 解決主機模型與從機的適配問題。
選用落葉松作為試件。 試件取自黑龍江省伊春市清水河林場, 地理位置東經(jīng)128°01′, 北緯42°30′, 海拔600~700 m之間, 在林場伐倒樣木并標(biāo)記樣木生長方向, 在每株樹的胸高往上截取長度為1或2 m的木段, 氣干后鋸解, 加工成力學(xué)實驗試件。 按照木材物理力學(xué)性質(zhì)試驗方法《GB1927~1943—2009》加工試件, 在溫度25 ℃左右, 濕度恒定的條件下, 分別使用One-chip光譜儀與NIRQuest512光譜儀采集試件光譜。 One-chip光譜儀采集光譜數(shù)據(jù)集設(shè)為從機光譜, NIRQuest512光譜儀采集光譜數(shù)據(jù)集設(shè)為主機光譜。 光譜儀主機與從機參數(shù)表如表1所示。
表1 光譜儀平臺參數(shù)對比
參照國家標(biāo)準(zhǔn)《木材抗彎強度試驗方法》(GB 1936.1—2009)、 《木材抗彎強度測定方法》(GB 1936.2—2009)中的測試步驟及規(guī)范, 加工制備了200組落葉松板材試件樣本, 并對板材試件進行編號, 按照編號使用萬能力學(xué)性能試驗機測定落葉松試件無疵試樣的抗彎強度, 用兩個光譜儀分別采集光譜得到試件的主機光譜以及從機光譜。
主、 從兩個光譜儀采集得到的近紅外光譜如圖1與圖2所示, 由于兩個光譜儀波長范圍不一致, 且從機光譜儀受雜散光、 光譜背景與基線漂移干擾嚴(yán)重, 所以采用SNV、 SG等預(yù)處理方法對光譜進行降噪與去趨勢處理[22], 去除基線漂移和背景的干擾, 區(qū)分重疊峰, 提高分辨率和靈敏度。 然后, 裁剪從機光譜波長, 實現(xiàn)兩個光譜儀波段范圍統(tǒng)一。 因為兩設(shè)備測得的光譜差異大, 直接使用GFK-SVM方法建立的全局模型準(zhǔn)確率低, 所以從機光譜經(jīng)PDS校準(zhǔn)后, 再使用GFK-SVM方法構(gòu)建轉(zhuǎn)移模型, 以提高模型預(yù)測精度。
圖1 主設(shè)備原始光譜
圖2 從設(shè)備原始光譜
設(shè)SDPDS為試件主機光譜標(biāo)準(zhǔn)差, SDDSI為主光譜和從光譜之間的偏差, 篩選出SDPDS與SDDSI比值較高的波段。 SDDSI與SDPDS由式(1)與式(2)表示
(1)
(2)
則bj可表示為
bj=SDDSI(j)/SDPDS(j)
(3)
bj理想值為1, 表示從機光譜與主機光譜偏差與主機光譜標(biāo)準(zhǔn)差值相同, 設(shè)置合適閾值bj對兩組數(shù)據(jù)集光譜波段進行波段優(yōu)選。
φ:t∈[0, 1]→φ(t)∈G(d,D)
(4)
式(4)中,φ(0)=XS,φ(1)=XT, 則φ(t)可表示為:φ(t)=XSU1Γ(t)-RSU2Σ(t)。
(5)
(6)
此時從未經(jīng)降維的原始數(shù)據(jù)集中取出兩個向量xi與xj, GFK內(nèi)核被定義為
(7)
GFK內(nèi)核G最終解析式為
(8)
則Γ與Σ的主對角線元素之間滿足正弦關(guān)系, 第i個元素可用sinθi與cosθi表示,Λ1,Λ2和Λ3均為對角矩陣, 對角元素值為
(9)
(10)
(11)
SWCSS-GFK-SVM核函數(shù)由式(12)給出
(12)
(13)
(14)
(15)
綜上所述, 使用光譜數(shù)據(jù)與力學(xué)特征數(shù)據(jù)建立改進GFKSVM遷移模型的流程如圖3所示。
圖3 SWCSS-GFK-SVM建模流程
圖4與圖5為經(jīng)預(yù)處理后的落葉松主機光譜和從機光譜。 主機光譜數(shù)據(jù)集中每個樣本的波長范圍為900~1 700 nm, 有512個光譜波段數(shù); 從機光譜數(shù)據(jù)集每個樣本的波長范圍為900~1 850 nm, 有117個光譜波段。 將從光譜分割為900~1 700 nm, 以保證主機與從機波長范圍一致。 圖6為分割后的從光譜。
圖4 使用S-G與SNV方法處理后的主光譜
圖5 使用S-G與SNV方法處理后的從光譜
圖6 預(yù)處理分割后的從光譜
使用PDS輸出的轉(zhuǎn)移矩陣GPDS校正從機光譜數(shù)據(jù)集。 在應(yīng)用SWCSS進行波段優(yōu)選時, 當(dāng)bj=0.85時, 篩選出14個近紅外光譜波段。 以校正后的從機光譜為源域、 主機光譜為目標(biāo)域, 對GFK-SVM模型中的C與σ參數(shù)進行尋優(yōu), 尋優(yōu)方法為網(wǎng)格搜索法, 圖7為SVM尋優(yōu)過程。 當(dāng)C=820.352 6,σ=0.067 3時, GFK-SVM模型達到最優(yōu), 最優(yōu)值為0.989。
圖7 網(wǎng)格搜索方法優(yōu)化SWCSS-GFK-SVM模型
利用SWCSS-GFK-SVM建立了落葉松近紅外光譜校準(zhǔn)模型。 為了驗證模型的優(yōu)越性, 分別使用DS方法、 PDS-GFK-SVM以及DS-SWCSS-GFK-SVM進行實驗對比。 表2給出了上述5種校準(zhǔn)模型的預(yù)測結(jié)果, 選擇相關(guān)系數(shù)Rc、 均方根誤差RMSEC、 預(yù)測相關(guān)系數(shù)Rp、 預(yù)測均方根誤差RMSEP作為評價指標(biāo), 對所建模型結(jié)果進行比較分析。
表2 基于不同遷移模型的結(jié)果分析
圖8—圖12分別為上述5種方法建立的校準(zhǔn)模型的回歸散點圖, 圖中紅色圓圈表示訓(xùn)練集的預(yù)測值與實際值之間的擬合散點圖, 藍色星號表示測試集預(yù)測值與實際值之間的擬合散點圖。 在圖8對應(yīng)的DS-PLS轉(zhuǎn)移模型中, 首先使用DS方法校正從機光譜, 將校正后的光譜輸入到以訓(xùn)練好的主機模型中測試預(yù)測值與實際值之間的擬合程度; PDS-PLS轉(zhuǎn)移模型構(gòu)建方法與DS-PLS模型類似, 只是將DS方法變更為PDS方法; 對于圖12對應(yīng)的PDS-GFK-GVM轉(zhuǎn)移模型, 為從機光譜經(jīng)PDS校正后, 使用GFK-GVM遷移模型基于主機與從機光譜數(shù)據(jù)建模得到; 圖9與圖11對應(yīng)的轉(zhuǎn)移模型則在PDS-GFK-GVM模型基礎(chǔ)上添加一步SWCSS特征選取方法。 從5張散點圖可得, PDS-SWCSS-GFK-SVM校準(zhǔn)模型質(zhì)量明顯優(yōu)于其他方法。
圖8 DS-PLS近紅外轉(zhuǎn)移模型
圖9 DS-SWCSS-GFK-GVM近紅外轉(zhuǎn)移模型
圖10 PDS-PLS近紅外轉(zhuǎn)移模型
圖11 PDS-SWCSS-GFK-GVM近紅外轉(zhuǎn)移模型
圖12 PDS-GFK-GVM近紅外轉(zhuǎn)移模型
實驗結(jié)果對比表明, PDS采用滑窗技術(shù)優(yōu)化了DS對數(shù)據(jù)的轉(zhuǎn)移效果, PDS-PLS的預(yù)測集的相關(guān)系數(shù)Rp為0.812, 較DS-PLS的0.793有所提升; GFK-SVM的遷移模型對比PLS模型, 預(yù)測集的相關(guān)系數(shù)Rp從0.812提升到0.829, 均方根誤差RMSEP從22.374降低到17.853, 說明GFK-SVM更適應(yīng)數(shù)據(jù)遷移場景, 能夠基于源域數(shù)據(jù)集提升所建校準(zhǔn)模型的準(zhǔn)確率; 使用SWCSS優(yōu)化GFK-SVM遷移模型, 預(yù)測集的相關(guān)系數(shù)Rp從0.829提升到0.875, RMSEP從17.853降低到11.975, 說明SWCSS特征提取能夠根據(jù)兩組光譜數(shù)據(jù)集之間的差異與共性, 針對性的進行波段優(yōu)選。
針對近紅外光譜儀采集光譜間的數(shù)據(jù)差異, 以落葉松的力學(xué)性能預(yù)測為研究對象, 運用One-chip與NIRQuest512兩臺近紅外光譜儀, 研究了不同類型光譜儀間的模型泛化方法。 實驗結(jié)果表明GFK-SVM遷移模型構(gòu)建精確度更高的全局預(yù)測模型, 通過對從機光譜向主機光譜的非線性變換, 實現(xiàn)主機模型在從機光譜數(shù)據(jù)預(yù)測的泛化, 并且GFK-SVM遷移模型使用主機與從機光譜兩組不同設(shè)備光譜共同構(gòu)建預(yù)測模型, 較之PLS預(yù)測模型只使用主機近紅外光譜建模, GFK-SVM提升了數(shù)據(jù)集的使用效率; PDS方法可以實現(xiàn)光譜儀光程與波段數(shù)統(tǒng)一, 大大提升了GFK-SVM的模型質(zhì)量; 使用SWCSS方法對GFK-SVM進行改進, 保證特征選擇的有效性與穩(wěn)定性, 為不同設(shè)備間的遷移建模提供了一定的科學(xué)基礎(chǔ)。