孫禧亭,袁洪福,宋春風
(北京化工大學 材料科學與工程學院,北京 100029)
山羊絨與山羊絨/羊毛混紡織物,以及純棉與絲光棉織物均為化學組成非常接近且形態(tài)復雜的樣品,且類內(nèi)變化較大,同類織物在捻度、質(zhì)地結(jié)構(gòu)、染整工藝等方面均有明顯的差異。由于類間化學組成變化引起的近紅外光譜差別相對小,而類內(nèi)形態(tài)變化引起的光譜差異較大,即噪聲對有用信息的淹沒作用較大,導致采用“靜態(tài)”近紅外光譜結(jié)合常用的多元分析方法,難以將其有效區(qū)分,是近紅外光譜分析領(lǐng)域中尚未解決的分類難題[1]。
近紅外光譜判別分析過程一般包括光譜預處理、特征提取和模式識別等步驟。常用的光譜預處理方法包括導數(shù)[2]、多元散射校正(MSC)[3]、標準正態(tài)變量變換(SNV)[4]、小波變化等[5]。特征提取包括主成分分析(PCA)[6]、線性判別分析(LDA)[7]、獨立成分分析(ICA)[8]和基于流型學習等方法[9]。簇類獨立軟模式識別(SIMCA)、偏最小二乘判別分析(PLS-DA)和支持向量機(SVM)[10]是最常用的光譜模式識別方法。這些識別方法對于光譜差異較為明顯的樣品是有效的,已被廣泛用于諸多領(lǐng)域[11- 12]。但對于上述化學組成差異小、形態(tài)或環(huán)境因素變化干擾大的樣品,基于近紅外光譜的上述判別方法難以獲得滿意效果。因此,研究解決上述問題的方法具有重要的理論和應用意義。
本文旨在建立一種全新的光譜分類方法,采用外部擾動光譜和二維相關(guān)光譜方法,構(gòu)造能夠區(qū)分樣品細微差別的“化學圖像”,借助同時具有自動特征提取與分類功能的深度卷積神經(jīng)網(wǎng)絡(luò)(Convolution neural network,CNN)方法對化學圖像數(shù)據(jù)進行分類[13-14]。采用遷移學習方法,將實際成熟的CNN圖像分類模型適應于本研究的近紅外光譜分類問題,以期解決近紅外光譜分類識別形態(tài)復雜且組成高度相似的不同類樣本的分類難題。
圖1 GoogLeNet網(wǎng)絡(luò)架構(gòu)和遷移學習示意圖Fig.1 The architecture of GoogLeNet model and its transfer learning
對于化學組成高度相近且形貌差異大的不同類樣品,憑借其“靜態(tài)”光譜所包含的有效分類信息量,使用常用的多元分析判別方法不足以將它們有效分類?;谒鼈儗ν獠繑_動(如纖維吸水性)存在差異的現(xiàn)象,對樣品施加(水分)擾動,同時采集其隨外部擾動產(chǎn)生的“動態(tài)”光譜。一般可根據(jù)樣本特性,選擇施加不同的外部擾動,如溫度、電壓、磁場或化學擾動。采用它們的二維相關(guān)光譜圖構(gòu)造一張化學圖像。與單張“靜態(tài)”紅外光譜(向量)相比,新構(gòu)造的化學圖像明顯增加了數(shù)據(jù)尺寸(矩陣)和信息量,可放大樣品的類間光譜差異。常用的光譜分類方法使用的特征提取和分類方法(適合處理向量)不再適用于化學圖像(矩陣)分類。如圖1所示,GoogLeNet是Google開發(fā)的一種深度CNN框架[15],同時具有特征提取和圖像識別功能,在ImageNet數(shù)據(jù)集上取得了超越人眼的識別正確率,是當今最先進和最成熟的深度學習方法之一。本文提出采用GoogLeNet對化學圖像數(shù)據(jù)進行分類。深度CNN網(wǎng)絡(luò)需使用大數(shù)據(jù)樣本進行訓練,而光譜分析能收集到的樣品通常屬于小樣本數(shù)據(jù),難以滿足其訓練要求。本文將GoogLeNet的圖像識別模型(在1 000類圖像大數(shù)據(jù)庫中學習到的特征提取能力)向化學圖像分類遷移[16],使用化學圖像數(shù)據(jù)僅對GoogLeNet網(wǎng)絡(luò)最后4層結(jié)構(gòu)進行訓練,保留其它層結(jié)構(gòu)不變,使遷移后的GoogLeNet 適應于當前研究的光譜分類,從而實現(xiàn)形態(tài)復雜且化學組成高度相近的不同類樣品的有效判別。
本文使用兩個組分高度相近的不同類樣品分類與識別案例為研究對象:①山羊絨與山羊絨/羊毛混紡織物及純羊毛織物的識別;②純棉和絲光棉織物的識別。從中國幾個省份的織物生產(chǎn)企業(yè)和市場共收集234個織物實際樣品。其中,64個山羊絨,70個山羊絨/羊毛混紡(羊毛含量為 51.5%~100%,包括20個純羊毛織物),50個純棉和50個絲光棉織物。它們在厚度、顏色和質(zhì)地(機織或針織)上各不相同。每個樣品的類別由顯微鏡分析法確定。其中,山羊絨/羊毛混紡樣品中的羊毛含量采用國標方法GB/T 2910.4-2009[17]測得。根據(jù)樣品的近紅外光譜,采用Kennard-Stone方法[18]對每類樣品分集,其中訓練集占80%,剩余樣品作為驗證模型判別能力的測試集。
首先將樣品在105 ℃真空烘箱中連續(xù)烘干3 h得到干基樣品,再將干基樣品放入相對濕度(RH)100%、恒溫20 ℃的密室中吸潮。在不同吸附時間取出,制備不同含水量的樣品。采用精度為0.1 mg的分析天平稱重,并計算標準條件(25 ℃和RH 65%)下樣品的回潮率(含水量):回潮率=(Wc-Wd)/Wd×100%。其中,Wc和Wd分別為樣品吸水后的重量和干重。樣品的最大回潮率設(shè)定為16.3%。每個樣品制備4個不同的含水量(包括0、5.4%、11.2%和16.3%),共得到936個不同含水量的樣品。
使用配有積分球附件的Nicolet Antaris Ⅱ FT-NIR光譜儀在恒溫恒濕的條件下采集樣品的漫反射近紅外光譜。內(nèi)置的金箔用于采集背景光譜。將每塊大小約0.5 m2的樣品折疊成4~6層后,直接放置在積分球的窗口上并用鐵塊壓住,使其與窗口表面緊密接觸。光譜采集參數(shù)為:分辨率4 cm-1,掃描數(shù)32,光譜范圍10 000~4 000 cm-1。每次光譜采集約1 min,每個樣品重復采集3張光譜,計算平均光譜作為該樣品的光譜。
山羊絨和羊毛纖維在組成上高度相近,均由蛋白質(zhì)和脂類等組成。圖2A顯示了所有烘干山羊絨、山羊絨/羊毛混紡織物的近紅外光譜。不同樣品之間的光譜基線嚴重漂移,主要原因包括:樣品質(zhì)地差異引起的光散射效應不同,顏色差異引起的吸收不同。對圖2A進行二階導數(shù)處理,有效消除了基線漂移,且光譜特征峰表觀分辨率獲得明顯改善(圖2B)??梢钥闯?,一方面山羊絨織物與山羊絨/羊毛混紡織物的近紅外光譜含有豐富的組成信息,另一方面,這兩種織物的近紅外光譜很相近。純棉和絲光棉織物的情況也類似,主要組成均為天然纖維素,其烘干樣品的近紅外光譜及二階導數(shù)光譜如圖3A和圖3B所示。
表1 山羊絨-山羊絨/羊毛混紡織物SIMCA 模型的統(tǒng)計指標Table 1 The statistics of SIMCA models for cashmere and cashmere/wool blend textiles respectively using the raw spectra and the pretreated spectra by different pretreating methods
表2 純棉和絲光棉織物SIMCA 模型的統(tǒng)計指標Table 2 The statistics of SIMCA models for cotton and mercerized cotton textiles respectively using the raw spectra and the pretreated spectra by different pretreating methods
表3 織物樣品SVM模型的統(tǒng)計指標Table 3 The statistics of the SVM models for textiles
在近紅外光譜定性分析常用的線性分類方法中,SIMCA方法的效果較好,實際應用也較多。在SIMCA中,首先建立每類樣本的主成分光譜空間(模型),然后計算被測樣本與各類主成分光譜空間的距離,根據(jù)該距離確定其歸屬。本文建立的SIMCA模型中,分別采用MSC、一階導數(shù)和二階導數(shù)不同光譜預處理方法,留一交互驗證法結(jié)合QvsHotelling's T2圖,確定每類模型的最優(yōu)主成分數(shù),逐一建立了烘干山羊絨與山羊絨/羊毛混紡織物、烘干純棉和絲光棉織物的多個SIMCA模型,其統(tǒng)計參數(shù)如表1和表2所示。與原始光譜相比,使用3種預處理方法后,模型的預測正確率均有明顯提高。其中,二階導數(shù)預處理方法取得了最優(yōu)結(jié)果:山羊絨與山羊絨/羊毛混紡織物的預測正確率分別為60.48%和63.33%,純棉和絲光棉織物的預測正確率分別為68.89%和71.02%。
SVM是近紅外光譜判別分析常用的一種分類方法,其解決非線性問題的能力優(yōu)于線性分類判別方法。該方法使用核函數(shù)將線性不可分的原始數(shù)據(jù)映射到更高維空間中,使其可分。本研究使用徑向基函數(shù)(RBF)作為核函數(shù),通過交叉驗證法生成決策函數(shù)(Decision function)以抑制過擬合。應用格子搜索法(Grid search)同時優(yōu)化懲罰系數(shù)(Penalty parameter)和核系數(shù)(Kernel coefficient),它們的取值范圍分別限定在如下兩個列表中:[0.01,0.1,1,10,100,1 000]和[0.001,0.000 1]。表3列出了SVM模型的統(tǒng)計數(shù)據(jù)。與表2對比可知,其模型性能與SIMCA模型相近,表明SVM同樣也不能有效區(qū)分組成高度相近的不同類織物。
綜上所述,使用傳統(tǒng)的光譜模式識別方法,無論線性判別方法,還是非線性判別方法,均難以快速準確地判別組成高度相近的不同類織物。
本文對樣品施加外部水分擾動,從而擴大了不同類樣本的差異信息。以烘干樣品為基礎(chǔ),分別制備水含量為5.4%、11.2%、16.3%的樣品,并采集其水分擾動近紅外光譜。從每類樣品中隨機選1個樣品,它們在不同水含量下的“動態(tài)”光譜如圖4所示。可以看出,與干燥樣品相比,潮濕樣品的近紅外光譜圖中均出現(xiàn)2個較寬的水峰。其中,7 100~6 800 cm-1波段歸屬于ν1+ν3 振動模式(ν1為對稱伸縮振動,ν3屬于非對稱伸縮振動),吸光度變化最大的5 150~4 950 cm-1波段歸屬于ν2+ν3 振動模式(ν2為彎曲振動)。由此可見,水分擾動顯著增加了光譜數(shù)據(jù)量和信息量,放大了不同類樣品之間的近紅外光譜差異。
二維相關(guān)光譜分析是一種提取擾動光譜變化信息的有力方法,廣泛用于復雜體系分析。為此,對不同類織物的水分擾動光譜進行二維相關(guān)分析,得到同步二維相關(guān)光譜圖(圖5A1~5D1)和異步二維相關(guān)光譜圖(圖5A2~5D2)。在視覺上,與近紅外光譜相比,二維相關(guān)光譜圖更加明顯地反映了組成高度相近的不同織物的光譜信息差異。
由于二維相關(guān)光譜圖具有對稱性,為此,對同一個樣品,取其同步圖主對角線上半部分和異步圖主對角線下半部分,合成一張既反映同步相關(guān)變化又包含異步相關(guān)性的融合光譜化學信息圖像,如圖5A3~5D3所示。與近紅外光譜圖相比,在視覺上,融合化學圖像能更直觀和更明顯地反映山羊絨與山羊絨/羊毛混紡織物的光譜差異。
從信息量角度看,上述化學圖像數(shù)據(jù)更有利于組成高度相似樣品的分類鑒別。但常用的光譜(向量)模式識別方法,并不適合直接處理化學圖像(矩陣)數(shù)據(jù)。本文提出通過遷移學習方法將GoogLeNet圖像識別模型進行遷移,使其適合組成高度相近的不同類織物化學圖像的分類與識別。
遷移學習過程需要設(shè)置各種超參數(shù)(Ultra-parameters)。其中,InitialLearnRate指定了在損失函數(shù)的負梯度方向上的初始步長,MiniBatchSize是在每次迭代中使用的訓練集子集的大小,MaxEpochs表示用于訓練的最大epoch數(shù)。目前尚無調(diào)節(jié)神經(jīng)網(wǎng)絡(luò)超參數(shù)的通用規(guī)則。本研究通過trial-and-error方法確定了GoogLeNet模型的6個超參數(shù)(InitialLearnRate、1e-4、MiniBatchSize、15、MaxEpochs、20)。使用訓練集樣品訓練模型,然后通過用遷移后的 GoogLeNet模型預測驗證集樣品來評估模型的性能。山羊絨與山羊絨/羊毛混紡織物以及純棉與絲光棉織物分類模型的訓練和驗證過程如圖6所示,隨著epoch增大,訓練集的交互驗證正確率不斷上升,10個epoch后穩(wěn)定在90%左右;而損失函數(shù)的誤差值不斷減小。經(jīng)過20個epoch的迭代訓練后,在驗證集上,山羊絨織物與山羊絨/羊毛混紡織物的總體判別正確率為92.59%,純棉/絲光棉織物的為94.74%(表4),具備了實際應用的價值。因此,將在大數(shù)據(jù)庫訓練的GoogLeNet模型經(jīng)遷移學習后,用于組成高度相近不同類織物的判別是可行的。
圖6 山羊絨和山羊絨/羊毛混紡(A)以及棉和絲光棉(B)遷移學習模型的訓練過程
表4 織物樣品遷移學習模型的統(tǒng)計指標Table 4 The statistics of the transfer learning models for textile samples
本文通過采集樣品的“動態(tài)光譜”,以二維相關(guān)光譜構(gòu)造化學圖像,使用深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)合遷移學習,建立了一種光譜分類與識別方法。研究結(jié)果表明,新方法對山羊絨與山羊絨/羊毛混紡織物的分類正確率為92.59%,純棉與絲光棉織物的為94.74%,實現(xiàn)了對織物的高精度識別?!皠討B(tài)”光譜結(jié)合深度學習圖像識別和遷移學習方法,解決了近紅外光譜過程分析中形態(tài)復雜且組成高度相似的不同類樣本的分類難題,進一步拓寬了近紅外光譜分析方法的適用范圍,具有重要的理論意義和實際價值。