楊德建,趙遼英,郝賢偉,畢一鳴,厲小潤
1 杭州電子科技大學計算機學院,浙江杭州白楊街道1158 號 310018;
2 浙江中煙工業(yè)有限責任公司,技術中心,浙江杭州科海路118 號 310008;
3 浙江大學電氣工程學院,浙江杭州浙大路38 號 310027
煙葉品質(zhì)檢測,對卷煙制品的配方設計與質(zhì)量監(jiān)控具有舉足輕重的作用。隨著當前煙草行業(yè)發(fā)展,傳統(tǒng)檢測方法已經(jīng)不能夠滿足智能化檢測和管控的需求。數(shù)字化轉(zhuǎn)型是中國煙草科技創(chuàng)新發(fā)展的必然選擇[1]。近紅外光譜(Near Infrared Spectroscopy,NIR)分析技術具有高效、快速、無損和可在線等優(yōu)點,已經(jīng)在煙草行業(yè)得到廣泛的研究和應用[2-4]。
不同部位的煙葉受到的光照、水分、溫度不一樣,會導致煙葉不同部位化學成分的不同,因此煙葉部位與煙葉品質(zhì)有直接的關系。煙葉部位的識別,是烤煙煙葉收購與分級、卷煙配方設計的重要依據(jù)。煙葉部位的NIR 光譜定量分析有助于部位的識別,從而間接反映煙葉調(diào)撥、分選質(zhì)量的年度間穩(wěn)定性。目前用NIR進行煙葉品質(zhì)檢測主要是煙葉化學成分分析和產(chǎn)地識別[2-4],對煙葉部位的識別研究相對較少,且主要是基于傳統(tǒng)機器學習方法。如馬雁軍[2]使用Projection of Basing on Principal Component and Fisher Criterion(PPF)投影方法分析樣品間部位的相似性;王靜[5]將深度信念網(wǎng)絡(Deep Belief Network, DBN)的理論結合支持向量機(Support Vector Machine, SVM)建立近紅外光譜多分類模型 DBN-SVM 識別煙葉部位。但是上述方法都是對實驗室采集的粉末狀煙葉光譜進行煙葉部位識別實驗,煙葉光譜穩(wěn)定,且不同部位煙葉光譜差異相對較明顯。由于光照和環(huán)境的影響,煙葉不同部位的在線NIR 光譜不易區(qū)分,特征提取困難,因此需要研究特征增強或特征提取能力更強的方法。
卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)作為典型的深度學習網(wǎng)絡模型之一,具有很強的特征提取和模型表達能力,已被廣泛應用于NIR 特征提取分析[5-6]。由于有標簽的煙葉部位近紅外光譜數(shù)據(jù)有限,影響了傳統(tǒng)的CNN 模型在煙葉部位識別中的應用效果。對比學習(Contrastive Learning)是一種適用于無標簽或少量標簽樣本的自監(jiān)督學習方法,最近已在計算機視覺、自然語言處理和其他領域得到了應用[7]。BYOL(Bootstrap Your Own Latent,BYOL)[8]模型是一種通過兩個神經(jīng)網(wǎng)絡自監(jiān)督學習高維數(shù)據(jù)特征表示的對比學習模型,具有強特征提取和模型表達能力。
數(shù)據(jù)增強是BYOL 對比學習的關鍵步驟之一。文獻[9]在基于對比學習的高光譜圖像分類模型中,通過變分自編碼器(Variational Auto-Encoder,VAE)[10]和對抗自編碼器(Adversarial Autoencoders,AAE)[11]提取特征實現(xiàn)數(shù)據(jù)增強。但是VAE 和AAE 都由編碼器、隱層和解碼器組成,結構較復雜,并且都是通過優(yōu)化的方法提取特征,時間復雜度高。NIR 的微分光譜波峰波谷特征明顯,具有簡單快速實現(xiàn)數(shù)據(jù)增強的作用,在很多研究中得到了應用,如楊雙艷等[12]在基于近紅外光譜的粒子群-支持向量機(PSO-SVM)模型中使用多元散射校正和二階導數(shù),對煙葉等級進行識別;胡涌等[13]在NIR 偏最小二乘定性判別模型中使用K-S 方法挑選樣品從而提高了預測煙葉水分的準確度。但是現(xiàn)有文獻都是將微分光譜作為數(shù)據(jù)預處理結果直接用于分類或判別,如何將微分光譜和原始光譜有效結合實現(xiàn)光譜數(shù)據(jù)增強未見報道。
本文提出一種基于近紅外光譜和BYOL 對比學習的煙葉部位識別方法, 以NIR 微分光譜與原始NIR 光譜融合實現(xiàn)光譜數(shù)據(jù)增強,以卷積自編碼器和多層感知器實現(xiàn)在線網(wǎng)絡和目標網(wǎng)絡,以兩個網(wǎng)絡輸出的均方誤差為對比損失,通過損失最小優(yōu)化的編碼值識別煙葉部位信息,分類識別煙葉部位。以我國4 個產(chǎn)地的1026 個樣本的3078 條光譜數(shù)據(jù)為實驗對象,對所建立NIR-BYOL 識別模型進行驗證。結果表明,通過該方法可以對煙葉部位進行快速、準確識別,對維護卷煙產(chǎn)品的質(zhì)量穩(wěn)定性有重要意義。
共選取2018—2020 年,1026 個包含上部、中部、下部的原煙樣本,由復烤廠專業(yè)人士按《42 級煙葉分級國家標準品質(zhì)因素表》確定每個煙葉樣本部位和等級,等級包括B2F、C1F、C2F、C3F、C4F、C2L、X2F 等。每個部位的樣本數(shù)有342 個,分別來自貴州、湖北、云南、廣東4 個產(chǎn)地,煙葉樣本信息見表1。如圖1 所示,每個原煙樣本去除葉尖和葉基,將剩余部分垂直于葉脈剪切成寬為3~6 cm 的條狀葉片,葉片未破碎,隨機疊放后用手輕微壓實,以避免葉片翹曲、彎曲等;使用光譜儀自帶鹵素燈光源,測量3 次,每次測完后取下樣品,間隔約2 min 后放回樣品再測,共3078 條光譜數(shù)據(jù)。相同ID 的光譜取平均值,共1026條平均光譜數(shù)據(jù)。
圖1 光譜采集示意圖Fig.1 Schematic diagram of spectral acquisition
表1 煙葉樣本信息Tab.1 Information of tobacco leaf sample
實驗用Carl Zeiss ARMOR 711 型近紅外在線光譜儀(德國卡爾蔡司股份有限公司)。
光譜掃描條件:分辨率6 nm,光譜范圍:910~2150 nm,掃描次數(shù)64 次,檢測器InGaAs 陣列,分光系統(tǒng)PDA 陣列。樣品距離:100~240 nm,測量斑點30 mm,工作溫度范圍5~65℃。
1.3.1 微分光譜融合的數(shù)據(jù)增強
通過NIR 微分光譜與原NIR 光譜融合實現(xiàn)光譜數(shù)據(jù)增強。設第 條原始NIR 光譜為 ,分別對 求一階微分和二階微分得到一階微分光譜 ? 和二階微分光譜,經(jīng)融合得到
其中?(·)表示歸一化操作。
圖2 給出了數(shù)據(jù)增強前后不同部位煙葉光譜數(shù)據(jù)曲線,其中上部、中部和下部煙葉光譜數(shù)據(jù)分別用藍色、棕色和綠色所示,圖2(a)為原始光譜數(shù)據(jù),橫坐標為波長信息,圖2(b)和(c)表示原始光譜與微分光譜融合后的曲線,橫坐標為波段序號。取各個部位的10 條光譜進行展示。由圖2(a)可知,不同部位煙葉的近紅外光譜形狀幾乎一樣,只在近1200 nm 和1500 nm 附近有明顯的吸收峰,在1100 nm、1300 nm 和1650 nm 附近有肩峰,而且無法根據(jù)幅值直接區(qū)分。而在經(jīng)過一階微分光譜融合和二階微分光譜融合后,可以從圖2(b)和圖2(c)看出,融合后的光譜數(shù)據(jù)有了更多的波峰波谷信息。
圖2 NIR 光譜曲線:(a)原始光譜; (b)一階微分光譜融合結果;(c)二階微分光譜融合結果Fig.2 NIR spectrum curve: (a) Original spectrum;(b) First-order differential spectrum fusion result;(c) Second-order differential spectrum fusion result
1.3.2 NIR-BYOL
BYOL 的核心思想是通過在線網(wǎng)絡(Online 網(wǎng)絡)和目標網(wǎng)絡(Target 網(wǎng)絡)分別提取兩個增強樣本的特征表示,使用均方誤差衡量兩個特征的接近程度,以均方誤差最小為對比損失,通過優(yōu)化使得BYOL 網(wǎng)絡的編碼器學習到較好的數(shù)據(jù)表達,用于下游任務。訓練在線網(wǎng)絡在不同的增強視圖下去預測目標網(wǎng)絡對相同樣本的潛在表達,同時,使用在線網(wǎng)絡的慢速移動平均線更新目標網(wǎng)絡。通過在線網(wǎng)絡和目標網(wǎng)絡的交互學習,在線網(wǎng)絡中的編碼器可習得樣本關鍵的潛在表達。
煙葉類別識別的NIR-BYOL 模型結構如圖3 所示,其中x為輸入的NIR 數(shù)據(jù),v和v′分別表示對x光譜數(shù)據(jù)增強后的數(shù)據(jù),fθ和fξ表示編碼器,采用CNN實現(xiàn),yθ和yξ′表示編碼輸出的編碼向量,gθ和gξ表示投影器,采用多層感知機(Multilayer Perceptron, MLP)實現(xiàn),zθ和zξ′表示投影器輸出的投影向量,qθ表示預測器,采用MLP 實現(xiàn),qθ(zθ)表示輸出的預測向量。fθ、gθ和qθ構成online 網(wǎng)絡,fξ和gξ構成target 網(wǎng)絡。需要說明的是,NIR-BYOL 模型中的光譜數(shù)據(jù)增強可以用微分光譜融合的方法,也可以用其他數(shù)據(jù)增強方法。
圖3 NIR-BYOL 模型結構Fig.3 Structure of NIR-BYOL model
NIR-BYOL 模型的工作過程描述如下:v和v′分別輸入online 和target 網(wǎng)絡,兩個網(wǎng)絡分別輸出各自的正則化數(shù)據(jù)qˉθˉˉ(zθ)和zˉξ′,定義均方誤差:
表示二者的相似程度。
進行分支數(shù)據(jù)交換,即輸入target 網(wǎng)絡的數(shù)據(jù)輸入到online 網(wǎng)絡,輸入online 網(wǎng)絡的數(shù)據(jù)輸入到target網(wǎng)絡,得到?θ,ξ。通過分支數(shù)據(jù)交換,使得target 網(wǎng)絡和online 網(wǎng)絡均能學習到同一個數(shù)據(jù)的兩種增強形式的數(shù)據(jù)。定義損失函數(shù):
通過優(yōu)化損失函數(shù)使得編碼器學習到較好的數(shù)據(jù)表達。
BYOL 模型最初應用于圖像領域,其編碼器結構適應的數(shù)據(jù)是圖像格式如RGB 三通道格式。Encoder編碼器結構參考文獻[10]。為適應一維的光譜數(shù)據(jù),需要對模型進行改進:修改輸入層為兩通道數(shù)據(jù)結構,例如(樣本數(shù),特征數(shù)),并且修改二維卷積為一維卷積。為此,設計了一個14 層的卷積神經(jīng)網(wǎng)絡用于煙葉近紅外光譜的特征提取。包括1 個輸入層,2 個反卷積層,3 個卷積層,4 個激活層,4 個BatchNorm 層。其編碼器結構如圖4 所示。
圖4 編碼器結構Fig.4 Encoder structure
編碼器得到的編碼值輸入到分類器完成類別識別,具體過程為:用訓練樣本的編碼值及部位標簽對分類器進行訓練,測試樣本的編碼值輸入訓練好的分類器,輸出識別的類別信息。
不同的激活函數(shù)引入的非線性結構所有不同,NIR-BYOL 中實現(xiàn)編碼器的激活函數(shù)可以用ReLU(Rectified Linear Unit)、Tanh、Sigmoid、ELU(Exponential Linear Units)等。
1.3.3 模型評價方法
通過準確率指標對所設計的模型進行性能評估。判別準確率 可表示為:
其中,e為判別正確的樣本數(shù), 為樣品總數(shù)。
每個樣本有唯一標識的ID。所有實驗中,根據(jù)ID號,將1026 個樣本以8∶2 的比例劃分為訓練樣本集和測試樣本集。實驗中采用樣本的平均光譜。SVM 的最佳參數(shù)由網(wǎng)格搜索完成,網(wǎng)格搜索中設置參數(shù)為3折交叉驗證。
NIR-BYOL 模型中數(shù)據(jù)增強可以采用微分光譜融合的數(shù)據(jù)增強,即經(jīng)公式(1)和(2)得到增強后的數(shù)據(jù)v和v′,也可以采用VAE、AAE 數(shù)據(jù)增強,即分別通過VAE 和AAE,將隱層編碼得到的數(shù)據(jù)作為增強數(shù)據(jù)v和v′。
不同方式的數(shù)據(jù)增強在增加數(shù)據(jù)差異性方面有所不同。為了探索適應本數(shù)據(jù)集數(shù)據(jù)增強的最優(yōu)方式,對數(shù)據(jù)增強方式進行組合實驗,以最優(yōu)實驗結果對應的參數(shù)作為后續(xù)實驗。一階微分融合記作D1、二階微分融合記作D2。因此,組合實驗有VAE+AAE、VAE+D1、VAE+D2、AAE+D1、AAE+D2、D1+D2 共6組實驗。實驗采集的近紅外光譜的波段從896 nm 到1690 nm,數(shù)據(jù)點有257 個。BYOL 模型默認參數(shù)為卷積核大小3*1,激活函數(shù)ELU。不同數(shù)據(jù)增強的實驗結果如表2 所示。
表2 不同數(shù)據(jù)增強的NIR-BYOL 模型識別準確率Tab.2 Recognition accuracy of NIR-BYOL model with different data enhancement
比較VAE+D1、AAE+D1、D2+D1,可以看出在同樣D1 數(shù)據(jù)增強下,對模型性能提升從高到底排序分別為VAE、D2、AAE;比較VAE+D2、AAE+D2、D1+D2,在D2 數(shù)據(jù)增強下,對模型性能提升從高到底排序分別為D1、VAE、AAE;比較D1+VAE、D2+VAE、AAE+VAE,在VAE 數(shù)據(jù)增強下,對模型性能提升從高到底排序分別為D1、D2、AAE;比較D1+AAE、D2+AAE、VAE+AAE,在AAE 數(shù)據(jù)增強下,對模型性能提升從高到底排序分別為D1、D2、VAE。同時,也可以看出在D2、VAE、AAE 數(shù)據(jù)增強下,D1 對模型性能提升均排名首位,說明D1 數(shù)據(jù)增強方法較適合本數(shù)據(jù)集。
從表2 還可看出,VAE+AAE 的數(shù)據(jù)增強方法所得到的上部、中部、下部準確率均較低,該組別和其他增強組別的明顯區(qū)別在于是否有應用D1 或D2。D1或D2 是由原光譜微分得到,其體現(xiàn)了波段之間的關聯(lián)性,其D1 光譜波形在一定程度上保留了原光譜的波形。而VAE 或AAE 是由隱層潛在特征作為光譜的數(shù)據(jù)增強方式,因此,有可能損失了其波形或波段間的聯(lián)系,導致其識別效果不明顯。除去VAE+AAE 方法,其他方法上部的取值范圍在90%~94%,中部的取值范圍在77%~83%,下部的取值范圍在87%~90%。中部的準確率相對于上部和下部較低。因此,煙葉中部識別的精準性是模型性能好壞的關鍵。并且也考慮到VAE 模型的復雜程度,訓練時間等因素,在高準確率的情況下,可綜合考慮模型參數(shù)。因此,選擇D1+D2 的數(shù)據(jù)增強方法作為后續(xù)模型的參數(shù)。
當卷積核函數(shù)在整個紅外光譜范圍內(nèi)移動時,卷積核函數(shù)會自動提取每個紅外光譜窗口的局部特征。對于NIR 數(shù)據(jù),重疊特征峰和獨立特征峰的存在有可能導致模型結果對于卷積核大小及數(shù)目敏感,而且卷積核過小則難以提取窗口中的有效信息;卷積核過大則容易造成特征丟失。為確定最佳卷積核大小,分別討論1~16 不同大小卷積核對模型的影響,BYOL 模型的激活函數(shù)默認為ELU。分類器使用SVM,SVM參數(shù)由網(wǎng)格搜索完成。模型的其他參數(shù)不變,僅改變卷積核大小,數(shù)據(jù)增強方法選擇D1+D2。不同卷積核模型的準確率如表3 所示。
表3 不同卷積核大小NIR-BYOL 模型識別準確率Tab.3 Recognition accuracy of the NIR-BYOL model with different convolution kernel size
從表3 的數(shù)據(jù)可以看出,隨著卷積核大小的增加,模型的平均準確率逐漸增大。但是增加到一定程度,準確率趨于平穩(wěn)。在卷積核為3 時,平均準確率逐漸步入平穩(wěn)階段。而且從中可以看出,中部準確率波動幅度比上部和下部大,其可能是因為煙葉中部的判斷標準比較寬泛,導致其被判別為上部或下部的概率增加。考慮到上部和下部的準確率比較平穩(wěn),因此中部準確率的高低很大程度上影響了模型的準確率。此外,卷積核越大,程序運行的時間越多。綜合考慮模型性能和程序運行時間,選取卷積核為11 作為后續(xù)實驗的模型參數(shù)。
在神經(jīng)網(wǎng)絡中,若不使用激活函數(shù)或者僅使用線性激活函數(shù),神經(jīng)網(wǎng)絡的每層只是做線性變換,多層輸入疊加后也還是線性變換。為學習到數(shù)據(jù)中非線性特征,加入激活函數(shù)可使得網(wǎng)絡引入非線性因素,神經(jīng)網(wǎng)絡就可學習到曲線進行超平面分割,提升神經(jīng)網(wǎng)絡表示能力。而常用的激活函數(shù)有ReLU(Rectified Linear Unit)、Tanh、Sigmoid、ELU(Exponential Linear Units)。不同的激活函數(shù)引入的非線性結構均不同。為檢驗激活函數(shù)對模型的影響,分別比較4 種不同激活函數(shù)網(wǎng)絡模型預測效果。BYOL 模型參數(shù)為卷積核大小11*1。具體分析結果如表4 所示。
表4 不同激活函數(shù)NIR-BYOL 模型煙葉部位識別準確率Tab.4 Recognition accuracy of NIR-BYOL model using different activation functions
由表4 可知,就準確率而言,ELU 的準確率最高,達到91.79%,Sigmoid 次之,達到90.34%,ReLU 和Tanh 達到90.02%和88.73%。從中可以看出,各激活函數(shù)之間的準確率差距在3%以內(nèi),差距不大。因此NIR-BYOL 模型可能對激活函數(shù)的選擇并不敏感。為此,選擇平均準確率最高的ELU 作為NIR-BYOL 模型的激活函數(shù)。
為驗證該模型的性能,與常規(guī)的分類方法進行比較。采用相同的訓練集和測試集,對采用高斯核的SVM、PLS-DA、PCA+SVM 和NIR-BYOL 模型分別進行實驗。SVM 的參數(shù)是由網(wǎng)格搜索得到。PLS-DA的參數(shù)是主成分個數(shù)為8。PCA 的參數(shù)是主成分個數(shù)12。BYOL 模型參數(shù)為卷積核大小11*1,激活函數(shù)ELU。不同方法所建立的模型的分析結果如表5 所示。
表5 不同方法的結果比較Tab.5 Accuracy of different modeling methods
分析結果表明,NIR-BYOL 模型得到的準確率最高,PLS-DA、SVM、PCA+SVM 模型得到準確率相近。其主要原因是SVM 和PCA 因其構造,能進行淺層的特征學習,PCA 進行特征提取時,僅考慮了數(shù)據(jù)的方差,忽略了數(shù)據(jù)間的聯(lián)系;PLS-DA 是在偏最小二乘(PLS, Partial least squares)分析的基礎上應用分類,但是PLS 不能很好地處理非線性問題,因此識別準確率受到數(shù)據(jù)高維的影響。而NIR-BYOL 模型編碼器通過構建多層網(wǎng)絡獲得了深度結構,從而能夠進行深度學習,提取出更具表達能力的特征。
以最佳模型參數(shù)對應的模型進行實驗預測,對煙葉部位判別結果如表6 所示。
表6 NIR-BYOL 模型對不同部位煙葉的詳細識別結果Tab.6 Detailed recognition accuracy of NIR-BYOL model for different tobacco parts
從表6 可以看出,NIR-BYOL 模型在測試集上的平均準確率達到91.79%,對3 個部位中的每一個部位都有較高的準確率,上部被預判為下部的個數(shù)為0,下部被預測為上部的個數(shù)為少量,中部有被預判為上部和下部的例子。也符合煙葉中部界定寬泛的現(xiàn)實?;诖?,該模型可以較全面地描述煙葉部位特征,有較強的學習和判別能力。
最佳模型NIR-BYOL 對應的編碼器參數(shù)如表7 所示。包括1 個輸入層,2 個反卷積層,3 個卷積層,4個激活層,4 個BatchNorm 層。
表7 編碼器參數(shù)Tab.7 Parameters of encoder
本文就基于BYOL 的近紅外光譜分類建模方法進行了研究,利用光譜微分技術和數(shù)據(jù)融合實現(xiàn)數(shù)據(jù)增強,建立了NIR-BYOL 模型用于煙葉部位識別,實驗結果表明:(1)NIR-BYOL 模型可準確、可靠地鑒別煙葉部位;通過訓練BYOL 網(wǎng)絡從而獲得高質(zhì)量的編碼器,該編碼器可對煙葉光譜數(shù)據(jù)進行高質(zhì)量的特征提?。唬?)通過數(shù)據(jù)增強,盡可能多地添加煙葉光譜的特征從而提高關鍵性特征被提取的可能性,實驗結果表明可有效提高模型的性能。
NIR-BYOL 模型結構其實是一個通用的基于NIR的類別識別模型,即當輸入的原始光譜為煙葉NIR 光譜,分類器訓練樣本標簽為煙葉產(chǎn)地類別信息時,分類器輸出煙葉的產(chǎn)地信息;當輸入的原始光譜為其他產(chǎn)品的NIR 光譜,分類器訓練樣本標簽為相應產(chǎn)品的某種類別信息,分類器輸出相應產(chǎn)品的對應類別。
后續(xù)研究,將進一步研究如何提升樣本不平衡和小樣本情況下模型的性能,實驗驗證NIR-BYOL 模型用于煙葉產(chǎn)地識別的性能和各個等級(B2F、C1F、C2F、C3F、C4F、C2L、X2F 等)樣本的識別性能,實驗驗證煙葉部位識別結果用于煙葉收購時煙葉品質(zhì)合格與否判定的效果,以及模型在其他類型產(chǎn)品品質(zhì)分析中的應用。