但松健
(重慶第二師范學(xué)院 繼續(xù)教育學(xué)院, 重慶 400067)
近紅外光譜分析技術(shù)作為一種快速、準(zhǔn)確、便捷且非破壞性的分析技術(shù),在農(nóng)產(chǎn)品品質(zhì)檢測(cè)和產(chǎn)地鑒別方面得到了廣泛應(yīng)用,被認(rèn)為是有望替代傳統(tǒng)化學(xué)分析的無損檢測(cè)方法[1-4]。目前,基于近紅外光譜分析的柑橘產(chǎn)地鑒別技術(shù)還較為耗時(shí)費(fèi)力且不夠精確,其完整性、系統(tǒng)性和操作性還與實(shí)際應(yīng)用有很大差距,建立一套能對(duì)柑橘產(chǎn)地進(jìn)行快速鑒別的有效技術(shù)體系,對(duì)于柑橘產(chǎn)業(yè)在我國的健康發(fā)展有著重要的作用[5-6]。
本文通過基于機(jī)器學(xué)習(xí)的光譜分析技術(shù)建立了一種快速無損的柑橘產(chǎn)地鑒別通用框架,具體流程如圖1所示。首先,采用預(yù)處理算法對(duì)光譜進(jìn)行整形降噪,從而降低原始數(shù)據(jù)中的噪聲對(duì)分類器的干擾;其次,采用PCA方法對(duì)降噪后的NIR光譜進(jìn)行特征抽取,從而將高維數(shù)據(jù)降維到適當(dāng)?shù)木S度;然后,利用特征選擇算法對(duì)降維后的光譜數(shù)據(jù)進(jìn)行適當(dāng)?shù)奶卣鬟x擇以利于分類器更快更精確地學(xué)習(xí);最后,選擇不同的分類器,在統(tǒng)一的訓(xùn)練框架和性能評(píng)價(jià)指標(biāo)下,選出最優(yōu)的分類器建立光譜識(shí)別模型[7-12]。
在實(shí)驗(yàn)中,選取了常見的樸素貝葉斯、最近鄰分類(KNN)以及決策樹算法作為測(cè)試分類器[13-14],對(duì)采集的6個(gè)省市16個(gè)不同地區(qū)的柑橘進(jìn)行產(chǎn)地鑒別。原始近紅外光譜的范圍為1000~2499 nm,原始特征維度為1500維。每個(gè)地區(qū)約采集100個(gè)柑橘樣本,總的樣本數(shù)量為1558個(gè)。根據(jù)鑒別框架對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理、特征抽取、特征選擇以及模型交叉驗(yàn)證,以得到最后的性能評(píng)價(jià)。所有的模擬實(shí)驗(yàn)都在Windows 7平臺(tái)使用Matlab 2008b實(shí)現(xiàn),使用了統(tǒng)計(jì)工具箱和數(shù)據(jù)挖掘工具箱。
考慮到近紅外光譜儀器、實(shí)驗(yàn)環(huán)境和操作誤差帶來的不可避免的噪聲,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理以去除噪聲干擾是非常必要的。采用SG平滑法對(duì)光譜進(jìn)行整形,SG平滑在121大小的窗口下進(jìn)行,并用到了原始SG平滑及在此基礎(chǔ)上衍生出的一階和二階導(dǎo)數(shù)。這三種去噪方法以及原始光譜的信息如圖2所示。
由圖2可以看出,經(jīng)過SG平滑,原始光譜圖變得平滑。在進(jìn)行一階導(dǎo)數(shù)運(yùn)算后,光譜范圍從[0,1]壓縮到[-0.002,0.006],光譜信號(hào)進(jìn)一步平滑。從二階導(dǎo)數(shù)的結(jié)果看,平滑效果跟一階導(dǎo)數(shù)接近,但數(shù)據(jù)得到進(jìn)一步壓縮,范圍縮小到[-0.00009,0.00007]。雖然導(dǎo)數(shù)操作可以進(jìn)一步平滑數(shù)據(jù),但也可能會(huì)丟失部分具有區(qū)分度的細(xì)節(jié)。因此,去噪預(yù)處理操作需要進(jìn)行合適的選擇。通過圖2可以看出,16個(gè)地區(qū)柑橘樣本的光譜具有很大的重疊性,如果直接使用這些數(shù)據(jù)(1500維)進(jìn)行識(shí)別具有很大的挑戰(zhàn)性。
圖1 基于機(jī)器學(xué)習(xí)的NIR光譜產(chǎn)地鑒別框架
圖2 柑橘原始光譜及去噪后效果
從上一小節(jié)的實(shí)驗(yàn)中可以看出,經(jīng)過去噪的數(shù)據(jù)并不適合用分類器進(jìn)行直接訓(xùn)練,需要進(jìn)行適當(dāng)?shù)奶卣鞒槿。员闾崛≈饕畔?,去除不必要的冗余信息,在識(shí)別框架下采用PCA方法來提取光譜的主成分。因?yàn)闆]有足夠的證據(jù)表明某一段光譜具有很強(qiáng)的區(qū)分度,因此對(duì)整個(gè)光譜段(1000~2499 nm)進(jìn)行主成分提取以得到最具代表性的光譜信息,以主成分的貢獻(xiàn)度排序得到的結(jié)果如圖3所示。
圖3 柑橘NIR光譜數(shù)據(jù)進(jìn)行PCA特征抽取之后的主成分貢獻(xiàn)度
一般來說,建立模型所需要的主成分個(gè)數(shù)往往由前幾個(gè)最有代表性的主成分所占光譜信息的比重來決定。如圖3所示,柱狀圖代表該主成分的貢獻(xiàn)度(即所含信息在整個(gè)數(shù)據(jù)集中的比重),紅色的點(diǎn)代表其前N個(gè)主成分累積貢獻(xiàn)度。從圖3中可以看出,前3個(gè)主成分占據(jù)了很大的比重,例如在圖3(a)中,對(duì)原始的光譜數(shù)據(jù)進(jìn)行PCA降維,前3個(gè)主成分占據(jù)了98.98%的信息量。對(duì)SG平滑后的數(shù)據(jù)提取主成分,前3個(gè)主成分占據(jù)了99.11%的信息量,而對(duì)一階和二階導(dǎo)數(shù)后的平滑數(shù)據(jù),前3個(gè)主成分分別占據(jù)了95.17%和97.16%。
雖然前3個(gè)主成分能有效表示之前的原始數(shù)據(jù)集,但對(duì)于分類器來說,其代表的信息或許并不具有區(qū)分度。例如,對(duì)原始數(shù)據(jù)和采用不同平滑算法的前兩個(gè)主成分的聯(lián)合分布情況,用散點(diǎn)圖來表示,如圖4所示。為了更好地顯示其分布特性,這里只畫出了20個(gè)來自5個(gè)不同地區(qū)的柑橘光譜樣本,包括四川武勝,浙江臨海,重慶巫山、奉節(jié)和北碚。
從圖4可以看出,在原始光譜和SG平滑后的光譜數(shù)據(jù)上進(jìn)行PCA降維后,不同省市之間的PC分布具有一定的區(qū)分度,而位于重慶的3個(gè)不同產(chǎn)地的樣本由于采集區(qū)域較近,柑橘生長環(huán)境較為類似,因此出現(xiàn)了一定程度的重疊。使用SG平滑結(jié)合一階和二階導(dǎo)數(shù)法后,樣本的分布空間被擴(kuò)展,從而加大了樣本間的分散度,但也進(jìn)一步增加了樣本重疊的區(qū)域。無論采用哪種方法,柑橘樣本的前兩個(gè)PC直接進(jìn)行識(shí)別都存在著一定的難度。因此,可以適當(dāng)加入更多的PC特征增加其辨識(shí)度,我們?nèi)∏?0個(gè)PC作為訓(xùn)練特征輸入分類器中。
圖4 5個(gè)地區(qū)的柑橘NIR做PCA特征抽取后,貢獻(xiàn)度第一和第二的主成分分布
通過數(shù)據(jù)平滑和主成分提取后,主要采用了機(jī)器學(xué)習(xí)算法中的常見分類器,包括了決策樹算法(DT)、貝葉斯分類器(NB)、K近鄰分類器(KNN)和線性判別分類器(LDA),對(duì)6個(gè)省市共計(jì)16個(gè)地區(qū)的柑橘樣本進(jìn)行了產(chǎn)地鑒別模型的建立。根據(jù)提出的產(chǎn)地鑒別框架,所有的分類器都進(jìn)行了5×10次交叉驗(yàn)證,并將50次運(yùn)行后的平均識(shí)別率作為輸出結(jié)果,各個(gè)分類器性能如表1所示。
首先,在沒有進(jìn)行特征選擇的情況下,表1統(tǒng)計(jì)了測(cè)試的4個(gè)分類器平均準(zhǔn)確率Pa。
表1 無特征選擇時(shí),測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均準(zhǔn)確率Pa %
注:DT為決策樹,NB為貝葉斯,KNN為最近鄰,LDA為線性判別
從表1可以看出,LDA分類器在各個(gè)數(shù)據(jù)集上的表現(xiàn)最優(yōu),最高達(dá)到了92.6%的平均準(zhǔn)確率,其次是KNN和NB分類器。在數(shù)據(jù)平滑算法方面,相比原始數(shù)據(jù)集,在采用SG平滑的數(shù)據(jù)集上,DT、NB和KNN分類器的性能都得到了明顯提高,而LDA算法變化不大,但SG平滑后結(jié)合導(dǎo)數(shù)的方法反而降低了識(shí)別精度,特別是導(dǎo)數(shù)階數(shù)越多、效果越差,其原因可能是過多的平滑導(dǎo)致了具有區(qū)分度的特征的丟失。
為了進(jìn)一步顯示交叉驗(yàn)證中50次測(cè)試的分類器的性能及其穩(wěn)定性,通過4個(gè)分類器在不同平滑算法下的盒圖[14]發(fā)現(xiàn),使用SG平滑后大部分分類器的預(yù)測(cè)準(zhǔn)確率達(dá)到了最高(除LDA與采用原始數(shù)據(jù)持平),并且最為穩(wěn)定,而采用一階和二階導(dǎo)數(shù)后,由于數(shù)據(jù)被過度平滑,影響了其穩(wěn)定性。
除了準(zhǔn)確率,本文還統(tǒng)計(jì)了其他性能指標(biāo),如敏感度(TPR)、特異性(FPR)和綜合指標(biāo)F1,結(jié)果如表2所示。
表2結(jié)果與表1類似,在各項(xiàng)性能指標(biāo)上,LDA仍然得到了最高的識(shí)別率,DT、KNN和NB分類器在SG平滑的數(shù)據(jù)集上識(shí)別結(jié)果較好。
表2 無特征選擇時(shí),測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均敏感度、特異性和綜合指標(biāo)F1值
注:DT為決策樹,NB為貝葉斯器,KNN為最近鄰,LDA為線性判別
對(duì)PCA降維后的特征進(jìn)行進(jìn)一步的選擇,對(duì)同樣的分類器和數(shù)據(jù)集進(jìn)行了交叉驗(yàn)證,結(jié)果如表3所示。經(jīng)過特征選擇后,LDA模型依舊獲得了最高的識(shí)別準(zhǔn)確度,但相比特征選擇前的提高并不明顯,原因在于LDA在尋求最佳的投影方向時(shí)已經(jīng)考慮具有最大區(qū)分度的特征投影方向,而其他模型相比特征選擇前的性能都有了明顯的提高,KNN和NB都達(dá)到了較高的識(shí)別度(≥90%),特別是在采用二階導(dǎo)數(shù)法平滑的數(shù)據(jù)集上,測(cè)試的4個(gè)分類器都有了較大的提升。提高最多的為DT和KNN模型,平均準(zhǔn)確率分別從69.4%和76.6%提高到了80.4%和88.0%。
表3 進(jìn)行特征選擇后,測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均準(zhǔn)確率Pa
注:右側(cè)數(shù)據(jù)為對(duì)比未進(jìn)行特征選擇的分類器的結(jié)果差異,“+”號(hào)表示較之前有所提升,“-”表示識(shí)別率下降
最后,表4給出了進(jìn)行特征選擇后,基于敏感度(TPR)、特異性(FPR)和綜合指標(biāo)F1的結(jié)果??梢钥闯觯谶M(jìn)行特征選擇后,KNN和NB達(dá)到了與LDA相近的性能,DT模型的識(shí)別效果也有顯著提升,而LDA提升不大,并且各個(gè)數(shù)據(jù)集的性能差異并不明顯。
表4 進(jìn)行特征選擇后,測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均敏感度、特異性和綜合指標(biāo)F1值
注:DT為決策樹,NB為貝葉斯,KNN為最近鄰,LDA為線性判別
本文針對(duì)柑橘光譜產(chǎn)地識(shí)別問題,提出了一個(gè)通用識(shí)別框架并在該框架下對(duì)柑橘樣本進(jìn)行了產(chǎn)地鑒別。首先,采用SG平滑法以及SG平滑結(jié)合一階和二階導(dǎo)數(shù)法對(duì)數(shù)據(jù)進(jìn)行平滑,并采用PCA對(duì)數(shù)據(jù)降維以抽取最有代表性的特征,之后利用特征選擇算法對(duì)抽取后的特征進(jìn)行最有區(qū)分度的選擇,最后采用決策樹、最近鄰、樸素貝葉斯和線性判別分析模型,對(duì)16個(gè)地區(qū)的柑橘數(shù)據(jù)建立產(chǎn)地鑒別模型。實(shí)驗(yàn)結(jié)果表明,SG平滑算法能增強(qiáng)大部分分類器的識(shí)別能力,特征選擇算法也對(duì)柑橘產(chǎn)地的鑒別有積極作用。在測(cè)試的分類器中,LDA的性能最為穩(wěn)定,并獲得了最優(yōu)的產(chǎn)地鑒別準(zhǔn)確率92.8%。
重慶第二師范學(xué)院學(xué)報(bào)2019年4期