亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于機(jī)器學(xué)習(xí)的NIR光譜柑橘產(chǎn)地鑒別框架

2019-07-25 09:06:36但松健

重慶第二師范學(xué)院學(xué)報(bào) 2019年4期

但松健

(重慶第二師范學(xué)院繼續(xù)教育學(xué)院，重慶 400067)

近紅外光譜分析技術(shù)作為一種快速、準(zhǔn)確、便捷且非破壞性的分析技術(shù)，在農(nóng)產(chǎn)品品質(zhì)檢測(cè)和產(chǎn)地鑒別方面得到了廣泛應(yīng)用，被認(rèn)為是有望替代傳統(tǒng)化學(xué)分析的無損檢測(cè)方法[1-4]。目前，基于近紅外光譜分析的柑橘產(chǎn)地鑒別技術(shù)還較為耗時(shí)費(fèi)力且不夠精確，其完整性、系統(tǒng)性和操作性還與實(shí)際應(yīng)用有很大差距，建立一套能對(duì)柑橘產(chǎn)地進(jìn)行快速鑒別的有效技術(shù)體系，對(duì)于柑橘產(chǎn)業(yè)在我國的健康發(fā)展有著重要的作用[5-6]。

一、基于機(jī)器學(xué)習(xí)的NIR光譜柑橘產(chǎn)地鑒別框架

本文通過基于機(jī)器學(xué)習(xí)的光譜分析技術(shù)建立了一種快速無損的柑橘產(chǎn)地鑒別通用框架，具體流程如圖1所示。首先，采用預(yù)處理算法對(duì)光譜進(jìn)行整形降噪，從而降低原始數(shù)據(jù)中的噪聲對(duì)分類器的干擾；其次，采用PCA方法對(duì)降噪后的NIR光譜進(jìn)行特征抽取，從而將高維數(shù)據(jù)降維到適當(dāng)?shù)木S度；然后，利用特征選擇算法對(duì)降維后的光譜數(shù)據(jù)進(jìn)行適當(dāng)?shù)奶卣鬟x擇以利于分類器更快更精確地學(xué)習(xí)；最后，選擇不同的分類器，在統(tǒng)一的訓(xùn)練框架和性能評(píng)價(jià)指標(biāo)下，選出最優(yōu)的分類器建立光譜識(shí)別模型[7-12]。

二、實(shí)驗(yàn)結(jié)果及分析

在實(shí)驗(yàn)中，選取了常見的樸素貝葉斯、最近鄰分類(KNN)以及決策樹算法作為測(cè)試分類器[13-14]，對(duì)采集的6個(gè)省市16個(gè)不同地區(qū)的柑橘進(jìn)行產(chǎn)地鑒別。原始近紅外光譜的范圍為1000～2499 nm，原始特征維度為1500維。每個(gè)地區(qū)約采集100個(gè)柑橘樣本，總的樣本數(shù)量為1558個(gè)。根據(jù)鑒別框架對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理、特征抽取、特征選擇以及模型交叉驗(yàn)證，以得到最后的性能評(píng)價(jià)。所有的模擬實(shí)驗(yàn)都在Windows 7平臺(tái)使用Matlab 2008b實(shí)現(xiàn)，使用了統(tǒng)計(jì)工具箱和數(shù)據(jù)挖掘工具箱。

(一)原始光譜及預(yù)處理結(jié)果

考慮到近紅外光譜儀器、實(shí)驗(yàn)環(huán)境和操作誤差帶來的不可避免的噪聲，對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理以去除噪聲干擾是非常必要的。采用SG平滑法對(duì)光譜進(jìn)行整形，SG平滑在121大小的窗口下進(jìn)行，并用到了原始SG平滑及在此基礎(chǔ)上衍生出的一階和二階導(dǎo)數(shù)。這三種去噪方法以及原始光譜的信息如圖2所示。

由圖2可以看出，經(jīng)過SG平滑，原始光譜圖變得平滑。在進(jìn)行一階導(dǎo)數(shù)運(yùn)算后，光譜范圍從[0,1]壓縮到[-0.002,0.006]，光譜信號(hào)進(jìn)一步平滑。從二階導(dǎo)數(shù)的結(jié)果看，平滑效果跟一階導(dǎo)數(shù)接近，但數(shù)據(jù)得到進(jìn)一步壓縮，范圍縮小到[-0.00009，0.00007]。雖然導(dǎo)數(shù)操作可以進(jìn)一步平滑數(shù)據(jù)，但也可能會(huì)丟失部分具有區(qū)分度的細(xì)節(jié)。因此，去噪預(yù)處理操作需要進(jìn)行合適的選擇。通過圖2可以看出，16個(gè)地區(qū)柑橘樣本的光譜具有很大的重疊性，如果直接使用這些數(shù)據(jù)(1500維)進(jìn)行識(shí)別具有很大的挑戰(zhàn)性。

圖1 基于機(jī)器學(xué)習(xí)的NIR光譜產(chǎn)地鑒別框架

圖2 柑橘原始光譜及去噪后效果

(二)特征抽取結(jié)果

從上一小節(jié)的實(shí)驗(yàn)中可以看出，經(jīng)過去噪的數(shù)據(jù)并不適合用分類器進(jìn)行直接訓(xùn)練，需要進(jìn)行適當(dāng)?shù)奶卣鞒槿。员闾崛≈饕畔?，去除不必要的冗余信息，在識(shí)別框架下采用PCA方法來提取光譜的主成分。因?yàn)闆]有足夠的證據(jù)表明某一段光譜具有很強(qiáng)的區(qū)分度，因此對(duì)整個(gè)光譜段(1000～2499 nm)進(jìn)行主成分提取以得到最具代表性的光譜信息，以主成分的貢獻(xiàn)度排序得到的結(jié)果如圖3所示。

圖3 柑橘NIR光譜數(shù)據(jù)進(jìn)行PCA特征抽取之后的主成分貢獻(xiàn)度

一般來說，建立模型所需要的主成分個(gè)數(shù)往往由前幾個(gè)最有代表性的主成分所占光譜信息的比重來決定。如圖3所示，柱狀圖代表該主成分的貢獻(xiàn)度(即所含信息在整個(gè)數(shù)據(jù)集中的比重)，紅色的點(diǎn)代表其前N個(gè)主成分累積貢獻(xiàn)度。從圖3中可以看出，前3個(gè)主成分占據(jù)了很大的比重，例如在圖3(a)中，對(duì)原始的光譜數(shù)據(jù)進(jìn)行PCA降維，前3個(gè)主成分占據(jù)了98.98%的信息量。對(duì)SG平滑后的數(shù)據(jù)提取主成分，前3個(gè)主成分占據(jù)了99.11%的信息量，而對(duì)一階和二階導(dǎo)數(shù)后的平滑數(shù)據(jù)，前3個(gè)主成分分別占據(jù)了95.17%和97.16%。

雖然前3個(gè)主成分能有效表示之前的原始數(shù)據(jù)集，但對(duì)于分類器來說，其代表的信息或許并不具有區(qū)分度。例如，對(duì)原始數(shù)據(jù)和采用不同平滑算法的前兩個(gè)主成分的聯(lián)合分布情況，用散點(diǎn)圖來表示，如圖4所示。為了更好地顯示其分布特性，這里只畫出了20個(gè)來自5個(gè)不同地區(qū)的柑橘光譜樣本，包括四川武勝，浙江臨海，重慶巫山、奉節(jié)和北碚。

從圖4可以看出，在原始光譜和SG平滑后的光譜數(shù)據(jù)上進(jìn)行PCA降維后，不同省市之間的PC分布具有一定的區(qū)分度，而位于重慶的3個(gè)不同產(chǎn)地的樣本由于采集區(qū)域較近，柑橘生長環(huán)境較為類似，因此出現(xiàn)了一定程度的重疊。使用SG平滑結(jié)合一階和二階導(dǎo)數(shù)法后，樣本的分布空間被擴(kuò)展，從而加大了樣本間的分散度，但也進(jìn)一步增加了樣本重疊的區(qū)域。無論采用哪種方法，柑橘樣本的前兩個(gè)PC直接進(jìn)行識(shí)別都存在著一定的難度。因此，可以適當(dāng)加入更多的PC特征增加其辨識(shí)度，我們?nèi)∏?0個(gè)PC作為訓(xùn)練特征輸入分類器中。

圖4 5個(gè)地區(qū)的柑橘NIR做PCA特征抽取后，貢獻(xiàn)度第一和第二的主成分分布

(三)特征選擇及分類器性能結(jié)果

通過數(shù)據(jù)平滑和主成分提取后，主要采用了機(jī)器學(xué)習(xí)算法中的常見分類器，包括了決策樹算法(DT)、貝葉斯分類器(NB)、K近鄰分類器(KNN)和線性判別分類器(LDA)，對(duì)6個(gè)省市共計(jì)16個(gè)地區(qū)的柑橘樣本進(jìn)行了產(chǎn)地鑒別模型的建立。根據(jù)提出的產(chǎn)地鑒別框架，所有的分類器都進(jìn)行了5×10次交叉驗(yàn)證，并將50次運(yùn)行后的平均識(shí)別率作為輸出結(jié)果，各個(gè)分類器性能如表1所示。

首先，在沒有進(jìn)行特征選擇的情況下，表1統(tǒng)計(jì)了測(cè)試的4個(gè)分類器平均準(zhǔn)確率Pa。

表1 無特征選擇時(shí)，測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均準(zhǔn)確率Pa %

注：DT為決策樹，NB為貝葉斯，KNN為最近鄰，LDA為線性判別

從表1可以看出，LDA分類器在各個(gè)數(shù)據(jù)集上的表現(xiàn)最優(yōu)，最高達(dá)到了92.6%的平均準(zhǔn)確率，其次是KNN和NB分類器。在數(shù)據(jù)平滑算法方面，相比原始數(shù)據(jù)集，在采用SG平滑的數(shù)據(jù)集上，DT、NB和KNN分類器的性能都得到了明顯提高，而LDA算法變化不大，但SG平滑后結(jié)合導(dǎo)數(shù)的方法反而降低了識(shí)別精度，特別是導(dǎo)數(shù)階數(shù)越多、效果越差，其原因可能是過多的平滑導(dǎo)致了具有區(qū)分度的特征的丟失。

為了進(jìn)一步顯示交叉驗(yàn)證中50次測(cè)試的分類器的性能及其穩(wěn)定性，通過4個(gè)分類器在不同平滑算法下的盒圖[14]發(fā)現(xiàn)，使用SG平滑后大部分分類器的預(yù)測(cè)準(zhǔn)確率達(dá)到了最高(除LDA與采用原始數(shù)據(jù)持平)，并且最為穩(wěn)定，而采用一階和二階導(dǎo)數(shù)后，由于數(shù)據(jù)被過度平滑，影響了其穩(wěn)定性。

除了準(zhǔn)確率，本文還統(tǒng)計(jì)了其他性能指標(biāo)，如敏感度(TPR)、特異性(FPR)和綜合指標(biāo)F1，結(jié)果如表2所示。

表2結(jié)果與表1類似，在各項(xiàng)性能指標(biāo)上，LDA仍然得到了最高的識(shí)別率，DT、KNN和NB分類器在SG平滑的數(shù)據(jù)集上識(shí)別結(jié)果較好。

表2 無特征選擇時(shí)，測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均敏感度、特異性和綜合指標(biāo)F1值

注：DT為決策樹，NB為貝葉斯器，KNN為最近鄰，LDA為線性判別

對(duì)PCA降維后的特征進(jìn)行進(jìn)一步的選擇，對(duì)同樣的分類器和數(shù)據(jù)集進(jìn)行了交叉驗(yàn)證，結(jié)果如表3所示。經(jīng)過特征選擇后，LDA模型依舊獲得了最高的識(shí)別準(zhǔn)確度，但相比特征選擇前的提高并不明顯，原因在于LDA在尋求最佳的投影方向時(shí)已經(jīng)考慮具有最大區(qū)分度的特征投影方向，而其他模型相比特征選擇前的性能都有了明顯的提高，KNN和NB都達(dá)到了較高的識(shí)別度(≥90%)，特別是在采用二階導(dǎo)數(shù)法平滑的數(shù)據(jù)集上，測(cè)試的4個(gè)分類器都有了較大的提升。提高最多的為DT和KNN模型，平均準(zhǔn)確率分別從69.4%和76.6%提高到了80.4%和88.0%。

表3 進(jìn)行特征選擇后，測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均準(zhǔn)確率Pa

注：右側(cè)數(shù)據(jù)為對(duì)比未進(jìn)行特征選擇的分類器的結(jié)果差異，“+”號(hào)表示較之前有所提升，“-”表示識(shí)別率下降

最后，表4給出了進(jìn)行特征選擇后，基于敏感度(TPR)、特異性(FPR)和綜合指標(biāo)F1的結(jié)果?？梢钥闯觯谶M(jìn)行特征選擇后，KNN和NB達(dá)到了與LDA相近的性能，DT模型的識(shí)別效果也有顯著提升，而LDA提升不大，并且各個(gè)數(shù)據(jù)集的性能差異并不明顯。

表4 進(jìn)行特征選擇后，測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均敏感度、特異性和綜合指標(biāo)F1值

注：DT為決策樹，NB為貝葉斯，KNN為最近鄰，LDA為線性判別

三、結(jié)語

本文針對(duì)柑橘光譜產(chǎn)地識(shí)別問題，提出了一個(gè)通用識(shí)別框架并在該框架下對(duì)柑橘樣本進(jìn)行了產(chǎn)地鑒別。首先，采用SG平滑法以及SG平滑結(jié)合一階和二階導(dǎo)數(shù)法對(duì)數(shù)據(jù)進(jìn)行平滑，并采用PCA對(duì)數(shù)據(jù)降維以抽取最有代表性的特征，之后利用特征選擇算法對(duì)抽取后的特征進(jìn)行最有區(qū)分度的選擇，最后采用決策樹、最近鄰、樸素貝葉斯和線性判別分析模型，對(duì)16個(gè)地區(qū)的柑橘數(shù)據(jù)建立產(chǎn)地鑒別模型。實(shí)驗(yàn)結(jié)果表明，SG平滑算法能增強(qiáng)大部分分類器的識(shí)別能力，特征選擇算法也對(duì)柑橘產(chǎn)地的鑒別有積極作用。在測(cè)試的分類器中，LDA的性能最為穩(wěn)定，并獲得了最優(yōu)的產(chǎn)地鑒別準(zhǔn)確率92.8%。

重慶第二師范學(xué)院學(xué)報(bào)2019年4期

重慶第二師范學(xué)院學(xué)報(bào)的其它文章: 促學(xué)評(píng)價(jià)體系下單元學(xué)習(xí)目標(biāo)的建立模式探究
——以高校英語專業(yè)綜合英語課程為例; 新時(shí)代“講好中國故事”背景下中國文化英語表達(dá)教學(xué)現(xiàn)狀調(diào)查及啟示; 基于中外合作辦學(xué)項(xiàng)目的外籍教師教學(xué)效能感研究; 不同目標(biāo)傾向?qū)Υ髮W(xué)生擇業(yè)效能感的影響：領(lǐng)悟社會(huì)支持的中介作用; 基于問卷調(diào)查的具體事物漢語命名方式研究; 重慶中國三峽博物館公示語英譯的問題