亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于機(jī)器學(xué)習(xí)的NIR光譜柑橘產(chǎn)地鑒別框架

        2019-07-25 09:06:36但松健

        但松健

        (重慶第二師范學(xué)院 繼續(xù)教育學(xué)院, 重慶 400067)

        近紅外光譜分析技術(shù)作為一種快速、準(zhǔn)確、便捷且非破壞性的分析技術(shù),在農(nóng)產(chǎn)品品質(zhì)檢測(cè)和產(chǎn)地鑒別方面得到了廣泛應(yīng)用,被認(rèn)為是有望替代傳統(tǒng)化學(xué)分析的無損檢測(cè)方法[1-4]。目前,基于近紅外光譜分析的柑橘產(chǎn)地鑒別技術(shù)還較為耗時(shí)費(fèi)力且不夠精確,其完整性、系統(tǒng)性和操作性還與實(shí)際應(yīng)用有很大差距,建立一套能對(duì)柑橘產(chǎn)地進(jìn)行快速鑒別的有效技術(shù)體系,對(duì)于柑橘產(chǎn)業(yè)在我國的健康發(fā)展有著重要的作用[5-6]。

        一、基于機(jī)器學(xué)習(xí)的NIR光譜柑橘產(chǎn)地鑒別框架

        本文通過基于機(jī)器學(xué)習(xí)的光譜分析技術(shù)建立了一種快速無損的柑橘產(chǎn)地鑒別通用框架,具體流程如圖1所示。首先,采用預(yù)處理算法對(duì)光譜進(jìn)行整形降噪,從而降低原始數(shù)據(jù)中的噪聲對(duì)分類器的干擾;其次,采用PCA方法對(duì)降噪后的NIR光譜進(jìn)行特征抽取,從而將高維數(shù)據(jù)降維到適當(dāng)?shù)木S度;然后,利用特征選擇算法對(duì)降維后的光譜數(shù)據(jù)進(jìn)行適當(dāng)?shù)奶卣鬟x擇以利于分類器更快更精確地學(xué)習(xí);最后,選擇不同的分類器,在統(tǒng)一的訓(xùn)練框架和性能評(píng)價(jià)指標(biāo)下,選出最優(yōu)的分類器建立光譜識(shí)別模型[7-12]。

        二、實(shí)驗(yàn)結(jié)果及分析

        在實(shí)驗(yàn)中,選取了常見的樸素貝葉斯、最近鄰分類(KNN)以及決策樹算法作為測(cè)試分類器[13-14],對(duì)采集的6個(gè)省市16個(gè)不同地區(qū)的柑橘進(jìn)行產(chǎn)地鑒別。原始近紅外光譜的范圍為1000~2499 nm,原始特征維度為1500維。每個(gè)地區(qū)約采集100個(gè)柑橘樣本,總的樣本數(shù)量為1558個(gè)。根據(jù)鑒別框架對(duì)原始光譜數(shù)據(jù)進(jìn)行預(yù)處理、特征抽取、特征選擇以及模型交叉驗(yàn)證,以得到最后的性能評(píng)價(jià)。所有的模擬實(shí)驗(yàn)都在Windows 7平臺(tái)使用Matlab 2008b實(shí)現(xiàn),使用了統(tǒng)計(jì)工具箱和數(shù)據(jù)挖掘工具箱。

        (一)原始光譜及預(yù)處理結(jié)果

        考慮到近紅外光譜儀器、實(shí)驗(yàn)環(huán)境和操作誤差帶來的不可避免的噪聲,對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理以去除噪聲干擾是非常必要的。采用SG平滑法對(duì)光譜進(jìn)行整形,SG平滑在121大小的窗口下進(jìn)行,并用到了原始SG平滑及在此基礎(chǔ)上衍生出的一階和二階導(dǎo)數(shù)。這三種去噪方法以及原始光譜的信息如圖2所示。

        由圖2可以看出,經(jīng)過SG平滑,原始光譜圖變得平滑。在進(jìn)行一階導(dǎo)數(shù)運(yùn)算后,光譜范圍從[0,1]壓縮到[-0.002,0.006],光譜信號(hào)進(jìn)一步平滑。從二階導(dǎo)數(shù)的結(jié)果看,平滑效果跟一階導(dǎo)數(shù)接近,但數(shù)據(jù)得到進(jìn)一步壓縮,范圍縮小到[-0.00009,0.00007]。雖然導(dǎo)數(shù)操作可以進(jìn)一步平滑數(shù)據(jù),但也可能會(huì)丟失部分具有區(qū)分度的細(xì)節(jié)。因此,去噪預(yù)處理操作需要進(jìn)行合適的選擇。通過圖2可以看出,16個(gè)地區(qū)柑橘樣本的光譜具有很大的重疊性,如果直接使用這些數(shù)據(jù)(1500維)進(jìn)行識(shí)別具有很大的挑戰(zhàn)性。

        圖1 基于機(jī)器學(xué)習(xí)的NIR光譜產(chǎn)地鑒別框架

        圖2 柑橘原始光譜及去噪后效果

        (二)特征抽取結(jié)果

        從上一小節(jié)的實(shí)驗(yàn)中可以看出,經(jīng)過去噪的數(shù)據(jù)并不適合用分類器進(jìn)行直接訓(xùn)練,需要進(jìn)行適當(dāng)?shù)奶卣鞒槿。员闾崛≈饕畔?,去除不必要的冗余信息,在識(shí)別框架下采用PCA方法來提取光譜的主成分。因?yàn)闆]有足夠的證據(jù)表明某一段光譜具有很強(qiáng)的區(qū)分度,因此對(duì)整個(gè)光譜段(1000~2499 nm)進(jìn)行主成分提取以得到最具代表性的光譜信息,以主成分的貢獻(xiàn)度排序得到的結(jié)果如圖3所示。

        圖3 柑橘NIR光譜數(shù)據(jù)進(jìn)行PCA特征抽取之后的主成分貢獻(xiàn)度

        一般來說,建立模型所需要的主成分個(gè)數(shù)往往由前幾個(gè)最有代表性的主成分所占光譜信息的比重來決定。如圖3所示,柱狀圖代表該主成分的貢獻(xiàn)度(即所含信息在整個(gè)數(shù)據(jù)集中的比重),紅色的點(diǎn)代表其前N個(gè)主成分累積貢獻(xiàn)度。從圖3中可以看出,前3個(gè)主成分占據(jù)了很大的比重,例如在圖3(a)中,對(duì)原始的光譜數(shù)據(jù)進(jìn)行PCA降維,前3個(gè)主成分占據(jù)了98.98%的信息量。對(duì)SG平滑后的數(shù)據(jù)提取主成分,前3個(gè)主成分占據(jù)了99.11%的信息量,而對(duì)一階和二階導(dǎo)數(shù)后的平滑數(shù)據(jù),前3個(gè)主成分分別占據(jù)了95.17%和97.16%。

        雖然前3個(gè)主成分能有效表示之前的原始數(shù)據(jù)集,但對(duì)于分類器來說,其代表的信息或許并不具有區(qū)分度。例如,對(duì)原始數(shù)據(jù)和采用不同平滑算法的前兩個(gè)主成分的聯(lián)合分布情況,用散點(diǎn)圖來表示,如圖4所示。為了更好地顯示其分布特性,這里只畫出了20個(gè)來自5個(gè)不同地區(qū)的柑橘光譜樣本,包括四川武勝,浙江臨海,重慶巫山、奉節(jié)和北碚。

        從圖4可以看出,在原始光譜和SG平滑后的光譜數(shù)據(jù)上進(jìn)行PCA降維后,不同省市之間的PC分布具有一定的區(qū)分度,而位于重慶的3個(gè)不同產(chǎn)地的樣本由于采集區(qū)域較近,柑橘生長環(huán)境較為類似,因此出現(xiàn)了一定程度的重疊。使用SG平滑結(jié)合一階和二階導(dǎo)數(shù)法后,樣本的分布空間被擴(kuò)展,從而加大了樣本間的分散度,但也進(jìn)一步增加了樣本重疊的區(qū)域。無論采用哪種方法,柑橘樣本的前兩個(gè)PC直接進(jìn)行識(shí)別都存在著一定的難度。因此,可以適當(dāng)加入更多的PC特征增加其辨識(shí)度,我們?nèi)∏?0個(gè)PC作為訓(xùn)練特征輸入分類器中。

        圖4 5個(gè)地區(qū)的柑橘NIR做PCA特征抽取后,貢獻(xiàn)度第一和第二的主成分分布

        (三)特征選擇及分類器性能結(jié)果

        通過數(shù)據(jù)平滑和主成分提取后,主要采用了機(jī)器學(xué)習(xí)算法中的常見分類器,包括了決策樹算法(DT)、貝葉斯分類器(NB)、K近鄰分類器(KNN)和線性判別分類器(LDA),對(duì)6個(gè)省市共計(jì)16個(gè)地區(qū)的柑橘樣本進(jìn)行了產(chǎn)地鑒別模型的建立。根據(jù)提出的產(chǎn)地鑒別框架,所有的分類器都進(jìn)行了5×10次交叉驗(yàn)證,并將50次運(yùn)行后的平均識(shí)別率作為輸出結(jié)果,各個(gè)分類器性能如表1所示。

        首先,在沒有進(jìn)行特征選擇的情況下,表1統(tǒng)計(jì)了測(cè)試的4個(gè)分類器平均準(zhǔn)確率Pa。

        表1 無特征選擇時(shí),測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均準(zhǔn)確率Pa %

        注:DT為決策樹,NB為貝葉斯,KNN為最近鄰,LDA為線性判別

        從表1可以看出,LDA分類器在各個(gè)數(shù)據(jù)集上的表現(xiàn)最優(yōu),最高達(dá)到了92.6%的平均準(zhǔn)確率,其次是KNN和NB分類器。在數(shù)據(jù)平滑算法方面,相比原始數(shù)據(jù)集,在采用SG平滑的數(shù)據(jù)集上,DT、NB和KNN分類器的性能都得到了明顯提高,而LDA算法變化不大,但SG平滑后結(jié)合導(dǎo)數(shù)的方法反而降低了識(shí)別精度,特別是導(dǎo)數(shù)階數(shù)越多、效果越差,其原因可能是過多的平滑導(dǎo)致了具有區(qū)分度的特征的丟失。

        為了進(jìn)一步顯示交叉驗(yàn)證中50次測(cè)試的分類器的性能及其穩(wěn)定性,通過4個(gè)分類器在不同平滑算法下的盒圖[14]發(fā)現(xiàn),使用SG平滑后大部分分類器的預(yù)測(cè)準(zhǔn)確率達(dá)到了最高(除LDA與采用原始數(shù)據(jù)持平),并且最為穩(wěn)定,而采用一階和二階導(dǎo)數(shù)后,由于數(shù)據(jù)被過度平滑,影響了其穩(wěn)定性。

        除了準(zhǔn)確率,本文還統(tǒng)計(jì)了其他性能指標(biāo),如敏感度(TPR)、特異性(FPR)和綜合指標(biāo)F1,結(jié)果如表2所示。

        表2結(jié)果與表1類似,在各項(xiàng)性能指標(biāo)上,LDA仍然得到了最高的識(shí)別率,DT、KNN和NB分類器在SG平滑的數(shù)據(jù)集上識(shí)別結(jié)果較好。

        表2 無特征選擇時(shí),測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均敏感度、特異性和綜合指標(biāo)F1值

        注:DT為決策樹,NB為貝葉斯器,KNN為最近鄰,LDA為線性判別

        對(duì)PCA降維后的特征進(jìn)行進(jìn)一步的選擇,對(duì)同樣的分類器和數(shù)據(jù)集進(jìn)行了交叉驗(yàn)證,結(jié)果如表3所示。經(jīng)過特征選擇后,LDA模型依舊獲得了最高的識(shí)別準(zhǔn)確度,但相比特征選擇前的提高并不明顯,原因在于LDA在尋求最佳的投影方向時(shí)已經(jīng)考慮具有最大區(qū)分度的特征投影方向,而其他模型相比特征選擇前的性能都有了明顯的提高,KNN和NB都達(dá)到了較高的識(shí)別度(≥90%),特別是在采用二階導(dǎo)數(shù)法平滑的數(shù)據(jù)集上,測(cè)試的4個(gè)分類器都有了較大的提升。提高最多的為DT和KNN模型,平均準(zhǔn)確率分別從69.4%和76.6%提高到了80.4%和88.0%。

        表3 進(jìn)行特征選擇后,測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均準(zhǔn)確率Pa

        注:右側(cè)數(shù)據(jù)為對(duì)比未進(jìn)行特征選擇的分類器的結(jié)果差異,“+”號(hào)表示較之前有所提升,“-”表示識(shí)別率下降

        最后,表4給出了進(jìn)行特征選擇后,基于敏感度(TPR)、特異性(FPR)和綜合指標(biāo)F1的結(jié)果??梢钥闯觯谶M(jìn)行特征選擇后,KNN和NB達(dá)到了與LDA相近的性能,DT模型的識(shí)別效果也有顯著提升,而LDA提升不大,并且各個(gè)數(shù)據(jù)集的性能差異并不明顯。

        表4 進(jìn)行特征選擇后,測(cè)試的4個(gè)分類器的產(chǎn)地鑒別平均敏感度、特異性和綜合指標(biāo)F1值

        注:DT為決策樹,NB為貝葉斯,KNN為最近鄰,LDA為線性判別

        三、結(jié)語

        本文針對(duì)柑橘光譜產(chǎn)地識(shí)別問題,提出了一個(gè)通用識(shí)別框架并在該框架下對(duì)柑橘樣本進(jìn)行了產(chǎn)地鑒別。首先,采用SG平滑法以及SG平滑結(jié)合一階和二階導(dǎo)數(shù)法對(duì)數(shù)據(jù)進(jìn)行平滑,并采用PCA對(duì)數(shù)據(jù)降維以抽取最有代表性的特征,之后利用特征選擇算法對(duì)抽取后的特征進(jìn)行最有區(qū)分度的選擇,最后采用決策樹、最近鄰、樸素貝葉斯和線性判別分析模型,對(duì)16個(gè)地區(qū)的柑橘數(shù)據(jù)建立產(chǎn)地鑒別模型。實(shí)驗(yàn)結(jié)果表明,SG平滑算法能增強(qiáng)大部分分類器的識(shí)別能力,特征選擇算法也對(duì)柑橘產(chǎn)地的鑒別有積極作用。在測(cè)試的分類器中,LDA的性能最為穩(wěn)定,并獲得了最優(yōu)的產(chǎn)地鑒別準(zhǔn)確率92.8%。

        久久久久免费看成人影片| 亚洲国产人成自精在线尤物| 青青久在线视频免费视频| 水蜜桃视频在线观看免费18| 亚洲永久免费中文字幕| 婷婷伊人久久大香线蕉av| 国产97在线 | 中文| 日韩精品无码一区二区三区视频| 久久久久国产亚洲AV麻豆| 99国语激情对白在线观看 | 国产麻豆精品久久一二三| 久久久亚洲欧洲日产国产成人无码| 一区二区三区国产视频在线观看| 精品一区二区三区蜜桃麻豆| 成人综合网站| 中文字幕天堂网| 亚洲日本一区二区在线观看| 一本一道久久精品综合| 性色做爰片在线观看ww| 欧美视频第一页| 偷拍与自偷拍亚洲精品| 亚洲一区二区三区日韩在线观看| 亚洲欧洲国产成人综合在线| 亚洲中文字幕无码久久2020| 中文亚洲AV片在线观看无码| 91亚洲国产成人久久精品网站 | 人妻少妇人人丰满视频网站| 国产精品久久av色婷婷网站| 久久精品国产自在天天线| 中文乱码人妻系列一区二区| 白白青青视频在线免费观看| 白浆高潮国产免费一区二区三区| 亚洲色一区二区三区四区| 秋霞午夜无码鲁丝片午夜精品| 99久久精品一区二区三区蜜臀 | 少妇被日到高潮的视频| 亚洲男人天堂一区二区| 艳妇臀荡乳欲伦交换在线播放| 日本一区二区三区激情视频| 美女视频黄a视频全免费网站色| 妺妺窝人体色www看美女|