武小紅, 蔡培強, 武 斌, 孫 俊, 嵇 港
1. 江蘇大學(xué)電氣信息工程學(xué)院, 江蘇 鎮(zhèn)江 212013
2. 江蘇大學(xué)機械工業(yè)設(shè)施農(nóng)業(yè)測控技術(shù)與裝備重點實驗室, 江蘇 鎮(zhèn)江 212013
3. 江蘇大學(xué)京江學(xué)院, 江蘇 鎮(zhèn)江 212013
4. 滁州職業(yè)技術(shù)學(xué)院信息工程系, 安徽 滁州 239000
基于無監(jiān)督可能模糊學(xué)習(xí)矢量量化的近紅外光譜生菜品種鑒別研究
武小紅1, 2, 蔡培強3, 武 斌4, 孫 俊1, 2, 嵇 港1
1. 江蘇大學(xué)電氣信息工程學(xué)院, 江蘇 鎮(zhèn)江 212013
2. 江蘇大學(xué)機械工業(yè)設(shè)施農(nóng)業(yè)測控技術(shù)與裝備重點實驗室, 江蘇 鎮(zhèn)江 212013
3. 江蘇大學(xué)京江學(xué)院, 江蘇 鎮(zhèn)江 212013
4. 滁州職業(yè)技術(shù)學(xué)院信息工程系, 安徽 滁州 239000
為解決模糊學(xué)習(xí)矢量量化(FLVQ)對噪聲數(shù)據(jù)敏感問題, 在無監(jiān)督可能模糊聚類(UPFC)基礎(chǔ)上提出一種無監(jiān)督可能模糊學(xué)習(xí)矢量量化(UPFLVQ)算法。 UPFLVQ用UPFC的隸屬度和典型值來更新學(xué)習(xí)矢量量化網(wǎng)絡(luò)的學(xué)習(xí)速率, 計算類中心矢量。 UPFLVQ 屬于無監(jiān)督機器學(xué)習(xí)算法, 適用于無學(xué)習(xí)樣本情況下的樣本分類。 研究了UPFLVQ用于近紅外光譜生菜品種鑒別的可行性。 采用FieldSpec@3型便攜式光譜分析儀獲取波長范圍為350~2 500 nm的三種生菜樣本的短波近紅外光譜和長波近紅外光譜, 然后采用主成分分析(PCA)進行近紅外光譜的維數(shù)壓縮, 取前三個主成分, 累計可信度達97.50%, 將2151維的近紅外光譜壓縮為三維數(shù)據(jù)。 再運行模糊C-均值聚類(FCM)至迭代終止, 并以FCM的類中心作為UPFLVQ的初始聚類中心, 最后運行UPFLVQ得到隸屬度和典型值以實現(xiàn)近紅外光譜的生菜品種鑒別。 同時, 運行UPFC進行近紅外光譜的生菜品種鑒別。 實驗結(jié)果表明: UPFLVQ和近紅外光譜技術(shù)相結(jié)合的模型具有檢測速度快, 鑒別準(zhǔn)確率高, 對生菜不造成損壞等優(yōu)點, 可實現(xiàn)不同品種生菜的鑒別。 UPFLVQ是將UPFC和FLVQ相結(jié)合的聚類算法, 利用UPFLVQ建立近紅外光譜的生菜品種鑒別模型時無需學(xué)習(xí)樣本, 適用于線性可分的數(shù)據(jù)聚類, 為快速和無損地鑒別生菜品種提供了一種新的方法。
近紅外光譜; 生菜; 品種鑒別; 無監(jiān)督機器學(xué)習(xí)
生菜是人們經(jīng)常食用的主要蔬菜之一, 它營養(yǎng)價值高, 含有膳食纖維, 蛋白質(zhì), 維生素和萵苣素等營養(yǎng)成分[1]。 不同品種的生菜其外部品質(zhì)和內(nèi)部品質(zhì)都不相同, 如何選擇產(chǎn)量高, 品質(zhì)高的生菜品種是農(nóng)業(yè)科技工作者研究的重要課題, 因此研究一種簡單、 快速、 非破壞的生菜品種鑒別方法是非常必要的。
近紅外光譜是研究紅外光與物質(zhì)分子之間相互作用的吸收光譜, 是鑒定化合物和分析有機物結(jié)構(gòu)的有效工具。 近紅外光譜技術(shù)屬于無損檢測技術(shù), 具有檢測速度快, 檢測效率高, 可在線分析等優(yōu)點, 廣泛應(yīng)用于農(nóng)產(chǎn)品(包括谷物、 飼料、 水果、 蔬菜等)成分的快速檢測[2-5]。 近紅外光譜射向生菜后得到漫反射光譜, 在不同品種的生菜上獲得的漫反射光譜是不同的, 利用這個原理, 可以實現(xiàn)生菜品種的鑒別。 近紅外光譜儀器采集的原始光譜中除了包含與樣品組成有關(guān)的信息外, 也包含了來自背景和檢測過程中產(chǎn)生的噪聲信號[6]。 噪聲信號混雜在近紅外光譜信息中, 消除這些噪聲信號比較困難, 導(dǎo)致不能正確建立樣本的數(shù)據(jù)模型和實現(xiàn)對樣品組成成分或性質(zhì)的預(yù)測。
模糊學(xué)習(xí)矢量量化是建立在模糊C-均值聚類(FCM)和Kohonen聚類網(wǎng)絡(luò)基礎(chǔ)上的聚類方法[7]。 模糊學(xué)習(xí)矢量量化利用模糊C-均值聚類的隸屬度作為學(xué)習(xí)網(wǎng)絡(luò)的學(xué)習(xí)速率。 但是FCM建立在可能性約束條件(即同一個樣本對所有類別的隸屬度之和為1)基礎(chǔ)上, 對噪聲數(shù)據(jù)敏感, 影響聚類結(jié)果[8]。 模糊學(xué)習(xí)矢量量化(FLVQ)建立在FCM基礎(chǔ)上, 其得到的隸屬度值也要滿足可能性約束條件, 所以FLVQ對噪聲數(shù)據(jù)敏感[9]。 噪聲數(shù)據(jù)會影響FLVQ的隸屬度值從而影響聚類準(zhǔn)確率。
目前, 在應(yīng)用近紅外光譜技術(shù)進行農(nóng)產(chǎn)品、 果蔬品種鑒別時所采用的主要鑒別方法有: 偏最小二乘判別分析(PLSDA)[10], 軟獨立模式分類(SIMCA)[11], 人工神經(jīng)網(wǎng)絡(luò)(ANN)[12], 支持向量機(SVM)[13]、 K-近鄰法(KNN)[14]等。 這些鑒別方法屬于有監(jiān)督的模式識別方法, 需要提供訓(xùn)練樣本集供分類器學(xué)習(xí), 學(xué)習(xí)后再對測試集樣本進行分類。 在沒有學(xué)習(xí)樣本, 或者學(xué)習(xí)樣本比較少的情況下運用以上方法難以實現(xiàn)生菜品種的正確鑒別。
為了實現(xiàn)在含噪聲數(shù)據(jù)的近紅外光譜上建立準(zhǔn)確的定性分析模型, 同時解決模糊學(xué)習(xí)矢量量化的噪聲敏感性問題, 本工作在無監(jiān)督可能模糊聚類(UPFC)基礎(chǔ)上提出一種無監(jiān)督可能模糊學(xué)習(xí)矢量量化(UPFLVQ)算法。 UPFC集成了可能聚類算法和FCM, 實現(xiàn)了對含噪聲數(shù)據(jù)的聚類而不會出現(xiàn)一致性聚類問題[15]。 UPFLVQ用UPFC的隸屬度和典型值來更新學(xué)習(xí)矢量量化網(wǎng)絡(luò)的學(xué)習(xí)速率, 計算類中心矢量。 UPFLVQ采用UPFC方法因而它能夠聚類含噪聲數(shù)據(jù)。 實驗結(jié)果表明, 用UPFLVQ建立的近紅外光譜無監(jiān)督學(xué)習(xí)定性模型對生菜品種的鑒別具有良好的預(yù)測效果。
1.1 材料
在生菜成熟期, 采集香港玻璃生菜, 意大利全年耐抽苔生菜和大禹奶油生菜三個品種樣本, 每個品種樣本數(shù)為40個。 將采集的生菜葉片表面清理干凈后, 置于溫度和濕度相對恒定的實驗室12 h以上, 使樣品溫度與實驗室溫度基本相同。
1.2 近紅外光譜采集
采用美國ASD (Analytical Spectral Devices., Inc)公司的FieldSpec@3型便攜式光譜儀, 其光譜測量范圍350~2 500 nm, 在短波近紅外(350~1 000 nm)光譜區(qū)采樣間隔為1.4 nm, 分辨率為3 nm; 在長波近紅外(1 000~2 500 nm)光譜區(qū)采樣間隔為2 nm, 分辨率為10 nm。 用光譜儀測試生菜樣本之前需測試標(biāo)準(zhǔn)反射板和黑背景以減少誤差。 實驗室溫度保持在(15±2)℃, 相對濕度在70%左右, 將生菜葉片放置于黑色絨布上, 每片葉片測量3次, 取平均值作為后續(xù)實驗用的光譜數(shù)據(jù)。 120個生菜樣本的漫反射近紅外光譜圖如圖1所示。
Fig.1 Raw NIR spectra of lettuces
給定一個無標(biāo)記的含有n個樣本的數(shù)據(jù)集X={x1,x2, …,xn}, 無監(jiān)督可能模糊學(xué)習(xí)矢量量化通過以下迭代運算將數(shù)據(jù)集X劃分為c(2≤c 初始化: (1)固定生菜近紅外光譜樣本類別數(shù)c(+∞>c≥2), 初始權(quán)重指數(shù)m0(+∞>m0>1)和p0(+∞>p0>1), 最大迭代數(shù)rmax, 誤差上限值ε, 固定參數(shù)a(+∞>a>0),b(+∞>b>0)和樣本數(shù)n; 迭代計算: 建立基于無監(jiān)督可能模糊學(xué)習(xí)矢量量化的近紅外光譜生菜品種鑒別模型主要包括以下環(huán)節(jié): (1)生菜樣本近紅外光譜的采集; (2)采用主成分分析方法(PCA)對生菜樣本近紅外光譜進行降維處理; (3)運行模糊C-均值聚類以得到初始聚類中心; (4)用無監(jiān)督可能模糊學(xué)習(xí)矢量量化方法進行生菜品種的鑒別。 采集到的每個生菜樣本的近紅外光譜為2 151維的高維數(shù)據(jù), 需要用主成分分析方法(PCA)將高維數(shù)據(jù)降維成低維數(shù)據(jù), 分別選取前L個主成分得到其累計可信度如表1所示(累計可信度=前L個主成分特征值之和除以總的特征值之和)。 本實驗取前三個主成分, 則累計可信度達97.50%(見表1)。 前三個主成分的得分圖如圖2所示, 第一主成分(PC1), 第二主成分(PC2)和第三主成分(PC3)組成圖2的三個坐標(biāo)軸。 在圖2中, “·Iceberg”表示香港玻璃生菜, “°Bolting resistance”表示意大利全年耐抽苔生菜和“* Butter”表示大禹奶油生菜。 從圖2中可看出, 三種生菜數(shù)據(jù)中有一些不同品種生菜數(shù)據(jù)存在重疊現(xiàn)象, 這給品種鑒別帶來一定的難度。 Table 1 The total accumulative contribution rate of Fig.2 Scores plot of PC1, PC2 and PC3 對降維后得到的三維近紅外光譜數(shù)據(jù)運行模糊C-均值聚類(FCM), 得到的聚類中心如下: 該聚類中心作為UPFLVQ和UPFC的初始聚類中心。 然后設(shè)置UPFLVQ和UPFC的參數(shù): 樣本類別數(shù)c=3, 初始權(quán)重指數(shù)m0=2.0和p0=2.0, 最大迭代數(shù)rmax=100, 誤差上限的值ε=0.000 01, 樣本數(shù)n=120, 固定參數(shù)a=1.0,b=2.5。 運行UPFLVQ和UPFC可得到它們的模糊隸屬度和典型值分別如圖3和圖4所示。 圖3(a)和圖4(a)分別為UPFLVQ和的UPFC的模糊隸屬度, 圖3(a)或圖4(a)有3 Fig.3 (a) Fuzzy memberships from UPFLVQ; (b) Typical values from UPFLVQ Fig.4 (a) Fuzzy memberships from UPFC; (b) Typical values from UPFC abUPFCUPFLVQ模糊隸屬度/%典型值/%模糊隸屬度/%典型值/%1 02 585 885 888 388 31 02 085 885 887 587 52 03 587 585 888 388 3 個子圖組成, 最上面的子圖表示1~120個樣本隸屬于香港玻璃生菜的隸屬度值, 中間子圖表示1~120個樣本隸屬于意大利全年耐抽苔生菜的隸屬度值, 最下面的子圖表示1~120個樣本隸屬于大禹奶油生菜的隸屬度值。 若第j個樣本隸屬于第i(i=1, 2, 3)類的隸屬度值為uij, 則根據(jù)maxiuij判斷第j個樣本隸屬于第i類。 圖3(b)和圖4(b)分別為UPFLVQ和的UPFC的典型值, 圖3(b)或圖4(b)由3個子圖組成, 按照從上而下, 3個子圖分別表示表示1~120個樣本隸屬于香港玻璃生菜, 意大利全年耐抽苔生菜和大禹奶油生菜的典型值。 若第j個樣本隸屬于第i(i=1, 2, 3)類的典型值為tij, 則根據(jù)maxitij判斷第j個樣本隸屬于第i類。 UPFLVQ的模糊隸屬度和典型值鑒別準(zhǔn)確率為88.3%, UPFC的模糊隸屬度和典型值鑒別準(zhǔn)確率為85.8%。 改變參數(shù)a和b的值可得到UPFLVQ和UPFC鑒別準(zhǔn)確率如表2所示, 由表2可知UPFLVQ的鑒別準(zhǔn)確率高于UPFC。 提供了一種無監(jiān)督機器學(xué)習(xí)的生菜品種鑒別方法。 該方法利用近紅外漫反射光譜技術(shù)獲取3個品種生菜樣本的近紅外光譜數(shù)據(jù), 采用主成分分析進行光譜數(shù)據(jù)的維數(shù)壓縮。 為了實現(xiàn)對含噪聲數(shù)據(jù)的近紅外光譜數(shù)據(jù)的準(zhǔn)確分類, 本文在無監(jiān)督可能模糊聚類(UPFC)基礎(chǔ)上提出一種無監(jiān)督可能模糊學(xué)習(xí)矢量量化(UPFLVQ)算法。 實驗結(jié)果表明, 與UPFC比較, UPFLVQ算法建立的生菜品種鑒別模型具有更高的鑒別準(zhǔn)確率, 為快速, 無損和準(zhǔn)確地鑒別生菜品種提供了一種新的方法。 [1] SUN Jun, JIN Xia-ming, MAO Han-ping, et al(孫 俊, 金夏明, 毛罕平, 等). Chinese Journal of Analytical Chemistry(分析化學(xué)), 2014, 42(5): 672. [2] Ahmed M R, Daniel E G, William K, et al. Journal of Food Engineering, 2014, 135: 11. [3] Schmutzler M, Huck C W. Vibrational Spectroscopy, 2014, 72: 97. [4] Ferreira D S, Pallone J A L, Poppi R J. Food Control, 2015, 48: 91. [5] Fernández Pierna J A, Vermeulen P, Amand O, et al. Chemometrics and Intelligent Laboratory Systems, 2012, 117: 233. [6] Xu L, Shi P T, Ye Z H, et al. Food Chemistry, 2013, 141: 2434. [7] Tsao E C, Bezdek J C, Pal N R. Pattern Recognition, 1994, 27(5): 757. [8] Krishnapuram R, Keller J. IEEE Transaction on Fuzzy Systems, 1993, 1(2): 98. [9] Wu X, Fu H, Wu B, et al. Journal of Information and Computational Science, 2010, 7(3): 777. [10] Shen F, Wu J, Ying Y B, et al. Food Chemistry, 2013, 141(4): 4026. [11] Pholpho T, Pathaveerat S, Sirisomboon P. Journal of Food Engineering, 2011, 104(1): 169. [12] Milton C S B, Ma I G, Javier S E, et al. Talanta, 2013, 116: 50. [13] Shi J Y, Zou X B, Huang X W, et al. Food Chemistry, 2013, 138: 192. [14] Luo W, Huan S, Fu H, et al. Food Chemistry, 2011, 128(2): 555. [15] Wu X, Wu B, Sun J, et al. Journal of Information and Computational Science, 2010, 7(5): 1075. The Identification of Lettuce Varieties by Using Unsupervised Possibilistic Fuzzy Learning Vector Quantization and Near Infrared Spectroscopy WU Xiao-hong1, 2, CAI Pei-qiang3, WU Bin4, SUN Jun1, 2, JI Gang1 1. School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China 2. Key Laboratory of Facility Agriculture Measurement and Control Technology and Equipment of Machinery Industry, Jiangsu University, Zhenjiang 212013, China 3. Jingjiang College, Jiangsu University, Zhenjiang 212013, China 4. Department of Information Engineering, Chuzhou Vocational Technology College, Chuzhou 239000, China To solve the noisy sensitivity problem of fuzzy learning vector quantization (FLVQ), unsupervised possibilistic fuzzy learning vector quantization (UPFLVQ) was proposed based on unsupervised possibilistic fuzzy clustering (UPFC). UPFLVQ aimed to use fuzzy membership values and typicality values of UPFC to update the learning rate of learning vector quantization network and cluster centers. UPFLVQ is an unsupervised machine learning algorithm and it can be applied to classify without learning samples. UPFLVQ was used in the identification of lettuce varieties by near infrared spectroscopy (NIS). Short wave and long wave near infrared spectra of three types of lettuces were collected by FieldSpec@3 portable spectrometer in the wavelength range of 350~2 500 nm. When the near infrared spectra were compressed by principal component analysis (PCA), the first three principal components explained 97.50% of the total variance in near infrared spectra. After fuzzy c-means (FCM) clustering was performed for its cluster centers as the initial cluster centers of UPFLVQ, UPFLVQ could classify lettuce varieties with the terminal fuzzy membership values and typicality values. The experimental results showed that UPFLVQ together with NIS provided an effective method of identification of lettuce varieties with advantages such as fast testing, high accuracy rate and non-destructive characteristics. UPFLVQ is a clustering algorithm by combining UPFC and FLVQ, and it need not prepare any learning samples for the identification of lettuce varieties by NIS. UPFLVQ is suitable for linear separable data clustering and it provides a novel method for fast and nondestructive identification of lettuce varieties. Near infrared spectroscopy; Lettuce; Identification of varieties; Unsupervised machine learning Oct. 12, 2014; accepted Feb. 10, 2015) 2014-10-12, 2015-02-10 國家自然科學(xué)基金項目(31101082), 江蘇高校優(yōu)勢學(xué)科建設(shè)工程資助項目PAPD(蘇政辦發(fā)2011-6), 江蘇省高等學(xué)校大學(xué)生實踐創(chuàng)新訓(xùn)練計劃項目(201413986008Y)資助 武小紅, 1971年生, 江蘇大學(xué)電氣信息工程學(xué)院副教授 e-mail: wxh_www@163.com O657.3 A 10.3964/j.issn.1000-0593(2016)03-0711-053 結(jié)果與討論
4 結(jié) 論