楊承恩, 蘇 玲, 馮偉志, 周建宇, 武海巍*, 袁月明, 王 琦*
1. 吉林農(nóng)業(yè)大學(xué)工程技術(shù)學(xué)院, 吉林 長(zhǎng)春 130118 2. 吉林農(nóng)業(yè)大學(xué)食藥用菌教育部工程研究中心, 吉林 長(zhǎng)春 130118
平菇(Pleurotus ostreatus)也稱糙皮側(cè)耳, 中國(guó)臺(tái)灣又稱秀珍菇, 分類學(xué)上將其劃分為擔(dān)子菌門、 傘菌目、 側(cè)耳科、 側(cè)耳屬[1]。 因其價(jià)格便宜, 味道鮮美非常受大眾喜愛。 近年來, 我國(guó)平菇產(chǎn)業(yè)發(fā)展迅猛, 目前是我國(guó)產(chǎn)量前三位的食用菌大宗品種, 在全國(guó)大部分省、 市、 地區(qū)均有栽培。 實(shí)際生產(chǎn)中全國(guó)各地的平菇因?yàn)槌杀締栴}, 往往采用當(dāng)?shù)剞r(nóng)作物廢料作為培養(yǎng)平菇的基質(zhì), 不同的基質(zhì)和當(dāng)?shù)鬲?dú)有的農(nóng)業(yè)特點(diǎn)往往導(dǎo)致不同地區(qū)平菇營(yíng)養(yǎng)價(jià)值各具特色[2-3]。 龍瑞等經(jīng)過對(duì)不同地區(qū)平菇分析得出不同主栽地區(qū)平菇各有自己的營(yíng)養(yǎng)價(jià)值優(yōu)勢(shì)[4]。 不同地區(qū)氣候、 栽培方式差異也影響著平菇的口感、 營(yíng)養(yǎng)成分含量。 消費(fèi)者很難從外觀進(jìn)行其產(chǎn)地的判別, 為有序進(jìn)行平菇產(chǎn)品的規(guī)范管理, 打造區(qū)域特色平菇品牌, 開發(fā)可實(shí)現(xiàn)簡(jiǎn)單、 快速、 低成本的平菇產(chǎn)地鑒別方法迫在眉睫。
傅里葉變換紅外光譜(Fourier translation infrared spectroscopy, FTIR)技術(shù)具有綠色、 高效、 低成本的特點(diǎn)和優(yōu)勢(shì)[5-6], 在檢測(cè)和識(shí)別農(nóng)作物種類、 地區(qū)方面已有許多研究報(bào)道。 陳林杰等[7]通過中紅外光譜指紋區(qū)對(duì)不同產(chǎn)地桑黃進(jìn)行分析; 李超等[8]通過紅外光譜的圖譜解析對(duì)不同產(chǎn)地蒼術(shù)進(jìn)行快速判別; 安淑靜等[9]基于中紅外光譜結(jié)合化學(xué)計(jì)量學(xué)對(duì)7種產(chǎn)地山茱萸鑒定與分析等等。 目前, 尚未見傅里葉中紅外光譜鑒別平菇產(chǎn)地的研究報(bào)道, 本研究基于傅里葉中紅外光譜技術(shù)的特點(diǎn)與機(jī)器學(xué)習(xí)建模, 開發(fā)一種簡(jiǎn)單、 快速、 低成本的平菇產(chǎn)地判別方法, 以解決平菇由“量產(chǎn)”升級(jí)轉(zhuǎn)型向“優(yōu)產(chǎn)”的產(chǎn)業(yè)需求。
選取由國(guó)家食用菌產(chǎn)業(yè)技術(shù)體系各綜合試驗(yàn)站, 提供并鑒定的平菇樣品, 共600份。 樣品分布情況見表1。
表1 平菇樣品采集信息Table 1 Antler cap sample collection information
主要設(shè)備: 美國(guó)Nicolet iS10傅里葉變換紅外光譜儀, 便攜式HY-12型壓片機(jī)(天津天光光學(xué)儀器有限公司), 超帥高速多功能粉碎機(jī)型號(hào)CS-700(武義海納電器有限公司), 200目不銹鋼篩(江蘇國(guó)業(yè)機(jī)械設(shè)備有限公司)等。
數(shù)據(jù)采用Omnic v8.2光譜采集軟件、 The Unscrambler X 10.4、 Matlab2014b、 Origin2019b等數(shù)據(jù)處理軟件進(jìn)行處理。
首先用蒸餾水洗凈平菇樣品上的雜質(zhì), 置于干燥箱9~10 h脫水至恒重, 使用多功能粉碎機(jī)粉碎, 過200目篩, 同時(shí)將溴化鉀放入75 ℃恒溫干燥箱內(nèi)烘6小時(shí)左右。
將每個(gè)樣本以平菇1.8 mg和溴化鉀190 mg放入瑪瑙研缽中研磨, 再經(jīng)紅外壓片模具壓片測(cè)定, 采用Omnic v8.2軟件采集中紅外光譜數(shù)據(jù)。 波數(shù)范圍400~4 000 cm-1, 分辨率為4 cm-1, 掃描次數(shù)為16, 每個(gè)樣本重復(fù)掃描3次, 取平均光譜。 實(shí)驗(yàn)數(shù)據(jù)采集過程中, 保持室內(nèi)溫度為25 ℃, 相對(duì)濕度為38%RH。 實(shí)驗(yàn)采集10個(gè)不同地區(qū)平菇各60份樣品, 共600份樣品。
1.4.1 光譜預(yù)處理
在采集光譜信息時(shí), 會(huì)因?yàn)闃悠繁旧怼?光散射與基線漂移等因素產(chǎn)生隨機(jī)的偏差。 光譜預(yù)處理技術(shù)不僅對(duì)原始光譜的噪聲進(jìn)行優(yōu)化處理, 且可以提高對(duì)光譜數(shù)據(jù)處理的效率。 在與原始光譜對(duì)比的基礎(chǔ)上, 采用The Unscrambler X 10.4軟件對(duì)采集的原始光譜進(jìn)行多元散射校正(multiplicative scatter correction, MSC), 標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variable transformation, SNV), 平滑(smoothing, SG), 一階導(dǎo)數(shù)(first derivative, FD), 二階導(dǎo)數(shù)(second derivative, SD)等數(shù)據(jù)處理。
1.4.2 K-S檢驗(yàn)樣品劃分
K-S檢驗(yàn)(kolmogorov-stone, K-S)是一種能夠選出充分符合樣本分布規(guī)律且具有代表性數(shù)據(jù)的樣本劃分方法[10]。 按照訓(xùn)練集和測(cè)試集樣品數(shù)為7∶3的比例, 用K-S法劃分600份樣品, 得訓(xùn)練集420份(不同地區(qū)平菇各42份), 測(cè)試集180份(不同地區(qū)平菇各18份)。
1.4.3 主成分分析
主成分分析(principal component analysis, PCA)是一種常見的無監(jiān)督降維方法[11]。 針對(duì)中紅外光譜數(shù)據(jù)量大, 冗余信息多的特點(diǎn), 使用PCA降維分析可以減少無效數(shù)據(jù)的堆積并盡可能提取主要特征信息。
1.4.4 支持向量機(jī)
支持向量機(jī)(support vector machine, SVM)是一種非常有效的分類與預(yù)測(cè)算法[12]。 通過核函數(shù)將低維度中不可分的數(shù)據(jù)映射到一個(gè)高維度的n維歐式空間中, 就此尋找一個(gè)超平面求解分類問題。
1.4.5 隨機(jī)森林
隨機(jī)森林(random forest, RF)是一種具有集成思想的分類與預(yù)測(cè)算法[13]。 它將每一個(gè)單獨(dú)的決策樹匯集成決策森林, 從而產(chǎn)生“好而不同”的個(gè)體學(xué)習(xí)器, 并在保持準(zhǔn)確性和多樣性方面做出最優(yōu)的分類與預(yù)測(cè)選擇。
1.4.6 極限學(xué)習(xí)機(jī)
極限學(xué)習(xí)機(jī)(extreme learning machine, ELM)是一種基于經(jīng)典神經(jīng)網(wǎng)絡(luò)改進(jìn)后的快速學(xué)習(xí)算法[14]。 在訓(xùn)練階段采用隨機(jī)的輸入層權(quán)值和偏差, 能夠以極快的速度進(jìn)行較好泛化, 具有選擇參數(shù)少、 學(xué)習(xí)效果好、 適用性強(qiáng)的特點(diǎn)。
圖1 不同產(chǎn)區(qū)的平菇平均光譜圖Fig.1 Average spectra of pleurotus ostreatus in different producing areas
經(jīng)多種預(yù)處理后的光譜結(jié)合支持向量機(jī)進(jìn)行建模對(duì)比如表2, 可知MSC預(yù)處理后的光譜數(shù)據(jù)建模識(shí)別效果最佳, 訓(xùn)練集識(shí)別率為86.67%, 測(cè)試集識(shí)別率為84.44%。
表2 光譜預(yù)處理方法對(duì)比Table 2 Comparison of spectral pretreatment methods
將MSC平菇光譜數(shù)據(jù)進(jìn)行歸一化處理, 設(shè)置數(shù)據(jù)映射范圍為0~1(見圖2)。 在python3.7平臺(tái)上, 采用pandas庫中的PCA函數(shù)對(duì)歸一化后的訓(xùn)練集MSC平菇光譜數(shù)據(jù)進(jìn)行主成分分析。 此處僅展示MSC全段光譜的前10個(gè)主成分方差百分比和累積貢獻(xiàn)率如表3所示。 可知PCA1的方差百分比最大為53.9%, PCA2的方差百分比為13.85%, 前3個(gè)PCA的累積貢獻(xiàn)率為79.09%, 直到前7個(gè)PCA的累積貢獻(xiàn)率為97.51%, 之后的各PCA方差百分比都小于1%且累積貢獻(xiàn)率提高速度逐步變小。
表3 前10個(gè)主成分的方差百分比和累積貢獻(xiàn)率Table 3 Variance percentage and cumulative contribution rate of the top 10 principal components
圖2 歸一化后的不同產(chǎn)地平菇數(shù)據(jù)Fig.2 Normalized data of pleurotus ostreatus from different habitats
在PCA降維過程中, 選擇主成分的個(gè)數(shù)會(huì)直接影響機(jī)器學(xué)習(xí)建模后的分析結(jié)果。 采用主成分個(gè)數(shù)累積貢獻(xiàn)率≥85%原則結(jié)合主成分方差百分比≥1%原則[15], 選擇經(jīng)PCA降維后的前7個(gè)主成分。
將經(jīng)PCA降維后的前7個(gè)主成分光譜數(shù)據(jù)作為輸入變量, 建立SVM, RF和ELM不同產(chǎn)地平菇識(shí)別模型。
2.3.1 SVM模型
支持向量機(jī)需要確定最佳懲罰因子(c)、 核函數(shù)參數(shù)(g), 及最優(yōu)核函數(shù)。 此處采用粒子群優(yōu)化算法(particle swarm optimization, PSO), 將變量C1初始值設(shè)為1.5來增加PSO參數(shù)局部搜索能力, C2初始值設(shè)為1.7增加PSO參數(shù)全局搜索能力, 最大進(jìn)化數(shù)量初始值為200, 種類最大數(shù)量初始值為20, 種族更新彈性系數(shù)為1, 以此來尋找最佳c和g, 使用徑向基核函數(shù)(radial basis function, RBF)作為最優(yōu)核函數(shù)。
基于MSC-PCA平菇光譜數(shù)據(jù)建立SVM識(shí)別模型見圖3(a,b), 可知SVM模型在訓(xùn)練集和測(cè)試集的識(shí)別率均為100%。 由此可得SVM對(duì)不同產(chǎn)地的平菇分類識(shí)別有著極好的效果。
圖3(a) 粒子群優(yōu)化參數(shù)尋優(yōu)適應(yīng)度曲線Fig.3(a) Particle swarm optimization parameter optimization fitness curve
圖3(b) SVM的測(cè)試集識(shí)別結(jié)果Fig.3(b) Test set recognition results of SVM
2.3.2 RF模型
在RF模型中, 初始分類器的個(gè)數(shù)影響著最終建模分類的好壞, 本研究采用遺傳算法尋找最優(yōu)參數(shù), 將遺傳算法中待優(yōu)化的變量個(gè)數(shù)設(shè)置為2, 個(gè)體數(shù)目設(shè)置為20, 最大遺傳代數(shù)設(shè)置為200, 變量的二進(jìn)制位數(shù)設(shè)置為10。 建立RF模型, 當(dāng)決策樹數(shù)量為540時(shí)模型識(shí)別效果最佳, 建模識(shí)別結(jié)果如圖4(a,b)。
圖4(a) RF的訓(xùn)練集識(shí)別結(jié)果Fig.4(a) Training set recognition results of RF
圖4(b) RF的測(cè)試集識(shí)別結(jié)果Fig.4(b) Test set recognition results of RF
由圖4(a,b)可知, RF模型對(duì)不同產(chǎn)地的平菇識(shí)別效果較好, 訓(xùn)練集識(shí)別率為100%, 測(cè)試集識(shí)別率為98.89%, 僅有1份武漢地區(qū)平菇樣品和1份云南地區(qū)平菇樣品識(shí)別錯(cuò)誤。
2.3.3 ELM模型
在ELM模型中, 隨機(jī)輸入的隱藏權(quán)值和隱藏偏差閾值會(huì)極大地影響ELM模型的識(shí)別準(zhǔn)確率, 同時(shí)過多的隱層神經(jīng)元個(gè)數(shù)又會(huì)增加模型識(shí)別的耗時(shí)時(shí)間。 選擇sigmoidal函數(shù)作為激活函數(shù), 設(shè)置隱層神經(jīng)元個(gè)數(shù)為1~5 000, 步長(zhǎng)為1進(jìn)行對(duì)比尋找最優(yōu)參數(shù), 見圖5(a, b)。
圖5(a) ELM的訓(xùn)練集識(shí)別結(jié)果Fig.5(a) Training set recognition results of ELM
圖5(b) ELM的測(cè)試集識(shí)別結(jié)果Fig.5(b) Test set recognition results of ELM
經(jīng)計(jì)算對(duì)比, 當(dāng)最優(yōu)隱層神經(jīng)元個(gè)數(shù)為1 252, ELM模型尋優(yōu)速度快, 識(shí)別效果最好。 由圖5(a, b)可知, 訓(xùn)練集識(shí)別率為99.28%, 有1份濟(jì)南地區(qū)平菇樣品和1份新疆地區(qū)平菇樣品, 1份西藏地區(qū)平菇樣品識(shí)別錯(cuò)誤; 測(cè)試集識(shí)別率為98.33%, 有2份武漢地區(qū)平菇樣品和1份云南地區(qū)平菇樣品識(shí)別錯(cuò)誤。 ELM模型識(shí)別率尚可。
基于中紅外光譜結(jié)合機(jī)器學(xué)習(xí), 提出一種對(duì)不同產(chǎn)地平菇快速鑒別的方法。
(1)受產(chǎn)地差異的影響, 來源于不同產(chǎn)地平菇在中紅外光譜的530~1 660 cm-1波段內(nèi)的相關(guān)性表現(xiàn)出明顯差異。
(2)MSC-PCA平菇光譜數(shù)據(jù)結(jié)合SVM, RF, ELM都有不錯(cuò)的識(shí)別效果, 其中SVM模型訓(xùn)練集、 測(cè)試集識(shí)別率均為100%; RF模型訓(xùn)練集識(shí)別率為100%, 但測(cè)試集識(shí)別率稍低為98.89%; ELM模型相比其他模型識(shí)別率較差, 訓(xùn)練集識(shí)別率為99.28%, 測(cè)試集識(shí)別率為98.33%。 3種模型的識(shí)別率均高于98%, 說明采用紅外光譜技術(shù)結(jié)合機(jī)器學(xué)習(xí)可以有效識(shí)別不同產(chǎn)地的平菇。
(3)中紅外光譜結(jié)合機(jī)器學(xué)習(xí), 特別是SVM模型能夠更準(zhǔn)確地鑒別不同產(chǎn)地平菇, 此方法的開發(fā)也可為其他種類的食用菌產(chǎn)品來源鑒別提供參考。