黃 亮, 魏 萱,2,3, 陳子涵, 溫志強
(1.福建農(nóng)林大學機電工程學院,福建 福州 350002;2.福建農(nóng)林大學食品學院,福建 福州 350002;3.福建省農(nóng)業(yè)信息感知技術(shù)重點實驗室,福建 福州 350002;4.福建水利電力職業(yè)技術(shù)學院,福建 永安 366000;5.福建農(nóng)林大學生命科學學院,福建 福州 350002)
雙孢蘑菇(Agaricusbisporus)又名白蘑菇、洋蘑菇,是傘菌目(Agaricales)蘑菇屬(Agaricus)食用菌.雙孢蘑菇含有豐富的氨基酸、核苷酸、超氧化物歧化酶、胰蛋白酶等,蛋白質(zhì)含量高達42%,具有較高的食用價值和醫(yī)藥價值[1-2].有害疣孢霉菌(MycogoneperniciosaMagn.)屬于子囊菌門(Ascomytota)盤菌亞門(Pezizomycotina),在20~28 ℃時生長較快[3].雙孢蘑菇被疣孢霉菌侵染引起的疣孢霉病,又稱褐腐病、白腐病,輕度侵染后其表面會形成褐色斑點和白色菌絲,重度侵染可能會形成畸形菇,且不同生長發(fā)育階段感染癥狀的差異明顯[4].
多酚氧化酶(polyphenol oxidase,PPO)又稱兒茶酚氧化酶,是一種存在于植物、食用菌中的金屬蛋白酶.它能夠引起果蔬酶促褐變,從而影響果蔬的外觀品質(zhì)和口感風味[5].PPO也能作為一種參與黑色素細胞形成的氧化還原酶,它能抑制黑色素的沉積,從而避免色斑、褐斑等疾病的產(chǎn)生[6].相反,黑色素可以治療白化病等疾病,故防御活性酶可能與食用菌病害存在一定聯(lián)系.已有許多專家研究了果蔬防御活性酶與真菌病害的相關(guān)性,指出防御酶對大麥抗病起到一定作用[7].傳統(tǒng)的疣孢霉菌檢測方法有柯赫氏法則致病性檢驗、核糖體轉(zhuǎn)錄間隔區(qū)(rDNA-ITS)序列分析[8],這些分子生物學技術(shù)方法往往會破壞樣本的外部品質(zhì)和內(nèi)部結(jié)構(gòu).因此,采用無損、快速的高光譜成像技術(shù)檢測樣本的品質(zhì)尤為重要.
近年來光譜成像技術(shù)已經(jīng)大量運用到水果[9]、蔬菜[10]、食用菌[11]等檢測中,具有檢測范圍廣、精度高等優(yōu)點.馬淏等[12]基于光譜技術(shù)對雙孢蘑菇的新鮮度進行分級檢測,結(jié)果表明,結(jié)合粒子群算法(particle swarm optimization,PSO)和海姆優(yōu)化算法(seagull optimization algorithm,SOA)極限學習機(extreme learning machine,ELM)檢測模型精度較高,預測精度分別為92.5%、94%.Yang et al[13]采用反向傳播神經(jīng)網(wǎng)絡(back propagation, BP),構(gòu)建了不同生育期杏鮑菇MSC-CARS-BP菌絲體檢測模型,不同生育期菌絲體檢測結(jié)果準確率均為99.67%.Xiao et al[14]基于高光譜技術(shù)預測滲透脫水中雙孢蘑菇的可溶性固形物(Soluble Solids Content,SSC)含量,結(jié)果表明經(jīng)過正交信號校正(orthogonal signal correction,OSC)的支持向量機(support vector machine,SVM)模型預測集R2p為0.883,且OSC-CARS-SVM預測模型的精度最佳.Mollazade[15]基于高光譜成像技術(shù)對4種褐變雙孢蘑菇進行了分類,其中經(jīng)過競爭自適應加權(quán)算法(competitive adaptive reweighted sampling,CARS)后的偏最小二乘回歸(partial least squares regression,PLSR)模型的校正集和預測集的分類準確率分別為80.6%、80.3%,并將全光譜點的主成分分析(principal components analysis,PCA)圖與常規(guī)紅、綠、藍(red,green,blue, RGB)成像波段分類圖進行了比較.
早期雙孢蘑菇(原基期至小菇期)菌蓋上的菌絲細小,很難提取到疣孢霉菌進行病害判別.又由于疣孢霉菌入侵雙孢蘑菇后,會合成大量PPO來抵制病菌的侵害[16].故PPO與疣孢霉病可能存在某種相關(guān)性.目前利用高光譜成像技術(shù)預測雙孢蘑菇早期PPO的研究較少,對雙孢蘑菇疣孢霉病判別鮮有研究.因此,本研究先提取與PPO相關(guān)的特征光譜,然后進一步篩選光譜特征判別雙孢蘑菇的早期病害,旨在為食用菌早期病害判別提供一種新方法,為進一步開發(fā)早期雙孢蘑菇病害的快速無損鑒別設(shè)備提供參考.
試驗材料為福建省農(nóng)業(yè)科學院食用菌研究所提供的W192型雙孢蘑菇菌菌種、My.p0012型疣孢霉菌菌種.以小麥播種的方式將菌種播撒在栽培料中混合均勻,采用無菌食用菌栽培袋以400 g·袋-1的標準分裝;將雙孢蘑菇放入22 ℃、90%相對濕度、無光照條件的人工氣候培養(yǎng)箱中培養(yǎng);當菌絲大約生長到栽培料的2/3時覆土,覆土高度約3 cm.覆土后適當調(diào)高環(huán)境溫度并進行輕噴,以利于菌絲爬土.待覆土后10 d左右,溫度調(diào)低至20 ℃,觀察雙孢蘑菇出菇情況.培養(yǎng)期間每天通風2次,每次1 h[17].
采用孢子懸浮液接種雙孢蘑菇.先將疣孢霉菌放入馬鈴薯葡萄糖瓊脂(potato dextrose agar,PDA)中培養(yǎng)7 d,再用無菌水沖洗PDA活化疣孢霉菌孢子,并用血球計數(shù)板檢測疣孢霉菌孢子懸液濃度,其值為(1.0±0.4)×105個·mL-1.然后在2/3覆土層的表面均勻噴灑5 mL疣孢霉菌孢子懸液接菌[18].
選用蘇州科銘生物技術(shù)有限公司生產(chǎn)的試劑盒測定指標值,測定方法參考文獻[19].PPO的特征波段光密度用酶標儀測定,計算PPO活性值.酶標儀(SpectraMax?Plus 384)配備高精度光柵型單色器和溫度控制器,波長可調(diào)節(jié)至190~1 000 nm,步進1 nm,帶寬2 nm.
高光譜成像系統(tǒng)主要包括ImSpector V10E光譜儀、OLE 23型成像鏡頭、2個150 W光纖鹵素燈、電控升降臺和計算機等[20].采用HSI Analyzer軟件進行白板校正、圖像存儲等.設(shè)置合理的曝光時間等參數(shù)以避免信息飽和以及圖像失真,調(diào)整后物鏡高度為350 mm,CCD相機曝光時間為0.13 s,相機推掃移動速度為2.20 m·s-1.為了消除傳感器暗電流、光線不均勻等產(chǎn)生的影響,對高光譜圖像進行黑白校正:
(1)
式中:I0表示校正后的高光譜圖像;A表示白板圖像;B表示黑板圖像;IC表示原始高光譜圖像.
采集原基期、菇蕾期、幼菇期和小菇期的染病雙孢蘑菇高光譜圖像以實現(xiàn)早期檢測.接種后0~7 d為原基期,8~9 d為菇蕾期,10~11 d為幼菇期,11~12 d為小菇期,各個生長周期為2 d左右.原基期普遍呈白色米粒狀;菇蕾期則為黃豆大小,且菌柄、菌蓋已成雛形;幼菇期、小菇期的菌蓋分別呈蓋半球狀、扁蓋半球狀.小菇期后的病害特征較為明顯,菌蓋表面會出現(xiàn)褐變等患病癥狀,故可將接種后7~11 d的樣本認定為早期.每個周期健康和染病雙孢蘑菇的數(shù)量各50個.以每個圖像菌蓋周圍部分區(qū)域為感興趣區(qū)域(region of interest,ROI),采用新區(qū)域疊加所有樣本的數(shù)據(jù)提取區(qū)域,提取形狀有橢圓形、矩形、八邊形等.最終得到4×2×50個高光譜圖像的ROI光譜數(shù)據(jù).
CARS采用自適應重加權(quán)采樣(adaptive reweighted sampling,ARS)和指數(shù)衰減函數(shù)(exponential decay function,EDF)來建立多個PLSR模型,從而篩選出極值回歸系數(shù),然后利用十字交叉算法優(yōu)選出均方誤差較小的PLS模型[21].連續(xù)投影算法(successive projections algorithm,SPA)通過引入最小化變量解決矢量空間的共線性來選擇最優(yōu)變量,從而提高建模效率.SPA先對所有光譜波段進行投影分析,然后將相對較大的投影向量值作為特征波長,從全波段范圍內(nèi)篩選出無關(guān)信息量最少的一組光譜信息來建立多元回歸模型.所篩選的變量不僅共線性較小,而且避免了光譜波段的共線性和信息重疊,提高了建模精度[22].
SVM是一種典型的二分類有監(jiān)督學習算法.SVM通過采用序列最小優(yōu)化法(sequential minimal optimization, SMO)來不斷迭代出2個最合適的拉格朗日算子α,從而確認最終模型.在本研究中采用Sigmoid核函數(shù)來線性劃分數(shù)據(jù)集.
ELM與單隱含層前饋神經(jīng)網(wǎng)絡(single hidden layer feed-forward neural network,SLFN)相似.與反向傳播的神經(jīng)網(wǎng)絡不同,ELM隨機選取輸入層權(quán)重和隱含層偏置,輸出層權(quán)重由最小化訓練誤差項和輸出層權(quán)重范數(shù)的正則項構(gòu)成,具有學習速度快、訓練參數(shù)少、泛化能力強等特點[23].
BP神經(jīng)網(wǎng)絡具有正、反向傳播的特點,是目前應用最廣的多層前饋神經(jīng)網(wǎng)絡之一.其結(jié)構(gòu)主要由輸入層、隱含層和輸出層構(gòu)成,每層網(wǎng)絡的神經(jīng)元節(jié)點數(shù)由實際問題確定.BP神經(jīng)網(wǎng)絡迭代訓練時首先進行正向傳播,輸入層的每個神經(jīng)元通過權(quán)值連接隱含層的每個節(jié)點,將隱含層每個節(jié)點的輸入值帶入激活函數(shù)(sigmoid)中可得到每個節(jié)點的輸出值,sigmoid函數(shù)的導數(shù)能很好地逼近非線性關(guān)系,并將值控制在0~1.每個隱含層節(jié)點輸出值又通過權(quán)值連接到每個輸出層的神經(jīng)元.然后計算輸出值與實際值的誤差,將誤差帶入反向傳播中,不斷更新網(wǎng)絡層之間的連接權(quán)值和隱含層、輸出層的閾值,直到輸出誤差達到最小[24].本研究的關(guān)鍵算法步驟表示如下:
Oy=sigmoid(x×u+hy)
(2)
Oz=sigmoid(y×v+hz)
(3)
(4)
(5)
(6)
(7)
(8)
式中,Oy、OZ分別為隱含層、輸出層節(jié)點的輸出值,x、y分別為輸入層、隱含層神經(jīng)元節(jié)點值,u、v分別為輸入層與隱含層之間的權(quán)值、隱含層與輸出層之間的權(quán)值,hy、hz分別為隱含層、輸出層的閾值.Ix、Iy、Iz分別為輸入層、隱含層、輸出層的輸入節(jié)點值.δ為輸出值與實際值的誤差.σ′為sigmoid函數(shù)的導數(shù).
式(4)、(6)、(8)中的LRA、LRB、LRC為學習率.式(2)、(3)分別是正向傳播中隱含層、輸出層的網(wǎng)絡節(jié)點輸出公式,式(5)為損失函數(shù)的計算公式,式(4)、(6)、(7)、(8)分別是反向傳播中權(quán)值、閾值的更新公式.
PSO的基本思想是共享群體中個體的信息來尋求適應度函數(shù)的最優(yōu)解.群體中每個粒子有且僅有速度和位置2個屬性[25].若計算適應度函數(shù)最小值,將個體極小值賦予全局最優(yōu)解;反之,將個體極大值賦予全局最優(yōu)解.然后將當前全局最優(yōu)位置和個體歷史最優(yōu)位置帶入式(9)~(10)中迭代速度、位置,最后根據(jù)目標函數(shù)問題性質(zhì)更新全局最優(yōu)位置解.
(9)
(10)
式中,ω為慣性因子,取值范圍為0.8~0.2.其值越大,全局尋優(yōu)能力越強,局部尋優(yōu)能力越弱.Vj為第j個粒子的速度,Xj為第j個粒子的位置.C1和C2為學習率.Pbest為個體極值,Gbest為全局最優(yōu)解.將個體的位置帶入目標函數(shù)求得個體極值,然后根據(jù)目標函數(shù)最優(yōu)解性質(zhì)將個體極值(Pbest)賦予全局最優(yōu)解(Gbest).
采用PSO優(yōu)化支持向量機算法的步驟為:(1)歸一化數(shù)據(jù)集,初始化粒子群的速度、位置;(2)將核寬度(g)和懲罰參數(shù)(c)分別作為粒子的位置(X1,X2),并帶入式(9)、(10)迭代更新速度、位置,計算粒子的個體最優(yōu)值和群體極值;(3)若滿足終止條件,將獲得的最優(yōu)參數(shù)c、g帶入SVM模型中迭代訓練;(4)若不滿足終止條件,重復更新粒子的速度、位置,尋找當前個體最優(yōu)極值,直至滿足條件,輸出c、g.
表1 400個樣本的PPO活性真實值統(tǒng)計結(jié)果Table 1 Statistics of PPO values of 400 A. bisporus samples
圖1 健康、染病雙孢蘑菇高光譜平均光譜曲線Fig.1 Average hyperspectral curve of healthy and infected A. bisporus
采用柯爾莫哥洛夫-斯摩洛夫(kolmogorov-smirnov,KS)算法[26]將400個樣本PPO活性值按2∶1的比例分為訓練集和測試集,統(tǒng)計結(jié)果如表1所示.訓練集、測試集的PPO值范圍分別為109.560~474.360 U·g-1、115.247~433.861 U·g-1.測試集指標范圍在訓練集內(nèi),數(shù)據(jù)劃分合理.健康、染病雙孢蘑菇所有時期的平均光譜曲線如圖1所示.健康、染病雙孢蘑菇的平均光譜曲線變化相似.相對于表面有褐斑、霉菌的染病雙孢蘑菇,健康雙孢蘑菇表面光滑、白凈,總體光譜反射率較高.去除首位噪聲,選取450~1 000 nm高光譜波長范圍(307個波段)進行研究.
2.2.1 競爭自適應加權(quán)算法優(yōu)選波段 采用CARS法對所有樣本全波段(307個波段)進行PPO活性值特征波段的選取.如圖2a所示,設(shè)定采樣次數(shù)N=50,隨著采樣次數(shù)的增加,曲線斜率不斷減小,表明從“粗選”到“細選”過程中高光譜波段數(shù)由原來的307個減少至24個.如圖2b所示,當采樣次數(shù)為26次時均方誤差最小,其值為39.采樣次數(shù)從26次增加到50次的過程中,均方誤差不斷地增大或減小,表明與PPO敏感的特征波段被剔除或保留.為了建立穩(wěn)定的預測模型,選取均方誤差最小時采樣次數(shù)所對應的特征波段數(shù).即當采樣數(shù)為26次時,提取到了與雙孢蘑菇PPO活性值敏感的24個特征波段.特征波段依次為540.8、542.6、549.5、565.2、566.9、570.4、579.1、616.0、617.7、619.5、621.3、644.2、656.7、658.4、764.5、801.0、802.9、810.2、823.1、908.4、925.3、942.2、949.7、980.0 nm.
a:光譜波段數(shù)變化過程;b:均方誤差變化過程.圖2 CARS算法優(yōu)選波段過程圖Fig.2 Optimization of spectral bands by CARS algorithm
2.2.2 連續(xù)投影算法優(yōu)選波段 采用SPA對所有樣本全波段(307個波段)進行PPO活性值特征波段的選取,選取過程如圖3所示.圖3a表示隨著模型內(nèi)變量的引入,均方誤差的變化過程.當引入10個變量時,均方誤差最小.圖3b表示各個波段的反射率.最終提取到了10個特征波段,依次為499.4、566.9、653.1、726.5、823.1、910.3、929.0、962.9、995.2、1 000.9 nm.
a:均方誤差變化過程;b:波段篩選過程.圖3 SPA算法優(yōu)選波段過程圖Fig.3 Optimization of spectral bands by SPA algorithm
分別將經(jīng)過SPA、CARS提取的特征波段帶入PLSR模型中預測PPO活性值.SPA-PLSR模型的訓練集的相關(guān)系數(shù)(Rc)和均方誤差(RMSEC)分別為0.921、0.303,測試集的Rp、RMSEP分別為0.917、0.349.CARS-PLSR模型訓練集的Rc、RMSEC分別為0.923、0.306,測試集的Rp、RMSEP分別為0.904、0.340.
本研究所提取的高光譜信息位于發(fā)病區(qū)域,可采用所提取特征信息對雙孢蘑菇的染病情況進行判別.為了在對PPO敏感的波段中選取對病害敏感的特征波段,擬采用逐步回歸法和相關(guān)性分析在經(jīng)過CARS所提取的24個特征波段中篩選出與染病相關(guān)的光譜波段.
首先篩選出對染病情況貢獻最大的特征波段建立回歸模型,然后逐步加入剩余特征波段,最后在加入波段的過程中及時剔除不顯著和共線性的特征波段,共建立8個回歸模型.對染病情況貢獻最大的566.9 nm波段最先被引入第1個回歸模型,其次566.9、656.7 nm波段被引入第2個回歸模型.以此類推,最后有8個特征波段按貢獻率依次被引入第8個回歸模型中,引入波段的順序為566.9、656.7、617.7、658.4、801.0、980.0、908.4和942.2 nm波段.引入標準為F檢驗概率小于0.05.各回歸模型的統(tǒng)計參數(shù)如表2所示.
隨著蘑菇染病日的延長,貢獻較低的特征波段樣本內(nèi)水分的流失會導致其吸收峰發(fā)生偏移,616.0、619.5、621.3 nm波段可能是水分特征波段617 nm發(fā)生偏移所致.此外雙孢蘑菇在培養(yǎng)、接菌后,其內(nèi)部物質(zhì)含量會發(fā)生改變,802.9、810.2、823.1 nm可能是維C特征波段801、810、821 nm發(fā)生位置偏移所致.540.8、542.6和549.5 nm附近的吸收峰可能與雙孢蘑菇內(nèi)PPO分子中的O-H二級倍頻(540 nm)、C-H二級倍頻(543 nm)有關(guān),565.2 nm附近的吸收峰可能與其C-H四級倍頻(566 nm)有關(guān)[27].從表3可知,隨著特征波段的引入,各回歸模型的復測定系數(shù)(R)逐漸變大.回歸模型8的R為0.891,表明所篩選的8個特征波段與染病判別的擬合度最大,R上標的a~h分別表示各個模型被引入特征波段的光密度,a表示第1個引入的波段光密度,h表示被引入的8個波段光密度.其回歸模型8的決定系數(shù)(R2)為0.793,表示8個波段的光密度能解釋雙孢蘑菇染病情況的79%,其染病情況的21%由其他變量來解釋.
表2 染病判別回歸模型的統(tǒng)計參數(shù)Table 2 Statistical parameters for regression analysis of infection recognition model
表3 特征波段與染病情況的顯著性分析結(jié)果1)Table 3 Significance analysis results of characteristic bands and infection
將經(jīng)過逐步回歸篩選出的特征波段與經(jīng)過SPA篩選出的特征波段結(jié)合,采用皮爾曼相關(guān)系數(shù)對疣孢霉病進行顯著性分析(表3).從表3可知,929.0 nm波段與染病情況在0.05水平上有顯著相關(guān)性,其他光譜波段都在0.01水平上具有極顯著相關(guān)性,且449.4 nm波段與染病情況呈負相關(guān).
將篩選出的12個與染病相關(guān)的高光譜波段分別帶入ELM、SVM、PSO-SVM和BP神經(jīng)網(wǎng)絡中進行建模比較分析.
從圖4可知,設(shè)置迭代次數(shù)為100,種群規(guī)模為30,采用8折交叉驗證來優(yōu)化參數(shù).為了平衡尋優(yōu)能力,慣性權(quán)重w設(shè)為1.以核寬度和懲罰參數(shù)為目標函數(shù)的輸入變量進行迭代,優(yōu)化后的懲罰參數(shù)、核寬度分別為78.149、0.01,然后將最優(yōu)解帶入SVM計算雙孢蘑菇的正確判別率.
圖4 PSO優(yōu)化后的適應度函數(shù)值變化圖Fig.4 Changes on fitting values after PSO optimization
在圖5的3組學習率下的誤差走勢圖中,迭代次數(shù)設(shè)為500,反向傳播更新權(quán)值、閾值后,均方誤差不斷降低.學習率A=0.1,學習率B=0.1時,學習率較小,曲線很平滑,收斂速度較慢.A=0.5,B=0.6時,學習率適當增加后,收斂速度較第1組有所降低,曲線較平滑.A=0.8,B=0.9時,學習率快到上限時,收斂速度未發(fā)生明顯改變,但曲線發(fā)散,迭代過程不穩(wěn)定.輸入層節(jié)點數(shù)為光譜波段數(shù)(12個),輸出層節(jié)點數(shù)為輸出類型數(shù)(2個).隱含層節(jié)點數(shù)可由下列3個經(jīng)驗公式計算:
(11)
m=log2n
(12)
(13)
式中,m、n、l分別是隱含層、輸入層、輸出層的節(jié)點數(shù),α為1~10的常數(shù).
從式(11)可得到隱含層節(jié)點數(shù)范圍為4.7~13.7,從式(12)可得到隱含層節(jié)點數(shù)為3.6,從式(13)可得到隱含層節(jié)點數(shù)為4.9.隱含層節(jié)點數(shù)分別取式(12)、(13)的值以及式(11)的最大值.迭代后均方誤差的變化趨勢如圖6所示,當m=4時,在迭代次數(shù)200次以內(nèi)誤差曲線較為發(fā)散,大于200次迭代次數(shù)誤差趨向平穩(wěn).當m=5時,迭代次數(shù)在250次以內(nèi)誤差曲線較平滑,迭代次數(shù)大于250次曲線較為發(fā)散;且與m=4相比較,收斂后的均方誤差較大.當m=14時,迭代過程中誤差曲線較為平滑,且與m=4,m=5相比較,收斂后的均方誤差有所減小.當m=40時,迭代2次達到過擬合的狀態(tài),訓練模型停止.
圖5 不同學習率下的BP網(wǎng)絡誤差圖Fig.5 Error diagram of BP network under different learning rates
表4為6種模型的建模效果,PSO-SVM、BP1、BP2測試集健康識別率最高,其值為93.333%,BP2測試集染病識別率、總體識別率最高,其值分別為95.890%、94.737%.
表4 6種模型的建模效果Table 4 Modeling effects of 6 models
本文采用粒子群算法優(yōu)化支持向量機和BP神經(jīng)網(wǎng)絡檢測雙孢蘑菇的早期品質(zhì).所建立的PPO預測模型SPA-PLSR精度最高,其RP、RMSEP分別為0.917、0.348.在所提取的特征波段中有8個被引入到回歸模型中,決定系數(shù)可達78.6%.所建立的BP模型對雙孢蘑菇病害的判別率最高,總體判別率可達94.74%.結(jié)果表明,優(yōu)化后的機器學習模型可較好地實現(xiàn)雙孢蘑菇外部品質(zhì)的判別.