劉翠玲 胡 瑩 吳靜珠 邢瑞芯 王少敏
(1.北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院, 北京 100048;2.北京工商大學(xué)食品安全大數(shù)據(jù)技術(shù)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100048)
花生富含大量的蛋白質(zhì)、脂肪、糖類以及鈣、磷、鐵礦物元素等,可直接食用或者進(jìn)行烘培等后續(xù)加工后食用,已成為人們喜愛(ài)的休閑食品;同時(shí)花生也是食用油的重要原材料之一,豐厚的營(yíng)養(yǎng)價(jià)值使花生成為人們生活中的必需品[1]。但收獲后的花生在儲(chǔ)藏期間易受到溫、濕度的影響而引起花生霉變[2]。霉變花生極有可能含強(qiáng)致癌物質(zhì)——黃曲霉素,快速識(shí)別并分離霉變花生可從源頭上阻止其進(jìn)入食物鏈,降低人類攝入黃曲霉素的風(fēng)險(xiǎn)[3]。因此,對(duì)花生的霉變檢測(cè)尤為重要。目前,絕大多數(shù)花生生產(chǎn)企業(yè),主要依靠人工觀測(cè)判斷花生是否發(fā)生霉變,該檢測(cè)方法易受主觀心理、視覺(jué)疲勞等因素影響[4]。在農(nóng)業(yè)行業(yè)標(biāo)準(zhǔn)NY/T 1068—2006和國(guó)標(biāo)GB/T 5494—2008中,規(guī)定了對(duì)于花生中霉素的檢驗(yàn),采用同位素稀釋液相色譜-串聯(lián)質(zhì)譜法、酶聯(lián)免疫吸附法等檢測(cè)方法。這些傳統(tǒng)檢測(cè)方法具有前處理復(fù)雜、費(fèi)時(shí)費(fèi)力,且易對(duì)樣品造成破壞、產(chǎn)生二次污染等問(wèn)題[5-6]。因此,亟需尋找一種可靠、快速、便捷的方法來(lái)檢測(cè)花生仁的霉變程度。
光譜檢測(cè)技術(shù)具有綠色環(huán)保、耗時(shí)短、成本低、可靠性高的特點(diǎn),彌補(bǔ)了傳統(tǒng)理化檢測(cè)方法的不足[7-9],近年來(lái)在食品檢測(cè)領(lǐng)域發(fā)展較快。HIRANO等[10]通過(guò)分析花生油脂短波近紅外(700~1 100 nm)的透射比對(duì)表面良好、內(nèi)部霉變的花生進(jìn)行了檢測(cè),但該方法對(duì)樣本具有破壞性,且油脂提取程序相對(duì)繁瑣。LEE等[11]采用了拉曼光譜、近紅外光譜技術(shù)(Near infrared,NIR)與中紅外光譜技術(shù)(Mid infrared,MIR)3種光譜技術(shù)對(duì)玉米受黃曲霉毒素污染進(jìn)行了對(duì)比分析,結(jié)果顯示,拉曼光譜與MIR對(duì)玉米中黃曲霉毒素的預(yù)測(cè)精度優(yōu)于NIR光譜技術(shù)。這些研究均表明,光譜技術(shù)在農(nóng)產(chǎn)品的霉變檢測(cè)領(lǐng)域取得了較好的研究進(jìn)展[12-14]。新興的太赫茲光譜技術(shù)與其他光譜技術(shù)相比,具有承載更多信息、能量低、不會(huì)對(duì)被檢物質(zhì)造成光電離破壞、并具有一定的穿透性等特點(diǎn)[15-17],在農(nóng)產(chǎn)品檢測(cè)領(lǐng)域具有巨大的潛力[18-19]。因此,本文采用太赫茲光譜技術(shù)中的衰減全反射方式進(jìn)行光譜掃描,通過(guò)光譜預(yù)處理與變量?jī)?yōu)化后分別結(jié)合BP(誤差反向傳播)神經(jīng)網(wǎng)絡(luò)算法與支持向量機(jī)(Support vector machine,SVM)算法,建立不同霉變程度花生的定性分析模型。
材料:不同品種的帶殼花生1 000 g(購(gòu)于某種子公司)。
主儀器:英國(guó)Tera View公司生產(chǎn)的TeraPulse 4000型太赫茲脈沖光譜儀,如圖1a所示,可發(fā)射頻率從60 GHz到4 THz(2~133 cm-1)的太赫茲波,信噪比最高達(dá)到70 dB。光譜采集部分選擇入射角為35°的單晶硅衰減全發(fā)射(ATR)模塊,工作范圍為10~120 cm-1(0.3~3.6 THz)。
輔助儀器:SPX-80型智能生化培養(yǎng)箱,購(gòu)自杭州碩聯(lián)儀器有限公司,溫度波動(dòng)±0.5℃,如圖1b所示。
圖1 實(shí)驗(yàn)儀器Fig.1 Experimental apparatus
實(shí)驗(yàn)選取的花生品種為花育36號(hào);為排除不同品種給實(shí)驗(yàn)帶來(lái)的偶然性,選取魯花9號(hào)花生品種作為參考樣本進(jìn)行培育。兩種花生品種樣本共計(jì)80枚,大小、顏色均勻一致,吹掃干凈。預(yù)留20枚視為正?;ㄉ鷺颖?,其余60枚作為發(fā)霉培育對(duì)象。花生在高溫、高濕、封閉環(huán)境下最易發(fā)生霉變[20],因此實(shí)驗(yàn)時(shí),按照水分與花生樣本質(zhì)量比0.2左右在花生殼表面均勻噴灑去離子水,并置于28℃的生化培養(yǎng)箱里培養(yǎng)。同時(shí)利用溫濕度檢測(cè)儀確?;ㄉ幁h(huán)境溫度在28℃左右、相對(duì)濕度80%~90%。實(shí)驗(yàn)方案如表1所示。
表1 樣本培養(yǎng)方案Tab.1 Sample culture program
將得到的輕度、中度、嚴(yán)重霉變花生樣本作為實(shí)驗(yàn)待測(cè)樣本,取出并放置于干燥、常溫環(huán)境下1~2 d。得到的花生樣本外殼表面有明顯皺縮、發(fā)黑,有斑點(diǎn)的現(xiàn)象;去殼后霉變樣本如圖2所示。
圖2 不同狀態(tài)下的花生Fig.2 Peanuts in different states
3類霉變花生樣本表面皆有4 mm左右淡綠毛、白色塊狀斑點(diǎn)產(chǎn)生,顏色晦暗發(fā)黃,質(zhì)地變軟,肉眼較難區(qū)分。隨機(jī)選取包括正常、輕度、中度、嚴(yán)重霉變花生仁各20粒,制作成厚度約1 mm、尺寸約1 cm×1 cm的花生仁切片,樣本共計(jì)80個(gè)。為防止花生仁發(fā)生氧化等反應(yīng),該操作應(yīng)盡可能快速準(zhǔn)確。實(shí)驗(yàn)環(huán)境溫度始終保持在22℃。
圖3 部分霉變樣本的時(shí)域光譜Fig.3 Time-domain spectra of some mildew samples
實(shí)驗(yàn)采集80個(gè)花生樣本切片的ATR光譜。確保ATR晶體未放置樣品并干凈無(wú)污染,采集得到參考信號(hào)(Reference signal)后進(jìn)行樣本的數(shù)據(jù)采集。為確保樣本和ATR晶體之間光學(xué)接觸良好,需擰緊壓力螺釘,最大限度地提高吸光度[21]。ATR采集參數(shù)設(shè)置為:分辨率0.94 cm-1,每次快速掃描的平均次數(shù)為450。
部分樣本的原始太赫茲時(shí)域光譜如圖3所示。從圖中可以看出,由于空氣中的水分干擾,樣本信號(hào)的波形均存在較小抖動(dòng)。此外,4種花生仁樣本的脈沖波形相似,差異細(xì)微,說(shuō)明了系統(tǒng)的穩(wěn)定性;但不易直接通過(guò)太赫茲時(shí)域光譜進(jìn)行不同程度霉變花生的有效鑒別,需要將采集得到的時(shí)域信號(hào)進(jìn)一步處理,提取出更有效的光學(xué)常數(shù)并結(jié)合模式識(shí)別算法建立定性分析模型。
2.1.1光學(xué)常數(shù)提取
光學(xué)常數(shù)是表征物質(zhì)宏觀光學(xué)性質(zhì)的重要物理量,同樣也是太赫茲光譜分析中建模數(shù)據(jù)的來(lái)源[22]。通常情況下更多選用的光學(xué)常數(shù)是物質(zhì)的吸光度與吸收系數(shù)。提取光學(xué)常數(shù)前,需要利用快速傅里葉變換(FFT)將參考信號(hào)和樣本的時(shí)域光譜進(jìn)行轉(zhuǎn)換。在獲得信號(hào)頻域譜的過(guò)程中,為避免信號(hào)數(shù)據(jù)開(kāi)頭和結(jié)尾不連續(xù)造成信號(hào)頻譜顯示的失真,需對(duì)信號(hào)進(jìn)行加窗處理,減少時(shí)域信號(hào)截?cái)嗨鶐?lái)的誤差[23]。窗函數(shù)的種類多樣,比如Boxcar用于高分辨率,Blackman Harris用于高信噪比,本文選擇最常用的Happ Genzel,因?yàn)槠浼骖櫫诵旁氡群头直媛省?/p>
將得到樣本信號(hào)與參考信號(hào)的對(duì)應(yīng)頻域信息作比后,利用所得比值函數(shù)的幅值ρ(ω)和相位φ(ω)信息計(jì)算得到所需的光學(xué)常數(shù)。樣本的光學(xué)常數(shù)吸光度A(?)與吸收系數(shù)α(ω)計(jì)算公式為
(1)
(2)
(3)
式中E0(?)——入射的太赫茲波強(qiáng)度
E1(?)——透過(guò)物質(zhì)的太赫茲波強(qiáng)度
d——樣本的厚度
ω——角頻率
ρ(ω)——比值函數(shù)的幅值
φ(ω)——比值函數(shù)的相位
n(ω)——樣本的折射率
c——太赫茲波在空氣中的傳播速度
其中吸光度與吸收系數(shù)譜圖如圖4所示。
圖4 吸光度譜圖和吸收系數(shù)譜圖Fig.4 Absorption and absorbance spectra
圖5 平均吸收系數(shù)Fig.5 Average absorption coefficient
2.1.2光譜范圍選取
在10~120 cm-1頻域內(nèi),觀察圖4a實(shí)驗(yàn)數(shù)據(jù)發(fā)現(xiàn),隨著頻率的增加,樣品吸光度整體呈現(xiàn)先上升后下降趨勢(shì),但無(wú)明顯特征峰存在;而圖4b中所有樣本的吸收系數(shù)光譜特征峰明顯,所以本實(shí)驗(yàn)選擇吸收系數(shù)作為建模數(shù)據(jù)。但吸收系數(shù)譜線整體呈差異較小、重疊度較高、難以分辨的特點(diǎn)。
為了解決這個(gè)問(wèn)題,進(jìn)一步對(duì)每個(gè)類別的所有樣本取平均處理。處理后可以發(fā)現(xiàn)在一定波段內(nèi)正常樣本與霉變樣本的差異十分顯著。圖5a為正常、嚴(yán)重霉變花育36號(hào)各自類別在5~44 cm-1的平均吸收系數(shù),可以看到兩條曲線相離甚遠(yuǎn),并且隨著頻率增加,吸收系數(shù)越來(lái)越高。圖5b為正常、嚴(yán)重霉變魯花9號(hào)各自類別在0~50 cm-1的平均吸收系數(shù),同樣兩條曲線差異也是十分顯著,為后期模型建立提供了可能性。
BP神經(jīng)網(wǎng)絡(luò)算法是當(dāng)前工業(yè)領(lǐng)域應(yīng)用較多的一種前饋式學(xué)習(xí)算法與反向傳播算法的神經(jīng)網(wǎng)絡(luò),可對(duì)樣本進(jìn)行有效分類,故采用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行不同霉變程度樣本的分類處理;同時(shí),為了探究處理此類數(shù)據(jù)更優(yōu)的算法,嘗試采用同樣經(jīng)典的SVM方法進(jìn)行霉變樣本分類的定性分析。支持向量機(jī)庫(kù)Lib-SVM,能夠解決小樣本情況下的機(jī)器學(xué)習(xí)問(wèn)題,提高泛化能力,解決高維問(wèn)題、非線性問(wèn)題,適于處理光譜數(shù)據(jù)[24-25],故同時(shí)采用Lib-SVM進(jìn)行花生霉變程度鑒別模型的建立。
2.2.1基于BP神經(jīng)網(wǎng)絡(luò)的定性分析
表2 BP網(wǎng)絡(luò)輸出節(jié)點(diǎn)編碼Tab.2 BP network output node coding
圖6 BP算法分類結(jié)果Fig.6 BP algorithm classification results
2.2.2基于Lib-SVM的定性分析
首先建立正常與霉變花生的二分類模型。采用基于網(wǎng)格搜索及交叉驗(yàn)證方法進(jìn)行參數(shù)尋優(yōu)的支持向量機(jī)多分類算法,建立兩類品種樣本霉變的二分類模型。按3∶1的比例隨機(jī)劃分建模集和測(cè)試集,即得到20個(gè)樣本作為測(cè)試集,其余60個(gè)樣本作為建模集。對(duì)經(jīng)過(guò)歸一化預(yù)處理后的樣本建立基于特征波段-吸收系數(shù)的正常、霉變樣本二分類模型。模型結(jié)果如圖7所示,藍(lán)色標(biāo)識(shí)代表樣本的實(shí)際類別,紅色標(biāo)識(shí)代表樣本的預(yù)測(cè)類別,可以看出,兩類測(cè)試樣本都準(zhǔn)確地被劃分到自身所屬類別當(dāng)中,模型預(yù)測(cè)正確率為100%。
圖7 霉變程度二分類模型預(yù)測(cè)結(jié)果Fig.7 Prediction result of mildew degree two-class model
為進(jìn)一步探索太赫茲光譜技術(shù)在花生霉變情況檢測(cè)研究中的可行性,對(duì)輕度、中度、嚴(yán)重霉變樣本建立基于特征波段-吸收系數(shù)譜的霉變程度三分類模型。
在建立三分類模型時(shí),同樣選擇采用基于網(wǎng)格搜索法及交叉驗(yàn)證方法進(jìn)行參數(shù)尋優(yōu)的SVM多分類算法,按3∶1的比例隨機(jī)劃分建模集和測(cè)試集,即得到15個(gè)樣本作為測(cè)試集,其余45個(gè)樣本作為建模集。對(duì)經(jīng)過(guò)歸一化預(yù)處理后的所有樣本建立SVM模型,并分別建立花育36號(hào)、魯花9號(hào)霉變樣本的三分類模型,結(jié)果如圖8所示??梢钥闯觯?類測(cè)試樣本都準(zhǔn)確地被劃分到自身所屬類別當(dāng)中,模型預(yù)測(cè)正確率為100%,可靠性較高。所有模型參數(shù)及預(yù)測(cè)結(jié)果如表3所示。
圖8 霉變程度三分類模型預(yù)測(cè)結(jié)果Fig.8 Prediction result of mildew degree three-class model
分類模型光譜范圍/cm-1總預(yù)測(cè)正確率/%懲罰參數(shù)Gamma參數(shù)花育二分類模型5~44100-2.5-5魯花二分類模型0~50100-4.0-4.5花育三分類模型5~44100-1.5-6魯花三分類模型0~501000-7
應(yīng)用太赫茲衰減全反射技術(shù)對(duì)不同霉變程度的花生樣本進(jìn)行了定性分析研究。通過(guò)對(duì)比發(fā)現(xiàn),不同霉變程度的花生樣本在太赫茲波段的時(shí)域譜、吸光度譜以及吸收系數(shù)譜均存在一定的差異。進(jìn)一步使用歸一化對(duì)數(shù)據(jù)進(jìn)行處理,并分別結(jié)合BP神經(jīng)網(wǎng)絡(luò)算法與SVM算法,建立了花生霉變程度鑒別的定性分析模型。其中,基于BP神經(jīng)網(wǎng)絡(luò)算法的模型對(duì)花育36號(hào)霉變樣本的識(shí)別正確率為88.57%,對(duì)魯花9號(hào)樣本的識(shí)別正確率為91.40%;基于SVM算法的二分類、三分類模型對(duì)花育36號(hào)、魯花9號(hào)霉變樣本的識(shí)別正確率均達(dá)到100%。結(jié)果表明,相比于BP神經(jīng)網(wǎng)絡(luò)算法,SVM算法能夠解決小樣本情況下的機(jī)器學(xué)習(xí)問(wèn)題,可提高泛化能力,更適合處理光譜數(shù)據(jù),并進(jìn)行建模分析;作為一種便捷、可靠的方式,采用太赫茲衰減全反射光譜技術(shù)對(duì)貯藏期間的花生進(jìn)行檢測(cè),在判斷花生霉變程度方面具有一定的可行性。