盛立哲,季仁東,2,王曉燕,2,姚華,于銀山,2,魏丹丹,2,卞海溢,2*
(1 淮陰工學(xué)院電子信息工程學(xué)院,江蘇 淮安,223003;2 江蘇省湖泊環(huán)境遙感技術(shù)工程實(shí)驗(yàn)室,江蘇 淮安,223003)
蘋果汁憑借其高營養(yǎng)價(jià)值和較好的口味成為了全世界最受歡迎的果汁之一,具有廣闊的消費(fèi)市場(chǎng)。然而蘋果汁的摻假導(dǎo)致蘋果汁質(zhì)量參差不齊,直接影響食品安全和國際貿(mào)易[1]。蘋果汁的摻假方式主要有:1、兌水稀釋;2、添加低廉的其它果汁或非果汁成分;3、考慮到不同地區(qū)產(chǎn)的不同品種的蘋果價(jià)格差距較大,用價(jià)格低廉品質(zhì)較差的蘋果作為原料以次充好。前兩類摻假可以通過檢測(cè)蘋果汁的濃度進(jìn)行識(shí)別,第三類以次充好的摻假方式相對(duì)隱蔽,并不能通過簡單的測(cè)定成分進(jìn)行鑒別,因此急需開發(fā)一種無損快速的蘋果汁產(chǎn)地分類檢測(cè)技術(shù),對(duì)于維護(hù)消費(fèi)者合法權(quán)益,改善我國果汁產(chǎn)品在國際上的形象,提高蘋果汁的出口具有一定的理論現(xiàn)實(shí)意義。
目前,各科研小組提出了多種方法來檢測(cè)蘋果汁的蘋果品種產(chǎn)地。例如,Belton等人提出了利用核磁共振技術(shù)結(jié)合主成分分析法來區(qū)分蘋果汁中蘋果的種類[2]。通過對(duì)3個(gè)品種(Spartan、Bramley和Russet)蘋果汁核磁共振譜分析,結(jié)果證明當(dāng)使用五個(gè)主成分時(shí)分類準(zhǔn)確率能達(dá)92.3%以上。Medina等人結(jié)合固相萃取和氣相色譜的方法對(duì)蘋果汁中的揮發(fā)性有機(jī)物與蘋果品種產(chǎn)地之間的關(guān)系進(jìn)行了研究,結(jié)果證明二氫草莓酸乙酯等一些特殊的揮發(fā)性有機(jī)物可以用來區(qū)分蘋果汁的種類產(chǎn)地[3]。盡管這些方法的有效性都已經(jīng)被證明,但是由于這些方法存在檢測(cè)時(shí)間長、需要復(fù)雜的前處理和對(duì)樣品有損傷等缺點(diǎn),不適合在線檢測(cè)。
近些年,光譜技術(shù)與化學(xué)計(jì)量學(xué)算法相結(jié)合在化學(xué)分析領(lǐng)域嶄露頭角,成為化學(xué)分析領(lǐng)域的一種新興技術(shù)??紤]到光譜技術(shù)具有非接觸、無損傷、速度快和靈敏度高等優(yōu)點(diǎn),光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)算法的檢測(cè)技術(shù)被廣泛應(yīng)用于刑偵[4,5]、安防檢測(cè)[6,7]和食品安全[8,9]等領(lǐng)域。例如,朱大洲等人提出了中波近紅外光譜技術(shù)結(jié)合SIM-CA法來區(qū)分蘋果汁的品種產(chǎn)地,通過建立光譜數(shù)據(jù)與蘋果品種產(chǎn)地的模型,模型識(shí)別率達(dá)85%以上[10]。Chang等人提出了利用紫外可見光光譜結(jié)合主成分分析法來區(qū)分蘋果汁的品種產(chǎn)地,通過對(duì)8個(gè)品種的蘋果汁的紫外可見光光譜進(jìn)行主成分分析,實(shí)現(xiàn)了蘋果汁品種的分類[11]。
支持向量機(jī)是建立在統(tǒng)計(jì)學(xué)習(xí)基礎(chǔ)上的,該分類器通過選擇適當(dāng)?shù)暮瘮?shù)子集和該子集總的判別函數(shù),利用有限的訓(xùn)練樣本,通過平衡模型復(fù)雜性和學(xué)習(xí)能力使得分類模型的期望風(fēng)險(xiǎn)達(dá)到最小值[12]。由于SVM算法的潛在應(yīng)用價(jià)值較高,成為近些年圖像處理的研究熱點(diǎn),已被廣泛應(yīng)用于人臉跟蹤[13]、語音識(shí)別[14]、圖像分類[15]和控制系統(tǒng)[16]等諸多領(lǐng)域。
本文測(cè)量了西安和云南兩個(gè)品種蘋果所榨蘋果汁的熒光光譜,發(fā)現(xiàn)兩個(gè)品種的蘋果汁都在394 nm、422 nm、461 nm、484 nm、531 nm和568 nm處存在熒光發(fā)射峰,并且強(qiáng)度不存在明顯的區(qū)別??紤]到支持向量機(jī)(Support vector machines, SVM)相比于其他分類學(xué)習(xí)模型具有優(yōu)秀的泛化性能、算法計(jì)算復(fù)雜度低和稀疏性好的優(yōu)點(diǎn),本文提出利用支持向量機(jī)算法進(jìn)行蘋果果汁品種的分類,建立了SVM模型,對(duì)62個(gè)建模集樣品的留一交叉驗(yàn)證,獲得了100%的正確率;對(duì)驗(yàn)證集32個(gè)樣品的驗(yàn)證,獲得了96.3%的正確率,從而證明了熒光光譜結(jié)合SVM算法分析技術(shù)是一種可行的蘋果汁品種的分類溯源技術(shù)。
蘋果汁的熒光光譜測(cè)量采用鉑金埃爾默有限公司(Perkin Elmer)的LS55型熒光光譜儀。采集蘋果汁熒光光譜時(shí)儀器的參數(shù)設(shè)置如下:激發(fā)波長為280 nm,發(fā)射波長范圍為300~600 nm,光譜間隔為0.5 nm,狹縫寬度為5 nm,光譜掃描速度為500 nm/min。所使用的比色皿為普析光學(xué)的石英比色皿,比色皿光程為10 mm。
實(shí)驗(yàn)樣品為2個(gè)品種的蘋果,共89個(gè)蘋果,其中42個(gè)蘋果采購于西安,47個(gè)蘋果采購于云南。所有蘋果用蒸餾水洗凈后去皮,然后用Nohawk的榨汁器榨成蘋果汁,用過濾網(wǎng)過濾后,取樣放置于比色皿中,利用LS55進(jìn)行熒光光譜的采集。
將89個(gè)熒光光譜數(shù)據(jù)分為兩類:建模集和驗(yàn)證集。建模集共有62個(gè)光譜組成:31個(gè)光譜來自西安的蘋果樣品;31個(gè)光譜來自云南的蘋果樣品。驗(yàn)證集為剩余的27個(gè)樣品的光譜:11個(gè)光譜來自西安的蘋果樣品;16個(gè)光譜來自云南的蘋果。建模前需要對(duì)熒光光譜進(jìn)行歸一化處理。
LS55所測(cè)得的兩個(gè)品種蘋果汁的平均熒光光譜如圖1(a)所示,從圖中可以看到不同品種的蘋果汁具有相同的最強(qiáng)熒光峰:394 nm、422 nm、461 nm、484 nm、531 nm和568 nm,因此無法通過特異性的熒光峰進(jìn)行蘋果種類的區(qū)分。另外,盡管兩個(gè)品種的蘋果汁在422 nm處的熒光峰強(qiáng)度有區(qū)別,但是由于不同品種的蘋果汁光譜在該位置處的光強(qiáng)相互重疊如圖1(b)和(c)所示,422 nm處的熒光峰強(qiáng)度無法作為蘋果種類區(qū)分的標(biāo)志性參數(shù)。
圖1 蘋果汁的熒光光譜:(a)平均歸一化熒光光譜;(b)不同蘋果汁樣品的熒光光譜;(c)不同蘋果汁樣品在390~460 nm波段的熒光光譜
具體算法流程如圖2所示:1)選定2/3左右的光譜數(shù)據(jù)為建模集(兩類蘋果的光譜數(shù)據(jù)量為1∶1);2)對(duì)光譜數(shù)據(jù)進(jìn)行歸一化預(yù)處理;3)將西安的蘋果標(biāo)記為0,云南的蘋果標(biāo)記為1;4)將光譜數(shù)據(jù)與標(biāo)記值作為輸入在Matlab R2013b中利用SVM算法建立分類模型;4)對(duì)模型進(jìn)行留一交叉驗(yàn)證,剔除建模集中的異常數(shù)據(jù);5)根據(jù)交叉驗(yàn)證結(jié)果重新確立分類模型;6)對(duì)測(cè)試集中的光譜數(shù)據(jù)進(jìn)行歸一化預(yù)處理;7)將光譜數(shù)據(jù)代入模型,輸出分類結(jié)果。
圖2 SVM算法流程
圖3是對(duì)訓(xùn)練集中62個(gè)數(shù)據(jù)進(jìn)行留一交叉驗(yàn)證的結(jié)果,從圖中可以看到,留一交叉驗(yàn)證時(shí),前31個(gè)樣品的模型輸出值為0,表示橫坐標(biāo)為0~30的樣品被模型預(yù)測(cè)為西安蘋果所榨果汁;后31個(gè)樣品輸出值為1,表示橫坐標(biāo)為31~61的樣品被模型預(yù)測(cè)為云南蘋果所榨的果汁,預(yù)測(cè)結(jié)果與樣品的實(shí)際情況吻合,模型識(shí)別準(zhǔn)確率為100%。
圖3 SVM模型訓(xùn)練集留一交叉驗(yàn)證的預(yù)測(cè)結(jié)果
為了驗(yàn)證模型的有效性,利用建模集所建立的SVM模型對(duì)驗(yàn)證集中的27個(gè)樣品進(jìn)行了預(yù)測(cè),預(yù)測(cè)結(jié)果如圖4所示,前11個(gè)西安蘋果所榨的果汁樣品中只有5號(hào)樣品被模型誤診為云南蘋果所榨的蘋果汁樣品,后16個(gè)云南蘋果所榨的果汁樣品都被模型預(yù)測(cè)正確。驗(yàn)證集的模型識(shí)別準(zhǔn)確率為96.3%。
圖4 SVM模型驗(yàn)證集模型的預(yù)測(cè)結(jié)果
圖5 接受者操作特性曲線(ROC)
本文提出了一種利用熒光光譜與SVM相結(jié)合的方法進(jìn)行蘋果汁的品種分類技術(shù)。本文采集了西安和云南兩種蘋果果汁的熒光光譜,建立了熒光光譜-果汁品種的SVM模型。該模型對(duì)建模集數(shù)據(jù)的交叉驗(yàn)證準(zhǔn)確率達(dá)100%,對(duì)驗(yàn)證集數(shù)據(jù)的預(yù)測(cè)準(zhǔn)確率達(dá)96.3%。綜合建模集和驗(yàn)證集數(shù)據(jù)獲得了該模型的ROC曲線,該曲線的AUC達(dá)0.988,說明試驗(yàn)準(zhǔn)確性高。該結(jié)果證明了熒光光譜技術(shù)是一種可行的果汁品種溯源技術(shù),在食品安全領(lǐng)域具有重要的應(yīng)用前景。