閆文豪,楊曉瑩,耿 鑫,王樂(lè)山,呂 亮,田 野*,李 穎,林 洪
1.中國(guó)海洋大學(xué)信息科學(xué)與工程學(xué)部物理與光電工程學(xué)院,山東 青島 266100 2.中國(guó)海洋大學(xué)食品科學(xué)與工程學(xué)院,山東 青島 266003
中國(guó)是水產(chǎn)品的生產(chǎn)和消費(fèi)大國(guó),水產(chǎn)品生產(chǎn)總量約占全球的33%,自2002年到2017年,中國(guó)水產(chǎn)品出口年均增長(zhǎng)率更是達(dá)到了11.08%[1]。由于不同魚(yú)類產(chǎn)品的品質(zhì)和價(jià)格差距懸殊,近緣?mèng)~類外觀質(zhì)地相似等特點(diǎn),市場(chǎng)上魚(yú)產(chǎn)品以假亂真、以次充好的現(xiàn)象層出不窮,損害了消費(fèi)者的消費(fèi)和健康權(quán)益。因此實(shí)現(xiàn)魚(yú)產(chǎn)品品種品質(zhì)的快速檢測(cè)具有重要的現(xiàn)實(shí)意義[2]。目前,肉類鑒別檢測(cè)方法主要包括感官分析、色譜技術(shù)、酶聯(lián)免疫吸附(ELISA)技術(shù)以及DNA技術(shù)等[3]。感官分析的可靠性、可比性較差。色譜技術(shù)需要對(duì)樣品進(jìn)行復(fù)雜的預(yù)處理、分析成本高。ELISA技術(shù)受抗原抗體特異性反應(yīng)的影響應(yīng)用范圍受到限制。DNA技術(shù)時(shí)間成本高,且操作繁瑣。因此迫切需求一種能夠進(jìn)行現(xiàn)場(chǎng)快速檢測(cè)且環(huán)境友好的新型肉品檢測(cè)技術(shù)[4]。
激光誘導(dǎo)擊穿光譜(laser induced breakdown spectroscopy,LIBS)技術(shù)具有樣品預(yù)處理簡(jiǎn)單、多元素同時(shí)檢測(cè),分析速度快的優(yōu)勢(shì),在食品成分檢測(cè)分析領(lǐng)域應(yīng)用潛力很大[5], 已被用于面粉[6]、紅酒[7]、茶葉[8]等不同種類的食品檢測(cè)。在肉品檢測(cè)方面也有不少相關(guān)研究,包括定量檢測(cè)牛肉和雞肉中的Ca、Mg、K、Na等元素含量[9]、豬肉中重金屬元素Cr的定量檢測(cè)[10]、以及不同肉類品種的分類鑒別[11]。本課題組前期也進(jìn)行了LIBS技術(shù)用于鱈魚(yú)中P、Fe、Al、Mn、K、Mg、Ca、Na八種元素的定量檢測(cè)[12],以及鱈魚(yú)、扇貝、青蝦三種水產(chǎn)品中P元素的定量檢測(cè)[13]。以上研究采用的均是實(shí)驗(yàn)室臺(tái)式LIBS分析設(shè)備,難以滿足現(xiàn)場(chǎng)便攜式的快速檢測(cè)需要。近年來(lái),隨著激光器、光譜儀、探測(cè)器等關(guān)鍵部件的小型化和低功耗,手持式LIBS分析設(shè)備獲得了快速發(fā)展,主要用于合金和地質(zhì)樣品的成分檢測(cè)[14],而在食品分析尤其是肉品快速檢測(cè)中則未見(jiàn)報(bào)道。
旨在評(píng)估手持式LIBS結(jié)合機(jī)器學(xué)習(xí)用于不同種類魚(yú)產(chǎn)品快速鑒別分析的可行性,利用手持式LIBS設(shè)備采集6種魚(yú)肉壓片樣本的光譜數(shù)據(jù),采用隨機(jī)森林(random forest,RF)算法建立分類模型,并通過(guò)模型參數(shù)尋優(yōu)、變量重要性提取等提高模型分類效果。結(jié)果表明采用RF模型結(jié)合變量重要性提取可以很好的將特征光譜中變量重要性高、對(duì)分類判別貢獻(xiàn)大的弱信號(hào)提取出來(lái),分類效果更加優(yōu)秀,且縮短了模型分析時(shí)間,更加符合現(xiàn)場(chǎng)快速檢測(cè)的實(shí)際需求。
選購(gòu)了三種海水魚(yú):鲅魚(yú)、黃花魚(yú)、牙鲆,和三種淡水魚(yú):草魚(yú)、鯉魚(yú)、鯽魚(yú),共六種魚(yú)肉樣品。將新鮮魚(yú)肉樣品用肉糜攪拌機(jī)打碎成勻漿烘干,并進(jìn)行壓片處理,以提高LIBS信號(hào)強(qiáng)度。取魚(yú)肉粉末與微晶纖維素[(C6H10O5)n]粘合劑按質(zhì)量比3∶2混合均勻,準(zhǔn)確稱量0.35 g混合粉末,轉(zhuǎn)移至粉末壓片機(jī)中,在15 MPa的壓力下保持3 min,得到片狀樣品。每種魚(yú)肉樣品制備3個(gè)平行壓片樣品。用SciAps公司生產(chǎn)的Z-200C+型手持式LIBS分析儀采集LIBS光譜,激光波長(zhǎng)為1 064 nm,單脈沖能量為5 mJ,重復(fù)頻率為50 Hz,聚焦光斑直徑為50 μm,內(nèi)置光譜儀的波長(zhǎng)范圍為190~950 nm。手持式LIBS分析儀進(jìn)行魚(yú)肉壓片樣品檢測(cè)的實(shí)物照片如圖1所示。每個(gè)壓片樣品在不同位置采集20條光譜,每條光譜為5次連續(xù)測(cè)量的平均。
圖1 本實(shí)驗(yàn)所用的手持式LIBS分析儀實(shí)物圖
手持式LIBS分析儀采集到的典型魚(yú)肉壓片樣品的光譜如圖2所示。與常規(guī)的LIBS臺(tái)式裝置相比,由于手持式LIBS分析儀采用的激光能量較小,導(dǎo)致譜線背景噪聲較大,但仍然可以探測(cè)到清晰的C、Mg、CN、Ca、Na、H、K、O等元素組分的特征譜線,為后續(xù)基于多變量分析的分類研究提供了可能。另外,由于實(shí)驗(yàn)過(guò)程中可能存在擊穿顆粒飛濺影響激光聚焦效果的問(wèn)題,以及脈沖激光能量本身的抖動(dòng),導(dǎo)致手持式LIBS采集到的光譜信號(hào)存在較為明顯的波動(dòng)性。因此在分類前對(duì)采集到的原始光譜數(shù)據(jù)進(jìn)行全譜面積歸一化預(yù)處理,以提高光譜數(shù)據(jù)的穩(wěn)定性和分類效果。
圖2 手持式LIBS分析儀采集的典型魚(yú)肉光譜圖
主成分分析(principal component analysis,PCA)是一種非監(jiān)督的聚類分析方法。在Matlab R2019軟件下,將魚(yú)肉光譜數(shù)據(jù)轉(zhuǎn)換到前k個(gè)特征向量構(gòu)造的新空間中降維。圖3給出了PCA對(duì)魚(yú)肉LIBS光譜數(shù)據(jù)的聚類分析結(jié)果,當(dāng)k=3時(shí),累積貢獻(xiàn)率達(dá)到85.9%。從圖中可以看出,經(jīng)過(guò)PCA降維后,海水魚(yú)和淡水魚(yú)的樣品可以較為明顯的聚類(因?yàn)楹K~(yú)中的Na元素含量顯著高于淡水魚(yú)),但不同海水魚(yú)之間和不同淡水魚(yú)之間則邊界模糊,難以有效區(qū)分。因此PCA對(duì)魚(yú)肉LIBS光譜數(shù)據(jù)的總體分類能力不強(qiáng),需采用其他算法進(jìn)行分類。
圖3 PCA對(duì)魚(yú)肉LIBS光譜數(shù)據(jù)的聚類分析結(jié)果
隨機(jī)森林(random forest,RF)是一種非線性的并行機(jī)器學(xué)習(xí)算法。由于數(shù)據(jù)集和決策樹(shù)節(jié)點(diǎn)分裂特征的隨機(jī)性,使隨機(jī)森林模型在保證識(shí)別精度的同時(shí)提高抗干擾能力。此外,隨機(jī)森林可以檢測(cè)到變量之間的互相影響,進(jìn)而得到變量重要性這一指標(biāo),有利于模型輸入變量的特征提取和優(yōu)化[15]。對(duì)全部魚(yú)肉LIBS光譜數(shù)據(jù)采用Bootstrap重采樣方法進(jìn)行隨機(jī)采樣,選取75%的光譜數(shù)據(jù)作為訓(xùn)練集,剩余25%作為檢驗(yàn)集。所涉及的光譜數(shù)據(jù)包含23 431個(gè)特征變量。將訓(xùn)練集光譜數(shù)據(jù)輸入Python軟件自帶的sklearn庫(kù)的RandomForestClassifier模塊中,生成多顆決策樹(shù)構(gòu)成RF模型。將檢驗(yàn)集輸入所構(gòu)建的RF模型,生成的每顆決策樹(shù)都會(huì)輸出一個(gè)識(shí)別結(jié)果,模型最終結(jié)果由眾多決策樹(shù)識(shí)別結(jié)果的眾數(shù)決定。
RF模型參數(shù)優(yōu)化的關(guān)鍵包括決策樹(shù)的個(gè)數(shù)與決策深度。當(dāng)決策樹(shù)個(gè)數(shù)過(guò)少時(shí),模型易發(fā)生欠擬合現(xiàn)象,而決策樹(shù)個(gè)數(shù)過(guò)多時(shí),又容易發(fā)生過(guò)擬合現(xiàn)象。當(dāng)限制了合適的決策深度后,決策樹(shù)在分裂時(shí)不會(huì)超過(guò)最大深度,可以在保持準(zhǔn)確度的情況下減少模型計(jì)算時(shí)間。采用網(wǎng)格尋優(yōu)的方法,計(jì)算模型袋外數(shù)據(jù)(OOB)誤差,確定最佳決策樹(shù)個(gè)數(shù)與決策深度。如圖4所示,當(dāng)決策樹(shù)數(shù)量一定時(shí),隨著決策深度的增加,OOB誤差從0.49迅速減小到0.15左右。當(dāng)決策深度為5,決策樹(shù)數(shù)量為350時(shí),模型的OOB誤差最小為0.144,表明模型的擬合效果最好,即采用該參數(shù)完成RF模型的訓(xùn)練。將檢驗(yàn)集光譜數(shù)據(jù)代入RF模型,表1給出了采用全部特征變量時(shí)六種魚(yú)肉樣品的識(shí)別正確率。結(jié)果顯示,通過(guò)優(yōu)化隨機(jī)森林參數(shù),模型的整體識(shí)別正確率可以達(dá)到90%。三種海水魚(yú)的識(shí)別精度較高,而三種淡水魚(yú)同屬鯉科魚(yú)類,物種間差異較小,識(shí)別正確率明顯低于海水魚(yú)。
圖4 隨機(jī)森林模型OOB誤差與決策數(shù)深度和決策樹(shù)個(gè)數(shù)的關(guān)系圖
由于LIBS光譜波長(zhǎng)范圍廣,整個(gè)光譜波長(zhǎng)范圍內(nèi)有23 431個(gè)特征變量,數(shù)據(jù)量大,且手持式LIBS分析儀采用的激光能量較小,光譜受背景噪聲干擾嚴(yán)重。因此期望通過(guò)隨機(jī)森林計(jì)算各個(gè)特征變量的重要性,提取變量重要性較大的波長(zhǎng)進(jìn)行光譜特征篩選,剔除譜線噪聲、背景等不相關(guān)變量的干擾,提高模型識(shí)別精度并減少模型運(yùn)算時(shí)間。通過(guò)RF模型輸出光譜數(shù)據(jù)中每個(gè)波長(zhǎng)變量對(duì)應(yīng)的變量重要性,由大到小對(duì)其進(jìn)行排序,依次增加提取的變量個(gè)數(shù),得到模型識(shí)別正確率隨變量重要性個(gè)數(shù)之間的變化關(guān)系曲線,如圖5所示??梢钥闯觯S著提取變量個(gè)數(shù)的增加,模型的識(shí)別正確率先迅速升高,之后保持在一個(gè)較為穩(wěn)定的區(qū)間范圍內(nèi),當(dāng)變量個(gè)數(shù)為597個(gè)時(shí),識(shí)別正確率最高,達(dá)到94.44%。
圖5 RF模型識(shí)別正確率隨重要變量個(gè)數(shù)的變化
表1給出了RF模型經(jīng)過(guò)變量重要性提取前后,六種魚(yú)肉識(shí)別正確率的對(duì)比??梢钥闯?,特征提取后的RF模型對(duì)六種魚(yú)肉的整體識(shí)別正確率提高到94.44%。與采用全部變量的RF模型相比,三種淡水魚(yú)樣品經(jīng)過(guò)特征提取后,模型分類效果得到明顯改善,草魚(yú)、鯽魚(yú)、鯉魚(yú)的識(shí)別正確率分別由82.35%,81.25%和90%提高到94.11%,87.5%和95%。且經(jīng)過(guò)特征提取后,RF模型的輸入變量由23 431個(gè)減少到597個(gè),模型運(yùn)算時(shí)間由1 h降低到15 min以內(nèi)。因此通過(guò)RF模型輸出變量重要性進(jìn)行特征提取,模型識(shí)別精度和運(yùn)算效率均得到了明顯提升。
表1 RF模型進(jìn)行變量重要性提取前后的識(shí)別正確率
為了評(píng)估魚(yú)肉中的不同元素對(duì)模型判別分類的貢獻(xiàn),對(duì)RF輸出的變量重要性由大到小排序,得到變量重要性在前8位的元素分別是Na、K、Mg、Ca、P、Rb、H、C,如圖6所示。C、H、O、N作為魚(yú)肉中的有機(jī)基體元素,盡管其含量最高,但對(duì)模型分類的貢獻(xiàn)遠(yuǎn)低于Na、K、Mg、Ca、P、Rb等常量和微量元素。這也證明了利用RF變量重要性進(jìn)行特征提取,能夠很好地將對(duì)模型分類貢獻(xiàn)大的特征變量篩選出來(lái)。進(jìn)一步地,圖7給出了C Ⅰ 193.1 nm和P Ⅰ 213.6 nm兩條特征譜線及其所對(duì)應(yīng)的變量重要性,可以看出,盡管P元素的譜線強(qiáng)度明顯低于C元素,但其變量重要性卻明顯高于C元素。這體現(xiàn)了RF模型結(jié)合變量重要性提取對(duì)弱信號(hào)的鑒別能力,將其作為特征變量進(jìn)行模型的訓(xùn)練和預(yù)測(cè),能夠有效避免模型出現(xiàn)過(guò)擬合的情況,提高模型的識(shí)別精度。
圖6 按照RF變量重要性大小排序的前8種元素組分
將LIBS技術(shù)結(jié)合隨機(jī)森林算法用于不同魚(yú)肉種類的快速鑒別分析。首先采用手持式LIBS分析儀采集6種魚(yú)肉壓片樣品的光譜數(shù)據(jù),通過(guò)PCA聚類分析發(fā)現(xiàn)不同海水魚(yú)之間和不同淡水魚(yú)之間的樣品難以有效區(qū)分。之后采用隨機(jī)森林算法建立分類模型,通過(guò)優(yōu)化決策樹(shù)個(gè)數(shù)和決策深度,實(shí)現(xiàn)RF模型對(duì)訓(xùn)練集數(shù)據(jù)的最佳擬合,檢驗(yàn)集的整體識(shí)別正確率為90%。為進(jìn)一步提高模型識(shí)別精度和分析效率,采用RF模型輸出的變量重要性進(jìn)行光譜特征提取。結(jié)果表明,經(jīng)過(guò)特征提取后,整體識(shí)別正確率提高到94.44%,且模型輸入變量由23 431個(gè)減少到597個(gè),模型運(yùn)算時(shí)間顯著降低。通過(guò)對(duì)比RF輸出的變量重要性與LIBS特征譜線,發(fā)現(xiàn)Na、K、Mg、Ca、P、Rb等常量和微量元素所對(duì)應(yīng)的特征波長(zhǎng)具有較高的變量重要性,表明RF模型結(jié)合變量重要性提取可以很好地將LIBS光譜中變量重要性高的弱信號(hào)提取出來(lái),有效剔除了譜線噪聲、背景、以及其他不相關(guān)變量的干擾,提高模型的識(shí)別精度和分析效率。該工作驗(yàn)證了手持式LIBS設(shè)備結(jié)合機(jī)器學(xué)習(xí)方法用于市場(chǎng)魚(yú)產(chǎn)品快速鑒別分析的可行性。
圖7 C Ⅰ 193.1 nm和P Ⅰ 213.6 nm譜線及其RF變量重要性