劉培江
(山東煙草研究院有限公司,山東 濟(jì)南 250098)
隨著人們對(duì)食藥安全關(guān)注的提升,經(jīng)常需要對(duì)農(nóng)作物進(jìn)行化學(xué)成分檢測(cè)。目前常見(jiàn)的檢測(cè)方式主要通過(guò)化學(xué)手段進(jìn)行定量或定性分析,但這種方式通常要以破壞農(nóng)作物為代價(jià),而且化學(xué)試劑的生產(chǎn)、使用、處置都會(huì)對(duì)環(huán)境造成進(jìn)一步污染。近紅外分析技術(shù)作為一種快速、無(wú)損、綠色的化學(xué)成分檢測(cè)手段,目前在很多領(lǐng)域已經(jīng)逐步替代化學(xué)方法成為主要的檢測(cè)方式。近紅外光譜儀最開(kāi)始的用途是分子結(jié)構(gòu)理論的研究,隨著近紅外硬件技術(shù)的改進(jìn),獲得的近紅外光譜逐步趨于穩(wěn)定,光譜中包含的特征信息逐步被挖掘利用起來(lái)。尤其是隨著機(jī)器學(xué)習(xí)、人工智能分析技術(shù)的發(fā)展,近紅外光譜中信息的價(jià)值得到了越來(lái)越廣泛地重視和應(yīng)用。作為近紅外光譜分析技術(shù)的奠基人,Karl Norris 等人在20 世紀(jì)50 年代開(kāi)始將近紅外分析技術(shù)應(yīng)用于谷物、飼料、水果、蔬菜等的化學(xué)成分定量檢測(cè)[1]。許祿在1992 年出版的《化學(xué)計(jì)量學(xué)方法》中將多元統(tǒng)計(jì)變量方法引入到近紅外光譜分析技術(shù)中來(lái)[2],為近紅外光譜分析技術(shù)應(yīng)用提供了理論和技術(shù)支撐?;瘜W(xué)計(jì)量學(xué)成為當(dāng)時(shí)近紅外光譜數(shù)據(jù)預(yù)處理及定量定性分析的主流技術(shù)。經(jīng)過(guò)幾十年的研究發(fā)展,近紅外光譜分析技術(shù)已經(jīng)成為現(xiàn)在較具應(yīng)用前景的分析技術(shù)之一,歐美許多國(guó)家已經(jīng)將近紅外光譜分析技術(shù)廣泛應(yīng)用于食品、藥品等多個(gè)領(lǐng)域,取得了較好的經(jīng)濟(jì)和社會(huì)效益。
近紅外光譜分析技術(shù)被廣泛應(yīng)用于煙草行業(yè)[3-11],主要用來(lái)進(jìn)行煙草化學(xué)成分分析及測(cè)試醋酸纖維濾棒中的三醋酸甘油酯等。山東煙草于2013 年立項(xiàng)“山東煙葉品質(zhì)快速檢測(cè)與分析網(wǎng)絡(luò)技術(shù)研究”重點(diǎn)科技項(xiàng)目,針對(duì)山東煙葉質(zhì)量評(píng)價(jià)滯后、缺乏快速檢測(cè)手段、質(zhì)量領(lǐng)域信息化薄弱等實(shí)際問(wèn)題,項(xiàng)目將利用近紅外光譜分析等技術(shù),研究煙葉常規(guī)化學(xué)成分定量分析基本模型,搭建山東煙葉品質(zhì)快速分析網(wǎng)絡(luò)系統(tǒng),實(shí)現(xiàn)了煙葉常規(guī)六項(xiàng)化學(xué)成分的快速檢測(cè),初步構(gòu)建了山東煙葉質(zhì)量數(shù)據(jù)庫(kù)與光譜數(shù)據(jù)庫(kù),并開(kāi)展質(zhì)量數(shù)據(jù)多維度分析,形成了“硬件終端+網(wǎng)絡(luò)+技術(shù)模型+軟件系統(tǒng)+分析應(yīng)用+標(biāo)準(zhǔn)規(guī)范”的體系化的成套技術(shù)方案。隨后該項(xiàng)目在山東煙葉產(chǎn)區(qū)進(jìn)行了推廣應(yīng)用,2013~2021 年連續(xù)9 年組織開(kāi)展全省6 個(gè)煙葉產(chǎn)區(qū)的煙葉質(zhì)量檢測(cè)與分析,每年采集數(shù)百煙葉樣品進(jìn)行常規(guī)化學(xué)成分檢測(cè),并利用檢測(cè)結(jié)果編制印發(fā)《山東煙葉品質(zhì)分析報(bào)告》,從煙葉樣品的總體質(zhì)量、年度質(zhì)量變化、化學(xué)成分協(xié)調(diào)性、產(chǎn)區(qū)差異性、存在的主要問(wèn)題等方面對(duì)全省煙葉質(zhì)量進(jìn)行了多視角分析。目前,已累計(jì)近紅外光譜信息19 000 余條、煙葉內(nèi)在品質(zhì)信息15 000 余條,可實(shí)現(xiàn)煙葉粉末樣品總糖、還原糖、總氮、總煙堿、鉀、氯、淀粉等常規(guī)化學(xué)成分的1 分鐘快速檢測(cè)。
本研究將在前期項(xiàng)目研究的基礎(chǔ)上進(jìn)一步挖掘近紅外光譜特征的價(jià)值,因?yàn)榻t外光譜向量中每一維特征與煙葉化學(xué)成分定量分析的相關(guān)性(貢獻(xiàn)度)是不同的,本文將利用Relief-F 學(xué)習(xí)算法[12]對(duì)煙葉的近紅外光譜特征貢獻(xiàn)度進(jìn)行綜合分析,對(duì)煙葉常規(guī)六項(xiàng)化學(xué)成分中每一項(xiàng)都找出最相關(guān)的光譜特征子集(光譜譜段),并分析之間的關(guān)系,為改進(jìn)煙葉品質(zhì)近紅外光譜分析算法,進(jìn)一步提高煙葉品質(zhì)檢測(cè)準(zhǔn)確率及執(zhí)行效率打好基礎(chǔ)。
為保證所采集煙葉近紅外光譜的質(zhì)量,在采集前需要對(duì)煙葉樣品進(jìn)行一系列預(yù)處理工作,所有樣品制備方式與要求參考YC/T31-1996《煙草及煙草制品 試樣的制備》標(biāo)準(zhǔn)執(zhí)行。具體樣品制備流程,見(jiàn)圖1。
圖1 煙葉近紅外樣品制作流程
關(guān)鍵操作及其注意事項(xiàng)如下:
(1) 樣品抽樣:去除樣品中的雜質(zhì),比如紙屑、雜草及變質(zhì)煙葉等。(2)剔除煙梗:抽掉煙葉葉脈。
(3)烘干:使用鼓風(fēng)干燥箱以60 ℃烘干4 h,使樣品含水率達(dá)到基本一致。
(4)磨粉:使用旋風(fēng)磨磨粉,過(guò)濾網(wǎng)密度為40目。
(5)保存:將樣品粉末裝入干凈的密封瓶(或者密封袋)中密封起來(lái),充分搖動(dòng),混合均勻,放低溫下避光保存。
其中,烘干與磨粉兩個(gè)步驟的時(shí)間間隔不超過(guò)1h;樣品制樣完成后,應(yīng)在2 mth 內(nèi)完成化學(xué)成分檢測(cè)和留樣粉末樣品掃描工作,以保障實(shí)驗(yàn)數(shù)據(jù)的一致性。
1.2.1 儀器參數(shù)
選用福斯NIRS DS2500 近紅外光譜儀進(jìn)行樣品光譜采集,光譜儀的主要技術(shù)參數(shù)見(jiàn)表1。
表1 NIRS DS2500 近紅外光譜儀技術(shù)參數(shù)
1.2.2 環(huán)境溫濕度
環(huán)境濕度對(duì)設(shè)備穩(wěn)定性和樣品物理狀態(tài)的影響較大。本次實(shí)驗(yàn)環(huán)境溫濕度為:空氣相對(duì)濕度范圍保持20%~70%,溫度范圍為20 ℃~25 ℃,每小時(shí)的溫度變化不大于2 ℃,濕度變化不大于2%,以保證樣品檢測(cè)準(zhǔn)確性。
1.2.3 樣品光譜采集
在穩(wěn)定環(huán)境溫濕度條件下,將重量為20 g 左右樣品粉末倒入樣品杯中,放置壓樣器,將樣品杯放在近紅外設(shè)備上進(jìn)行掃描。每個(gè)樣品重復(fù)裝樣測(cè)定兩次,兩次掃描結(jié)果的平均值作為最終結(jié)果。
新采集的煙葉近紅外光譜由于受樣品內(nèi)在狀態(tài)、外在環(huán)境等因素影響,存在著各種噪聲問(wèn)題,這些噪聲如果不加以處理會(huì)對(duì)檢測(cè)結(jié)果的準(zhǔn)確性造成影響,這就需要對(duì)光譜進(jìn)行預(yù)處理工作,常用的預(yù)處理技術(shù)包括:
(1)去噪聲:第一步,選擇合適的窗口通過(guò)移動(dòng)平滑的辦法去掉高頻噪聲的干擾;第二步,使用微分過(guò)濾的方法去除由儀器原因產(chǎn)生的噪聲。
(2)數(shù)據(jù)清洗:剔除無(wú)效數(shù)據(jù),舍棄信息少的光譜頻段,減少后續(xù)計(jì)算量。
(3)歸一化:通過(guò)量綱變換消除樣品不均勻等變化造成的影響。
經(jīng)預(yù)處理后取波長(zhǎng)在[1120,2600]的近紅外光譜作為我們的實(shí)驗(yàn)數(shù)據(jù),樣例,見(jiàn)圖2。
圖2 預(yù)處理后煙葉近紅外光譜圖樣例
Relief-F 算法是一種有監(jiān)督的過(guò)濾式特征選擇算法,它的返回結(jié)果是關(guān)于全體特征的相關(guān)系數(shù)。Relief-F 算法的主要過(guò)程包括以下幾步:
(1)初始化相關(guān)系數(shù)向量W(a) = 0,以及一個(gè)自定義整數(shù)m。
(2)隨機(jī)選擇一個(gè)實(shí)例(樣本)Ri。
(3)在與Ri 同類的樣本中找到Ri的k 個(gè)最近鄰Hj。
(4)在其他每類樣本中找到Ri的k 個(gè)最近鄰Mj(C),其中C≠class(Ri)。
(5)對(duì)于a 中的每一維特征通過(guò)下面的公式計(jì)算其相關(guān)系數(shù)W(a):
(6)從步驟1 開(kāi)始重復(fù)以上操作,直到返回所有特征的相關(guān)系數(shù)向量W(a)。
從以上算法的整個(gè)過(guò)程我們可以看到,Relief-F算法在計(jì)算特征相關(guān)系數(shù)時(shí)僅僅用到了訓(xùn)練數(shù)據(jù)的一些整體性質(zhì),并未涉及到任何分類器算法,這保證了算法的獨(dú)立性。
本次實(shí)驗(yàn)共采集煙葉樣品202 個(gè),使用福斯NIRS DS2500 近紅外光譜儀掃描得煙葉近紅外光譜202 條(波長(zhǎng)區(qū)間[1 120,2 760]),采用化學(xué)流動(dòng)分析方法檢測(cè)獲得樣品的總煙堿、總糖、還原糖、鉀和氯5項(xiàng)指標(biāo)數(shù)據(jù),采用凱氏定氮儀設(shè)備檢測(cè)獲得樣品總氮指標(biāo)數(shù)據(jù),所有指標(biāo)的檢測(cè)數(shù)據(jù)盡可能保證準(zhǔn)確、可靠,樣品參考化學(xué)成分測(cè)定和相應(yīng)光譜采集時(shí)間間隔不超過(guò)1 mth。使用Relief-F 學(xué)習(xí)算法分析得出近紅外光譜與總煙堿、總糖指標(biāo)的相關(guān)系數(shù),見(jiàn)圖3。從圖3 可以看出,波長(zhǎng)區(qū)間[1 440,1 620]的近紅外光譜與總煙堿具有最強(qiáng)的相關(guān)性,區(qū)間[1 750,2 060]的近紅外光譜也具有較強(qiáng)的相關(guān)性;低波長(zhǎng)[1 120,1 620]的近紅外光譜與總糖具有較強(qiáng)相關(guān)性,尤其是區(qū)間[1 430,1 600]。使用Relief-F 學(xué)習(xí)算法分析得出近紅外光譜與還原糖、總氮指標(biāo)的相關(guān)系數(shù),見(jiàn)圖4。從圖4可以看出,低波長(zhǎng)[1 120,1 620]的近紅外光譜與還原糖具有較強(qiáng)相關(guān)性,尤其是區(qū)間[1 440,1 610],波長(zhǎng)2 080 nm 附近部分光譜與還原糖具有一定的相關(guān)性;高波長(zhǎng)[1 870,2 600]的近紅外光譜與總氮具有較強(qiáng)相關(guān)性,其中區(qū)間[1 910,2 000]的光譜相關(guān)性最強(qiáng)。使用Relief-F 學(xué)習(xí)算法分析得出近紅外光譜與鉀、氯指標(biāo)的相關(guān)系數(shù),見(jiàn)圖5。從圖5 可以看出,波長(zhǎng)區(qū)間[1 430,1 610] 的近紅外光譜與鉀含量具有最強(qiáng)的相關(guān)性;波長(zhǎng)區(qū)間[1 430,1 620]∪[1 910,1 985]∪[2 015,5 135]∪[2 430,2 600]的近紅外光譜與氯含量具有較強(qiáng)的相關(guān)性。對(duì)比分析發(fā)現(xiàn),除總氮外,其他五項(xiàng)化學(xué)成分與波長(zhǎng)區(qū)間[1 430,1 620]的近紅外光譜都具有較高相關(guān)性,光譜價(jià)值較高;總糖與還原糖與近紅外光譜相關(guān)性較類似,不同的是,波長(zhǎng)2 080 nm 附近部分光譜與還原糖具有一定的相關(guān)性,而總糖表現(xiàn)不明顯。
圖3 近紅外光譜與總煙堿(左圖)、總糖(右圖)指標(biāo)的相關(guān)系數(shù)
圖4 近紅外光譜與總還原糖(左圖)、總氮(右圖)指標(biāo)的相關(guān)系數(shù)
圖5 近紅外光譜與鉀(左圖)、氯(右圖)指標(biāo)的相關(guān)系數(shù)
本研究首先介紹了煙葉近紅外光譜的采集及預(yù)處理過(guò)程,簡(jiǎn)單介紹了Relief-F 學(xué)習(xí)算法的運(yùn)行機(jī)制,最后利用Relief-F 學(xué)習(xí)算法對(duì)煙葉近紅外光譜特征與常規(guī)六項(xiàng)化學(xué)成分的相關(guān)性進(jìn)行了深入分析,找出了貢獻(xiàn)度最高的光譜子集(波長(zhǎng)區(qū)間),這些光譜子集對(duì)于煙葉常規(guī)化學(xué)成分檢測(cè)的價(jià)值較高。如何妥善利用本研究的結(jié)論,提高煙葉品質(zhì)檢測(cè)準(zhǔn)確率及執(zhí)行效率,拓寬近紅外光譜在煙葉品質(zhì)方面的應(yīng)用范圍將是我們下一步的研究重點(diǎn)。