沙 敏 桂冬冬 張正勇 吉昕妍 蔣丙晨 劉 軍 張 丁
(南京財經(jīng)大學(xué)管理科學(xué)與工程學(xué)院1,南京 210023)
(南京理工大學(xué)化工學(xué)院2,南京 210094)
中國是世界上100多個水稻生產(chǎn)國中的“稻米王國”,我國約60%的人口以稻米為主食[1]。根據(jù)GB/T 1354—2018,大米按原料稻谷類型分為秈米、粳米和糯米3類。大米間化學(xué)成分的含量和糊化等理化特性有較大的差異[2],因而食味品質(zhì)差別明顯[3-5],只有某些秈米品種才能制作出品質(zhì)優(yōu)良的米粉[6],現(xiàn)階段稻米食品加工原料的選擇大多憑經(jīng)驗,盲目性較大,食品品質(zhì)難以得到保證。隨著物質(zhì)生活水平提高,人們消費需求已從“要吃飽”轉(zhuǎn)為“要吃好”,促使水稻生產(chǎn)從重“量”轉(zhuǎn)向重“質(zhì)”。中國在稻作栽培和稻作育種都是秈粳并重的國家[7],對于秈粳稻的雜交育種,如果對秈粳稻的特征特性認(rèn)識不深,會導(dǎo)致測配選親本困難及測配結(jié)果不理想,甚至育成品種亞種特性較典型秈粳型的變化,遺傳規(guī)律及與經(jīng)濟(jì)性狀的關(guān)系等難以確定。此外,早秈稻因生長期雨水充沛、病蟲害少、災(zāi)害性天氣不多,因此化肥、農(nóng)藥的施用量相對較少,故質(zhì)量安全、品質(zhì)明顯高于粳稻和中晚稻,營養(yǎng)價值好[8]。因此,正確地了解秈粳分類和判別秈粳是秈粳稻產(chǎn)品加工和雜交育種等急需研究的問題[9]。
目前,在栽培稻秈粳亞種的分類鑒別中得到應(yīng)用的方法有感官評價法、形態(tài)指數(shù)鑒定法、雜交親和力鑒定法、同工酶基因數(shù)量化鑒定法、DNA分子標(biāo)記鑒定法、氯酸鉀抗性鑒定法、機(jī)動細(xì)胞硅酸體形態(tài)性狀鑒定法、雙峰乳突鑒定法等[3]。感官評價法鑒別大米種類不僅對鑒別的環(huán)境要求高而且主觀因素干擾大[10]。形態(tài)指數(shù)鑒定法、同工酶基因數(shù)量化鑒定法、DNA分子標(biāo)記鑒定法、機(jī)動細(xì)胞硅酸體形態(tài)性狀鑒定法等方法需要收集多個指標(biāo)形狀進(jìn)行分類。雜交親和力鑒定法受環(huán)境尤其是溫度的影響較大。且這些方法均需要一定的軟硬件條件支撐,操作煩瑣,耗時費力。因此,急需一種準(zhǔn)確度高、快速高效、成本低的大米種類鑒別方法。
大米的化學(xué)成分與大米種類及生長環(huán)境的關(guān)系非常密切,且含量具有可定量、相對穩(wěn)定的特點[11]。然而化學(xué)成分相對復(fù)雜,用單一或若干組分的信息難以鑒別產(chǎn)品[12],通常采用能夠反映整體信息的指紋圖譜結(jié)合多元統(tǒng)計分析方法[13,14]。拉曼光譜法因具有靈敏度高、操作簡便、測試時間短、無損分析等優(yōu)點,近年來逐步被用于大米的新陳鑒別、轉(zhuǎn)基金鑒別、產(chǎn)地鑒別和摻假鑒別分析[15-19],但在大米種類鑒別方面的應(yīng)用稀少。江南大學(xué)張輝課題組先后用Lab RAM HR Evolution型顯微共聚焦拉曼光譜儀采集大米拉曼光譜,然后結(jié)合SIMCA和PLSDA 2種模式識別方法建立粳米、秈米、糯米分類鑒別模型,識別準(zhǔn)確率均大于96%[20,21]。這些研究在采集大米指紋圖譜時,對大米直接進(jìn)行測試,而大米內(nèi)外成分不一[22],且加工工藝如拋光等會導(dǎo)致大米表面成分的差異,因而,僅采集大米表面的拉曼光譜不足以反映大米的整體成分信息。Sha等[23]研究了大米粉碎粒度對拉曼光譜的影響,發(fā)現(xiàn)粉碎粒度為100~140目米粉的拉曼光譜間相對標(biāo)準(zhǔn)偏差最小,相似度最高,該粒度下米粉的均勻性最佳,所得拉曼光譜的穩(wěn)定性最高,可為大米分析提供穩(wěn)定、可靠的數(shù)據(jù)源。
本研究利用便攜式拉曼光譜分析技術(shù),采集粉碎粒度為100~140目米粉的拉曼光譜,借助模式識別方法海量提取大米拉曼光譜信息,建立大米種類簡單、快速、準(zhǔn)確的分類鑒別模型,以期為檢測水稻種類提供借鑒,并最終幫助消費者選擇所需種類和質(zhì)量的大米。
本實驗共采集72份大米樣品,均為常規(guī)稻,包括秈米28份(湖北9份、云南10份、海南9份);粳米25份(江蘇10份、黑龍江10份、吉林5份);糯米 19份(湖北5份、安徽9 份、云南5份),生產(chǎn)日期為2018年。
Prott-ezRaman-d3便攜式激光拉曼光譜儀,激光波長785 nm;15B型立式粉碎機(jī)自帶篩網(wǎng)網(wǎng)孔直徑為0.6 mm;石英樣品池(定制,長4 cm,寬2 cm,厚3 mm,正中央圓形凹槽直徑1.5 mm,深度2 mm);篩子(100目和140目)。
1.3.1 樣品制備
準(zhǔn)確稱取每份大米20 g,待粉碎機(jī)預(yù)熱運(yùn)行1 min后,在30 s內(nèi)緩慢加入大米,再粉碎2 min,確保大米粉碎完全。米粉依次經(jīng)100目和140目篩進(jìn)行顆粒分級,收集粒度為100~140目的米粉,用于后續(xù)譜圖測試。
1.3.2 拉曼光譜譜圖測試
經(jīng)前期大量拉曼測試條件優(yōu)化實驗得峰形佳、峰強(qiáng)度高且樣品無明顯熱損失的最佳拉曼光譜采集參數(shù)如下:功率450 mW,CCD檢測器 -85 ℃,掃描范圍250~2 339 cm-1,分辨率1 cm-1,曝光時間4 s,掃描次數(shù)3次,激光與樣品表面的距離5 mm。
1.3.3 數(shù)據(jù)分析
為了降低實驗儀器的噪聲干擾,基于MATLAB 2016a平臺利用wden小波函數(shù)對拉曼光譜數(shù)據(jù)進(jìn)行小波去噪,隨后進(jìn)行數(shù)據(jù)歸一化處理,然后分別采用主成分分析(PCA)[24-26]、層次聚類分析(HCA)[27-29]和支持向量機(jī)(SVM)[30-32]3種方法進(jìn)行分析。主成分分析以得分矩陣中的特征主成分(PC1,PC2,PC3)投影到三維空間坐標(biāo)系中,利用三維坐標(biāo)系中各模式點的分布進(jìn)行分類與判別。聚類分析采用凝聚的層次聚類分析方法,其中,距離度量的方法采用歐氏距離、標(biāo)準(zhǔn)化歐氏距離、城市街區(qū)距離和余弦距離,創(chuàng)建系統(tǒng)聚類樹的方法使用平均距離法、最短距離法和最長距離法。
分別以秈米中的遮放貢米(ZF)、粳米中的七星粳米一號(JSJ)和糯米中的白蓮坡糯米(NA)作為3種大米的典型,粉碎后取粒度在100~140目的米粉測試?yán)庾V。經(jīng)wden小波去噪和mapminmax歸一化預(yù)處理后的拉曼光譜圖如圖1所示,整體上看3種大米的拉曼光譜高度相似,峰的信號主要出現(xiàn)在250~1 500 cm-1范圍內(nèi),因此后續(xù)分析均只考慮該波段內(nèi)的數(shù)據(jù)。
圖1 3種大米的拉曼光譜圖
盡管高度相似,但3種大米在部分波段范圍內(nèi)有肉眼可見差異。以每個產(chǎn)地1個大米為代表,共9種大米的拉曼光譜對照圖如圖2所示,其中,實線代表糯米,短劃線代表秈米,點劃線代表粳米。糯米在425、455、1 410 cm-1附近區(qū)域內(nèi)的吸收峰強(qiáng)度明顯高于粳米和秈米,但在1 450 cm-1附近的光強(qiáng)卻低于其他2種米,根據(jù)朗伯-比耳定律,糯米與其他2種米的部分成分含量差異略大。在455 cm-1附近區(qū)域,3種大米的最大吸收光強(qiáng)對應(yīng)的波長位置有明顯差異,說明這3種大米的部分成分在結(jié)構(gòu)上存在差異。在1 410 cm-1附近區(qū)域,3種大米的吸收峰形狀有明顯差異,糯米和粳米的吸收曲線有明顯峰頂,秈米的吸收曲線則較平滑,這些信號的差異給用拉曼光譜鑒別大米種類提供了可能。
圖2 拉曼光譜局部放大圖
3種大米的72個拉曼光譜數(shù)據(jù)依次去噪、歸一化處理后經(jīng)主成分分析,前15個主成分的貢獻(xiàn)率如圖3所示,累計貢獻(xiàn)率達(dá)85.41%。其中,第一主成分解釋了27.53%的原始信息,第二主成分解釋了23.30%的信息量,第三主成分解釋了10.34%的信息量,前3個主成分的累計貢獻(xiàn)率為61.17%,包含了拉曼光譜數(shù)據(jù)大部分的信息。
圖3 前15個主成分的貢獻(xiàn)率圖
將72個樣本投影到以得分矩陣中的前3個特征主成分(PC1、PC2、PC3)構(gòu)成的三維空間坐標(biāo)系中(見圖4)。可見秈米和糯米分布在粳米兩側(cè),聚類特征較為明顯,秈米和糯米可明顯區(qū)分開。而粳米與秈米、粳米與糯米樣本間分布區(qū)域有一定的重疊,較難實現(xiàn)精確分類。PCA分析可直觀反映2種大米的相似程度,但三者之間分類界限不明顯,還需要進(jìn)一步建立相關(guān)的模型進(jìn)行判別。
圖4 3種大米PCA分析圖
進(jìn)一步地,根據(jù)前3個主成分的載荷圖(圖5)分析粳米、秈米、糯米分類的主要特征波段,可以得出420~560 cm-1、860~980 cm-1、1 000~1 200 cm-1、1 300~1 500 cm-1對粳米、秈米和糯米分類的貢獻(xiàn)較大。該結(jié)果與圖2肉眼可見拉曼光譜差異波段相比較基本吻合,多了860~980 cm-1波段,說明模式識別方法具備高效的特征提取和數(shù)據(jù)分析能力,可揭示指紋圖譜數(shù)據(jù)中的隱含信息。據(jù)文獻(xiàn)報道[20],這些差異來源如表1所示,可知3種大米可區(qū)分的關(guān)鍵成分為蛋白質(zhì)和淀粉,與文獻(xiàn)[9]所述大米的主要成分差異一致??傊竺椎睦庾V是多種成分的綜合反映,每個譜帶的強(qiáng)度、位置和寬度變化是由于不同組分的含量和微觀結(jié)構(gòu)的差異導(dǎo)致的。
圖5 前3個主成分的載荷圖
表1近似峰值及其對應(yīng)的基團(tuán)及振動形式[20-21]
近似峰值/cm-1基團(tuán)及振動形式1 458C—H彎曲1 452CH2(或CH3)變形1 440~1 320C—O—H彎曲1 391,905支鏈淀粉1 360色氨酸1 342CH2扭曲1 314CH2搖擺1 253,850直鏈淀粉1 200~1 000C—O—H拉伸1 155C—C拉伸1 132,1 082,1 037,941α-環(huán)狀糊精1 032脯氨酸1 004苯丙氨酸920~960α-和β-糖苷鍵的不同振動525S—S伸縮振動439,476,576淀粉中葡萄糖單元
圖6 三種大米的聚類樹圖
數(shù)據(jù)經(jīng)去噪、歸一化及特征提取處理后,經(jīng)HCA分析。分別使用不同的距離度量和不同的創(chuàng)建系統(tǒng)聚類樹的方法,計算它們之間的同表象型相關(guān)系數(shù),結(jié)果如表2所示,同表象型相關(guān)系數(shù)最大值為0.810 4,對應(yīng)的距離度量是標(biāo)準(zhǔn)歐氏距離,創(chuàng)建系統(tǒng)聚類樹的方法是平均距離法,所創(chuàng)建的聚類樹的樹狀圖如圖6所示。
表2 不同聚類樹創(chuàng)建方法的同表象型相關(guān)系數(shù)
圖中,樣本編號1~28為秈米,29~47為糯米,48~72為粳米。糯米樣本分布在A區(qū)內(nèi),除了29號和31號樣本之外全部歸在一簇,可與秈米和粳米很好的區(qū)分開。其中,29號樣本混在秈米樣本簇中,31號樣本自成1簇。粳米的25個樣本聚成了2簇,其中1簇(B區(qū)域,8個樣本)與秈米混在一起,另1簇與糯米比較類似(A區(qū)域),說明粳米與秈米和糯米均有一定的相似性,這一結(jié)果與前述PCA結(jié)果一致。秈米樣本分布在B區(qū)內(nèi),除了19、26和28這3個樣本外聚成了2簇,且這3個樣本均混在A區(qū)的粳米簇中,說明粳米和秈米部分樣本相似度較高,使用HCA方法容易誤判。綜上,HCA方法與PCA方法類似,也可直觀反映3種大米間的差異情況,相較PCA而言,HCA可進(jìn)一步對樣本進(jìn)行分類判別,如上分析,3種大米錯誤判別的樣本數(shù)為糯米2個、秈米3個、粳米8個,歸類準(zhǔn)確率為81.94%,可見HCA方法判別準(zhǔn)確率偏低。
為了提高識別準(zhǔn)確率,引入支持向量機(jī)建立智能識別模型。采用隨機(jī)函數(shù)隨機(jī)選取37個樣本作為訓(xùn)練集來訓(xùn)練模型(秈米14個,粳米13個,糯米10個),剩余的樣本(秈米14個,粳米12個,糯米9個)作為驗證集樣本驗證所建模型的準(zhǔn)確性。以RBF為核函數(shù),懲罰參數(shù)C和核參數(shù)g的尋優(yōu)使用網(wǎng)格搜索法,具體參數(shù)設(shè)置:C的變化范圍限定為[2-10,25],g的范圍取[2-10,2],進(jìn)行5折交叉驗證,C和g的步進(jìn)值均為0.5,最后參數(shù)選擇結(jié)果圖中準(zhǔn)確率離散化顯示的步進(jìn)值為4.5。為提高模型的可靠性,將隨機(jī)運(yùn)行10次的平均值作為模型的識別準(zhǔn)確率,結(jié)果如表3所示,模型平均識別率為98.86%,優(yōu)于HCA方法(81.94%)。
表3 10次運(yùn)行準(zhǔn)確率
為實現(xiàn)3種大米的準(zhǔn)確、快速鑒別,從全國粳米、秈米和糯米的主產(chǎn)區(qū)分別選購72份大米樣品,包括秈米28份、粳米25份和糯米19份,大米經(jīng)粉碎取100~140目的米粉,采集米粉的拉曼光譜,依次對譜圖數(shù)據(jù)進(jìn)行去噪、歸一化和特征提取后,綜合運(yùn)用主成分分析、層次聚類分析和支持向量機(jī)3種方法對粳米、秈米和糯米進(jìn)行聚類與模式識別研究。拉曼光譜數(shù)據(jù)經(jīng)PCA降維分析,可直觀地將3種大米歸為3簇,秈米和糯米可被區(qū)分開,但粳米與糯米、粳米與秈米不能區(qū)分。HCA分析表明粳米與秈米較難區(qū)分,糯米與其他2種米有較大差異,但3種大米的歸類準(zhǔn)確率為81.94%,鑒別效果不理想。SVM判別方法10次運(yùn)行的平均識別率達(dá)98.86%。實驗證明:拉曼光譜法結(jié)合支持向量機(jī)用于大米種類的分類與識別簡單快速,在分析數(shù)據(jù)相對復(fù)雜的情況下,可快速建立分類模型并實現(xiàn)大米種類間的鑒定與識別。此外,拉曼光譜分析使用的是便攜式拉曼光譜儀,本研究成果在現(xiàn)場快速檢測上具有良好的應(yīng)用前景。