張瑋,李曉葦,李光,張榮香
(河北大學(xué)物理科學(xué)與技術(shù)學(xué)院,河北保定 071002)
二次特征提取法用于茶葉產(chǎn)地的識(shí)別
張瑋,李曉葦,李光,張榮香
(河北大學(xué)物理科學(xué)與技術(shù)學(xué)院,河北保定 071002)
利用傅里葉紅外光譜和特征基理論,對(duì)茶葉的產(chǎn)地進(jìn)行研究.采集新茶葉樣品的光譜數(shù)據(jù),通過(guò)選擇合適樣品建立光譜特征基,將新采集茶葉的光譜數(shù)據(jù)在反映茶葉產(chǎn)地特性的光譜特征基上投影,依據(jù)茶葉產(chǎn)地的地域特征不同,在主成分分析思想的基礎(chǔ)上提出了二次特征提取方法,并對(duì)比分析得出利用二次特征提取方法處理紅外光譜圖的可行性,而且可以有效地識(shí)別不同產(chǎn)地茶葉的特征.
紅外光譜;特征基;產(chǎn)地;二次特征提取
茶葉是世界3大飲料植物(茶葉、咖啡豆和可可豆)之一[1],從中國(guó)起源,并向世界各地傳播.作為已有四五千年茶種植和飲用的歷史,茶葉在中國(guó)具有獨(dú)特性和歷史性的茶文化[2].茶樹(shù)種類(lèi)、種植產(chǎn)地和生產(chǎn)工藝流程的不同,導(dǎo)致茶葉品種繁多,無(wú)形中給茶葉的甄別帶來(lái)了困難.茶樹(shù)種植地的氣候、光照、土壤和水質(zhì)等因素對(duì)茶葉的品質(zhì)影響很大,從而出現(xiàn)以產(chǎn)地名稱(chēng)命名的不同茶葉品牌.隨著市場(chǎng)經(jīng)濟(jì)的發(fā)展和競(jìng)爭(zhēng),很多貿(mào)易問(wèn)題擺在各大代表產(chǎn)區(qū)名茶的生產(chǎn)商和銷(xiāo)售商面前,假冒產(chǎn)地、假冒名茶品牌、濫竽充數(shù)的現(xiàn)象時(shí)有發(fā)生,導(dǎo)致茶葉市場(chǎng)秩序混亂,真正的本產(chǎn)地名茶的名譽(yù)和消費(fèi)者的合法權(quán)益無(wú)法受到保護(hù).所以,更快、更準(zhǔn)、更簡(jiǎn)單地辨別茶葉的產(chǎn)地有很重要的現(xiàn)實(shí)意義.本文選取了不同地域的25種不同的茶葉樣品,采用經(jīng)典的紅外光譜壓片法獲得各種樣品的紅外光譜圖,并結(jié)合特征提取理論(主成分分析思想),提出了二次特征提取方法.文中簡(jiǎn)要闡述了不同波長(zhǎng)范圍的選取和光譜數(shù)據(jù)的預(yù)處理,然后應(yīng)用二次特征提取法分析不同產(chǎn)地茶葉的紅外光譜圖,把不同地域茶葉的紅外光譜圖中的光譜重疊部分分開(kāi),進(jìn)而區(qū)分出不同產(chǎn)地的茶葉,此方法對(duì)于鑒別茶葉等其他復(fù)雜體系的特征有重要的價(jià)值.
1.1 特征基理論
特征基理論是在主成分分析法的基礎(chǔ)上提出的一種多元統(tǒng)計(jì)分析方法,它可以減少茶葉紅外光譜圖原始數(shù)據(jù)的維數(shù),從而提取出能夠反映茶葉主要信息的主要特征因素.
茶葉的光譜特征基是反映不同茶葉最大差異信息的特征因子,不同波段上的光譜包含的信息量也不同,一般把反映最大差異信息的典型茶葉進(jìn)行特征提取,然后通過(guò)比較不同特征因子中所含的信息量確定茶葉的光譜特征基,然后把待測(cè)茶葉樣品在這個(gè)光譜特征基上投影,進(jìn)而進(jìn)行特征識(shí)別.
紅外光譜結(jié)合特征提取方法進(jìn)行茶葉特征識(shí)別的優(yōu)點(diǎn)是在保持主要光譜信息的前提下,用較少量的幾條本征譜去替代原來(lái)復(fù)雜的紅外光譜,從而使得由于重疊的譜帶而無(wú)法精確分析的問(wèn)題得到了解決.
二次特征提取過(guò)程是把一次特征提取過(guò)程中提取出的主要特征因子再進(jìn)行一次特征提?。ㄖ鞒煞址治觯?,也就是再次剔除茶葉主要信息中所含的冗余變量,進(jìn)而提取出其中變化相差較大變量的過(guò)程.因?yàn)樵谝淮翁卣魈崛≈刑崛〕龅牡谝惶卣饕蜃铀男畔⒘孔钊嬉沧钪匾?,所以二次特征提取是把一次特征提取的第一特征因子再進(jìn)行一次特征提取.經(jīng)過(guò)二次特征提取后,利用包含信息量最大的特征因子建立特征基.圖1為二次特征提取流程圖.
圖1 二次特征提取流程Fig.1 Flow chart of the secondary feature extraction
1.2 樣品制備
1.2.1 實(shí)驗(yàn)材料
本實(shí)驗(yàn)篩選出來(lái)自6個(gè)產(chǎn)區(qū)的25種茶葉樣品,每類(lèi)茶葉樣品都是中上等等級(jí)茶葉品種,而且在茶葉的分類(lèi)研究、等級(jí)研究等問(wèn)題上具有一定的說(shuō)服性.表1給出了茶葉樣品選取的品種和產(chǎn)地情況,并對(duì)其進(jìn)行了符號(hào)標(biāo)示,以便下面的數(shù)據(jù)分析作圖研究.
表1 茶葉樣品及產(chǎn)地分布Tab.1 Distribution and origin of tea samples
1.2.2 實(shí)驗(yàn)儀器
傅里葉紅外光譜儀;磨碎機(jī);粉末壓片機(jī);電熱恒溫鼓風(fēng)干燥箱;電子天平.
1.2.3 制備樣品的流程
制備樣品的過(guò)程分別是:烘干、粉碎、研磨、壓片.首先,把篩選出的25種標(biāo)準(zhǔn)茶葉樣品放在40℃恒溫箱中烘干,大約12h烘干至恒重;然后把干燥完全的茶葉樣品放入粉碎機(jī)粉碎,再經(jīng)過(guò)200目(74μm)篩子篩選后將收集到的茶葉樣品粉末裝入塑料袋中,封好封口并標(biāo)記茶葉樣品的種類(lèi)、時(shí)間等信息;把用篩子過(guò)目好的茶葉樣品粉末和溴化鉀按1∶120比例進(jìn)行研磨,一定要研磨均勻至呈面狀粉末(一般情況下是稱(chēng)取8mg標(biāo)準(zhǔn)茶葉樣品粉末和960mg KBr);經(jīng)研磨后茶葉樣品和KBr的混合粉末還要經(jīng)過(guò)壓片,在18MPa壓強(qiáng)的條件下維持2min.最后即可對(duì)做好的茶葉壓片樣品進(jìn)行紅外光譜采集.制備過(guò)程中保持室溫及室內(nèi)濕度不變.
1.3 波長(zhǎng)范圍的選擇和數(shù)據(jù)的預(yù)處理
1.3.1 波長(zhǎng)范圍的選擇
近幾年經(jīng)過(guò)一些學(xué)者的分析研究,茶葉主要官能團(tuán)的歸屬基本確定,筆者認(rèn)為,茶葉在1 147,1 236,1 368,1 450,1 519,1 644,3 400cm-1這幾個(gè)波數(shù)附近存在較強(qiáng)的吸收峰[3].因此,選用中紅外波段對(duì)茶葉進(jìn)行紅外光譜提取.
1.3.2 光譜數(shù)據(jù)的預(yù)處理
本實(shí)驗(yàn)經(jīng)過(guò)測(cè)量得到的茶葉樣品的紅外光譜數(shù)據(jù)要分別進(jìn)行矢量歸一、一階導(dǎo)數(shù)光譜和S-G平滑預(yù)處理.首先進(jìn)行矢量歸一處理.一般覺(jué)得每個(gè)光譜中波長(zhǎng)點(diǎn)的吸光度遵循某種分布規(guī)律,然后在這個(gè)假設(shè)的基礎(chǔ)上對(duì)每條光譜進(jìn)行校正.計(jì)算過(guò)程是先求出這條光譜的平均值,然后原光譜與這個(gè)平均值相減,最后得到的數(shù)據(jù)除以這個(gè)光譜數(shù)據(jù)的標(biāo)準(zhǔn)偏差,在本質(zhì)上,使原有的光譜數(shù)據(jù)標(biāo)準(zhǔn)歸一化[4].通過(guò)矢量歸一計(jì)算后能夠去掉樣品紅外光譜中線性平移的影響.其次進(jìn)行一階導(dǎo)數(shù)光譜處理.一階導(dǎo)數(shù)光譜消除基線漂移或背景干擾的影響,但也給一個(gè)更高的分辨率和更清晰的光譜分布的變化,從而減少重疊頻帶[5].最后進(jìn)行信號(hào)平滑處理.信號(hào)平滑是祛除噪聲較常用的方法之一,Savitzky-Go1ay卷積是通過(guò)多項(xiàng)式來(lái)對(duì)移動(dòng)窗口內(nèi)的數(shù)據(jù)進(jìn)行多項(xiàng)式最小二乘擬合.如果對(duì)數(shù)據(jù)進(jìn)行多次測(cè)量后計(jì)算出平均值,就能降低噪聲,而且信噪比得到提高[6].
2.1 樣品的原始光譜圖分析
經(jīng)過(guò)傅里葉紅外光譜儀對(duì)茶葉樣品的進(jìn)一步分析,得到來(lái)自25種不同產(chǎn)地地域的茶葉樣品的紅外光譜圖,圖2是6種有代表性的不同產(chǎn)地的茶葉的紅外光譜圖.由圖2可以看出,圖中6種茶葉樣品的光譜圖峰形和峰位相近,譜峰之間互有交叉,用肉眼很難分辨出茶葉的不同產(chǎn)地.
2.2 特征提取過(guò)程對(duì)識(shí)別不同產(chǎn)地茶葉的影響
本實(shí)驗(yàn)在選取建基用的茶葉的原產(chǎn)地時(shí),所選取的茶葉既要包含要研究的君山毛尖、祁門(mén)紅茶系列、安溪鐵觀音、四川雅安藏茶等茶葉,還要包含代表中國(guó)其他茶葉產(chǎn)地特征的茶葉品種.在實(shí)驗(yàn)中選取代表茶葉產(chǎn)區(qū)時(shí),把福建產(chǎn)區(qū)分為閩南和閩北2個(gè)產(chǎn)區(qū),把安徽產(chǎn)區(qū)分為黃山和祁門(mén)2個(gè)產(chǎn)區(qū).之所以這樣區(qū)分是因?yàn)槊總€(gè)茶葉產(chǎn)地的地域特征不同,而不同的地域受氣候、土壤、海拔等因素影響很大,所以每個(gè)產(chǎn)區(qū)茶葉的信息要能在所建立的特征基上找到相應(yīng)的位置,比如黃山和祁門(mén)茶葉要分別投影在各自地域信息位置上.
2.2.1 一次特征提取
采集湖南、四川、安徽黃山和祁門(mén)、福建閩南和閩北6個(gè)茶葉產(chǎn)區(qū)的茶葉紅外光譜,將各個(gè)產(chǎn)區(qū)的茶葉紅外光譜數(shù)據(jù)分別進(jìn)行第一次特征提取,一次特征提取主要提取茶葉的第一特征因子和第二特征因子,因?yàn)榍?個(gè)特征因子包含反映茶葉特性的主要特征成分,建立反映不同茶葉產(chǎn)地特性的光譜特征基,然后將光譜數(shù)據(jù)分別在特征基上投影,投影圖上的每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)茶葉樣本,圖3為經(jīng)過(guò)一次特征提取后將25種茶葉數(shù)據(jù)在特征基上的投影.
圖2 6種茶葉樣品的原始紅外光譜Fig.2 Original infrared spectra drawing of six kinds of tea samples
圖3 一次建基分析不同茶葉產(chǎn)地的紅外光譜投影Fig.3 First foundation analysis for different tea producing area of ir projection drawing
把篩選出的待測(cè)茶葉樣品在建好的光譜特征基上進(jìn)行投影,由圖3可以看出,經(jīng)過(guò)一次特征提取后,各個(gè)產(chǎn)地的茶葉群聚性不明顯,除安徽祁門(mén)紅茶基本分布在一個(gè)區(qū)域外,其余產(chǎn)地的茶葉分布在不同的區(qū)域,相互交叉,基本無(wú)法分辨出茶葉的產(chǎn)區(qū),由此可以看出,經(jīng)過(guò)一次特征提取后,茶葉的特征基提取不純,摻雜很多冗余的成分,無(wú)法區(qū)分不同產(chǎn)地的茶葉.
2.2.2 二次特征提取對(duì)25種不同產(chǎn)地茶葉的特征識(shí)別
采集湖南、四川、安徽黃山和祁門(mén)、福建閩南和閩北6個(gè)茶葉產(chǎn)區(qū)的茶葉紅外光譜,將各個(gè)產(chǎn)區(qū)的茶葉紅外光譜數(shù)據(jù)分別進(jìn)行第一次主成分分析,然后分別提取出各個(gè)產(chǎn)區(qū)的前2個(gè)特征因子進(jìn)行第2次主成分分析(即二次特征提?。?,建立反映不同茶葉產(chǎn)地特性的光譜特征基,然后將光譜數(shù)據(jù)分別在第2次提取的特征基上投影,圖4為經(jīng)過(guò)二次特征提取后將25種茶葉數(shù)據(jù)在特征基上的投影.
把篩選出的待測(cè)茶葉樣品在建好的光譜特征基上進(jìn)行投影,由圖4可以看出,同種產(chǎn)地的茶葉聚團(tuán)性良好,同種產(chǎn)地的茶葉基本分布同一區(qū)域內(nèi).福建閩南和閩北的茶葉分布在不同區(qū)域,安徽的祁門(mén)和黃山也分布在不同區(qū)域,符合選取茶葉產(chǎn)地時(shí)的區(qū)域劃分.但也有個(gè)別茶葉出現(xiàn)偏差,分布到其他產(chǎn)區(qū),比如湖南產(chǎn)區(qū)的北港毛尖落在安徽祁門(mén)產(chǎn)區(qū),而安徽黃山的新安銀針落在湖南產(chǎn)區(qū).這個(gè)投影圖充分表明了利用二次特征提取方法處理紅外光譜圖的可行性,而且可以有效地識(shí)別不同產(chǎn)地茶葉的特征,識(shí)別率可達(dá)80%左右.
2.2.3 二次特征提取對(duì)16種不同產(chǎn)地茶葉的特征識(shí)別
由圖4可以看出,并不是所有茶葉都呈現(xiàn)良好的群聚性,比如:湖南產(chǎn)區(qū)的北港毛尖落在安徽祁門(mén)產(chǎn)區(qū),安徽黃山的新安銀針落在湖南產(chǎn)區(qū),雅安藏茶落在福建閩北產(chǎn)區(qū),考慮到茶葉品質(zhì)性的區(qū)別,因此在二次特征提取的基礎(chǔ)上,去掉一些聚團(tuán)性比較差的茶葉重新處理,投影時(shí)將聚團(tuán)性較好的16種茶葉進(jìn)行投影得出投影圖5.
圖4 二次建基分析不同茶葉產(chǎn)地的紅外光譜投影Fig.4 Secondary foundation analysis for different tea producing area of ir projection drawing
圖5 二次建基分析16種茶葉產(chǎn)地的紅外光譜投影Fig.5 Secondary foundation analysis for 16kinds of tea producing area of ir projection drawing
由圖5可知,剔除零散的茶葉樣本后,16種不同產(chǎn)地的茶葉聚團(tuán)性很好,各個(gè)產(chǎn)區(qū)的茶葉基本分布在一個(gè)區(qū)域,沒(méi)有交叉,因而利用二次特征提取方法可以對(duì)不同產(chǎn)地的茶葉進(jìn)行有效地分類(lèi)識(shí)別.
利用二次特征提取方法對(duì)不同產(chǎn)地區(qū)域的茶葉光譜進(jìn)行分析處理后,將不同產(chǎn)地區(qū)域的茶葉的光譜重疊部分區(qū)分開(kāi),進(jìn)而區(qū)分出了不同產(chǎn)地區(qū)域的茶葉.從最終處理得出的投影圖4和5中可以明顯看出同種產(chǎn)地的茶葉聚團(tuán)性良好,同種產(chǎn)地的茶葉基本分布同一區(qū)域內(nèi).這個(gè)投影圖充分表明了利用特征提取方法處理紅外光譜圖的可行性.但是仍然可以看出并不是所有茶葉都遵循同種產(chǎn)地分布在同一區(qū)域這一規(guī)律,而是定位到了別的產(chǎn)地茶葉的區(qū)域中.同種產(chǎn)地茶葉的地域特征也會(huì)出現(xiàn)差異,這是一個(gè)很復(fù)雜的問(wèn)題.經(jīng)多方分析原因并排除了實(shí)驗(yàn)誤差等原因之后,得出茶葉產(chǎn)地特征是一個(gè)綜和性指標(biāo)的認(rèn)識(shí).所在地域的天氣、土壤、海拔和日照時(shí)間,甚至雨量,都可能對(duì)茶葉的產(chǎn)地特征產(chǎn)生很大的影響.
[1] 李?lèi)?ài)國(guó),胡子祥,龐彬妃,等.茶葉甄選與鑒別[M].成都:四川科學(xué)技術(shù)出版社,2003:3 54.
[2] 牛智有,林新.茶葉定性和定量近紅外光譜分析方法研究[J].光譜學(xué)與光譜分析,2009,29(9):2417-2420.
NIU Zhiyou,LIN Xin.Qualitative and quantitative analysis method of tea by near infrared spectroscopy[J].Spectroscopy and Spectral Analysis,2009,29(9):2417-2420.
[3] 趙曉輝,聶志矗,張連水,等.茶葉及其組分的紅外光譜研究[J].光學(xué)學(xué)報(bào),2009,29(2):533 -536.
[4] 陳全勝,趙杰文,張海東,等.SIMCA模式識(shí)別方法在近紅外光譜識(shí)別茶葉中的應(yīng)用[J].食品科學(xué),2006,27(4):186-189.
[5] 袁洪福,陸婉珍.現(xiàn)代光譜分析中常用的化學(xué)計(jì)量學(xué)方法[J].現(xiàn)代科學(xué)儀器,1998,5(6):9.
[6] 郝勇,陳斌,朱銳.近紅外光譜預(yù)處理中幾種小波消噪方法的分析[J].光譜學(xué)與光譜分析,2006,26(10):1838-1841.
HAO Yong,CHEN Bin,ZHU Rui.Analysis of several methods for wavelet denoising used in near infrared spectrum pretreatment[J].Spectroscopy and Spectral Analysis,2006,26(10):1838 1841.
[7] LUYPAERT J,ZHANG M H,MASSART D L.Feasibility study for the using near infrared spectroscopy in the qualitative and quantitative of green tea[J].Analytica Chimica Acta,2003,478(2):303-312.
[8] 夏柏楊,任竿.近紅外光譜分析技術(shù)的一些數(shù)據(jù)處理方法的討論[J].光譜實(shí)驗(yàn)室,2005,22(3):629-634.
[9] LEONARDO S G,TEIXEIRA A,F(xiàn)ABIO S,et al.Multivariate calibration in Fourier transform infrared spectrometry as a tool to detect adulterations in Brazilian gasoline[J].Fuel,2008,87:346-352.
[10] ZHOW Qun,SUN Suqin,ZUO Lin,et al.Study on traditional Chinese medicine'Qing Kai Ling'injections from different manufactures by 2DIR correlation spectroscopy[J].Vibrational Spectroscopy,2004,36:207 -212.
(責(zé)任編輯:孟素蘭)
On the secondary feature extraction method applied to the tea origin identification
ZHANG Wei,LI Xiaowei,LI Guang,ZHANG Rongxiang
(College of Physics Science and Technology,Hebei University,Baoding 071002,China)
The origin of tea are studied by Fourier transform infrared spectroscopy and feature-based theory.Spectral data of new tea samples are collected and spectral characteristics basis is established by selecting the appropriate sample.The spectral data acquisition of new tea project on the spectral characteristics basis that can reflect the origin of tea.Based on the regional characteristics of the different origin of tea,on the basis of the Principal Component Analysis thought secondary feature extraction method is proposed,and comparative analysis of the feasibility of processing infrared spectra by using the secondary feature extraction method can effectively identify the different origin of tea.
infrared spectroscopy;feature-based;place of origin;secondaryfeature extraction method
張瑋(1984-),女,河北保定人,河北大學(xué)實(shí)驗(yàn)師,主要從事紅外、傳感技術(shù)方向研究.E-mail:lszhangwei@hbu.edu.cn
O433.4
A
1000-1565(2014)05-0479 06
10.3969/j.issn.1000 -1565.2014.05.007
2014-01 -10
河北省自然科學(xué)基金資助項(xiàng)目(F2010000309);國(guó)家質(zhì)監(jiān)局公益性行業(yè)科研專(zhuān)項(xiàng)項(xiàng)目(200910083-01)