李新會, 羅紅元, 徐曉琴, 申 琦, 林偉琦
(1.鄭州大學 化學與分子工程學院 河南 鄭州450001; 2.廈門醫(yī)學高等??茖W校中心實驗室 福建 廈門361008; 3.廈門市產(chǎn)品質(zhì)量監(jiān)督檢驗院 福建 廈門361004)
基于主成分分析和高斯混合模型的茶葉分類研究
李新會1, 羅紅元2, 徐曉琴3, 申 琦1, 林偉琦3
(1.鄭州大學 化學與分子工程學院 河南 鄭州450001; 2.廈門醫(yī)學高等??茖W校中心實驗室 福建 廈門361008; 3.廈門市產(chǎn)品質(zhì)量監(jiān)督檢驗院 福建 廈門361004)
采用氣相色譜-質(zhì)譜(GC-MS)和液相色譜(LC)方法,結合主成分分析(PCA)、高斯混合模型(GMM)對49個茶葉樣本進行分類判別研究.通過PCA對茶葉的GC-MS信號進行特征提取,結合LC測得的茶多酚等10個變量,運用GMM對茶葉樣本進行分類,訓練集正確率為99.44%,預測集正確率為90.47%,結果表明該方法適用于茶葉的分類及品質(zhì)評價.
主成分分析; 高斯混合模型; 茶葉; 分類
茶是目前最受歡迎的保健飲品之一.茶葉中存在多酚類化合物、氨基酸、維生素、糖類、咖啡因和嘌呤生物堿等多種成分,具有很大的潛在健康益處[1-2].由于其形態(tài)、化學成分以及制作工藝等的多樣性[3],茶葉可以分為不同的類別[4-7],如綠茶、紅茶、烏龍茶等.由于茶葉的品質(zhì)以及等級不同,在茶葉市場中會出現(xiàn)假冒和以次充好的現(xiàn)象,這不僅損害了廣大消費者的利益,同時嚴重阻礙了茶葉市場的發(fā)展,也降低了我國茶葉的國際市場競爭力.
目前對茶葉的鑒別主要采用理化分析和感官評審相結合的方法,這種方法很容易受外界因素的干擾,且受人的主觀影響較大,可操作性差.因此,開發(fā)快速、準確的茶葉分類鑒別方法具有較大的現(xiàn)實意義.文獻[8]采用電子鼻以及氣質(zhì)聯(lián)用技術結合偏最小二乘回歸對不同品質(zhì)的綠茶和紅茶進行分析檢測.文獻[9]結合紫外可見光譜法和模式識別技術——多層感知器神經(jīng)網(wǎng)絡來解決茶葉的分類問題.文獻[10]采用液相色譜法和熒光法檢測茶葉中游離氨基酸的含量,然后結合主成分分析、k-最近鄰法、線性判別分析、BP人工神經(jīng)網(wǎng)絡對多種茶葉進行分類研究.文獻[11]將循環(huán)伏安法結合支持向量機模式識別方法成功地應用于綠茶和紅茶的分類.文獻[12]采用比色人工舌頭和鼻子來區(qū)分不同地理來源和等級的中國綠茶.作者采用主成分分析(PCA)對氣相色譜-質(zhì)譜(GC-MS)聯(lián)用信號進行特征提取,探討基于GC-MS信號和液相色譜(LC)信號的高斯混合模型(GMM)對茶葉分類的可行性.
1.1 儀器與試劑
Agilent 6890N氣相色譜-5975i質(zhì)譜聯(lián)用儀(美國Agilent公司);手動SPME進樣手柄,15 mL頂端帶有孔蓋和聚四氟乙烯隔墊的樣品瓶(美國Supelco公司);電磁攪拌/加熱操作臺(美國Corning公司);Mille-Q超純水機.
綠茶類包括來自6個產(chǎn)地的綠茶、龍井、碧螺春等12個樣本;紅茶類包括來自7個產(chǎn)地的11個樣本;烏龍茶類包括來自4個產(chǎn)地的水仙、肉桂、觀音、巖茶等26個樣本.本實驗所用茶葉樣本均購自當?shù)夭枞~市場.
100 μm聚二甲基硅氧烷(PDMS),30 μm PDMS,65 μm PDMS/二乙烯苯,85 μm聚丙烯酸酯,標準品咖啡因(國家標準物質(zhì)研究中心).
1.2 實驗方法
1.2.1 茶葉樣本前處理 將1.0 g茶葉樣品加入15 mL的SPME萃取瓶中,密封,放在SPME萃取工作臺上,溫度調(diào)節(jié)為190 ℃,恒溫30 min.將活化好的SPME萃取纖維插入萃取瓶中并調(diào)節(jié)針管,30 min后取出固相微萃取裝置進樣.進樣時,將SPME纖維直接插入氣相色譜進樣口,熱解吸5 min后,收回纖維并取出萃取針頭,用GC-MS進行分析.
1.2.2 GC-MS分析條件 GC條件:氣化室溫度為250 ℃;傳輸線溫度為280 ℃;色譜柱為HP-5MS (30 m×0.25 mm×0.25 μm );色譜柱升溫程序為初始溫度50 ℃,保持1 min,以升溫速率10 ℃/min升溫至280 ℃,保持5 min;進樣量為1 μL;載氣為高純氦(純度為99.999%);進樣方式為不分流進樣,進樣口5 min后開啟.MS條件:離子源溫度為230 ℃;四極桿溫度為150 ℃;電離方式為EI;倍增器電壓為2 kV;質(zhì)量掃描范圍為40~600 amu.
1.2.3 LC分析條件 色譜柱為SunFire C18柱(250 mm×4.6 mm× 5 μm,美國Waters公司);流動相A為甲醇,B為0.1 mol/L甲酸水溶液;流速1.0 mL/min;進樣量5 μL;檢測波長278 nm.
1.3 化學計量學方法
高斯混合模型(GMM)[13-14]假定不同類別的樣本由不同的高斯概率分布組成,通過多個高斯函數(shù)的線性組合來表示數(shù)據(jù)的概率密度函數(shù).GMM可以高度準確地模擬和逼近數(shù)據(jù)的真實分布,從而獲得樣本屬于每個類的概率.每一個高斯成分密度由一個均值向量和協(xié)方差矩陣決定,GMM通常定義如下:
式中:K為模型的個數(shù)(即樣本類別數(shù)目);πk為第k個高斯的權重,其均值為μk,方差為σk.通常采用最大期望(EM)算法對高斯混合模型中的方差、均值、權值等一些參數(shù)進行估計.
將GC-MS分析所得數(shù)據(jù)結合LC數(shù)據(jù)組成數(shù)據(jù)矩陣,運用PCA,GMM獲得茶葉樣本的分類信息,所用程序采用Matlab 7.1編寫.
2.1 GC-MS分析
圖1顯示了GC-MS采集到的不同茶葉樣本的總離子流色譜圖(TIC).從綠茶、紅茶和烏龍茶的TIC圖中可以看出,紅茶中的組分最多,烏龍茶次之,綠茶中的組分最少.這與茶葉的發(fā)酵有關,新鮮茶葉中的成分經(jīng)過發(fā)酵會發(fā)生很大的變化,組分增多,綠茶是未經(jīng)發(fā)酵而制成的茶,紅茶屬于全發(fā)酵茶,而烏龍茶是半發(fā)酵茶.盡管有上述的不同之處,由于茶葉的成分及品質(zhì)受多重因素的影響,直接依據(jù)TIC圖鑒別茶葉的種類,仍難以準確定性.因此,需要借助化學計量學方法來區(qū)分茶葉的種類.
2.2 主成分分析(PCA)對茶葉的分類判別
PCA是一種常用的多元統(tǒng)計分析方法,它不僅可以降低數(shù)據(jù)矩陣的維數(shù),還能通過主成分得分圖分析各類樣本的分布情況.圖2是49個茶葉樣本的GC-MS數(shù)據(jù)的主成分分析得分圖.可以看出,紅茶在二維空間中有自己的特征區(qū)域,與綠茶和烏龍茶相比,分布較為集中,能夠與綠茶和烏龍茶完全分離.綠茶和烏龍茶在二維空間中的分布較為分散,沒有各自的特征區(qū)域,且有部分重疊.表明不同產(chǎn)地紅茶的差異較小,而不同產(chǎn)地和品種的綠茶和烏龍茶的差異較大.綠茶和烏龍茶聚類較為分散,原因可能是所采集的綠茶和烏龍茶的品種以及產(chǎn)地比較分散,不同地區(qū)或不同品種的茶葉樣本品質(zhì)差異較為明顯.
2.3 高斯混合模型(GMM)對茶葉的分類判別
為了對綠茶、紅茶以及烏龍茶進行準確分類,采用GMM來判別茶葉的種類.由于GC-MS所提供的數(shù)據(jù)原始組分信息量較大,并且一些組分變量可能與茶葉類別特征的相關性較小,所以先采用PCA提取原始數(shù)據(jù)的有效信息,再進行GMM分類.用GMM對樣本的概率密度的分布進行估計,得到樣本在各個類別上的概率,通常選取概率最大的那個類作為樣本的所屬類別.作者采用EM算法對GMM參數(shù)進行估計.
在建立分類模型時,將收集的49個茶葉樣本隨機分成兩個數(shù)據(jù)集,其中訓練集32個(綠茶8個,紅茶7個,烏龍茶17個),預測集17個(綠茶4個,紅茶4個,烏龍茶9個),每個數(shù)據(jù)集中都包含有3種不同種類茶葉的樣本.訓練集用來構建分類模型,預測集不參與建模,僅用來驗證分類模型的性能.樣本數(shù)據(jù)包括GC-MS數(shù)據(jù)PCA的前20個主成分,以及LC測得的10個組分含量(可可堿(TB)、沒食子兒茶素(GC)、茶堿(TP)、表沒食子兒茶素(EGC)、咖啡因(CAF)、表兒茶素(EC)、表沒食子兒茶素沒食子酸酯(EGCG)、沒食子兒茶素沒食子酸酯(GCG)、表兒茶素沒食子酸酯(ECG)、兒茶素沒食子酸酯(CG)).由于茶葉樣本數(shù)較少,一次分類結果的隨機性較大,因此將數(shù)據(jù)集隨機分配成訓練集和預測集100次,將 100次循環(huán)的平均結果作為最后的分類結果.GMM的成分數(shù)設為3,訓練集中每個類的均值作為GMM的初始均值μ,每個類的樣本數(shù)量作為混合權重初始值π,協(xié)方差矩陣設定為對角矩陣.GMM對訓練集和預測集的平均正確率分別為99.44%和90.47%.在這100次分類結果中,其中分類結果最好的正確率為100%,該結果出現(xiàn)有19次,正確率超過90%的有52次.易于出現(xiàn)分類錯誤的樣本為綠茶或紅茶,烏龍茶僅有一次出現(xiàn)分類錯誤,結果表明該實驗中所采用的方法是可靠的.
將主成分分析、高斯混合模型等方法應用于3種不同種類茶葉的氣相色譜-質(zhì)譜聯(lián)用的總離子流數(shù)據(jù)以及液相色譜數(shù)據(jù),對茶葉類別進行判別分析,結果表明,基于色譜信號的化學計量學方法對不同品種、不同產(chǎn)地的綠茶、紅茶、烏龍茶三大茶類的分類效果較好,該方法可對茶葉的種類進行快速區(qū)分,對今后的茶葉類別研究及品質(zhì)評價工作奠定了基礎.
[1] Horie H,Kohata K.Analysis of tea components by high-performance liquid chromatography and high-performance capillary electrophoresis[J].Journal of Chromatography A,2000,881(1/2):425-438.
[2] Sereshti H,Samadi S,Jalali-Heravi M.Determination of volatile components of green,black,oolong and white tea by optimized ultrasound-assisted extraction-dispersive liquid-liquid microextraction coupled with gas chromatography[J].Journal of Chromatography A,2013,1280(4):1-8.
[3] Chen Quansheng,Zhao Jiewen,F(xiàn)ang C H,et al.Feasibility study on identification of green, black and oolong teas using near-infrared reflectance spectroscopy based on support vector machine (SVM) [J].Spectrochimica Acta,2007,66(3):568-574.
[4] Palmer J K.Enzyme reactions and acceptability of plant foods[J].Journal of Chemical Education,1984,61(4):284-289.
[5] Chen Hongping,Liu Xin,Yang Dan,et al.Degradation pattern of gibberellic acid during the whole process of tea production[J].Food Chemistry,2013,138(2/3):976-981.
[6] Deng Jiewei,F(xiàn)an Chunlin,Yang Yunyun.Identification and determination of the major constituents in Deng’s herbal tea granules by rapid resolution liquid chromatography coupled with mass spectrometry[J]. Journal of Pharmaceutical and Biomedical Analysis,2011,56(5):928-936.
[7] Chen Quansheng,Zhao Jiewen,Liu Muhua,et al.Determination of total polyphenols content in green tea using FT-NIR spectroscopy and different PLS algorithms[J].Journal of Pharmaceutical and Biomedical Analysis,2008,46(3):568-573.
[8] Qin Zihan,Pang Xueli,Chen Dong,et al.Evaluation of Chinese tea by the electronic nose and gas chromatography-mass spectrometry:correlation with sensory properties and classification according to grade level[J].Food Research International,2013,53(2):864-874.
[9] Palacios-Morillo A,Alcázar A, de Pablos F, et al.Differentiation of tea varieties using UV-Vis spectra and pattern recognition techniques[J].Spectrochimica Acta, 2013,103(4):79-83.
[10]Alcázar A,Ballesteros O, Jurado J M, et al.Differentiation of green,white, black,oolong,and pu-erh teas according to their free amino acids content[J].Journal of Agricultural and Food Chemistry,2007,55(15):5960-5965.
[11]Liu Nian,Liang Yizeng,Bin Jun,et al.Classification of green and black teas by PCA and SVM analysis of cyclic voltammetric signals from metallic oxide-modified electrode[J].Food Analytical Methods,2014,7(2):472-480.
[12]Huo Danqun,Wu Yu,Yang Mei,et al.Discrimination of Chinese green tea according to varieties and grade levels using artificial nose and tongue based on colorimetric sensor arrays[J].Food Chemistry,2014,145(7):639-645.
[13]Sahbi H.A particular Gaussian mixture model for clustering and its application to image retrieval[J].Soft Computing,2008,12(7):667-676.
[14]Melnykov V,Melnykov I.Initializing the EM algorithm in Gaussian mixture models with an unknown number of components[J].Computational Statistics & Data Analysis,2012,56(6):1381-1395.
(責任編輯:孔 薇)
The Classification of Tea Based on PCA and GMM
LI Xinhui1, LUO Hongyuan2, XU Xiaoqin3, SHEN Qi1, LIN Weiqi3
(1.CollegeofChemistryandMolecularEngineering,ZhengzhouUniversity,Zhengzhou450001,China; 2.CentralLaboratory,XiamenMedicalCollege,Xiamen361008,China; 3.XiamenProductsQualitySupervision&InspectionInstitute,Xiamen361004,China)
Gas chromatography-mass spectrometer (GC-MS) and liquid chromatography (LC), combined with principal component analysis (PCA) and Gaussian mixture model (GMM), were applied for classification of 49 tea samples. The PCA was firstly employed to reduce the dimensionality of GC-MS variables. The variables used in classification also included ten compositions determined by LC, such as tea polyphenols. Then the GMM was used to establish the classification models. The classification result showed that the accuracy rate of training set and prediction set was 99.44% and 90.47%, respectively. It could be concluded that GMM combined with chromatography for the classification of tea had a good performance.
PCA; GMM; tea; classification
2015-06-05
國家自然科學基金資助項目,編號21575131.
李新會(1989—),女,河南禹州人,碩士研究生,主要從事化學計量學研究;通訊作者:羅紅元(1977—),男,湖南衡陽人,講師,博士,主要從事化學傳感器和計量學研究,E-mail:lhy@xmygz.cn.
李新會,羅紅元,徐曉琴,等.基于主成分分析和高斯混合模型的茶葉分類研究[J].鄭州大學學報:理學版,2015,47(4):62-65.
O657.63
A
1671-6841(2015)04-0062-04
10.3969/j.issn.1671-6841.2015.04.012