劉曉倩,魏紀(jì)平,王俊全,梁靜芬
(1.天津天獅學(xué)院,天津301700;2.天津現(xiàn)代職業(yè)技術(shù)學(xué)院,天津300350)
基于SVM對不同品牌阿膠的聚類分析
劉曉倩1,魏紀(jì)平2,王俊全1,梁靜芬1
(1.天津天獅學(xué)院,天津301700;2.天津現(xiàn)代職業(yè)技術(shù)學(xué)院,天津300350)
提出利用支持向量機(SVM)對不同品牌阿膠進行鑒別,首先對不同品牌阿膠的紅外光譜圖進行分析,同時系統(tǒng)分析了阿膠譜圖的預(yù)處理過程,建立3種品牌阿膠的鑒別模型。并對4種不同的聚類分析算法(KNN、Bayes、LDF和SVM)進行方法比對。試驗表明,不同品牌的阿膠聚類模型以SVM的識別率和拒絕率最高。試驗結(jié)果表明該方法能快速對不同品牌阿膠進行鑒別。
傅里葉變換紅外光譜;支持向量機;阿膠;鑒別
紅外光譜技術(shù)是一種高效快速的現(xiàn)代分析技術(shù),它綜合運用了計算機技術(shù)、光譜技術(shù)和化學(xué)計量學(xué)等多個學(xué)科的最新研究成果[1],具有極強的指紋特征性,物質(zhì)在結(jié)構(gòu)或含量上的變化都會在其紅外光譜上表現(xiàn)出來[2]。因此,可以根據(jù)紅外光譜上的差異對不同的樣本進行整體鑒別,與傳統(tǒng)方法相比,該方法具有快速、樣品預(yù)處理簡單、多組分同時測定、環(huán)保、無污染等優(yōu)點[3]。
阿膠歷來被譽為“補血圣藥”、“滋補國寶”,與人參、鹿茸一起被譽為“中藥三寶”[4-5]。鑒于當(dāng)今阿膠市場出現(xiàn)的產(chǎn)品質(zhì)量良莠不齊的局面,各種鑒別方法因運而生。傳統(tǒng)的采用外觀性狀和理化性質(zhì)、旋光性檢測,SDS-聚丙稀酰胺凝膠電泳(SDS-PAGE)、高效液相色譜法和PCR等方法[1]對阿膠進行真?zhèn)舞b別[6-7],但是這些方法樣品處理繁瑣費時,很難實現(xiàn)對阿膠快速鑒別。
本文利用聚類分析算法使紅外光譜和計算機技術(shù)相結(jié)合,克服現(xiàn)有阿膠檢測方法的局限性,尤其使紅外光譜技術(shù)同化學(xué)計量學(xué)等方法建立數(shù)據(jù)處理模型[8-11],實現(xiàn)對阿膠產(chǎn)品進行快速鑒別。
1.1 材料
1.1.1 試劑
從市場上購買OTC認(rèn)證的品牌A阿膠(18個)、品牌B阿膠(15個)、品牌C阿膠(16個)不同批次的產(chǎn)品;KBr:美國PerkinElmer。
1.1.2 儀器設(shè)備
拓普FTIR920傅里葉變換紅外光譜儀:天津市拓普儀器有限公司,分辨率為1.0 cm-1,掃描次數(shù)累加16次,環(huán)境溫為15℃~28℃,環(huán)境濕度為低于65%。
1.2 方法
1.2.1 試驗流程
紅外光譜:采用紅外光譜壓片法對樣品進行碾磨、壓片處理。本試驗以福牌阿膠來測試儀器的穩(wěn)定性,同條件下制得多組樣品而后掃描得到譜圖。確定儀器穩(wěn)定后,對其它阿膠樣品進行測試得到譜圖。
1.2.2 聚類分析流程
中紅外譜圖必須經(jīng)過基線校正、標(biāo)準(zhǔn)歸一化、消除噪聲和去除異常樣本等預(yù)處理過程。把預(yù)處理過后的80%紅外譜圖經(jīng)聚類建模。把剩余20%紅外譜圖輸入模型,對所建分類模型進行測試。
2.1 阿膠紅外吸收峰的指認(rèn)
對阿膠紅外譜圖的指認(rèn)是利用紅外光譜對阿膠鑒別的基礎(chǔ),3種阿膠紅外譜圖見圖1,阿膠紅外光譜吸收峰的指認(rèn)見表1。
圖1 3種品牌阿膠紅外譜圖Fig.1 Threebrandsof Ejiao of IR spectra
表1 阿膠紅外光譜吸收峰的指認(rèn)Table1 Identification of IR absortion peaksof Ejiao
根據(jù)表1可以看出,阿膠紅外光譜在1 655 cm-1和1 538 cm-1為吸收強的蛋白的酰胺I和II帶的特征峰,這和阿膠主要來源與驢皮的膠原蛋白有關(guān),也是阿膠中蛋白和多肽的總的紅外吸收。而1 742 cm-1的紅外吸收則和驢皮中脂肪酯鍵的C=O吸收相關(guān),這說明阿膠在加工過程中脂肪沒去除干凈。另外1 054 cm-1的紅外特征峰為蔗糖的C-O伸縮振動峰,蔗糖為阿膠加工過程中主要的輔料之一,因此在紅外譜圖上可以看到糖的紅外吸收。
從一維紅外特征峰提供的物質(zhì)信息相對較少,其指紋峰主要反映阿膠的一些質(zhì)量信息。為了從紅外整體信息角度分析阿膠,本文利用SVM算法,對3種品牌阿膠進行聚類建模,以期達到對不同品牌阿膠的快速鑒別。
2.2 基于SVM的不同品牌阿膠的鑒別
2.2.1 阿膠紅外譜圖預(yù)處理
本文搜集了OTC認(rèn)證的品牌A阿膠(18個)、品牌B阿膠(15個)、品牌C阿膠(16個)不同批次的產(chǎn)品作為訓(xùn)練集進行聚類建模,模型驗證采用交叉驗證。
為了使阿膠的鑒別模型更加穩(wěn)定,首先對所采集的阿膠紅外譜圖進行預(yù)處理,包括:基線校正、消除噪聲、標(biāo)準(zhǔn)歸一化和剔除異常樣本點。譜圖預(yù)處理主要是消除儀器在采集譜圖時所產(chǎn)生的各種誤差,首先紅外光源的波動,壓片造成的紅外光的散射,檢測器產(chǎn)生的誤差,會使譜圖產(chǎn)生基線漂移,并使譜圖形成噪聲,另外壓片厚度不均,通過標(biāo)準(zhǔn)歸一化可獲得一致性高的譜圖。以此通過預(yù)處理后的譜圖分別為處理前后的比較(見圖2)。
圖2 紅外圖譜預(yù)處理Fig.2 IR spectra pretreatment
而剔除異常樣本點是保持模型穩(wěn)定的又一保證,利用PCA算法通過對紅外譜圖降維,取前5個主成分,然后計算其馬氏距離,并求總馬氏距離的均值,各個譜圖的馬氏距離大于均值1.5倍為異常樣本點。圖3顯示所去除的異常樣本點。
圖3 PCA算法剔除異常樣本點Fig.3 Theabnormalsam ple pointselim inated by PCA algorithm
2.2.2 基于SVM的不同品牌阿膠聚類分析
不同品牌的阿膠由于原料、工藝控制水平的不同,產(chǎn)品質(zhì)量不同。3個不同品牌的阿膠紅外譜圖進行預(yù)處理后,利用SVM算法進行聚類分析。同時,比較3種KNN、Bayes和LDF的聚類結(jié)果,從3個不同品牌的聚類分析的識別率和拒絕率來看,SVM的結(jié)果最佳。表2顯示了4種算法(利用matlab進行計算)的聚類分析結(jié)果。這主要是因為,SVM非常適合小樣本樣品問題,而且紅外光譜為非線性問題,算法通過提高譜圖的維數(shù)解決非線性問題,并能得到全局的最優(yōu)解。因此,利用SVM能快速鑒別不同品牌阿膠。
表2 不同聚類算法聚類分析比較Table2 Comparison of clustering analysisbased on different clustering algorithms
運用紅外光譜結(jié)合聚類分析對不同品牌的阿膠進行了全面的研究,建立了3種品牌阿膠的鑒別模型。并對4種不同的聚類分析算法(KNN、Bayes、LDF和SVM)進行了方法比對。試驗表明,不同品牌的阿膠聚類模型以SVM的識別率和拒絕率最高。通過對3種品牌阿膠建模分析,可以得出結(jié)論,利用聚類分析對紅外光譜是解決阿膠快速鑒別的有效方法。
[1]胡鋼亮.近紅外光譜技術(shù)在中藥領(lǐng)域中的應(yīng)用研究[D].杭州:浙江大學(xué),2003:5-6
[2]沈漪,潘穎,劉全,等.近紅外漫反射光譜法對阿莫西林膠囊的定性及定量分析[J].藥物分析雜志,2005,25(4):385-389
[3]劉曉宣.近紅外光譜定性定量技術(shù)在中藥質(zhì)量控制中的應(yīng)用研究[D].杭州:浙江大學(xué),2004:10-12
[4]張喆,胡晶紅,李佳,等.阿膠基本屬性管見[J].中成藥,2014,36 (9):2000-2001
[5]郭中坤,王可洲,籍國霞,等.阿膠的成分,鑒別方法及藥理作用研究進展[J].遼寧中醫(yī)藥大學(xué)學(xué)報,2015,17(4):71-74
[6]李峰,韓家珩.阿膠的凝膠電泳鑒別[J].時珍國醫(yī)國藥,1999,10 (5):346-347
[7]屈凌波,劉浩,相秉仁,等.BP型神經(jīng)網(wǎng)絡(luò)對阿膠的模式識別及容錯分析[J].計算機與應(yīng)用化學(xué),2002,19(4):411-414
[8]Y Lecun,L Bottou,Y Bengio,et al.Gradient-Based learning applied to document recognition[J].Proceedingsof the IEEE,1998,86 (11):2278-2324
[9]Cortes C,Vapnik V.Support-vector networks[J].Machine learning, 1995,20(3):273-297
[10]O Ivanciuc.Applications of support vectormachines in chemistry [J].In:Reviews in ComputationalChemistry,2007,23:291-400
[11]Wise BM,Gallagher N B.The process chemometrics approach to chemicalprocess fault detection and supervision[J].Journal of ProcessControl,1996,6(6):329-348
Clustering Analysis of Different Brands of Ejiao Based on SVM
LIUXiao-qian1,WEIJi-ping2,WANG Jun-quan1,LIANG Jing-fen1
(1.TianshiCollege,Tianjin 301700,China;2.Tianjin Modern Vocational Technology College,Tianjin,300350,China)
An identifyingmethod fordifferentbrandsof Ejiaoby using supportvectormachine(SVM)was introduced.First,SVM analyzed the infrared spectrumsofdifferentbrandsof Ejiao,researching the pre-processing of Ejiao spectrums systematically at the same time and the discrimination models of three brands of Ejiao were established.Method comparison was used to discriminate the four different clustering analysis algorithms(KNN,Bayes,LDFand SVM).The experimentproved that the recognition rate and rejection rate of SVM were the highest in the clustermodels of differentbrandsof Ejiao.The results showed that thismethod could identify different typesof Ejiaoeffectively.
FTIR;supportvectormachine;Ejiao;identification
10.3969/j.issn.1005-6521.2017.07.029
2016-05-13
大學(xué)生創(chuàng)業(yè)創(chuàng)新項目(201510859005)
劉曉倩(1994—),女(漢),本科/學(xué)士,研究方向:食品科學(xué)。