夏伯候 胡玉珍 熊蘇慧 唐潔 閆慶梓 林麗美
[摘要] 該研究旨在建立隨機森林算法鑒別和分類不同品牌夏桑菊顆粒,為多指標的復雜指紋圖譜的鑒別提供有效的參考。采用高效液相法采集83批不同品牌的夏桑菊顆粒指紋圖譜,比較主成分分析、偏最小二乘法判別分析、隨機森林等方法在處理不同分類樣品復雜數(shù)據(jù)時的不同。結(jié)果表明本研究成功建立了83批不同品牌夏桑菊顆粒的指紋圖譜;經(jīng)過不同模式識別方法比較可得,主成分分析分析只能解釋56.52%的方差貢獻率,同時不能完全將樣品分類;偏最小二乘法判別分析優(yōu)于主成分分析的結(jié)果,能達到一定的分離,解釋總體方差貢獻率63.43%;而隨機森林法能夠很好的將樣品分為3類,且3類樣本的10折交互驗證準確率達到96.5%。因此,隨機森林算法聯(lián)合HPLC指紋圖譜能夠有效構(gòu)建中藥質(zhì)量控制和分析體系。
[關鍵詞] 夏桑菊顆粒; 指紋圖譜; 主成分分析; 偏最小二乘法判別分析; 隨機森林
Application of random forest algorithm in fingerprint of Chinese medicine:
different brands of Xiasangju granules as example
XIA Bohou, HU Yuzhen, XIONG Suhui, TANG Jie, YAN Qingzi, LIN Limei*
(College of Pharmacy, Key Laboratory for Quality Evaluation of Bulk Herbs of Hunan Province, Hunan
Engineering Laboratory for Prevention and Control Technology of Toxic Substances in Chinese Medicine
/Collaborative Innovation Center for the protection and utilization of Chinese medicine resources, Hunan
University of Chinese Medicine, Changsha 410208, China)
[Abstract] To establish a random forest algorithm for identifying and classifying different brands of Xiasangju granules, and provide effective reference for identifying multiindex complex fingerprint. HPLC method was used to collect the fingerprint of 83 batches of Xiasangju granules from different manufacturers. The classification of Xiasangju granules samples based on chromatographic fingerprints was identified by chemometric methods including principal component analysis (PCA), partial least squares discriminate analysis (PLSDA) and random forest analysis (RF). The superiority of the above three chemometric methods was compared. The results showed that the fingerprints of 83 batches of Xiasangju granules were established in this study. PCA could only explicate 56.52% variance contribution rate and could not completely classify the samples; PLSDA analysis was superior to PCA, explicating 63.43% variance contribution rate and could obtain certain separation; RF could well classify the samples into 3 types, and the predication accuracy of the proposed method was 96.5%. Therefore, The results indicate that RF combined with HPLC fingerprint could effectively construct traditional Chinese medicine quality control and analysis system.
[Key words] Xiasangju Granules; fingerprint; principal component analysis; partial least squares discriminate analysis; random forest
指紋圖譜是指某些復雜物質(zhì),比如中藥,某種生物體或某種組織或細胞的DNA,蛋白質(zhì)經(jīng)適當處理后,采用一定的分析手段,得到的能夠標示其化學特征的色譜圖或光譜圖。指紋圖譜主要分為中藥指紋圖譜,DNA指紋圖譜和肽指紋圖譜。其中,中藥指紋圖譜的研究以反映中藥的整體化學特征為立論依據(jù),實現(xiàn)指紋圖譜技術(shù)在中藥質(zhì)量控制方面的應用[1]。由于中藥指紋圖譜的復雜性,在實際應用研究中常常配合化學計量學的方法,對多維數(shù)據(jù)進行降維處理,從而得到有效的判別模式以及差異性標記物。
化學計量學方法已被廣泛地應用于多個學科的分析工作,包括藥物的代謝組學、基因組學、藥材質(zhì)量控制、植物分類等研究[24];尤其在指紋圖譜等多維的數(shù)據(jù)分析中顯示出優(yōu)勢,也是其重要的分析手段,已經(jīng)得到廣泛的應用[56]。目前常用的方法主要分為2類,一類是無監(jiān)督的分析方法主要有主成分分析(PCA)、聚類分析(HCE) 、獨立成分分析(ICA)等;另一類被稱為有監(jiān)督的分析方法,主要有判別分析(DA)、偏最小二乘法分析(PLS) 、偏最小二乘判別分析(PLSDA),正交校正的偏最小二乘法分析(OPLS)、最近鄰算法(KNN)、人工神經(jīng)網(wǎng)絡(ANN)等[7]。其中,作為目前分析最常用的算法PCA與PLSDA等均存在一定的缺陷,如PCA 對離群點較敏感,PLSDA 容易產(chǎn)生過擬合現(xiàn)象[8]。隨著數(shù)據(jù)的復雜性不斷增加,一些更先進的機器學習方法,如支持向量機(SVM)、隨機森林(RF)、核主成分分析(KPCA)等越來越多地用于相關數(shù)據(jù)分析[9]。其中,隨機森林作為一種分類和預測模型,在許多領域取得了廣泛的應用[1011]。隨機森林算法憑借其精度高、適用性廣、非線性數(shù)據(jù)分析能力強、不易過擬合等優(yōu)勢,成為近年來生物醫(yī)學及生物信息學十分熱門的前沿研究領域之一[12]。
目前,中藥HPLC指紋圖譜的化學計量學研究手段主要應用的最普遍的主成分分析、判別分析以及層次聚類分析等作為手段,大部分的文章均能用這2種方法進行很好的數(shù)據(jù)降維。隨著技術(shù)的發(fā)展,比如2D,3D或者更復雜的1D的HPLC指紋圖譜等發(fā)展,這2種技術(shù)慢慢的不能夠滿足這些復雜數(shù)據(jù)的處理和分析。而目前為止,很少的文獻報道隨機森林方法在中藥指紋圖譜中的應用。因此,本文以夏桑菊顆粒HPLC指紋圖譜為例,結(jié)合高效液相色譜法與不同化學計量學方法對不同品牌夏桑菊顆粒的差異進行研究,采用高效液相色譜法建立不同品牌夏桑菊顆粒的指紋圖譜,進而將得到的指紋圖譜數(shù)據(jù)作為特征向量分別輸入主成分分析、最小偏二乘法判別分析、隨機森林等計量學方法,比較隨機森林算法在色譜分析中的優(yōu)勢,以期得到中藥指紋圖譜分析的新的有效手段和方法。
1 材料
1.1 儀器和試劑
KQ100B型超聲波清洗器(昆山超聲儀器有限公司);BPZ11D型電子分析天平(Sartorius公司);Waters26952996高效液相色譜系統(tǒng),Empower工作站,含四元梯度泵、自動進樣器(Waters 公司)。
醋酸(分析純,北京化工廠);甲醇(色譜純,TEDIA公司);乙腈(色譜純,F(xiàn)isher公司);水為娃哈哈純凈水。
1.2 樣品收集
夏桑菊顆粒,廣州星群(藥業(yè))股份有限公司化驗室提供和市場上購買。83批夏桑菊顆粒的具體來源見表1。
2 方法
2.1 色譜條件
色譜柱Agilent Eclipse XDBC18(4.6 mm×250 mm,5 μm);流速1.0 mL·min-1;檢測波長290 nm;柱溫30 ℃;進樣體積10 μL;流動相乙腈(A)水(B,含1.0 %醋酸),梯度洗脫(0~10 min,5%A;10~20 min,5%~8.6%A;20~45 min,8.6%~17.6%A;45~70 min,17.6%~25.1%A;70~80 min,25.1%~32.1%A;80~90 min,32.1%~37.1%A)。
2.2 供試品制備
取夏桑菊顆粒約5 g,精密稱定,加甲醇10 mL,稱重,超聲30 min(功率250 W,頻率40 kHz),取出,靜置,放涼,補重,0.22 μm微孔濾膜濾過,HPLC分析。
2.3 方法學驗證
按照2.1與2.2項下方法制備供試品并建立HPLC分析條件,連續(xù)進樣6次,計算保留時間及峰面積的精密度,結(jié)果表明該方法的精密度符合要求,其RSD<5%;平行制備6份藥材供試品溶液,以主要成分峰面積為標準,考察方法重復性,結(jié)果表明方法的重復性在誤差范圍內(nèi);制備好的藥材供試品溶液后,在室溫下放置不同時間,進行HPLC分析,以主要成分的峰面積計算,考察樣品的穩(wěn)定性,結(jié)果表明樣品至少在48 h內(nèi)是穩(wěn)定的。
2.4 數(shù)據(jù)處理與多變量統(tǒng)計分析
2.4.1 原始數(shù)據(jù)的篩選與處理 標準樣品的確立包括樣品的生產(chǎn)廠家、批號。參照峰的選擇必須符合下列條件:和相鄰色譜峰分離良好,峰位居中;是指紋圖譜中各待檢樣品中所共有的色譜峰?;谝陨显瓌t,選擇58.55 min的峰作為內(nèi)參峰,已知為迷迭香酸,是夏桑菊顆粒的主要和有效成分。所有的數(shù)據(jù)在進行統(tǒng)計分析之前,均減去均值除以方差做均一化處理。
2.4.2 主成分分析(principal component analysis,PCA) 實際中所獲得的數(shù)據(jù)大多數(shù)為高通量多變量的數(shù)據(jù),變量的個數(shù)越多,對整個數(shù)據(jù)的分析難度也就越大。因此在處理多變量數(shù)據(jù)時,往往需要對變量進行壓縮分解,提取具有代表性的新變量。PCA的目的主要是通過線性的轉(zhuǎn)化將高維變量轉(zhuǎn)化成少數(shù)的因子,即主成分[13]。這些變量各主成分之間相互正交,線性無關。通過選擇合適的主成分進行分析,既不會過多地丟失有用信息,而且還能減少數(shù)據(jù)中的冗余信息。PCA的分析流程如下[14]。①每行代表1個樣本,每1列代表1個變量,將原始數(shù)據(jù)轉(zhuǎn)成數(shù)據(jù)矩陣X。②對樣本矩陣進行奇異值分解,得到得分矩陣和荷載矩陣,得分矩陣反映樣本與樣本之間的關系,載荷矩陣反映變量的重要度。③選擇T矩陣中的前2個或者3個具有最大特征值的特性向量進行投影就可以得到二維或者三維的投影圖,直觀地分析樣本的聚類趨勢。
2.4.3 偏最小二乘法判別分析(partial least squaresdiscriminant analysis,PLSDA) 偏最小二乘法(PLS)是由Wold和Martens在1983年提出來的一種新穎的多元統(tǒng)計數(shù)據(jù)分析方法。它能消除自變量間的相關性,找到自變量與因變量之間的關系,最后構(gòu)建一個用于預測的回歸模型,因此適合解決高維,共線性嚴重且變量個數(shù)多于樣本個數(shù)的數(shù)據(jù)[15]。PLS的基本運算是基于非線性迭代偏最小二乘算法(nonlinear iterative partial least squares NIPALS),同時分解X矩陣和Y矩陣,并在分解X矩陣的時候利用Y矩陣的信息,在分解Y矩陣時利用X矩陣的信息,因此可以得到較好的回歸結(jié)果。
PLSDA來源于PLS運算算法,首先構(gòu)建一個虛擬的矩陣Y來描述樣本性質(zhì),然后按照上述PLS運算所建立的回歸模型就稱為PLSDA。偏最小二乘法判別分析(PLSDA)是基于偏最小二乘法上的一種監(jiān)督模式識別方法,是一種可以同時實現(xiàn)多元線性回歸、主成分分析的數(shù)據(jù)分析方法。它的主要原理是先利用PLS提取樣本的主成分,然后將主成分作為新變量建立訓練樣本自變量和分類變量之間的回歸模型,進行判別分析[16]。
2.4.4 隨機森林(random forest,RF) 隨機森林是由Leo Breiman提出的一種基于樹分類器的集成算法,其包含了2種十分有效地機器學習技術(shù):Bagging和隨機變量選擇[17]。Bagging算法是通過bootstrap法(鞋帶法)有放回的采樣構(gòu)建多個訓練集,最后的預測結(jié)果由所有構(gòu)建的分類器進行投票表決得到。隨機森林是在Bagging的方法進一步地發(fā)展,其在構(gòu)建每個獨立樹分類器的時候并不是使用所有的變量,而是隨機的從所有變量中選擇一部分進行節(jié)點的劈分。隨機森林算法實現(xiàn)流程如下[18]。①用Bagging方法構(gòu)造單個獨立訓練集,每個訓練集都是從原始訓練集的N個樣品中有放回地抽取m個樣品。②對于每個獨立訓練集,用如下過程生成一棵不經(jīng)剪枝的分類回歸樹。設共有M個原始變量,給定一個正整數(shù)mtry,滿足mtry 如上所述,隨機森林由多個分類回歸樹的集成得到。所有的數(shù)據(jù)分析程序均在Matlab上由課題組自己編譯得到。 3 結(jié)果與討論 3.1 色譜條件的優(yōu)化與處理 為了達到更好的分離效果,本研究比較了不同流動相以及不同的檢測波長。經(jīng)過不同的試驗比較,得出用流動相乙腈與水(含1%的乙酸)時,各峰之間具有較好的分離度和峰形,并具有較少的干擾物質(zhì)。同時,比較不同的檢測波長下色譜的峰形和峰數(shù)時,發(fā)現(xiàn)在290 nm時色譜具有較好的峰形與較多的峰數(shù)。因此,選擇290 nm作為夏桑菊不同品牌HPLC指紋圖譜的檢測波長。具體HPLC圖見圖1。經(jīng)過峰位矯正,共得到16個共有峰以進行接下來的降維算法的分析。 3.2 主成分分析(PCA)結(jié)果 為了便于觀察不同品牌夏桑菊顆粒之間的差異性(不同的類別),在不損失大量信息的條件,利用PCA將高維的指紋圖譜數(shù)據(jù)轉(zhuǎn)化為低維的數(shù)據(jù)。所有的數(shù)據(jù)導入PCA進行聚類分析,利用其前3個主成分(PC1,PC2和PC3)進行畫圖區(qū)分,3個主成分對于方差的總貢獻度僅為56.52%,說明利用PCA這種方法時,所選擇的變量不能很好的解釋不同品牌夏桑菊顆粒的差異;另外,從PCA的得分圖,見圖2(每1個點代表1個樣品來源),可得星群夏桑菊(有糖型)與花城以及其他類夏桑菊之間是存在顯著區(qū)別的,居于圖片的右上方;但是花城和其他類的夏桑菊之間幾乎完全重疊,表明PCA只能將星群夏桑菊(有糖型)于其他的2種夏桑菊區(qū)別開,而無法將其他2類夏桑菊進行區(qū)分。因而,本文將進一步采取其他的模式識別算法對這3類夏桑菊產(chǎn)品進行區(qū)分。 3.3 偏最小二乘法判別分析(PLSDA)結(jié)果 為了更好的將各不同品牌的夏桑菊顆粒的分類,偏最小二乘法判別分析被應用的改指紋圖譜的分析。經(jīng)過偏最小二乘法判別分析可得,前3個主成分對于方差的總貢獻度為63.43%。相比主成分的分析,結(jié)果稍好。但是從PLSDA的得分圖,見圖3,星群(有糖型)夏桑菊顆粒能夠很好與其他2類分開,而花城的與其他品牌的同樣不能很好的分離,有一定的交集。表明PLSDA無法將這2類夏桑菊進行區(qū)分。因此,采取更加先進的模式識別算法對這3類夏桑菊產(chǎn)品進行區(qū)分。 3.4 隨機森林(RF)分析結(jié)果 本節(jié)將采用隨機森林算法對3類夏桑菊產(chǎn)品進行分析。隨機森林是一類基于分類回歸樹集成算法,其在進行數(shù)據(jù)聚類分析的同時還能夠得到各變量(在本文中即為各色譜峰或色譜峰所代表的物質(zhì))對于聚類的貢獻度。每個物質(zhì)的聚類分析結(jié)果見圖4,可見3類夏桑菊產(chǎn)品均得到有效的區(qū)分。星群(有糖型)夏桑菊處于其他2類的另一個方向,而花城和其他類夏桑菊產(chǎn)品雖然距離較近,說明2類產(chǎn)品還是較為相似,但依然存在區(qū)別,在隨機森林算法中均得到有效區(qū)分。 整個分析過程分為以下幾步:首先,從所有夏桑菊產(chǎn)品中選出80%的產(chǎn)品作為訓練集,20%的產(chǎn)品作為獨立測試集。利用隨機森林對訓練集進行分類預測,其10折交互驗證的預測準備率為96.49%,說明隨機森林具有較強的分類能力,能夠有效區(qū)分多類夏桑菊產(chǎn)品?;跇?gòu)建的訓練模型,對剩下的20%的獨立測試集進行分類預測,其預測準確率為94.11%,具體的分類預測結(jié)果見表2。 4 討論 中藥指紋圖譜的一個重要特色在于用規(guī)范化的程序獲得中藥特征性總成分提取物,并用1HNMR,HPLC,UV,IR等多種手段表征其組成和結(jié)構(gòu)。不同的表征手段間的區(qū)別主要表現(xiàn)在所得到的信息多少不同和操作上的方便程度不同。同時,核心的問題 在于這種特征性總成分提取物要有真正的特征性,它的組成和結(jié)構(gòu)要能真正代表這種中藥。由于同一產(chǎn)品的生產(chǎn)工藝和廠家不同,必然造成了質(zhì)量不差異性,而這種差異性主要來自組分差異。本研究運用主成分分析和正交最小偏二乘法判別分析得到的結(jié)果均不能將不同廠家的夏桑菊很好的分類,不能夠完全代表其真正的差異性。而隨機森林算法能夠很好的將不同廠家的樣品歸類,說明該算法能夠很好的達到降維的目的,同時其結(jié)果真正的反應了不同夏桑菊內(nèi)在的不同。
PCA是一個無監(jiān)督的學習方法,其依靠樣品間的相似性進行分析,在分類識別的過程中并不需要進行訓練和測試,所以本文對其直接進行分類預測。PLSDA方法作為一種廣泛使用的分類學習器,能夠有效提高預測準確率,但在本研究中,其效果并不好,且PLSDA更多的用于2類分類問題,而本研究中涉及到3類分類,建模式訓練時常常采用1對1策略,或者1對多策略。需要進行多次訓練和測試。而隨機森林算法的提出能夠有效解決這些問題,其適合多類分類問題的計算,在1次建模分析中即可完成對數(shù)據(jù)的全部分類預測。
從本研究的結(jié)果說明相比于PCA與PLSDA等算法,隨機森林算法在復雜數(shù)據(jù)或者指紋相似樣品的處理和分類上具有顯著的優(yōu)勢,具有較好的效果。該方法的發(fā)展與應用對指紋譜圖等復雜數(shù)據(jù)的分析與樣品的分析乃至基因組學、蛋白組學等發(fā)展具有重要的意義。
[參考文獻]
[1] 李強,杜思邈,張忠亮,等. 中藥指紋圖譜技術(shù)進展及未來發(fā)展方向展望[J]. 中草藥,2013(22):3095.
[2] Peng Q, Tian R, Chen F, et al. Discrimination of producing area of Chinese Tongshan kaoliang spirit using electronic nose sensing characteristics combined with the chemometrics methods[J]. Food Chem, 2015, 178: 301.
[3] Guo L, Duan L, Liu K, et al. Chemical comparison of Tripterygium wilfordii and Tripterygium hypoglaucum based on quantitative analysis and chemometrics methods[J]. J Pharm Biomed Anal, 2014, 95: 220.
[4] Bevilacqua M, Marini F. Local classification: locally weightedpartial least squaresdiscriminant analysis (LWPLSDA)[J]. Anal Chim Acta, 2014, 838: 20.
[5] 夏伯候, 嚴東, 曹藝,等. 不同劑型夏桑菊顆粒HPLC指紋圖譜及其模式識別分析[J]. 中國中藥雜志, 2016, 41(3):416.
[6] 蘇靜華, 張超, 孫磊,等. 指紋圖譜結(jié)合化學計量學用于香櫞品種鑒別的可行性分析[J]. 中國中藥雜志, 2015, 40(12):2318.
[7] Gad H A, ElAhmady S H, AbouShoer M I, et al. Application of chemometrics in authentication of herbal medicines: a review[J]. Phytochem Anal, 2013, 24(1): 1.
[8] 柯朝甫, 武曉巖, 侯艷, 等. 偏最小二乘判別分析交叉驗證在代謝組學數(shù)據(jù)分析中的應用[J]. 中國衛(wèi)生統(tǒng)計, 2014, 31(1): 85.
[9] Pedergnana M, Marpu P R, Dalla Mura M, et al. A novel technique for optimal feature selection in attribute profiles based on genetic algorithms[J]. IEEE Trans Geosci Remot Sen, 2013, 51(6): 3514.
[10] Achawanantakun R, Chen J, Sun Y, et al. LncRNAID: long noncoding RNA identification using balanced random forests[J]. Bioinformatics, 2015, 31(24): 3897.
[11] Ganz M, Greve D N, Fischl B, et al. Relevant feature set estimation with a knockout strategy and random forests[J]. Neuro Image, 2015, 122: 131.
[12] Stephan J, Stegle O, Beyer A. A random forest approach to capture genetic effects in the presence of population structure[J]. Nat Commun, 2015, 6: 7432.
[13] Abdi H, Williams L J. Principal component analysis[J]. Wiley Interdisciplin Rev Comput Stat, 2010, 2(4): 433.
[14] Bro R, Smilde A K. Principal component analysis[J]. Anal Method, 2014, 6(9): 2812.
[15] Kalivodová A, Hron K, Filzmoser P, et al. PLSDA for compositional data with application to metabolomics[J]. J Chemometr, 2015, 29(1): 21.
[16] PérezEnciso M, Tenenhaus M. Prediction of clinical outcome with microarray data: a partial least squares discriminant analysis (PLSDA) approach[J]. Hum Genet, 2003,112: 581.
[17] Breiman L. Random forests[J]. Mach Learn, 2001, 45(1): 5.
[18] Jiang R, Tang W, Wu X, et al. A random forest approach to the detection of epistatic interactions in casecontrol studies[J]. BMC Bioinformatics, 2009, 10(1): S65.
[責任編輯 孔晶晶]