潘杰,劉德勝,顏貴明
(安徽中醫(yī)藥大學,安徽 合肥 230012)
傳統(tǒng)中藥方劑常常是多種中藥配伍而成,具有成分復(fù)雜、不明確和藥理作用機制不明等特點。這些特點使得中藥藥效飽受爭議,難以在國際上進一步推廣。近年來,中藥學研究者們致力于中藥藥理藥效的研究。大部分研究集中在通過對藥材的有效成分進行提取和分離得到單個有效成分,如人參皂苷[1]和青蒿素[2]等,再對提取出來的單個有效成分進行藥理和藥效學研究。雖然這樣的研究克服了中藥方劑成分復(fù)雜的問題,并且在一定程度上解釋了單個有效成分的藥理學活性及作用機制,但是其作用療效相對于原本的中藥方劑卻大打折扣,即使在劑量加倍的條件下,其作用效果依舊不佳。于是越來越多的研究者提出不同藥理機制已明確的有效成分之間是否可以協(xié)同作用的概念。中藥譜效關(guān)系已經(jīng)被廣泛地運用到了中藥藥效研究、藥物配伍、炮制工藝改良和藥效預(yù)測等領(lǐng)域[3-4]。該方法是指將已獲得的中藥指紋圖譜與中藥的藥理藥效學研究成果,通過各種生物信息學方法,建立兩者的線性或非線性相關(guān)關(guān)系,最終得到“譜-效”映射關(guān)系,用于預(yù)測單味藥物或中藥復(fù)方制劑的藥效和藥理機制[5]。不可否認的是,數(shù)據(jù)分析在“譜-效”建模過程中發(fā)揮了重要的作用。而數(shù)據(jù)分析手段的科學性和合理性影響著“譜-效”建模的準確性和有效性。近年來,隨著大數(shù)據(jù)時代的來臨,越來越多譜效分析研究開始出現(xiàn),對不同的數(shù)據(jù)分析算法的了解和選擇決定了最終“譜-效”建模的有效性。本文將就近十幾年以來的譜效分析的數(shù)據(jù)分析算法進行綜述,使讀者能充分認識這些數(shù)學建模方法,擇優(yōu)選擇。
對各有效成分與藥效之間的相關(guān)性預(yù)測可采用人工神經(jīng)網(wǎng)絡(luò)、灰關(guān)聯(lián)度分析和相關(guān)分析等方法,這些數(shù)據(jù)分析方法可以建立中藥圖譜與藥物有效性的關(guān)系,為中藥藥效預(yù)測提供可能。
關(guān)聯(lián)度是指兩個變量的隨時間或其他的實驗條件的變化趨勢的相關(guān)性,若兩個變量的同向變化趨勢程度高,則兩個變量的關(guān)聯(lián)度高,反之則關(guān)聯(lián)度低?;谊P(guān)聯(lián)度分析即通過度量變量的發(fā)展趨勢的相同或相異程度,來衡量相關(guān)性。這類相關(guān)分析是對單一觀察對象表現(xiàn)現(xiàn)象的表觀評估,這些具有關(guān)聯(lián)性的變量其本質(zhì)上常常是互相影響,具有因果關(guān)系、協(xié)同關(guān)系或者是拮抗關(guān)系的。通過相關(guān)關(guān)系在一定程度上可以預(yù)估變量內(nèi)部本質(zhì)的互作關(guān)系。灰關(guān)聯(lián)度分析用于樣本的信息量單一,影響因素復(fù)雜的圖譜,可以客觀地體現(xiàn)各成分間的影響和互作。其基本分析步驟為:①分析中藥圖譜,仔細對比獲得共有峰,用相應(yīng)的藥效學參數(shù)指標來作為評估標準,無量綱化處理參考數(shù)列和比較數(shù)列,消除不同計量單位引起的差異;②計算得到藥效指標和共有峰之間的絕對差值;③計算得到藥效指標與每個特征峰間的關(guān)聯(lián)系數(shù),以平均值法求得關(guān)聯(lián)度[6]。如果兩個研究變量在隨實驗加載條件變化而變化過程中的一致性程度較高,那么就定義為兩者關(guān)聯(lián)度比較大,相反,變化一致程度低則兩者關(guān)聯(lián)度小。梁建欽等[7]從芒果葉中利用不同極性溶劑提取到了有效物,已知這些提取物的抗炎特性差異很大,通過 HPLC 法建立指紋圖譜。將昆明小鼠隨機分為三組,對照組給予生理鹽水作為陰性對照,地塞米松組作為陽性對照,實驗組給予芒果葉提取物,經(jīng)二甲苯誘導(dǎo)炎癥后,通過測定耳腫脹度作為抗炎藥效指標。數(shù)據(jù)經(jīng)統(tǒng)計分析,把芒果葉不同極性提取物的抗炎藥效作為參考序列,把芒果葉不同極性溶劑提取物圖譜中特征峰峰面積數(shù)據(jù)作為比較序列,先對兩組數(shù)列進行無量綱化處理,求得兩組數(shù)列的灰色關(guān)聯(lián)系數(shù),分別計算各個指標與參考序列對應(yīng)元素的關(guān)聯(lián)系數(shù)的均值,稱之為為關(guān)聯(lián)序,最后對關(guān)聯(lián)序進行排序,排序靠前則為重要藥效物質(zhì)。最終發(fā)現(xiàn)了芒果葉提取物抗炎作用的部分物質(zhì)基礎(chǔ)是芒果苷及X1(關(guān)聯(lián)系數(shù)=0.901 6),X3(關(guān)聯(lián)系數(shù)=0.955 8)峰。
ANNs是一種模擬人類神經(jīng)元網(wǎng)絡(luò)信號傳遞方式的并進行信息化處理的數(shù)學建模算法。通過模仿大腦信號處理和記憶信號等方式進行信號歸納處理。它具有以下幾個特點(1)非線性,(2)非局限性,(3)非常定性,(4)非凸性。它的優(yōu)點在于其非線性擬合能力,且不需要實現(xiàn)建立數(shù)學模型,充分考慮了事物內(nèi)部作用的復(fù)雜性及關(guān)系的模糊性,對復(fù)雜的信息進行簡化建模處理。其研究程序一般為:①利用已有的光譜/色譜提取化學組分信號;②對信號進行轉(zhuǎn)換和壓縮,用來提取特征峰的有效信號;③將特征峰的有效信號與相對應(yīng)的藥效學指標建立一定的映射函數(shù)關(guān)系,同時預(yù)測特征峰的綜合藥效。許雯雯等[8]在建立氣滯胃痛顆粒全時段多波長融合指紋圖譜分析方法的基礎(chǔ)上,對6味藥材隨機配比成不同比例,用LPS誘導(dǎo)小鼠單核巨噬細胞釋放TNF-α,IL-6,NO,檢測各配比對這些細胞因子產(chǎn)生的抑制率作為抗炎藥效指標,先用灰色關(guān)聯(lián)度分析將藥效指標與各組HPLC指紋圖譜關(guān)聯(lián)得出各色譜峰對抗炎活性的關(guān)聯(lián)程度,再用BP神經(jīng)網(wǎng)絡(luò)進行擬合:先通過程序算法得到BP網(wǎng)絡(luò)預(yù)測值,再對測定值和預(yù)測值進行線形回歸,最后得到回歸系數(shù)為0.983,說明本次實驗的預(yù)測性能較佳。
相關(guān)分析是通過對樣本原始數(shù)據(jù)進行統(tǒng)計學分析,計算其相關(guān)性系數(shù)來衡量兩組或幾組數(shù)據(jù)之間的關(guān)系的一種算法[9]。其基本步驟為:①兩組變量的正態(tài)性驗證;②兩組數(shù)據(jù)一個作為橫坐標,一個作為縱坐標做散點圖,直觀判斷兩組數(shù)據(jù)是否相關(guān)和相關(guān)類型;③求得相關(guān)系數(shù);④對相關(guān)系數(shù)進行假設(shè)檢驗,得出結(jié)論。劉旭等[10]通過結(jié)扎大鼠冠狀動脈造急性心肌缺血大鼠模型,利用HPLC獲得川芎提取物指紋圖譜,將各有效成分提取出來并給模型大鼠給藥,測定血清SOD活性、MDA含量作為抗心肌再灌注損傷藥效評估指標。最后將川芎提取物藥效數(shù)據(jù)與指紋圖譜的共有峰的相對峰面積相關(guān)聯(lián),運用雙變量相關(guān)分析,最終發(fā)現(xiàn)阿魏酸、川芎嗪可顯著降低血清中丙二醛(MDA)等的含量,可顯著升高血清超氧化物歧化酶(SOD)活力,均屬于中藥川芎抗心肌缺血再灌注損傷的主要有效成分。
通過傳統(tǒng)的藥理學和藥效學研究,我們明確了有效成分的藥效作用。再通過有效成分與藥效的關(guān)聯(lián)度預(yù)測,我們可以得到藥物的譜效關(guān)聯(lián)性。但具體有效成分的分析需要通過多元線性回歸和偏最小二乘回歸分析等統(tǒng)計學數(shù)據(jù)分析進行進一步闡明。構(gòu)建準確科學的回歸模型,可以初步衡量各有效成分對藥效的貢獻程度。
多元線性回歸是通過建立多個自變量和單個因變量的回歸模型,對每個自變量對因變量的影響程度進行參數(shù)評估的統(tǒng)計學經(jīng)典算法。MLR是研究單個因變量與多個自變量間的線性回歸模型構(gòu)建的統(tǒng)計學方法[11]。通常用于構(gòu)建非表數(shù)據(jù)與部分表觀易分析測得指標的統(tǒng)計學算法,從而實現(xiàn)通過易測指標對難測指標進行預(yù)測分析。其主要想法是:①先量化處理數(shù)據(jù),選取并引入影響程度較大的變量;②計算逐步回歸方程;③對回歸方程進行假設(shè)檢驗并評價其有效性。吳尤嬌等[12]利用HPLC分析方法得到廣西不同產(chǎn)地的10批毛郁金藥材的指紋圖譜分析。通過高脂飼料喂養(yǎng)建立高脂血癥大鼠模型,連續(xù)3周給藥,設(shè)正常組、高脂模型組、辛伐他汀組和10批不同產(chǎn)地毛郁金乙醇提取物給藥組,以對高脂大鼠血清CHOL、TG含量降低程度作為降脂藥效指標,采用多元線性回歸分析研究各色譜與降血脂作用的相關(guān)性。
偏最小二乘回歸分析是綜合了多因變量對多自變量的回歸建模分析和主成分分析在內(nèi)的多元數(shù)據(jù)降維分析方法[13]。特別當各變量內(nèi)部高度線性相關(guān)時,用偏最小二乘回歸分析更有效。另外,偏最小二乘回歸較好地解決了樣本個數(shù)少于變量個數(shù)等問題。其主要方法步驟為:①對自變量與因變量進行線性組合;②轉(zhuǎn)變成無相互關(guān)系的綜合變量;③對新構(gòu)建的綜合變量進行回歸分析。鄧書鴻等[14]通過 HPLC 獲得三類黃芪提取物指紋圖譜,以小鼠自入水后到沉入水中 8 s 不能浮出水面的時間來作為衡量抗疲勞藥效的指標。采用偏最小二乘回歸分析方法分析黃芪提取物 HPLC 指紋圖譜與抗疲勞藥效作用之間的譜效關(guān)系。最終結(jié)果發(fā)現(xiàn)對譜效關(guān)系有重要貢獻的變量共有36個(包括黃芪多糖和35個色譜峰)。
隨著越來越多的中藥化學成分的指紋圖譜的闡明,信息多樣的中藥圖譜所包含的信息也越來越多樣化。由于中藥成分的復(fù)雜性,我們希望找到最主要的藥效成分來進一步進行新藥開發(fā)。但往往重要的有效成分并不是簡單地配比,而是多個變量以不同的效率去影響總體的藥效。通過主成分分析及典型相關(guān)分析的多因素降維算法,將原來多個維度的數(shù)據(jù)降維成二維或三維數(shù)據(jù)進行分析,用以初步判斷各個化學成分對藥效的貢獻效益大小。
主成分分析法是經(jīng)典的聚類分析方法之一。主成分的確定由累計貢獻率和以特征值決定, 累計貢獻率以>85%且特征值以λi≥1為佳[15]。其基本建模步驟是:①原始指標數(shù)據(jù)標準化,并求得各成分間的相關(guān)系數(shù)矩陣R;②求得R矩陣的特征值、特征向量和貢獻率,用貢獻率與特征值確定主成分個數(shù)并解釋主成分含義;③合成主成分,并得到綜合評定。劉青萍等[16]采用HPLC法獲取了12批補陽還五湯全方和14批補陽還五湯精簡方的指紋圖譜數(shù)據(jù),采用大腦中動脈線栓法建立大腦中動脈閉塞模型,檢測腦干濕重和腦梗死面積作為腦損傷保護藥效評估指標,運用主成分分析法對采集的數(shù)據(jù)進行降維處理,再運用灰色關(guān)聯(lián)度法將指紋圖譜特征峰和腦損傷的保護藥效關(guān)聯(lián)起來,最終發(fā)現(xiàn)保留時間為tR=6.47、20.65、26.40 min的化學成分,調(diào)控腦梗死面積、腦水腫的貢獻度最佳。
典型相關(guān)性分析利用典型的相關(guān)系數(shù)對兩組變量線性相關(guān)程度進行定量描述,是一種簡化數(shù)據(jù)結(jié)構(gòu)的分析方法[17]。他的特點是可以通過研究相關(guān)關(guān)系較大的幾對典型代表變量,替代了兩組變量之間的復(fù)雜相互關(guān)系。分析的步驟:①確定相關(guān)分析中的幾組貢獻率較大的典型變量;②提取典型變量;③正態(tài)性檢驗分析;④估計典型模型,評價擬合情況,計算相關(guān)系數(shù);⑤解釋典型變量;⑥顯著性檢驗。于海帥等[18]利用HPLC方法得到了7種產(chǎn)地漏蘆的指紋圖譜,采用噻唑藍法檢測了幾種漏蘆對胃癌細胞的抑制增殖作用作為藥效研究指標,利用典型相關(guān)分析對漏蘆成分、藥效數(shù)據(jù)進行相關(guān)分析。
中藥譜效關(guān)系的建立的核心在于建立中藥指紋圖譜與中藥藥理藥效的映射關(guān)系,當然這也是它的難點所在。中藥指紋圖譜包括生物指紋圖譜和化學指紋圖譜,生物圖譜包括DNA圖譜和蛋白圖譜,主要用于中藥的鑒定,而化學指紋圖譜則包括了色譜圖譜和光譜圖譜,也就是我們傳統(tǒng)意義上的譜效分析中的“譜”[19]。中藥藥理藥效學研究與傳統(tǒng)意義上的藥效學研究的方法一致,通過離體細胞實驗和在體動物實驗兩種實驗方法進行研究,最終目的在于確定目標藥物制劑的藥物效應(yīng)和藥物作用靶點。值得注意的是,中藥指紋圖譜的研究和藥理藥效的研究通常是分開獨立進行的,在研究過程中兩者是互相獨立的,要找到兩者的相關(guān)聯(lián)系需要選擇合適的數(shù)據(jù)處理技術(shù)來建立兩者之間的相互映射關(guān)系。
第一步需要找到指紋圖譜與藥物之間的相關(guān)關(guān)系。自然界中各個對象之間常常存在許許多多的互作關(guān)系,比如協(xié)同、拮抗或者因果關(guān)系等,兩個對象之間可能存在幾種以上的互作關(guān)系,所以當很多事物聯(lián)系成一個網(wǎng)絡(luò)的時候,其復(fù)雜程度顯而易見。相關(guān)關(guān)系是通過估量兩個事物的變化趨勢和走向的一致性,來初步推測兩者之間關(guān)聯(lián)性的一種算法,通過容易觀測到的指標之間的變化來對對象內(nèi)部聯(lián)系進行推測。建立初步確定一般相關(guān)關(guān)系之后,需要開始第二歩,即通過簡單的回歸分析進行線性或非線性擬合,初步判斷多個自變量對同一個因變量作用的比重。但我們都知道,自然環(huán)境中的因素并不是簡單的配比,它具有數(shù)量多且關(guān)系復(fù)雜的特點,因此這時候我們需要進行第三步,即對數(shù)據(jù)進行降維分析,將復(fù)雜且多的數(shù)據(jù)降成二維或三維的數(shù)據(jù),并尋找到配比最合理,擬合最佳的方式,更加全面地評估各組分對于總體藥效的奉獻比重。
當然所有的數(shù)據(jù)處理算法都有各自的優(yōu)勢和劣勢,為了能更加準確合理的對藥效關(guān)系評估,需要多種算法的結(jié)合和相互驗證,以建立最為科學合理的“譜-效”數(shù)學模型。隨著信息化時代的來臨,各個領(lǐng)域都面臨著大數(shù)據(jù)的革新,在生命科學領(lǐng)域和藥物研究領(lǐng)域更是如此。其實隨著時代的進步,如何更加高效和科學的開展科學研究已經(jīng)成為一個我們不能回避的問題。比如在如今的中藥藥效關(guān)系研究當中就存在這樣一個問題,每個進行藥物成分研究的研究人員在進行有效成分提取過后都會對藥效進行研究,然后建立相應(yīng)的中藥效譜關(guān)系。但研究者們所選用的數(shù)據(jù)算法常常參差不齊,直接影響了最后效譜關(guān)系的有效性。是否可以構(gòu)建一個數(shù)據(jù)庫,做藥理藥效研究的研究者將數(shù)據(jù)上傳,然后統(tǒng)計分析專家從數(shù)據(jù)庫下載數(shù)據(jù),最終建立合理的中藥效譜關(guān)系,它是一個一對多的關(guān)系,可以有效地將這些藥理藥效研究進行多次利用,在很多領(lǐng)域已經(jīng)實現(xiàn)了這種平臺搭建,比如癌癥的基因組學和蛋白組學數(shù)據(jù)庫??偟膩碚f,高效準確的數(shù)據(jù)處理和分析方法的科學使用必將推動中藥譜效關(guān)系研究的蓬勃發(fā)展。