李智慧 陸 濤,3 楊中林 黃 園 陶禹希 言方榮△
基于Copula函數(shù)的中藥有效成分群譜效分析*
李智慧1,2陸 濤1,2,3楊中林1,4黃 園1,2陶禹希1,2言方榮1,2△
目的 通過(guò)構(gòu)建適合的二元Copula函數(shù)模型,對(duì)中藥有效成分群指紋圖譜與藥物活性進(jìn)行分析,探索簡(jiǎn)單易行的中藥質(zhì)量控制方法。方法 本文首先分別模擬分析二元Copula函數(shù)和二元正態(tài)分布對(duì)中藥有效成分群譜效關(guān)系的擬合情況,然后選取合適的Copula函數(shù)模型分析18批次懷牛膝藥材指紋圖譜與成骨細(xì)胞增殖活性的相關(guān)關(guān)系,最后利用選擇的Copula函數(shù)模型對(duì)中藥懷牛膝進(jìn)行質(zhì)量判別。結(jié)果 五種常見(jiàn)的Copula函數(shù)中,二元單參數(shù)Gumbel Copula函數(shù)對(duì)所研究的中藥懷牛膝有效成分群譜效關(guān)系有較好的擬合效果,其相關(guān)系數(shù)τ=0.5547,ρs=0.7422,λup=0.6384,λlo=0。結(jié)果表明此函數(shù)上尾部呈現(xiàn)出較強(qiáng)的相關(guān)性而下尾部漸近獨(dú)立,即質(zhì)量好的中藥其細(xì)胞增值活性也較強(qiáng),質(zhì)量差的對(duì)細(xì)胞藥效影響則不顯著。結(jié)論 Copula函數(shù)能夠用于分析中藥有效成分群譜效關(guān)系,尤其對(duì)尾部相關(guān)性的描述為質(zhì)量辨別提供了新方法,為中藥譜效關(guān)系研究提出新思路。
Copula 中藥 有效成分群 譜效分析 質(zhì)量控制
1.中國(guó)藥科大學(xué)天然藥物活性物質(zhì)與功能?chē)?guó)家重點(diǎn)實(shí)驗(yàn)室(210009)
2.中國(guó)藥科大學(xué)理學(xué)院數(shù)學(xué)教研室
3.中國(guó)藥科大學(xué)分子設(shè)計(jì)與藥物發(fā)現(xiàn)實(shí)驗(yàn)室
4.中國(guó)藥科大學(xué)中藥學(xué)院
△通信作者::言方榮,Email:f.r.yan@163.com
隨著中藥現(xiàn)代化的發(fā)展,探索符合中醫(yī)藥特點(diǎn)的中藥質(zhì)量分析與評(píng)價(jià)技術(shù),是推進(jìn)中藥現(xiàn)代化和國(guó)際化發(fā)展的關(guān)鍵任務(wù)之一。由于中藥是多個(gè)基本單元組成的系統(tǒng),其臨床療效不是各組成部分療效簡(jiǎn)單的線(xiàn)性加和〔1〕,檢測(cè)中藥一個(gè)或幾個(gè)化學(xué)成分含量難以準(zhǔn)確評(píng)價(jià)中藥質(zhì)量?jī)?yōu)劣,以往的中藥質(zhì)量檢測(cè)方法實(shí)現(xiàn)不了根據(jù)“量”控制“質(zhì)”的目的。尋找與藥效相關(guān)的成分群,建立反映中藥內(nèi)在質(zhì)量的藥效指紋圖譜,通過(guò)中藥化學(xué)指紋圖譜來(lái)評(píng)價(jià)中藥產(chǎn)品質(zhì)量已成為中藥質(zhì)量分析領(lǐng)域的前沿研究方向〔2〕。中藥化學(xué)指紋圖譜是能夠標(biāo)識(shí)藥物內(nèi)多種化學(xué)成分特性的多維多息譜圖,它是對(duì)中藥物質(zhì)基礎(chǔ)的一種整體表達(dá),能較好地體現(xiàn)中藥成分的復(fù)雜性和相關(guān)性〔3〕。因此可借助其找到與藥效相關(guān)的藥材的特征,進(jìn)而得到“譜-效”關(guān)系。
Copula函數(shù)是一類(lèi)將聯(lián)合分布函數(shù)與他們各自的邊緣分布函數(shù)連接在一起的函數(shù),也稱(chēng)為連接函數(shù)。它可以捕捉變量間非線(xiàn)性、非對(duì)稱(chēng)以及尾部相關(guān)關(guān)系,因此用Copula函數(shù)描述中藥“譜-效關(guān)系”復(fù)雜的非線(xiàn)性特點(diǎn)是適宜的。Copula函數(shù)模型不僅可以用于研究一般情況下變量之間的相關(guān)關(guān)系,還可以用于研究極值相關(guān)關(guān)系〔4〕,所以在中藥質(zhì)量?jī)?yōu)劣的譜效分析中更為實(shí)用和有效。本文借助二元Copula函數(shù)建立中藥懷牛膝有效成分群指紋圖譜與成骨細(xì)胞增殖活性之間的譜效關(guān)系分析模型并進(jìn)行懷牛膝質(zhì)量?jī)?yōu)劣判別。
Copula函數(shù)是把隨機(jī)向量x1,x2,…,xN的聯(lián)合分布函數(shù)F(x1,x2,…,xN)與各自的邊緣分布函數(shù)FX1(x1),F(xiàn)X2(x2),…,F(xiàn)XN(xN)相連接的連接函數(shù),即函數(shù)C(u1,u2,…,uN)使F(x1,x2,…,xN)=C[FX1(x1),F(xiàn)X2(x2),…,F(xiàn)XN(xN)]。
定義1(Nelsen,2006) 二維 Copula函數(shù)是指滿(mǎn)足以下性質(zhì)的函數(shù)C(u,v):
(1)C(u,v)的定義域?yàn)椋?,1]×[0,1];
(2)至少存在一個(gè)u0∈[0,1]和一個(gè)v0∈[0,1],使得C(u0,v)=0=C(u,v0);對(duì)任意 0≤u1≤u2≤1 和0≤v1≤v2≤1 有C(u2,v2)-C(u2,v1)-C(u1,v2)+C(u1,v1)≥0;并且對(duì)任意的u,v∈[0,1],滿(mǎn)足C(u,1)=u,C(1,v)=v。
根據(jù)Sklar定理若二元聯(lián)合分布函數(shù)H(x,y)存在邊緣分布F(x)和G(y),則存在一個(gè) Copula函數(shù)C(u,v),滿(mǎn)足H(x,y)=C[F(x),G(y)]。連續(xù)邊緣函數(shù)確定唯一的Copula函數(shù),當(dāng)為離散邊緣分布函數(shù)時(shí)有Copula函數(shù)使之成立。這不僅提供了在不研究邊緣分布的情況下分析變量之間相關(guān)結(jié)構(gòu)的途徑,同時(shí)也為求取聯(lián)合分布函數(shù)提供了方法。
變量間的相關(guān)關(guān)系通常用相關(guān)系數(shù)來(lái)度量。目前,有很多種相關(guān)系數(shù),如線(xiàn)性相關(guān)系數(shù)、秩相關(guān)系數(shù)和尾部相關(guān)系數(shù)等。線(xiàn)性相關(guān)系數(shù)能反映變量間的線(xiàn)性關(guān)系;秩相關(guān)系數(shù)善于描述變量一致性;尾部相關(guān)系數(shù)適用于極值理論下相關(guān)性測(cè)度。Copula函數(shù)是一種更靈活穩(wěn)健的相關(guān)性分析工具,有其自身的特點(diǎn):如果對(duì)變量進(jìn)行嚴(yán)格單調(diào)增變換,由Copula函數(shù)導(dǎo)出的相關(guān)性度量值不會(huì)改變,反映的是嚴(yán)格單調(diào)增變換下的相關(guān)性,比線(xiàn)性相關(guān)系數(shù)的適用范圍寬泛〔5〕。
定義2(Kendall秩相關(guān)系數(shù)) 令(x1,y1)和(x2,y2)為獨(dú)立同分布的隨機(jī)向量,定義
為Kendall秩相關(guān)系數(shù),記為τ。
尾部相關(guān)系數(shù)是一個(gè)廣泛用于極值理論的測(cè)度,用來(lái)表示當(dāng)一個(gè)觀測(cè)變量的實(shí)現(xiàn)值為極值時(shí)另一個(gè)變量也為極值的概率。
定義3(尾部相關(guān)系數(shù)) 令X、Y為兩個(gè)連續(xù)的隨機(jī)變量,具有邊緣分布F(x)和G(y),Copula函數(shù)C(u,v),分別定義
為上尾相關(guān)系數(shù)和下尾相關(guān)系數(shù)。其中u=F(x),v=G(y)〔6〕。
(1)正態(tài)Copula函數(shù)
其中,ρ為變量間的線(xiàn)性相關(guān)系數(shù);Φ-1為標(biāo)準(zhǔn)正態(tài)分布函數(shù)的逆函數(shù)。
(2)t-Copula函數(shù)
其中,ρ為變量間的線(xiàn)性相關(guān)系數(shù);k為自由度;tk-1為自由度為k的一元t分布的分布函數(shù)的逆函數(shù)。
其中,φ(u)稱(chēng)為阿基米德 Copula函數(shù)C(u1,u2,…,uN)的生成元,φ-1(u)是 φ(u)的反函數(shù),在區(qū)間[0,∞)上連續(xù)并且非增。
阿基米德族Copula函數(shù)眾多,常用的二元單參數(shù)Copula函數(shù)有Gumbel Copula、Clayton Copula和Frank Copula(見(jiàn)表1)。
Gaussian、t和Frank Copula函數(shù)具有對(duì)稱(chēng)的尾部,其中t-Copula對(duì)隨機(jī)變量之間的尾部相關(guān)的變化較為敏感,能更好地捕捉到隨機(jī)變量之間的對(duì)稱(chēng)的尾部相關(guān)關(guān)系;Gaussian和Frank Copula在分布的尾部?jī)蓚€(gè)變量是漸進(jìn)獨(dú)立的。Gumbel Copula的密度函數(shù)具有非對(duì)稱(chēng)性,其密度函數(shù)呈“J”字形(圖1),即上尾高下尾低,對(duì)變量在分布上尾部的變化十分敏感,能夠快速捕捉到上尾相關(guān)的變化;而對(duì)變量在分布下尾部的變化不敏感,難以捕捉到下尾相關(guān)的變化。Clayton Copula與Gumbel Copula函數(shù)密度函數(shù)圖相反,其密度分布呈“L”字形,即上尾低下尾高,能反映出變量在下尾部的相關(guān)關(guān)系而無(wú)法描述在上尾部的變化情況。
表1 常用的二元單參數(shù)阿基米德Copula函數(shù)
目前,中藥質(zhì)量控制中整體系統(tǒng)的觀點(diǎn)已被接受,以單一或幾個(gè)成分來(lái)判斷藥材質(zhì)量具有一定的局限性,不能體現(xiàn)中藥多成分、多靶點(diǎn)的特征〔7〕;因此本文擬以18批中藥懷牛膝有效成分群指紋圖譜實(shí)驗(yàn)數(shù)據(jù)和成骨細(xì)胞增值率為研究對(duì)象,借助二元Copula函數(shù)得到“譜-效”相關(guān)性,并獲得藥材質(zhì)量判斷的新方法。以往文獻(xiàn)常假定中藥譜效關(guān)系成多元正態(tài)分布,然而這樣的模型假設(shè)不一定適合復(fù)雜的中藥系統(tǒng)。為檢驗(yàn)二元正態(tài)函數(shù)和Copula函數(shù)對(duì)懷牛膝的譜效關(guān)系的擬合情況,本研究中各產(chǎn)生1000組二元正態(tài)隨機(jī)數(shù)和5種滿(mǎn)足常見(jiàn)Copula函數(shù)形式的隨機(jī)數(shù)模擬分析。將有效成分群指紋圖譜值記作X,藥效值記作Y,用U和V表示X和Y的邊緣分布函數(shù)。模擬結(jié)果(表2)表明:Gumbel Copula函數(shù)關(guān)于U和V的數(shù)學(xué)期望計(jì)算結(jié)果E(U)Gum=0.4952,E(V)Gum=0.4857比二元正態(tài)分布E(U)Gau=0.7902,E(V)Gau=0.7269更接近實(shí)驗(yàn)結(jié)果E(U)exp=0.4881,E(V)exp=0.5306,并且比其他Copula函數(shù)結(jié)果更優(yōu)。
表2 二元正態(tài)分布和常見(jiàn)Copula函數(shù)的模擬情況
數(shù)據(jù)來(lái)源于文獻(xiàn)〔7〕并采用其數(shù)據(jù)處理方法。將有效成分群指紋圖譜正、負(fù)系數(shù)相關(guān)峰峰面積比值記作AR(area rate),成骨細(xì)胞增殖活性記作AT。
Copula函數(shù)在實(shí)際應(yīng)用中的關(guān)鍵是函數(shù)形式的選擇,不同Copula函數(shù)模型可能導(dǎo)致不同的分析結(jié)果,因此選擇合適的Copula函數(shù)模型十分重要。本文中采用比較相關(guān)系數(shù)和解析法〔8〕結(jié)合的方式選擇合適的Copula函數(shù)。解析法借助于經(jīng)驗(yàn)Copula函數(shù),經(jīng)驗(yàn)分布具有較好的統(tǒng)計(jì)性質(zhì),為使用方法提供了保證。此外,經(jīng)驗(yàn)分布還可以減少假設(shè)所帶來(lái)的誤差〔9〕。
對(duì)于任意Copula函數(shù)集合Ck,最優(yōu) Copula函數(shù)的選擇準(zhǔn)則是考慮它們與經(jīng)驗(yàn)Copula函數(shù)CN(u,v)之間的平方歐式距離,則有
即Copula函數(shù)選擇的解析法〔10〕。
本研究在Matlab R2010a中算出AR和AT之間的線(xiàn)性相關(guān)系數(shù)ρ,Kendall秩相關(guān)系數(shù)τ,Spearman秩相關(guān)系數(shù)ρs,并估算出5個(gè)常見(jiàn)Copula函數(shù)的相關(guān)系數(shù)值。根據(jù)Copula函數(shù)選擇的解析法,計(jì)算出平方歐式距離并參考相關(guān)系數(shù)值,平方歐氏距離越小相關(guān)系數(shù)與真實(shí)值越接近,則相應(yīng)的Copula函數(shù)模型較為理想,能較好的反應(yīng)譜效相關(guān)關(guān)系;反之,則用于描述譜效關(guān)系效果不佳。
根據(jù)樣本值估計(jì)AR和AT各自分布函數(shù),并進(jìn)行假設(shè)檢驗(yàn),結(jié)果表明AR~N(0.8280,0.17772),AT~N(236.7704,113.82032)。相關(guān)系數(shù)和平方歐式距離計(jì)算結(jié)果(見(jiàn)表2)表明:Gumbel Copula函數(shù)平方歐式距離=0.0351在五種Copula函數(shù)計(jì)算結(jié)果中較小并且Kendall秩相關(guān)系數(shù)估算值 τGum=0.5547與真實(shí)值τ=0.5686最為接近。觀察AR和AT的分布函數(shù)相關(guān)關(guān)系圖(圖2),綜合分析以上結(jié)果,選取二元單參數(shù)Gumbel Copula函數(shù)作為AR和AT的聯(lián)合分布的擬合函數(shù),參數(shù)α=2.2455,尾部相關(guān)系數(shù)λup=0.6384,λlo=0。這表明這18批次中藥懷牛膝正負(fù)相關(guān)峰面積比值較大者對(duì)其成骨細(xì)胞增值率影響較大,而比值較小的即使發(fā)生較大的改變對(duì)藥效也幾乎沒(méi)有什么影響。所以在進(jìn)行懷牛膝質(zhì)量控制的時(shí)候要特別注意對(duì)AR值較大的藥材的選擇,因?yàn)樗鼈兊淖兓芤鹚幮л^大變化。
圖1 Gumbel Copula密度函數(shù)(α=2.2455)
圖2 AR和AT分布函數(shù)關(guān)系圖
表3 經(jīng)驗(yàn)Copula函數(shù)與常見(jiàn)Copula函數(shù)的平方歐式距離
本文引入尾部相關(guān)性度量指標(biāo)λup和λlo,得到了譜效關(guān)系在尾部的變化趨勢(shì),并將其運(yùn)用于中藥懷牛膝質(zhì)量?jī)?yōu)劣的判別中。常用的相關(guān)系數(shù)實(shí)際上是線(xiàn)性變換下不變的一種相關(guān)性指標(biāo),涉及到非線(xiàn)性函數(shù)的相關(guān)性,會(huì)導(dǎo)出錯(cuò)誤的結(jié)論,而由Copula函數(shù)導(dǎo)出的相關(guān)性度量可以更準(zhǔn)確的描述出變量間的非線(xiàn)性相關(guān)關(guān)系,因此應(yīng)用范圍更廣。
表4 (u,v)和(1-u,1-v)計(jì)算及排序結(jié)果
表4 (u,v)和(1-u,1-v)計(jì)算及排序結(jié)果
C(u,v) 序號(hào) C(1-u,1-v) 序號(hào) AR排序 AT排序0.0157 13 0.9571 13 13 13 0.0323 7 0.8901 7 7 7 0.0747 12 0.7359 12 10 12 0.0787 8 0.7321 8 12 8 0.1504 10 0.4062 4 8 6 0.2739 11 0.3894 15 11 5 0.3282 16 0.3889 5 16 15 0.3363 6 0.3737 14 4 4 0.3444 4 0.3679 6 14 14 0.3549 5 0.2880 11 15 9 0.3842 14 0.2667 16 5 11 0.3865 15 0.2432 10 6 16 0.5610 9 0.2371 9 9 3 0.6422 3 0.1815 3 3 10 0.7153 18 0.1358 18 18 18 0.8008 17 0.0668 17 17 17 0.8241 2 0.0544 1 1 2 0.8519 1 0.0350 2 2 1
在本研究中Copula函數(shù)模型表現(xiàn)良好,但仍存在以下兩個(gè)問(wèn)題有待進(jìn)一步研究:其一,本文中選擇了5種常見(jiàn)的Copula函數(shù)對(duì)中藥有效成分群譜效關(guān)系的尾部相關(guān)性進(jìn)行了實(shí)證研究,從中選擇出最優(yōu)的Copula作為擬合函數(shù)。但是由于Copula函數(shù)族的龐大和選擇方法的多樣性,并沒(méi)有論證所選擇的Copula是符合數(shù)據(jù)特征的最優(yōu)形式,采用何種方法選取最優(yōu)Copula函數(shù)模型有待進(jìn)一步探究。其二,中藥的多樣性導(dǎo)致不同藥材之間的差異顯著。一個(gè)Copula函數(shù)往往只能適用于某一個(gè)中藥,對(duì)其他則不一定合適,因此本文中選擇出的函數(shù)不能適用于所有中藥。
1.秦華珍,劉磊,王曉倩,等.中藥劑量與量效關(guān)系的思考.四川中醫(yī).2011,(6):48-49.
2.李云飛,程翼宇,范驍輝.中藥多維譜效關(guān)系研究思路探討.中國(guó)天然藥物,2010,(3):167-170 .
3.齊方,蓉蓉,薛付忠.中藥藥性特征標(biāo)記的PLS統(tǒng)計(jì)模式識(shí)別模型.中國(guó)衛(wèi)生統(tǒng)計(jì),2011,(6):628-637.
4.韋艷華,張世英.Copula理論及其在金融分析上的應(yīng)用.北京:清華大學(xué)出版社,2008.
5.朱新玲.相關(guān)系數(shù)與Copula函數(shù)相關(guān)性比較研究.武漢科技大學(xué)學(xué)報(bào),2009,32(6):664-668.
6.Nelson RB.An Introduction to Copulas.New York:Springer,1998:214-216.
7.周培培,言方榮,張春鳳,等.基于成分群動(dòng)態(tài)變化探索藥材質(zhì)量?jī)?yōu)劣判斷方法初步研究.中醫(yī)藥學(xué)報(bào),2012,40(1):63-68.
8.于波,陳希鎮(zhèn),杜江.Copula函數(shù)的選擇:方法與應(yīng)用.?dāng)?shù)理統(tǒng)計(jì)與管理,2008,27(6):1027-1033.
9.于波.Copula函數(shù)模型的選擇.統(tǒng)計(jì)與決策,2009(14):153-154.
10.閆寶偉,郭生練,肖義,等.基于兩變量聯(lián)合分布的干旱特征分析.干旱區(qū)研究,2007,24(4):538-541.
The Effective Components Analysis in Traditional Chinese Medicine Based on Copula
Li Zhihui,Lu Tao,Yang Zhonglin,et al.Department of Mathematics,China Pharmaceutical University(210009),Nanjing
ObjectiveWe analyze the activity of the effective component group by constructing suitable binary Copula model,and then get a simple and convenient method to control the traditional Chinese medicine quality.Methods First,simulations on Copula models and the binary normal functions are taken respectively to fit the dose-response relationship.Second,Achyranthes bidentata BI.from 18 batches are chosen for study.The correlation analysis between the HPLC fingerprints of samples and proliferation activity of osteoblasts are carried out with suitable bivariate Copula function model.Results Gumbel Copula function is the most suitable model forAchyranthes bidentata BI.spectrum-response relationship.It has the correlation coefficients τ=0.5547,ρs=0.7422,λup=0.6384andλlo=0.It is a strong link in the upper tail,but asymptotic independence in the lower tail.That is to say that the good quality traditional Chinese medicine has stronger cell proliferation activity,however,the poor quality ones has insignificant effect.Conclusion Copula function can be used to analyze the relationship between spectrum and activity of traditional Chinese medicine active ingredients group,especially the tail dependence and drug activity.It provides a new method for TCM quality discrimination,and puts forward new ideas for TCM spectrum activity relationship research.
Copula;Traditional Chinese medicine(TCM);Effective components group;Spectrum activity relationship;Quality control
中央高校專(zhuān)項(xiàng)業(yè)務(wù)經(jīng)費(fèi)(JKQ2011032,JKPZ2013015);國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(NSFC 81130068)
(責(zé)任編輯:劉 壯)