陳澤鍇,黃良輝,張民權(quán),周良良,李陽(yáng)彪,陳振華
(江西科技師范大學(xué)藥學(xué)院 江西省藥物分子設(shè)計(jì)與評(píng)價(jià)重點(diǎn)實(shí)驗(yàn)室,江西 南昌 330013)
近年來(lái),科學(xué)技術(shù)飛速發(fā)展,信息數(shù)據(jù)快速增長(zhǎng),社會(huì)進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)蘊(yùn)含著巨大的經(jīng)濟(jì)、社會(huì)、科學(xué)價(jià)值,已經(jīng)成為社會(huì)各界關(guān)注的焦點(diǎn)。從大數(shù)據(jù)中快速收集有用的信息,并分析得出隱藏在其中的價(jià)值和規(guī)律對(duì)社會(huì)及科學(xué)的發(fā)展具有至關(guān)重要的作用[1]。數(shù)據(jù)挖掘(Data Mining)是指從大量數(shù)據(jù)中,利用算法挖掘隱藏在數(shù)據(jù)中具有有效、新穎、有潛在應(yīng)用價(jià)值信息,并可從挖掘到的信息中獲取知識(shí),揭示反映事物內(nèi)在規(guī)律以及預(yù)測(cè)發(fā)展趨勢(shì)的規(guī)則。數(shù)據(jù)挖掘通常與計(jì)算機(jī)科學(xué)和人工智能密切聯(lián)系,并通過(guò)統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可視化、神經(jīng)網(wǎng)絡(luò)、模式識(shí)別等諸多方法來(lái)實(shí)現(xiàn)。在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘在金融[2]、網(wǎng)絡(luò)安全[3]、食品與藥品[4]、醫(yī)療[5]等各個(gè)領(lǐng)域都有著廣泛的應(yīng)用。
中藥作為我國(guó)獨(dú)特的傳統(tǒng)文化瑰寶,其在諸多疾病的治療中應(yīng)用且效果顯著。但隨著社會(huì)與科技的發(fā)展,中藥正處于向現(xiàn)代化與國(guó)際化發(fā)展的關(guān)鍵時(shí)期,但其發(fā)展過(guò)程中出現(xiàn)的問(wèn)題難以解決,一方面多數(shù)中藥成分復(fù)雜,其有效活性成分及藥理作用機(jī)制尚未明確;另一方面,將傳統(tǒng)中藥按國(guó)際認(rèn)可的GMP、GCP、GLP 等標(biāo)準(zhǔn)規(guī)范進(jìn)行研發(fā)、生產(chǎn)與管理并適應(yīng)當(dāng)今社會(huì)發(fā)展需求的過(guò)程中仍有許多問(wèn)題亟待解決[6]?;诖髷?shù)據(jù)背景下,通過(guò)數(shù)據(jù)挖掘?qū)χ兴庍M(jìn)行研究是推進(jìn)中藥現(xiàn)代化和國(guó)際化的有效途徑。近年來(lái),有關(guān)數(shù)據(jù)挖掘在中藥鑒定識(shí)別、中藥藥性以及方劑用藥規(guī)律、中藥制劑研究等多個(gè)中藥研究領(lǐng)域的研究層出不窮[7](圖1、表1),本文對(duì)此有關(guān)的研究進(jìn)展進(jìn)行了綜述。
表1 數(shù)據(jù)挖掘在中藥領(lǐng)域中的研究進(jìn)展
圖1 數(shù)據(jù)挖掘在中藥領(lǐng)域中的應(yīng)用
中藥基源具有復(fù)雜性、成分多樣性的特點(diǎn),對(duì)中藥及其復(fù)方制劑進(jìn)行全面的質(zhì)量控制及質(zhì)量評(píng)估是推動(dòng)中藥現(xiàn)代化的關(guān)鍵。目前,中藥及其制劑的質(zhì)量標(biāo)準(zhǔn)與評(píng)估不再是性狀鑒別、顯微鑒別等傳統(tǒng)方法的真?zhèn)涡澡b別,而是主要以光譜、色譜技術(shù)手段來(lái)對(duì)中藥進(jìn)行整體質(zhì)量的控制[8]。然而,中藥圖譜極為復(fù)雜,全方位、多角度地對(duì)中藥圖譜進(jìn)行研究是展現(xiàn)中藥獨(dú)有特征的關(guān)鍵。運(yùn)用數(shù)據(jù)挖掘技術(shù)與指紋圖譜相結(jié)合可為中藥鑒定及質(zhì)量控制提供一個(gè)有效可行的方法。在不同基源的石菖蒲GC 指紋圖譜基礎(chǔ)上[9],利用主成分分析(PCA)可實(shí)現(xiàn)不同基源石菖蒲藥材的區(qū)分。由于不同算法優(yōu)缺點(diǎn)不同且其在應(yīng)用上具有一定局限性,這難免會(huì)造成中藥鑒別整體預(yù)測(cè)性能較差的缺陷。若要提高數(shù)據(jù)挖掘?qū)χ兴庤b定的作用,還需選擇最實(shí)用的算法及對(duì)不同算法進(jìn)行結(jié)合聯(lián)用。有學(xué)者[10]通過(guò)比較PCA、最小二乘-判別分析(PLS-DA)、最小二乘回歸(PLS)、最小二乘-支持向量機(jī)(LS-SVM)四種算法對(duì)葛根、葛根莖及其兩者摻雜物的NIR 圖譜進(jìn)行建模分析,結(jié)果表明LS-SVM 可以高性能地定量摻假的葛根樣品,實(shí)現(xiàn)了快速無(wú)損的葛根真?zhèn)伪孀R(shí)。也有學(xué)者采用主成分分析-判別分析(PCA-DA)、PLS-DA、LSSVM 對(duì)川貝母NIR 圖譜數(shù)據(jù)建立真?zhèn)伪孀R(shí)及商品規(guī)格辨識(shí)模型并進(jìn)行交互驗(yàn)證,結(jié)果表明川貝母真?zhèn)伪孀R(shí)以PCA-DA、PLS-DA 模型為最優(yōu),商品規(guī)格分類以PCA-DA、LS-SVM 模型為最優(yōu)[11]。數(shù)據(jù)挖掘應(yīng)用于中藥鑒定中從單一算法的運(yùn)用到多種算法聯(lián)合運(yùn)用能很好地解決中藥指紋圖譜的復(fù)雜性及多維性問(wèn)題,同時(shí)還能提高鑒定的準(zhǔn)確性。但要高精度地對(duì)中藥進(jìn)行鑒定,還需要從多維指紋圖譜上進(jìn)行發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)算法與多元多息指紋圖譜結(jié)合[12],有學(xué)者成功建立了針對(duì)50 種中藥材的鑒定方法,準(zhǔn)確率高達(dá)92%。但目前,有關(guān)中藥多維指紋圖譜上的數(shù)據(jù)挖掘分析研究甚少,仍需在這個(gè)方向作進(jìn)一步努力。
藥性是對(duì)中藥的功效與藥效物質(zhì)基礎(chǔ)形成及運(yùn)用規(guī)律研究理論,主要涉及中藥四氣、五味、升降浮沉、歸經(jīng)、有毒無(wú)毒等研究。通過(guò)數(shù)據(jù)挖掘技術(shù)對(duì)中藥藥性研究,可對(duì)中藥化學(xué)成分進(jìn)行信息化,并揭示出中藥屬性、藥性理論、化學(xué)成分之間的聯(lián)系[13]。針對(duì)中藥寒熱性識(shí)別及寒熱特征標(biāo)記可視化研究中[14],通過(guò)SHAP(SHapley Additive exPlanations)算法對(duì)多種中藥紫外光譜分析發(fā)現(xiàn),相似藥性的中藥具有相似的紫外吸收光譜,寒性中藥在400 和267 nm處的紫外吸光度相似,而熱性中藥在400、299、301 nm處紫外吸收也類同。亦有學(xué)者[15]針對(duì)唇形科中藥亞類化學(xué)成分與藥性之間相關(guān)性,采用二元Logistic模型進(jìn)行分析發(fā)現(xiàn)唇形科中藥寒熱性與其含有的萜類及簡(jiǎn)單苯丙素類成分具有強(qiáng)關(guān)聯(lián)性,單萜類化學(xué)成分間相互作用可使唇形科中藥藥性表現(xiàn)為寒性,而苯丙素化學(xué)成分相互作用則表現(xiàn)為熱性。數(shù)據(jù)挖掘技術(shù)可客觀地解釋化學(xué)結(jié)構(gòu)-藥性間的關(guān)聯(lián),但若要進(jìn)一步闡釋“化學(xué)結(jié)構(gòu)-藥性-藥效”間的聯(lián)系及其規(guī)律,還需要結(jié)合生物學(xué)效應(yīng)等方面進(jìn)行分析,實(shí)現(xiàn)中藥藥性理論科學(xué)內(nèi)涵的解釋,從而促進(jìn)中藥現(xiàn)代化的發(fā)展進(jìn)程。
中藥方劑是根據(jù)疾病主治方向或主要特征,有目的地進(jìn)行藥物配伍,以達(dá)到協(xié)同治療或是減毒增效的效果。單味中藥原本就具備四氣五味、升降浮沉等屬性及現(xiàn)代藥理作用機(jī)制,而多味中藥的組合配伍無(wú)疑是一種復(fù)雜的體系。數(shù)據(jù)挖掘可直觀地分析中藥方劑用藥規(guī)律并解釋其藥理作用機(jī)制。有學(xué)者[16]通過(guò)頻次分析、關(guān)聯(lián)規(guī)則、聚類分析等方法研究中藥治療潰瘍性結(jié)腸炎(UC)用藥規(guī)律,發(fā)現(xiàn)其用藥以苦寒降泄為主,黃連-白頭翁為核心藥對(duì),同時(shí)網(wǎng)絡(luò)藥理學(xué)研究表明核心藥對(duì)可能是通過(guò)介導(dǎo)脂質(zhì)代謝、TNF 信號(hào)、IL-17 信號(hào)和Th17 細(xì)胞分化等多個(gè)通路產(chǎn)生效應(yīng)。亦有研究[17]采用相似的方法探究中藥治療肺結(jié)節(jié)用藥規(guī)律及作用機(jī)制,結(jié)果表明,中藥治療肺結(jié)節(jié)主要以健脾益肺、行氣化痰、活血祛瘀為主,核心藥對(duì)為甘草-茯苓-半夏,治療肺結(jié)節(jié)的潛在靶點(diǎn)和作用機(jī)制主要是參與炎癥反應(yīng)、免疫調(diào)控等過(guò)程。中藥組方物質(zhì)基礎(chǔ)不明是中藥配伍現(xiàn)代化闡述的難題,借助數(shù)據(jù)挖掘及現(xiàn)代藥理學(xué)技術(shù),可清晰詳盡地總結(jié)中藥復(fù)方用藥規(guī)律并從分子層面上對(duì)核心藥的藥理作用機(jī)制及潛在作用靶點(diǎn)做出闡釋,推動(dòng)中藥的二次開(kāi)發(fā)[18]。
中藥制劑的生產(chǎn),由于涉及原料、制備工藝、設(shè)備、生產(chǎn)管理等多種因素,制劑質(zhì)量差異明顯的問(wèn)題時(shí)有發(fā)生,嚴(yán)重影響中藥制劑的臨床療效及其安全性[19-20]。運(yùn)用數(shù)據(jù)挖掘技術(shù)探究影響中藥制劑質(zhì)量關(guān)鍵屬性及其規(guī)律,可使其質(zhì)量從原料及制備過(guò)程中進(jìn)行控制?;诨疑P(guān)聯(lián)分析算法[21],能夠科學(xué)客觀地找出熱毒寧注射液生產(chǎn)過(guò)程中的關(guān)鍵工藝參數(shù)為萃取時(shí)平均體積流量、調(diào)酸后pH 值以及萃取濃縮出膏溫度。通過(guò)建立PLS[22]和多區(qū)塊-偏最小二乘(MB-PLS)[23]模型,可確定影響天舒片素片崩解時(shí)限和三七總皂苷緩釋片溶出行為的關(guān)鍵物料屬性。同時(shí),通過(guò)數(shù)據(jù)挖掘算法構(gòu)建預(yù)測(cè)模型對(duì)制劑工藝數(shù)據(jù)進(jìn)行分析預(yù)測(cè),可實(shí)現(xiàn)對(duì)中藥制劑生產(chǎn)質(zhì)量的優(yōu)化。有學(xué)者在桂枝茯苓膠囊智能化生產(chǎn)研究中[24],分別利用PLS、分類回歸樹(shù)(CART)、多元自適應(yīng)回歸樣條(MARS)和引導(dǎo)策略搜索(GPS)等數(shù)據(jù)挖掘算法構(gòu)建預(yù)測(cè)模型進(jìn)行預(yù)測(cè)分析,最終確定MARS 為最佳預(yù)測(cè)模型,為桂枝茯苓膠囊生產(chǎn)質(zhì)量控制智能化提供技術(shù)支持。
虛擬篩選作為計(jì)算機(jī)藥物篩選技術(shù),在中藥新藥研發(fā)中的應(yīng)用十分廣泛,通過(guò)數(shù)據(jù)挖掘技術(shù)建立中藥潛在藥用分子數(shù)據(jù)庫(kù),并用虛擬篩選技術(shù)分析藥物分子與靶標(biāo)間的物理化學(xué)相互作用,同時(shí)對(duì)其進(jìn)行吸收、分布、代謝、排泄及毒性(ADMET)的模擬預(yù)測(cè),可實(shí)現(xiàn)新藥的快速篩選。有學(xué)者[25]通過(guò)分子對(duì)接技術(shù),針對(duì)中藥中具有潛在Galectin-3 抑制作用的分子進(jìn)行虛擬篩選,并結(jié)合XGBoost 等數(shù)據(jù)挖掘算法進(jìn)行進(jìn)一步篩選,最后運(yùn)用分子動(dòng)力學(xué)加以驗(yàn)證,從中藥中篩選出山楂和長(zhǎng)苞香蒲中的1,2-二甲苯和香蒲酸兩種成分具有良好的Galectin-3 抑制作用,有可能成為神經(jīng)性退行疾病的有效抑制劑。在Limk1 靶點(diǎn)抑制劑研究中[26],有學(xué)者采用分子對(duì)接技術(shù)結(jié)合三維卷積網(wǎng)絡(luò)(3DGCN)建立模型并進(jìn)行活性預(yù)測(cè),從中藥數(shù)據(jù)庫(kù)中進(jìn)行潛在Limk1 靶點(diǎn)抑制劑的篩選,并對(duì)其進(jìn)行ADMET 的預(yù)測(cè)分析及分子動(dòng)力學(xué)模擬驗(yàn)證,最后發(fā)現(xiàn)有兩個(gè)先導(dǎo)化合物可能為L(zhǎng)imk1 受體候選抑制劑。數(shù)據(jù)挖掘建立中藥化學(xué)成分?jǐn)?shù)據(jù)庫(kù)同時(shí)采用分子模擬等技術(shù)進(jìn)行活性成分篩選是一個(gè)精確有效的中藥新藥研發(fā)途徑,可規(guī)避新藥探索過(guò)程中的盲目性,對(duì)新藥開(kāi)發(fā)具指導(dǎo)和啟發(fā)的作用。
目前,中藥新藥臨床療效評(píng)價(jià)體系研究仍停留在基于西醫(yī)化學(xué)藥隨機(jī)對(duì)照試驗(yàn)等傳統(tǒng)方式上,其并不能有效地體現(xiàn)出中藥作用特點(diǎn)及療效。運(yùn)用數(shù)據(jù)挖掘技術(shù)可以構(gòu)建一種適用于中藥療效評(píng)價(jià)的綜合評(píng)價(jià)方法[27]。有研究[28]基于一種中藥新藥治療冠心病心絞痛(血瘀證)臨床數(shù)據(jù)為實(shí)例,同時(shí)采用西醫(yī)和中醫(yī)兩種療效指標(biāo),通過(guò)PLS-SLVM 的方法建立了適用于分析中藥臨床療效的方法,既滿足變量構(gòu)建方法所需的全面性、目的性、可比性、層次性、科學(xué)性等基本原則,又兼顧了中醫(yī)臨床療效數(shù)據(jù)的結(jié)構(gòu)特征,為中藥新藥療效評(píng)價(jià)提供了具有中醫(yī)臨床特色的綜合評(píng)價(jià)方法。
本文主要從中藥鑒定識(shí)別、中藥藥性及方劑用藥規(guī)律研究、中藥制劑研究、中藥新藥研發(fā)四個(gè)方面闡述了數(shù)據(jù)挖掘技術(shù)在中藥領(lǐng)域中的應(yīng)用。在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘技術(shù)在中藥領(lǐng)域中可探究中藥多成分、多療效、多靶點(diǎn)原理等傳統(tǒng)研究方法難解決的問(wèn)題,同時(shí)還有助于中藥信息結(jié)構(gòu)化,促進(jìn)中藥質(zhì)量標(biāo)準(zhǔn)化,推動(dòng)實(shí)現(xiàn)中藥現(xiàn)代化。近年來(lái),有關(guān)研究熱潮迭起,彰顯了數(shù)據(jù)挖掘技術(shù)在中藥研究中的適用性和優(yōu)越性。但是其應(yīng)用也存在著一定局限性,一方面當(dāng)前大多數(shù)研究仍停留在中藥研究數(shù)據(jù)信息簡(jiǎn)單維度的處理分析,所得結(jié)果較為片面,有待進(jìn)一步的探索及驗(yàn)證;另一方面,數(shù)據(jù)挖掘的算法具有一定局限性,并不能完全體現(xiàn)出中藥作用的特點(diǎn)。因此,本方向還需要多領(lǐng)域、多學(xué)科專家共同合作以及深入的交叉研究。