顧志榮,毛小文,祁 梅,郭 燕,葛 斌*
數(shù)據(jù)融合技術(shù)在中藥研究領(lǐng)域的應(yīng)用
顧志榮1,毛小文2,祁 梅1,郭 燕2,葛 斌1*
1. 甘肅省人民醫(yī)院 藥劑科,甘肅 蘭州 730000 2. 甘肅中醫(yī)藥大學(xué)藥學(xué)院,甘肅 蘭州 730000
數(shù)據(jù)融合技術(shù)是對(duì)多來源的數(shù)據(jù)信息進(jìn)行統(tǒng)籌、集成的技術(shù),以提高決策模型的靈敏度、特異性和準(zhǔn)確率。數(shù)據(jù)融合技術(shù)結(jié)合多變量模型是研究中藥復(fù)雜體系的有力工具,目前已應(yīng)用于中藥的基原鑒別、產(chǎn)地溯源與鑒別、質(zhì)量控制與評(píng)價(jià)、加工炮制與制劑研究、資源形成研究等諸多領(lǐng)域。融合所納入的源數(shù)據(jù)主要是中藥的化學(xué)物質(zhì)信息,包括各類色譜、光譜信息,無機(jī)元素及有機(jī)成分的含量信息,電子鼻、電子眼、電子舌等傳感器信息以及代謝組學(xué)信息等;所采用的多變量模型如主成分分析、層次聚類分析、偏最小二乘-判別分析、正交偏最小二乘-判別分析、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、決策樹、線性判別分析等。未來,數(shù)據(jù)融合有望與人工智能(artificial intelligence,AI)相結(jié)合,源數(shù)據(jù)中納入生物醫(yī)學(xué)數(shù)據(jù)與組學(xué)數(shù)據(jù),拓展應(yīng)用于中藥活性物質(zhì)篩選,預(yù)測(cè)患者對(duì)藥物反應(yīng)、藥物相互作用、藥物-靶點(diǎn)相互作用,中藥新藥開發(fā)以及栽培種植等更多領(lǐng)域,同時(shí)應(yīng)積極開發(fā)集數(shù)據(jù)融合與多變量建模功能于一體的中藥研究相關(guān)軟件系統(tǒng)。
數(shù)據(jù)融合;中藥研究;源數(shù)據(jù);多變量模型;人工智能
中藥是典型的復(fù)雜化學(xué)體系,同時(shí)也是復(fù)雜生物信息學(xué)體系。中藥研究包括了資源學(xué)、鑒定學(xué)、成分分析、質(zhì)量評(píng)價(jià)、加工炮制、物質(zhì)基礎(chǔ)、作用機(jī)制、新藥研發(fā)等諸多方面,不同的研究內(nèi)容、研究方法與研究技術(shù)會(huì)產(chǎn)生不同的數(shù)據(jù)信息,同一研究內(nèi)容的不同研究手段(如不同儀器設(shè)備)也會(huì)產(chǎn)生不同的數(shù)據(jù)信息,這些單一來源的數(shù)據(jù)信息往往只能反映中藥內(nèi)在信息的一個(gè)或少數(shù)幾個(gè)方面,導(dǎo)致分類、鑒別、識(shí)別、評(píng)價(jià)、決策等的不準(zhǔn)確性,而要得到全面、準(zhǔn)確、可靠的研究結(jié)果則需要統(tǒng)籌盡可能多來源的數(shù)據(jù)進(jìn)行綜合分析以得到科學(xué)決策[1]。
數(shù)據(jù)融合(data fusion)技術(shù)是對(duì)不同來源的數(shù)據(jù)進(jìn)行統(tǒng)籌、集成的技術(shù),通過將互補(bǔ)的中藥多源信息進(jìn)行多級(jí)別、多角度、多層次的統(tǒng)籌融合,采用適宜算法剔除不相關(guān)和冗余的數(shù)據(jù)(“臟數(shù)據(jù)”),盡可能多地提取和保留特征性信息,得到“一譜多息”的一維數(shù)據(jù),從而實(shí)現(xiàn)數(shù)據(jù)間的互補(bǔ)性與協(xié)同性,獲得比單一來源數(shù)據(jù)分析更全面、準(zhǔn)確、可靠的研究結(jié)果。因此,數(shù)據(jù)融合技術(shù)與復(fù)雜中藥體系研究與具有較高的契合度,儼然已成為了這方面研究的利器之一。本文首先對(duì)數(shù)據(jù)融合技術(shù)進(jìn)行概述,然后系統(tǒng)歸納和總結(jié)該技術(shù)在中藥研究領(lǐng)域得到較好應(yīng)用的幾個(gè)方面,最后展望該技術(shù)在中藥研究領(lǐng)域可能發(fā)揮重要作用的研究思路,以期對(duì)未來研究有所啟發(fā)。
數(shù)據(jù)融合技術(shù)屬于信息科學(xué)領(lǐng)域范疇,該技術(shù)通過數(shù)學(xué)算法將不同時(shí)間、不同空間、不同來源、不同表示的數(shù)據(jù)信息進(jìn)行有機(jī)融合,提高針對(duì)基對(duì)象(underlying object)的決策模型的靈敏度(sensitivity,SEN)、特異性(specificity,SPE)和準(zhǔn)確率(accuracy,ACC),從而產(chǎn)生單一來源數(shù)據(jù)無法獲得的決策結(jié)果,降低決策風(fēng)險(xiǎn),并得出更全面、準(zhǔn)確、可靠的結(jié)論[2]。數(shù)據(jù)融合是新一代智能信息技術(shù)的重要基礎(chǔ),目前已在農(nóng)業(yè)[3]、食品[4]、公共衛(wèi)生(如新型冠狀病毒肺炎疫情預(yù)測(cè))[5]、醫(yī)學(xué)影像分析[6]、疾病分期[7]、生理狀態(tài)評(píng)估與預(yù)測(cè)[8]、分子生物學(xué)檢測(cè)[9]、情緒識(shí)別[10]、交通運(yùn)輸[11]等領(lǐng)域得到了廣泛應(yīng)用。
1.2.1 以融合方式分類 數(shù)據(jù)融合技術(shù)按照融合方式可分為低級(jí)融合(low-level fusion)、中級(jí)融合(mid-level fusion)與高級(jí)融合(high-level fusion)[12-15],融合方式示意圖[13]見圖1(以2類數(shù)據(jù)融合為例)。低級(jí)融合不需對(duì)數(shù)據(jù)進(jìn)行任何處理,在多變量建模分析前將不同來源的數(shù)據(jù)集直接連接成單一數(shù)據(jù)集即可,其局限性在于有用信息的增加同時(shí)會(huì)造成冗余信息的增加。中級(jí)數(shù)據(jù)融合首先從單個(gè)數(shù)據(jù)集中提取潛在特征變量,然后將特征變量連接成單個(gè)數(shù)據(jù)集以進(jìn)行多變量建模,該策略能有效剔除冗余信息干擾,提取出關(guān)鍵信息,從而解決“維度詛咒”(curse of dimensionality)(也稱“維數(shù)災(zāi)難”,即數(shù)據(jù)量隨著維度呈指數(shù)增長)問題,但其缺點(diǎn)是需為每個(gè)數(shù)據(jù)集開發(fā)一個(gè)特征變量提取模型。高級(jí)數(shù)據(jù)融合最為復(fù)雜,需對(duì)不同的來源數(shù)據(jù)進(jìn)行特征變量提取,并單獨(dú)建立多變量模型進(jìn)行分析,然后對(duì)多變量模型分析結(jié)果進(jìn)行統(tǒng)籌分析以做出決策。
a-低級(jí)數(shù)據(jù)融合 b-中級(jí)數(shù)據(jù)融合 c-高級(jí)數(shù)據(jù)融合
1.2.2 以應(yīng)用方式分類 從應(yīng)用方式來分類,數(shù)據(jù)融合可分為物理模型、特征技術(shù)推理模型及感知模型3類,分類及相應(yīng)的算法[16-17]如圖2所示。物理模型將目標(biāo)對(duì)象的實(shí)際采樣數(shù)據(jù)與各物理模型或預(yù)先存儲(chǔ)的目標(biāo)信息進(jìn)行匹配,以此實(shí)現(xiàn)研究對(duì)象的識(shí)別和分類,多采用仿真、估計(jì)及句法等技術(shù)。特征技術(shù)推理模型是最常用的數(shù)據(jù)融合技術(shù),該技術(shù)把目標(biāo)對(duì)象的特征數(shù)據(jù)或統(tǒng)計(jì)信息映射到識(shí)別空間,然后對(duì)識(shí)別空間中的數(shù)據(jù)進(jìn)行分析處理,據(jù)此可分為基于參數(shù)和基于信息論的2種方法。感知模型通過模擬人類處理問題的過程來實(shí)現(xiàn)自動(dòng)制定策略,常見方法包括邏輯模板、基于知識(shí)的專家系統(tǒng)以及模糊集理論。
圖2 按應(yīng)用方式分類的數(shù)據(jù)融合技術(shù)
算法是數(shù)據(jù)融合的關(guān)鍵核心,目前可選擇的算法較多,常用的有貝葉斯估計(jì)、模糊邏輯、卡爾曼(Kalman)濾波、極大似然估計(jì)、最小二乘法、聚類分析、人工神經(jīng)網(wǎng)絡(luò)等。貝葉斯估計(jì)[18]是數(shù)據(jù)統(tǒng)計(jì)意義上的數(shù)據(jù)融合算法,其理論基礎(chǔ)是貝葉斯定理,即在給出證據(jù)的條件下,計(jì)算假設(shè)事件為真的條件概率或后驗(yàn)概率;而古典概率推理是在給定的假設(shè)事件下,計(jì)算本次量測(cè)是來源于某一目標(biāo)或事件的概率。模糊邏輯[19]基于模糊集合理論,在某一模糊集合中的某一元素的隸屬度是對(duì)該元素屬于該集合的一種度量,但一個(gè)元素可能屬于多個(gè)不同的模糊集合,而模糊邏輯允許在控制語言中包含不精確的狀態(tài)變量,因此優(yōu)勢(shì)在于可減少計(jì)算時(shí)間??柭鼮V波[20]是一種最優(yōu)化自回歸算法,對(duì)于解決大部分問題都可以得到最優(yōu)解,應(yīng)用方式包括簡單卡爾曼濾波器、擴(kuò)展卡爾曼濾波器、高斯混合濾波器及交互式多模型濾波器等。極大似然估計(jì)[21]是利用已知的樣本結(jié)果信息,反推最大概率導(dǎo)致這些樣本結(jié)果出現(xiàn)的模型參數(shù)值,即先假定其具有某種確定的概率分布,但是其參數(shù)未知,然后基于訓(xùn)練樣本對(duì)概率分布的參數(shù)進(jìn)行估計(jì)。最小二乘法[22]是一種通過最小化誤差的平方和來尋找數(shù)據(jù)的最佳函數(shù)匹配,簡便地求得未知的數(shù)據(jù),并使求得的數(shù)據(jù)與實(shí)際數(shù)據(jù)之間誤差的平方和為最小的數(shù)學(xué)優(yōu)化方法。聚類分析[23]是一組將研究對(duì)象分為相對(duì)同質(zhì)的群組的統(tǒng)計(jì)分析技術(shù),包括系統(tǒng)聚類、動(dòng)態(tài)聚類、有序樣品聚類、模糊聚類等,常采用K-均值、K-中心點(diǎn)等算法來實(shí)現(xiàn)。人工神經(jīng)網(wǎng)絡(luò)[24]是一種模仿動(dòng)物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法模型,該模型依靠系統(tǒng)的復(fù)雜程度,通過調(diào)整內(nèi)部大量節(jié)點(diǎn)之間相互連接的關(guān)系,從而達(dá)到信息處理的目的。
數(shù)據(jù)融合方式及算法的選擇通常高度依賴于采集的數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)屬性和已開發(fā)的應(yīng)用程序,因此沒有一種方法可以通用,并不是高級(jí)數(shù)據(jù)融合一定會(huì)優(yōu)于中級(jí)和初級(jí)融合,因此在數(shù)據(jù)融合之前,應(yīng)針對(duì)不同的數(shù)據(jù)源篩選不同的數(shù)據(jù)預(yù)處理方法及融合算法[7]。
完成數(shù)據(jù)融合后,開發(fā)適宜的多變量模型用于最終的決策非常重要,常用的多變量模型包括主成分分析(principal component analysis,PCA)、層次聚類分析(hierarchical cluster analysis,HCA)、偏最小二乘-判別分析(partial least squares-discrimination analysis,PLS-DA)、正交偏最小二乘-判別分析(orthogonal partial least squares-discrimination analysis,OPLS-DA)、支持向量機(jī)(support vector machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)、隨機(jī)森林(random forest,RF)、K最近鄰算法(K-nearest neighbor algorithm,KNN)、C5.0決策樹(C5.0 decision tree)、機(jī)器學(xué)習(xí)(machine learning,ML)、深度學(xué)習(xí)(deep learning,DL)、線性判別分析(linear discriminant analysis,LDA)、二次判別分析(quadratic discriminant analysis,QDA)、邏輯回歸(logistic regression,LR)等,模型性能多通過SEN、SPE和ACC來評(píng)價(jià)[25]。其中,SEN表示模型正確識(shí)別屬于目標(biāo)類別樣本的能力;SPE表示模型拒絕屬于其他類別的樣本的能力;ACC也稱為效率,是結(jié)合SEN和SPE的度量,表示模型正確識(shí)別能力的大小。
SEN=真陽性/(真陽性+假陰性)
SPE=真陰性/(真陰性+假陽性)
ACC=(SEN×SPE)1/2
基原鑒別是對(duì)中藥的種屬來源進(jìn)行鑒別,以確定其正確的學(xué)名進(jìn)而確定其真?zhèn)?。非正品來源的藥材可能影響臨床用藥安全,大黃就是典型的例子。Sun等[26]基于近紅外光譜(near infrared spectrum,NIR)和中紅外光譜(midlle infrared spectrum,MIR)的數(shù)據(jù)融合鑒別了正品大黃和非正品大黃,將源數(shù)據(jù)直接連接完成初級(jí)融合,將源數(shù)據(jù)采用小波壓縮(wavelet compression,WC)和區(qū)間偏最小二乘法(interval partial least squares,iPLS)來選取特征向量后再連接完成中級(jí)融合,建立PLS-DA、軟獨(dú)立模式分類法(soft independent modeling of class analogy,SIMCA)、SVM、ANN 4種模型進(jìn)行鑒別,結(jié)果中級(jí)融合明顯優(yōu)于初級(jí)融合及NIR、MIR數(shù)據(jù)單獨(dú)建模,4種模型的ACC分別為97.14%、94.12%、100%及100%。厚樸為木蘭科植物厚樸Rehd. et Wils.或凹葉厚樸Rehd. et Wils. var.Rehd.et Wils.的干燥干皮、根皮及枝皮,無法根據(jù)外觀特征來區(qū)分,采用擴(kuò)增片斷長度多態(tài)性(amplified fragment length polymorphism,AFLP)分子標(biāo)記技術(shù)鑒別2種基原也未成功[27]。為了解決這一難題,Jing等[28]基于電子鼻(e-nose)、電子舌(e-tongue)和8種指標(biāo)成分(木蘭花堿、木蘭苷A、木蘭苷B、和厚樸酚、厚樸酚、辣薄荷基厚樸酚、厚樸堿、β-桉油醇)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,建立LDA和QDA模型來鑒別2種厚樸基原,結(jié)果表明低級(jí)融合與LDA結(jié)合的鑒別能力優(yōu)于融合前3種方法;中級(jí)融合與LDA結(jié)合的鑒別能力(ACC達(dá)到100%)顯著優(yōu)于與QDA結(jié)合(ACC在96.67%~98.33%),說明電子鼻、電子舌和多指標(biāo)成分?jǐn)?shù)據(jù)的中級(jí)融合結(jié)合LDA是鑒別2種厚樸基原的有力工具。Qi等[29]采用紫外光譜(ultraviolet spectroscopy,UV)和傅里葉變換紅外光譜(Fourier transform infrared spectrum,F(xiàn)TIR)的低級(jí)數(shù)據(jù)融合結(jié)合PLS-DA、KNN、SVM和RF 4種模型鑒別不同種類和來源的牛肝菌,結(jié)果表明SVM的鑒別性能最佳,SEN、SPE及ACC均達(dá)到100%。孫飛等[30]建立了NIR和MIR中級(jí)數(shù)據(jù)融合結(jié)合PLS-DA模型來鑒別姜半夏及其偽品姜虎掌南星,該策略明顯優(yōu)于NIR和MIR單獨(dú)所建PLS-DA模型的鑒別能力,準(zhǔn)確率達(dá)到100%。
不同產(chǎn)地的中藥品質(zhì)具有顯著差異,建立特異、靈敏、準(zhǔn)確的中藥產(chǎn)地溯源與鑒別方法是目前中藥研究領(lǐng)域的熱點(diǎn)與難點(diǎn)之一。中藥的產(chǎn)地溯源與鑒別方法主要包括基于傳統(tǒng)經(jīng)驗(yàn)、顯微特征、指標(biāo)成分或有效成分差異及色譜、光譜、生物(如DNA)指紋圖譜差異等的鑒別方法,但這些方法的SEN、SPE及ACC均難以令人滿意,目前學(xué)術(shù)界仍在尋找更佳的中藥產(chǎn)地溯源與鑒別方法。數(shù)據(jù)融合能夠同時(shí)融合多維中藥特征數(shù)據(jù),整合各種地理及質(zhì)量特征來提高產(chǎn)地溯源的準(zhǔn)確性。Qi等[31]采用中級(jí)融合將余甘子的傅里葉變換近紅外光譜(Fourier transform-near infrared spectrum,F(xiàn)T-NIR)與FTIR光譜進(jìn)行特征提取,融合成特征數(shù)據(jù)矩陣,采用調(diào)整后的RF算法開發(fā)地理溯源模型,SEN、SPE和ACC分別為97.65%、99.85%和97.63%,預(yù)測(cè)準(zhǔn)確率達(dá)到100%,實(shí)現(xiàn)了17個(gè)余甘子產(chǎn)地的地理來源鑒別及快速、無損、綠色質(zhì)量檢測(cè)。張嬌等[32]鑒別云南、四川和廣西的9個(gè)產(chǎn)地所產(chǎn)滇黃精,采集衰減全反射-傅里葉變換紅外光譜(attenuated total reflection-Fourier transform infrared spectrum,ATR-FTIR)和紫外-可見吸收光譜(ultraviolet-visible absorption spectrum,UV-Vis)數(shù)據(jù)并分別進(jìn)行低、中、高級(jí)數(shù)據(jù)融合,建立RF模型進(jìn)行產(chǎn)地鑒別,2種融合前光譜及低級(jí)融合的RF模型其ACC尚可,但SEN、SPE較低;中級(jí)融合RF模型的SEN、SPE均較好,ACC達(dá)到97.50%;高級(jí)融合的RF模型鑒別效果較差,并存在過擬合現(xiàn)象;因此中級(jí)融合RF模型的產(chǎn)地鑒別能力最好。Wu等[33]對(duì)比研究了FTIR與UV-Vis的低、中、高級(jí)數(shù)據(jù)融合結(jié)合網(wǎng)格搜索支持向量機(jī)(grid search-support vector machine,GS-SVM)和RF模型對(duì)6個(gè)產(chǎn)地野生滇重樓的產(chǎn)地溯源,與中、低級(jí)融合結(jié)合GS-SVM策略相比,高級(jí)融合結(jié)合RF模型的溯源結(jié)果更令人滿意,SEN、SPE和ACC均超過90%??梢钥闯觯壳皩W(xué)術(shù)界研究較多的是融合相同樣品的不同技術(shù)來源的數(shù)據(jù),而另一個(gè)可借鑒的思路是融合不同藥用部位的同一技術(shù)或多個(gè)技術(shù)來源的數(shù)據(jù),以提高溯源與鑒別能力。如Shen等[34]基于滇龍膽根莖、莖、葉3個(gè)部位的高效液相色譜(high performance liquid chromatography,HPLC)指紋圖譜的低、中級(jí)數(shù)據(jù)融合建立RF與OPLS-DA模型來實(shí)現(xiàn)4個(gè)不同緯度滇龍膽的產(chǎn)地鑒別,結(jié)果低級(jí)融合結(jié)合OPLS-DA鑒別效果最好,ACC高于99%。數(shù)據(jù)融合技術(shù)用于中藥產(chǎn)地溯源與鑒別的其他典型研究見表1。
總結(jié)可知,數(shù)據(jù)融合結(jié)合多變量模型用于中藥產(chǎn)地溯源與鑒別具有明顯優(yōu)勢(shì),SEN、SPE和ACC均得以大幅提高,相關(guān)分析策略是有效和值得推廣的。還可以看出,數(shù)據(jù)融合依賴于源數(shù)據(jù)的屬性,并沒有一種融合方法可以通用,并不是高級(jí)數(shù)據(jù)融合一定優(yōu)于中、初級(jí)融合;所建立的多變量模型也會(huì)影響決策結(jié)果,也沒有一種模型可以通用;不同源數(shù)據(jù)對(duì)于融合結(jié)果的貢獻(xiàn)是有區(qū)別的,在融合之前應(yīng)針對(duì)不同數(shù)據(jù)源采用不同的數(shù)據(jù)預(yù)處理方法。
中藥質(zhì)量控制的核心難點(diǎn)在于確定能夠科學(xué)、合理、全面反映其內(nèi)在質(zhì)量的質(zhì)量標(biāo)志物(quality marker,Q-Marker),目前常用的Q-Marker包括單一或有限的有效成分、指標(biāo)性成分、有效部位、浸出物等。為了篩選科學(xué)、合理、全面的Q-Marker,目前采用的常用方法有藥效成分篩選法、指紋圖譜法、譜效關(guān)系法、網(wǎng)絡(luò)藥理學(xué)法等[51-52]。Liao等[53]為了確定中成藥腦得生(片/膠囊/顆粒)的Q-Marker,采用數(shù)據(jù)融合技術(shù)將5個(gè)不同波長(210、238、250、275、322 nm)下的特征多波長超高效液相色譜(ultra-high performance liquid chromatography,UPLC)指紋圖譜生成單一的融合UPLC指紋圖譜,并結(jié)合抗氧化活性篩選Q-Marker,所建模型包括HCA和PCA,最終確定了11種成分作為腦得生的Q-Marker。該研究證明了多波長融合UPLC指紋圖譜結(jié)合生物活性篩選Q-Marker的可行性,其優(yōu)勢(shì)在于多波長融合UPLC指紋圖譜所反映的化學(xué)成分類型更為全面,不容易造成活性成分的遺漏,且結(jié)合生物活性較單純基于化學(xué)成分的篩選方法更為科學(xué)及可靠。多年生中藥普遍存在,不同生長年限中藥的鑒別和質(zhì)量控制是中藥質(zhì)量評(píng)價(jià)的重要內(nèi)容。當(dāng)前,由于生長激素、肥料等的過量使用,許多多年生中藥被人為縮短生長年限,雖然產(chǎn)量提高,但質(zhì)量與安全性備受全社會(huì)質(zhì)疑。數(shù)據(jù)融合技術(shù)在不同生長年限中藥的鑒別與質(zhì)量控制中具有明顯優(yōu)勢(shì),其數(shù)據(jù)來源的多維性能夠使鑒別與評(píng)價(jià)性能顯著提高。Zhang等[54]基于ATR-FTIR和UV-Vis的中級(jí)融合建立PLS-DA與HCA模型,準(zhǔn)確鑒定了不同生長年限(2~5年)黃精并進(jìn)行了質(zhì)量評(píng)價(jià),SEN、SPE和ACC均達(dá)到100%,4年生黃精的質(zhì)量最優(yōu),該策略為不同生長年限的中藥鑒別及質(zhì)量評(píng)價(jià)提供了新的思路。數(shù)據(jù)融合技術(shù)在快速測(cè)定方面也具有顯著優(yōu)勢(shì),如Wu等[55]分別采用ATR-FTIR、RS及ATR-IR與RS融合光譜建立了聯(lián)合區(qū)間偏最小二乘法(synergy interval partial least squares,siPLS)、SVM和PCA模型用于快速測(cè)定黃酒總抗氧化能力和總酚含量,結(jié)果表明基于RS的模型性能優(yōu)于ATR-IR,融合光譜的SVM模型優(yōu)于基于相同信息的siPLS模型和基于ATR-IR或RS光譜的siPLS模型,說明融合光譜可以明顯提高測(cè)量精度。數(shù)據(jù)融合技術(shù)用于中藥質(zhì)量控制與評(píng)價(jià)的其他典型研究見表1。
表1 數(shù)據(jù)融合技術(shù)在中藥研究中的應(yīng)用
Table 1 Application of data fusion technology in TCM research
類型藥物研究目的源數(shù)據(jù)融合方式多變量模型模型結(jié)果研究結(jié)果文獻(xiàn) 中藥產(chǎn)地溯源與鑒別黃芪5個(gè)省級(jí)產(chǎn)區(qū)黃芪的產(chǎn)地溯源可見/短波近紅外光譜(380~1030 nm)、NIR(874~1734 nm)成像中級(jí)融合SVM、LR、CNN中級(jí)融合結(jié)合3種模型的判別效果均較理想可準(zhǔn)確鑒別,3種模型的ACC均高于98%35 滇龍膽4個(gè)省級(jí)產(chǎn)區(qū)17個(gè)產(chǎn)地的滇龍膽鑒別FTIR、HPLC低、中級(jí)融合PLS-DA低級(jí)融合結(jié)合PLS-DA判別效果最好可準(zhǔn)確鑒別,ACC為100%36 茯苓野生和栽培茯苓的產(chǎn)地溯源FTIR、HPLC低、中、高級(jí)融合PLS-DA、RF中級(jí)融合結(jié)合PLS-DA判別效果最好可準(zhǔn)確溯源,ACC為95.24%37 茯苓8個(gè)茯苓產(chǎn)地的溯源FTIR及2種HPLC(242、210 nm)低、中級(jí)融合PLS-DA低級(jí)融合結(jié)合PLS-DA判別效果最好可準(zhǔn)確溯源,ACC為100%25 牛肝菌9個(gè)牛肝菌產(chǎn)地的溯源FTIR、ICP-AES中級(jí)融合SVM中級(jí)融合結(jié)合SVM判別效果最好可準(zhǔn)確溯源,ACC為90.91%38 牛肝菌11個(gè)牛肝菌產(chǎn)地的溯源ICP-AES、UV-Vis、FTIR中級(jí)融合PLS-DA、SVMPLS-DA、SVM效果均較好,SVM略優(yōu)于PLS-DA可準(zhǔn)確溯源,ACC在90.63%~100%39 牛肝菌7個(gè)牛肝菌產(chǎn)地的溯源FTIR、UV中級(jí)融合SVM中級(jí)融合結(jié)合SVM判別效果最好可準(zhǔn)確溯源,ACC為100%40 三七云南5個(gè)三七產(chǎn)地的溯源FTIR、NIR低、中、高級(jí)融合RF高級(jí)融合結(jié)合RF溯源效果最好可準(zhǔn)確溯源,ACC在98%~100%41 重樓云南5個(gè)野生重樓產(chǎn)地的溯源FTIR、NIR低、中、高級(jí)融合PLS-DA、RFFTIR比NIR貢獻(xiàn)更多;高級(jí)融合結(jié)合RF溯源效果最好可準(zhǔn)確溯源,ACC為100%13 東方草莓(藏藥直打薩曾)5個(gè)東方草莓產(chǎn)地的溯源HPLC、ICP-MS中級(jí)融合HCA、PCA、PCA-LDA、C5.0中級(jí)融合結(jié)合C5.0模型溯源效果最好可準(zhǔn)確溯源,ACC為98.9%42 蜂蜜8個(gè)植物來源的蜂蜜鑒別FTIR、NIR、RS、PTR- TOF-MS、電子鼻低、中、高級(jí)融合PLS-DA高級(jí)融合結(jié)合PLS-DA鑒別效果最好可準(zhǔn)確鑒別,ACC為99%43 中藥質(zhì)量控制與評(píng)價(jià)黃連4種黃連基原的鑒別及Q-Marker篩選FT-NIR、FTIR低、中級(jí)融合PCA、HCA、PLS基于變量重要性投影提取的中級(jí)融合結(jié)合PLS效果最佳可準(zhǔn)確鑒別4種黃連基原;木蘭花堿、格陵蘭黃連堿、表小檗堿、小檗堿可作為Q-Marker44 橄欖油鑒別優(yōu)質(zhì)(特級(jí)初榨)和不可食用的劣質(zhì)橄欖油,特定識(shí)別主要異味HS-MS、FTIR、UV-Vis低、中、高級(jí)融合PLS-DA中級(jí)融合結(jié)合PLS-DA是鑒別優(yōu)質(zhì)和劣質(zhì)的最佳策略,低級(jí)融合結(jié)合PLS-DA是識(shí)別主要異味的最佳策略可鑒別質(zhì)量優(yōu)劣及識(shí)別異味(如霉味、酒味、酸敗味等)45 百合重金屬Pb、Cu、Zn的快速檢測(cè)LIBS、NIR低、中級(jí)融合PLS中級(jí)融合結(jié)合PLS效果最佳可準(zhǔn)確、快速同時(shí)測(cè)定重金屬Pb、Cu、Zn含量46 含有舒緩類草藥的復(fù)方制劑復(fù)方制劑(包括純草藥、輸液袋、片劑、膠囊和滴劑)中洋甘菊、西番蓮、纈草、薰衣草的鑒別HPLC、UV-Vis中級(jí)融合PLS-DA中級(jí)融合的PLS-DA模型優(yōu)于單一源數(shù)據(jù)建??蓽?zhǔn)確鑒別復(fù)方制劑中的洋甘菊、西番蓮、纈草、薰衣草47 小柴胡顆粒外觀性狀的定性識(shí)別及指標(biāo)性成分的定量預(yù)測(cè)電子鼻、電子眼、電子舌傳感器信號(hào)中級(jí)融合HCA、PLS-DA中級(jí)融合結(jié)合HCA、PLS-DA均效果較好可定性識(shí)別氣味、顏色、味道,準(zhǔn)確預(yù)測(cè)柴胡皂苷B2和甘草皂苷G2含量48 丹參滴丸評(píng)價(jià)丹參滴丸的批間穩(wěn)定性縮酚酸和皂苷的HPLC指紋圖譜中級(jí)融合相似度分析、PCA融合的二元HPLC指紋圖譜結(jié)合相似度分析和PCA效果較好可實(shí)現(xiàn)丹參滴丸質(zhì)量控制與評(píng)價(jià)49 參麥注射液6種皂苷和4種糖類的同時(shí)快速測(cè)定NIR、UV低、中級(jí)融合PLS中級(jí)融合優(yōu)于初級(jí)融合,皂苷的分析結(jié)果優(yōu)于糖類;NIR與UV具有信息互補(bǔ)的協(xié)同效應(yīng)可準(zhǔn)確、快速同時(shí)測(cè)定6種人參皂苷(Rg1、Re、Rf、Rb1、Rb2、Rd)和4種糖類(D-果糖、D-葡萄糖、蔗糖、麥芽糖)含量50
RS-拉曼光譜 PTR-TOF-MS-質(zhì)子轉(zhuǎn)移反應(yīng)-飛行時(shí)間-質(zhì)譜 HS-MS-頂空質(zhì)譜 LIBS-激光誘導(dǎo)擊穿光譜
RS-Raman spectrum PTR-TOF-MS-proton transfer reaction-time of flight mass spectrometry HS-MS-headspace mass spectrometry LIBS-laser-induced breakdown spectroscopy
加工炮制對(duì)中藥的有效性、安全性均有重要影響,尤其對(duì)于含有毒性、烈性成分或通過炮制改變作用的中藥。中藥加工炮制的核心在于嚴(yán)格的過程質(zhì)量控制(in process quality control,IPQC),科學(xué)、合理的IPQC是產(chǎn)品質(zhì)量的重要保證。中藥是多部位、多成分、多機(jī)制的復(fù)雜體系,加工炮制中IPQC的難點(diǎn)在于同時(shí)要兼顧色澤、氣味、味道、質(zhì)地、含量等多維度的質(zhì)量要求,因此確定科學(xué)、合理同時(shí)又操作簡便的質(zhì)量控制指標(biāo)尤為重要。但是現(xiàn)有的分析檢測(cè)技術(shù)往往只能反映IPQC的單一維度指標(biāo),導(dǎo)致決策的科學(xué)性與可靠性欠佳,而數(shù)據(jù)融合技術(shù)可通過將多維度數(shù)據(jù)融合為一維數(shù)據(jù)而解決這一問題。Lan等[56]建立了一種可靠、快速的方法來識(shí)別姜黃的顏色、氣味等外觀特征,篩選加工過程的關(guān)鍵質(zhì)量指標(biāo),采用中級(jí)融合將FT-NIR、電子鼻和色度計(jì)數(shù)據(jù)融合,融合矩陣通過傳感器來精確模擬人的識(shí)別方式,對(duì)于外觀特征的識(shí)別準(zhǔn)確率達(dá)100%;篩選出去甲氧基姜黃素和姜黃素是IPQC的關(guān)鍵指標(biāo);加工過程中產(chǎn)生的芳香衍生物與樣品的顏色、氣味等外觀特征的變化密切相關(guān),而蛋白質(zhì)的變化則無顯著差異。Dai等[57]將NIR和高分辨質(zhì)譜的中級(jí)融合與代謝組學(xué)及PCA、PLS-DA模型相結(jié)合,闡明了4個(gè)不同地理來源的麥冬在硫磺熏蒸前后的產(chǎn)地鑒別及質(zhì)量變化特征,該研究是較早將代謝組學(xué)與數(shù)據(jù)融合相結(jié)合用于中藥產(chǎn)地加工及鑒別的報(bào)道。Sun等[58]將色度計(jì)數(shù)據(jù)與NIR進(jìn)行中級(jí)融合,建立PLS-DA模型用于炒梔子的IPQC,SEN、SPE及ACC均達(dá)到100%,所開發(fā)的方法能夠準(zhǔn)確判別出合格與不合格的的炒梔子,顯著優(yōu)于單獨(dú)使用色度參數(shù)或NIR的鑒別模型。Dai等[59]采用電子鼻和電子舌的中級(jí)融合建立SVM模型,以同時(shí)反映金耳在深層發(fā)酵中的氣體(電子鼻)和液體(電子舌)特性,以麥角甾醇、還原糖和多糖作為深層發(fā)酵的質(zhì)量控制指標(biāo),該策略能夠?qū)崿F(xiàn)對(duì)3個(gè)指標(biāo)進(jìn)行同時(shí)快速測(cè)定,為金耳深層發(fā)酵的工藝控制提供了技術(shù)支持。
與中藥加工炮制的IPQC相似,數(shù)據(jù)融合技術(shù)在中藥制劑工藝研究中也具有很大優(yōu)勢(shì)。吳思俊等[60]引入數(shù)據(jù)融合技術(shù),提出了一種中藥制備工藝變更(酸水滲漉-氯仿萃取替代苯提?。┣昂筚|(zhì)量一致性評(píng)價(jià)的新策略,將反映工藝整體質(zhì)量的NIR與RS光譜分別進(jìn)行低、中、高級(jí)數(shù)據(jù)融合,利用相似度匹配值和PCA中的Hotelling2和DModX統(tǒng)計(jì)量對(duì)工藝進(jìn)行表征,結(jié)果表明中級(jí)融合效果最佳,酸水滲漉-氯仿萃取后所得鹽酸青藤堿樣品質(zhì)量和苯提取無顯著差異,而新工藝對(duì)降低生產(chǎn)成本和環(huán)境保護(hù)更有優(yōu)勢(shì)。濕法制粒是制備中藥口服固體制劑的關(guān)鍵工序之一,常用的制粒方式有搖擺式制粒、高剪切濕法制粒(high shear wet granulation,HSWG)和流化床制粒。HSWG具有黏合劑用量少、全密閉、產(chǎn)出顆粒圓整、流動(dòng)性好等優(yōu)點(diǎn),但其顆粒增長機(jī)制及影響因素多而復(fù)雜,至今尚未完全闡明,控制其過程是該研究領(lǐng)域的熱點(diǎn)之一[61]。Wang等[62]采用數(shù)據(jù)融合技術(shù)建立了HSWG過程的“配方-過程-質(zhì)量(formulation-process-quality)”模型,將HSWG實(shí)驗(yàn)數(shù)據(jù)通過數(shù)據(jù)融合技術(shù)融合成單一數(shù)據(jù),生成了1個(gè)HSWG多樣性數(shù)據(jù)配方庫,基于融合后數(shù)據(jù)建立的PLS模型能夠顯著降低HSWG過程的預(yù)測(cè)誤差,該研究策略為HSWG的科學(xué)闡釋提供了新思路,并能節(jié)省實(shí)驗(yàn)時(shí)間和成本。中藥制劑過程是一個(gè)受多因素、多變量影響的IPQC系統(tǒng),具有多個(gè)鮮明的關(guān)鍵質(zhì)量屬性(critical quality attributes,CQAs),實(shí)時(shí)動(dòng)態(tài)監(jiān)測(cè)多CQAs對(duì)于IPQC具有重要意義。光譜技術(shù)是目前最常用的過程分析工具,也是中藥加工炮制[63]及制劑[64]IPQC中的常用技術(shù)與研究熱點(diǎn),而在這方面光譜融合技術(shù)的分析能力明顯優(yōu)于單一光譜技術(shù)。Zhang等[65]通過NIR和FTIR的光譜融合,實(shí)現(xiàn)了實(shí)時(shí)、準(zhǔn)確、快速監(jiān)測(cè)小兒消積止咳口服液提取過程的7個(gè)CQAs(辛弗林、檳榔堿、綠原酸、連翹酯苷、柚皮苷、橙皮苷和新橙皮苷),中級(jí)融合PLS模型優(yōu)于單光譜PLS模型及低級(jí)融合PLS模型,該方法對(duì)同類劑型生產(chǎn)過程的快速監(jiān)測(cè)具有較好參考價(jià)值。
中藥活性成分(次生代謝產(chǎn)物)的生物合成及中藥資源特性受產(chǎn)地地理環(huán)境因子的影響,由此造成不同產(chǎn)地的中藥品質(zhì)及資源特性具有顯著差異,即中藥具有“道地性”特征。中藥資源形成與道地性研究是中藥研究領(lǐng)域的持續(xù)熱點(diǎn),當(dāng)前主要從地理環(huán)境因子對(duì)中藥有效成分、指標(biāo)性成分、化學(xué)或生物指紋圖譜等的影響展開研究,但所能納入的化學(xué)物質(zhì)信息有限,而數(shù)據(jù)融合技術(shù)可以解決這一問題。Zhang等[66]采用HPLC、GC和UPLC-QTOF/MS中級(jí)數(shù)據(jù)融合建立PCA、PLS-DA、OPLS-DA模型研究宿主和環(huán)境因素對(duì)槲寄生代謝物的影響,發(fā)現(xiàn)HPLC、GC和UPLC-QTOF/MS 3種代謝物譜同時(shí)受宿主和環(huán)境因素的雙重影響,而環(huán)境因素起關(guān)鍵作用,環(huán)境因素引起的主要差異代謝物為高圣草素、高圣草素-7--β--芹菜糖基(1→2)--β--葡萄糖苷、高圣草素-7--β--葡萄糖苷3種成分,研究證實(shí)中級(jí)融合結(jié)合多變量模型是確定宿主和環(huán)境因素對(duì)代謝物影響的有力策略,為同類研究提供了技術(shù)示范。未來,還可將HPLC、GC、MS等化學(xué)數(shù)據(jù)與電子鼻、電子眼、電子舌等性狀的傳感器數(shù)據(jù)相融合,納入更多維度以科學(xué)、全面地揭示中藥品質(zhì)及資源特性的形成機(jī)制。
近年來,中藥研究領(lǐng)域越來越細(xì)化,研究的技術(shù)手段也得到了長足發(fā)展,數(shù)據(jù)融合技術(shù)使得對(duì)不同研究領(lǐng)域、不同技術(shù)手段、不同分析儀器等所產(chǎn)生的中藥研究數(shù)據(jù)進(jìn)行集成分析、穩(wěn)健分析成為了可能,其應(yīng)用目的是為了提高鑒別、計(jì)算或決策的SEN、SPE及ACC。數(shù)據(jù)融合技術(shù)在中藥研究領(lǐng)域的分析流程如圖3所示。目前的應(yīng)用領(lǐng)域包括中藥的基原鑒別、產(chǎn)地溯源與鑒別、質(zhì)量控制與評(píng)價(jià)、加工炮制研究、制劑工藝研究、資源形成研究等;融合所納入的源數(shù)據(jù)主要是中藥的化學(xué)物質(zhì)信息,包括UV、UV-Vis、MIR、FTIR、NIR、FT-NIR、RS、HPLC、UPLC、MS、PTR-TOF-MS、ICP-AES等色譜、光譜、波譜信息,無機(jī)元素及有機(jī)成分的含量信息,電子鼻、電子眼、電子舌等色澤、氣味的傳感器信息以及代謝組學(xué)信息等。但是,數(shù)據(jù)融合僅改善了數(shù)據(jù)性能和建模簡便性,融合數(shù)據(jù)仍需要適宜的多變量模型才能完成后續(xù)研究,即數(shù)據(jù)融合與多變量模型是提高SEN、SPE及ACC缺一不可的2個(gè)有機(jī)組成部分。在其他研究領(lǐng)域廣泛使用的多變量模型仍然適用于中藥研究領(lǐng)域,如PCA、HCA、PLS、OPLS、SVM、RF、C5.0、ANN、KNN、CNN、ML、DL、LDA、QDA等。
圖3 中藥研究中的數(shù)據(jù)融合分析流程
在中藥分析中,除了提高SEN、SPE及ACC,智能程度也是所極力追求的。未來,中藥相關(guān)研究應(yīng)與ML、DL等AI相結(jié)合,在大幅提高SEN、SPE、ACC的同時(shí)大幅提高分析的深度、智能程度及應(yīng)用范圍,并實(shí)現(xiàn)研究結(jié)果的實(shí)用化、產(chǎn)品化與產(chǎn)業(yè)化,真正滿足中藥栽培種植及產(chǎn)品研發(fā)、生產(chǎn)、質(zhì)控、市場(chǎng)流通管理等實(shí)際需求。極限學(xué)習(xí)機(jī)(extreme learning machine,ELM)是一類基于前饋神經(jīng)網(wǎng)絡(luò)(feedforward neural network,F(xiàn)NN)的ML方法,目前在計(jì)算機(jī)視覺、生物信息學(xué)、環(huán)境科學(xué)等方面得到了廣泛應(yīng)用[67]。有報(bào)道將UV-Vis、NIR數(shù)據(jù)融合與ELM相結(jié)合用于農(nóng)藥殺蟲劑的快速質(zhì)量控制,取得了較好的效果[68]。也有報(bào)道可通過多特征數(shù)據(jù)融合結(jié)合DL技術(shù),能夠從微生物組數(shù)據(jù)中預(yù)測(cè)人類疾病[69]。
目前中藥數(shù)據(jù)融合研究主要納入的是中藥化學(xué)物質(zhì)信息及少量的電子舌、電子眼、電子鼻等外觀性狀方面的傳感器信息,尚未有納入中藥生物醫(yī)學(xué)信息的相關(guān)報(bào)道。目前,可納入的中藥生物醫(yī)學(xué)信息包括細(xì)胞顯微圖像信息、性狀圖像信息、生物效應(yīng)信息、藥理藥效信息、毒性反應(yīng)信息等。當(dāng)然,在數(shù)據(jù)融合中納入生物醫(yī)學(xué)信息,融合的難度將隨之提升,因此可能需要引入或開發(fā)更先進(jìn)的融合算法。
組學(xué)技術(shù)屬于系統(tǒng)生物學(xué)范疇,主要包括代謝組學(xué)、蛋白組學(xué)、基因組學(xué)、轉(zhuǎn)錄組學(xué)等,目前在中藥研究領(lǐng)域以代謝組學(xué)研究最多,但將數(shù)據(jù)融合與代謝組學(xué)等組學(xué)技術(shù)相結(jié)合的報(bào)道較少。中藥組學(xué)研究具有顯著的整體性、系統(tǒng)性特征,這與中藥的整體性、系統(tǒng)性不謀而合。以代謝組學(xué)為例,中藥的代謝輪廓(譜)、代謝指紋體現(xiàn)為數(shù)千條可分辨的代謝譜線,代表了數(shù)以千計(jì)的代謝物,融合這些數(shù)據(jù)無疑會(huì)使中藥的內(nèi)在信息得到更為全面、準(zhǔn)確、可靠的展現(xiàn),從而增強(qiáng)決策的SEN、SPE、ACC及智能程度。
譜效關(guān)系法是重要的中藥活性物質(zhì)篩選方法之一,數(shù)據(jù)融合技術(shù)在中藥譜效關(guān)系研究中的應(yīng)用目前暫無相關(guān)報(bào)道。采用譜效關(guān)系篩選活性物質(zhì)的可靠性與篩選效率在很大程度依賴于所建“譜”(化學(xué)物質(zhì)譜)的質(zhì)量,如“譜”所包含的成分?jǐn)?shù)量、成分可識(shí)別性、成分代表性等。數(shù)據(jù)融合在中藥譜效關(guān)系研究中的優(yōu)勢(shì)在于,相較融合前的單一技術(shù)來源的化學(xué)物質(zhì)譜,融合后的“譜”代表了多層次、多角度、多部位的化學(xué)物質(zhì),具有更明顯的“一譜多息”的功能,可通過一次建模達(dá)到從多個(gè)維度篩選中藥活性物質(zhì)的目的。另外,受相關(guān)研究啟發(fā),數(shù)據(jù)融合技術(shù)還可用于從數(shù)以萬計(jì)的中藥中篩選具有明確治療作用的中藥及其活性成分,但此類研究的難點(diǎn)在于基于大數(shù)據(jù)建立中藥的“性-效-成分-靶點(diǎn)”多源信息數(shù)據(jù)庫。Liu等[70]基于多源數(shù)據(jù)融合和CNN模型識(shí)別治療帕金森病的潛在藥物,結(jié)果令人滿意,對(duì)中藥相關(guān)研究具有一定借鑒意義。
目前在中藥研究領(lǐng)域,數(shù)據(jù)融合需借助于MatLab等進(jìn)口商業(yè)軟件,普遍存在版權(quán)、編程等問題,限制了研究的便捷性與普及性。目前尚無中藥研究專用的數(shù)據(jù)融合軟件系統(tǒng)及相關(guān)的儀器設(shè)備,已有研究也極少涉及軟件系統(tǒng)、儀器設(shè)備等的開發(fā),研究成果也未見產(chǎn)業(yè)化應(yīng)用。此外,目前所用的算法也較為傳統(tǒng),距離AI等新興技術(shù)尚有較大距離。未來應(yīng)大量采用多學(xué)科交叉技術(shù),加快開發(fā)集數(shù)據(jù)融合與多變量建模功能于一體的中藥研究相關(guān)軟件系統(tǒng)和儀器設(shè)備,使得數(shù)據(jù)融合在中藥研究領(lǐng)域?qū)崿F(xiàn)工具化與智能化。
預(yù)測(cè)患者對(duì)中藥的反應(yīng)(patient’s response to drug,PRD)是個(gè)性化醫(yī)療中的關(guān)鍵問題,其中基于多組學(xué)數(shù)據(jù)融合的PRD預(yù)測(cè)是相關(guān)研究的一個(gè)熱點(diǎn)方向。Yu等[71]采用多組學(xué)與多層網(wǎng)絡(luò)模型上的低維特征向量融合數(shù)據(jù)來建立ML模型用于預(yù)測(cè)藥物反應(yīng),并將這種新方法命名為“基于多組學(xué)數(shù)據(jù)融合的藥物反應(yīng)預(yù)測(cè)”(drug response prEdiction based on multiOmics data fusion,DREMO)。DREMO融合了細(xì)胞系之間的相似性和藥物之間的相似性,首先基于基因表達(dá)譜、細(xì)胞突變、拷貝數(shù)變異(copy number variation,CNV)、藥物化學(xué)結(jié)構(gòu)和藥物靶點(diǎn)等數(shù)據(jù)構(gòu)建了與細(xì)胞系和藥物相關(guān)的多層相似性網(wǎng)絡(luò),再使用低維特征向量融合多層網(wǎng)絡(luò)的生物信息,然后應(yīng)用ML模型來預(yù)測(cè)新的藥物-細(xì)胞系關(guān)聯(lián),結(jié)果表明DREMO顯著提高了預(yù)測(cè)能力。
藥物/中藥聯(lián)合治療中的藥物-藥物相互作用(drug-drug interaction,DDI)問題也是中藥研究中一個(gè)具有挑戰(zhàn)性的問題。近年來,使用DL技術(shù)來預(yù)測(cè)DDI的報(bào)道較多,但這些方法只考慮藥物的單一信息,在穩(wěn)健性和可擴(kuò)展性方面存在不足。He等[72]提出了一種基于圖神經(jīng)網(wǎng)絡(luò)模型(graph neural network model,GNN)的多類型特征數(shù)據(jù)融合方法用于DDI預(yù)測(cè),可有效融合分子圖中的拓?fù)湫畔?、藥物之間的相互作用信息以及SMILES(simplified molecular input line entry system,即簡化分子線性輸入規(guī)范,是一種用ASCII字符串明確描述分子結(jié)構(gòu)的規(guī)范)序列中藥物與局部化學(xué)環(huán)境之間的相互作用信息,結(jié)果表明GNN結(jié)合數(shù)據(jù)融合可以準(zhǔn)確預(yù)測(cè)DDI,穩(wěn)健性和可擴(kuò)展性優(yōu)于其他方法。
數(shù)據(jù)融合技術(shù)結(jié)合ML、DL等還可用于預(yù)測(cè)藥物/中藥-靶點(diǎn)相互作用(drug-target interaction,DTI),對(duì)于發(fā)現(xiàn)新的中藥活性成分及新用法具有借鑒價(jià)值。如Song等[73]提出了一種基于DL的多尺度特征融合方法——深度融合,用于預(yù)測(cè)DTI,該方法基于相似性理論與CNN生成全局結(jié)構(gòu)相似性特征,并使用變壓器網(wǎng)絡(luò)(transformer network)分別生成藥物和蛋白質(zhì)的局部化學(xué)的子結(jié)構(gòu)特征,取得了令人滿意的預(yù)測(cè)效果。
目前,中藥的PRD、DDI、DTI研究尚處于探索階段,網(wǎng)絡(luò)藥理學(xué)方法作為目前的研究熱點(diǎn),在中藥“藥效-成分-靶點(diǎn)”預(yù)測(cè)方面具有一定優(yōu)勢(shì),但對(duì)中藥PRD、DDI、DTI研究則涉及較少且無能為力,這與其基礎(chǔ)數(shù)據(jù)庫內(nèi)容涉及的多組學(xué)信息、中藥之間的相互作用信息、中藥的人用信息等較少,以及軟件算法不涉及數(shù)據(jù)融合等原因有關(guān),因此積極開發(fā)一種集相關(guān)基礎(chǔ)數(shù)據(jù)庫與數(shù)據(jù)融合功能于一體的軟件系統(tǒng)是極為必要的。
數(shù)據(jù)融合在中藥新藥開發(fā)中的應(yīng)用涉及2個(gè)方面,即工藝開發(fā)和質(zhì)量控制,數(shù)據(jù)融合在這2個(gè)方面均具有較好的應(yīng)用前景,尤其在開發(fā)中藥新劑型方面,如固體分散體、緩控釋制劑、靶向制劑等。中藥制劑是多組分復(fù)雜化學(xué)體系,制劑工藝及成分的物理、化學(xué)表征是一大難題,目前多借助各類色譜、光譜技術(shù)盡可能做到完整、科學(xué)的表征,而數(shù)據(jù)融合可將多種表征方法所得的數(shù)據(jù)進(jìn)行融合,通過融合后的單一數(shù)據(jù)即可完成表征。目前,數(shù)據(jù)融合在質(zhì)量控制中的報(bào)道較多,而在工藝研究中的報(bào)道較少。Fan等[49]基于數(shù)據(jù)融合提出的多有效部位中藥制劑質(zhì)量控制與評(píng)價(jià)的新思路與新方法,可推廣應(yīng)用于其他制劑。Casian等[74]開發(fā)了一個(gè)由4種互補(bǔ)儀器組成的過程分析技術(shù)(process analytical technology,PAT)工具,用于表征電紡制備的美洛昔康無定形固體分散體,4種儀器分別提供了NIR、RS、比色法和圖像分析數(shù)據(jù),通過中級(jí)融合,PAT工具的互補(bǔ)性顯著提高了模型性能,該研究是數(shù)據(jù)融合在PAT領(lǐng)域的首次應(yīng)用,可有效處理高通量儀器提供的大數(shù)據(jù)分析,這對(duì)中藥制劑研究是一個(gè)非常好的啟示。目前,已有研究者將PAT理念引入中藥制藥研究中,但在實(shí)際應(yīng)用中仍存在許多技術(shù)和儀器設(shè)備方面的難題。
中藥栽培種植中的產(chǎn)量預(yù)測(cè)對(duì)于藥農(nóng)作出肥料、水、儲(chǔ)存、現(xiàn)金流等方面的合理決策具有重要的現(xiàn)實(shí)意義。傳統(tǒng)的產(chǎn)量預(yù)測(cè)多采用抽樣調(diào)查法,需進(jìn)行破壞性抽樣,時(shí)間、人力成本較大。受相關(guān)研究的啟發(fā),可采用基于衛(wèi)星、無人機(jī)遙感數(shù)據(jù)的數(shù)據(jù)融合并結(jié)合多變量建模、ML、DL等進(jìn)行中藥種植面積與產(chǎn)量的預(yù)測(cè)。如Xu等[3]建立了基于時(shí)間序列無人機(jī)遙感數(shù)據(jù)的棉花產(chǎn)量估算模型,結(jié)合多光譜圖像和棉鈴像素覆蓋,使用貝葉斯正則化反向傳播神經(jīng)網(wǎng)絡(luò)來預(yù)測(cè)棉花產(chǎn)量,結(jié)果令人滿意。此類研究能夠?yàn)橹兴幏N植面積與產(chǎn)量的預(yù)測(cè)提供有價(jià)值的借鑒。
利益沖突 所有作者均聲明不存在利益沖突
[1] Zhang H, Chen R Y, Xu C,. An integrated approach to discriminate the quality markers of traditional Chinese medicine preparation based on multi-dimensional characteristic network: Shenqi Jiangtang Granule as a case [J]., 2021, 278: 114277.
[2] Borràs E, Ferré J, Boqué R,. Data fusion methodologies for food and beverage authentication and quality assessment-A review [J]., 2015, 891: 1-14.
[3] Xu W C, Chen P C, Zhan Y L,. Cotton yield estimation model based on machine learning using time series UAV remote sensing data [J]., 2021, 104: 102511.
[4] Jiang S, Ni C D, Chen G L,. A novel data fusion strategy based on multiple intelligent sensory technologies and its application in the quality evaluation of Jinhua dry-cured hams [J]., 2021, 344: 130324.
[5] Aljaaf A J, Mohsin T M, Al-Jumeily D,. A fusion of data science and feed-forward neural network-based modelling of COVID-19 outbreak forecasting in IRAQ [J]., 2021, 118: 103766.
[6] DeRamus T P, Wu L, Qi S,. Multimodal data fusion of cortical-subcortical morphology and functional network connectivity in psychotic spectrum disorder [J]., 2022, 35: 103056.
[7] Zheng H, Cai A M, Zhou Q,. Optimal preprocessing of serum and urine metabolomic data fusion for staging prostate cancer through design of experiment [J]., 2017, 991: 68-75.
[8] Li D Z, Gao W. Physiological state assessment and prediction based on multi-sensor fusion in body area network [J]., 2021, 65: 102340.
[9] Liu Q, He D, Xie L. Prediction of off-target specificity and cell-specific fitness of CRISPR-Cas System using attention boosted deep learning and network-based gene feature [J]., 2019, 15(10): e1007480.
[10] Maithri M, Raghavendra U, Gudigar A,. Automated emotion recognition: Current trends and future perspectives [J]., 2022, 215: 106646.
[11] Ounoughi C, Ben Yahia S. Data fusion for ITS: A systematic literature review [J]., 2023, 89: 267-291.
[12] Robert C, Jessep W, Sutton J J,. Evaluating low- mid- and high-level fusion strategies for combining Raman and infrared spectroscopy for quality assessment of red meat [J]., 2021, 361: 130154.
[13] Pei Y F, Zuo Z T, Zhang Q Z,. Data fusion of Fourier transform mid-infrared (MIR) and near-infrared (NIR) spectroscopies to identify geographical origin of wildvar.[J]., 2019, 24(14): 2559.
[14] Stavropoulos G, van Vorstenbosch R, Jonkers D M A E,. Advanced data fusion: Random forest proximities and pseudo-sample principle towards increased prediction accuracy and variable interpretation [J]., 2021, 1183: 339001.
[15] Li Y, Xiong Y M, Min S G. Data fusion strategy in quantitative analysis of spectroscopy relevant to olive oil adulteration [J]., 2019, 101: 20-27.
[16] Lawrence A. Klein著. 戴亞平譯. 多傳感器數(shù)據(jù)融合理論及應(yīng)用 [M]. 北京: 北京理工大學(xué)出版社, 2004: 115-130.
[17] 黃小紅. 傳感器網(wǎng)絡(luò)數(shù)據(jù)融合技術(shù)研究及在溫室控制中的應(yīng)用 [D]. 成都: 電子科技大學(xué), 2009.
[18] Ge L Z, Zou K L, Zhou H,. Three dimensional apple tree organs classification and yield estimation algorithm based on multi-features fusion and support vector machine [J]., 2022, 9(3): 431-442.
[19] Zhao G Z, Chen A G, Lu G X,. Data fusion algorithm based on fuzzy sets and D-S theory of evidence [J]., 2019, 25(1): 12-19.
[20] Zhang J, Liu H B, Sun X J,. Processing of building subsidence monitoring data based on fusion Kalman filtering algorithm [J]., 2021, 60(3): 3353-3360.
[21] Song R, Chen X Y, Fang Y C,. Integrated navigation of GPS/INS based on fusion of recursive maximum likelihood IMM and Square-root Cubature Kalman filter [J]., 2020, 105: 387-395.
[22] Ren M J, Sun L J, Liu M Y,. A weighted least square based data fusion method for precision measurement of freeform surfaces [J]., 2017, 48: 144-151.
[23] 馮建英, 石巖, 王博, 等. 基于聚類分析的數(shù)據(jù)挖掘技術(shù)及其農(nóng)業(yè)應(yīng)用研究進(jìn)展 [J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2022, 53(S1): 201-212.
[24] Qiu J J, Shi M L, Li S Q,. Artificial neural network model- and response surface methodology-based optimization ofpolysaccharide extraction, kinetic modelling and structural characterization [J]., 2023, 95: 106408.
[25] Wang Q Q, Huang H Y, Wang Y Z. Geographical authentication ofby a data fusion method combining ultra-fast liquid chromatography and Fourier transform infrared spectroscopy [J]., 2019, 24(7): 1320.
[26] Sun W J, Zhang X, Zhang Z Y,. Data fusion of near-infrared and mid-infrared spectra for identification of rhubarb [J]., 2017, 171: 72-79.
[27] He J S, Chen L, Si Y,. Population structure and genetic diversity distribution in wild and cultivated populations of the traditional Chinese medicinal plantsubsp.(Magnoliaceae) [J]., 2009, 135(2): 233-243.
[28] Jing W G, Zhao X L, Li M H,. Application of multiple-source data fusion for the discrimination of two botanical origins ofcortex based on E-nose measurements, E-tongue measurements, and chemical analysis [J]., 2022, 27(12): 3892.
[29] Qi L M, Li J Q, Liu H G,. An additional data fusion strategy for the discrimination of porcini mushrooms from different species and origins in combination with four mathematical algorithms [J]., 2018, 9(11): 5903-5911.
[30] 孫飛, 陳雨, 王凱洋, 等. 基于紅外光譜數(shù)據(jù)融合的姜半夏鑒別方法研究 [J]. 北京中醫(yī)藥大學(xué)學(xué)報(bào), 2019, 42(10): 862-868.
[31] Qi L M, Zhong F R, Chen Y,. An integrated spectroscopic strategy to trace the geographical origins of emblic medicines: Application for the quality assessment of natural medicines [J]., 2020, 10(4): 356-364.
[32] 張嬌, 王元忠, 楊維澤, 等. ATR-FTIR和UV-Vis結(jié)合數(shù)據(jù)融合策略鑒別滇黃精產(chǎn)地 [J]. 光譜學(xué)與光譜分析, 2021, 41(5): 1410-1416.
[33] Wu X M, Zhang Q Z, Wang Y Z. Traceability of wildSmith var.based on data fusion strategy of FT-MIR and UV-Vis combined with SVM and random forest [J]., 2018, 205: 479-488.
[34] Shen T, Yu H, Wang Y Z. Assessing geographical origin ofusing untargeted chromatographic fingerprint, data fusion and chemometrics [J]., 2019, 24(14): 2562.
[35] Xiao Q L, Bai X L, Gao P,. Application of convolutional neural network-based feature extraction and data fusion for geographical origin identification ofby visible/short-wave near-infrared and near infrared hyperspectral imaging [J]., 2020, 20(17): 4940.
[36] 王琴琴, 沈濤, 左智天, 等. 基于數(shù)據(jù)融合和多指標(biāo)定量對(duì)滇龍膽產(chǎn)地鑒別和質(zhì)量評(píng)價(jià) [J]. 中國中藥雜志, 2018, 43(6): 1162-1168.
[37] Wang L, Wang Q Q, Wang Y Z,. Comparison of geographical traceability of wild and cultivatedwith different data fusion approaches [J]., 2021, 2021: 1-13.
[38] Li Y, Zhang J, Li T,. Geographical traceability of wildbased on data fusion of FT-MIR and ICP-AES coupled with data mining methods (SVM) [J]., 2017, 177: 20-27.
[39] Qi L M, Liu H G, Li J Q,. Feature fusion of ICP-AES, UV-vis and FT-MIR for origin traceability ofmushrooms in combination with chemometrics [J]., 2018, 18(1): 241.
[40] Yao S, Li T, Li J Q,. Geographic identification ofmushrooms by data fusion of FT-IR and UV spectroscopies combined with multivariate statistical analysis [J]., 2018, 198: 257-263.
[41] Li Y, Zhang J Y, Wang Y Z. FT-MIR and NIR spectral data fusion: A synergetic strategy for the geographical traceability of[J]., 2018, 410(1): 91-103.
[42] 張旭超, 黨藝航, 付藝萱, 等. 數(shù)據(jù)融合法結(jié)合決策樹優(yōu)化東方草莓全草的地理溯源性研究 [J]. 藥物分析雜志, 2022, 42(5): 845-855.
[43] Ballabio D, Robotti E, Grisoni F,. Chemical profiling and multivariate data fusion methods for the identification of the botanical origin of honey [J]., 2018, 266: 79-89.
[44] Qi L M, Ma Y T, Zhong F R,. Comprehensive quality assessment forbased on quantitative and qualitative metabolic profiles using high performance liquid chromatography, Fourier transform near-infrared and Fourier transform mid-infrared combined with multivariate statistical analysis [J]., 2018, 161: 436-443.
[45] Borràs E, Ferré J, Boqué R,. Olive oil sensory defects classification with data fusion of instrumental techniques and multivariate analysis (PLS-DA) [J]., 2016, 203: 314-322.
[46] Zhao Q, Yu Y, Hao N,. Data fusion of laser-induced breakdown spectroscopy and near-infrared spectroscopy to quantitatively detect heavy metals in lily [J]., 2023, 190: 108670.
[47] Pérez-Ràfols C, Serrano N, Díaz-Cruz J M. Authentication of soothing herbs by UV-vis spectroscopic and chromatographic data fusion strategy [J]., 2023, 235: 104783.
[48] Zhang X, Wu H W, Lin L N,. The qualitative and quantitative assessment of xiaochaihu granules based on e-eye, e-nose, e-tongue and chemometrics [J]., 2021, 205: 114298.
[49] Fan X H, Cheng Y Y, Ye Z L,. Multiple chromatographic fingerprinting and its application to the quality control of herbal medicines [J]., 2006, 555(2): 217-224.
[50] Jiang C, Liu Y, Qu H B. Data fusion strategy based on near infrared spectra and ultraviolet spectra for simultaneous determination of ginsenosides and saccharides in Chinese herbal injection [J]., 2013, 5(17): 4467-4475.
[51] Zhang H B, Zhang Y, Zhang T J,. Research progress on quality markers of traditional Chinese medicine [J]., 2022, 211: 114588.
[52] 陽長明, 楊平, 劉樂環(huán), 等. 中藥質(zhì)量標(biāo)志物(Q-Marker) 研究進(jìn)展及對(duì)中藥質(zhì)量研究的思考 [J]. 中草藥, 2021, 52(9): 2519-2526.
[53] Liao J C, Wu Y S, Xu F F,. Comprehensive evaluation of NAODESHENG by combining UPLC quantitative fingerprint and antioxidant activity [J]., 2021, 193: 113636.
[54] Zhang J, Wang Y Z, Yang M Q,. Identification and evaluation ofwith different growth ages based on data fusion strategy [J]., 2021, 160: 105662.
[55] Wu Z Z, Xu E B, Long J,. Comparison between ATR-IR, Raman, concatenated ATR-IR and Raman spectroscopy for the determination of total antioxidant capacity and total phenolic content of Chinese rice wine [J]., 2016, 194: 671-679.
[56] Lan Z W, Zhang Y, Sun Y,. A mid-level data fusion approach for evaluating the internal and external changes determined by FT-NIR, electronic nose and colorimeter inprocessing [J]., 2020, 188: 113387.
[57] Dai S Y, Lin Z Z, Xu B,. Metabolomics data fusion between near infrared spectroscopy and high-resolution mass spectrometry: A synergetic approach to boost performance or induce confusion [J]., 2018, 189: 641-648.
[58] Sun F, Zhong Y C, Meng J,. Establishment of an integrated data fusion method between the colorimeter and near-infrared spectroscopy to discriminate the stir-bakedEllis [J]., 2018, 51(10): 547-553.
[59] Dai C X, Huang X Y, Huang D M,. Detection of submerged fermentation ofusing data fusion of electronic nose and tongue [J]., 2019, 42(3): e13002.
[60] 吳思俊, 王龍, 吳紅根, 等. 基于多源數(shù)據(jù)融合技術(shù)的鹽酸青藤堿制備工藝一致性評(píng)價(jià)方法研究 [J]. 分析測(cè)試學(xué)報(bào), 2022, 41(1): 121-127.
[61] 王政, 王雅雯, 曹君杰, 等. 中藥高剪切濕法制粒過程物料可制造性分類研究 [J]. 中國中藥雜志, 2021, 46(19): 4969-4977.
[62] Wang Z, Cao J J, Li W T,. Using a material database and data fusion method to accelerate the process model development of high shear wet granulation [J]., 2021, 11: 16514.
[63] Gao M L, Zhang Y, Cheng F F,. A gradient-based discriminant analysis method for process quality control of carbonized TCM via Fourier transform near infrared spectroscopy: A case study on carbonized Typhae Pollen [J]., 2022, 265: 120363.
[64] Zhao J E, Zhou Z M, Zhao F,. Development and validation of global prediction models for monitoring the manufacturing process of herbal medicine by ultraviolet spectroscopy [J]., 2022, 2(2): 118-129.
[65] Zhang J, Xu X H, Li L,. Multi critical quality attributes monitoring of Chinese oral liquid extraction process with a spectral sensor fusion strategy [J]., 2022, 278: 121317.
[66] Zhang R Z, Zhao J T, Wang W Q,. Metabolomics-based comparative analysis of the effects of host and environment onmetabolites and antioxidative activities [J]., 2022, 12(2): 243-252.
[67] Huang G, Huang G B, Song S J,. Trends in extreme learning machines: A review [J]., 2015, 61: 32-48.
[68] Li Q Q, Huang Y, Zhang J X,. A fast determination of insecticide deltamethrin by spectral data fusion of UV-vis and NIR based on extreme learning machine [J]., 2021, 247: 119119.
[69] Chen X J, Zhu Z F, Zhang W T,. Human disease prediction from microbiome data by multiple feature fusion and deep learning [J]., 2022, 25(4): 104081.
[70] Liu J E, Peng D D, Li J L,. Identification of potential Parkinson’s disease drugs based on multi-source data fusion and convolutional neural network [J]., 2022, 27(15): 4780.
[71] Yu L, Zhou D D, Gao L,. Prediction of drug response in multilayer networks based on fusion of multiomics data [J]., 2021, 192: 85-92.
[72] He C X, Liu Y R, Li H,. Multi-type feature fusion based on graph neural network for drug-drug interaction prediction [J]., 2022, 23(1): 224.
[73] Song T, Zhang X D, Ding M,. DeepFusion: A deep learning based multi-scale feature fusion method for predicting drug-target interactions [J]., 2022, 204: 269-277.
[74] Casian T, Farkas A, Ilyés K,. Data fusion strategies for performance improvement of a Process Analytical Technology platform consisting of four instruments: An electrospinning case study [J]., 2019, 567: 118473.
Application of data fusion in field of traditional Chinese medicine research
GU Zhi-rong1, MAO Xiao-wen2, QI Mei1, GUO Yan2, GE Bin1
1. Department of Pharmacy, Gansu People’s Hospital, Lanzhou 730000, China 2. School of Pharmacy, Gansu University of Chinese Medicine, Lanzhou 730000, China
Data fusion is a technology that coordinates and integrates data information from multiple sources to improve the sensitivity, specificity and accuracy of decision models. Data fusion combined with multivariable model is a powerful tool to study the complex system of traditional Chinese medicine (TCM), which has been applied to many research fields such as species identification, origin tracing and identification, quality control and evaluation, processing and preparation, and resources formation research. The source data included in the fusion is mainly chemical substance information of TCM, including various types of chromatographic and spectral information, content information of inorganic elements and organic components, sensor information such as e-nose, e-eye and e-tongue, and metabolomics information, etc. The multivariate models used are principal component analysis (PCA), hierarchical cluster analysis (HCA), partial least squares-discriminant analysis (PLS-DA), orthogonal partial least squares-discriminant analysis (OPLS-DA), support vector machine (SVM), artificial neural network (ANN), random forests (RF), decision trees, linear discriminant analysis (LDA), etc. In the future, data fusion is expected to be combined with artificial intelligence (AI), incorporate biomedical and omics data into source data, and expand applications in more fields such as screening of active substances in TCM, prediction of patient’s response to drug, drug-drug interactions, drug-target interactions, development of new TCM, and cultivation of TCM, etc. At the same time, software systems related to TCM research that integrate data fusion and multivariate modeling function should be actively developed.
data fusion; traditional Chinese medicine research; source data; multivariate model; artificial intelligence
R28;TP391
A
0253 - 2670(2023)18 - 6159 - 13
10.7501/j.issn.0253-2670.2023.18.033
2023-05-10
甘肅省青年科技基金計(jì)劃項(xiàng)目(21JR7RA634);甘肅省自然科學(xué)基金資助項(xiàng)目(20JR5RA154)
顧志榮(1988—),男,碩士研究生,主管中藥師,研究方向?yàn)橹兴幩幮镔|(zhì)基礎(chǔ)及作用機(jī)制。E-mail: guzr8817@163.com
葛 斌(1965—),男,教授,主任藥師,碩士生導(dǎo)師,從事中藥藥效物質(zhì)基礎(chǔ)及作用機(jī)制研究。E-mail: gjy0630@163.com
[責(zé)任編輯 潘明佳]