亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于隨機(jī)森林的抗乳腺癌候選藥物的優(yōu)化

2023-12-02 15:26:28湯仕星曾瑩

湖北工業(yè)大學(xué)學(xué)報(bào) 2023年1期

湯仕星曾瑩

[摘要]充分利用藥物大數(shù)據(jù)平臺(tái)和臨床資源，運(yùn)用數(shù)據(jù)分析方法預(yù)測(cè)抗乳腺癌候選藥物的ADMET性質(zhì)和抗乳腺癌活性，為實(shí)驗(yàn)室研制抗乳腺癌新藥過(guò)程提供參考方向。針對(duì)1974種化合物的分子描述符變量數(shù)據(jù)，分別構(gòu)建以ADMET性質(zhì)和pIC₅₀值為因變量的隨機(jī)森林預(yù)測(cè)模型，模型的預(yù)測(cè)精度分別為88.7%和91.3%?；陔S機(jī)森林模型求得的重要影響因子貢獻(xiàn)率確定出4個(gè)變化顯著的共同重要影響因子的取值范圍，分別為MLFER_BH（0.56，2.65）、MLFER_S（1.30，4.41）、WTPT-5（0.00，10.01）和SdssC（-1.92，2.76），對(duì)實(shí)現(xiàn)抗乳腺癌藥物的優(yōu)化具有指導(dǎo)意義。

[關(guān)鍵詞]抗乳腺癌藥物；抗乳腺癌活性；ADMET性質(zhì)；相關(guān)性檢驗(yàn)；隨機(jī)森林

[中圖分類號(hào)]F213.5 [文獻(xiàn)標(biāo)識(shí)碼]A

乳腺癌是指在多種致癌因子的作用下，乳腺的上皮細(xì)胞發(fā)生增值失控的一種現(xiàn)象，是目前世界上最常見(jiàn)的致死率較高的癌癥之一。對(duì)于治療乳腺癌的藥物研究，國(guó)內(nèi)外已有不少學(xué)者在乳腺癌分子靶點(diǎn)和靶向治療方向上取得顯著進(jìn)展，已發(fā)現(xiàn)不少抗乳腺癌活性表現(xiàn)良好的化合物，且在臨床實(shí)踐中取得明顯療效^[1]，例如查耳酮類化合物、他莫昔芬和雷諾昔芬；靶向治療的優(yōu)越性在于能在細(xì)胞分子水平上基因調(diào)控，代謝通路，某一靶點(diǎn)特異性結(jié)合而達(dá)到治療作用，最終導(dǎo)致部分癌基因表達(dá)失調(diào)、腫瘤增殖減弱、受體表達(dá)缺失等。特別是雌激素受體α亞型（ERα）作為乳腺癌內(nèi)分泌療法的主要靶點(diǎn)^[2]，在超過(guò)70%的乳腺癌患者^[3^-5]中過(guò)度表達(dá)，因此拮抗ERα活性的化合物可能是治療乳腺癌的候選藥物。

近年來(lái)隨著藥物大數(shù)據(jù)平臺(tái)的實(shí)現(xiàn)，豐富的原始臨床試驗(yàn)數(shù)據(jù)^[6]為構(gòu)建化合物的定量結(jié)構(gòu)-活性關(guān)系奠定了數(shù)據(jù)基礎(chǔ)，不少學(xué)者在研究治療乳腺癌過(guò)程中運(yùn)用數(shù)據(jù)挖掘方法得到重要結(jié)論。例如秦璞應(yīng)用隨機(jī)森林和支持向量機(jī)對(duì)三陰性乳腺癌基因數(shù)據(jù)的降維和篩選^[7]，得到部分基因和三陰性乳腺癌的轉(zhuǎn)移或者預(yù)后有相關(guān)性等；隨著抗乳腺癌藥物的生物活性被逐漸深入研究，評(píng)價(jià)抗乳腺癌藥物的副作用的研究也越發(fā)受到關(guān)注，例如魏靜通過(guò)實(shí)驗(yàn)研究得到羧甲基β－葡聚糖聯(lián)合阿霉素具有協(xié)同抗乳腺癌以及減輕心臟毒性的功能^[8]。國(guó)內(nèi)外學(xué)者研究表明藥效性和藥代動(dòng)力學(xué)的研究可以為新藥研發(fā)提供指導(dǎo)，進(jìn)而優(yōu)化藥方設(shè)計(jì)，通過(guò)將其與藥物的靶點(diǎn)、理化性質(zhì)等各方面信息相結(jié)合，可以發(fā)現(xiàn)其中存在的客觀規(guī)律，為藥物研究提供新思路。

隨機(jī)森林是基于分類回歸樹(shù)的集成算法^[9]。對(duì)于海量數(shù)據(jù)的研究，區(qū)別于傳統(tǒng)的多元線性回歸模型^[10]，隨機(jī)森林算法在處理回歸問(wèn)題時(shí)能夠克服協(xié)變量之間復(fù)雜的交互作用，且毋需預(yù)先設(shè)定函數(shù)形式^[11]，相較于神經(jīng)網(wǎng)絡(luò)^[12]，隨機(jī)森林算法在處理分類問(wèn)題時(shí)不易過(guò)度擬合，因而隨機(jī)森林算法被廣泛應(yīng)用于各領(lǐng)域研究并取得較好效果，為此將隨機(jī)森林模型應(yīng)用于拮抗ERα活性的抗乳腺候選藥物的ADMET性質(zhì)的研究。相較于國(guó)內(nèi)外學(xué)者通過(guò)臨床試驗(yàn)探求新藥的藥效性的同時(shí)還要對(duì)新藥的副作用進(jìn)行驗(yàn)證的漫長(zhǎng)過(guò)程，構(gòu)建隨機(jī)森林預(yù)測(cè)模型，充分挖掘臨床試驗(yàn)數(shù)據(jù)的內(nèi)在價(jià)值，不僅能更準(zhǔn)確得到化合物的ADMET性質(zhì)和生物活性，而且可以篩選出能共同影響化合物ADMET性質(zhì)和生物活性的重要因子，進(jìn)而優(yōu)化抗乳腺癌候選藥物的篩選過(guò)程，為尋求潛在的優(yōu)質(zhì)抗乳腺癌藥物提供實(shí)證研究。

1 模型和數(shù)據(jù)

從阿爾伯塔大學(xué)的DrugBank藥物分子數(shù)據(jù)庫(kù)中獲取針對(duì)ERα靶點(diǎn)的化合物樣本集^[13]。DrugBank數(shù)據(jù)庫(kù)擁有獨(dú)特的生物信息學(xué)和化學(xué)信息學(xué)資源，它將詳細(xì)的藥物數(shù)據(jù)和全面的藥物目標(biāo)信息結(jié)合起來(lái)，以便科學(xué)家們研究藥物機(jī)制和探索新型藥物^[14]。數(shù)據(jù)集包含了1974個(gè)化合物樣本，并給出了每個(gè)化合物的SMILES式，每個(gè)化合物樣本都有729個(gè)分子描述符變量，1個(gè)生物活性數(shù)據(jù)（IC₅₀為測(cè)定值、pIC₅₀為轉(zhuǎn)化值）和5個(gè)ADMET性質(zhì)數(shù)據(jù)（Caco-2、CYP3A4、hERG、HOB和MN）。

1.1 符號(hào)說(shuō)明

Erα：雌激素受體α亞型;IC₅₀：ERα的生物活性值（值越小代表生物活性越大，對(duì)抑制ERα活性越有效）;pIC₅₀：IC₅₀值轉(zhuǎn)化而得的ERα的生物活性指標(biāo)（與生物活性具有正相關(guān)性）;ADMET：藥代動(dòng)力學(xué)性質(zhì)和安全性;Caco-2：小腸上皮細(xì)胞滲透性;CYP3A4：細(xì)胞色素P450酶（Cytochrome P450， CYP）3A4亞型;hERG：化合物心臟安全性評(píng)價(jià);HOB：人體口服生物利用度;MN：微核試驗(yàn)。

1.2 模型設(shè)定

1.2.1 相關(guān)性檢驗(yàn) 本文采用皮爾遜相關(guān)系數(shù)^[15]判斷不同的變量之間的相關(guān)程度，其公式為：

其中：n代表樣本的個(gè)數(shù)，x_i，y_i分別表示兩個(gè)變量的第i個(gè)樣本值，相關(guān)系數(shù)r的取值范圍為[-1，1]。r值越大，表示其相關(guān)性越強(qiáng)，當(dāng)r>0，表示兩個(gè)變量間呈現(xiàn)正相關(guān)，r<0，表示兩個(gè)變量為負(fù)相關(guān)。

1.2.2 隨機(jī)森林決策樹(shù)是一種基于IF-then-else規(guī)則的算法，屬于有監(jiān)督學(xué)習(xí)算法^[16]。它是一種樹(shù)形的結(jié)構(gòu)，每個(gè)節(jié)點(diǎn)表示其一個(gè)樹(shù)形上的判斷，每個(gè)分支表示其一個(gè)判斷結(jié)果的輸出，它是根據(jù)基尼系數(shù)通過(guò)訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)而得到的?；嵯禂?shù)的大小代表數(shù)據(jù)集中樣本的差異程度大小，基尼系數(shù)越大說(shuō)明數(shù)據(jù)集的種類越多，即說(shuō)明有多種的分類結(jié)果。其計(jì)算公式為：

決策樹(shù)的缺點(diǎn)就是可能會(huì)對(duì)訓(xùn)練的數(shù)據(jù)過(guò)擬合，而隨機(jī)森林通過(guò)構(gòu)造很多棵樹(shù)的方式，在得知每棵樹(shù)的預(yù)測(cè)結(jié)果的情況下，綜合分析每棵樹(shù)的分類和回歸預(yù)測(cè)結(jié)果，不僅可以減少過(guò)擬合，而且還能很好的保持樹(shù)的預(yù)測(cè)效果。

1.3 數(shù)據(jù)準(zhǔn)備

1.3.1 數(shù)據(jù)預(yù)處理對(duì)分子描述符變量值進(jìn)行初步的分析發(fā)現(xiàn)：樣本集中數(shù)據(jù)不存在缺失值，除了化合物的SMILES屬性是字符型外，其他字段的變量都是數(shù)值型且有明確含義，數(shù)據(jù)是完備的。依據(jù)相關(guān)性檢驗(yàn)，通過(guò)R軟件循環(huán)遍歷求出pIC₅₀指標(biāo)與729個(gè)變量的相關(guān)系數(shù)，發(fā)現(xiàn)存在225個(gè)缺失值，即有225個(gè)分子描述符變量的取值全為零，可認(rèn)為其包含有用信息的可能性較少，這些分子描述符的變量值在化合物樣本的分類和回歸問(wèn)題無(wú)區(qū)分度。考慮到隨機(jī)森林會(huì)出現(xiàn)樹(shù)的冗余現(xiàn)象，為提高算法的計(jì)算效率，數(shù)據(jù)處理時(shí)剔除這些無(wú)差別的變量，將剩余的504個(gè)變量組成一個(gè)新訓(xùn)練集。

1.3.2 確定IC₅₀和pIC₅₀函數(shù)關(guān)系為了保持生物活性指標(biāo)與生物活性具有正相關(guān)關(guān)系，通常將實(shí)驗(yàn)測(cè)定值IC₅₀通過(guò)對(duì)數(shù)變換進(jìn)而轉(zhuǎn)換為pIC₅₀值來(lái)表示生物活性的強(qiáng)弱，IC₅₀值越小，表明生物活性越強(qiáng)，進(jìn)而pIC₅₀值越大，實(shí)際中它們滿足一種特定的函數(shù)關(guān)系，因此本文引進(jìn)中間變量ln（IC₅₀）來(lái)對(duì)數(shù)據(jù)進(jìn)行分析，求得ln（IC₅₀）和pIC₅₀的相關(guān)系數(shù)為-1，證實(shí)了pIC₅₀和IC₅₀的負(fù)對(duì)數(shù)滿足確定的函數(shù)關(guān)系。利用R軟件對(duì)兩者進(jìn)行線性擬合，求得pIC₅₀=-0.4343*ln（IC₅₀）+9，因此可將pIC₅₀作為生物活性指標(biāo)用于新化合物抗乳腺癌活性的預(yù)測(cè)，進(jìn)而也可通過(guò)預(yù)測(cè)出的pIC₅₀值求出IC₅₀實(shí)驗(yàn)測(cè)定值。

1.3.3 ADMET性質(zhì)相關(guān)性在化合物樣本的ADMET性質(zhì)數(shù)據(jù)中，分類變量hERG與MN用“1”表示具有毒性，“0”則表示沒(méi)有毒性，這與其他3種性質(zhì)分類變量數(shù)據(jù)表示的一致性相反，與意識(shí)中認(rèn)為的“1”代表性質(zhì)好，“0”代表性質(zhì)劣的邏輯相反，于是先對(duì)分類變量hERG與MN進(jìn)行重編碼。在R軟件中將hERG與MN的數(shù)據(jù)重新賦值，將原始數(shù)據(jù)中的“1”賦值為“-1”，再將hERG與MN的全部數(shù)據(jù)進(jìn)行加1操作，使得hERG與MN性質(zhì)數(shù)據(jù)中原有的“1”轉(zhuǎn)化為“0”，“0”轉(zhuǎn)化為“1”，于是ADMET性質(zhì)可同趨勢(shì)化。然后可以求出ADMET性質(zhì)兩兩之間的相關(guān)關(guān)系，并在R軟件中畫出ADMET性質(zhì)相關(guān)圖（圖1）。

從圖1中可以看出Caco-2與hERG（0.393）、HOB（0.201）、MN（0.190）之間都存在較弱的正相關(guān)性，而CYP3A4與hERG（-0.487）、Caco-2（-0.337）和HOB（-0.113）之間都存在較弱的負(fù)相關(guān)性，MN與hERG（-0.019）和CYP3A4（-0.010）之間的相關(guān)性很小，這使得化合物同時(shí)滿足ADMET性質(zhì)最優(yōu)的情況較少，藥代動(dòng)力學(xué)性質(zhì)和安全性之間很難達(dá)到最優(yōu)。于是可對(duì)每個(gè)樣本的5種ADMET性質(zhì)變量進(jìn)行求和，將其記為化合物的ADMET性質(zhì)得分，ADMET性質(zhì)得分越高，代表化合物的藥代動(dòng)力學(xué)性質(zhì)和安全性越好。

在1974個(gè)化合物樣本中ADMET性質(zhì)得分為3的樣本有444個(gè)，得分為4的樣本有177個(gè)，ADMET性質(zhì)最優(yōu)即得分5的樣本個(gè)數(shù)僅為11，再求出pIC₅₀和ADMET性質(zhì)得分的相關(guān)系數(shù)為-0.261，存在弱負(fù)相關(guān)性，符合現(xiàn)實(shí)中藥效性和藥代動(dòng)力學(xué)性質(zhì)與安全性俱佳的化合物很少的現(xiàn)象。為了擴(kuò)大候選藥物的篩選范圍，將ADMET性質(zhì)得分大于等于3定義為ADMET性質(zhì)較優(yōu)的化合物并記為“1”，ADMET性質(zhì)得分小于3定義為ADMET性質(zhì)較差的化合物并記為“0”，使得將ADMET性質(zhì)得分二分類。

2 實(shí)證分析

2.1 隨機(jī)森林分類

為了判定不同化合物的藥代動(dòng)力學(xué)性質(zhì)和安全性，用于對(duì)抗乳腺癌藥物的副作用研究，對(duì)于新藥的生產(chǎn)提供可參考性建議。將基于化合物的分子描述符變量構(gòu)成訓(xùn)練得到隨機(jī)森林分類器用于對(duì)化合物的藥代動(dòng)力學(xué)性質(zhì)和安全性的判定，進(jìn)而篩選出ADMET性質(zhì)得分更高的化合物，并尋找出影響ADMET性質(zhì)得分的重要因子。

對(duì)于剔除無(wú)差別變量后的數(shù)據(jù)，在R軟件中分別構(gòu)建5種分類變量ADMET性質(zhì)與504個(gè)分子描述符變量的隨機(jī)森林分類模型，采用默認(rèn)棵數(shù)500，隨機(jī)抽取90%的樣本作為訓(xùn)練集，對(duì)分類器進(jìn)行訓(xùn)練，剩下10%的樣本作為測(cè)試集用于對(duì)模型的評(píng)估，分別計(jì)算出模型的預(yù)測(cè)精度。為減小隨機(jī)因素的影響，再采用R軟件中的ipred包的errorest函數(shù)進(jìn)行10折交叉驗(yàn)證，用于計(jì)算分類模型的錯(cuò)分率，進(jìn)而可判斷出隨機(jī)森林分類器的效果（表1）。

表1結(jié)果顯示，5個(gè)隨機(jī)森林分類模型的預(yù)測(cè)精度都在85%以上，最高精度達(dá)到96%，模型的錯(cuò)分率大部分在10%以內(nèi)，因此可認(rèn)為隨機(jī)森林分類模型的分類準(zhǔn)確率都較高，模型具有可行性。

為了尋找出對(duì)ADMET性質(zhì)影響更重要的分子描述符變量，結(jié)合ADMET性質(zhì)得分的優(yōu)劣，隨機(jī)森林分類預(yù)測(cè)模型也可應(yīng)用于二分類后的ADMET性質(zhì)得分?？紤]到影響ADMET性質(zhì)得分的因素的復(fù)雜性，設(shè)置決策樹(shù)的棵數(shù)為1000，將訓(xùn)練后的模型用于測(cè)試集的分類預(yù)測(cè)，然后畫出隨機(jī)森林預(yù)測(cè)ADMET性質(zhì)得分效果圖（圖2）。

通過(guò)繪制模型的均方誤差圖和ROC曲線可見(jiàn)，將ADMET性質(zhì)較差的化合物錯(cuò)判成ADMET性質(zhì)較好的錯(cuò)誤率為7.94%，將ADMET性質(zhì)較好的化合物錯(cuò)判成ADMET性質(zhì)較差的錯(cuò)誤率為26.7%，AUC=0.854，95%的置信區(qū)間為（0.746，0.962），計(jì)算得到模型的錯(cuò)分率為13.9%，預(yù)測(cè)精度為88.7%。較單個(gè)分類模型預(yù)測(cè)效果有所下降，可能是因?yàn)锳DMET性質(zhì)之間的相關(guān)性，造成現(xiàn)有的樣本數(shù)據(jù)的價(jià)值信息不足，進(jìn)而提高了錯(cuò)分率。

2.2 隨機(jī)森林回歸

隨機(jī)森林作為集成學(xué)習(xí)常用的模型，通過(guò)建立多個(gè)決策樹(shù)不僅可以用于解決分類預(yù)測(cè)問(wèn)題，也常用于解決回歸預(yù)測(cè)問(wèn)題，且模型的準(zhǔn)確率較高。將基于化合物分子描述符構(gòu)成數(shù)據(jù)訓(xùn)練得到的隨機(jī)森林預(yù)測(cè)模型用于對(duì)化合物抗乳腺癌活性的檢測(cè)，便于篩選出生物活性更好的化合物作為抗乳腺癌候選藥物，并找出影響抗乳腺癌活性的重要分子描述符。

針對(duì)含有504個(gè)不同分子描述符變量和pIC₅₀值的數(shù)據(jù)集，隨機(jī)將1974個(gè)樣本平均分成10份，取出9份用于隨機(jī)森林預(yù)測(cè)模型的訓(xùn)練，另外1份作為用于評(píng)估模型預(yù)測(cè)精度的測(cè)試集。通過(guò)R軟件構(gòu)建以pIC₅₀值為因變量的隨機(jī)森林預(yù)測(cè)模型，將訓(xùn)練后的模型用于測(cè)試集的預(yù)測(cè)，然后畫出隨機(jī)森林回歸模型的預(yù)測(cè)效果圖（圖3）。

從圖3可以看出真實(shí)值與預(yù)測(cè)值的散點(diǎn)均勻分布在y=x直線的兩側(cè)，且散點(diǎn)在一個(gè)狹長(zhǎng)的范圍內(nèi)；通過(guò)真實(shí)值和預(yù)測(cè)值的數(shù)據(jù)概況可以發(fā)現(xiàn)，真實(shí)值的分布相對(duì)均勻，適合作為測(cè)試集代表一般預(yù)測(cè)樣本，預(yù)測(cè)值的均值和真實(shí)值的中位數(shù)大致相等，分布相對(duì)真實(shí)值更為集中，這和隨機(jī)森林在同一類樣本中取特征的平均值作為輸出有關(guān)。通過(guò)R軟件計(jì)算可知預(yù)測(cè)值與真實(shí)值之間的相關(guān)系數(shù)為0.913，在訓(xùn)練數(shù)據(jù)變量如此之多和測(cè)試集預(yù)測(cè)樣本較大的情況下，可解釋性方差還能達(dá)到75.73%，殘差平方均值為0.507，相對(duì)多元線性回歸模型的預(yù)測(cè)準(zhǔn)確率好很多，因此認(rèn)為隨機(jī)森林用于抗乳腺癌活性的檢測(cè)是有效的，具有一定的優(yōu)越性。

2.3 隨機(jī)森林優(yōu)化

為了尋找出藥效性良好同時(shí)具有良好的藥代動(dòng)力學(xué)性質(zhì)和安全性的候選藥物，即在化合物保持抗乳腺癌活性良好的同時(shí)具有更高的ADMET性質(zhì)得分。需要找到能共同影響生物活性pIC₅₀值和ADMET性質(zhì)得分的重要因子，而隨機(jī)森林在預(yù)測(cè)pIC₅₀值的同時(shí)可根據(jù)分子描述符變量的可解釋性方差的大小計(jì)算出各變量的貢獻(xiàn)率，在處理ADMET性質(zhì)得分的分類問(wèn)題時(shí)，可根據(jù)各個(gè)分子描述符變量的袋外誤差率與原誤差率的差值大小計(jì)算出分子描述符變量的重要程度。依據(jù)上述研究，通過(guò)隨機(jī)森林模型可分別求出影響pIC₅₀值大小和ADMET性質(zhì)得分排名的前30個(gè)重要影響因子，利用R畫出重要影響因子曲線圖（圖4）。

由圖4可以發(fā)現(xiàn)：在影響pIC₅₀值和ADMET性質(zhì)得分的前30個(gè)重要變量中，能共同顯著影響pIC₅₀和ADMET性質(zhì)得分的變量共有9個(gè)，分別是MLFER_BH、MLFER_S、ETA_Shape_Y、minHBa、MDEC-33、VCH-7、ATSc2、WTPT-5和SdssC。

為了進(jìn)一步優(yōu)化候選藥物的篩選，可參考化合物在共同重要影響因子上的表達(dá)，劃定共同重要影響因子的取值范圍作為候選藥物的基本條件?？稍谘芯恐委熑橄侔┖蜻x藥物時(shí)充分利用藥物大數(shù)據(jù)平臺(tái)和臨床資源，大大節(jié)省人力和物力成本，而劃定共同重要影響因子的取值范圍顯得尤為重要。

確定共同重要影響因子的取值范圍需要滿足分子描述符變量在化合物樣本中顯著表達(dá)的特征，于是設(shè)定在所有化合物樣本中抗乳腺癌活性排名前25%且藥代動(dòng)力學(xué)性質(zhì)和安全性較好的化合物屬于優(yōu)質(zhì)抗乳腺癌候選藥物。通過(guò)判斷pIC₅₀值是否大于上四分位數(shù)7.57和ADMET得分是否大于等于3，篩選出69個(gè)優(yōu)質(zhì)抗乳腺癌候選藥物，對(duì)比優(yōu)質(zhì)抗乳腺癌候選藥物和總體化合物樣本在共同重要影響因子上的取值范圍。發(fā)現(xiàn)優(yōu)質(zhì)抗乳腺癌候選藥物的部分共同重要影響因子的取值范圍較大，相較于總體化合物樣本的共同重要影響因子的區(qū)間長(zhǎng)度衰減并不明顯，這樣得到的共同重要影響因子的取值范圍對(duì)于候選藥物的優(yōu)化意義不大，于是設(shè)定區(qū)間長(zhǎng)度衰減的閾值為20%，即衰減后的區(qū)間長(zhǎng)度小于全局區(qū)間長(zhǎng)度的20%認(rèn)定為表達(dá)更顯著的重要影響因子。通過(guò)迭代優(yōu)化，從9個(gè)共同重要影響因子中找到了4個(gè)變化更為顯著的變量，并求出其取值范圍見(jiàn)表2，然后在R中畫出表達(dá)顯著的共同重要影響因子在優(yōu)質(zhì)抗乳腺癌候選藥物中的分布直方圖（圖5）。

從表2可以看出：共同重要影響因子MLFER_BH（0.56，2.65）、MLFER_S（1.30，4.41）、WTPT-5（0.00，10.01）、SdssC（-1.92，2.76）的衰減區(qū)間長(zhǎng)度均大于總體區(qū)間長(zhǎng)度的85%以上，因此可以認(rèn)為這些因子在優(yōu)質(zhì)抗乳腺癌候選藥物中表達(dá)更顯著，它們的取值將更有可能共同影響抗乳腺癌候選藥物的抗乳腺癌活性和ADMET性質(zhì)。

由圖5可以發(fā)現(xiàn)：優(yōu)質(zhì)抗乳腺癌候選藥物的共同重要影響因子除了相對(duì)總體樣本取值的分布更為集中之外，它們的分布還近似滿足某一區(qū)間內(nèi)的正態(tài)分布，因此可以認(rèn)為這些共同重要影響因子在優(yōu)質(zhì)抗乳腺癌藥物中有在其均值附近波動(dòng)的趨勢(shì)，共同重要影響因子不在此區(qū)間范圍之內(nèi)的化合物有可能在藥效性和藥代動(dòng)力學(xué)性質(zhì)與安全性中表達(dá)異常，便于篩選出劣質(zhì)抗乳腺癌候選藥物，簡(jiǎn)化抗乳腺癌藥物的優(yōu)化過(guò)程。

3 結(jié)論

針對(duì)實(shí)驗(yàn)室研發(fā)抗乳腺癌新藥的艱難而漫長(zhǎng)的過(guò)程，為了提高新藥物研發(fā)的效率、縮短研發(fā)周期、節(jié)省時(shí)間和成本。本文選取1974種化合物的高維分子描述符變量數(shù)據(jù)，分別構(gòu)建了以ADMET性質(zhì)為因變量的隨機(jī)森林分類預(yù)測(cè)模型和以pIC50值為因變量的隨機(jī)森林回歸預(yù)測(cè)模型，模型的預(yù)測(cè)精度都較好，判定模型具有可行性。基于隨機(jī)森林計(jì)算得到的袋外誤差與原始誤差的差值大小和可解釋性方差的大小判定重要因子貢獻(xiàn)率，從ADMET性質(zhì)和pIC50值排名前30的重要影響因子中篩選出9個(gè)共同影響因子，再通過(guò)設(shè)定優(yōu)質(zhì)抗乳腺癌候選藥物的衰減閾值為20%確定4個(gè)表達(dá)顯著的共同重要影響因子，并求出其取值范圍，分別為MLFER_BH（0.56，2.65）、MLFER_S（1.30，4.41）、WTPT-5（0.00，10.01）和SdssC（-1.92，2.76）。隨著藥物大數(shù)據(jù)平臺(tái)和合成藥物技術(shù)的發(fā)展以及進(jìn)一步臨床試驗(yàn)的數(shù)據(jù)驗(yàn)證，控制變化顯著的4個(gè)共同重要影響因子在最優(yōu)的取值范圍之內(nèi)，將更容易實(shí)現(xiàn)抗乳腺癌新藥物滿足良好的生物活性且具有良好ADMET性質(zhì)，達(dá)到抗乳腺癌候選藥物優(yōu)化的目的。

[ 參考文獻(xiàn) ]

[1] DE LAURENTIIS M， CIANNIELLO D， CAPUTO R， et al. Treatment of triple negative breast cancer （TNBC）： current options and future perspectives[J]. Cancer Treatment Reviews， 2010， 36（suppl.3）：80-86.

[2] 寧文濤，胡志燁，董春娥等. 抗乳腺癌雙靶點(diǎn)藥物研究進(jìn)展[J]. 中國(guó)藥物化學(xué)雜志，2020，12（30）：778-788.

[3] HARBECK N， PENAULT-LLORCA F， CORTES J， et al．Breast cancer[J]．Nat Rev Dis Primers， 2019，5（01）：66．

[4] GUAN J， ZHOU W， HAFNER M， et al．Therapeutic ligands antagonize estrogen receptor function by impairing its mobility[J]. Cell，2019，178（04）：949-963．

[5] SIEGEL R L，MILLER K D，JEMAL A．Cancer statistics，2018[J]．CA Cancer J Clin，2018，68（01）：7-30．

[6] 袁升月，金羿，廖俊. 藥物大數(shù)據(jù)平臺(tái)在抗乳腺癌藥物藥代動(dòng)力學(xué)/藥效學(xué)研究中的應(yīng)用[J]. 中國(guó)臨床藥理學(xué)雜志，2017，23（33）：2464-2467.

[7] 秦璞，郭志旺，郭維恒等. 應(yīng)用隨機(jī)森林和支持向量機(jī)對(duì)三陰性乳腺癌基因數(shù)據(jù)的降維和篩選[J]. 中國(guó)衛(wèi)生統(tǒng)計(jì)， 2020，37（03）：71-76.

[8] 魏靜，李婷英，張瑩等. 羧甲基β－葡聚糖聯(lián)合阿霉素抗乳腺癌以及減輕心臟毒性的實(shí)驗(yàn)研究[J]. 中國(guó)臨床藥理學(xué)雜志，2021，37（03）：275-279.

[9] BREIMAN L. Random Forests [J]. Machine Learning，2001（45）：65-68.

[10]吳喜之.多元統(tǒng)計(jì)分析[M].北京：中國(guó)人民大學(xué)出版社， 2019：245-247.

[11]曹桃云，陳敏瓊.基于學(xué)生化極差分布的隨機(jī)森林變量選擇研究[J].統(tǒng)計(jì)與信息論壇，2021，36（08）：15-22.

[12]王奕森. 隨機(jī)森林和深度神經(jīng)網(wǎng)絡(luò)的若干關(guān)鍵技術(shù)研究[D].北京：清華大學(xué)，2018.

[13]LEI T L， SUN H Y， KANG Y， et al. ADMET evaluation in drug discovery. 18. reliable prediction of chemical-induced urinary tract toxicity by boosting machine learning approaches[J]. Molecular Pharmaceutics， 2017， 14（11）： 3935-3953.

[14]許美賢，鄭琰，李炎舉，等．基于PSO-BP神經(jīng)網(wǎng)絡(luò)與PSO-SVM 的抗乳腺癌藥物性質(zhì)預(yù)測(cè)[J]．南京信息工程大學(xué)學(xué)報(bào)，2022，1.18：3.

[15]孫兆亮. 數(shù)學(xué)建模算法與應(yīng)用[M].北京：國(guó)防工業(yè)出版社， 2017：425-428.

[16]丘佑瑋. 機(jī)器學(xué)習(xí)與R語(yǔ)言實(shí)踐[M].北京：機(jī)械工業(yè)出版社， 2016：146-170.

Optimization of Anti Breast Cancer Drug

Candidates based on Random Forests

TANG Shixing，ZENG Ying

（School of Science， Hubei Univ. of Tech.， Wuhan 430068，China）

Abstract：By making full use of big pharmaceutical data platforms and clinical resources， we used data analysis methods to predict ADMET properties and anti-breast cancer activity of anti-breast cancer drug candidates. It provided a reference for the process of developing new anti-breast cancer drugs in the laboratory. Random forests were constructed for the molecular descriptor variable data of 1974 compounds， and the dependent variables of prediction models were ADMET properties and pIC50 values. The prediction accuracies of the models were 88.7% and 91.3% respectively. Based on the random forest model， we obtained the contribution rate of important impact factors. Then we established the ranges of four common significant influencers that varied significantly. They were MLFER_BH （0.56，2.65）， MLFER_S （-1.30， 4.41）， WTPT-5 （-0.00， 10.01） and Sdssc （-1.92， 2.76）. The result was instructive to optimize the anti-breast cancer drugs.

Keywords：anti-breast cancer drugs; anti-breast cancer activity; ADMET properties; correlation test; random forest

[責(zé)任編校：閆品]

湖北工業(yè)大學(xué)學(xué)報(bào)2023年1期

湖北工業(yè)大學(xué)學(xué)報(bào)的其它文章: 房?jī)r(jià)波動(dòng)中少兒撫養(yǎng)比和婚姻穩(wěn)定性的門檻效應(yīng); 基于變量分組降維的辛烷值損失預(yù)測(cè)模型; 基于車輛關(guān)鍵部位特征的再識(shí)別算法; 三類典型算量軟件數(shù)據(jù)交換研究; PVA（聚乙烯醇）改良膨脹土強(qiáng)度性能試驗(yàn)研究; 混雜纖維瀝青混合料路用性能試驗(yàn)研究