楊亞鑫, 王璟德, 孫 巍
(北京化工大學(xué)化學(xué)工程學(xué)院, 北京 100029)
癌癥逐漸成為了人類主要死亡原因,據(jù)柳葉刀統(tǒng)計(jì),2017 年中國(guó)人十大死因中,癌癥就占了四個(gè)席位[1]。癌癥具有早期癥狀不明顯、易擴(kuò)散和轉(zhuǎn)移、導(dǎo)致人體免疫力下降等危害。目前,以化學(xué)藥物為代表的化療是治療癌癥的一大重要手段,但是化療藥物具有副作用強(qiáng)、易產(chǎn)生抗藥性、損傷免疫系統(tǒng)等不足之處,因此需要繼續(xù)開(kāi)發(fā)副作用小、選擇性強(qiáng),不易耐藥,對(duì)免疫系統(tǒng)損傷更小的抗癌藥物。
開(kāi)發(fā)新抗癌藥物有從現(xiàn)有化合物中篩選新抗癌藥物和設(shè)計(jì)新抗癌藥物分子兩種方式。其中,篩選新抗癌藥物是基礎(chǔ),而新抗癌藥物的設(shè)計(jì)需要對(duì)具有藥效的先導(dǎo)化合物(或藥物)的結(jié)構(gòu)和藥效基團(tuán)有所了解[2],相對(duì)復(fù)雜,因此現(xiàn)在大多采用從現(xiàn)有化合物中篩選這一方式來(lái)尋找新抗癌藥物。從現(xiàn)有化合物中篩選新抗癌藥物主要分為以實(shí)驗(yàn)篩選和計(jì)算機(jī)虛擬篩選兩種為代表的高通量篩選技術(shù)。
高通量篩選技術(shù)是使用自動(dòng)化設(shè)備同時(shí)快速測(cè)試數(shù)千到數(shù)百萬(wàn)樣本的生物活性并篩選樣本的實(shí)驗(yàn)過(guò)程。高通量篩選藥物技術(shù)應(yīng)用較廣、較為成熟,但仍然依賴于微量的藥物實(shí)驗(yàn)、高靈敏度檢測(cè)系統(tǒng),而且具有隨機(jī)性,耗費(fèi)大量時(shí)間和金錢[3]。相比于實(shí)驗(yàn)篩選方法,計(jì)算機(jī)虛擬篩選可以預(yù)先在海量的化合物庫(kù)中篩選出潛在的抗癌活性物質(zhì),減少需要實(shí)驗(yàn)的藥物種類,從而節(jié)約時(shí)間、人力和物力。
使用計(jì)算機(jī)虛擬篩選抗癌藥物的前提有兩個(gè):一是必須將藥物分子處理成計(jì)算機(jī)可以識(shí)別的格式,這一點(diǎn)借助分子表征算法可以做到;二是基于數(shù)字格式把握抗癌藥物和非抗癌藥物之間結(jié)構(gòu)和性質(zhì)的差異,因此又產(chǎn)生了表示分子結(jié)構(gòu)和性質(zhì)的分子描述符或分子指紋。由于表示時(shí)出發(fā)角度不同以及分子本身結(jié)構(gòu)、性質(zhì)多樣性,分子指紋或描述符種類也具有多樣性。鑒于結(jié)構(gòu)決定性質(zhì)的認(rèn)知,選用表征結(jié)構(gòu)的分子指紋或描述符為描述藥物分子結(jié)構(gòu)的基礎(chǔ)。
目前使用的表征分子結(jié)構(gòu)和性質(zhì)的分子指紋或描述符較多,而不同分子指紋或者描述符對(duì)篩選抗癌藥物的效果也不盡相同。研究者們采用的多種分子指紋[4]包括Pubchem 指紋(801 個(gè))、分子存取系統(tǒng)指紋(MACCS,166 個(gè));分子描述符包括Mordred 分子描 述 符(Mordred ,1 826 個(gè)) 、RDKit 分 子 描 述符(RDKit,139 個(gè))等。目前常采用機(jī)器學(xué)習(xí)算法如隨機(jī)森林、遺傳算法、支持向量機(jī)遞歸特征消除、或相似性分析等特征選擇方法對(duì)分子指紋或描述符進(jìn)行重要性分析選擇來(lái)減少個(gè)數(shù)[5-7]。大多數(shù)研究者對(duì)分子指紋或者描述符個(gè)數(shù)的精簡(jiǎn)和挑選并不重視,篩選標(biāo)準(zhǔn)過(guò)于寬松,往往挑選后得到的分子指紋或描述符數(shù)量仍然多達(dá)數(shù)十至數(shù)百個(gè)。付洺宇等[8]采用商 業(yè) 軟 件Molecular Operating Environment和 Python開(kāi)源庫(kù)Mordred 分別計(jì)算了365 個(gè)和1 613個(gè)描述符,只去除了空值和非數(shù)值型描述符,篩選后計(jì)算得到的非空值、純數(shù)值描述符仍分別多達(dá)278 個(gè)和882 個(gè)。杜雪平[9]則使用方差過(guò)濾和Lasso 回歸消除數(shù)據(jù)集中的噪聲特征和關(guān)聯(lián)特征,但過(guò)濾后仍有50 個(gè)特征。Yang 等[10]直接采用Chemical Development Kit 平臺(tái)計(jì)算了默認(rèn)參數(shù)的藥物哈希指紋1 024 個(gè),并以此作為評(píng)價(jià)結(jié)構(gòu)相似性基礎(chǔ),但未對(duì)其進(jìn)行特征篩選;Li 等[11]則只對(duì)數(shù)量較多的Mordred 描述符進(jìn)行了特征篩選,未對(duì)MACCS和Morgan2 指紋(1 024個(gè))進(jìn)行篩選。數(shù)量過(guò)多的分子指紋或描述符增加了構(gòu)建模型的復(fù)雜度, 并增加了對(duì)抗癌藥物活性結(jié)構(gòu)的提取難度。
由于Pearson 相關(guān)系數(shù)能評(píng)估變量線性關(guān)系,卡方檢驗(yàn)?zāi)軝z驗(yàn)分類變量之間的關(guān)聯(lián),因此本文結(jié)合了這兩種相關(guān)特征選擇方法,從數(shù)據(jù)相關(guān)性角度計(jì)算分子指紋或描述符之間的相關(guān)性,去除不獨(dú)立描述符,按照分子指紋或描述符與藥物類別的關(guān)系排名,并對(duì)它們進(jìn)行較大限度的個(gè)數(shù)精簡(jiǎn),選擇篩選效果較好的方案,將原本數(shù)量級(jí)超過(guò)102的指紋或描述符精簡(jiǎn)至101數(shù)量級(jí),以達(dá)成用盡量少的描述符個(gè)數(shù)從眾多藥物中有效篩選抗癌藥物的目的。Pearson 相關(guān)系數(shù)和卡方檢驗(yàn)這兩種方法的結(jié)合,可以從已有的描述符或分子指紋中快速去除關(guān)聯(lián)性較大的分子指紋或描述符,選擇出對(duì)抗癌藥物篩選貢獻(xiàn)最大的分子指紋或描述符,表示出描述抗癌藥物最重要的特征結(jié)構(gòu)組合,從而更具有針對(duì)性地篩選出抗癌藥物。本研究不僅加快了抗癌藥物的篩選和開(kāi)發(fā)、明確未知藥物有潛力的研究方向,還有望探究抗癌藥物中對(duì)藥效貢獻(xiàn)最大的特征,為針對(duì)性設(shè)計(jì)抗癌藥物提供堅(jiān)實(shí)的基礎(chǔ)。
數(shù)據(jù)庫(kù):Drugbank (https://go.drugbank.com/classyfication)是一個(gè)包含超過(guò)10 000 種藥物或潛在藥物的化學(xué)、藥理學(xué)、醫(yī)學(xué)以及分子生物學(xué)信息的藥物信息數(shù)據(jù)庫(kù)。Pubchem (https://pubchem.ncbi.nlm.nih.gov)則是關(guān)于有機(jī)小分子的化學(xué)物理性質(zhì)、生物活性數(shù)據(jù)庫(kù),并且有較為詳細(xì)的文獻(xiàn)支撐。
軟件工具:Python(版本:3.8) 的RDKit(版本:2022.03.1)庫(kù)是一個(gè)用于化學(xué)信息學(xué)的開(kāi)源工具包,它可用于化合物描述符和指紋生成、化合物結(jié)構(gòu)相似性計(jì)算等。
為了方便計(jì)算機(jī)運(yùn)算處理種類多樣、結(jié)構(gòu)復(fù)雜的化合物分子,需要把化合物分子轉(zhuǎn)化成計(jì)算機(jī)容易處理的各種數(shù)據(jù)格式,并對(duì)化合物分子的結(jié)構(gòu)和性質(zhì)進(jìn)行數(shù)字化描述,為計(jì)算機(jī)虛擬篩選提供基礎(chǔ)。
目前化合物分子數(shù)字化格式分為圖、字符串、連接表、矩陣[12]等。簡(jiǎn)化分子線性輸入系統(tǒng)(Simplified Molecular Input Line Entry System, SMILES)使用頻率最高,它是使用常見(jiàn)的字母和符號(hào)來(lái)編碼分子結(jié)構(gòu)的線性字符串,例如,它使用大寫(xiě)化學(xué)元素符號(hào)表示脂肪鏈上的原子,“=”表示雙鍵等。圖表示方式使用圖形表示分子,把原子或基團(tuán)看作點(diǎn)、化學(xué)鍵看成邊,可以直觀地顯示原子的排列和結(jié)合方式。矩陣表示方式是用矩陣形式表示分子組成和連接方式,常用的有原子鄰接矩陣,能表示每個(gè)原子與其他原子的連接情況,它是稀疏矩陣,相比圖更加方便處理。連接表則是建立其他數(shù)據(jù)表相互關(guān)系的表格,常用的連接表包括sdf 文件,mol2 文件等,其較為詳細(xì)表示原子和化學(xué)鍵的屬性以及它們的關(guān)系,還包含分子的部分性質(zhì)。
由于圖的計(jì)算機(jī)處理方法往往較為繁瑣,常用的原子鄰接矩陣中冗余較多,連接表涉及較多表格信息,表示關(guān)系過(guò)于抽象,而字符串研究較多,使用廣泛,并且節(jié)約空間,容易計(jì)算和檢索,故本文采用SMILES 為藥物分子數(shù)據(jù)表達(dá)格式。通過(guò)這些分子數(shù)字化格式可以計(jì)算出各種分子描述符或分子指紋。
分子描述符是邏輯和數(shù)學(xué)程序運(yùn)行后得到的最終結(jié)果,它能把分子數(shù)字表征編碼的化學(xué)信息轉(zhuǎn)化為有用數(shù)字或?qū)嶒?yàn)結(jié)果[5]。分子描述符主要表述分子的結(jié)構(gòu)或者性質(zhì),包括分子組成、拓?fù)浣Y(jié)構(gòu)幾何信息等。分子指紋是一串離散的數(shù)字串,主要檢驗(yàn)?zāi)硞€(gè)特定子結(jié)構(gòu)是否存在,且子結(jié)構(gòu)定義與分子指紋種類有關(guān)。目前使用的描述符個(gè)數(shù)較多,并且對(duì)抗癌藥物篩選影響不同,可能存在冗余描述符,又因?yàn)榻Y(jié)構(gòu)決定性質(zhì),因此,本文以MACCS 指紋、RDKit 描述符、Mordred 描述符為基礎(chǔ),從中篩選出表征分子結(jié)構(gòu)的抗癌特征描述符組合。
MACCS 是開(kāi)源的166 位[11]二進(jìn)制字符串,預(yù)定義了一系列子結(jié)構(gòu),每個(gè)指紋位數(shù)代表著一個(gè)特定子結(jié)構(gòu),比如第42 位代表氟原子,第99 位代表碳碳雙鍵。指紋位數(shù)若出現(xiàn)字符“0”代表特定化合物中該子結(jié)構(gòu)不存在,“1”代表該子結(jié)構(gòu)在特定化合物中存在。該分子指紋定義的子結(jié)構(gòu)含義清晰明確,可解釋性高,且方便運(yùn)算。
RDKit 是RDKit 庫(kù)中自帶的139 個(gè)描述符,包含分子組成描述符、分子連接性描述符、拓?fù)浣Y(jié)構(gòu)描述符等,計(jì)算簡(jiǎn)便,對(duì)分子結(jié)構(gòu)概括性強(qiáng)。
Mordred[13]是在RDKit 的基礎(chǔ)上對(duì)描述符進(jìn)一步擴(kuò)充完善后得到的描述符集合,可計(jì)算1 826 個(gè)描述符,除了RDKit 所包含的種類外,還包含鄰接矩陣描述符、自相關(guān)描述符、幾何描述符等,種類多,數(shù)量多,涉及描述符范圍較廣泛、較為全面。
本文基于收集的藥物樣本集,對(duì)Drugbank 和Pubchem 數(shù)據(jù)庫(kù)中的抗癌藥物和非抗癌藥物進(jìn)行分類標(biāo)記,并且采用上述分子指紋或描述符形成初始數(shù)據(jù)集,再利用相關(guān)特征篩選方法精簡(jiǎn)分子指紋或描述符,結(jié)合決策樹(shù)算法進(jìn)行分類,找出對(duì)篩選抗癌藥物效果較好的分子指紋或描述符,運(yùn)用相關(guān)化學(xué)知識(shí)對(duì)結(jié)果做出歸納,總結(jié)出篩選抗癌藥物的分子指紋或描述符的條件。
1.3.1 數(shù)據(jù)獲取 通過(guò)Drugbank、Pubchem 數(shù)據(jù)庫(kù)獲取相關(guān)藥物,確定抗癌藥物,將剩余藥物處理為非抗癌藥物,形成有標(biāo)記的藥物數(shù)據(jù)集。本文搜集了11286種藥物,其中抗癌藥物201 種,其余均認(rèn)為是非抗癌藥物。將抗癌藥物標(biāo)記為“1”,非抗癌藥物標(biāo)記為“0”。獲取了有標(biāo)記的藥物數(shù)據(jù)集后,通過(guò)Python 中的RDKit 安裝包獲取每個(gè)藥物分子的標(biāo)準(zhǔn)SMILES,用于MACCS、RDKit、Mordred 的計(jì)算,計(jì)算出的分子指紋或描述符作為篩選抗癌藥物的基礎(chǔ)。
1.3.2 數(shù)據(jù)處理 收集到的數(shù)據(jù)先進(jìn)行數(shù)據(jù)清洗,去除重復(fù)的化合物以及分子指紋或描述符的計(jì)算值為0 或無(wú)限的化合物,還剩余11 140 種藥物,其中抗癌藥物200 種,非抗癌藥物10 940 種。由于抗癌藥與非抗癌藥物的數(shù)量比值為1∶54.7,說(shuō)明該數(shù)據(jù)集非常不均衡,會(huì)對(duì)結(jié)果造成較大的影響,因此需要預(yù)先對(duì)樣本進(jìn)行處理使其均衡。本文采用兩種方法處理數(shù)據(jù):第1 種是加權(quán)方法,將抗癌藥的權(quán)重設(shè)為54.7,而將非抗癌藥的權(quán)重設(shè)為1;第2 種則是將非抗癌藥物分割成55 份,使得每份抗癌藥和非抗癌藥的比例接近1∶1 的均衡數(shù)據(jù)集。
1.3.3 特征篩選 由于MACC、PDKit、Mordred 描述符或分子指紋維數(shù)較多,計(jì)算量大,且可能存在冗余或者相互干擾的特征,導(dǎo)致分類結(jié)果不佳,因此需要通過(guò)特征篩選,用來(lái)提取出與結(jié)果相關(guān)性強(qiáng)并且相互獨(dú)立的結(jié)構(gòu)特征,從而篩選出效果較好的分子結(jié)構(gòu)特征組合,提升分類器的分類性能。此外,特征篩選方法還應(yīng)該保留物理化學(xué)意義明確、解釋性高的特征,以有利于結(jié)合已有的相關(guān)化學(xué)知識(shí)指導(dǎo)新抗癌藥物的發(fā)現(xiàn)。特征重要性指標(biāo)有多種形式與計(jì)算方法,本文主要采用Pearson 相關(guān)系數(shù)和卡方檢驗(yàn)兩種指標(biāo)。
(1) Pearson 相關(guān)系數(shù)
Pearson 相關(guān)系數(shù)(r)廣泛地應(yīng)用于衡量變量之間的線性相關(guān)關(guān)系,其取值范圍是[-1, 1]。當(dāng)r>0 時(shí),為正相關(guān);當(dāng)r<0 時(shí),為負(fù)相關(guān),且r的絕對(duì)值越接近于1,線性相關(guān)性越高,其計(jì)算式如下:
其中:Xi是所有類別樣本中第i個(gè)樣本對(duì)應(yīng)的該特征變量值;Xˉ 是該特征變量中所有樣本值的均值;Yi是第i個(gè)樣本對(duì)應(yīng)的藥物類別標(biāo)簽值,其有兩種標(biāo)簽值,當(dāng)?shù)趇個(gè)樣本為抗癌藥物時(shí)Yi為“1”,為非抗癌藥物時(shí)Yi為“0”;Yˉ 是所有樣本藥物類別標(biāo)簽值的均值,式(1)一次只能計(jì)算一個(gè)特征變量與藥物標(biāo)記之間的關(guān)系。
(2) 卡方檢驗(yàn)
獨(dú)立性的卡方檢驗(yàn)可用于評(píng)估分類變量之間的關(guān)聯(lián),其中計(jì)算單個(gè)分類變量較為方便。首先假設(shè)分類變量(X)與分類標(biāo)簽(Y)相互獨(dú)立,則機(jī)器學(xué)習(xí)算法判斷的抗癌藥物和非抗癌藥物個(gè)數(shù)與實(shí)際分類相等,此時(shí)卡方計(jì)算值( χ2)為0。 χ2越大,說(shuō)明假設(shè)不成立的可能性 ( 1-p,p為分類變量與分類標(biāo)簽相互獨(dú)立的概率) 越大,即兩者關(guān)聯(lián)程度越高。對(duì)于X=m類、Y=n類分類問(wèn)題, χ2和自由度F、p值分別為:
使用Python 工具分別求取與分類結(jié)果相關(guān)性最大的特征分子指紋或描述符,精簡(jiǎn)分子特征描述符個(gè)數(shù),有助于最終獲取數(shù)量較少且分類效果較好的描述符組合。
1.3.4 數(shù)據(jù)分類算法及分類指標(biāo) 數(shù)據(jù)分類算法較多,包括決策樹(shù)、隨機(jī)森林、支持向量機(jī)等算法。它們各有不同的使用范圍。由于決策樹(shù)具有可解釋性強(qiáng)[14]、對(duì)相關(guān)屬性處理較好、對(duì)初始數(shù)據(jù)質(zhì)量要求較低、不需要數(shù)據(jù)歸一化或標(biāo)準(zhǔn)化、可同時(shí)處理二元特征和多元特征、運(yùn)算速度相對(duì)較快等優(yōu)點(diǎn),且數(shù)據(jù)集中分子指紋是二元特征、分子描述符是多元特征、非抗癌藥物種類多且組成復(fù)雜,所以采用決策樹(shù)為分類算法基礎(chǔ)。
(1)決策樹(shù)參數(shù)調(diào)整
決策樹(shù)是一個(gè)樹(shù)狀結(jié)構(gòu),由結(jié)點(diǎn)和有向邊組成,結(jié)點(diǎn)由表示特征的內(nèi)部結(jié)點(diǎn)和表示類別的葉結(jié)點(diǎn)組成。根據(jù)已知特征屬性值和分類結(jié)果,可以生成決策樹(shù)。決策時(shí)從根結(jié)點(diǎn)出發(fā),根據(jù)特征屬性值對(duì)樣本進(jìn)行分類,可以依據(jù)不同標(biāo)準(zhǔn)設(shè)定不同閾值進(jìn)行分類,并判斷分類錯(cuò)誤率使其最小,分類后根結(jié)點(diǎn)分裂,生成子結(jié)點(diǎn),子結(jié)點(diǎn)也可以根據(jù)新的特征值繼續(xù)分類,直到分為葉結(jié)點(diǎn)。決策樹(shù)參數(shù)調(diào)整包括分類標(biāo)準(zhǔn)、決策樹(shù)深度等?;犭s質(zhì)系數(shù)(G(P))是常用的分類標(biāo)準(zhǔn),用以表征錯(cuò)誤分類類別的概率,G(P) 越小,分類效果越好,當(dāng)它為0 時(shí),每個(gè)分支均只有一個(gè)類別,為完美劃分。計(jì)算公式如下:
其中,C為分類類別數(shù),p(i) 是一個(gè)樣本被劃分為第i類的概率。
本文將分類標(biāo)準(zhǔn)設(shè)為基尼雜質(zhì)系數(shù),決策樹(shù)深度調(diào)整為3~15 之間,其余均為默認(rèn)值。
(2)分類性能評(píng)估指標(biāo)
本文使用的數(shù)據(jù)集標(biāo)記只有抗癌藥物和非抗癌藥物之分,因此本文研究的課題實(shí)質(zhì)上是二分類問(wèn)題。二分類結(jié)果預(yù)測(cè)值和實(shí)際標(biāo)記值如表1 所示。
表1 二分類的結(jié)果Table 1 Result of binary classification
分類結(jié)果的性能評(píng)價(jià)指標(biāo)選擇準(zhǔn)確率(Acc)、靈敏度(Sen)、精確率(Pre)、F1 分?jǐn)?shù)(F1)、受試者工作特征曲線下(ROC)的面積(AUC) 5 個(gè)指標(biāo),前4 個(gè)指標(biāo)計(jì)算式如下:
其中:NTP、NTN分別為機(jī)器學(xué)習(xí)與實(shí)際分類相符合的抗癌藥物數(shù)、機(jī)器學(xué)習(xí)與實(shí)際分類相符合的非抗癌藥物數(shù);NFN是被機(jī)器學(xué)習(xí)錯(cuò)分為非抗癌藥物但實(shí)際標(biāo)記卻是抗癌藥物的藥物數(shù);NFP是被機(jī)器學(xué)習(xí)錯(cuò)分為抗癌藥物但實(shí)際標(biāo)記卻是非抗癌藥物的藥物數(shù)。由于本文采用的數(shù)據(jù)集是根據(jù)藥物相關(guān)數(shù)據(jù)庫(kù)和文獻(xiàn)來(lái)標(biāo)記,代表實(shí)際情況,因此可以通過(guò)比較機(jī)器學(xué)習(xí)算法預(yù)測(cè)的各類藥物數(shù)以及實(shí)際標(biāo)記的各類藥物數(shù)的差異,方便直觀地體現(xiàn)出機(jī)器學(xué)習(xí)分類效果的好壞。這4 個(gè)評(píng)價(jià)指標(biāo)都是基于測(cè)試集中預(yù)測(cè)的抗癌或非抗癌藥物數(shù)與實(shí)際抗癌或非抗癌藥物數(shù)目的差異建立的指標(biāo),所以可以評(píng)價(jià)分類效果性能。
式(6)中Acc計(jì)算正確分類的藥物總數(shù)占測(cè)試集中藥物總數(shù)之比,反映了機(jī)器學(xué)習(xí)算法分類結(jié)果的總體準(zhǔn)確率。式(7)中Sen計(jì)算準(zhǔn)確分類的抗癌藥物數(shù)占實(shí)際標(biāo)記的抗癌藥物之比,反映了實(shí)際標(biāo)記抗癌藥中機(jī)器學(xué)習(xí)算法能成功識(shí)別的抗癌藥比例,也就是機(jī)器學(xué)習(xí)對(duì)實(shí)際抗癌藥物的識(shí)別程度。式(8)中Pre計(jì)算準(zhǔn)確分類的抗癌藥物數(shù)占機(jī)器學(xué)習(xí)預(yù)測(cè)的抗癌藥物之比,反映了機(jī)器學(xué)習(xí)算法預(yù)測(cè)的抗癌藥物中與實(shí)際標(biāo)記相符的抗癌藥比例,說(shuō)明的是預(yù)測(cè)抗癌藥物中有多少是真的抗癌藥物。當(dāng)預(yù)測(cè)結(jié)果與實(shí)際標(biāo)記完全一致時(shí)為理想情況,此時(shí)NFN=NFP=0,使得Acc=Sen=Pre=1。式(9) 示出了對(duì)Sen、Pre進(jìn)行簡(jiǎn)單四則運(yùn)算后得到的綜合指標(biāo),反映了準(zhǔn)確分類的抗癌藥物占預(yù)測(cè)抗癌藥和真實(shí)抗癌藥數(shù)目的占比。求偏導(dǎo)可發(fā)現(xiàn)Sen、Pre對(duì)F1均是促進(jìn)關(guān)系,只有當(dāng)兩者均取最大值1 時(shí)它才能取得最大值1。實(shí)際情況下,Acc、Sen、Pre、F1這4 個(gè)指標(biāo)越接近1,說(shuō)明分類越準(zhǔn)確。總體而言,這幾個(gè)指標(biāo)計(jì)算方便、簡(jiǎn)潔,能較為有效地通過(guò)準(zhǔn)確分類的抗癌藥物的占比來(lái)評(píng)價(jià)分類好壞。
ROC 曲線是根據(jù)一系列不同的二分類方式(分界值或決定閾值),以真陽(yáng)性率(Sen)為縱坐標(biāo)、假陽(yáng)性率為橫坐標(biāo)繪制的曲線,是對(duì)指標(biāo)分類結(jié)果的可視化表示。相比傳統(tǒng)的實(shí)驗(yàn)評(píng)價(jià)方法,ROC 曲線可以根據(jù)實(shí)際情況,進(jìn)行多分類的統(tǒng)計(jì)分析,AUC的取值范圍一般在0.5 和1 之間。AUC數(shù)值上等于隨機(jī)選擇的抗癌藥物比隨機(jī)選擇的非抗癌藥物得分更高的概率[15],AUC越大,分類效果越好。相比于分類誤差,它對(duì)成本和類別不平衡更不敏感[16],已成為多學(xué)科如醫(yī)療診斷、藥物發(fā)現(xiàn)等領(lǐng)域分類性能的評(píng)價(jià)標(biāo)準(zhǔn)[14,17]。
本文選用的分類評(píng)價(jià)性指標(biāo)與文獻(xiàn)[7, 18-22]基本一致,具有可靠性。
為了增強(qiáng)結(jié)果可靠性,降低分類的隨機(jī)性并便于比較,本文選用五折交叉驗(yàn)證方法對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練測(cè)試,以測(cè)試集的結(jié)果來(lái)對(duì)比經(jīng)過(guò)不同特征處理后數(shù)據(jù)的分類性能。五折交叉驗(yàn)證是將數(shù)據(jù)集分成5 份,每次選取1 份作為測(cè)試集,其余4 份作為訓(xùn)練集。為了結(jié)果的統(tǒng)一性,每次分類結(jié)果是經(jīng)過(guò)5 次五折交叉驗(yàn)證后的平均值。
2.1.1 加權(quán)數(shù)據(jù)集 數(shù)據(jù)集1 是200 個(gè)抗腫瘤藥與10 940 個(gè)非抗腫瘤藥組成的數(shù)據(jù)集,并將抗腫瘤藥權(quán)重設(shè)為54.7,非抗腫瘤藥設(shè)為1,分別結(jié)合不同的分子指紋或描述符,使用決策樹(shù)在該數(shù)據(jù)集上實(shí)現(xiàn)了抗癌藥物的分類。不采用特征選擇時(shí)不同分子指紋或描述符的分類指標(biāo)如圖1 所示。
圖1 不進(jìn)行特征篩選時(shí)加權(quán)數(shù)據(jù)集分類結(jié)果Fig.1 Classification result of weighted dataset without feature selection
從圖1 分析,不進(jìn)行特征選擇時(shí),RDKit 的5 個(gè)分類指標(biāo)中除Sen外均為最高,但由于它的Sen異常偏低,說(shuō)明此時(shí)RDKit 組成的分類器不能較為準(zhǔn)確地篩選出抗癌藥物,因?yàn)樗呀咏话氲目拱┧幬锒挤殖闪朔强拱┧幬?,此時(shí)它的識(shí)別抗癌藥物分類效果較差,Sen低而Acc高說(shuō)明它只能有效識(shí)別非抗癌藥物。
對(duì)比MACCS 和Mordred,基本上都是MACCS結(jié)果高于Mordred 結(jié)果,因此MACCS 優(yōu)于Mordred。又因?yàn)镸ACCS 的Sen在三者中最高,雖然它的Acc不如RDKit,但本文的目的更偏向于從藥物中篩選出抗癌藥物,因此它的篩選抗癌藥物結(jié)果為三類描述符中最優(yōu)。MACCS 其他指標(biāo)低于RDKit,主要因?yàn)槠銹re低,也就是劃分標(biāo)準(zhǔn)過(guò)于寬泛,把較多的非抗癌藥物也劃分為抗癌藥物。
此外還可以發(fā)現(xiàn)MACCS、RDKit 與Mordred 的Pre都非常低,主要原因是非抗癌藥物遠(yuǎn)遠(yuǎn)多于抗癌藥物,即便被誤認(rèn)為是抗癌藥物的非抗癌藥物占非抗癌藥物的比例很低,它的絕對(duì)數(shù)量也遠(yuǎn)多于正確分類的抗癌藥物數(shù)。由F1定義可以看出它主要由Sen和Pre中較小的值來(lái)確定,由于此處Pre很低,故F1也非常低。
2.1.2 欠采樣數(shù)據(jù)集 數(shù)據(jù)集2 是將10 940 個(gè)非抗癌藥物平均分為54 份,每份202 個(gè),由于還有32 個(gè)非抗癌藥物,隨機(jī)抽出32 個(gè)抗癌藥物組成一份小的數(shù)據(jù)集,每次結(jié)果采用這55 份子數(shù)據(jù)集的平均,重復(fù)10 次取平均值,結(jié)果如圖2 所示。
圖2 不進(jìn)行特征篩選時(shí)欠采樣數(shù)據(jù)集的分類結(jié)果Fig.2 Classification result of under-sampling dataset without feature selection
由圖可得,進(jìn)行欠采樣處理后,5 個(gè)分類指標(biāo)數(shù)值較為接近,并且除了Acc外,其余指標(biāo)基本都有提升,特別是Pre和F1值,由于抗癌藥物和非抗癌藥物個(gè)數(shù)接近1∶1,因此這兩個(gè)指標(biāo)數(shù)值均大幅度提升,說(shuō)明欠采樣后模型的不均衡程度顯著降低。改用欠采樣數(shù)據(jù)集后Sen也有一定的提升,AUC則變化不大,Acc略有下降。綜合來(lái)看,有3 個(gè)指標(biāo)上升,1 個(gè)指標(biāo)持平,1 個(gè)指標(biāo)下降,且Acc下降幅度明顯小于Pre、F1的上升幅度,說(shuō)明改用欠采樣數(shù)據(jù)集后模型的分類能力有所提升。
對(duì)比3 類分子指紋或描述符分類指標(biāo),可以看出Mordred 的分類指標(biāo)比其余兩者要低,說(shuō)明它的分類效果稍差。對(duì)Acc而言RDKit 最優(yōu),對(duì)Sen而言MACCS 最優(yōu),而其他指標(biāo)RDKit 略優(yōu)于MACCS,說(shuō)明單純看抗癌藥物識(shí)別度,MACCS 最優(yōu),總體而言RDKit 最優(yōu)。
采用Pearson 相關(guān)系數(shù)計(jì)算單個(gè)描述符或分子指紋對(duì)分類的影響。在對(duì)前20 個(gè)變量描述符之間計(jì)算了彼此的相關(guān)系數(shù),去掉相關(guān)系數(shù)大于0.5 的變量,最終按排名分別得到了3 類分子指紋或者描述符中最優(yōu)的20 個(gè)結(jié)構(gòu)描述符組合。采用卡方檢驗(yàn)計(jì)算各個(gè)描述符與分類標(biāo)簽卡方計(jì)算值,按照從大到小的順序排列變量,并用類似方法檢驗(yàn)變量之間獨(dú)立性,去除相關(guān)性過(guò)高的變量,最后得到最優(yōu)的20 個(gè)結(jié)構(gòu)組合。將兩種方法采取的20 個(gè)結(jié)構(gòu)描述符結(jié)合,篩選出各類分子指紋或描述符中最優(yōu)的前10 個(gè)結(jié)構(gòu)描述符組合如表2 所示。
表2 10 個(gè)特征結(jié)構(gòu)分子指紋或描述符Table 2 Ten featured structural fingerprint or descriptors
表2 列出的特征MACCS 列的第1 位代表任意原子與氧形成的雙鍵數(shù)是否大于1,從第2 位至第10 位則代表是否存在特定子結(jié)構(gòu)片段,依次代表的子結(jié)構(gòu)片段分別為:任意原子直接與一個(gè)硫原子和任意兩個(gè)原子相連、叔丁基與任意一個(gè)原子相連、鹵素原子、氮原子與任意除碳和氫之外的原子組成的單鍵、碳碳雙鍵、硫原子直接與3 個(gè)氧原子相連、碳氮雙鍵、含氮雜環(huán)、任意六元環(huán)(其中有一個(gè)為非碳非氫原子)。特征RDKit 列中的第1 位代表由Bertz 提出的分子復(fù)雜指數(shù),它基于計(jì)算分子拓?fù)鋱D中各點(diǎn)、各子圖以及各種類原子的信息熵總和而得;第2 位和第3 位分別代表苯胺和叔胺個(gè)數(shù);第4 位代表0 階chi( χ 連接價(jià)電子指數(shù)),由各個(gè)骨架原子價(jià)電子數(shù)目(除去成鍵的氫原子)為基礎(chǔ)計(jì)算而得;第5 位代表1 階chi 連接指數(shù),由骨架上的各對(duì)距離為1的原子對(duì)的骨架相鄰原子數(shù)目(除去成鍵的氫原子) 為基礎(chǔ)計(jì)算而得;第6 到第10 位分別代表芳香氮、環(huán)、亞硝基、甲氧基、吡啶環(huán)個(gè)數(shù)。特征Mordred列的第1~3 位和第5、7 位分別為各對(duì)拓?fù)渚嚯x為7、6、5、4、3 的原子對(duì)的范德華體積權(quán)重下的Moreau-broto 自相關(guān)系數(shù),即各個(gè)原子對(duì)內(nèi)部原子的范德華體積乘積的加權(quán)和;第4、6、8 位為各對(duì)拓?fù)渚嚯x分別為7、6、5 的原子對(duì)的電離勢(shì)能權(quán)重下的Moreau-broto 自相關(guān)系數(shù),即各個(gè)原子對(duì)內(nèi)部原子的電離勢(shì)能乘積的加權(quán)和;第9、10 位為各對(duì)拓?fù)渚嚯x分別為7、6 的原子對(duì)的質(zhì)量權(quán)重下的Moreaubroto 自相關(guān)系數(shù),即各個(gè)原子對(duì)內(nèi)部原子的質(zhì)量乘積的加權(quán)和。
對(duì)比2.1 節(jié)中采用不同數(shù)據(jù)集對(duì)藥物分類的結(jié)果,可以看出,欠采樣處理后的藥物數(shù)據(jù)集變得更加均衡,總體而言對(duì)Sen、Pre等指標(biāo)有利,能夠更加準(zhǔn)確地識(shí)別抗癌藥物,因此篩選后只選用欠采樣數(shù)據(jù)集,對(duì)篩選出來(lái)的變量它們的分類結(jié)果分別如圖3 所示。
圖3 特征篩選后欠采樣數(shù)據(jù)集的分類效果Fig.3 Classification result of under-sampling dataset with feature selection
由圖可得,采用Pearson 相關(guān)系數(shù)及卡方檢驗(yàn)進(jìn)行特征篩選后,3 類分子指紋或描述符的Sen均顯著增加,說(shuō)明特征篩選后分類模型對(duì)抗癌藥物的準(zhǔn)確識(shí)別度均明顯增加。此外,MACCS 和Mordred 的其他幾項(xiàng)指標(biāo)也在特征篩選后有所增加,說(shuō)明特征篩選后 MACCS 和 Mordred 的描述符能更好地描述抗癌藥物的結(jié)構(gòu)和性質(zhì),并明顯提高其分類性能。 而對(duì) RDKit 而言,特征篩選后Acc和Pre均有所下降,說(shuō)明采用的特征篩選方法減低了對(duì)非抗癌藥物識(shí)別能力,但由于抗癌藥物識(shí)別能力增加,且篩選后F1和AUC基本不變,所以特征篩選仍能基本達(dá)成準(zhǔn)確分類。
對(duì)3 類分子指紋或描述符對(duì)比,除Pre外其他指標(biāo)的大小順序?yàn)椋篗ACCS>RDKit>Mordred,因此在這3 類指紋或者描述符中,MACCS 的分類性能最好,而Mordred 分類性能最差。MACCS 的Sen達(dá)到了81%,說(shuō)明使用它能識(shí)別約八成的抗癌藥物。綜合其他指標(biāo)可得使用MACCS 的分類模型能準(zhǔn)確識(shí)別70%的藥物。
經(jīng)過(guò)Pearson 相關(guān)系數(shù)和卡方檢驗(yàn)篩選后,MACCS 中10 個(gè)指紋結(jié)果最好,其中4 個(gè)指紋是簡(jiǎn)單的原子或者共價(jià)鍵,2 個(gè)指紋是環(huán)狀結(jié)構(gòu)片段,其余均為鏈狀片段且基本上都含有支鏈,同時(shí)都有碳、氮、硫、氧等元素。它們都是能相對(duì)準(zhǔn)確地概括抗癌藥物的特征結(jié)構(gòu)組合。綜合其他較優(yōu)的描述符,能準(zhǔn)確識(shí)別抗癌藥物的分子指紋或描述符集合應(yīng)該滿足以下條件:包含基本的官能團(tuán)如鹵素原子、碳碳雙鍵等;包含原子、化學(xué)鍵、鏈狀結(jié)構(gòu)片段、環(huán)狀結(jié)構(gòu)片段等各種層次的結(jié)構(gòu);以上結(jié)構(gòu)片段大概率包含碳、氧、氮、硫、鹵素原子之中1 種或多種化學(xué)元素;除氫外,結(jié)構(gòu)片段原子總數(shù)多在2~7 之間。
由MACCS 的Acc(總體藥物識(shí)別率,70%)低于Sen(抗癌藥物識(shí)別率,81%),可知MACCS 對(duì)非抗癌藥物的識(shí)別率較低,這有可能是因?yàn)榉强拱┧幬锓N類遠(yuǎn)遠(yuǎn)多于抗癌藥物,同時(shí)結(jié)構(gòu)多樣性,且它的結(jié)構(gòu)片段與抗癌藥物的結(jié)構(gòu)片段有交叉,而通過(guò)特征篩選后,MACCS 較優(yōu)的10 個(gè)結(jié)構(gòu)指紋組合中,第1、4、6、8 個(gè)均為簡(jiǎn)單的原子或共價(jià)鍵,如鹵素原子、碳碳雙鍵等,所以部分非抗癌藥物很有可能包含這些簡(jiǎn)單的原子或共價(jià)鍵,使得對(duì)非抗癌藥物的識(shí)別能力下降。
對(duì)比圖1 和圖2,可以看出,Pre和F1指標(biāo)能有效區(qū)分?jǐn)?shù)據(jù)集是否均衡,對(duì)于均衡數(shù)據(jù)集時(shí)兩者數(shù)值均超過(guò)0.6;不均衡時(shí)數(shù)值均較小,接近0。此外,圖1、2、3 中所示的Sen指標(biāo)在各個(gè)描述符或分子指紋中差異較大,但均能較為明顯地區(qū)分出最優(yōu)值;Acc指標(biāo)在圖1 和圖2中能較為明顯地區(qū)分出最優(yōu)描述符或分子指紋,所以Acc、Sen、Pre、F1這4 個(gè)指標(biāo)在結(jié)果上也能反映出評(píng)價(jià)指標(biāo)的合理性。而AUC指標(biāo)在不同數(shù)據(jù)集、不同分子描述符之間相差較少,相對(duì)而言合理性較Acc和Sen弱,但也能分出最優(yōu)值。根據(jù)分類結(jié)果,評(píng)價(jià)指標(biāo)基本上均較為合理。
(1)本文采用的欠采樣方法可以有效地解決分類數(shù)據(jù)集極端不平衡的問(wèn)題。
(2) 兩種特征篩選方法的結(jié)合使用把原有的分子指紋或描述符精簡(jiǎn)成了10 個(gè)較好的結(jié)構(gòu)分子指紋或描述符組合,能以簡(jiǎn)短的組合更精準(zhǔn)地描述抗癌藥物結(jié)構(gòu),在數(shù)據(jù)集中有效地篩選出了81%的抗癌藥物。
(3) 對(duì)現(xiàn)有描述符進(jìn)行特征選擇有助于進(jìn)一步研究抗癌藥物獨(dú)特性質(zhì),有效地篩選抗癌藥物,甚至可以指導(dǎo)從結(jié)構(gòu)從頭開(kāi)始設(shè)計(jì)藥物。本研究?jī)H使用了兩種特征篩選方法結(jié)合決策樹(shù)建立分類模型,后續(xù)可以結(jié)合更多特征篩選方法和更多的機(jī)器學(xué)習(xí)算法,深入地研究抗癌藥物最為獨(dú)特的特征屬性,更有針對(duì)性地識(shí)別和篩選抗癌藥物。