呂 巍 薛 英 孟慶偉,*
(1山東農(nóng)業(yè)大學(xué)生命科學(xué)學(xué)院,作物生物學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,山東泰安271018;2山東農(nóng)業(yè)大學(xué)生物學(xué)博士后科研流動(dòng)站,山東泰安271018;3四川大學(xué)化學(xué)學(xué)院,教育部綠色化學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,成都610064;4四川大學(xué)生物治療國(guó)家重點(diǎn)實(shí)驗(yàn)室,成都610041)
流行性感冒病毒(influenza virus)簡(jiǎn)稱流感病毒,而流感是嚴(yán)重危害人類健康的一種急性病毒性呼吸道感染疾病,傳播速度快,是導(dǎo)致人類死亡的主要病因之一.甲型H1N1流感病毒是流感病毒的一種,其外部的糖蛋白層含有血凝素(hemagglutinin,HA)和神經(jīng)酰胺酶(nueraminidase,NA),對(duì)于流感病毒的入侵和傳播起著非常重要的作用,從而為抗流感病毒的研究提供了兩個(gè)可能的藥物靶點(diǎn).在發(fā)現(xiàn)神經(jīng)酰胺酶抑制劑之前,流感治療僅限于金剛烷胺、金剛乙胺和病毒疫苗等方法.1研究發(fā)現(xiàn)神經(jīng)酰胺酶在H1N1病毒的復(fù)制、感染和致病過(guò)程中起重要作用,抑制神經(jīng)酰胺酶活性,可以有效地控制H1N1型流感病毒感染引起的流感及其傳播.2-5因此,以神經(jīng)酰胺酶為靶點(diǎn),篩選神經(jīng)酰胺酶抑制劑,是研究和開發(fā)抗H1N1病毒藥物的一個(gè)重要途徑.6-9
機(jī)器學(xué)習(xí)(machine learning)是一門人工智能的科學(xué),機(jī)器學(xué)習(xí)方法使用計(jì)算機(jī)程序來(lái)模擬人類的學(xué)習(xí)活動(dòng),它研究通過(guò)計(jì)算機(jī)程序來(lái)獲取新知識(shí)和新技能、并識(shí)別現(xiàn)有知識(shí),以數(shù)據(jù)或以往的經(jīng)驗(yàn)優(yōu)化計(jì)算機(jī)程序的性能.機(jī)器學(xué)習(xí)方法作為一種重要的計(jì)算方法和高效的計(jì)算工具,已經(jīng)在計(jì)算機(jī)輔助藥物設(shè)計(jì)和虛擬篩選中得到廣泛的應(yīng)用.它在藥效團(tuán)模擬、藥代動(dòng)力學(xué)計(jì)算和藥物毒性預(yù)測(cè)等方面的研究中取得了巨大的成效.10-12現(xiàn)階段得到廣泛應(yīng)用的機(jī)器學(xué)習(xí)方法主要有支持向量機(jī)(SVM)、k-最近相鄰法(k-NN)和C4.5決策樹(C4.5 DT).在化學(xué)分布多樣性的小分子化合物的預(yù)測(cè)中,機(jī)器學(xué)習(xí)方法已經(jīng)展示出其獨(dú)特的效果.機(jī)器學(xué)習(xí)方法的預(yù)測(cè)精度與適當(dāng)?shù)姆肿用枋龇芮邢嚓P(guān),這些描述符在一定程度上代表了被預(yù)測(cè)化合物的物理化學(xué)性質(zhì).遞歸變量消除(REF)法13,14是一種被廣泛應(yīng)用的性質(zhì)選擇方法,可以通過(guò)優(yōu)化預(yù)測(cè)化合物的性質(zhì)集,從而進(jìn)一步提高預(yù)測(cè)精度.另外在本研究中,我們使用兩種方法對(duì)預(yù)測(cè)精度進(jìn)行評(píng)價(jià),包括五重交叉驗(yàn)證法和獨(dú)立驗(yàn)證集法.
本研究共選取237個(gè)NA抑制劑和非抑制劑(附表1,見Supporting Information),它們分別來(lái)自文獻(xiàn).15-25研究表明,當(dāng)實(shí)驗(yàn)半數(shù)抑制濃度(IC50)值低于500 nmol·L-1時(shí),化合物有較好抑制活性,而IC50值大于500 nmol·L-1時(shí)化合物基本無(wú)抑制活性,當(dāng)化合物IC50值在500 nmol·L-1附近時(shí),化合物有抑制活性但并不明顯.26,27因此將237個(gè)化合物按其IC50值分成三個(gè)數(shù)據(jù)集:72個(gè)NA抑制劑(IC50≤400 nmol·L-1),155個(gè)非NA抑制劑(IC50≥600 nmol·L-1),10個(gè)化合物抑制活性非常弱(400 nmol·L-1<IC50<600 nmol·L-1).化合物二維分子結(jié)構(gòu)由ChemDraw軟件28繪制,并由Corina軟件29將其轉(zhuǎn)化為三維結(jié)構(gòu).
我們首先將所有化合物隨機(jī)分為五個(gè)亞集進(jìn)行交叉驗(yàn)證,以其中四個(gè)亞集作為SVM方法的訓(xùn)練集,剩余一個(gè)亞集則被用作測(cè)試集被SVM模型測(cè)試,這樣重復(fù)進(jìn)行五次測(cè)試,每個(gè)亞集都作為測(cè)試集被使用一次,最終得到五次預(yù)測(cè)結(jié)果的平均值.然后根據(jù)化合物的結(jié)構(gòu)與化學(xué)性質(zhì)在化學(xué)空間中的分布,將所有的化合物分為訓(xùn)練集、測(cè)試集與獨(dú)立驗(yàn)證集(見附表2).訓(xùn)練集和測(cè)試集被用于開發(fā)和優(yōu)化分類預(yù)測(cè)模型,獨(dú)立驗(yàn)證集被用于評(píng)價(jià)分類模型的預(yù)測(cè)能力.
分子描述符是一個(gè)分子的數(shù)學(xué)表征,可以定量表示分子的結(jié)構(gòu)與物理性質(zhì),其在構(gòu)效關(guān)系(SAR)、13定量構(gòu)效關(guān)系(QSAR)30以及藥效團(tuán)模型31,32等相關(guān)研究領(lǐng)域得到廣泛應(yīng)用.在我們的研究中,通過(guò)手工方法,從相關(guān)文獻(xiàn)中找出一千多個(gè)分子性質(zhì)描述符,并根據(jù)化合物拓?fù)浣Y(jié)構(gòu)、電子結(jié)構(gòu)和幾何結(jié)構(gòu)等性質(zhì),從中篩選出189個(gè)與化合物性質(zhì)密切相關(guān)的描述符(見附表3).其中包括了18個(gè)簡(jiǎn)單分子性質(zhì)描述符、27個(gè)分子連接和形狀描述符、97個(gè)電拓?fù)鋺B(tài)描述符、22個(gè)量子化學(xué)性質(zhì)描述符及25個(gè)幾何性質(zhì)描述符.應(yīng)用分子描述符計(jì)算程序,33通過(guò)化合物的三維結(jié)構(gòu)計(jì)算所有分子描述符,并通過(guò)性質(zhì)選擇方法進(jìn)一步篩選與NA抑制劑和非抑制劑最為相關(guān)的描述符.34
研究顯示,使用性質(zhì)選擇方法來(lái)消除數(shù)據(jù)集中多余描述符有助于提高機(jī)器學(xué)習(xí)方法的預(yù)測(cè)精度.遞歸特征消除(RFE)法是一種廣泛應(yīng)用并能高效發(fā)現(xiàn)相關(guān)特征的性質(zhì)選擇方法,它已在癌癥的分類預(yù)測(cè),35四膜蟲毒性化合物預(yù)測(cè)36等領(lǐng)域獲得廣泛應(yīng)用.本文使用遞歸性質(zhì)消除法進(jìn)行描述符的選擇,通過(guò)與支持向量機(jī)相結(jié)合,獲得更有利于預(yù)測(cè)NA抑制劑的分子描述符數(shù)據(jù)集,從而提高模型的預(yù)測(cè)精度.
RFE程序簡(jiǎn)述如下:用包含可調(diào)節(jié)參數(shù)σ的高斯核函數(shù)建立一個(gè)SVM分類系統(tǒng),通過(guò)五重交叉驗(yàn)證來(lái)評(píng)定模型的預(yù)測(cè)能力.對(duì)一個(gè)確定的σ,第一步,用全部描述符建立SVM預(yù)測(cè)模型;第二步,通過(guò)打分函數(shù)計(jì)算當(dāng)前描述符集中每個(gè)描述符對(duì)預(yù)測(cè)模型的貢獻(xiàn)分值,并按降序排列;第三步,刪除打分最低的m個(gè)描述符;第四步,用剩下的描述符重新訓(xùn)練SVM分類模型,相應(yīng)的預(yù)測(cè)精度通過(guò)五重交叉法來(lái)計(jì)算.整個(gè)過(guò)程不斷重復(fù),直到剩下的描述符不多于m個(gè).對(duì)其它的參數(shù)σ,重復(fù)同樣的過(guò)程.預(yù)測(cè)總精度最高的模型為最優(yōu)化模型,該模型所使用的描述符即為RFE選出的描述符.
m的選擇影響到SVM的表現(xiàn)和變量選擇的速度.每次消除一個(gè)變量對(duì)計(jì)算能力的要求太高,在某些情況下,每次消除多個(gè)變量顯著提高計(jì)算速度,且對(duì)精度的影響不大.本課題組以前的工作表明,m=5相對(duì)于m=1,SVM體系的預(yù)測(cè)精度只有很小的損失.26,27,33考慮到計(jì)算效率,本研究選擇m=5,另外,為了限制選出描述符的數(shù)量并避免過(guò)擬合,我們控制選出描述符的數(shù)量小于數(shù)據(jù)集個(gè)數(shù)的五分之一.37
現(xiàn)在有大量的機(jī)器學(xué)習(xí)方法軟件包可從網(wǎng)上免費(fèi)下載,例如:PHAKISO(http://www.phakiso.com/index.htm)和 WEKA(http://www.cs.waikato.ae.nz/~ml/weka)包含了許多機(jī)器學(xué)習(xí)的方法,38NeuNet(http://www.cormactech.com/neunet/index.html)是關(guān)于神經(jīng)網(wǎng)絡(luò)方面的軟件包,SVM-Light(http://svmlight.joachims.org)是應(yīng)用很廣泛的支持向量機(jī)方面的軟件包.本研究中我們用自己建立的SVM模型33預(yù)測(cè)NA抑制劑與非抑制劑,同時(shí)用其它的機(jī)器學(xué)習(xí)方法(k-NN、C4.5)39,40進(jìn)行預(yù)測(cè),并對(duì)結(jié)果進(jìn)行比較.
像其它預(yù)測(cè)模型一樣,41我們采用以下公式判斷模型的預(yù)測(cè)精度.
其中TP,TN,F(xiàn)P,F(xiàn)N分別代表預(yù)測(cè)正確的NA抑制劑,預(yù)測(cè)正確的非NA抑制劑,預(yù)測(cè)錯(cuò)誤的NA抑制劑以及預(yù)測(cè)錯(cuò)誤的非NA抑制劑;SE用于評(píng)估NA抑制劑的預(yù)測(cè)正確率;SP用于評(píng)估非NA抑制劑的預(yù)測(cè)正確率;Q用于評(píng)估總體的預(yù)測(cè)正確率;C為馬氏相關(guān)系數(shù).
我們通過(guò)五重交叉驗(yàn)證法對(duì)預(yù)測(cè)模型進(jìn)行驗(yàn)證,所有的預(yù)測(cè)結(jié)果在表1中列出.通過(guò)性質(zhì)選擇方法,有19個(gè)描述符被選出,認(rèn)為這19個(gè)描述符對(duì)NA抑制劑的分類預(yù)測(cè)起到至關(guān)重要的作用(表2).從中可見,當(dāng)不使用性質(zhì)選擇方法時(shí),SVM對(duì)NA抑制劑和非抑制劑的預(yù)測(cè)精度分別為40.5%和94.5%,平均預(yù)測(cè)精度為78.0%;當(dāng)使用性質(zhì)選擇方法RFE時(shí),SVM對(duì)NA抑制劑和非抑制劑的預(yù)測(cè)精度分別為72.0%和85.0%,平均預(yù)測(cè)精度為81.2%.由此可見,通過(guò)性質(zhì)選擇之后抑制劑的預(yù)測(cè)精度明顯提高,雖然非抑制劑預(yù)測(cè)精度有所下降,但平均預(yù)測(cè)精度要高于前者.另外可以看出,當(dāng)使用全部描述符進(jìn)行預(yù)測(cè)時(shí),抑制劑的預(yù)測(cè)結(jié)果非常低,與非抑制劑的預(yù)測(cè)結(jié)果相差太大.因此性質(zhì)選擇方法不但提高了抑制劑的預(yù)測(cè)結(jié)果,同時(shí)也提高了總的預(yù)測(cè)結(jié)果,由此可見性質(zhì)選擇方法更有利于提高支持向量機(jī)模型的預(yù)測(cè)精度,尤其是對(duì)抑制劑的預(yù)測(cè)精度.另外應(yīng)用19個(gè)所選描述符不但降低支持向量機(jī)模型的過(guò)擬合現(xiàn)象以及多余描述符產(chǎn)生的噪音,提高預(yù)測(cè)精度,更重要的是顯示了與NA抑制劑和非抑制劑相關(guān)的一些物理化學(xué)性質(zhì).
表1 SVM方法對(duì)NA抑制劑和非抑制劑的五重交叉驗(yàn)證aTable 1 Performance of SVM for predicting NAIs and non-NAIs as evaluated by five-fold cross validationa
表2 性質(zhì)選擇方法選出的19個(gè)與NA抑制劑分類預(yù)測(cè)相關(guān)的分子描述符Table 2 19 molecular descriptors selected from the RFE feature selection method for the classification of NAIs and non-NAIs
除了五重交叉驗(yàn)證法之外,獨(dú)立驗(yàn)證集的方法也頻繁地被使用在分類模型的預(yù)測(cè)上.在本論文中,根據(jù)化學(xué)空間,我們得到一個(gè)以14個(gè)NA抑制劑和40個(gè)NA非抑制劑構(gòu)成的獨(dú)立驗(yàn)證集(見附表2),通過(guò)k-NN、C4.5 DT和SVM的方法,用19個(gè)描述符對(duì)獨(dú)立驗(yàn)證集進(jìn)行了預(yù)測(cè),結(jié)果見表3.如表所示,對(duì)NA抑制劑,其預(yù)測(cè)精度為64.3%-78.6%,其中SVM給出最好的預(yù)測(cè)結(jié)果為78.6%;對(duì)NA非抑制劑,其預(yù)測(cè)精度為77.5%-97.5%,其中C4.5 DT和SVM都給出最好的預(yù)測(cè)結(jié)果為97.5%;總預(yù)測(cè)精度為75.9%-92.6%,其中SVM給出最好的預(yù)測(cè)結(jié)果為92.6%,由此可見SVM對(duì)NA抑制劑的預(yù)測(cè)可以提供更精確的結(jié)果.
表3 不同機(jī)器學(xué)習(xí)方法對(duì)NA抑制劑和非抑制劑的獨(dú)立驗(yàn)證集的預(yù)測(cè)Table 3 Comparison of the prediction accuracies of NAIs and non-NAIs derived from different machine learning methods by using independent validation sets
通過(guò)比較交叉驗(yàn)證方法和獨(dú)立驗(yàn)證方法的預(yù)測(cè)結(jié)果,可以檢查預(yù)測(cè)模型是否出現(xiàn)過(guò)擬合現(xiàn)象.由于描述符的選擇是通過(guò)交叉驗(yàn)證測(cè)試集得到的,而過(guò)擬合的實(shí)際表現(xiàn)就是測(cè)試集的預(yù)測(cè)精度遠(yuǎn)高于獨(dú)立驗(yàn)證集的預(yù)測(cè)精度.但是,通過(guò)表1和表3可以看出,測(cè)試集的預(yù)測(cè)精度稍微低于獨(dú)立驗(yàn)證集的預(yù)測(cè)精度,但差別不大,因此證明我們的預(yù)測(cè)模型并沒(méi)有出現(xiàn)過(guò)擬合現(xiàn)象.
選擇與NA抑制劑相關(guān)的分子描述符是非常重要的,它不但可以對(duì)預(yù)測(cè)模型進(jìn)行優(yōu)化以提高預(yù)測(cè)精度,而且可以進(jìn)一步闡明NA抑制劑的作用機(jī)理.在我們的研究中,通過(guò)遞歸性質(zhì)消除的變量選擇方法總共選擇了19個(gè)與NA抑制劑最為相關(guān)的分子描述符,見表2.在這19個(gè)描述符中,包括4個(gè)分子連接與形狀描述符,7個(gè)電拓?fù)鋺B(tài)描述符和8個(gè)幾何性質(zhì)描述符.可見,電拓?fù)鋺B(tài)和幾何性質(zhì)描述符在分類過(guò)程中起到重要作用.
在我們的實(shí)驗(yàn)中通過(guò)獨(dú)立驗(yàn)證集的SVM預(yù)測(cè),總共有4個(gè)化合物預(yù)測(cè)錯(cuò)誤.其中NA抑制劑的預(yù)測(cè)精度為78.6%,NA非抑制劑的預(yù)測(cè)精度為97.5%,平均預(yù)測(cè)精度為92.6%.14個(gè)NA抑制劑中有3個(gè)化合物被預(yù)測(cè)成NA非抑制劑,另一方面,40個(gè)NA非抑制劑中有1個(gè)化合物被預(yù)測(cè)成抑制劑.所有預(yù)測(cè)錯(cuò)誤的分子見圖1和圖2,圖1中的3個(gè)分子是NA的抑制劑,但通過(guò)預(yù)測(cè)得到的結(jié)果是非抑制劑;圖2中的1個(gè)化合物是NA的非抑制劑,而預(yù)測(cè)模型將其預(yù)測(cè)為抑制劑.從圖中我們可以看出預(yù)測(cè)錯(cuò)誤的分子主要是一些含環(huán)化合物.預(yù)測(cè)錯(cuò)誤的NA抑制劑都含有兩個(gè)環(huán),而預(yù)測(cè)錯(cuò)誤的NA非抑制劑含有多個(gè)環(huán).從這些預(yù)測(cè)錯(cuò)誤的分子可以看出,當(dāng)前使用的描述符還不足以正確地預(yù)測(cè)分辨那些帶多環(huán)結(jié)構(gòu)的化合物.因此我們應(yīng)該探索研究新的描述符,并通過(guò)性質(zhì)選擇方法來(lái)篩選更適合機(jī)器學(xué)習(xí)方法模型的描述符.
圖1 預(yù)測(cè)錯(cuò)誤的神經(jīng)氨酸苷酶抑制劑Fig.1 Structures of the part of misclassified NAIs
圖2 預(yù)測(cè)錯(cuò)誤的非神經(jīng)氨酸苷酶抑制劑Fig.2 Structures of the part of misclassified non-NAIs
研究顯示,對(duì)于NA抑制劑,當(dāng)其分子作用機(jī)理不明確時(shí),可以用機(jī)器學(xué)習(xí)方法尤其是支持向量機(jī)方法對(duì)其預(yù)測(cè),可以得到較高的預(yù)測(cè)精度.但我們也發(fā)現(xiàn),由于描述符的限制,當(dāng)前機(jī)器學(xué)習(xí)方法對(duì)化合物作用機(jī)理的預(yù)測(cè)能力還受到一定的制約;另外,由于預(yù)測(cè)樣本的數(shù)量較少,不能夠全面覆蓋預(yù)測(cè)化合物,尤其是NA非抑制劑,因此造成預(yù)測(cè)結(jié)果與實(shí)際值有一定差距.不過(guò)我們相信在不久的將來(lái),隨著回歸為基礎(chǔ)的機(jī)器學(xué)習(xí)方法的不斷發(fā)展,這些問(wèn)題一定會(huì)被克服.總之在抗流感藥物研發(fā)前期,如果能夠更為廣泛地了解NA抑制劑的相關(guān)信息與作用機(jī)理,將能夠進(jìn)一步提高機(jī)器學(xué)習(xí)方法對(duì)其抑制劑的預(yù)測(cè)精度,從而使機(jī)器學(xué)習(xí)方法在藥物研發(fā)過(guò)程的前期成為預(yù)測(cè)NA抑制劑的更為實(shí)用的工具.
Supporting Information: available free of charge via the internet at http://www.whxb.pku.edu.cn.
(1) Erik,D.C.J.Clin.Virol.2001,22,73.doi:10.1016/S1386-6532(01)00167-6
(2) Palese,P.;Tobita,K.;Ueda,M.Virology 1974,61,397.doi:
10.1016 /0042-6822(74)90276-1
(3)Moscona,A.N.Eng.J.Med.2005,353,1363.doi:10.1056/NEJMra050740
(4) Erik,D.C.Nat.Rev.Drug.Disc.2006,5,1015.doi:10.1038/nrd2175
(5) Schmidt,A.C.Drugs 2004,64,2031.doi:10.2165/00003495-200464180-00003
(6) Suzuki,Y.;Sato,K.;Kiso,M.;Hasegawa,A.Glycoconjugate J.1990,7,349.doi:10.1007/BF01073378
(7) Hagiwara,T.;Kijima-Suda,I.;Ido,T.;Ohrui,H.;Tomita,K.Carbohydr.Res.1994,263,167.doi:10.1016/0008-6215(94)00133-2
(8)White,C.L.;Janakiraman,M.N.;Laver,W.G.;Philippon,C.Vasella,A.;Air,G.M.;Luo,M.J.Mol.Biol.1995,245,623.doi:10.1006/jmbi.1994.0051
(9) Meindl,P.;Bodo,G.;Palese,P.;Schulman,J.;Tuppy,H.Virology 1974,58,457.doi:10.1016/0042-6822(74)90080-4
(10)Mitchell,T.Machine Learning;McGraw-Hill:New York,1996.
(11) Kohavi,R.;John,G.H.Artif.Intell.1997,97,273.doi:10.1016/S0004-3702(97)00043-X
(12) Leach,A.R.;Gillet,V.J.An Introduction to Chemoinformatics;Springer:Heidelberg,2007;p 82.
(13)Yu,H.;Yang,J.;Wang,W.;Han,J.Proc.IEEE 2003,220.
(14) Furlanello,C.;Serafini,M.;Merler,S.;Jurman,G.Neural Networks 2003,16,641.doi:10.1016/S0893-6080(03)00103-5
(15)Lew,W.;Wu,H.W.;Mendel,D.B.;Escarpe,P.A.;Chen X.W.;Laver,W.G.;Graves,B.J.;Kim,C.U.Bioorg.Med.Chem.Lett.1998,8,3321.doi:10.1016/S0960-894X(98)00587-3
(16)Sun,C.W.;Huang,H.;Feng,M.Q.;Shi,X.L.;Zhang,X.D.;Zhou,P.Bioorg.Med.Chem.Lett.2006,16,162.doi:10.1016/j.bmcl.2005.09.033
(17)Wen,W.H.;Wang,S.Y.;Tsai,K.C.;Cheng,Y.S.E.;Yang,A.S.;Fang,J.M.;Wong,C.H.Bioorg.Med.Chem.2010,18,4074.doi:10.1016/j.bmc.2010.04.010
(18)Yeh,J.Y.;Coumar,M.S.;Horng,J.T.;Shiao,H.Y.;Kuo,F(xiàn).M.;Lee,H.L.;Chen,I.C.;Chang,C.W.;Tang,W.F.;Tseng,S.N.;Chen,C.J.;Shih,S.R.;Hsu,J.T.A.;Liao,C.C.;Chao,Y.S.;Hsieh,H.P.J.Med.Chem.2010,53,1519.doi:10.1021/jm901570x
(19)Lew,W.;Wu,H.W.;Chen,X.W.;Graves,B.J.;Escarpe,P.A.;MacArthur,H.L.;Mendel,D.B.;Kim,C.U.Bioorg.Med.Chem.Lett.2000,10,1257.doi:10.1016/S0960-894X(00)00214-6
(20) Dao,T.T.;Tung,B.T.;Nguyen,P.H.;Thuong,P.T.;Yoo,S.S.;Kim,E.H.;Kim,S.K.;Oh,W.K.J.Nat.Prod.2010,73,1636.doi:10.1021/np1002753
(21) Kolocouris,N.;Kolocouris,A.;Foscolos,G.B.;Fytas,G.;Neyts,J.;Padalko,E.;Balzarini,J.;Snoeck,R.;Andrei,G.;Clercq,E.D.J.Med.Chem.1996,39,3307.doi:10.1021/jm950891z
(22) Brouillette,W.J.;Bajpai,S.N.;Ali,S.M.;Velu,S.E.;Atigadda,V.R.;Lommer,B.S.;Finley,J.B.;Luo,M.;Aird,G.M.Bioorg.Med.Chem.2003,11,2739.doi:10.1016/S0968-0896(03)00271-2
(23)Liu,A.L.;Wang,H.D.;Lee,S.M.Y.;Wang,Y.T.;Du,G.H.Bioorg.Med.Chem.2008,16,7141.doi:10.1016/j.bmc.2008.06.049
(24)Williams,M.A.;Lew,W.;Mendel,D.B.;Tai,C.Y.;Escarpe,P.A.;Laver,W.G.;Stevens,R.C.;Kim,C.U.Bioorg.Med.Chem.Lett.1997,14,1837.
(25) Zhang,L.J.;Williams,M.A.;Mendel,D.B.;Escarpe,P.A.;Kim,C.U.Bioorg.Med.Chem.Lett.1997,14,1847.
(26) Lv,W.;Xue,Y.Eur.J.Med.Chem.2010,45,1167.doi:10.1016/j.ejmech.2009.12.038
(27) Lü,W.;Xue,Y.Acta Phys.-Chim.Sin.2010,26,471.[呂 巍,薛 英.物理化學(xué)學(xué)報(bào),2010,26,471.]doi:10.3866/PKU.WHXB20100125
(28) ChemDraw,Version 9.0;Cambridge Soft Corporation:Cambridge,USA,2004.
(29)Corina,Version 3.4;Molecular Networks GmbH Computerchemie:Erlangen,Germany,2006.
(30) Hasegawa,K.J.Chem.Inf.Comput.Sci.1999,39,112.doi:10.1021/ci980088o
(31) Byvatov,E.;Fechner,U.;Sadowski,J.;Schneider,G.J.Chem.Inf.Comput.Sci.2003,43,1882.doi:10.1021/ci0341161
(32) He,L.;Jurs,P.C.;Custer,L.L.;Durham,S.K.;Pearl,G.M.Chem.Res.Toxicol.2003,16,1567.doi:10.1021/tx030032a
(33) Lü,W.;Xue,Y.Acta Phys.-Chim.Sin.2011,27,1407.[呂 巍,薛 英.物理化學(xué)學(xué)報(bào),2011,27,1407.]doi:10.3866/PKU.WHXB20110608
(34)Yang,X.G.;Lv,W.;Chen,Y.Z.;Xue,Y.J.Comput.Chem.2009,31,1249.
(35)Lin,H.H.;Han,L.Y.;Yap,C.W.;Xue,Y.;Liu,X.H.;Zhu,F(xiàn).;Chen,Y.Z.J.Mol.Graph.Model.2007,26,505.doi:10.1016/j.jmgm.2007.03.003
(36)Xue,Y.;Li,H.;Ung,C.Y.;Yap,C.W.;Chen,Y.Z.Chem.Res.Toxicol.2006,19,1030.doi:10.1021/tx0600550
(37) Degroeve,S.;de Baets,B.;van de Peer,Y.;Rouze,P.Bioinformatics 2002,18,S75.
(38) Garner,S.R.Weka,version 3.4.12;University of Waikato:New Zealand,2005.
(39) Johnson,R.A.;Wichern,D.W.Applied Multivariate Statistical Analysis;Prentice Hall:New York,1982.
(40) Quinlan,J.R.C4.5,Programs for Machine Learning;Morgan Kaufmann:San Mateo,CA,1992.
(41) Baldi,P.;Brunak,S.;Chauvin,Y.;Andersen,C.A.;Nielsen,H.Bioinformatics 2000,16,412.doi:10.1093/bioinformatics/16.5.412