王園寧,劉會(huì)會(huì),楊先海
南京理工大學(xué)環(huán)境與生物工程學(xué)院,江蘇省化工污染控制與資源化高校重點(diǎn)實(shí)驗(yàn)室,南京 210094
環(huán)境內(nèi)分泌干擾物(EDCs)引發(fā)的內(nèi)分泌干擾效應(yīng),嚴(yán)重威脅著人類和野生動(dòng)物安全,正成為人類面臨的全球性環(huán)境問(wèn)題[1-2]。為應(yīng)對(duì)EDCs帶來(lái)的生態(tài)和健康威脅,自20世紀(jì)90年代以來(lái),美國(guó)環(huán)境保護(hù)局、歐盟、日本環(huán)境省、經(jīng)濟(jì)合作與發(fā)展組織、世界衛(wèi)生組織和聯(lián)合國(guó)環(huán)境規(guī)劃署等就針對(duì)EDCs實(shí)施了國(guó)家級(jí)的EDCs篩選計(jì)劃和或國(guó)家/國(guó)際EDCs相關(guān)的行動(dòng)計(jì)劃[3]。如美國(guó)環(huán)境保護(hù)局實(shí)施了內(nèi)分泌干擾物篩選計(jì)劃(EDSP)[4],歐盟制定了EDCs識(shí)別標(biāo)準(zhǔn)[5-6],經(jīng)濟(jì)合作與發(fā)展組織開(kāi)發(fā)了系列的測(cè)試導(dǎo)則/方法[7],世界衛(wèi)生組織和聯(lián)合國(guó)環(huán)境規(guī)劃署組織出版了《內(nèi)分泌干擾物的科學(xué)現(xiàn)狀》等EDCs方面的科學(xué)研究進(jìn)展報(bào)告[8]等。在我國(guó)《水污染防治行動(dòng)計(jì)劃》(國(guó)發(fā)〔2015〕17號(hào))中也提出“到2017年底前完成EDCs生產(chǎn)使用情況調(diào)查,監(jiān)控評(píng)估水源地、農(nóng)產(chǎn)品種植區(qū)及水產(chǎn)品集中養(yǎng)殖區(qū)風(fēng)險(xiǎn),實(shí)施EDCs淘汰、限制、替代等措施”的管控要求[9]。因此,面向EDCs的環(huán)境管理,如何科學(xué)、高效地從商用化學(xué)品中識(shí)別、評(píng)估潛在EDCs是各國(guó)化學(xué)品管理部門需解決的首要問(wèn)題。
近30年來(lái),歐美發(fā)達(dá)國(guó)家開(kāi)發(fā)了大量的實(shí)驗(yàn)測(cè)試方法,也實(shí)施了多項(xiàng)國(guó)家級(jí)EDCs篩選計(jì)劃來(lái)具體篩選、評(píng)估潛在EDCs。但是經(jīng)過(guò)多年的實(shí)踐,發(fā)現(xiàn)僅采用實(shí)驗(yàn)方法來(lái)篩選、評(píng)估潛在EDCs面臨巨大的挑戰(zhàn)。比如,美國(guó)環(huán)境保護(hù)局通過(guò)實(shí)施EDSP發(fā)現(xiàn)現(xiàn)有測(cè)試方法通量低(每年50~100種化學(xué)品)、成本高(每種化學(xué)品需耗費(fèi)100萬(wàn)美元),導(dǎo)致很難按現(xiàn)有測(cè)試體系對(duì)商用化學(xué)品進(jìn)行一一測(cè)試(商用化學(xué)品已超過(guò)14萬(wàn)種)。基于此,美國(guó)環(huán)境保護(hù)局于2012年提出了“21世紀(jì)的內(nèi)分泌干擾物篩選計(jì)劃”(EDSP21)[10]。EDSP21的核心是主要依賴高通量預(yù)測(cè)技術(shù)等進(jìn)行潛在EDCs篩選。因此,發(fā)展內(nèi)分泌干擾效應(yīng)指標(biāo)的預(yù)測(cè)模型對(duì)于實(shí)施EDCs管控具有重要意義[11-12]。
研究表明,內(nèi)分泌相關(guān)疾病和功能紊亂通常與EDCs對(duì)激素受體、轉(zhuǎn)運(yùn)蛋白等生物大分子的干擾作用有關(guān)[13]。在過(guò)去較長(zhǎng)時(shí)間里,激活或抑制激素受體介導(dǎo)的信號(hào)轉(zhuǎn)導(dǎo)過(guò)程被認(rèn)為是EDCs的主要作用機(jī)制,因而許多工作均集中于研究EDCs與雌激素、雄激素和甲狀腺素等激素受體的作用[14-18]。在雌激素受體方面,目前所建的預(yù)測(cè)模型主要是針對(duì)人、牛、大鼠和小鼠等物種[19],而對(duì)水生生物雌激素受體的預(yù)測(cè)模型研究還較少。最近,筆者課題組構(gòu)建了有機(jī)污染物對(duì)8種魚(yú)雌激素受體干擾效應(yīng)的預(yù)測(cè)模型[20]。這些模型均是基于定量數(shù)據(jù)而構(gòu)建的定量預(yù)測(cè)模型,可用于填補(bǔ)有機(jī)污染物對(duì)這8種魚(yú)缺失的激素干擾效應(yīng)數(shù)據(jù)。但是,在前人的研究中,除了獲得定量數(shù)據(jù)外,還發(fā)現(xiàn)一些化合物不具有雌激素干擾活性,而這部分?jǐn)?shù)據(jù)未在我們之前的研究中使用。考慮到預(yù)測(cè)模型的應(yīng)用域與所采用的模型化合物種類和數(shù)量相關(guān),因此可以通過(guò)引入更多模型化合物的方式來(lái)擴(kuò)展模型應(yīng)用域[21]。基于此,本文的研究目的是通過(guò)查詢文獻(xiàn)中關(guān)于有機(jī)化學(xué)品與魚(yú)類雌激素受體相互作用的定量和定性數(shù)據(jù),構(gòu)建能夠區(qū)分有機(jī)化學(xué)品是否具有魚(yú)類雌激素受體干擾活性的定性分類模型,為篩選潛在魚(yú)類雌激素受體干擾物提供技術(shù)支撐。
從文獻(xiàn)中查詢了62種有機(jī)化學(xué)品的斑馬魚(yú)(Danio rerio)雌激素受體干擾效應(yīng)數(shù)據(jù)[22-23],其中,具有斑馬魚(yú)雌激素受體干擾效應(yīng)的化合物有39個(gè),以A表示;無(wú)活性的物質(zhì)23個(gè),以I表示。模型化合物信息列于表1。建模時(shí),數(shù)據(jù)集按4∶1的比例隨機(jī)拆分為訓(xùn)練集(49個(gè)化合物)和驗(yàn)證集(13個(gè)化合物),訓(xùn)練集用于構(gòu)建模型,而驗(yàn)證集用于評(píng)估模型。
首先從美國(guó)環(huán)境保護(hù)局開(kāi)發(fā)的EPI SuiteTM軟件數(shù)據(jù)庫(kù)查詢并下載目標(biāo)化合物的分子結(jié)構(gòu)[24]。對(duì)于EPI SuiteTM軟件數(shù)據(jù)庫(kù)沒(méi)有分子結(jié)構(gòu)的化合物,采用ChemBioOffice 2010軟件生成其分子結(jié)構(gòu)。然后,用MOPAC 2016軟件優(yōu)化模型化合物分子結(jié)構(gòu)(關(guān)鍵詞:PM6 eps=78.6, CHARGE=1, EF GNORM=0.01, POLAR MULLIK SHIFT=80)[25]。基于優(yōu)化的分子結(jié)構(gòu),采用Dragon 6軟件計(jì)算描述符[26]。依據(jù)以下原則對(duì)計(jì)算的4 885種Dragon描述符進(jìn)行初步篩選:去除常數(shù)和近似常數(shù)的描述符,去掉至少有一個(gè)缺失值的描述符及相關(guān)系數(shù)大于0.95的描述符[27]。最終,描述符集包含1 175個(gè)描述符。
表1 模型化合物信息、斑馬魚(yú)雌激素干擾效應(yīng)實(shí)驗(yàn)及預(yù)測(cè)數(shù)據(jù)Table 1 Information of model compounds, their observed and predicted estrogenic activity data of zebrafish
續(xù)表1序號(hào)No.名稱Chemical nameCAS號(hào)CAS No.雌激素干擾效應(yīng)數(shù)據(jù)Estrogenic activity data觀測(cè)值Observed模型ⅠModelⅠ模型ⅡModelⅡ49山奈酚 Kaempherol000520-18-3AAA50尼魯米特? Nilutamide?063612-50-0III514-羥基他莫昔芬? 4-Hydroxytamoxifen?068047-06-3AAA52酮康唑? Ketoconazole?065277-42-1III53佛波醇12-十四酸酯13-乙酸酯?12-o-Tetradecanoylphorbol-13-acetate?016561-29-8III54雄諾龍? 5α-Dihydrotestosterone?000521-18-6AAA554-肉桂苯酚? 4-Cumylphenol?000599-64-4AAA56雌酚酮? Estrone?000053-16-7AAA57利谷隆? Linuron?000330-55-2III58匹莫齊特? Pimozide?002062-78-4III59芹菜素? Apigenin?000520-36-5AAA60螺內(nèi)酯? Spiromolactone?000052-01-7III61鄰仲丁基苯酚? 2-sec-Butylphenol?000089-72-5AAA62己烯雌酚? Diethylstilbestrol?006898-97-1AAA
注:*驗(yàn)證集化合物。
Note: * Compounds selected as the external validation set.
采用基于歐幾里德距離的K最近鄰(kNN)分類算法構(gòu)建了二元分類模型。歐幾里德距離計(jì)算方法為:
(1)
式中:DE是歐幾里德距離;x和y是不同的化學(xué)品;xi和yi分別是化學(xué)品x和y的第i個(gè)描述符。使用自編的python程序進(jìn)行kNN二元分類模型構(gòu)建,該程序已成功應(yīng)用于構(gòu)建有機(jī)化學(xué)品水生毒性模型[28]、內(nèi)分泌干擾效應(yīng)模型[27,29]。
根據(jù)經(jīng)濟(jì)合作與發(fā)展組織關(guān)于模型構(gòu)建與驗(yàn)證的導(dǎo)則對(duì)模型進(jìn)行內(nèi)部和外部預(yù)測(cè)能力、應(yīng)用域等方面的表征[30]。具體而言,采用預(yù)測(cè)準(zhǔn)確度(Q)、敏感性(Sn)和特異性(Sp)參數(shù)表征模型內(nèi)部和外部預(yù)測(cè)能力[27-32]。
(2)
(3)
(4)
式中:TP (true positive,真陽(yáng)性)和TN (true negative,真陰性)分別是正確分類為毒性和非毒性的化合物數(shù)量;FN (false negative,假陰性)和FP (false positive,假陽(yáng)性)分別是錯(cuò)誤分類為非毒性和毒性的化合物數(shù)量。此外,還采用受試者工作特征曲線(ROC曲線)及ROC曲線下的面積(AUC)來(lái)表征分類性能[33]。采用基于歐幾里德距離的方法法表征模型應(yīng)用域。使用AMBIT Discover (version 0.04) (http://ambit.sourceforge.net/download_ambitdiscovery.html) 軟件繪制基于歐幾里德距離的模型應(yīng)用域。
本研究得到2個(gè)最優(yōu)模型,模型Ⅰ包含2個(gè)描述符,即Mor23m和B06[C-N];模型Ⅱ包含3個(gè)描述符,即F02[C-N]、VE2_Dt和Mor22m。2個(gè)模型的表征參數(shù)如表2所示。
從表2可以看出,2個(gè)最優(yōu)模型訓(xùn)練集和驗(yàn)證集的預(yù)測(cè)準(zhǔn)確度(Q)、敏感性(Sn)和特異性(Sp)參數(shù)均大于0.93,即意味著93%以上的化合物均能被正確分類為有斑馬魚(yú)雌激素受體干擾活性或無(wú)干擾活性,說(shuō)明模型具有較好的預(yù)測(cè)能力。此外,ROC曲線表明(圖1),2個(gè)模型的訓(xùn)練集和驗(yàn)證集ROC曲線的AUC均大于等于0.98,說(shuō)明模型具有較好的分類性能。
表2 模型表征結(jié)果Table 2 Statistical results of developed models
基于歐幾里德距離的模型應(yīng)用域表征結(jié)果如圖2所示。模型Ⅰ無(wú)化合物處于模型結(jié)構(gòu)域外;而模型Ⅱ中有2個(gè)驗(yàn)證集化合物在模型結(jié)構(gòu)域外,說(shuō)明2個(gè)模型的訓(xùn)練集具有較好的代表性。模型Ⅱ驗(yàn)證集中處于模型結(jié)構(gòu)域外的化合物為酮康唑和匹莫奇特,雖然其處于訓(xùn)練集所定義的結(jié)構(gòu)域外,但是模型Ⅱ能正確將其分類為無(wú)斑馬魚(yú)雌激素受體干擾活性。
2個(gè)分類模型共篩選出Mor23m、B06[C-N]、F02[C-N]、VE2_Dt和Mor22m這5個(gè)描述符。其中Mor23m和Mor22m是原子質(zhì)量加權(quán)的3D-MoRSE描述符,表征了分子質(zhì)量的影響[34]。B06[C-N]和F02[C-N]是2D原子對(duì)描述符。B06[C-N]是指分子中是否存在拓?fù)渚嚯x6的碳-氮原子對(duì)[35];而F02[C-N]是指分子中碳-氮原子對(duì)在拓?fù)渚嚯x2的頻數(shù)[36],它們均表征了分子中存在氮原子對(duì)化合物與斑馬魚(yú)雌激素受體相互作用的影響。通過(guò)比對(duì)數(shù)據(jù),發(fā)現(xiàn)存在碳-氮原子對(duì)不利于化合物與斑馬魚(yú)雌激素受體相互作用,例如,在模型Ⅰ中,B06[C-N]數(shù)值不為0的22個(gè)物質(zhì)中,僅5個(gè)具有干擾效應(yīng)(22.7%),在B06[C-N]數(shù)值為0的40個(gè)物質(zhì)中,僅34個(gè)具有干擾效應(yīng)(85.0%);在模型Ⅱ中,F(xiàn)02[C-N]數(shù)值不為0的24個(gè)物質(zhì)中,僅6個(gè)具有干擾效應(yīng)(25.0%),在B06[C-N]數(shù)值為0的38個(gè)物質(zhì)中,僅33個(gè)具
圖1 分類模型Ⅰ(A)和模型Ⅱ(B)的受試者工作特征(ROC)曲線注:AUC表示ROC曲線下的面積。Fig. 1 Receiver operating characteristics (ROC) graphs of the classification model Ⅰ (A) and model Ⅱ (B)Note: AUC stands for area under ROC curve.
圖2 基于歐幾里德距離的分類模型Ⅰ (A)和模型Ⅱ (B)應(yīng)用域表征圖Fig. 2 Characterization of application domain for classification model Ⅰ (A) and model Ⅱ (B) based on the Euclidean distance
有干擾效應(yīng)(86.8%)。VE2_Dt是2D矩陣相關(guān)的描述符[37]。
本論文針對(duì)水生生物雌激素效應(yīng)預(yù)測(cè)模型缺乏的問(wèn)題,以構(gòu)建有機(jī)污染物斑馬魚(yú)雌激素受體干擾效應(yīng)分類預(yù)測(cè)模型為目標(biāo),根據(jù)經(jīng)濟(jì)合作與發(fā)展組織關(guān)于模型構(gòu)建與驗(yàn)證的導(dǎo)則,構(gòu)建了具有較好內(nèi)部和外部預(yù)測(cè)能力的斑馬魚(yú)雌激素受體干擾效應(yīng)二元分類預(yù)測(cè)模型,可為篩選潛在魚(yú)類雌激素受體干擾物提供支撐。