王雅琪,劉會會,楊先海
南京理工大學環(huán)境與生物工程學院,江蘇省化工污染控制與資源化高校重點實驗室,南京 210094
據(jù)估計,每年約有3億t合成化學物質(zhì)進入水體[1]。這些物質(zhì)可對水生生物產(chǎn)生毒副作用,并嚴重威脅生態(tài)安全[2-3]。因此,對這些物質(zhì)進行污染控制和管理已成為各國的重要任務。對化學物質(zhì)進行水環(huán)境生態(tài)風險評估,進而篩選出優(yōu)先污染物,是進行污染控制與管理的前提[4]。而開展水環(huán)境生態(tài)風險評估需要水生毒性數(shù)據(jù)和暴露數(shù)據(jù)[5]。目前,國際上已針對多種水生模式生物開發(fā)了水生生物毒性標準測試方法,如藻類、溞類和魚類急/慢性毒性測試方法[6]。雖然水生生物毒性效應測試體系已建立數(shù)十年,但仍僅少部分物質(zhì)具有水生毒性數(shù)據(jù)。為了克服化學物質(zhì)管理中數(shù)據(jù)不足的問題,歐美國家大力倡導使用(定量)結(jié)構(gòu)-活性關(guān)系((Q)SAR)等預測技術(shù)填補缺失的毒性效應數(shù)據(jù)[7-8]。因此,構(gòu)建污染物水生毒性效應預測模型對實現(xiàn)水環(huán)境化學物質(zhì)管理具有重要意義。
在化學品生產(chǎn)使用及環(huán)境管理中,需要對其進行分類和標簽。具體的分類過程是依據(jù)化學品所具有的毒性效應值來分類和標簽,例如當魚類的96 h半數(shù)致死濃度(96 h LC50) ≤ 1 mg·L-1、介于1~10 mg·L-1、介于10~100 mg·L-1時,分別歸為急性毒性類別1、急性毒性類別2和急性毒性類別3[9-10],然后針對不同類別采取不同等級的管理措施。近年來,國內(nèi)外研究人員針對水生急性毒性構(gòu)建了一些預測模型,主要是針對綠藻如羊角月牙藻(Pseudokirchneriella subcapitata)、大型溞(Daphnia magna)、魚如黑頭呆魚(Pimephales promelas)的預測模型較多[11]。但是,這些模型以定量模型為主,結(jié)果為具體的毒性效應值,還沒有模型能直接給出目標化合物是否滿足分類和標簽規(guī)定的毒性閾值。最近,Ding等[12]構(gòu)建了基于“全球化學品統(tǒng)一分類和標簽制度”(GHS)分類標準的預測羊角月牙藻(Pseudokirchneriella subcapitata)和大型溞(Daphnia magna)慢性毒性的二元分類模型。
本文的研究目的是針對魚類急性毒性指標,構(gòu)建基于GHS分類標準的分類模型。首先是依據(jù)GHS中推薦的分類標準,將化合物分類,然后構(gòu)建預測模型。因此,根據(jù)本文所構(gòu)建的模型,使用者可直接得出目標化合物是否滿足國標中關(guān)于化學品分類和標簽規(guī)定的毒性閾值。
從文獻[13]收集了634種有機化學品的黑頭呆魚(Pimephales promelas)急性毒性數(shù)據(jù)[13]。實驗數(shù)據(jù)均是采用經(jīng)濟合作與發(fā)展組織(OECD)的OECD TG 203魚類急性毒性試驗方法獲取,指標為96 h LC50。采用“全球化學品統(tǒng)一分類和標簽制度”(GHS)中推薦的分類標準[10],將急性毒性值≤ 100 mg·L-1的物質(zhì)劃分為毒性物質(zhì),而將急性毒性值> 100 mg·L-1的物質(zhì)劃分為無毒性物質(zhì)。根據(jù)分類結(jié)果,毒性物質(zhì)和無毒性物質(zhì)分別為444和190個。建模中,數(shù)據(jù)集將按4∶1的比例隨機拆分為訓練集和驗證集,訓練集用于構(gòu)建模型,而驗證集用于評估模型。
首先采用ChemBioOffice 2010軟件生成初始的化合物分子結(jié)構(gòu)。再根據(jù)上述分子結(jié)構(gòu)生成MOPAC輸入文件,用MOPAC 2016軟件優(yōu)化模型化合物分子結(jié)構(gòu)[14]。優(yōu)化關(guān)鍵詞是PM6 eps=78.6, CHARGE=1, EF GNORM=0.01, POLAR MULLIK SHIFT=80。基于MOPAC優(yōu)化的分子結(jié)構(gòu),采用Dragon 6軟件計算4 885個Dragon描述符[15]。根據(jù)如下標準,對計算的4 885種描述符進行初步篩選:去除常數(shù)和近似常數(shù)的描述符,去掉至少有一個缺失值的描述符及相關(guān)系數(shù)大于0.95的描述符[16]。最終,描述符集包含1 575個描述符。此外,還引入正辛醇-水分配系數(shù)(logKow)。logKow來源于美國環(huán)保局開發(fā)的EPI Suite 4.1TM [17]。
采用基于歐幾里德距離的K最近鄰(k-NearestNeighbor, kNN)分類算法構(gòu)建了二元分類模型。歐幾里德距離計算方法為:
(1)
式中:DE是歐幾里德距離;x和y是不同的化學品;xi和yi分別是化學品x和y的第i個描述符。使用自編的python程序進行kNN二元分類模型構(gòu)建,該程序已成功應用于構(gòu)建多個模型[12,16,18-19]。
采用預測準確度(Q)、敏感性(Sn)和特異性(Sp)參數(shù)表征模型效果[4,20-21]。
(2)
(3)
(4)
式中:TP(真陽性)和TN(真陰性)分別是正確分類為毒性和非毒性的化合物數(shù)量;FN(假陰性)和FP(假陽性)分別是錯誤分類為非毒性和毒性的化合物數(shù)量。
此外,對于二元分類模型,還可以采用受試者工作特征曲線(ROC曲線)及ROC曲線下的面積(AUC)來表征分類性能[22]。ROC曲線的坐標分別是真陽性率(TPR)和假陽性率(FPR)表征。真陽性率是指在所有實際有毒的化合物中,被正確判斷為有毒的比率;假陽性率是指在所有實際無毒的化合物中,被錯誤地判斷為有毒的比率。一般而言ROC曲線的AUC值介于0~1,其值越大說明分類模型的性能越好。
采用歐幾里德距離法表征了模型應用域。歐幾里德距離圖采用AMBIT Discover (version 0.04)(http://ambit.sourceforge.net/download_ambitdiscovery.html)軟件繪制。
最優(yōu)模型包含3個描述符,即CATS2D_04_DD、piPC07和ATSC7m,模型表征參數(shù)如下。
從表1可以看出,模型訓練集和驗證集的預測準確度(Q)、敏感性(Sn)和特異性(Sp)參數(shù)均大于0.7,即意味著70%以上的化合物均能被正確分類為有毒或無毒,說明模型具有較好的預測能力。模型訓練集和驗證集的Sn數(shù)值大于Sp,說明模型預測結(jié)果的假陰性率低于假陽性率,這有助于避免遺漏潛在毒性物質(zhì)。此外,ROC曲線表明(圖1),訓練集和驗證集ROC曲線的AUC分別為0.799和0.781,說明模型的分類性能較好。
基于歐幾里德距離的模型應用域表征結(jié)果如圖2所示。所有化合物中,僅有一個驗證集化合物在模型結(jié)構(gòu)域外,說明模型的訓練集具有較好的代表性。驗證集中處于模型結(jié)構(gòu)域外的化合物為四溴雙酚A,雖然其處于訓練集所定義的結(jié)構(gòu)域外,但是模型能正確將其分類為有毒性。
分類模型篩選出CATS2D_04_DD、piPC07和ATSC7m這3個描述符。其中CATS2D_04_DD是CATS 2D描述符,表征了分子中氫鍵供體原子(如氧、氮等)在拓撲距離4上的數(shù)量[23]。這意味著有機化學品對黑頭呆魚(Pimephales promelas)的急性毒性
圖1 分類模型受試者工作特征(ROC)曲線注:AUC表示ROC曲線下的面積。Fig. 1 Receiver operating characteristics (ROC) graphs of the classification modelNote: AUC represents area under ROC curve.
表1 模型表征結(jié)果Table 1 Statistical results of developed model
注:k表示鄰近數(shù),n表示化合物數(shù)量,TP表示真陽性,TN表示真陰性,F(xiàn)N表示假陰性,F(xiàn)P表示假陽性,Sn表示敏感性,Sp表示特異性,Q表示預測準確度。
Note: k stands for number of nearest neighbors; n stands for number of chemicals; TP stands for true positive; TN stands for true negative; FN stands for false negative; FP stands for false positive; Snstands for sensitivity; Spstands for specificity; Q stands for predictive accuracy.
圖2 基于歐幾里德距離的模型應用域表征圖Fig. 2 Characterization of application domain for model based on the Euclidean distance
與氫鍵供體原子相關(guān),也即分子形成氫鍵的能力會影響毒性效應。piPC07是分子運轉(zhuǎn)路徑數(shù)目類描述符,表征了分子大小對毒性的影響。Fassihi等[24]構(gòu)建有機物的抗菌毒性預測模型時,也篩選出該描述符。ATSC7m是原子質(zhì)量加權(quán)的2D自相關(guān)描述符,表征了分子質(zhì)量的影響。綜上,有機化學品對黑頭呆魚(Pimephales promelas)的急性毒性與分子形成氫鍵的能力、分子大小和原子質(zhì)量相關(guān)。
本論文依據(jù)“全球化學品統(tǒng)一分類和標簽制度”(GHS)中推薦的分類標準,將有機化學品對黑頭呆魚(Pimephales promelas)的急性毒性值小于和大于100 mg·L-1的物質(zhì)分別劃分為有毒物質(zhì)和無毒物質(zhì)。以分類結(jié)果為建模指標,構(gòu)建了分類能力較好的二元分類模型??蓱迷撃P皖A測應用域內(nèi)其他物質(zhì)是否對黑頭呆魚(Pimephales promelas)表現(xiàn)急性毒性效應。