王藝霖, 范俊韜 , 王書平, 黃國鮮, 閆振廣
1. 上海海洋大學(xué)海洋生態(tài)與環(huán)境學(xué)院,上海 201306
2. 中國環(huán)境科學(xué)研究院環(huán)境基準(zhǔn)與風(fēng)險評估國家重點(diǎn)實(shí)驗(yàn)室,北京 100012
研究表明,含內(nèi)分泌干擾物(endocrine disruptor chemicals, EDCs)類的化學(xué)品在農(nóng)業(yè)、工業(yè)和日常生活中被廣泛使用[1],已在廢水、地表水、自來水中陸續(xù)檢出,表明其對水生生物乃至人類的影響正在逐漸擴(kuò)大[2-5]。 EDCs 可以直接作用于內(nèi)分泌系統(tǒng),能夠以阻斷或模仿人類和動物體內(nèi)自然激素的方式干擾激素行為,從而對心血管、代謝、免疫,尤其是生物的生殖系統(tǒng)造成影響,導(dǎo)致種群數(shù)量下降[6-9];大部分的EDCs 具有低劑量有效性、半衰期長和生物富集、生物放大等特點(diǎn),因此會在環(huán)境中持久存在,造成較為長遠(yuǎn)的影響[10-12]。 研究數(shù)據(jù)表明,我國多處水域均受到EDCs 污染,由此帶來的生態(tài)風(fēng)險需要引起高度的重視[13-15]。
EDCs 生態(tài)風(fēng)險的科學(xué)評估則依賴于繁殖毒性數(shù)據(jù)的獲取。 EDCs 的繁殖毒性數(shù)據(jù)主要來自與生物的生活史或部分生活史相關(guān)的實(shí)驗(yàn)。 這些實(shí)驗(yàn)周期長、成本高,難以在短期內(nèi)積累足夠的EDCs 繁殖毒性數(shù)據(jù),使得 EDCs 的生態(tài)風(fēng)險評估非常困難[15-18],不利于以后科學(xué)開展生態(tài)風(fēng)險評估和環(huán)境管理工作。 使用數(shù)學(xué)模型來預(yù)測毒性效應(yīng)已成為國際生態(tài)毒理學(xué)研究熱點(diǎn)[19]。 數(shù)學(xué)建模工具可以在一定的框架下對現(xiàn)有的毒性實(shí)驗(yàn)進(jìn)行拓展,有利于深入了解劑量與反應(yīng)關(guān)系之間的復(fù)雜性[15,20],從而保護(hù)生態(tài)系統(tǒng),降低生態(tài)風(fēng)險。 使用模型預(yù)測毒性效應(yīng)數(shù)據(jù)相比實(shí)驗(yàn)獲取也有一定的優(yōu)勢,如擴(kuò)充實(shí)驗(yàn)數(shù)據(jù)、減少時間和物力消耗以及生物犧牲量[21-22],還可以對多種化學(xué)品的聯(lián)合作用進(jìn)行分析[23]等。
定量構(gòu)效關(guān)系(quantitative structure-activity relationship, QSAR)模型被廣泛應(yīng)用于預(yù)測毒性效應(yīng)。QSAR 是將一組化合物的某種性質(zhì)或活性與這些化合物的化學(xué)成分或結(jié)構(gòu)信息進(jìn)行定量關(guān)聯(lián)的方法,可以用來預(yù)測化合物的毒性值、作用模式,篩選和排序化學(xué)品等[24-26],該方法通常與其他模型方法如機(jī)器學(xué)習(xí)耦合使用;其中機(jī)器學(xué)習(xí)在生態(tài)毒理學(xué)中得到了越來越多的應(yīng)用,其一般原理是根據(jù)一定的規(guī)則將輸入變量與輸出變量之間的關(guān)系一般化,并用于預(yù)測未知的相似情況[27-28];機(jī)器學(xué)習(xí)方法可以更好地處理非線性問題,對于關(guān)系復(fù)雜或未知的輸入、輸出變量也有很好的適應(yīng)性,且通常具有良好的精度,可以減少重復(fù)性試驗(yàn)等[29-31]。 而 EDCs 繁殖毒性是慢性毒性的一種,急性毒性終點(diǎn)不適用于測量EDCs 的慢性繁殖毒性效應(yīng)。 卵黃蛋白原(vitelloge-nin, VTG)、性腺指數(shù)(gonado-somatic index, GSI)、第二性征、血漿中的類固醇濃度和性腺組織病變被認(rèn)為是用于評估EDCs 繁殖毒性終點(diǎn)的生物標(biāo)志物,這些終點(diǎn)的變化需要長時間觀測,一般采用無觀察效應(yīng)濃度(no observed effect concentration, NOEC)或最低可觀察效應(yīng)濃度(lowest observed effect concentration, LOEC)指標(biāo)表示[32],這就造成了EDCs 毒性數(shù)據(jù)較少,從而鮮見利用上述模型對EDCs 水生生物繁殖毒性進(jìn)行預(yù)測[21]。
因此本文將首先對近年來應(yīng)用機(jī)器學(xué)習(xí)方法預(yù)測化合物水生生物毒性效應(yīng)的相關(guān)研究進(jìn)展進(jìn)行總結(jié),并在搜集到的可靠數(shù)據(jù)的基礎(chǔ)上,利用QSAR建立用于預(yù)測EDCs 水生生物毒性效應(yīng)的機(jī)器學(xué)習(xí)模型,從而為日后的化學(xué)品生態(tài)風(fēng)險評估和檢測優(yōu)先性等提供指導(dǎo)。
通過Web of Science 和中國知網(wǎng)數(shù)據(jù)庫對近年來國內(nèi)外使用機(jī)器學(xué)習(xí)方法預(yù)測水生生物毒性文章進(jìn)行檢索,采用的檢索詞如表1 所示。 對檢索到的文獻(xiàn)作如下分析:當(dāng)前研究的主要目的;文獻(xiàn)中使用到的機(jī)器學(xué)習(xí)模型以及每種模型的使用頻率;對每項(xiàng)研究涉及的不同研究對象進(jìn)行匯總,如化合物、歸屬于不同營養(yǎng)級的水生生物以及毒性終點(diǎn)等;另外還包括文獻(xiàn)內(nèi)涉及到的研究手段與數(shù)據(jù)處理方法等。
表1 用于檢索使用機(jī)器學(xué)習(xí)預(yù)測內(nèi)分泌干擾物水生生物毒性效應(yīng)文獻(xiàn)的關(guān)鍵詞Table 1 Key words for searching papers that applied machine learning to predict the toxicity effects of endocrine disruptor chemicals on aquatic organisms
1.2.1 數(shù)據(jù)獲取與預(yù)處理
參考文獻(xiàn)中描述的毒性數(shù)據(jù)篩選方法[33],在美國環(huán)境保護(hù)局(US EPA) ECOTOX 數(shù)據(jù)庫檢索了以NOEC、LOEC 等作為毒性終點(diǎn),與黑頭軟口鰷(Pimephales promelas)繁殖毒性相關(guān)的數(shù)據(jù)。 若搜集所得數(shù)據(jù)集內(nèi)的相同化學(xué)品在相同毒性終點(diǎn)上存在不同的數(shù)據(jù)點(diǎn),則取幾何平均值;篩選后得到了83種不同化學(xué)品對黑頭軟口鰷的繁殖毒性數(shù)據(jù),考慮到數(shù)據(jù)量的因素,未對化學(xué)品繼續(xù)篩選[34]。
分子描述符是一組將分子的不同屬性(如物理化學(xué)、拓?fù)浜徒Y(jié)構(gòu)等)進(jìn)行量化表示的數(shù)值[35-36]。 為了獲得分子描述符,首先需要收集不同化學(xué)物質(zhì)對應(yīng)的簡化分子線性輸入規(guī)范(simplified molecular input line entry specification, SMILES);SMILES 數(shù)據(jù)收集自PubChem 網(wǎng)站(https://pubchem.ncbi.nlm.nih.gov/);使用了 PaDEL-descriptor 軟件[37]的 python 接口用于計(jì)算分子描述符,該軟件可以根據(jù)SMILES為每種化合物計(jì)算出共1 875 種分子描述符。
在獲得的描述符數(shù)據(jù)集中,并不是所有的描述符對于模型構(gòu)建都是必要的。 具體篩選方法如下。
(1) 一些化合物的某些分子描述符的計(jì)算值可能為空值或無窮值(體現(xiàn)在excel 或csv 文件中即為無數(shù)據(jù)和Inf/Infinity),這些數(shù)值無法被輸入至機(jī)器學(xué)習(xí)模型中用于訓(xùn)練,由于數(shù)據(jù)集中化合物的數(shù)量較少,因此刪除了具有非法值的描述符[38]。
(2) 常數(shù)項(xiàng)或半常數(shù)項(xiàng)(該系列的80%及以上數(shù)值都相等)的描述符通常對模型的貢獻(xiàn)較小,因此采取方差過濾法并選取0.01 作為過濾界限[39-40]。
(3) 一些分子描述符之間具有線性相關(guān)性,若成對的描述符之間的Pearson 相關(guān)系數(shù)>0.99,則只留下其中一個[34]。
(4) 經(jīng)過上述篩選,大多數(shù)冗雜特征被去除,但仍需要選擇最優(yōu)子集。 這個選擇過程被認(rèn)為是比較困難的,因?yàn)闆]有合適的規(guī)則作為指導(dǎo),通常以個人經(jīng)驗(yàn)與其他算法相結(jié)合的方式進(jìn)行[41-42]。 本文使用了遞歸特征消除(recursive feature elimination,RFE)[43],RFE 可以結(jié)合具有判斷變量重要性的機(jī)器學(xué)習(xí)算法,重復(fù)建模為特征的重要性進(jìn)行排序并逐漸刪除指定個數(shù)特征,直到剩余規(guī)定數(shù)量的特征為止。 為了消除數(shù)據(jù)之間由于數(shù)量級差異帶來的影響,首先對所有描述符作了標(biāo)準(zhǔn)化,公式如下所示:
式中:Xi為第n個描述符的第i個數(shù)值,μn為第n個描述符的平均值,Sn為第n個描述符的標(biāo)準(zhǔn)差;然后使用結(jié)合隨機(jī)森林的RFE 法選擇最終特征子集。
了解化合物的可能毒性范圍有利于開展初步生態(tài)風(fēng)險評估工作[44]。 根據(jù)中華人民共和國國家標(biāo)準(zhǔn)《化學(xué)品水生環(huán)境危害分類指導(dǎo)第3 部分:水生毒性》(GB/T 36700.3—2018),對于慢性毒性不大于100 μg·L-1的物質(zhì),認(rèn)為其毒性較高,反之則認(rèn)為其毒性較低;在此標(biāo)準(zhǔn)的指導(dǎo)下,選取了100 μg·L-1作為分類界限,NOEC 小于等于該值的化合物為類別“1”,大于該值的為類別“0”。 數(shù)據(jù)集被以4∶1 的比例劃分為訓(xùn)練集和測試集,測試集用于模型的效果評價,不用于模型的訓(xùn)練。
1.2.2 機(jī)器學(xué)習(xí)模型的構(gòu)建
采用的支持向量機(jī)(support vector machine,SVM)模型與線性神經(jīng)網(wǎng)絡(luò)(linear neural network,LNN)模型,分別由 scikit-learn[45]和 Keras 搭建。SVM 模型可以執(zhí)行線性和非線性的分類與回歸任務(wù),且被認(rèn)為非常適用于中小型數(shù)據(jù)集[46],其中應(yīng)用到的核函數(shù)為高斯徑向基(Gaussian radial basis function, RBF),該核函數(shù)常被應(yīng)用于SVM 的構(gòu)建中。LNN 模型中,每個神經(jīng)元都代表一個多元線性函數(shù),如下式所示。
式中:Y為該神經(jīng)元的輸出值,X1~Xn為輸入特征,W1~Wn為權(quán)重,b為偏置值,采用了單隱藏層結(jié)構(gòu)[47];Sigmoid 函數(shù)為激活函數(shù),可以將輸出的數(shù)值范圍變?yōu)? ~1,即“預(yù)測為正類”的概率值;二元交叉熵作為損失函數(shù)。
1.2.3 模型評估標(biāo)準(zhǔn)
在二元分類中,模型的預(yù)測性能根據(jù)真陽性(true positives, TP)、真陰性(true negatives, TN)、假陽性(false positives, FP)、假陰性(false negatives, FN)的數(shù)量以及敏感性(sensitivity, SE)、特異性(specificity,SP)和預(yù)測準(zhǔn)確度(accuracy, Acc)來判定[44];此外還應(yīng)用了受試者工作特征(receiver operating characteristic, ROC)曲線與曲線下面積(area under curve,AUC)來評價模型的分類性能;ROC 曲線的x軸為假陽性率(false positive rate),y軸為真陽性率(true positive rate);AUC 取值為 0.5 ~1.0,當(dāng) AUC=1.0 時表示這是一個完美的分類器,而AUC=0.5 時說明該分類器沒有分類能力[48-49]。 所涉及到的評價參數(shù)的含義和計(jì)算式如表2 所示。
表2 二元分類模型能力判定標(biāo)準(zhǔn)Table 2 Assessment standard of binary classification models
1.2.4 應(yīng)用領(lǐng)域
經(jīng)濟(jì)合作與發(fā)展組織關(guān)于QSAR 模型的指導(dǎo)文件[50]中指出,“一個(Q)SAR 模型需要定義其應(yīng)用域(application domain, AD)”,即根據(jù)模型訓(xùn)練集中化學(xué)物質(zhì)的結(jié)構(gòu)或物理化學(xué)等信息確定模型的預(yù)測能力限制范圍,對超出該范圍的化學(xué)物質(zhì)(與訓(xùn)練集中物質(zhì)的相似性不足)的預(yù)測結(jié)果被認(rèn)為可靠程度較低。 由于相似性有很多不同的表達(dá)方式(一般通過理化性質(zhì)來定義),因此AD 的評估也可以是多樣化的,如杠桿方法[51]和基于Euclidean 距離的AD 分析法[52-54]。 其中Euclidean 方法將化學(xué)分子表示為多維向量中的一點(diǎn)(維數(shù)等于每種描述符中的變量數(shù)量),并以Euclidean 距離計(jì)算任意2個分子之間的相 似 性。 Ambit Discovery 軟 件 (http://ambit.sourceforge.net/download_ambitdiscovery.html)可以直接構(gòu)建基于Euclidean 距離的AD 分析,并顯示處于AD 之外的化合物,因此 AD 分析將使用該軟件進(jìn)行。
根據(jù)檢索詞共篩選出英文文獻(xiàn)61 篇,中文文獻(xiàn)2 篇,發(fā)文數(shù)量與年份增長之間的關(guān)系如圖1 所示。由圖1 可知,結(jié)合機(jī)器學(xué)習(xí)方法來預(yù)測化合物對水生生物毒性的文章數(shù)量從2009年開始增多并且呈現(xiàn)明顯的上升趨勢,說明這種策略正得到越來越多的認(rèn)可。 這一方面是由于機(jī)器學(xué)習(xí)方法所具備的優(yōu)勢,另一方面也和計(jì)算機(jī)技術(shù)的發(fā)展為機(jī)器學(xué)習(xí)的應(yīng)用提供了更優(yōu)秀的條件有關(guān)[55]。
圖1 近年來使用機(jī)器學(xué)習(xí)或建模方法預(yù)測化學(xué)品水生生物毒性的文章數(shù)量和趨勢Fig.1 The number and trend of papers that used machine learning or modeling methods to predict the toxicity of chemicals on aquatic organisms in recent years
每種算法的使用次數(shù)與應(yīng)用方式(用于預(yù)測離散、連續(xù)型數(shù)據(jù),或者變量篩選)如圖2 所示。 其中,使用次數(shù)最多的是SVM,共25 次,且在回歸與分類問題上的使用較為均衡,一定程度上體現(xiàn)了其廣泛適用性[56-58];線性回歸的使用次數(shù)僅次于SVM,并與神經(jīng)網(wǎng)絡(luò)一起更多地被應(yīng)用于回歸問題;遺傳算法幾乎僅被用于輔助作用,即作為一種選擇描述符子集的手段,而不用于預(yù)測化合物的毒性效應(yīng);決策樹、隨機(jī)森林和k最近鄰等算法被較多地應(yīng)用于分類問題[59-60]。
圖2 被用于預(yù)測化學(xué)品水生生物毒性的算法及其應(yīng)用的頻率與目的Fig.2 Algorithms used to predict the toxicity of chemicals on aquatic organisms and their frequency and purpose of application
文獻(xiàn)中涉及的水生生物、化合物和毒性終點(diǎn)如圖3 所示。 涉及的水生生物包括脊椎生物、無脊椎生物和藻類,其中脊椎生物即魚類,如黑頭軟口鰷(Pimephales promelas)、斑馬魚(Brachydanio rerio)和虹鱒(Oncorhynchus mykiss)等;無脊椎生物中較多的是浮游生物,如梨形四膜蟲(Tetrahymena pyriformis)、大型溞(Daphnia magna)等。 所探究的化合物種類也較多:按照結(jié)構(gòu)信息,有取代苯類化合物、芳香族化合物和酚類化合物等;根據(jù)作用,包含農(nóng)藥(如生物殺滅劑、除草劑等)、個人護(hù)理產(chǎn)品(如抗抑郁藥、降壓藥和麻醉藥等)和工業(yè)化學(xué)品等。 根據(jù)危害方式,大多數(shù)文獻(xiàn)所研究的毒性終點(diǎn)為急性毒性,如半抑制生長濃度[61]、半致死濃度[62]和半數(shù)效應(yīng)濃度[63]等,這可能與其實(shí)驗(yàn)周期短、數(shù)據(jù)量較多、誤差較低以及當(dāng)前管控優(yōu)先度較高等因素有關(guān)。 而在慢性毒性當(dāng)中,以 NOEC 作為毒性終點(diǎn)的研究較少[34,64],且模型的性能也相對較差,如Sheffield 和Judson 等[34]的研究中為該終點(diǎn)構(gòu)建了回歸模型,評估回歸模型常用的標(biāo)準(zhǔn)之一是由實(shí)際值與預(yù)測值所計(jì)算出的決定系數(shù)(R2),在其研究中所構(gòu)建的部分模型的R2為0.6 左右,盡管在QSAR 領(lǐng)域中R2>0.5時模型即被認(rèn)為具有預(yù)測性能[65],但相較于大多數(shù)其他學(xué)者的研究而言則處于較低水平[66-68]。
圖3 各文獻(xiàn)中使用到的水生物種與毒性終點(diǎn)注:IC50 表示半抑制濃度;IGC50 表示半抑制生長濃度;LC50 表示半數(shù)致死濃度;EC50 表示半數(shù)效應(yīng)濃度;NOEC 表示無觀測效應(yīng)濃度。Fig.3 Aquatic creatures and toxicity endpoints applied in papersNote: IC50 stands for 50% inhibitory concentration; IGC50 stands for 50% impairment growth concentration; LC50 stands for lethal concentration 50%;EC50 stands for concentration for 50% of maximal effect; NOEC stands for no observed effect concentration.
2.2.1 描述符選擇及AD 評估
經(jīng)過RFE 方法篩選,最終選擇了ATSC0m、ATSC7p、MATS3i 和 TpiPC 作為輸入變量。 其中 ATSC0m、ATSC7p 和 MATS3i 是 2D 自相關(guān)描述符,ATSC0m 和ATSC7p 分別為原子質(zhì)量加權(quán)和原子極化率加權(quán)的 Broto-Moreau 中心自相關(guān)描述符,MATS3i 是電離勢加權(quán)的 Moran 中心自相關(guān)描述符,分別表征了原子質(zhì)量、極化率與電離勢的影響;TpiPC 則與步進(jìn)計(jì)數(shù)的常規(guī)鍵序 ID 號相關(guān)[69-70]。使用Ambit Discovery 構(gòu)建的AD 部分表征如圖4所示,軟件計(jì)算結(jié)果顯示訓(xùn)練集與測試集中均無化合物落在AD 之外,這說明選取的訓(xùn)練集具有良好的代表性。
圖4 基于Euclidean 距離的應(yīng)用域表征Fig.4 Application domain based on Euclidean distance
分子描述符的數(shù)值變化對毒性帶來的影響如圖5 所示,圖 5 中(a)、(b)、(c)和(d)分別為 ATSC0m、ATSC7p、MATS3i 和 TpiPC。 藍(lán)色柱狀條代表標(biāo)準(zhǔn)化后的每個化合物的分子描述符的數(shù)值;橙色柱狀條代表毒性,存在與否表示該化合物是否具有較高毒性。 可以看出,對于描述符ATSC0m 和TpiPC,隨著數(shù)值的增大,橙色柱狀條開始變得相對密集,即化合物傾向于具有高毒性;ATSC7p 則與之相反,隨著其數(shù)值增大,更多的化合物毒性較低;MATS3i 顯示出了不同的趨勢,其增大與減小時化合物毒性均較低,而在均值附近時較多的化合物具有較高毒性。
圖5 分子描述符數(shù)值大小與毒性之間的關(guān)系注:橫坐標(biāo)表示不同的化合物,縱坐標(biāo)表示標(biāo)準(zhǔn)化后的化合物毒性值。Fig.5 Relationship between molecular descriptors and toxicityNote: Abscissa represents different chemicals, and ordinate represents the toxicity of chemicals after standardization.
2.2.2 性能評估
數(shù)據(jù)集中化合物名稱、CAS 號和模型的預(yù)測結(jié)果如表3 所示,其中模型Ⅰ為SVM,模型Ⅱ?yàn)長NN。
續(xù)表3
續(xù)表3
訓(xùn)練集和測試集的評估如表4 所示。 其中,SVM 在訓(xùn)練集和測試集上的預(yù)測準(zhǔn)確率分別為0.91 和0.88 左右,均達(dá)到了較好的水平,說明預(yù)測能力可以接受;模型對測試集的預(yù)測結(jié)果中,對高毒性與低毒性化合物的召回率,即SE 與SP 分別為1.00 與0.67,相比訓(xùn)練集中的0.93 與0.88 來說不夠均衡,這可能是由于測試集數(shù)據(jù)量較少導(dǎo)致的,但是SE 較高可以減少實(shí)際有毒化合物漏檢的可能性;訓(xùn)練集與測試集的預(yù)測準(zhǔn)確率差距不大,說明模型沒有發(fā)生過擬合。 SVM 與 LNN 構(gòu)建模型得到的ROC 曲線分別如圖6 和圖7 所示,其中SVM 的訓(xùn)練集與測試集的AUC 分別為0.93 和0.88,遠(yuǎn)大于下限0.5,因此這是一個較好的分類器。
圖6 由SVM 構(gòu)建模型得到的訓(xùn)練集與測試集受試者工作特征(receiver operating characteristic, ROC)曲線注:AUC 表示曲線下面積。Fig.6 Receiver operating characteristic (ROC) curve for training set and test set based on SVMNote: AUC stands for area under curve.
圖7 由線性神經(jīng)網(wǎng)絡(luò)(linear neural network, LNN)構(gòu)建模型得到的訓(xùn)練集與測試集ROC 曲線Fig.7 ROC curve for training set and test set based on linear neural network (LNN)
表4 最終模型預(yù)測性能表征Table 4 Statistical results of developed models
LNN 在訓(xùn)練集和測試集上的預(yù)測準(zhǔn)確率均為0.82 左右,未出現(xiàn)過擬合現(xiàn)象,SE 分別為0.88 與1.00,SP 分別為0.73 與0.50;該模型的預(yù)測結(jié)果同樣有不均衡的SE 與SP 分布,可能進(jìn)一步說明該問題的出現(xiàn)與數(shù)據(jù)集有關(guān);訓(xùn)練集與測試集的AUC分別為0.87 與0.88,說明分類性能良好。
2.2.3 模型對比
(1) SVM 比 LNN 穩(wěn)定。 如圖 8 所示,保持超參數(shù)等條件不變,SVM 可以通過訓(xùn)練得到恒定最優(yōu)解;而對于LNN,若訓(xùn)練次數(shù)不斷增加,結(jié)果也在逐漸發(fā)生變化,如圖9 所示,訓(xùn)練集預(yù)測準(zhǔn)確率(Acc)上升,測試集預(yù)測準(zhǔn)確率(val_acc)不變,但測試集損失函數(shù)(val_loss)卻與訓(xùn)練集損失函數(shù)(loss)呈現(xiàn)相反趨勢,說明模型傾向于朝過擬合發(fā)展,這可能與數(shù)據(jù)集較小有關(guān)。 SVM 的預(yù)測結(jié)果也略優(yōu)于LNN,一定程度上說明SVM 較LNN 更適合于小數(shù)據(jù)集。
圖8 經(jīng)過10 次相互獨(dú)立的訓(xùn)練后SVM 的預(yù)測準(zhǔn)確率Fig.8 The prediction accuracy of SVM after trained for ten times separately
圖9 LNN 的訓(xùn)練過程中結(jié)果持續(xù)變化Fig.9 The result of LNN kept changing while training
(2) SVM 的訓(xùn)練難度相對較低。 如上所述,隨著訓(xùn)練的進(jìn)行,SVM 可以得到恒定最優(yōu)解,而LNN不能;另外,在相同的訓(xùn)練次數(shù)內(nèi),LNN 的預(yù)測準(zhǔn)確率也會呈現(xiàn)不同的變化趨勢或規(guī)律,結(jié)束訓(xùn)練時得到的結(jié)果也可能不同,如圖10 所示。
圖10 相互獨(dú)立的LNN 訓(xùn)練過程中出現(xiàn)不同結(jié)果Fig.10 Separate training process of LNN led to different results
(3) SVM 的訓(xùn)練耗時相較于LNN 更短:SVM得到本實(shí)驗(yàn)中最優(yōu)解的訓(xùn)練時間遠(yuǎn)<1 s,對LNN 每訓(xùn)練1 000 輪則需要20 s 左右(具體耗時與進(jìn)行訓(xùn)練所使用的設(shè)備以及模型的超參數(shù)有關(guān),此處僅針對本實(shí)驗(yàn)條件作討論)。
本文對機(jī)器學(xué)習(xí)模型方法在水生毒性預(yù)測領(lǐng)域的應(yīng)用研究進(jìn)行了概括與總結(jié),并使用 SVM 與LNN 結(jié)合QSAR,使用較少被其他研究者采用的EDCs 繁殖毒性的NOEC 作為終點(diǎn),在黑頭軟口鰷數(shù)據(jù)集上構(gòu)建了預(yù)測毒性高低的二分類模型;SVM在該領(lǐng)域中的使用頻率最高;對急性毒性的研究多于慢性毒性;描述符子集的篩選是非常重要的步驟,結(jié)合了隨機(jī)森林的RFE 方法較好地篩選出了合適的描述符子集,篩選結(jié)果說明化合物對黑頭軟口鰷的繁殖毒性可能與分子質(zhì)量、極化率、電離勢和相鄰原子成鍵強(qiáng)度有關(guān);根據(jù)準(zhǔn)確率與ROC 曲線等分類模型評定標(biāo)準(zhǔn)可知,本文中所構(gòu)建的模型均具有可接受的預(yù)測能力,其中SVM 的預(yù)測能力和訓(xùn)練表現(xiàn)等相較于LNN 更優(yōu),驗(yàn)證了SVM 更適用于中小數(shù)據(jù)集。 本實(shí)驗(yàn)中所使用的方法和構(gòu)建的模型可為日后的AD 內(nèi)未知化合物的檢測優(yōu)先性起到指導(dǎo)作用,并且為水生生物毒性領(lǐng)域中對EDCs 的繁殖毒性的研究提供了一定的支撐。