滕躍發(fā),王曉晴,李斐,吳惠豐,吉成龍,于進福
1. 中國科學院海岸帶環(huán)境過程與生態(tài)修復重點實驗室(煙臺海岸帶研究所),山東省海岸帶環(huán)境過程重點實驗室,中國科學院煙臺海岸帶研究所,煙臺 264003 2. 煙臺職業(yè)學院網絡中心,煙臺 264670 3. 中國科學院大學,北京 100049 4. 中國科學院海洋大科學研究中心,青島 266071
截至2020年12月21日,美國化學文摘社(www.cas.org)已經登記了1.55億余種化合物,包括合金、配位化合物、礦物質、混合物、聚合物和鹽等,并且還以每天1.5萬余種的速度增加[1]。目前,以動物實驗為主的化學品環(huán)境風險評估效率,還遠不能滿足大量進入市場的新化學品環(huán)境風險測評的需求。據統(tǒng)計,全世界平均每年動物實驗花費近140億美元,其中30億用于毒理學實驗[2]。而且,進入環(huán)境的日常使用化學品數目已經超過10萬種,測試一個化合物毒性的平均周期為3.5年[2],如果逐一檢測這些化學品的毒性,需要消耗大量的時間和金錢。定量結構-活性關系(quantitative structure-activity relationship, QSAR)模型可為化學品的暴露和效應模擬提供大量的基礎參數[3]。目前,基于QSAR模型開發(fā)了許多毒性預測軟件,例如EPI suite[4]、QSAR Toolbox[5]和ECOSAR[6]等,并且隨著數據集的不斷擴大,預測精度和應用域也在不斷提升。
2008年,美國國家環(huán)境衛(wèi)生科學研究所(NIEHS)、美國國家衛(wèi)生院(NIH)和美國環(huán)境保護局(US EPA)簽訂了《高通量篩選、毒性途徑分析和生物學解釋》[7],正式開展Tox21計劃。Tox21計劃的毒性測試策略,由傳統(tǒng)的以整體動物(invivo)為基礎的毒性測試體系轉向基于人源細胞系或細胞組分的體外測試體系(invitro),通過分析化合物暴露后細胞或細胞組分的變化,探究化合物對生物學基本過程的影響,大大提高了毒性測試的速度[8]。目前,Tox21已經完成了第二階段工作,完成了1萬多種化學品的篩選,并在PubChem等公共平臺上實現了數據共享[2]。
Tox21計劃的順利實施使得毒性數據迅速增長,數據挖掘和機器學習的快速發(fā)展為計算毒理學提供了機遇和挑戰(zhàn)。計算毒理學通過運用計算化學、生物信息學和系統(tǒng)生物學的跨學科知識,構建insilico模型,以實現化學品環(huán)境暴露、危害與風險的高效模擬,從而確定化學物質的潛在危害,減輕高通量化合物評估的壓力[9]。計算毒理學在通量、成本和對化合物的可擴展性方面具有無可比擬的優(yōu)勢。目前的研究主要包含3個方面[10]:(1) 通過對高通量體外測試體系的數據挖掘,構建污染物影響復雜生命體和環(huán)境的相關知識庫;(2) 通過蛋白質組學、轉錄組學、基因組學和代謝組學等相互作用網絡的構建,結合計算機模擬等手段闡明污染物的致毒機制;(3) 建立具有預測功能的綜合毒理學模型,以定量和全面地評估化合物的安全性。
2010年,Ankley等[11]提出了有害結局路徑(adverse outcome pathway, AOP)框架,進一步闡述了毒性作用機制、毒性通路和生物學網絡的含義。它假設外源物質與生物系統(tǒng)的初始相互作用作為分子起始事件(molecular initiating event, MIE),通過細胞信號傳導等一系列關鍵事件(key events, KE),導致最終的有害結局(adverse outcome, AO)。AOP開發(fā)的模型涵蓋了一系列毒性終點和化學品,包括納米顆粒[12]和微塑料[13]等新型污染物。此外,數據挖掘和機器學習技術的不斷發(fā)展為AOP框架提供了新的思路[14]。在大數據的時代背景下,AOP可以幫助識別風險評估中的關鍵信息,從而確定監(jiān)管關注的重點,提高決策的效率(圖1)。
確定MIE對發(fā)展AOP框架尤為重要。分子模擬能夠從機理上解釋實驗現象,輔助化學品的風險評價工作,建立insilico預篩的優(yōu)先化學品清單,有潛力闡明關鍵的MIE?;瘜W品在觸發(fā)MIE之后,會進一步激活細胞信號傳導等一系列關鍵事件。隨著高通量測序技術和多組學技術(基因組學、轉錄組學、蛋白質組學和代謝組學等)的不斷進步,海量數據應運而生。面向多維度、多粒度和海量龐雜的各種組學數據,生物信息學作為一種分析和研究的手段發(fā)揮了不可替代的作用。生物信息學可通過網絡模型來映射細胞生化組分的關系,例如DNA序列與轉錄獲得的RNA或翻譯得到的蛋白質之間的關系。由此產生的相互作用網絡,在下游相關KE和AO的確定中發(fā)揮了重要作用。
圖1 毒理學評估的整體框架Fig. 1 The overview of comprehensive toxicological assessment
目前,數據挖掘和機器學習在毒理學中的研究日益增多,AOP也迅速發(fā)展。在Web of Science數據庫中輸入關鍵詞“machine learning toxicology or data mining toxicology”獲取近10年來數據挖掘和機器學習在毒理學領域的文章發(fā)表數量;輸入關鍵詞“adverse outcome pathway”獲取AOP文章的發(fā)表數量(圖2)。因此本文在闡明數據挖掘和機器學習的基礎上,結合AOP框架對計算毒理學發(fā)展現狀進行了進一步總結。第1節(jié)對機器學習和數據挖掘進行了簡要的概述;第2~4節(jié)分別介紹了QSAR模型、分子模擬和組學在毒理學中的應用;最后針對當前研究的不足提出了幾條針對性建議,以更好地適應當前大數據時代的研究背景。
圖2 近10年毒理學領域有害結局路徑(AOP)與數據挖掘和機器學習的文獻發(fā)表情況Fig. 2 Publication of data mining, machine learning and adverse outcome pathway (AOP) in the field of toxicology in the past ten years
機器學習能從大數據集中提取復雜的模式和關系,以預測數據的特定屬性[15]。經典統(tǒng)計建模方法一直是生物數據分析及其解釋的標準選擇。近年來,隨著人工智能技術的日益普及和高通量數據的不斷生成,機器學習在毒理學和健康風險領域也逐漸得到廣泛關注[16]。傳統(tǒng)模型通常是基于統(tǒng)計假設開發(fā),相比之下機器學習可以挖掘隱藏在實驗數據中的信息[17]。機器學習主要分為監(jiān)督學習、無監(jiān)督學習[18]和強化學習[19]。監(jiān)督學習通過學習已有自變量和因變量的對應關系,推斷出其他數據的功能,常用的算法包括支持向量機、決策樹和線性回歸等;無監(jiān)督學習僅獲取數據中的一組輸入,并在數據中尋找共性,例如數據的聚類,常用的算法有K-means和DBSCAN;強化學習主要用于描述和解決智能體在與環(huán)境的交互過程中通過學習策略以達成回報最大化或實現特定目標的問題。在毒理學領域,研究人員使用各種計算方法開發(fā)了許多毒性預測模型(如支持向量機[20]、隨機森林[21]、貝葉斯網絡[22]和神經網絡[23]等),在致癌性、致突變性和肝毒性等毒性終點方面也取得了重大進展。
數據挖掘與機器學習相輔相成,是從大型數據庫中提取有價值信息并且發(fā)現新科學規(guī)律的過程[24]。數據挖掘任務要求研究人員對數據足夠熟悉,以更好地對數據進行處理,達成應有的效果。毒性預測的準確性與數據質量和數量息息相關。在過去的幾年中,廣泛的數據收集已經建立了一些常用的毒性數據庫。表1提供了常用數據源及其描述。
QSAR主要包含分類模型和回歸模型。分類模型根據正負類毒性的信息空間,構建數學模型對未知化合物進行毒性分類;回歸模型可以預測單一的毒性值[33]。傳統(tǒng)QSAR模型往往針對單一毒性終點進行構建,難以解決復雜的毒性機制。AOP的提出把污染物毒性按照機制進行描述和分類,克服了傳統(tǒng)QSAR的關鍵難題,整合了孤立的單一毒性終點。在分子層面,可選擇不同受體的結合活性開發(fā)QSAR模型,例如過氧化物酶體增殖物激活受體γ(PPARγ)、雌激素受體(ER)和雄激素受體(AR)等;在細胞層面,可針對細胞活性和細胞增殖等毒性終點構建相應的QSAR模型;在個體層面,可針對發(fā)育毒性、致死濃度等毒性終點開發(fā)相應的QSAR模型。
自Tox21計劃實施以來,高通量數據集已成為數據挖掘任務的主要來源,它提高了模型的應用范圍,有利于更大范圍的化學品評估工作。例如,Tang等[34]利用Tox21高通量數據集和5種機器學習算法構建了QSAR分類模型。在進行數據預處理之后,作者篩選了4 811個數據點進行建模,將可預測化學品的領域擴展到殺蟲劑、市售藥品和商業(yè)化合物等,獲得的最佳模型在十倍交叉驗證和外部驗證中的正確分類率達到了81.8%和88.3%,充分展現出模型的預測性能,提高了模型的應用域。此外,Capuzzi等[35]使用隨機森林、深度神經網絡和各種描述符建立了高通量篩選的12種核受體信號通路的QSAR模型。結果表明,在平衡數據集后,模型平衡準確度在58%和82%之間??傊S著對高通量數據集研究的深入,未來毒性預測的質量也將不斷提高。
盡管高通量篩選技術極大地提高了毒性數據質量和效率,但目前的Tox21檢測獲得的數據仍然有限。為完善AOP的構建,前人針對其他數據庫展開了深入的挖掘。ECOTOX數據庫提供了有關化學品對水生和陸生物種的毒性信息,合計超過400多萬條測試記錄。Cao等[36]基于ECOTOX數據庫選取了824種化合物,結合6種機器學習方法與7種類型的分子指紋,開發(fā)了一系列QSAR模型。最佳模型外部驗證集精度達到了0.87。Vegosen和Martin等[37]從新西蘭環(huán)境保護機構、ACTOR數據庫、ECHA數據庫和TEST數據庫中獲取了85 000種化學品的信息,涉及急性口服毒性、急性吸入毒性和發(fā)育毒性等毒性終點,通過QSAR模型將所得化學品分為5級,完善了在個體層面的毒性風險評估。
表1 常用的毒性數據庫及其描述Table 1 Toxicity database and its description
此外,在增強模型的可解釋性上,前人亦做了深入探索。在大多數機器學習研究中,對可解釋性的探索通常停留在揭示特征的重要性上,而忽略了多個特征聯合作用下的關系。并且傳統(tǒng)基于決策樹的特征重要性評估往往取決于單一指標,所獲得的結果可能與經驗值大相徑庭。為了解決此問題,Yu等[38]提出了一種隨機森林特征重要性和特征交互網絡分析框架,該框架通過多因素分析克服了小數據集引發(fā)的特征重要性偏差,并根據新的特征重要性排名建立了特征交互網絡,提高了模型的可解釋性,揭示了隱藏的交互因素對納米材料毒性的影響。
發(fā)掘污染物與生物分子間的相互作用的關系網絡,探索分子作用的靶點和解析關鍵毒性通路,有助于評估污染物的生態(tài)風險性。錨定毒性作用的MIE是鏈接污染物AOP的關鍵環(huán)節(jié),是協助構建AOP和完善毒性風險評估的基礎。目前的實驗儀器不完全具備觀測微觀分子原子運動過程的時空分辨率,而這些過程卻蘊含了關鍵的機理。分子模擬作為計算毒理學中的一項新興技術,可在分子尺度上構建化合物-生物大分子靶標的分子模擬模型,有助于探索分子水平的微觀機理[39]。分子模擬的計算方法主要包括分子對接[40]和分子動力學[41]等。分子對接通過靶標和化學品之間能量匹配和空間匹配等實現相互識別,有利于分子間相互作用的快速評價;分子動力學是在牛頓力學的基礎上描述分子運動時間演化的方法,屬于經典力學的范疇,主要應用于蛋白質變換、通路機制分析以及小分子識別。
核受體是需要與配體結合后激活的一類轉錄因子,可調節(jié)與生物體發(fā)育和代謝控制相關的基因表達,經常作為AOP中的MIE,因此探究核受體的分子機制尤其關鍵。Li等[42]利用分子對接研究了不同條件下全氟烷基物質(PFASs)與雌激素受體(ER)蛋白的結合方式。結果表明,所有測試的PFASs均能結合在ER的表面域中,影響了ER與其他活化因子的結合。Xue等[43]通過數據挖掘與分子動力學相結合的方法,將ER與60個警示結構進行了模擬。結果顯示,大部分警示結構都通過氫鍵或范德華力結合在ER的口袋兩端并與氨基酸相互作用影響其表面構象,從而影響其活性。Cao等[44]利用分子對接和分子動力學模擬闡述全氟辛酸(PFOA)和全氟辛烷磺?;衔?PFOS)與ER結合特性,結果表明,PFOA和PFOS受到關鍵殘基His524的質子化狀態(tài)的調節(jié)。在亞酸性條件下,PFOA和PFOS更喜歡與質子化的His524形成氫鍵相互作用,從而導致共激活因子募集和轉錄激活。de Araujo等[45]將高親和力配體與甲狀腺激素受體(TR)的配體結合域對接,隨后進行分子動力學模擬,獲得了幾種配體-復合物的結構模型。結果表明,配體極性頭部的化學性質極大影響了受體-配體的親和力,從而影響其結合效率。
雖然高通量篩選的快速發(fā)展使得化學品的篩選速度和體量得到了巨大提升,但仍舊存在許多問題[46],一是標準化學品的來源稀缺;二是高通量篩選的方法不夠完善,檢測的指標不足;三是高通量篩選的試劑和儀器都非常昂貴,許多實驗室無法配備。因此在生物測試之前,可以采用虛擬篩選的方法確定優(yōu)先級較高的化學品和靶點。虛擬篩選方法包含2類:一是基于化學品相似性,二是基于靶標結構。前者需要搭建一個藥效團結構,從待篩化學品中選擇出特定毒性的化學品清單;后者需要搭建一個靶蛋白模型,從待篩生物靶點中選擇出體內作用靶點與代謝通路的清單。構建高通量虛擬篩選模型有利于MIE的確定。例如,Troger等[47]通過誘導契合對接的方法,找出了2種基于結構的藥效團模型,并在DrugBank和Chemspace數據庫中進行了虛擬篩選。篩選完成后,作者利用3種不同的機器學習模型進一步細化了命中列表,并選擇了排名最靠前的化合物進行實驗測試;通過層疊式方法,化合物在3種體外實驗中得到了測試,最終成功識別出特殊的線粒體呼吸復合體抑制物。作者強調了虛擬篩選和機器學習在化學品篩選中的潛力,為基于結構的復雜毒理學終點預測提供依據。
高通量組學技術結合生物信息學分析為進一步研究關鍵靶點和毒性通路提供了新的思路,有望加速AOP的發(fā)展和應用。生物信息學在整合基因組學、轉錄組學、蛋白質組學和代謝組學的毒理學研究中發(fā)揮了重要作用,從序列比對到基因發(fā)現與功能研究,從基因表達到蛋白質結構與功能預測,乃至于更為復雜的調控網絡、代謝網絡及蛋白質相互作用網絡等[48]。生物信息學作為以數據為驅動的組學研究領域常用技術,可以將化學品與其引發(fā)的DNA、RNA和蛋白質網絡變化關聯到一起,并進一步鏈接至invitro或invivo毒性終點,有利于進一步闡述KE和AO。利用生物信息學構建數據驅動的計算毒理學模型有利于綜合評估污染物引起的毒理效應。
多組學數據的整合為AOP網絡的構建提供了扎實的數據基礎。例如,Wang等[49]利用基于生物信息學數據挖掘的多組學技術揭示了磷酸三苯酯毒性機制,發(fā)現磷酸三苯酯可以激活癌基因,損傷DNA,導致氧化還原失衡和影響代謝水平,從而誘導肝毒性。Kang等[50]通過對代謝組學和轉錄組學進行差異表達分析和富集分析闡明了小球藻應對氧化石墨烯的應激和恢復模式,發(fā)現氧化石墨烯通過減少小球藻氮元素的水平影響其三羧酸循環(huán),從而進一步影響脂肪酸和氨基酸代謝等。Xia等[51]利用濃度依賴型簡化轉錄組學揭示了短鏈氯化石蠟跨物種機制差異,發(fā)現短鏈氯化石蠟可能介導與神經毒性相關的KE。Song等[52]通過差異表達分析和富集分析方法研究轉錄組學數據發(fā)現,內分泌干擾物質(EDCs)可以通過影響ER活性而影響上皮基因的表達,導致上皮細胞的擴增,且減少了細胞凋亡的誘發(fā),最終導致癌癥的發(fā)生。
數據挖掘和機器學習在預測化學品毒性方面的關鍵作用已得到充分證明。毒理學數據的增長、計算能力的提高和計算方法的優(yōu)化加速了計算毒理學在毒性預測和風險評估中的應用。但目前仍然存在一些挑戰(zhàn),例如:(1) 高度異構的數據源。不同數據庫所記錄的數據不一,需要開發(fā)能夠整合多種數據庫的工具。Neves等[57]已經利用KNIME平臺開發(fā)了PubChem和CHEMBL數據處理的工作流,可為今后數據的整合提供借鑒。(2) 在許多已報道的研究工作中,在生成特征之前,清洗和標準化化合物的過程仍不清楚且無法重現。因此,設計更加透明、自動化的數據清洗流程以滿足整合不同數據庫數據的預處理顯得十分必要。(3) 大多數機器學習模型通常被稱為“黑箱模型”,難以對污染物的毒性機制進行合理解釋。即使是高精確度的模型也不能輕易揭示這種預測背后的生物學機制[58]。因此開發(fā)具有透明機制和明確科學原理的“白箱”模型十分關鍵。(4) 分子描述符在建立QSAR模型中起著不可或缺的作用,有必要發(fā)展更多包含分子信息和可解釋性的描述符。例如Seal等[59]提出可用細胞形態(tài)特征作為QSAR建模中新的描述符。新描述符可從不同角度對模型進行機理解釋,從而提高模型的說服力和機理可解釋性。(5) Tox21項目只專注于生物學的幾個特定通路,目前的Tox21檢測還遠遠不全面。同時在進行毒性評估的過程中,許多工作僅僅關注于毒性評估的某個方面,缺少對污染物的綜合評估。(6) 生態(tài)風險評估的問題形成階段是確定AOP的關鍵。試圖闡明所有機制而不關心它們與特定結果的相關性將導致資源使用效率低下。因此可以從監(jiān)管關注的重點出發(fā),確定哪些毒性機制最有可能導致這些結果??傮w而言,隨著高通量篩選獲得數據的不斷累積以及計算機技術的不斷更新,機器學習將在理解化學品毒性機制和風險防控領域起到關鍵作用。
通訊作者簡介:李斐(1982—),女,博士,副研究員,主要研究方向為生態(tài)毒理學和計算毒理學。
共同通訊作者簡介:于進福(1980—),男,高級工程師,主要研究方向為大數據挖掘和機器學習。