姚建華 徐雯麗 李 佳 黃 迎 凌 敏 胡 靜 蔣舒仰中國科學(xué)院上海有機(jī)化學(xué)研究所 (上?!?00032)
綜述與專論
大數(shù)據(jù)時(shí)代的農(nóng)藥創(chuàng)制
姚建華徐雯麗李佳黃迎凌敏胡靜蔣舒仰
中國科學(xué)院上海有機(jī)化學(xué)研究所 (上海200032)
摘要隨著農(nóng)藥創(chuàng)制研究和應(yīng)用工作的不斷積累和深入,農(nóng)藥的各種性質(zhì),如活性、毒性、代謝等的測量、記錄和分析數(shù)據(jù),已有一定的積累,并達(dá)到了一定的規(guī)模。隨著信息技術(shù)的發(fā)展,在農(nóng)藥創(chuàng)制中,有效地利用這些數(shù)據(jù)已成為可能。闡述了大數(shù)據(jù)的定義、特點(diǎn),提出了大數(shù)據(jù)時(shí)代的農(nóng)藥創(chuàng)制理念和農(nóng)藥創(chuàng)制的現(xiàn)代模式。
關(guān)鍵詞農(nóng)藥創(chuàng)制大數(shù)據(jù)數(shù)據(jù)分析性質(zhì)預(yù)測
2010年11月,聯(lián)合國糧農(nóng)組織和世界衛(wèi)生組織將農(nóng)藥定義為:在農(nóng)業(yè)生產(chǎn)和農(nóng)作物存儲(chǔ)過程中,具有殺死或控制有害生物、控制害蟲的行為或生理狀態(tài)的功能[1],以任何形式存在的單一組分或多組分的混合物及其制劑。農(nóng)藥的分類方法很多,根據(jù)防治對象的不同,主要可分為以下幾種類型:殺蟲劑、殺菌劑、除草劑、除藻劑、防污劑、抗微生物劑、殺線蟲劑、殺螨劑、昆蟲信息素、驅(qū)蟲劑和殺鼠劑等[2]。基于農(nóng)藥的定義,農(nóng)藥與化學(xué)、生態(tài)學(xué)、生物學(xué)、毒理學(xué)以及食品安全、人類健康、環(huán)境等領(lǐng)域的密切關(guān)系顯而易見。
早在公元前2000年,人類就開始使用農(nóng)藥保護(hù)農(nóng)作物。從20世紀(jì)開始,農(nóng)藥的研究和開發(fā)工作逐步進(jìn)入規(guī)范化狀態(tài)。至今,在農(nóng)藥研究和開發(fā)過程中,已產(chǎn)生了大量的化學(xué)、毒理學(xué)、生態(tài)學(xué)、生物學(xué)以及環(huán)境、食品安全、人類健康等方面的實(shí)驗(yàn)數(shù)據(jù)。人類使用農(nóng)藥的歷史很長,規(guī)范化的農(nóng)藥研究和開發(fā)也已有100多年的歷史,農(nóng)藥的創(chuàng)制理念和模式在很大程度上也有更新和完善,正逐步從傳統(tǒng)模式——“經(jīng)驗(yàn)/靈感,實(shí)驗(yàn)”的組合,轉(zhuǎn)化為現(xiàn)代模式——“經(jīng)驗(yàn)/靈感,虛擬技術(shù)和實(shí)驗(yàn)”的組合。
隨著信息科學(xué)[3]的發(fā)展,虛擬技術(shù)在科研、生活、工業(yè)等領(lǐng)域都顯示出它的作用和魅力。同樣,大數(shù)據(jù)時(shí)代,在農(nóng)藥研究和開發(fā)領(lǐng)域,特別是在提高新農(nóng)藥的創(chuàng)制效率、降低創(chuàng)制過程中的污染方面,它也將顯示出其特有的作用。本文將介紹大數(shù)據(jù)時(shí)代的農(nóng)藥創(chuàng)制理念和模式。
隨著信息科學(xué)和技術(shù)的發(fā)展,信息的記錄和存儲(chǔ)已變得非常便利,從而使得人類存儲(chǔ)信息量的增長速度比世界經(jīng)濟(jì)增長速度快4倍,而計(jì)算機(jī)數(shù)據(jù)處理能力的增長速度則比世界經(jīng)濟(jì)的增長速度快9 倍[4]。在這種情況下,大數(shù)據(jù)的概念產(chǎn)生,并已成為現(xiàn)實(shí)。
大數(shù)據(jù)通常是指采用超常功能軟件工具獲取、組織和管理的數(shù)據(jù)集,一般情況下,數(shù)據(jù)的原始積累需要很長的時(shí)間。大數(shù)據(jù)的大小是不斷變化的,如2012年,數(shù)據(jù)集中數(shù)據(jù)量就從百萬兆字節(jié)級(jí)變化為千萬兆字節(jié)級(jí)[5]。大數(shù)據(jù)的特點(diǎn)主要有5個(gè)[5]:數(shù)據(jù)的量(Volume)、數(shù)據(jù)的多樣性(Variety)、數(shù)據(jù)的速度(Velocity)、數(shù)據(jù)的可變性(Variability)和數(shù)據(jù)的復(fù)雜性(Complexity)。即“4V1C”。數(shù)據(jù)的量是評(píng)價(jià)數(shù)據(jù)價(jià)值和潛力的主要依據(jù)之一;數(shù)據(jù)的多樣性體現(xiàn)數(shù)據(jù)表征對象的范圍,對象范圍大,數(shù)據(jù)的價(jià)值和潛力就越大;數(shù)據(jù)的速度是指產(chǎn)生和處理數(shù)據(jù)的速度,速度越快越符合實(shí)際需求;數(shù)據(jù)的復(fù)雜性是指數(shù)據(jù)及其管理的復(fù)雜性,由于大數(shù)據(jù)的多樣性、變化性和巨大的數(shù)據(jù)量,導(dǎo)致數(shù)據(jù)本?身的復(fù)雜性較高,因此,具有處理大數(shù)據(jù)能力的方法的復(fù)雜性也非常值得關(guān)注。大數(shù)據(jù)的5個(gè)特征將隨時(shí)間的推移而發(fā)生變化,具體如圖1所示[6]。
大數(shù)據(jù)是一種資源,也是一種工具。它告知信息但不解釋信息[4]。大數(shù)據(jù)中的“大”不只因?yàn)槠洹傲俊贝?,而且還因?yàn)樗亩鄻有院蛷?fù)雜性。分析大數(shù)據(jù)一般會(huì)應(yīng)用多種數(shù)據(jù)分析方法。因此,在大數(shù)據(jù)時(shí)代,我們可以分析更多的數(shù)據(jù),有時(shí)候甚至可以處理某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù)。通過分析大數(shù)據(jù),我們可以更清楚地看到一些傳統(tǒng)數(shù)據(jù)無法揭示的現(xiàn)象。也許,大數(shù)據(jù)將改變?nèi)祟愄剿魇澜绲姆椒?,即人類將在大?shù)據(jù)的指導(dǎo)下探索世界,而不是僅用假想的方法。利用大數(shù)據(jù)作分析預(yù)測的流程[7]如圖2所示,即應(yīng)用數(shù)學(xué)算法分析海量數(shù)據(jù),以預(yù)測某些事件/性質(zhì)的潛在可能性。
圖1 大數(shù)據(jù)5大特征變化趨勢
圖2 大數(shù)據(jù)的分析預(yù)測流程
眾所周知,農(nóng)藥與化學(xué)、生物學(xué)、生態(tài)學(xué)、毒理學(xué)、環(huán)境以及人類健康關(guān)系密切。隨著人們對環(huán)境、生態(tài)保護(hù)意識(shí)的增強(qiáng)以及對人類健康的日益關(guān)注,對農(nóng)藥的評(píng)價(jià),已從單純地評(píng)價(jià)農(nóng)藥的效力,擴(kuò)展為既評(píng)價(jià)農(nóng)藥的效力,又評(píng)價(jià)它的環(huán)境友好性以及對人類和其他生物可能的危害性和毒性。
通常,農(nóng)藥包括活性化合物和助劑兩部分?;钚曰衔锏淖饔檬菤⑾x、殺菌、驅(qū)蟲、除草、殺螨、殺鼠等,助劑的功能是輔助活性化合物在被作用的生物上產(chǎn)生效力。因此,在農(nóng)藥創(chuàng)制中,活性化合物和助劑的設(shè)計(jì)和開發(fā)同等重要。從本質(zhì)上講,活性化合物和助劑都是化合物。就活性化合物而言,人們主要關(guān)注它的生物活性(如殺蟲、殺菌、除草等),急性毒性,致突變毒性,致癌毒性,代謝物及其對環(huán)境、生態(tài)和人類健康的影響。對于助劑而言,人們關(guān)注的是它與活性化合物組合后,是否能使活性化合物在相關(guān)的生物體上產(chǎn)生預(yù)期的效果。農(nóng)業(yè)生產(chǎn)對農(nóng)藥要求日益提高的同時(shí)也對助劑的性能提出了更高的要求,高效化、功能化、復(fù)合化、精細(xì)化、專業(yè)化、系列化、節(jié)能化、環(huán)保化已成為現(xiàn)代助劑發(fā)展的總趨勢。因此,助劑的急性毒性、致突變毒性、致癌毒性、代謝物及其對環(huán)境、生態(tài)和人類健康的影響等因素的評(píng)估,必須得到足夠的重視。
目前,在農(nóng)藥創(chuàng)制領(lǐng)域,科研人員已經(jīng)認(rèn)識(shí)到虛擬設(shè)計(jì)技術(shù)在提高農(nóng)藥創(chuàng)制效率、降低創(chuàng)制過程中治理污染等方面所起的重要作用。在國家科技部基礎(chǔ)研究項(xiàng)目的資助下,建立了若干具有自主知識(shí)產(chǎn)權(quán)的計(jì)算機(jī)輔助化合物設(shè)計(jì)方法和軟件系統(tǒng)[8],并建立了“農(nóng)藥的虛擬設(shè)計(jì)平臺(tái)”(如圖3所示),該平臺(tái)已在我國的農(nóng)藥和環(huán)保領(lǐng)域得到實(shí)際應(yīng)用,圖4顯示了該平臺(tái)所設(shè)計(jì)的化合物數(shù)量。該虛擬設(shè)計(jì)平臺(tái)主要由三大部分組成:數(shù)據(jù)庫、知識(shí)庫和軟件(主要功能為預(yù)測和機(jī)理研究)。在該平臺(tái)設(shè)計(jì)中,融入了大數(shù)據(jù)的理念——數(shù)據(jù)涉及化學(xué)、生物學(xué)、環(huán)境學(xué)、毒理學(xué)等學(xué)科,即數(shù)據(jù)既具有量大的特點(diǎn),又具有復(fù)雜性。它體現(xiàn)了多學(xué)科合作的特征。
圖4 2005~2013年化合物設(shè)計(jì)數(shù)
該平臺(tái)中的數(shù)據(jù)庫系統(tǒng)包括農(nóng)用化學(xué)品數(shù)據(jù)庫、化合物毒性數(shù)據(jù)庫、農(nóng)藥代謝數(shù)據(jù)庫和農(nóng)藥靶標(biāo)數(shù)據(jù)庫等;知識(shí)庫系統(tǒng)包括代謝知識(shí)庫、毒性知識(shí)庫和生物活性知識(shí)庫;軟件主要包括化合物農(nóng)藥活性、毒性、代謝途徑預(yù)測系統(tǒng),配體與受體相互作用計(jì)算軟件等。該平臺(tái)將信息檢索、性質(zhì)預(yù)測和機(jī)理研究三個(gè)功能集成在一起。
隨著農(nóng)藥創(chuàng)制領(lǐng)域的科研人員對虛擬技術(shù)在農(nóng)藥創(chuàng)制中作用認(rèn)識(shí)的不斷深入和提高,計(jì)算機(jī)輔助化合物設(shè)計(jì)方法和技術(shù)不斷發(fā)展,傳統(tǒng)的農(nóng)藥創(chuàng)制模式,最終將被現(xiàn)代的農(nóng)藥創(chuàng)制模式——“經(jīng)驗(yàn)/靈感,虛擬技術(shù)和實(shí)驗(yàn)”的組合模式(由圖5所示)所取代。
圖5 農(nóng)藥創(chuàng)制的現(xiàn)代模式
農(nóng)藥涉及多個(gè)學(xué)科領(lǐng)域,農(nóng)藥創(chuàng)制需要多學(xué)科的通力合作。在大數(shù)據(jù)時(shí)代,農(nóng)藥創(chuàng)制模式正在由傳統(tǒng)模式向現(xiàn)代模式轉(zhuǎn)變。由于多學(xué)科的合作,在創(chuàng)制過程中,可以獲得更多描述農(nóng)藥的數(shù)據(jù)。對這些數(shù)據(jù)進(jìn)行深入分析,也許可以得到隱藏在數(shù)據(jù)中不易察覺的重要信息。Viktor Mayer-Schonberger博士等[4]預(yù)言:大數(shù)據(jù)將改變?nèi)祟愄剿魇澜绲姆椒āT谛?shù)據(jù)時(shí)代,我們會(huì)假想世界是怎么運(yùn)作的,然后通過收集數(shù)據(jù)來驗(yàn)證這種假想。在不久的將來,我們會(huì)在大數(shù)據(jù)的指導(dǎo)下探索世界,不再受限于各種假想。我們的研究對象是數(shù)據(jù),也因?yàn)閿?shù)據(jù),我們發(fā)現(xiàn)了原本不相關(guān)的物質(zhì)間的關(guān)系。在癌癥研究中,人們已認(rèn)識(shí)到大數(shù)據(jù)的理念和技術(shù)對于研究的重要作用,他們的預(yù)言已得到認(rèn)可。該預(yù)言是否適用于農(nóng)藥創(chuàng)制領(lǐng)域,相信相關(guān)的科研人員會(huì)有自己的結(jié)論。
參考文獻(xiàn):
[1]WORLD HEALTH ORGANIZATION,FOOD AND AGRICULTURE ORGANIZATION OF THE UNITED NATIONS, Manual on development and use of FAO and WHO specifications for pesticides[Z].FAO/WHO Joint Meeting on Pesticide Specifications,Rome,2010.
[2]Pesticide[DB/OL].http://en.wikipedia.org/wiki/Pesticide, 2014-10-1.
[3]信息科學(xué)[DB/OL].http://baike.baidu.com/view/71603. htm?fr=Aladdin,2014-10-1.
[4]Mayer-Sch?nberger V,Cukier K.Big data:a revolution that will transform how we live,work and think[M].UK: Houghton Miffin Harcourt.2013.
[5]Big data[DB/OL].http://en.wikipedia.org/wiki/Big_Data, 2014-10-1.
[6]Big data meets big data analytics[DB/OL].http://www.sas.com/content/dam/SAS/en_us/doc/whitepaper1/big-datameets-big-data-analytics-105777.pdf,2014-10-1.
[7]Big data analytics and predictive analytics[DB/OL].http://www.predictiveanalyticstoday.com/big-data-analytics-and-predictive-analytics/,2014-10-1.
[8]http://202.127.145.116,2014-10-1.
中圖分類號(hào)TQ 450
收稿日期:2014年10月
基金項(xiàng)目:國家973項(xiàng)目(2010CB126103)
第一作者簡介:姚建華女1963年生研究員法國巴黎第七大學(xué)博士目前主要從事化學(xué)信息學(xué)及其應(yīng)用研究
Pesticide Discovery in the Era of Big Data
Yao Jianhua Xu Wenli Li Jia Huang Ying Ling Min Hu Jing Jiang Shuyang
Abstract:A long with the in-depth development of research and app lication of pesticides,the data ever measured, recorded and analyzed about the properties of pesticides(e.g.,activity,toxicity,metabolism)has been accumulated to a large scale.As information technology develops,it is possible to efficiently use the large-scale data in pesticide discovery. Elaborates the definition and features of big data and proposes the concept and modern mode of pesticide discovery in the era of big data.
Key words:Pesticide discovery;Big data;Data analysis;Property prediction