可持續(xù)發(fā)展
高效識別“已知的未知物質(zhì)”
盡管“大數(shù)據(jù)”一詞由來不久,但是科學(xué)家們早已試圖尋找各種方法,從而對爆發(fā)式增長的化學(xué)數(shù)據(jù)進(jìn)行管理和分析。當(dāng)年,美國化學(xué)文摘社旗下的CAS REGISTRY數(shù)據(jù)庫收錄第1 000萬個獨一無二的有機和無機物質(zhì),歷時30余年。而如今,CAS REGISTRY數(shù)據(jù)庫最近收錄1 000萬個物質(zhì)只需要半年不到的時間。目前,CAS REGISTRY數(shù)據(jù)庫收錄了數(shù)百萬的化學(xué)物質(zhì)數(shù)據(jù),被業(yè)界譽為化學(xué)物質(zhì)信息的“黃金標(biāo)準(zhǔn)”。
事實上,收錄數(shù)據(jù)并非易事。處理大數(shù)據(jù)的挑戰(zhàn)在于,在確保即時結(jié)果有效性的前提下,還需使用不同方法對文本信息、物質(zhì)結(jié)構(gòu)以及數(shù)值數(shù)據(jù)進(jìn)行管理與分析。化學(xué)家們常常會依賴基于計算機的手段,對海量的信息進(jìn)行有效地解讀與分析,如此一來,他們就可以快速回到實驗室從事研究工作。我們可以從科學(xué)家收集并分析物質(zhì)性質(zhì)的角度來闡述這一個觀點。
作為物質(zhì)性質(zhì)數(shù)據(jù)的可靠信息來源,CAS REGISTRY數(shù)據(jù)庫在2014年3月份已經(jīng)收錄了8 600多萬種有機和無機物質(zhì)。化學(xué)家們可以通過CAS REGISTRY數(shù)據(jù)庫中獲得48億個預(yù)測及實驗性質(zhì)和譜圖標(biāo)簽,同時還能基于物質(zhì)性質(zhì)的共性,對已知的化合物進(jìn)行性質(zhì)對比,對未知的化合物進(jìn)行探究。如通過可觀測的熔點檢索具備相似性質(zhì)的潛在化合物。
化學(xué)家們通常會利用大型的物質(zhì)數(shù)據(jù)庫去說明質(zhì)譜分析法的結(jié)果。20世紀(jì)60年代末,絕大多數(shù)的質(zhì)譜儀只能測定標(biāo)稱質(zhì)量數(shù)據(jù)。如今,新型的質(zhì)譜儀具備更強大的功能,不僅能夠測定精確的質(zhì)量數(shù)據(jù),還能將誤差控制在百萬分之幾的范圍內(nèi)。即便先進(jìn)的儀器能夠提供分子式數(shù)據(jù),但熟練的質(zhì)譜分析員仍然急需解決一個問題,那就是如何將這些數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)式數(shù)據(jù)。因此,基于計算機可獲得的物質(zhì)數(shù)據(jù)庫及其實驗性數(shù)據(jù)能夠幫助科學(xué)家們節(jié)省時間和預(yù)算。
2011年,伊士曼公司研究員James Little在《美國質(zhì)譜學(xué)會志》上發(fā)表的一篇論文提到,他和同事引用了Donald Rumsfeld提出的“已知的未知物質(zhì)”來描述這樣一類物質(zhì):雖然對于研究人員來說是未知的,但它有可能已經(jīng)存在于已公開的物質(zhì)數(shù)據(jù)庫中。Little的論文以一些細(xì)微樣品的發(fā)現(xiàn)歷史作為引言,并詳細(xì)介紹了如何將罐頭涂層工藝中發(fā)現(xiàn)的污染物識別為一種特定環(huán)狀二聚體的研究案例。通常情況下,當(dāng)合適的食品模擬溶劑接觸到食品包裝中的聚合物涂層后,會生成可萃取物。而美國食品藥物管理局對上述生成的萃取物有著非常嚴(yán)格的規(guī)定。在這個案例中,當(dāng)合作實驗室的研究人員將伊士曼公司生產(chǎn)的聚酯涂層涂覆到金屬罐上時,通過液相色譜質(zhì)譜聯(lián)用儀(LCMS)觀察發(fā)現(xiàn),罐頭涂層上的萃取物(即污染物)不僅包括常見的直鏈和環(huán)狀聚酯,還出現(xiàn)了一種意想不到的UV吸收物質(zhì)。
Little的團(tuán)隊利用精確的電噴霧質(zhì)譜分析,確認(rèn)該污染物中含有分子式C36H40O6,隨后使用CAS旗下的檢索工具SciFinder對這個分子式進(jìn)行檢索,得到近200個相關(guān)物質(zhì)的信息。由于研究人員熟悉一些樣品的來龍去脈,因此他們檢索了所有學(xué)術(shù)參考資料,并以“罐頭涂層”作為關(guān)鍵詞去篩選專利和期刊文章。最終,根據(jù)四篇參考文獻(xiàn)的資料,研究人員發(fā)現(xiàn)一種常見于環(huán)氧樹脂罐頭涂層的萃取物Cyclo-DiBADGE(CAS登記號為20583-87-3)與污染物的所有數(shù)據(jù)信息相匹配。原來,合作實驗室的研究人員不小心將另一家公司的環(huán)氧樹脂涂料涂染到伊士曼公司的聚酯涂層上,才發(fā)生了這次“小意外”。除了上述方法,研究人員還可以利用SciFinder最近新添的檢索功能來搜索并識別這一污染物,即根據(jù)物質(zhì)的分子量來檢索。盡管化學(xué)數(shù)據(jù)庫中有許多物質(zhì)的數(shù)值屬性信息,考慮到分子量與質(zhì)譜分析有著非常密切的關(guān)系,SciFinder數(shù)據(jù)庫還會專門將其收錄進(jìn)來。
如今的質(zhì)譜分析調(diào)查顯示,分子態(tài)離子的質(zhì)量可以通過直接檢索分子量獲得。隨后對列出的一系列物質(zhì)選項進(jìn)行篩選,即可破譯“已知的未知物質(zhì)”的結(jié)構(gòu)。例如,假設(shè)某一種巴比妥酸鹽可能會導(dǎo)致血液成分不均衡。同時,質(zhì)譜分析儀顯示該物質(zhì)的分子態(tài)離子的質(zhì)量約為232.24。在此基礎(chǔ)上檢索該物質(zhì)的分子量,然后根據(jù)引用的頻率對檢索結(jié)果進(jìn)行排序,很快就會查到該物質(zhì)最有可能是苯巴比妥。最后利用SciFinder確認(rèn)這一結(jié)果,即在SciFinder中查詢實驗性質(zhì)譜數(shù)據(jù),將其與該物質(zhì)最近測量的質(zhì)譜進(jìn)行對比。當(dāng)一個化學(xué)物質(zhì)數(shù)據(jù)庫擁有大量物質(zhì)性質(zhì)和質(zhì)譜信息時,它能夠幫助研究人員提高研究效率、節(jié)省時間和金錢。
美國化學(xué)文摘社Roger Schenck
(本欄目編輯:涂閩)