美國能源部聯(lián)合基因研究所信息化應用現(xiàn)狀
編者按
為深入客觀反映國內(nèi)外信息化發(fā)展態(tài)勢,跟蹤世界各發(fā)達國家信息化的重大部署及應用,中科院條財局和中科院成都文獻情報中心開展了信息化專題情報調(diào)研,旨在反映信息化重要專題的現(xiàn)狀、發(fā)展趨勢及關鍵挑戰(zhàn)。
“國際頂尖科研團隊信息化應用現(xiàn)狀調(diào)研”專題報告重點調(diào)研了國際上具有重大產(chǎn)出的十個頂級科研團隊,從團隊研究方向、重大成果、組織結(jié)構及其所利用的信息化工具/資源/大型科研設施等多方面展開調(diào)查與總結(jié)。這些科研團隊的研究領域涉及生物學、醫(yī)學、網(wǎng)絡安全、物理學等。
調(diào)研發(fā)現(xiàn),十個科研團隊均十分重視使用信息化手段開展科研創(chuàng)新活動,在部門設置、崗位分布、信息化裝備設施等方面均對科研創(chuàng)新活動提供了有力保障,雖然調(diào)研的十個科研團隊學科方向不同,但他們均十分重視利用信息化手段提升信息的獲取、存儲和處理分析能力、增強團隊的協(xié)作配合能力等。本刊將分期連載分別闡述對各科研團隊的調(diào)研情況,本文介紹了美國能源部聯(lián)合基因研究所的相關情況。
國際頂尖科研團隊信息化應用現(xiàn)狀調(diào)研之一
現(xiàn)代網(wǎng)絡信息技術使當今社會發(fā)生了革命性的改變,對科學研究活動也產(chǎn)生了巨大的影響。海量科研數(shù)據(jù)的產(chǎn)生,科研和管理手段的變革,全球科技合作的訴求,地理國界樊籬的突破,這些都意味著科學研究急需信息化手段的支撐?!秶H頂尖科研團隊信息化應用現(xiàn)狀調(diào)研》專題報告重點調(diào)研了國際上具有重大產(chǎn)出的十個頂級科研團隊,從團隊研究方向、重大成果、組織結(jié)構及其利用的信息化工具/資源/大型科研設施等多方面展開調(diào)查與總結(jié)。
這些科研團隊的研究領域涉及生物學、醫(yī)學、網(wǎng)絡安全、物理學等,團隊具體包括:完成人類基因組部分染色體解碼分析工作的美國能源部聯(lián)合基因研究所、引領醫(yī)學研究/臨床實驗及教學的美國斯坦福大學醫(yī)學院、揭示人類語言障礙等疾病原因的德國馬普人類認知與腦科學研究所、驗證地月數(shù)據(jù)傳輸?shù)拿绹挚蠈嶒炇?、位?014年全球高校學術排名物理系第1位的美國加州大學伯克利分校物理系、探測到希格斯粒子的歐洲核子研究中心、創(chuàng)造出鍺錫半導體激光器的瑞士保羅謝爾研究所以及產(chǎn)生29位諾貝爾獲獎者的英國劍橋卡文迪許實驗室等。
團隊組織結(jié)構方面的調(diào)研結(jié)果顯示:這十大科研團隊均設置有專門負責信息技術/信息化規(guī)劃與部署的人員崗位,或是針對計算資源、設備服務、基礎設施、數(shù)據(jù)庫、數(shù)據(jù)科學等不同的側(cè)重點設立了專門的服務部門。例如,美國能源部聯(lián)合基因研究所和美國西北大學臨床與轉(zhuǎn)化醫(yī)學研究所均設置“首席信息官”崗位,英國劍橋卡文迪許實驗室設置了“網(wǎng)絡管理員”崗位;而霍華德·休斯醫(yī)學研究所的珍妮亞研究中心則設立了計算資源部,德國馬普人類認知與腦科學研究所設立了數(shù)據(jù)庫與IT小組。
信息化應用現(xiàn)狀方面的調(diào)研結(jié)果顯示:科研信息化軟件及工具包、信息化資源與數(shù)據(jù)庫、重大科技設施等有效地延伸了人的腦力、視力和體力,促進著大規(guī)??茖W計算、海量實驗和數(shù)據(jù)分析以及系統(tǒng)過程模擬與仿真,把人類開展科學研究的能力提高到了前所未有的高度。
例如,專業(yè)領域軟件、數(shù)據(jù)分析軟件、高性能計算機、網(wǎng)格并行計算系統(tǒng)、專業(yè)知識庫與數(shù)據(jù)庫等使海量的基因數(shù)據(jù)、醫(yī)學數(shù)據(jù)、物理學/天文學數(shù)據(jù)得以安全保存、快速檢索和分析,美國能源部聯(lián)合基因研究所順利完成人類基因組第5號、第19號和第16號染色體的解碼分析工作、林肯實驗室研究人員首次驗證了為太空居民提供人類所用網(wǎng)絡連接的可能性、美國加州大學伯克利分校物理系發(fā)現(xiàn)宇宙加速膨脹的現(xiàn)象;而大型強子對撞機、高強度加速器、電子顯微鏡、可視化環(huán)境和成像系統(tǒng)設施等重大科技設施實現(xiàn)了對理論預測粒子的驗證、微觀和納米層級的生物研究,歐洲核子研究中心發(fā)現(xiàn)了希格斯粒子、瑞士保羅謝爾研究所成功構建僅由IV族元素而成的半導體激光器、美國霍華德·休斯醫(yī)學研究所珍妮亞研究中心發(fā)明超分辨率螢光顯微鏡等等。
表1列出了此份調(diào)研報告涉及的十個機構/團隊,及其IT部門/人員和科研信息化現(xiàn)狀等概況。
美國能源部聯(lián)合基因研究所(JGI)成立于1997年,旨在整合勞倫斯伯克利國家實驗室、勞倫斯利弗莫爾國家實驗室和洛斯阿拉莫斯國家實驗室在基因組繪制、DNA排序、技術開發(fā)和信息科學中的專門技術和資源。
1.研究方向和重大產(chǎn)出
(1)研究方向
JGI旨在完成高通量DNA測序和分析,并支持能源部完成在可替代能源、全球碳回收、生物質(zhì)化學等領域的目標。具體的優(yōu)先事項包括開發(fā)充足的清潔能源、控制大氣中溫室氣體排放量,以及清潔受污染的場所等。
(2)重大產(chǎn)出
表 1 國際頂尖團隊及其 IT 組織結(jié)構和科研信息化應用現(xiàn)狀
圖1 JGI 主要工作人員架構
2004年,JGI陸續(xù)完成了人類基因組第5號、第19號和第16號染色體的解碼分析工作。繼這一成就之后,JGI繼續(xù)開展針對微生物物種和典型生物體的測序工作并將相關信息無償貢獻給公共數(shù)據(jù)庫,以此推進基礎科學的發(fā)展。
JGI不僅在DNA測序方面具有高產(chǎn)出(僅2014財年分析超過1百萬億條核苷酸),還發(fā)表了許多高質(zhì)量的出版物,其中數(shù)十篇重要論文刊發(fā)于《科學》和《自然》。
2013年,利用新興的單細胞DNA測序技術,科學家們窺探了過去難以開展研究的一些微生物,揭示了生命樹的不同分支之間意想不到的一些聯(lián)系。JGI微生物學家TanjaWoyke領導研究人員利用單細胞測序讀取了來自深海熱泉和地下金礦等9個不同環(huán)境,201種細菌及古細菌細胞的基因組。這些生物體過去從未在實驗室中進行過培養(yǎng)或是測序。研究結(jié)果發(fā)表在7月14日的《自然》雜志上。
更多新近研究成果可參見JGI網(wǎng)站“每周科學亮點”。
2.組織規(guī)模與結(jié)構
(1)組織規(guī)模
2004年,JGI成 為國家用戶設施。如今擁有2000多名來自世界各地的用戶。JGI聘請國際公認的遺傳學家埃迪·魯賓(Eddy Rubin)擔任所長,員工約250名。
(2)組織結(jié)構
JGI主要的戰(zhàn)略管理人員如圖1所示。其組織結(jié)構主要包括戰(zhàn)略管理、運營管理、基因技術組和項目管理辦公室等。
JGI的合作伙伴除勞倫斯伯克利國家實驗室、勞倫斯利弗莫爾國家實驗室和HudsonAlpha生物技術研究所外,還包括西北太平洋國家實驗室、橡樹嶺國家實驗室,以及新興技術機遇項目的合作伙伴(如斯坦福大學、華盛頓大學、麻省理工、維也納大學、亞利桑那基因組學研究所、加州大學伯克利分校等)。
1.主要信息化工具
JGI是植物、真菌、微生物等基因測序領域的全球引領者。通過基因測序數(shù)據(jù)處理和科學項目集成活動,JGI開發(fā)了許多基于計算生物方法的工具,應用于特定項目數(shù)據(jù)集。JGI成熟的對比分析系統(tǒng)被視為開展基因和元基因研究的重要資源,使全球科學家能進行原本特別昂貴甚至原本無法開展的研究。JGI已有工具如下所示。
(1)基因組門戶
基因組門戶(Genome Portal)提供對所有JGI基因組數(shù)據(jù)庫和分析工具的統(tǒng)一獲取。用戶能夠搜索、下載和利用所有JGI測序計劃的多個數(shù)據(jù)集,包括計劃的狀態(tài)、測序基因組的組裝和注釋。
(2)綜合微生物基因組綜合微生物基因組(IMG)系統(tǒng)以一種獨特的綜合的方式,對所有公開可獲取的基因組進行比較分析與注釋。按照用途,它可以分為以下組成部分。
①微生物基因組分析
IMG:為用戶提供分析工具(IMGUI Map),以檢驗可公開獲取的IMG基因組;
IMG專家評估(IMG/ER):為用戶提供分析工具(IMG UI Map),以檢驗和修改他們對可公開獲取IMG基因組中其私有基因組(有密碼保護)的注釋;
IMG教育(IMG/EDU):提供與微生物基因組分析相關的培訓與教學課程。
②宏基因組分析
微生物組樣品(IMG/M):為用戶提供分析工具(IMG UI Map),以檢驗IMG中可公開獲取的宏基因組樣品和基因組;
微生物組樣品專家評估(IMG/ M-ER):為用戶提供分析工具(IMG UI Map),以檢驗和修改他們對可公開獲取IMG基因組和宏基因組樣品中其私有基因組和宏基因組(有密碼保護)的注釋;
人類微生物組計劃(IMG-HMP):為用戶提供分析工具,以檢驗對IMG所有可公開獲取基因組和宏基因組樣品中的HMP特殊基因組和宏基因組樣品的注釋。
IMG向全球科學家開放,用于注釋、分析和傳播他們自身的基因組和宏基因組數(shù)據(jù)庫集,只要他們同意IMG的數(shù)據(jù)發(fā)布政策,并遵守將數(shù)據(jù)整合進IMG的元數(shù)據(jù)要求。
(3)VISTA
VISTA是一個包含對基因組序列進行比較分析的程序與數(shù)據(jù)庫的工具包。VISTA的利用有兩種方式:一種是向VISTA服務器提交用戶自身的序列和比對用于分析,一種是檢驗預先計算過的不同物種的全基因組比對。
海量科研數(shù)據(jù)的產(chǎn)生,科研和管理手段的變革,全球科技合作的訴求,地理國界樊籬的突破,這些都意味著科學研究急需信息化手段的支撐。
(4)比較植物基因組門戶
比較植物基因組門戶(Phytozome)將綠色植物的蛋白質(zhì)組組織成綠色植物進化樹中相應節(jié)點對應的基因家族。用戶可以研究某基因的進化史或?qū)⒉煌参锏幕蚍胖迷谧钋‘數(shù)幕蚣易逯小?/p>
Phytozome使在以生物體為中心和以基因家族為中心的視圖間的切換變得更加容易。
(5)MycoCosm網(wǎng)絡門戶
MycoCosm提供有關真菌比較基因組數(shù)據(jù)的獲取、可視化、分析工具,使用戶能夠瀏覽測序真菌基因組,對其進行比較和以真菌基因組為中心的分析與注釋。
(6)基因預測改進流程
基因預測改進流程(GenePRIMP)是由JGI的基因組生物小組開發(fā)的質(zhì)量控制工具,包括一系列計算單元,用于確定錯誤基因,并校正識別到的缺陷特征。
(7)宏基因組樣品分析的保真度宏基因組樣品分析的保真度(FAMeS)提供對模擬數(shù)據(jù)集的訪問,旨在推動宏基因組分析工具的標準化標桿。為了評估當前用于處理宏基因組序列的方法,通過整合從113個孤立基因組中隨機抽選出的測序標簽,構建不同復雜度的模擬數(shù)據(jù)集。這些數(shù)據(jù)集被用來模擬真實宏基因組的復雜度和系統(tǒng)構成。
(8)缺陷解決軟件
缺陷解決(Gap Resolution)軟件(用于科研用途)由JGI開發(fā),通過自動關閉由DNA重復區(qū)域所造成的序列缺陷來改進Bembler基因組。
(9)Polisher Polisher
Polisher Polisher(用于科研用途)是一個軟件包,用于對組裝基因組的錯誤校正。
(10)Rnnotator軟件
Rnnotator軟件由JGI的一個團隊開發(fā),通過提供自動化的軟件流程,無需參考基因組即可重新組裝RNA-序列數(shù)據(jù)產(chǎn)生副本模型,以解決與全面注釋和轉(zhuǎn)錄物組量化相關的挑戰(zhàn)。科研用戶可申請免費使用。
(11)基因組在線數(shù)據(jù)庫
基因組在線數(shù)據(jù)庫(GOLD)是一個網(wǎng)絡資源,用于訪問全球與基因組和宏基因組測序計劃相關的信息以及相關的元數(shù)據(jù)。
(12)RegPrecise
RegPrecise是一個對由比較基因組重建而成的轉(zhuǎn)錄調(diào)節(jié)子進行搜集、可視化和分析的網(wǎng)絡資源。
(13)Meraculous
Meraculous是與大基因組相關的下一代測序數(shù)據(jù)全基因組裝配器。通過利用輕量級數(shù)據(jù)結(jié)構和多線程并行,它實現(xiàn)了對大數(shù)據(jù)集處理的高性能,在商業(yè)集群上進行人類基因組大小規(guī)模的組裝僅需一天。同時處理過程的作業(yè)控制和監(jiān)測實現(xiàn)了高度透明化和移植性,不同的組裝階段能夠分別或同時在多種結(jié)構上進行。
2.信息化資源/數(shù)據(jù)庫
JGI通過基因組學網(wǎng)站(http://genome. jgi.doe.gov)向公眾開放原始和經(jīng)處理的研究數(shù)據(jù)。JGI還與能源部國家能源研究科學計算中心(NERSC)以及能源科學網(wǎng)(ESNet)建立穩(wěn)定的聯(lián)盟關系,以使用戶能高效可靠地利用基因組學的海量資源。
JGI將各種基因數(shù)據(jù)和功能注釋存放于能源部新的系統(tǒng)生物學知識庫(KBase,http://kbase.science.energy.gov/)。KBase是一款新興軟件和數(shù)據(jù)環(huán)境,使研究人員能協(xié)作生產(chǎn)、測試和共享有關基因及蛋白質(zhì)功能的新假說觀點;在大規(guī)模計算基礎設施上執(zhí)行大規(guī)模分析;模擬微生物、植物及其組織間的交互。
3.重大科技基礎大設施
JGI計算基礎設施JGI計算基礎設施如下。
(1)自2012年起,JGI投入大量的時間和精力打造升級基因池(Genepool)、JGI8000多個核計算集群以及包括“集成微生物基因組”、基因組學網(wǎng)站等網(wǎng)絡服務,并增強了計算機基礎設施和用戶接口,以使用戶團隊能更快更簡便地獲取數(shù)據(jù)。
(2)2013年8月,JGI“檔案與元數(shù)據(jù)組織器”(JAMO)正式上線。該分層數(shù)據(jù)管理系統(tǒng)能幫助JGI員工定位和重置數(shù)據(jù),或耗費幾分鐘(而不再需數(shù)小時)來完成分析。JAMO成為序列數(shù)據(jù)管理、質(zhì)量保證和質(zhì)量控制、基因組裝團隊之間的協(xié)作工具。
(3)在2013年,JGI利用了NERSCHopper超級計算機數(shù)百萬CPU小時,這些計算無法在基因池集群上完成。此外,JGI員工還利用NERSC最新的超級計算機Edison測試生物信息學算法。
(本文由中國科學院成都文獻情報中心供稿)