文/陳文波 張洋
昆士蘭大學(xué)和莫納什大學(xué)是兩所澳大利亞著名的高等學(xué)府,都以其卓越的教學(xué)和精湛的科研在國際享有聲譽。在最新的QS大學(xué)排名中,昆士蘭大學(xué)位居世界第47位,莫納什大學(xué)位居第60位。昆士蘭大學(xué)在21個領(lǐng)域的教研水平達(dá)到或超過國際一流水平,其中生物和臨床醫(yī)學(xué)、應(yīng)用生物、環(huán)境科學(xué)、物理等7個領(lǐng)域達(dá)到世界領(lǐng)先水平。莫納什大學(xué)有27個專業(yè)位列世界大學(xué)學(xué)科排名前50內(nèi),其中藥劑與藥理學(xué)專業(yè)位列全球第2位,僅次于哈佛大學(xué)。隨著澳大利亞國家e-Research研究計劃的實施,兩所大學(xué)都開始利用其優(yōu)勢和學(xué)校各學(xué)院、國際組織、國外大學(xué)共同開展跨學(xué)科的合作創(chuàng)新科學(xué)研究。其中昆士蘭大學(xué)研究計算中心和莫納什大學(xué)e-Research中心以獨特的優(yōu)勢為該校的科研信息化帶來新的發(fā)展和活力。
昆士蘭研究計算中心
昆士蘭研究計算中心(QRCC)成立于2011年,它受到昆士蘭大學(xué)在e-Research上的大量可持續(xù)投資支持,幫助昆士蘭大學(xué)的研究人員跨越學(xué)科,充分利用如高性能計算、數(shù)據(jù)存儲、數(shù)據(jù)管理、可視化、工作流和視頻會議等e-Research技術(shù),通過研究協(xié)作,整合先進(jìn)的計算手段、數(shù)據(jù)分析和其他數(shù)字研究工具,促進(jìn)該學(xué)校自然科學(xué)、工程、人文和社會科學(xué)的發(fā)展。該中心利用政府在昆士蘭大學(xué)的網(wǎng)絡(luò)基礎(chǔ)設(shè)施基金會(QCIF)、國家e-Research協(xié)作工具和資源(NeCTAR)、研究數(shù)據(jù)存儲基礎(chǔ)設(shè)施(RDSI)和澳大利亞國家數(shù)據(jù)服務(wù)(ANDS)等方面的投資,與QCIF、云計算和數(shù)據(jù)存儲服務(wù)中心以及澳大利亞云計算研究中心的昆士蘭大學(xué)節(jié)點合作,充分利用自身、學(xué)院、研究中心、研究所和其他支持團體的專業(yè)知識,在生物科學(xué)(特別是生物信息學(xué)和基因組學(xué))、計算工程、環(huán)境與生態(tài)、人文社會科學(xué)、高級成像等方面取得了很大的成就[1]。
QRCC由多部門和團隊組成,研究涉及多項e-Research研究方法的關(guān)鍵技術(shù),如云計算、數(shù)據(jù)管理、高性能計算、工作流程工具和可視化,將這些技術(shù)、計算設(shè)施和其他學(xué)科的研究緊密結(jié)合,對加速本校的科學(xué)研究進(jìn)程起到了至關(guān)重要的作用。
昆士蘭大學(xué)有三個比較大的國家級高性能計算資源:Tinaroo、FlashLite、Awoonga[2]。其中Tinaroo是一個傳統(tǒng)的高性能計算集群,擁有6000個核心和30TB的內(nèi)存,主要用于緊耦合的并行應(yīng)用;FlashLite主要用于一些數(shù)據(jù)密集型研究(例如基因組學(xué)和天文學(xué));Awoonga是QRCC與QCIF2017年合作建立的一個新集群。Awoonga具有強大的計算環(huán)境,支持Nimrod參數(shù)掃描和工作流程工具,主要用于串行或適度并行計算優(yōu)化、高吞吐量的工作。而且Awoonga和Tinaroo 、FlashLite共享文件系統(tǒng)、軟件和環(huán)境,使得三個集群之間的作業(yè)遷移變得非常方便。VLSCI是在維多利亞州一個專為生命科學(xué)計算(大腦研究所、生物與納米科技研究所、生物分子所)提供的超級計算中心,在該地區(qū)有非常大的影響力,主要提供維多利亞州的研究人員使用。
QRIScloud是QRCC和QCIF合作建立為該校的研究人員提供云計算和數(shù)據(jù)存儲服務(wù),目的是為了激勵各個學(xué)科的研究人員對云計算的研究,并加強與國內(nèi)外其他研究人員的合作。在QRIScloud平臺,研究人員可以與全球合作者共享數(shù)據(jù)集;隨時管理訪問他們的數(shù)據(jù)集;利用存儲在各州和國家研究數(shù)據(jù)存儲基礎(chǔ)架構(gòu)(RDSI)節(jié)點中的數(shù)據(jù)集,整合訪問昆士蘭的高性能計算設(shè)施和專業(yè)化的云服務(wù);虛擬實驗室訪問等。
QRCC也從事數(shù)據(jù)存儲技術(shù)方面的研究。他們開發(fā)了用于大學(xué)內(nèi)部的高性能數(shù)據(jù)存儲架構(gòu)MeDiCI(Metropolitan Data Caching Infrastructure)。MeDiCI是一個分布式文件系統(tǒng),研究者無論在何時何地創(chuàng)建數(shù)據(jù)、操作數(shù)據(jù)、存儲數(shù)據(jù),MeDiCI都可以無縫訪問到這些數(shù)據(jù)。另外學(xué)校的圖書館主要負(fù)責(zé)數(shù)據(jù)管理計劃、元數(shù)據(jù)設(shè)計和管理、研究數(shù)據(jù)出版標(biāo)準(zhǔn)。
現(xiàn)代科學(xué)是一個復(fù)雜的過程,它通常涉及多個資源的協(xié)調(diào),如儀器、計算機和數(shù)據(jù)存儲,以及多個邏輯和學(xué)科交叉。多年來,研究人員一直在努力構(gòu)建網(wǎng)格中間件來彌合不同硬件和軟件之間的差距。雖然網(wǎng)格中間件功能強大,但對于普通科學(xué)家來說卻相當(dāng)復(fù)雜,而科學(xué)工作流不需要他們對網(wǎng)格計算有廣泛的了解??茖W(xué)工作流主要涉及科學(xué)研究中各個步驟的自動化、管理和執(zhí)行,有助于科學(xué)研究的重復(fù)性。它可以提供廣泛的預(yù)定義組件,比如從傳感器獲取需要輸入的數(shù)據(jù)、查詢數(shù)據(jù)庫、數(shù)據(jù)挖掘、數(shù)據(jù)執(zhí)行再到可視化結(jié)果。目前有很多的工作流工具,QRCC主要使用Nimrod、kepler和 Galaxy[3]。
可視化是幫助研究人員深入了解數(shù)據(jù)和計算模型的圖形說明,可以讓研究者獲得更加直觀的體驗。可視化工具和服務(wù)幫助研究人員通過使用圖形、色彩和交互性來從他們的數(shù)據(jù)中建立影像。隨著世界研究數(shù)據(jù)的增長,可視化越來越多地用于顯示數(shù)據(jù)的變化趨勢或模式,并有效地傳遞研究信息和研究結(jié)果。QRCC的可視化專家與本校研究人員合作,幫助他們實現(xiàn)研究需求,目前有Matlab、VTK、ParaView和POV-Ray等可視化工具。
Bill & Melinda Gates基金會資助的項目主要涉及美國、非洲、南美和澳大利亞的研究人員,旨在改善作農(nóng)物生長和甘薯的遺傳構(gòu)成,幫助撒哈拉以南世界上最貧窮的非洲地區(qū)。在全球研究合作中,昆士蘭大學(xué)的科學(xué)家使用FlashLite高性能計算設(shè)備來開展此項工作,以提高紅薯的質(zhì)量。該學(xué)校分子生物學(xué)研究所開發(fā)了基因組、遺傳和生物信息學(xué)軟件工具的數(shù)字平臺,可以幫助全世界的研究人員有效地對甘薯基因組測序。而這些工作依賴于有足夠內(nèi)存、存儲空間和快速I / O速度的超級計算機[4]。
目前澳大利亞政府列出全國有1800多種動植物瀕臨滅絕,但是迄今為止卻沒有關(guān)于受威脅物種趨勢的全國性報告,這種情況對政府來說會造成重大的政策和管理后果。該項目由澳大利亞各地的研究人員組成,并與澳大利亞環(huán)境和能源部門合作,意在開發(fā)一種工具能夠?qū)Π拇罄麃喩锒鄻有缘膹V泛狀況進(jìn)行全面的報告。項目得出的指數(shù)為澳大利亞瀕危和瀕臨滅絕的物種變化提供了可靠而有力的衡量標(biāo)準(zhǔn)。另外項目還將得到一些更加一致和透明的報告如澳洲生物多樣性的變化,并幫助那些致力于保護(hù)受威脅物種的工作者。這是澳大利亞首次發(fā)布瀕危物種指數(shù),在全球范圍內(nèi)也是首次。該項目的結(jié)果是建立一個綜合的國家瀕危物種數(shù)據(jù)庫,以便將指數(shù)永久地結(jié)合起來。推動這一項目的博士后研究員Elisa Bayraktarov博士說,這種指數(shù)不僅需要一種可靠的方法來計算和可視化瀕危物種數(shù)量的變化,還需要大量的數(shù)據(jù)處理。該項目用到了工作流軟件Nimrod,并且使用了QRIScloud存儲數(shù)據(jù)和多核的并行計算來完成數(shù)據(jù)的處理,最后對結(jié)果進(jìn)行可視化顯示并對公眾開放[5]。
研究結(jié)果的重現(xiàn)性長期以來是科學(xué)家們的熱門話題。科學(xué)研究中數(shù)據(jù)快速增加、計算日益密集,重現(xiàn)他人的研究變得越來越難。所以由陸地生態(tài)系統(tǒng)研究網(wǎng)絡(luò)(TERN)和QRCC開發(fā)了虛擬桌面形式的可再現(xiàn)科學(xué)基礎(chǔ)設(shè)施CoESRA。CoESRA是一個免費的虛擬桌面環(huán)境,為研究人員提供一個可移植的、強大的計算環(huán)境來運行實驗并分享他們的工作。它配備Kepler和Nimrod科學(xué)工作流系統(tǒng)軟件,同時QRIScloud為CoESRA提供計算和存儲基礎(chǔ)服務(wù)。CoESRA旨在使生態(tài)系統(tǒng)科學(xué)研究以其他方式重現(xiàn)、構(gòu)建、執(zhí)行、共享可重復(fù)的基于工作流的科學(xué)實驗。用戶不需要下載任何軟件就能夠通過云平臺創(chuàng)建、執(zhí)行和共享數(shù)據(jù)模擬、可視化、數(shù)據(jù)和分析結(jié)果,而且整個過程鏈可以被存儲并與其他科學(xué)家共享,從而提高了研究結(jié)果的可重復(fù)性和透明性,也大大降低他人重新啟動實驗的成本[6]。
莫納什大學(xué)e-Research中心(MeRC)建于2006年,一直致力于將先進(jìn)的計算和信息技術(shù)應(yīng)用于重要的研究問題來加速科學(xué)研究。中心的主要作用是與大學(xué)的研究團體合作,和他們一起提高研究團隊的e-Research研究能力并使之達(dá)到一個新的水平,然后將他們連接到最適合的機制或服務(wù),以使該研究團體能夠維持這種能力。該中心與學(xué)校老師、澳大利亞研究機構(gòu)和設(shè)施以及全球研究團體開展合作,也是國際e-Research項目的領(lǐng)導(dǎo)者,運營著多個國家項目,包括大型高性能計算設(shè)施、Petascale數(shù)據(jù)存儲基礎(chǔ)設(shè)施以及國家特色虛擬實驗室[7]。中心主要提供包括 Collect、Compute、Comprehend、Collaborate、Communicate 和Customize等特色服務(wù)。
莫納什大學(xué)e-Research中心
在研究項目中,研究人員需要有效地管理、安全地存儲和備份他們的數(shù)據(jù)來確保研究數(shù)據(jù)的可用性。Collect服務(wù)為研究人員提供了從儀器和實驗中獲取數(shù)據(jù)、管理數(shù)據(jù)、共享數(shù)據(jù)到數(shù)據(jù)重用的解決方案。VicNode是該中心為研究者提供的一個千兆億級集中式存儲項目[8]。它能夠為各種研究數(shù)據(jù)提供一個安全、可持續(xù)的輕松存儲和共享研究數(shù)據(jù)服務(wù)。VicNode也是澳大利亞國家研究數(shù)據(jù)服務(wù)的一部分,存儲位于維多利亞州的墨爾本大學(xué),并和AARNet高速連接。除此之外,莫納什大學(xué)還部署了一個專門連接科學(xué)儀器設(shè)施的數(shù)據(jù)平臺MyTardis,它可以協(xié)助研究人員儲存、管理、分享和傳播科學(xué)儀器產(chǎn)生的數(shù)據(jù)[9]。如該平臺和基因測序儀器整合,通過提供一種自動和結(jié)構(gòu)化的方法來捕獲、存儲和共享該測序儀器運行的結(jié)果,并與相關(guān)的質(zhì)量報告和元數(shù)據(jù)共享,從而使設(shè)施管理人員和基因測序器用戶受益。目前MyTardis應(yīng)用在顯微鏡、顯微分析、粒子物理學(xué)、下一代測序和醫(yī)學(xué)成像等研究人員的數(shù)據(jù)管理,澳大利亞10多所大學(xué)和研究機構(gòu)都在使用這套系統(tǒng)。
該項服務(wù)主要是利用高性能計算設(shè)施來進(jìn)行數(shù)據(jù)的處理、模擬、仿真和可視化。莫納什大學(xué)的高性能計算設(shè)施包括國家計算基礎(chǔ)設(shè)施(NCI);澳大利亞多模態(tài)科學(xué)成像和可視化環(huán)境 (MASSIVE)[10]; 莫納什大學(xué)集群(MonARCH)和莫納什研究云 (R@CMon)。其中MASSIVE是澳大利亞的一個用于科學(xué)數(shù)據(jù)成像和可視化應(yīng)用的專業(yè)級高性能計算設(shè)施,它提供軟硬件和專家驅(qū)動了該校生物醫(yī)學(xué)的研究。尤其適合一些需要高速并行處理的圖像分析、交互式可視化、建模和仿真以及渲染的大型可視化項目。該設(shè)施產(chǎn)生的CVL(Characterisation Virtual Laboratory)是由NeCTAR項目支持的一個虛擬實驗室。它將澳大利亞研究成像的設(shè)備、計算與數(shù)據(jù)存儲基礎(chǔ)設(shè)施和工具結(jié)合起來,通過一個基于云的遠(yuǎn)程桌面環(huán)境提供可以訪問成像工具和數(shù)據(jù)的在線環(huán)境,并用它提供的一系列工具為原子探針、神經(jīng)成像、結(jié)構(gòu)生物學(xué)、X光影像和一般數(shù)據(jù)成像等項目進(jìn)行數(shù)據(jù)處理。這個項目對澳大利亞科學(xué)家未來的研究能力至關(guān)重要。在2017年的一個評估中,它和其他三個國家級虛擬實驗室被認(rèn)為投資回報(ROI)至少是對每個虛擬實驗室每個指標(biāo)投資的兩倍,也表明該服務(wù)具有顯著的經(jīng)濟和用戶影響。
沉浸式可視化(Immersive Visualization)技術(shù)促進(jìn)了對研究數(shù)據(jù)的理解,并有可能導(dǎo)致新的研究發(fā)現(xiàn)。Comprehend服務(wù)提供的莫納什大學(xué)可視化平臺(MIVP) 運營著莫納什大學(xué)許多先進(jìn)的、大規(guī)模的可視化設(shè)備,目標(biāo)是通過與科研團隊合作,創(chuàng)新和促進(jìn)沉浸式、協(xié)作式的數(shù)據(jù)和環(huán)境可視化的新范式來改變可視化實踐,并支持和加速大數(shù)據(jù)時代協(xié)同、可視化發(fā)現(xiàn)在學(xué)術(shù)和商業(yè)研究中的應(yīng)用[11]。CAVE2項目,一個混合2D和3D的虛擬現(xiàn)實環(huán)境讓莫納什大學(xué)在數(shù)據(jù)可視化領(lǐng)域展現(xiàn)卓越的能力。Encube項目,一個用于定性、定量、對比的可視化和分析應(yīng)用,適用于高分辨率、沉浸式三維環(huán)境。該項目被用來觀察和比較大腦的擴散MR圖像、星系的中性氫圖和斑馬魚的共聚焦顯微鏡圖像。Supercell項目是對澳大利亞內(nèi)陸地區(qū)以及珊瑚礁的精密激光掃描和攝影測量進(jìn)行的渲染,可以讓這些水下環(huán)境一覽無余。
研究人員通常需要與世界各地其他研究機構(gòu)的同事合作,并跨越研究領(lǐng)域。該項服務(wù)為研究人員提供各種解決方案,以促進(jìn)和加強他們之間的研究合作。其中一個比較有特色的項目就是Confluence,它是一個企業(yè)wiki,為用戶提供一個安全、穩(wěn)定和可定制的wiki環(huán)境。利用Confluence研究者可以查詢、創(chuàng)建、共享和討論的文件、思想、會議記錄、模型、圖表和項目,成為莫納什大學(xué)團隊協(xié)作和共享知識的地方[12]。Sakai是一個旨在幫助導(dǎo)師、研究人員和學(xué)生創(chuàng)建合作網(wǎng)站的一套軟件工具。不同的用戶可以根據(jù)自己的需求建立不同特色的站點,如項目發(fā)布和資源共享、在線討論、電子提交作業(yè)等[13]。
這項服務(wù)有助科研人員于發(fā)現(xiàn)、訪問和重用研究數(shù)據(jù),支持他們的研究結(jié)果,增強研究的影響,并幫助研究人員遵守項目資助的規(guī)則。莫納什大學(xué)RDA(Research Data Australia ) 項目可以讓師生在100多個澳大利亞研究機構(gòu)、政府機構(gòu)和文化機構(gòu)中尋找、獲取和可重用的研究數(shù)據(jù)。Figshare項目是專為莫納什大學(xué)研究人員和研究生提供的協(xié)作式數(shù)字存儲庫,用來描述莫納什大學(xué)所有的研究成果。它提供近650種類型的文件存儲,可以安全的管理私人或公開的研究成果,使用者隨時訪問在線數(shù)據(jù),所有的成果通過DOI方便引用或其他研究者訪問,大大促進(jìn)了研究合作[14]。
這項服務(wù)使研究人員能夠輕松訪問高級的軟件和網(wǎng)絡(luò)開發(fā)人員為研究者開發(fā)創(chuàng)新和定制的軟硬件。CART是一種在線數(shù)據(jù)管理工具,幫助研究人員在單一的集成環(huán)境中存儲和分析其數(shù)據(jù)。它可以完成分布式的數(shù)據(jù)捕捉、集中式的數(shù)據(jù)存儲、靈活的數(shù)據(jù)整合和模型的可視化功能,目前該工具被應(yīng)用到澳大利亞的一個促進(jìn)城市綠色、低碳的項目中[15]。
通常,我們可以通過CAT掃描獲得想要的肺部圖像。但是當(dāng)它用來促進(jìn)診斷、治療某些肺部突然疾病的時候往往需要圖像變得更加清晰,從而更好地理解肺的工作方式,比如將靜態(tài)圖像轉(zhuǎn)換到3D的運動視圖。 莫納什大學(xué)Andreas Fouras教授用了5年的時間捕獲了肺和其他器官的3D運動視圖。他首先使用澳大利亞同步加速器的醫(yī)療束線獲得干凈、清晰和高質(zhì)量的圖像。然后他在MASSIVE上使用可計算的斷層掃描X射線測速技術(shù)來開發(fā)3D運動視圖。通過這項技術(shù),他們已經(jīng)能夠證明如果肺部發(fā)病或受傷,肺部會發(fā)生不同的運動,這樣可以幫助早期的肺部疾病診斷。
如果一架飛機在飛行時阻力減少10%,可以節(jié)省15億澳元的燃料成本并減少環(huán)境污染。由于邊界層的結(jié)構(gòu)根據(jù)物體的大小、方向和速度可能會發(fā)生劇烈、而不可預(yù)知的變化,所以了解邊界層的湍流機制仍然是一個挑戰(zhàn)。莫納什大學(xué)Julio Soria索里亞教授和他的團隊利用MASSIVE和NCI提供的尖端測量和處理技術(shù),快速處理和可視化他們收集的數(shù)據(jù)流,并運行大量數(shù)值模擬:直接數(shù)值模擬(DNS)和大型渦流模擬(LES),最終在理解湍流方面取得了進(jìn)展。索里亞教授表示,沒有MASSIVE和NCI的超級計算機,就不可能做這樣巨大的計算和加載如此多數(shù)據(jù)的可視化。
噬菌體是一種能感染和殺死細(xì)菌的病毒,自1919年發(fā)現(xiàn)以來一直被很多人進(jìn)行研究。但是,它們在20世紀(jì)40年代因發(fā)現(xiàn)可以治療多種細(xì)菌的抗生素而被放棄。由于細(xì)菌對抗生素產(chǎn)生耐藥性, 人類害怕前抗生素時代即將到來,噬菌體再次成為研究焦點。目前已經(jīng)知道噬菌體PlyC在治療鏈球菌(引起咽喉感染,心臟病,肺炎,中毒性休克綜合征和熱帶皮膚感染的細(xì)菌)中非常有效。為了更好地理解PlyC,莫納什的McGowan博士從PlyC溶液中生長出晶體,將它們放入澳大利亞同步加速器的蛋白質(zhì)晶體學(xué)束線中,然后用X射線輻射轟擊它們,最后將每個晶體的衍射圖像數(shù)據(jù)集轉(zhuǎn)移到MyTardis并歸檔。在此之前各種晶體學(xué)技術(shù)和計算機程序用于破解PlyC的結(jié)構(gòu)都沒有成功。2010年,McGowan博士和Asso.c Buckle教授利用MyTardis存檔中的數(shù)據(jù)集和該校的高性能計算集群計算得到了Plyc的結(jié)構(gòu)并得以了解它如何攻擊細(xì)菌。該結(jié)構(gòu)于2012年7月在美國國家科學(xué)院院刊上公布,原始數(shù)據(jù)和圖像都可以通過MyTardis獲得。
盡管昆士蘭大學(xué)和莫納什大學(xué)在e-Research合作研究上各不相同,但是e-Research的核心技術(shù)如高性能計算、數(shù)據(jù)管理、云計算、工作流等為提高兩所學(xué)校的科研成果和研究質(zhì)量起到了重要的作用。e-Research讓研究人員和他們的學(xué)生獲得一流的研究基礎(chǔ)設(shè)施,并與世界領(lǐng)先的大學(xué)保持一致,也使得他們的科學(xué)研究在全球范圍內(nèi)獲得認(rèn)可。不僅是昆士蘭和莫納什兩所大學(xué),澳大利亞其他大學(xué)如悉尼大學(xué)、堪培拉大學(xué)、格里菲斯大學(xué)、維多利亞大學(xué)等都在積極制定e-Research策略,優(yōu)先投資e-Research基礎(chǔ)設(shè)施,以此來提高學(xué)校科學(xué)研究的強度、卓越性、影響力和聲譽。澳大利亞現(xiàn)在每年舉行兩次e-Research會議,分享他們利用信息技術(shù)來加速研究的想法和范例,以及信息和通信技術(shù)如何幫助研究人員協(xié)作、收集、管理、共享、處理、分析、存儲、發(fā)現(xiàn)、理解和重用信息。如今科學(xué)正在進(jìn)入一個嶄新的階段,大數(shù)據(jù)、第四范式讓跨學(xué)科、合作化以及全球化成為不可阻擋的趨勢,e-Research研究方式將繼續(xù)在澳大利亞開放協(xié)同的研究與創(chuàng)新模式中發(fā)揮其更大的作用。