文/張洋 陳文波
PRAGMA(Pacific Rim Applications and Grid Middleware Assembly,環(huán)太平洋網(wǎng)格應(yīng)用與中間件聯(lián)盟)是一個開放的國際合作組織,致力于在太平洋周邊地區(qū)相關(guān)領(lǐng)域內(nèi)的重要學(xué)術(shù)機(jī)構(gòu)之間建立起持續(xù)的合作,并推進(jìn)信息技術(shù)在不同學(xué)科的應(yīng)用[1]。PRAGMA于2002年3月成立,獲得美國自然基金會(NSF)的支持,截至2017年P(guān)RAGMA有正式成員29個,來自14個國家和地區(qū)的大學(xué)和科研機(jī)構(gòu),如美國加州大學(xué)圣地亞哥分校(UCSD)、美國佛羅里達(dá)大學(xué)、美國印第安納大學(xué)、日本產(chǎn)業(yè)技術(shù)綜合研究所(AIST)、大阪大學(xué)、韓國科學(xué)信息技術(shù)研究所(KISTI)、中國科學(xué)院、吉林大學(xué)、蘭州大學(xué)等。
PRAGMA集中開發(fā)、部署實際的網(wǎng)絡(luò)基礎(chǔ)設(shè)施來幫助一個長期的科研團(tuán)體之間的合作。目前PRAGMA的研究主要有生物多樣性、淡水生態(tài)學(xué)、SDN、電信科學(xué)、教育、生物科學(xué)和地理科學(xué)。PRAGMA探索各領(lǐng)域科學(xué)家和網(wǎng)絡(luò)基礎(chǔ)設(shè)施專家如何在很長一段時間內(nèi)一起工作,同時開發(fā)滿足科學(xué)需求的解決方案,并讓它們更廣泛地應(yīng)用。
為了實現(xiàn)這個目標(biāo),PRAGMA目前的活動主要包括:通過打造一個能夠開發(fā)和測試信息技術(shù)的專業(yè)科學(xué)家和信息技術(shù)設(shè)施研究者組成的團(tuán)隊來培育一個國際的科學(xué)探索團(tuán)體,去解決具體的科學(xué)問題,并建立一個可用的、國際規(guī)模的網(wǎng)絡(luò)信息環(huán)境;通過共享資源、專業(yè)知識以及軟件來建立和改進(jìn)一個基礎(chǔ)的、用于測試的國際信息基礎(chǔ)設(shè)施。
PRAGMA每年舉辦兩次工作研討會,研討會由不同的成員組織輪流主辦。它是不同工作小組、研究人員和工作人員之間信息交流的主要工具,提供一個讓所有成員認(rèn)識并討論研究興趣的論壇。同時他們還提供絕佳的機(jī)會讓新研究人員和學(xué)生參與進(jìn)來,為PRAGMA帶來新的視角、應(yīng)用、技術(shù)以及資源。在研討會上大家各自匯報在項目上取得進(jìn)展,并制定行動計劃,以及在下一階段完成任務(wù),極大地促進(jìn)研究的可持續(xù)性。PRAGMA目前有四個工作小組,分別是Resources、Biosciences、Telescience和Cyberlearning。Resources主要研究PRAGMA分布式資源平臺上的各種應(yīng)用;Biosciences從事如何創(chuàng)建一個穩(wěn)定的信息基礎(chǔ)設(shè)施執(zhí)行基因組分析,并整合許多技術(shù)建立一個能夠促進(jìn)傳染疾病藥物篩選的計算架構(gòu)。Telescience主要研究如何利用和開發(fā)高分辨率顯示技術(shù)對遠(yuǎn)程設(shè)備進(jìn)行接入。Cyberlearning主要集中在使用技術(shù)手段來改善對一些計算科學(xué)的理解,從事基于仿真的學(xué)習(xí)技術(shù)研究。除此之外,PRAGMA還有一個關(guān)于如何培養(yǎng)從事國際跨學(xué)科研究的學(xué)生項目PRAGMA學(xué)生團(tuán)隊,幫助學(xué)生加強(qiáng)學(xué)術(shù)研究的能力和經(jīng)驗。
PRAGMA-ENT是PRAGMA的網(wǎng)絡(luò)實驗床,其目標(biāo)是給PRAGMA的研究者和合作者建立一個軟件定義網(wǎng)絡(luò)(SDN/OpenFlow)的網(wǎng)絡(luò)測試床。它給研究者提供一個完全免費(fèi)的可接入網(wǎng)絡(luò)資源來開發(fā)、測試以及評估基于SDN的網(wǎng)絡(luò),而且它給PRAGMA的多個云平臺提供網(wǎng)絡(luò)支持,通過在環(huán)太平洋地區(qū)的研究所之間建立新的合作和基礎(chǔ)設(shè)施來促進(jìn)e-Science的長期發(fā)展。目前接入PRAGMA-ENT資源的有美國佛羅里達(dá)大學(xué)、加州大學(xué)圣地亞哥分校、印第安納大學(xué)、日本奈良科技研究院(NAIST)、日本國立先進(jìn)工業(yè)科技研究院、大阪大學(xué)。由日本JNG公司提供的RISE(Research Infrastructure for large-Scale network Experiments)被用來連接所有站點(diǎn)的OpenFlow交換機(jī),并且建立控制器來管理整個測試床。目前已經(jīng)成功部署了基于RISE的交換機(jī),并開始連接美國、日本,它將有助于優(yōu)化這些國家的路由,并提高PRAGMA-ENT的性能。接下來PRAGMA將和泰國大學(xué)進(jìn)行合作,研究開展管理和可視化的PRAGMAENT OpenFlow網(wǎng)絡(luò),這對幫助研究者理解PRAGMA-ENT非常有幫助。而且PRAGMA正在將ENT主干網(wǎng)擴(kuò)展到馬來西亞和日本的JOSE(一個虛擬的研究室平臺由AIST提供),并利用該環(huán)境部署一個分布式的軟件定義存儲系統(tǒng),以此來確定未來在虛擬網(wǎng)絡(luò)和計算資源上使用分布式存儲的研究挑戰(zhàn)。另外,PRAGMA還在美國和日本通過SINET(國家研究與教育網(wǎng)絡(luò))建立一條國際鏈路,使用多條國際路徑來改善ENT主干網(wǎng)的帶寬,這樣可以幫助PRAGMA在未來執(zhí)行大規(guī)模和高性能的網(wǎng)絡(luò)實驗。
PRAGMA的云測試平臺為用戶提供了一個持久的分布式國際信息基礎(chǔ)設(shè)施,可以用來運(yùn)行應(yīng)用程序?qū)嶒?,不同的?yīng)用程序環(huán)境以虛擬集群映像的方式提供給用戶。
目前有基于Rocks和Centos7的BioLinux, GRAPLEr以及DOCK 應(yīng)用虛擬鏡像,這些鏡像可以運(yùn)行在PRAGMA的云站點(diǎn),也可以通過pragma_boot工具運(yùn)行在本地。最初虛擬鏡像由于建立在不同的地方格式也不盡相同,因此在PARGAM不同的站點(diǎn)需要手動調(diào)整鏡像文件以適應(yīng)不同的運(yùn)行環(huán)境。為了能夠使虛擬鏡像文件具有統(tǒng)一的格式,PRAGMA開發(fā)了一個工具clonezilla,它可以將鏡像文件輸出成統(tǒng)一的格式,同時另外一個工具cziso提供命令行的界面完成這種轉(zhuǎn)換,并實例化這些鏡像文件。他們在google drive建立了一個倉庫(存放鏡像的地方),最后把這些鏡像文件上傳到google drive上。
為了使用這些鏡像,PRAGMA增加了新的cziso倉庫,并為pragma_boot增加了一個新的同步功能,它可以完成從google driver下載cziso鏡像,并運(yùn)行cziso工具將鏡像恢復(fù)成適合本地文件的格式。Pragma_tool可以定期在晚上檢查本地鏡像和google driver 的時間戳,如果本地文件是舊的,它會自動下載更新鏡像。這種共享鏡像文件的方法目前在圣地亞哥大學(xué)、印第安納大學(xué)和NAIST使用,下一步將部署到AIST和NCHC。
對物種多樣性的分析和建模以及它們?nèi)绾卧诋?dāng)?shù)匾约叭蚍秶目沙掷m(xù)性仍然是生物地理研究的核心。理解這些過程以及由此導(dǎo)致的自然結(jié)構(gòu)變化對于維持和保護(hù)生物的多樣性至關(guān)重要。
對物種多樣性的分析和建模以及它們?nèi)绾卧诋?dāng)?shù)匾约叭蚍秶目沙掷m(xù)性仍然是生物地理研究的核心。理解這些過程以及由此導(dǎo)致的自然結(jié)構(gòu)變化對于維持和保護(hù)生物的多樣性至關(guān)重要。
Lifemapper是美國NFS支持的一個項目,它使用所有在線地理空間物種出現(xiàn)的數(shù)據(jù)來創(chuàng)建它們的分布,從而進(jìn)一步地根據(jù)它所記錄的位置來預(yù)測單個物種的存在[2]。Lifemapper通過將物種的出現(xiàn)數(shù)據(jù)與全球氣候、地形和土地覆蓋信息相結(jié)合,來確定物種與周圍環(huán)境的相關(guān)性。用Lifemapper項目開發(fā)的工具以及合適的模型結(jié)合全世界收集來的物種出現(xiàn)的數(shù)據(jù)就可以尋找物種的分布和棲息地。它的分析和模擬結(jié)果對解決環(huán)境、全球天氣對物種分布的影響以及如何維持物種的生存有著非常重要的作用。它提供的服務(wù)能夠讓學(xué)生了解全球氣候生態(tài)的變化對生態(tài)系統(tǒng)的影響。所以該項目可以解決這個時代的重要環(huán)境問題,特別是全球氣候變化對野生物種的分布和可持續(xù)性的潛在影響。項目整合了數(shù)據(jù)科學(xué)框架、模型、互聯(lián)網(wǎng)技軟、硬件技術(shù),另外它的Web接口可以讓用戶從分布的站點(diǎn)瀏覽、操作和下載數(shù)據(jù)。Lifemapper是一個便攜式、可部署的系統(tǒng),很容易安裝在物理機(jī)或者虛擬機(jī)上。它運(yùn)行在NSF的虛擬cluster和pragma的cloud(NAIST)平臺上,現(xiàn)在被弗吉利亞理工大學(xué)的本科生和研究生用來理解全球氣候變化和水的營養(yǎng)化對海藻花的影響,學(xué)生通過對模型的訓(xùn)練清楚的理解氣候變化對湖泊的影響。XSEDE是由美國NSF資助的一個虛擬系統(tǒng),它整合并共享包括超級計算機(jī)和高端可視化和數(shù)據(jù)分析資源,可以讓全美國的研究人員一起開展科學(xué)研究[3]??茖W(xué)家利用它來交互式地共享計算資源、數(shù)據(jù)和服務(wù)。在XSEDE資源上安裝的Lifemapper,利用高吞吐、低延遲的網(wǎng)絡(luò)交換連接到數(shù)據(jù)服務(wù)器可以觀察高分辨率的北美物種分布。
全球?qū)δ茉础⑹称泛惋嬘盟男枨笳诮o世界湖泊和水庫帶來前所未有的壓力。目前全球社會正在經(jīng)歷著水資源供應(yīng)的減少和水質(zhì)的惡化,這些將影響地球未來幾十年提供所需自然資源的能力。對淡水資源的智能管理需要近乎實時,高頻率的湖泊和水庫信息,這個項目既是數(shù)據(jù)密集型又是計算密集行問題,需要對每個湖泊運(yùn)行上千次的模擬。為了解決計算問題,PRAGMA的計算機(jī)科學(xué)家建立了一項服務(wù),使用戶可以輕松地訪問龐大的分布式計算機(jī),利用具有高吞吐量計算能力的分布式計算資源來運(yùn)行大量模型的模擬。
GRAPLEr是基于 R 的開放源碼軟件,將分布式計算的力量帶到了湖泊生態(tài)學(xué)建模者的指尖, 使他們能夠提交成百上千的一般湖泊模型 (GLM2), 有效運(yùn)行這些湖泊模型模擬, 并檢索和可視化模型輸出。
在這個項目中,湖泊生態(tài)學(xué)家和計算機(jī)科學(xué)家們聯(lián)合起來,共同應(yīng)對如何在土地和氣候變化的條件下準(zhǔn)確地對世界各地湖泊進(jìn)行生態(tài)水動力學(xué)模擬。PRAGMA Lake項目是計算機(jī)科學(xué)家和與全球湖泊生態(tài)觀測網(wǎng)絡(luò)(Global Lake Ecological Observatory Network,GLEON)的研究者之間的跨學(xué)科合作項目。這一合作的成就在于通過對湖泊水動力學(xué)的批量模擬來理解目前海水富營養(yǎng)化和氣候變化對有害藻華的影響,同時也不斷地改善并使用最先進(jìn)的模型來預(yù)測水的質(zhì)量。這個項目的成果給用戶提供一個端到端的集成環(huán)境GRAPLEr[4],用戶使用簡單的API就可以在這個環(huán)境建立、運(yùn)行和檢索,還能從上千次的模擬中可視化結(jié)果。這個軟件被PRAGMA的研究者和學(xué)生廣泛使用。GRAPLEr使用IPOP連接了不同機(jī)構(gòu)的云資源,如佛羅里達(dá)大學(xué)、圣地亞哥超級計算中心、PRAGMA云虛擬機(jī),并使用一個開源的HTCondor系統(tǒng)來調(diào)度和管理大量的模型運(yùn)行。GRAPLEr是基于 R 的開放源碼軟件, 將分布式計算的力量帶到了湖泊生態(tài)學(xué)建模者的指尖,使他們能夠提交成百上千的一般湖泊模型 (GLM2), 有效運(yùn)行這些湖泊模型模擬, 并檢索和可視化模型輸出。
系統(tǒng)利用從三千個稻米基因的項目中篩選出的單核苷酸基因型分型數(shù)據(jù)集,讓研究者進(jìn)行全組基因研究,檢查遺傳變異體和特性之間的關(guān)系。
PRAGMA的生物科學(xué)工作組目前為蛋白質(zhì)組學(xué)和遺傳基因的研究尋找一種新的信息基礎(chǔ)設(shè)施。雖然虛擬篩選被認(rèn)為是確定潛在新藥的研究方法并活躍在PRAGMA的許多研究者中,但是PRAGMA正在努力建立一個基因分析平臺,并將水稻基因作為一個新的研究領(lǐng)域,這對全球而言都有重要的意義。在馬尼拉舉行的PRAGMA30次會議上,他們和國際稻米研究所 (IRRI) 進(jìn)行合作,旨在幫助水稻種植者以環(huán)境可持續(xù)的方式提高稻米的產(chǎn)量和質(zhì)量。
該項研究的任務(wù)是通過合作研究、伙伴關(guān)系來加強(qiáng)農(nóng)業(yè)研究, 減少貧窮和饑餓、改善稻米農(nóng)民和消費(fèi)者的健康并確保環(huán)境的可持續(xù)發(fā)展。IRRI 的許多研究都集中在數(shù)據(jù)獲取、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)重現(xiàn)性和數(shù)據(jù)管理方面,還有包括育種管理系統(tǒng),共享高通量測序和基因分型數(shù)據(jù)。PRAGMA部署了一個基因分析工具于一體的虛擬機(jī)BioLinux8,它有一個友好的界面和一個改進(jìn)的用于大米基因研究的可再生工作流軟件-Galaxy。這個系統(tǒng)利用從三千個稻米基因的項目中篩選出的單核苷酸基因型分型數(shù)據(jù)集,讓研究者進(jìn)行全組基因研究,檢查遺傳變異體和特性之間的關(guān)系。這種分析框架不僅可以讓稻米研究者進(jìn)行實驗的驗證和決策制定,而且方便IRRI使用它來收集不同研究者的研究結(jié)果。這個基因工作流成功的部署在PRAGMA云資源平臺,并為IRRI的生物科學(xué)家建立一個可擴(kuò)展的、易于使用的密集型基因分析平臺。這項工作也讓PRAGMA利用數(shù)據(jù)認(rèn)證服務(wù)和PRAGMA數(shù)據(jù)倉庫來給計算實驗的可重復(fù)性和數(shù)據(jù)共享研究邁出了重要的一步。而且這種分布式的架構(gòu)和科學(xué)工具還可以被擴(kuò)展到生物醫(yī)學(xué)領(lǐng)域的科學(xué)家使用,幫助他們利用工作流來處理和分析大量的生物學(xué)相關(guān)的數(shù)據(jù)集。
如今,可視化在更好地理解科學(xué)研究數(shù)據(jù)中扮演著非常重要的作用。
現(xiàn)在越來越多的數(shù)據(jù)通過傳感設(shè)備獲得,這些數(shù)據(jù)經(jīng)過高性能計算來加速分析后更容易可視化的顯示。將不同領(lǐng)域?qū)<业膶I(yè)知識匯聚到一起對我們的科學(xué)研究非常重要,從這個角度,我們需要開發(fā)一個科學(xué)家易于使用的平臺,允許科學(xué)家在一個高分辨的顯示系統(tǒng)下形成一個協(xié)作環(huán)境,但并不強(qiáng)迫他們擁有更高的知識、技術(shù)或?qū)I(yè)知識。
目前PRAGMA將可視化場景應(yīng)用在災(zāi)難管理。他們在彈性的軟件定義架構(gòu)中部署一些災(zāi)難管理應(yīng)用,在不同的PRAGMA機(jī)構(gòu)中連接多個高分辨率顯示墻進(jìn)行災(zāi)難場景的可視化。它可以連續(xù)的、不間斷的在自然災(zāi)難發(fā)生時傳輸信息給決策者以便他們能夠采取有效的行動。目前該應(yīng)用已經(jīng)連接日本多個機(jī)構(gòu),并計劃連接其他的PRAGMA站點(diǎn)來測試更多的全球場景。隨著近來不斷增長的城市傳感數(shù)據(jù),AIST使用沉浸顯示和交互技術(shù)如虛擬現(xiàn)實(VR)開發(fā)下一代的信息可視化環(huán)境。
平臺可以在災(zāi)害發(fā)生期間將相關(guān)信息傳送給多個地點(diǎn)的決策者,同時結(jié)合VR改變了災(zāi)害管理人員查看不同異構(gòu)數(shù)據(jù)集的方式。他們下一步將建立一個2D或3D的沉浸平臺能夠讓決策者在災(zāi)害發(fā)生期間快速了解這些信息。
在PRAGMA32次會議上,AIST展示了一個VR應(yīng)用,它利用從17000個不同地方收集到的日本河流傳感數(shù)據(jù),然后通過一個沉浸式3D虛擬設(shè)備展示該場景。它可以讓用戶擁有一個全國性的視圖。初步的測試說明這個應(yīng)用在提供全局視圖上非常有效。AIST還在繼續(xù)努力利用大屏幕的顯示墻來創(chuàng)造一種不同類型的沉浸式環(huán)境。他們基于SAGE2開發(fā)了一個災(zāi)害管理平臺,允許用戶在一個共享合作的環(huán)境以不同的內(nèi)容進(jìn)行交互。該平臺可以在災(zāi)害發(fā)生期間將相關(guān)信息傳送給多個地點(diǎn)的決策者,同時結(jié)合VR改變了災(zāi)害管理人員查看不同異構(gòu)數(shù)據(jù)集的方式。他們下一步將建立一個2D或3D的沉浸平臺能夠讓決策者在災(zāi)害發(fā)生期間快速了解這些信息。
EDISON是Cyberlearning工作組從事的項目[5]。它是一個創(chuàng)新的網(wǎng)絡(luò)學(xué)習(xí)平臺,也是一個免費(fèi)開源的項目,是由KISTI在2011年發(fā)開的。通過這個平臺,各種高性能計算模擬程序可以在線獲得,可以被廣大的韓國研究者和學(xué)生以及PRAGMA的成員使用。該項目受到韓國國家科學(xué)技術(shù)部和韓國未來計劃資助,是由KISTI和幾個計算科學(xué)與工程領(lǐng)域的研究機(jī)構(gòu)共同進(jìn)行的一個聯(lián)合項目。這些專業(yè)機(jī)構(gòu)的領(lǐng)域來自計算流體力學(xué)、計算化學(xué)、納米物理學(xué)、計算結(jié)構(gòu)力學(xué)、計算機(jī)輔助設(shè)計、計算藥學(xué)以及計算電磁學(xué)等。這個平臺目前提供340個科學(xué)Apps和568個教學(xué)內(nèi)容,過去六年間給來自韓國和世界其他國家提供42852次服務(wù)。該平臺的日益流行和技術(shù)優(yōu)勢增強(qiáng)了它的國際認(rèn)可,還獲得了韓國多個獎項。
PRAGMA學(xué)生團(tuán)體,建立與2012年,目標(biāo)是幫助學(xué)生在PRAGMA信任的社交和網(wǎng)絡(luò)中獲得專業(yè)的經(jīng)驗。作為一個學(xué)生組織,它由一個委員會領(lǐng)導(dǎo),并接受PRAGMA研究者的指導(dǎo)。
到目前為止,該團(tuán)體組織的活動包括PRAGMA一年兩次會議中各成員學(xué)生的會議,舉辦在線的研討會等。PRAGMA以一種獨(dú)特的模式,為學(xué)生提供多種機(jī)會,讓他們參與PRAGMA的合作項目研究,如到其他成員單位參加短期的項目研究;可以在PRAGMA的研究者中尋找合作的導(dǎo)師,參與導(dǎo)師最新的科研項目,提高他們研究和科學(xué)探索的能力;參加各種國際會議,幫助他們激發(fā)靈感,共享信息,參與合作。另外,PRAGMA學(xué)生團(tuán)體在近期的會議期間中組織“Lightening talk”,給學(xué)生機(jī)會反饋他們在研究中獲得的經(jīng)驗和結(jié)果,每次受邀請的學(xué)生將基于他們相關(guān)的研究做短暫的報告。所有這些活動不僅讓學(xué)生的科學(xué)研究水平和領(lǐng)導(dǎo)能力得到提高,而且對于理解其他成員國家的文化也起到了增進(jìn)作用,也讓PRAGMA各成員之間的關(guān)系也越來越密切。
截至目前,PRAGMA項目由其成員和美國國家科學(xué)基金會(NSF OCI 1234983)支持,包括加州大學(xué)圣地亞哥分校、佛羅里達(dá)大學(xué)、印第安納大學(xué)、弗吉尼亞理工大學(xué)、威斯康星-麥迪遜大學(xué)。另外還有來自美國國家自然基金辦公室的信息基礎(chǔ)設(shè)施、國際科學(xué)和工程學(xué)院辦公室、計算機(jī)與信息科學(xué)與工程理事會的信息和智能系統(tǒng)部以及新興的生物科學(xué)理事會的大力支持。PRAGMA在環(huán)太平洋地區(qū)建立了一個值得信賴的合作者網(wǎng)絡(luò),這種信任關(guān)系使得PRAGMA對影響PRAGMA成員發(fā)生的事件能夠快速的響應(yīng)。
2017年是PRAGMA成立十五周年,在這期間,所有的成員在合作研究上一直保持著密切的聯(lián)系,不斷利用信息技術(shù)創(chuàng)新未來科學(xué)的研究模式。尤其是面對面的會議不斷建立和加強(qiáng)成員之間的必要信任,使之成為PRAGMA成功的關(guān)鍵。讓信息基礎(chǔ)設(shè)施變得容易接入,讓目標(biāo)研究團(tuán)體使用更加方便一直是PRAGMA努力前行的目標(biāo)。這種共享、長期、開放的國際科研合作模式必將對創(chuàng)新型科學(xué)研究產(chǎn)生深遠(yuǎn)的影響和意義。