常 珊, 曾 玲, 萬 華
(1.江蘇理工學院 電氣信息工程學院,生物信息與醫(yī)藥工程研究所,江蘇 常州 213001;2.華南農(nóng)業(yè)大學 信息學院,廣東 廣州 510642)
?
·實驗教學與創(chuàng)新·
生物信息學高性能教學平臺的建立與實踐
常 珊1,2, 曾 玲2, 萬 華2
(1.江蘇理工學院 電氣信息工程學院,生物信息與醫(yī)藥工程研究所,江蘇 常州 213001;2.華南農(nóng)業(yè)大學 信息學院,廣東 廣州 510642)
隨著生命科學實驗數(shù)據(jù)的高速積累和增長,生物信息學成為生命科學研究型人才必須掌握的重要技能。從高性能計算和生物信息學的關系入手,簡述了生物信息學教學中采用高性能計算設備的必要性。根據(jù)農(nóng)業(yè)院校的具體情況,在生物信息學教學中建立了高性能計算平臺,幫助學生熟悉相關并行計算環(huán)境,更好地理解生物信息學重要的理論和算法。在課程安排上,理論課、實驗課以及課程設計的內(nèi)容圍繞生物信息學案例展開?;贛oodle教學系統(tǒng)進行在線課程管理,培養(yǎng)學生的自主學習能力和團隊協(xié)作意識,提高了學生運用高性能計算解決實際生物信息學問題的能力。
高性能計算; 案例教學; 生物信息
進入21世紀,生物學研究的重點和潛在的研究熱點已經(jīng)由20世紀的實驗分析和數(shù)據(jù)積累,轉(zhuǎn)移到數(shù)據(jù)分析及其指導下的實驗驗證上來。隨著生物學實驗數(shù)據(jù)的高速積累和增長,生命科學的研究步入了大數(shù)據(jù)時代,計算分析方法以及網(wǎng)絡技術(shù)成為生命科學研究人員必備的工具,由此產(chǎn)生的生物信息學技術(shù)正推動著生命科學的迅猛發(fā)展。生物信息學所提供的研究工具對生物學發(fā)展至關重要,因此成為生命科學研究型人才必須掌握的重要技能[1]。
隨著生物學數(shù)據(jù)和計算復雜度的增加,生物信息學中越來越多的研究和問題需要用到高性能計算設備[2]。近年來,高性能計算技術(shù)已被廣泛應用于國家命脈、百姓民生等方方面面,2013 年6月,國防科技大學等單位研制的“天河二號”問鼎全球最快超級計算機,標志著中國在超級計算機研制的自主可控方面又邁出了重要的一步。目前國內(nèi)多所高校和科研院所也紛紛開始采購大型的高性能計算集群。通過高性能計算集群,為校內(nèi)的教師、學生以及校外的科研工作者提供高質(zhì)量的計算服務,對學??蒲泻徒虒W的發(fā)展都具有積極的作用[3-4]。
華南農(nóng)業(yè)大學屬于農(nóng)業(yè)院校,農(nóng)業(yè)院校有很多生命科學相關的專業(yè)。在農(nóng)業(yè)院校中開設生物信息學課程,將有助于培養(yǎng)生物學相關專業(yè)學生的科研創(chuàng)新能力,推進生物信息學在農(nóng)學領域的廣泛應用。在生物信息學教學特別是研究生的教學中嘗試進行案例驅(qū)動教學,采用Moodle學習管理平臺進行在線課程管理,讓不同專業(yè)的學生組成團隊共同協(xié)作解決問題,有利于學科交叉和協(xié)同創(chuàng)新。通過建立信息學院的高性能計算平臺,幫助學生熟悉相關計算環(huán)境,有針對性的培養(yǎng)學生處理實際問題的能力,同時通過并行計算的訓練,也可以更好的了解生物信息學的一些理論和算法。
生物信息學是生物學、物理學、統(tǒng)計學、信息科學等多個學科交叉的課程,因此對師資的要求比較高。目前在農(nóng)業(yè)院校中開設生物信息學課程的教師,有些是從計算機或數(shù)學物理專業(yè)畢業(yè),他們?nèi)狈ι飳W學習的經(jīng)歷;有些則是從生物學專業(yè)畢業(yè),他們往往缺乏數(shù)學和計算機學科的背景,需要補充一些理論方面的知識[5]。筆者曾在美國密蘇里大學哥倫比亞分校(University of Missouri-Columbia)進行了為期1年的學習訪問,發(fā)現(xiàn)國外的生物信息學課程的設置方式也有很多種類。有些學校由單一系科派生出生物信息學專業(yè),這些系包括計算機系、生物系、物理系、統(tǒng)計系等。而以密蘇里大學為例,該校成立了跨系的研究中心或?qū)W院,其中的師資由各系的教授來兼任,教學非常注重學生的團隊協(xié)作,共同解決具體的生物信息學問題[1]。
近年來,國內(nèi)生物信息學研究也有了很大的進步[6],但多數(shù)高校尚未形成成熟的課程體系。很多學校雖然采用了多媒體教學,但仍然是“以課堂為中心,以教材為中心”的傳統(tǒng)教學模式,學生缺乏實際操作和科研能力的培養(yǎng)。隨著生命科學實驗數(shù)據(jù)的增加,越來越多的生物信息學計算分析軟件都基于高性能平臺進行了并行版本的開發(fā),在實際研究工作中往往需要通過并行來提升計算速度,節(jié)省計算時間,因此,傳統(tǒng)的教學模式需要根據(jù)實際需要進行改革。為了提升教學效果,結(jié)合多年的教學和科研經(jīng)驗,對生物信息學的課程教學進行了改良和實踐。
2.1 高性能計算平臺架構(gòu)方案
進行生物信息學軟件的并行計算,首先需要搭建高性能計算平臺。對于不同的高校,可以根據(jù)學校具體情況,采用不同的策略,既可以購置專用的高性能設備,也可以將多臺普通電腦連接來組建并行計算平臺。在教學中采用專用的高性能服務器進行平臺搭建,硬件方面,一臺I620服務器作為管理服務器,計算服務器則采用了2.6 GHz intel計算核心,共計6個CB60-G15刀片節(jié)點(2CPU-8 kernel),計算核數(shù)達到96核,系統(tǒng)基于線速千兆以太網(wǎng)互聯(lián),計算全部采用Infiniband高性能網(wǎng)絡。
圖1 高性能計算平臺的網(wǎng)絡拓撲結(jié)構(gòu)
軟件方面,選擇使用Rocks集群管理系統(tǒng)[7]。Rocks管理系統(tǒng)基于RedHat Linux,是開放源代碼的軟件包,而且該軟件包可以高效率地創(chuàng)建和維護高性能集群。同時為方便生物學研究和學習使用,系統(tǒng)也集成了大量的生物信息學相關軟件。見圖1,搭建好的高性能計算平臺由計算服務器和管理服務器兩個部分構(gòu)成。管理服務器和計算服務器通過交換機連接在一起。采用OpenSSH構(gòu)建SSH服務器,學生可以通過SSH客戶端軟件登錄到系統(tǒng)。
2.2 基于案例的教學課程設計
生物信息學課程的實踐性非常強,如果只采用理論講授的方法進行教學,很容易使學習者陷入學不會,或者學了理論卻不知道有什么用的尷尬境地。針對這些情況,需要使用更貼近于實際的教學方式。生物專業(yè)的學生計算機能力普遍不高,組織起來在課堂上從頭開始學習程序設計與并行算法顯然不合適,因此采用案例教學的方式,使學生能夠快速運用知識來解決問題。案例教學法也叫案例研究教學法,是一種教師和學生共同參與,就某一具體案例進行分析、探討、解決具體問題的教學方法。該方法注重培養(yǎng)學習者對于實際問題的解決,將知識應用于實踐,培養(yǎng)創(chuàng)新思維以及團隊協(xié)作的能力。案例教學法已經(jīng)注意到學生對于知識獲取的主動性,生成性、創(chuàng)造性的作用,有著傳統(tǒng)教學方法所不具備的特殊功能[8]。在美國密蘇里大學進行為期1年的學習訪問過程中,發(fā)現(xiàn)國外的生物信息學課程非常注重團隊協(xié)作,共同解決具體問題,因此也有針對性地對生物信息學的教學內(nèi)容進行改良。
在教學內(nèi)容安排上,生物信息學課程既有理論課又有實驗課,理論課和實驗課的教學內(nèi)容也圍繞案例展開。設置理論課32學時、實驗課16學時,課程設計在課外完成實際案例,不占學時數(shù)。具體教學內(nèi)容安排如表1所示。理論課程注重講解案例涉及的算法原理,如序列比對算法,蛋白質(zhì)結(jié)構(gòu)預測算法等。有了這些知識的積累后,學生對生物信息學理論有了一定的認識。通過實驗課程訓練,使學生熟悉Linux環(huán)境下的基本操作以及高性能計算任務提交等基本步驟和過程。在課程設計中設計了不同的案例,學生可以根據(jù)自己的興趣和今后的研究方向,自由組織團隊,選擇適合的案例進行研究。如序列分析方面重點了解 Blast 科學計算軟件[9],進行基因的多序列比對和序列進化分析;蛋白質(zhì)結(jié)構(gòu)分析方面重點了解蛋白質(zhì)折疊軟件Rossetta程序包[10],通過一級序列預測蛋白質(zhì)的三維結(jié)構(gòu);藥物設計方面重點了解分子對接和虛擬藥物篩選,練習使用Autodock軟件[11];多尺度分子模擬方面重點了解分子動力學模擬軟件NAMD[12]。這種理論與實踐相結(jié)合、將案例教學貫穿整門課程、以實踐和案例強化理論教學的模式取得了很好的教學效果。
表1 教學內(nèi)容安排
2.3 基于Moodle的網(wǎng)絡教學實踐
在教學實施過程中,采用了Moodle教學系統(tǒng)進行網(wǎng)絡課程管理。Moodle系統(tǒng)是教育技術(shù)領域的一個基于建構(gòu)主義的,自由開源課程管理系統(tǒng),其界面簡單,易于使用,目前在我國各類學校被廣泛采用[13]。根據(jù)課程設計的內(nèi)容,在Moodle教學系統(tǒng)上創(chuàng)建了不同的學習案例。
為了更好地進行案例教學,采用Moodle教學系統(tǒng)中的WebQuest模塊對學生進行引導學習。WebQuest是1995年由美國圣地亞哥州立大學教授伯尼·道奇博士和湯姆馬奇所創(chuàng)立的一種基于網(wǎng)絡資源的新型教學手段[14],它更強調(diào)學生在教學過程中的主體地位。WebQuest的核心是采用案例驅(qū)動,教師引導學生進入一個富有趣味性的學習情景,激發(fā)學生的創(chuàng)造力,完成自主探究式學習。以生物信息學課程中的藥物設計和篩選為例,在WebQuest模塊下要求學生對Autodock軟件進行代碼分析,根據(jù)軟件的算法特點建議了3種并行任務的提交:包括方案一并行分子構(gòu)象局部搜索,方案二并行了傳統(tǒng)遺傳算法即全局搜索,方案三并行對接次數(shù)上。見圖2。
通過WebQuest模塊,引導學生從并行進程數(shù)量的影響,不同輸入?yún)?shù)負載特征等多個角度對程序進行了分析和比較[15]。見圖3。學生通過案例學習發(fā)現(xiàn),計算方案一中,由于涉及并行的部分僅為分子構(gòu)象的局部搜索,程序的并行效率受局部搜索頻率的限制,因此,隨著計算進程數(shù)的增加程序很快達到了并行性能的極限,繼續(xù)增加進程,通信量增加明顯,而總時間沒有顯著的降低。方案二與方案一類似,由于僅并行了遺傳算法的能量計算,程序的并行效率受到種群數(shù)量的限制,因此,隨著進程數(shù)的增加程序也很快達到了并行性能的極限,而且由于遺傳算法在計算中所占的比重不大,因此并行的效率表現(xiàn)得比方案二更低。方案三由于并行的是整體對接過程,進程間通信量較少,因此當進程數(shù)少于對接次數(shù)時,能明顯的減少運行時間,但當進程數(shù)量增加到超過對接次數(shù)時,運行時間也不再減少。通過測試和分析,學生不僅學會了高性能環(huán)境下并行任務的提交,而且可以更好地理解計算機輔助藥物篩選軟件Autodock的算法原理。
圖2 采用WebQuest進行任務設定
圖3 不同方案的加速比和并行效率
2.4 課外拓展
為了讓學生更好地體會高性能計算給生物信息學研究的幫助,還積極聯(lián)系相關的校外單位,包括廣州超算中心和深圳超算中心。廣州超算中心的“天河二號”是目前世界上最快的高性能計算系統(tǒng),“天河二號”擁有16 000個運算節(jié)點,共312萬個計算核心。因為廣州超算中心距離華南農(nóng)業(yè)大學比較近,且和課題組建立了較好的合作關系,課后可以帶學生參觀廣州超級計算中心?!疤旌佣枴毕到y(tǒng)要獲得良好的應用,還需要大量專業(yè)人才,特別是既有專業(yè)知識又懂高性能計算的跨學科人才,因此可以通過參觀提升學生的學習興趣,并為學生后續(xù)的就業(yè)選擇做好準備。
針對高性能計算平臺,改進了教學模式和教學方法,也取得了較好的教學效果。
(1) 學生學習興趣的提升。高性能平臺對很多學生而言是新鮮事物,而且通過多核并行計算可以大幅提升程序的運行速度。通過學校教務系統(tǒng)的調(diào)查反饋發(fā)現(xiàn),大部分學生通過課程設計的訓練,對生物信息學研究產(chǎn)生了濃厚的興趣,并愿意更多的在高性能計算平臺上進行實驗和計算。
(2) 提高了學生自主學習能力和創(chuàng)新意識。采用高性能計算平臺提升了學生的學習興趣,但實驗的學時相對較少,為了能夠在計劃時間內(nèi)完成項目任務,學生在課余時間也通過校園網(wǎng)登陸訪問高性能計算平臺進行計算任務提交。因為課程設計都是有一定難度的綜合性課題,在完成的過程中,書本上找不到現(xiàn)成的答案,在碰到難題時學生會主動的通過網(wǎng)絡上的技術(shù)論壇和其它各種途徑去尋找解決方法。很多生物信息軟件是國外課題組開發(fā)的,使用說明也是英文的,學生會逐步培養(yǎng)英文閱讀能力,并練習寫英文郵件進行問題咨詢。因此通過訓練,學生的自主學習能力和創(chuàng)新意識都得到了較大的提高,一些研究生還發(fā)表了相關領域的學術(shù)論文[16]。
(3) 團隊協(xié)作和就業(yè)方向的指導。在完成課程設計的過程中,不同專業(yè)的學生組成一個小組,共同完成選擇的項目。在共同完成項目的過程中,學生之間不僅在專業(yè)上能夠互補,而且當一個小組遇到難題時,其他小組的成員都會積極的給予幫助,團隊意識和協(xié)作精神得到鍛煉。同時因為交叉學科的協(xié)作,小組的成員都會學習到對方專業(yè)的一些知識,綜合能力也得到了提升。既有專業(yè)知識又懂高性能計算的學生將會是今后非常搶手的綜合性人才,因此這些訓練也為學生的就業(yè)提供了一些幫助。
生物信息學是一門綜合型學科,隨著實驗數(shù)據(jù)的增長,越來越多的問題需要運用高性能計算工具進行解決,因此在生物信息學教學中需要針對高性能計算進行訓練,培養(yǎng)學生的實際操作和科研能力。介紹了華南農(nóng)業(yè)大學信息學院高性能計算平臺的構(gòu)建,并基于該平臺對生物信息學課程進行教學實踐研究。在教學過程中,采用案例驅(qū)動教學法,理論課講解案例中的生物信息算法基礎,實驗課熟悉案例中軟件提交所需要的高性能計算環(huán)境。通過Moodle學習管理平臺進行課程管理和案例驅(qū)動的課程設計,讓各專業(yè)的學生混合組成團隊,協(xié)同完成各種實際生物信息學問題。經(jīng)過上述教學實踐,學生對生物信息學課程提高了興趣,培養(yǎng)了自主學習能力和團隊協(xié)作意識,為后續(xù)科研工作的開展以及就業(yè)奠定了良好的基礎。
[1] 許 東. 生物信息學與計算機科學[J]. 計算機教育, 2006(4): 41-43.
[2] 李 斌, 李義兵. 生物信息學中的分布式計算[J]. 生物信息學, 2006, 4(4): 178-181.
[3] 孫建青. 網(wǎng)格技術(shù)及其對現(xiàn)代遠程教育的影響[J]. 中國遠程教育, 2006(3): 26-29.
[4] 羅智超, 陳志煌, 張 強. 并行計算集群在經(jīng)濟學實驗室中的應用[J]. 實驗室研究與探索, 2011, 30(3): 174-178.
[5] 王益軍. 農(nóng)學專業(yè)生物信息學課程教學改革探析[J]. 現(xiàn)代農(nóng)業(yè)科技, 2010(5): 15-16.
[6] 劉宏生, 鄭方亮, 艾海新, 等. 強化生物信息學實踐教學的探索與成果[J]. 生物信息學, 2010, 8(4): 368-370.
[7] 張予倩, 周 健, 翁紅明, 等. Rocks高性能計算集群的建立和管理[J]. 實驗室研究與探索, 2006, 25(4): 450-453.
[8] 孫紅梅, 賈瑞生. 基于網(wǎng)絡的軟件工程案例教學資源平臺建設[J]. 實驗室研究與探索, 2010, 29(11): 48-51.
[9] Altschul S F, Gish W, Miller W,etal. Basic local alignment search tool[J]. Journal of Molecular Biology, 1990, 215(3):403-410.
[10] Leaver-Fay A, Tyka M, Lewis S M,etal. ROSETTA3: an object-oriented software suite for the simulation and design of macromolecules[J]. Methods in Enzymology, 2011, 487:545-74.
[11] Morris G M, Goodsell D S, Halliday R S,etal. Automated docking using a lamarckian genetic algorithm and an empirical binding free energy function[J]. Journal of Computational Chemistry, 1998, 19(14): 1639-1662.
[12] Kalé L, Skeel R, Bhandarkar M,etal. NAMD2: Greater scalability for parallel molecular dynamics[J]. Journal of Computational Physics, 1999, 151:283-312.
[13] 秦 健, 杜曉輝, 馬紅亮. Moodle學習管理平臺交互性的實證分析[J]. 中國電化教育, 2011(2): 86-90.
[14] 奚曉霞, 羅會棣. 基于WebQuest的建構(gòu)探究學習模式[J]. 電化教育研究, 2004(2): 41-43.
[15] 常 珊, 孔 韌, 李春華, 等. 基于MPI 的分子對接并行算法[J]. 計算物理, 2008, 25(2): 241-246.
[16] 劉董敏, 常 珊, 胡建平, 等. 蛋白質(zhì)-核酸對接方法研究進展[J]. 現(xiàn)代生物醫(yī)學進展,2012(5): 979-983.
Construction and Practice of Teaching Platform of Bioinformatics High Performance
CHANGShan1,2,ZENGLing2,WANHua2
(1. Institute of Bioinformatics and Medical Engineering, School of Electrical and Information Engineering,Jiangsu University of Technology, Changzhou 213001, China;2. College of Informatics, South China Agricultural University, Guangzhou 510642, China)
With the rapid increasing of the biologic experiment data, the bioinformatics becomes an important technology for the research personnel in the life science. This article elaborated on the relationship between the high performance computing and bioinformatics, and introduced the necessary of the high performance computing facilities in the teaching of bioinformatics. Based on the situation of agricultural university, the high performance computing platform was built in the teaching of bioinformatics. This platform can help the students to be familiar with the corresponding environment and understand the important theories and algorithms. In the course plans, the theory course, the experiment course and the curriculum design were implemented round the bioinformatics cases. On the basis of the Moodle teaching system, the online course was managed. These teaching practices developed the autonomic learning ability and team cooperation of students, and enhanced the abilities of students to resolve an actual bioinformatics problem by using the high performance computation.
high performance computation; case teaching; bioinformatics
2014-10-13
國家自然科學基金(31200990);全國教育信息技術(shù)研究“十二五”規(guī)劃2012年度專項課題(126230657);廣東省優(yōu)秀青年教師培育計劃項目(Yq2013027);華南農(nóng)業(yè)大學信息學院教育教學改革與研究項目(INFJG1009)
常 珊(1982-),男,湖南岳陽人,博士,副教授,碩士生導師,研究方向為生物信息學和高性能計算。
Tel.:13585336450,E-mail:schang@jsut.edu.cn
G 434;Q-331
A
1006-7167(2015)10-0152-05