摘要:選取SAS和MATLAB作為課程所用軟件,通過結合具體的生物信息學研究實例學習,了解及掌握統(tǒng)計分析軟件SAS和軟件MATLAB的用法,為今后生物信息學軟件的使用打好基礎。
關鍵詞:統(tǒng)計分析;SAS;MATLAB;生物信息學
生物信息學(Bioinformatics)是伴隨著人類基因組計劃而興起的一門新興的交叉學科。它的出現(xiàn)在促使生物學和醫(yī)學的研究向處理高通量數(shù)據(jù)需求發(fā)展的同時,又引入了眾多復雜的統(tǒng)計學方法。然而,西班牙學者Emili和Carles撰文指出2001年nature登載的181篇研究論文中,38%的文章至少有一處統(tǒng)計錯誤。顯然,即使高水平研究論文也存在統(tǒng)計學問題,這就提醒我們在進行統(tǒng)計分析教學的時候要嚴格把握好各種統(tǒng)計概念,選擇合適的統(tǒng)計分析軟件。
1、課程內容選擇
統(tǒng)計學軟件是我們應用統(tǒng)計方法不可缺少的工具。時下統(tǒng)計學軟件名目繁多,各具特色,諸如SAS、SPSS、TSP、Excel、Eviews、Statistica、Minitab等等。
在數(shù)據(jù)處理和統(tǒng)計分析方面,統(tǒng)計分析系統(tǒng)(Statistics Analysis System,SAS)已經成為國際上的標準軟件系統(tǒng)。尤其在教育、科研領域,SAS軟件已成為專業(yè)研究人員進行統(tǒng)計分析的標準軟件。SAS系統(tǒng)由多個功能模塊組合而成,其基本部分是BASE SAS模塊。除此之外,還包含以下不同的模塊:SAS/STAT(統(tǒng)計分析模塊)、SAS/GRAPH(繪圖模塊)、SAS/QC(質量控制模塊)、SAS/ETS(經濟計量學和時間序列分析模塊)、SAS/OR(運籌學模塊)等等。
MATLAB(Matrix Laboratory)是一種解釋性執(zhí)行語言,具有強大的計算、仿真、繪圖等功能。它使用簡單,擴充方便,具有豐富的函數(shù)庫(工具箱),計算的功能實現(xiàn)比較簡單,因此逐漸成為大學生學習研究必不可少的分析軟件。盡管MATLAB的功能非常強大,而且生物信息學專業(yè)學生大部分的基礎、專業(yè)課程都涉及到相應的MATLAB軟件使用,但是卻沒有專門對其統(tǒng)計方法的使用介紹。
綜上所述,SAS在專業(yè)領域應用很多,幾乎作為醫(yī)學統(tǒng)計學必學軟件;MATLAB擁有強大的函數(shù)功能,結合生物信息學專業(yè)學生現(xiàn)有知識結構和將來研究學習、工作的需求,我們選取這兩種軟件作為課程內容。鑒于本課程許多內容涉及的數(shù)學問題和計算較復雜,并且要結合計算機軟件來完成,因此根據(jù)本學科的特點和學生的實際情況探索一個有效的教學方法,有助于學生掌握好這個工具。通過近兩年教學工作中積累的一些經驗,我們已經形成了一套較為完整的授課體系。
2、課程基本框架
《SAS統(tǒng)計分析與MATLAB應用》是我院生物信息學專業(yè)一門特色的實踐性基礎課,是研究在生物信息學中如何應用SAS和MATLAB軟件的學科。它需要學生在掌握了扎實的概率論與數(shù)理統(tǒng)計、生物統(tǒng)計和多元統(tǒng)計理論的基礎上,進一步實現(xiàn)計算機軟件的掌握。近年來隨著計算機的發(fā)展和應用的普及,這門學科將成為科學研究和生產實踐中數(shù)據(jù)分析的一種重要手段。通過本課程的學習,主要任務是使學生掌握SAS和MATLAB的基本語法、功能及統(tǒng)計應用,能夠熟練運用這兩個軟件解決實際的生物信息學問題,為今后生物信息學軟件的使用打好基礎。具體課程內容安排包括:
SAS方面:①SAS系統(tǒng)概述,包括SAS窗口系統(tǒng)的使用方法,SAS程序的編寫、修改和運行;②數(shù)據(jù)集的建立和整理:利用viewtable編輯數(shù)據(jù)集;利用DATA語句的傳統(tǒng)數(shù)據(jù)步程序;外部數(shù)據(jù)文件的讀取;③SAS實用過程(如PRINT、FORMAT、TRANSPOSE等)和數(shù)值資料統(tǒng)計描述(如MEANS、FREQ、UNIVARIAT等);④數(shù)值資料的統(tǒng)計推斷(進行t檢驗的MEANS、TTEST過程,方差分析的ANOVA、GLM過程);⑤相關和回歸分析(CORR、REG、LOGISTIC過程);⑥多元統(tǒng)計分析的聚類分析(CLUSTER、TREE過程),主成分分析(PRINCOMP過程)和因子分析(FACTOR過程)。
MATLAB方面:①MATLAB數(shù)值計算,包括矩陣和數(shù)組的運算;②數(shù)據(jù)結構和全局變量,程序結構,程序流控制,以及M文件的調試;③MATLAB中的計算結果的可視化和高級圖形處理,包括二維圖形的繪制,三維圖形的繪制;④常見概率分布,樣本的統(tǒng)計描述以及回歸分析函數(shù)。
3、授課方式探討
傳統(tǒng)的SAS以及MATLAB教學傾向于基礎理論知識的講解,并且實驗教學中采納的案例大多是農業(yè)、環(huán)境或者動物實驗的數(shù)據(jù),對于依托醫(yī)學的生物信息學專業(yè)學生來說,并不是他們興趣所在。由于生物信息學專業(yè)的建立只有短短幾年,學生在沒開專業(yè)課之前對于生物信息學的了解寥寥無幾。他們更關注于這個專業(yè)將來能夠從事什么工作,發(fā)展前景如何?因此,我們在教學過程中針對這種情況,有的放矢的選擇醫(yī)學,尤其是生物信息學方向的已發(fā)表案例數(shù)據(jù)來進行講解,甚至作為學生實驗課的習題。在學習中初步把生物信息學的一些專業(yè)知識滲透給學生,較好的激發(fā)他們的學習興趣。
比如,我們講解聚類分析的時候采用的數(shù)據(jù)是基因芯片數(shù)據(jù)。講解這個案例之前可以給學生介紹:現(xiàn)代功能基因組學研究的一個重大突破就是基因芯片技術,它產生了大量的表達譜數(shù)據(jù),為生物統(tǒng)計、數(shù)據(jù)挖掘和知識發(fā)現(xiàn)等生物信息學方法研究提出了具有挑戰(zhàn)意義的課題;對于基因芯片數(shù)據(jù)的分析可以采用有監(jiān)督學習方法(比如特征選擇算法),另外也可以采用無監(jiān)督學習方法,其中典型的代表就是聚類。這里我們可以采用SAS系統(tǒng)里面的聚類分析CLUSTER過程實現(xiàn),也可以通過MATLAB直接調用cluster函數(shù)實現(xiàn)。通過這種講解,一方面引入了生物信息學的知識點,另一方面經過橫向對比,使學生可以輕松認識到兩種軟件的異同之處,加深知識的理解。
這種實例在我們日常的學習研究工作中會經常遇到,世上無難事,只怕有心人,要注意積累,把平時閱讀的文獻資料信息收集整理起來,有效地與課堂教學結合,不但活躍了課堂氣氛,還能有效的調動學生學習的積極性,改善學生面對成堆的數(shù)據(jù)和統(tǒng)計理論而疲勞的思維。
4、教學過程體會
本課程融合了多門比較復雜的統(tǒng)計學理論,雖然軟件的實現(xiàn)過程相對簡單,但是需要學生掌握的理論知識較多,非常有必要開設在高等數(shù)學、生物統(tǒng)計和多元統(tǒng)計等課程結束后,而我們也正是按照這種思路進行的,節(jié)省了本就不富裕的課堂理論教學時間。另外,由于SAS與MATLAB都是非常龐大的分析軟件,擁有面向各個研究領域的模塊,因此不同的內容需要分別精講、略講,培養(yǎng)學生自主學習的能力。
參考文獻:
[1] 董大鈞.SAS統(tǒng)計分析應用[M]. 北京:電子工業(yè)出版社,2009.
[2] 黃燕,吳平等.SAS統(tǒng)計分析及應用[M]. 北京:機械工業(yè)出版社,2007.
[3] 陳桂明,戚紅雨,潘偉等.MATLAB數(shù)理統(tǒng)計(6.X)[M]. 北京:科學出版社,2002.
[4] 張玉華,潘燕,李橋等.醫(yī)學研究生SAS統(tǒng)計分析軟件教學的探索與實踐[J]. 中國衛(wèi)生統(tǒng)計.2006,23(5):466-467.
作者簡介:
呂洪超(1981~),山東無棣人,碩士,助教,研究方向:生物信息學