韓俊偉 智慧 王宏 徐良德
(哈爾濱醫(yī)科大學(xué)生物信息科學(xué)與技術(shù)學(xué)院 黑龍江哈爾濱 150086)
R語(yǔ)言由來(lái)自新西蘭奧克蘭大學(xué)的Ross Ihaka和Robert Gentleman教授聯(lián)合開發(fā)的計(jì)算機(jī)語(yǔ)言,主要用于數(shù)學(xué)建模、統(tǒng)計(jì)計(jì)算、數(shù)據(jù)處理、可視化等幾個(gè)主要方向。R語(yǔ)言屬于GNU系統(tǒng)的一個(gè)自由、免費(fèi)、源代碼開放的面向?qū)ο蟮能浖?擁有UNIX、LINUX、MacOS和WINDOWS版本。R語(yǔ)言的另一個(gè)重要的應(yīng)用是自由開發(fā)性。用戶可以根據(jù)需要自由編寫R功能包(package),供使用者免費(fèi)下載。隨著新一代測(cè)序技術(shù)和計(jì)算機(jī)技術(shù)的進(jìn)步,生物信息取得了極大進(jìn)步,為識(shí)別人類復(fù)雜疾病的治病靶點(diǎn),闡明復(fù)雜疾病的發(fā)病機(jī)制成為可能。為了更好地推動(dòng)生物信息技術(shù)的進(jìn)步,準(zhǔn)確地使用數(shù)據(jù)工具來(lái)處理海量的生物信息數(shù)據(jù),Gnumeric開發(fā)者和R開發(fā)者合作開發(fā)了Bioconductor計(jì)劃。Bioconductor的產(chǎn)生推動(dòng)了計(jì)算生物學(xué)及生物信息學(xué)的發(fā)展。目前,生物信息實(shí)驗(yàn)課程中任然以一些陳舊軟件的使用來(lái)指導(dǎo)學(xué)生,極大地制約了學(xué)生的主觀能動(dòng)性,不利于學(xué)生科研實(shí)踐能力的發(fā)展。因此,如何將R語(yǔ)言的方法與技術(shù)應(yīng)用于生物信息的教學(xué)實(shí)踐對(duì)于提高實(shí)驗(yàn)課的教學(xué)質(zhì)量具有重要意義。本文通過(guò)R語(yǔ)言在實(shí)際生物學(xué)數(shù)據(jù)中的應(yīng)用,通過(guò)案例分析的方式為生物信息專業(yè)的研究者和師生提供有益的借鑒。
隨著新一代測(cè)序技術(shù)和計(jì)算機(jī)技術(shù)的進(jìn)步,產(chǎn)生了大量的生物學(xué)數(shù)據(jù)。為了對(duì)數(shù)據(jù)有初步的了解和掌握,需要對(duì)數(shù)據(jù)進(jìn)行必要匯總統(tǒng)計(jì):如計(jì)算均值,方差,中位數(shù),百分位數(shù),極差等統(tǒng)計(jì)量。R語(yǔ)言的內(nèi)嵌函數(shù)(mean(),var(),median()等)可以方便、快捷的對(duì)數(shù)據(jù)匯總統(tǒng)計(jì),掌握數(shù)據(jù)的數(shù)字特征。
基因芯片技術(shù)的應(yīng)用主要包括基因表達(dá)檢測(cè)、突變檢測(cè)、基因組多態(tài)性分析等方面。如何方便高效地將基因芯片探針I(yè)D中所包含的信息提取出來(lái),得到基因的表達(dá)值,探索基因功能,獲取基因相關(guān)的生物學(xué)注釋是處理基因芯片數(shù)據(jù)的關(guān)鍵。Bioconductor中包含了多個(gè)大型的基因芯片注釋包:“hgu133a”,“hgu133plus2”,“hgu95av2”等。這些注釋包提供了芯片探針I(yè)D與基因的對(duì)應(yīng)關(guān)系,在染色體上的位置信息,功能注釋信息等,為我們掌握基因的序列信息,基因功能 以及基因本體論提供幫助。
在生物信息中,一個(gè)基礎(chǔ)的應(yīng)用是通過(guò)識(shí)別差異表達(dá)基因來(lái)尋找疾病風(fēng)險(xiǎn)標(biāo)記物,為藥物開發(fā)和探索疾病的發(fā)病機(jī)理提供幫助。目前,R語(yǔ)言可以幫助使用者計(jì)算在疾病和正常狀態(tài)下基因的倍數(shù)變化(Fold Change),從而找到在生物學(xué)方面表達(dá)上調(diào)或下調(diào)基因。同時(shí),我們可以利用R語(yǔ)言的內(nèi)嵌函數(shù)t.test() 實(shí)現(xiàn)t檢驗(yàn),找出在統(tǒng)計(jì)學(xué)方面的差異表達(dá)基因。用戶只需要輸入標(biāo)準(zhǔn)化的帶有正常和疾病類標(biāo)簽的表達(dá)芯片數(shù)據(jù),通過(guò)該函數(shù)就可以得出t統(tǒng)計(jì)量以及統(tǒng)計(jì)顯著性水平。
聚類屬于非監(jiān)督機(jī)器學(xué)習(xí)方法,是一種探索性數(shù)據(jù)分析方法,其目的是把相似的事物劃分到若干“自然”的類別中?;蛐酒垲惙治鍪且曰蜷g的相似程度為基礎(chǔ),或者說(shuō)以基因間的距離為基礎(chǔ),將表達(dá)相似的基因聚在一起,從而探索同類中基因的功能相似性與一致性。目前,有多個(gè)R的內(nèi)嵌函數(shù)和Bioconductor的系列分析包提供了聚類算法。如利用歐式距離和平均類間距類對(duì)基因表達(dá)數(shù)據(jù)進(jìn)行系統(tǒng)的層次聚類分析函數(shù)hclust();利用相關(guān)系數(shù)作為基因距離的K均值聚類算法函數(shù)kmeans();實(shí)現(xiàn)各種層次聚類算法,并對(duì)結(jié)果繪制聚類熱圖的R包 “ALL”。這些函數(shù)和R包實(shí)現(xiàn)了生物芯片數(shù)據(jù)的聚類分析。
生物學(xué)網(wǎng)絡(luò)分析是生物信息學(xué)研究的一個(gè)重點(diǎn)和難點(diǎn)內(nèi)容。生物學(xué)網(wǎng)絡(luò)包括基因-基因共表達(dá)網(wǎng)絡(luò),蛋白質(zhì)-蛋白質(zhì)互作網(wǎng)絡(luò),基因-基因功能網(wǎng)絡(luò)等。如何在生物學(xué)網(wǎng)絡(luò)中探索有用的價(jià)值和信息對(duì)提高人們對(duì)基因功能的理解和掌握至關(guān)重要。Bioconductor 提供許多網(wǎng)絡(luò)分析軟件包“graph”、“RBGL”、“Rgraphviz”,這些軟件包可以靈活對(duì)生物學(xué)網(wǎng)絡(luò)構(gòu)建、分析、以及可視化。隨著生物數(shù)據(jù)的擴(kuò)增,生物網(wǎng)絡(luò)數(shù)據(jù)不斷增大,為了適應(yīng)大網(wǎng)絡(luò)數(shù)據(jù)分析,產(chǎn)生了“igraph”包。與R語(yǔ)言中同類包相比,它的速度更快,而且函數(shù)命令與圖形展現(xiàn)更為豐富。它可以處理有向網(wǎng)絡(luò)和無(wú)向網(wǎng)絡(luò),并可以提供各種網(wǎng)絡(luò)分析方法:度、介數(shù)、最短路徑、子網(wǎng)挖掘等。
插圖是科學(xué)研究中對(duì)結(jié)果展示常用的重要輔助手段。如何能將科研成果用直觀,清晰的圖像展現(xiàn)出來(lái)對(duì)提升科研的認(rèn)知度至關(guān)重要。R語(yǔ)言提供了強(qiáng)大圖像繪制功能。首先,R語(yǔ)言低級(jí)繪圖命令如:points(),lines(),box()等可以幫助用戶繪制一些基本的點(diǎn)圖,線圖,盒裝圖等基本圖像。其次,R語(yǔ)言高級(jí)繪圖函數(shù)如:plot(),pie(),hist()可以繪制各種二維圖,餅圖,直方圖等。同時(shí),R語(yǔ)言作圖包提供各種用戶需要的圖形繪制。
R語(yǔ)言操作簡(jiǎn)單,方便靈活,適用于各種操作系統(tǒng)。它的免費(fèi)性與開源性為廣大使用者提供了方便。R語(yǔ)言目前已經(jīng)在生物信息的使用中越來(lái)越廣泛。我們希望通過(guò)具體的案例分析闡明R語(yǔ)言在生物信息研究中的重要應(yīng)用,為生物信息科研工作者提供參考,為生物信息的實(shí)踐教學(xué)提供有益的借鑒。