藍(lán)洋 何秀 朱誠勖 張玉娟
摘要:R語言具有強(qiáng)大的數(shù)據(jù)分析處理和可視化繪圖功能,可以在Window、Linux以及Mac系統(tǒng)上使用,并且根據(jù)其編寫新代碼或調(diào)整已有代碼可輕松實現(xiàn)科研中數(shù)據(jù)呈現(xiàn)與圖形繪制的要求.然而其代碼學(xué)習(xí)較為艱難、R-package使用復(fù)雜,所以未受到科研新手的青睞.基于生物科學(xué)相關(guān)領(lǐng)域的背景,整理匯集已出版的文獻(xiàn)、公共數(shù)據(jù)庫以及國家統(tǒng)計局中提供的數(shù)據(jù),使用R語言、R編輯器RStudio并載入相關(guān)的R-package繪制出地圖、熱圖、關(guān)聯(lián)網(wǎng)絡(luò)圖、韋恩圖和柱形圖等高質(zhì)量的圖片,并提供相應(yīng)的腳本與說明,以方便生物科研人員直接更改使用.本研究對生物科研中合理、直觀地表述研究結(jié)果提供了良好的范例,并進(jìn)行了詳細(xì)討論,且與其他繪圖軟件作了比較,以期R語言能夠成為生物科學(xué)領(lǐng)域科研工作者入門學(xué)習(xí)、研究應(yīng)用中繪制圖片的首選工具.
關(guān)鍵詞:地圖;熱圖;關(guān)聯(lián)網(wǎng)絡(luò)圖;韋恩圖;柱形圖;R語言
中圖分類號:Q811.4 文獻(xiàn)標(biāo)志碼:A DOI:10.3969/j.issn.1000-5641.2019.01.014
0引言
為了更加清晰且直觀地反映生物科學(xué)研究中的結(jié)果,論文中通常會將數(shù)據(jù)合理量化處理后繪制成圖像.R語言作為一種功能性編程語言兼具統(tǒng)計分析、數(shù)據(jù)處理和可視化繪圖三大功能.R語言與其他數(shù)據(jù)處理、分析與繪圖工具不同,其在具體操作時可以輕松地編寫新代碼或調(diào)整其他用戶的代碼,適應(yīng)特定的科研問題以實現(xiàn)用戶的繪制要求,凸顯圖像繪制的科學(xué)性與新穎性.因此合理掌握并使用R語言在生物科學(xué)研究中進(jìn)行繪圖,不僅是論文中科學(xué)規(guī)律揭示的可視化保證,更可以促進(jìn)生物科學(xué)研究中的學(xué)術(shù)交流.圖形繪制一直是人類展示數(shù)據(jù)、解釋規(guī)律的重要手段.隨著近年來科學(xué)技術(shù)的迅猛發(fā)展,圖形繪制軟件被不斷開發(fā)出來,例如軟件OriginPro、SigmaPlot、Microsoft Excel和SPSS等均可繪制較為直觀的矢量圖.然而這些繪圖軟件大多被應(yīng)用于柱形圖、折線圖和散點圖等簡單圖像的繪制,在熱圖、地圖等特異性、復(fù)雜性較高的圖像繪制上顯得捉襟見肘.自1992年Ross Ihaka和Robert Gentleman開發(fā)R語言以來.應(yīng)用R語言繪圖已經(jīng)出現(xiàn)在農(nóng)業(yè)、生態(tài)學(xué)、植物學(xué)、癌癥研究、醫(yī)療、生理學(xué)和種群遺傳等眾多領(lǐng)域.在實際的R語言學(xué)習(xí)應(yīng)用時,雖然已有部分系統(tǒng)介紹R語言繪圖的書籍,如An Introduction toR、R(programming language)和An Overview of the R Language等,但內(nèi)容繁雜、艱深,不能夠快速專一地完成生物科學(xué)領(lǐng)域的繪圖.另一方面,在R語言應(yīng)用生物科學(xué)研究繪圖的論文中,大多針對某一類圖像,如箱形圖、柱形圖等;部分集中在某一研究方面,如蘚類、橡膠林動態(tài)檢測、差異表達(dá)基因檢測和水文預(yù)測分析等,還沒有系統(tǒng)地介紹R語言應(yīng)用于生物科技論文繪圖方面的文章.R語言之所以功能強(qiáng)大是因為具有數(shù)量眾多的外源R-package(R擴(kuò)展包),截至2017年3月CRAN(comprehensive R ArchiveNetwork)包含R-package已超過10320個.不同功能的R-package有很多,即使是相同功能的R-package也需要不同的參數(shù)進(jìn)行調(diào)用,這成為生物科學(xué)研究者繪制圖片的困難之處.本研究為R語言在生物科學(xué)論文中的繪圖提供了源代碼,并對源代碼進(jìn)行了相應(yīng)解釋,以方便生物領(lǐng)域科技工作者直接更改使用.本論文對生物科研中合理、直觀地表述數(shù)據(jù)結(jié)果展示了良好范例,具有一定的借鑒意義.
1材料與方法
1.1 R軟件的準(zhǔn)備
R語言安裝程序包是從https://www.r-project.org/下載得到的,版本為R×64 3.0.1(R版本需要與R-package相匹配以方便操作).RStudio安裝程序包是從https://www.rstudio.com/下載得到.RStudio是一種R語言編輯器,可方便快捷地編寫R腳本.
1.2設(shè)置和查看路徑
設(shè)置路徑使R可以方便導(dǎo)入數(shù)據(jù)文件,同時R語言繪制形成的圖像也會保存在此文件夾下,因此設(shè)置的路徑要指向數(shù)據(jù)所在文件夾.設(shè)置路徑和查看當(dāng)前路徑的代碼如下.
2結(jié)果
2.1地圖繪制應(yīng)用農(nóng)業(yè)生態(tài)環(huán)境
地圖是依據(jù)一定法則制圖并體現(xiàn)在載體上,并借以反映區(qū)域內(nèi)的自然要素和社會經(jīng)濟(jì)現(xiàn)象的普通特征的圖像.因地圖具有統(tǒng)一的數(shù)學(xué)基礎(chǔ);按國家統(tǒng)一測量和編繪規(guī)定完成;幾何精度高且內(nèi)容詳細(xì)這三大特征,從而通常將其用于描述研究對象在地理位置的分布狀況、時間或條件引起的在不同地區(qū)的改變等問題.在生物科學(xué)研究中的生態(tài)方面,常常需要反映某一地區(qū)和作物相關(guān)宏觀生態(tài)狀況,如某一地區(qū)的蔬菜種植面積、果樹分布狀況、外來入侵植物分布狀況、農(nóng)業(yè)害蟲分布情況、災(zāi)情分布及改善狀況和麥區(qū)冬春氣象干旱趨勢_40_等問題.本研究則以近10年西瓜單位面積平均產(chǎn)量的數(shù)據(jù)為基礎(chǔ),繪制出反映西瓜在各省份的平均產(chǎn)量地圖.數(shù)據(jù)來自國家統(tǒng)計局.需要注意的是,繪制地圖時除了繪圖數(shù)據(jù),還要下載一個地圖的shp文件并將文件放在繪圖路徑文件夾下.
2.2熱圖繪制應(yīng)用遺傳育種
熱圖(heatmap)是通過使用顏色漸變來顯示數(shù)據(jù)矩陣的圖像,其可以直觀的顯示出矩陣中數(shù)值的差異.熱圖適用于研究實驗數(shù)據(jù)的質(zhì)量控制和差異數(shù)據(jù),還可以對數(shù)據(jù)和樣品進(jìn)行聚類,觀測樣品質(zhì)量.目前生物科學(xué)研究中的遺傳領(lǐng)域已經(jīng)深入到分子水平,其大多基于基因組、轉(zhuǎn)錄組和蛋白質(zhì)組等組學(xué)數(shù)據(jù),繪制熱圖以初步體現(xiàn)不同樣品中數(shù)據(jù)的關(guān)聯(lián)性與差異性,從而便于下一步研究操作.基于基因組和蛋白質(zhì)組數(shù)據(jù),繪制熱圖分析其聚類的關(guān)聯(lián)度與差異情況,可以找到顯著性差異的基因或蛋白質(zhì);基于轉(zhuǎn)錄組的數(shù)據(jù),用RNA_seq的數(shù)據(jù)繪制熱圖以分析表達(dá)量的情況,可以找到在某一時期或是某一條件下高表達(dá)、低表達(dá)或不表達(dá)的基因.本文繪圖數(shù)據(jù)來自應(yīng)激反應(yīng)基因表達(dá)時間的自然變化預(yù)測擬南芥的種內(nèi)雜種的雜種優(yōu)勢,將原始數(shù)據(jù)log10處理后繪圖.
2.3關(guān)聯(lián)圖繪制應(yīng)用植物保護(hù)
關(guān)聯(lián)圖是把數(shù)據(jù)中各個對象根據(jù)一定的相關(guān)關(guān)系進(jìn)行串聯(lián)繪制出的圖形.關(guān)聯(lián)圖可以清晰的反映個體與群體間,群體中個體和個體間存在的相關(guān)聯(lián)系,其適用于研究含有復(fù)雜關(guān)系的對象,用以反映出各個對象之間的關(guān)系.在生物科學(xué)研究中,常常需要研究物質(zhì)之間的關(guān)系或是物質(zhì)與環(huán)境之間的關(guān)系,如某些基因和蛋白質(zhì)與抗性相關(guān)、某些基因或蛋白質(zhì)對疾病發(fā)生至關(guān)重要、某些環(huán)境與植物生長狀況的關(guān)系等問題.在分析基因和蛋白質(zhì)方面的數(shù)據(jù)時,會查看與該基因或蛋白質(zhì)有關(guān)的基因或蛋白質(zhì),進(jìn)而初步判斷該蛋白質(zhì)的功能等.熱激蛋白質(zhì)fHeat stressproteins,Hsp)是生物為了應(yīng)對環(huán)境的突然變化,合成的一種特定的蛋白質(zhì),可使生物有效應(yīng)對外來脅迫.本文選用玉米(zea mays)的HSPl8基因,在STRING(http://string-db.org)上查找玉米中與HSP18相互聯(lián)系的蛋白質(zhì),并導(dǎo)出數(shù)據(jù),繪制出與HSP18存在關(guān)系的蛋白質(zhì)關(guān)聯(lián)圖.
2.4韋恩圖繪制應(yīng)用資源昆蟲
韋恩圖是以圖形表示集合的重要方式,其通過表示各集合間的交集和并集情況,可以清晰地反映數(shù)據(jù)集間的關(guān)系,以體現(xiàn)其共性基數(shù)或個性基數(shù)的情況.在生物科學(xué)研究中,無論是通過宏觀數(shù)據(jù)體現(xiàn)不同地區(qū)昆蟲的種類分布特點,還是在微觀視角下通過宏基因組研究人類的腸道微生物,抑或基于轉(zhuǎn)錄組水平分析家畜在不同處理下的生長繁殖情況,這些均需要以韋恩圖作為可視化對象反映數(shù)據(jù)之間的交集等情況.如資源昆蟲對不同環(huán)境的抗逆性不同,其表達(dá)的基因也有所差異.利用維恩圖描述該種昆蟲在不同時間或抗性環(huán)境中表達(dá)轉(zhuǎn)錄數(shù)據(jù)、差異表達(dá)的蛋白質(zhì)數(shù)據(jù)信息,即可篩選出重要功能的基因或蛋白質(zhì).本文以黑腹果蠅幼蟲的低溫存活和貯存的生理基礎(chǔ)的數(shù)據(jù)為基礎(chǔ)繪制韋恩圖.
2.5柱形圖的繪制應(yīng)用加工保鮮
柱形圖是通過柱子的高低直接反映不同樣品數(shù)據(jù)差異的圖形,其在科研中是最為常見、直觀反映數(shù)據(jù)的一類重要圖像.在生物科學(xué)研究中,常常用柱形圖來反映不同食品處理方式對食品感官、營養(yǎng)和生化指標(biāo)等方面的差異狀況.在食品加工與保鮮方面,常會探究不同包裝方式和貯藏溫度對食品中基本指標(biāo)造成的變化,如自由基含量、pH值、酸價和亞硝酸鹽等生化指標(biāo),形成的微生物數(shù)量和種類變化等生物指標(biāo).DPPH(2,2-二苯基-1-苦肼基自由基)是一種很穩(wěn)定的以氮為中心的自由基,可以測定抗氧化物質(zhì)含量高低[47-48],在食品的加工、保鮮方面有廣泛的應(yīng)用.本文繪制累積直方圖的數(shù)據(jù)來自蘇木fCaesalpinia sappan L.)提取物對冷藏期間豬肉腸的理化性質(zhì)的影響.提供兩種堆積圖形,一種傳統(tǒng)的堆積柱形圖(見圖5(a)),清晰明了地反映數(shù)據(jù)情況;一種“玫瑰花環(huán)”柱形圖(見圖5(b)),更為新穎、美觀地反映出數(shù)據(jù)情況,吸引讀者閱讀.
3討論
生物統(tǒng)計分析、繪圖軟件眾多,難以選擇.雖然有些軟件在某些方面較為出眾,但不夠廣泛,科研工作者難以花費大量精力學(xué)習(xí)大量軟件.這就需要一款有強(qiáng)大技術(shù)支撐的開源軟件,可以普遍地適用于各類數(shù)據(jù),繪制出高質(zhì)量的圖片.在眾多統(tǒng)計繪圖軟件之中,R已經(jīng)成為了繪圖軟件的首選,其使用面廣,更可適用于生物科研領(lǐng)域的各類數(shù)據(jù)繪制圖像.
3.1R語言繪圖的功能實現(xiàn)
由上文使用R語言實現(xiàn)生物科研繪圖的過程來看,其清楚、便捷,能夠明確說明相關(guān)問題并實現(xiàn)功能.通過其實現(xiàn)的地圖繪制既是對生物科研基礎(chǔ)數(shù)據(jù)的準(zhǔn)確、直觀描述,又能夠通過整體與部分的情況充分展示統(tǒng)一性與差異性,以方便生物科研人員與統(tǒng)計決策者更好地進(jìn)行分析研究、制定政策.而繪制的熱圖既可以通過數(shù)據(jù)聚類找到數(shù)據(jù)之間的相關(guān)性,而且可以通過對差異性的清晰反映,以方便生物科研工作者迅速篩出重要基因進(jìn)行進(jìn)一步研究.關(guān)聯(lián)圖的繪制既可以反映了復(fù)雜的網(wǎng)絡(luò)關(guān)系,又展現(xiàn)了該網(wǎng)絡(luò)關(guān)系中各組分之間的重要程度,方便生物科研人員更好地分析數(shù)據(jù),做出正確判斷.此外,維恩圖繪制方便了資源昆蟲中重要靶標(biāo)基因的篩選,以完成基礎(chǔ)生物學(xué)研究.R實現(xiàn)的柱形圖繪制更是可以將食品的各類指標(biāo)綜合處理,清晰展示.因而探究發(fā)現(xiàn),R語言可以貼合生物科研的數(shù)據(jù)有效實現(xiàn)其繪圖功能.
3.2科研繪圖軟件比較
現(xiàn)代生物科研論文繪圖軟件主要有Excel、SPSS、OriginPro、SigmaPlot、Python等.Excel可謂是最常見的統(tǒng)計繪圖軟件,其優(yōu)勢就是操作簡單、使用方便,并且科研工作者對Excel非常熟悉.但是Excel繪圖實現(xiàn)的圖形類型十分有限,無法繪制復(fù)雜圖形,且圖片的靈活性很低,僅可對顏色等進(jìn)行略微調(diào)整,無法任意的改變.SPSS作為一款統(tǒng)計軟件,其統(tǒng)計功能非常強(qiáng)大,但是用于繪圖不盡人意.與Excel一樣,SPSS操作簡單,但出圖速度緩慢,圖片不夠清晰、美觀.而R出圖速度快,回車之后立即見圖,圖片的美觀程度是繪圖者決定的,圖片質(zhì)量高,可以輸出tiff、png、jpeg和pdf等8種圖片格式.
SigmaPlot與OriginPro相似,二者均是為友好的用戶界面,可以輕松地從Excel中提取數(shù)據(jù),操作簡單且繪圖功能強(qiáng)大.但是,兩者均為付費軟件,需要支付昂貴的使用費.Python和R一樣也是一門編程語言,但是Python與R最大的區(qū)別在于Python的數(shù)據(jù)統(tǒng)計分析是通過第三方package來實現(xiàn)的,且Python是并不是?;臄?shù)據(jù)統(tǒng)計與繪圖分析的語言,因此在數(shù)據(jù)處理、統(tǒng)計分析、繪圖方面略遜一籌.R的統(tǒng)計函數(shù)包羅萬象,無論是經(jīng)典還是前沿的方法,都可以直接使用相應(yīng)的package調(diào)用,相比Python在這方面貧乏不少.綜上所述,R應(yīng)當(dāng)成為生物科研中的首選.
3.3 R繪圖的優(yōu)缺點
R語言為開源性軟件,其開源有兩層意義:首先R可以免費獲得,其在所有硬件和操作系統(tǒng)上安裝均沒有限制,適合各個領(lǐng)域各種專業(yè)背景的人使用;其次,任何人均可自由檢查或修改源代碼,以匹配各行各業(yè)的數(shù)據(jù)處理與圖像繪制需求.以上兩點致使R語言在科研工作的使用率已經(jīng)越來越高,并逐漸成為科研人員必備技能之一.R為編程語言,其統(tǒng)計繪圖的靈活性也體現(xiàn)在此.科研工作者可以根據(jù)自己需求編寫腳本、R-package.即便是沒有任何編程功底,僅僅想使用也可以在CRAN上找到相對應(yīng)的R-package.R的靈活性還體現(xiàn)在圖片中的任何屬性都可以任意修改,不僅僅是顏色、形狀,還可以對將數(shù)據(jù)分組,也就是說,R繪圖取決于科研工作者對圖形理解.
R功能強(qiáng)大,但是也有一些圖片難以繪制.R繪圖是以統(tǒng)計分析數(shù)據(jù)為基礎(chǔ)的,對于繪制結(jié)構(gòu)式(如蛋白質(zhì)結(jié)構(gòu)圖)、示意圖(如磷脂雙分子示意圖)、圖片數(shù)據(jù)分析(如測量擬南芥照片中角果長度)、照片美化(如電泳圖添加文字或裁剪拼接)、質(zhì)粒圖等這些不是基于數(shù)據(jù)的統(tǒng)計和分析繪制出的圖片,R也無能為力.只能運用photoshop、Illustrator、corelDraw和3dsMax等相關(guān)軟件進(jìn)行繪制美化.
4結(jié)論
R作為一門現(xiàn)代統(tǒng)計繪圖的工具,不僅在統(tǒng)計方面有很強(qiáng)大的功能,而且繪圖方面具有極強(qiáng)的專業(yè)性.本文以生物科研的相關(guān)領(lǐng)域為切入點,使用R實現(xiàn)了不同圖像的繪制,既證實了R作為免費開源的軟件可完整實現(xiàn)生物科研的多樣化圖像繪制,又為圖像的繪制與R-package的調(diào)用提供了代碼范例.