楊雪蓮,貝學軍,朱友娟
(1.貴州大學,貴州 貴陽 550025;2.西南大學,重慶 400716;3.阿克蘇職業(yè)技術學院,新疆 阿克蘇 843300)
基因芯片是近年來科學界和商界迅速發(fā)展起來的一門生物高新技術。它是以分子生物學、計算機科學、生物信息學、基因測序技術、微電子技術、高分子化學合成技術和激光技術發(fā)展及其有機結合的產物。
基因芯片技術在植物研究領域中發(fā)揮著越來越重要的作用。Affymetrix公司生產的Citrus Genome Array[1]芯片是第一個商品化的果樹基因芯片。該公司的柑橘基因組芯片在柑橘研究領域中做出了重大貢獻[2],如易去皮、無核、提高風味組成、去除有害物、疾病控制、提高營養(yǎng)特征和再生利用等方面都有所貢獻[3]。
Fujii等運用22 K的柑橘寡聚核苷酸芯片研究發(fā)現乙烯受體蛋白Ⅱ(ETR2)在成熟果實中受外源乙烯的誘導,而其他乙烯受體不被誘導[4]。Agustí等人在含有7000個Unigene的cDNA芯片研究了外源乙烯對柑橘葉片離層與葉柄的基因表達譜差異,結果表明葉柄感受乙烯效果比葉片強烈[5]。Martinez-Godoy構建了20 K cDNA芯片,用于不同種的柑橘品種基因表達分析,同時構建了此芯片數據庫供用戶進行基因芯片數據分析[6]。Liu等制作了柑橘cDNA芯片研究優(yōu)異芽變特性,結果顯示13個與編碼信號轉導途徑基因值得關注[7]。Cereos等構建與柑橘果實成熟相關的cDNA文庫,發(fā)現在柑橘果實發(fā)育過程中,檸檬酸代謝途徑為 γ 氨基丁酸(GABA)途徑[8]。
表達譜芯片在實際應用中局限于其數據的分類或基因預測及芯片上相對基因功能分析。從生物芯片上凝聚的海量信息中找出重要信息需要將生物信息學知識和統(tǒng)計方法相結合。
基因芯片數據的預處理是十分關鍵的步驟,是判定數據可靠性的基礎?;蛐酒瑪祿A處理和歸一化直接影響后續(xù)分析的結果。寡核苷酸芯片采用高效多陣列分析法(RMA)、MAS、MBEI等軟件進行數據預處理。
cDNA芯片的數據預處理主要包括通過數據過濾獲取需要的數據、數據轉換滿足正態(tài)分布的要求、缺失值的估計彌補不完整的數據、數據歸一化、糾正系統(tǒng)誤差等內容[9]。
基因芯片制作、雜交、信號掃描、數據輸出等過程所需成本較高,因此進行芯片實驗時具有小樣本和大變量的特性,需要對輸出數據進行進一步驗證。數據歸一化起到調整由基因芯片技術引起的誤差,從而準確發(fā)現芯片中信息變化。
根據樣品分組進行方差分析(ANOVA),根據組間p≤0.05初選出組間表達差異(上調或下調)2倍的基因。由于基因芯片實驗上的局限,即使數據處理方法非常巧妙也難免產生大量錯誤,Benjamini在1995年提出了一種方法,通過控制假陽性率(FDR)來決定p值的范圍[10]。在一張cDNA芯片一般假設表達的比值滿足正態(tài)分布,實際中常對比值取其Z值,則每條基因的Ζ值為Ζ=(Χ-μ)/σ,其中 Χ表示這表基因的表達比值,所有基因比值的平均值為μ,方差為σ。把±2作為Ζ值的判別標準時這種方法會選出5%的差異表達基因[11]。篩選差異表達可使用假設判定法,假設一個對數比值服從正態(tài)分布,給定一個界值和一個具體分布,可信水平或P值就是測量值由于隨機因素落在圖中的概率。若對數比值落在陰影中的基因原理對數比值的平均水平的位置,就被稱為差異表達基因[12]。還有方差分析法和噪聲抽樣法,及以最大似然估計方法為基礎的模型等均可用于差異基因篩選。
聚類分析(Clustering analysis)是基因表達數據分析最常用的多變量技術。聚類分析的對象可以是基因也可以是樣本或序列。通過聚類分析可以了解某一生物學途徑上催化一系列反應的酶的表達規(guī)律,有助于闡明一些特殊的代謝通路和基因調控的機理。當某些新基因與已知功能的基因歸為一類時,就可以推測并描述新基因的潛在功能。聚類結果還可以進一步為難以進行遺傳學處理和基因組序列不全的物種提供功能分析的切入點?;蛐酒夹g能監(jiān)測成千上萬的基因的表達情況,這就要求有全局的把握一些特別情況下和生物過程產生的基因轉錄水平分析,因此分析基因表達情況時要求把相近表達模式的基因進行聚類。在基因芯片表達數據分析中,可應用系統(tǒng)聚類分析、Bayesian聚類分析、K均值聚類分析、自組圖分析、主成分分析、二向聚類分析、神經網絡聚類分析等統(tǒng)計分析手段。
對基因芯片數據進行生物學解釋是基因芯片后期數據挖掘的一個重要方向但也是生物學瓶頸部位。解決這個問題可借助于各種生物學信息數據庫進行后續(xù)分析。Ensembl數據庫、LocusLink數據庫、RefSeq數據庫、NAR數據庫(核酸研究);關于疾病信息:孟德爾遺傳信息數據庫(OMIM);蛋白質家族信息:InterPro數據庫;轉錄因子調節(jié)分析Transfac數據庫;功能分類:Gene Ontology數據庫、GOA數據庫;生物學通路和生物學相互作用的分析:KEGG、BioCarta數據庫、Transpath數據庫、GenMAPP數據庫等;生物學網絡中的基因分析:CytoScape數據庫等。植物基因組功能注釋的基因家族數據庫(GreenPhylDB),以NCBI為基因比對中心,結合其他數據庫對數據進行特異性分析達到對研究對象的全面了解。
可用來分析柑橘基因芯片的數據庫有Citrus Functional Genomics Project(CFGP)、慕尼黑蛋白序列信息中心(MIPS)、harvEST、David及 AFFY提供的數據庫等。華中農大完成甜橙基因組測序,并建立相關網站供柑橘研究者使用(網址為://citrus.hzau.edu.cn/orange/tools/blast.php)。柑橘中有13266條基因與擬南芥Unigene同源性很高,占柑橘基因組芯片的63%[13],目前只能通過查看該探針在NCBI上的信息或者查找其與擬南芥或其他植物同源性很高的基因的GO信息來推斷其功能信息,需要逐一檢索,工作量很大。很多情況下,研究者根據自己感興趣的基因定義為一定名稱的基因集,當其想要在一個表達基因列表中檢索這樣的基因集時,可以應用統(tǒng)計檢驗方法精確檢驗同源性,之后利用其他數據庫資源進行同源性分析即可。
基因芯片可用于發(fā)現新基因。Aharoni等從草莓中分離了1701個cDNA克隆片段,構建成微陣列芯片來研究草莓果的不同成熟時期果色與成熟度的關系,他們發(fā)現了草莓乙?;D移酶基因成熟果實的風味合成中發(fā)揮了關鍵的作用的,而且發(fā)現紅色果實比白色果實乙?;D移酶基因的表達活性高[14]。
寡核苷酸芯片用于研究植物基因的結構。Winzeler使用高密度寡核苷酸微陣列研究14種不同的酵母菌株,發(fā)現兩種酵母株基因組結構差異主要表現在端粒區(qū)域,通過非同源序列之間的重組對酵母株基因組結構加深了認識[15]。Batista指出人們一直對轉基因作物對人體的潛在的危害存在很大爭議,Batista使用寡核苷酸芯片檢測水稻基因表達情況,發(fā)現誘變和轉基因相比誘變更廣泛程度上改變基因表達[16]?;蚪M芯片應用為改良品種的食品安全評估提供一定的參考價值。
基因組芯片用于植物及其病害的基因表達檢測也有較大突破。Puthoff等使用Affymetrix的大豆基因組基因芯片,發(fā)現大豆胞囊線蟲病誘導大豆的細胞壁結構蛋白相關基因豐量表達,參與乙烯代謝途徑、病原相關蛋白和抗逆蛋白相關基因大量產生[16]。
基因芯片應用領域非常廣闊,已經應用于藥物篩選和新藥開發(fā)、疾病診斷、環(huán)境保護、司法鑒定、現代農業(yè)、科學研究領域及生物傳感器等諸多領域,并且取得較好的成果。
基因芯片技術可以用來篩選農作物的突變基因,并尋找高產、抗病蟲、抗干旱、抗冷凍的相關基因,可以用于基因掃描及基因文庫作圖及商品檢驗檢疫等領域。目前基因芯片對農作物基因組測序做出了重要的貢獻。隨著基因芯片技術的發(fā)展,可將其運用在新基因尋找、檢測基因表達水平、進行后基因組學研究及轉基因農產品檢測和植物檢疫等方面。根據市場實情,研究低成本、高效和快速檢測芯片是今后研究的重點。
[1]楊雪蓮.乙烯誘導伏令夏橙果實脫落過程中重要功能基因的克隆、表達與功能分析[D].重慶:西南大學,2010.
[2]Talon M,Gmitter F G .Citrus Genomics[J].Int J Plant Genomics,2008(1):32.
[3]Fujii H,Shimada T,Sugiyama A,et al.Profiling etylene -responsive genes in mature mandarin fruit using a citrus 22K oligoarray[J].Plant science,2007(173):340 ~ 348.
[4]張凌云.乙烯誘導柑橘果實脫落的轉錄基因組學研究及乙烯誘導基因的克隆和鑒定[D].重慶:西南大學,2010.
[5]Martinez Godoy M A,Mauri N,Juarez J,et al.A genome wide 20 K citrus microarray for gene expression analysis[J].BMC Genomics,2008(9):318~320.
[6]Liu Q,Zhu A,Chai L,et al.Transcriptome analysis of a spontaneous mutant in sweet orange[Citrus sinensis(L.)Osbeck]during fruit development[J],JEB,2009(2):1 ~3.
[7]Cereos M,Soler G,Domingo J,et al.Global analysis of gene expression during development and ripening of citrus fruit flesh.A proposed mechanism for citric acid utilization[J].Plant Mol Biol,2006,62(5):13 ~527.
[8]吳 斌,沈自尹.基因芯片表達譜數據的預處理分析[J].中國生物化學與分子生物學報,2006,22(4):272~277.
[9]Benjamini Y,Hochberg Y.Controlling the False Discovery Rate:A Practical and Powerful Approach to Multiple Testing[J].Journal of the Royal Statistical Society,1995,57(1):289 ~300.
[10]Salamon H ,Maeda M K,Small P M,et al.Detection of Deleted Genomic DNA Using a Semiautomated Computational Analysis of GeneChip Data[J].Genome Res,2000(10):2044 ~ 2054.
[11]Li Y.DNA microarray data analysis and processing[M].Beijing:Chemical Industry Press,2006:74 ~316.
[12]張凌云,陽佳位,王 淼,等.DNA微陣列技術在柑橘研究中的應用[J].果樹學報,2010(1):110~114.
[13]Aharoni A ,Keizer L C P ,Bouwmeester H J,et al.Identification of the SAAT Gene Involved in Strawberry Flavor Biogenesis by Use of DNA Microarrays[J].Plant Cell,2008(12):647 ~ 661.
[14]Winzeler E A,Castillo - Davis C I,Oshiro G,et al.Genetic Diversity in Yeast Assessed With Whole-Genome Oligonucleotide Arrays[J].Genetics,2003(163):79 ~ 89.
[15]Batista R,Saibo N,Lourenc T,et al.Microarray analyses reveal that plantmutagenesis may induce more transcriptomic changes than transgene insertion[J].Proc Natl Acad Sci U S A,2000(9):3640~3645.
[16]Puthoff D P,Ehrenfried M L,Vinyard B T,et al.GeneChip profiling of transcriptional responses to soybean cyst nematode,Heterodera glycines,colonization of soybean roots[J].J Exp Bot,2007(12):3407~3418.