趙夢迪 ,趙文革
隨著高通量測序技術的發(fā)展和測序成本的降低,高通量測序數(shù)據(jù)不斷地產(chǎn)生。目前已經(jīng)逐漸成為生物學中重要的研究手段之一,在運動科學中也逐漸被采用?;蛐酒夹g是檢測基因表達變化最常用的高通量測序技術,在GEO數(shù)據(jù)庫中產(chǎn)生了大量關于人體運動相關的基因表達芯片數(shù)據(jù),但是這些數(shù)據(jù)還沒用被充分利用,合理高效地利用這些數(shù)據(jù)也成為研究目標之一。
運動過程中機體會根據(jù)運動狀態(tài)和時間的變化產(chǎn)生適應性改變。例如長期的運動可以促進肌肉的生長,同時提高心肺功能。不當?shù)倪\動則會產(chǎn)生運動損傷和運動疲勞等。如何針對這些問題從分子學角度解決還需進一步探究,關于運動背后的分子機制還有許多問題有待闡明。
目前,關于肌肉細胞如何適應運動過程的分子機制的研究不多。先前研究表明,運動會導致肌肉細胞中代謝基因的mRNA表達量發(fā)生變化[1-4],這說明在人體運動的過程中,也存在著基因的表達調(diào)控。有些基因在運動過程中迅速升高[5],而有些基因在運動的過程中則緩慢升高。但仍有很多基因在運動過程中的變化情況并不明確[5-6]。
基因芯片(Gene Chip)通常指DNA芯片,其核心的技術是把需要檢測的核苷酸固定到芯片上,利用檢測的樣品會跟核苷酸探針雜交互補,雜交互補之后會產(chǎn)生熒光信號,通過檢測熒光信號的強弱可以判定樣品中相應探針靶標基因的數(shù)量[7]?;蛐酒膹V泛使用主要得益于探針高通量設計、探針合成和熒光檢測等技術的發(fā)展,使得同時可以高通量的檢測數(shù)以萬計的探針靶標,從而可以對樣本中的靶分子進行靈活準確的檢測變成現(xiàn)實[8]。在過去的十幾年中,基因芯片被應用到各個領域中,在運動人體科學中,其主要被用來檢測不同的運動對基因表達的影響[9],運動過程中基因隨時間的變化[10]以及老人兒童婦女、病人等特殊人體在運動中產(chǎn)生的基因表達變化[11-13]。
Web技術是互聯(lián)網(wǎng)發(fā)展中重要的技術之一,而Web數(shù)據(jù)庫指在網(wǎng)絡中通過Web界面去訪問數(shù)據(jù)庫中的數(shù)據(jù)。目前的Web已經(jīng)不再僅局限于提供信息,而是可以實現(xiàn)交互式查詢及web數(shù)據(jù)庫服務[14]。Web數(shù)據(jù)庫就是將數(shù)據(jù)庫儲存大量數(shù)據(jù)的特點和Web技術的靈活方便的特點結合在一起,使得數(shù)據(jù)庫系統(tǒng)作為Web儲存數(shù)據(jù)的重要組成部分,實現(xiàn)了數(shù)據(jù)庫與網(wǎng)絡技術的完美組合。Web數(shù)據(jù)庫的組成并不是簡單的數(shù)據(jù)庫和Web技術的組合,其目前已經(jīng)發(fā)展完善,并成為很多網(wǎng)站搭建的模型。其主要由4部分組成,最底層的是儲存數(shù)據(jù)的數(shù)據(jù)庫(Database)、中間插件(Middle Ware)、Web服務器(Websever)和面向用戶的瀏覽器(Browser)。工作的原理我們可以簡單描述為,用戶通過瀏覽器查詢相關內(nèi)容,查詢的內(nèi)容通過Web服務器訪問數(shù)據(jù)庫,最后查詢到的結果通過網(wǎng)頁的方式展現(xiàn)給用戶,完成檢索過程[15]。
數(shù)據(jù)來源于GEO數(shù)據(jù)庫中的GSE43856[16]的骨骼肌樣品數(shù)據(jù)。樣品分為四組(運動前0h、運動后3h、48h、96h),每組進行8次生物學重復,芯片采用的是Illumina HT12 version 3。
(1)為消除組間數(shù)據(jù)可能由于測序深度的不同導致的誤差,將32組數(shù)據(jù)多個基因的表達量進行均一化處理。
(2)對每組的8個數(shù)據(jù)進行平均數(shù)及標準差計算。
(3)根據(jù)基因的表達量制作數(shù)據(jù)庫中的相應的表文件。
采用APPsever(version7.5.10)進行網(wǎng)站搭建,同時配置相關的數(shù)據(jù)庫用戶,界面網(wǎng)站制作工具為phpcms(version 9)。用超文本預處理器(PHP)語言構造ExerciseSAGE網(wǎng)頁,并在Linux系統(tǒng)(CentOS 6.4)中運行。所有數(shù)據(jù)存儲在MySQL數(shù)據(jù)庫(5.1.66),標簽序列儲存在excel表格中,可直接下載。
本研究構建的運動基因表達數(shù)據(jù)庫,運行環(huán)境為linux操作系統(tǒng),使用Apache服務器作為Web服務器,數(shù)據(jù)存儲在MySQL數(shù)據(jù)庫中一個表中,采用PHP語言實現(xiàn)用戶在數(shù)據(jù)庫中的檢索,最終在Web中輸入檢索對象并輸出檢索結果,展示給用戶[15,17]。
圖一展示了ExerciseSAGE數(shù)據(jù)庫構建的框架。首先,從GEO數(shù)據(jù)庫中下載得到運動前0h,運動后3h,48h,96h骨骼肌的基因表達芯片,然后數(shù)據(jù)經(jīng)過處理即作為數(shù)據(jù)庫中的原始數(shù)據(jù)。檢索系統(tǒng)中主要包括,通過基因的關鍵詞檢索,或者通過基因編號、標簽序列、基因表達量、染色體位置、Entrez ID編號、基因功能等進行組合查詢。查詢的結果主要展示的有:基因的編號、Tag序列、0h表達量、3h表達量、48h表達量、96h表達量、基因的描述、染色體及其位置信息、Entrez ID編號和Ontology注釋信息。
圖一 ExerciseSAGE數(shù)據(jù)庫構建
ExerciseSAGE數(shù)據(jù)庫網(wǎng)站是一個使用簡單方便的web數(shù)據(jù)庫網(wǎng)站。主要由6部分組成:主頁、基因檢索、方法、數(shù)據(jù)下載、問題反饋。
使用者可以通過www.tsrna.org訪問ExerciseSAGE數(shù)據(jù)庫。主頁包含對ExerciseSAGE介紹(圖二)。通過對ExerciseSAGE的整體框架的了解可以方便快速地進入基因檢索頁面。
圖二 ExerciseSAGE主頁
網(wǎng)站查詢頁可以根據(jù)用戶的輸入查詢特定的基因用以分析運動后不同時期的基因表達量。輸入選項包括基因名稱,標簽序列,基因ID,染色體,基因本體論,基因表達量范圍(圖三)等。以ACTN3基因為例,查找ACTN3基因在運動前后的動態(tài)變化過程。
圖三 ExerciseSAGE查詢頁
之前的研究證實ACTN3是運動過程中最主要的候選基因之一,這個基因的功能主要與骨骼肌的爆發(fā)力相關。通常而言,在耐力運動項目中擁有ACTN3基因的比例為50%左右,跟普通人群中的比例沒有明顯差別。通過檢測參加奧運會中與爆發(fā)力有關的項目(如短跑、跳遠等)高水平的運動員中正常ACTN3基因的攜帶比例達到95%,而在一些個別項目的女運動員中有100%攜帶[18-19]。直接可以在關鍵詞檢索中輸入“ACTN3”,點擊檢索,頁面下方出現(xiàn)了一條基因,即ACTN3,我們可以看到其基因編號NM_001104.1(圖四),基因芯片中使用的標簽序列為“TGGACTACGTGGCCTTCTCCAGTGCCCTCTATGGGGAGAGCGACCTTTGA”,以及在運動前0h、運動后3h、48h、96h分別對應的基因的表達量(reads數(shù)目)是1811、2022、1142、1336,后面依次是基因描述為“Homo sapiens actin,alpha 3(ACTN3),mRNA.”,所在染色體的位置為11號染色體6608719位置,Entrez ID編號是89,以及基因本體的注釋是“A filamentous structure formed of a two-stranded helical polymer of the protein actin and associated proteins.Actin filaments are a major component of the contractile apparatus of skeletal muscle and the microfilaments of the cytoskeleton of eukaryotic”(圖四)。另外,Entrez ID也設置了超鏈接,可以點擊鏈接到NCBI的genbank數(shù)據(jù)庫中。因此可以利用外部數(shù)據(jù)庫NCBI和UCSC(圖五)工具做進一步分析。
圖四 ACTN3檢索結果
圖五 ACTN3鏈接到UCSC
同時根據(jù)基因組所在的位置,我們也可以鏈接到UCSC基因組瀏覽器中進一步分析此基因。此外,數(shù)據(jù)庫中還包含了584條miRNA和約855條長鏈非編碼RNA。
另外通過檢索頁也可以檢索標簽序列的表達數(shù)量。這是從表達水平上對基因搜索進行檢索,可以去查詢一些表達量很低或者很高的基因。還可以進行一些特征的組合檢索,例如,在運動后3小時,標簽序列數(shù)量大于2000,基因功能為“skeletal muscle”,在11號染色體上,檢索結果圖中有目標基因ACTN3(圖六)。這樣可以快速定位某一類特征的基因。
圖六 組合檢索ACTN3
運動基因表達數(shù)據(jù)庫是一個收集關于運動過程中和運動后轉錄本分析的數(shù)據(jù)庫,它在一個非常靈活的平臺上構建。除了靜態(tài)數(shù)據(jù)分析,我們利用SAGE數(shù)據(jù)提取了運動后不同時間點的不同轉錄本表達量的信息。目前正在收集更多的數(shù)據(jù)去分析關于不同運動類型、不同模式動物(大鼠、小鼠)等的動態(tài)基因表達情況,這些信息將會在下一版本的ExerciseSAGE數(shù)據(jù)庫中展示。在當前版本中,轉錄本數(shù)據(jù)主要是以表格的方式進行呈現(xiàn),不利于直觀的比較,后續(xù)的版本中,我們將會增加圖形化展示,同時,為了跟其他數(shù)據(jù)更好的聯(lián)合分析,也會增加SAGE數(shù)據(jù)直接在UCSC基因組瀏覽器上的展示。ExerciseSAGE的長期科學的目標是作為一個集中的數(shù)據(jù)展示分析平臺去探索發(fā)現(xiàn)運動過程中肌肉細胞動態(tài)的基因表達變化,以及這些變化所反映的背后的生理機制。