梁莎莎,龐春英,鄧廷賢,陸杏蓉,段安琴,馬小婭,方艷艷,梁賢威
(中國(guó)農(nóng)業(yè)科學(xué)院廣西水牛研究所,農(nóng)業(yè)部(廣西)水牛遺傳繁育重點(diǎn)實(shí)驗(yàn)室,南寧 530001)
水牛以耐粗飼而著稱,具有適應(yīng)性強(qiáng)、耐高溫高濕、抗病力強(qiáng)和易飼養(yǎng)等特點(diǎn)[1]。除了作為役畜外,水牛還可提供奶類和肉類,具有重要的經(jīng)濟(jì)價(jià)值[2-9]。水牛奶乳汁濃厚,奶質(zhì)優(yōu)良,營(yíng)養(yǎng)豐富,具有較高的乳脂肪(8.0%)、乳蛋白(4.5%)、不飽和脂肪酸比例和較低的磷脂和膽固醇水平[10],有“奶中之王”之稱。然而,水牛平均產(chǎn)奶量遠(yuǎn)低于荷斯坦奶牛,奶產(chǎn)量?jī)H占世界牛奶產(chǎn)量的13%[11]。因此,提高水牛泌乳性能至關(guān)重要,而挖掘與產(chǎn)奶性狀相關(guān)的候選基因則有助于改善水牛泌乳性能。
信號(hào)轉(zhuǎn)導(dǎo)和轉(zhuǎn)錄激活子(signal transducer and activators of transcription,STATs)家族,存在于細(xì)胞質(zhì)中并被細(xì)胞因子、生長(zhǎng)因子等胞外信號(hào)刺激磷酸化后能夠轉(zhuǎn)入核內(nèi),并作用于細(xì)胞核內(nèi)特異的DNA片段,調(diào)控靶基因的轉(zhuǎn)錄,影響細(xì)胞增殖、分化和凋亡,并參與腫瘤的發(fā)生和惡化[12]。STAT家族由STAT1、STAT2、STAT3、STAT4、STAT5A、STAT5B和STAT6共7個(gè)家族成員組成。其中,STAT1可通過參與生長(zhǎng)激素[13]與催乳素[14]的信號(hào)轉(zhuǎn)導(dǎo)影響哺乳動(dòng)物的泌乳性能[15]。STAT2是對(duì)I型干擾素信號(hào)轉(zhuǎn)導(dǎo)途徑至關(guān)重要的轉(zhuǎn)錄因子[16],STAT2缺失可顯著抑制人乳腺癌細(xì)胞的增殖、遷移、侵襲和形成二維菌落的能力[17]。STAT3對(duì)正常的細(xì)胞的一些生理功能起著關(guān)鍵性的調(diào)節(jié)作用,例如細(xì)胞的分化、增殖、凋亡等相關(guān)的一系列基因異常的高表達(dá)由STAT3的持續(xù)激活完成[18]。STAT4表達(dá)于髓樣組織中,特別是睪丸組織和乳腺組織[19-20],在動(dòng)物生殖系統(tǒng)和泌乳系統(tǒng)中通過結(jié)合基因啟動(dòng)子區(qū)的STAT4順式作用元件調(diào)節(jié)基因的表達(dá),從而發(fā)揮一定作用。STAT5對(duì)髓系細(xì)胞的發(fā)育具有重要意義,而且還通過與T細(xì)胞中細(xì)胞因子的調(diào)節(jié)不同的機(jī)制來調(diào)節(jié)細(xì)胞因子的產(chǎn)生[21]。STAT5基因敲除可抑制水牛乳腺上皮細(xì)胞的G1/S轉(zhuǎn)化,顯著降低乳蛋白基因的表達(dá),而STAT5基因過表達(dá)可顯著提高乳蛋白基因的表達(dá)[22]。STAT6在各種腫瘤中表達(dá)強(qiáng)烈,與癌細(xì)胞增殖、惡性程度增加有關(guān),在人類惡性淋巴瘤、胰腺癌、結(jié)直腸癌、前列腺癌和乳腺癌中表達(dá)最高[23]。大量研究表明,STATs對(duì)哺乳動(dòng)物的乳房疾病、泌乳性能等方面起重要作用[24]。然而目前關(guān)于水牛STAT基因家族的研究較少,本研究以水牛基因組為參考,從全基因組水平鑒定水牛的STAT家族成員,分析該家族成員的蛋白序列特征、motif分布、外顯子—內(nèi)含子結(jié)構(gòu)、染色體定位、共線性關(guān)系、系統(tǒng)進(jìn)化關(guān)系和表達(dá)量差異,為后續(xù)更深入挖掘水牛STAT基因家族的功能提供了理論基礎(chǔ)。
研究以水牛及其相關(guān)物種的全基因組序列和水牛乳腺組織RNA-seq數(shù)據(jù)(Accession:PRJNA480718)為基礎(chǔ)進(jìn)行分析。全基因組數(shù)據(jù)包括全基因組的基因序列、蛋白質(zhì)序列和基因注釋文件。全基因組數(shù)據(jù)下載地址為:
水牛,https://www.ncbi.nlm.nih.gov/genome/?term=buffalo;
奶牛,https://www.ncbi.nlm.nih.gov/genome/?term=cow;
牦牛,https://www.ncbi.nlm.nih.gov/genome/?term=Bos+mutus;
山羊,https://www.ncbi.nlm.nih.gov/genome/?term=goat;
綿羊,https://www.ncbi.nlm.nih.gov/genome/?term=Ovis+aries;
馬,https://www.ncbi.nlm.nih.gov/genome/?term=Equus+caballus;
駱駝,https://www.ncbi.nlm.nih.gov/genome/?term=Camelus+ferus。
RNA-seq數(shù)據(jù)下載于NCBI(Accession:PRJNA480718),包括SRR7523531~SRR7523538.sra共8個(gè)文件。
登陸UniProt(https://www.uniprot.org/)搜索STAT基因家族的蛋白質(zhì)序列,勾選所有該家族不同物種的可靠蛋白序列,下載保存并使用MEGA7.0軟件比對(duì)其同源性。登陸NCBI下載水牛完整蛋白序列,再使用hmmbuild和hmmsearch軟件構(gòu)建HMM模型并搜索序列庫(kù)找到水牛STAT基因家族所有的蛋白序列,最后使用TBtools軟件將序列提取出來。
使用ProtScale(https://web.expasy.org/protscale/)計(jì)算水牛STAT家族蛋白質(zhì)分子量和等電點(diǎn);使用TBtools軟件中的Table Row Extract or Filter插件從水牛和奶牛的基因注釋文件中提取STATs染色體分布信息。
使用MEME(http://meme-suite.org/tools/meme)和GSDS(http://gsds.cbi.pku.edu.cn/)分析水牛STAT家族蛋白質(zhì)保守motif和基因結(jié)構(gòu);使用Pfam(http://pfam.xfam.org/)搜索每個(gè)motif所屬的結(jié)構(gòu)域;使用MEGA7.0構(gòu)建水牛STAT家族系統(tǒng)進(jìn)化樹;最后使用TBtools軟件將水牛STATs系統(tǒng)進(jìn)化樹和motif分析結(jié)果整合到一起進(jìn)行可視化。
為了探討STAT家族的進(jìn)化進(jìn)展,本研究使用one step MCscanX插件對(duì)水牛和奶牛的種內(nèi)及種間進(jìn)行共線性分析,使用Advanced Circos插件繪制相應(yīng)的關(guān)系圖。使用SimpleKa/KsCalculator(NG)插件計(jì)算水牛串聯(lián)重復(fù)STAT基因的Ka/Ks(進(jìn)化選擇壓力)。
為揭示水牛與其近緣物種STATs之間的進(jìn)化關(guān)系,使用MEGA7.0構(gòu)建水牛、奶牛、牦牛、山羊、綿羊、馬和駱駝的STAT家族系統(tǒng)進(jìn)化樹,最后使用Adobe Illustrator CS6對(duì)系統(tǒng)進(jìn)化樹圖片進(jìn)行美化。
為揭示STATs不同成員在水牛乳腺組織中的表達(dá)量差異,本試驗(yàn)選用8個(gè)不同水牛乳腺組織RNA-seq數(shù)據(jù)進(jìn)行STATs表達(dá)量分析。使用sratoolkit將所有RNA-seq原始sra文件轉(zhuǎn)換為fastq格式。運(yùn)用kallisto構(gòu)建水牛STAT基因家族index庫(kù),并分別比對(duì)8個(gè)RNA-seq數(shù)據(jù),進(jìn)行量化分析,計(jì)算STATs在不同RNA-seq中的TPM(transcripts per million)值,由TPM值來表示基因的表達(dá)量。最后使用TBtools軟件中的Heatmap插件對(duì)其進(jìn)行可視化,繪制STATs在不同水牛乳腺組織中的表達(dá)量熱圖。
對(duì)水?;蚪M的蛋白序列進(jìn)行搜索,最終共鑒定得到7條水牛STAT蛋白的編碼基因,命名為bbu.STAT1~6,其中bbu.STAT5分為bbu.STAT5A和bbu.STAT5B。染色體分布情況結(jié)果顯示:bbu.STAT1和bbu.STAT4位于2號(hào)染色體,bbu.STAT2和bbu.STAT6位于4號(hào)染色體,bbu.STAT3、bbu.STAT5A和bbu.STAT5B位于3號(hào)染色體。bbu.STAT2的蛋白長(zhǎng)度最長(zhǎng),為865 aa,最短的是bbu.STAT4,為748 aa。所有蛋白的等電點(diǎn)介于4.9~6.6之間,均小于7(表1)。
表1 水牛STAT蛋白序列特征
根據(jù)水牛STATs系統(tǒng)進(jìn)化樹結(jié)果,可將水牛STAT家族基因分為3組,即STAT1、STAT3、STAT4為一組,STAT2單獨(dú)為一組,STAT5A、STAT5B和STAT6為一組。
蛋白保守基序結(jié)果顯示:共預(yù)測(cè)出10個(gè)保守的motifs(命名為Motif 1~10)。這10個(gè)保守motifs的分布見圖1,詳細(xì)的氨基酸序列信息見表2。在Pfam搜索過后,由圖1可知,水牛STAT家族成員中,除了STAT2外,均含有預(yù)測(cè)出的Motif 1~10且排序相同,而STAT2缺少了Motif10。
表2 水牛中10個(gè)不同的motif
基因結(jié)構(gòu)結(jié)果顯示:水牛STAT1和STAT4基因有25個(gè)外顯子,24個(gè)內(nèi)含子,STAT2和STAT3有24個(gè)外顯子,23個(gè)內(nèi)含子,STAT5A和STAT5B有19個(gè)外顯子,18個(gè)內(nèi)含子,STAT6有22個(gè)外顯子和21個(gè)內(nèi)含子(圖1)。
為了研究STAT家族的進(jìn)化進(jìn)展,對(duì)水牛和奶牛的種內(nèi)及種間進(jìn)行共線性分析。結(jié)果表明,在水牛中,有3對(duì)基因:位于2號(hào)染色體的STAT1-STAT4、位于3號(hào)染色體STAT3-STAT5A和STAT5A-STAT5B表現(xiàn)出串聯(lián)重復(fù)。在奶牛中也發(fā)現(xiàn)了3對(duì)基因:位于2號(hào)染色體的STAT1-STAT4、位于19號(hào)染色體的STAT5A-STAT3和STAT5B-STAT5A表現(xiàn)出串聯(lián)重復(fù)(圖2A和B)。種間共線性分析結(jié)果表明:水牛STAT與奶牛STAT存在4對(duì)片段重復(fù)基因,分別是bbu.STAT1-bta.STAT1、bbu.STAT2-bta.STAT2、bbu.STAT3-bta.STAT5B和bbu.STAT6-bta.STAT6(圖2C)。
計(jì)算水牛STATs串聯(lián)重復(fù)基因的Ka/Ks(進(jìn)化選擇壓力)結(jié)果顯示:水牛3對(duì)串聯(lián)重復(fù)基因中,STAT1-STAT4的非同義替換(Ka)/同義替換(Ks)值為NaN,STAT3-STAT5A和STAT5A-STAT5B的值均小于0.5(表3)。
表3 水牛STAT家族串聯(lián)重復(fù)基因的Ka/Ks
為揭示水牛與水牛近緣物種STATs之間的進(jìn)化關(guān)系,分別獲取了奶牛(Bostaurus)、牦牛(Bosmutus)、山羊(Caprahircas)、綿羊(Ovisaries)、馬(Equuscaballus)和駱駝(Camelusferus)的STAT家族蛋白序列一起構(gòu)建進(jìn)化樹(圖3)。根據(jù)進(jìn)化樹信息,發(fā)現(xiàn)所有的基因劃分為4大類,分別是GroupA、GroupB、GroupC和GroupD,GroupA包括所有上述物種的STAT1、STAT3和STAT4,GroupB包括STAT2,GroupC包括STAT6,GroupD包括STAT5A和STAT5B。其中水牛STAT家族基因與奶牛和牦牛的聚類更為相近。
為了探索STATs對(duì)水牛乳房發(fā)育及泌乳性能的作用,本試驗(yàn)利用8個(gè)水牛乳腺組織RNA-seq數(shù)據(jù),分析了7個(gè)水牛STAT基因的表達(dá)量。根據(jù)TPM計(jì)算結(jié)果顯示,這7個(gè)STAT基因在乳腺組織中均有表達(dá),其中STAT5A的表達(dá)量最高,STAT4的表達(dá)量最低(表4、圖4)。
表4 STAT家族在8頭水牛乳腺組織轉(zhuǎn)錄組中的TPM值
STATs是細(xì)胞因子相關(guān)信號(hào)傳遞的重要介質(zhì),在調(diào)節(jié)正常細(xì)胞的分化、生長(zhǎng)和存活上起重要作用[18],是細(xì)胞表面和細(xì)胞核之間的紐帶[12]。目前,我們對(duì)于水牛STAT家族了解較少。本研究利用生物信息學(xué)技術(shù)在水牛全基因組序列中鑒定出7個(gè)STAT家族成員,根據(jù)它們的進(jìn)化關(guān)系分成了3組。這7個(gè)STAT基因蛋白長(zhǎng)度在748~865 aa之間,等電點(diǎn)PI均小于7,這說明水牛STAT蛋白均屬于酸性蛋白質(zhì)。基因結(jié)構(gòu)分析看出不同的組具有不同的內(nèi)含子數(shù)模式。Motif分析顯示,水牛STAT基因家族成員中,除了STAT2外,其余成員的蛋白中都包括了STAT_int、STAT_alpha、STAT_bind和SH2這4個(gè)結(jié)構(gòu)域且motif排序相同,表明水牛STAT基因家族成員蛋白功能相似。
在遺傳進(jìn)化過程中,串聯(lián)復(fù)制和片段復(fù)制有助于加速基因家族的擴(kuò)增和基因組進(jìn)化機(jī)制,為獲取新的基因功能提供了可能[22]。本次對(duì)水牛和奶牛的種內(nèi)共線性分析中,均發(fā)現(xiàn)3對(duì)相同成員的STAT基因表現(xiàn)出串聯(lián)重復(fù)且沒有發(fā)現(xiàn)片段重復(fù)。由此可以推測(cè)串聯(lián)復(fù)制在水牛和奶牛STAT家族的擴(kuò)增中起著主導(dǎo)作用。此外,水牛和奶牛種間共線性關(guān)系很高并且發(fā)現(xiàn)了4對(duì)片段重復(fù)STAT基因,說明兩者親緣關(guān)系非常接近[23]。基因在復(fù)制的過程中產(chǎn)生遺傳變異,導(dǎo)致功能分歧,隨后純化選擇將功能固定下來[28]。因此本研究對(duì)于水牛串聯(lián)重復(fù)的STAT基因?qū)M(jìn)行了Ka/Ks計(jì)算,結(jié)果顯示有2對(duì)Ka/Ks值小于0.5,其中STAT5A-STAT5B小于0.1,說明該基因?qū)哂懈鼜?qiáng)的純化選擇壓力,功能更穩(wěn)定,不易受環(huán)境影響。
不同物種STAT系統(tǒng)發(fā)育分析結(jié)果顯示,不同物種的直系同源STAT基因聚類在一起,可以看出STAT基因家族具有較高的保守性,其中水牛與奶牛和牦牛的聚類更為接近。在進(jìn)化中的這種高度保守,也暗示了其在哺乳動(dòng)物中具有重要的生物學(xué)功能。
在RNA-seq中,每個(gè)mRNA轉(zhuǎn)錄本的表達(dá)水平由映射片段的總數(shù)來測(cè)量,這與其豐度水平成正比。TPM(transcripts per million)則是表現(xiàn)RNA豐度的一個(gè)單位[29]。本研究基于水牛乳腺組織RNA-seq的STATs表達(dá)量分析發(fā)現(xiàn),所有STAT基因在乳腺組織中均有表達(dá),STAT3、STAT5A、STAT5B和STAT6的表達(dá)量較高,其中STAT5A的表達(dá)量最高。有研究表明,STAT3可通過調(diào)節(jié)乳脂小球的攝取和溶酶體膜通透性控制乳腺細(xì)胞死亡[30]。STAT6基因敲除可抑制人乳腺癌細(xì)胞系的增殖并誘導(dǎo)細(xì)胞凋亡[31]。STAT5A對(duì)于乳房發(fā)育[32]、免疫[33]、脂質(zhì)沉積和脂肪細(xì)胞新陳代謝[34]都有重要作用[14]。敲除STAT5A的小鼠在孕期因上皮細(xì)胞減少和分化障礙而不能形成具有正常功能的乳腺組織[35]。在水牛中,STAT5表達(dá)與乳腺細(xì)胞增殖和乳蛋白合成密切相關(guān)。與非泌乳期相比,泌乳期STAT5A和STAT5B表達(dá)顯著降低且STAT5A在乳腺的表達(dá)量最高[32]。由此可以推測(cè)水牛STAT基因家族參與調(diào)控乳房發(fā)育及泌乳過程,其中STAT5A可能起更重要的作用。
綜上所述,本研究利用生物信息學(xué)技術(shù)對(duì)水牛STAT基因家族進(jìn)行分析,對(duì)未來研究該基因家族在水牛泌乳、乳房疾病等相關(guān)生產(chǎn)方面的功能和提高水牛奶品質(zhì)具有重要意義。
本研究結(jié)果顯示,水牛STAT基因家族包括STAT1~4、STAT5A、STAT5B和STAT6共7個(gè)成員,預(yù)測(cè)出10個(gè)motif保守結(jié)構(gòu)。發(fā)現(xiàn)3對(duì)水牛STAT基因?qū)Ρ憩F(xiàn)出串聯(lián)重復(fù),其中2對(duì)受純化選擇。聚類分析表明水牛STAT基因家族與奶牛和牦牛的聚類更為接近。在水牛乳腺組織中,STAT5A的表達(dá)量最高,STAT4的表達(dá)量最低。推測(cè)水牛STAT基因家族參與調(diào)控乳房發(fā)育及泌乳過程,其中STAT5A可能起更重要的作用。