白秀娟,姜恩澤,蘇 杭,朱宇航,許 愿,徐逸男,李 雪,韓志強,徐 超
(1.東北農業(yè)大學動物科學技術學院,哈爾濱,150030;2.中國農業(yè)科學院特產研究所,長春 130112)
KIT基因,又名c-KIT基因,編碼的肥大/干細胞生長因子受體(Mast/stem cell growth factor receptors)最初于貓肉瘤病毒中被發(fā)現(xiàn)[1]。在色素沉著方面,KIT基因主要調控黑色素細胞前體沿特定路徑遷移到真皮、表皮、內耳和眼脈絡膜的過程[2]。KIT基因非正常編碼或表達量較少時,黑色素細胞不會正常增殖和遷移,機體產生不同程度白化[3]。白癜風患者KIT基因表達量極顯著低于正常人[4]。目前,KIT基因在動物中已發(fā)現(xiàn)多種突變體。狐貍白色被毛與KIT基因外顯子12缺失有關[5]。KIT基因易位使牛表現(xiàn)不同程度白斑[6]。阿拉伯駱駝白色斑點與KIT基因突變有關[7]。研究表明KIT基因在毛色調控中發(fā)揮重要作用。
烏蘇里貉(Nyctereutes procyonoides)屬于犬科(Canidae),經濟價值較高的毛皮動物。研究表明野豬KIT基因與毛色表型不相關[8],烏蘇里貉KIT基因編碼區(qū)未發(fā)現(xiàn)與毛色相關單核苷酸位點[9-10],烏蘇里貉KIT基因與毛色關系未見報道,為了解烏蘇里貉KIT基因及編碼蛋白結構特性,基于機器學習和人工神經網絡等在線軟件對其編碼蛋白一級、二級、三級結構作全面生物信息學分析。研究結果旨在比較烏蘇里貉與其他動物KIT基因提供參考,為了解KIT基因潛在功能提供新思路。
根據中國農業(yè)科學院特產研究所上傳到SRA數(shù)據庫的烏蘇里貉皮膚轉錄組數(shù)據:野生貉(SRS1620675,SRS1620679,SRS1620678),白貉(SRR4158185,SRR4158184,SRR4158183),紅棕貉(SRR4034955, SRR4034954,SRR4034953)各3只,原始數(shù)據均由Illumina HiSeqTM 2000雙端測序獲得,按文獻[11]方法分析轉錄本數(shù)據。為獲得clean reads便于后續(xù)分析,將接頭、低質量序列和未知核苷酸序列過濾,使用Trinity軟件序列組裝,獲得盡可能長非冗余unigenes。通過Bowtie軟件比對unigenes。使用RSEM工具精確量化每個樣本轉錄豐度。使用FPKM方法計算每個轉錄產物基因表達水平。最后,分別提取不同毛色烏蘇里貉KIT基因表達量方差分析。
從GenBank數(shù)據庫檢索已公布的烏蘇里貉KIT基因mRNA序列,登錄號:KM083121,保存完整CDS序列,以便進一步生物信息學分析。
使用DNAMAN軟件中display sequence程序分析CDS序列總長度及4種堿基含量。通過在線軟件ORF finder(https://www.ncbi.nlm.nih.gov/orffinder/)分析CDS區(qū)開放閱讀框。
為了解烏蘇里貉KIT基因編碼蛋白一級結構特征,運用Protparam(https://web.expasy.org/protparam/)在線軟件預測KIT基因編碼蛋白理化性質。運用基于Hphob./Kyte&Doolittle模型在線軟件Protscale(https://web.expasy.org/protscale/)預測KIT蛋白親水性和疏水性。運用在線軟件NetOGly 4.0 Server(http://www.cbs.dtu.dk/services/NetOGlyc/)和 NetNG-ly 1.0 Server(http://www.cbs.dtu.dk/services/NetNG-lyc/)分別預測KIT蛋白O-糖基位點和N-糖基位點。最后,使用在線軟件NetPhos(http://www.cbs.dtu.dk/services/NetPhos/)預測烏蘇里貉KIT蛋白磷酸化位點[12]。
使用SOPMA(https://npsa-prabi.ibcp.fr/cgi-bin/npsa_automat.pl?page=npsa_sopma.html)在線軟件預測烏蘇里貉KIT蛋白二級結構[12]。運用在線軟件SingalP(http://www.cbs.dtu.dk/services/SignalP/)定 位分析KIT蛋白信號肽[13]。通過TMHMM(http://www.cbs.dtu.dk/services/TMHMM/)在線工具預測分析KIT蛋白質跨膜區(qū)位置[14]。通過在線軟件PSORT(https://www.genscript.com/psort.html)和 Softberry(http://linux1.softberry.com/)網站預測KIT蛋白亞細胞定位。通過NCBI Conserved Domain(https://www.ncbi.nlm.nih.gov/cdd/)尋找KIT蛋白保守結構域[13]。
通過SWISS-MODEL(https://swissmodel.expasy.org/interactive)網站構建KIT蛋白三級結構模型。運用 STRING(https://string-db.org/cgi/input.pl)交互數(shù)據庫分析與KIT蛋白密切作用的蛋白質。
根據烏蘇里貉KIT蛋白序列,運行BLAST,獲得家犬(AAD28369.1,Canis lupus familiaris)、家貓(NP_001009837.3,F(xiàn)elis catus)、野豬(AFK92989.1,Sus scrofa)、牦牛(XP_005905988.1,Bos mutus)、藏羚羊(XP_005961702.1,Pantholops hodgsonii)、家 馬(NP_001157338.2,Equus caballus)、 家 牛(XP_005207994.2,Bos taurus)7個物種KIT蛋白序列,運用在線軟件Clustal Omeaga(https://www.ebi.ac.uk/Tools/msa/clustalo/)對8個物種KIT蛋白序列比對分析,通過MEGA5.1軟件中鄰近法構建系統(tǒng)發(fā)育樹。
在3種毛色烏蘇里貉轉錄本定量表達中,白貉KIT基因表達量最高,為1.4746,其次為紅棕貉(0.0748),野生貉KIT基因表達量最低(0.0246),且白貉KIT基因表達量顯著高于紅棕貉和野生貉(P<0.05)。
DNAMAN序列分析結果顯示,烏蘇里貉KIT基因CDS區(qū)長度為2 919 bp,4種堿基含量依次為A(27.4%,800)>T(25.6%,748)>G(24.6%,719)>C(22.4%,652),其中A+T含量(53%)略高于G+C含量(47%),說明該基因穩(wěn)定性較差,ssDNA分子質量為902.77,dsDNA分子質量為1 799.47。ORF finder開放閱讀框預測結果顯示,起始密碼子ATG編碼Met,終止密碼子TGA不編碼氨基酸,該序列共編碼972個氨基酸。
2.3.1 理化特性
在線工具Protparam分析理化性質結果表明,烏蘇里貉KIT基因編碼蛋白分子式為C4863H7546N1294O1451S52,由15 206個原子組成,分子質量為109 022.33,消光系數(shù)在280 nm處測量值為135 120,推測烏蘇里貉體內半衰期為30 h,不穩(wěn)定指數(shù)為37.79(<40),為穩(wěn)定氨基酸,脂肪族氨基酸指數(shù)為81.39,該蛋白質序列等電點為6.15,屬于酸性蛋白質。
2.3.2 親水性和疏水性
在線工具Proscal分析親水性和疏水性結果表明,烏蘇里貉KIT基因編碼蛋白中疏水性氨基酸(Ala、Val、Leu、Ile、Phe、Trp、Met、Pro)399個,親水性氨基酸(Gly、Thr、Ser、Cys、Asn、Gln、Tyr、Lys、Arg、His、Asp、Glu)573個,其中,第14位氨基酸為最大疏水性氨基酸(3.589),第364位氨基酸為最大親水性氨基酸(-2.789),且親水性氨基酸(<0)多于疏水性氨基酸(>0),平均親水系數(shù)為負值(-0.224),因此該蛋白質是親水性蛋白質,結果見圖1。
2.3.3 烏蘇里貉KIT蛋白的糖基位點和磷酸化位點預測
在線軟件NetOGly 4.0 Server分析結果顯示,烏蘇里貉KIT蛋白共存在12個O-糖基位點,分別在第 28、 30、 38、 709、 939、 950、 955、 958、959、961、962、963位氨基酸。NetNGly 1.0 Server分析結果表明,烏蘇里貉KIT蛋白共存在9個N-糖基位點,位置分別在第94、130、145、283、300、352、367、400、486位氨基酸。通過Net-Phos分析磷酸化位點結果發(fā)現(xiàn),烏蘇里貉KIT蛋白共60個磷酸化位點分值高于0.5,其中包括35個絲氨酸(Ser)、10個蘇氨酸(Thr)、15個酪氨酸(Tyr),具體位置如表1所示。
通過SOPMA在線軟件預測烏蘇里貉KIT蛋白二級結構。預測結果顯示,該蛋白有247個(25.41%)氨基酸形成α螺旋;220個(22.63%)氨基酸形成延伸直鏈;50個(5.14%)氨基酸形成β-轉角;455個(46.81%)氨基酸形成無規(guī)卷曲,因此無規(guī)卷曲為烏蘇里貉KIT蛋白主要二級結構。
2.5.1 信號肽和跨膜區(qū)
在線分析軟件TMHMM預測該蛋白存在兩個跨膜區(qū)結構,分別在第517~539、649~671位氨基酸,其余第1~516、672~972位氨基酸位于細胞膜外側,第540~648位氨基酸位于細胞膜內側(見圖2)。
在線SignalP軟件預測該蛋白質信號肽結果顯示,該蛋白在第1~25位氨基酸為信號肽序列,因此推測該蛋白為分泌型蛋白(見圖3)。
2.5.2 保守結構域
NCBI Conserved Domain預測結果表明,烏蘇里貉KIT蛋白共有4個保守結構域,包括2個免疫球蛋白結構域(Ig),分別位于第216~305、426~505位氨基酸殘基,1個干細胞因子受體第四免疫球蛋白樣域(Ig4_SCFR),位于第311~411位氨基酸殘基,1個蛋白激酶C(PKc-like),位于第549~924位氨基酸殘基(見圖4)。
2.5.3 亞細胞定位
在線軟件PSORT預測烏蘇里貉KIT基因編碼蛋白亞細胞定位結果顯示,該蛋白存在于內質網(21.7%)、高爾基體(13.0%)、細胞膜(34.8%)、細胞外(30.4%),Softberry網站分析該蛋白定位在細胞膜上評分為10.0(滿分)。
通過SWISS-MODEL對烏蘇里貉KIT蛋白同源建模,系統(tǒng)根據蛋白質結構域將烏蘇里貉KIT蛋白分為兩大板塊。根據烏蘇里貉KIT蛋白第33~507位氨基酸同源建模獲得三級結構,如圖5a所示,包含KIT蛋白2個Ig和1個Ig4_SCFR。根據烏蘇里貉KIT蛋白第547~927位氨基酸同源建模獲得三級結構,如圖5b所示,包含1個PKc-like。
運用STRING預測與KIT蛋白相互作用蛋白質,如圖6所示,其中共有5個蛋白相關系數(shù)在0.950以上,包括KIT配體(KITLG),相關系數(shù)0.998;磷酸肌苷-3激酶(PIK3R1),相關系數(shù)0.962;磷脂酰肌醇4,5-二磷酸3激酶(PIK3CA),相關系數(shù)0.961;還有兩個RAS家族原癌基因NRAS、HRAS,相關系數(shù)分別為0.960、0.957。
通過鄰近法構建系統(tǒng)發(fā)育樹,其中重復參數(shù)為1 000,采用鄰近法計算距離,從系統(tǒng)發(fā)育樹中可見,如圖7所示,烏蘇里貉和家犬進化距離較近,與家貓聚合為1支,家牛、牦牛、藏羚羊、野豬、家馬聚合為另1支。
黑色素細胞起源于胚胎發(fā)育時神經嵴細胞,KIT基因可調控神經嵴細胞分化、存活和遷移[15-16],是黑色素細胞成熟關鍵。理論上,KIT基因表達量較多利于黑色素細胞成熟,可產生較多黑色素,機體顏色加深。斑嘴野鴨KIT基因在褐羽和黃白羽中表達量均顯著高于白羽(P<0.05)[17],騮色蒙古馬KIT基因表達量極顯著高于白色蒙古馬(P<0.01)[3],Du等研究結果表明,白貉被毛中黑色素含量顯著低于野生貉[11]。3種毛色烏蘇里貉轉錄本定量結果表示,KIT基因在白貉中表達量最高,其次是紅棕貉,而野生貉KIT基因表達量最低,與烏蘇里貉KIT基因表達量和毛色表型關系不符,可能是烏蘇里貉KIT基因及其編碼蛋白結構與其他動物不同所致。
文章從全球最大基因數(shù)據庫GenBank中檢索到烏蘇里貉KIT基因CDS序列作生物信息學分析,結果表明,KIT基因CDS序列全長2 919 bp,共編碼972個氨基酸。使用TMHMM和SignalP在線網站,基于神經網絡算法分別精準預測蛋白質跨膜區(qū)和信號肽,根據分析結果推測該信號肽位于氨基酸序列N端且分布在細胞膜外側,信號肽可調控大多數(shù)蛋白質分泌[18-19]。根據跨膜區(qū)和結構域分析結果,2個Ig和1個Ig4_SCFR位于氨基酸序列N端且分布在細胞膜外側,1個PKc-like位于氨基酸序列C端且分布在細胞膜外側。根據跨膜區(qū)和糖基化分析結果預測,O-糖基和N-糖基全部在細胞膜外側,且O-糖基主要分布在氨基酸序列C端,少數(shù)分布在N端。N-糖基分布在氨基酸序列N端。烏蘇里貉KIT蛋白首先在內質網中作N端糖基化修飾,再轉運到高爾基體中作復雜的糖基化修飾,最后到細胞膜表面表現(xiàn)生物學功能[20-21]。Softberry和PSORT為預測蛋白質亞細胞定位常用在線網站,Softberry網站功能全面,預測結果以評分表示,內容較詳細。PSORT網站功能較單一,預測結果百分比表示。通過PSORT網站對烏蘇里貉KIT蛋白亞細胞定位預測分析結果顯示,該蛋白質主要在細胞膜上發(fā)揮功能,與Softberry預測結果一致。根據跨膜區(qū)和磷酸化分析結果,KIT蛋白磷酸化位點有7個在細胞膜內側,53個在細胞膜外側,其中氨基酸序列N端存在30個,氨基酸序列C端存在23個,兩個跨膜區(qū)均不存在磷酸化位點。因此,研究結果闡明烏蘇里貉KIT基因編碼蛋白的性質,可為進一步研究提供參考數(shù)據。
根據BLAST分析結果構建系統(tǒng)發(fā)育樹,發(fā)現(xiàn)烏蘇里貉、家犬和家貓聚合為一大支,表明烏蘇里貉KIT蛋白結構與家犬、家貓相似。紅褐貉第二外顯子長為276 bp,與家犬、家貓同源性分別為97%、92%,且對野生貉、白貉、紅褐貉第二外顯子分析未發(fā)現(xiàn)突變位點[9],張巧靈等分析羊駝KIT基因exon10-19表明,其酪氨酸激酶活性位點僅橫跨12個氨基酸,而烏蘇里貉酪氨酸激酶549~924位于氨基酸殘基之間[22],約占KIT蛋白總長度一半。不同動物KIT蛋白結構不同,酪氨酸激酶結構域活性可影響KIT蛋白磷酸化,磷酸化轉化調控對干細胞遷移和下游信號轉導具有關鍵作用[23]。在具有白色斑點的冰島馬皮膚中發(fā)現(xiàn),KIT基因17號外顯子中缺失一個堿基,證實該缺失可阻礙黑色素細胞內酪氨酸激酶結構域功能。狐貍KIT基因17號外顯子缺失導致酪氨酸激酶域結構和功能發(fā)生改變,赤狐被毛表現(xiàn)為鉑金色[24]。藍狐KIT基因12號外顯子缺失導致酪氨酸激酶活性發(fā)生改變,被毛表現(xiàn)為白色[5]。而在烏蘇里貉KIT基因中并未發(fā)現(xiàn)與毛色相關的單核苷酸位點[10],F(xiàn)rischknecht報道全長7 125 bp的FERV1插入KIT基因內含子1中,導致貓產生白色斑點[25]。目前,對于各物種KIT基因結構研究較少,烏蘇里貉KIT蛋白研究結果可為進一步比較分析提供參考。烏蘇里貉KIT基因轉錄及翻譯調控研究仍較少,是否存在miRNA調控仍未知,由于抗體有限,測定不同毛色烏蘇里貉KIT蛋白表達量仍有難度。推測烏蘇里貉毛色也可能受KIT基因非編碼區(qū)調控,或是通過一種負反饋調節(jié)黑色素形成。