韓 君
(北京康仁堂藥業(yè)有限公司,北京 101301)
猬科在我國共有5 個屬7 個種。刺猬一直被用作傳統(tǒng)藥物,具有較高的藥用價值[1-3]。研究表明,刺猬皮膚的刺主要由角蛋白構成,而皮膚下層的真皮主要由彈性蛋白和脂肪等物質構成[4-5]。刺猬肉甘平無毒,具有降逆和胃、涼血止血的作用[6]。猬脂具有止血殺蟲的功效,可用于治療瘰疬、惡瘡等[7]。猬膽則有清熱解毒和明目的作用。除了傳統(tǒng)功效之外,還有人將刺猬用于治療前列腺肥大,且療效顯著[8]。其中,遠東刺猬起源于朝鮮半島,廣泛分布在中國、俄羅斯和朝鮮半島,是一種小型的夜間動物,生活在森林中。
最近研究表明,刺猬皮含有豐富的礦物質元素,其中鉀、鈉和鈣的含量最高。刺猬皮藥用價值與其礦物質元素含量密切相關[9]。不同種類和含量的礦物質元素,對于藥效發(fā)揮具有重要意義,但目前仍然缺少分子層面上的研究與驗證。因此,本研究擬以遠東刺猬線粒體mtDNA 編碼蛋白質基因序列為研究對象進行密碼子偏好性分析,以期為預測遠東刺猬未知蛋白的基因所在基因組位置、提高特定基因的表達效率打下理論基礎,同時為促進其藥用價值的分子機制探究提供基礎材料。
本研究所用的遠東刺猬線粒體基因組基因序列,均來源于美國國立生物技術信息中心GenBank數據庫。登錄NCBI 數據庫,并下載完整遠東刺猬線粒體基因組序列及其編碼序列(CDS),序列總長16 941 bp。為了準確分析遠東刺猬線粒體基因密碼子偏好性,本研究選擇遠東刺猬線粒體mtDNA 編碼蛋白質的基因序列中長度大于300 bp的非重復編碼序列(CDS)12條進行研究。
使用CodonW1.4.2軟件和在線程序CUSP(http://imed.Med.ucm.es/EMBOSS/)對所選擇的CDS 進行密碼子使用偏好參數分析[10],包括相對同義密碼子使用度(RSCU)、有效密碼子數目(ENC)、密碼子適應指數(CAI)、最優(yōu)密碼子使用頻率(Fop)、氨基酸數(L_aa)、同義氨基酸數(L_sym)、平均親水性值(Gravy)、密碼子偏愛指數(CBI)、GC、GC1、GC2、GC3和GC3s,其中GC、GC1、GC2和GC3的數字表示密碼子的位數(第1、2、3位),GC3s為同義密碼子第3位的GC含量。
通過中性分析,可以初步確定影響密碼子偏好的因素。該分析是通過計算GC1和GC2的平均值(即GC12),將其作為縱坐標,并以GC3作為橫坐標,繪制散點圖。每個點代表1個不同的基因,通過結合中性繪圖的結果來分析密碼子在這3 個位點上的GC 含量之間的關系,從而推斷影響密碼子使用偏好的因素。若密碼子這3 個位點上GC 含量存在內在關系,則表明相關基因在進化與遺傳時受突變作用;若密碼子這3 個位點上的GC 含量之間沒有相關性,那么可以推斷該基因受到選擇的影響,從而判斷導致密碼子使用偏好的因素[11]。
表1 遠東刺猬的線粒體基因組不同位置的GC含量
以GC3s為橫坐標,ENC 為縱坐標,將各基因根據橫縱坐標進行定位繪制散點圖,并在圖中構建ENC 的標準曲線。根據基因相對標準曲線的分布位置,從而判定密碼子偏好性的影響因素?;蛭挥跇藴是€附近或上方,表示突變是影響密碼子偏好性的主要因素;而基因位于標準曲線下方,則表示自然選擇是影響密碼子偏好性的主要因素。
利用CodonW1.4.2 軟件中的RSCU 對應分析功能,可以對遠東刺猬線粒體基因組密碼子進行分析,推測密碼子偏好性規(guī)律。
通過按照ENC 參數從大到小對參與分析的基因進行排序,可以將這些基因分成高低偏性兩個集合,分別取兩端各10%的基因序列,然后篩選同義密碼子相對使用度差值(△RSUA)大于0.08 且同義密碼子相對使用度(RSUA)大于1 的密碼子,將其確定為最優(yōu)密碼子[12]。
本研究共篩選出12 條以ATG 為起始密碼子且長度大于300 bp 的序列,并利用CodonW1.4.2 軟件與CUSP程序對篩選出的12條基因進行分析。結果見表1,顯示遠東刺猬的線粒體基因組密碼子第1位GC(GC1)平均含量為41.4%、第2 位(GC2)為34.4%、第3 位(GC3)為24.3%。結果表明,遠東刺猬線粒體基因密碼子的前2位GC含量明顯高于第3位,而第1 位的GC 含量最高,這表明其偏好于以A 和U 結尾的密碼子。ENC 的范圍為31.83~50.67,平均值為43.37。根據Jiang Y.等[13]的研究,當ENC值大于35 時說明密碼子偏好性弱、小于35 時密碼子偏好性強的標準,說明遠東刺猬線粒體基因密碼子偏好性較弱。
密碼子相關性分析結果見表2,顯示GC1、GC2、GC3與GC之間,均未呈顯著相關,相關系數為分別為-0.018、0.029、0.039,表明對遠東刺猬線粒體基因組而言,GC1、GC2、GC3不可以決定GC的含量。同時,GC1、GC2、GC3三者之間,均呈顯著正相關,相關系數均大于0.98,說明三者含量具有正向的互相影響作用。此外,ENC 與GC1、GC2、GC3、GC 均呈非顯著負相關,這表明GC 含量對密碼子的使用偏好性具有一定的負面影響。
表2 各基因相關參數的相關性分析
RSCU 分析結果見表3,發(fā)現遠東刺猬線粒體RSCU值大于1.00的密碼子數目為32個。其中,密碼子第3位堿基為A的有14個;第3位為U的有14個;第3 位為C 的有4 個。綜上說明,遠東刺猬線粒體基因組密碼子偏好以A 或U(T)結尾,不偏好以C或G結尾。
表3 遠東刺猬線粒體各氨基酸相對同義密碼子使用度
遠東刺猬線粒體基因中性繪圖分析(見圖1)顯示,GC12的取值范圍為0.336~0.440,GC3的取值范圍為0.216~0.254,所有基因的分布均位于對角線上方,且沒有沿對角線或在對角線附近的分布情況。利用SPSS 25.0 對GC12與GC3進行相關性分析,結果表明,兩者相關系數為0.443,雙尾檢測未達到顯著水平。
圖1 中性繪圖分析
ENC-plot繪圖分析(見圖2)顯示,在遠東刺猬線粒體基因組中,大部分基因的對應點與標準曲線存在不同程度的偏離,這表明這些基因在進化過程中受到了環(huán)境選擇壓力等其他因素的影響,從而導致其線粒體基因密碼子的偏性發(fā)生了改變。為了更好地顯示這種差異性,可以通過計算(ENCexp-ENCobs)/ENCexp的數值,并對結果進行頻率分布統(tǒng)計。統(tǒng)計結果顯示,所有基因的(ENCexp-ENCobs)/ENCexp 比值集中分布在-0.12~0.26,其中0.05~0.15 區(qū)間內所占例為66.67%,這說明雖然選擇壓力對大部分基因產生了作用,但并沒有較大程度地改變這些基因的密碼子偏好性。遠東刺猬線粒體基因密碼子偏好性主要受到突變的影響,而自然選擇對其的影響相對較小。
圖2 ENC-plot繪圖分析
基于RSCU進行對應性分析,得到各基因在59維向量空間的分布情況。結果表明,第1、2、3、4軸向量所占比例分別為35.64%、16.22%、10.26%和9.13%,前4 軸向量累計占比71.24%,其中第1 向量軸(Axis1)為主要影響因素。進行了各基因的ENC、CAI 及GC3s等偏好性參數與Axis1 之間的相關性分析,結果顯示GC3s(R=0.609)、ENC(R=0.743)與Axis1 呈顯著正相關;CAI(R=-0.375)與Axis1 呈負相關。這說明GC1、GC3s及CAI 對遠東刺猬線粒體基因密碼子的使用偏好性起重要作用。為進一步觀察密碼子偏好性,以Axis1為橫坐標,Axis2為縱坐標,將所有試驗基因分布區(qū)于坐標系中。通過觀察結果(見圖3)可知,ND1、ND2、ND3、ND4和ND5等5個基因分布相對集中,說明其偏好性較為接近;其他7 個基因分布較為分散,偏好性也相差較大。
圖3 基于RSCU的對應性分析
以ENC 參數為標準將所有基因的CDS(是指編碼一段蛋白產物的序列,是與蛋白質密碼子一一對應的序列)進行排序,而后在兩端各取2 個基因序列分別建立高低偏性集合;計算兩庫中的RSCU值,并計算兩庫△RSUA。結果見表4,顯示確定出了24 個遠東刺猬線粒體基因組高表達優(yōu)越密碼子,其中7個以A結尾、5個以U結尾、2個以G結尾和10個以C結尾。
表4 遠東刺猬線粒體基因組高/低表達樣本組的密碼子用法
通過將上述24 個高表達優(yōu)越密碼子與得出的高頻密碼子進行比較,最終得出了14 個遠東刺猬線粒體基因組的最優(yōu)密碼子,分別為CUA、AUA、GUU、UCU、CCC、ACA、GCU、CAU、AAA、GAA、UGA、CGC、GGC 和GGA,其中有7 個以A 結尾、3個以C結尾、4個以U結尾。
密碼子編碼形成氨基酸,是生物體遺傳信息傳遞過程中一個重要環(huán)節(jié)。同義密碼子是指可以編碼同一種氨基酸的密碼子,由于密碼子具有簡并性,因此對于同一種氨基酸,會存在多個對應的密碼子。通常密碼子的簡并性表現在第3位堿基上,本研究在遠東刺猬線粒體基因組堿基組成中發(fā)現,GC1 平均含量為41.4%、GC2為34.4%、GC3為24.3%。RSCU分析結果顯示,RSCU值大于1.00的遠東刺猬線粒體密碼子數目為32個。密碼子第3位堿基為A的有14個,第3位為U的有14個,第3位為C的有4個。綜上說明,遠東刺猬線粒體基因組密碼子偏愛以A 或U(T)結尾,不偏好以C 或G 結尾。這與多數動物的密碼子偏好性特點相一致,如文蛤屬貝類[14]、對蝦[15]和菜蝽[16]等。
物種在長期進化過程中,其基因會隨著進化程度而逐漸形成一種特定密碼子用法,用以適應基因組[17]。密碼子偏性是同義密碼子在生物體中非均衡使用的現象,突變和自然選擇是主要形成密碼子偏好的原因。ENC-plot 分析可用于確定影響密碼子偏好性的主要因素。本研究表明,遠東刺猬線粒體基因組中大部分基因密碼子偏離標準曲線,說明這些基因受環(huán)境選擇壓力等其他因素的影響而發(fā)生改變。中性繪圖分析顯示,遠東刺猬線粒體基因組中的基因分布在對角線上方,沒有呈現出沿對角線或接近對角線分布的趨勢,這表明密碼子的使用更多受到自然選擇影響。綜合中性繪圖和SPSS結果發(fā)現,遠東刺猬線粒體基因密碼子第1、第2位和第3位的堿基組成存在較大差異,可能受到突變壓力影響,從而導致密碼子使用偏好性發(fā)生變化。對應性分析結果顯示,第1、2、3和4軸向量所占比例分別為35.64%、16.22%、10.26%和9.13%,前4 軸向量累計占比71.24%,其中Axis1為主要影響因素。因此,遠東刺猬線粒體基因密碼子偏好性受到自然選擇影響,但更多是受到了突變作用,這與真白鮭[18]、落葉松楊柵銹菌[19]、茄腐鐮孢[20]等研究結果一致。
在本研究中,通過構建遠東刺猬線粒體基因的高/低表達庫,并利用△RSCU 和RSCU 的綜合指標來篩選最優(yōu)密碼子,有效地避免了因單方面缺陷而導致結果出錯的問題。最終確定了CUA、AUA、GUU、UCU、CCC、ACA、GCU、CAU、AAA、GAA、UGA、CGC、GGC 和GGA 等14 個密碼子作為遠東刺猬線粒體基因組最優(yōu)密碼子。在對遠東刺猬線粒體基因密碼子偏好性研究的基礎上,可以通過優(yōu)化目標基因的密碼子,探究其皮等組織入藥機制,同時也可為遠東刺猬野生群體的保護策略及養(yǎng)殖群體育種等方面,提供理論依據和實踐指導。