高夢琦,鄒建珍,霍小位,李依民,張明英,高 靜,張 崗*,劉蒙蒙*
1.河北大學中醫(yī)學院,河北 保定 071002
2.河北大學藥學院,河北 保定 071002
3.陜西中醫(yī)藥大學藥學院 陜西省秦嶺中草藥應用開發(fā)工程技術研究中心,陜西 西安 712046
藥用大黃Rheum officinaleBaill.屬于蓼科大黃屬多年生草本植物,為《中國藥典》2020年版收錄的大黃3種基原植物之一,具有瀉下攻積、清熱瀉火、涼血解毒、逐瘀通經(jīng)、利濕退黃等功效[1]?,F(xiàn)代中藥化學研究表明大黃中主要含有蒽醌類、酚類等物質(zhì),其中蒽醌類化合物是主要的活性物質(zhì),具有抗炎、抗腫瘤作用[2-3]。目前藥用大黃的資源主要來源于人工種植,隨著過度采挖,野生資源已經(jīng)瀕臨滅絕。因此,開展蒽醌類化合物生物合成機制研究,探索蒽醌類化合物生物合成路徑,是解決藥用大黃野生資源瀕危的思路之一。
遺傳密碼子是生物體DNA與蛋白之間信息傳遞的信息載體。大多數(shù)氨基酸不僅由一種密碼子編碼,而是可以同時由2~3種密碼子編碼,生物對于不同的密碼子的使用具有一定偏好性[4]。研究發(fā)現(xiàn),密碼子使用偏好性受到GC含量(鳥嘌呤和胞嘧啶含量)[5]、基因表達水平[6]、環(huán)境壓力[7]、突變壓力[8]、基因長度[9]、蛋白結構[10]及tRNA豐度[11]的影響。隨著高通量測序技術的發(fā)展,藥用植物的密碼子使用偏好性研究有了顯著的成果[12-13],但是目前還沒有關于藥用大黃密碼子偏好性的研究。生物體選擇最優(yōu)密碼子可以體高基因的翻譯效率及蛋白的表達量。因此,研究密碼子的使用偏好性,有利于基因工程研究中密碼子優(yōu)化、最適外源宿主選擇,并對生物的系統(tǒng)進化研究具有重要意義。
本研究利用藥用大黃的轉(zhuǎn)錄組數(shù)據(jù)對其編碼序列進行密碼子偏好性分析,揭示藥用大黃基因密碼子使用偏好性的特征,為藥用大黃基因基因工程研究中進行密碼子優(yōu)化及選擇最佳的外源載體提供理論基礎。
藥用大黃轉(zhuǎn)錄組(SRR10838870)來源于本課題組前期選取藥用大黃種苗根、根莖、樣品,利用Illumina HiSeq 2500 測序平臺進行轉(zhuǎn)錄組測序并拼接獲得Uingenes序列,利用BLASTx及ESTScan軟件對上述Uingenes序列進行編碼序列(coding sequence,CDS)分析。使用perl程序篩選編碼序列中長度大于300 bp并且同時具有起始密碼子及終止密碼的序列,用于藥用大黃密碼子使用偏好性分析,最后共得到4 733條CDS進行分析。
使用Codon W軟件分析藥用大黃編碼序列中的有效密碼子數(shù)(effective number of codons,ENc)、密碼子適應指數(shù)(codon adaptation index,CAI)及同義密碼子相對使用度(relative synonymous codon usage,RSCU),計算序列中的GC含量,利用編寫的perl程序計算GC1、GC2及GC3的含量,即密碼子第1、2、3位的GC含量。GC12為GC1、GC2的平均值。
中性繪圖分析主要用于分析GC12與GC3之間的相關性,以GC12為縱坐標,以GC3為橫坐標制作散點圖,并進行線性擬合回歸分析??捎糜谠u價自然選擇壓力及突變對密碼子使用偏好性造成的影響。
ENc-GC3關聯(lián)分析主要用于分析密碼子使用偏好性與堿基組成之間的關聯(lián)。以ENc為縱坐標、GC3s為橫坐標繪制二維散點圖,并進行非線性擬合回歸分析。如果基因的點分布在擬合曲線附近,則表明密碼子的使用偏好性主要是受到突變作用的影響;如果基因點分布在擬合曲線下方,則表明密碼子的使用偏好性主要是受到選擇壓力的影響。奇偶偏好性分析以A3/(A3+T3)為縱坐標,以G3/(G3+C3)為橫坐標制作二維散點圖,以(0.5,0.5)坐標為中心點,從這個中心點制作的失量表示了奇偶偏倚的程度和方向[14]。
對于最優(yōu)密碼子的篩選,本研究利用藥用大黃編碼書寫的CAI值進行由高到低排列,然后取前后各5%的編碼序列,分別代表高表達與低表達的基因序列。之后分析各個密碼子的平均RSCU值。當密碼子在高低表達基因中RSCU值的差異>0.3,且在高表達基因中RSCU≥1、在低表達基因中的RSCU≤1,即可被確定為最優(yōu)密碼子[15-16]。
對應分析是指利用多元統(tǒng)計分析的方法研究不同編碼序列密碼子的變異趨勢。利用Codon W軟件中對應分析功能,將所有編碼序列分布到59維向量空間,進而獲得密碼子使用偏好性的特點。通過分析基因位置研究基因向量及基因間值的變異程度,預測使密碼子使用發(fā)生偏好性的原因[17]。
利用Codon W軟件計算藥用大黃編碼序列中GC含量,將藥用大黃編碼序列作為一個整體進行計算。結果如圖1所示,GC含量范圍分布在28.6%~71.9%,主要分布在40%~50%,GC的平均含量為45.6%。GC1、GC2、GC3的平均含量分別為48.63%、40.89%、44.37%。對比發(fā)現(xiàn),GC2的含量最小,GC1與GC3的值相對比較接近,說明藥用大黃編碼序列更傾向于使用鳥嘌呤(G)和胞嘧啶(C)這2種堿基。
圖1 藥用大黃編碼序列中GC含量組成Fig.1 Distribution of GC content ofcoding sequences(CDS) in R.officinale
藥用大黃編碼序列的中性圖分析如圖2所示,其中GC12的數(shù)值范圍為0.15~0.87,GC3的數(shù)值范圍為0.09~0.87。GC12與GC3的相關性系數(shù)為0.155,表明這兩者之間的相關性比較弱,說明選擇壓力在藥用大黃密碼子使用偏好性的選擇具有一定影響。
圖2 中性圖分析Fig.2 Neutrality plot
ENc的取值范圍為20~61,平均值為47.58,其中ENc≤35的基因有386個(8.15%),ENC=61的基因有251個(5.30%),說明藥用大黃的編碼序列除了少數(shù)密碼子具有較強的偏好性,其整體的密碼子使用偏好性較弱。以ENc為縱坐標、GC3s為橫坐標繪制散點圖(圖3),圖中各點代表基因分布情況。圖3顯示大部分基因遠離期望曲線,說明密碼子的偏好性主要來源于選擇壓力的影響,少部分基因均勻的分布在期望曲線兩側,說明部分基因收到突變壓力的影響。
圖3 藥用大黃轉(zhuǎn)錄組編碼序列ENC-GC3s相關性分析Fig.3 Neutrality plot (ENC vs GC3)
利用(ENCexp-ENCobs)/ENCexp統(tǒng)計分析期望ENc與觀測ENc之間的區(qū)別[18]。如圖4所示,(ENCexp-ENCobs)/ENCexp的取值主要分布在0~0.2,說明期望ENc與觀測ENc兩者之間的存在很小差異。進而說明在藥用大黃編碼序列密碼子使用偏好性形成過程中,突變壓力不是唯一的影響因素,但卻是一個重要的影響因素。
圖4 ENc比值頻率分布Fig.4 Frequency distribution of ENc ratio
對應性分析結果見圖5,GC含量不同的基因被標記上不同的顏色,編碼序列中GC含量大于60%的被標記為紅色,GC含量在45%~60%的被標記為藍色,GC含量小于45%的被標記為綠色。其中,GC含量大于60%的編碼序列分散的分布在坐標系中,而GC含量小于60%的編碼序列則在坐標系中分布比較集中。
圖5 對應性分析Fig.5 Correspondence analysis
此外,選取6個編碼序列相關的參數(shù)(GC12、GC3、GCall、ENC、CAI以及Axis 1)進行相關性分析,結果如表1所示,Axis 1與GC12、GC3這2個重要參數(shù)存在顯著的負相關性(r=-0.418,r=-0.728,P<0.01)。結合圖5與表1,可以說明GC含量與GC3含量高的編碼序列取向于分布在Axis 1左側。因此,推測以G/C結尾的密碼子應集中分布在Axis 1負軸而以A/U結尾的密碼子集中分布在Axis 1正軸。
表1 藥用大黃編碼序列對應參數(shù)的相關性分析Table 1 Correlation analysis of R.officinale gene-related parameters
偏倚性分析結果如圖6所示,大部分藥用大黃轉(zhuǎn)錄組編碼序列樣本點分布于中心點附近,說明其堿基中嘌呤與嘧啶出現(xiàn)的頻率相對一致,少部分編碼序列偏離中心點較遠,進一步說明藥用大黃密碼子使用偏好性形成過程中主要受到突變壓力的影響。
圖6 編碼序列偏倚性分析Fig.6 Parity rule 2 (PR2 ) -bias plot
藥用大黃編碼序列的CAI的范圍為0.261~0.835,表明藥用大黃的基因表達水平比較高。同時,對CAI與其他幾個重要的參數(shù)進行了相關性分析,包括ENc、GC3、GC。結果如表1及圖7所示,CAI與ENc及GC之間都存在顯著的正相關性(r=0.07,P<0.01;r=0.695,P<0.01)。因此,基因表達水平在藥用大黃密碼子使用偏好性形成過程中起到關鍵作用,基因表達水平高并且基因中GC含量高,密碼子使用偏好性程度越高。
圖7 中性圖分析Fig.7 Neutrality plot
藥用大黃編碼序列高、低表達序列的RSCU值如表2所示。從中篩選到29個密碼子作為藥用大黃編碼序列的最優(yōu)密碼子,在這些最優(yōu)密碼子中,以U(15個)及A(13個)結尾的較多,表明藥用大黃轉(zhuǎn)錄組編碼序列的最優(yōu)密碼子偏好以U或A結尾。
表2 藥用大黃轉(zhuǎn)錄組高、低表達基因的RSCU比較分析Table 2 Optimal codons of R.officinale genes based on the RSCU values
在生物長期的進化過程中,形成了對密碼子的使用的固定模式。今年來,隨著二代測序技術的發(fā)展,探索天然產(chǎn)物合成路徑并進行異源合成,成為了研究熱點。因此,探索藥用大黃基因密碼子使用偏好性,可為研究其密碼子使用特點,篩選最佳蛋白異源表達載體及密碼子優(yōu)化奠定理論基礎。
本研究對藥用大黃轉(zhuǎn)錄組數(shù)據(jù)中4733條完整編碼序列的密碼子使用偏好性進行分析,結果顯示,藥用大黃轉(zhuǎn)錄組編碼序列的GC、GC3平均含量分別為45.6%、44.73%,表明藥用大黃轉(zhuǎn)錄組中的編碼序列偏好使用富含A、U且以A/U結尾的密碼子,這與小麥Triticum aestivumL.[19]、水稻Oryza sativaL.[20]、玉米Zea maysL.[21]密碼子使用模式不一致,這些植物的密碼子富含GC堿基,并且大多數(shù)密碼子以G/C結尾,藥用植物川貝母轉(zhuǎn)錄組中的編碼序列的GC和GC3平均含量都接近于50%,并沒有表現(xiàn)出密碼子使用偏好性[15],表明堿基組成在藥用大黃響密碼子偏好性形成過程中起到重要作用。
此外,堿基突變和遺傳選擇也影響著密碼子使用偏好性形成的重要因素。本研究中,藥用大黃轉(zhuǎn)錄組GC12與GC3含量具有顯著相關性,ENc-plot繪圖及偏倚性分析分析結果表明,大部分基因遠離于標準曲線及坐標軸中心點,基因的期望ENc值與觀測ENc值具有較大差異,說明這部分基因密碼子偏好性的形成是以遺傳選擇為主導因素;少數(shù)的基因分布于標準曲線附近及坐標軸中心點,基因的期望ENc值與觀測ENc值基本保持一致,說明這部分基因密碼子形成偏好性的形成是以突變?yōu)橹鲗б蛩亍?/p>
在構建蛋白表達載體時,不同的基因密碼子使用偏好性差異很大,因此分析藥用大黃的密碼子使用特點對于載體的密碼子優(yōu)化具有重要意義。本研究篩選得到藥用大黃29個最優(yōu)密碼子,大多數(shù)密碼子以A/U結尾,從藥用大黃編碼序列中的GC含量可以看出, 其偏好使用A或U堿基結尾的密碼子。由此推斷藥用大黃基因的密碼子偏好性的產(chǎn)生與其基因進化過程中AU到GC突變壓力要比GC到AU突變壓力高有關。
本研究對藥用大黃轉(zhuǎn)錄組數(shù)據(jù)中編碼序列的密碼子使用特點進行了研究,探討了影響其密碼子使用偏好性形成的影響因素,并篩選出藥用大黃基因的29個最優(yōu)密碼子,可為蒽醌類化合物的異源合成及其合成路徑研究提供理論依據(jù)。
利益沖突所有作者均聲明不存在利益沖突