張之昊 王 俊 劉章雄 邱麗娟,*
基于BSA-Seq技術(shù)挖掘大豆中黃622的多小葉基因
張之昊1,2王 俊1劉章雄2,*邱麗娟1,2,*
1長江大學(xué)農(nóng)學(xué)院, 湖北荊州 434025;2中國農(nóng)業(yè)科學(xué)院作物科學(xué)研究所, 北京 100081
栽培大豆()葉片一般為三出復(fù)葉, 也有個別品種或植株突變體產(chǎn)生4~7個小葉, 為多小葉。復(fù)葉的形成使植物對外界環(huán)境的適應(yīng)能力增強(qiáng), 對大豆多小葉相關(guān)基因的挖掘和研究有助于改善大豆農(nóng)藝性狀和產(chǎn)量表現(xiàn)。本研究從大豆栽培品種中品661的突變體庫中鑒定出一個多小葉突變體——中黃622, 每個復(fù)葉有4~9個小葉。利用該突變體與中品661配制組合, 分別于北京和海南調(diào)查F2和F2:3植株葉片表型, 結(jié)果表明, 多小葉性狀受1對不完全顯性基因控制。采用BSA-seq方法進(jìn)行定位, 利用F2正常三出復(fù)葉和多小葉個體分別構(gòu)建混池, 測序結(jié)果與參考基因組平均比對效率為98.83%, 平均覆蓋深度為32.75′, 基因組覆蓋度為99.22%。ED方法關(guān)聯(lián)分析發(fā)現(xiàn), 在11號染色體定位到2個區(qū)域, 總長度為5.29 Mb, 共包含1103個基因。根據(jù)SNP-index方法關(guān)聯(lián)分析, 當(dāng)置信度為0.99時, 在11號染色體鑒定出3個區(qū)域, 總長度為3.42 Mb, 共包含701個基因。2種關(guān)聯(lián)分析方法同時定位的基因有690個, 親本之間存在SNP的基因有6個。本研究結(jié)果為大豆多小葉基因圖位克隆奠定了基礎(chǔ)。
大豆; 突變體; 混池測序
葉片是植物進(jìn)行光合作用和呼吸作用的重要器官, 對植物的生長發(fā)育起著重要作用。在植物界, 葉片的形態(tài)在不同物種間存在廣泛的多樣性, 單葉植物有一個與葉柄相連的葉片, 如水稻、玉米等, 而復(fù)葉植物的葉片由多個著生在葉軸上的小葉組成, 如番茄等。與單葉相比, 復(fù)葉雖然在葉片總面積上有所減少, 但其遭受外界的機(jī)械壓力(如風(fēng)、雨等)比單葉要小的多, 因此復(fù)葉的形成使植物更能適應(yīng)惡劣的環(huán)境[1]。相關(guān)研究表明, 大豆多小葉單株全生育期不摘葉處理的部分農(nóng)藝性狀和產(chǎn)量表現(xiàn)均明顯優(yōu)于全生育期摘除多片葉的對照處理[2]。因此, 大豆多小葉相關(guān)基因的挖掘和研究有助于改善大豆農(nóng)藝性狀和產(chǎn)量表現(xiàn)。
大豆多小葉的遺傳研究可追溯到1972年, Fehr[3]利用七小葉和五小葉大豆材料, 與三出復(fù)葉大豆進(jìn)行兩兩雜交構(gòu)建F2群體, 遺傳分析表明, 五小葉和七小葉分別受顯性基因和隱性基因控制。Jeong等[4]通過構(gòu)建遺傳圖譜精細(xì)定位了控制五小葉的基因, 該基因編碼一個假定AP2功能域, 但并沒有對該基因進(jìn)行進(jìn)一步的功能驗證。Devine[5]發(fā)現(xiàn)了控制七小葉的隱性基因與控制茸毛密度的基因存在連鎖關(guān)系, Seversike等[6]鑒定出與基因連鎖的分子標(biāo)記, 從而將定位在B1連鎖群(11號染色體)。傅來卿[7]通過對栽培大豆品種Wilkine進(jìn)行物理誘變得到多小葉突變體, 該多小葉突變體每個復(fù)葉有4到7片小葉, 對該突變體進(jìn)行遺傳分析, 命名了一個控制多小葉的基因; 王克晶等[8]對五小葉的野生大豆進(jìn)行遺傳研究, 命名了基因和。總之, 大豆多小葉的相關(guān)研究多處于遺傳分析和初定位階段, 通過正向遺傳學(xué)挖掘多小葉基因的相關(guān)研究鮮見報道。
突變體是進(jìn)行正向遺傳學(xué)研究的優(yōu)異材料, 對隨機(jī)誘變產(chǎn)生的突變體進(jìn)行研究, 不僅能夠挖掘新的基因, 也可以揭示已知基因的新功能[9-12]。隨著新一代測序技術(shù)的發(fā)展, 基于BSA-Seq的方法挖掘新基因在作物農(nóng)藝性狀相關(guān)基因的定位研究中的應(yīng)用日益廣泛[12-16], 該方法在不構(gòu)建遺傳圖譜的情況下高效快速地挖掘目的基因。本研究在栽培大豆中品661的突變體庫中鑒定出一個多小葉突變體——中黃622, 該突變體在田間達(dá)到5個到9個小葉, 是研究大豆小葉數(shù)量的優(yōu)異資源。利用BSA-Seq方法進(jìn)行定位, 確定了6個候選基因, 為大豆多小葉基因圖位克隆奠定了基礎(chǔ)。
本試驗通過EMS誘變, 并在田間篩選, 在栽培大豆中品661突變體庫中鑒定出一個多小葉的不完全顯性突變體中黃622, 2016年將中品661與中黃622進(jìn)行雜交, 得到F0, 2017年6月將F1種植于北京順義, 并于同年10月收獲。2018年6月在順義種植F2群體, 并于盛花期觀察239個F2植株表型, 記錄單株每個復(fù)葉的小葉數(shù)量并做記錄。根據(jù)多小葉復(fù)葉的數(shù)目, 將單株分為3個等級: I級為多小葉復(fù)葉極多, 整個單株上僅有極少數(shù)(0~4個)葉片為正常三出復(fù)葉, 其余均為多小葉, 與突變體中黃622的表型相同; II級為多小葉復(fù)葉數(shù)目介于突變體中黃622和野生型之間, 至少有1個多小葉復(fù)葉; III級為整個單株所有葉片均為正常葉片, 與野生型相同。2018年10月收獲F2單株的種子, 每個F2單株選取10粒以上的種子于2018年11月在海南種植F2:3群體, 于盛花期觀察單株中每個復(fù)葉的小葉數(shù)量并做記錄。通過觀察F2在F2:3的分離情況, 來確定每個F2單株表型的準(zhǔn)確性和穩(wěn)定性。
根據(jù)2個親本及F2葉片表型, 構(gòu)建2個親本池和2個極端表型混池, 親本池分別為10株中品661與10株突變體中黃622; 在F2植株中, 選擇單株所有葉片均為三出復(fù)葉的30株個體構(gòu)建正常葉片混池, 單株復(fù)葉均為多小葉30株個體構(gòu)建多小葉混池。具體操作步驟如下: 首先, 在植株盛花期取植株頂端幼葉, 利用CTAB法分別提取單株葉片 DNA; 然后檢測DNA濃度, 將不同池的植株DNA等量混合構(gòu)建出4個混池。送北京百邁克生物科技有限公司測序。利用Illunima Casava 1.8進(jìn)行堿基識別分析, 采用雙端150 bp測序策略進(jìn)行基因組測序。親本池測序深度為10′, 后代混池測序深度為30′。參考基因組為Wm82.a2.v1版本的大豆基因組[17]。使用GATK[18]軟件工具來實現(xiàn)SNP的檢測, 利用SnpEff[19]軟件進(jìn)行變異注釋和預(yù)測變異影響。
1.3.1 關(guān)聯(lián)分析 在關(guān)聯(lián)分析前, 首先對SNP進(jìn)行過濾, 過濾標(biāo)準(zhǔn)如下: 首先過濾掉有多個基因型的SNP位點, 其次過濾掉read支持度小于4的SNP位點, 最終得到高質(zhì)量的可信SNP位點。
歐式距離(euclidean distance, ED)算法, 是利用測序數(shù)據(jù)尋找混池間存在顯著差異標(biāo)記, 并以此評估與性狀關(guān)聯(lián)區(qū)域的方法[20]。理論上, 多小葉混池和正常葉混池之間除了小葉數(shù)目性狀相關(guān)位點存在差異, 其他位點均趨向于一致, 因此非目標(biāo)位點的ED值應(yīng)趨向于0。ED方法的計算公式如下所示, ED值越大, 表明該標(biāo)記在多小葉混池和正常葉混池之間的差異越大。
式中, Amut表示A堿基在突變混池中的頻率, Awt表示A堿基在野生型混池中的頻率; Cmut表示C堿基在突變混池中的頻率, Cwt表示C堿基在野生型混池中的頻率; Gmut表示G堿基在突變混池中的頻率, Gwt表示G堿基在野生型混池中的頻率; Tmut表示T堿基在突變混池中的頻率, Twt表示T堿基在野生型混池中的頻率。
在進(jìn)行分析時, 利用多小葉混池和正常葉混池間基因型存在差異的SNP位點, 統(tǒng)計各個堿基在2個混池中的深度, 并計算每個位點ED值, 為消除背景噪音, 本試驗采用原始ED的5次方作為關(guān)聯(lián)值以達(dá)到消除背景噪音的功能[20]。
SNP-index是一種通過混池間的基因型頻率差異進(jìn)行標(biāo)記關(guān)聯(lián)分析的方法[20-21], 主要是尋找混池之間基因型頻率的顯著差異, 用Δ(SNP-index)統(tǒng)計。標(biāo)記SNP與性狀關(guān)聯(lián)度越強(qiáng), Δ(SNP-index)越接近于1。Δ(SNP-index)計算公式如下:
SNP-index (Mut) = ρx/(ρX + ρx)
SNP-index (WT) = ρx/(ρX + ρx)
ΔSNP-index=SNP-index(Mut) ? SNP-index(WT)
式中, Mut為子代的突變池, 即多小葉混池, WT代表子代的野生池即正常葉混池, ρX和ρx分別為野生型親本中品661的等位基因和突變型親本中黃622的等位基因在各自池中出現(xiàn)的read數(shù)目。通過ΔSNP-index 可以觀察每個位點在多小葉混池和正常葉混池之間的差異。
為了消除假陽性的位點, 利用標(biāo)記在基因組上的位置, 可對同一條染色體上標(biāo)記的ΔSNP-index值進(jìn)行擬合[21], 本研究采用DISTANCE方法對ΔSNP-index進(jìn)行擬合, 然后根據(jù)關(guān)聯(lián)閾值, 選擇閾值以上的區(qū)域作為與性狀相關(guān)的區(qū)域。
1.3.2 變異位點的鑒定 為了檢測過濾SNP方法的可靠性, 選取了1個高質(zhì)量的SNP位點和其附近的8個低質(zhì)量的SNP位點進(jìn)行驗證。首先根據(jù)比對參考基因組, 在SoyBase (http://www.soybase.org/)基因組數(shù)據(jù)庫中利用BLAST的方法在變異位點上下游查找20 bp左右的特異序列作為擴(kuò)增變異位點的引物, 并通過DNAMAN軟件(https://www.lynnon. com/)預(yù)測引物退火溫度和計算GC%值。在保證引物特異性的前提下, 調(diào)整引物序列長度, 使退火溫度在55~65℃, GC%值在40%到60%之間。同一對引物的上下游序列的退火溫度不超過3℃。利用PCR擴(kuò)增目的片段, 對PCR產(chǎn)物的目標(biāo)位點進(jìn)行測序, 鑒定該位點是否存在。
1.3.3 候選區(qū)域基因的功能注釋 應(yīng)用BLAST[22]軟件對候選區(qū)間內(nèi)的編碼基因進(jìn)行多個數(shù)據(jù)庫(NR[23]、Swiss-Prot、GO[24]、KEGG[25]、COG[26])的深度注釋。本研究的BSA-Seq數(shù)據(jù)分析流程圖如圖1所示。
1.3.4 數(shù)據(jù)可視化 本研究利用circos軟件(http://circos.ca/)對重測序分析得到的結(jié)果進(jìn)行作圖, 使測序分析結(jié)果和關(guān)聯(lián)分析結(jié)果可視化。
為了研究關(guān)聯(lián)區(qū)域內(nèi)候選基因在不同組織中的表達(dá)情況, 利用Phytozome(http://phytozome.jgi. doe.gov/)的基因表達(dá)數(shù)據(jù)庫篩選6個基因的表達(dá), 研究的表達(dá)部位依次為: 莖端分生組織、葉片、花、莢、莖、節(jié)、根和根毛。利用R3.6.2 (http://www.r-project. org/)將表達(dá)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化并制作基因表達(dá)圖譜。
突變體中黃622與野生型中品661相比, 葉片多為5到9片的多小葉復(fù)葉, 但也有少量單株出現(xiàn)0~4片正常的三出復(fù)葉。通過觀察F2:3的表型及分離情況, 確定對應(yīng)F2單株的基因型。觀察發(fā)現(xiàn), 多小葉等位基因純合基因型(lf lf )單株的表型均為I型, 正常葉等位基因純合基因型(lf lf )單株的表型均為III型, 而雜合單株(lf lf )的表型絕大多數(shù)為II型, 僅有極少量的I型(2個)和III型(4個)(表1), 這說明雜合單株的表型不穩(wěn)定。表明, 該多小葉性狀受1對不完全顯性基因控制, 且雜合基因型單株的表型可能受到環(huán)境和遺傳背景的影響, 表現(xiàn)出不同程度的多小葉性狀。卡方檢測結(jié)果表明, 3種基因型的F2單株數(shù)目不符合1∶2∶1 (c20.05= 5.99 圖1 BSA-Seq數(shù)據(jù)分析流程 表1 F2群體中不同基因型和表型的單株數(shù)目 I~III: 多小葉性狀不同等級的表型。I: 與突變體表型相同; II: 表型介于突變體和野生型之間; III: 與野生型相同。lf lf 、lf lf 、lf lf : 利用F2:3的分離情況鑒定的F2不同的基因型的單株。lf lf : 多小葉純合基因型;lf lf : 正常葉純合基因型;lf lf : 雜合基因型。 I–III: leaflet number traits of different degree of phenotypes. I: the same as the mutant surface type; II: the phenotype is between the mutant and the wild type; III: the same as the wild type. lf lf ,lf lf ,lf lf : different genotypes of F2individuals.lf lf : homozygous genotype of multifoliolate leaf;lflf: homozygous genotype of trifoliate leaves;lflf : heterozygous genotype. 2.2.1 數(shù)據(jù)質(zhì)控 對從F2選擇30個多小葉單株和30個正常葉單株分別構(gòu)建混合池, 與2個親本通過Illumina HiSeq重測序, 過濾后得到的堿基數(shù)目為144.84 Gbp, Q30>91.61%, GC含量在35.81%~ 36.94%, 插入片段大小的分布呈單峰的正態(tài)分布, 樣品與參考基因組平均比對效率為98.83%, 平均覆蓋深度為 32.75′, 基因組覆蓋度為99.22% (至少1個堿基覆蓋)。這些參數(shù)說明, 測序數(shù)據(jù)質(zhì)量合格, 與大豆參考基因組比對效率較高, 可用于后續(xù)變異檢測及性狀的基因定位。 2.2.2 關(guān)聯(lián)分析 進(jìn)一步過濾SNP, 得到高質(zhì)量可信SNP位點12,160個。采用ED算法和SNP-index 2種算法對這些高質(zhì)量SNP進(jìn)行關(guān)聯(lián)。 利用ED方法計算關(guān)聯(lián)值, 并取原始ED的5次方作為關(guān)聯(lián)值以達(dá)到消除背景噪音的功能, 然后采用DISTANCE方法對ED值進(jìn)行擬合。取所有位點擬合值的median+3SD作為分析的關(guān)聯(lián)閾值[20], 計算得0.49。根據(jù)關(guān)聯(lián)閾值判定, ED關(guān)聯(lián)結(jié)果如圖2-A所示, 在11號染色體共得到2個區(qū)域, 總長度為5.29 Mb, 共包含1103個基因(表2)。 2個混池的ΔSNP-index的分布如圖2-B所示。當(dāng)置信度為0.99時, 利用SNP-index方法共關(guān)聯(lián)到3個區(qū)域, 總長度為3.42 Mb, 共包含701個基因(表2)。2種關(guān)聯(lián)分析方法得到的結(jié)果取交集, 共得到3個區(qū)域(表2), 總長度3.36 Mb, 共包含690個基因。結(jié)合上述內(nèi)容, 將樣品的變異結(jié)果及BSA關(guān)聯(lián)分析結(jié)果使用circos軟件(http://circos.ca/)作圖(圖3), 將測序分析結(jié)果和關(guān)聯(lián)分析結(jié)果可視化。 2.2.3 候選基因的篩選 根據(jù)原始測序數(shù)據(jù), 區(qū)間內(nèi)的SNP有43個, 其中高質(zhì)量的SNP有6個, 低質(zhì)量的SNP有37個。為了驗證過濾SNP方法的可靠性, 進(jìn)一步篩選候選基因, 本試驗設(shè)計了3對引物(表3), 分別用以鑒定1個高質(zhì)量的SNP及其2側(cè)的低質(zhì)量SNP位點。其中引物SNP2的擴(kuò)增產(chǎn)物片段全長7016 bp, 包含1個高質(zhì)量的SNP位點, 而引物SNP1擴(kuò)增產(chǎn)物片段全長5633 bp, 包含該高質(zhì)量SNP上游的5個低質(zhì)量位點, 引物SNP3擴(kuò)增產(chǎn)物片段全長1247 bp, 包含該高質(zhì)量SNP下游的3個低質(zhì)量位點。對兩親本PCR產(chǎn)物進(jìn)行測序鑒定。兩親本序列比對結(jié)果表明, 中品661和中黃622在8個低質(zhì)量的SNP位點處均無變異, 而2個親本在高質(zhì)量SNP處的測序結(jié)果與重測序結(jié)果一致(表4)。這些結(jié)果為候選基因的篩選提供了參考依據(jù)。 圖2 利用2種關(guān)聯(lián)方法鑒定多小葉基因候選區(qū)間 A: ED關(guān)聯(lián)分析結(jié)果, 橫坐標(biāo)為染色體位置, 縱坐標(biāo)代表擬合后的歐式距離(ED)值的5次方, 黑色的線為擬合后的ED的5次方作關(guān)聯(lián)值, 紅色的虛線代表顯著性關(guān)聯(lián)閾值。B: SNP-index關(guān)聯(lián)分析結(jié)果, 橫坐標(biāo)為染色體位置, 黑色的線為擬合后的ΔSNP-index值, 紅色的線代表置信度為0.99的閾值線, 藍(lán)色的線代表置信度為0.95的閾值線, 綠色的線代表置信度為0.90的閾值線。2種關(guān)聯(lián)分析結(jié)果均表明, 與多小葉相關(guān)的關(guān)聯(lián)區(qū)域位于11號染色體末端。 A: ED correlation analysis results, the abscissa is the chromosome position, the ordinate represents the fifth power of the euclidean distance (ED) value after fitting, the black line is the fifth power of ED after fitting, the dashed line represents the significance association threshold. B: SNP-index correlation analysis results, the abscissa for chromosomal location, the black line for fitting after ΔSNP-index value, the red line represents the confidence level of 0.99 the threshold line, blue line represents the confidence level of 0.95 the threshold line, green line represents the confidence level of the threshold line of 0.90. The results of the two association analysis methods show that the correlation regions associated with the multifoliolate leaf trait is located at the end of chromosome 11. 表2 利用不同方法在11號染色體獲得關(guān)聯(lián)區(qū)域 圖3 樣品間SNP及關(guān)聯(lián)信號在染色體上的分布 從外到里依次為: 第1圈: 染色體坐標(biāo); 第2圈: 基因分布; 第3圈: SNP密度分布; 第4圈: ED值分布; 第5圈: ΔSNP-index值分布。 From outside to inside in order: the first circle represents chromosome coordinates, the second circle represents gene distribution, the third circle represents SNP density distribution, the fourth circle represents ED value distribution, and the fifth circle represents ΔSNP-index value distribution. 表3 引物序列和信息 表4 對區(qū)間內(nèi)部分SNP位點進(jìn)行鑒定 混池read值中, 逗號前為SNP位點參考堿基的read值, 逗號后為突變堿基的read值。 Among read values in the mixed pool, the number before the comma is the read value of the SNP loci reference base, and the number after the comma is the read value of the altered base. 根據(jù)不同質(zhì)量SNP的鑒定結(jié)果, 本研究對區(qū)間內(nèi)的候選基因進(jìn)行了進(jìn)一步的篩選。篩選到定位區(qū)間內(nèi)親本間存在高質(zhì)量的SNP的6個基因上(表5)。在這6個基因中, 有3個基因發(fā)生了非同義突變, 導(dǎo)致氨基酸序列發(fā)生變異, 1個基因發(fā)生了同義突變, 其余2個基因的突變分別發(fā)生在基因上游和內(nèi)含子上, 該結(jié)果為多小葉候選基因的發(fā)掘提供了信息。 2.2.4 候選基因表達(dá)的生物信息學(xué)分析 為了進(jìn)一步探究共定位區(qū)間內(nèi)候選基因在各個組織中的表達(dá)情況, 利用phytozome (phytozome.jgi.doe. gov/)數(shù)據(jù)庫查詢了6個基因在Williams 82中的表達(dá)數(shù)據(jù), 從構(gòu)建的表達(dá)圖譜(圖4)可以看出,的表達(dá)譜較廣, 在莖端分生組織、葉、花和莢中均有較高表達(dá);和在葉片中的表達(dá)都比較高, 但在分生組織中表達(dá)量較低, 其中在節(jié)和根中也有較高的表達(dá)量, 而則在根毛中高表達(dá);在葉和莖中的表達(dá)量居中, 在花和莢中有著較高的表達(dá), 在莖端分生組織和其他部位表達(dá)較低;在節(jié)、根、根毛表達(dá)較高, 在其他組織中表達(dá)較低;在莢、節(jié)和根毛中表達(dá)較高, 在其他部位表達(dá)較低??紤]到相關(guān)基因在分生組織和葉片中的表達(dá)以及表達(dá)量的變化對復(fù)葉發(fā)育的重要性,推測在分生組織和葉片中表達(dá)較高的可能與復(fù)葉發(fā)育相關(guān)的基因, 在分生組織中表達(dá)較低, 但在葉片中表達(dá)較高的和也有可能是復(fù)葉發(fā)育相關(guān)的基因。但候選基因在中品661與中黃622中是否與Williams 82的表達(dá)模式一致, 仍需要后期驗證。 表5 2種方法共定位區(qū)間內(nèi)親本之間SNP類型 圖4 6個候選基因的表達(dá)圖譜 方塊內(nèi)顏色顯示候選基因表達(dá)水平: 藍(lán)色最低, 白色居中, 紅色最高。 Colors in the square represent the expression level of candidate genes: blue is the lowest, white is middle, and red is the highest. 與復(fù)葉發(fā)育相關(guān)的基因包括、、等[27]。(KNOTTEDlike homeobox)基因家族被認(rèn)為是莖端分生組織(SAM)分化出葉原基和維持形態(tài)建成的關(guān)鍵基因, 葉原基形成初期(P0),的表達(dá)會提高, 但在葉原基形成之后表達(dá)降低[28-29], 在單葉植物如玉米()中, 這種低表達(dá)是永久性的[30], 而在復(fù)葉植物如番茄和碎米薺(L.)中,基因的表達(dá)會再次升高[29,31]。在轉(zhuǎn)基因的擬南芥中,基因家族中任何一個基因的異位表達(dá)都會在引起葉邊緣產(chǎn)生許多淺裂形成的小葉[32]。研究發(fā)現(xiàn),基因與復(fù)葉植物的形態(tài)建成有明顯的關(guān)系, 在基因參與復(fù)葉發(fā)育的物種中(如番茄), 如果增加基因的表達(dá), 可以產(chǎn)生明顯的復(fù)葉重復(fù)結(jié)構(gòu)單元[31,33]?;蚣易迨窃诒蛔又参锶~發(fā)育起著關(guān)鍵作用的另外一類基因, 它和基因的相互拮抗作用共同決定葉的發(fā)生。基因的功能是維持分生組織屬性, 而基因則參與側(cè)生器官的發(fā)生和葉極性的建立等分化相關(guān)的發(fā)育過程[34-36]。另外, 相關(guān)研究表明,在豌豆和百脈根中的直系同源基因()和(), 參與控制小葉原基的起始和形態(tài)發(fā)生[27,37-38]。 關(guān)于大豆多小葉的基因定位研究較為深入的是和基因, 在前期報道中, Jeong等[39]定位到了控制大豆五小葉的基因, 該基因編碼一個假定AP2功能域, 雖然并未對該基因進(jìn)行功能驗證, 但有研究表明AP2轉(zhuǎn)錄因子參與調(diào)控玉米葉片發(fā)育, 影響玉米葉形。這說明影響植物葉片發(fā)育的基因除了、等研究比較深入的基因外, 還有其他基因有待發(fā)掘和驗證。 Seversike等[6]在不同群體中驗證了基因與SSR標(biāo)記Sat_272的連鎖關(guān)系(LOD>4.0), 但并未得到定位區(qū)間。本研究通過ED和ΔSNP-index 2種方法進(jìn)行關(guān)聯(lián)分析, 將中黃622的多小葉相關(guān)基因定位在11號染色體末端, 經(jīng)2種關(guān)聯(lián)方法取交集后的關(guān)聯(lián)區(qū)域大小3.36 Mb, 包含690個基因, 其中關(guān)聯(lián)區(qū)域內(nèi)部發(fā)生的SNP有6個, 分布在6個基因上。外顯子發(fā)生SNP的基因有4個, 其中1個基因發(fā)生的變異為同義突變, 3個基因的變異導(dǎo)致氨基酸序列的變化。利用數(shù)據(jù)庫(SoyBase)對比Sat_272 (物理位置為2,718,892至2,719,123)與本研究定位區(qū)間的物理位置發(fā)現(xiàn), Sat_272在本研究的候選區(qū)間內(nèi)。然而, 本研究定位的基因是否為多小葉基因還有待進(jìn)一步研究驗證。 Fehr[3]通過對三出復(fù)葉Hawkeye與七小葉突變體T255構(gòu)建的群體的遺傳分析發(fā)現(xiàn), 小葉數(shù)目性狀受1對基因控制, 控制正常的三出復(fù)葉的等位基因表現(xiàn)為完全顯性, 但對T255和五小葉突變體T143構(gòu)建的群體進(jìn)行遺傳分析發(fā)現(xiàn),等位基因并不是在所有遺傳背景中都是完全顯性的。Seversike等[6]在七小葉大豆PI 548232和3個正常三出復(fù)葉大豆(Trill、MN1401、MN1801)構(gòu)建的群體中再次證明為控制七小葉的隱性基因, 而雜合單株整株為正常三出復(fù)葉或有一片復(fù)葉為四小葉。本研究中, 多小葉突變體的復(fù)葉有5到9個小葉, 控制多小葉性狀的基因為1對不完全顯性基因, 雜合單株表型介于突變體和野生型之間, 且表型并不穩(wěn)定, 在105個F2雜合單株中有6個單株表現(xiàn)出與親本相近的表型。這說明, 多小葉性狀的表型不穩(wěn)定, 特別是雜合單株在不同的環(huán)境和遺傳背景下有著不同的表型。因此, 對多小葉全面的遺傳分析需要在多年多點不同的材料之間進(jìn)行。 本研究定位區(qū)間內(nèi)有6個候選基因(、、、、、)發(fā)生了SNP變異。是II類亞家族()成員, 該基因在莖端分生組織(SAM)和葉片中均有著較高的表達(dá)。雖然在植物復(fù)葉發(fā)育過程中, I類亞家族()基因是SAM分化出葉原基和維持形態(tài)建成的關(guān)鍵基因, 但尚未有基因與葉片發(fā)育相關(guān)的報道。為一個編碼亮氨酸-tRNA連接酶/亮氨酰-tRNA合成酶的基因, 其經(jīng)典功能是催化合成亮氨酰-tRNA直接參與遺傳信息的解碼合成蛋白質(zhì)[40]。編碼的無義轉(zhuǎn)錄物1的調(diào)節(jié)因子()參與調(diào)控?zé)o義介導(dǎo)的mRNA降解途徑, 該途徑能夠識別并降解包括前終止的無義mRNA在內(nèi)的異常mRNA[41-42], 并避免異常mRNA翻譯成潛在有毒蛋白質(zhì), 從而對機(jī)體產(chǎn)生毒害效應(yīng)。該途徑的調(diào)控對基因的準(zhǔn)確表達(dá)和機(jī)體細(xì)胞正常的生理活動起著重要作用[43-45]。是一個AT-hook蛋白相關(guān)的基因, AT-hook蛋白可能在植物生長發(fā)育中起著重要作用, 相關(guān)研究表明, 擬南芥中基因在過量表達(dá)時會延遲擬南芥的開花[46];基因的產(chǎn)物與核基質(zhì)構(gòu)成蛋白1相關(guān), 核基質(zhì)蛋白不僅是組成細(xì)胞核內(nèi)部結(jié)構(gòu)的支架, 而且同DNA的復(fù)制、RNA 的合成、激素的聯(lián)接、基因表達(dá)的調(diào)節(jié)密切相關(guān)[47]。為一個?;せ蠲?基因, 與過氧化氫酶體相關(guān)。這些基因?qū)Υ蠖箯?fù)葉形成和發(fā)育的影響將在后續(xù)的工作中進(jìn)行驗證。 突變體中黃622的多小葉受1對不完全顯性基因控制, 基于BSA-Seq技術(shù)將該基因定位在11號染色體上, 定位區(qū)間內(nèi)親本之間存在SNP的基因有6個, 為大豆多小葉基因圖位克隆創(chuàng)造了條件。 [1] Vogel S. Leaves in the lowest and highest winds: temperature, force and shape., 2009, 183: 13–26. [2] 宗春美, 岳巖磊, 邵廣忠, 童淑媛, 徐顯利, 杜震宇, 任海祥. 多小葉源對大豆光合特性和產(chǎn)量的影響. 大豆科學(xué), 2010, 29: 627–626. Zong C M, Yue Y L, Shao G Z, Tong S Y, Xu X L, Du Z Y, Ren H X. Effects of multifoliolate compound leaf on photosynthetic characteristics and yield of soybean., 2010, 29: 627–626 (in Chinese with English abstract). [3] Fehr W R. Genetic control of leaflet number in soybeans., 1972, 12: 221–224. [4] Jeong S C, Kim J H, Bae D N. Genetic analysis of thegene that controls leaflet number in soybean., 2017, 130: 1685–1692. [5] Devine T E. Theandloci define soybean linkage group 16., 2003, 43: 2028–2030. [6] Seversike T M, Ray J D, Shultz J L, Purcell L C. Soybean molecular linkage group B1 corresponds to classical linkage group 16 based on map location of thegene., 2008, 117: 143–147. [7] 傅來卿. 大豆雙復(fù)葉和多小葉突變體的研究. 大豆科學(xué), 1986, 5: 283–288. Fu L Q. Study of mutants with opposite trifoliate leaves and multi-leaflet leaves in soybean., 1986, 5: 283–288 (in Chinese with English abstract). [8] 王克晶, 李福山, 周濤, 許占有. 來源于野生大豆的多小葉性狀遺傳分析. 大豆科學(xué), 2001, 20: 22–25. Wang K J, Li F S, Zhou T, Xu Z Y. Inheritance of a five leaflet character arising from wild soybean (Sieb. et Zucc.) in soybeans ((L.) Merr.)., 2001, 20: 22–25 (in English with Chinse abstract). [9] Nawy T, Bayer M, Mravec J, Friml J, Birnbaum K D, Lukowitz W. The GATA factoris required to position the proembryo boundary in the earlyembryo., 2010, 19: 103–113. [10] Gallavotti A, Long J A, Stanfield S, Yang X, Jackson D, Vollbrecht E, Schmidt R J. The control of axillary meristem fate in the maize ramosa pathway.(Cambridge, England), 2010, 137: 2849–2856. [11] Vlad D, Kierzkowski D, Rast M I, Vuolo F, Ioio R D, Galinha C, Gan X, Hajheidari M, Hay A, Smith R S, Huijser P, Bailey C D, Tsiantis M. Leaf shape evolution through duplication, regulatory diversification, and loss of a homeobox gene., 2014, 343: 780–783. [12] Stewart G C, Roeder A H K, Patrick S, Chris S, Wolfgang L, Hector C. A genetic screen for mutations affecting cell division in theembryo identifies seven loci required for cytokinesis., 2016, 11: e0146492. [13] Abe A, Kosugi S, Yoshida K, Natsume S, Takagi H, Kanzaki H, Matsumura H, Yoshida K, Mitsuoka C, Tamiru M, Innan H, Cano L, Kamoun S, Terauchi R. Genome sequencing reveals agronomically important loci in rice using MutMap., 2012, 30: 174–178. [14] Abe A1, Kosugi S, Yoshida K, Natsume S, Takagi H, Kanzaki H, Matsumura H, Yoshida K, Mitsuoka C, Tamiru M, Innan H, Cano L, Kamoun S, Terauchi R. QTL-seq: rapid mapping of quantitative trait loci in rice by whole genome resequencing of DNA from two bulked populations., 2013, 74: 174–183. [15] Zhang H, Wang X, Pan Q, Li P, Liu Y, Lu X, Zhong W, Li M, Han L, Li J, Wang P, Li D, Liu Y, Li Q, Yang F, Zhang Y M, Wang G, Li L. QTG-Seq accelerates QTL fine mapping through QTL partitioning and whole-genome sequencing of bulked segregant samples., 2019, 12: 426–437. [16] Klein H, Xiao Y, Conklin P A, Govindarajulu R, Kelly J A, Scanlon M J, Whipple C J, Bartlett M. Bulked-segregant analysis coupled to whole genome sequencing (BSA-Seq) for rapid gene cloning in maize., 2018, 8: 3583– 3592. [17] Song Q J, Jenkins J, Jia G F, Hyten D L, Pantalone V, Jackson S A. Construction of high resolution genetic linkage maps to improve the soybean genome sequence assembly Glyma1.01., 2016, 17: 33. [18] McKenna A, Hanna M, Banks E, Sivachenko A, Cibulskis K, Kernytsky A, Garimella K, Altshuler D, Gabriel S, Daly M, DePristo M A, The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data., 2010, 20: 1297–1303. [19] Cingolani P, Platts A, Wang L L, Coon M, Nguyen T, Wang L, Land S J, Lu X Y, Ruden D M. A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome ofstrain1118;-2;-3., 2012, 6: 80–92. [20] Hill J T, Demarest B L, Bisgrove B W, Gorsi B, Su Y C, Yost H J. MMAPPR: mutation mapping analysis pipeline for pooled RNA-seq., 2013, 23: 687–697. [21] Fekih R, Takagi H, Tamiru M, Abe A, Natsume S, Yaegashi H, Sharma S, Sharma S, Kanzaki H, Matsumura H, Saitoh H, Mitsuoka C, Utsushi H, Uemura A, Kanzaki E, Kosugi S, Yoshida K, Cano L, Kamoun S, Terauchi R. MutMap+: Genetic mapping and mutant identification without crossing in rice., 2013, 8: e68529. [22] Altschul S F, Madden T L, Sch?ffer A A, Zhang J, Zhang Z, Miller W, Lipman D J. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs., 1997, 25: 3389–3402. [23] Deng Y, Li J Q, Wu S F, Zhu Y P, Chen Y W, He F C. Integrated nr database in protein annotation system and its localization., 2006, 32: 71–72. [24] Ashburner M, Ball C A, Blake J A, Botstein D, Butler H, Cherry M, Davis A P, Dolinski K, Dwight S S, Eppig J T, Harris M A, Hill D P, Issel-Tarver L, Kasarskis A, Lewis S, Matese J C, Richardson J E, Ringwald M, Rubin G M, Sherlock G. Gene ontology: tool for the unification of biology., 2000, 25: 25–29. [25] Kanehisa M, Goto S, Kawashima S, Okuno Y, Hattori M. The KEGG resource for deciphering the genome., 2004, 32: D277–D280. [26] Tatusov R L, Galperin M Y, Natale D A, Koonin E V. The COG database: a tool for genome-scale analysis of protein functions and evolution., 2000, 28: 33–36. [27] 楊霞, 高金珊, 楊素欣. 豆科復(fù)葉發(fā)育分子遺傳機(jī)制的研究進(jìn)展. 植物生理學(xué)報, 2017, 53: 905–915. Yang X, Gao J S, Yang S X. Progress of molecular mechanism of compound leaf development in legume plants., 2017, 53: 905–915 (in Chinese with English abstract). [28] Long J A, Moan E I, Medford J I, Barton M K. A member of the KNOTTED class of homeodomain proteins encoded by thegene of.(London), 1996, 379: 66–69. [29] Bharathan G, Goliber T E, Moore C, Kessler S, Pham T, Sinha N R. Homologies in leaf form inferrfromgene expression during development., 2002, 296: 1858–1860. [30] Lincoln C, Long J, Yamaguchi J, Serikawa K, Hake S. A-like homeobox gene inis expressed in the vegetative meristem and dramatically alters leaf morphology when overexpressed in transgenic plants., 1994, 6: 1859–1876. [31] Hay A, Tsiantis M. The genetic basis for differences in leaf form betweenand its wild relative., 2006, 38: 942–947. [32] Shani E, Burko Y, Ben-Yaakov L, Berger Y, Amsellem Z, Goldshmidt A, Sharon E, Ori N. Stage-specific regulation ofleaf maturation by class 1 KNOTTED1- LIKE HOMEOBOX proteins., 2009, 21: 3078–3092. [33] Hareven D, Gutfinger T, Parnis A, Eshed Y, Lifschitz E. The making of a compound leaf: genetic manipulation of leaf architecture in tomato., 1996, 84: 735–744. [34] Byrne M E, Barley R, Curtis M, Arroyo J M, Dunham M, Hudson A, Martienssen R A.mediates leaf patterning and stem cell function in., 2000, 408: 967–971. [35] Waites R, Selvadurai H R N, Oliver I R, Hudson A. Thegene encodes a MYB transcription factor involved in growth and dorsoventrality of lateral organs in., 1998, 93: 779–789. [36] Kim M, Pham T, Hamidi A, McCormick S, Kuzoff R K, Sinha N. Reduced leaf complexity in tomato wiry mutants suggests a role forandgenes in generating compound leaves., 2003, 130: 4405–4415. [37] Taylor S, Hofer J, Murfet I., the pea ortholog ofand, is required for normal development of flowers, inflorescences, and leaves., 2001, 13: 31–46. [38] Dong Z C, Zhao Z, Liu C W, Luo J H, Yang J, Huang W H, Hu X H, Wang T L, Luo D. Floral patterning in., 2005, 137: 1272–1282. [39] Jiang F K, Guo M, Yang F, Duncan K, Jackson D, Rafalski A, Wang S C, Li B L. Mutations in an AP2 transcription factor- like gene affect internode length and leaf shape in maize., 2012, 7: e37040. [40] Soll M D, Ibba T M. Aminoacyl-tRNA synthesis., 2000, 69: 617–650. [41] Fatscher T, Boehm V, Gehring N H. Mechanism, factors, and physiological role of nonsense-mediated mRNA decay., 2015, 72: 4523–4544. [42] 柴寶峰, 王美, 石文鑫, 柴楊麗, 呂佳. 無義mRNA降解途徑的機(jī)制與進(jìn)化.山西大學(xué)學(xué)報(自然科學(xué)版), 2017, 40: 639–644. Chai B F, Wang M, Shi W X, Chai Y L, Lyu J. Mechanism and evolution of nonsense-mediated mRNA decay.(Nat Sci Edn), 2017, 40: 639–644 (in Chinese with English abstract). [43] 賈曉波, 胡劍. 無義介導(dǎo)的mRNA降解. 中國生物化學(xué)與分子生物學(xué)報, 2012, 28(2): 22–27. Jia X B, Hu J. Nonsense-mediated mRNA decay., 2012, 28(2): 22–27 (in Chinese with English abstract). [44] Yamashita A. Role of SMG-1-mediated Upf1 phosphorylation in mammalian nonsense-mediated mRNA decay., 2013, 18: 161–175. [45] Bhattacharya A, K?hrer C, Mandal D, Rajbhandary U L. Nonsense suppression in archaea., 2015, 112: 6015–6020. [46] 肖朝文, 陳福祿, 傅永福.AT-hook基因過量表達(dá)延遲擬南芥開花. 中國農(nóng)業(yè)科技導(dǎo)報, 2009, 11(4): 93–98. Xiao C W, Chen F L, Fu Y F. Over-expression of AT-hook genecan delay the flowering of., 2009, 11(4): 93–98 (in Chinese with English abstract). [47] Getzenberg R H, Pienta K J, Ward W S, Coffey D S. Nuclear structure and the three-dimensional organization of DNA., 1991, 47: 289–299. Mapping of an incomplete dominant gene controlling multifoliolate leaf by BSA-Seq in soybean (L.) ZHANG Zhi-Hao1,2, WANG Jun1, LIU Zhang-Xiong2,*, and QIU Li-Juan1,2,* 1School of Agriculture, Yangtze University, Jingzhou 434025, Hubei, China;2Institute of Crop Sciences, Chinese Academy of Agricultural Sciences, Beijing 100081, China The leaves of cultivated soybean (L.) are comprising of three leaflets in general, but there are also individual varieties or mutants which have a high frequency of compound leaves with 4–7 leaflets, named multifoliolate leaves. Compound leaf formation enhances the plant's ability to adapt to the external environment. Study of related genes to multifoliolate leaves might contribute to the improvement yield level of and soybean agronomic traits. In this study, a multifoliolate leaf mutant Zhonghuang 622 was identified from the mutant library of soybean cultivar Zhongpin 661, which had 4–9 leaflets in each compound leaf. The compound leaf phenotypes of F2and F2:3population from a cross between Zhongpin 661 and Zhonghuang 622 were investigated in Beijing and Hainan, respectively. Analysis of phenotypic data from F2and F2:3population revealed that the multifoliolate leaf trait was controlled by an incomplete dominant gene. BSA-Seq method was used for gene mapping. The two bulks of normal trifoliate and multifoliolate individuals in F2population were constructed and sequenced for an average depth of 32.75′, which covered 99.22% genome compared to the reference genome. Through correlation analysis of mixed pool sequencing results by ED method, two regions were located on chromosome 11, with a total length of 5.29 Mb and a total length of 1103 genes. Three regions were identified on chromosome 11 at confidence of 0.99, with a total length of 3.42 Mb and a total of 701 genes by the association analysis of SNP-index method. There were 690 genes located simultaneously and six SNP genes between parents by the two association analysis methods. These results lay the foundation for map-based cloning of the genes related to compound leaf development. soybean; mutant; BSA-Seq 本研究由國家自然科學(xué)基金項目(31630056)資助。 This study was supported by the National Natural Science Foundation of China (31630056). 劉章雄, E-mail: liuzhangxiong@caas.cn; 邱麗娟, E-mail: qiulijuan@caas.cn E-mail: 578903659@qq.com 2020-03-24; 2020-08-19; 2020-09-02. URL: https://kns.cnki.net/kcms/detail/11.1809.S.20200902.0933.008.html 10.3724/SP.J.1006.2020.040752.2 測序數(shù)據(jù)分析
3 討論
3.1 復(fù)葉發(fā)育相關(guān)基因
3.2 多小葉性狀的遺傳特性
3.3 候選基因的功能
4 結(jié)論