史可昕,石 瑛,張朝澍
(1.東北農(nóng)業(yè)大學農(nóng)學院,哈爾濱 150030;2.寒地糧食作物品種改良與生理生態(tài)教育部重點實驗室,哈爾濱 150030)
【研究意義】馬鈴薯是世界第四大糧食作物,第一大非谷類糧食作物,在工業(yè)、農(nóng)業(yè)生產(chǎn)中占有重要地位。隨著馬鈴薯利用程度不斷加深,我國高品質(zhì)馬鈴薯產(chǎn)品的消費需求不斷增加。馬鈴薯塊莖蛋白是一種優(yōu)質(zhì)蛋白,含有較高的必需氨基酸,約占蛋白總量的47.90%。蛋白的氨基酸組成研究表明[1],馬鈴薯富含其他糧食作物所缺乏的賴氨酸,具有較高的生物價值。但是,馬鈴薯栽培種大多蛋白含量較低,因此,選育高蛋白的優(yōu)質(zhì)馬鈴薯品種,是提高馬鈴薯品種競爭力的重要途徑。在以往的研究中,馬鈴薯復雜的四倍體遺傳特性增加了研究遺傳規(guī)律的難度[2],加之馬鈴薯基因組參考序列為二倍體序列,使馬鈴薯塊莖高蛋白含量育種工作一直停滯不前。馬鈴薯傳統(tǒng)育種周期長、篩選效率低、群體基礎量大,限制了馬鈴薯育種的發(fā)展。分子標記輔助育種可加速育種進程[3],因此,開發(fā)與四倍體馬鈴薯蛋白含量相關的分子標記對馬鈴薯育種研究意義重大,但四倍體馬鈴薯又有著遺傳背景狹窄、基因庫匱乏、遺傳重組率高、自交衰退等問題,開發(fā)分子標記難度較大[4-5]。【前人研究進展】目前,在二倍體馬鈴薯中已開發(fā)數(shù)十個與性狀緊密連鎖的標記,如:抗病毒病標記、抗晚疫病標記[6]、抗凍性狀標記[3]、炸片顏色標記[7]等。而將上述開發(fā)的二倍體馬鈴薯標記應用于四倍體馬鈴薯品種中,復雜的遺傳方式導致目的性狀與標記產(chǎn)生分離,篩選準確率降低。到目前為止,盡管已有關于馬鈴薯塊莖蛋白基因定位等研究的報道,但大多集中在二倍體群體的研究中,用于育種實踐的分子標記較少。如鄔信康等[8]將馬鈴薯蛋白多基因簇定位在第8染色體1.4 Mb的DNA片段中;將莧屬作物蛋白合成關鍵基因轉(zhuǎn)入馬鈴薯中,可以提高35%塊莖蛋白含量。高通量測序技術的不斷發(fā)展為快速挖掘基因、開發(fā)功能標記提供了有效手段。BSA-seq技術可在不構建遺傳圖譜的情況下快速挖掘目的基因,該技術已廣泛應用于多種作物的研究中,成功定位出如瓠瓜果形、甜瓜抗霜霉病、黃褐棉纖維長度、水稻耐陳化、芝麻株高等基因[9-13]?!颈狙芯壳腥朦c】本文以‘大西洋’為母本、‘定薯1號’為父本構建F1分離群體,以塊莖蛋白質(zhì)含量為目標性狀,利用BSA-seq技術篩選與目標性狀相關聯(lián)的染色體區(qū)域,針對目標區(qū)域開發(fā)引物,并用F1分離群體及四倍體馬鈴薯品種對引物進行檢測,獲得與蛋白質(zhì)含量緊密連鎖的SSR標記。【擬解決的關鍵問題】開發(fā)的標記可加快馬鈴薯蛋白含量育種進程,為分子育種及品種選育提供有用工具,也為控制馬鈴薯塊莖蛋白含量基因研究奠定基礎。
本研究以高蛋白含量馬鈴薯品種‘大西洋’(塊莖平均蛋白含量2.3%)為母本,低蛋白含量馬鈴薯品種‘定薯1號’(塊莖平均蛋白含量1.32%)為父本,雜交構建含有173份家系的F1分離群體。2019年和2020年在東北農(nóng)業(yè)大學向陽農(nóng)場實驗基地種植親本及F1代分離群體,采取完全隨機區(qū)組設計,2次重復,單行種植,行長5.0 m,行距0.8 m,每行種植20株,正常田間管理。收獲后各小區(qū)隨機選取10個馬鈴薯塊莖用于蛋白含量測定。選取48個馬鈴薯栽培品種用于檢測開發(fā)與蛋白含量緊密連鎖的分子標記,各馬鈴薯品種及蛋白含量如表1所示。供試材料由東北農(nóng)業(yè)大學馬鈴薯課題組提供。
表1 馬鈴薯品種信息Table 1 Information of potato varieties
續(xù)表1 Continuedtable 1
1.2.1 馬鈴薯塊莖蛋白含量測定 收獲后取新鮮馬鈴薯塊莖,切塊稱取鮮重(A);放入預熱至105 ℃的烘箱殺青30 min,80 ℃烘24~72 h至恒重,稱取干重(B),干物質(zhì)含量=B/A×100%;將烘干后的樣品粉碎,使用凱氏定氮儀測量全氮含量[14]。
蛋白質(zhì)含量(%)=全氮值×6.25×干物質(zhì)含量
(1)
1.2.2 混池構建及DNA提取 F1代分離群體中選取19份極端高蛋白家系(蛋白含量≥2.5%)和24份極端低蛋白家系(蛋白含量≤1.9%)分別構建極端材料池。使用康為世紀的DNA提取試劑盒提取DNA,取新鮮馬鈴薯葉片加入液氮充分研磨,再加入裂解液充分裂解,旋渦離心。取上清液加入無水乙醇放入吸附柱離心,再加入漂洗液漂洗2次,晾干。用ddH2O溶解DNA,-20 ℃保存。
1.2.3 文庫構建測序以及標簽的開發(fā)和SNP標記檢測 親本池采用全基因組重測序,2個極端混池采用簡化測序技術測序,數(shù)據(jù)由歐易公司、百邁客公司完成評估與過濾。利用五標簽串聯(lián)技術進行測序文庫構建,所有樣品采用標準型5-NNN-3'接頭與酶切標簽連接,文庫質(zhì)控合格后在Illumina Hiseq Xten平臺進行Paired-end測序。
利用SOAP軟件將Raw reads進行過濾,過濾后將Enzyme reads比對到參考序列后進行SNP標記分型。通過相關分析確定與馬鈴薯蛋白質(zhì)密切相關的SNP,根據(jù)相關閾值確定候選區(qū)間,同時,進行基因功能注釋和生物途徑富集分析。
1.2.4ED值和SNP關聯(lián)分析 結合F1群體2個極端混池表型及測序后的基因型,利用歐式距離算法,篩選2個混池間存在的顯著差異標記,從而評估與蛋白含量相關的區(qū)間。BSA項目構建的2個混池間除了目標性狀相關位點存在差異,其他位點均趨向于一致,因此非目標位點的ED值應趨向于0。
(2)
式中:Amut為A堿基在突變混池中的頻率,Awt為A堿基在野生型混池中的頻率;Cmut為C堿基在突變混池中的頻率,Cwt為C堿基在野生型混池中的頻率;Gmut為G堿基在突變混池中的頻率,Gwt為G堿基在野生型混池中的頻率;Tmut為T堿基在突變混池中的頻率,Twt為T堿基在野生型混池中的頻率。ED值越大表明該標記在兩混池間的差異越大。
利用2個混池間基因型存在差異的SNP位點,統(tǒng)計各堿基在不同混池中的深度,并計算各位點ED值。為消除背景噪音,對原始ED值進行乘方處理,本項目取原始ED的5次方作為關聯(lián)值以達到消除背景噪音的功能,然后采用LOESS方法對ED值進行擬合。
1.2.5 標記開發(fā)及檢測 根據(jù)BSA-seq結果,確定控制馬鈴薯蛋白含量的物理區(qū)間。利用親本全基因組重測序結果,使用Premier Premier 5軟件開發(fā)目標區(qū)間標記。
使用開發(fā)的標記在馬鈴薯F1分離群體及48個四倍體馬鈴薯品種中進行基因型鑒定,結合各家系及品種蛋白含量,分別分析分離群體及四倍體馬鈴薯品種基因型與表型的準確度。PCR擴增及產(chǎn)物電泳檢測按Yang等[15]的方法進行。
母本‘大西洋’塊莖的平均蛋白含量為2.32%,具有長勢較強、淀粉含量高等特點;父本‘定薯1號’塊莖的平均蛋白含量為1.31%,具有花期長、天然結實少等特點。親本之間平均蛋白含量相差1.77倍(表2)。F1分離群體在各環(huán)境中基本符合正態(tài)分布(圖1)。正態(tài)分布檢驗結果表明,蛋白含量介于1.02%~3.47%,平均變異系數(shù)為17.92%。說明,F1分離群體存在廣泛的遺傳變異,適合進行塊莖蛋白含QTL定位。
圖1 2019—2020年馬鈴薯群體的蛋白含量分布Fig.1 Distribution of protein content in potato group from 2019 to 2020
表2 馬鈴薯群體的蛋白含量Table 2 The protein content in potato group
通過測序?qū)︸R鈴薯的2個親本池、F1群體塊莖蛋白含量混池進行序列分析顯示,酶切片段長度為300~400 bp。通過伯羅斯-惠勒校準器比對軟件Burrow-Wheeler Aligner(BWA)將樣本的測序reads與參考基因組進行比對,比對效率正常。從表3可知,父本過濾后的reads數(shù)為45 862 067,母本過濾后的reads數(shù)為45 544 783,后代極端混池過濾后的reads數(shù)分別為45 572 901、45 240 707,平均Q20、Q30分別為97.97%、94.82%,GC含量變異幅度為38.00%~42.00%。表明,測序樣本數(shù)據(jù)量充足,沒有明顯的A與T、C與G分離現(xiàn)象,測序質(zhì)量正常,可用于后續(xù)的數(shù)據(jù)分析。
表3 混池測序結果Table 3 Results of mixed pool sequencing
基于比對結果,統(tǒng)計各樣本中reads在基因組上各堿基的覆蓋深度,并對統(tǒng)計結果進行可視化展示(圖2~3)。去除測序深度小于3的標簽后,各樣品的平均標簽數(shù)目為129 382,平均測序深度為153.07×,將標簽比對至參考基因組,所有樣品標簽比對率為87.24%~88.34%,建庫測序成功,與馬鈴薯參考基因組比對效率較高,可用于后續(xù)變異檢測及塊莖蛋白含量的基因定位。
圖2 P1樣本中reads在基因組上的分布Fig.2 Genomic distribution of reads in P1 samples
圖3 P2樣本中reads在基因組上的分布Fig.3 Genomic distribution of reads in P2 samples
對SNP、InDel進行過濾,共得到46 103個原始SNP、InDel位點,得到17 306個SNP&InDel位點(圖4,表4)。計算各位點ED值并進行乘方,取原始ED值的5次方為關聯(lián)值(圖5),取所有位點擬合值的median+3s為關聯(lián)閾值,共關聯(lián)到3個區(qū)間。分別為2號染色體18.88~21.59 Mb處,區(qū)間大小為2.71 Mb;4號染色體8.30~12.84 Mb處,區(qū)間大小為4.54 Mb;4號染色體65.12~66.39 Mb處,區(qū)間大小為1.27 Mb(表5)。在這3個區(qū)間中存在控制馬鈴薯塊莖蛋白含量的基因。
表4 變異位點染色體分布Table 4 Chromosome distribution of variation site
續(xù)表4 Continuedtable 4
表5 關聯(lián)區(qū)間的位置Table 5 Location of correlation interval
圖4 變異位點染色體分布Fig.4 Chromosome distribution of variation sites
橫坐標為染色體名稱,彩色的點代表每個 SNP 位點的ED值,黑色的線為擬合后的ED值,紅色的虛線代表顯著性關聯(lián)閾值,ED值越高,代表該點關聯(lián)效果越好。取所有位點擬合值的median+3SD作為分析的關聯(lián)閾值。The abscissa is the chromosome name, the colored point represents the ED value of each SNP site, the black line represents the fitted ED value, and the red dotted line represents the significance association threshold.The higher the ED value, the better the association effect of this point.The median+3SD of all site fit values is taken as the correlation threshold for analysis.圖5 ED關聯(lián)值在染色體上的分布Fig.5 Distribution of ED correlation value on chromosome
根據(jù)定位區(qū)域、基因位置及參考基因組信息,共注釋到719個候選基因。使用NR、TrEMBL、KEGG、GO、KOG、swissprot、PFAM共7個功能數(shù)據(jù)庫對候選基因進行功能注釋。注釋基因顯著富集在玉米素合成代謝通路,該代謝通路可阻止蛋白質(zhì)降解。根據(jù)雙親重測序信息,使用Primer Premier 5軟件分別在3個區(qū)間內(nèi)開發(fā)了150對SSR引物(部分SSR引物信息見表6)。
以高蛋白的馬鈴薯品種‘大西洋’和低蛋白的‘定薯1號’基因組DNA為模板,對150對引物的多態(tài)性進行PCR篩選。有43對引物能獲得相應的目標條帶,具有多態(tài)性,多態(tài)性效率為28.67%(表6)。
表6 部分SSR引物信息Table 6 Partial SSR primer information
以F1分離群體中的41份高蛋白家系、34份低蛋白家系DNA為模板,進行聚丙烯酰胺電泳,驗證引物的多態(tài)性。其中,引物SSR15表現(xiàn)出多態(tài)性高、條帶清晰、重演性好。引物SSR15在41份高蛋白家系中檢測出30份高蛋白親本帶型,準確率為73.17%;在34份低蛋白家系中檢測出28份低蛋白親本帶型,準確率為82.35%(圖6)。
圖6 子代馬鈴薯中的分子標記檢測Fig.6 Detection of molecular markers in offspring of potato
在48份四倍體馬鈴薯品種中,高蛋白品種有14份,占總品種的29.17%;低蛋白品種有8份,占總品種的16.67%。使用引物SSR15對48份馬鈴薯品種進行檢測,在標記為陽性的11個品種中,9個為高蛋白含量,分子標記的檢測結果與蛋白含量的對應度達到81.82%;在標記為陰性的11個馬鈴薯品種中,有6個為低蛋白含量,分子標記的檢測結果與蛋白含量的對應度達到54.55%(圖7)。引物SSR15能較好地篩選不同馬鈴薯品種蛋白質(zhì)含量,可用于馬鈴薯蛋白含量分子標記輔助育種中,將分子標記SSR15命名為pChr2-4(表7)。
表7 開發(fā)的引物序列Table 7 Primer sequence
1.延薯13號,2.延薯8號,3.東農(nóng)305,4.興佳2號,5.克新25號,6.東農(nóng)311,7.興佳5號,8.龍薯7號,9.東農(nóng)322,10.東農(nóng)312,11.延薯12號,12.克新34,13.東農(nóng)321,14.克新19號,15.延薯11號,16.東農(nóng)308,17.Desiree,18.東農(nóng)310,19.克新26號,20.綏新1號,21.克新35,22.克新12號,23.東農(nóng)317,24.東農(nóng)314,25.CIP39048,26.中薯早47,27.中薯5號,28.B192,29.Q12,30.東農(nóng)320,31.Snowden,32.綏新2號,33.B190,34.東農(nóng)DD412,35.壩薯14號,36.云薯201,37.延薯4號,38.荷蘭806,39.尤金,40.早大白,41.春薯11號,42.春薯12號,43.東農(nóng)03-1,44.維拉斯,45.龍薯11號,46.延薯14號,47.克新13號,48.后旗紅。圖7 四倍體馬鈴薯品種中的分子標記檢測Fig.7 Detection of molecular markers in tetraploid potato varieties
馬鈴薯塊莖蛋白是一種優(yōu)質(zhì)蛋白,但大多數(shù)馬鈴薯栽培種蛋白含量較低,不適宜優(yōu)質(zhì)馬鈴薯蛋白的開發(fā)與利用[16]。因此,挖掘及解析馬鈴薯塊莖發(fā)育過程中控制蛋白形成的關鍵基因,選育高蛋白的馬鈴薯品種,是培育高蛋白馬鈴薯品種的關鍵基礎[17]。本研究以‘大西洋’為母本,‘定薯1號’為父本,其中,‘大西洋’種植范圍較廣,是世界上經(jīng)典的炸片馬鈴薯品種之一[18-19],與父本‘定薯1號’相比,具有蛋白含量較高的特點。2個馬鈴薯親本雜交構建的F1分離群體中,各家系蛋白含量的變異范圍較大,變異系數(shù)達到17.92%,是進行馬鈴薯蛋白相關基因定位的理想群體。
隨著測序技術的發(fā)展,利用BSA-seq技術進行基因挖掘,已成為快速基因定位的方法之一[20-21]。與傳統(tǒng)的分子標記相比,BSA-seq技術具有分辨率高、定位基因速度快、準確度高、穩(wěn)定性好等特點[22-24]。本研究對馬鈴薯F1分離群體19個極端高蛋白家系和24個極端低蛋白家系進行了混池測序,共開發(fā)129 382個標簽,這些標記分布在馬鈴薯12條染色體上,過濾后得到17 306個具有較高質(zhì)量的SNP,這些SNP為馬鈴薯蛋白含量關聯(lián)分析提供了足夠的數(shù)據(jù)支撐。
與常規(guī)育種相比,分子標記輔助育種可加快育種進程,提高育種效率。隨著分子標記輔助育種的發(fā)展,耐寒[25]、休眠[26]、淀粉含量[27]、植株熟性[28]、抗馬鈴薯病毒[29]、薯肉顏色[30]、抗晚疫病[31]等很多馬鈴薯重要性狀被標記。本研究利用BSA-seq分別在2號、4號染色體定位了3個與馬鈴薯蛋白含量相關的區(qū)間,區(qū)間大小分別為2.71、4.54、1.27 Mb。本研究使用NR、TrEMBL、KEGG、GO、KOG、swissprot、PFAM 7個功能數(shù)據(jù)庫共注釋到719個候選基因,發(fā)現(xiàn)這些基因顯著富集在玉米素的生物合成代謝途徑中,該代謝通路可阻止蛋白質(zhì)降解,可能與提高馬鈴薯塊莖蛋白含量相關。由于注釋到的基因較多,無法直接進行候選基因驗證,同時,馬鈴薯物種的特殊性,以回交的方式進行精細定位難度較大,故決定在后續(xù)試驗中對所有F1家系進行簡化基因組測序,并結合轉(zhuǎn)錄組、非靶標代謝組學進一步縮小定位區(qū)間,挖掘調(diào)控馬鈴薯蛋白含量的候選基因。
本研究根據(jù)雙親重測序信息,在3個區(qū)間內(nèi)開發(fā)了150對SSR引物,其中43對具有多態(tài)性,分子標記pChr2-4特異性最好。使用該引物對F1分離群體75個極端家系及48個四倍體馬鈴薯品種進行檢測,檢測結果差異明顯、穩(wěn)定性好,對高蛋白含量馬鈴薯家系及四倍體馬鈴薯品種的檢測準確率分別為73.17%和81.82%,準確度較高,該標記可用于馬鈴薯蛋白含量分子標記輔助選擇。
本研究用‘大西洋’和‘定薯1號’為親本構建F1分離群體,選擇極端家系進行BSA-seq,將控制蛋白質(zhì)含量的基因分別定位在2號染色體18.88~21.59 Mb、4號染色體8.3~12.84 Mb及4號染色體65.12~66.39 Mb處。在2號染色體18.88~21.59 Mb處開發(fā)了1個與馬鈴薯蛋白含量緊密連鎖的SSR標記pChr2-4。該標記有助于馬鈴薯塊莖蛋白含量分子標記輔助育種。