陳 治,蔡杏偉,張清鳳,李高俊,馬春來(lái),申志新
1. 海南熱帶海洋學(xué)院/熱帶海洋生物資源利用與保護(hù)教育部重點(diǎn)實(shí)驗(yàn)室/海南省熱帶海洋漁業(yè)資源保護(hù)與利用重點(diǎn)實(shí)驗(yàn)室,海南 三亞 572022
2. 海南省海洋與漁業(yè)科學(xué)院,海南 海口 571126
魚(yú)類是淡水生態(tài)系統(tǒng)的重要組成部分。目前,有超過(guò)10 000種魚(yú)類生活在淡水中,大約占魚(yú)類總數(shù)的40%和脊椎動(dòng)物的1/4[1]。然而,由于氣候變化、人類活動(dòng)、生物入侵等原因,全球淡水魚(yú)類正以前所未有的速度消失。淡水魚(yú)類保護(hù)成為當(dāng)前生物多樣性保護(hù)刻不容緩的事宜[1]。全面準(zhǔn)確的多樣性調(diào)查是開(kāi)展各項(xiàng)淡水魚(yú)類保護(hù)的基礎(chǔ)。傳統(tǒng)的淡水魚(yú)類調(diào)查一般基于網(wǎng)具捕獲 (如網(wǎng)捕、籠捕等),這對(duì)調(diào)查對(duì)象及其所在生境具有一定破壞性。隨著分子生物學(xué)技術(shù)的發(fā)展,一種對(duì)調(diào)查對(duì)象無(wú)損傷、對(duì)環(huán)境友好的物種多樣性調(diào)查方法——環(huán)境 DNA (Environmental DNA, eDNA) 宏條形碼(Metabarcoding) 技術(shù)應(yīng)運(yùn)而生[2]。該技術(shù)是指對(duì)從環(huán)境樣品 (如底泥、水、糞便等) 中分離的總DNA進(jìn)行目的片段的PCR擴(kuò)增和高通量測(cè)序,通過(guò)與已有DNA數(shù)據(jù)庫(kù)進(jìn)行比對(duì)與注釋,從而實(shí)現(xiàn)多物種 (或更高級(jí)分類單元) 的鑒定[3]。近年來(lái),環(huán)境DNA宏條形碼技術(shù)引起了漁業(yè)生態(tài)學(xué)家的廣泛關(guān)注,并逐漸應(yīng)用于淡水魚(yú)類多樣性調(diào)查、珍稀瀕危物種和外來(lái)入侵種檢測(cè)等領(lǐng)域[4-6]。
然而,作為一種新興的水生生物多樣性調(diào)查方法,環(huán)境DNA宏條形碼技術(shù)目前仍存在很多問(wèn)題——不僅取樣策略、實(shí)驗(yàn)環(huán)境對(duì)研究結(jié)果具有較大影響[2,7],而且物種判別方案對(duì)定性、定量的準(zhǔn)確性也有不可忽視的影響[2-3,7]。目前,物種判別方面比較突出的問(wèn)題是:1) 參考數(shù)據(jù)庫(kù)的構(gòu)建。既可以選擇NCBI、BOLD、MitoFish、FISH-BOL等公共數(shù)據(jù)庫(kù),也可以實(shí)際采集樣品自建數(shù)據(jù)庫(kù),或者二者相結(jié)合[7]。主流的觀點(diǎn)認(rèn)為自建數(shù)據(jù)庫(kù)優(yōu)于公共數(shù)據(jù)庫(kù)[8-9],但目前大部分魚(yú)類環(huán)境DNA宏條形碼研究主要還是采用公共數(shù)據(jù)庫(kù)[10-11],且其中一些研究表明基于公共數(shù)據(jù)庫(kù)進(jìn)行物種注釋效果也比較理想[12-14]。因此數(shù)據(jù)庫(kù)的優(yōu)劣可能跟研究區(qū)域、物種類群等因素密切相關(guān)。2) 最優(yōu)目標(biāo)基因的選擇。目前已經(jīng)有不少針對(duì)魚(yú)類設(shè)計(jì)的環(huán)境DNA宏條形碼通用引物[7,15-16],其目標(biāo)基因各不相同,對(duì)魚(yú)類的鑒定能力也存在差異。究竟哪種目標(biāo)基因更適合特定的研究區(qū)域,需要根據(jù)具體調(diào)查類群進(jìn)行篩選[7,15-16]。3) 種間差異閾值的確定。標(biāo)準(zhǔn)的動(dòng)物DNA條形碼主要為線粒體細(xì)胞色素c氧化酶亞基I(Cytochrome coxidase subunit I, COI) 基因;但魚(yú)類環(huán)境DNA 宏條形碼主要選用線粒體12S核糖體(12s ribosomal RNA, 12S) 或 16S 核糖體 (16s ribosomal RNA, 16S) 基因[16]。不僅變異速度更不穩(wěn)定[17],且擴(kuò)增片段多小于200 bp[15-16]。物種系統(tǒng)發(fā)育分析過(guò)程的種間差異閾值應(yīng)為多少目前也尚無(wú)定論[18]。
海南省是中國(guó)唯一的熱帶島嶼省份,氣候條件優(yōu)越,是中國(guó)生物多樣性的天然寶庫(kù)和資源基地,有著重要的保護(hù)價(jià)值[19]。2016—2018年,海南省海洋與漁業(yè)科學(xué)院對(duì)本省淡水魚(yú)類進(jìn)行了比較全面的調(diào)查[20],至少采集到淡水魚(yú)類124種 (不包括2種洄游的鰻鱺)——僅“兩江一河” (南渡江、昌化江、萬(wàn)泉河) 初步確認(rèn)的淡水土著魚(yú)類就達(dá)93種[21],其中海南島特有魚(yú)類19種[21]。考慮到傳統(tǒng)調(diào)查方法具有費(fèi)時(shí)費(fèi)力、破壞性大及靶生物捕獲率低的缺點(diǎn),可能還有更多的土著種及特有種等待發(fā)掘。有必要在后續(xù)調(diào)查研究中引入環(huán)境DNA宏條形碼技術(shù),從而更好地了解海南島土著魚(yú)類多樣性。而參考數(shù)據(jù)庫(kù)的準(zhǔn)確構(gòu)建和條形碼基因的合理選擇,則是后續(xù)使用該技術(shù)的基礎(chǔ)和前提。針對(duì)海南島淡水魚(yú)類多樣性調(diào)查的實(shí)際需求及環(huán)境DNA宏條形碼技術(shù)存在的問(wèn)題,本研究的目的如下:1) 初步構(gòu)建海南島淡水魚(yú)類環(huán)境DNA宏條形碼參考數(shù)據(jù)庫(kù),比較自建數(shù)據(jù)庫(kù)與公共數(shù)據(jù)庫(kù)在物種注釋上的差異;2) 以自建數(shù)據(jù)庫(kù)為本底資料,考察不同魚(yú)類的種間差異,探究不同目標(biāo)基因的物種判別能力及種間差異閾值。本研究將為后期基于環(huán)境DNA宏條形碼技術(shù)的海南島淡水魚(yú)類多樣性調(diào)查和其他類似研究提供基礎(chǔ)和參考。
樣品采集及鑒定由海南省海洋與漁業(yè)科學(xué)院完成。采集時(shí)間始于2016年,采集地點(diǎn)為海南島各淡水水系。形態(tài)鑒定主要參照《海南島淡水及河口魚(yú)類志》[22]《廣東淡水魚(yú)類志》[23]等資料。對(duì)于形態(tài)鑒定無(wú)誤的物種,剪取偶鰭鰭條或背部組織肌肉,于無(wú)水乙醇中?20 ℃保存。
DNA提取采用標(biāo)準(zhǔn)的苯酚-氯仿-異戊醇法。使用目前應(yīng)用廣泛的魚(yú)類環(huán)境DNA宏條形碼通用引物MiFish-U[17](針對(duì)線粒體12S,擴(kuò)增子約170 bp)、Vert-16S[24](針對(duì)線粒體 16S,擴(kuò)增子約 256 bp)及本研究基于148種魚(yú)類的COI序列專門針對(duì)海南島淡水魚(yú)類設(shè)計(jì)的COI短片段引物 (F: AAYCAYAAAGACATYGGYACCCT,R: GGYATTACTATAAAGAARATYAT,擴(kuò)增子 139 bp) 進(jìn)行PCR擴(kuò)增。PCR產(chǎn)物及后續(xù)處理參照吳娜[25]、梁日深等[26]:反應(yīng)體系總體積為50 μL,其中包括PCR Mix 反應(yīng)混合液 (天根生化科技有限公司) 25 μL、滅菌蒸餾水 21 μL、上下游引物 (10 μmol·L?1)各 1 μL、DNA 樣品 2 μL。PCR 反應(yīng)條件為 94 ℃預(yù)變性 5 min;94 ℃ 變性 30 s,55 ℃ 退火 30 s,72 ℃ 延伸 40 s,35 個(gè)循環(huán);最后 72 ℃ 再延伸5 min。PCR產(chǎn)物用1%瓊脂糖凝膠電泳檢測(cè),純化回收后送廣州艾基生物技術(shù)有限公司進(jìn)行雙向測(cè)序。此外,對(duì)于部分有歷史分布記錄但實(shí)際暫未采集到相關(guān)樣品的魚(yú)類,或者由于樣品個(gè)體很小、狀態(tài)保存差而測(cè)序失敗的疑似種,本研究一律按該物種在海南有分布處理。從NCBI公共數(shù)據(jù)庫(kù) (以下簡(jiǎn)稱公共數(shù)據(jù)庫(kù)) 下載這些物種的線粒體序列,截齊后暫時(shí)作為海南島淡水魚(yú)類環(huán)境DNA宏條形碼參考序列 (具體名單及GenBank序列號(hào)見(jiàn)附錄A,詳見(jiàn) http://dx.doi.org/10.12131/20210339 的資源附件)。
基于序列相似度,模擬條形碼序列注釋過(guò)程,統(tǒng)計(jì)測(cè)序所得序列在公共數(shù)據(jù)庫(kù)和自建數(shù)據(jù)庫(kù)的物種注釋情況。待注釋序列在參考數(shù)據(jù)庫(kù)中比對(duì)到的高相似度物種有且僅有其自身1種時(shí),則表示該序列被準(zhǔn)確注釋?;诠矓?shù)據(jù)庫(kù)的序列注釋操作如下:打開(kāi)NCBI序列比對(duì)窗口 (https://blast.ncbi.nlm.nih.gov/Blast.cgi),選擇“Nucleotide Blast”,將人工校對(duì)切齊處理后的序列輸入“Enter accession number (s), gi (s), or FASTA sequence (s)”對(duì)話框,點(diǎn)擊“Blast”選項(xiàng)統(tǒng)計(jì)不同相似度下的物種比對(duì)名錄;基于自建數(shù)據(jù)庫(kù)的注釋過(guò)程則參見(jiàn)郜星晨和姜偉[27]:安裝BLAST-2.4軟件工具并配置系統(tǒng)工作環(huán)境,將COI、12S、16S序列整合為3個(gè)不同的FASTA格式文件 (COI-barcode.fa、12S-barcode.fa和16S-barcode.fa),Makeblastdb命令格式化和索引化上述數(shù)據(jù) (參數(shù):-in COI-barcode.fa -dbtype nucl -parse_seqids -out fish、-in 12S-barcode.fa -dbtype nucl -parse_seqids -out fish、-in 16S-barcode.fa -dbtype nucl -parse_seqids -out fish),初步形成可供BLAST檢索的本地?cái)?shù)據(jù)庫(kù)。取待檢測(cè)物種的序列,保存為test.fa文件。Blastn命令執(zhí)行待檢序列數(shù)據(jù)庫(kù)檢索 (參數(shù):-query test.fa -db fish -evalue 1e-5-outfmt 2),自動(dòng)輸出檢索結(jié)果 test.txt。
鄰接系統(tǒng)發(fā)育 (Neighbor-joining, NJ) 分析、種間差異閾值的調(diào)整及確定參考Milan等[18]。具體操作如下:測(cè)定的序列通過(guò)DNAStar軟件包中的Seqman程序進(jìn)行人工校對(duì)切齊。打開(kāi)MEGA 6.0軟件,基于Kimura 雙參數(shù)模型 (Kimura-2-parameter,K2P) 采用鄰接法構(gòu)建系統(tǒng)發(fā)育樹(shù)。系統(tǒng)分支支持率經(jīng)1 000次重復(fù)抽樣檢測(cè);統(tǒng)計(jì)序列間的遺傳距離,在0~0.02范圍內(nèi)以0.000 5為閾值間隔設(shè)置不同的種間差異閾值,物種錯(cuò)誤鑒定比例最小的閾值則為種間差異最佳閾值。
截至2021年5月1日,本研究實(shí)地采集魚(yú)類72種 (共85尾,其中12種魚(yú)類樣品量為2~3尾,其余種類樣品量?jī)H1尾) ,從公共數(shù)據(jù)庫(kù)下載67種 (附錄A)。兩數(shù)據(jù)庫(kù)物種共計(jì)139種,隸屬于8目25科95屬 (附錄A)。其中鯉形目、鱸形目和鲇形目物種數(shù)較多,分別為73、37和18種;鱂形目、脂鯉目、頜針魚(yú)目、合鰓魚(yú)目和鰻鱺目數(shù)量較少,種類僅2~3種。
雖然本次建庫(kù)實(shí)地采集的魚(yú)類種數(shù)還較少,但其中卻包含南渡江吻蝦虎魚(yú)(Rhinogobius nandujiangensis)、海南原纓口鰍 (Vanmanenia hainanensis)等海南島淡水土著魚(yú)類特有種11種 (具體名單見(jiàn)附錄 A)。72 種魚(yú)中,有 16 (COI)、20 (12S) 和 22(16S) 種魚(yú)類在公共數(shù)據(jù)庫(kù)內(nèi)無(wú)參考序列,為本研究首次提供 [海南異鱲 (Parazacco fasciatus)、海南華鳊 (Sinibrama melrosei) 等,主要為海南島淡水土著魚(yú)類特有種或少見(jiàn)種 (附錄A)]。
自建數(shù)據(jù)庫(kù)有日本鰻鱺 (Anguilla japonica)、中華沙塘鱧 (Odontobutis sinensis) 等 67 種魚(yú)類暫未采到樣品,物種覆蓋度為51.80% (72/139);公共數(shù)據(jù)庫(kù)有 16 (COI)、22 (12S) 、24 (16S) 種魚(yú)類在其學(xué)名下無(wú)對(duì)應(yīng)序列,物種覆蓋度分別為88.49% (COI:123/139)、84.17% (12S: 117/139) 和 82.73% (16S:115/139) (圖1、附錄A)。自建數(shù)據(jù)庫(kù)的物種覆蓋度低于公共數(shù)據(jù)庫(kù)。
圖1 本研究中自建數(shù)據(jù)庫(kù)及公共數(shù)據(jù)庫(kù)的魚(yú)類種數(shù)Fig. 1 Number of fish species in self-built database and public database in this study
公共數(shù)據(jù)庫(kù)內(nèi)的參考序列總數(shù)遠(yuǎn)高于自建數(shù)據(jù)庫(kù)的序列總數(shù),但前者明確標(biāo)注采樣地點(diǎn)的序列總數(shù)較少,占比分別為6.69% (COI)、11.57% (12S)和8.02% (16S) (表1)。特別是樣品采集于海南島的序列總數(shù)和魚(yú)類種數(shù)嚴(yán)重不足,占標(biāo)注采樣地點(diǎn)的魚(yú)類種數(shù)和序列總數(shù)的0~4.42%。而自建數(shù)據(jù)庫(kù)72種魚(yú)類皆有詳細(xì)的采樣地點(diǎn)信息和對(duì)應(yīng)的實(shí)物樣品。此外,公共數(shù)據(jù)庫(kù)內(nèi)不同條形碼參考序列數(shù)量差別明顯。線粒體12S、16S 條形碼的序列總數(shù)明顯低于COI,分別只有后者的23.96%和27.22%。表明公共數(shù)據(jù)庫(kù)不同條形碼數(shù)據(jù)庫(kù)的完善程度也存在較大差異。
表1 公共數(shù)據(jù)庫(kù)和自建數(shù)據(jù)庫(kù)參考序列簡(jiǎn)介Table 1 Summary of metabarcoding reference sequence in public database and self-built database
自建數(shù)據(jù)庫(kù)的物種注釋結(jié)果顯示:72種魚(yú)中,有 23 (COI)、24 (12S) 、22 (16S) 種魚(yú)類在公共數(shù)據(jù)庫(kù)內(nèi)比對(duì)不到高相似度序列 (序列相似度<98%),屬于不可注釋到種的序列,只能大致推測(cè)其隸屬的科或?qū)佟V挥?68.06% (COI: 49/72)、66.67% (12S: 48/72) 和 69.44% (16S: 50/72) 的魚(yú)類順利比對(duì)到高相似度序列 (序列相似度≥98%),屬于可注釋到種的序列。然而,與可注釋到種的序列高度相似的物種較多,即使將序列比對(duì)閾值提高到≥99%,平均每種序列仍有 2.47 (COI)、1.53 (12S) 、1.85 (16S) 種候選物種 (圖2、表2)。候選物種數(shù)大于1表明數(shù)據(jù)庫(kù)內(nèi)存在不同魚(yú)類的參考序列高度相似或完全相同現(xiàn)象。而上述可注釋到種的序列基于自建數(shù)據(jù)庫(kù)都能比對(duì)到100%相似度的魚(yú)類,且每種序列的候選物種數(shù)明顯更少,分別只有1.14(COI)、1.10 (12S) 、1.09 (16S) 種 (取序列相似度≥99%) (圖2、表2)?;趦蓚€(gè)數(shù)據(jù)庫(kù)的候選物種數(shù)存在顯著或極顯著差別 (COI:F=18.93,P<0.000 1;12S:F=4.80,P=0.029; 16S:F=12.87,P=0.000 4) (取序列相似度≥99%)。
圖2 可注釋到種的魚(yú)類的候選物種數(shù) (序列相似度≥99%)Fig. 2 Number of candidate species of fish that can be annotated at species level (with≥99% sequence similarity)
表2 可注釋到種的序列在不同閾值范圍內(nèi)的候選物種數(shù) ()Table 2 Number of candidate species of sequence that can be annotated at species level within different threshold values
表2 可注釋到種的序列在不同閾值范圍內(nèi)的候選物種數(shù) ()Table 2 Number of candidate species of sequence that can be annotated at species level within different threshold values
序列相似度Sequence similarity候選物種數(shù) Number of candidate species基于公共數(shù)據(jù)庫(kù) Based on public database 基于自建數(shù)據(jù)庫(kù) Based on self-built database COI 12S 16S COI 12S 16S 100% 0~9 (1.43±1.64) 0~9 (1.01±1.51) 0~9 (1.00±1.46) 1~2 (1.03±0.18) 1~2 (1.08±.028) 1~2 (1.07±.025)100%>X≥99% 0~15 (1.04±1.88) 0~7 (0.53±0.98) 0~7 (0.85±1.22) 0~1 (0.13±0.34) 0~1 (0.03±0.18) 0~1 (0.03±0.18)99%>X≥98% 0~10 (1.07±1.74) 0~11 (0.85±1.42) 0~11 (1.03±1.67) 0~3 (0.19±0.63) 0~3 (0.13±0.37) 0~2 (0.10±0.29)100%≥X≥99% 0~21 (2.47±3.06) 0~16 (1.53±2.06) 0~15 (1.85±2.27) 1~3 (1.14±0.47) 1~2 (1.10±0.30) 1~2 (1.09±0.28)100%≥X≥98% 0~31 (3.53±4.31) 0~27 (2.38±2.99) 0~23 (2.88±3.24) 1~4 (1.31±0.98) 1~4 (1.20±0.65) 1~3 (1.16±0.45)
不同條形碼基因在公共數(shù)據(jù)庫(kù)內(nèi)注釋到的候選物種數(shù)也存在差別 (表2) ,COI基因高于12S、16S。特別是100%≥X≥99% 范圍內(nèi)三者存在顯著差別 (F=4.14,P=0.017) ,表明基于 COI基因的物種注釋需要排除更多的物種。
以序列相似度為主要參考依據(jù),結(jié)合Fish-Base、臺(tái)灣魚(yú)類資料庫(kù)地理分布記錄及《海南島淡水及河口魚(yú)類志》《廣東淡水魚(yú)類志》等,以公共數(shù)據(jù)庫(kù)和自建數(shù)據(jù)庫(kù)的共有魚(yú)類的測(cè)序所得序列為待注釋對(duì)象,使用兩種數(shù)據(jù)庫(kù)進(jìn)行序列注釋:基于自建數(shù)據(jù)庫(kù)的注釋準(zhǔn)確率為100% (COI)、96.15%(12S) 和96% (16S);基于公共數(shù)據(jù)庫(kù)的物種注釋準(zhǔn)確率為 69.64% (COI)、67.30% (12S) 和 70% (16S)(表3、附錄A)。50~56種共有物種中有11~14種魚(yú)類在公共數(shù)據(jù)庫(kù)種比對(duì)不到高相似度序列 (表3) ,這直接導(dǎo)致了基于公共數(shù)據(jù)庫(kù)的物種注釋準(zhǔn)確率偏低。
表3 兩種數(shù)據(jù)庫(kù)共有物種的注釋結(jié)果Table 3 Annotation results of common fish species in two databases
基于全部物種的150~152條序列構(gòu)建的系統(tǒng)進(jìn)化樹(shù)見(jiàn)圖3—圖5。全部序列的總平均遺傳距離(Overall mean distance) 分別為 0.206 4 (COI)、0.273 8(12S) 和 0.295 0 (16S)。3 種宏條形碼均存在對(duì)部分魚(yú)類區(qū)分度不夠的現(xiàn)象,分別有4 (COI)、12(12S) 、8 (16S) 種魚(yú)類出現(xiàn)種間遺傳距離為 0 的情況;而南方馬口魚(yú) (Opsariichthys bidens) 等物種卻又出現(xiàn)了種內(nèi)不同個(gè)體遺傳差異較大的現(xiàn)象 (表4、圖3—圖5)。參考Milan等[18]的研究,基于K2P遺傳距離確定的種間差異最佳閾值分別為0.006 9(COI)、0.005 6 (12S) 和 0.007 5 (16S) ,其物種判別準(zhǔn)確率分別為 94.96% (COI: 132/139)、89.05% (12S:122/137) 和 92.70% (12S: 127/137)。
表4 兩兩序列的遺傳距離 (K2P)Table 4 Pairwise distance of genetic divergences (K2P) within various sequences
圖3 基于152條線粒體COI序列構(gòu)建的NJ系統(tǒng)發(fā)育樹(shù)Fig. 3 NJ phylogenetic tree constructed based on 152 mitochondrial COI sequences
圖4 基于150條線粒體12S序列構(gòu)建的NJ系統(tǒng)發(fā)育樹(shù)Fig. 4 NJ phylogenetic tree constructed based on 150 mitochondrial 12S sequences
圖5 基于150條線粒體16S序列構(gòu)建的NJ系統(tǒng)發(fā)育樹(shù)Fig. 5 NJ phylogenetic tree constructed based on 150 mitochondrial 16S sequences
本研究的結(jié)果表明,數(shù)據(jù)庫(kù)的構(gòu)建應(yīng)遵循“自建為主、公共為輔,兩者結(jié)合”的原則。海南島地理位置相對(duì)孤立,生物種類及特有類群均比較豐富[19]。雖然自建數(shù)據(jù)庫(kù)在物種覆蓋度上低于公共數(shù)據(jù)庫(kù),但綜合附錄A及申志新等[20]和李高俊等[21]的研究可以發(fā)現(xiàn):公共數(shù)據(jù)庫(kù)缺失的物種主要是海南島當(dāng)下確有分布的土著特有種、少見(jiàn)種和地理亞種[21],而自建數(shù)據(jù)庫(kù)對(duì)這部分魚(yú)類卻有較好的收集——72種魚(yú)類中,土著特有種就多達(dá)11種。公共數(shù)據(jù)庫(kù)內(nèi)現(xiàn)存土著特有種參考序列的缺失 (如海南異鱲、海南華鳊等) ,對(duì)當(dāng)前海南島淡水魚(yú)類多樣性的調(diào)查極為不利。在本研究中,基于公共數(shù)據(jù)庫(kù)有30.56%~33.33%的物種比對(duì)不到高相似度序列,這直接導(dǎo)致基于公共數(shù)據(jù)庫(kù)的物種注釋準(zhǔn)確率明顯偏低。Jerde等[28]和Lim等[29]的研究也表明,NCBI數(shù)據(jù)庫(kù)對(duì)地方特有種的條形碼收集十分不健全,難以滿足土著淡水魚(yú)類多樣性的調(diào)查需求。Gillet等[30]從少見(jiàn)種鑒定角度出發(fā),也認(rèn)為只有先自建參考數(shù)據(jù)才能開(kāi)展后續(xù)多樣性調(diào)查。對(duì)于常見(jiàn)種,雖然公共數(shù)據(jù)庫(kù)已收錄了較多參考序列 (表1),但其中明確標(biāo)注采樣地點(diǎn)的序列總數(shù)較少,這降低了條形碼序列的參考價(jià)值。并且,由于參考序列存在定種錯(cuò)誤 (如同物異名) 等原因,導(dǎo)致基于公共數(shù)據(jù)庫(kù)比對(duì)到的候選物種數(shù)量更多[28,31](比如本研究中的COI基因)。候選物種越多,則序列注釋受到錯(cuò)誤信息的干擾程度越大[28]。特別是當(dāng)物種存在同域分布記錄時(shí),難以判定序列所代表的真實(shí)物種[16,28]?;诠矓?shù)據(jù)庫(kù)的注釋準(zhǔn)確率明顯低于自建數(shù)據(jù)庫(kù) (表3)。從上述角度考慮,實(shí)地采集樣品自建數(shù)據(jù)庫(kù)幾乎是魚(yú)類環(huán)境DNA宏條形碼研究中不可替代的步驟。
然而,自建數(shù)據(jù)庫(kù)的缺點(diǎn)也十分明顯——建庫(kù)過(guò)程費(fèi)時(shí)費(fèi)力。本研究72種魚(yú)類的獲取耗時(shí)約3年;而從公共數(shù)據(jù)獲取數(shù)據(jù)耗時(shí)卻不超過(guò)24 h。即使如此長(zhǎng)期采樣,本研究中的自建數(shù)據(jù)庫(kù)仍僅覆蓋了研究水域約一半的魚(yú)類。Miya等[32]提及了2012—2020年20多篇基于環(huán)境DNA宏條形碼技術(shù)的魚(yú)類多樣性研究,也未見(jiàn)有高通量測(cè)序OTUs能被自建數(shù)據(jù)庫(kù)完全覆蓋和/或注釋的報(bào)道。由此可見(jiàn)全面、準(zhǔn)確的參考數(shù)據(jù)庫(kù)構(gòu)建難度之大。從物種覆蓋度角度考慮,公共數(shù)據(jù)庫(kù)無(wú)疑是自建數(shù)據(jù)庫(kù)的有效補(bǔ)充。
自建國(guó)以來(lái),海南島僅進(jìn)行了2次全面系統(tǒng)的淡水魚(yú)類多樣性調(diào)查,記錄的魚(yú)類種數(shù)分別為106和124種[20]。本研究實(shí)地采集樣品72種,公共數(shù)據(jù)庫(kù)補(bǔ)充67種。這139種魚(yú)類最大限度覆蓋了海南島的已知淡水魚(yú)類種數(shù)。然而,仍有部分魚(yú)類難以獲得其條形碼參考序列,如原田鳑鲏(Rhodeus haradai)、大鱗鰱 (Hypophthalmichthysharmandi)、戴氏蝦虎魚(yú) (Rhinogobius davidi) 等 (附錄A)。這部分魚(yú)類,僅有歷史記錄,實(shí)際已多年未采集到樣品[20-21],也未在公共數(shù)據(jù)庫(kù)見(jiàn)到任何參考序列,很可能成為海南島淡水魚(yú)類環(huán)境DNA宏條形碼的永久缺憾。
本研究表明對(duì)海南島淡水魚(yú)類判別能力最高的目標(biāo)基因?yàn)镃OI,其次為16S和12S。特別是以共有物種為注釋對(duì)象、以自建數(shù)據(jù)庫(kù)為本底資料時(shí),COI基因注釋準(zhǔn)確率高達(dá)100%。以公共數(shù)據(jù)庫(kù)為參考時(shí),雖然COI序列比對(duì)過(guò)程中的候選物種最多 (圖2),需要查閱更多的參考文獻(xiàn)才能精準(zhǔn)排除錯(cuò)誤的候選物種,但該基因在公共數(shù)據(jù)庫(kù)中物種覆蓋度最高,參考序列最為豐富,實(shí)際注釋準(zhǔn)確率也僅次于16S (表3)。這一結(jié)果與標(biāo)準(zhǔn)的脊椎動(dòng)物DNA條形碼普遍采用COI基因的現(xiàn)實(shí)相符合[33]。
然而,魚(yú)類環(huán)境DNA宏條形碼研究卻很少以COI為目標(biāo)基因[16]。其中最大問(wèn)題是COI基因很難設(shè)計(jì)出短片段通用性引物[17]。Balasingham等[5]專門針對(duì)歐洲魚(yú)類設(shè)計(jì)了COI通用引物——PS1,該引物對(duì)北京水體的魚(yú)類檢出數(shù)為MiFish-U的82.26% (51/62)。序列比對(duì)結(jié)果表明,PS1正、反向引物分別與海南島淡水魚(yú)類序列存在3~4和4~6個(gè)錯(cuò)配堿基 (結(jié)果未展示)。本研究使用的COI條形碼短片段引物,是基于148種魚(yú)類的COI全序列,在改進(jìn)PS1、Uni-Minibar和標(biāo)準(zhǔn)的COI條形碼通用引物基礎(chǔ)上專門針對(duì)海南島淡水魚(yú)類設(shè)計(jì)的。分子實(shí)驗(yàn)過(guò)程中,全部魚(yú)類的PCR產(chǎn)物條帶清晰、明亮;而PS1引物則有26種魚(yú)類不適用(結(jié)果未展示)。本研究的建庫(kù)案例表明在不過(guò)分要求通用性的研究中,以COI作為目標(biāo)基因可以設(shè)計(jì)出環(huán)境DNA宏條形碼通用引物。
Zhang等[16]全面比較了23對(duì)魚(yú)類環(huán)境DNA宏條形碼通用引物,發(fā)現(xiàn)從引物目標(biāo)基因來(lái)看,12S優(yōu)于16S。本研究得出的結(jié)果也與上述主流觀點(diǎn)不同。這是因?yàn)橐酝囊锉容^研究,評(píng)價(jià)指標(biāo)主要為環(huán)境DNA宏條形碼技術(shù)的魚(yú)類檢出數(shù)[16,34-35]。而本研究則側(cè)重基于本底資料比較物種序列注釋的準(zhǔn)確性。MiFish-U為Miya等[17]基于880種海洋魚(yú)類線粒體全序列篩選出的環(huán)境DNA宏條形碼引物 ,其通用性自然高于COI 和Vert-16S引物[32](注:MiFish的通用性可能過(guò)高,實(shí)際應(yīng)用過(guò)程中極易產(chǎn)生微生物、鳥(niǎo)類、哺乳類的非特異擴(kuò)增)。但MiFish-U的擴(kuò)增子片段長(zhǎng)度約170 bp,低于 Vert-16S 片段的 256 bp。Balasingham 等[5]、Gantner等[36]的研究表明,12S和16S擴(kuò)增子片段越長(zhǎng),物種鑒定的準(zhǔn)確性越高。本研究結(jié)果 (表3)與上述結(jié)論相符合,16S對(duì)海南島淡水魚(yú)類的判別能力高于12S。
然而,Vert-16S引物也有一些通用性問(wèn)題需要解決。在Zhang等[16]的研究中,Vert-16S 的魚(yú)類檢出數(shù)與PS1相同。本研究通過(guò)比較發(fā)現(xiàn),Vert-16S引物主要針對(duì)非魚(yú)類脊椎動(dòng)物[24]。對(duì)于魚(yú)類類群而言,其正向引物 (總長(zhǎng) 24 bp) 序列的 15~17 bp處存在3個(gè)完全錯(cuò)配的堿基。引物近3'端存在錯(cuò)配堿基會(huì)嚴(yán)重影響擴(kuò)增效果[37]。因此后續(xù)也需要對(duì)Vert-16S的正向引物進(jìn)行改進(jìn),以提高Vert-16S的魚(yú)類檢出數(shù)?;赑S1和Vert-16S引物均未完全匹配海南島淡水魚(yú)類序列的事實(shí),本研究認(rèn)為COI和16S可以作為某個(gè)特定區(qū)域魚(yú)類環(huán)境DNA宏條形碼研究的目標(biāo)基因,但需要對(duì)通用引物進(jìn)行優(yōu)化改進(jìn)。
標(biāo)準(zhǔn)的魚(yú)類COI條形碼長(zhǎng)度約650 bp[25-26,38],種間差異閾值為0.02 (2%)[33]。本研究所確定的COI基因種間差異閾值卻僅為0.006 9。這是因?yàn)镃OI基因不同區(qū)域的變異速率也并不相同。目前基于COI基因設(shè)計(jì)的魚(yú)類環(huán)境DNA宏條形碼通用引物很少,且無(wú)一例外均位于標(biāo)準(zhǔn)的魚(yú)類COI條形碼近 5'端前 350 bp 范圍內(nèi)[7,15-16]。Collins 等[39]、Menning 等[40]、Jennings等[41]、Sultana 等[42]的序列比對(duì)結(jié)果均表明,COI基因只有在這一區(qū)域序列較為保守,適合設(shè)計(jì)短片段引物,其余區(qū)域變異速率過(guò)快。本研究所用的短片段引物同樣位于這一區(qū)域,因此其種間差異較小,閾值遠(yuǎn)小于0.02。
COI基因采用0.006 9種間差異閾值能夠?qū)Ρ镜踪Y料庫(kù)中94.96% (132種/139種) 的魚(yú)類進(jìn)行準(zhǔn)確判定。對(duì)比其他環(huán)境DNA宏條形碼研究,這一數(shù)值已經(jīng)非常高。本研究中所用的COI短片段引物擴(kuò)增子長(zhǎng)度為139 bp,僅能夠容許種內(nèi)不同個(gè)體間出現(xiàn)1 bp的堿基變異;而12S和16S的擴(kuò)增子長(zhǎng)度和總平均遺傳距離均明顯高于COI,理論上可容許種內(nèi)個(gè)體存在1.5~2 bp的堿基變異[43]。然而,12S和16S的物種判別準(zhǔn)確性卻未高于COI。以139種魚(yú)類為本底資料,12S基因的種間差異閾值為0.005 6,在3種目標(biāo)基因中閾值最小,種內(nèi)個(gè)體判定的容錯(cuò)率也最低 (表4)。造成這種現(xiàn)象的主要原因是12S、16S序列種間遺傳距離為0的物種數(shù)是COI的2~3倍。Miya等[17]和Bylemans等[44]的研究表明:MiFish-U引物擴(kuò)增子位于莖環(huán)結(jié)構(gòu) (Stem-loop structure) 的高變環(huán)區(qū),變異速率卻又因種而異。陳治[45]研究發(fā)現(xiàn):MiFish-U擴(kuò)增子片段呈現(xiàn)高度保守與高度變異并存的特點(diǎn),約有1/3浙江近海魚(yú)類 (46種/147種)的變異速率高于COI,甚至接近控制區(qū) (D-loop)。Milan等[18]比較MiFish-U及自行設(shè)計(jì)的NeoFish_3引物對(duì)67種淡水熱帶魚(yú)類的判別能力,認(rèn)為MiFish-U擴(kuò)增子變異不穩(wěn)定,甚至直接未對(duì)MiFish-U提出種間差異閾值。當(dāng)研究區(qū)域和類群不同時(shí),12S種間差異閾值可能會(huì)有所變動(dòng)。這種種間差異閾值的不穩(wěn)定性,可能是影響MiFish-U引物廣泛應(yīng)用的一個(gè)重要負(fù)面因素。
Milan等[18]基于NJ系統(tǒng)發(fā)育樹(shù)確定的NeoFish_3最佳種間差異閾值為0.55%,物種判定準(zhǔn)確率為91.04% (61種/67種)。本研究3種條形碼閾值及判別準(zhǔn)確率與之接近。這表明受擴(kuò)增子長(zhǎng)度的限制,環(huán)境DNA宏條形碼的種間差異閾值可能都比較小,在1%以下;同時(shí)受制于魚(yú)類自身的遺傳特性,該技術(shù)從源頭上就難以對(duì)魚(yú)類進(jìn)行100%區(qū)分[14,17,43]。不應(yīng)過(guò)分夸大種間差異閾值及環(huán)境DNA宏條形碼技術(shù)的物種判別能力。
本研究結(jié)論如下:1) 自建數(shù)據(jù)庫(kù)在序列注釋準(zhǔn)確性上顯著高于公共數(shù)據(jù)庫(kù),但仍需要以公共數(shù)據(jù)庫(kù)為補(bǔ)充;2) COI、16S的物種判別能力高于12S;3) 建議使用 0.006 9 (COI) 、0.007 5 (16S) 和0.005 6 (12S) 作為海南島淡水魚(yú)類環(huán)境 DNA 宏條形碼研究的種間差異閾值。