何延彪,莊會富,王雨華*
1.中國科學院昆明植物研究所,科技信息中心,昆明 650201
數(shù)據(jù)庫(集)基本信息簡介
數(shù)據(jù)庫(集)名稱 緬甸植物多樣性數(shù)據(jù)集數(shù)據(jù)作者 何延彪、莊會富、王雨華數(shù)據(jù)通信作者 王雨華(wangyuhua@mail.kib.ac.cn)數(shù)據(jù)時間范圍 1800~2017年地理區(qū)域 緬甸及周邊區(qū)域數(shù)據(jù)量 2 GB,合計總數(shù)據(jù)量45.73萬條數(shù)據(jù)格式 結(jié)構(gòu)化文本數(shù)據(jù)數(shù)據(jù)服務系統(tǒng)網(wǎng)址 http://210.72.88.243 http://www.sciencedb.cn/dataSet/handle/499基金項目 國家科技基礎性工作專項(2013FY112600)數(shù)據(jù)庫(集)組成緬甸生物多樣性數(shù)據(jù)集由 8部分整合而成,參考的數(shù)據(jù)源分別是(1)BHL:Biodiversity Heritage Library—緬甸植物,數(shù)據(jù)量2 921 736條;(2)中國植物物種信息—緬甸植物,數(shù)據(jù)量2 013 806條;(3)中國種子植物—緬甸植物,數(shù)據(jù)量15 842條;(4)Smithsonian Institution—緬甸植物,數(shù)據(jù)量 14 473條;(5)GBIF:Global Biodiversity Information Facility—緬甸植物,數(shù)據(jù)量141 764條;(6)云南植物志—緬甸植物,數(shù)據(jù)量153 396條;(7)eFloras中的FOC,英文版《中國植物志》的緬甸植物,數(shù)據(jù)量5 254條;(8)Tropicos—緬甸植物,數(shù)據(jù)量14 589條。以記載緬甸有分布為原則對上述數(shù)據(jù)源進行清洗和整合,完成緬甸植物多樣性數(shù)據(jù)集,共有45.73萬條數(shù)據(jù)。
緬甸聯(lián)邦共和國(簡稱緬甸)地處東南亞,是全球重要的生物多樣性熱點地區(qū),也是全球生物多樣性保護和研究的熱點地區(qū)之一[1]。關于緬甸生物多樣性的研究由來已久,形成了大量文獻資料、科學數(shù)據(jù)記載[2],但因平臺多、信息分散,迄今為止,緬甸還沒有一部科學完整的植物名錄和相關科學數(shù)據(jù)集,這給生物多樣性保護和資源的可持續(xù)利用帶來了巨大障礙。隨著國家“一帶一路”發(fā)展倡議和中國科學院“走出去”戰(zhàn)略的持續(xù)推進,中緬雙方在植物科學領域開展了廣泛的合作。近年來成立的中國科學院東南亞生物多樣性研究中心,為實現(xiàn)緬甸在環(huán)境保護、植物資源可持續(xù)利用等方面提供科技支持。為支撐該研究中心開展植物學相關工作,中國科學院昆明植物研究所信息化團隊通過數(shù)據(jù)集成和分析,將分散在世界各信息平臺關于緬甸生物多樣的數(shù)據(jù)進行了系統(tǒng)的信息整合。收集了全球各大信息服務平臺中關于緬甸植物多樣性的數(shù)據(jù),主要包括標本記錄、歷史文獻記載、周邊區(qū)域已完成的植物志等多源信息,通過數(shù)據(jù)清洗、集成,結(jié)合物種區(qū)系分布,深度整合形成了緬甸植物多樣性數(shù)據(jù)集,將為后續(xù)的緬甸植物多樣性保護、研究和資源可持續(xù)利用提供數(shù)據(jù)支撐。
作為植物多樣性最為豐富的地區(qū)之一,緬甸向來是國際上植物學的研究熱點區(qū)域?;谥参飬^(qū)系與植物分布的地域分布連續(xù)性原則,項目組廣泛收集了緬甸及其臨近國家和地區(qū)的植物志、標本記錄和相關記載,如《中國植物志》[3]《Flora of China》[4]《云南植物志》[5]等,以已發(fā)表資料中記錄的“緬甸有分布”,為緬甸植物基礎名錄的確認依據(jù)。整合的資料有中國植物物種信息數(shù)據(jù)庫、iFlora信息平臺和中國種子植物數(shù)據(jù)庫(光盤版);Smithsonian Institution發(fā)布的緬甸植物名錄;eFloras中緬甸相關記載;GBIF(Global Biodiversity Information Facility)、BHL(biodiversity heritage library)等平臺上緬甸相關的植物多樣性數(shù)據(jù)[6-12]。
中國植物物種信息數(shù)據(jù)庫內(nèi)容涵蓋了中英文版本的中國植物志和云南植物志,通過數(shù)據(jù)庫后臺項目組整合得到了1.1萬條物種記錄。
Smithsonian Institution—緬甸植物名錄等信息平臺的科技資料具有很高的參考價值,利用網(wǎng)絡蜘蛛技術來抓取該目標站點數(shù)據(jù),通過提取數(shù)據(jù)索引URL列表、下載網(wǎng)頁數(shù)據(jù)、解析網(wǎng)頁數(shù)據(jù)等流程獲取了1.1萬條緬甸植物名稱信息。
GBIF:全球生物多樣性信息基礎設施,是由世界各國政府資助的開放數(shù)據(jù)研究基礎設施,旨在為任何人提供任何有關地球上所有類型生命的數(shù)據(jù)。從GBIF站點下載的緬甸植物數(shù)據(jù),是帶格式的文本數(shù)據(jù),通過專用的導入工具直接導入數(shù)據(jù)庫。在導入緬甸數(shù)據(jù)集時,使用的是PLSQL Developer數(shù)據(jù)庫客戶端附帶的文本導入器,完成了12余萬條信息的整合。詳細的數(shù)據(jù)源信息參見表1。
表1 數(shù)據(jù)集參考的主要信息源
從結(jié)構(gòu)化文本、半結(jié)構(gòu)化的HTML格式等解析出來的相關緬甸數(shù)據(jù),會存在一些異常值、特殊標記等,需要進一步對數(shù)據(jù)進行清洗處理。對于不確定的異常數(shù)據(jù),挑出來由人工核對。從中國植物物種信息數(shù)據(jù)庫、Smithsonian Institution–緬甸植物名錄、GBIF中提取有關于緬甸的物種數(shù)據(jù),形成 3個子集。對子集的數(shù)據(jù)進行合并,合并的依據(jù)是拉丁名字段(包括屬名、種加詞、種下等級加詞)。如果是同一個拉丁名,則合并,合并之后標記來源。如果在原子集沒有對應的拉丁名,則作為新的拉丁名,并標識從而完成了GBIF、中國植物志、云南植物志、Smithsonian Institution—緬甸植物名錄等多源資料的聚合,形成相對全面的緬甸植物參考名錄。
數(shù)據(jù)集成關聯(lián)數(shù)據(jù)主要包括:
(1)以拉丁名為數(shù)據(jù)集主鍵
以上述緬甸植物參考名錄為索引,以簡化的物種Latin名稱為主鍵,關聯(lián)BHL歷史文獻數(shù)據(jù)、GBIF地理數(shù)據(jù)、植物志物種描述數(shù)據(jù)、物種經(jīng)濟利用等數(shù)據(jù),從而構(gòu)建信息全面的生物多樣性數(shù)據(jù)集。
(2)對不同分類系統(tǒng),拉丁名為異名數(shù)據(jù)的集成
針對數(shù)據(jù)源中存在不同分類系統(tǒng),拉丁名為異名的數(shù)據(jù)情況,本數(shù)據(jù)集做了如下處理:
建立正名與異名對應關系數(shù)據(jù)庫,主要來自于中國植物物種信息、eFloras.org中正名與異名對應關系數(shù)據(jù),這樣可以解決數(shù)據(jù)集中使用異名的問題。
在數(shù)據(jù)關聯(lián)處理過程中,一個物種使用拉丁異名來實現(xiàn)連接時,與拉丁正名的對應關系,轉(zhuǎn)換為通過拉丁正名來實現(xiàn)連接。
本數(shù)據(jù)集是從物種層次集成,通過拉丁正名—異名對應關系來處理不同的數(shù)據(jù)集集成問題,所以對于使用不同分類系統(tǒng)的數(shù)據(jù)集在物種層次影響不大。
本次收集到的拉丁正名—異名關系數(shù)據(jù)只涵蓋了部分數(shù)據(jù),今后還將收集全面正名—異名關系數(shù)據(jù),如集成來源于species2000、EOL、UBIO的正名異名關系數(shù)據(jù),可以大幅提高物種數(shù)據(jù)的集成度(通過拉丁正名或者異名來關聯(lián)集成不同數(shù)據(jù)源的數(shù)據(jù))。
(3)拉丁名規(guī)范化處理(包括拉丁正名和拉丁異名)
數(shù)據(jù)集集成的關鍵點在于各子數(shù)據(jù)集的拉丁名遵守同一規(guī)范。因不同的子集會有不同的拉丁名格式,有的子集里面的拉丁名屬名與種加詞之間可能有2個空格,有的是一個;有的帶有作者名,有的不帶作者名,并且作者名還完全有可能不同,可能是簡寫的,也可能是全拼的。此次集成采取的是簡化Latin名稱的辦法,只保留拉丁屬名、種加詞和種下等級加詞,最大可能保障關聯(lián)與匹配的準確性。
整合完成的緬甸生物多樣性數(shù)據(jù)集包含物種名錄信息1.5萬條,物種描述信息1.7萬條,生物多樣性GBIF基礎數(shù)據(jù)14.17萬條,其他BHL文獻信息近30萬條,數(shù)據(jù)量約2 GB。數(shù)據(jù)集成框架如圖1。
圖1 緬甸植物多樣性科學數(shù)據(jù)集成框架圖
為方便科研人員查詢和下載基礎科學數(shù)據(jù),項目組完成了“緬甸植物多樣性信息平臺”站點的開發(fā),站點以一種簡單、易用、快速的方式,提供智能搜索服務(圖 2)。解決了多個數(shù)據(jù)合并后存在的數(shù)據(jù)字段及類型眾多、用戶難以選擇搜索類型的問題,增加了數(shù)據(jù)使用的易用性。同時,隨著數(shù)據(jù)用戶的反饋,以及新知識的不斷出現(xiàn),也有利于本數(shù)據(jù)集的及時更新。信息平臺提供了統(tǒng)一的搜索窗口,程序根據(jù)用戶輸入智能判斷可能的類型,并給出提示列表和搜索結(jié)果。平臺支持數(shù)據(jù)檢索、瀏覽和數(shù)據(jù)下載導出服務(需注冊)。對于 BHL、GBIF和eFloras等外部數(shù)據(jù),平臺僅提供數(shù)據(jù)鏈接,詳細數(shù)據(jù)用戶需到各平臺自行查詢。
圖2 緬甸植物多樣性信息平臺主頁
以檢索“大百合Cardiocrinum giganteum”為例,結(jié)果頁面給出聚合的數(shù)據(jù)源列表,包括中國植物志、Flora of China、中國種子植物光盤,以及BHL、GBIF的相關數(shù)據(jù)鏈接。點擊可直接跳轉(zhuǎn)至詳細數(shù)據(jù)頁面。典型的數(shù)據(jù)其整合情況為:物種分類等級信息,包括物種的科屬種等分類登記的中文名和拉丁學名,以及信息的來源出處;物種的英文描述主要來源于Flora of China;物種的中文描述,包括生境、海拔、國內(nèi)外分布、是否引種栽培、標本情況等,詳細數(shù)據(jù)樣例參見圖3。
本數(shù)據(jù)集是一個基于已發(fā)布數(shù)據(jù)源集成的應用,所以數(shù)據(jù)質(zhì)量控制,主要基于探查數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和異常[2]方面著手。重點探查的過程如下:
(1)數(shù)據(jù)異常,探查解析后的數(shù)據(jù)是否存在特殊標記,如HTML標記;
(2)字段解析,探查解析后的字段是否與原數(shù)據(jù)源相一致,最大程度上避免在解析后數(shù)據(jù)字段丟失的情況。
(3)隨機抽查,發(fā)現(xiàn)可能的數(shù)據(jù)問題。
對于異常數(shù)據(jù),字段解析錯誤的數(shù)據(jù)進行了全面排查(通過排查程序和人工查驗方式),在最終集成的數(shù)據(jù)集中刪除了異常和解析錯誤數(shù)據(jù)。集成后的數(shù)據(jù)集,與原始數(shù)據(jù)源的數(shù)據(jù)保持較高的一致。同時為保護數(shù)據(jù)版權,所有外部數(shù)據(jù),在平臺上僅提供索引和鏈接,均采用鏈接的方式提供給用戶。
通過隨機抽樣統(tǒng)計,數(shù)據(jù)質(zhì)量水平被評估為較高。通過清洗、標準化、集成整合后的數(shù)據(jù)能夠?qū)崿F(xiàn)較高的關聯(lián)度,各個數(shù)據(jù)與源數(shù)據(jù)源一致性均在95%以上。
圖3 物種信息詳細頁面展示
近年來,生物多樣性科學數(shù)據(jù)迅速積累,科研工作者面臨的最大問題在于如何快速、精準地獲取整合數(shù)據(jù)。海量數(shù)據(jù)分散在類型單一、離散、數(shù)據(jù)存儲異構(gòu)、標準規(guī)范不統(tǒng)一的信息平臺中。與人們需要的多類型、多維度高度集成的數(shù)據(jù)需求不相符,所以如何聚合多源科學數(shù)據(jù),并以此為基礎構(gòu)建滿足科研需求的信息服務,將是以后科學數(shù)據(jù)庫研究人員的工作重點。通過開展專業(yè)數(shù)據(jù)庫和互聯(lián)網(wǎng)信息數(shù)據(jù)的聚合,集成整合形成了緬甸植物多樣性基礎數(shù)據(jù),如歷史文獻數(shù)據(jù)(BHL數(shù)據(jù)),地理分布數(shù)據(jù)(GBIF數(shù)據(jù)、中國種子植物數(shù)據(jù)),多種類型的物種描述數(shù)據(jù)(eFloras.org物種信息、中國植物物種信息數(shù)據(jù)庫中的中國植物志、云南植物志數(shù)據(jù)),經(jīng)濟利用和保護等級名錄數(shù)據(jù)(中國植物物種信息數(shù)據(jù)庫中收錄的相關數(shù)據(jù))等,從而形成緬甸植物多樣性大數(shù)據(jù),可以初步展現(xiàn)緬甸植物物種多樣性信息,可以有效支撐科研人員在緬甸開展植物學采集、考查、研究、資源開發(fā)利用等研究工作。
目前,國內(nèi)還很少有針對熱點地區(qū)的生物多樣性綜合科學數(shù)據(jù)集和信息服務平臺。本數(shù)據(jù)集的構(gòu)建、多數(shù)據(jù)源的集成等方法,可以為構(gòu)建其他區(qū)域性或大尺度的生物多樣性數(shù)據(jù)集提供參考。
本數(shù)據(jù)集和信息平臺服務網(wǎng)址為http://210.72.88.243,在Science Data Bank中的相關鏈接地址為http://www.sciencedb.cn/dataSet/handle/499。相關頁面與功能參考圖3。整合數(shù)據(jù)的下載見“資源下載”欄目,網(wǎng)址為 http://210.72.88.243/Data/DataBaseList。信息平臺后續(xù)將完善數(shù)據(jù)分析功能,旨在構(gòu)建功能完善的緬甸植物多樣性信息服務平臺。