亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        緬甸植物多樣性數(shù)據(jù)集

        2018-11-17 07:18:20何延彪莊會富王雨華
        關鍵詞:數(shù)據(jù)量數(shù)據(jù)源名錄

        何延彪,莊會富,王雨華*

        1.中國科學院昆明植物研究所,科技信息中心,昆明 650201

        數(shù)據(jù)庫(集)基本信息簡介

        數(shù)據(jù)庫(集)名稱 緬甸植物多樣性數(shù)據(jù)集數(shù)據(jù)作者 何延彪、莊會富、王雨華數(shù)據(jù)通信作者 王雨華(wangyuhua@mail.kib.ac.cn)數(shù)據(jù)時間范圍 1800~2017年地理區(qū)域 緬甸及周邊區(qū)域數(shù)據(jù)量 2 GB,合計總數(shù)據(jù)量45.73萬條數(shù)據(jù)格式 結(jié)構(gòu)化文本數(shù)據(jù)數(shù)據(jù)服務系統(tǒng)網(wǎng)址 http://210.72.88.243 http://www.sciencedb.cn/dataSet/handle/499基金項目 國家科技基礎性工作專項(2013FY112600)數(shù)據(jù)庫(集)組成緬甸生物多樣性數(shù)據(jù)集由 8部分整合而成,參考的數(shù)據(jù)源分別是(1)BHL:Biodiversity Heritage Library—緬甸植物,數(shù)據(jù)量2 921 736條;(2)中國植物物種信息—緬甸植物,數(shù)據(jù)量2 013 806條;(3)中國種子植物—緬甸植物,數(shù)據(jù)量15 842條;(4)Smithsonian Institution—緬甸植物,數(shù)據(jù)量 14 473條;(5)GBIF:Global Biodiversity Information Facility—緬甸植物,數(shù)據(jù)量141 764條;(6)云南植物志—緬甸植物,數(shù)據(jù)量153 396條;(7)eFloras中的FOC,英文版《中國植物志》的緬甸植物,數(shù)據(jù)量5 254條;(8)Tropicos—緬甸植物,數(shù)據(jù)量14 589條。以記載緬甸有分布為原則對上述數(shù)據(jù)源進行清洗和整合,完成緬甸植物多樣性數(shù)據(jù)集,共有45.73萬條數(shù)據(jù)。

        引 言

        緬甸聯(lián)邦共和國(簡稱緬甸)地處東南亞,是全球重要的生物多樣性熱點地區(qū),也是全球生物多樣性保護和研究的熱點地區(qū)之一[1]。關于緬甸生物多樣性的研究由來已久,形成了大量文獻資料、科學數(shù)據(jù)記載[2],但因平臺多、信息分散,迄今為止,緬甸還沒有一部科學完整的植物名錄和相關科學數(shù)據(jù)集,這給生物多樣性保護和資源的可持續(xù)利用帶來了巨大障礙。隨著國家“一帶一路”發(fā)展倡議和中國科學院“走出去”戰(zhàn)略的持續(xù)推進,中緬雙方在植物科學領域開展了廣泛的合作。近年來成立的中國科學院東南亞生物多樣性研究中心,為實現(xiàn)緬甸在環(huán)境保護、植物資源可持續(xù)利用等方面提供科技支持。為支撐該研究中心開展植物學相關工作,中國科學院昆明植物研究所信息化團隊通過數(shù)據(jù)集成和分析,將分散在世界各信息平臺關于緬甸生物多樣的數(shù)據(jù)進行了系統(tǒng)的信息整合。收集了全球各大信息服務平臺中關于緬甸植物多樣性的數(shù)據(jù),主要包括標本記錄、歷史文獻記載、周邊區(qū)域已完成的植物志等多源信息,通過數(shù)據(jù)清洗、集成,結(jié)合物種區(qū)系分布,深度整合形成了緬甸植物多樣性數(shù)據(jù)集,將為后續(xù)的緬甸植物多樣性保護、研究和資源可持續(xù)利用提供數(shù)據(jù)支撐。

        1 數(shù)據(jù)采集和處理方法

        1.1 數(shù)據(jù)源的篩選

        作為植物多樣性最為豐富的地區(qū)之一,緬甸向來是國際上植物學的研究熱點區(qū)域?;谥参飬^(qū)系與植物分布的地域分布連續(xù)性原則,項目組廣泛收集了緬甸及其臨近國家和地區(qū)的植物志、標本記錄和相關記載,如《中國植物志》[3]《Flora of China》[4]《云南植物志》[5]等,以已發(fā)表資料中記錄的“緬甸有分布”,為緬甸植物基礎名錄的確認依據(jù)。整合的資料有中國植物物種信息數(shù)據(jù)庫、iFlora信息平臺和中國種子植物數(shù)據(jù)庫(光盤版);Smithsonian Institution發(fā)布的緬甸植物名錄;eFloras中緬甸相關記載;GBIF(Global Biodiversity Information Facility)、BHL(biodiversity heritage library)等平臺上緬甸相關的植物多樣性數(shù)據(jù)[6-12]。

        1.2 基礎數(shù)據(jù)清洗與整合

        中國植物物種信息數(shù)據(jù)庫內(nèi)容涵蓋了中英文版本的中國植物志和云南植物志,通過數(shù)據(jù)庫后臺項目組整合得到了1.1萬條物種記錄。

        Smithsonian Institution—緬甸植物名錄等信息平臺的科技資料具有很高的參考價值,利用網(wǎng)絡蜘蛛技術來抓取該目標站點數(shù)據(jù),通過提取數(shù)據(jù)索引URL列表、下載網(wǎng)頁數(shù)據(jù)、解析網(wǎng)頁數(shù)據(jù)等流程獲取了1.1萬條緬甸植物名稱信息。

        GBIF:全球生物多樣性信息基礎設施,是由世界各國政府資助的開放數(shù)據(jù)研究基礎設施,旨在為任何人提供任何有關地球上所有類型生命的數(shù)據(jù)。從GBIF站點下載的緬甸植物數(shù)據(jù),是帶格式的文本數(shù)據(jù),通過專用的導入工具直接導入數(shù)據(jù)庫。在導入緬甸數(shù)據(jù)集時,使用的是PLSQL Developer數(shù)據(jù)庫客戶端附帶的文本導入器,完成了12余萬條信息的整合。詳細的數(shù)據(jù)源信息參見表1。

        表1 數(shù)據(jù)集參考的主要信息源

        1.3 提取拉丁學名索引,構(gòu)建緬甸植物參考名錄

        從結(jié)構(gòu)化文本、半結(jié)構(gòu)化的HTML格式等解析出來的相關緬甸數(shù)據(jù),會存在一些異常值、特殊標記等,需要進一步對數(shù)據(jù)進行清洗處理。對于不確定的異常數(shù)據(jù),挑出來由人工核對。從中國植物物種信息數(shù)據(jù)庫、Smithsonian Institution–緬甸植物名錄、GBIF中提取有關于緬甸的物種數(shù)據(jù),形成 3個子集。對子集的數(shù)據(jù)進行合并,合并的依據(jù)是拉丁名字段(包括屬名、種加詞、種下等級加詞)。如果是同一個拉丁名,則合并,合并之后標記來源。如果在原子集沒有對應的拉丁名,則作為新的拉丁名,并標識從而完成了GBIF、中國植物志、云南植物志、Smithsonian Institution—緬甸植物名錄等多源資料的聚合,形成相對全面的緬甸植物參考名錄。

        1.4 集成關聯(lián)數(shù)據(jù),構(gòu)建緬甸植物多樣性數(shù)據(jù)集

        數(shù)據(jù)集成關聯(lián)數(shù)據(jù)主要包括:

        (1)以拉丁名為數(shù)據(jù)集主鍵

        以上述緬甸植物參考名錄為索引,以簡化的物種Latin名稱為主鍵,關聯(lián)BHL歷史文獻數(shù)據(jù)、GBIF地理數(shù)據(jù)、植物志物種描述數(shù)據(jù)、物種經(jīng)濟利用等數(shù)據(jù),從而構(gòu)建信息全面的生物多樣性數(shù)據(jù)集。

        (2)對不同分類系統(tǒng),拉丁名為異名數(shù)據(jù)的集成

        針對數(shù)據(jù)源中存在不同分類系統(tǒng),拉丁名為異名的數(shù)據(jù)情況,本數(shù)據(jù)集做了如下處理:

        建立正名與異名對應關系數(shù)據(jù)庫,主要來自于中國植物物種信息、eFloras.org中正名與異名對應關系數(shù)據(jù),這樣可以解決數(shù)據(jù)集中使用異名的問題。

        在數(shù)據(jù)關聯(lián)處理過程中,一個物種使用拉丁異名來實現(xiàn)連接時,與拉丁正名的對應關系,轉(zhuǎn)換為通過拉丁正名來實現(xiàn)連接。

        本數(shù)據(jù)集是從物種層次集成,通過拉丁正名—異名對應關系來處理不同的數(shù)據(jù)集集成問題,所以對于使用不同分類系統(tǒng)的數(shù)據(jù)集在物種層次影響不大。

        本次收集到的拉丁正名—異名關系數(shù)據(jù)只涵蓋了部分數(shù)據(jù),今后還將收集全面正名—異名關系數(shù)據(jù),如集成來源于species2000、EOL、UBIO的正名異名關系數(shù)據(jù),可以大幅提高物種數(shù)據(jù)的集成度(通過拉丁正名或者異名來關聯(lián)集成不同數(shù)據(jù)源的數(shù)據(jù))。

        (3)拉丁名規(guī)范化處理(包括拉丁正名和拉丁異名)

        數(shù)據(jù)集集成的關鍵點在于各子數(shù)據(jù)集的拉丁名遵守同一規(guī)范。因不同的子集會有不同的拉丁名格式,有的子集里面的拉丁名屬名與種加詞之間可能有2個空格,有的是一個;有的帶有作者名,有的不帶作者名,并且作者名還完全有可能不同,可能是簡寫的,也可能是全拼的。此次集成采取的是簡化Latin名稱的辦法,只保留拉丁屬名、種加詞和種下等級加詞,最大可能保障關聯(lián)與匹配的準確性。

        整合完成的緬甸生物多樣性數(shù)據(jù)集包含物種名錄信息1.5萬條,物種描述信息1.7萬條,生物多樣性GBIF基礎數(shù)據(jù)14.17萬條,其他BHL文獻信息近30萬條,數(shù)據(jù)量約2 GB。數(shù)據(jù)集成框架如圖1。

        圖1 緬甸植物多樣性科學數(shù)據(jù)集成框架圖

        1.5 信息服務平臺的開發(fā)

        為方便科研人員查詢和下載基礎科學數(shù)據(jù),項目組完成了“緬甸植物多樣性信息平臺”站點的開發(fā),站點以一種簡單、易用、快速的方式,提供智能搜索服務(圖 2)。解決了多個數(shù)據(jù)合并后存在的數(shù)據(jù)字段及類型眾多、用戶難以選擇搜索類型的問題,增加了數(shù)據(jù)使用的易用性。同時,隨著數(shù)據(jù)用戶的反饋,以及新知識的不斷出現(xiàn),也有利于本數(shù)據(jù)集的及時更新。信息平臺提供了統(tǒng)一的搜索窗口,程序根據(jù)用戶輸入智能判斷可能的類型,并給出提示列表和搜索結(jié)果。平臺支持數(shù)據(jù)檢索、瀏覽和數(shù)據(jù)下載導出服務(需注冊)。對于 BHL、GBIF和eFloras等外部數(shù)據(jù),平臺僅提供數(shù)據(jù)鏈接,詳細數(shù)據(jù)用戶需到各平臺自行查詢。

        圖2 緬甸植物多樣性信息平臺主頁

        2 數(shù)據(jù)樣本描述

        以檢索“大百合Cardiocrinum giganteum”為例,結(jié)果頁面給出聚合的數(shù)據(jù)源列表,包括中國植物志、Flora of China、中國種子植物光盤,以及BHL、GBIF的相關數(shù)據(jù)鏈接。點擊可直接跳轉(zhuǎn)至詳細數(shù)據(jù)頁面。典型的數(shù)據(jù)其整合情況為:物種分類等級信息,包括物種的科屬種等分類登記的中文名和拉丁學名,以及信息的來源出處;物種的英文描述主要來源于Flora of China;物種的中文描述,包括生境、海拔、國內(nèi)外分布、是否引種栽培、標本情況等,詳細數(shù)據(jù)樣例參見圖3。

        3 數(shù)據(jù)質(zhì)量控制和評估

        本數(shù)據(jù)集是一個基于已發(fā)布數(shù)據(jù)源集成的應用,所以數(shù)據(jù)質(zhì)量控制,主要基于探查數(shù)據(jù)內(nèi)容、結(jié)構(gòu)和異常[2]方面著手。重點探查的過程如下:

        (1)數(shù)據(jù)異常,探查解析后的數(shù)據(jù)是否存在特殊標記,如HTML標記;

        (2)字段解析,探查解析后的字段是否與原數(shù)據(jù)源相一致,最大程度上避免在解析后數(shù)據(jù)字段丟失的情況。

        (3)隨機抽查,發(fā)現(xiàn)可能的數(shù)據(jù)問題。

        對于異常數(shù)據(jù),字段解析錯誤的數(shù)據(jù)進行了全面排查(通過排查程序和人工查驗方式),在最終集成的數(shù)據(jù)集中刪除了異常和解析錯誤數(shù)據(jù)。集成后的數(shù)據(jù)集,與原始數(shù)據(jù)源的數(shù)據(jù)保持較高的一致。同時為保護數(shù)據(jù)版權,所有外部數(shù)據(jù),在平臺上僅提供索引和鏈接,均采用鏈接的方式提供給用戶。

        通過隨機抽樣統(tǒng)計,數(shù)據(jù)質(zhì)量水平被評估為較高。通過清洗、標準化、集成整合后的數(shù)據(jù)能夠?qū)崿F(xiàn)較高的關聯(lián)度,各個數(shù)據(jù)與源數(shù)據(jù)源一致性均在95%以上。

        圖3 物種信息詳細頁面展示

        4 數(shù)據(jù)價值

        近年來,生物多樣性科學數(shù)據(jù)迅速積累,科研工作者面臨的最大問題在于如何快速、精準地獲取整合數(shù)據(jù)。海量數(shù)據(jù)分散在類型單一、離散、數(shù)據(jù)存儲異構(gòu)、標準規(guī)范不統(tǒng)一的信息平臺中。與人們需要的多類型、多維度高度集成的數(shù)據(jù)需求不相符,所以如何聚合多源科學數(shù)據(jù),并以此為基礎構(gòu)建滿足科研需求的信息服務,將是以后科學數(shù)據(jù)庫研究人員的工作重點。通過開展專業(yè)數(shù)據(jù)庫和互聯(lián)網(wǎng)信息數(shù)據(jù)的聚合,集成整合形成了緬甸植物多樣性基礎數(shù)據(jù),如歷史文獻數(shù)據(jù)(BHL數(shù)據(jù)),地理分布數(shù)據(jù)(GBIF數(shù)據(jù)、中國種子植物數(shù)據(jù)),多種類型的物種描述數(shù)據(jù)(eFloras.org物種信息、中國植物物種信息數(shù)據(jù)庫中的中國植物志、云南植物志數(shù)據(jù)),經(jīng)濟利用和保護等級名錄數(shù)據(jù)(中國植物物種信息數(shù)據(jù)庫中收錄的相關數(shù)據(jù))等,從而形成緬甸植物多樣性大數(shù)據(jù),可以初步展現(xiàn)緬甸植物物種多樣性信息,可以有效支撐科研人員在緬甸開展植物學采集、考查、研究、資源開發(fā)利用等研究工作。

        目前,國內(nèi)還很少有針對熱點地區(qū)的生物多樣性綜合科學數(shù)據(jù)集和信息服務平臺。本數(shù)據(jù)集的構(gòu)建、多數(shù)據(jù)源的集成等方法,可以為構(gòu)建其他區(qū)域性或大尺度的生物多樣性數(shù)據(jù)集提供參考。

        5 數(shù)據(jù)使用方法和建議

        本數(shù)據(jù)集和信息平臺服務網(wǎng)址為http://210.72.88.243,在Science Data Bank中的相關鏈接地址為http://www.sciencedb.cn/dataSet/handle/499。相關頁面與功能參考圖3。整合數(shù)據(jù)的下載見“資源下載”欄目,網(wǎng)址為 http://210.72.88.243/Data/DataBaseList。信息平臺后續(xù)將完善數(shù)據(jù)分析功能,旨在構(gòu)建功能完善的緬甸植物多樣性信息服務平臺。

        猜你喜歡
        數(shù)據(jù)量數(shù)據(jù)源名錄
        2022.3上榜派出所名錄
        派出所工作(2022年3期)2022-04-14 07:37:18
        基于大數(shù)據(jù)量的初至層析成像算法優(yōu)化
        計算Lyapunov指數(shù)的模糊C均值聚類小數(shù)據(jù)量法
        高刷新率不容易顯示器需求與接口標準帶寬
        寬帶信號采集與大數(shù)據(jù)量傳輸系統(tǒng)設計與研究
        電子制作(2019年13期)2020-01-14 03:15:18
        同賀名錄
        作者名錄
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        生產(chǎn)商名錄
        基于不同網(wǎng)絡數(shù)據(jù)源的期刊評價研究
        一本久久精品久久综合| 亚洲区在线| 91精品久久久久含羞草| 91麻豆精品激情在线观最新| 国内久久婷婷六月综合欲色啪| 青春草在线视频免费观看| 亚洲肥老熟妇四十五十路在线| 麻豆国产VA免费精品高清在线| 青青青爽在线视频免费播放| 国内精品久久久久影院优| 色悠久久久久综合欧美99| 国产精品白浆无码流出 | 亚洲av日韩av天堂久久不卡| 亚洲乱码中文字幕在线| 久久精品国产色蜜蜜麻豆| 亚洲欧美日韩精品高清| 久久一区av蜜桃人妻| 久久久人妻一区二区三区蜜桃d| 国产aⅴ无码专区亚洲av| 亚洲av男人的天堂在线观看| 精品免费一区二区三区在| 极品少妇一区二区三区四区视频 | 欧美日韩精品一区二区在线观看| 国产精品黄色片在线观看| 午夜免费观看一区二区三区| 少妇被又大又粗又爽毛片久久黑人| 欧美尺寸又黑又粗又长| 人妻无码人妻有码不卡| 国产av熟女一区二区三区密桃| 人妻体内射精一区二区三四| 久久国产自偷自免费一区100| 少妇裸淫交视频免费看| 蜜桃精品人妻一区二区三区| 亚洲精品乱码久久久久久日本蜜臀| 亚洲AV无码一区二区三区ba | 久久久精品亚洲一区二区国产av | 粉嫩国产av一区二区三区| 一区二区三区在线 | 欧| 精品国偷自产在线不卡短视频| 96中文字幕一区二区| 真实人与人性恔配视频|