亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范的設計

        2019-10-23 03:15:38劉一依王世民瓊2飛2胡建平2沈麗寧
        中華醫(yī)學圖書情報雜志 2019年7期
        關(guān)鍵詞:人類基因遺傳變異基因組

        劉一依,王世民,武 瓊2,趙 飛2,胡建平2,沈麗寧

        生物基因數(shù)據(jù)是21世紀重要的國家戰(zhàn)略資源。隨著精準醫(yī)學時代的到來,產(chǎn)生了大量的基因測序數(shù)據(jù)。精準醫(yī)學的核心思想是根據(jù)患者的生物學信息和患者自身所具備的特點,采用特定的醫(yī)療方法對患者實施治療[1]。由于每個機構(gòu)在管理基因數(shù)據(jù)時采用不同的基因數(shù)據(jù)庫元數(shù)據(jù)方案,所以導致基因數(shù)據(jù)在不同機構(gòu)之間難以共享[2]。元數(shù)據(jù)即描述數(shù)據(jù)的數(shù)據(jù)[3]。數(shù)據(jù)庫是以某種方式存儲在計算機內(nèi)、能分享給多個用戶且重復存儲較小的數(shù)據(jù)的集合[4]。元數(shù)據(jù)的功能主要包括挖掘信息、組織信息、實現(xiàn)信息互操作、辨識信息和存儲信息[5]。元數(shù)據(jù)規(guī)范能為數(shù)據(jù)的采集和存儲提供支持,是數(shù)據(jù)庫建設前期的基礎(chǔ)性工作之一,建立元數(shù)據(jù)規(guī)范的目的是建立數(shù)據(jù)庫。

        美國、歐洲、日本均建立了各自的人類基因數(shù)據(jù)庫。國外人類基因數(shù)據(jù)庫的元數(shù)據(jù)比較成熟,對我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范的設計有很重要的借鑒意義?;蛐畔①Y源是我國重要的人類遺傳資源,關(guān)系到國家戰(zhàn)略安全,而我國人類基因數(shù)據(jù)庫尚未建成[6],人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范也不健全。雖然國外人類基因數(shù)據(jù)庫的元數(shù)據(jù)比較成熟,但不同類別基因數(shù)據(jù)庫中每個數(shù)據(jù)庫的元數(shù)據(jù)有一定的差異性,難以直接借鑒。為了保障我國人類基因信息安全和健全我國人類基因數(shù)據(jù)庫建設標準,本文在調(diào)查分析國內(nèi)外人類基因數(shù)據(jù)庫元數(shù)據(jù)現(xiàn)狀的基礎(chǔ)上,設計了我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。

        1 國內(nèi)外人類基因數(shù)據(jù)庫建設現(xiàn)狀

        1.1 人類基因數(shù)據(jù)庫分類

        人類基因數(shù)據(jù)庫主要分為核酸序列類數(shù)據(jù)庫、基因組數(shù)據(jù)庫、疾病與遺傳變異數(shù)據(jù)庫三大類[7]。核酸序列類數(shù)據(jù)庫包括核糖核酸(Ribonucleic Acid,RNA)和脫氧核糖核酸(Deoxyribonucleic Acid,DNA)的相關(guān)信息,DNA和RNA都能儲存遺傳信息;基因組數(shù)據(jù)庫儲存了基因組相關(guān)信息,其中基因組包含了細胞內(nèi)所有的遺傳信息;疾病與遺傳變異數(shù)據(jù)庫包含了與基因有關(guān)的疾病與遺傳變異信息。除外傷外,大部分的疾病都和基因有密切關(guān)聯(lián)。通過遺傳而攜帶的有問題的基因、后天發(fā)生變異的基因以及個體生活習慣等對正?;虻挠绊懯菍е录膊〉娜蟾驹騕8]。

        1.2 國外人類基因數(shù)據(jù)庫建設現(xiàn)狀

        1.2.1 核酸序列類數(shù)據(jù)庫

        核酸序列數(shù)據(jù)庫主要包括Genbank數(shù)據(jù)庫[9]、EMBL數(shù)據(jù)庫[10]和DDBJ數(shù)據(jù)庫[11]。其中,Genbank數(shù)據(jù)庫的元數(shù)據(jù)主要包括基因編號、基因的關(guān)鍵詞、基因相關(guān)文獻信息、基因的生物學描述等,基因編號是該序列唯一的編號,基因的關(guān)鍵詞包括該序列的基因產(chǎn)物等信息,基因相關(guān)文獻信息包括基因相關(guān)文獻的作者、題目、刊名等信息,基因的生物學描述包括基因的來源、重復序列等信息。EMBL數(shù)據(jù)庫和DDBJ數(shù)據(jù)庫的元數(shù)據(jù)內(nèi)容與Genbank數(shù)據(jù)庫類似。

        1.2.2 基因組數(shù)據(jù)庫

        本文調(diào)研了Genome數(shù)據(jù)庫[12]和UCSC Genome Browser數(shù)據(jù)庫[13]。這兩個數(shù)據(jù)庫都提供了能檢索及可視化瀏覽人類基因組注釋信息的人類基因組注釋系統(tǒng)。Genome數(shù)據(jù)庫的元數(shù)據(jù)除了包含基因組注釋信息以外,還包含基因所在染色體的名稱、參考序列編號和基因組的生物學描述等信息。

        1.2.3 疾病與遺傳變異數(shù)據(jù)庫

        本文調(diào)研了在線人類孟德爾遺傳數(shù)據(jù)庫(Online Mendelian Inheritance in Man,OMIM)[14]、單核苷酸多態(tài)性數(shù)據(jù)庫(Database of Single Nuleotide Polymorphisms,dbSNP)[15]、基因組結(jié)構(gòu)變異數(shù)據(jù)庫(Database of Genomic Structural Variation,dbVar)[16]和人類基因變異數(shù)據(jù)庫(Human Genome Variation Database,HGV Database)[17]。

        在線人類孟德爾遺傳數(shù)據(jù)庫包含了人類基因突變的信息,其元數(shù)據(jù)包括基因編號、標題、基因相關(guān)文獻信息、基因相關(guān)生物學信息、貢獻者、提交日期、編輯歷史等。其中生物學信息包括表型基因關(guān)系、臨床概要和臨床特征等信息。

        單核苷酸多態(tài)性數(shù)據(jù)庫主要收錄與人類疾病相關(guān)的基因突變信息,包括小規(guī)模遺傳變異、小規(guī)模多堿基缺失等[18],其元數(shù)據(jù)包括基因編號、基因相關(guān)生物學信息、提交記錄等。其中基因相關(guān)生物學信息包括位點、等位基因、變異類型等信息。

        基因組結(jié)構(gòu)變異數(shù)據(jù)庫主要收錄較大規(guī)模的基因組變異信息,包括大片段的插入、缺失、異位、倒置和拷貝數(shù)多態(tài)等信息,其元數(shù)據(jù)包括編號、研究ID、基因相關(guān)生物學信息、提交時間等。其中基因相關(guān)生物學信息包括變異類型、所在染色體等信息。

        人類基因變異數(shù)據(jù)庫包含基因變異信息,其元數(shù)據(jù)包括編號、名稱、基因相關(guān)生物學信息等。其中基因相關(guān)生物學信息包括變異類型、相關(guān)疾病、表型等信息。

        1.3 國內(nèi)人類基因數(shù)據(jù)庫建設現(xiàn)狀

        生命科學已經(jīng)進入大數(shù)據(jù)時代,然而我國缺乏存儲基因數(shù)據(jù)的公共平臺。為順應時代的發(fā)展,中國科學院北京基因組研究所開發(fā)并建設了組學原始數(shù)據(jù)歸檔系統(tǒng)(Genome Sequence Archive,GSA)[19-20]。GSA屬于核酸序列類數(shù)據(jù)庫,其元數(shù)據(jù)主要包括GSA編號、樣本信息、測序反應信息、測序反應序列文件信息等。其中樣本信息包括樣本編號、樣本名稱、樣本類型、貢獻者信息、發(fā)布日期、提交者、提交日期等。

        2 設計我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范的必要性

        2.1 保障我國人類基因信息安全

        隨著基因技術(shù)的不斷進步,基因測序的成本越來越低,獲取基因信息的成本將會逐步降低,從而產(chǎn)生了大量的人類基因信息。人類基因信息是我國重要的遺傳資源,人類基因信息安全是國家戰(zhàn)略安全的重要組成部分。人類基因信息包含人的性格、智力、患某種疾病概率等信息,應加強我國人類基因信息安全管理,避免我國人類基因信息的外泄。為了規(guī)范我國人類遺傳資源的管理,我國先后發(fā)布了《人類遺傳資源管理暫行辦法》和《人類遺傳資源采集、收集、買賣、出口、出境審批行政許可事項服務指南》。建立本土的人類基因數(shù)據(jù)庫可儲存我國人類基因信息,確保我國人類基因信息安全,而我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范是我國人類基因數(shù)據(jù)采集和儲存的基礎(chǔ)性的技術(shù)規(guī)范。

        2.2 健全我國人類基因數(shù)據(jù)庫建設標準

        人類基因數(shù)據(jù)庫建設標準是人類基因數(shù)據(jù)庫建設的重要內(nèi)容。與國外人類基因數(shù)據(jù)庫元數(shù)據(jù)相比,國內(nèi)人類基因數(shù)據(jù)庫元數(shù)據(jù)包含的內(nèi)容較少,不能滿足未來對基因數(shù)據(jù)的應用需求。雖然國外人類基因數(shù)據(jù)庫元數(shù)據(jù)已經(jīng)比較成熟,但是每個國家各自的數(shù)據(jù)庫是根據(jù)自身不同需求建立的,每類基因數(shù)據(jù)庫中每個庫的元數(shù)據(jù)都不盡相同。因此我國在建立人類基因數(shù)據(jù)庫時,難以確定遵循哪個數(shù)據(jù)庫的元數(shù)據(jù)。

        我國幅員遼闊,人口和民族眾多,生物資源非常豐富。隨著測序技術(shù)的進步和生物數(shù)據(jù)急劇增長,政府也制定了一些標準。國內(nèi)目前已發(fā)布標準有國家標準《生物信息學術(shù)語》(GB-T-29859-2013)和地方標準《生物基因信息數(shù)據(jù)庫建設與管理規(guī)范》(SZDB/Z 92-2014)。但是,上述兩個標準都沒有規(guī)定人類基因數(shù)據(jù)庫元數(shù)據(jù)的具體內(nèi)容,所以我國亟需建立人類基因數(shù)據(jù)庫元數(shù)據(jù)標準。

        3 我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范設計

        通過文獻調(diào)查和網(wǎng)站檢索等方法,調(diào)研了國內(nèi)外核酸序列類數(shù)據(jù)庫、基因組數(shù)據(jù)庫、疾病與遺傳變異數(shù)據(jù)庫,并從標識維度、關(guān)系維度、文獻維度、內(nèi)容維度和管理維度設計了不同類型基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范[21]。

        3.1 核酸序列類數(shù)據(jù)庫元數(shù)據(jù)規(guī)范設計

        通過綜合以上核酸序列類數(shù)據(jù)庫元數(shù)據(jù),得出核酸序列類數(shù)據(jù)庫元數(shù)據(jù)主要包括基因編號、基因的關(guān)鍵詞、基因相關(guān)文獻信息、基因的生物學描述等;然后遵循簡潔、實用、準確的原則,設計了核酸序列數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。將核酸序列類數(shù)據(jù)庫的元數(shù)據(jù)分為標識維度、關(guān)系維度、文獻維度和內(nèi)容維度。核酸序列類數(shù)據(jù)庫數(shù)據(jù)元模型見圖1。其中,標識維度是對基因標識信息的描述,關(guān)系維度是對基因相關(guān)的關(guān)鍵詞信息的描述,文獻維度是對基因相關(guān)聯(lián)的文獻信息的描述,內(nèi)容維度是對基因相關(guān)生物學信息的描述。每個維度所包含的元數(shù)據(jù)項見表1。

        圖1 核酸序列類數(shù)據(jù)庫數(shù)據(jù)元基本屬性模型

        維度 元數(shù)據(jù) 說明是否可選標識維度 編號(Accession)具有唯一性和永久性必選版本(Version)代表版本號,編號后加小數(shù)點和整數(shù)可選關(guān)系維度關(guān)鍵詞(Keywords)由該序列的提交者提供,描述該基因的關(guān)鍵詞可選文獻維度參考文獻編號(Reference Number)無可選 作者(Authors)無可選標題(Title)無可選雜志名(Journal)無可選評論(Comment)用戶關(guān)于此條序列的評論 可選超文本鏈接(Hypertext Link)點擊即可直接調(diào)用上述文獻摘要可選內(nèi)容維度說明(Definition)有關(guān)該序列的簡單描述必選數(shù)據(jù)來源(Source)說明該序列的生物體來源和組織來源 必選種屬(Organism) 指出該生物體的分類學地位 必選細胞器(Organelle)該基因是否在某一個特殊的細胞器中必選重復序列(Repeat_Region)基因中所包含的重復序列 必選原序列(Origin)堿基序列必選

        3.2 基因組數(shù)據(jù)庫元數(shù)據(jù)規(guī)范設計

        通過綜合以上基因組數(shù)據(jù)庫元數(shù)據(jù),得出基因組數(shù)據(jù)庫元數(shù)據(jù)主要包括基因所在染色體名稱、參考序列編號、基因組的生物學描述、基因組注釋信息等;然后設計了基因組數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。將基因組數(shù)據(jù)庫元數(shù)據(jù)分為標識維度、內(nèi)容維度和基因組注釋維度?;蚪M數(shù)據(jù)庫數(shù)據(jù)元模型見圖2。其中,標識維度是對基因組標識信息的描述,內(nèi)容維度是對基因組相關(guān)生物學信息的描述,基因組注釋維度是對基因組注釋信息的描述。每個維度包含的元數(shù)據(jù)項見表2。國外基因組數(shù)據(jù)庫的數(shù)據(jù)中,對于基因組注釋維度的幾個方面數(shù)據(jù)有更詳細的描述。

        圖2 基因組數(shù)據(jù)庫數(shù)據(jù)元基本屬性模型

        維度 元數(shù)據(jù)項 說明是否可選 標識維度染色體名稱(Name) 無 必選參考序列編號(Refseq) 無 必選內(nèi)容維度GC含量(GC%)五個堿基內(nèi)GC的比例 可選蛋白質(zhì) (Protein) 蛋白質(zhì)數(shù)量 可選核糖體RNA(rRNA) 核糖體RNA的數(shù)量 可選轉(zhuǎn)運RNA (tRNA) 轉(zhuǎn)運RNA的數(shù)量可選其他RNA(Other RNA)其他RNA的數(shù)量可選基因(Gene) 基因的數(shù)量 可選假基因(Pseudogene)假基因的數(shù)量 可選基因組注釋維度比對和序列(Mapping and Sequencing) 無 必選基因和基因預測(Genes and Gene Predictions)無 必選表型和文獻(Phenotype and Literature)無 必選轉(zhuǎn)錄RNA和表達序列標簽(mRNA and EST)無 必選表達(Expression) 無 必選調(diào)節(jié)(Regulation) 無 必選比較基因組(Comparative Genomics) 無 必選變異(Variation) 無 必選重復序列(Repeats) 無 必選

        3.3 疾病與遺傳變異數(shù)據(jù)庫元數(shù)據(jù)規(guī)范設計

        通過綜合以上疾病與遺傳變異數(shù)據(jù)庫元數(shù)據(jù),得出疾病與遺傳變異數(shù)據(jù)庫元數(shù)據(jù)主要包括編號、標題、基因相關(guān)生物學信息、提交時間、編輯歷史等;根據(jù)實用性原則,結(jié)合我國實際情況設計了疾病與遺傳變異數(shù)據(jù)庫元數(shù)據(jù)規(guī)范。將疾病與遺傳變異數(shù)據(jù)庫涉及到的元數(shù)據(jù)分為標識維度、內(nèi)容維度和管理維度。疾病與遺傳變異數(shù)據(jù)庫數(shù)據(jù)元模型見圖3。其中,標識維度是對基因標識信息的描述,內(nèi)容維度是對基因相關(guān)生物學信息的描述,管理維度是對基因管理信息的描述。每個維度所包含的元數(shù)據(jù)見表3。

        圖3 疾病與遺傳變異數(shù)據(jù)庫數(shù)據(jù)元基本屬性模型

        4 結(jié)語

        本文收集并整理了國內(nèi)外人類基因數(shù)據(jù)庫的元數(shù)據(jù),按照標識維度、內(nèi)容維度、管理維度、關(guān)系維度和文獻維度,分別對核酸序列類數(shù)據(jù)庫、基因組數(shù)據(jù)庫、疾病與遺傳變異數(shù)據(jù)庫的元數(shù)據(jù)進行了分類;然后設計了我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范,目的是為我國人類基因數(shù)據(jù)的采集和儲存提供幫助。但也存在不足之處,本文設計的我國人類基因數(shù)據(jù)庫元數(shù)據(jù)規(guī)范只是一個初步的規(guī)范,實用價值有限,該規(guī)范仍需進一步檢驗和完善。

        為了保障我國人類基因信息安全,相關(guān)領(lǐng)域的研究人員應以實用、方便、準確為原則,盡快建立我國的人類基因數(shù)據(jù)庫,并在全國范圍內(nèi)推廣,防止我國人類基因信息資源的外泄。

        猜你喜歡
        人類基因遺傳變異基因組
        豈曰無碳水
        食品與生活(2023年5期)2023-07-06 06:53:52
        諾貝爾獎得主斯萬特·佩博發(fā)現(xiàn)人類基因中存在著尼安德特人基因
        英語文摘(2022年12期)2022-12-30 12:09:30
        牛參考基因組中發(fā)現(xiàn)被忽視基因
        先導編輯技術(shù)可編輯近90%的人類遺傳變異
        基于改進遺傳變異算子的海島算法
        電子制作(2019年24期)2019-02-23 13:22:18
        人類基因科技的人權(quán)議題及其法律應對——以人格尊嚴為基礎(chǔ)
        火力楠子代遺傳變異分析及優(yōu)良家系選擇
        GABABR2基因遺傳變異與肥胖及代謝相關(guān)表型的關(guān)系
        那些可以“扔掉”的人類基因
        基因組DNA甲基化及組蛋白甲基化
        遺傳(2014年3期)2014-02-28 20:58:49
        免费人妖一区二区三区| 亚洲午夜精品久久久久久一区| 亚洲AV成人无码久久精品在| 日本大片在线一区二区三区| 手机在线观看免费av网站| 亚洲春色在线视频| a毛片全部免费播放| 青青草针对华人超碰在线| 大香蕉国产av一区二区三区| 性生交片免费无码看人| 护士奶头又白又大又好摸视频| 狠狠色欧美亚洲综合色黑a| 精品女厕偷拍视频一区二区区| 十八禁视频网站在线观看| 一本大道久久香蕉成人网| 亚洲国产成人无码电影| 亚洲av乱码一区二区三区人人| 国产亚洲精品久久久闺蜜 | 一本久道竹内纱里奈中文字幕 | 亚洲国产精品久久久久秋霞影院| 日韩一区二区不卡av| 国产一区二区三区白浆肉丝| 日韩视频在线观看| 欧美黑人粗暴多交高潮水最多| 红杏性无码免费专区| 亚洲捆绑女优一区二区三区| 丰满少妇a级毛片| 人与嘼av免费| av日本一区不卡亚洲午夜| 成年人观看视频在线播放| 欧美一区二区三区红桃小说| 97精品国产91久久久久久久| 亚洲国产精品天堂久久久| 欧美伦费免费全部午夜最新| 熟妇人妻中文av无码| 国产大陆av一区二区三区| 国产亚洲精品国产精品| a级毛片免费观看网站| 久久亚洲av成人无码软件| 国产主播性色av福利精品一区| 亚洲精品乱码8久久久久久日本|