,張立,唐耀華,李廈戎,徐曉鵬,祁鳴,4,5,徐湘民
中國(guó)人血紅蛋白病突變數(shù)據(jù)集和臨床輔助決策管理系統(tǒng)張倩倩
1,張立1,唐耀華2,李廈戎3,徐曉鵬3,祁鳴2,4,5,徐湘民1
1. 南方醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院醫(yī)學(xué)遺傳學(xué)教研室,廣州 510800 2. 迪安醫(yī)學(xué)檢驗(yàn)中心,杭州 310012 3. 聚道科技,北京 100000 4. 浙江大學(xué)醫(yī)學(xué)院細(xì)胞生物學(xué)與醫(yī)學(xué)遺傳學(xué)系,杭州 310000 5. 浙江大學(xué)醫(yī)學(xué)院附屬邵逸夫醫(yī)院婦產(chǎn)科,杭州 310000
個(gè)體基因組信息得益于大數(shù)據(jù)的積累,其應(yīng)用不再局限于科學(xué)研究,正在經(jīng)歷逐步走向日常醫(yī)療實(shí)踐的過程中。對(duì)疾病關(guān)聯(lián)基因組信息的系統(tǒng)整理、歸檔及合理應(yīng)用配置是未來精準(zhǔn)醫(yī)學(xué)的重要基礎(chǔ)。血紅蛋白病在我國(guó)南方發(fā)病率高,其分子病理學(xué)基礎(chǔ)有明顯的種族特異性。為助力我國(guó)南方血紅蛋白病的臨床診斷和遺傳篩查的應(yīng)用,本項(xiàng)目團(tuán)隊(duì)建立了中國(guó)人群血紅蛋白病變異譜及表型譜LOVD基因變異數(shù)據(jù)管理系統(tǒng),并通過設(shè)計(jì)全面整合和高效分析的在線輔助精確診斷及風(fēng)險(xiǎn)評(píng)估系統(tǒng),展示了基于云端標(biāo)準(zhǔn)化的特定血紅蛋白病變異注釋庫(kù)和診斷知識(shí)庫(kù)輔助醫(yī)生快速做出綜合、全面的診斷和遺傳咨詢的操作。通過數(shù)據(jù)整合和人工智能技術(shù)的結(jié)合提高疾病臨床決策效率的方法和經(jīng)驗(yàn),可為其他疾病的臨床和預(yù)防應(yīng)用起示范作用。
LOVD;血紅蛋白??;變異譜;臨床輔助決策
隨著高通量測(cè)序技術(shù)的日益發(fā)展,個(gè)體基因組信息逐步被應(yīng)用于遺傳病的臨床診斷與分子篩查,為滿足對(duì)基因組信息的全面解讀,建立系統(tǒng)綜合的疾病表型關(guān)聯(lián)變異注釋庫(kù)勢(shì)在必行。目前常用的人類基因突變注釋庫(kù)有人類孟德爾遺傳病在線數(shù)據(jù)庫(kù)(Online Mendelian Inheritance in Man, OMIM),OMIM收錄已報(bào)道的單基因遺傳病約6400種,致病基因約4000個(gè),但疾病表型關(guān)聯(lián)的變異信息較少[1]。ClinVar是美國(guó)國(guó)家生物技術(shù)信息中心(National Center for Biotechnology Information, NCBI)對(duì)外免費(fèi)開放的人類基因組致病變異數(shù)據(jù)庫(kù)[2],近期Shah 等[3]深度分析大樣本病例隊(duì)列全基因組測(cè)序數(shù)據(jù),以美國(guó)醫(yī)學(xué)遺傳學(xué)與基因組學(xué)學(xué)會(huì)(American Col-lege of Me-dical Genetics and Genomics, ACMG)遺傳變異分類標(biāo)準(zhǔn)與指南評(píng)估ClinVar中收錄的變異條目,發(fā)現(xiàn)有11.5%的基因變異被錯(cuò)誤釋義,亟待校正,因此建議ClinVar管理者對(duì)上傳的信息進(jìn)行嚴(yán)格的審核和過濾。
為充分利用目前的高通量數(shù)據(jù)資源,需系統(tǒng)、高效收集疾病表型關(guān)聯(lián)的致病變異及非致病變異數(shù)據(jù),接軌基礎(chǔ)科學(xué)研究與臨床應(yīng)用,充分解讀變異信息,以期將其轉(zhuǎn)化應(yīng)用于臨床疾病精準(zhǔn)基因分型和個(gè)性化診治方案。人類變異組計(jì)劃(Human Variome Project, HVP)倡導(dǎo)以國(guó)家為計(jì)劃節(jié)點(diǎn),以特定疾病為單位創(chuàng)建基因變異數(shù)據(jù)庫(kù)[4]。中國(guó)遺傳資源十分豐富且自身科研力量不斷發(fā)展壯大,許多科學(xué)家在國(guó)內(nèi)外科學(xué)雜志上發(fā)表了大量的科研成果,亟需整合這些資源建立具有中國(guó)人種族特異性的疾病變異譜。因此在2008年,浙江大學(xué)遺傳與基因組醫(yī)學(xué)中心領(lǐng)銜建立了萊頓開放變異–中國(guó)數(shù)據(jù)庫(kù)(Leiden Open Variation Database-China, LOVD-China),作為HVP的重要組成部分,現(xiàn)已發(fā)展為包含乳腺癌、結(jié)腸癌、長(zhǎng)QT綜合征等多種重要疾病的變異譜和表型組信息的大型綜合數(shù)據(jù)庫(kù)[5,6]。目前在LOVD基因變異數(shù)據(jù)管理系統(tǒng)的基礎(chǔ)上,本項(xiàng)目團(tuán)隊(duì)新建立了中國(guó)人群血紅蛋白病變異譜及表型譜數(shù)據(jù)庫(kù),一同整合進(jìn)LOVD- China (http://www.genomed.zju.edu.cn/LOVD3/genes)。
血紅蛋白病是一種廣泛流行于世界范圍內(nèi)的遺傳性血液病,具有致死、致殘率高的特點(diǎn),是全球重點(diǎn)關(guān)注的出生缺陷之一。根據(jù)其基因型及臨床表現(xiàn)分為3種:異常血紅蛋白、地中海貧血(地貧)和遺傳性持續(xù)性胎兒血紅蛋白增高癥(hereditary persis-tence of fetal hemoglobin, HPFH)[7],現(xiàn)已報(bào)道有超過2000種致病變異和600種疾病修飾變異,血紅蛋白病的變異譜有地理和種族特異性[8]。在美洲和非洲大陸,廣泛流行的是由于β-肽鏈第6位氨基酸谷氨酸被纈氨酸代替生成血紅蛋白S (hemoglobin S, Hb S)所致的鐮狀細(xì)胞貧血,該病危害極大,純合子患者一般較難活過30歲,但此病在亞洲較罕見[9]。除Hb S外,全球已報(bào)道上千種異常血紅蛋白(abnormal hemoglobin)變異,但90%以上的異常血紅蛋白是良性的,對(duì)人體無影響,極少數(shù)異常血紅蛋白可致貧血表型,如東南亞最常見的血紅蛋白E (hemog-lobin E, Hb E)等。在我國(guó)高發(fā)且危害巨大的血紅蛋白病為地貧,長(zhǎng)江以南區(qū)域致病基因攜帶率高達(dá)20%,嚴(yán)重影響我國(guó)出生人口質(zhì)量。地貧是由于珠蛋白鏈合成不平衡造成的溶血性貧血,根據(jù)致病基因分為α-地中海貧血(α-地貧)和β-地中海貧血(β-地貧),中國(guó)已報(bào)道α-地貧變異80種,其中以3種缺失型變異(? ?SEA/、?α3.7/、?α4.2/)和3種非缺失型變異(αWSα/、αCSα/、αQSα/)最為常見,當(dāng)α-珠蛋白基因發(fā)生嚴(yán)重缺陷,即4個(gè)α-基因中有3個(gè)受損(? ?/?α或? ?/αTα),α-鏈合成量顯著減少,多余β-鏈形成不穩(wěn)定四聚體結(jié)構(gòu),繼而再分解沉積形成H包涵體,損傷紅細(xì)胞,造成中度溶血性貧血,稱為血紅蛋白H病(hemog-lobin H disease, Hb H)。已報(bào)道β-地貧變異123種,最新流行病學(xué)調(diào)查顯示我國(guó)最常見β-地貧變異為CD41-42 (–CTTT)、CD17 (AAG>TAG)、IVS-Ⅱ-654 (C>T)、–28(A>G)、CD 26 (GAG>AAG)和–100 (G>A),此6種變異攜帶率占總變異的94%[10,11]。β-地貧變異根據(jù)珠蛋白基因殘留活性程度分為β+和β0,一般來說,患者臨床表型從重到輕為:β0/β0>β0/β+>β+/β+。但是β-地貧具有較強(qiáng)的遺傳異質(zhì)性,除了致病基因外,尚有大量可影響β-地貧表型的遺傳修飾因素,部分基因如和變異可以通過調(diào)控胎兒血紅蛋白(fetal hemoglobin, Hb F)重開放表達(dá),緩解患者貧血癥狀,這些基因被稱作修飾基因。經(jīng)本項(xiàng)目團(tuán)隊(duì)研究發(fā)現(xiàn),鋅指結(jié)構(gòu)非同義變異對(duì)中國(guó)β-地貧患者表型修飾作用最顯著,但是當(dāng)同一個(gè)體攜帶該類變異純合子或雙重雜合子時(shí),個(gè)體表現(xiàn)為非典型地中海貧血癥狀(atypical thalassemia)[12]。HPFH是一種良性表型的血紅蛋白病,對(duì)應(yīng)個(gè)體Hb F異常高表達(dá),研究發(fā)現(xiàn)個(gè)體復(fù)合HPFH和β-地中海貧血變異臨床貧血程度較輕,在少數(shù)病例中甚至無癥狀,HPFH是研究β-地貧遺傳修飾機(jī)制的重要模型[13]。隨著高通量測(cè)序技術(shù)的發(fā)展,越來越多的修飾變異被鑒定,部分修飾變異已經(jīng)被應(yīng)用于β-地貧和鐮狀細(xì)胞貧血的治療方案研發(fā)中[14]?,F(xiàn)在臨床實(shí)驗(yàn)室廣泛應(yīng)用的跨越斷裂點(diǎn)聚合酶鏈?zhǔn)椒磻?yīng)(gap-polyme-rase chain reaction, Gap-PCR)、反向點(diǎn)雜交(reverse dot blotting, RDB)等傳統(tǒng)檢測(cè)疾病變異的技術(shù)存在篩查漏診、不能給出精準(zhǔn)風(fēng)險(xiǎn)預(yù)測(cè)及診斷結(jié)果等弊端,未來臨床和實(shí)驗(yàn)室的分子篩查與疾病診斷建議采用二代測(cè)序等先進(jìn)的高通量方法,以適應(yīng)當(dāng)前和未來快速、精準(zhǔn)、全面的地貧篩查和臨床精確診斷的需求[10]。但是,要將這類依賴大量基因測(cè)序數(shù)據(jù)的診斷方法應(yīng)用于臨床,醫(yī)生及其團(tuán)隊(duì)需能夠?qū)Υ笠?guī)模檢測(cè)結(jié)果數(shù)據(jù)進(jìn)行分析和解讀,并關(guān)聯(lián)眾多臨床數(shù)據(jù)庫(kù)和知識(shí)庫(kù)進(jìn)行驗(yàn)證辨別,從而得到診斷結(jié)論,這對(duì)其能力提出了較高的要求。如果能推出一個(gè)全面綜合的系統(tǒng),可以快速注釋血紅蛋白病變異,做出精準(zhǔn)的基因分型和綜合診斷結(jié)果,將會(huì)大大有助于提高我國(guó)該病防治水平。因此,本項(xiàng)目團(tuán)隊(duì)開創(chuàng)了世界上首個(gè)血紅蛋白病在線輔助精確診斷及風(fēng)險(xiǎn)評(píng)估系統(tǒng)DASH (diagnosis and at-risk assessment system of hemoglobinopath),輔助臨床醫(yī)生做出快速、精準(zhǔn)的疾病診斷和遺傳咨詢,同時(shí)可為該病的預(yù)防、篩查和風(fēng)險(xiǎn)評(píng)估提供高效的分析手段。
數(shù)據(jù)庫(kù)整合的中國(guó)人群血紅蛋白病變異譜分為兩個(gè)來源:一是已發(fā)表的數(shù)據(jù),包括血紅蛋白病國(guó)際權(quán)威數(shù)據(jù)庫(kù)HbVar (http://globin.cse.psu.edu/)和IthaGenes (http://www.ithanet.eu/db/ithagenes/),另外通過PubMed (https://www.ncbi.nlm.nih.gov/pubmed/)和百度學(xué)術(shù)(http://xueshu.baidu.com/)文獻(xiàn)資源庫(kù)掃描挖掘國(guó)內(nèi)外文獻(xiàn);二是南方醫(yī)科大學(xué)遺傳教研室地貧課題組經(jīng)過近10年的積累,匯總2087例血紅蛋白病患者和20222例中國(guó)地貧高發(fā)區(qū)域血紅蛋白病篩查個(gè)體的表型數(shù)據(jù)和區(qū)域捕獲測(cè)序所得的基因型數(shù)據(jù)(有部分?jǐn)?shù)據(jù)未曾發(fā)表)。通過以上兩個(gè)途徑,本項(xiàng)目團(tuán)隊(duì)在珠蛋白基因(, MIM+ 141800; HBA2, MIM* 141850;, MIM+ 141900;, MIM* 142200;, MIM* 142250;, MIM* 142000)和修飾基因(, MIM* 606557;, MIM* 600599;, MIM* 305371; HMIP, MIM% 142470)上總計(jì)收集了371個(gè)變異,其中265個(gè)致病變異,106個(gè)修飾變異,涵蓋PLINK關(guān)聯(lián)分析本地實(shí)驗(yàn)室β-地貧病例的基因型和表型數(shù)據(jù)所鑒定出的34個(gè)功能性修飾變異。該數(shù)據(jù)庫(kù)將中國(guó)2087 例血紅蛋白病患者的表型與基因型數(shù)據(jù)整合在一起,包括血液學(xué)指標(biāo):血紅蛋白量(hemoglobin, HGB)、平均紅細(xì)胞體積(erythrocyte mean corpuscular volume, MCV)和平均紅細(xì)胞血紅蛋白量(mean corpuscular hemoglobin, MCH)等,病史信息:發(fā)病年齡和輸血頻率,基因型:致病變異和修飾變異,以數(shù)據(jù)庫(kù)條目的形式公開(http://www.genomed.zju.edu.cn/LOVD3/ individuals),這是世界上首次共享如此大隊(duì)列血紅蛋白病的病例信息。
數(shù)據(jù)庫(kù)總共分為8個(gè)子版塊:基因、轉(zhuǎn)錄本、變異、個(gè)體、疾病、篩查、提交和幫助文檔。通過基因列表的頁(yè)面(http://www.genomed.zju.edu.cn/LO-VD3/genes)可選擇感興趣的基因并點(diǎn)擊查看該基因主頁(yè)。以為例(圖1),在基因主頁(yè)介紹了的染色體位置、轉(zhuǎn)錄本號(hào)、相關(guān)聯(lián)疾病、已記錄變異數(shù)等信息;在變異版塊下,既可選擇查看所有基因的變異,也可選擇查看某一特定基因的變異,每一個(gè)變異的主頁(yè)里均記錄了其基因組位置(hg19)、俗名、人類基因組變異協(xié)會(huì)(Human Genome Variation Society, HGVS)命名、致病性以及dbSNP、參考文獻(xiàn)、OMIM和攜帶該變異個(gè)體的鏈接。個(gè)體的主頁(yè)分為4部分:(1)基本信息:個(gè)體α-和β-地貧基因型、個(gè)體罹患疾病、性別和年齡;(2)表型:血液學(xué)指標(biāo)和病史信息;(3)篩選:此個(gè)體進(jìn)行了哪些基因的變異檢測(cè);(4)變異:所攜帶的變異和雜合度信息。在該數(shù)據(jù)庫(kù)中,血紅蛋白病被分為6種:異常血紅蛋白、α-地貧、β-地貧、Hb H病、HPFH和非典型地中海貧血,在疾病版塊中可以查看每種疾病的患者個(gè)體及表型與基因型信息。
圖1 LOVD-China HBB基因主頁(yè)
收集共享疾病相關(guān)變異是一個(gè)艱巨而漫長(zhǎng)的任務(wù),需要基因組醫(yī)學(xué)領(lǐng)域研究人員和醫(yī)生共同努力才可完成。LOVD-China歡迎和鼓勵(lì)業(yè)界同行上傳新的變異信息,根據(jù)數(shù)據(jù)庫(kù)要求,需請(qǐng)上傳者先行注冊(cè)及登錄,上傳者應(yīng)盡可能詳細(xì)填寫變異數(shù)據(jù)和相應(yīng)的表型信息,需同時(shí)上傳支持變異臨床意義的文獻(xiàn)或證據(jù),提交的所有變異需遵循HGVS命名規(guī)則[15],提交的變異相關(guān)信息及格式應(yīng)符合LOVD系統(tǒng)的上傳要求。該數(shù)據(jù)庫(kù)變異及表型譜有望助力疾病基礎(chǔ)科學(xué)研究和臨床診治,需保證所展示分享信息的可靠性和權(quán)威性。因此,LOVD-China具有一套較嚴(yán)格的人工數(shù)據(jù)審核流程,數(shù)據(jù)庫(kù)后臺(tái)管理者會(huì)手動(dòng)審閱每個(gè)條目,提交至業(yè)內(nèi)專家結(jié)合變異類型及臨床表型校驗(yàn)突變功能,通過專家核查后,后臺(tái)管理者會(huì)添加新條目、更新現(xiàn)有的變異和流調(diào)數(shù)據(jù)。有關(guān)更詳細(xì)的數(shù)據(jù)庫(kù)信息,請(qǐng)參閱系統(tǒng)文檔(http:// www.genomed.zju.edu.cn/LOVD3/docs/)。
本項(xiàng)目整合了LOVD-China、22 309例個(gè)體表型–基因型數(shù)據(jù)和HbVar數(shù)據(jù)庫(kù),構(gòu)建DASH后臺(tái)血紅蛋白病特異性注釋的數(shù)據(jù)集。DASH提供云端標(biāo)準(zhǔn)化的血紅蛋白病診斷知識(shí)庫(kù)和輔助決策系統(tǒng)(http:// www.smuhemoglobinopathy.com/),參考臨床分子篩查和診斷場(chǎng)景,建立了3個(gè)工作模塊:血紅蛋白病表型–基因型推導(dǎo)模塊、血紅蛋白病精確診斷模塊和血紅蛋白病風(fēng)險(xiǎn)評(píng)估模塊。根據(jù)鍵入的個(gè)體血液學(xué)表型初步推斷地中海貧血的類型;識(shí)別用戶上傳的CNV(拷貝數(shù)變異)和SNV(單核苷酸變異)信息并用特定的血紅蛋白病注釋庫(kù)進(jìn)行注釋,綜合分析評(píng)估致病基因變異和修飾基因變異,對(duì)血紅蛋白病進(jìn)行臨床精確分子分型和診斷。此外,該系統(tǒng)可以對(duì)夫婦雙方提交的突變進(jìn)行風(fēng)險(xiǎn)評(píng)估,揭示后代罹患血紅蛋白病的風(fēng)險(xiǎn)。
此模塊將臨床和實(shí)驗(yàn)室診斷血紅蛋白病的傳統(tǒng)策略制成自動(dòng)化的推導(dǎo)算法,個(gè)體年齡、性別和血液學(xué)指標(biāo)(MCV、MCH、HGB、Hb F%和異常血紅蛋白等)均需填寫,根據(jù)國(guó)際通用標(biāo)準(zhǔn)可以基本判斷出個(gè)體血紅蛋白病特征。地貧個(gè)體血常規(guī)結(jié)果表現(xiàn)明顯的小細(xì)胞低色素特征,MCH<28 pg和MCV< 80 fL是臨床判斷小細(xì)胞低色素的重要診斷標(biāo)準(zhǔn)[16],另外,需注明是否鐵缺乏,因?yàn)槿辫F無論是否合并地貧均可致小細(xì)胞低色素貧血表型,如果個(gè)體缺鐵,建議在補(bǔ)鐵后再做一次血液學(xué)檢查[17]。血紅蛋白檢查可分析體內(nèi)血紅蛋白A、血紅蛋白F、血紅蛋白A2百分比含量,依此可初步區(qū)分α-地貧和β-地貧。依此模塊,可輔助初步篩選出地貧同型高危夫婦,為后續(xù)基因診斷和遺傳咨詢打下基礎(chǔ)。由于患有靜止型地貧的個(gè)體常常具有正?;蜻吘壍难簩W(xué)指標(biāo),常常導(dǎo)致漏診,我們?cè)谧罱K分析報(bào)告中強(qiáng)烈建議所有個(gè)體后續(xù)做分子遺傳學(xué)檢測(cè),進(jìn)一步精準(zhǔn)基因分型。
該模塊利用特定的血紅蛋白病注釋庫(kù)解析上傳的變異列表,實(shí)現(xiàn)個(gè)體的疾病精準(zhǔn)診斷。系統(tǒng)精確診斷分析由兩個(gè)進(jìn)程構(gòu)成,首先是血紅蛋白病特異性注釋輸入的變異,用戶上傳與血紅蛋白病相關(guān)的SNPs和CNVs,頁(yè)面右側(cè)提供了詳細(xì)的輸入規(guī)則及范例(http://www.smuhemoglobinopathy.com/clinical/),HGVS命名、GRCh37/hg19坐標(biāo)和常用俗名均為可接受格式,鍵入框具有自動(dòng)補(bǔ)全(模糊匹配)的功能。注釋完成后,將致病變異與修飾變異進(jìn)行疾病特異綜合分析評(píng)估得到精準(zhǔn)診斷結(jié)果,此部分分析涉及到一些血紅蛋白病中的特殊組合規(guī)則,需要長(zhǎng)期的臨床和實(shí)驗(yàn)室診斷經(jīng)驗(yàn)才可準(zhǔn)確掌握,當(dāng)臨床上碰到此類案例,極易產(chǎn)生誤診或漏診的情況。比如,一般β-地貧雜合子即攜帶者無貧血表型,當(dāng)β-地貧雜合子個(gè)體合并α-珠蛋白基因多拷貝,個(gè)體會(huì)表現(xiàn)中間型地貧表型,需要醫(yī)生制定出對(duì)應(yīng)的臨床處置方案[18];個(gè)體攜帶修飾基因鋅指結(jié)構(gòu)非同義突變純合子或雙重雜合子會(huì)表現(xiàn)出貧血表型[19]。建議在使用模塊功能前詳細(xì)閱讀頁(yè)面右側(cè)的輸入規(guī)則和系統(tǒng)右上角Q&A功能區(qū)輸出格式及內(nèi)容的釋義(http://www.smuhemoglobinopathy.com/question/#tab=1)。
風(fēng)險(xiǎn)評(píng)估模塊是針對(duì)夫婦對(duì)設(shè)計(jì)的,個(gè)體及配偶的變異列表需要同時(shí)上傳,變異上傳格式等規(guī)則與精確診斷模塊一致,詳見模塊頁(yè)面右側(cè)(http:// www.smuhemoglobinopathy.com/at_risk/)。上傳變異后先會(huì)對(duì)每一個(gè)個(gè)體進(jìn)行全面綜合的血紅蛋白病分析,得到精確診斷結(jié)果,首先判斷夫婦是否攜帶/患有同型地貧,其次組合分析父母雙方的所有變異,報(bào)告這對(duì)夫婦的后代是否有罹患血紅蛋白病的風(fēng)險(xiǎn),告知后代可能有疾病風(fēng)險(xiǎn)的基因型,以及可能影響患病后代表型嚴(yán)重程度的修飾變異,協(xié)助臨床醫(yī)生進(jìn)行全面的遺傳咨詢和制定個(gè)性化優(yōu)生優(yōu)育的方案。比如,單個(gè)個(gè)體攜帶β-地貧變異,配偶β-基因正常,但攜帶α-基因多拷貝變異,系統(tǒng)會(huì)分析得出后代可能的基因型,并告知后代有罹患β-地貧的風(fēng)險(xiǎn)。
基因測(cè)序技術(shù)的快速發(fā)展,對(duì)遺傳疾病的基礎(chǔ)研究與臨床應(yīng)用起到了巨大的推動(dòng)作用,更多遺傳病相關(guān)位點(diǎn)被發(fā)現(xiàn),更有效精準(zhǔn)的診斷方法被發(fā)明,疾病變異譜信息及臨床表型系統(tǒng)的收集和管理工作是實(shí)現(xiàn)精準(zhǔn)醫(yī)學(xué)的基石[20,21]。本項(xiàng)目團(tuán)隊(duì)通過多渠道整合疾病數(shù)據(jù)庫(kù)、變異數(shù)據(jù)庫(kù)和文獻(xiàn),收錄與中國(guó)人群血紅蛋白病候選基因相對(duì)應(yīng)的突變,并上傳南方醫(yī)科大學(xué)地貧課題組多年累積的臨床表型和基因型數(shù)據(jù),以此建立起 LOVD-中國(guó)血紅蛋白病變異譜資源庫(kù)。另外本項(xiàng)目開發(fā)了DASH提供云端標(biāo)準(zhǔn)化的血紅蛋白病診斷知識(shí)庫(kù)和輔助決策系統(tǒng),可加速新的診斷方法應(yīng)用于臨床:由遺傳專家持續(xù)更新數(shù)據(jù)分析方法,維護(hù)疾病知識(shí)庫(kù);臨床醫(yī)生則可基于互聯(lián)網(wǎng)便捷地使用輔助決策系統(tǒng),提升診療效率。
通過DASH的構(gòu)建也積累了遺傳病輔助決策系統(tǒng)的普適方法論、工程實(shí)施技術(shù)和經(jīng)驗(yàn)(圖2):(1)從醫(yī)學(xué)實(shí)踐中獲取診療場(chǎng)景;(2)采用循證醫(yī)學(xué)、精準(zhǔn)醫(yī)學(xué)的方法,從醫(yī)學(xué)文獻(xiàn)、臨床指南、公共數(shù)據(jù)庫(kù)和自建數(shù)據(jù)庫(kù)中獲取知識(shí);(3)通過分析數(shù)據(jù)、整合知識(shí),建立標(biāo)準(zhǔn)化、規(guī)范化的疾病知識(shí)庫(kù);(4)使用云計(jì)算、大數(shù)據(jù)和人工智能等信息技術(shù),實(shí)現(xiàn)疾病知識(shí)庫(kù)的共享和持續(xù)更新。
2015年意大利研究團(tuán)隊(duì)開發(fā)了一套地中海貧血嚴(yán)重程度評(píng)分系統(tǒng),通過890名β-地貧患者組成的測(cè)試集集中驗(yàn)證了5個(gè)修飾位點(diǎn)遺傳變異特征與β-地貧首次輸血年齡(臨床嚴(yán)重程度)相關(guān)聯(lián),以此為基礎(chǔ)構(gòu)建了β-地貧表型嚴(yán)重程度打分矩陣,在http://tss.unica.it上提供了自動(dòng)在線計(jì)算分?jǐn)?shù),以期作為篩查的預(yù)測(cè)評(píng)分和標(biāo)準(zhǔn)化嚴(yán)重程度量表,該系統(tǒng)強(qiáng)調(diào)了修飾基因在地貧診斷及篩查中的重要作用,并且將其修飾作用量化用于指導(dǎo)臨床決策[22]。但該系統(tǒng)仍存在一定的局限,比如:需用戶自主判斷地貧類型,無法準(zhǔn)確注釋并解讀地貧變異;系統(tǒng)只涵蓋5個(gè)修飾位點(diǎn),仍存在大量具有較強(qiáng)作用的修飾位點(diǎn)待補(bǔ)充更新。DASH是世界上首個(gè)全面整合和高效分析的血紅蛋白病在線輔助精確診斷及風(fēng)險(xiǎn)評(píng)估系統(tǒng),可服務(wù)于全世界基礎(chǔ)科研人員和具有較高層次的醫(yī)生群體,根據(jù)血液學(xué)指標(biāo)對(duì)血紅蛋白病類型進(jìn)行判斷和疾病特異變異綜合分析評(píng)估,擴(kuò)大我國(guó)在血液病和遺傳病業(yè)界內(nèi)的影響力,并希望獲得國(guó)內(nèi)外專家的評(píng)議及認(rèn)可。DASH仍存在局限性和挑戰(zhàn),現(xiàn)在的頁(yè)面及產(chǎn)出結(jié)果均為英文,較難滿足國(guó)內(nèi)基層醫(yī)生和普通孕產(chǎn)婦用戶的使用需求,在后續(xù)升級(jí)中將陸續(xù)推出中文版,適應(yīng)不同層次用戶群體的需求。此外,還計(jì)劃推出一個(gè)病例分享版塊,用于世界范圍內(nèi)的罕見病例分享,包括基因型以及臨床表型,將不斷吸納擴(kuò)容后臺(tái)血紅蛋白病診斷數(shù)據(jù)庫(kù),以此得出更為精準(zhǔn)的診斷和遺傳咨詢。在數(shù)字健康應(yīng)用發(fā)展迅速的今天,如何保護(hù)個(gè)體隱私是一項(xiàng)復(fù)雜的挑戰(zhàn),DASH目前不收集記錄可能透漏個(gè)人身份的敏感信息,如姓名和聯(lián)系方式等,在后續(xù)版塊升級(jí)過程中,將應(yīng)用規(guī)范的個(gè)體信息匿名化和知情同意等保護(hù)機(jī)制。
圖2 構(gòu)建遺傳病輔助決策系統(tǒng)的方法論
圖3 罕見病診療協(xié)作的新模式示意圖
DASH是一個(gè)非營(yíng)利項(xiàng)目,旨在為血紅蛋白病的篩查、診斷和遺傳咨詢提供一站式的信息平臺(tái),在醫(yī)學(xué)研究和產(chǎn)業(yè)應(yīng)用中具有重要的價(jià)值。醫(yī)學(xué)研究中面臨數(shù)據(jù)標(biāo)準(zhǔn)化、分散病例收集和大規(guī)模數(shù)據(jù)匯集管理等諸多挑戰(zhàn)。針對(duì)這些問題,DASH 相應(yīng)實(shí)現(xiàn)了對(duì)血紅蛋白病字段的標(biāo)準(zhǔn)化、增加電子數(shù)據(jù)采集系統(tǒng)和基因數(shù)據(jù)質(zhì)控分析,以及采用可擴(kuò)展的云端架構(gòu)支持大規(guī)模數(shù)據(jù)存儲(chǔ)和管理。在產(chǎn)業(yè)應(yīng)用方面,DASH上的疾病數(shù)據(jù),為診療技術(shù)的研發(fā)提供數(shù)據(jù)支持。DASH未來也將為多中心臨床試驗(yàn)提供數(shù)據(jù)支持,在試驗(yàn)設(shè)計(jì)和患者入組等方面探索新的數(shù)據(jù)驅(qū)動(dòng)解決方案。中華人民共和國(guó)國(guó)家衛(wèi)生健康委員會(huì)等5部門于2018年5月22日聯(lián)合發(fā)布了包含121種疾病的《第一批罕見病目錄》,并在2019年2月12日發(fā)文建立全國(guó)罕見病診療協(xié)作網(wǎng),第一批共有324家醫(yī)院參與國(guó)家罕見病診療協(xié)作網(wǎng)。DASH符合國(guó)家罕見病診療協(xié)作網(wǎng)的建設(shè)思路,為單個(gè)罕見病網(wǎng)絡(luò)化診療協(xié)作提供了可參考的模板(圖3)。結(jié)合DASH的實(shí)踐經(jīng)驗(yàn),可繼續(xù)拓展更多的罕見疾病,鼓勵(lì)更多專家參與建立公共的罕見病輔助決策系統(tǒng),以云服務(wù)模式對(duì)區(qū)域和基層醫(yī)療機(jī)構(gòu)賦能,以大數(shù)據(jù)和人工智能技術(shù)提升罕見病診療的效率,推進(jìn)各個(gè)疾病領(lǐng)域的研究和臨床進(jìn)展,造福更廣大的患者人群。
作者聲明
本文作者、系統(tǒng)研發(fā)團(tuán)隊(duì)及機(jī)構(gòu)之間無相關(guān)利益沖突。
[1] Amberger JS, Bocchini CA, Schiettecatte F, Scott AF, Hamosh A. OMIM.org: online mendelian inheritance in man (OMIM?), an online catalog of human genes and genetic disorders., 2015, 43: D789–D798.
[2] Landrum MJ, Lee JM, Benson M, Brown G, Chao C, Chitipiralla S, Gu B, Hart J, Hoffman D, Hoover J, Jang W, Katz K, Ovetsky M, Riley G, Sethi A, Tully R, Villamarin- Salomon R, Rubinstein W, Maglott DR. ClinVar: public archive of interpretations of clinically relevant variants., 2016, 44: D862–D868.
[3] Shah N, Hou YC, Yu HC, Sainger R, Caskey CT, Venter JC, Telenti A. Identification of misclassified clinvar variants via disease population prevalence., 2018, 102(4): 609–619.
[4] Burn J, Watson M. The human variome project., 2016, 37: 505–507.
[5] Pan M, Cong P, Wang Y, Lin C, Yuan Y, Dong J, Banerjee S, Zhang T, Chen Y, Zhang T, Chen M, Hu P, Zheng S, Zhang J, Qi M. Novel LOVD databases for hereditary breast cancer and colorectal cancer genes in the Chinese population.,2011, 32(12): 1335–1340.
[6] Zhang T, Moss A, Cong P, Pan M, Chang B, Zheng L, Fang Q, Zareba W, Robinson J, Lin C, Li Z, Wei J, Zeng Q, Long QT International Registry Investigators; HVP-China Investigators, Qi M. LQTS gene LOVD database., 2010, 31: E1801–E1810.
[7] Nathan DG. Hemoglobin disorders: a look to the future., 2013, 122: 859–860.
[8] Kountouris P, Lederer CW, Fanis P, Feleki X, Old J, Kleanthous M. IthaGenes: an interactive database for haemoglobin variations and epidemiology., 2014, 9: e103020.
[9] Ware RE, de Montalembert M, Tshilolo L, Abboud MR. Sickle cell disease.. 2017, 390(10091):311–323.
[10] Shang X, Peng Z, Ye Y, Asan, Zhang X, Chen Y, Zhu B, Cai W, Chen S, Cai R, Guo X, Zhang C, Zhou Y, Huang S, Liu Y, Chen B, Yan S, Chen Y, Ding H, Yin X, Wu L, He J, Huang D, He S, Yan T, Fan X, Zhou Y, Wei X, Zhao S, Cai D, Guo F, Zhang Q, Li Y, Zhang X, Lu H, Huang H, Guo J, Zhu F, Yuan Y, Zhang L, Liu N, Li Z, Jiang H, Zhang Q, Zhang Y, Juhari WKW, Hanafi S, Zhou W, Xiong F, Yang H, Wang J, Zilfalil BA, Qi M, Yang Y, Yin Y, Mao M, Xu X. Rapid targeted Next-Generation sequencing platform for molecular screening and clinical genotyping in subjects with hemoglobinopathies., 2017, 23: 150–159.
[11] Taher AT, Weatherall DJ, Cappellini MD. Thalassaemia., 2018, 391(10116): 155–167.
[12] Liu D, Zhang X, Yu L, Cai R, Ma X, Zheng C, Zhou Y, Liu Q, Wei X, Lin L, Yan T, Huang J, Mohandas N, An X, Xu X. KLF1 mutations are relatively more common in a thalassemia endemic region and ameliorate the severity of β-thalassemia.,2014, 124(5): 803–811.
[13] Pandey H, Ranjan R, Singh K, Sharma A, Kishor K, Seth T, Saxena R. Contrasting co-inheritance of alpha and beta mutations in delta beta thalassemia and hereditary persistence of fetal hemoglobin: a study from India., 2018, 23: 692–696.
[14] Wienert B, Martyn GE, Funnell APW, Quinlan KGR, Crossley M. Wake-up sleepy gene: Reactivating fetal globin for β-Hemoglobinopathies., 2018, 34(12): 927–940.
[15] den Dunnen JT, Dalgleish R, Maglott DR, Hart RK, Greenblatt MS, McGowan-Jordan J, Roux AF, Smith T, Antonarakis SE, Taschner PE. HGVS recommendations for the description of sequence variants: 2016 update., 2016, 37(6): 564–569.
[16] Traeger-Synodinos J, Harteveld CL, Old JM, Petrou M, Galanello R, Giordano P, Angastioniotis M, De la Salle B, Henderson S, May A. EMQN best practice guidelines for molecular and haematology methods for carrier identification and prenatal diagnosis of the haemoglobinopathies.,2015, 23(4): 560.
[17] Passarello C, Giambona A, Cannata M, Vinciguerra M, Renda D, Maggio A. Iron deficiency does not compromise the diagnosis of high HbA(2) β thalassemia trait., 2011, 97(3): 472–473.
[18] Clark B, Shooter C, Smith F, Brawand D, Steedman L, Oakley M, Rushton P, Rooks H, Wang X, Drousiotou A, Kyrri A, Hadjigavriel M, Will A, Fisher C, Higgs DR, Phylipsen M, Harteveld C, Kleanthous M, Thein SL. Beta thalassaemia intermedia due to co-inheritance of three unique alpha globin cluster duplications characterised by next generation sequencing analysis.,2018, 180(1): 160–164.
[19] Perkins A, Xu X, Higgs DR, Patrinos GP, Arnaud L, Bieker JJ, Philipsen S, KLF1 Consensus Workgroup. Krüppeling erythropoiesis: an unexpected broad spectrum of human red blood cell disorders due to KLF1 variants., 2016, 127(15): 1856–1862.
[20] Zhang YS, Xia L, Sang J, Li M, Liu L, Li MW, Niu GY, Cao JB, Teng XF, Zhou Q, Zhang Z. The big data center's database resources., 2018, 40: 1039– 1043.張?jiān)大? 夏琳, 桑健, 李漫, 劉琳, 李萌偉, 牛廣藝, 曹佳寶, 滕徐菲, 周晴, 章張. 生命與健康大數(shù)據(jù)中心資源. 遺傳, 2018, 40 (11): 1039–1043.
[21] Song SH, Teng XF, Xiao JF. Database resources of the reference genome and genetic variation maps for the Chinese population., 2018, 40(11): 1048–1054.宋述慧, 滕徐菲, 肖景發(fā). 中國(guó)人群參考基因組及基因組變異圖譜資源庫(kù). 遺傳, 2018, 40(11): 1048–1054.
[22] Danjou F, Francavilla M, Anni F, Satta S, Demartis FR, Perseu L, Manca M, Sollaino MC, Manunza L, Mereu E, Marceddu G, Pissard S, Joly P, Thuret I, Origa R, Borg J, Forni GL, Piga A, Lai ME, Badens C, Moi P, Galanello R. A genetic score for the prediction of beta-thalassemia severity., 2015, 100(4): 452–457.
A comprehensive repository of mutation data and a clinical assistant decision system for hemoglobinopathy in the Chinese population
Qianqian Zhang1, Li Zhang1, Yaohua Tang2, Xiarong Li3, Xiaopeng Xu3, Ming Qi2,4,5, Xiangmin Xu1
Personal genomic information benefits from accumulated big data and its application is no longer limited to scientific research. Presently, it is undergoing the transformation to daily medical practice. Systematic arrangement, archiving and rational utilization of disease-related genomic information is an important foundation of future precision medicine. Hemoglobinopathy is prevalent in southern China, but its molecular pathological basis has racial specificity. To facilitate clinical diagnosis and genetic screening of hemoglobinopathy in southern China, we established the LOVD gene data management system for the variation and phenotype spectrum of hemoglobinopathy. Then we designed an integrated and efficient on-line auxiliary accurate diagnosis and risk assessment system in order to assist clinicians to make comprehensive diagnosis and genetic counseling in a short time based on cloud standardized annotated library of specific hemoglobinopathy variants and diagnostic repository. The methodology and experience of improving the clinical decision-making efficiency of diseases with big data and artificial intelligence technology can be used as an example in the clinical and preventive application of other diseases.
LOVD; hemoglobinopathy; mutation spectrum; clinical assist decision
2019-05-13;
2019-07-24
國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(編號(hào):2018YFA0507803)和國(guó)家自然科學(xué)基金項(xiàng)目(編號(hào):31871265)資助[Supported by the National Key Research and Development Program of China (No.2018YFA0507803) and the National Natural Science Foundation of China (No.31871265)]
張倩倩,博士研究生,專業(yè)方向:遺傳學(xué)。E-mail: zqq.smu@foxmail.com
祁鳴,博士,教授,研究方向:遺傳與基因組醫(yī)學(xué)。E-mail: qiming_14618@yahoo.com徐湘民,碩士,教授,研究方向:遺傳性血液病的分子機(jī)制及病理基礎(chǔ)。E-mail: xixm@smu.edu.cn
10.16288/j.yczz.19-136
2019/8/5 20:59:55
URI: http://kns.cnki.net/kcms/detail/11.1913.R.20190805.2059.005.html
(責(zé)任編委: 楊昭慶)