李 牛 李 磊 陳會文 王 劍,4 張 浩,
1.國家兒童醫(yī)學(xué)中心 上海交通大學(xué)醫(yī)學(xué)院附屬上海兒童醫(yī)學(xué)中心遺傳分子診斷科(上海 200127);2.國家兒童醫(yī)學(xué)中心 上海交通大學(xué)醫(yī)學(xué)院附屬上海兒童醫(yī)學(xué)中心臨床研究管理中心(上海 200127);3.上海市兒童罕見病臨床醫(yī)學(xué)研究中心(上海 200127);4.上海交通大學(xué)醫(yī)學(xué)院附屬國際和平婦幼保健院(上海 200030)
罕見病,又稱孤兒病,特指發(fā)病率極低、臨床罕見的疾病。WHO 定義罕見病為患病人數(shù)占總?cè)丝?.65‰~1‰的疾病,但各個國家在罕見病認(rèn)定標(biāo)準(zhǔn)上存在一定差異[1-2]。罕見病定義的不統(tǒng)一也導(dǎo)致了病種統(tǒng)計的差異,大多數(shù)數(shù)據(jù)庫(如Orphanet和OMIM)收錄的罕見病約7 000種,但最近的一項調(diào)查表明這一數(shù)字可能接近10 000種[3]。目前中國尚無罕見病官方定義,2021 年9 月,中國罕見病/孤兒病定義第3 次多學(xué)科專家研討會發(fā)布的《中國罕見病定義研究報告2021》將其修訂為“新生兒發(fā)病率<1/10000、患病率<1/10000、或患病人數(shù)<14萬的疾病”。2018 年,國家衛(wèi)生健康委員會等5 部門聯(lián)合發(fā)布了《第一批罕見病目錄》[4],共包含121 種罕見病,邁出了中國罕見病管理事業(yè)的第1 步。為進(jìn)一步加強(qiáng)中國罕見病管理并提升其診療水平,在“十三五”國家重點(diǎn)研發(fā)計劃精準(zhǔn)醫(yī)學(xué)專項“罕見病臨床隊列研究”項目資助下,2016 年由中國醫(yī)學(xué)科學(xué)院北京協(xié)和醫(yī)院負(fù)責(zé)牽頭建設(shè)中國國家罕見病注冊系統(tǒng)(national rare diseases registry system,NRDRS)[5]。截至2022 年8 月,該系統(tǒng)目前已登記173種/類罕見病、近7萬例患者信息(https://www.nrdrs.org.cn/)。然而,NRDRS 收錄病例平均診斷年齡約30歲,且僅有約1/3的患者在18歲之前被診斷[6],提示在準(zhǔn)確反映罕見病在兒童期的疾病譜特征上還有較大的提升空間。
上海是中國首個在政府層次發(fā)布罕見病目錄的城市。為進(jìn)一步推動罕見病診療,上海于2020 年底啟動建設(shè)上海市兒童罕見病臨床醫(yī)學(xué)研究中心,其組織架構(gòu)為1 家牽頭單位(上海交通大學(xué)醫(yī)學(xué)院附屬上海兒童醫(yī)學(xué)中心)、5 家核心單位(上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院、上海交通大學(xué)附屬兒童醫(yī)院、上海交通大學(xué)醫(yī)學(xué)院附屬國際和平婦幼保健院、華東師范大學(xué)以及中國科學(xué)院)和10余家網(wǎng)絡(luò)成員單位。該中心主要圍繞兒童罕見病注冊登記系統(tǒng)、罕見病多中心臨床研究平臺等展開建設(shè)與優(yōu)化,旨在探索由多學(xué)科跨專業(yè)協(xié)同合作的全生命周期診療體系。2022 年,由上海交通大學(xué)醫(yī)學(xué)院附屬上海兒童醫(yī)學(xué)中心牽頭,參照NRDRS技術(shù)體系開發(fā)建設(shè)上海市兒童罕見病登記數(shù)據(jù)庫。
本研究總結(jié)了上海市兒童罕見病登記數(shù)據(jù)庫建設(shè)思路,并回顧性分析了現(xiàn)階段數(shù)據(jù)庫收錄的6 341例患兒資料,以揭示目前在上海市就診的兒童罕見病的疾病特征譜及人口學(xué)特征,為建設(shè)高水平研究型專病隊列并推動罕見病患兒的系統(tǒng)管理提供基礎(chǔ)數(shù)據(jù)支持。
以2008 年1 月—2021 年12 月通過門診或住院方式就診于上海交通大學(xué)醫(yī)學(xué)院附屬上海兒童醫(yī)學(xué)中心、且符合173種/類疾病的患兒為首批錄入該系統(tǒng)的研究對象。NRDRS已登記的173種/類罕見病中,“太田痣”、“表皮痣”和“無色素痣”3 個病種因不符合罕見病定義未被納入本研究,同時補(bǔ)充“先天性純紅細(xì)胞再生障礙性貧血”、“大理石骨病”和“假性甲狀旁腺功能減退癥”3個擬建設(shè)專病隊列的新病種,最終確定兒童罕見病研究病種目錄。
本研究已通過醫(yī)院醫(yī)學(xué)倫理委員會批準(zhǔn)(No.SCMCIRB-K2021068-1)。
1.2.1 上海市兒童罕見病登記數(shù)據(jù)庫建設(shè)方案 上海兒童醫(yī)學(xué)中心前期利用結(jié)構(gòu)化數(shù)據(jù)復(fù)制集成技術(shù)(Oracle GoldenGate,OGG)從醫(yī)院臨床數(shù)據(jù)中心(CDR)、醫(yī)院信息管理系統(tǒng)(HIS)、實(shí)驗室信息管理系統(tǒng)(LIS)、電子病歷系統(tǒng)(EMR)復(fù)制數(shù)據(jù),構(gòu)建了院級科研數(shù)據(jù)庫,并通過數(shù)據(jù)倉庫技術(shù)(ETL)和自然語言處理技術(shù)(NLP)實(shí)現(xiàn)了患兒信息變量的結(jié)構(gòu)化和標(biāo)準(zhǔn)化。不同于NRDRS 各中心的手動錄入填報,上海市兒童罕見病登記數(shù)據(jù)庫采用自動抓取方式,即通過NLP技術(shù)主動抓取該科研數(shù)據(jù)庫中指定病種的變量數(shù)據(jù),并填充到罕見病登記數(shù)據(jù)庫的病例報告表(CRF)表單中,從而完成登記數(shù)據(jù)庫的數(shù)據(jù)生產(chǎn)(圖1)。數(shù)據(jù)抓取規(guī)則為識別納入病種的國際疾病分類編碼第10版(ICD-10)和/或疾病名稱,取并集。數(shù)據(jù)采集表單參照NRDRS 各病種數(shù)據(jù)集制定,兼顧自動抓取的可及性,主要包括患兒門診號或住院號、性別、年齡、出生日期、地址、門診或住院診斷日期、確診疾病名稱(表1)。
表1 數(shù)據(jù)采集表單
圖1 上海市兒童罕見病登記數(shù)據(jù)庫建設(shè)方案流程圖
1.2.2 數(shù)據(jù)核查與質(zhì)控 數(shù)據(jù)核對策略采用系統(tǒng)質(zhì)控結(jié)合人工核查方式,對有重復(fù)就診的患兒,數(shù)據(jù)庫中只保留第1次就診信息;對ICD-10編碼缺失或編碼錯誤的病種,聯(lián)系病案室完成編碼的審核校對;對于有多個臨床書寫名稱的疾病,如“馬凡綜合征和Marfan綜合征”、“黏多糖貯積癥和粘多糖貯積癥”,按照ICD 編碼統(tǒng)一歸類,同時加強(qiáng)臨床培訓(xùn),實(shí)現(xiàn)疾病診斷名稱的規(guī)范統(tǒng)一。所有收錄的數(shù)據(jù)資料均由兩名從事罕見病診療工作五年以上的專業(yè)人員進(jìn)行兩輪獨(dú)立審核,以最大程度保證數(shù)據(jù)的準(zhǔn)確性。
應(yīng)用SPSS 20.0 統(tǒng)計學(xué)軟件進(jìn)行數(shù)據(jù)處理。計數(shù)資料使用例(%)表示,單項有序列聯(lián)表采用Kruskal Wallis H秩和檢驗。以P<0.05為差異有統(tǒng)計學(xué)意義。
數(shù)據(jù)庫中收錄2008—2021 年在本院就診的罕見病病例共6 425 例,剔除84 例成年患者后,共有6 341例未成年患者納入本研究,涉及病種目錄中的109種疾病(表1),其余64個病種未見病例收錄。例數(shù)≥20 的病種共51 個,例數(shù)≥50 的病種共30 個;有42 個病種例數(shù)<10。例數(shù)排名前10 的疾病包括朗格漢斯細(xì)胞組織細(xì)胞增生癥(715例,11.3%)、家族性擴(kuò)張型心肌?。?98例,7.9%)、血友?。?50例,5.5%)、神經(jīng)纖維瘤(345例,5.4%)、重癥肌無力(294例,4.6%)、特納綜合征(261例,4.1%)、黏多糖貯積癥Ⅰ型(234例,3.7%)、特發(fā)性肺動脈高壓(205例,3.2%)、先天性魚鱗?。?93例,3.0%)、發(fā)作性睡?。?90例,3.0%),合計3 285例,占總病例數(shù)的51.8%(表2)。
表2 數(shù)據(jù)庫中173種罕見病例數(shù)分布(按例數(shù)排序)
本研究納入的6 341例患兒中,門診和住院患兒比例分別為59.4%(3 764例)和40.6%(2 577例)(圖2A);男3 638例(57.4%)、女2 679例(42.2%),24例性別信息丟失(圖2B),男女性別比1.36。在例數(shù)排名前20 位的疾病中,除血友病、黏多糖貯積癥Ⅱ型和特納綜合征呈現(xiàn)特征性的性別連鎖外,其余病種男女性別比為0.51~2.55(表3)。
表3 數(shù)據(jù)庫中排名前20位病種性別分布
圖2 罕見病6 341 例就診方式(A)及性別分布(B)
共有3 229 例患兒(以住院患兒為主)記錄有常住地址信息,其中上海本地患兒512 例,占比15.9%;例數(shù)>100的患兒來源地還包括安徽省592例(18.3%)、江蘇省516例(16.0%)、浙江省366例(11.3%)、江西省241例(7.5%)、河南省146例(4.5%)、山東省124例(3.8%)、福建省118例(3.7%),余下623 例患兒(19.3%)分布在除香港、澳門和臺灣之外的其余各個省份和直轄市。
6 341例未成年患兒中,29.6%(1 875/6341)可以在2 歲之前獲得明確診斷,10 歲之前可被診斷的患兒比例為80.6%(5 108/6341)(圖3A)。此外,患者確診人數(shù)呈現(xiàn)逐年增加趨勢,尤其自2015年開始呈現(xiàn)高速增長趨勢(圖3 B)。2015—2021 年的不同年份之間,不同年齡段患兒分布差異有統(tǒng)計學(xué)意義(H=52.29,P<0.001),確診年齡<2歲患兒的比例呈現(xiàn)逐年下降趨勢,從2015年的36.0%下降到2021年的24.9%;相較而言,4~10歲年齡段患兒逐年增加。見表4。
表4 2015—2021年各年齡段患兒分布[n(%)]
圖3 罕見病6 341 例患兒確診年齡以及確診年份分布
本院是國內(nèi)??漆t(yī)院中較早開設(shè)罕見疑難病多學(xué)科聯(lián)合門診的單位之一,在兒童罕見病診療領(lǐng)域有較多的病例積累。在獲批成為上海市兒童罕見病臨床醫(yī)學(xué)研究中心建設(shè)的牽頭單位后,著手探索建設(shè)上海市兒童罕見病登記數(shù)據(jù)庫。該數(shù)據(jù)庫采用主動抓取院內(nèi)結(jié)構(gòu)化的科研數(shù)據(jù)信息方式構(gòu)建,可實(shí)現(xiàn)數(shù)據(jù)庫建設(shè)的自動化,提升效率。由醫(yī)院醫(yī)療數(shù)據(jù)復(fù)制產(chǎn)生的科研數(shù)據(jù)庫不僅可滿足不同臨床專病隊列建設(shè)需求,同時還避免了目標(biāo)數(shù)據(jù)庫直接抓取CDR/HIS/LIS/EMR 系統(tǒng)數(shù)據(jù)而帶來的潛在信息安全危害。此外,上海市兒童罕見病登記數(shù)據(jù)庫在建設(shè)邏輯(病種選擇與數(shù)據(jù)采集表單)上與NRDRS[5-6]保持一致,有效補(bǔ)充展示了中國各年齡段罕見病患者的疾病譜特征。
自2018年第一批罕見病目錄發(fā)布后,石鑫淼等[7]對中國96家三甲醫(yī)院1 500萬住院患者數(shù)據(jù)進(jìn)行了全面分析。該項研究共涉及到目錄中102種疾病,合計病例54 468例次,是目前已知國內(nèi)最大規(guī)模的罕見病的橫斷面臨床調(diào)查;其研究數(shù)據(jù)調(diào)研基于病案數(shù)據(jù)的自動匹配,可最大程度減少人工輸入帶來的數(shù)據(jù)偏倚;但由于主要聚焦于住院患者,這可能造成病種或病例的遺漏。此外,已有報道表明約70%的罕見病在出生或兒童早期發(fā)病[8],而上述研究中14歲以下患者僅占比28.6%,提示兒童患者數(shù)據(jù)收錄嚴(yán)重不足,進(jìn)一步表明在兒童專科醫(yī)院開展罕見病登記數(shù)據(jù)庫建設(shè)的重要意義。
本研究分析了上海市兒童罕見病數(shù)據(jù)庫階段性建設(shè)成果,即來自本院在2008—2021 年收錄的6 341 例罕見病患者,這是迄今國內(nèi)最大規(guī)模的兒童罕見病病種特征分析。數(shù)據(jù)分析顯示收錄病例覆蓋調(diào)查清單中109 種疾病,其中排名前10 位的病種主要涉及血液科、心內(nèi)科、神經(jīng)內(nèi)科、內(nèi)分泌代謝科、皮膚科和兒??频扰R床科室。確診人數(shù)自2015 年開始顯著增加,這主要得益于高通量測序技術(shù)在作者所在單位的普及應(yīng)用[9]。這一技術(shù)的推廣,也顯著增加了低齡確診患者的比例,使得罕見病患兒在發(fā)病早期就能得到正確診斷。但與此同時,本研究發(fā)現(xiàn)早期診斷患者(<2 歲)比例呈逐年降低趨勢,2021 年比2015 年減少了30%。這一方面可能是由于近年來基因檢測技術(shù)在全國各地的普及推廣,發(fā)病早、臨床特征明顯的患者在當(dāng)?shù)匾呀?jīng)及時獲得診斷;與此同時,表型復(fù)雜且臨床診斷困難的罕見疑難病例比例相對增加,這部分患者往往有多家醫(yī)院就診經(jīng)歷,確診年齡有所增加。需要指出的是,既往由于部分罕見病病種ICD 編碼不規(guī)范及疾病名稱書寫不一致等因素,對數(shù)據(jù)庫自動抓取信息的準(zhǔn)確性和完整性帶來了較多挑戰(zhàn)。數(shù)據(jù)庫建設(shè)過程中,通過對ICD 編碼的審核校對以及對臨床科室的培訓(xùn),規(guī)范了疾病診斷名稱以及疾病編碼分類,全面推動了醫(yī)院在罕見病診療標(biāo)準(zhǔn)化方面的改進(jìn)。
基于可實(shí)現(xiàn)與NRDRS 的無縫銜接、以便于比較分析兒童和成年患者疾病譜特征的設(shè)計原則,上海市兒童罕見病數(shù)據(jù)庫首批建設(shè)病種全面參考了NRDRS 收錄的疾病目錄及變量特征。相較于NRDRS收錄病例數(shù)據(jù)[6],本研究患兒性別組成(男女比1.36)上接近NRDRS數(shù)據(jù)(男女性別比1.27,34 857/27475),但排名前10 的病種有一定差異(NRDRS:血友病、Duchenne/Becker型肌營養(yǎng)不良、脊髓小腦性共濟(jì)失調(diào)、罕見類型肺動脈高壓、常染色體顯性多囊腎病、原發(fā)性肌張力障礙、垂體腺瘤、重癥肌無力、Alport綜合征、早發(fā)型肌營養(yǎng)不良),重疊的病種僅有血友病、罕見類型肺動脈高壓和重癥肌無力。其中例數(shù)差異較大的病種之一是特納綜合征,NRDRS 中僅有127 例(0.02%),排列第57 位;而本研究中包含261例(4.1%)。造成這一疾病譜差異的原因是多方面的,一方面NRDRS主要依賴各協(xié)作中心的數(shù)據(jù)輸入,而各中心的疾病譜差異及數(shù)據(jù)輸入的全面性與否可能會導(dǎo)致最終的統(tǒng)計偏倚,基于這一考慮,上海市兒童罕見病數(shù)據(jù)庫采用主動抓取HIS系統(tǒng)信息方式建設(shè);另一方面,本研究僅納入單中心數(shù)據(jù)同樣存在疾病譜偏倚效應(yīng),因此,下一階段數(shù)據(jù)庫建設(shè)要實(shí)現(xiàn)多中心數(shù)據(jù)的同步。此外,部分疾病存在發(fā)病年齡偏倚,如常染色體顯性多囊腎病多在成年期被診斷,而兒童患者較少。類似地,通過與石鑫淼等[7]基于1 500 萬罕見病患者數(shù)據(jù)分析結(jié)果比較可以發(fā)現(xiàn),也僅有特發(fā)性肺動脈高壓和朗格漢斯細(xì)胞組織細(xì)胞增生癥在排名前10 的病種中有重疊。雖然罕見病的疾病譜特征在兒童期和成年期存在客觀差異,但這是否是導(dǎo)致上述不同研究之間疾病譜差異的主要原因,還有待兒童患者數(shù)據(jù)進(jìn)一步擴(kuò)充及NRDRS 數(shù)據(jù)全面性進(jìn)一步完善后再作分析。
本研究旨在為罕見病研究提供一種新的探索,即基于NRDRS 的數(shù)據(jù)集信息構(gòu)建兒童罕見病登記數(shù)據(jù)庫,自動抓取醫(yī)院信息數(shù)據(jù),更加客觀全面地收集病例資料。在下一階段的研究工作中,上海市兒童罕見病登記數(shù)據(jù)庫將打破地域限制,聯(lián)系上海和長三角地區(qū)主要兒童??漆t(yī)院并多中心收集數(shù)據(jù),與NRDRS 數(shù)據(jù)庫協(xié)作實(shí)現(xiàn)中國罕見病患者從兒童期到成年期的特征概貌。
本研究存在一定的局限性,登記數(shù)據(jù)庫建設(shè)內(nèi)容尚不能反映罕見病兒童的臨床特征全貌,包括臨床救治情況以及藥物可及性等數(shù)據(jù)信息。下一步的專病隊列建設(shè)工作將會制作標(biāo)準(zhǔn)化的專病數(shù)據(jù)集,全面收集并統(tǒng)計分析患兒的臨床資料,為罕見病患者的早期管理決策提供依據(jù)。