亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

復(fù)旦大學(xué)附屬兒科醫(yī)院高通量測序數(shù)據(jù)分析流程(第二版)對遺傳疾病候選變異基因篩選用時(shí)和準(zhǔn)確性分析

2018-05-28 08:06:25董欣然彭小敏吳冰冰王慧君盧宇藍(lán)周文浩

中國循證兒科雜志 2018年2期

楊琳董欣然彭小敏陳鄉(xiāng) 吳冰冰王慧君盧宇藍(lán) 周文浩,

全外顯子測序(WES)是指對基因組DNA上所有蛋白質(zhì)編碼序列(外顯子)進(jìn)行序列檢測和分析，臨床外顯子測序是指針對已知致病基因的全部編碼區(qū)進(jìn)行序列檢測和分析。這2項(xiàng)技術(shù)均屬于高通量測序的范疇。隨著高通量測序技術(shù)在科研及臨床的應(yīng)用，越來越多的醫(yī)生，認(rèn)可這項(xiàng)新的技術(shù)有益于患兒的診斷及臨床決策的制定[1-3]。

高通量測序技術(shù)用于臨床的主要瓶頸在于快速、準(zhǔn)確和自動化的數(shù)據(jù)分析。復(fù)旦大學(xué)附屬兒科醫(yī)院分子診斷中心(本中心)在2015年建立了高通量測序數(shù)據(jù)分析和臨床診斷流程(簡稱復(fù)旦流程1.0)[4,5]，應(yīng)用于臨床診斷不明病例，提升了對于遺傳性疾病的分子診斷水平。隨著送檢病例的不斷增加，本中心內(nèi)部數(shù)據(jù)庫的不斷積累，改進(jìn)并完善數(shù)據(jù)分析流程，引入從病例信息直接進(jìn)行表型提取的系統(tǒng)，根據(jù)表型進(jìn)行候選變異位點(diǎn)的自動分析及評估，形成了目前使用的本中心高通量測序數(shù)據(jù)分析和臨床診斷流程(簡稱復(fù)旦流程2.0)。

本文以同一批新生兒行分子診斷病例，分別以復(fù)旦流程1.0和2.0行針對數(shù)據(jù)分析結(jié)果、流程總耗時(shí)和準(zhǔn)確性的比較和分析，考察復(fù)旦流程2.0快速、準(zhǔn)確和自動的進(jìn)行大樣本量的數(shù)據(jù)分析的水平。

1 方法

1.1 病例納入標(biāo)準(zhǔn) 2017年11月7～14日取得家屬的知情同意的、送本中心進(jìn)行臨床外顯子檢測的連續(xù)病例。

1.2 考察指標(biāo) 以復(fù)旦流程1.0和2.0對納入病例針對數(shù)據(jù)分析結(jié)果、流程用時(shí)和準(zhǔn)確性的比較和分析。

1.3 復(fù)旦流程2.0版本圖1顯示，復(fù)旦流程2.0版本的5個功能，①臨床關(guān)鍵信息抓取、分析和校驗(yàn)(淺黃色)，②樣本管理、測序?qū)嶒?yàn)和質(zhì)控(淺綠色)；③表型和測序數(shù)據(jù)匯總和更新(淺藍(lán)色)，④變異位點(diǎn)自動化注釋和自動化分級系統(tǒng)(淺藍(lán)色)，⑤自動報(bào)告生成(淺藍(lán)色)。

圖1 復(fù)旦流程2.0版本功能示意圖

1.3.1 臨床關(guān)鍵信息抓取、分析和校驗(yàn) 臨床信息自動化處理系統(tǒng)包含了3個主要工具模塊。①分詞模塊，對原有的中文文本進(jìn)行分詞。將臨床描述和診斷根據(jù)常見停頓符號分為短句和短語；英文的分詞，采用UMLS提供的MetaMap軟件[6]進(jìn)行操作。②翻譯模塊，采用有道詞典應(yīng)用程序編程接口(API)的方式，將短語自動翻譯為英文或者將英文再翻譯回中文并將結(jié)果和現(xiàn)有語義庫比對，如存在模糊匹配，在輸出結(jié)果的同時(shí)將內(nèi)容輸入更新模塊，由臨床專家進(jìn)行判定，如果匹配正確，存入中英文語義庫。③臨床信息自動化提取系統(tǒng)，包含中英文臨床語義庫和標(biāo)準(zhǔn)語義庫(HPO)，HPO數(shù)據(jù)庫是將所有遺傳相關(guān)表型進(jìn)行標(biāo)準(zhǔn)化命名的網(wǎng)站[7]。臨床語義庫的詞條都將和HPO中的術(shù)語進(jìn)行關(guān)聯(lián)，從而轉(zhuǎn)換為結(jié)構(gòu)化HPO術(shù)語?，F(xiàn)有語義庫通過專家校驗(yàn)增添中文語義537條，包含英文縮寫DDH(HP:0001374 先天性髖關(guān)節(jié)脫位)等，中文縮寫甲減(HP:0000851 先天性甲狀腺功能減退癥)等，以及皮膚黃染(HP:0000952 黃疸)、吃奶差(HP:0011968 喂養(yǎng)困難)等對癥狀的通俗描述。通過翻譯最終匹配到英文語義庫的中文短語也將進(jìn)行記錄，再次處理相同短語時(shí)將加快速度，現(xiàn)有此類條目關(guān)聯(lián)共計(jì)57 667條，由于UMLS數(shù)據(jù)庫比HPO數(shù)據(jù)庫的條目多很多，因此其中48 867條并未最終匹配到HPO術(shù)語。

平臺模塊可以由臨床病歷提取系統(tǒng)自動觸發(fā)，也提供了可視化交互界面，方便臨床分子遺傳學(xué)醫(yī)生對語義庫進(jìn)行增刪修改，并且對每個條目進(jìn)行溯源。圖2為復(fù)旦流程2.0平臺模塊臨床信息自動化提取系統(tǒng)示意圖，如原有的語句為“早產(chǎn)氣促2天入院”，系統(tǒng)提取氣促和早產(chǎn)2個關(guān)鍵詞。早產(chǎn)為語義庫中已有條目，直接輸出對應(yīng)的HPO術(shù)語HP:0001622(早產(chǎn))；氣促并未匹配現(xiàn)有術(shù)語，但為病歷高頻詞，由專家添加HPO術(shù)語HP:0002098(呼吸窘迫)關(guān)聯(lián)至臨床中文語義庫；“極低出生體重兒”會匹配為HPO術(shù)語HP:0001518(足月小樣兒)。隨著語義庫的持續(xù)定期更新，語義庫將逐漸涵蓋新生兒場景的所有表型信息。

1.3.2 樣本管理、測序?qū)嶒?yàn)和質(zhì)控采用QIAGEN公司mini blood全血試劑盒及其標(biāo)準(zhǔn)DNA抽提方法提取基因組DNA(gDNA)，用美國Thermofisher公司生產(chǎn)的NanoDrop紫外光分光度儀測定樣本的濃度及定量。參照ClearSeq捕獲試劑盒說明書，基因組DNA經(jīng)過超聲打斷、末端修復(fù)、接頭連接、雜交捕獲。捕獲文庫采用Illumina HiSeq2000平臺，進(jìn)行序列檢測。原始圖像文件經(jīng)Illumina base calling Software 1.7進(jìn)行圖像識別(Base calling)，去除污染及接頭序列處理后。Clean reads采用Burrows-Wheeler Aligner(BWA)軟件v.0.5.9-r16，以人類基因組hg19(GRCh37)為參考序列進(jìn)行比對。

圖2 復(fù)旦流程2.0臨床信息自動化提取系統(tǒng)

表型和測序數(shù)據(jù)匯總和更新引入了HPO數(shù)據(jù)庫后，開發(fā)了臨床信息自動化處理系統(tǒng)，實(shí)現(xiàn)了將HIS系統(tǒng)中病例文書的內(nèi)容進(jìn)行自動化抽提和分析，進(jìn)而得到HPO術(shù)語(圖2)。在復(fù)旦流程2.0中，抽提的病例文書包含出院小結(jié)、病程記錄和門診記錄等，提取其中的臨床診斷和描述，優(yōu)先級為出院診斷>入院診斷>門診診斷>病程描述。

1.3.4 變異位點(diǎn)自動化注釋和自動化分級系統(tǒng) 在復(fù)旦流程1.0版基礎(chǔ)上精簡了篩選評估邏輯，升級拓展了本地人群數(shù)據(jù)庫和公共人群數(shù)據(jù)庫，添加了部分疾病和相關(guān)癥狀的中文描述，并增加了外顯率、發(fā)病年齡和疾病系統(tǒng)。包括以下7個主要步驟。

1.3.4.1 質(zhì)量控制主要核對并解析所輸入VCF文件的版本和格式，合并SNV和Indel的結(jié)果，臨時(shí)拆分多態(tài)性位點(diǎn)，并精簡出后續(xù)分析所關(guān)注的測序相關(guān)質(zhì)量控制信息。關(guān)鍵信息包括變異dbSNP編號、變異的覆蓋深度、符合參考堿基和符合變異堿基的測序片段數(shù)目、位點(diǎn)的質(zhì)量得分和分級、以及初步的基因型判斷(純合或雜合)。這一步視測序質(zhì)量，實(shí)踐中一般濾去0～1個位點(diǎn)。

1.3.4.2 捕獲測序區(qū)域篩選基于捕獲的二代測序(如全外顯子組測序或基因panel)，理論上所檢測到的變異應(yīng)該都位于捕獲區(qū)域。但由于實(shí)驗(yàn)或分析方面的誤差，以及患兒基因組上的特殊情況，VCF中往往含有捕獲區(qū)域之外的變異。這些變異很可能為實(shí)驗(yàn)誤差，但也有可能為真實(shí)的致病變異。考慮到后續(xù)分析往往圍繞既往報(bào)道史和變異對基因功能的影響來展開，這一步篩選將會篩除所有距離外顯子區(qū)15bp以外的變異，但既往文獻(xiàn)報(bào)道致病的突變不受影響。這一過程與VCF的生成過程有關(guān)，實(shí)踐中一般會濾去約15 000個位點(diǎn)。

1.3.4.3 公共人群頻率注釋篩選引入gnomAD數(shù)據(jù)庫(http://gnomad.broadinstitu te.org/)，增加公共人群頻率參考來源。該數(shù)據(jù)庫包含8 624份東亞人群的外顯子測序數(shù)據(jù)和811分東亞人群的全基因組測序數(shù)據(jù)。在實(shí)際操作過程中，會濾掉7 000～10 000個位點(diǎn)。

1.3.4.4 本地人群頻率注釋篩選根據(jù)不同的測序捕獲技術(shù)(WES或各種Panel)建立本地人群子庫，更加精確的區(qū)分測序平臺誤差變異和人群高頻位點(diǎn)；建立基因“白名單”和“黑名單”系統(tǒng)，保護(hù)人群高頻的已知致病/功能性多態(tài)位點(diǎn)不被篩選(白名單)，以及排除因假基因/異常結(jié)構(gòu)導(dǎo)致測序錯誤的假陽性位點(diǎn)的干擾(黑名單)；通過按染色體分表等方式改進(jìn)數(shù)據(jù)庫查詢效率，綜合提升分析速度。會濾去800-1 000個位點(diǎn)。

1.3.4.5 危害性注釋篩選與復(fù)旦流程V1.0并相似，僅對ANNOVAR和VEP的數(shù)據(jù)庫版本進(jìn)行了更新，并改善了關(guān)鍵信息的提取(比如不同轉(zhuǎn)錄本的選擇、涉及重疊基因時(shí)的基因優(yōu)選等)。但由于流程本身涉及人群頻率和既往報(bào)道史的綜合判斷，所以整體分析結(jié)果得到了進(jìn)一步改善。濾去的位點(diǎn)80～100個。

1.3.4.6 遺傳模式優(yōu)選在復(fù)旦流程V1.0的基礎(chǔ)上，增加了對外顯率不全的考慮，使得家系分析中對于顯性基因的判斷更為靈活。與美國貝勒醫(yī)學(xué)院合作，在OMIM數(shù)據(jù)庫的基礎(chǔ)上進(jìn)一步參考美國貝勒醫(yī)學(xué)院的遺傳模式補(bǔ)充記錄，豐富已知致病基因可能的遺傳模式。濾去約20個位點(diǎn)。

復(fù)旦流程2.0的分析系統(tǒng)引入了表型關(guān)聯(lián)分析和臨床報(bào)告精選2項(xiàng)新的功能。表型相關(guān)分析基于先驗(yàn)的貝葉斯模型，同時(shí)考慮表型的特異度和疾病的表型豐富度，能更好地找出滿足關(guān)鍵癥狀的相關(guān)基因(該算法的方法學(xué)文章待發(fā)表)。臨床報(bào)告精選系統(tǒng)基于ACMG的指導(dǎo)框架，運(yùn)用機(jī)器學(xué)習(xí)手段綜合考慮變異危害程度、人群頻率、既往報(bào)道、遺傳模式等特征值，精選出最需要優(yōu)先考量的致病位點(diǎn)，大大加快了臨床專家對于致病性位點(diǎn)的尋找和判定。

1.3.4.7 變異分級的判斷標(biāo)準(zhǔn) 對每個病例，系統(tǒng)分析得到的臨床精選位點(diǎn)約15個，表型相關(guān)位點(diǎn)考慮排名前5的基因。若臨床精選位點(diǎn)同時(shí)也滿足表型相關(guān)，則列為主要發(fā)現(xiàn)候選；若表型關(guān)聯(lián)較弱，則列為其他發(fā)現(xiàn)候選；若表型關(guān)聯(lián)較高的位點(diǎn)不滿足臨床精選的標(biāo)準(zhǔn)，則列為相關(guān)發(fā)現(xiàn)候選。這種變異分級是在ACMG的變異五類分級的基礎(chǔ)上，針對具體的臨床干預(yù)措施而進(jìn)一步區(qū)分。從ACMG變異分級指導(dǎo)結(jié)果來看，最終納入報(bào)告候選的變異僅包括致病、可能致病和意義不明三類位點(diǎn)。從報(bào)告的可讀性和精簡性出發(fā)，一方面報(bào)告中不再羅列良性和可能良性的變異位點(diǎn)；另一方面報(bào)告直接結(jié)合患兒送檢時(shí)的臨床表型記錄，將具有致病潛質(zhì)的變異進(jìn)一步分類為主要發(fā)現(xiàn)、相關(guān)發(fā)現(xiàn)和其他發(fā)現(xiàn)。其中，主要發(fā)現(xiàn)中列出了符合當(dāng)前患兒臨床表型的明確致病變異。這一類變異具有很高的臨床診斷價(jià)值，應(yīng)高度重視并參考；相關(guān)發(fā)現(xiàn)中列出的則是與當(dāng)前患兒臨床表型相符，但致病性不夠明確的變異，例如不符合遺傳模式或意義未明的錯義突變。這一類變異應(yīng)當(dāng)進(jìn)一步完善家系數(shù)據(jù)，確認(rèn)疾病的遺傳模式或是采用其他檢測方法進(jìn)一步挖掘潛在的變異(例如LOH、父母生殖細(xì)胞嵌合等情況)；其他發(fā)現(xiàn)中則列出了致病性較為明確或是有既往報(bào)道史，但當(dāng)前患兒并未體現(xiàn)出相關(guān)臨床癥狀的變異位點(diǎn)。這一類變異建議臨床考慮進(jìn)一步豐富明確患兒癥狀，或是在未來的隨訪中高度關(guān)注變異相關(guān)的表型。

1.4 自動報(bào)告生成基因檢測報(bào)告從內(nèi)容上不僅僅是羅列致病位點(diǎn)，還需要包含致病位點(diǎn)的解讀說明等；從操作上，在形成規(guī)范化報(bào)告文檔的同時(shí)需要避免冗余的重復(fù)性操作。臨床快速報(bào)告自動化生成系統(tǒng)，選取文檔模板，自動從平臺數(shù)據(jù)庫抽提患者基本信息形成報(bào)告表頭；根據(jù)位點(diǎn)標(biāo)注分級結(jié)果，給出結(jié)論，并將所選位點(diǎn)填入對應(yīng)表格(主要發(fā)現(xiàn)、次要發(fā)現(xiàn)和補(bǔ)充發(fā)現(xiàn))，并且選取HGVS標(biāo)準(zhǔn)化命名、自動補(bǔ)充該位點(diǎn)的染色體位置、OMIM注釋、HGMD注釋、父母來源等信息；根據(jù)位點(diǎn)所在基因信息，自動補(bǔ)全對該基因的生物學(xué)功能描述，這些描述存在平臺內(nèi)部數(shù)據(jù)庫中，提供了可視化平臺對描述進(jìn)行添加、更新等操作。在現(xiàn)有數(shù)據(jù)庫平臺中，已經(jīng)包含683條對基因的描述信息，每條描述包含了對該基因關(guān)聯(lián)的OMIM疾病概述、基因的致病機(jī)制、該疾病的主要臨床表現(xiàn)以及遺傳模式、疾病發(fā)作時(shí)期等信息。報(bào)告自動化系統(tǒng)的可視化平臺還包含了多種輔助功能，可以快速提交Sanger驗(yàn)證、多報(bào)告匯總、報(bào)告加密、報(bào)告歸檔等請求。

變異評級標(biāo)準(zhǔn)參考了美國遺傳學(xué)會的變異評級標(biāo)準(zhǔn)[8]，制定本中心變異評級標(biāo)準(zhǔn)。

致病變異的標(biāo)準(zhǔn)為，①與先證者表型相符；②為已經(jīng)明確的致病變異。

可疑致病變異的標(biāo)準(zhǔn)為，①與先證者表型相符；②與已經(jīng)明確的致病變異有相同的氨基酸改變(不同的堿基改變)；有害變異(無義變異，移碼變異，典型+/-1或2剪接位點(diǎn)變異，起始密碼子變異，單個或多個外顯子缺失)，且該基因功能缺失為已知的致病機(jī)制；③符合該致病基因已知的遺傳模式。

相關(guān)變異的標(biāo)準(zhǔn)為，①位點(diǎn)所在基因的相關(guān)疾病與目前患兒表型部分相關(guān)；②符合顯性遺傳模式的臨床意義不明確的遺傳變異；③符合隱性遺傳模式，僅發(fā)現(xiàn)一個致病/疑似致病的雜合致病變異；④符合隱性遺傳模式，發(fā)現(xiàn)純合的或復(fù)合雜合的臨床意義不明確的變異。

其他發(fā)現(xiàn)的標(biāo)準(zhǔn)為，位點(diǎn)所在基因的相關(guān)疾病與目前患兒表型部分不相關(guān)；同1.3.3中②；符合該致病基因已知的遺傳模式。

2 結(jié)果

2.1 一般情況符合本文納入標(biāo)準(zhǔn)112例患兒進(jìn)入分析，男性50例，女性62例。年齡在10 h至28 d。復(fù)旦流程1.0和2.0，均由生物信息專業(yè)資深成員建立及維護(hù)，人工審核由經(jīng)過臨床遺傳學(xué)培訓(xùn)的臨床醫(yī)生完成。該團(tuán)隊(duì)每年完成超過5 000例的高通量測序臨床報(bào)告的分析及解讀。

2.2 結(jié)果的比較復(fù)旦流程1.0包括獲得測序原始數(shù)據(jù)、拼接連接比對、獲得變異結(jié)果、變異注釋、生物信息學(xué)篩選、人工數(shù)據(jù)分析及報(bào)告書寫等7個主要步驟。復(fù)旦流程2.0，在變異經(jīng)過生物信息學(xué)篩選后，通過病例中提取臨床表型，自動表型基因型比對流程，即通過表型對于變異進(jìn)行逐個評級，將致病變異及相關(guān)變異分別列出。數(shù)據(jù)分析結(jié)果顯示(表1)，復(fù)旦流程2.0較復(fù)旦流程1.0在升級了變異的注釋篩選、整合了表型進(jìn)入篩選后，需要人工進(jìn)行判讀的變異數(shù)量大幅度的減少。使得高通量數(shù)據(jù)分析的時(shí)間得以壓縮，提高了數(shù)據(jù)分析的效率。

表1 復(fù)旦流程1.0與2.0進(jìn)入手工分析變異的比較/個

2.3 用時(shí)比較復(fù)旦流程1.0和2.0完成112例從樣本送達(dá)到初步報(bào)告形成的時(shí)間，分別為78.8 h和19.8 h。表2顯示，HPO的提取、變異的分級和報(bào)告的撰寫，復(fù)旦流程1.0和2.0分別為78.8 h(4 725 min)和19.8 h(1 186 min)。

表2 復(fù)旦流程1.0與2.0每個步驟所用時(shí)間的比較

本文112例樣本口頭報(bào)告時(shí)間為13～16 d，報(bào)告發(fā)出的總TAT為20～33 d。測序環(huán)節(jié)(從收到樣本到DNA提取、建庫、上機(jī)測序)2～3周；數(shù)據(jù)分析到報(bào)告撰寫環(huán)節(jié)，利用已經(jīng)建立好的流程2.0，達(dá)到了在測序數(shù)據(jù)拿到24h內(nèi)，口頭報(bào)告陽性病例。

2.4 準(zhǔn)確性的比較 112例經(jīng)人工審核，8例檢測到致病/可疑變異，12例檢測到相關(guān)發(fā)現(xiàn)，其中3例經(jīng)家系驗(yàn)證后，升級為致病/可疑變異，陽性率為9.8%(11/112)。復(fù)旦流程2.0與人工審核結(jié)果判讀符合率82.1%(92/112),其中與人工審核后陽性結(jié)果判讀符合率為63.6%(7/11),與人工審核后陰性結(jié)果判讀符合率84.2%(85/101)。

圖3 復(fù)旦流程2.0對1例維生素B6依賴性癲患兒致病變異的鎖定

3 討論

3.1 NGS數(shù)據(jù)分析的發(fā)展過程目前國際上NGS的大型數(shù)據(jù)中心有：美國的Genome Center at White Head/MIT、Washington University Genome Center、Genome Center at Baylor Medical Collage、英國的Sanger Center，中國的華大基因研究中心等。成規(guī)模的數(shù)據(jù)分析的中心有：Baylor Medical Collage、GeneDex、UCLA、Ambry Genetics等。其中，Baylor Medical Collage的Genome Center成功建立了將基因組水平的變異分析用于臨床分子的診斷的經(jīng)典高通量測序數(shù)據(jù)分析流程[2,3]。

Stephen Francis Kingsmore教授等所在的美國Children’s Mercy Hospital的兒科基因組學(xué)中心及University of Missouri-Kansas City醫(yī)學(xué)院，該研究團(tuán)隊(duì)通過表型-基因型關(guān)聯(lián)數(shù)據(jù)庫(Symptom-and sign-assisted genome analysis correlation tool, SSAGA)、HiSeq 2500測序、基因組序列比對軟件、變異快速分析解釋工具(Rapid Understanding of Nucleotide variant Effect Software, RUNES)，可以在50 h做到從NICU患者血樣DNA的提取到WGS數(shù)據(jù)分析解釋工作全部完成[6]，并且有研究報(bào)道已經(jīng)到達(dá)了26 h。

上述研究及臨床應(yīng)用，均為高通量測序數(shù)據(jù)分析流程真正用于臨床打下了堅(jiān)實(shí)的基礎(chǔ)。本中心在2014年，通過與Baylor Medical Collage的合作，初步形成了復(fù)旦流程1.0，并用于臨床診斷[9]。2014至2015年每周的行高通量測序的樣本量10～30例。隨著NGS成本的不斷下降及臨床醫(yī)生對于該項(xiàng)技術(shù)的認(rèn)可度不斷提升，現(xiàn)在每周樣本量100～200例，需要提供更加快速、準(zhǔn)確的數(shù)據(jù)分析流程，用以更大范圍的解決臨床問題。

3.2 復(fù)旦流程2.0的主要優(yōu)勢 ①從病歷中自動提取先證者和/或核心家系的臨床信息。復(fù)旦流程1.0中，臨床信息的提取完全依靠手工，每個病例從住院病史及門診病例中，整理需要的相關(guān)信息，并從中總結(jié)出主要的臨床表型，用于下一步的表型基因型關(guān)聯(lián)性分析，每個病例的平均耗時(shí)10 min。復(fù)旦流程2.0引入了臨床信息自動化處理系統(tǒng)。通過分詞模塊、翻譯模塊，完成臨床信息的初步提取，將提取出的信息和語義庫進(jìn)行比對，標(biāo)注成為標(biāo)準(zhǔn)格式的HPO term。這些HPO term可以直接用于后續(xù)自動化的表型基因型關(guān)聯(lián)性分析。②自動化表型基因型比對流程，即根據(jù)表型對于變異進(jìn)行逐個評級，將致病變異及相關(guān)變異自動列出。這一功能的實(shí)現(xiàn)，主要依靠公共數(shù)據(jù)庫中(OMIM、HGMD、HPO等)，已經(jīng)明確的基因與表型之間的關(guān)系，將每個基因?qū)?yīng)到相關(guān)的多個表型。一旦患兒的HPO term出現(xiàn)該表型，特定的基因便會自動列為候選基因，該基因上的特定類型的變異就作為致病/可疑致病變異。③內(nèi)部數(shù)據(jù)庫的不斷擴(kuò)大，對于致病變異及良性變異的數(shù)量成指數(shù)級增加。本中心高通量基因檢測數(shù)據(jù)庫中，已經(jīng)納入的樣本數(shù)超過15 000例。內(nèi)部數(shù)據(jù)庫的完善，可以快速明確注釋致病變異及良性變異。為復(fù)旦流程2.0的建立也提供了堅(jiān)實(shí)的基礎(chǔ)。通過內(nèi)部數(shù)據(jù)庫的建立，對于表型的常見遺傳病因譜及特定基因的熱點(diǎn)突變譜，形成了檢測人群特異性的數(shù)據(jù)。

3.3 復(fù)旦流程2.0后續(xù)的改進(jìn)方向人工智能使得對于海量數(shù)據(jù)的整理和管理成為可能?；蚪M水平的數(shù)據(jù)分析更是需要依靠自動化的“智能”流程，才能實(shí)現(xiàn)快速、準(zhǔn)確。復(fù)旦流程2.0與人工審核后陽性結(jié)果判讀符合率為63.6%(7/11),與人工審核后陰性結(jié)果判讀符合率84.2%(85/101)。說明目前還不能完全依靠機(jī)器判讀，必需結(jié)合人工判讀，特別是對致病/可疑致病的判讀。隨著數(shù)據(jù)庫的不斷豐富和更新，加之引入機(jī)器學(xué)習(xí)來進(jìn)一步擴(kuò)充表型基因型的關(guān)聯(lián)性，機(jī)器判讀不致病/不可疑致病能力會進(jìn)一步優(yōu)先提高，同樣也會帶來對于變異位點(diǎn)的自動判讀，尤其對于高度異質(zhì)性的疾病，自動數(shù)據(jù)分析準(zhǔn)確性的提高。隨著人工智能技術(shù)所占比例的不斷增加，表型基因型關(guān)聯(lián)性的建立更加智能，逐漸減少人工數(shù)據(jù)分析及審核所占的比重。

目前復(fù)旦流程2.0中表型基因型的關(guān)聯(lián)性，主要依靠公共數(shù)據(jù)庫中(OMIM、HGMD、HPO等)已經(jīng)明確的基因型與表型之間的關(guān)系。上述公共數(shù)據(jù)庫中總結(jié)的患者表型，包含亞洲人、中國人數(shù)據(jù)相對較少。本中心高通量基因檢測數(shù)據(jù)庫中，已經(jīng)納入的樣本數(shù)超過15 000例。通過內(nèi)部數(shù)據(jù)庫完善，建立內(nèi)部的表型基因型關(guān)聯(lián)性，使得復(fù)旦流程2.0更加適合中國特定人群的數(shù)據(jù)分析。

致謝：衷心感謝對本中心高通量基因檢測數(shù)據(jù)庫做出貢獻(xiàn)的患兒及其家屬，這些重要的貢獻(xiàn)不僅對中國人群、同樣對世界人群基因與表型關(guān)系都是彌足珍貴的，復(fù)旦流程2.0將繼續(xù)努力不辜負(fù)你們的貢獻(xiàn)。

參考文獻(xiàn)

[1] Miller NA, Farrow EG, Gibson M, et al. A 26-hour system of highly sensitive whole genome sequencing for emergency management of genetic diseases. Genome Med, 2015, 7: 100

[2] Yang Y, Muzny DM, Reid JG, et al. Clinical whole-exome sequencing for the diagnosis of mendelian disorders. N Engl J Med, 2013, 369(16): 1502-1511

[3] Yang Y, Muzny DM, Xia F, et al. Molecular findings among patients referred for clinical whole-exome sequencing. JAMA, 2014, 312(18): 1870-1879

[4] 黎籽秀, 劉博, 徐凌麗, 等. 高通量測序數(shù)據(jù)分析和臨床診斷流程的解讀. 中國循證兒科雜志，2015，10(1)：19-24

[5] 黎籽秀, 劉博, 楊琳, 等. 高通量測序數(shù)據(jù)分析和臨床診斷流程對新生兒多發(fā)畸形候選變異的篩選準(zhǔn)確性研究. 中國循證兒科雜志, 2015, 10(1): 25-28

[6] Saunders CJ, Miller NA, Soden SE, et al. Rapid whole-genome sequencing for genetic disease diagnosis in neonatal intensive care units. Sci Transl Med, 2012, 4(154): 154ra135

[7] Kohler S, Vasilevsky NA, Engelstad M, et al. The Human Phenotype Ontology in 2017. Nucleic Acids Res, 2017, 45(D1): D865-D876

[8] Richards S, Aziz N, Bale S, et al. Standards and guidelines for the interpretation of sequence variants: a joint consensus recommendation of the American College of Medical Genetics and Genomics and the Association for Molecular Pathology. Genet Med, 2015, 17(5): 405-424

[9] 楊琳, 黎籽秀, 梅枚, 等. 全外顯子組序列分析新生兒FGFR2基因相關(guān)疾病1例. 中國循證兒科雜志, 2015, 10(1): 34-39

[10] Mills PB, Footitt EJ, Mills KA, et al. Genotypic and phenotypic spectrum of pyridoxine-dependent epilepsy (ALDH7A1 deficiency). Brain, 2010, 133(Pt 7): 2148-2159

[11] Been JV, Bok LA, Willemsen MA, et al. Mutations in theALDH7A1 gene cause pyridoxine-dependent seizures. Arq Neuropsiquiatr, 2008, 66(2A): 288, author reply 288-289

[12] Milh M, Pop A, Kanhai W, et al. Atypical pyridoxine-dependent epilepsy due to a pseudoexon inALDH7A1. Mol Genet Metab, 2012, 105(4): 684-686

[13] Yang Z, Yang X, Wu Y, et al. Clinical diagnosis, treatment, andALDH7A1 mutations in pyridoxine-dependent epilepsy in three Chinese infants. PloS one, 2014, 9(3): e92803