曹宗富,王雷,羅敏娜,喻浴飛,陳翠霞,路建波,高華方,馬旭*
(1. 北京協(xié)和醫(yī)學(xué)院研究生院,北京 100730;2. 國(guó)家衛(wèi)生計(jì)生委科學(xué)技術(shù)研究所,北京 100081;3. 國(guó)家人類遺傳資源中心,北京 102206;4. 博奧生物有限公司,北京 102206)
Joubert綜合征(Joubert syndrome,簡(jiǎn)稱JS,MIM#213300)是一種罕見的神經(jīng)發(fā)育性遺傳病,于1969年由Joubert等[1]首次報(bào)道。后續(xù)研究表明Joubert綜合征是一種常染色體隱性單基因遺傳病,發(fā)病率估計(jì)在1/100 000~1/8 000[2-3]。其平均死亡年齡在7歲左右,6歲以下患者死亡原因主要是呼吸系統(tǒng)衰竭,年長(zhǎng)患者主要死亡原因是腎衰竭[4]。Joubert綜合征最典型的特點(diǎn)為小腦蚓部發(fā)育不全或缺如,臨床表現(xiàn)主要包括陣發(fā)性呼吸過度或者呼吸暫停、共濟(jì)失調(diào)、發(fā)育遲緩、眼球運(yùn)動(dòng)障礙、認(rèn)知缺陷,部分患者常伴發(fā)視網(wǎng)膜缺損或視網(wǎng)膜發(fā)育不良、多囊腎和多指(趾)癥、肝纖維囊腫等。Joubert綜合征通常由MRI結(jié)合臨床表現(xiàn)進(jìn)行確診,其主要的影像學(xué)特征性表現(xiàn)有:小腦蚓部部分或完全缺如,表現(xiàn)出“磨牙征”(molar tooth sign,MTS),“中線裂”或“蝙蝠翼”,其中“磨牙征”被視為Joubert綜合征診斷的最重要特征[5]。
在精準(zhǔn)醫(yī)學(xué)時(shí)代,查明Joubert綜合征患者攜帶的致病基因變異是精確診斷所必要的,同時(shí),對(duì)后續(xù)針對(duì)性的治療、以及進(jìn)一步的產(chǎn)前診斷和干預(yù)也是非常有幫助的。然而,Joubert綜合征具有較強(qiáng)的遺傳異質(zhì)性,涉及到數(shù)十個(gè)基因[6]。因此,如何快速準(zhǔn)確而全面地獲得Joubert綜合征相關(guān)的致病基因,以及這些基因上的對(duì)應(yīng)變異,是精準(zhǔn)醫(yī)學(xué)時(shí)代Joubert綜合征相關(guān)遺傳學(xué)研究和應(yīng)用中一個(gè)亟待解決的問題。隨著基因組技術(shù)尤其是高通量測(cè)序和芯片技術(shù)的快速發(fā)展,人們對(duì)疾病的遺傳學(xué)基礎(chǔ)有了越來越多的認(rèn)識(shí),同時(shí)也產(chǎn)生了大量的數(shù)據(jù),成熟的計(jì)算機(jī)技術(shù)使得大量的公共數(shù)據(jù)庫(kù)產(chǎn)生和發(fā)布,如人類表型本體數(shù)據(jù)庫(kù)(Human Phenotype Ontology,HPO)[7]、罕見病和孤兒藥數(shù)據(jù)庫(kù)(the Portal for Rare Diseases and Orphan Drugs,Orphanet)[8]、人類孟德爾病在線數(shù)據(jù)庫(kù)(Online Mendelian Inheritance in Man,OMIM)[9]、ClinVar[10]、全球蛋白資源數(shù)據(jù)庫(kù)(The Universal Protein Resource,UniProt)[11]、人類基因突變數(shù)據(jù)庫(kù)(The Human Gene Mutation Database,HGMD)[12]、PubMed等,除了OMIM和HGMD之外,其它數(shù)據(jù)庫(kù)都是完全公開的。這些關(guān)系型數(shù)據(jù)庫(kù),整合了已經(jīng)報(bào)道的表型與基因變異的臨床證據(jù)信息。因此,基于公共數(shù)據(jù)庫(kù)和PubMed文獻(xiàn)庫(kù)來抓取并整合得到特定表型相關(guān)的基因和變異,將是可供選擇的解決方案之一[13-18]。R VarfromPDB是我們?yōu)榫幾g遺傳病基因變異數(shù)據(jù)庫(kù)而專門開發(fā)的一個(gè)R軟件包,完全公開,網(wǎng)址為https://cran.r-project.org/web/packages/VarfromPDB/index.html。本研究的目的就是,基于R VarfromPDB軟件包,開發(fā)建立一種自動(dòng)化方法,從公共數(shù)據(jù)庫(kù)和PubMed文獻(xiàn)知識(shí)庫(kù)中來獲取Joubert綜合征相關(guān)的基因和變異。
HPO、Orphanet、ClinVar、UniProt等公共數(shù)據(jù)庫(kù)和PubMed文獻(xiàn)知識(shí)庫(kù)。
(一)環(huán)境配置和參數(shù)設(shè)置
該方法基于開源軟件R實(shí)現(xiàn),需要先下載并安裝R軟件。然后配置本地計(jì)算機(jī)環(huán)境,安裝R VarfromPDB軟件包,加載VarfromPDB、RISmed和strigi軟件包。指定關(guān)鍵詞為“Joubert syndrome”,利用dir.create函數(shù)自動(dòng)化建立輸入和輸出文件目錄。
(二)數(shù)據(jù)庫(kù)的本地化
為了保證多次運(yùn)行任務(wù)的效率,需要把各個(gè)數(shù)據(jù)庫(kù)中相關(guān)的文件全部先下載到本地計(jì)算機(jī)上。該任務(wù)只有在需要更新數(shù)據(jù)庫(kù)和第1次執(zhí)行時(shí)運(yùn)行?;赗 VarfromPDB軟件包的localPDB函數(shù)自動(dòng)化實(shí)現(xiàn),自動(dòng)下載的文件會(huì)保存在localPDB文件夾下。
(三)從公共數(shù)據(jù)庫(kù)中分別提取Joubert綜合征相關(guān)基因和變異
1. 從HPO數(shù)據(jù)庫(kù)中提取Joubert綜合征相關(guān)的疾病亞型名稱和基因:HPO數(shù)據(jù)庫(kù)是人類表型本體的標(biāo)準(zhǔn)化數(shù)據(jù)庫(kù)。HPO數(shù)據(jù)庫(kù)的主要目標(biāo)是,提供人類疾病中表型異常的標(biāo)準(zhǔn)化詞匯。每一個(gè)術(shù)語(yǔ)描述了一個(gè)表型異常,如室間隔缺陷。目前,HPO的術(shù)語(yǔ)主要基于文獻(xiàn)報(bào)告、Orphanet、DECIPHER和OMIM等數(shù)據(jù)庫(kù),包含了遺傳性疾病相關(guān)的大約11 000個(gè)術(shù)語(yǔ)和115 000個(gè)以上的注釋。同時(shí),HPO還提供了約4 000種復(fù)雜疾病的相關(guān)注釋。所有HPO的數(shù)據(jù)都可自由下載或在線瀏覽。
從HPO數(shù)據(jù)庫(kù)中可以獲取Joubert綜合征相關(guān)的亞型名稱、每種亞型對(duì)應(yīng)的臨床特征以及在其它數(shù)據(jù)庫(kù)中的ID信息,主要基于函數(shù)pheno_extract_HPO實(shí)現(xiàn)。
2.從Orphanet數(shù)據(jù)庫(kù)中提取Joubert綜合征相關(guān)的基因:Orphanet(http://www.orpha.net/consor/cgi-bin/index.php)是專注于罕見病和孤兒藥的參考性數(shù)據(jù)庫(kù),其目標(biāo)旨在幫助罕見病患者來改善診斷、照護(hù)和治療。Orphanet是由法國(guó)國(guó)家健康與醫(yī)學(xué)研究所(INSERM)發(fā)起的包括40多個(gè)國(guó)家的協(xié)會(huì)來領(lǐng)導(dǎo)的合作組織。國(guó)際團(tuán)隊(duì)負(fù)責(zé)各個(gè)國(guó)家收集專業(yè)中心、醫(yī)學(xué)實(shí)驗(yàn)室、進(jìn)展的研究和病人組織等信息。Orphanet可自由提供以下服務(wù):①基于已經(jīng)發(fā)表的專家分類得到的罕見病的詳細(xì)目錄和分類;②英文和法文的罕見病百科全書,并正在不斷翻譯成其他語(yǔ)言;③目前處于各個(gè)開發(fā)階段的孤兒藥的詳細(xì)目錄;④專家資源,提供Orphanet協(xié)會(huì)各個(gè)國(guó)家罕見病領(lǐng)域的專家診所、醫(yī)學(xué)實(shí)驗(yàn)室、項(xiàng)目研究進(jìn)展、臨床試驗(yàn)、注冊(cè)者、網(wǎng)絡(luò)技術(shù)平臺(tái)和病人組織等信息;⑤允許用戶根據(jù)癥狀和體征來檢索的輔助診斷工具(assistance-to-diagnosis tool);⑥緊急醫(yī)護(hù)和麻醉的建議和指導(dǎo);罕見病和孤兒藥領(lǐng)域相關(guān)的新聞、科學(xué)和政治事件的介紹;⑦專題報(bào)道等。
從Orphanet數(shù)據(jù)庫(kù)中可以提取Joubert綜合征相關(guān)的基因,主要基于函數(shù)extract_genes_orphanet實(shí)現(xiàn)。
3.從ClinVar數(shù)據(jù)庫(kù)中提取Joubert綜合征相關(guān)的基因和變異:ClinVar(http://www.ncbi.nlm.nih.gov/clinvar/)是一個(gè)描述人類遺傳變異和表型關(guān)系的整合型綜合性數(shù)據(jù)庫(kù)。ClinVar整合了多個(gè)數(shù)據(jù)庫(kù)的信息,除了OMIM、dbSNP和dbVar之外,它根據(jù)MedGen數(shù)據(jù)庫(kù)來定義表型,根據(jù)Gene數(shù)據(jù)庫(kù)來定義基因,根據(jù)RefSeqs數(shù)據(jù)庫(kù)來獲得序列變異的位置信息。ClinVar還是一個(gè)由用戶驅(qū)動(dòng)的開放型數(shù)據(jù)庫(kù),允許多個(gè)用戶提交數(shù)據(jù),相同的變異-表型關(guān)系可得到相互驗(yàn)證。
從ClinVar數(shù)據(jù)庫(kù)中提取Joubert綜合征相關(guān)的基因和變異信息,主要基于函數(shù)extract_clinvar實(shí)現(xiàn)。
4. 從UniProt數(shù)據(jù)庫(kù)中提取Joubert綜合征相關(guān)的基因和變異:UniProt中收錄的變異主要是導(dǎo)致氨基酸改變的變異。該數(shù)據(jù)庫(kù)中的變異來源主要是Swiss-Prot、TrEMBL和PIR-PSD三大數(shù)據(jù)庫(kù),與其它數(shù)據(jù)庫(kù)的來源不同,可作為ClinVar、OMIM、Orphanet等的補(bǔ)充。
從UniProt數(shù)據(jù)庫(kù)中提取基因和變異信息,可基于extract_uniprot函數(shù)實(shí)現(xiàn)。
5. 整合從公共數(shù)據(jù)庫(kù)中提取的Joubert綜合征相關(guān)基因和變異:根據(jù)國(guó)際基因命名委員會(huì)(HGNC)的基因命名標(biāo)準(zhǔn),把不同數(shù)據(jù)庫(kù)來源的Joubert相關(guān)基因,都轉(zhuǎn)換成標(biāo)準(zhǔn)基因名稱,然后進(jìn)行整合,主要基于函數(shù)genes_compile和variants_compile來實(shí)現(xiàn)。
(四)從PubMed文獻(xiàn)知識(shí)庫(kù)中提取Joubert綜合征相關(guān)的基因和變異
PubMed E-utilities為編程接口提供了與web搜索相同的結(jié)果。以“Joubert syndrome”為關(guān)鍵詞組成的檢索式檢索得到文獻(xiàn)摘要,然后基于文本挖掘提取相關(guān)的表型、基因和變異信息。同時(shí),文章出版信息、作者信息等也被提取出來。在文本挖掘過程中,疾病表型信息和基因名稱基于字典的方法提取,變異信息則根據(jù)人類基因組變異協(xié)會(huì)(Human Genome Variation Society,HGVS)的命名規(guī)則以正則表達(dá)式進(jìn)行識(shí)別提取。當(dāng)存在多對(duì)基因和變異關(guān)系時(shí),基于語(yǔ)句水平的共現(xiàn)性建立關(guān)聯(lián)規(guī)則。該過程主要基于函數(shù)extract_pubmed實(shí)現(xiàn)。
(五)追加PubMed來源的基因
對(duì)從PubMed自動(dòng)提取的疾病基因變異關(guān)系,基于3個(gè)標(biāo)準(zhǔn)進(jìn)行篩選:①基因具有標(biāo)準(zhǔn)名稱;②基因組上具有明確的物理位置;③該基因上有一個(gè)以上的變異。通過函數(shù)genes_add_pubmed實(shí)現(xiàn)所有基因的合并,得到所有與Joubert綜合征相關(guān)的基因集合。這些基因還根據(jù)數(shù)據(jù)庫(kù)來源和文獻(xiàn)等證據(jù)的強(qiáng)弱程度進(jìn)行評(píng)分,并從強(qiáng)到弱進(jìn)行排序,供后續(xù)人工核查做參考。
(六)建立自動(dòng)化流程
將上述各步驟所有的命令行串聯(lián)起來在1個(gè)腳本文件中,執(zhí)行該文件即可自動(dòng)化執(zhí)行以上各個(gè)步驟,得到Joubert綜合征相關(guān)的基因。
(七)對(duì)獲取的Joubert綜合征相關(guān)基因進(jìn)行評(píng)價(jià)和檢查
同樣使用“Joubert syndrome”為關(guān)鍵詞,在DisGeNET數(shù)據(jù)庫(kù)文件“all_gene_disease_associations.tsv”中可檢索得到與Joubert綜合征相關(guān)的基因。該文件可從DisGeNET網(wǎng)站自由下載。DisGeNET是一個(gè)整合型的數(shù)據(jù)庫(kù),整合了各種數(shù)據(jù)庫(kù)中疾病相關(guān)的基因疾病關(guān)系(gene-disease associations,GDAs)[19]。通過與DisGeNET數(shù)據(jù)庫(kù)比較,采用Jaccard指數(shù)來評(píng)價(jià)該研究獲取的Joubert綜合征相關(guān)基因的完整性。最后通過人工檢查,進(jìn)一步剔除假陽(yáng)性的基因。判斷假陽(yáng)性基因的標(biāo)準(zhǔn)包括:①評(píng)分低于0.1或只被1個(gè)數(shù)據(jù)庫(kù)收錄;②人工閱讀中發(fā)現(xiàn)報(bào)道該基因相關(guān)的表型與Joubert綜合征不完全一致。
采用Jaccard指數(shù)對(duì)不同的基因集合進(jìn)行比較,公式如下:
其中,A和B分別表示兩個(gè)非空集合,|A|、|B|、|A∩B|、|A∪B|分別表示集合A、B、A和B的交集、A和B的并集中的基因數(shù)目。
所有命令整合到1個(gè)腳本文件中,即可在R GUI窗口、Windows Dos窗口、Linux等環(huán)境下運(yùn)行,運(yùn)行1次即可獲得35個(gè)與Joubert綜合征可能相關(guān)的基因。
在R GUI窗口下,可通過菜單,依次點(diǎn)擊“文件”、“運(yùn)行R腳本文件”,選中腳本文件即可執(zhí)行任務(wù),并在工作目錄下自動(dòng)生成結(jié)果文件。在Windows Dos或Linux窗口下,用Rscript調(diào)用腳本即可在工作目錄下自動(dòng)生成結(jié)果文件。整個(gè)運(yùn)行過程在內(nèi)存4 G以上電腦單個(gè)CPU下10 min左右自動(dòng)化完成,但下載文件步驟的時(shí)間主要取決于網(wǎng)速。
同樣以“Joubert Syndrome”為關(guān)鍵詞,在整合型數(shù)據(jù)庫(kù)DisGeNET檢索得到19個(gè)與Joubert綜合征相關(guān)的基因。對(duì)兩個(gè)基因集合進(jìn)行比較發(fā)現(xiàn),利用該研究建立的自動(dòng)化流程能夠抓取除了DisGeNET中的19個(gè)Joubert綜合征相關(guān)基因之外,還包含了另外16個(gè)可能相關(guān)的基因(圖1)。對(duì)這16個(gè)基因做進(jìn)一步的人工檢查,發(fā)現(xiàn)其中有14個(gè)基因是與Joubert綜合征發(fā)生相關(guān)的,另外兩個(gè)基因(NEB和PDE7B)則可能是假陽(yáng)性相關(guān)基因。兩個(gè)基因集合比較的Jaccard指數(shù)為1(35/35),假陽(yáng)性率為5.71%(2/35)。最終,自動(dòng)化方法得到33個(gè)與Joubert綜合征相關(guān)的基因(表1),提示該自動(dòng)化方法能夠更加完整地獲取Joubert綜合征相關(guān)的基因。
藍(lán)色表示的是DisGeNET數(shù)據(jù)庫(kù)中檢索得到的19個(gè)Joubert綜合征相關(guān)基因,紅色表示其它14個(gè)Joubert相關(guān)基因,NEB和PDE7B是兩個(gè)與Joubert綜合征發(fā)生可能無關(guān)的基因。圖1 該自動(dòng)化流程獲取的Joubert綜合征相關(guān)基因和DisGeNET的比較
序號(hào)基因染色體鏈起始位置終止位置基因名稱別名1AHI1chr6-135605109135818903Abelsonhelperintegrationsite1FLJ20069|ORF1|JBTS32CEP290chr12-8844278988535993centrosomalprotein290KIAA0373|FLJ13615|3H11Ag|rd16|NPHP6|JBTS5|SLSN6|LCA10|MKS4|BBS14|CT87|POC33OFD1chrX+1375283113787480OFD1,centrioleandcentrio-larsatelliteprotein71-7A|JBTS104CC2D2Achr4+1547148815603180coiled-coilandC2domaincontaining2AKIAA1345|MKS6|JBTS95KIAA0586chr14+5889410259015549KIAA0586Talpid3|JBTS236RPGRIP1Lchr16-5363315053737850RPGRIP1likeKIAA1005|CORS3|JBTS7|MKS5|NPHP8|FTM|PPP1R1347TMEM216chr11+6115983161166335transmembraneprotein216MGC13379|HSPC244|JBTS28INPP5Echr9-139323066139334274inositolpolyphosphate-5-phos-phataseEPPI5PIV|CORS1|pharbin9TMEM67chr8+9476707194831460transmembraneprotein67MGC26979|JBTS6|NPHP1110TCTN3chr10-9742315297453900tectonicfamilymember3DKFZP564D116|TECT3|JBTS1811TMEM138chr11+6112947261136975transmembraneprotein138HSPC196|JBTS1612TMEM231chr16-7557201475590184transmembraneprotein231FLJ22167|ALYE870|PRO1886|JBTS20|MKS1113C5orf42chr5-3710632937249530chromosome5openreadingframe42FLJ13231|JBTS17|Hug14ARL13Bchr3+9369898293774522ADPribosylationfactorlikeGTPase13BDKFZp761H079|JBTS815B9D1chr17-1923868519281506B9domaincontaining1B9|EPPB9|MKS916MKS1chr17-5628279656296966Meckelsyndrome,type1FLJ20345|POC12|BBS1317NPHP1chr2-110880913110962639nephrocystin1JBTS4|SLSN118CEP104chr1-37286443773797centrosomalprotein104GlyBP|RP1-286D6.4|CFAP256|ROC22|JBTS2519KIAA0556chr16+2756146727791692KIAA0556JBTS26|KATNIP20TMEM237chr2-202484906202508252transmembraneprotein237JBTS1421CEP41chr7-130033611130081051centrosomalprotein41DKFZp762H1311|FLJ22445|JBTS1522ZNF423chr16-4952144149891830zincfingerprotein423KIAA0760|OAZ|Roaz|Ebfaz|Zfp104|NPHP14|JBTS1923PDE6Dchr2-232597134232646037phosphodiesterase6DJBTS2224TCTN1chr12+111051831111086935tectonicfamilymember1FLJ21127|TECT1|JBTS1325TCTN2chr12+124155659124192950tectonicfamilymember2FLJ12975|TECT2|MKS8|JBTS24
續(xù)表
本研究建立了一種自動(dòng)化的方法,從HPO、Orphanet、ClinVar、UniProt和PubMed摘要中快速獲取Joubert綜合征相關(guān)的基因。該方法僅需要提供關(guān)鍵詞“Joubert Syndrome”即可,與傳統(tǒng)手工的方法相比,更加準(zhǔn)確、高效。傳統(tǒng)方法非常繁瑣,需要閱讀大量的文獻(xiàn),從各個(gè)數(shù)據(jù)庫(kù)中逐個(gè)檢索,從中提取表型和基因型相關(guān)信息,然后進(jìn)行整合,可能需要數(shù)周甚至數(shù)月時(shí)間來完成,而且易于出錯(cuò)。本研究建立的方法實(shí)現(xiàn)了整個(gè)過程的完全自動(dòng)化,可在10 min左右完成,極大地節(jié)省了人力,也將減少人工數(shù)據(jù)編譯過程中出現(xiàn)的錯(cuò)誤。在數(shù)據(jù)庫(kù)選擇方面,我們沒有使用OMIM和HGMD,主要是考慮這兩個(gè)數(shù)據(jù)庫(kù)在使用時(shí)的局限性。OMIM數(shù)據(jù)庫(kù)需要頻繁的申請(qǐng)賬號(hào)和密碼,目前是每個(gè)月申請(qǐng)一次;HGMD是商業(yè)化的數(shù)據(jù)庫(kù),其免費(fèi)公開的數(shù)據(jù)庫(kù)版本不是最新的,而是3年前的數(shù)據(jù),且不提供編程的接口。同時(shí),這也提示,完全利用公開的數(shù)據(jù)庫(kù)和文獻(xiàn)知識(shí)庫(kù)而不利用商業(yè)性數(shù)據(jù)庫(kù),對(duì)獲取Joubert綜合征致病基因是可行的。
該自動(dòng)化方法從公共數(shù)據(jù)庫(kù)和PubMed摘要中獲取基因信息也具有較好的完整性。與DisGeNET數(shù)據(jù)庫(kù)比較發(fā)現(xiàn),不但可以全部獲取DisGeNET數(shù)據(jù)庫(kù)中Joubert綜合征相關(guān)的基因,還額外獲取了14個(gè)Joubert綜合征相關(guān)的基因。經(jīng)過人工檢查核對(duì),這14個(gè)基因的確與Joubert綜合征發(fā)生有關(guān)。提示該自動(dòng)化方法是可行的,獲取的基因更全面。
在人工檢查中我們還發(fā)現(xiàn),僅僅從公共數(shù)據(jù)庫(kù)中來獲取單基因病相關(guān)的基因可能是不完整的。在33個(gè)與Joubert綜合征相關(guān)的基因中,有兩個(gè)基因在公共數(shù)據(jù)庫(kù)中沒有被收錄。收錄不全的原因可能有:一是數(shù)據(jù)庫(kù)更新的延遲性。這些公共數(shù)據(jù)庫(kù)大部分都基于人工編譯和專家審核方式完成,因此新的發(fā)現(xiàn)從報(bào)道到收錄進(jìn)公共數(shù)據(jù)庫(kù)會(huì)延遲數(shù)周甚至數(shù)月的時(shí)間。二是人工檢索時(shí)的不完整,某些文章會(huì)因特殊原因沒有被檢索到,使得在數(shù)據(jù)庫(kù)中丟失。另一方面,文獻(xiàn)挖掘也存在一些挑戰(zhàn):一是某些基因符號(hào)可能會(huì)造成混淆。譬如基因MRI,還是核磁共振成像的縮寫,盡管HGNC的基因命名標(biāo)準(zhǔn)已經(jīng)被廣泛認(rèn)可,仍然不可避免地會(huì)造成文本挖掘時(shí)基因提取的錯(cuò)誤。因此,對(duì)自動(dòng)化獲取的結(jié)果還需要仔細(xì)地人工檢查。二是變異的命名不規(guī)范[20]。盡管HGVS已經(jīng)成為國(guó)際公認(rèn)的變異命名推薦標(biāo)準(zhǔn),但還有一些文章中,尤其是某些歷史文獻(xiàn),并沒有完全遵守該推薦標(biāo)準(zhǔn),或者是出版過程中造成的變異命名錯(cuò)誤,都會(huì)造成難以提取這樣的變異信息。此外,某些文章摘要中并沒有提及基因上的變異信息,這種情況下針對(duì)全文的文本挖掘是必要的[21]。
值得注意的是,由于以上各種原因的存在,人工檢查是非常重要的最后一步。為了方便人工檢查,我們還提供了每個(gè)證據(jù)的評(píng)分,并按照評(píng)分進(jìn)行排序,對(duì)于評(píng)分低于0.1的那些基因,通常是那些還沒有進(jìn)入數(shù)據(jù)庫(kù)的基因,需要重點(diǎn)核對(duì)。
某些開放的數(shù)據(jù)庫(kù),如ClinVar,還可能收錄一些由遺傳檢測(cè)機(jī)構(gòu)提交但還沒有報(bào)道過的基因和變異信息。因此,單從公共數(shù)據(jù)庫(kù)或者從文獻(xiàn)中獲取Joubert綜合征相關(guān)的基因,都可能是不完整的。理想的策略是,能夠綜合考慮數(shù)據(jù)庫(kù)和文獻(xiàn)等各種不同來源的信息[22-24]。
精準(zhǔn)醫(yī)學(xué)時(shí)代下,了解Joubert綜合征相關(guān)的致病基因,對(duì)于Joubert綜合征患者的分子診斷非常重要。該自動(dòng)化方法對(duì)Joubert綜合征相關(guān)的研究者也非常有幫助,對(duì)Joubert綜合征相關(guān)遺傳檢測(cè)產(chǎn)品開發(fā)和基于全外顯子組測(cè)序的靶向基因分析[25]也具有較大的參考價(jià)值。同時(shí),該方法可以為快速尋找其它單基因病相關(guān)的致病基因提供借鑒。
[1] Joubert M,Eisenring JJ,Robb JP,et al. Familial agenesis of the cerebellar vermis:A syndrome of episodic hyperpnea,abnormal eye movements,ataxia,and retardation[J]. Neurology,1969,19:813-825.
[2] Romani M,Micalizzi A,Valente EM. Joubert syndrome:congenital cerebellar ataxia with the molar tooth[J]. Lancet Neurol,2013,12:894-905.
[3] Brancati F,Dallapiccola B,Valente EM. Joubert Syndrome and related disorders[J]. Orphanet J Rare Dis,2010,5:20.
[4] Dempsey JC,Phelps IG,Bachmann-Gagescu R,et al. Mortality in Joubert syndrome [J]. Am J Med Genet A,2017,173:1237-1242.
[5] Maria BL,Boltshauser E,Palmer SC,et al. Clinical features and revised diagnostic criteria in Joubert syndrome[J]. J Child Neurol,1999,14:583-590.
[6] Valente EM,Dallapiccola B,Bertini E. Joubert syndrome and related disorders[J]. Handb Clin Neurol,2013,113:1879-1888.
[7] K?hler S,Doelken SC,Mungall CJ,et al. The Human Phenotype Ontology project:linking molecular biology and disease through phenotype data[J]. Nucleic Acids Res,2014,42:D966-974.
[8] Rath A,Olry A,Dhombres F,et al. Representation of rare diseases in health information systems:the Orphanet approach to serve a wide range of end users[J]. Hum Mutat,2012,33:803-808.
[9] Boyadjiev SA,Jabs EW. Online Mendelian Inheritance in Man(OMIM)as a knowledgebase for human developmental disorders[J]. Clin Genet,2000,57:253-266.
[10] Landrum MJ,Lee JM,Riley GR,et al. ClinVar:public archive of relationships among sequence variation and human phenotype[J]. Nucleic Acids Res,2014,42:D980-985.
[11] UniProt Consortium. UniProt:a hub for protein information[J]. Nucleic Acids Res,2015,43:D204-212.
[12] Stenson PD,Mort M,Ball EV,et al. The Human Gene Mutation Database:towards a comprehensive repository of inherited mutation data for medical research,genetic diagnosis and next-generation sequencing studies[J]. Hum Genet,2017,136:665-677.
[13] Ching KA,Wang K,Kan Z,et al. Cell Index Database(CELLX):a web tool for cancer precision medicine[J]. Pac Symp Biocomput,2015:10-19.
[14] Peterson TA,Doughty E,Kann MG. Towards precision medicine:advances in computational approaches for the analysis of human variants[J]. J Mol Biol,2013,425:4047-4063.
[15] Capriotti E,Nehrt NL,Kann MG,et al. Bioinformatics for personal genome interpretation[J]. Brief Bioinform,2012,13:495-512.
[16] Doughty E,Kertesz-Farkas A,Bodenreider O,et al. Toward an automatic method for extracting cancer- and other disease-related point mutations from the biomedical literature[J]. Bioinformatics,2011,27:408-415.
[17] Jensen LJ,Saric J,Bork P. Literature mining for the biologist:from information retrieval to biological discovery [J]. Nat Rev Genet,2006,7:119-129.
[18] Groth P,Pavlova N,Kalev I,et al. PhenomicDB:a new cross-species genotype/phenotype resource [J]. Nucleic Acids Res,2007,35:D696-699.
[20] Thomas PE,Klinger R,F(xiàn)urlong LI,et al. Challenges in the association of human single nucleotide polymorphism mentions with unique database identifiers[J]. BMC Bioinformatics,2011,12:S4.
[21] Ravikumar KE,Wagholikar KB,Li D,et al. Text mining facilitates database curation - extraction of mutation-disease associations from Bio-medical literature[J]. BMC Bioinformatics,2015,16:185.
[22] Horaitis O,Cotton RG. The challenge of documenting mutation across the genome:the human genome variation society approach[J]. Hum Mutat,2004,23:447-452.
[23] Brookes AJ,Robinson PN. Human genotype-phenotype databases:aims,challenges and opportunities[J]. Nat Rev Genet,2015,16:702-715.
[24] Johnston JJ,Biesecker LG. Databases of genomic variation and phenotypes:existing resources and future needs[J]. Hum Mol Genet,2013,22:R27-31.
[25] 羅敏娜,曹宗富,陳軍,等. 全外顯子組測(cè)序發(fā)現(xiàn)中國(guó)Joubert綜合征家系C5orf42基因的新突變[J]. 生殖醫(yī)學(xué)雜志,2017,26:464-469.