張少偉 蔣艷凰
1(中國科學技術(shù)大學軟件工程學院 安徽 合肥 230026)2(人和未來生物科技(長沙)有限公司 湖南 長沙 410000)
遺傳病是指染色體畸變和基因突變引起的一大類疾病。截至2010年8月10日,已登記的孟德爾遺傳性狀或者疾病達20 135種,其中已知的單基因遺傳病及線粒體基因病為6 500余種[1]。由于我國人口基數(shù)龐大,遺傳病對我國的影響尤為明顯,我國有1 000余萬單基因遺傳病患者,新生兒中有超過800萬染色體遺傳病患者,多基因遺傳病和體細胞遺傳病的發(fā)病人數(shù)更是難以估量[2]。對基因進行精準檢測與解讀,準確定位致病原因,預(yù)防遺傳疾病,成為一項關(guān)系到全人類的關(guān)鍵技術(shù),也是近年來臨床醫(yī)學研究的熱點。
外顯子測序是指用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進行高通量測序的基因組分析方法[3]。在人類基因中大約有180 000外顯子,一個正常樣本的基因檢測結(jié)果可能包含了數(shù)萬條突變基因,由人工進行逐條解讀是不實際也是不合理的。在這一背景下,國內(nèi)外推出了眾多優(yōu)秀的基因解讀系統(tǒng),如“人和未來”的GTX.Digest系統(tǒng)、以色列的Congenica等。這些系統(tǒng)能夠?qū)蜻M行注釋并按致病性排序,醫(yī)療人員僅需要關(guān)注排名前幾十個基因,極大地減少了醫(yī)療工作者的工作量。醫(yī)療工作者依據(jù)解讀系統(tǒng)的分析結(jié)果,查找一定量的文獻來佐證基因與疾病之間的影響,并最終生成一份解讀報告。
中國遺傳學會遺傳咨詢分會組織發(fā)布的《高通量全外顯子組測序檢測報告示例》中顯示,檢測報告應(yīng)包含樣本信息、臨床癥狀、檢測項目、檢測結(jié)論、基因變異信息、疾病名稱、結(jié)果解釋、建議,以及參考文獻[4]。這樣一份報告往往需要花費醫(yī)療工作者數(shù)小時的工作時間,一些復(fù)雜的報告甚至需要花費數(shù)十小時。因此,自動出具報告并將已有信息自動填入報告能夠極大減輕醫(yī)療工作者的負擔。
GTX.Digest是“人和未來”推出的一款云端基因解讀系統(tǒng)。GTX.Digest以基因突變?yōu)閱挝?,以探究突變的致病性為目標,對用戶的VCF數(shù)據(jù)文件進行注釋解讀。解讀結(jié)果不僅包含基因數(shù)據(jù)的注釋結(jié)果,還包含ClinVar、OMIM、Orphanet等權(quán)威數(shù)據(jù)庫的致病性建議。同時,GTX.Digest開發(fā)組還對PubMed所有文獻進行了文本挖掘,探究文獻描述的基因突變與疾病之間的關(guān)系,并開創(chuàng)性地將文本挖掘結(jié)果應(yīng)用在了基因解讀中,用戶可直接看到文獻中描述基因突變與疾病關(guān)系的句子,極大地提高了醫(yī)生確定致病基因的效率和準確性。GTX.Digest能夠很好地輔助醫(yī)生進行遺傳病分析,但無法自動生成遺傳檢測報告,而遺傳檢測報告作為基因解讀的最終輸出,是一個成熟的基因解讀系統(tǒng)中不可或缺的一環(huán)[5]。
針對自動出具報告的現(xiàn)實需求,基于GTX.Digest基因解讀系統(tǒng)的分析結(jié)果、醫(yī)生對致病性的判定結(jié)果、生物醫(yī)學領(lǐng)域的權(quán)威數(shù)據(jù)庫等,在Linux操作系統(tǒng)上,實現(xiàn)了全外顯子檢測報告的自動生成。用戶在解讀系統(tǒng)中確定了致病基因后,填寫患者基本信息,選擇與治病基因相關(guān)聯(lián)的疾病、轉(zhuǎn)錄本等信息,系統(tǒng)將自動分析基因變異產(chǎn)生的氨基酸變化,自動生成從基因便宜角度對疾病解釋,以及與之相關(guān)的參考文獻。系統(tǒng)提供報告預(yù)覽和自動下載功能,下載的報告為Word格式,用戶可對其進行進一步編輯。
圖1給出了報告自動生成系統(tǒng)結(jié)構(gòu),主要包括三個部分:基因數(shù)據(jù)庫、報告內(nèi)容獲取、報告生成與應(yīng)用?;A(chǔ)數(shù)據(jù)庫包括生成報告所需的基礎(chǔ)數(shù)據(jù)來源,這些數(shù)據(jù)包括:GTX.Digest系統(tǒng)解讀結(jié)果、氨基酸描述數(shù)據(jù)、表型-疾病關(guān)系數(shù)據(jù)、文獻數(shù)據(jù)等。數(shù)據(jù)的真實性與權(quán)威性決定了報告的質(zhì)量,因此必須以準確、權(quán)威的數(shù)據(jù)庫為基礎(chǔ),構(gòu)建報告生成系統(tǒng)。報告內(nèi)容的獲取包括兩部分:一是需要醫(yī)護人員參與的內(nèi)容獲取,包括填寫用戶的基因信息、從解讀結(jié)果中選擇致病基因相關(guān)的疾病和轉(zhuǎn)錄本等;二是系統(tǒng)根據(jù)基礎(chǔ)數(shù)據(jù)庫自動生成相關(guān)報告內(nèi)容。報告生成和應(yīng)用則根據(jù)獲取的情報內(nèi)容,自動生成Word報告。
圖1 報告自動生成系統(tǒng)結(jié)構(gòu)
基礎(chǔ)數(shù)據(jù)庫是報告自動生成的關(guān)鍵,決定了報告的整體質(zhì)量,因此數(shù)據(jù)來源必須與行業(yè)規(guī)范相符合,數(shù)據(jù)的權(quán)威性也需得到行業(yè)的認可。
1.1.1解讀結(jié)果數(shù)據(jù)
解讀結(jié)果是指對原始的基因數(shù)據(jù)的解讀結(jié)果,將生澀難懂的基因編碼轉(zhuǎn)換成普適的學科術(shù)語,并以基因突變?yōu)閱挝?,依?jù)權(quán)威數(shù)據(jù)庫,對其致病性進行標注[6]。
該系統(tǒng)的解讀結(jié)果數(shù)據(jù)來源于基因解讀平臺GTX.Digest。GTX.Digest不僅對基因和變異進行了致病性排序,而且展示了對PubMed文獻的挖掘結(jié)果,使得解讀結(jié)果更科學、精準。
解讀結(jié)果數(shù)據(jù)包括:基因名、轉(zhuǎn)錄本編號、突變信息、遺傳模式、致病性、OMIM疾病等。
1.1.2氨基酸描述數(shù)據(jù)
解讀結(jié)果數(shù)據(jù)中關(guān)于氨基酸的變化使用的是國際通用的氨基酸簡寫形式,而在報告中是以中文形式呈現(xiàn)。氨基酸描述數(shù)據(jù)記錄了氨基酸的英文簡稱與中文全稱,用來實現(xiàn)英文簡稱與中文全稱的轉(zhuǎn)換,如表1所示。
表1 氨基酸描述數(shù)據(jù)
1.1.3表型-疾病對應(yīng)數(shù)據(jù)
表型指一定基因型的個體,在特定環(huán)境中所呈現(xiàn)出來的性狀,例如:感冒、發(fā)燒、紅發(fā)[6]。所有的遺傳病都有其特定的表型特征,正是因為表型與疾病的這種相關(guān)性,解讀軟件要求輸入表型數(shù)據(jù)來作為排序依據(jù)。
通常來說,基因突變可能導(dǎo)致的疾病不唯一,每種疾病的表型特征也不盡相同[7]。要精確判定樣本患有何種疾病,必須計算樣本表型與疾病的相關(guān)性,這就需要表型-疾病關(guān)系數(shù)據(jù),即某一種疾病會有哪些表型。
人類孟德爾遺傳線上庫(Online Mendelian Inheritance in Man,OMIM)[8]提供了疾病與人類表型術(shù)語集(Human Phenotype Ontology,HPO)的對應(yīng)表,如表2所示。
表2 OMIM疾病-HPO對應(yīng)關(guān)系
OMIM提供的表格以O(shè)MIM疾病為基本單位,每一個疾病-表型關(guān)系為一條,共96 919條數(shù)據(jù)。在本文系統(tǒng)中,疾病-表型關(guān)系用于判定用戶輸入的表型與何種疾病相關(guān)性更大,這種相關(guān)性用“用戶輸入表型”與“疾病對應(yīng)表型”相同的數(shù)量來衡量。依據(jù)這種應(yīng)用場景,對表格進行了聚合,得到7 015條MySQL記錄,結(jié)構(gòu)如表3所示。
表3 聚合后的OMIM疾病-表型對應(yīng)
為方便對HPO進行比對,以列表風格對HPO進行存儲,同時為了加快查詢速度,本文還對OMIM編號添加了索引。
1.1.4文獻數(shù)據(jù)
遺傳檢測報告用于指導(dǎo)醫(yī)生進行臨床診斷,因此報告的內(nèi)容,特別是致病性判定一定要有所依據(jù),需要一定量的參考文獻支持。
本系統(tǒng)中的參考文獻來源于權(quán)威數(shù)據(jù)庫OMIM、ClinVar、PubMed文獻挖掘結(jié)果庫dmVar,并在其基礎(chǔ)上進行了優(yōu)化排序。
報告內(nèi)容獲取即生成報告內(nèi)容,主要分為用戶基本信息填寫、致病基因分析結(jié)果獲取、致病性描述、文獻獲取四個部分。
(1) 用戶基本信息填寫依據(jù)《高通量全外顯子組測序檢測報告示例》。報告中的基本信息應(yīng)包括受檢者信息、樣本信息、送檢者信息,由用戶填寫。此外,用戶還可對系統(tǒng)推薦的轉(zhuǎn)錄本和疾病進行更改。
(2) 致病基因分析結(jié)果包括基因名、轉(zhuǎn)錄本、遺傳方式等信息。從GTX.Digest解讀結(jié)果中獲取數(shù)據(jù),并按照相應(yīng)的表格形式進行組織。
(3) 致病性描述中除了解讀結(jié)果外,還包括基因所導(dǎo)致的疾病、疾病遺傳方式、父母的患病分析。
(4) 文獻獲取指從文獻數(shù)據(jù)庫中獲取疾病所對應(yīng)的參考文獻,并按照參考文獻格式進行組織。
全外顯子檢測報告包含表格類復(fù)雜結(jié)構(gòu),目前沒有很好的Linux庫可實現(xiàn)對Word的直接編輯。為了兼顧Web頁面預(yù)覽的需求,本文決定使用HTML作為直接生成格式,而后再對其進行格式轉(zhuǎn)換。
在報告生成過程中存在多次頁面交互:基本信息填寫與疾病轉(zhuǎn)錄本選擇、疾病-基因相關(guān)性檢查、報告預(yù)覽。
在基本信息填寫與疾病轉(zhuǎn)錄本選擇交互界面中,用戶可填寫基本信息,還可以更改系統(tǒng)推薦的疾病與轉(zhuǎn)錄本。用戶填寫的基本信息將進行存儲,用于自動填充信息表格。
當用戶選擇的疾病與基因的遺傳方式不同時,相關(guān)數(shù)據(jù)將呈現(xiàn)在疾病-基因相關(guān)性檢查界面上,供用戶查看和確認。
HTML報告生成后,可進行報告預(yù)覽。
遺傳報告自動生成的難點主要有兩點:Linux系統(tǒng)下Word文件的生成和文獻數(shù)據(jù)排序。在本技術(shù)中,Word報告的生成路線為:HTML模板—數(shù)據(jù)填充—格式轉(zhuǎn)換,HTML模板定義了報告的內(nèi)容和風格,是報告生成的關(guān)鍵。文獻數(shù)據(jù)是報告結(jié)論可信度的重要依據(jù),由于報告的篇幅有限,如何對文獻進行排序,并從中選出可信度大的文獻,是提高報告質(zhì)量的關(guān)鍵。
模板指的是報告的初始HTML模板,其定義了報告的基本結(jié)構(gòu)。模板由Word類軟件編輯并導(dǎo)出,而后根據(jù)所填寫的內(nèi)容,對模板內(nèi)容進行調(diào)整。模板內(nèi)容主要分為4類:固定表格、自由表格、固定段落、自由段落,每一類都有各自的處理方法。
(1) 固定表格。固定表格的特征是表格結(jié)構(gòu)不會隨報告內(nèi)容改變而改變,如表4所示。因此,表格的格式可以固定在模板中,只需要將填入的信息進行替換即可。
表4 固定表格
(2) 自由表格。自由表格指的是表格的結(jié)構(gòu)會隨報告的內(nèi)容而改變。例如表5所示的臨床表型相關(guān)變異表格。
表5 自由表格-臨床表型相關(guān)變異
表格的大小會隨著用戶標記的基因數(shù)量而增加,因此表格的結(jié)構(gòu)不能夠固定在模板中,而是應(yīng)該隨著數(shù)據(jù)的增加,將結(jié)構(gòu)連同數(shù)據(jù)一同寫入。因此,在HTML模板中,臨床表型相關(guān)變異表格僅寫入表頭格式?;驍?shù)據(jù)按照表頭格式,逐行進行插入。
(3) 固定段落。固定段落的內(nèi)容一般是通用的解釋性語句,語句內(nèi)容固定,格式固定,可直接定義在模板中。
(4) 自由段落。自由段落指段落的內(nèi)容不固定,其中又分為字符不固定段落與格式不固定段落。字符不固定段落指的是段落的基本格式已經(jīng)確定,僅有段落中的某些字符串需要隨著用戶的輸入而進行更改,這類段落可以直接編寫在HTML模板中,將需要替換的關(guān)鍵字進行標識,使用時進行字符替換。
格式不固定段落指的是段落格式或數(shù)量不固定,這類段落無法將格式固定在HTML模板中,故HTML模板僅寫入需要替換的字符串,段落格式由內(nèi)容生成模塊定義。
基因檢測報告需要提供PubMed文獻的引用作為文獻,如何獲取與基因檢測報告內(nèi)容相關(guān)的文獻成為關(guān)鍵。本文利用了三個數(shù)據(jù)來源:OMIM數(shù)據(jù)庫、ClinVar數(shù)據(jù)庫和文本挖掘數(shù)據(jù)庫dmVar。
OMIM數(shù)據(jù)庫是人類孟德爾遺傳的網(wǎng)絡(luò)版,主要著眼于可遺傳的或遺傳性的基因疾病,其中包括文本信息和相關(guān)參考信息、序列記錄、圖譜和相關(guān)其他數(shù)據(jù)庫[8]。
ClinVar是一個公開的數(shù)據(jù)庫,收集了與疾病相關(guān)的數(shù)據(jù)庫。由美國國立衛(wèi)生研究院于2013年為了生物技術(shù)信息開發(fā)而構(gòu)建。ClinVar擁有來自1 000個提交者的600 000條提交記錄,代表430 000條變異數(shù)據(jù)[9]。
PubMed是由美國國家生物技術(shù)中心(NCBI)主導(dǎo)的,美國國立衛(wèi)生研究院(NIH)與美國國家醫(yī)學圖書館(NLM)共同開發(fā)維護的免費數(shù)據(jù)庫,其收錄了3 000萬篇生物醫(yī)學文獻[10]。PubMed文獻的挖掘工作一直是醫(yī)學工作者的研究熱點,在進行挖掘時,研究者主要采用3種方法將描述表型的詞匯映射為標準詞表[11],包括醫(yī)學主題詞(Medical Subject Headings, MeSH)[12]、統(tǒng)一醫(yī)學語言系統(tǒng)(Unified Medical Language System, UMLS)[13]、人類表型本體論(Human Phenotype Ontology, HPO)[14]。GTX.Digest系統(tǒng)中的文本挖掘數(shù)據(jù)庫dmVar以MeSH號作為表型標準詞表,提取了PubMed文獻中基因、突變、疾病等命名實體,以及期刊編號、期刊影響因子等信息。
基于上述三個數(shù)據(jù)庫,本文選擇文獻的優(yōu)先級判斷主要有相關(guān)性和可信度兩個維度。相關(guān)性指文獻是否在描述所選基因和疾病,是一個強條件;可信度是一個較為綜合的指標,以期刊的影響因子和發(fā)表時間進行綜合評估。
2.2.1文獻預(yù)處理
ClinVar和OMIM雖然都是遺傳疾病的數(shù)據(jù)庫,但兩者的關(guān)注點不一樣。ClinVar以基因突變?yōu)榛締挝唬接懲蛔兪欠裰虏?,尋找致病性證據(jù)。OMIM則是以疾病為基本單位,討論疾病由哪些基因突變引起,給出疾病的基本特征。在這一差異下,兩者文獻數(shù)據(jù)的組織方法有很大差別。OMIM提供的文獻列表明確了文獻討論的基因與疾??;ClinVar給出的文獻列表則關(guān)注突變及其是否會致病,沒有對疾病進行分類。相關(guān)性(文獻是否描述同一個疾病)是進行文獻排序的前提,因此需要對ClinVar文獻進行分類。此外,兩者都沒有給出文獻所發(fā)期刊的影響因子。
文獻預(yù)處理的主要工作有:(1) 實現(xiàn)ClinVar文獻按疾病分類;(2) 獲取文獻影響因子標記。
2.2.2ClinVar文獻分類
dmVar文本挖掘數(shù)據(jù)庫中標注了每一篇文獻所討論的基因、突變、疾病、期刊影響因子,其中疾病以PubMed疾病分類標準MeSH進行標注。
基于文本挖掘結(jié)果,ClinVar文獻預(yù)處理算法流程如圖2所示。使用ClinVar文獻的PubMed號在文本挖掘結(jié)果中查找該文獻所討論疾病的MeSH號,根據(jù)查詢到的MeSH號,于MeSH-OMIM號對應(yīng)表中查找MeSH號所對應(yīng)的OMIM號,最后以此OMIM號來標記ClinVar文獻,實現(xiàn)ClinVar文獻的疾病分類。
圖2 ClinVar文獻分類流程
2.2.3期刊影響因子的獲取
PubMed文本挖掘結(jié)果中包含了文獻所發(fā)期刊的影響因子,由于PubMed收錄文章的跨度大(1781年至今),一些期刊已經(jīng)??蚋?,對于這類期刊,本文默認其影響因子為0。
期刊影響因子的獲取如圖3所示。使用文獻的PubMed號在文本挖掘結(jié)果中查詢對應(yīng)期刊的影響因子,并以影響因子標記文獻。
圖3 期刊影響因子獲取流程
2.2.4排序算法
文獻排序的評定標準主要有:相關(guān)性、影響因子、發(fā)表時間。
1) 相關(guān)性判斷。實現(xiàn)ClinVar文獻的疾病分類后,依據(jù)疾病可獲得OMIM文獻列表和ClinVar文獻列表集合。集合內(nèi)的文獻與所述疾病絕對相關(guān),應(yīng)當擁有更高的權(quán)重,否則其權(quán)重應(yīng)當較小。
2) 影響因子的權(quán)重設(shè)計。影響因子IF是以年為單位進行計算的。以1992年的某一期刊影響因子為例:
IF1992=A/B
式中:A為該期刊1990年至1991年所有文獻在1992年中被引用的次數(shù);B為該期刊1990年至1991年所有文獻數(shù)。文獻刊物的影響因子來源于湯森路透發(fā)布的期刊引證報告(Journal Citation Reports,JCR)[15],其代表最近一年內(nèi)刊物的論文質(zhì)量。據(jù)此,文獻發(fā)表時間越早,當前影響因子的有效性應(yīng)當越低;另一方面,隨著檢測設(shè)備和現(xiàn)代醫(yī)學的發(fā)展,發(fā)表時間晚的文獻應(yīng)當具有更高的可信度,其影響因子也應(yīng)該有更高的權(quán)重。
本文統(tǒng)計了2002年至2012年遺傳學排名前9的期刊的影響因子變化率,如表6所示??梢钥闯觯琶?的期刊影響因子的10年平均變化率高達35%,證明了影響因子權(quán)重設(shè)計的正確性。文獻發(fā)表時間越早,當前影響因子的有效性就越低。
表6 遺傳學期刊影響因子變化率
基于上述思想,設(shè)計排序算法如下:
pscore=α·r·EIF(IF+0.01)+(1-α)·(1-r)·EIF(IF+0.01)
式中:r為相關(guān)性,表示文獻是否與疾病主題相關(guān),相關(guān)時r=1,否則r=0;α為相關(guān)性因子,取α=0.99;IF為當前年份期刊的影響因子,(IF+0.01)是為了避免未找到影響因子的文獻被直接排除;EIF為影響因子的時效性量化。
式中:Yc為所有文獻發(fā)表時間的中位數(shù),即對發(fā)表時間越早的文獻,當前年份影響因子的影響力越低。
文獻排序算法的目標是找到符合普遍醫(yī)學研究者文獻選取傾向的文獻序列,通常來說依據(jù)有:(1) 主題一致;(2) 影響因子大;(3) 發(fā)表時間近。
基于上述的基本依據(jù),考察相關(guān)性、影響因子、發(fā)表時間各自對算法結(jié)果的影響。本文假設(shè)文獻列表中文獻發(fā)布時間中位數(shù)為1970年,即:
分別考察(r=0,IF=10)、(r=1,IF=10)、(r=1,IF=15)條件下,Pscore隨發(fā)表時間的變化規(guī)律,結(jié)果如圖4所示。
圖4 不同條件下Pscore隨發(fā)表時間的變化曲線
依據(jù)變化曲線結(jié)果,從相關(guān)性、影響因子、發(fā)表時間三個維度進行分析,可得:
1) 由P1、P2曲線對比可知,在本文算法的排序結(jié)果中,相同發(fā)表時間、相同影響因子、主題相關(guān)的文獻比不相關(guān)的文獻的排序結(jié)果要靠前。
2) 由P2、P3曲線對比可知,在本文算法的排序結(jié)果中,主題相關(guān)的、發(fā)表時間相同的、較高影響因子的文獻的排序要優(yōu)于較低影響因子的文獻。
3) 由P3曲線可知,在本文算法的排序結(jié)果中,主題相關(guān)的、影響因子相同的、發(fā)表時間較晚(較新)的文獻的排序要優(yōu)于較早發(fā)表的文獻。
由上述的分析結(jié)果可知,本文排序算法符合醫(yī)學研究者普遍的文獻排序規(guī)則,排序結(jié)果符合用戶的預(yù)期。
在真實的使用環(huán)境中,單維度影響是容易決斷的,難的是多維度分析。例如此時有兩篇文獻A、B,其中A發(fā)表于2002年,當前影響因子為4,B發(fā)表于2007年,當前影響因子為3.5,此時A、B的排序是難以確定的,抉擇時應(yīng)該考慮使用場景。此時,存在兩種不同的場景:候選文獻的發(fā)表時間普遍較早(場景一)和候選文獻的發(fā)表時間普遍較晚(場景二)。
在場景一中,文獻的發(fā)表時間都較早,發(fā)表時間影響力降低,影響因子為主要判斷因素(沒有充分的可供選擇“新”文獻),此時A文獻的排序應(yīng)該高于B。在場景二中,文獻的發(fā)表時間都較晚,早發(fā)表的文獻的優(yōu)先級降低(有充分的可供選擇的“新”文獻),此時B文獻的排序應(yīng)該高于A。
依據(jù)上述假設(shè),引入文獻列表發(fā)表時間中位數(shù)Yc,假定兩篇文獻分別為T1(Yc=2010,IF=10)、T2(Yc=1990,IF=15) ,其中Yc為發(fā)表時間、IF為影響因子??疾熘形粩?shù)對算法結(jié)果的影響,如圖5所示。
圖5 中位數(shù)Yc-Pscore曲線
可以看出,當中位數(shù)較低時,T2排序結(jié)果優(yōu)于T1,即影響因子為主要影響因素;當中位數(shù)較高時,T1的排序結(jié)果優(yōu)于T2,此時影響因子的影響力降低,發(fā)表時間影響力增加。該結(jié)果符合引入中位數(shù)的初衷。
本實驗選取了OMIM編號為216900疾病對應(yīng)的17篇文獻,并使用本文算法對其進行排序,結(jié)果如表7所示。
表7 遺傳學期刊影響因子變化率
續(xù)表7
可以看出,本文算法并不是單一從影響因子或者發(fā)表時間進行排序,而是對二者進行了復(fù)合考慮,排序結(jié)果符合我們的預(yù)期。
文獻排序算法的最終目標是從特定的文獻列表中,選出可信度高的文獻,這一過程應(yīng)該考慮文獻列表的特點,而不是單一地使用某一項指標衡量。本文算法不僅綜合了相關(guān)性、影響因子和發(fā)表時間的影響,還考慮了文獻列表整體發(fā)表時間的影響,能夠滿足實際應(yīng)用的需求。
本文從醫(yī)生出具遺傳檢測報告過于繁瑣的現(xiàn)實需求出發(fā),實現(xiàn)了遺傳檢測報告自動生成技術(shù)。該技術(shù)整合了OMIM、ClinVar、PubMed文獻挖掘數(shù)據(jù)dmVar,并在其基礎(chǔ)上設(shè)計了文獻排序算法。系統(tǒng)可針對用戶輸入的表型,推薦匹配度更高的遺傳疾病,提高了檢測報告的準確性,減輕了醫(yī)生的工作量。遺傳檢測報告自動生成技術(shù)已經(jīng)應(yīng)用在GTX.Digest中。下一步工作為:(1) 拓展數(shù)據(jù)庫,加入其他權(quán)威數(shù)據(jù)庫如Orphanet等。(2) 拓展系統(tǒng)可出具報告的類型,如腫瘤檢測報告等。(3) 在報告中加入疾病描述的內(nèi)容。