亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基因解讀系統(tǒng)中遺傳檢測報告自動生成技術(shù)

2021-02-25 07:48:18張少偉蔣艷凰

計算機應(yīng)用與軟件 2021年2期

張少偉蔣艷凰

1(中國科學技術(shù)大學軟件工程學院安徽合肥 230026)2(人和未來生物科技(長沙)有限公司湖南長沙 410000)

0 引言

遺傳病是指染色體畸變和基因突變引起的一大類疾病。截至2010年8月10日，已登記的孟德爾遺傳性狀或者疾病達20 135種，其中已知的單基因遺傳病及線粒體基因病為6 500余種[1]。由于我國人口基數(shù)龐大，遺傳病對我國的影響尤為明顯，我國有1 000余萬單基因遺傳病患者，新生兒中有超過800萬染色體遺傳病患者，多基因遺傳病和體細胞遺傳病的發(fā)病人數(shù)更是難以估量[2]。對基因進行精準檢測與解讀，準確定位致病原因，預(yù)防遺傳疾病，成為一項關(guān)系到全人類的關(guān)鍵技術(shù)，也是近年來臨床醫(yī)學研究的熱點。

外顯子測序是指用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進行高通量測序的基因組分析方法[3]。在人類基因中大約有180 000外顯子，一個正常樣本的基因檢測結(jié)果可能包含了數(shù)萬條突變基因，由人工進行逐條解讀是不實際也是不合理的。在這一背景下，國內(nèi)外推出了眾多優(yōu)秀的基因解讀系統(tǒng)，如“人和未來”的GTX.Digest系統(tǒng)、以色列的Congenica等。這些系統(tǒng)能夠?qū)蜻M行注釋并按致病性排序，醫(yī)療人員僅需要關(guān)注排名前幾十個基因，極大地減少了醫(yī)療工作者的工作量。醫(yī)療工作者依據(jù)解讀系統(tǒng)的分析結(jié)果，查找一定量的文獻來佐證基因與疾病之間的影響，并最終生成一份解讀報告。

中國遺傳學會遺傳咨詢分會組織發(fā)布的《高通量全外顯子組測序檢測報告示例》中顯示，檢測報告應(yīng)包含樣本信息、臨床癥狀、檢測項目、檢測結(jié)論、基因變異信息、疾病名稱、結(jié)果解釋、建議，以及參考文獻[4]。這樣一份報告往往需要花費醫(yī)療工作者數(shù)小時的工作時間，一些復(fù)雜的報告甚至需要花費數(shù)十小時。因此，自動出具報告并將已有信息自動填入報告能夠極大減輕醫(yī)療工作者的負擔。

GTX.Digest是“人和未來”推出的一款云端基因解讀系統(tǒng)。GTX.Digest以基因突變?yōu)閱挝?，以探究突變的致病性為目標，對用戶的VCF數(shù)據(jù)文件進行注釋解讀。解讀結(jié)果不僅包含基因數(shù)據(jù)的注釋結(jié)果，還包含ClinVar、OMIM、Orphanet等權(quán)威數(shù)據(jù)庫的致病性建議。同時，GTX.Digest開發(fā)組還對PubMed所有文獻進行了文本挖掘，探究文獻描述的基因突變與疾病之間的關(guān)系，并開創(chuàng)性地將文本挖掘結(jié)果應(yīng)用在了基因解讀中，用戶可直接看到文獻中描述基因突變與疾病關(guān)系的句子，極大地提高了醫(yī)生確定致病基因的效率和準確性。GTX.Digest能夠很好地輔助醫(yī)生進行遺傳病分析，但無法自動生成遺傳檢測報告，而遺傳檢測報告作為基因解讀的最終輸出，是一個成熟的基因解讀系統(tǒng)中不可或缺的一環(huán)[5]。

針對自動出具報告的現(xiàn)實需求，基于GTX.Digest基因解讀系統(tǒng)的分析結(jié)果、醫(yī)生對致病性的判定結(jié)果、生物醫(yī)學領(lǐng)域的權(quán)威數(shù)據(jù)庫等，在Linux操作系統(tǒng)上，實現(xiàn)了全外顯子檢測報告的自動生成。用戶在解讀系統(tǒng)中確定了致病基因后，填寫患者基本信息，選擇與治病基因相關(guān)聯(lián)的疾病、轉(zhuǎn)錄本等信息，系統(tǒng)將自動分析基因變異產(chǎn)生的氨基酸變化，自動生成從基因便宜角度對疾病解釋，以及與之相關(guān)的參考文獻。系統(tǒng)提供報告預(yù)覽和自動下載功能，下載的報告為Word格式，用戶可對其進行進一步編輯。

1 報告自動生成系統(tǒng)架構(gòu)

圖1給出了報告自動生成系統(tǒng)結(jié)構(gòu)，主要包括三個部分：基因數(shù)據(jù)庫、報告內(nèi)容獲取、報告生成與應(yīng)用?；A(chǔ)數(shù)據(jù)庫包括生成報告所需的基礎(chǔ)數(shù)據(jù)來源，這些數(shù)據(jù)包括：GTX.Digest系統(tǒng)解讀結(jié)果、氨基酸描述數(shù)據(jù)、表型-疾病關(guān)系數(shù)據(jù)、文獻數(shù)據(jù)等。數(shù)據(jù)的真實性與權(quán)威性決定了報告的質(zhì)量，因此必須以準確、權(quán)威的數(shù)據(jù)庫為基礎(chǔ)，構(gòu)建報告生成系統(tǒng)。報告內(nèi)容的獲取包括兩部分：一是需要醫(yī)護人員參與的內(nèi)容獲取，包括填寫用戶的基因信息、從解讀結(jié)果中選擇致病基因相關(guān)的疾病和轉(zhuǎn)錄本等；二是系統(tǒng)根據(jù)基礎(chǔ)數(shù)據(jù)庫自動生成相關(guān)報告內(nèi)容。報告生成和應(yīng)用則根據(jù)獲取的情報內(nèi)容，自動生成Word報告。

圖1 報告自動生成系統(tǒng)結(jié)構(gòu)

1.1 基礎(chǔ)數(shù)據(jù)庫

基礎(chǔ)數(shù)據(jù)庫是報告自動生成的關(guān)鍵，決定了報告的整體質(zhì)量，因此數(shù)據(jù)來源必須與行業(yè)規(guī)范相符合，數(shù)據(jù)的權(quán)威性也需得到行業(yè)的認可。

1.1.1解讀結(jié)果數(shù)據(jù)

解讀結(jié)果是指對原始的基因數(shù)據(jù)的解讀結(jié)果，將生澀難懂的基因編碼轉(zhuǎn)換成普適的學科術(shù)語，并以基因突變?yōu)閱挝?，依?jù)權(quán)威數(shù)據(jù)庫，對其致病性進行標注[6]。

該系統(tǒng)的解讀結(jié)果數(shù)據(jù)來源于基因解讀平臺GTX.Digest。GTX.Digest不僅對基因和變異進行了致病性排序，而且展示了對PubMed文獻的挖掘結(jié)果，使得解讀結(jié)果更科學、精準。

解讀結(jié)果數(shù)據(jù)包括：基因名、轉(zhuǎn)錄本編號、突變信息、遺傳模式、致病性、OMIM疾病等。

1.1.2氨基酸描述數(shù)據(jù)

解讀結(jié)果數(shù)據(jù)中關(guān)于氨基酸的變化使用的是國際通用的氨基酸簡寫形式，而在報告中是以中文形式呈現(xiàn)。氨基酸描述數(shù)據(jù)記錄了氨基酸的英文簡稱與中文全稱，用來實現(xiàn)英文簡稱與中文全稱的轉(zhuǎn)換，如表1所示。

表1 氨基酸描述數(shù)據(jù)

1.1.3表型-疾病對應(yīng)數(shù)據(jù)

表型指一定基因型的個體，在特定環(huán)境中所呈現(xiàn)出來的性狀，例如：感冒、發(fā)燒、紅發(fā)[6]。所有的遺傳病都有其特定的表型特征，正是因為表型與疾病的這種相關(guān)性，解讀軟件要求輸入表型數(shù)據(jù)來作為排序依據(jù)。

通常來說，基因突變可能導(dǎo)致的疾病不唯一，每種疾病的表型特征也不盡相同[7]。要精確判定樣本患有何種疾病，必須計算樣本表型與疾病的相關(guān)性，這就需要表型-疾病關(guān)系數(shù)據(jù)，即某一種疾病會有哪些表型。

人類孟德爾遺傳線上庫(Online Mendelian Inheritance in Man，OMIM)[8]提供了疾病與人類表型術(shù)語集(Human Phenotype Ontology，HPO)的對應(yīng)表，如表2所示。

表2 OMIM疾病-HPO對應(yīng)關(guān)系

OMIM提供的表格以O(shè)MIM疾病為基本單位，每一個疾病-表型關(guān)系為一條，共96 919條數(shù)據(jù)。在本文系統(tǒng)中，疾病-表型關(guān)系用于判定用戶輸入的表型與何種疾病相關(guān)性更大，這種相關(guān)性用“用戶輸入表型”與“疾病對應(yīng)表型”相同的數(shù)量來衡量。依據(jù)這種應(yīng)用場景，對表格進行了聚合，得到7 015條MySQL記錄，結(jié)構(gòu)如表3所示。

表3 聚合后的OMIM疾病-表型對應(yīng)

為方便對HPO進行比對，以列表風格對HPO進行存儲，同時為了加快查詢速度，本文還對OMIM編號添加了索引。

1.1.4文獻數(shù)據(jù)

遺傳檢測報告用于指導(dǎo)醫(yī)生進行臨床診斷，因此報告的內(nèi)容，特別是致病性判定一定要有所依據(jù)，需要一定量的參考文獻支持。

本系統(tǒng)中的參考文獻來源于權(quán)威數(shù)據(jù)庫OMIM、ClinVar、PubMed文獻挖掘結(jié)果庫dmVar，并在其基礎(chǔ)上進行了優(yōu)化排序。

1.2 報告內(nèi)容獲取

報告內(nèi)容獲取即生成報告內(nèi)容，主要分為用戶基本信息填寫、致病基因分析結(jié)果獲取、致病性描述、文獻獲取四個部分。

(1) 用戶基本信息填寫依據(jù)《高通量全外顯子組測序檢測報告示例》。報告中的基本信息應(yīng)包括受檢者信息、樣本信息、送檢者信息，由用戶填寫。此外，用戶還可對系統(tǒng)推薦的轉(zhuǎn)錄本和疾病進行更改。

(2) 致病基因分析結(jié)果包括基因名、轉(zhuǎn)錄本、遺傳方式等信息。從GTX.Digest解讀結(jié)果中獲取數(shù)據(jù)，并按照相應(yīng)的表格形式進行組織。

(3) 致病性描述中除了解讀結(jié)果外，還包括基因所導(dǎo)致的疾病、疾病遺傳方式、父母的患病分析。

(4) 文獻獲取指從文獻數(shù)據(jù)庫中獲取疾病所對應(yīng)的參考文獻，并按照參考文獻格式進行組織。

1.3 報告生成與應(yīng)用

全外顯子檢測報告包含表格類復(fù)雜結(jié)構(gòu)，目前沒有很好的Linux庫可實現(xiàn)對Word的直接編輯。為了兼顧Web頁面預(yù)覽的需求，本文決定使用HTML作為直接生成格式，而后再對其進行格式轉(zhuǎn)換。

在報告生成過程中存在多次頁面交互：基本信息填寫與疾病轉(zhuǎn)錄本選擇、疾病-基因相關(guān)性檢查、報告預(yù)覽。

在基本信息填寫與疾病轉(zhuǎn)錄本選擇交互界面中，用戶可填寫基本信息，還可以更改系統(tǒng)推薦的疾病與轉(zhuǎn)錄本。用戶填寫的基本信息將進行存儲，用于自動填充信息表格。

當用戶選擇的疾病與基因的遺傳方式不同時，相關(guān)數(shù)據(jù)將呈現(xiàn)在疾病-基因相關(guān)性檢查界面上，供用戶查看和確認。

HTML報告生成后，可進行報告預(yù)覽。

2 HTML模板生成與文獻排序

遺傳報告自動生成的難點主要有兩點：Linux系統(tǒng)下Word文件的生成和文獻數(shù)據(jù)排序。在本技術(shù)中，Word報告的生成路線為：HTML模板—數(shù)據(jù)填充—格式轉(zhuǎn)換，HTML模板定義了報告的內(nèi)容和風格，是報告生成的關(guān)鍵。文獻數(shù)據(jù)是報告結(jié)論可信度的重要依據(jù)，由于報告的篇幅有限，如何對文獻進行排序，并從中選出可信度大的文獻，是提高報告質(zhì)量的關(guān)鍵。

2.1 HTML模板的生成

模板指的是報告的初始HTML模板，其定義了報告的基本結(jié)構(gòu)。模板由Word類軟件編輯并導(dǎo)出，而后根據(jù)所填寫的內(nèi)容，對模板內(nèi)容進行調(diào)整。模板內(nèi)容主要分為4類：固定表格、自由表格、固定段落、自由段落，每一類都有各自的處理方法。

(1) 固定表格。固定表格的特征是表格結(jié)構(gòu)不會隨報告內(nèi)容改變而改變，如表4所示。因此，表格的格式可以固定在模板中，只需要將填入的信息進行替換即可。

表4 固定表格

(2) 自由表格。自由表格指的是表格的結(jié)構(gòu)會隨報告的內(nèi)容而改變。例如表5所示的臨床表型相關(guān)變異表格。

表5 自由表格-臨床表型相關(guān)變異

表格的大小會隨著用戶標記的基因數(shù)量而增加，因此表格的結(jié)構(gòu)不能夠固定在模板中，而是應(yīng)該隨著數(shù)據(jù)的增加，將結(jié)構(gòu)連同數(shù)據(jù)一同寫入。因此，在HTML模板中，臨床表型相關(guān)變異表格僅寫入表頭格式?；驍?shù)據(jù)按照表頭格式，逐行進行插入。

(3) 固定段落。固定段落的內(nèi)容一般是通用的解釋性語句，語句內(nèi)容固定，格式固定，可直接定義在模板中。

(4) 自由段落。自由段落指段落的內(nèi)容不固定，其中又分為字符不固定段落與格式不固定段落。字符不固定段落指的是段落的基本格式已經(jīng)確定，僅有段落中的某些字符串需要隨著用戶的輸入而進行更改，這類段落可以直接編寫在HTML模板中，將需要替換的關(guān)鍵字進行標識，使用時進行字符替換。

格式不固定段落指的是段落格式或數(shù)量不固定，這類段落無法將格式固定在HTML模板中，故HTML模板僅寫入需要替換的字符串，段落格式由內(nèi)容生成模塊定義。

2.2 文獻排序

基因檢測報告需要提供PubMed文獻的引用作為文獻，如何獲取與基因檢測報告內(nèi)容相關(guān)的文獻成為關(guān)鍵。本文利用了三個數(shù)據(jù)來源：OMIM數(shù)據(jù)庫、ClinVar數(shù)據(jù)庫和文本挖掘數(shù)據(jù)庫dmVar。

OMIM數(shù)據(jù)庫是人類孟德爾遺傳的網(wǎng)絡(luò)版，主要著眼于可遺傳的或遺傳性的基因疾病，其中包括文本信息和相關(guān)參考信息、序列記錄、圖譜和相關(guān)其他數(shù)據(jù)庫[8]。

ClinVar是一個公開的數(shù)據(jù)庫，收集了與疾病相關(guān)的數(shù)據(jù)庫。由美國國立衛(wèi)生研究院于2013年為了生物技術(shù)信息開發(fā)而構(gòu)建。ClinVar擁有來自1 000個提交者的600 000條提交記錄，代表430 000條變異數(shù)據(jù)[9]。

PubMed是由美國國家生物技術(shù)中心(NCBI)主導(dǎo)的，美國國立衛(wèi)生研究院(NIH)與美國國家醫(yī)學圖書館(NLM)共同開發(fā)維護的免費數(shù)據(jù)庫，其收錄了3 000萬篇生物醫(yī)學文獻[10]。PubMed文獻的挖掘工作一直是醫(yī)學工作者的研究熱點，在進行挖掘時，研究者主要采用3種方法將描述表型的詞匯映射為標準詞表[11]，包括醫(yī)學主題詞(Medical Subject Headings, MeSH)[12]、統(tǒng)一醫(yī)學語言系統(tǒng)(Unified Medical Language System, UMLS)[13]、人類表型本體論(Human Phenotype Ontology, HPO)[14]。GTX.Digest系統(tǒng)中的文本挖掘數(shù)據(jù)庫dmVar以MeSH號作為表型標準詞表，提取了PubMed文獻中基因、突變、疾病等命名實體，以及期刊編號、期刊影響因子等信息。

基于上述三個數(shù)據(jù)庫，本文選擇文獻的優(yōu)先級判斷主要有相關(guān)性和可信度兩個維度。相關(guān)性指文獻是否在描述所選基因和疾病，是一個強條件；可信度是一個較為綜合的指標，以期刊的影響因子和發(fā)表時間進行綜合評估。

2.2.1文獻預(yù)處理

ClinVar和OMIM雖然都是遺傳疾病的數(shù)據(jù)庫，但兩者的關(guān)注點不一樣。ClinVar以基因突變?yōu)榛締挝唬接懲蛔兪欠裰虏?，尋找致病性證據(jù)。OMIM則是以疾病為基本單位，討論疾病由哪些基因突變引起，給出疾病的基本特征。在這一差異下，兩者文獻數(shù)據(jù)的組織方法有很大差別。OMIM提供的文獻列表明確了文獻討論的基因與疾??；ClinVar給出的文獻列表則關(guān)注突變及其是否會致病，沒有對疾病進行分類。相關(guān)性(文獻是否描述同一個疾病)是進行文獻排序的前提，因此需要對ClinVar文獻進行分類。此外，兩者都沒有給出文獻所發(fā)期刊的影響因子。

文獻預(yù)處理的主要工作有：(1) 實現(xiàn)ClinVar文獻按疾病分類；(2) 獲取文獻影響因子標記。

2.2.2ClinVar文獻分類

dmVar文本挖掘數(shù)據(jù)庫中標注了每一篇文獻所討論的基因、突變、疾病、期刊影響因子，其中疾病以PubMed疾病分類標準MeSH進行標注。

基于文本挖掘結(jié)果，ClinVar文獻預(yù)處理算法流程如圖2所示。使用ClinVar文獻的PubMed號在文本挖掘結(jié)果中查找該文獻所討論疾病的MeSH號，根據(jù)查詢到的MeSH號，于MeSH-OMIM號對應(yīng)表中查找MeSH號所對應(yīng)的OMIM號，最后以此OMIM號來標記ClinVar文獻，實現(xiàn)ClinVar文獻的疾病分類。

圖2 ClinVar文獻分類流程

2.2.3期刊影響因子的獲取

PubMed文本挖掘結(jié)果中包含了文獻所發(fā)期刊的影響因子，由于PubMed收錄文章的跨度大(1781年至今)，一些期刊已經(jīng)?？蚋?，對于這類期刊，本文默認其影響因子為0。

期刊影響因子的獲取如圖3所示。使用文獻的PubMed號在文本挖掘結(jié)果中查詢對應(yīng)期刊的影響因子，并以影響因子標記文獻。

圖3 期刊影響因子獲取流程

2.2.4排序算法

文獻排序的評定標準主要有：相關(guān)性、影響因子、發(fā)表時間。

1) 相關(guān)性判斷。實現(xiàn)ClinVar文獻的疾病分類后，依據(jù)疾病可獲得OMIM文獻列表和ClinVar文獻列表集合。集合內(nèi)的文獻與所述疾病絕對相關(guān)，應(yīng)當擁有更高的權(quán)重，否則其權(quán)重應(yīng)當較小。

2) 影響因子的權(quán)重設(shè)計。影響因子IF是以年為單位進行計算的。以1992年的某一期刊影響因子為例：

IF1992=A/B

式中：A為該期刊1990年至1991年所有文獻在1992年中被引用的次數(shù)；B為該期刊1990年至1991年所有文獻數(shù)。文獻刊物的影響因子來源于湯森路透發(fā)布的期刊引證報告(Journal Citation Reports，JCR)[15]，其代表最近一年內(nèi)刊物的論文質(zhì)量。據(jù)此，文獻發(fā)表時間越早，當前影響因子的有效性應(yīng)當越低；另一方面，隨著檢測設(shè)備和現(xiàn)代醫(yī)學的發(fā)展，發(fā)表時間晚的文獻應(yīng)當具有更高的可信度，其影響因子也應(yīng)該有更高的權(quán)重。

本文統(tǒng)計了2002年至2012年遺傳學排名前9的期刊的影響因子變化率，如表6所示?？梢钥闯觯琶?的期刊影響因子的10年平均變化率高達35%，證明了影響因子權(quán)重設(shè)計的正確性。文獻發(fā)表時間越早，當前影響因子的有效性就越低。

表6 遺傳學期刊影響因子變化率

基于上述思想，設(shè)計排序算法如下：

pscore=α·r·EIF(IF+0.01)+(1-α)·(1-r)·EIF(IF+0.01)

式中：r為相關(guān)性，表示文獻是否與疾病主題相關(guān)，相關(guān)時r=1，否則r=0；α為相關(guān)性因子，取α=0.99；IF為當前年份期刊的影響因子，(IF+0.01)是為了避免未找到影響因子的文獻被直接排除；EIF為影響因子的時效性量化。

式中：Yc為所有文獻發(fā)表時間的中位數(shù)，即對發(fā)表時間越早的文獻，當前年份影響因子的影響力越低。

3 實驗

文獻排序算法的目標是找到符合普遍醫(yī)學研究者文獻選取傾向的文獻序列，通常來說依據(jù)有：(1) 主題一致；(2) 影響因子大；(3) 發(fā)表時間近。

3.1 單維算法結(jié)果分析

基于上述的基本依據(jù)，考察相關(guān)性、影響因子、發(fā)表時間各自對算法結(jié)果的影響。本文假設(shè)文獻列表中文獻發(fā)布時間中位數(shù)為1970年，即：

分別考察(r=0,IF=10)、(r=1,IF=10)、(r=1,IF=15)條件下，Pscore隨發(fā)表時間的變化規(guī)律，結(jié)果如圖4所示。

圖4 不同條件下Pscore隨發(fā)表時間的變化曲線

依據(jù)變化曲線結(jié)果，從相關(guān)性、影響因子、發(fā)表時間三個維度進行分析，可得：

1) 由P1、P2曲線對比可知，在本文算法的排序結(jié)果中，相同發(fā)表時間、相同影響因子、主題相關(guān)的文獻比不相關(guān)的文獻的排序結(jié)果要靠前。

2) 由P2、P3曲線對比可知，在本文算法的排序結(jié)果中，主題相關(guān)的、發(fā)表時間相同的、較高影響因子的文獻的排序要優(yōu)于較低影響因子的文獻。

3) 由P3曲線可知，在本文算法的排序結(jié)果中，主題相關(guān)的、影響因子相同的、發(fā)表時間較晚(較新)的文獻的排序要優(yōu)于較早發(fā)表的文獻。

由上述的分析結(jié)果可知，本文排序算法符合醫(yī)學研究者普遍的文獻排序規(guī)則，排序結(jié)果符合用戶的預(yù)期。

3.2 多維算法結(jié)果分析

在真實的使用環(huán)境中，單維度影響是容易決斷的，難的是多維度分析。例如此時有兩篇文獻A、B，其中A發(fā)表于2002年，當前影響因子為4，B發(fā)表于2007年，當前影響因子為3.5，此時A、B的排序是難以確定的，抉擇時應(yīng)該考慮使用場景。此時，存在兩種不同的場景：候選文獻的發(fā)表時間普遍較早(場景一)和候選文獻的發(fā)表時間普遍較晚(場景二)。

在場景一中，文獻的發(fā)表時間都較早，發(fā)表時間影響力降低，影響因子為主要判斷因素(沒有充分的可供選擇“新”文獻)，此時A文獻的排序應(yīng)該高于B。在場景二中，文獻的發(fā)表時間都較晚，早發(fā)表的文獻的優(yōu)先級降低(有充分的可供選擇的“新”文獻)，此時B文獻的排序應(yīng)該高于A。

依據(jù)上述假設(shè)，引入文獻列表發(fā)表時間中位數(shù)Yc，假定兩篇文獻分別為T1(Yc=2010，IF=10)、T2(Yc=1990，IF=15) ，其中Yc為發(fā)表時間、IF為影響因子?？疾熘形粩?shù)對算法結(jié)果的影響，如圖5所示。

圖5 中位數(shù)Yc-Pscore曲線

可以看出，當中位數(shù)較低時，T2排序結(jié)果優(yōu)于T1，即影響因子為主要影響因素；當中位數(shù)較高時，T1的排序結(jié)果優(yōu)于T2，此時影響因子的影響力降低，發(fā)表時間影響力增加。該結(jié)果符合引入中位數(shù)的初衷。

3.3 排序?qū)嶒?/h3>
本實驗選取了OMIM編號為216900疾病對應(yīng)的17篇文獻，并使用本文算法對其進行排序，結(jié)果如表7所示。
表7 遺傳學期刊影響因子變化率
續(xù)表7
可以看出，本文算法并不是單一從影響因子或者發(fā)表時間進行排序，而是對二者進行了復(fù)合考慮，排序結(jié)果符合我們的預(yù)期。

3.4 算法評價

文獻排序算法的最終目標是從特定的文獻列表中，選出可信度高的文獻，這一過程應(yīng)該考慮文獻列表的特點，而不是單一地使用某一項指標衡量。本文算法不僅綜合了相關(guān)性、影響因子和發(fā)表時間的影響，還考慮了文獻列表整體發(fā)表時間的影響，能夠滿足實際應(yīng)用的需求。

4 結(jié) 語

本文從醫(yī)生出具遺傳檢測報告過于繁瑣的現(xiàn)實需求出發(fā)，實現(xiàn)了遺傳檢測報告自動生成技術(shù)。該技術(shù)整合了OMIM、ClinVar、PubMed文獻挖掘數(shù)據(jù)dmVar，并在其基礎(chǔ)上設(shè)計了文獻排序算法。系統(tǒng)可針對用戶輸入的表型，推薦匹配度更高的遺傳疾病，提高了檢測報告的準確性，減輕了醫(yī)生的工作量。遺傳檢測報告自動生成技術(shù)已經(jīng)應(yīng)用在GTX.Digest中。下一步工作為：(1) 拓展數(shù)據(jù)庫，加入其他權(quán)威數(shù)據(jù)庫如Orphanet等。(2) 拓展系統(tǒng)可出具報告的類型，如腫瘤檢測報告等。(3) 在報告中加入疾病描述的內(nèi)容。