亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基因解讀系統(tǒng)中遺傳檢測報告自動生成技術(shù)

        2021-02-25 07:48:18張少偉蔣艷凰
        計算機應(yīng)用與軟件 2021年2期
        關(guān)鍵詞:排序報告數(shù)據(jù)庫

        張少偉 蔣艷凰

        1(中國科學技術(shù)大學軟件工程學院 安徽 合肥 230026)2(人和未來生物科技(長沙)有限公司 湖南 長沙 410000)

        0 引 言

        遺傳病是指染色體畸變和基因突變引起的一大類疾病。截至2010年8月10日,已登記的孟德爾遺傳性狀或者疾病達20 135種,其中已知的單基因遺傳病及線粒體基因病為6 500余種[1]。由于我國人口基數(shù)龐大,遺傳病對我國的影響尤為明顯,我國有1 000余萬單基因遺傳病患者,新生兒中有超過800萬染色體遺傳病患者,多基因遺傳病和體細胞遺傳病的發(fā)病人數(shù)更是難以估量[2]。對基因進行精準檢測與解讀,準確定位致病原因,預(yù)防遺傳疾病,成為一項關(guān)系到全人類的關(guān)鍵技術(shù),也是近年來臨床醫(yī)學研究的熱點。

        外顯子測序是指用序列捕獲技術(shù)將全基因組外顯子區(qū)域DNA捕捉并富集后進行高通量測序的基因組分析方法[3]。在人類基因中大約有180 000外顯子,一個正常樣本的基因檢測結(jié)果可能包含了數(shù)萬條突變基因,由人工進行逐條解讀是不實際也是不合理的。在這一背景下,國內(nèi)外推出了眾多優(yōu)秀的基因解讀系統(tǒng),如“人和未來”的GTX.Digest系統(tǒng)、以色列的Congenica等。這些系統(tǒng)能夠?qū)蜻M行注釋并按致病性排序,醫(yī)療人員僅需要關(guān)注排名前幾十個基因,極大地減少了醫(yī)療工作者的工作量。醫(yī)療工作者依據(jù)解讀系統(tǒng)的分析結(jié)果,查找一定量的文獻來佐證基因與疾病之間的影響,并最終生成一份解讀報告。

        中國遺傳學會遺傳咨詢分會組織發(fā)布的《高通量全外顯子組測序檢測報告示例》中顯示,檢測報告應(yīng)包含樣本信息、臨床癥狀、檢測項目、檢測結(jié)論、基因變異信息、疾病名稱、結(jié)果解釋、建議,以及參考文獻[4]。這樣一份報告往往需要花費醫(yī)療工作者數(shù)小時的工作時間,一些復(fù)雜的報告甚至需要花費數(shù)十小時。因此,自動出具報告并將已有信息自動填入報告能夠極大減輕醫(yī)療工作者的負擔。

        GTX.Digest是“人和未來”推出的一款云端基因解讀系統(tǒng)。GTX.Digest以基因突變?yōu)閱挝?,以探究突變的致病性為目標,對用戶的VCF數(shù)據(jù)文件進行注釋解讀。解讀結(jié)果不僅包含基因數(shù)據(jù)的注釋結(jié)果,還包含ClinVar、OMIM、Orphanet等權(quán)威數(shù)據(jù)庫的致病性建議。同時,GTX.Digest開發(fā)組還對PubMed所有文獻進行了文本挖掘,探究文獻描述的基因突變與疾病之間的關(guān)系,并開創(chuàng)性地將文本挖掘結(jié)果應(yīng)用在了基因解讀中,用戶可直接看到文獻中描述基因突變與疾病關(guān)系的句子,極大地提高了醫(yī)生確定致病基因的效率和準確性。GTX.Digest能夠很好地輔助醫(yī)生進行遺傳病分析,但無法自動生成遺傳檢測報告,而遺傳檢測報告作為基因解讀的最終輸出,是一個成熟的基因解讀系統(tǒng)中不可或缺的一環(huán)[5]。

        針對自動出具報告的現(xiàn)實需求,基于GTX.Digest基因解讀系統(tǒng)的分析結(jié)果、醫(yī)生對致病性的判定結(jié)果、生物醫(yī)學領(lǐng)域的權(quán)威數(shù)據(jù)庫等,在Linux操作系統(tǒng)上,實現(xiàn)了全外顯子檢測報告的自動生成。用戶在解讀系統(tǒng)中確定了致病基因后,填寫患者基本信息,選擇與治病基因相關(guān)聯(lián)的疾病、轉(zhuǎn)錄本等信息,系統(tǒng)將自動分析基因變異產(chǎn)生的氨基酸變化,自動生成從基因便宜角度對疾病解釋,以及與之相關(guān)的參考文獻。系統(tǒng)提供報告預(yù)覽和自動下載功能,下載的報告為Word格式,用戶可對其進行進一步編輯。

        1 報告自動生成系統(tǒng)架構(gòu)

        圖1給出了報告自動生成系統(tǒng)結(jié)構(gòu),主要包括三個部分:基因數(shù)據(jù)庫、報告內(nèi)容獲取、報告生成與應(yīng)用?;A(chǔ)數(shù)據(jù)庫包括生成報告所需的基礎(chǔ)數(shù)據(jù)來源,這些數(shù)據(jù)包括:GTX.Digest系統(tǒng)解讀結(jié)果、氨基酸描述數(shù)據(jù)、表型-疾病關(guān)系數(shù)據(jù)、文獻數(shù)據(jù)等。數(shù)據(jù)的真實性與權(quán)威性決定了報告的質(zhì)量,因此必須以準確、權(quán)威的數(shù)據(jù)庫為基礎(chǔ),構(gòu)建報告生成系統(tǒng)。報告內(nèi)容的獲取包括兩部分:一是需要醫(yī)護人員參與的內(nèi)容獲取,包括填寫用戶的基因信息、從解讀結(jié)果中選擇致病基因相關(guān)的疾病和轉(zhuǎn)錄本等;二是系統(tǒng)根據(jù)基礎(chǔ)數(shù)據(jù)庫自動生成相關(guān)報告內(nèi)容。報告生成和應(yīng)用則根據(jù)獲取的情報內(nèi)容,自動生成Word報告。

        圖1 報告自動生成系統(tǒng)結(jié)構(gòu)

        1.1 基礎(chǔ)數(shù)據(jù)庫

        基礎(chǔ)數(shù)據(jù)庫是報告自動生成的關(guān)鍵,決定了報告的整體質(zhì)量,因此數(shù)據(jù)來源必須與行業(yè)規(guī)范相符合,數(shù)據(jù)的權(quán)威性也需得到行業(yè)的認可。

        1.1.1解讀結(jié)果數(shù)據(jù)

        解讀結(jié)果是指對原始的基因數(shù)據(jù)的解讀結(jié)果,將生澀難懂的基因編碼轉(zhuǎn)換成普適的學科術(shù)語,并以基因突變?yōu)閱挝?,依?jù)權(quán)威數(shù)據(jù)庫,對其致病性進行標注[6]。

        該系統(tǒng)的解讀結(jié)果數(shù)據(jù)來源于基因解讀平臺GTX.Digest。GTX.Digest不僅對基因和變異進行了致病性排序,而且展示了對PubMed文獻的挖掘結(jié)果,使得解讀結(jié)果更科學、精準。

        解讀結(jié)果數(shù)據(jù)包括:基因名、轉(zhuǎn)錄本編號、突變信息、遺傳模式、致病性、OMIM疾病等。

        1.1.2氨基酸描述數(shù)據(jù)

        解讀結(jié)果數(shù)據(jù)中關(guān)于氨基酸的變化使用的是國際通用的氨基酸簡寫形式,而在報告中是以中文形式呈現(xiàn)。氨基酸描述數(shù)據(jù)記錄了氨基酸的英文簡稱與中文全稱,用來實現(xiàn)英文簡稱與中文全稱的轉(zhuǎn)換,如表1所示。

        表1 氨基酸描述數(shù)據(jù)

        1.1.3表型-疾病對應(yīng)數(shù)據(jù)

        表型指一定基因型的個體,在特定環(huán)境中所呈現(xiàn)出來的性狀,例如:感冒、發(fā)燒、紅發(fā)[6]。所有的遺傳病都有其特定的表型特征,正是因為表型與疾病的這種相關(guān)性,解讀軟件要求輸入表型數(shù)據(jù)來作為排序依據(jù)。

        通常來說,基因突變可能導(dǎo)致的疾病不唯一,每種疾病的表型特征也不盡相同[7]。要精確判定樣本患有何種疾病,必須計算樣本表型與疾病的相關(guān)性,這就需要表型-疾病關(guān)系數(shù)據(jù),即某一種疾病會有哪些表型。

        人類孟德爾遺傳線上庫(Online Mendelian Inheritance in Man,OMIM)[8]提供了疾病與人類表型術(shù)語集(Human Phenotype Ontology,HPO)的對應(yīng)表,如表2所示。

        表2 OMIM疾病-HPO對應(yīng)關(guān)系

        OMIM提供的表格以O(shè)MIM疾病為基本單位,每一個疾病-表型關(guān)系為一條,共96 919條數(shù)據(jù)。在本文系統(tǒng)中,疾病-表型關(guān)系用于判定用戶輸入的表型與何種疾病相關(guān)性更大,這種相關(guān)性用“用戶輸入表型”與“疾病對應(yīng)表型”相同的數(shù)量來衡量。依據(jù)這種應(yīng)用場景,對表格進行了聚合,得到7 015條MySQL記錄,結(jié)構(gòu)如表3所示。

        表3 聚合后的OMIM疾病-表型對應(yīng)

        為方便對HPO進行比對,以列表風格對HPO進行存儲,同時為了加快查詢速度,本文還對OMIM編號添加了索引。

        1.1.4文獻數(shù)據(jù)

        遺傳檢測報告用于指導(dǎo)醫(yī)生進行臨床診斷,因此報告的內(nèi)容,特別是致病性判定一定要有所依據(jù),需要一定量的參考文獻支持。

        本系統(tǒng)中的參考文獻來源于權(quán)威數(shù)據(jù)庫OMIM、ClinVar、PubMed文獻挖掘結(jié)果庫dmVar,并在其基礎(chǔ)上進行了優(yōu)化排序。

        1.2 報告內(nèi)容獲取

        報告內(nèi)容獲取即生成報告內(nèi)容,主要分為用戶基本信息填寫、致病基因分析結(jié)果獲取、致病性描述、文獻獲取四個部分。

        (1) 用戶基本信息填寫依據(jù)《高通量全外顯子組測序檢測報告示例》。報告中的基本信息應(yīng)包括受檢者信息、樣本信息、送檢者信息,由用戶填寫。此外,用戶還可對系統(tǒng)推薦的轉(zhuǎn)錄本和疾病進行更改。

        (2) 致病基因分析結(jié)果包括基因名、轉(zhuǎn)錄本、遺傳方式等信息。從GTX.Digest解讀結(jié)果中獲取數(shù)據(jù),并按照相應(yīng)的表格形式進行組織。

        (3) 致病性描述中除了解讀結(jié)果外,還包括基因所導(dǎo)致的疾病、疾病遺傳方式、父母的患病分析。

        (4) 文獻獲取指從文獻數(shù)據(jù)庫中獲取疾病所對應(yīng)的參考文獻,并按照參考文獻格式進行組織。

        1.3 報告生成與應(yīng)用

        全外顯子檢測報告包含表格類復(fù)雜結(jié)構(gòu),目前沒有很好的Linux庫可實現(xiàn)對Word的直接編輯。為了兼顧Web頁面預(yù)覽的需求,本文決定使用HTML作為直接生成格式,而后再對其進行格式轉(zhuǎn)換。

        在報告生成過程中存在多次頁面交互:基本信息填寫與疾病轉(zhuǎn)錄本選擇、疾病-基因相關(guān)性檢查、報告預(yù)覽。

        在基本信息填寫與疾病轉(zhuǎn)錄本選擇交互界面中,用戶可填寫基本信息,還可以更改系統(tǒng)推薦的疾病與轉(zhuǎn)錄本。用戶填寫的基本信息將進行存儲,用于自動填充信息表格。

        當用戶選擇的疾病與基因的遺傳方式不同時,相關(guān)數(shù)據(jù)將呈現(xiàn)在疾病-基因相關(guān)性檢查界面上,供用戶查看和確認。

        HTML報告生成后,可進行報告預(yù)覽。

        2 HTML模板生成與文獻排序

        遺傳報告自動生成的難點主要有兩點:Linux系統(tǒng)下Word文件的生成和文獻數(shù)據(jù)排序。在本技術(shù)中,Word報告的生成路線為:HTML模板—數(shù)據(jù)填充—格式轉(zhuǎn)換,HTML模板定義了報告的內(nèi)容和風格,是報告生成的關(guān)鍵。文獻數(shù)據(jù)是報告結(jié)論可信度的重要依據(jù),由于報告的篇幅有限,如何對文獻進行排序,并從中選出可信度大的文獻,是提高報告質(zhì)量的關(guān)鍵。

        2.1 HTML模板的生成

        模板指的是報告的初始HTML模板,其定義了報告的基本結(jié)構(gòu)。模板由Word類軟件編輯并導(dǎo)出,而后根據(jù)所填寫的內(nèi)容,對模板內(nèi)容進行調(diào)整。模板內(nèi)容主要分為4類:固定表格、自由表格、固定段落、自由段落,每一類都有各自的處理方法。

        (1) 固定表格。固定表格的特征是表格結(jié)構(gòu)不會隨報告內(nèi)容改變而改變,如表4所示。因此,表格的格式可以固定在模板中,只需要將填入的信息進行替換即可。

        表4 固定表格

        (2) 自由表格。自由表格指的是表格的結(jié)構(gòu)會隨報告的內(nèi)容而改變。例如表5所示的臨床表型相關(guān)變異表格。

        表5 自由表格-臨床表型相關(guān)變異

        表格的大小會隨著用戶標記的基因數(shù)量而增加,因此表格的結(jié)構(gòu)不能夠固定在模板中,而是應(yīng)該隨著數(shù)據(jù)的增加,將結(jié)構(gòu)連同數(shù)據(jù)一同寫入。因此,在HTML模板中,臨床表型相關(guān)變異表格僅寫入表頭格式?;驍?shù)據(jù)按照表頭格式,逐行進行插入。

        (3) 固定段落。固定段落的內(nèi)容一般是通用的解釋性語句,語句內(nèi)容固定,格式固定,可直接定義在模板中。

        (4) 自由段落。自由段落指段落的內(nèi)容不固定,其中又分為字符不固定段落與格式不固定段落。字符不固定段落指的是段落的基本格式已經(jīng)確定,僅有段落中的某些字符串需要隨著用戶的輸入而進行更改,這類段落可以直接編寫在HTML模板中,將需要替換的關(guān)鍵字進行標識,使用時進行字符替換。

        格式不固定段落指的是段落格式或數(shù)量不固定,這類段落無法將格式固定在HTML模板中,故HTML模板僅寫入需要替換的字符串,段落格式由內(nèi)容生成模塊定義。

        2.2 文獻排序

        基因檢測報告需要提供PubMed文獻的引用作為文獻,如何獲取與基因檢測報告內(nèi)容相關(guān)的文獻成為關(guān)鍵。本文利用了三個數(shù)據(jù)來源:OMIM數(shù)據(jù)庫、ClinVar數(shù)據(jù)庫和文本挖掘數(shù)據(jù)庫dmVar。

        OMIM數(shù)據(jù)庫是人類孟德爾遺傳的網(wǎng)絡(luò)版,主要著眼于可遺傳的或遺傳性的基因疾病,其中包括文本信息和相關(guān)參考信息、序列記錄、圖譜和相關(guān)其他數(shù)據(jù)庫[8]。

        ClinVar是一個公開的數(shù)據(jù)庫,收集了與疾病相關(guān)的數(shù)據(jù)庫。由美國國立衛(wèi)生研究院于2013年為了生物技術(shù)信息開發(fā)而構(gòu)建。ClinVar擁有來自1 000個提交者的600 000條提交記錄,代表430 000條變異數(shù)據(jù)[9]。

        PubMed是由美國國家生物技術(shù)中心(NCBI)主導(dǎo)的,美國國立衛(wèi)生研究院(NIH)與美國國家醫(yī)學圖書館(NLM)共同開發(fā)維護的免費數(shù)據(jù)庫,其收錄了3 000萬篇生物醫(yī)學文獻[10]。PubMed文獻的挖掘工作一直是醫(yī)學工作者的研究熱點,在進行挖掘時,研究者主要采用3種方法將描述表型的詞匯映射為標準詞表[11],包括醫(yī)學主題詞(Medical Subject Headings, MeSH)[12]、統(tǒng)一醫(yī)學語言系統(tǒng)(Unified Medical Language System, UMLS)[13]、人類表型本體論(Human Phenotype Ontology, HPO)[14]。GTX.Digest系統(tǒng)中的文本挖掘數(shù)據(jù)庫dmVar以MeSH號作為表型標準詞表,提取了PubMed文獻中基因、突變、疾病等命名實體,以及期刊編號、期刊影響因子等信息。

        基于上述三個數(shù)據(jù)庫,本文選擇文獻的優(yōu)先級判斷主要有相關(guān)性和可信度兩個維度。相關(guān)性指文獻是否在描述所選基因和疾病,是一個強條件;可信度是一個較為綜合的指標,以期刊的影響因子和發(fā)表時間進行綜合評估。

        2.2.1文獻預(yù)處理

        ClinVar和OMIM雖然都是遺傳疾病的數(shù)據(jù)庫,但兩者的關(guān)注點不一樣。ClinVar以基因突變?yōu)榛締挝唬接懲蛔兪欠裰虏?,尋找致病性證據(jù)。OMIM則是以疾病為基本單位,討論疾病由哪些基因突變引起,給出疾病的基本特征。在這一差異下,兩者文獻數(shù)據(jù)的組織方法有很大差別。OMIM提供的文獻列表明確了文獻討論的基因與疾??;ClinVar給出的文獻列表則關(guān)注突變及其是否會致病,沒有對疾病進行分類。相關(guān)性(文獻是否描述同一個疾病)是進行文獻排序的前提,因此需要對ClinVar文獻進行分類。此外,兩者都沒有給出文獻所發(fā)期刊的影響因子。

        文獻預(yù)處理的主要工作有:(1) 實現(xiàn)ClinVar文獻按疾病分類;(2) 獲取文獻影響因子標記。

        2.2.2ClinVar文獻分類

        dmVar文本挖掘數(shù)據(jù)庫中標注了每一篇文獻所討論的基因、突變、疾病、期刊影響因子,其中疾病以PubMed疾病分類標準MeSH進行標注。

        基于文本挖掘結(jié)果,ClinVar文獻預(yù)處理算法流程如圖2所示。使用ClinVar文獻的PubMed號在文本挖掘結(jié)果中查找該文獻所討論疾病的MeSH號,根據(jù)查詢到的MeSH號,于MeSH-OMIM號對應(yīng)表中查找MeSH號所對應(yīng)的OMIM號,最后以此OMIM號來標記ClinVar文獻,實現(xiàn)ClinVar文獻的疾病分類。

        圖2 ClinVar文獻分類流程

        2.2.3期刊影響因子的獲取

        PubMed文本挖掘結(jié)果中包含了文獻所發(fā)期刊的影響因子,由于PubMed收錄文章的跨度大(1781年至今),一些期刊已經(jīng)??蚋?,對于這類期刊,本文默認其影響因子為0。

        期刊影響因子的獲取如圖3所示。使用文獻的PubMed號在文本挖掘結(jié)果中查詢對應(yīng)期刊的影響因子,并以影響因子標記文獻。

        圖3 期刊影響因子獲取流程

        2.2.4排序算法

        文獻排序的評定標準主要有:相關(guān)性、影響因子、發(fā)表時間。

        1) 相關(guān)性判斷。實現(xiàn)ClinVar文獻的疾病分類后,依據(jù)疾病可獲得OMIM文獻列表和ClinVar文獻列表集合。集合內(nèi)的文獻與所述疾病絕對相關(guān),應(yīng)當擁有更高的權(quán)重,否則其權(quán)重應(yīng)當較小。

        2) 影響因子的權(quán)重設(shè)計。影響因子IF是以年為單位進行計算的。以1992年的某一期刊影響因子為例:

        IF1992=A/B

        式中:A為該期刊1990年至1991年所有文獻在1992年中被引用的次數(shù);B為該期刊1990年至1991年所有文獻數(shù)。文獻刊物的影響因子來源于湯森路透發(fā)布的期刊引證報告(Journal Citation Reports,JCR)[15],其代表最近一年內(nèi)刊物的論文質(zhì)量。據(jù)此,文獻發(fā)表時間越早,當前影響因子的有效性應(yīng)當越低;另一方面,隨著檢測設(shè)備和現(xiàn)代醫(yī)學的發(fā)展,發(fā)表時間晚的文獻應(yīng)當具有更高的可信度,其影響因子也應(yīng)該有更高的權(quán)重。

        本文統(tǒng)計了2002年至2012年遺傳學排名前9的期刊的影響因子變化率,如表6所示??梢钥闯觯琶?的期刊影響因子的10年平均變化率高達35%,證明了影響因子權(quán)重設(shè)計的正確性。文獻發(fā)表時間越早,當前影響因子的有效性就越低。

        表6 遺傳學期刊影響因子變化率

        基于上述思想,設(shè)計排序算法如下:

        pscore=α·r·EIF(IF+0.01)+(1-α)·(1-r)·EIF(IF+0.01)

        式中:r為相關(guān)性,表示文獻是否與疾病主題相關(guān),相關(guān)時r=1,否則r=0;α為相關(guān)性因子,取α=0.99;IF為當前年份期刊的影響因子,(IF+0.01)是為了避免未找到影響因子的文獻被直接排除;EIF為影響因子的時效性量化。

        式中:Yc為所有文獻發(fā)表時間的中位數(shù),即對發(fā)表時間越早的文獻,當前年份影響因子的影響力越低。

        3 實 驗

        文獻排序算法的目標是找到符合普遍醫(yī)學研究者文獻選取傾向的文獻序列,通常來說依據(jù)有:(1) 主題一致;(2) 影響因子大;(3) 發(fā)表時間近。

        3.1 單維算法結(jié)果分析

        基于上述的基本依據(jù),考察相關(guān)性、影響因子、發(fā)表時間各自對算法結(jié)果的影響。本文假設(shè)文獻列表中文獻發(fā)布時間中位數(shù)為1970年,即:

        分別考察(r=0,IF=10)、(r=1,IF=10)、(r=1,IF=15)條件下,Pscore隨發(fā)表時間的變化規(guī)律,結(jié)果如圖4所示。

        圖4 不同條件下Pscore隨發(fā)表時間的變化曲線

        依據(jù)變化曲線結(jié)果,從相關(guān)性、影響因子、發(fā)表時間三個維度進行分析,可得:

        1) 由P1、P2曲線對比可知,在本文算法的排序結(jié)果中,相同發(fā)表時間、相同影響因子、主題相關(guān)的文獻比不相關(guān)的文獻的排序結(jié)果要靠前。

        2) 由P2、P3曲線對比可知,在本文算法的排序結(jié)果中,主題相關(guān)的、發(fā)表時間相同的、較高影響因子的文獻的排序要優(yōu)于較低影響因子的文獻。

        3) 由P3曲線可知,在本文算法的排序結(jié)果中,主題相關(guān)的、影響因子相同的、發(fā)表時間較晚(較新)的文獻的排序要優(yōu)于較早發(fā)表的文獻。

        由上述的分析結(jié)果可知,本文排序算法符合醫(yī)學研究者普遍的文獻排序規(guī)則,排序結(jié)果符合用戶的預(yù)期。

        3.2 多維算法結(jié)果分析

        在真實的使用環(huán)境中,單維度影響是容易決斷的,難的是多維度分析。例如此時有兩篇文獻A、B,其中A發(fā)表于2002年,當前影響因子為4,B發(fā)表于2007年,當前影響因子為3.5,此時A、B的排序是難以確定的,抉擇時應(yīng)該考慮使用場景。此時,存在兩種不同的場景:候選文獻的發(fā)表時間普遍較早(場景一)和候選文獻的發(fā)表時間普遍較晚(場景二)。

        在場景一中,文獻的發(fā)表時間都較早,發(fā)表時間影響力降低,影響因子為主要判斷因素(沒有充分的可供選擇“新”文獻),此時A文獻的排序應(yīng)該高于B。在場景二中,文獻的發(fā)表時間都較晚,早發(fā)表的文獻的優(yōu)先級降低(有充分的可供選擇的“新”文獻),此時B文獻的排序應(yīng)該高于A。

        依據(jù)上述假設(shè),引入文獻列表發(fā)表時間中位數(shù)Yc,假定兩篇文獻分別為T1(Yc=2010,IF=10)、T2(Yc=1990,IF=15) ,其中Yc為發(fā)表時間、IF為影響因子??疾熘形粩?shù)對算法結(jié)果的影響,如圖5所示。

        圖5 中位數(shù)Yc-Pscore曲線

        可以看出,當中位數(shù)較低時,T2排序結(jié)果優(yōu)于T1,即影響因子為主要影響因素;當中位數(shù)較高時,T1的排序結(jié)果優(yōu)于T2,此時影響因子的影響力降低,發(fā)表時間影響力增加。該結(jié)果符合引入中位數(shù)的初衷。

        3.3 排序?qū)嶒?/h3>

        本實驗選取了OMIM編號為216900疾病對應(yīng)的17篇文獻,并使用本文算法對其進行排序,結(jié)果如表7所示。

        表7 遺傳學期刊影響因子變化率

        續(xù)表7

        可以看出,本文算法并不是單一從影響因子或者發(fā)表時間進行排序,而是對二者進行了復(fù)合考慮,排序結(jié)果符合我們的預(yù)期。

        3.4 算法評價

        文獻排序算法的最終目標是從特定的文獻列表中,選出可信度高的文獻,這一過程應(yīng)該考慮文獻列表的特點,而不是單一地使用某一項指標衡量。本文算法不僅綜合了相關(guān)性、影響因子和發(fā)表時間的影響,還考慮了文獻列表整體發(fā)表時間的影響,能夠滿足實際應(yīng)用的需求。

        4 結(jié) 語

        本文從醫(yī)生出具遺傳檢測報告過于繁瑣的現(xiàn)實需求出發(fā),實現(xiàn)了遺傳檢測報告自動生成技術(shù)。該技術(shù)整合了OMIM、ClinVar、PubMed文獻挖掘數(shù)據(jù)dmVar,并在其基礎(chǔ)上設(shè)計了文獻排序算法。系統(tǒng)可針對用戶輸入的表型,推薦匹配度更高的遺傳疾病,提高了檢測報告的準確性,減輕了醫(yī)生的工作量。遺傳檢測報告自動生成技術(shù)已經(jīng)應(yīng)用在GTX.Digest中。下一步工作為:(1) 拓展數(shù)據(jù)庫,加入其他權(quán)威數(shù)據(jù)庫如Orphanet等。(2) 拓展系統(tǒng)可出具報告的類型,如腫瘤檢測報告等。(3) 在報告中加入疾病描述的內(nèi)容。

        猜你喜歡
        排序報告數(shù)據(jù)庫
        排序不等式
        恐怖排序
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        一圖看懂十九大報告
        數(shù)據(jù)庫
        財經(jīng)(2017年2期)2017-03-10 14:35:35
        報告
        南風窗(2016年26期)2016-12-24 21:48:09
        數(shù)據(jù)庫
        財經(jīng)(2016年15期)2016-06-03 07:38:02
        數(shù)據(jù)庫
        財經(jīng)(2016年3期)2016-03-07 07:44:46
        數(shù)據(jù)庫
        財經(jīng)(2016年6期)2016-02-24 07:41:51
        亚洲va韩国va欧美va| 天天影视色香欲综合久久| 99热视热频这里只有精品| 精品亚洲午夜久久久久| 久久久高清免费视频| 国产午夜精品久久精品| 国产三级视频不卡在线观看| 秘书边打电话边被躁bd视频| 国产极品久久久久极品| 8090成人午夜精品无码| 免费人成在线观看播放视频| 亚洲国产精品成人精品无码区在线| 九色九九九老阿姨| 亚洲成av人最新无码| 久久久国产不卡一区二区| 亚洲中文字幕一区av| 久久久噜噜噜久久中文福利| 狼色精品人妻在线视频| 国产码欧美日韩高清综合一区| 免费看av网站在线亚洲| 久久青青草原精品国产app| 熟妇人妻中文字幕无码老熟妇| 国产一级做a爱视频在线| 美女射精视频在线观看| 大陆国产乱人伦| 欧美成人精品午夜免费影视| av中文字幕综合在线| 日本一区二区三区在线视频观看| 亚洲成人av一二三四区| 国产va在线观看免费| 国产主播无套内射一区| 国产视频在线观看一区二区三区| 男女猛烈拍拍拍无挡视频| 国产乱沈阳女人高潮乱叫老| 午夜影视啪啪免费体验区入口| 国产激情小视频在线观看| 国产成人av乱码在线观看| 亚洲一区二区三区日本久久九| 久久午夜伦鲁鲁片免费| 中文字幕亚洲五月综合婷久狠狠 | 久久亚洲黄色|