亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        癌癥標(biāo)志本體構(gòu)建與應(yīng)用

        2023-09-30 11:17:38吳萌康宏宇徐曉巍侯麗李姣
        關(guān)鍵詞:結(jié)直腸癌本體

        吳萌 康宏宇 徐曉巍 侯麗 李姣

        摘要:目的 構(gòu)建一種可溯源的癌癥標(biāo)志知識(shí)本體,支持基因突變、癌癥標(biāo)志和細(xì)胞系等相關(guān)數(shù)據(jù)整合、標(biāo)準(zhǔn)化和關(guān)聯(lián),并基于該本體實(shí)現(xiàn)新知識(shí)發(fā)現(xiàn)。方法 基于“七步法”和現(xiàn)階段本體的構(gòu)建方法,明確癌癥標(biāo)志本體覆蓋范圍、框架結(jié)構(gòu)、可復(fù)用的術(shù)語(yǔ)和新增術(shù)語(yǔ);以結(jié)直腸癌為例,利用文本挖掘和文本分類技術(shù)對(duì)PubMed文獻(xiàn)中結(jié)直腸癌標(biāo)志相關(guān)知識(shí)進(jìn)行提取,利用癌癥標(biāo)志本體對(duì)提取的知識(shí)進(jìn)行規(guī)范化表達(dá)。結(jié)合癌癥體細(xì)胞突變目錄中已有的癌癥標(biāo)志證據(jù)和進(jìn)一步語(yǔ)義檢索,實(shí)現(xiàn)新知識(shí)的發(fā)現(xiàn)。結(jié)果 最終構(gòu)建癌癥標(biāo)志本體包含類9910個(gè),實(shí)例6138個(gè),實(shí)現(xiàn)2310篇涉及結(jié)直腸癌標(biāo)志文獻(xiàn)摘要和26個(gè)結(jié)直腸癌標(biāo)志相關(guān)證據(jù)的語(yǔ)義表示。與癌癥體細(xì)胞突變目錄數(shù)據(jù)集相比,本研究發(fā)現(xiàn)與結(jié)直腸癌相關(guān)的多個(gè)基因的癌癥標(biāo)志的新證據(jù)。結(jié)論 本研究有助于整合癌癥分子層面的致病機(jī)制,了解基因突變?cè)诎┌Y發(fā)生過(guò)程中的具體作用,實(shí)現(xiàn)癌癥標(biāo)志知識(shí)的快速發(fā)現(xiàn)。

        關(guān)鍵詞:結(jié)直腸癌;本體;癌癥標(biāo)志

        中圖分類號(hào): R735.3;Q756文獻(xiàn)標(biāo)志碼: A文章編號(hào):1000-503X(2023)04-0618-09

        DOI:10.3881/j.issn.1000-503X.15386

        Development and Application of Ontology of Cancer Hallmarks

        WU Meng,KANG Hongyu,XU Xiaowei,HOU Li,LI Jiao

        Center of Medical Information Innovation Research,Institute of Medical Information/Library,

        CAMS and PUMC,Beijing 100020,China

        Corresponding author:HOU Li Tel:010-52328750,E-mail:hou.li@imicams.ac.cn

        ABSTRACT:Objective To develop a traceable cancer hallmark ontology with terminology including gene mutation,cancer hallmark,and cell line for knowledge integration,standardization,correlation,and discovery.Methods The Ontology Development 101 and the current ontology development methods were employed to determine the content coverage,structural layers,reusable terms,and new terms of the cancer hallmark ontology.Taking colorectal cancer as a study case,we extracted the knowledge related with colorectal cancer hallmarks using text mining and text classification technology from PubMed,and then formalized the extracted knowledge into the cancer hallmark ontology.Moreover,we made use of existing cancer hallmark evidence in Catalogue of Somatic Mutations in Cancer and further semantic retrieval to discover new knowledge.Results The established cancer hallmark ontology comprised 9910 classes and 6138 instances,which realized the semantic representation of 2310 article abstracts about colorectal cancer and 26 pieces of evidence about genes and their cancer hallmarks.Compared with the Catalogue of Somatic Mutations in Cancer,new evidence for more genes associated with colorectal cancer hallmarks was found based on cancer hallmark ontology.Conclusion This study is of great significance to the research on the cancer pathogenesis at the molecular level,the revealing of specific roles of genes and mutations in the occurrence of cancer,and the rapid knowledge discovery of cancer hallmarks.

        Key words:colorectal cancer;ontology;hallmarks of cancer

        Acta Acad Med Sin,2023,45(4):618-626

        隨著癌癥靶向治療技術(shù)的發(fā)展和精準(zhǔn)醫(yī)學(xué)概念的提出,越來(lái)越多的研究關(guān)注于癌癥發(fā)生的內(nèi)部分子機(jī)制,以及其對(duì)細(xì)胞表型特征變化的影響。其中,癌癥標(biāo)志(hallmarks of cancer,HOC)[1的提出為癌癥發(fā)生過(guò)程中細(xì)胞特征的變化提供了重要標(biāo)識(shí)、分類體系和相關(guān)詞匯[2-3。從基本的原理層面捕捉癌癥發(fā)生的復(fù)雜內(nèi)因,為人們理解和探索癌癥的表型與機(jī)制提供了清晰易懂的邏輯框架4。2011年版的癌癥標(biāo)志包含10大類,分別是持續(xù)的增殖信號(hào)、逃避生長(zhǎng)抑制、抵抗細(xì)胞死亡、無(wú)限復(fù)制、血管新生、侵襲轉(zhuǎn)移、基因組不穩(wěn)定和突變、能量代謝異常、免疫逃逸、促瘤炎癥[5。有相關(guān)研究已將癌癥標(biāo)志作為癌癥研究的重要部分。例如癌癥體細(xì)胞突變目錄(Catalogue of Somatic Mutations in Cancer,COSMIC)推出的癌癥基因普查項(xiàng)目[6利用人工的方式從文獻(xiàn)中進(jìn)行HOC相關(guān)知識(shí)的審編,對(duì)癌癥相關(guān)基因的功能進(jìn)行描述。LnCeCell[7對(duì)競(jìng)爭(zhēng)性內(nèi)源RNA相關(guān)的HOC進(jìn)行標(biāo)識(shí)。Baker等[8構(gòu)建了HOC語(yǔ)料庫(kù),將HOC的10大標(biāo)志擴(kuò)展為37類,借助文本分類技術(shù)對(duì)1852篇PubMed文獻(xiàn)摘要的句子進(jìn)行分類。并在后續(xù)研究中,提供了HOC自動(dòng)分類工具CHAT[2,以及基于文獻(xiàn)的HOC瀏覽工具LION LBD[9,通過(guò)實(shí)體識(shí)別工具PubTator[10識(shí)別基因和疾病等生物醫(yī)學(xué)實(shí)體,展示HOC與基因和疾病的共現(xiàn)關(guān)系。此外,隨著預(yù)訓(xùn)練模型在自然語(yǔ)言處理領(lǐng)域的發(fā)展,一些預(yù)訓(xùn)練模型在HOC語(yǔ)料庫(kù)已達(dá)到較好的分類效果,如BioLinkBERT[11、NCBI_BERT[12、PubMedBERT[13等。這些方法為HOC的自動(dòng)審編提供幫助?,F(xiàn)階段還缺乏一種系統(tǒng)的、結(jié)構(gòu)化的、機(jī)器可理解的知識(shí)表示框架對(duì)HOC知識(shí)進(jìn)行梳理,對(duì)HOC與其他生物醫(yī)學(xué)實(shí)體之間具體關(guān)聯(lián)進(jìn)行描述。在生物醫(yī)學(xué)領(lǐng)域,本體已經(jīng)成為多源數(shù)據(jù)融合、語(yǔ)義表示、標(biāo)準(zhǔn)化和鏈接的重要技術(shù),廣泛用于表示領(lǐng)域數(shù)據(jù)之間的語(yǔ)義關(guān)聯(lián)[14,為文本挖掘和知識(shí)推理提供助力。因此,本研究以結(jié)直腸癌為例,提出一種可溯源的HOC本體語(yǔ)義表示框架,實(shí)現(xiàn)基因突變、HOC和細(xì)胞系等相關(guān)數(shù)據(jù)整合、標(biāo)準(zhǔn)化和關(guān)聯(lián),并提供相關(guān)文獻(xiàn)來(lái)源,將HOC本體與文本挖掘技術(shù)結(jié)合,提供更全面更詳細(xì)的HOC知識(shí),實(shí)現(xiàn)進(jìn)一步的數(shù)據(jù)發(fā)現(xiàn)。

        資料和方法

        本體構(gòu)建 基于“七步法”[15和現(xiàn)階段本體的構(gòu)建方法16-17,設(shè)計(jì)HOC本體構(gòu)建方法和知識(shí)發(fā)現(xiàn)實(shí)驗(yàn)流程(圖1)。

        確定本體范圍:本體是一個(gè)特定領(lǐng)域的模型,為特殊的目的而構(gòu)建。HOC本體構(gòu)建的目的是為基因突變?cè)诎┌Y發(fā)生過(guò)程中的具體作用提供統(tǒng)一的結(jié)構(gòu)化表示和整合方案。在HOC相關(guān)的科學(xué)文獻(xiàn)表述中,研究人員針對(duì)癌癥病患的組織樣本或相關(guān)細(xì)胞系做全面的組學(xué)數(shù)據(jù)分析和癌細(xì)胞特征檢測(cè)。探明例如在哪種細(xì)胞系中,發(fā)生了哪些突變從而引起了哪些HOC的變化。其后,通過(guò)專家咨詢的方式明確HOC本體需要回答的勝任力問(wèn)題[18:(1)在某種癌癥中,哪些基因參與了某種癌癥特征的發(fā)生?(2)在某個(gè)癌癥中,某個(gè)基因參與了哪些癌癥特征的發(fā)生?(3)哪些文獻(xiàn)可能表明,某個(gè)突變參與了某個(gè)癌癥特征的發(fā)生?(4)哪些證據(jù)表明,某個(gè)基因與某種癌癥的發(fā)生有關(guān)?(5)哪些證據(jù)表明,某個(gè)細(xì)胞系中發(fā)生了某個(gè)癌癥特征的改變?(6)在某個(gè)癌細(xì)胞系中,哪些基因可能參與了癌癥特征的發(fā)生?

        依據(jù)HOC本體的構(gòu)建目標(biāo)、應(yīng)用場(chǎng)景及勝任力問(wèn)題,本研究最終確定HOC本體的范圍涵蓋癌癥、細(xì)胞系、基因、突變、HOC、文獻(xiàn)、證據(jù)等多種類型生物醫(yī)學(xué)實(shí)體,并定義這些實(shí)體之間的語(yǔ)義關(guān)系(圖2)。利用中間實(shí)體類型證據(jù)和引文,對(duì)多種生物醫(yī)學(xué)實(shí)體進(jìn)行鏈接。引文與HOC和各種生物醫(yī)學(xué)實(shí)體之間的關(guān)系為共現(xiàn)關(guān)系。證據(jù)表示已確認(rèn)的證據(jù)信息,其與HOC和各種生物醫(yī)學(xué)實(shí)體之間的關(guān)系為確定的相關(guān)關(guān)系。此外,一些實(shí)體類型可以復(fù)用已有的本體,在圖2中用曲線表示出子類的關(guān)系。

        復(fù)用本體類和公理:隨著語(yǔ)義網(wǎng)技術(shù)的發(fā)展,在生物醫(yī)學(xué)領(lǐng)域,已經(jīng)存在一些被研究人員充分認(rèn)可的本體,復(fù)用或引用已有的本體是生物醫(yī)學(xué)領(lǐng)域本體構(gòu)建的常用方法。在HOC本體的構(gòu)建過(guò)程中,選擇OntoFox[19工具復(fù)用相關(guān)本體的術(shù)語(yǔ)、屬性和關(guān)系。OntoFox是密西根大學(xué)何勇群團(tuán)隊(duì)研發(fā)的一款在線的本體術(shù)語(yǔ)提取工具,可以便捷地對(duì)開(kāi)放生物醫(yī)學(xué)本體倉(cāng)儲(chǔ)中的本體進(jìn)行獲取和復(fù)用。

        Chen等[3發(fā)現(xiàn)基因本體(gene ontology,GO)[20、京都基因和基因組百科全書[21和分子特征數(shù)據(jù)庫(kù)22等數(shù)據(jù)庫(kù)和本體對(duì)HOC術(shù)語(yǔ)進(jìn)行了標(biāo)準(zhǔn)化描述。參考Chen等[3的研究,HOC相關(guān)術(shù)語(yǔ)主要復(fù)用自GO,盡可能選擇明確表示正負(fù)調(diào)控的GO術(shù)語(yǔ)與HOC建立映射(表1)?;蛲蛔冃g(shù)語(yǔ)復(fù)用自序列本體(sequence ontology,SO)中的gene(SO_0000704)和sequence_alteration(SO_0001059)。疾病術(shù)語(yǔ)復(fù)用自疾病本體(disease ontology,DO)中的cancer(DOID_162)。細(xì)胞系術(shù)語(yǔ)復(fù)用自細(xì)胞系本體(cell line ontology,CLO)的immortal cell line cell(CLO_0000019)。同時(shí)復(fù)用其上下位術(shù)語(yǔ)、相關(guān)術(shù)語(yǔ)、術(shù)語(yǔ)之間的語(yǔ)義關(guān)系(對(duì)象屬性)和術(shù)語(yǔ)屬性(注釋屬性)(表2)。

        本體對(duì)齊:為保障復(fù)用不同本體時(shí)術(shù)語(yǔ)的一致性,本研究選取ROBOT(V1.8.3)[23工具將這4個(gè)本體中抽取的術(shù)語(yǔ)進(jìn)行融合與對(duì)齊。ROBOT的Merge工具可以對(duì)多個(gè)本體進(jìn)行融合,并對(duì)資源標(biāo)識(shí)符相同的術(shù)語(yǔ)進(jìn)行對(duì)齊,包括屬性和關(guān)系。完成融合后,利用ROBOT的Report工具對(duì)融合結(jié)果進(jìn)行進(jìn)一步檢驗(yàn),主要包括:(1)術(shù)語(yǔ)缺少名稱;(2)1個(gè)術(shù)語(yǔ)有多個(gè)不同的名稱、多個(gè)不同的定義;(3)不同的類有相同的名稱、相同的定義等不一致錯(cuò)誤;(4)關(guān)系的名稱相同但含義和用法不同。其后,借助protégé工具和人工方式,對(duì)檢驗(yàn)發(fā)現(xiàn)的不一致問(wèn)題進(jìn)行修正。人工方式通過(guò)兩名相關(guān)領(lǐng)域?qū)<疫M(jìn)行輪流修正校對(duì),保證本體對(duì)齊的準(zhǔn)確性和正確性。

        構(gòu)建關(guān)系和屬性:在本體復(fù)用和融合的基礎(chǔ)上,新構(gòu)建癌癥標(biāo)志和證據(jù)等類,包含10個(gè)癌癥標(biāo)志子類,對(duì)其屬性和相關(guān)關(guān)系進(jìn)行豐富,新增語(yǔ)義關(guān)系相關(guān)癌癥標(biāo)志、有引文等12個(gè),標(biāo)題、年份等屬性5個(gè),以上文中確定本體范圍部分的語(yǔ)義模型設(shè)計(jì)為基礎(chǔ),利用protégé本體編輯軟件構(gòu)建新的類和語(yǔ)義關(guān)系。

        填充實(shí)例:結(jié)直腸癌作為目前世界上新發(fā)癌癥發(fā)病率第3、死亡率第2的惡性腫瘤,其防治形勢(shì)十分嚴(yán)峻[24。本研究以結(jié)直腸癌為實(shí)例,對(duì)構(gòu)建的HOC本體進(jìn)行填充和驗(yàn)證。首先,在生物醫(yī)學(xué)文獻(xiàn)網(wǎng)站PubMed上搜索結(jié)直腸癌和細(xì)胞相關(guān)的文獻(xiàn),檢索語(yǔ)句為“(colorectal cancer[Title/Abstract]) AND (cell[Title/Abstract])”,檢索到1975年1月1日至2022年9月2日發(fā)表的相關(guān)文獻(xiàn)共29 986篇。導(dǎo)出文獻(xiàn)的PMID,利用PubTator[10工具的API,獲取每篇文獻(xiàn)的實(shí)體識(shí)別結(jié)果,包括基因、疾病、化學(xué)藥品、突變、物種和細(xì)胞系。

        利用HOC語(yǔ)料庫(kù)[8和BioLinkBERT[11模型,對(duì)每篇PubMed文獻(xiàn)的摘要進(jìn)行HOC分類。BioLinkBERT模型是目前已知在HOC數(shù)據(jù)集上分類效果最佳的預(yù)訓(xùn)練模型,其base和large規(guī)模在HOC數(shù)據(jù)集的Micro F1分別達(dá)到84.35%和84.87%。本研究利用其在GitHub網(wǎng)站上共享的預(yù)訓(xùn)練模型和微調(diào)代碼[25,在HOC數(shù)據(jù)集上對(duì)base規(guī)模的BioLinkBERT模型進(jìn)行微調(diào),遵循與其原文相同的微調(diào)方法和評(píng)測(cè)指標(biāo)[11,最終Micro F1達(dá)到84.31%。利用微調(diào)后的模型對(duì)29 986篇結(jié)直腸癌相關(guān)的摘要進(jìn)行分類預(yù)測(cè)。通過(guò)模型預(yù)測(cè),分類結(jié)果中包含10大類HOC的摘要共23 081篇。根據(jù)本研究需求,利用PubTator識(shí)別結(jié)果篩選出包含基因和細(xì)胞系,但不包含化學(xué)藥品的摘要共2355篇,將其作為引文的實(shí)例填充進(jìn)HOC本體中,建立引文與HOC和各種生物醫(yī)學(xué)實(shí)體的共現(xiàn)關(guān)系。此外,利用COSMIC Cancer Gene Census[6中與結(jié)直腸癌相關(guān)的數(shù)據(jù)對(duì)證據(jù)的實(shí)例進(jìn)行構(gòu)建。其提供了多種癌癥相關(guān)的基因和HOC信息,其中與結(jié)直腸癌相關(guān)的基因66個(gè),有HOC信息的基因12個(gè),相關(guān)文獻(xiàn)25篇,證據(jù)26個(gè)(其中1篇文獻(xiàn)有2個(gè)證據(jù))。

        基于HOC本體的知識(shí)發(fā)現(xiàn) 基于已構(gòu)建的HOC本體,通過(guò)SPARQL多跳查詢,利用已知的HOC證據(jù)可以實(shí)現(xiàn)新證據(jù)和新基因的發(fā)現(xiàn)(圖3)。圖3上半部分表示利用COSMIC中已有結(jié)直腸癌HOC的基因,發(fā)現(xiàn)其新的HOC;下半部分表示利用COSMIC中已有結(jié)直腸癌相關(guān)的基因和HOC,發(fā)現(xiàn)與其共同出現(xiàn)在文獻(xiàn)標(biāo)題中的新基因。由于實(shí)例數(shù)據(jù)量較大,選擇Python的owlready2包,實(shí)現(xiàn)實(shí)例的填充和SPARQL查詢。

        新證據(jù)發(fā)現(xiàn):COSMIC對(duì)癌癥相關(guān)的基因和HOC進(jìn)行了人工審編,具有較高的準(zhǔn)確性。以AKT1為例,在COSMIC中,其HOC包括抵抗細(xì)胞死亡(來(lái)源文獻(xiàn)PMID:28339062)及侵襲轉(zhuǎn)移(來(lái)源文獻(xiàn)PMID:24297510)。在HOC本體中,對(duì)文獻(xiàn)標(biāo)題包含AKT1的文獻(xiàn)和HOC進(jìn)行SPARQL查詢,并對(duì)只包含AKT1的文獻(xiàn)進(jìn)行篩選,其中AKT1在HOC本體中ID為gene_8(圖4)。

        新基因發(fā)現(xiàn):在結(jié)直腸癌中,許多基因與經(jīng)典的通路和基因相互調(diào)控,從而引發(fā)HOC的發(fā)生,因此,選擇在文獻(xiàn)標(biāo)題中出現(xiàn)次數(shù)最多的幾個(gè)基因,并找到在文獻(xiàn)標(biāo)題中與這些基因共同出現(xiàn)的其他基因,發(fā)現(xiàn)新的癌癥靶點(diǎn)及相應(yīng)證據(jù),對(duì)基因在文獻(xiàn)標(biāo)題中的出現(xiàn)情況進(jìn)行SPARQL查詢(圖5),對(duì)結(jié)果進(jìn)行統(tǒng)計(jì)(圖6)。

        發(fā)現(xiàn)與結(jié)直腸癌相關(guān)并在文獻(xiàn)標(biāo)題中出現(xiàn)的基因共1435個(gè),其中,CTNNB1、AKT1、CD8A為在文獻(xiàn)標(biāo)題中出現(xiàn)數(shù)量最多的3個(gè)基因。結(jié)合COSMIC中這些基因的結(jié)直腸癌標(biāo)志審編結(jié)果數(shù)量,最終選擇CTNNB1(審編HOC證據(jù)為2個(gè))和KRAS(審編HOC證據(jù)為4個(gè))2個(gè)基因,利用SPARQL查詢找到與其共同出現(xiàn)在標(biāo)題中的其他基因,其中CTNNB1在HOC本體的ID為gene_0(圖7)。根據(jù)COSMIC數(shù)據(jù)集已知CTNNB1在結(jié)直腸癌中的HOC為基因組不穩(wěn)定和突變、免疫逃逸。KRAS在結(jié)直腸癌中的HOC為無(wú)限復(fù)制、侵襲轉(zhuǎn)移和能量代謝異常。

        結(jié)果

        本體構(gòu)建結(jié)果 最終構(gòu)建HOC本體包含類9910個(gè),實(shí)例6138個(gè),對(duì)象屬性45個(gè),注釋屬性36個(gè)。其中引文的實(shí)例為2310個(gè),證據(jù)的實(shí)例為26個(gè),序列變異的實(shí)例為116個(gè),基因的實(shí)例為2913個(gè),疾病的實(shí)例為380個(gè),細(xì)胞系的實(shí)例為345個(gè)。例如,利用protégé軟件對(duì)文獻(xiàn)PMID24297510和基于該文獻(xiàn)的證據(jù)進(jìn)行語(yǔ)義表示(圖8)。圖8左半部分表示引文PMID24297510,以及在該引文中出現(xiàn)的HIF1A等基因、出現(xiàn)在標(biāo)題的AKT1基因、HCT116等細(xì)胞系、結(jié)直腸癌等疾病和癌癥標(biāo)志侵襲轉(zhuǎn)移;右半部分表示來(lái)源于該引文的證據(jù),即在COSMIC中確定的基因、HOC、疾病和細(xì)胞系等之間的關(guān)聯(lián)。

        知識(shí)發(fā)現(xiàn)

        新證據(jù)發(fā)現(xiàn):通過(guò)SPARQL檢索后,HOC本體中文獻(xiàn)標(biāo)題包含AKT1的文獻(xiàn)和HOC,為持續(xù)的增殖信號(hào)(PMID:18570457、31164794、35860583)、侵襲轉(zhuǎn)移(PMID:24297510、18570457、31164794)。其中,在文獻(xiàn)PMID24297510中AKT1基因的HOC為侵襲轉(zhuǎn)移,與COSMIC中數(shù)據(jù)相符。通過(guò)人工審核后,新發(fā)現(xiàn)的證據(jù)包括:在文獻(xiàn)PMID18570457、PMID31164794中AKT1的HOC為侵襲轉(zhuǎn)移。而持續(xù)的增殖信號(hào)相關(guān)的文獻(xiàn)經(jīng)過(guò)審核后,未發(fā)現(xiàn)AKT1與其描述相關(guān)。

        新基因發(fā)現(xiàn):利用SPARQL查詢找到與CTNNB1和KRAS共同出現(xiàn)在標(biāo)題中的其他基因,并對(duì)結(jié)果進(jìn)行人工審核。最終發(fā)現(xiàn)13個(gè)基因明確與相應(yīng)的HOC相關(guān),可以作為結(jié)直腸癌標(biāo)志的新證據(jù),8個(gè)基因在相關(guān)文獻(xiàn)中未明確表明與相關(guān)HOC有關(guān)(表3)。此外,通過(guò)審核PVR(PMID:32727790),發(fā)現(xiàn)KRAS基因新的HOC及證據(jù)為免疫逃逸(PMID:32727790)。而基于KRAS的另外兩個(gè)HOC:無(wú)限復(fù)制和能量代謝異常,未發(fā)現(xiàn)新的相關(guān)基因。

        討論

        本研究提出一種可溯源的HOC本體語(yǔ)義表示框架,有助于整合與分析癌癥分子層面的致病機(jī)制,了解基因突變?cè)诎┌Y發(fā)生過(guò)程中的具體作用,助力癌癥靶向治療的研究。本體評(píng)估主要有基于金標(biāo)準(zhǔn)的評(píng)估、基于應(yīng)用的評(píng)估、數(shù)據(jù)驅(qū)動(dòng)的評(píng)估以及人工評(píng)估4種方式[26。HOC本體的構(gòu)建過(guò)程充分借鑒“七步法”的方法體系,通過(guò)復(fù)用盡可能滿足專業(yè)性和行業(yè)內(nèi)認(rèn)可的標(biāo)準(zhǔn),并通過(guò)一致性檢驗(yàn)及專家進(jìn)一步審核,保證本體的一致性、準(zhǔn)確性和正確性。并在后續(xù)知識(shí)表達(dá)和知識(shí)發(fā)現(xiàn)的具體應(yīng)用中,驗(yàn)證HOC本體的應(yīng)用能力。在HOC術(shù)語(yǔ)構(gòu)建過(guò)程中,通過(guò)明確HOC術(shù)語(yǔ)與GO術(shù)語(yǔ)的映射關(guān)系對(duì)HOC術(shù)語(yǔ)進(jìn)行擴(kuò)展,有助于進(jìn)一步理解HOC的內(nèi)涵。此外,HOC本體為人和機(jī)器都提供了較強(qiáng)的可解釋性,利用中間節(jié)點(diǎn)引文和證據(jù)有效表達(dá)了摘要和句子中多種實(shí)體共現(xiàn)的情況。與已有HOC相關(guān)工作相比,HOC本體的構(gòu)建過(guò)程更節(jié)省人力,利用生物醫(yī)學(xué)實(shí)體識(shí)別工具和文本分類技術(shù)實(shí)現(xiàn)癌癥標(biāo)志知識(shí)的自動(dòng)提取,并通過(guò)HOC本體為文獻(xiàn)中的HOC知識(shí)提供結(jié)構(gòu)化的語(yǔ)義表示,其可溯源的框架設(shè)計(jì)為HOC證據(jù)提供了相應(yīng)的文獻(xiàn)來(lái)源。基于已構(gòu)建的HOC本體,本研究提出了一種利用SPARQL檢索和已有HOC證據(jù)快速發(fā)現(xiàn)新HOC證據(jù)的方法,為臨床和科研工作提供便捷的服務(wù)。對(duì)知識(shí)發(fā)現(xiàn)結(jié)果進(jìn)行分析顯示,通過(guò)初步篩選的幾個(gè)結(jié)直腸癌基因進(jìn)行檢索,與COSMIC數(shù)據(jù)集人工審編結(jié)果相比,發(fā)現(xiàn)新的HOC相關(guān)文獻(xiàn)和基因,證實(shí)HOC本體在知識(shí)發(fā)現(xiàn)方面的有效性?;蚝突蛑g存在相互調(diào)節(jié)關(guān)系,基因可能不會(huì)直接作用于改變HOC。因此,選擇與已知HOC相關(guān)的基因在標(biāo)題中共現(xiàn)的其他基因,有助于發(fā)現(xiàn)新的基因與HOC。

        本研究目前只采用了機(jī)器處理的方式,未對(duì)處理結(jié)果進(jìn)行大批量人工審核,應(yīng)考慮PubTator實(shí)體識(shí)別工具和BioLinkBERT分類模型存在的誤差。后續(xù)將研究人工和機(jī)器結(jié)合的方式對(duì)HOC證據(jù)進(jìn)行進(jìn)一步審核和擴(kuò)充,借鑒證據(jù)本體對(duì)證據(jù)相關(guān)的術(shù)語(yǔ)進(jìn)行標(biāo)準(zhǔn)化,提供更高質(zhì)量的證據(jù)服務(wù)。此外,充分融合生物醫(yī)學(xué)知識(shí)庫(kù)中已有的關(guān)聯(lián)關(guān)系如基因-突變、基因-疾病、疾病-細(xì)胞系等,為HOC知識(shí)發(fā)現(xiàn)提供更多的知識(shí)來(lái)源,也是本研究后續(xù)探索的研究方向。在證據(jù)來(lái)源方面,本研究只納入PubMed文獻(xiàn)中的HOC信息,未納入其他HOC信息來(lái)源如臨床試驗(yàn)等。

        參 考 文 獻(xiàn)

        [1]Hanahan D,Weinberg RA.The hallmarks of cancer[J].Cell,2000,100(1):57-70.DOI:10.1016/S0092-8674(00)81683-9.

        [2]Baker S,Ali I,Silins I,et al.Cancer Hallmarks Analytics Tool (CHAT):a text mining approach to organize and evaluate scientific literature on cancer[J].Bioinformatics,2017,33(24):3973-3981.DOI:10.1093/bioinformatics/btx454.

        [3]Chen Y,Verbeek FJ,Wolstencroft K.Establishing a consensus for the hallmarks of cancer based on gene ontology and pathway annotations[J].BMC Bioinformatics,2021,22(1):178.DOI:10.1186/s12859-021-04105-8.

        [4]陶青,石毓君.解讀癌癥研究的里程碑:Hallmarks of Cancer[J].中國(guó)普外基礎(chǔ)與臨床雜志,2022,29(4):431-433.DOI:10.7507/1007-9424.202202033.

        [5]Hanahan D,Weinberg RA.Hallmarks of cancer:the next generation[J].Cell,2011,144(5):646-674.DOI:10.1016/j.cell.2011.02.013.

        [6]Sondka Z,Bamford S,Cole CG,et al.The COSMIC cancer gene census:describing genetic dysfunction across all human cancers[J].Nat Rev Cancer,2018,18(11):696-705.DOI:10.1038/s41568-018-0060-1.

        [7]Wang P,Guo Q,Hao Y,et al.LnCeCell:a comprehensive database of predicted lncRNA-associated ceRNA networks at single-cell resolution[J].Nucleic Acids Res,2021,49(D1):D125-D133.DOI:10.1093/nar/gkaa1017.

        [8]Baker S,Silins I,Guo Y,et al.Automatic semantic classification of scientific literature according to the hallmarks of cancer[J].Bioinformatics,2016,32(3):432-440.DOI:10.1093/bioinformatics/btv585.

        [9]Pyysalo S,Baker S,Ali I,et al.LION LBD:a literature-based discovery system for cancer biology[J].Bioinformatics,2019,35(9):1553-1561.DOI:10.1093/bioinformatics/bty845.

        [10]Wei CH,Allot A,Leaman R,et al.PubTator central:automated concept annotation for biomedical full text articles[J].Nucleic Acids Res,2019,47(W1):W587-W593.DOI:10.1093/nar/gkz389.

        [11]Michihiro Y,Jure L,Percy L.LinkBERT pretraining language models with document links[EB/OL].[2022-11-11].https://arxiv.org/abs/2203.15827.

        [12]Yifan P,Shankai Y,Zhiyong L.Transfer learning in biomedical natural language processing:an evaluation of BERT and ELMo on ten benchmarking datasets[EB/OL].[2022-11-11].https://arxiv.org/abs/1906.05474.

        [13]Yu G,Robert T,Hao C,et al.Domain-specific language model pretraining for biomedical natural language processing[EB/OL].[2022-11-11].https://arxiv.org/abs/2007.15779.

        [14]Haendel MA,Chute CG,Robinson PN.Classification,ontology,and precision medicine[J].N Engl J Med,2018,379(15):1452-1462.DOI:10.1056/NEJMra1615014.

        [15]Natalya FN,Deborah LM.Ontology development 101:a guide to creating your first ontology[EB/OL].[2022-11-11].http://www.ksl.stanford.edu/people/dlm/papers/ontology-tutorial-noy-mcguinness-abstract.html.

        [16]Lee JH,Park HA,Song TM.A determinants-of-fertility ontology for detecting future signals of fertility issues from social media data:development of an ontology[J].J Med Internet Res,2021,23(6):e25028.DOI:10.2196/25028.

        [17]Reyes-Pe?a C,Tovar M,Bravo M,et al.An ontology network for diabetes mellitus in Mexico[J].J Biomed Semantics,2021,12(1):19.DOI:10.1186/s13326-021-00252-2.

        [18]Bravo M,Hoyos Reyes LF,Reyes-Ortiz JA.Methodology for ontology design and construction[J].Contaduría y Administración,2019,64(4):134.DOI:10.22201/fca.24488410e.2020.2368.

        [19]Xiang Z,Courtot M,Brinkman RR,et al.OntoFox:web-based support for ontology reuse[J].BMC Res Notes,2010,3:175.DOI:10.1186/1756-0500-3-175.

        [20]The Gene Ontology Consortium.The gene ontology resource:20 years and still GOing strong[J].Nucleic Acids Res,2019,47(D1):D330-D338.DOI:10.1093/nar/gky1055.

        [21]Kanehisa M,F(xiàn)urumichi M,Sato Y,et al.KEGG:integrating viruses and cellular organisms[J].Nucleic Acids Res,2021,49(D1):D545-D551.DOI:10.1093/nar/gkaa970.

        [22]Liberzon A,Birger C,Thorvaldsdóttir H,et al.The Molecular Signatures Database (MSigDB) hallmark gene set collection[J].Cell Syst,2015,1(6):417-425.DOI:10.1016/j.cels.2015.12.004.

        [23]Jackson RC,Balhoff JP,Douglass E,et al.ROBOT:a tool for automating ontology workflows[J].BMC Bioinformatics,2019,20(1):407.DOI:10.1186/s12859-019-3002-3.

        [24]Sung H,F(xiàn)erlay J,Siegel RL,et al.Global cancer statistics 2020:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA Cancer J Clin,2021,71(3):209-249.DOI:10.3322/caac.21660.

        [25]Michihiro Y,Jure L,Percy L.LinkBERT:a knowledgeable language model pretrained with document links[EB/OL].[2022-11-11].https://github.com/michiyasunaga/LinkBERT.

        [26]Brank J,Grobelnik M,Mladenic′ D.A survey of ontology evaluation techniques[EB/OL].[2022-11-11].https://www.researchgate.net/publication/228857266_A_survey_of_ontology_evaluation_techniques.

        (收稿日期:2022-11-17)

        猜你喜歡
        結(jié)直腸癌本體
        Abstracts and Key Words
        對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
        枳術(shù)丸湯劑結(jié)合針刺療法對(duì)結(jié)直腸癌術(shù)后胃腸功能的影響
        腹腔鏡下結(jié)直腸癌根治術(shù)吻合口漏危險(xiǎn)因素分析
        氬氦刀冷凍消融聯(lián)合FOLFIRI方案治療結(jié)直腸癌術(shù)后肝轉(zhuǎn)移的臨床觀察
        結(jié)直腸癌術(shù)后復(fù)發(fā)再手術(shù)治療近期效果及隨訪結(jié)果分析
        對(duì)比腹腔鏡與開(kāi)腹手術(shù)治療結(jié)直腸癌的臨床療效與安全性
        快速康復(fù)外科對(duì)結(jié)直腸癌患者圍術(shù)期護(hù)理的指導(dǎo)意義分析
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        專題
        国产亚洲精品福利在线| 亚洲欧美日韩中文字幕一区二区三区| 国产无遮挡又黄又爽在线观看| 欧美中文字幕在线| 亚洲精品中文字幕尤物综合| 不卡一区二区三区国产| 精品一区二区三区a桃蜜| 每日更新在线观看av| 国产成人综合色在线观看网站| 久久99热精品免费观看欧美| 国产精品午夜高潮呻吟久久av| 亚洲在线视频免费视频| 国产精品久久久久久亚洲av | 亚洲欧洲久久久精品| 中文字幕人妻久久一区二区三区| 国产精品亚洲专区无码不卡| 欧美国产精品久久久乱码| 亚洲精品亚洲人成在线下载 | 亚洲成a∨人片在线观看无码| 亚洲国产精品久久电影欧美 | 蜜臀久久99精品久久久久久| 久久人人爽人人爽人人av| 国产在线欧美日韩一区二区| 麻豆精品国产免费av影片| 丰满大爆乳波霸奶| 亚洲人成人77777网站| 亚洲中文字幕日产喷水| 美女脱掉内裤扒开下面让人插| 欧美亚洲国产一区二区三区| 在线播放a欧美专区一区| 国产三级av在线播放| 亚洲视频在线一区二区| 久久中文字幕无码专区| 青春草在线视频精品| 中文乱码字幕在线亚洲av| 天天碰免费上传视频| 国产精品多人P群无码| 国产一区二区三区av香蕉| 国产毛片av最新视频| 97久久香蕉国产线看观看| 午夜无码亚|