王梓陽(yáng),楊 林,王嘉陽(yáng),李 姣
表型(phenotype)起初主要用于描述基因的表達(dá)層面,是與基因型相對(duì)應(yīng)的概念。Merriam-Webster詞典將表型定義為由基因型和環(huán)境相互作用產(chǎn)生的生物體的可觀察特性[1]。隨著大規(guī)模電子病歷(electronic medical record,EMR)數(shù)據(jù)庫(kù)的出現(xiàn),“表型”一詞逐漸用于表示患者群體共有的特征,如一個(gè)群體或一組個(gè)體所患的疾病或狀況[2]。從電子病歷中可提取的表型非常廣泛,如從實(shí)驗(yàn)室數(shù)據(jù)和腫瘤大小等簡(jiǎn)單表型到巴塞羅那臨床肝癌分期等復(fù)雜表型[3]。表型分析(phenotyping)主要是指定義表型并進(jìn)行驗(yàn)證以確保其準(zhǔn)確性和普遍性的過(guò)程[2]。表型算法(phenotype algorithm)是指從患者的電子病歷中提取特征并將它們組合成一個(gè)分類規(guī)則,以推斷患者是否具有目標(biāo)表型[4]。這些特征往往涉及如年齡和性別等患者的人口統(tǒng)計(jì)信息,診斷、藥物、實(shí)驗(yàn)室等編碼信息,以及能夠通過(guò)自然語(yǔ)言處理(natural language processing,NLP)從臨床自由文本中提取的信息。
隨著電子病歷數(shù)據(jù)量的日益增長(zhǎng),越來(lái)越多的學(xué)者提出可以利用電子病歷中的數(shù)據(jù)進(jìn)行知識(shí)發(fā)現(xiàn)[5],從日常診療數(shù)據(jù)中提取患者群體共有特征(即表型分析)能幫助研究人員從電子病歷中識(shí)別研究目標(biāo)人群,從而支持進(jìn)一步的研究分析。電子病歷記錄了患者在醫(yī)院內(nèi)的各種診療操作和檢驗(yàn)檢查信息,屬于個(gè)人電子健康檔案的一部分。電子健康檔案(electronic health record,EHR)是一個(gè)很廣泛的概念,包括了電子病歷、體檢信息、公共衛(wèi)生信息等貫穿個(gè)人全生命周期的所有健康信息。
為了進(jìn)一步了解表型分析現(xiàn)狀,本文于2021年11 月3 日在中國(guó)知網(wǎng)(CNKI)、萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)兩大中文數(shù)據(jù)庫(kù)上以“SU%=(表型)*(電子病歷)”為檢索式進(jìn)行主題檢索,僅得到幾篇相關(guān)的碩士畢業(yè)論文和1 篇2017 年針對(duì)糖尿病的表型識(shí)別綜述。為了增加檢全率,繼續(xù)以“SU%=(表型+表型分析+表型算法)*(電子病歷 +電子健康檔案)”為檢索式再次進(jìn)行主題檢索,結(jié)果并沒(méi)有得到改善。若單獨(dú)以“表型”一詞進(jìn)行檢索,發(fā)現(xiàn)更多的研究主要關(guān)注基因與表型之間的相互關(guān)系,很少有研究關(guān)注基于電子病歷的表型分析。同一時(shí)間,在PubMed 數(shù)據(jù)庫(kù)中以“((phenotype[Title/Abstract])OR(phenotyping[Title/Abstract]))AND((EHR[Title/Abstract])OR(electronic medical record[Title/Abstract]))”為檢索式進(jìn)行檢索,限定出版日期為2010-2121 年,得到321 篇相關(guān)文獻(xiàn)。因此本文以英文數(shù)據(jù)庫(kù)中的文獻(xiàn)為主要的綜述對(duì)象,通過(guò)閱讀摘要納入以表型分析、表型算法開(kāi)發(fā)和評(píng)價(jià)、電子病歷的表型識(shí)別和應(yīng)用為主題的文獻(xiàn),同時(shí)排除并非以電子病歷為主要數(shù)據(jù)來(lái)源進(jìn)行表型分析的文獻(xiàn),如基因-表型關(guān)聯(lián)研究、以電子健康檔案及其他數(shù)據(jù)源為原料進(jìn)行表型分析的研究等。結(jié)合參考文獻(xiàn)回溯法,共選取53 篇代表文獻(xiàn)作為本文的數(shù)據(jù)基礎(chǔ)進(jìn)行綜述。
基于電子病歷的表型分析是指通過(guò)電子病歷中存儲(chǔ)的信息識(shí)別相應(yīng)的疾病表型,通常是一個(gè)定義表型并驗(yàn)證其準(zhǔn)確性和普遍性的過(guò)程。但目前尚無(wú)完整的基于電子病歷的表型分析流程,本文對(duì)現(xiàn)有的代表性研究和具有較大影響力的項(xiàng)目的工作流程進(jìn)行總結(jié),提煉出表型分析的一般流程。
電子病歷和基因組學(xué)(electronic medical records and genomics,eMERGE)[6-10]是由美國(guó)國(guó)家人類基因組研究所(National Human Genome Research Institute,NHGRI)資助的項(xiàng)目,旨在開(kāi)發(fā)利用電子病歷作為基因組研究工具的方法和探索最佳實(shí)踐,其工作流程是根據(jù)研究的病例選擇合適的變量和定義,然后審查變量范圍,再對(duì)變量的組合和范圍進(jìn)行驗(yàn)證和共享。eMERGE 有多個(gè)中心,每個(gè)中心側(cè)重研究的表型不同。表型知識(shí)庫(kù)(Phenotype Knowledgebase,PheKB)[11-12]是eMERGE 中的一個(gè)中心,是美國(guó)范德堡大學(xué)為了表型算法的創(chuàng)建、驗(yàn)證和傳播而建立的一個(gè)表型算法的工作流管理系統(tǒng)和學(xué)習(xí)中心。在PheKB 上可以查看現(xiàn)有算法、創(chuàng)建新的算法、與他人合作創(chuàng)建或?qū)彶樗惴?。PheKB 促進(jìn)了算法在不同機(jī)構(gòu)、醫(yī)療保健系統(tǒng)和臨床數(shù)據(jù)存儲(chǔ)庫(kù)之間的可移植性,并提高了多種研究應(yīng)用程序的可移植性。有學(xué)者將表型算法的驗(yàn)證總結(jié)為2 步,首先在本地驗(yàn)證表型算法的準(zhǔn)確性,然后經(jīng)過(guò)多中心驗(yàn)證再上傳到表型共享機(jī)構(gòu)進(jìn)行共享[6]。
基于電子病歷的表型分析雖然在針對(duì)不同表型的具體實(shí)現(xiàn)上會(huì)有所不同,但基本工作流程都包括表型定義及表型算法開(kāi)發(fā)、驗(yàn)證和共享4 個(gè)關(guān)鍵環(huán)節(jié)(圖1)。
圖1 基于電子病歷的表型分析流程
患者在醫(yī)院內(nèi)的醫(yī)囑處方、各項(xiàng)檢驗(yàn)檢查、診療結(jié)果等均以電子病歷的形式存儲(chǔ)。目前表型分析常以電子病歷為主,根據(jù)臨床指南確定要識(shí)別表型的定義,先從電子健康檔案中的結(jié)構(gòu)化數(shù)據(jù)選定合適的醫(yī)學(xué)指標(biāo),然后根據(jù)指標(biāo)建立表型算法,開(kāi)發(fā)完成的表型算法需要與公認(rèn)的標(biāo)準(zhǔn)進(jìn)行比較以評(píng)價(jià)其表現(xiàn),不斷地更新和調(diào)整算法取值范圍,直到取得一個(gè)識(shí)別效果最優(yōu)的規(guī)則和代碼組合。最后將表型算法在PheKB 中進(jìn)行單中心、多中心驗(yàn)證,用以評(píng)估表型算法的效果。經(jīng)過(guò)驗(yàn)證之后,表型算法將會(huì)以偽代碼和文檔的形式在eMERGE、PheKB等項(xiàng)目中進(jìn)行共享。研究者可以將共享的表型算法部署在本地的電子病歷系統(tǒng)中,生成表型數(shù)據(jù)庫(kù)以便進(jìn)一步的分析。
開(kāi)展表型分析首先需要確定要研究的表型,然后選擇合適的臨床指標(biāo)描述表型,本文將這一過(guò)程稱為“表型定義”。
在PheKB 的官網(wǎng)上可以訪問(wèn)到目前不同表型的研究進(jìn)展。PheKB 將目前公開(kāi)的82 種表型分成疾病和綜合征(disease or syndrome)、藥物反應(yīng)-不良反應(yīng)和療效(drug response-adverse effect or efficacy)、其他性狀(other trait)三大類[13]。其中疾病和綜合征最多,共52 種,藥物反應(yīng)-不良反應(yīng)和療效有14 種,其他性狀僅為9 種[13]。大量的疾病和綜合征表型研究集中在糖尿病[14-16]、癌癥[17-18]、類風(fēng)濕性關(guān)節(jié)炎[19]和卒中[20-22]等疾病上。這些疾病表型都有大量的患者群體,而且電子病歷數(shù)據(jù)較為全面,具有較高的研究?jī)r(jià)值。針對(duì)藥物反應(yīng)-不良反應(yīng)和療效的表型包括難治性高血壓、藥物性肝損傷、類固醇誘導(dǎo)的股骨頭壞死等。關(guān)于其他性狀(如身高、高密度脂蛋白、紅細(xì)胞指數(shù)等)的表型分析還比較少見(jiàn)。
關(guān)于疾病表型臨床指標(biāo)和范圍的選擇,一般來(lái)源于相應(yīng)的臨床指南。隨著信息技術(shù)的發(fā)展,可供選擇的特征越來(lái)越多,有實(shí)驗(yàn)室指標(biāo)、藥物信息等電子病歷中的結(jié)構(gòu)化數(shù)據(jù),也有被記錄在臨床自由文本中的影像報(bào)告、臨床記錄等信息。為了進(jìn)一步提高表型的通用性,研究者普遍采用通用的標(biāo)準(zhǔn)化代碼進(jìn)行概念表示。有的學(xué)者還采用公開(kāi)的醫(yī)學(xué)資源進(jìn)行表型的學(xué)習(xí)和提取[3]。具體的特征來(lái)源如圖2 所示。
圖2 表型定義的臨床特征數(shù)據(jù)來(lái)源
結(jié)構(gòu)化電子病歷數(shù)據(jù)是指以關(guān)系表的形式存儲(chǔ)的健康診療信息數(shù)據(jù),能夠直接通過(guò)結(jié)構(gòu)化查詢語(yǔ)言(structured query language,SQL)進(jìn)行查詢。這類數(shù)據(jù)通常有相應(yīng)的標(biāo)準(zhǔn)編碼方案,主要包括國(guó)際疾病分類(International Classification of Diseases,ICD)、用于檢驗(yàn)檢查的觀測(cè)指標(biāo)標(biāo)識(shí)符邏輯命名與編碼系統(tǒng)(Logical Observation Identifiers Names and Codes,LOINC)、用于藥物的RxNorm、用于跨領(lǐng)域交流的當(dāng)前程序術(shù)語(yǔ)(Current Procedural Terminology,CPT)和用于規(guī)范臨床術(shù)語(yǔ)的醫(yī)學(xué)系統(tǒng)命名法-臨床術(shù)語(yǔ)(Systematized Nomenclature of Medicine-Clinical Terms,SNOMED-CT)。
判斷個(gè)體是否有某個(gè)確定的疾病表型,最初采用的數(shù)據(jù)便是判斷電子病歷中是否含有該疾病的ICD-9 代碼[3,12],但臨床記錄中的ICD 代碼主要用于計(jì)費(fèi)而不是研究目的[23],而且ICD 編碼并不是由臨床醫(yī)生指定,僅使用ICD 代碼進(jìn)行表型定義通常無(wú)法準(zhǔn)確找到滿足研究條件的人群。為了解決ICD 代碼不夠準(zhǔn)確的問(wèn)題,有學(xué)者引入了藥物和多種ICD 編碼組合的方式,提高了表型算法的分類效果和一致性[24]。隨后越來(lái)越多的研究發(fā)現(xiàn),在ICD 的基礎(chǔ)上,加入實(shí)驗(yàn)室檢查、藥物、賬單等信息能夠顯著提高表型算法的性能[25]。如在PheKB上共享的算法中,采用ICD-9 代碼和用藥信息定義癡呆癥,采用ICD-9 代碼、訂單中的藥物和實(shí)驗(yàn)室檢查定義2 型糖尿病,采用實(shí)驗(yàn)室檢查、ICD-9、CPT-4 代碼和藥物信息定義紅細(xì)胞指數(shù)[13]。
非結(jié)構(gòu)化電子病歷數(shù)據(jù)是指存儲(chǔ)在電子病歷中的自由文本,主要包括臨床診療活動(dòng)中的各種文檔、影像報(bào)告、診斷報(bào)告、患者主訴等內(nèi)容。有研究結(jié)果顯示,非結(jié)構(gòu)化數(shù)據(jù)占目前可用的醫(yī)療保健數(shù)據(jù)的80%以上[26]。為了利用電子病歷中的非結(jié)構(gòu)化數(shù)據(jù),自然語(yǔ)言處理技術(shù)被引入到電子病歷的數(shù)據(jù)挖掘中,將難以處理的非結(jié)構(gòu)化臨床文檔轉(zhuǎn)換成結(jié)構(gòu)化的數(shù)據(jù)[27],使診斷文檔、臨床記錄和影像報(bào)告等自由文本能夠作為特征納入到表型定義中。2010 年梅奧診所(Mayo Clinic)和阿帕奇軟件基金會(huì)(Apache Software Fundation)發(fā)布了臨床文本分析知識(shí)提取系統(tǒng)(Clinical Text Analysis Knowledge Extraction System,cTAKES)[28]。這是一個(gè)專門(mén)從臨床文本中提取相關(guān)概念的自然語(yǔ)言處理系統(tǒng)。向cTAKES 輸入自由文本,能夠得到文本中相關(guān)的醫(yī)學(xué)概念的實(shí)體名稱及其統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)(Unified Medical Language System,UMLS)編碼。表型識(shí)別中常用的自然語(yǔ)言處理工具還有醫(yī)學(xué)抽取和編碼(Medical Extraction and Encoding,MedLEE)。
有學(xué)者在ICD-9、藥物應(yīng)用、生命體征、計(jì)費(fèi)代碼等結(jié)構(gòu)化數(shù)據(jù)的基礎(chǔ)上,采用自然語(yǔ)言處理技術(shù)從入院記錄、體格檢查、主訴等自由文本中提取診斷信息,結(jié)果發(fā)現(xiàn)即使是不同數(shù)據(jù)的簡(jiǎn)單組合也可以提高表型分析算法的性能[25]。有學(xué)者也通過(guò)引入自然語(yǔ)言處理系統(tǒng)識(shí)別臨床文本特征構(gòu)建白內(nèi)障表型算法,與單模式方法相比,多模式方法的病例識(shí)別效果提高了3 倍[29]。在PheKB 上共享的表型算法中,獲取表型算法采用臨床診斷記錄中的收縮壓和舒張壓,配合ICD-9、實(shí)驗(yàn)室檢查數(shù)據(jù)、用藥信息識(shí)別難治性高血壓[13]。一些eMERGE 中的站點(diǎn)采用自然語(yǔ)言處理技術(shù)從自由文本中提取用藥信息以提高對(duì)癡呆的識(shí)別效果[6]。有學(xué)者對(duì)影像報(bào)告在表型識(shí)別中的應(yīng)用進(jìn)行了總結(jié),如采用X 光診斷報(bào)告識(shí)別乳腺癌,采用CT 肺血管造影報(bào)告對(duì)肺栓塞疾病結(jié)局進(jìn)行分類等[27]。
雖然自然語(yǔ)言處理技術(shù)能夠在表型定義過(guò)程中納入非結(jié)構(gòu)化的電子病歷數(shù)據(jù),從而獲取大量新的特征,但有研究結(jié)果顯示,不能僅通過(guò)句法特征判斷患者診斷的語(yǔ)義極性,平均而言,語(yǔ)義陽(yáng)性的患者為陽(yáng)性患者的78.1%[30],因此在應(yīng)用臨床自由文本的過(guò)程中一定要慎重。
有效地結(jié)合診斷代碼以外的信息(如癥狀、藥物和實(shí)驗(yàn)室檢查)已被證明可以改善表型分析效果[24]。有研究者嘗試從電子病歷之外的信息中獲取表型知識(shí),再重新用于電子病歷中患者的識(shí)別。其中,有兩個(gè)研究團(tuán)隊(duì)均以自然語(yǔ)言處理技術(shù)為核心,以統(tǒng)一醫(yī)學(xué)語(yǔ)言系統(tǒng)為標(biāo)準(zhǔn),對(duì)公開(kāi)的醫(yī)學(xué)數(shù)據(jù)資源進(jìn)行概念提取和映射,以提高表型算法的效果,為表型算法的建設(shè)提出了一種新的途徑[3,31-35]。
2015 年清華大學(xué)的研究團(tuán)隊(duì)采用自然語(yǔ)言處理技術(shù),將引入的公開(kāi)的醫(yī)學(xué)數(shù)據(jù)庫(kù)如Medscape、維基百科(Wikipedia)、默克手冊(cè)(Merck Manuals)和MedlinePlus 醫(yī)學(xué)百科全書(shū)等作為基礎(chǔ),應(yīng)用自然語(yǔ)言處理和UMLS 抽取其中的概念,建立了一種新型的高通量自動(dòng)化的表型算法構(gòu)建方法。該團(tuán)隊(duì)首先開(kāi)發(fā)了表型自動(dòng)特征提?。╝utomated feature extraction for phenotyping,AFEP)方法,應(yīng)用自然語(yǔ)言處理技術(shù)從公開(kāi)、可用的資源中自動(dòng)識(shí)別相關(guān)表型的特征,以此選擇最佳的特征實(shí)現(xiàn)自動(dòng)化表型算法的構(gòu)建,并在小樣本中達(dá)到了和基于規(guī)則相同的效果。2016 年該團(tuán)隊(duì)又在表型自動(dòng)特征提取框架的基礎(chǔ)上添加了對(duì)概念來(lái)源的加權(quán)投票模塊,以提高特征篩選效果,開(kāi)發(fā)了代理輔助特征提取(surrogate-assisted feature extraction,SAFE)方法,提高了從公開(kāi)的醫(yī)學(xué)數(shù)據(jù)庫(kù)中提取知識(shí)的效果,提高了自動(dòng)化性能。隨后在表型自動(dòng)特征提取和代理輔助特征提取的基礎(chǔ)上添加了語(yǔ)義識(shí)別,實(shí)現(xiàn)了表型分析的完全自動(dòng)化,而且不會(huì)受到電子病歷數(shù)據(jù)不完整性、歧義性等問(wèn)題對(duì)表型算法效果的負(fù)面影響[3,31-33]。
此外,有國(guó)外團(tuán)隊(duì)也利用公開(kāi)、可用的資源提取了表型之間的量化關(guān)系,建立了PheMap 表型概念知識(shí)庫(kù)。然后在待測(cè)試的電子病歷中搜索PheMap 知識(shí)庫(kù)中定義的表型相關(guān)概念,包括實(shí)驗(yàn)室檢查、用藥信息等,根據(jù)這些相關(guān)概念計(jì)算某患者具有特定表型的概率[34-35]。
表型算法的開(kāi)發(fā)需要在表型定義的基礎(chǔ)上進(jìn)行開(kāi)發(fā)和調(diào)整。表型算法定義了與表型有關(guān)的臨床指標(biāo)和數(shù)值范圍的組合方式,并且以人可以理解的描述性文本文檔保存[36]。目前表型算法的開(kāi)發(fā)方式主要有3 種。一是基于規(guī)則的表型算法開(kāi)發(fā),這些規(guī)則通常由診斷代碼、藥物處方、實(shí)驗(yàn)室檢查結(jié)果等指標(biāo)的邏輯組合構(gòu)成;二是基于機(jī)器學(xué)習(xí)的表型算法開(kāi)發(fā),需要通過(guò)機(jī)器學(xué)習(xí)的方式選擇和優(yōu)化最準(zhǔn)確的表型特征的數(shù)值組合[33];三是基于深度學(xué)習(xí)的表型算法開(kāi)發(fā),采用深度學(xué)習(xí)模型獲得最佳的臨床指標(biāo)和數(shù)值范圍的組合。相較于機(jī)器學(xué)習(xí),深度學(xué)習(xí)能夠利用更多的特征和更復(fù)雜的算法模型進(jìn)行學(xué)習(xí)。不同算法的開(kāi)發(fā)方式有各自的特點(diǎn),研究者往往會(huì)綜合利用各種方法以達(dá)到最好的識(shí)別效果。
基于規(guī)則的表型分析是指整個(gè)算法以臨床指南為依據(jù),采用布爾邏輯的復(fù)雜嵌套定義表型[5]。首先臨床專家可以閱讀一組受試者的電子病歷記錄并創(chuàng)建一個(gè)標(biāo)注好的數(shù)據(jù)集,然后由知識(shí)工程師生成一個(gè)啟發(fā)式規(guī)則,將記錄數(shù)據(jù)映射到研究中每個(gè)表型定義中確定的變量,如ICD 代碼、用藥信息等,用來(lái)推斷疾病的存在。在標(biāo)注好的集合的子集上對(duì)生成的規(guī)則進(jìn)行測(cè)試并反復(fù)修改,直到靈敏度和特異性達(dá)到某個(gè)閾值。有學(xué)者根據(jù)美國(guó)疾病控制預(yù)防中心的定義制定了基于規(guī)則的表型分析算法,用于識(shí)別社區(qū)相關(guān)的耐甲氧西林金黃色葡萄球菌病例[37]。有學(xué)者采用韋恩圖的方式進(jìn)行表型算法開(kāi)發(fā)和驗(yàn)證,將所有的指標(biāo)劃分成一個(gè)個(gè)小集合,通過(guò)組合各種集合的樣本數(shù)量靈活驗(yàn)證不同代碼之間組合的評(píng)估效果,提高基于規(guī)則的特定臨床表型的迭代和移植效率[38]。
基于規(guī)則的系統(tǒng)易于解釋、實(shí)現(xiàn)速度快,并可以在有限的數(shù)據(jù)集上產(chǎn)生良好的效果[15],具有較高的準(zhǔn)確性和泛化性?;谝?guī)則開(kāi)發(fā)的表型分析算法更多依賴于目前的臨床指南,比較容易理解和解釋,但其缺點(diǎn)也比較明顯,需要耗費(fèi)人力反復(fù)對(duì)規(guī)則進(jìn)行調(diào)整,以獲得最佳的效果。受限于時(shí)間和效率,在大型數(shù)據(jù)庫(kù)中采用基于規(guī)則的方法很不現(xiàn)實(shí)。此外,基于規(guī)則的表型算法雖然文檔的表面形式存在顯著差異,但所使用的底層邏輯更加同質(zhì),嚴(yán)重依賴嵌套布爾邏輯、復(fù)雜的時(shí)間性和無(wú)處不在的ICD-9 代碼[39]。
基于機(jī)器學(xué)習(xí)的表型算法開(kāi)發(fā)方式是指通過(guò)機(jī)器學(xué)習(xí)表型定義中的臨床指標(biāo)的最佳范圍和組合,在臨床專家標(biāo)注的訓(xùn)練集上進(jìn)行訓(xùn)練,尋找最佳的特征組合和范圍劃分[33],包括有監(jiān)督的學(xué)習(xí)和無(wú)監(jiān)督的學(xué)習(xí),目前大部分為有監(jiān)督的學(xué)習(xí),關(guān)于無(wú)監(jiān)督的學(xué)習(xí)應(yīng)用仍比較少。
3.2.1 基于有監(jiān)督機(jī)器學(xué)習(xí)的表型算法開(kāi)發(fā)
基于有監(jiān)督的機(jī)器學(xué)習(xí)開(kāi)發(fā)表型算法是指在臨床專家標(biāo)注的訓(xùn)練集中,采用有監(jiān)督的機(jī)器學(xué)習(xí)算法尋找最佳的指標(biāo)組合。如有學(xué)者采用隨機(jī)森林的方法來(lái)識(shí)別高血壓[25],有學(xué)者采用7種有監(jiān)督的機(jī)器學(xué)習(xí)算法自動(dòng)選擇合適的劃分區(qū)間[16],有學(xué)者應(yīng)用6 種機(jī)器學(xué)習(xí)模型和堆疊泛化的方法進(jìn)行表型算法開(kāi)發(fā)[40],與基于規(guī)則的算法相比,該方法有著更好的ROC 曲線下面積(AUC),但基于規(guī)則的算法有著較高的特異度[40]。有學(xué)者提出了一種結(jié)合規(guī)則和機(jī)器學(xué)習(xí)的表型分析算法識(shí)別2 型糖尿病,能夠結(jié)合二者的優(yōu)點(diǎn)[41]。
采用有監(jiān)督的機(jī)器學(xué)習(xí)方式進(jìn)行表型算法開(kāi)發(fā),能夠快速地進(jìn)行特征篩選,在一定程度上提高分類效果,與基于規(guī)則的算法相比也有較好的可移植性。
為了獲取更加準(zhǔn)確的識(shí)別率,不可避免地要增加指標(biāo)或提高表型分析算法的復(fù)雜度,但隨著臨床指標(biāo)和特征數(shù)量的增多,在人工標(biāo)注訓(xùn)練集有限的情況下會(huì)不可避免地造成過(guò)擬合,從而降低整個(gè)算法的召回率(recall),導(dǎo)致泛化性能變差。有學(xué)者采用ICD 的互補(bǔ)特征作為輸入的方法(沒(méi)有直接輸入疾病的ICD 代碼),雖然該方法能夠降低算法的過(guò)擬合[21],但有監(jiān)督學(xué)習(xí)依然嚴(yán)重依賴于金標(biāo)準(zhǔn)審核和將人工標(biāo)注的病例集合作為訓(xùn)練集,而獲取大的訓(xùn)練集需要消耗大量的人力和時(shí)間。
3.2.2 基于無(wú)監(jiān)督機(jī)器學(xué)習(xí)的表型算法開(kāi)發(fā)
基于無(wú)監(jiān)督機(jī)器學(xué)習(xí)開(kāi)發(fā)表型算法是指在沒(méi)有進(jìn)行人工標(biāo)注的數(shù)據(jù)集上進(jìn)行訓(xùn)練,采用無(wú)監(jiān)督機(jī)器學(xué)習(xí)算法尋找最優(yōu)的臨床指標(biāo)組合方式,以實(shí)現(xiàn)較好的疾病表型識(shí)別效果。如有學(xué)者在耐噪學(xué)習(xí)理論的基礎(chǔ)上開(kāi)發(fā)了一種從記錄中通過(guò)銀標(biāo)準(zhǔn)抽取表型的模型,提供了一種替代手動(dòng)標(biāo)記的方法,用于為表型統(tǒng)計(jì)模型創(chuàng)建訓(xùn)練集[42]。這種方法可以加速大型觀察性醫(yī)療保健數(shù)據(jù)集的研究。有學(xué)者開(kāi)發(fā)了無(wú)監(jiān)督學(xué)習(xí)框架PheNorm,能夠在不使用金標(biāo)準(zhǔn)標(biāo)簽的情況下進(jìn)行表型算法開(kāi)發(fā),與通過(guò)銀標(biāo)準(zhǔn)抽取表型的模型取得的效果相近[4]。有學(xué)者在PheNorm 框架的基礎(chǔ)上開(kāi)發(fā)了一種多疾病自動(dòng)表型分析的方法,能夠?qū)㈦娮硬v的數(shù)據(jù)用于多表型的分析中,如全表型組關(guān)聯(lián)分析(PheWAS)[43]。
無(wú)監(jiān)督方法純粹從數(shù)據(jù)中發(fā)現(xiàn)表型,試圖聚合通常一起出現(xiàn)在患者記錄中的醫(yī)學(xué)概念,雖然更具可擴(kuò)展性,但這些方法難以調(diào)整,通常依賴于預(yù)先定義表型的數(shù)量,需要對(duì)疾病定義進(jìn)行手動(dòng)審查,并且可能無(wú)法捕獲與不太常見(jiàn)的疾病相關(guān)的共現(xiàn)[44]。
深度學(xué)習(xí)作為一種高效的生物醫(yī)學(xué)文獻(xiàn)分類方法,也逐漸被應(yīng)用在表型分析過(guò)程中[45]。如有學(xué)者通過(guò)利用嵌入醫(yī)學(xué)概念推導(dǎo)表型并測(cè)量疾病和患者表征之間的關(guān)聯(lián),獲取接近的疾病表型,開(kāi)發(fā)了一種Phe2vec 算法框架,經(jīng)過(guò)驗(yàn)證取得了與PheKB 項(xiàng)目中共享算法相似的效果[44]。清華大學(xué)的團(tuán)隊(duì)在表型自動(dòng)特征提取和代理輔助特征提取的基礎(chǔ)上結(jié)合電子病歷開(kāi)發(fā)了技術(shù)框架PheCAP,可以實(shí)現(xiàn)自動(dòng)化的快速的表型識(shí)別[3,31-33]。另一方面,深度學(xué)習(xí)還可以應(yīng)用于自然語(yǔ)言處理技術(shù)中,以提高臨床概念詞語(yǔ)識(shí)別的準(zhǔn)確率。
研究者除了增加表型定義的數(shù)據(jù)源、改進(jìn)表型算法開(kāi)發(fā)方案之外,還嘗試引入數(shù)據(jù)處理等領(lǐng)域的方法,為表型分析研究提供了新的解決思路,包括采用統(tǒng)計(jì)學(xué)的方法對(duì)表型算法進(jìn)行優(yōu)化、改進(jìn)表型算法過(guò)程等。有學(xué)者提出了一種基于概率圖模型的、從異質(zhì)性的電子病歷數(shù)據(jù)中學(xué)習(xí)概率表型的方法,該方法返回每種可能表型的概率,而非絕對(duì)的表型分類[46]。有學(xué)者對(duì)前述研究進(jìn)行了改進(jìn)和擴(kuò)展,利用2 型糖尿病高危兒童的數(shù)據(jù)庫(kù)進(jìn)行模擬研究,發(fā)現(xiàn)電子病歷中的數(shù)據(jù)缺失屬于一種非隨機(jī)缺失,采用基于規(guī)則的表型分析,缺失的指標(biāo)往往被認(rèn)為是正常的指標(biāo)[47],但這種假設(shè)會(huì)將潛在的患者排除在外,容易造成大量可用數(shù)據(jù)丟失,同時(shí)還可能導(dǎo)致選擇偏倚,從而降低結(jié)果的準(zhǔn)確度,因此該學(xué)者提出了一種貝葉斯隱分類方法(Bayesian latent class),并且利用2 型糖尿病高危兒童的數(shù)據(jù)庫(kù)設(shè)計(jì)了模擬實(shí)驗(yàn),在取得與基于規(guī)則的表型分析相似的準(zhǔn)確度的前提下大幅度提高了敏感性[47]。有學(xué)者從基于拓?fù)涞摹盎颊?患者”網(wǎng)絡(luò)中識(shí)別出了3個(gè)不同的2 型糖尿病亞組,并在此基礎(chǔ)上進(jìn)行了基因的關(guān)聯(lián)分析,為表型分析算法開(kāi)發(fā)提供了一種新的思路[14]。
表型算法驗(yàn)證是評(píng)價(jià)算法在其他數(shù)據(jù)集中識(shí)別表型的準(zhǔn)確性的過(guò)程。表型算法驗(yàn)證主要分為單中心驗(yàn)證和多中心驗(yàn)證2 步。開(kāi)發(fā)完成的表型算法需要先在本地進(jìn)行驗(yàn)證,不斷調(diào)整表型算法,直到陽(yáng)性預(yù)測(cè)值達(dá)到滿意的程度。通過(guò)本地驗(yàn)證之后需要將表型算法在其他中心進(jìn)行驗(yàn)證和調(diào)整。目前常用的驗(yàn)證方式主要還是以專業(yè)的臨床醫(yī)生通過(guò)指南進(jìn)行的標(biāo)注作為評(píng)判的金標(biāo)準(zhǔn)。也有部分研究是基于已經(jīng)完成的流行病學(xué)研究構(gòu)建識(shí)別病例的表型算法,以病例組和對(duì)照組為標(biāo)準(zhǔn)進(jìn)行驗(yàn)證和調(diào)整。
因?yàn)楸硇头治霰举|(zhì)是分類問(wèn)題,所以評(píng)價(jià)一般都是采用分類相關(guān)的指標(biāo),如陽(yáng)性預(yù)測(cè)值(positive predictive value,PPV)、準(zhǔn)確度(accuracy)、敏感度(sensitivity,recall)、特異度(specificity)、F1 分?jǐn)?shù)、ROC 和曲線下面積(AUC)。表型算法驗(yàn)證最關(guān)注的還是陽(yáng)性預(yù)測(cè)值,又稱為查準(zhǔn)率(precision)、精確度(precision),是指陽(yáng)性預(yù)測(cè)值中真患者的比例。一般要求算法具有較高的陽(yáng)性預(yù)測(cè)值,即讓表型算法篩選出來(lái)的病例盡可能都是真患者,這樣才能使后續(xù)的研究有實(shí)際的意義。
針對(duì)不同的表型,驗(yàn)證的目的也不同[48],如癡呆、白內(nèi)障、2 型糖尿病等疾病類表型的驗(yàn)證重點(diǎn)是厘清疾病診斷判斷的標(biāo)準(zhǔn);如心電圖QRS 波、低密度脂蛋白、白細(xì)胞計(jì)數(shù)、紅細(xì)胞計(jì)數(shù),以及身高和血脂等非疾病類表型的驗(yàn)證旨在判斷數(shù)據(jù)是否在合理區(qū)間內(nèi)。有學(xué)者總結(jié)了6 點(diǎn)關(guān)于表型算法驗(yàn)證的經(jīng)驗(yàn)教訓(xùn)和注意事項(xiàng),建議將表型算法開(kāi)發(fā)和驗(yàn)證作為一個(gè)迭代過(guò)程來(lái)進(jìn)行[6]。
開(kāi)發(fā)具有良好擴(kuò)展性和魯棒性的表型算法,需要耗費(fèi)大量的人力資源,因此共享算法可以實(shí)現(xiàn)利益最大化。表型算法的共享是指將通過(guò)驗(yàn)證的表型算法上傳到表型算法共享平臺(tái)或項(xiàng)目中供其他學(xué)者驗(yàn)證和應(yīng)用。表型算法在經(jīng)過(guò)本地驗(yàn)證后,還需要經(jīng)過(guò)多中心驗(yàn)證才能夠進(jìn)行共享。目前主要的表型算法共享平臺(tái)主要是PheKB。截至2021 年12 月8 日,PheKB 的官網(wǎng)中共有82 個(gè)表型算法通過(guò)了驗(yàn)證并公開(kāi)共享,其中eMERGE 網(wǎng)絡(luò)項(xiàng)目組貢獻(xiàn)了68 個(gè)表型算法的開(kāi)發(fā)和驗(yàn)證[13]。此外,在PheKB中還有38 個(gè)表型算法處于協(xié)作狀態(tài),其中包括了7 個(gè)測(cè)試中的表型算法、8 個(gè)尚在開(kāi)發(fā)中的表型算法和4 個(gè)驗(yàn)證中的表型算法,剩余的19 個(gè)表型算法均為最終版本[13]。
表型分析涉及到學(xué)科交叉,目前常采用標(biāo)準(zhǔn)化的醫(yī)學(xué)編碼方案進(jìn)行表型分析算法開(kāi)發(fā),如ICD-9和ICD-10、用于實(shí)驗(yàn)室指標(biāo)的LOINC、用于藥物的RxNorm、用于跨領(lǐng)域交流的CPT,以及用于規(guī)范臨床術(shù)語(yǔ)的SNOMED-CT 等,以解決不同中心對(duì)于概念不統(tǒng)一的問(wèn)題。
有學(xué)者指出,目前還沒(méi)有正式的“表型語(yǔ)言”用于構(gòu)建電子病歷表型算法,也沒(méi)有通用的實(shí)現(xiàn)方法[7]。有學(xué)者在研究中觀察到,面對(duì)同一人群,不同的表型定義會(huì)產(chǎn)生不同的結(jié)果人群,從而使后續(xù)的研究結(jié)果和數(shù)據(jù)解釋產(chǎn)生巨大的差異[49],導(dǎo)致表型算法難以較好地移植,從而影響表型分析在更廣闊領(lǐng)域的應(yīng)用。為此,有學(xué)者綜合了目前常見(jiàn)的表型庫(kù),提出了建立一種新型表型庫(kù)的愿景,并指出新型表型庫(kù)應(yīng)能夠提供表型建模、更新表型、部署、驗(yàn)證和共享5 個(gè)生命周期內(nèi)的功能,為表型共享研究提供了新的思路[2]。
表型分析作為電子病歷數(shù)據(jù)再利用的基礎(chǔ)性工作,利用表型算法準(zhǔn)確識(shí)別表型后,能夠在不同的領(lǐng)域應(yīng)用電子病歷支持臨床研究。本文著重總結(jié)表型分析在臨床研究中直接應(yīng)用的相關(guān)研究,主要?dú)w納為疾病分層、病例自動(dòng)識(shí)別、電子病歷數(shù)據(jù)挖掘3 方面。具體的文獻(xiàn)整理如表1 所示。
表1 表型分析在臨床研究中直接應(yīng)用相關(guān)研究文獻(xiàn)
疾病分層是指通過(guò)表型聚類發(fā)現(xiàn)不同疾病的本質(zhì)特征,并且增加對(duì)疾病的了解。這種應(yīng)用在精神類疾?。?0]、呼吸系統(tǒng)疾?。?]中較為常見(jiàn)。不同的疾病可能有著相似的疾病表現(xiàn),研究結(jié)果顯示,根據(jù)表型的不同給予針對(duì)性的治療措施能夠提高醫(yī)療的效果[1]。根據(jù)表型聚類也有助于發(fā)現(xiàn)疾病亞型,如采用深度學(xué)習(xí)算法識(shí)別表型的特征將罕見(jiàn)病患者分為不同亞組[51],可以更好地了解疾病的本質(zhì)。
病例自動(dòng)識(shí)別是指根據(jù)表型算法自動(dòng)從電子病歷中識(shí)別包含定疾病表型的患者,也是表型分析的主要目的,能夠用于流行病學(xué)和臨床試驗(yàn)的招募,如快速?gòu)目玑t(yī)療中心的電子病歷中識(shí)別2 型糖尿病患者[52],還能夠用于疾病管理,如直接從電子病歷中識(shí)別社區(qū)相關(guān)耐甲氧西林金黃色葡萄球菌病例進(jìn)行院感控制[37]等。
電子病歷數(shù)據(jù)挖掘則是指將表型算法直接嵌入到電子病歷的應(yīng)用中,如通過(guò)一些訓(xùn)練的算法修正電子病歷中的身高值[53]、利用電子病歷中的數(shù)據(jù)進(jìn)行疾病的預(yù)測(cè)[17]、入院后快速檢測(cè)溶栓指征[54]等。
隨著電子病歷數(shù)據(jù)的迅速增長(zhǎng),越來(lái)越多的工作如患者分層、合并癥發(fā)現(xiàn)、病例描述、揭示基因-疾病關(guān)聯(lián)、藥物相互作用、藥物警戒甚至精準(zhǔn)醫(yī)療等都可以建立在表型分析的基礎(chǔ)上,表型分析逐漸成為真實(shí)世界數(shù)據(jù)驅(qū)動(dòng)的臨床研究和電子病歷數(shù)據(jù)再利用的基礎(chǔ),基于電子病歷的自動(dòng)化表型分析的重要性日益凸顯。但目前仍存在以下幾方面的問(wèn)題亟待解決。
首先,基于電子病歷的表型算法的有效性有待提高。可以從2 個(gè)角度對(duì)表型算法進(jìn)行優(yōu)化。一是從表型定義角度來(lái)看,提高數(shù)據(jù)的可信度、增加數(shù)據(jù)來(lái)源和類型有助于提高表型算法的效果。如有學(xué)者發(fā)現(xiàn)部分患者替家人買(mǎi)藥,從而在電子病歷中記錄了錯(cuò)誤的用藥信息,導(dǎo)致數(shù)據(jù)可信度降低[30]。此外,還存在部分電子病歷數(shù)據(jù)因?yàn)闃?biāo)準(zhǔn)變化、手工轉(zhuǎn)錄、系統(tǒng)升級(jí)等原因造成數(shù)據(jù)缺失、不規(guī)整等問(wèn)題[6]。因此在應(yīng)用電子病歷進(jìn)行表型分析前,需要對(duì)數(shù)據(jù)的可信度進(jìn)行檢驗(yàn)。前文提到,采用多中心、多樣化數(shù)據(jù)建立的表型算法比單中心、單類型數(shù)據(jù)的算法效果好很多,但仍需考慮多樣化數(shù)據(jù)之間的沖突,以及非結(jié)構(gòu)化數(shù)據(jù)的歧義、縮寫(xiě)等問(wèn)題。二是從表型算法開(kāi)發(fā)的角度來(lái)看,優(yōu)化表型算法的開(kāi)發(fā)方式與采用基于規(guī)則和監(jiān)督學(xué)習(xí)相比,采用無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法能更快速地進(jìn)行表型識(shí)別,但同時(shí)也存在受限于最初確定表型的數(shù)量和低召回率的問(wèn)題。
其次,研究成果的傳播與共享有待加強(qiáng)。一方面是表型分析研究成果的傳播有待加強(qiáng)。有學(xué)者試圖全面地審查盡可能多的表型分析,但受限于表型一詞的模糊性,關(guān)于表型的研究很難檢索全面[15],本文也同樣存在以偏概全的問(wèn)題。另一方面是算法的傳播和共享有待加強(qiáng)。多種標(biāo)準(zhǔn)化編碼雖然能解決跨機(jī)構(gòu)概念不同的問(wèn)題,但不同的標(biāo)準(zhǔn)之間仍存在粒度粗細(xì)不同、概念相互重疊及不兼容等問(wèn)題。針對(duì)目前表型分析中的各種問(wèn)題,有學(xué)者綜合了目前常見(jiàn)的表型庫(kù),提出建立一種新型表型庫(kù)的愿景,并指出表型庫(kù)應(yīng)能夠提供表型建模、更新、部署、驗(yàn)證和共享5 個(gè)功能,為表型傳播和共享研究提供了新的思路[2]。
第三,基于電子病歷的表型分析在臨床研究中應(yīng)用的效果有待提升。有學(xué)者發(fā)現(xiàn),在應(yīng)用電子病歷表型分析的病例對(duì)照研究中,其候選集合會(huì)被既不屬于控制組定義的、也不屬于病例組定義的樣本所干擾[55],忽略此類患者的污染將導(dǎo)致對(duì)結(jié)果的OR值的估計(jì)產(chǎn)生偏差。還有學(xué)者在研究中提到了此類問(wèn)題,并提出了相關(guān)解決方案,但目前應(yīng)用表型分析的流行病學(xué)相關(guān)研究仍然有限[56]。今后的研究應(yīng)在提高表型分析效果的同時(shí),再增加臨床醫(yī)生、公共衛(wèi)生研究人員對(duì)表型分析的信任度,從而擴(kuò)大表型分析的應(yīng)用。
本文以英文數(shù)據(jù)庫(kù)為綜述對(duì)象的數(shù)據(jù)來(lái)源,共選取了53 篇代表性文獻(xiàn),對(duì)基于電子病歷的表型分析的流程進(jìn)行了總結(jié),并從表型定義、表型算法開(kāi)發(fā)、表型算法的驗(yàn)證和共享4 個(gè)方面對(duì)表型分析進(jìn)行了綜述,最后總結(jié)梳理了表型分析在臨床方面的應(yīng)用現(xiàn)狀,為后續(xù)相關(guān)研究提供借鑒。
綜述結(jié)果顯示,隨著電子病歷數(shù)據(jù)庫(kù)日益完善,表型分析已成為電子病歷數(shù)據(jù)再利用的基礎(chǔ)。表型定義的數(shù)據(jù)來(lái)源越來(lái)越多,包括結(jié)構(gòu)化和非結(jié)構(gòu)化電子病歷數(shù)據(jù)、開(kāi)放醫(yī)學(xué)資源等。表型算法開(kāi)發(fā)的方法逐漸從基于規(guī)則開(kāi)發(fā)向無(wú)監(jiān)督學(xué)習(xí)開(kāi)發(fā)轉(zhuǎn)變,并向著表型算法的自動(dòng)構(gòu)建方向發(fā)展。但目前仍有很多挑戰(zhàn)和困難,今后的研究應(yīng)繼續(xù)致力于提高數(shù)據(jù)的可信度、增加數(shù)據(jù)來(lái)源和類型以提升表型算法的效果,同時(shí)還應(yīng)加強(qiáng)表型分析相關(guān)研究的共享和傳播,擴(kuò)大表型分析在臨床研究中的應(yīng)用。