白永梅 杜 建
(1.北京大學(xué)醫(yī)學(xué)部醫(yī)學(xué)技術(shù)研究院,北京 100191;2.北京大學(xué)健康醫(yī)療大數(shù)據(jù)國家研究院,北京 100191;3.北京大學(xué)醫(yī)學(xué)部公共衛(wèi)生學(xué)院,北京 100191)
證據(jù)綜合(evidence synthesis)是指將多個來源和學(xué)科的信息和知識匯集在一起,為辯論和決策提供信息的過程。對現(xiàn)有證據(jù)進行準確、簡潔和無偏倚的綜合是研究界可以為決策者提供的最有價值的貢獻之一[1]。自1980年以來,證據(jù)綜合已發(fā)展成為疾病預(yù)防、診斷和治療以及其他健康議題影響決策的基礎(chǔ)。證據(jù)綜合還有助于解決教育、經(jīng)濟、環(huán)境、刑事司法、全球發(fā)展等最緊迫的全球挑戰(zhàn)。例如,全球的藥品監(jiān)管機構(gòu)和醫(yī)療保險公司不依賴單一研究,而是綜合所有相關(guān)研究來評估安全性和有效性,并決定是否批準藥物上市或支付藥物費用。證據(jù)綜合是“從證據(jù)到實踐”、“從科學(xué)到政策”的橋梁[2]。在醫(yī)學(xué)領(lǐng)域,證據(jù)綜合的結(jié)果主要是系統(tǒng)評價和Meta分析。根據(jù)統(tǒng)計,正式發(fā)表的系統(tǒng)評價數(shù)量已從2011年的約6 000篇增加到2021年的45 000多篇[2]。全球平均每天要進行約75項臨床試驗和11項系統(tǒng)綜述[3],證據(jù)綜合越來越困難,一項系統(tǒng)評價平均需要5個人花費67周時間才能完成[4],由此導(dǎo)致證據(jù)綜合存在嚴重的滯后性,無法充分且及時發(fā)揮對決策的價值。如何跟上海量醫(yī)學(xué)證據(jù)的發(fā)展,并將其轉(zhuǎn)化為臨床實踐是一個迫切需要解決的科學(xué)問題[5]。
2020年,醫(yī)學(xué)信息學(xué)領(lǐng)域的學(xué)者提出了“可計算的證據(jù)綜合”(computable evidence synthesis)的概念,即直接利用臨床試驗注冊平臺的結(jié)構(gòu)化數(shù)據(jù)促進醫(yī)學(xué)證據(jù)合成[6-7]。有助于系統(tǒng)綜述從耗時的“試驗結(jié)果出版物篩選模式”轉(zhuǎn)為主動積極的“臨床試驗監(jiān)測模式”,從“證據(jù)積累模式”轉(zhuǎn)變?yōu)椤白C據(jù)優(yōu)先級排序”的模式[8]。相對書目數(shù)據(jù)庫而言,臨床試驗注冊平臺的試驗結(jié)果尤其是陰性結(jié)果未被充分利用。本文受以上觀點啟發(fā),述評目前研究進展,提出可計算的證據(jù)綜合的基本框架和實現(xiàn)路徑,為實現(xiàn)快速證據(jù)綜合提供可行性路徑和研究案例。
實現(xiàn)可計算的臨床證據(jù)綜合,需要抽取、映射和整合三個過程。首先是抽取,即結(jié)構(gòu)化,從半結(jié)構(gòu)化數(shù)據(jù)平臺(如Clinicaltrials.gov的XML文件、Cochrane系統(tǒng)綜述結(jié)果)和非結(jié)構(gòu)化自然語言文本(如PubMed)中抽取“患者-干預(yù)-對照-結(jié)局”(population-interventions-comparisons-outcomes,PICO)要素;以美國Clinicaltrials.gov、中國臨床試驗注冊平臺等為基礎(chǔ),利用其相對結(jié)構(gòu)化的數(shù)據(jù),自動生成PICO字段,對于注冊平臺上未報告結(jié)果的試驗,通過計算機軟件工具獲取書目數(shù)據(jù)庫(如PubMed)或網(wǎng)絡(luò)(如權(quán)威會議報道)報告結(jié)果。
其次是映射,即標準化,利用醫(yī)學(xué)本體和術(shù)語集,將PICO要素的不同語言表達進行統(tǒng)一編碼[9],將自然語言映射為標準化術(shù)語體系中的概念;常用的術(shù)語體系如統(tǒng)一醫(yī)學(xué)語言系統(tǒng)(the Unified Medical Language System, UMLS)[10],常用的映射工具如基于文本相似度的術(shù)語映射工具通用數(shù)據(jù)模型(the Observational Medical Outcomes Partnership-Common Data Model, OMOP-CDM)[11],這些工具可以在很大程度上幫助實現(xiàn)“多源異構(gòu)”術(shù)語的自動映射,實現(xiàn)統(tǒng)一表達,為證據(jù)整合奠定基礎(chǔ)。
第三是將不同來源的實體和數(shù)據(jù)通過“以PICO為框架的知識圖譜”進行整合、存儲。將以上結(jié)果與目前現(xiàn)有的系統(tǒng)綜述(如Cochrane系統(tǒng)評價數(shù)據(jù)庫)結(jié)論進行對比,可判斷當前證據(jù)是進一步確認了還是完全改變了目前最新的系統(tǒng)綜述或Meta分析結(jié)論,從而能減少重復(fù)開展系統(tǒng)綜述帶來的時間和人力浪費。
目前針對不同等級的臨床證據(jù),如系統(tǒng)綜述、隨機對照試驗(randomized controlled trial,RCT)結(jié)果、注冊臨床試驗等均有計算機科學(xué)和醫(yī)學(xué)的交叉研究團隊開展了證據(jù)結(jié)構(gòu)化和標準化的工作,代表性進展主要包括以下兩個方面。
Cochrane系統(tǒng)評價數(shù)據(jù)庫(Cochrane Database of Systematic Reviews, CDSR)是世界上最大的單一系統(tǒng)評價數(shù)據(jù)庫。為實現(xiàn)系統(tǒng)綜述結(jié)論的結(jié)構(gòu)化存儲,Cochrane組織在2014年啟動了鏈接數(shù)據(jù)(Cochrane linked data)項目,將系統(tǒng)綜述中涉及的PICO概念進行結(jié)構(gòu)化和標準化。以新型冠狀病毒肺炎(COVID-19,以下簡稱新冠肺炎)疫情為例,Cochrane組織和科技公司Data Language合作構(gòu)建了一個全新的數(shù)據(jù)架構(gòu)(a radical new data architecture),以知識圖譜(knowledge graph)技術(shù)為核心,改進Cochrane以往用傳統(tǒng)的非結(jié)構(gòu)化數(shù)據(jù)(主要是自然語言文本)描述醫(yī)學(xué)證據(jù)的方式。
Cochrane系統(tǒng)綜述的傳統(tǒng)方式耗時耗力,需要領(lǐng)域?qū)<覅⑴c,最終的產(chǎn)出是復(fù)雜半結(jié)構(gòu)化文檔。在新的方案中,“標準化”通過PICO框架中的疾病、干預(yù)等實體使用標準化詞表來表示。常用的實體和標準化詞表對應(yīng)情況詳見表1。以上在PICO finder系統(tǒng)中可以實現(xiàn)查詢,其實體所采用的標準化詞表也即OMOP-CDM中的敘詞表。但Cochrane當前的研究僅進行了實體類別標注,并未對干預(yù)和結(jié)局之間的關(guān)系進行描述(圖1)。2020年,有研究者[12]聚焦系統(tǒng)綜述的結(jié)果,從中提取相關(guān)疾病、風險因素、風險結(jié)果和其他糖尿病實體以及比值比(odds ratio, OR)或風險比(risk ratio, RR)等效應(yīng)指標和效應(yīng)值,基于循證醫(yī)學(xué)的框架構(gòu)建糖尿病并發(fā)癥的知識圖譜,將實體之間的風險關(guān)系通過知識圖譜進行可視化,實現(xiàn)快速證據(jù)綜合。
表1 PICO框架中的實體與其對應(yīng)的標準化詞表 Tab.1 Standardized vocabulary for entities in the PICO framework
圖1 Cochrane PICO FinderFig.1 Cochrane PICO Finder(https://data.cochrane.org/pico-finder/)PICO:population-interventions-comparisons-outcomes.
2.2.1 Trialstreamer:對RCT結(jié)果的結(jié)構(gòu)化
RCT結(jié)果結(jié)構(gòu)化的代表性工作是Trialstreamer人工智能系統(tǒng)。系統(tǒng)基于PubMed和世界衛(wèi)生組織(World Health Organization,WHO)國際臨床試驗注冊平臺(International Clinical Trials Registry Platform, ICTRP),使用RobotReviewer機器學(xué)習(xí)系統(tǒng)自動查找RCT研究,并從中提取關(guān)鍵信息。具體包括(圖2):
圖2 Trialstreamer數(shù)據(jù)結(jié)構(gòu)Fig.2 Data structure of Trialstreamer
(1)PICO概念:基于規(guī)則進行提取,映射為UMLS超級敘詞表中的概念。使用EBMNLP(evidence-based medicine natural language processing)語料庫對PubMed當中的RCT研究摘要進行PICO概念的識別[13]。通過Metamap Lite提取描述PICO元素的MeSH術(shù)語,基于UMLS Metathesaurus通過算法生成的龐大醫(yī)學(xué)術(shù)語同義詞詞典,使用MeSH詞匯表中概念的唯一標識符相匹配來實現(xiàn)標準化。字段包括:人口學(xué)特征(population)、干預(yù)措施(interventions)、結(jié)局(outcomes)、人口學(xué)特征MeSH(population_mesh)、干預(yù)措施MeSH(interventions_mesh)、結(jié)局MeSH(outcomes_mesh);以上結(jié)果包含了結(jié)構(gòu)化和標準化兩個過程,其中標準化是通過向MeSH術(shù)語體系映射實現(xiàn)的。
(2)偏倚風險評估(prob_low_rob):通過訓(xùn)練Cochrane圖書館中60%帶有Cochrane偏倚風險工具手動評估的RCT摘要,以實現(xiàn)從摘要中自動評估偏倚風險的目的。
(3)樣本量(num_randomized):使用一系列啟發(fā)式、正則表達式和自然語言處理(natural language processing,NLP)技術(shù)將摘要中的樣本量進行提取,并使用多層感知器模型來估計每個整數(shù)代表研究樣本大小的概率。
(4)結(jié)論句(punchline_text)[14]:包括作者結(jié)論和統(tǒng)計效應(yīng)量的句子。
(5)其他元數(shù)據(jù)項:PMID、標題(ti)、摘要(ab)、年份(year)、作者(authors)、期刊(journal)、doi等。
2.2.2 注冊臨床試驗結(jié)構(gòu)化
目前,針對注冊臨床試驗開展可計算的證據(jù)綜合有以下代表性工作:(1)2012年構(gòu)建的臨床試驗知識圖譜(Clinical Trials Knowledge Graph, CTKG),該圖譜是根據(jù)來自ClinicalTrials.gov數(shù)據(jù)庫的臨床試驗數(shù)據(jù)構(gòu)建的知識圖譜。包括代表臨床試驗(如研究、藥物、病情)中醫(yī)療實體的節(jié)點,以及代表這些實體(如研究中使用的藥物)之間關(guān)系的邊,它包括1 496 684個節(jié)點(18種節(jié)點類型)和21種關(guān)系類型,共3 667 750個三元組。提供了3本關(guān)于如何使用知識圖嵌入來探索和分析CTKG的手冊[15]。(2)新冠肺炎臨床試驗鏈接圖:利用自然語言處理工具,從符合納入和排除標準的開放文本和來自ClinicalTrials.gov的結(jié)構(gòu)化信息中提取臨床試驗信息,并將其導(dǎo)入支持查詢和可視化的圖形數(shù)據(jù)庫,便于檢索臨床試驗[16]。(3)2022年構(gòu)建的CTKG,該圖譜包括表示臨床試驗(例如,藥物和癥狀)等醫(yī)療實體的節(jié)點,以及表示這些實體(例如,研究中使用的藥物)之間關(guān)系的邊緣。同時嵌入分析CTKG在臨床應(yīng)用中的潛在效果,例如藥物再利用和相似性搜索等[17]。
以上研究均把PICO概念進行了結(jié)構(gòu)化,但目前的研究均沒有提取I/C和O之間的效應(yīng)指標和效應(yīng)值。因此,筆者此前的研究在國內(nèi)外學(xué)者的基礎(chǔ)上構(gòu)建了基于“醫(yī)學(xué)實體”和“統(tǒng)計量”的臨床證據(jù)知識圖譜,基于ClinicalTrials.gov平臺XML數(shù)據(jù)、Trilastreamer工具提取出版物中臨床試驗實體、包括統(tǒng)計量的結(jié)論句和風險偏倚評分(代表研究質(zhì)量)等字段[18],通過NLP進一步規(guī)范PICO實體和統(tǒng)計學(xué)指標,并與標準化術(shù)語體系(MeSH、ICD、MedDRA等)進行映射,構(gòu)建I/C和O之間的效應(yīng)關(guān)系,篩選有臨床意義的試驗,輔助臨床決策[19]。通過分類來確定I/C和O之間關(guān)系的啟發(fā)[20],筆者將干預(yù)和結(jié)局之間的效應(yīng)根據(jù)抽取出的P值分為三類來定義其臨床意義:①有顯著差異(改善、增加、降低),P<0.05;②無顯著性差異,P>0.05;③未出現(xiàn)。ClinicalTrials.gov在使用元數(shù)據(jù)方面尚存在著一些障礙,其主要原因是未進行術(shù)語標準化。如患者疾病情況的描述詞分布包括MeSH (62%),MedDRA (46%)和SNOMED-CT (45%)[21]。
結(jié)合上述工具和研究,筆者通過導(dǎo)出ClinicalTrials.gov中有關(guān)COVID-19臨床試驗的eXtensible Markup Language(XML)文件,基于PICO框架對字段進行分類、標準化映射、圖數(shù)據(jù)庫存儲等信息處理過程。筆者的映射工具涉及MTI、MetaMap和Usagi,并在Neo4j、GraphDB中建立了“實體-屬性-值”結(jié)構(gòu)的圖數(shù)據(jù)庫[22- 23],較Clinicaltrials.gov平臺增加了新的基于多字段和內(nèi)容的查詢條件,通過Cypher語言對特定字段進行查詢、數(shù)據(jù)導(dǎo)出,為可計算奠定基礎(chǔ)。在筆者建立的本地數(shù)據(jù)庫中通過Cypher語言查詢“MATCH (n{nctid:’NCT04491240’}) RETURN n”返回結(jié)果如圖3所示,可視化展示的每個節(jié)點名稱為“實體”,“node labels”為節(jié)點的屬性,每個節(jié)點中包含了相應(yīng)的“數(shù)據(jù)”且可以供研究者導(dǎo)出使用。該研究被收錄在ExtractionandEvaluationofKnowledgeEntitiesfromScientificDocuments(EEKE2021)論文集當中。通過Cypher語言在Neo4j構(gòu)建的圖形數(shù)據(jù)庫中查詢和批量導(dǎo)出信息[24],可以幫助研究人員批量獲取最新數(shù)據(jù),并為實時合成研究證據(jù)奠定基礎(chǔ)。與書目數(shù)據(jù)庫中的出版物相比,這些數(shù)據(jù)包括陰性和陽性結(jié)果,更加全面客觀,可以補充出版物中的灰色數(shù)據(jù)。實體對齊使用到Usagi工具(https://github.com/OHDSI/Usagi),直接映射到OHDSI的術(shù)語表[25]。
通過上述方法構(gòu)建了如圖3所示的臨床試驗信息存儲圖數(shù)據(jù)庫的內(nèi)容,大規(guī)模分析臨床試驗可以為自動化Meta分析提供信息學(xué)策略、繪制證據(jù)圖譜、將有證據(jù)支持的暴露-結(jié)局繪制為網(wǎng)絡(luò)知識圖譜。可以實現(xiàn)的臨床應(yīng)用包括:提取臨床試驗患者納入標準中“有一線藥物失敗”的患者使用的二線藥物信息;二線藥物的臨床試驗設(shè)計,可以參考相關(guān)一線藥物的研究設(shè)計要素等。
圖3 圖數(shù)據(jù)庫存儲醫(yī)學(xué)知識“實體-屬性-值”案例展示Fig.3 Case presentation of Graph database stored medical knowledge “entity-attribute-value”
2021年Nature發(fā)表的評論呼吁動態(tài)更新的證據(jù)綜合,通過NLP、機器學(xué)習(xí)、眾包等技術(shù)來規(guī)范開放數(shù)據(jù)管理,如提高數(shù)字資源共享可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可重用(Reusable)的FAIR原則,幫助推動數(shù)據(jù)共享的可查找、可訪問、可互操作性,以此建立高質(zhì)量的證據(jù)合成方法和指南[2, 26]。推動可計算的生物醫(yī)學(xué)知識(Mobilizing Computable Biomedical Knowledge, MCBK)第三屆年度公開會議總結(jié):動員可計算的生物醫(yī)學(xué)知識-加速第二次知識革命[27]。
本研究所納入的研究均通過結(jié)構(gòu)化醫(yī)療數(shù)據(jù)來實現(xiàn)醫(yī)學(xué)知識的可計算,其中“標準化映射”實體是規(guī)范字段名稱通用的手段,不同的標準化方法側(cè)重的內(nèi)容不同、編碼方式不同,但都以利于醫(yī)學(xué)數(shù)據(jù)字段融合為目的。如血管緊張素轉(zhuǎn)換酶抑制劑和血管緊張素受體阻滯劑被認為會影響新冠肺炎的易感性,但缺乏相關(guān)臨床試驗,通過證據(jù)融合可以更好地為臨床醫(yī)學(xué)提供證據(jù)[28]。
當前大部分研究停留在設(shè)想階段,鮮少有實踐案例,且存儲方式單一,不利于查詢和數(shù)據(jù)提取。如ClinicalTrials作為結(jié)構(gòu)化數(shù)據(jù)庫,其查詢字段有很大的局限。將本文結(jié)合圖數(shù)據(jù)庫存儲為“實體-屬性-值”的格式,并應(yīng)用現(xiàn)代化查詢技術(shù),可以通過圖數(shù)據(jù)庫的存儲形式來實現(xiàn)不同研究數(shù)據(jù)的可視化、查詢、數(shù)據(jù)提取等。實現(xiàn)手段如圖4所示:①從結(jié)構(gòu)化數(shù)據(jù)庫中提取數(shù)據(jù);②醫(yī)學(xué)實體標準化:通過MTI、Usagi、MetaMap等工具和平臺,對醫(yī)學(xué)實體進行編碼和對齊;③通過知識圖譜構(gòu)建平臺和工具,將“實體-屬性-值”進行存儲;④通過SPARQL、Cypher、Python等編程語言對數(shù)據(jù)進行查詢、導(dǎo)出。該路徑綜合了前人研究的基礎(chǔ),且在數(shù)據(jù)存儲、共享、可視化方面進行了一定的創(chuàng)新。
圖4 可計算的臨床證據(jù)實現(xiàn)框架Fig.4 Implementation framework for calculable clinical evidence
利益沖突所有作者均聲明不存在利益沖突。
作者貢獻聲明白永梅:論文撰寫、繪圖;杜建:研究設(shè)計和論文指導(dǎo)。