周光迪,杜亞濤,吳宇航,王偉業(yè)
近年來(lái),流行病學(xué)和轉(zhuǎn)化醫(yī)學(xué)研究中不同項(xiàng)目之間的資源整合越來(lái)越廣泛。資源的整合可運(yùn)用于流行病學(xué)隊(duì)列項(xiàng)目,也可運(yùn)用于醫(yī)院的臨床信息[1-2]。這樣的資源整合不用大規(guī)模地增加投入,就能滿足統(tǒng)計(jì)分析所需的大樣本量,極大地節(jié)約了研究經(jīng)費(fèi)和精力的投入[3]。
盡管數(shù)據(jù)資源整合的意義重大,但是不同醫(yī)院/研究組所收集的同病種臨床數(shù)據(jù),存在多方面的數(shù)據(jù)異質(zhì)性,信息不統(tǒng)一導(dǎo)致數(shù)據(jù)不能直接整合[4-5]。異質(zhì)性主要存在于三個(gè)方面:
第一,變量種類(lèi)的不同。對(duì)相同的病種,不同醫(yī)院/研究組對(duì)同病種所收集變量的種類(lèi)不完全相同。無(wú)論是從病史詢問(wèn)還是檢驗(yàn)項(xiàng)目,每家醫(yī)院、每位醫(yī)生、每個(gè)研究組都有自己的看法和習(xí)慣,同一醫(yī)生對(duì)不同病人所問(wèn)診/檢查的變量也不完全一致[6]。第二,變量定義的不同。不同醫(yī)院/研究組對(duì)同變量的定義不完全相同。在目前的研究情況下,普遍存在著變量定義的不明確[7]。因此明確變量的定義是數(shù)據(jù)整合的必要前提之一。第三,變量的采集/檢測(cè)/表達(dá)方式等的不同。包括變量的提問(wèn)方式不同、變量的檢驗(yàn)方式不同[8]等方面。例如詢問(wèn)“你是否有被動(dòng)吸煙”和“你的家人和同事是否抽煙”,所針對(duì)的變量是相同的,但所得到的答案存在異質(zhì)性。而檢驗(yàn)方法、數(shù)據(jù)單位、取樣方式等很多因素都會(huì)影響檢驗(yàn)的結(jié)果,以血糖值為例,病人是否禁食、指尖取血還是靜脈取血、數(shù)據(jù)單位是 mg/dl 還是 mmol/L,都會(huì)對(duì)結(jié)果產(chǎn)生影響。
為了實(shí)現(xiàn)數(shù)據(jù)共享,我們首先要采取合適的模式方法來(lái)交流和統(tǒng)一數(shù)據(jù)。不同項(xiàng)目的數(shù)據(jù)信息整合有三種方式:數(shù)據(jù)池、最小數(shù)據(jù)集、聯(lián)盟式[9-10]。數(shù)據(jù)池指將不同來(lái)源的同變量數(shù)據(jù)直接合并在一起,共同統(tǒng)計(jì)分析、整合共享的方式。最小數(shù)據(jù)集是為特定目的收集的、最少的、被用戶和相關(guān)人認(rèn)可的一組選擇性的核心數(shù)據(jù)[11]。聯(lián)盟式指原始數(shù)據(jù)不離開(kāi)本地,在經(jīng)過(guò)物理上分布式的運(yùn)算中心統(tǒng)計(jì)分析后,再將統(tǒng)計(jì)結(jié)果進(jìn)行共享[12-13]。我們根據(jù)本項(xiàng)目先收集數(shù)據(jù)、再進(jìn)行數(shù)據(jù)整合的回溯性基本特征,再加上法律法規(guī)的限制,選擇了聯(lián)盟式的數(shù)據(jù)整合方式,這也是絕大部分回溯性數(shù)據(jù)整合項(xiàng)目適用的數(shù)據(jù)整合方式。
2014 - 2017年,我們團(tuán)隊(duì)與加拿大 Maelstrom 團(tuán)隊(duì)合作,成功執(zhí)行了國(guó)家科技部立項(xiàng)的“多中心臨床信息共享的中加合作研發(fā)”項(xiàng)目及上海市國(guó)際科技合作基金項(xiàng)目“建 設(shè)隊(duì)列研究數(shù)據(jù)信息共享機(jī)制促進(jìn)國(guó)內(nèi)國(guó)際合作”。我們以聯(lián)盟式的方式實(shí)現(xiàn)了中方的上海兒童優(yōu)生隊(duì)列(Shanghai Birth Cohort,SBC),加方的 3D 出生隊(duì)列(Design,Develop,Discover,3D)和 MIREC 出生隊(duì)列(Maternal-Infant Research on Environmental Chemicals,MIREC)的數(shù)據(jù)共享。2017年項(xiàng)目順利結(jié)題并獲得評(píng)審專家組的一致好評(píng),為跨國(guó)的回顧性數(shù)據(jù)統(tǒng)一(指數(shù)據(jù)在采集后才開(kāi)始進(jìn)行數(shù)據(jù)統(tǒng)一和整合)和數(shù)據(jù)整合共享建立了成功的模式和方法[14]。在項(xiàng)目執(zhí)行過(guò)程中,我們利用加拿大 Maelstrom 團(tuán)隊(duì)的資源和經(jīng)驗(yàn)優(yōu)勢(shì),引進(jìn)了他們所開(kāi)發(fā)的 OBiBa 軟件套組來(lái)搭建多中心信息共享平臺(tái)的基礎(chǔ)設(shè)施的架構(gòu)。
目前國(guó)內(nèi)對(duì)不同項(xiàng)目之間資源整合的工作還處在起步階段,經(jīng)驗(yàn)不多、研究資料也較為匱乏,成功實(shí)現(xiàn)不同項(xiàng)目之間數(shù)據(jù)共享的模式和方法并不多,因此我們將應(yīng)用 Opal 和 Mica 構(gòu)建數(shù)據(jù)統(tǒng)一與交流平臺(tái)、探索信息共享模式的工作流程和經(jīng)驗(yàn)闡述如下,希望能對(duì)以后的跨國(guó)多中心信息整合項(xiàng)目提供參考。
在統(tǒng)一數(shù)據(jù)之前,我們需要規(guī)范化地編寫(xiě)數(shù)據(jù)詞典,選擇合適的平臺(tái)供多方交流溝通數(shù)據(jù)元素的信息,便于相互了解各參與方數(shù)據(jù)元素的差異性,再統(tǒng)一數(shù)據(jù)元素。
由于不同的研究有不同的數(shù)據(jù)變量,且不同來(lái)源的數(shù)據(jù)變量在各方面都可能存在異質(zhì)性,所以應(yīng)將不同來(lái)源的變量按統(tǒng)一的形式表達(dá)展示,才能進(jìn)行協(xié)調(diào)。因此在進(jìn)行多項(xiàng)目數(shù)據(jù)整合之前,先要為每個(gè)研究編寫(xiě)數(shù)據(jù)詞典[6,15]。編寫(xiě)數(shù)據(jù)詞典指研究者規(guī)范地抓取和列舉變量的元數(shù)據(jù)信息和具體的描述信息,將個(gè)體的信息來(lái)源(例如某個(gè)數(shù)據(jù)庫(kù))用通用規(guī)則映射到數(shù)據(jù)模式上,數(shù)據(jù)詞典中應(yīng)包含來(lái)源、單位、數(shù)據(jù)類(lèi)型等元數(shù)據(jù)信息,也包含標(biāo)簽和描述等特征性信息,能夠簡(jiǎn)練而精確地定義變量。采用數(shù)據(jù)詞典這種規(guī)范化的模式,研究者就能夠描述和對(duì)比來(lái)自于不同項(xiàng)目、在描述方式等各方面存在異質(zhì)性的變量,為后期工作打下基礎(chǔ)。
數(shù)據(jù)詞典編寫(xiě)完成后,需要利用平臺(tái)展示各研究的變量,以便于不同研究之間的相互了解和交流、促進(jìn)信息的統(tǒng)一和整合。
目前國(guó)際上已有一些軟件幫助生物信息的收集和管理,例如 REDCap、OpenClinical[16]等,但專門(mén)幫助研究者統(tǒng)一數(shù)據(jù)、整合資源的工具性平臺(tái)和軟件還十分匱乏。為此,Maelstrom 團(tuán)隊(duì)策劃并開(kāi)發(fā)了 OBiBa 軟件組合[9],其中包含 Opal、Mica 等工具軟件,能有效地幫助研究者們整合共享不同研究的數(shù)據(jù)資源信息。
Opal 相當(dāng)于信息共享的核心數(shù)據(jù)倉(cāng)庫(kù),并能提供導(dǎo)入、轉(zhuǎn)化和描述數(shù)據(jù)的所有必須工具。在數(shù)據(jù)導(dǎo)入和導(dǎo)出的時(shí)候,項(xiàng)目驗(yàn)證者也可以管理。Opal 能夠定義各研究項(xiàng)目待統(tǒng)一的目標(biāo)變量,開(kāi)發(fā)和執(zhí)行用于派生通用格式數(shù)據(jù)的算法,并記錄數(shù)據(jù)統(tǒng)一的決定。Opal 還包含了 JavaScript 函數(shù)庫(kù),以促進(jìn)算法的開(kāi)發(fā)和創(chuàng)建協(xié)調(diào)變量。本項(xiàng)目主要使用 Opal 來(lái)展示變量,以便于不同項(xiàng)目之間相互交流,了解共同的研究方向和能夠統(tǒng)一共享的變量。
參與數(shù)據(jù)共享的研究課題不僅需要相互了解對(duì)方的變量,也要相互了解對(duì)方的研究結(jié)構(gòu),這就需要運(yùn)用到 Mica。Mica 是一個(gè)強(qiáng)大的軟件應(yīng)用程序,用于大型流行病學(xué)研 究或多研究聯(lián)盟創(chuàng)建數(shù)據(jù) Web 門(mén)戶。Mica 是基于由 RESTful 應(yīng)用程序服務(wù)器和客戶端組成的多層體系結(jié)構(gòu),研究者可以在 Mica 上編輯和展示個(gè)體研究和數(shù)據(jù)集的附屬信息,并管理與 OBiBa 軟件系統(tǒng)的其他應(yīng)用程序的安全連接。Mica 幫助研究提供數(shù)據(jù)可見(jiàn)性和網(wǎng)絡(luò)展示,以及對(duì)聯(lián)盟、研究、帶注釋和可搜索的數(shù)據(jù)字典以及數(shù)據(jù)訪問(wèn)請(qǐng)求管理的結(jié)構(gòu)化描述。在 Mica 上用戶可以快速識(shí)別研究的概要文件列表。
不同項(xiàng)目的同一變量往往存在異質(zhì)性,不能直接共享。對(duì)于不同來(lái)源的同一變量,我們對(duì)其進(jìn)行同質(zhì)化水平劃分,分為“完全相容”、“部分相容”、“完全不相容”三個(gè)級(jí)別[14]。完全相容的變量可以直接共享;部分相容的變量需要進(jìn)行統(tǒng)一轉(zhuǎn)化后才能共享;完全不相容的變量不能共享。我們會(huì)根據(jù)每個(gè)變量的具體情況為其撰寫(xiě)腳本,以統(tǒng)一 變量。
變量統(tǒng)一后,由于法規(guī)的限制,MIREC 的原始數(shù)據(jù)不能直接與中方共享,因此我們只能對(duì)數(shù)據(jù)結(jié)果進(jìn)行分布式統(tǒng)計(jì)分析,然后共享分布式統(tǒng)計(jì)分析的結(jié)果。我們將 Mica 連接到參與項(xiàng)目的各個(gè)研究組的 Opal 數(shù)據(jù)庫(kù),就能通過(guò) Mica 安全地查詢遠(yuǎn)程 Opal 所在的服務(wù)器上的研究數(shù)據(jù),得到統(tǒng)計(jì)學(xué)結(jié)果,從而實(shí)現(xiàn)分布式的統(tǒng)計(jì)分析和聯(lián)盟式的數(shù)據(jù)共享[9]。
圖1 Opal、Mica 為基礎(chǔ)設(shè)施的聯(lián)盟式數(shù)據(jù)庫(kù)架構(gòu)
在這樣的框架下(圖1),個(gè)人級(jí)別的數(shù)據(jù)可以安全地存儲(chǔ)在個(gè)體研究的 Opal 中,但能被 Mica 驅(qū)動(dòng)的 Web 門(mén)戶遠(yuǎn)程查詢。描述性統(tǒng)計(jì)結(jié)果在多個(gè)地理分散的研究數(shù)據(jù)庫(kù) 中實(shí)時(shí)生成,研究者能夠通過(guò)檢索獲得。同時(shí),由于所有的原始數(shù)據(jù)都隱藏在原始機(jī)構(gòu)的防火墻后面,只向外發(fā)送描述性統(tǒng)計(jì)結(jié)果,這就確保了研究參與者的隱私和機(jī)密性。在更復(fù)雜或更易暴露患者隱私的情況下,Opal 與 DataShield 結(jié)合,更好地保護(hù)捐獻(xiàn)者的數(shù)據(jù)與隱私[17]。在 DataShield 的架構(gòu)下,分析的申請(qǐng)從中心電腦發(fā)送至分布式 Opal 服務(wù)器,在分布式 Opal 服務(wù)器上完成計(jì)算過(guò)程后,非暴露性的統(tǒng)計(jì)結(jié)果反饋到 DataShield,再由 DataShield 發(fā)送至申請(qǐng)者的電腦。
近年來(lái),隨著國(guó)內(nèi)多中心信息整合與共享項(xiàng)目的陸續(xù)開(kāi)展,研究者們?cè)絹?lái)越需要整合數(shù)據(jù)資源的幫助。但相比國(guó)外,國(guó)內(nèi)在這方面的研究投入和工作經(jīng)驗(yàn)都存在不足,數(shù)據(jù)資源整合的基礎(chǔ)架構(gòu)設(shè)施運(yùn)用資料更是少有。在“中加項(xiàng)目”中,我們利用項(xiàng)目合作方加拿大 Maelstrom 團(tuán)隊(duì)的技術(shù)優(yōu)勢(shì),引進(jìn)他們開(kāi)發(fā)的 OBiBa 軟件套組中的 Opal/Mica 軟件搭建了基礎(chǔ)設(shè)施架構(gòu),實(shí)現(xiàn)了跨國(guó)的多中心分布式數(shù)據(jù)資源整合和共享。希望我們的工作經(jīng)驗(yàn)?zāi)転槠渌芯空咛峁┯袃r(jià)值的參考。
在國(guó)際上,數(shù)據(jù)資源的整合運(yùn)用比較多見(jiàn),往往在隊(duì)列項(xiàng)目開(kāi)始之前就先考慮到數(shù)據(jù)的整合,會(huì)據(jù)此去設(shè)計(jì)收集數(shù)據(jù),所以能夠采用數(shù)據(jù)池、最小數(shù)據(jù)集或聯(lián)盟式的方法來(lái)共享數(shù)據(jù);但大部分國(guó)內(nèi)的隊(duì)列研究在開(kāi)始時(shí)沒(méi)有考慮到之后會(huì)和其他項(xiàng)目進(jìn)行數(shù)據(jù)資源的整合,或是因?yàn)榉N種原因在數(shù)據(jù)采集后才開(kāi)始多中心數(shù)據(jù)資源的整合,這種回溯性的數(shù)據(jù)共享情況下,數(shù)據(jù)的異質(zhì)性往往非常嚴(yán)重。各個(gè)項(xiàng)目采集的數(shù)據(jù)元素種類(lèi)、數(shù)據(jù)元素的定義、采集測(cè)定方式、數(shù)據(jù)單位等多個(gè)方面都存在異質(zhì)性。我們的“中加項(xiàng)目”也是這樣的情況,因此我們?cè)诒卷?xiàng)目中建立的“聯(lián)盟式”的共享模式適用性廣泛。數(shù)據(jù)池方式共享數(shù)據(jù)的優(yōu)點(diǎn)很明顯,數(shù)據(jù)直接合并,統(tǒng)計(jì)結(jié)果更加準(zhǔn)確;缺點(diǎn)也很明顯,很多時(shí)候數(shù)據(jù)池方法并不可行,尤其是在回顧性的數(shù)據(jù)統(tǒng)一工作中[18]。首先因?yàn)榛仡櫺缘臄?shù)據(jù)統(tǒng)一中,數(shù)據(jù)的異質(zhì)性非常強(qiáng),很可能導(dǎo)致數(shù)據(jù)無(wú)法直接合并;其次法律法規(guī)可能會(huì)限制參與方不能直接將原始數(shù)據(jù)交出去共享。而最小數(shù)據(jù)集的方法僅適合于前瞻性的數(shù)據(jù)統(tǒng)一(指數(shù)據(jù)在開(kāi)始收集之前就做好了數(shù)據(jù)統(tǒng)一的項(xiàng)目計(jì)劃和準(zhǔn)備工作)。在數(shù)據(jù)開(kāi)始收集之前就要先明 確變量的種類(lèi)、各變量的定義及采集表達(dá)方式。所以如果信息已經(jīng)收集、異質(zhì)性已經(jīng)存在,再開(kāi)始考慮數(shù)據(jù)統(tǒng)一,就無(wú)法照搬最小數(shù)據(jù)集的方法來(lái)實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一和整合了。另外,由于最小數(shù)據(jù)集限制在最少、最核心的數(shù)據(jù)變量的范圍內(nèi),一些重要的變量也可能被遺漏,人們也希望在最小數(shù)據(jù)集的變量集合的基礎(chǔ)上,能有一些增補(bǔ)的變量。而我們所采用的聯(lián)盟式既能規(guī)避法律法規(guī)的影響,也能解決數(shù)據(jù)異質(zhì)性強(qiáng)的矛盾,非常適合于國(guó)內(nèi)的現(xiàn)狀。
資源的整合共享不僅可以運(yùn)用在隊(duì)列上,也可以運(yùn)用在臨床上。近年來(lái)基于 XML 技術(shù)的結(jié)構(gòu)化電子病歷的發(fā)展迅猛,大量的臨床觀察性數(shù)據(jù)記錄在醫(yī)院信息系統(tǒng)中,不僅在醫(yī)療診治中發(fā)揮巨大的作用,也是高價(jià)值的臨床研究資 源[19-20]。但是醫(yī)生和研究者在研究疾病時(shí),往往由單獨(dú)的課題組去收集疾病的樣本和信息,時(shí)常會(huì)有同醫(yī)院同科室的不同課題組分離地收集同種疾病的信息,相互之間少有交流共享[21-22]。因此,整合不同來(lái)源的同病種臨床信息也非常急迫和重要,這能有力地推動(dòng)轉(zhuǎn)化醫(yī)學(xué)的發(fā)展,對(duì)新醫(yī)療手段的開(kāi)發(fā)有著極大幫助[15]。
在后續(xù)工作中,我們將把本項(xiàng)目中積累的經(jīng)驗(yàn)推廣到臨床病種的多中心信息整合項(xiàng)目中去,為多來(lái)源的同種疾病信息整合建立模式和方法,運(yùn)用 Opal/Mica 等工具性軟件,提升搭建多中心數(shù)據(jù)共享平臺(tái)的效率及其運(yùn)用范圍。