周光迪,吳美琴,趙麗,吳宇航,翁鑫宇,蔣聰,趙莎莎,王偉業(yè)
出生缺陷、代謝綜合征、兒童孤獨(dú)癥、多動(dòng)癥、哮喘、糖尿病、不孕不育、肥胖、心腦血管疾病等多種疾病都與胎兒期的環(huán)境暴露關(guān)系密切[1-2],所以出生隊(duì)列研究等針對(duì)生命早期環(huán)境暴露的研究近年來(lái)迅速發(fā)展,對(duì)病因?qū)W研究有著關(guān)鍵的推動(dòng)作用。大樣本量對(duì)于統(tǒng)計(jì)結(jié)果準(zhǔn)確性的提升至關(guān)重要,單個(gè)項(xiàng)目常因資源不足而影響統(tǒng)計(jì)分析,而大型隊(duì)列項(xiàng)目所需的資源量從時(shí)間、人力和物力方面難以實(shí)現(xiàn),這樣的矛盾直接影響了基于隊(duì)列數(shù)據(jù)的后續(xù)研究[3]。因此,非常有必要整合不同隊(duì)列之間的信息,并進(jìn)行共享,來(lái)解決大樣本量和大資源消耗量之間的矛盾[4]。
項(xiàng)目資源之間的信息統(tǒng)一(data harmonization)與共享(data sharing)在國(guó)際上已經(jīng)開(kāi)展多年,最顯著的例子是生物醫(yī)學(xué)資源整合機(jī)構(gòu) BBMRI 采用分布式中心(distributed hub)的模式,將樣本和數(shù)據(jù)存儲(chǔ)于分布式中心,由虛擬的中心用聯(lián)邦制方式管理數(shù)據(jù)[5]。目前,國(guó)內(nèi)資源共享的項(xiàng)目尚缺乏經(jīng)驗(yàn)和模式。信息共享模式主要有三種,第一種為直接集中數(shù)據(jù),將各中心數(shù)據(jù)直接集中在一起,統(tǒng)一管理、分析、利用。優(yōu)點(diǎn)是標(biāo)準(zhǔn)統(tǒng)一、便于大數(shù)據(jù)整合,缺點(diǎn)是可變性小,可行性低。因?yàn)楦餮芯恐行耐胁煌难芯科?,不同的具體條件,不同的知情同意與倫理法規(guī)。在這樣的前提下,強(qiáng)行統(tǒng)一變量的選擇和數(shù)據(jù)標(biāo)準(zhǔn)并不現(xiàn)實(shí),幾乎無(wú)法實(shí)施。第二種共享模式為通過(guò)最小數(shù)據(jù)集,即不同項(xiàng)目按相同的定義和標(biāo)準(zhǔn)來(lái)收集共同的最核心數(shù)據(jù),用這些核心數(shù)據(jù)來(lái)代表研究群體的特性,并在項(xiàng)目之間共享。這種模式的可行性和可變性比直接集中數(shù)據(jù)高得多,所以多家國(guó)家標(biāo)準(zhǔn)化研究機(jī)構(gòu)都聚焦于某一特定領(lǐng)域數(shù)據(jù)集,開(kāi)展多中心合作。第三種共享模式是在項(xiàng)目已經(jīng)進(jìn)行、數(shù)據(jù)已經(jīng)收集后,再開(kāi)始數(shù)據(jù)共享工作,就會(huì)發(fā)現(xiàn)由于項(xiàng)目各方的變量定義、收集標(biāo)準(zhǔn)、數(shù)據(jù)分級(jí)等很多問(wèn)題上不一致,即使只是實(shí)驗(yàn)檢測(cè)方法或標(biāo)準(zhǔn)的不同,都會(huì)給數(shù)據(jù)共享造成困難。這樣的情況下需要首先轉(zhuǎn)換統(tǒng)一變量,讓數(shù)據(jù)同質(zhì)化、提升數(shù)據(jù)的相容性。這種模式的主要步驟是針對(duì)已經(jīng)完成和存在的信息資源首先分析可能統(tǒng)一的數(shù)據(jù)元素,將統(tǒng)一后的數(shù)據(jù)元素作為多方共同的數(shù)據(jù)集,再通過(guò)分析在統(tǒng)一數(shù)據(jù)元素的前提下的項(xiàng)目信息,以適應(yīng)前瞻性隊(duì)列項(xiàng)目的需要。
本文將要介紹的中國(guó)和加拿大合作出生隊(duì)列數(shù)據(jù)信息共享項(xiàng)目(簡(jiǎn)稱中加出生隊(duì)列項(xiàng)目)是一個(gè)大型隊(duì)列數(shù)據(jù)共享項(xiàng)目,參加本項(xiàng)目的隊(duì)列包括中方的上海兒童優(yōu)生隊(duì)列(SBC),加方的 3D(design-develop-discover)出生隊(duì)列和母嬰環(huán)境化學(xué)物質(zhì)研究(maternal-infant research on environmental chemicals,MIREC)出生隊(duì)列。其中 SBC 計(jì)劃招募 4000 位孕婦,3D 和 MIREC 計(jì)劃招募 2000 和2500 位孕婦。三個(gè)隊(duì)列的研究方向各有不同,其共同焦點(diǎn)是探索環(huán)境因素影響胎兒在母體子宮內(nèi)發(fā)育及出生后發(fā)育生長(zhǎng)至成人階段可能出現(xiàn)的不良影響。在三個(gè)隊(duì)列分別進(jìn)行了一段時(shí)間后,中加雙方才開(kāi)始接洽隊(duì)列信息共享的工作,所以本項(xiàng)目需要整合三個(gè)隊(duì)列的數(shù)據(jù)資源,但已經(jīng)存在的數(shù)據(jù)存在異質(zhì)性而無(wú)法直接整合。三方的變量選擇、定義、標(biāo)準(zhǔn)都有巨大差異,已經(jīng)不可能統(tǒng)一標(biāo)準(zhǔn)收集數(shù)據(jù)或直接統(tǒng)一數(shù)據(jù)集,所以將首先同質(zhì)化三個(gè)隊(duì)列項(xiàng)目的數(shù)據(jù),再進(jìn)行數(shù)據(jù)共享。像中加出生隊(duì)列項(xiàng)目這樣各方先收集數(shù)據(jù)、再接洽整合數(shù)據(jù)資源的情況普遍存在,但缺少數(shù)據(jù)同質(zhì)化和整合的模式和方法。隊(duì)列項(xiàng)目,尤其是跨國(guó)的隊(duì)列項(xiàng)目之間的數(shù)據(jù)資源整合,往往面對(duì)多重的倫理法規(guī)限制,各方的數(shù)據(jù)統(tǒng)一后也不一定能夠整合。中加出生隊(duì)列項(xiàng)目在實(shí)現(xiàn)三個(gè)隊(duì)列研究數(shù)據(jù)共享、為病因?qū)W研究提供大數(shù)據(jù)分析結(jié)果的同時(shí),更能為類(lèi)似情況的國(guó)際數(shù)據(jù)共享合作項(xiàng)目提供模式和方法上的重要參考,并為如何在符合國(guó)際倫理規(guī)范的前提下進(jìn)行跨國(guó)數(shù)據(jù)共享樹(shù)立范例。
數(shù)據(jù)詞典定義數(shù)據(jù)流圖中的各個(gè)成分的具體含義,對(duì)數(shù)據(jù)流圖中出現(xiàn)的每一個(gè)數(shù)據(jù)流、文件、加工給出詳細(xì)定義。在中加合作項(xiàng)目中,三個(gè)隊(duì)列根據(jù)加方其他機(jī)構(gòu)在相同方面的研究經(jīng)驗(yàn)以及規(guī)范化工作流程及 Maelstrom 技術(shù)要求,制定各自的數(shù)據(jù)詞典。
將三個(gè)隊(duì)列的數(shù)據(jù)詞典上傳至 Maelstrom 網(wǎng)站,將其作為三個(gè)隊(duì)列之間的交流平臺(tái)。Maelstrom 網(wǎng)站公開(kāi)展示參與隊(duì)列的數(shù)據(jù)集,并能夠進(jìn)行相關(guān)的搜索和對(duì)比,便于參與隊(duì)列展開(kāi)數(shù)據(jù)同質(zhì)化和共享工作。同時(shí),其他任何對(duì)參與隊(duì)列有興趣的人都可以通過(guò) Maelstrom 了解參與隊(duì)列的數(shù)據(jù)集,并聯(lián)系隊(duì)列開(kāi)展合作。
雙方相互分析對(duì)方的數(shù)據(jù)詞典中參數(shù)變量?jī)?nèi)容,了解各自項(xiàng)目研究信息內(nèi)容的設(shè)計(jì),充分交流三個(gè)隊(duì)列的研究方向。在 Maelstrom 網(wǎng)站上使用 Search Harmonization Potential 功能,搜索出三方都收集的變量,對(duì)這些變量進(jìn)行可同質(zhì)化水平劃分,分為“完全相容”、“部分相容”、“完全不相容”三個(gè)級(jí)別。完全相容的變量可以直接共享;部分相容的變量進(jìn)行同質(zhì)化轉(zhuǎn)化、規(guī)范數(shù)據(jù)交換格式后再共享;完全不相容的便不能共享。在選擇變量和轉(zhuǎn)化變量后,制定編寫(xiě)合作方能共享的最小數(shù)據(jù)集。
在本項(xiàng)目中,根據(jù)加方其他機(jī)構(gòu)在相同方面的研究經(jīng)驗(yàn)以及規(guī)范化工作流程及 Maelstrom 技術(shù)要求,中加雙方三個(gè)隊(duì)列制定了各自的數(shù)據(jù)詞典。僅隊(duì)列 SBC 的數(shù)據(jù)詞典就前后編寫(xiě)了 7 版,反復(fù)修訂后最終定稿。表1 列出了三個(gè)隊(duì)列的變量總數(shù)。表2 對(duì)比了三個(gè)隊(duì)列關(guān)于孕婦血壓參數(shù)的標(biāo)簽。
本項(xiàng)目參與構(gòu)建了 Maelstrom 網(wǎng)站(https://www.maelstrom-research.org/)作為公開(kāi)的信息交流平臺(tái)。網(wǎng)站上展示了項(xiàng)目的基本情況、數(shù)據(jù)集、變量,具有同質(zhì)化搜索功能,也提供一些信息同質(zhì)化的教程和參考文獻(xiàn)(圖1~3)。
圖1 Maelstrom 網(wǎng)站上中加項(xiàng)目三方隊(duì)列的概況
數(shù)據(jù)元素是用一組屬性描述定義、標(biāo)識(shí)、表示和允許值的一個(gè)數(shù)據(jù)單元。最小數(shù)據(jù)集是為特定目的收集的、最少的、被用戶和利益相關(guān)人認(rèn)可的一組選擇性的核心數(shù)據(jù)。出生隊(duì)列研究的最小數(shù)據(jù)集收集的數(shù)據(jù)是反映出生隊(duì)列研究所關(guān)心科學(xué)問(wèn)題的核心數(shù)據(jù),該數(shù)據(jù)在跨研究小組、跨地區(qū)研究機(jī)構(gòu)之間的共享有助于發(fā)揮最小數(shù)據(jù)集信息的利用價(jià)值,提高隊(duì)列研究水平和數(shù)據(jù)的利用效率。
表1 三個(gè)隊(duì)列的變量總數(shù)
表2 三個(gè)隊(duì)列關(guān)于孕婦血壓參數(shù)的標(biāo)簽對(duì)比
對(duì)于完全相容的變量,各方對(duì)變量的定義和數(shù)據(jù)處理方式基本一致,可以直接共享數(shù)據(jù);而對(duì)于部分相容的變量,雙方的提問(wèn)方法、數(shù)據(jù)采集方式或其他操作細(xì)節(jié)存在差異,但本質(zhì)科學(xué)問(wèn)題相同,可以通過(guò)特定方式將變量轉(zhuǎn)化一致,使得這些變量也能夠完成數(shù)據(jù)相容。對(duì)于不能相容的變量,由于各方的變量定義和數(shù)據(jù)收集方式存在不可調(diào)和的矛盾,無(wú)法共享數(shù)據(jù)。例如,中加雙方對(duì)于“裝修”的科學(xué)定義不同,雙方在相關(guān)問(wèn)題上無(wú)法共享數(shù)據(jù)。中方定義為房屋的粉刷、裝飾、修葺;而加方定義為新的裝飾、家具,這樣的定義差距無(wú)法調(diào)和,雙方在“裝修”問(wèn)題上研究的不是同一科學(xué)問(wèn)題。
根據(jù)目前的研究進(jìn)展,三個(gè)出生隊(duì)列所收集的數(shù)據(jù)能形成 18 個(gè)可能會(huì)產(chǎn)生最小數(shù)據(jù)集的研究方向,包括:母親年齡、家庭收入、婚姻狀態(tài)、種族、孕前期 BMI 指數(shù)、孕期吸煙狀況、孕期飲酒狀況等。本研究項(xiàng)目已經(jīng)完成關(guān)于孕期吸煙情況調(diào)查和妊娠高血壓數(shù)據(jù)的最小數(shù)據(jù)集的編寫(xiě)。表3是這兩個(gè)數(shù)據(jù)集所包含變量數(shù)的具體情況。
圖2 Maelstrom 上隊(duì)列 SBC 的簡(jiǎn)介
圖3 Maelstrom 上對(duì)三個(gè)隊(duì)列同質(zhì)化潛能搜索的結(jié)果
表3 孕期吸煙情況與妊娠高血壓的最小數(shù)據(jù)集包含變量數(shù)
現(xiàn)在,多方參與的隊(duì)列信息資源共享項(xiàng)目很多,但存在的難點(diǎn)和問(wèn)題也不少。第一,不同的出生隊(duì)列研究方向不同,收集的變量不同,且缺乏統(tǒng)一的數(shù)據(jù)收集標(biāo)準(zhǔn)與交換格式,致使收集的數(shù)據(jù)可比性無(wú)法得到保證,數(shù)據(jù)存在很大的異質(zhì)性,缺乏共享前提??缦到y(tǒng)、跨部門(mén)、跨地區(qū)的數(shù)據(jù)共享受到數(shù)據(jù)異質(zhì)性的制約,同時(shí)數(shù)據(jù)的重復(fù)采集還導(dǎo)致了資源的浪費(fèi)。因此,如何提高不同隊(duì)列之間的數(shù)據(jù)相容性,是很有現(xiàn)實(shí)意義的問(wèn)題。其次,在管理層面上實(shí)現(xiàn)數(shù)據(jù)的整合共享也存在一些困難,國(guó)內(nèi)目前缺乏多中心研究合作的成功模式,如何借鑒國(guó)外的先進(jìn)經(jīng)驗(yàn),并研發(fā)完善國(guó)內(nèi)適用的多中心研究資源共享的整合方法,值得我們探索和思考。第三,倫理和法律對(duì)數(shù)據(jù)的整合共享有多重限制,尤其是跨國(guó)項(xiàng)目。捐獻(xiàn)者的知情同意有可能規(guī)定數(shù)據(jù)不能提供給他人,法律也可能規(guī)定某類(lèi)研究的數(shù)據(jù)只能在某個(gè)范圍內(nèi)運(yùn)用。而中加出生隊(duì)列項(xiàng)目在這三個(gè)問(wèn)題上都有創(chuàng)新性的解決方案。
國(guó)際上的多方數(shù)據(jù)共享項(xiàng)目,一般都是在開(kāi)始項(xiàng)目之前,就有共享數(shù)據(jù)的意愿,因此在項(xiàng)目設(shè)計(jì)時(shí),從招募捐獻(xiàn)者,變量的選擇和定義,變量可同質(zhì)化的潛力水平衡量,到共享平臺(tái)的搭建,都會(huì)考慮到后期共享數(shù)據(jù)的需要,例如著名的 BioSHaRE 項(xiàng)目[6]。但國(guó)內(nèi)這樣的前瞻性共享項(xiàng)目很少。中加出生隊(duì)列項(xiàng)目是在各個(gè)項(xiàng)目開(kāi)始后才開(kāi)始接洽數(shù)據(jù)共享,項(xiàng)目設(shè)計(jì)、捐獻(xiàn)者招募、變量選擇、數(shù)據(jù)收集等過(guò)程均已完成,此時(shí)想要用預(yù)見(jiàn)性的模式來(lái)完成共享是不可能的。那么,先收集數(shù)據(jù)再共享的前提下,數(shù)據(jù)共享需要首先完成數(shù)據(jù)的同質(zhì)化。參與中加項(xiàng)目的三方隊(duì)列首先完成了數(shù)據(jù)詞典的編寫(xiě),這是為了便于三方了解彼此的研究方向,三方在哪些領(lǐng)域出現(xiàn)研究交集,在哪些方面的變量能夠共享,在同一變量的定義、收集與質(zhì)控標(biāo)準(zhǔn)上有何異同、怎樣實(shí)現(xiàn)數(shù)據(jù)的同質(zhì)化。隨后又建立了數(shù)據(jù)交流的網(wǎng)絡(luò)平臺(tái)Maelstrom,便于多方交流,并統(tǒng)一了能夠同質(zhì)化的變量和最小數(shù)據(jù)集。
而由于倫理法規(guī)的限制,中加出生隊(duì)列項(xiàng)目不能以數(shù)據(jù)池的方法來(lái)共享數(shù)據(jù)[7],因?yàn)楹献麝?duì)列 MIREC 所在地的法律規(guī)定,MIREC 的數(shù)據(jù)只能夠留在本地。所以 MIREC 的數(shù)據(jù)只能經(jīng)過(guò)數(shù)據(jù)屏蔽處理,通過(guò)分布式統(tǒng)計(jì),再以總結(jié)分析結(jié)果的方式共享[8-9]。但是,總結(jié)式的分析結(jié)果相對(duì)于數(shù)據(jù)池的結(jié)果具有一定的片面性,不能等同于真正的大數(shù)據(jù)分析結(jié)果,數(shù)據(jù)池的共享方式能提供的結(jié)果更為客觀。所以,在倫理法律允許的前提下,SBC 將與 3D 通過(guò)統(tǒng)一的數(shù)據(jù)集的方法,將數(shù)據(jù)整合在一起,相當(dāng)于加大樣本量[10],統(tǒng)一進(jìn)行查詢、分析。在本項(xiàng)目中,同時(shí)使用兩種共享模式,因?yàn)榧刃枰獫M足倫理法規(guī)的要求,又需要盡可能用更客觀的方式分享數(shù)據(jù)。其他的項(xiàng)目也可以考慮通過(guò)多種數(shù)據(jù)共享模式來(lái)滿足參與項(xiàng)目所面對(duì)的不同倫理法規(guī)需要。另外,除了查詢分析,SBC、3D、MIREC 的研究結(jié)論也可以互作驗(yàn)證性的比較分析,提高統(tǒng)計(jì)結(jié)果的可信度和可靠性。
多中心臨床研究如果能在實(shí)施前統(tǒng)一信息的內(nèi)容、采集方式、方法和處理標(biāo)準(zhǔn),就能極大地提升后續(xù)的數(shù)據(jù)統(tǒng)一成功率和工作效率。然而和中加出生隊(duì)列類(lèi)似,國(guó)內(nèi)的大多數(shù)數(shù)據(jù)共享項(xiàng)目都是在數(shù)據(jù)收集開(kāi)始后才有共享意向,這樣的流程導(dǎo)致不同項(xiàng)目之間的數(shù)據(jù)很大的異質(zhì)性。如何同質(zhì)化數(shù)據(jù)、實(shí)現(xiàn)數(shù)據(jù)的融合,采用什么方式在滿足倫理法規(guī)的條件下充分共享數(shù)據(jù),使多方的共享意愿變?yōu)楝F(xiàn)實(shí)是非常急迫的問(wèn)題。中加項(xiàng)目針對(duì)數(shù)據(jù)已經(jīng)收集、數(shù)據(jù)異質(zhì)性已經(jīng)存在、無(wú)法直接整合數(shù)據(jù)的前提下,通過(guò)自有的工作流程實(shí)現(xiàn)了數(shù)據(jù)的同質(zhì)化,為數(shù)據(jù)的整合掃平障礙。在事先未統(tǒng)一設(shè)計(jì)的隊(duì)列研究所獲得數(shù)據(jù)的同質(zhì)化和共享問(wèn)題上,中加項(xiàng)目作出了意義重大的探索性工作,其模式和方法有著重要推廣的價(jià)值。截至目前為止,中加出生隊(duì)列項(xiàng)目已經(jīng)完成了數(shù)據(jù)詞典的制定,建立了數(shù)據(jù)集交流平臺(tái),轉(zhuǎn)化和統(tǒng)一了部分共享課題的數(shù)據(jù)集,接下來(lái)中加項(xiàng)目將在數(shù)據(jù)共享模式上繼續(xù)下一步工作,在工作過(guò)程中進(jìn)一步探索并建立跨國(guó)家、跨地區(qū)隊(duì)列合作模式,促進(jìn)多中心信息整合和科研合作,為之后的中外國(guó)際隊(duì)列數(shù)據(jù)共享項(xiàng)目提供可參考的操作方式。
[1]Winckelmans E, Cox B, Martens E, et al.Fetal growth and maternal exposure to particulate air pollution--More marked effects at lower exposure and modification by gestational duration.Environ Res, 2015,140:611-618.
[2]Manzano-Salgado CB, Casas M, Lopez-Espinosa MJ, et al.Transfer of perfluoroalkyl substances from mother to fetus in a Spanish birth cohort.Environ Res, 2015, 142:471-478.
[3]Bebu I, Lachin JM.Large sample inference for a win ratio analysis of a composite outcome based on prioritized components.Biostatistics,2015, pii:kxv032.
[4]Howe D, Costanzo M, Fey P, et al.Big data: The future of biocuration.Nature, 2008, 455(7209):47-50.
[5]Muilu J, Peltonen L, Litton JE.The federated database--a basis for biobank-based post-genome studies, integrating phenome and genome data from 600,000 twin pairs in Europe.Eur J Hum Genet, 2007,15(7):718-723.
[6]Doiron D, Burton P, Marcon Y, et al.Data harmonization and federated analysis of population-based studies: the BioSHaRE project.Emerg Themes Epidemiol, 2013, 10(1):12.
[7]Pisani E, AbouZahr C.Sharing health data: good intentions are not enough.Bull World Health Organ, 2010, 88(6):462-466.
[8]Jones EM, Sheehan NA, Masca N, et al.DataSHIELD -- shared individual-level analysis without sharing the data: a biostatistical perspective.Norsk Epidemiologi, 2012, 21(2):231-239.
[9]Fortier I, Burton PR, Robson PJ, et al.Quality, quantity and harmony:the DataSHaPER approach to integrating data across bioclinical studies.Int J Epidemiol, 2010, 39(5):1383-1393.
[10]Smith-Warner SA, Spiegelman D, Ritz J, et al.Methods for pooling results of epidemiologic studies: the pooling project of prospective studies of diet and cancer.Am J Epidemiol, 2006, 163(11):1053-1064.