亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        應(yīng)用Opal和Mica構(gòu)建數(shù)據(jù)統(tǒng)一與交流平臺(tái)及探索信息共享模式

        2019-06-18 09:22:26周光迪杜亞濤吳宇航王偉業(yè)
        關(guān)鍵詞:研究者異質(zhì)性分布式

        周光迪,杜亞濤,吳宇航,王偉業(yè)

        近年來(lái),流行病學(xué)和轉(zhuǎn)化醫(yī)學(xué)研究中不同項(xiàng)目之間的資源整合越來(lái)越廣泛。資源的整合可運(yùn)用于流行病學(xué)隊(duì)列項(xiàng)目,也可運(yùn)用于醫(yī)院的臨床信息[1-2]。這樣的資源整合不用大規(guī)模地增加投入,就能滿足統(tǒng)計(jì)分析所需的大樣本量,極大地節(jié)約了研究經(jīng)費(fèi)和精力的投入[3]。

        盡管數(shù)據(jù)資源整合的意義重大,但是不同醫(yī)院/研究組所收集的同病種臨床數(shù)據(jù),存在多方面的數(shù)據(jù)異質(zhì)性,信息不統(tǒng)一導(dǎo)致數(shù)據(jù)不能直接整合[4-5]。異質(zhì)性主要存在于三個(gè)方面:

        第一,變量種類(lèi)的不同。對(duì)相同的病種,不同醫(yī)院/研究組對(duì)同病種所收集變量的種類(lèi)不完全相同。無(wú)論是從病史詢問(wèn)還是檢驗(yàn)項(xiàng)目,每家醫(yī)院、每位醫(yī)生、每個(gè)研究組都有自己的看法和習(xí)慣,同一醫(yī)生對(duì)不同病人所問(wèn)診/檢查的變量也不完全一致[6]。第二,變量定義的不同。不同醫(yī)院/研究組對(duì)同變量的定義不完全相同。在目前的研究情況下,普遍存在著變量定義的不明確[7]。因此明確變量的定義是數(shù)據(jù)整合的必要前提之一。第三,變量的采集/檢測(cè)/表達(dá)方式等的不同。包括變量的提問(wèn)方式不同、變量的檢驗(yàn)方式不同[8]等方面。例如詢問(wèn)“你是否有被動(dòng)吸煙”和“你的家人和同事是否抽煙”,所針對(duì)的變量是相同的,但所得到的答案存在異質(zhì)性。而檢驗(yàn)方法、數(shù)據(jù)單位、取樣方式等很多因素都會(huì)影響檢驗(yàn)的結(jié)果,以血糖值為例,病人是否禁食、指尖取血還是靜脈取血、數(shù)據(jù)單位是 mg/dl 還是 mmol/L,都會(huì)對(duì)結(jié)果產(chǎn)生影響。

        為了實(shí)現(xiàn)數(shù)據(jù)共享,我們首先要采取合適的模式方法來(lái)交流和統(tǒng)一數(shù)據(jù)。不同項(xiàng)目的數(shù)據(jù)信息整合有三種方式:數(shù)據(jù)池、最小數(shù)據(jù)集、聯(lián)盟式[9-10]。數(shù)據(jù)池指將不同來(lái)源的同變量數(shù)據(jù)直接合并在一起,共同統(tǒng)計(jì)分析、整合共享的方式。最小數(shù)據(jù)集是為特定目的收集的、最少的、被用戶和相關(guān)人認(rèn)可的一組選擇性的核心數(shù)據(jù)[11]。聯(lián)盟式指原始數(shù)據(jù)不離開(kāi)本地,在經(jīng)過(guò)物理上分布式的運(yùn)算中心統(tǒng)計(jì)分析后,再將統(tǒng)計(jì)結(jié)果進(jìn)行共享[12-13]。我們根據(jù)本項(xiàng)目先收集數(shù)據(jù)、再進(jìn)行數(shù)據(jù)整合的回溯性基本特征,再加上法律法規(guī)的限制,選擇了聯(lián)盟式的數(shù)據(jù)整合方式,這也是絕大部分回溯性數(shù)據(jù)整合項(xiàng)目適用的數(shù)據(jù)整合方式。

        2014 - 2017年,我們團(tuán)隊(duì)與加拿大 Maelstrom 團(tuán)隊(duì)合作,成功執(zhí)行了國(guó)家科技部立項(xiàng)的“多中心臨床信息共享的中加合作研發(fā)”項(xiàng)目及上海市國(guó)際科技合作基金項(xiàng)目“建 設(shè)隊(duì)列研究數(shù)據(jù)信息共享機(jī)制促進(jìn)國(guó)內(nèi)國(guó)際合作”。我們以聯(lián)盟式的方式實(shí)現(xiàn)了中方的上海兒童優(yōu)生隊(duì)列(Shanghai Birth Cohort,SBC),加方的 3D 出生隊(duì)列(Design,Develop,Discover,3D)和 MIREC 出生隊(duì)列(Maternal-Infant Research on Environmental Chemicals,MIREC)的數(shù)據(jù)共享。2017年項(xiàng)目順利結(jié)題并獲得評(píng)審專家組的一致好評(píng),為跨國(guó)的回顧性數(shù)據(jù)統(tǒng)一(指數(shù)據(jù)在采集后才開(kāi)始進(jìn)行數(shù)據(jù)統(tǒng)一和整合)和數(shù)據(jù)整合共享建立了成功的模式和方法[14]。在項(xiàng)目執(zhí)行過(guò)程中,我們利用加拿大 Maelstrom 團(tuán)隊(duì)的資源和經(jīng)驗(yàn)優(yōu)勢(shì),引進(jìn)了他們所開(kāi)發(fā)的 OBiBa 軟件套組來(lái)搭建多中心信息共享平臺(tái)的基礎(chǔ)設(shè)施的架構(gòu)。

        目前國(guó)內(nèi)對(duì)不同項(xiàng)目之間資源整合的工作還處在起步階段,經(jīng)驗(yàn)不多、研究資料也較為匱乏,成功實(shí)現(xiàn)不同項(xiàng)目之間數(shù)據(jù)共享的模式和方法并不多,因此我們將應(yīng)用 Opal 和 Mica 構(gòu)建數(shù)據(jù)統(tǒng)一與交流平臺(tái)、探索信息共享模式的工作流程和經(jīng)驗(yàn)闡述如下,希望能對(duì)以后的跨國(guó)多中心信息整合項(xiàng)目提供參考。

        在統(tǒng)一數(shù)據(jù)之前,我們需要規(guī)范化地編寫(xiě)數(shù)據(jù)詞典,選擇合適的平臺(tái)供多方交流溝通數(shù)據(jù)元素的信息,便于相互了解各參與方數(shù)據(jù)元素的差異性,再統(tǒng)一數(shù)據(jù)元素。

        1 數(shù)據(jù)詞典的編寫(xiě)

        由于不同的研究有不同的數(shù)據(jù)變量,且不同來(lái)源的數(shù)據(jù)變量在各方面都可能存在異質(zhì)性,所以應(yīng)將不同來(lái)源的變量按統(tǒng)一的形式表達(dá)展示,才能進(jìn)行協(xié)調(diào)。因此在進(jìn)行多項(xiàng)目數(shù)據(jù)整合之前,先要為每個(gè)研究編寫(xiě)數(shù)據(jù)詞典[6,15]。編寫(xiě)數(shù)據(jù)詞典指研究者規(guī)范地抓取和列舉變量的元數(shù)據(jù)信息和具體的描述信息,將個(gè)體的信息來(lái)源(例如某個(gè)數(shù)據(jù)庫(kù))用通用規(guī)則映射到數(shù)據(jù)模式上,數(shù)據(jù)詞典中應(yīng)包含來(lái)源、單位、數(shù)據(jù)類(lèi)型等元數(shù)據(jù)信息,也包含標(biāo)簽和描述等特征性信息,能夠簡(jiǎn)練而精確地定義變量。采用數(shù)據(jù)詞典這種規(guī)范化的模式,研究者就能夠描述和對(duì)比來(lái)自于不同項(xiàng)目、在描述方式等各方面存在異質(zhì)性的變量,為后期工作打下基礎(chǔ)。

        2 基礎(chǔ)信息存儲(chǔ)、展示和交流

        數(shù)據(jù)詞典編寫(xiě)完成后,需要利用平臺(tái)展示各研究的變量,以便于不同研究之間的相互了解和交流、促進(jìn)信息的統(tǒng)一和整合。

        目前國(guó)際上已有一些軟件幫助生物信息的收集和管理,例如 REDCap、OpenClinical[16]等,但專門(mén)幫助研究者統(tǒng)一數(shù)據(jù)、整合資源的工具性平臺(tái)和軟件還十分匱乏。為此,Maelstrom 團(tuán)隊(duì)策劃并開(kāi)發(fā)了 OBiBa 軟件組合[9],其中包含 Opal、Mica 等工具軟件,能有效地幫助研究者們整合共享不同研究的數(shù)據(jù)資源信息。

        Opal 相當(dāng)于信息共享的核心數(shù)據(jù)倉(cāng)庫(kù),并能提供導(dǎo)入、轉(zhuǎn)化和描述數(shù)據(jù)的所有必須工具。在數(shù)據(jù)導(dǎo)入和導(dǎo)出的時(shí)候,項(xiàng)目驗(yàn)證者也可以管理。Opal 能夠定義各研究項(xiàng)目待統(tǒng)一的目標(biāo)變量,開(kāi)發(fā)和執(zhí)行用于派生通用格式數(shù)據(jù)的算法,并記錄數(shù)據(jù)統(tǒng)一的決定。Opal 還包含了 JavaScript 函數(shù)庫(kù),以促進(jìn)算法的開(kāi)發(fā)和創(chuàng)建協(xié)調(diào)變量。本項(xiàng)目主要使用 Opal 來(lái)展示變量,以便于不同項(xiàng)目之間相互交流,了解共同的研究方向和能夠統(tǒng)一共享的變量。

        參與數(shù)據(jù)共享的研究課題不僅需要相互了解對(duì)方的變量,也要相互了解對(duì)方的研究結(jié)構(gòu),這就需要運(yùn)用到 Mica。Mica 是一個(gè)強(qiáng)大的軟件應(yīng)用程序,用于大型流行病學(xué)研 究或多研究聯(lián)盟創(chuàng)建數(shù)據(jù) Web 門(mén)戶。Mica 是基于由 RESTful 應(yīng)用程序服務(wù)器和客戶端組成的多層體系結(jié)構(gòu),研究者可以在 Mica 上編輯和展示個(gè)體研究和數(shù)據(jù)集的附屬信息,并管理與 OBiBa 軟件系統(tǒng)的其他應(yīng)用程序的安全連接。Mica 幫助研究提供數(shù)據(jù)可見(jiàn)性和網(wǎng)絡(luò)展示,以及對(duì)聯(lián)盟、研究、帶注釋和可搜索的數(shù)據(jù)字典以及數(shù)據(jù)訪問(wèn)請(qǐng)求管理的結(jié)構(gòu)化描述。在 Mica 上用戶可以快速識(shí)別研究的概要文件列表。

        3 變量統(tǒng)一與分布式統(tǒng)計(jì)分析

        不同項(xiàng)目的同一變量往往存在異質(zhì)性,不能直接共享。對(duì)于不同來(lái)源的同一變量,我們對(duì)其進(jìn)行同質(zhì)化水平劃分,分為“完全相容”、“部分相容”、“完全不相容”三個(gè)級(jí)別[14]。完全相容的變量可以直接共享;部分相容的變量需要進(jìn)行統(tǒng)一轉(zhuǎn)化后才能共享;完全不相容的變量不能共享。我們會(huì)根據(jù)每個(gè)變量的具體情況為其撰寫(xiě)腳本,以統(tǒng)一 變量。

        變量統(tǒng)一后,由于法規(guī)的限制,MIREC 的原始數(shù)據(jù)不能直接與中方共享,因此我們只能對(duì)數(shù)據(jù)結(jié)果進(jìn)行分布式統(tǒng)計(jì)分析,然后共享分布式統(tǒng)計(jì)分析的結(jié)果。我們將 Mica 連接到參與項(xiàng)目的各個(gè)研究組的 Opal 數(shù)據(jù)庫(kù),就能通過(guò) Mica 安全地查詢遠(yuǎn)程 Opal 所在的服務(wù)器上的研究數(shù)據(jù),得到統(tǒng)計(jì)學(xué)結(jié)果,從而實(shí)現(xiàn)分布式的統(tǒng)計(jì)分析和聯(lián)盟式的數(shù)據(jù)共享[9]。

        圖1 Opal、Mica 為基礎(chǔ)設(shè)施的聯(lián)盟式數(shù)據(jù)庫(kù)架構(gòu)

        在這樣的框架下(圖1),個(gè)人級(jí)別的數(shù)據(jù)可以安全地存儲(chǔ)在個(gè)體研究的 Opal 中,但能被 Mica 驅(qū)動(dòng)的 Web 門(mén)戶遠(yuǎn)程查詢。描述性統(tǒng)計(jì)結(jié)果在多個(gè)地理分散的研究數(shù)據(jù)庫(kù) 中實(shí)時(shí)生成,研究者能夠通過(guò)檢索獲得。同時(shí),由于所有的原始數(shù)據(jù)都隱藏在原始機(jī)構(gòu)的防火墻后面,只向外發(fā)送描述性統(tǒng)計(jì)結(jié)果,這就確保了研究參與者的隱私和機(jī)密性。在更復(fù)雜或更易暴露患者隱私的情況下,Opal 與 DataShield 結(jié)合,更好地保護(hù)捐獻(xiàn)者的數(shù)據(jù)與隱私[17]。在 DataShield 的架構(gòu)下,分析的申請(qǐng)從中心電腦發(fā)送至分布式 Opal 服務(wù)器,在分布式 Opal 服務(wù)器上完成計(jì)算過(guò)程后,非暴露性的統(tǒng)計(jì)結(jié)果反饋到 DataShield,再由 DataShield 發(fā)送至申請(qǐng)者的電腦。

        4 討論

        近年來(lái),隨著國(guó)內(nèi)多中心信息整合與共享項(xiàng)目的陸續(xù)開(kāi)展,研究者們?cè)絹?lái)越需要整合數(shù)據(jù)資源的幫助。但相比國(guó)外,國(guó)內(nèi)在這方面的研究投入和工作經(jīng)驗(yàn)都存在不足,數(shù)據(jù)資源整合的基礎(chǔ)架構(gòu)設(shè)施運(yùn)用資料更是少有。在“中加項(xiàng)目”中,我們利用項(xiàng)目合作方加拿大 Maelstrom 團(tuán)隊(duì)的技術(shù)優(yōu)勢(shì),引進(jìn)他們開(kāi)發(fā)的 OBiBa 軟件套組中的 Opal/Mica 軟件搭建了基礎(chǔ)設(shè)施架構(gòu),實(shí)現(xiàn)了跨國(guó)的多中心分布式數(shù)據(jù)資源整合和共享。希望我們的工作經(jīng)驗(yàn)?zāi)転槠渌芯空咛峁┯袃r(jià)值的參考。

        在國(guó)際上,數(shù)據(jù)資源的整合運(yùn)用比較多見(jiàn),往往在隊(duì)列項(xiàng)目開(kāi)始之前就先考慮到數(shù)據(jù)的整合,會(huì)據(jù)此去設(shè)計(jì)收集數(shù)據(jù),所以能夠采用數(shù)據(jù)池、最小數(shù)據(jù)集或聯(lián)盟式的方法來(lái)共享數(shù)據(jù);但大部分國(guó)內(nèi)的隊(duì)列研究在開(kāi)始時(shí)沒(méi)有考慮到之后會(huì)和其他項(xiàng)目進(jìn)行數(shù)據(jù)資源的整合,或是因?yàn)榉N種原因在數(shù)據(jù)采集后才開(kāi)始多中心數(shù)據(jù)資源的整合,這種回溯性的數(shù)據(jù)共享情況下,數(shù)據(jù)的異質(zhì)性往往非常嚴(yán)重。各個(gè)項(xiàng)目采集的數(shù)據(jù)元素種類(lèi)、數(shù)據(jù)元素的定義、采集測(cè)定方式、數(shù)據(jù)單位等多個(gè)方面都存在異質(zhì)性。我們的“中加項(xiàng)目”也是這樣的情況,因此我們?cè)诒卷?xiàng)目中建立的“聯(lián)盟式”的共享模式適用性廣泛。數(shù)據(jù)池方式共享數(shù)據(jù)的優(yōu)點(diǎn)很明顯,數(shù)據(jù)直接合并,統(tǒng)計(jì)結(jié)果更加準(zhǔn)確;缺點(diǎn)也很明顯,很多時(shí)候數(shù)據(jù)池方法并不可行,尤其是在回顧性的數(shù)據(jù)統(tǒng)一工作中[18]。首先因?yàn)榛仡櫺缘臄?shù)據(jù)統(tǒng)一中,數(shù)據(jù)的異質(zhì)性非常強(qiáng),很可能導(dǎo)致數(shù)據(jù)無(wú)法直接合并;其次法律法規(guī)可能會(huì)限制參與方不能直接將原始數(shù)據(jù)交出去共享。而最小數(shù)據(jù)集的方法僅適合于前瞻性的數(shù)據(jù)統(tǒng)一(指數(shù)據(jù)在開(kāi)始收集之前就做好了數(shù)據(jù)統(tǒng)一的項(xiàng)目計(jì)劃和準(zhǔn)備工作)。在數(shù)據(jù)開(kāi)始收集之前就要先明 確變量的種類(lèi)、各變量的定義及采集表達(dá)方式。所以如果信息已經(jīng)收集、異質(zhì)性已經(jīng)存在,再開(kāi)始考慮數(shù)據(jù)統(tǒng)一,就無(wú)法照搬最小數(shù)據(jù)集的方法來(lái)實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)一和整合了。另外,由于最小數(shù)據(jù)集限制在最少、最核心的數(shù)據(jù)變量的范圍內(nèi),一些重要的變量也可能被遺漏,人們也希望在最小數(shù)據(jù)集的變量集合的基礎(chǔ)上,能有一些增補(bǔ)的變量。而我們所采用的聯(lián)盟式既能規(guī)避法律法規(guī)的影響,也能解決數(shù)據(jù)異質(zhì)性強(qiáng)的矛盾,非常適合于國(guó)內(nèi)的現(xiàn)狀。

        資源的整合共享不僅可以運(yùn)用在隊(duì)列上,也可以運(yùn)用在臨床上。近年來(lái)基于 XML 技術(shù)的結(jié)構(gòu)化電子病歷的發(fā)展迅猛,大量的臨床觀察性數(shù)據(jù)記錄在醫(yī)院信息系統(tǒng)中,不僅在醫(yī)療診治中發(fā)揮巨大的作用,也是高價(jià)值的臨床研究資 源[19-20]。但是醫(yī)生和研究者在研究疾病時(shí),往往由單獨(dú)的課題組去收集疾病的樣本和信息,時(shí)常會(huì)有同醫(yī)院同科室的不同課題組分離地收集同種疾病的信息,相互之間少有交流共享[21-22]。因此,整合不同來(lái)源的同病種臨床信息也非常急迫和重要,這能有力地推動(dòng)轉(zhuǎn)化醫(yī)學(xué)的發(fā)展,對(duì)新醫(yī)療手段的開(kāi)發(fā)有著極大幫助[15]。

        在后續(xù)工作中,我們將把本項(xiàng)目中積累的經(jīng)驗(yàn)推廣到臨床病種的多中心信息整合項(xiàng)目中去,為多來(lái)源的同種疾病信息整合建立模式和方法,運(yùn)用 Opal/Mica 等工具性軟件,提升搭建多中心數(shù)據(jù)共享平臺(tái)的效率及其運(yùn)用范圍。

        猜你喜歡
        研究者異質(zhì)性分布式
        基于可持續(xù)發(fā)展的異質(zhì)性債務(wù)治理與制度完善
        高等教育中的學(xué)生成為研究者及其啟示
        研究者稱,經(jīng)CRISPR技術(shù)編輯過(guò)的雙胞胎已出生。科學(xué)將如何回應(yīng)?
        研究者調(diào)查數(shù)據(jù)統(tǒng)計(jì)
        中華手工(2018年6期)2018-07-17 10:37:42
        分布式光伏熱錢(qián)洶涌
        能源(2017年10期)2017-12-20 05:54:07
        分布式光伏:爆發(fā)還是徘徊
        能源(2017年5期)2017-07-06 09:25:54
        現(xiàn)代社區(qū)異質(zhì)性的變遷與啟示
        基于DDS的分布式三維協(xié)同仿真研究
        醫(yī)生注定是研究者
        1949年前譯本的民族性和異質(zhì)性追考
        777精品久无码人妻蜜桃| 韩国女主播一区二区三区在线观看| 麻豆视频黄片在线免费观看 | 日韩人妻精品无码一区二区三区| 国产aⅴ天堂亚洲国产av| 蜜桃av一区二区三区久久| 日本最新一区二区三区视频观看 | 青榴社区国产精品| 高清中文字幕一区二区三区| 无码人妻h动漫中文字幕| 成人做爰高潮尖叫声免费观看| 精精国产xxx在线视频app| 中文字幕日本在线乱码| 午夜免费电影| 日日噜噜噜夜夜爽爽狠狠| 最新国产成人综合在线观看| 亚洲韩日av中文字幕| 欧美人与动性xxxxx杂性| 中文亚洲av片在线观看不卡| 日本一区免费喷水| 国产精品成人av大片| 国产成年女人毛片80s网站| 亚洲欧美日韩精品高清| 国产精品国产三级国av在线观看| 亚洲永久国产中文字幕| 亚洲一区二区三区无码久久| 黄视频国产| 亚洲成生人免费av毛片| 最近免费中文字幕中文高清6| 亚洲综合无码无在线观看| 亚洲精品中文字幕不卡在线| 伊人婷婷综合缴情亚洲五月| 久久精品中文闷骚内射| 天美麻花果冻视频大全英文版 | 久久精品国产亚洲av蜜臀 | 亚洲免费av第一区第二区| 国产人妻鲁鲁一区二区| 影音先锋每日av色资源站| 色婷婷色99国产综合精品| 中文乱码字幕在线亚洲av| 人妻无码一区二区不卡无码av|