, ,,
2016年我國科技部啟動國家重點研發(fā)計劃“精準醫(yī)學研究”重點專項,申報指南要求項目產出數據必須及時提交至本專項建立的精準醫(yī)學大數據平臺統(tǒng)一管理[1]。2016-2018年共批復“精準醫(yī)學研究”項目103項,要求各項目進行數據匯交,涵蓋了大規(guī)模自然人群隊列、重大疾病專病隊列、罕見病及其他隊列等。2018年4月我國首次出臺國家層面的《科學數據管理辦法》[2],大力推進科學數據資源的開放共享,特別是國家科技計劃項目產生的數據,要求進行強制性匯交,否則項目不予驗收[3]?!犊茖W數據管理辦法》為精準醫(yī)學項目產出數據的匯交提供國家政策依據,而開展精準醫(yī)學大數據匯交管控模型和應用研究有利于促進國家預算資金支持科學數據的開放共享,推動《科學數據管理辦法》的落地實施。
科學數據匯交、數據管理和共享利用對精準醫(yī)學創(chuàng)新發(fā)展研究的重要性越來越顯著[4-6]。歐美國家科學數據匯交工作起步較早,歐洲生物信息研究中心(EMBL-EBI)[7]、美國國家生物技術信息中心(NCBI)[8]匯交多來源于生物醫(yī)學數據,為世界各地科學家提供公開獲取的生物信息資源和工具[9-10]。
我國從2008 年開始在資源環(huán)境領域開展國家項目科學數據匯交[11]。孫九林院士團隊從組織實施、匯交環(huán)境建設和數據接收管理等方面研究了“973計劃”資源環(huán)境領域項目數據匯交[12]。
與資源環(huán)境數據匯交不同,精準醫(yī)學大數據匯交需要針對不同病種、不同類型的異構精準醫(yī)學數據進行匯交。
本文通過系統(tǒng)分析匯交過程中面臨的主要問題,從匯交內容、數據質量、數據安全、數據標準等方面構建了多維度數據匯交管控模型,并探討了該模型在精準醫(yī)學大數據匯交不同階段的應用,為數據匯交工作的開展提供參考依據。
精準醫(yī)學大數據匯交涉及多種疾病、數據來源渠道廣泛、數據類型繁多、數據結構不統(tǒng)一,結合精準醫(yī)學項目進展控制匯交進度難度大,匯交參與人員分類管理困難。
精準醫(yī)學大數據不僅包含京津冀、華中、東北等多地區(qū)多來源的自然人群健康隊列數據,而且包含心血管疾病、腦血管疾病、呼吸系統(tǒng)疾病、代謝系統(tǒng)疾病,以及乳腺癌、食管癌、肺癌等多種高發(fā)癌癥的重大疾病專病隊列數據,涵蓋調查問卷、體檢數據、影像數據、實驗室樣本檢查數據、組學數據、生物樣本數據等多種數據類型,呈現結構各異、維度高、表現形式復雜的多模態(tài)特點。區(qū)別于TCGA[13],EMBL-EBI[7]及GSA[14]對腫瘤、組學等的特定領域或類型的數據進行匯交,精準醫(yī)學大數據匯交涉及多病種、多來源、多模態(tài)、多類型的數據資源,數據的復雜多樣給精準醫(yī)學大數據匯交管控帶來困難。
精準醫(yī)學項目實施周期長,各項目立項和結題時間不一,且臨床或隊列數據分批采集[15-16],因此要在項目開展過程中不定期匯交數據,并結合項目進展控制數據匯交進度。精準醫(yī)學項目承擔單位和項目產出數據分散在全國各地,如果要在項目開展過程中及時匯交數據,需要統(tǒng)一協(xié)調的數據匯交管控機制,為項目產出數據的匯交、管理、存儲共享提供依據。因此,如何有序高效地結合項目進展將項目產出數據及時匯交,是精準醫(yī)學大數據匯交管控研究面臨的棘手問題。
精準醫(yī)學大數據匯交涉及多個項目,且項目中有多種人員角色,如項目負責人、子項目負責人、數據提交人員、數據管理人員等。各人員在匯交過程中發(fā)揮的作用不同,如果不對人員進行分類管理,可能會出現數據安全、隱私、進度等管理混亂。同時需要結合項目過程管理,對匯交參與人員的權限和職責進行分類,以在項目開展中及時匯交產出數據。因此,如何對這些人員及其權責分工進行有效分類管理,是匯交管控面臨的問題。
為了解決上述問題,本文探索全面有效的數據匯交管理控制體系,圍繞精準醫(yī)學數據、精準醫(yī)學項目和數據匯交參與人員,構建精準醫(yī)學大數據匯交管控模型,以指導精準醫(yī)學數據匯交的實施,有利于規(guī)范數據匯交實現機制。
為了對多病種、多來源、多模態(tài)、多類型的精準醫(yī)學大數據進行有序高效匯交,本文在精準醫(yī)學數據、各精準醫(yī)學數據產出項目、匯交參與人員互相支撐的基礎上,構建了精準醫(yī)學大數據匯交管控模型(圖1)。匯交管控模型分為兩個層次:第一層次包括匯交內容、數據質量、匯交數據數量、數據版本、數據隱私、數據安全、數據標準、匯交進度等多個維度的管控對象,第二層次是細化管控對象的不同維度。
圖1 精準醫(yī)學大數據匯交管控模型
精準醫(yī)學大數據匯交內容主要是數據,包括描述數據、數據變量賦值和數據實體3方面。描述數據是對精準醫(yī)學項目、子項目、匯交數據等基礎信息進行描述說明的元數據,通過對其管控可實現精準醫(yī)學數據的特征、體量等方面的全面揭示。結合調查問卷、體檢數據、病理數據等多種數據類型,收集注冊數據變量賦值進行精準醫(yī)學數據語義分析,并通過上傳數據實體提交精準醫(yī)學數據內容,開展精準醫(yī)學大數據分級分類管理。此外,匯交過程中參與各方需協(xié)商簽訂數據匯交協(xié)議和知情同意書,以明確各自的權利和義務。
精準醫(yī)學涉及自然人群隊列、重大疾病專病隊列、罕見病等臨床和社區(qū)多來源數據,會出現形式(如疾病分類編碼不統(tǒng)一)、邏輯(如檢查指標值無臨床意義)或內容(如人口學或診斷數據僅采集基線數據,無隨訪數據)等質量問題。開展數據質量管控可采用人/機結合方式,從“計算機”和“人”兩方面對精準醫(yī)學數據進行形式和內容的基礎質量控制。一方面,建立數據質量檢測規(guī)則庫(包括數據完整性、邏輯性、一致性、準確性、唯一性等規(guī)則),通過計算機輔助檢測控制數據形式,以確保數據形式完整準確;另一方面,設置多級核查,通過數據提交人自查、項目負責人審核等控制數據內容的真實可靠性。同時還需要圍繞精準醫(yī)學數據生命周期建立質量反饋機制,一旦基礎質量合格的數據在管理、共享利用等環(huán)節(jié)出現質量問題,可進行反饋回溯,為全面提升精準醫(yī)學大數據質量和數據匯交效率提供支撐。
精準醫(yī)學數據具有采集持續(xù)時間長、數據分布區(qū)域廣等時空特點,應對匯交數據大小、人群數量、樣本數量等方面進行分階段的數據數量管控。在數量管控過程中,應結合精準醫(yī)學項目總體考核指標和中期考核指標,了解項目總體匯交計劃、中期匯交計劃及其數據考核指標,并根據項目進展及時匯交產生的精準醫(yī)學數據,可多次分批匯交數據,分階段匹配匯交數量和匯交計劃是否一致,以確保實現精準醫(yī)學項目分階段匯交數據數量目標。因此,實施匯交數據數量管控有利于保障精準醫(yī)學大數據階段性匯交和全流程匯交的數據完整性。
結合各精準醫(yī)學項目進展情況,開展匯交進度的分階段協(xié)同管控,主要包括匯交計劃、進度控制、數據驗收等方面。在進度管控過程中,需考慮各精準醫(yī)學項目起止時間不同、項目進展不同、匯交進度不同等情況,協(xié)調各項目之間的匯交進度;按照項目總體和中期匯交計劃,建立協(xié)同溝通機制,了解和提醒各精準醫(yī)學項目數據匯交狀態(tài),分階段協(xié)同控制各項目匯交進度,并在項目結題前對其產出的精準醫(yī)學數據進行匯總驗收,發(fā)放數據驗收憑證。通過實施分階段協(xié)同的匯交進度管控,能夠有效評估精準醫(yī)學項目進展情況,有利于結合項目進展及時了解項目匯交進度。
數據標準是精準醫(yī)學數據匯交管控的基礎,應通過建立匯交數據標準和匯交規(guī)范實現對精準醫(yī)學數據標準的管控。結合調查問卷、體檢數據、實驗室檢驗數據等多種數據類型,研究不同數據的共性變量標準、特性變量標準和變量賦值標準。同時需要制定多維度數據描述標準,包括精準醫(yī)學項目、隊列和數據等方面,制定匯交數據唯一標識進行數據定位和關聯,制定數據匯交相關標準規(guī)范管理匯交流程,實現精準醫(yī)學大數據的分級分類管理,為后續(xù)數據檢索、數據解析等工作提供基礎支撐。
精準醫(yī)學大數據隱私管控需形成雙重監(jiān)管機制,即在數據匯交前的隱私脫敏和匯交過程中的隱私監(jiān)測。數據匯交前,采用移除識別列、轉換半識別列(如K-Anonymity、L-Diversity和T-Closeness等算法[17])等方法對臨床或社區(qū)隊列數據中的患者姓名、身份證號、住址、聯系方式等敏感信息進行隱私脫敏;匯交過程中,采用關鍵詞提取等技術對脫敏后的數據進行漏脫敏監(jiān)測,以避免隱私數據泄露[18]。數據匯交參與各方需在數據匯交前簽訂數據脫密協(xié)議,以明確數據脫敏的責任人。圍繞精準醫(yī)學數據生命周期開展數據隱私管控,為實現精準醫(yī)學大數據開放共享提供有力保障。
從設備安全、數據安全、傳輸安全、數據安全管理[19]等多方面建設分層數據安全管控體系。一方面,精準醫(yī)學數據匯交參與各方應構建安全防護機制,保證硬件設備安全和精準醫(yī)學數據安全,同時結合精準醫(yī)學大數據來源區(qū)域范圍廣的特點,采用多種加密技術保障傳輸安全,形成靈活有效的跨地區(qū)數據安全傳輸機制,以保證精準醫(yī)學數據安全高效地傳輸;另一方面,應在精準醫(yī)學大數據生命周期的采集、管理、存儲、共享利用等環(huán)節(jié)中采用多種技術和措施進行數據安全管理[19]。此外,匯交過程中接觸精準醫(yī)學數據的單位或個人需簽訂數據安全協(xié)議,明確數據安全責任和義務。
精準醫(yī)學大數據獲取時間長,完成1個臨床或社區(qū)隊列基線數據采集后,大多經過多個周期跟蹤隨訪,形成不同版本的匯交數據文件,或者隨著各項目數據標準不斷更新完善,也會出現多個數據版本。因此需要從版本控制、版本保存等方面分批管控多版本數據。根據精準醫(yī)學項目特點建立數據版本管理規(guī)范,分別對版本內容、匯交頻次等進行管控,支持匯交參與人員進行版本新增、刪除或更新,避免出現版本混亂??刹捎萌啃略龌蛟隽啃略龇绞礁聰祿姹?。新老數據以全量新增的方式合并成新數據文件,替代已有數據版本;新增數據也可單獨形成數據文件,以增量新增的方式匯交新增數據。另外,建立精準醫(yī)學數據版本長期保存機制,便于版本溯源定位,提高版本管控效率和精準醫(yī)學數據分級分類管理效率。
本文構建的精準醫(yī)學大數據匯交管控模型主要用于指導匯交工作實施。匯交工作流程可分為數據匯交準備、數據匯交過程和數據匯交后續(xù)3個階段。數據匯交準備包括項目注冊和子項目注冊,數據匯交過程包括變量注冊、變量賦值注冊、數據上傳和數據初審,數據匯交后續(xù)包括數據終審、發(fā)放數據驗收憑證、數據管理、存儲和共享利用(圖2)。
圖2精準醫(yī)學大數據匯交管控模型的應用
為了保障精準醫(yī)學大數據匯交工作有序高效地開展,本文將匯交參與人員分為項目負責人、數據提交者和數據管理者。項目負責人是某一精準醫(yī)學項目的總負責人,從總體上把控匯交情況,負責審校項目信息和數據內容的質量和真實性,開展數據共享利用;數據提交者負責項目及其子項目數據的提交,主要任務是子項目注冊、數據變量注冊、賦值注冊、上傳數據等;數據管理者主要負責匯交數據審核、數據管理、發(fā)放數據驗收憑證、存儲、共享利用等工作。
結合精準醫(yī)學數據具有多模態(tài)、多病種和多來源的特點,以及精準醫(yī)學項目進展情況,在數據匯交準備階段進行項目及其包含子項目相關信息注冊,具體包括項目基本信息、子項目基本情況、數據匯交計劃、匯交進度等。在數據匯交過程中,數據提交者依次進行數據變量注冊、變量賦值注冊和數據實體上傳,項目負責人對數據內容、數據真實性等方面進行初步審核,數據管理者對數據質量進行終審。在數據匯交完成后,數據管理者對項目數據匯總驗收,驗收合格的發(fā)放數據匯交驗收憑證,用于精準醫(yī)學項目結題。最后開展精準醫(yī)學大數據的分級分類管理、存儲、共享利用,實現精準醫(yī)學數據全生命周期管理。
數據匯交準備階段開展項目信息注冊和子項目信息注冊,應用精準醫(yī)學大數據匯交管控模型對匯交進度、數據數量、數據標準、數據隱私和數據安全等進行管控。
項目負責人、數據提交者和數據管理者分別從進度控制和匯交計劃兩方面分工管控匯交進度。項目負責人、數據提交者分別管控各自項目、子項目的樣本數量、人群數量和數據大小。項目負責人提交項目的變量和賦值標準,數據提交者管控子項目的變量和賦值標準。同時,項目負責人、數據提交者和數據管理者開展精準醫(yī)學數據脫敏、隱私保護等工作,數據管理者提供設備安全、傳輸安全等安全保障體系,為精準醫(yī)學大數據匯交提供安全可靠的匯交環(huán)境。
精準醫(yī)學大數據匯交過程中開展變量、賦值注冊、數據上傳、數據初審等工作,利用匯交管控模型從匯交進度、匯交內容、數據數量、數據標準、數據版本、數據隱私、數據安全、數據質量等多維度對數據匯交過程進行管控,實現對多病種、多來源的異構精準醫(yī)學數據的及時高效匯交。
結合匯交參與人員的分工,匯交內容管控包括描述數據、變量賦值、數據實體管控,數據提交者完成變量注冊、賦值注冊和數據上傳等工作,項目負責人對數據真實性和內容初步審核,以保障精準醫(yī)學大數據內容真實可靠。
數據提交者負責控制數據上傳大小、人群數量和樣本數量,項目負責人負責上傳數據數量的初審,數據管理者利用變量標準、賦值標準和數據描述標準進行精準醫(yī)學數據語義融合管控。在數據上傳時,項目負責人和數據提交者上傳有效的數據版本,數據管理者對版本進行控制和保存,項目負責人在數據初審時審核數據版本。數據提交者、項目負責人和數據管理者在數據匯交過程中開展數據隱私管控,數據管理者在數據匯交的過程中開展數據安全管控,項目負責人和數據提交者對提交數據進行數據質量管控。
總之,數據匯交過程中各流程環(huán)環(huán)相扣,匯交參與人員之間分工明確、相互協(xié)作,匯交管控模型為匯交實施提供有效指導,為精準醫(yī)學大數據高效匯交提供保障支撐。
精準醫(yī)學大數據匯交后續(xù)要開展數據終審,匯交憑證發(fā)放和數據管理、存儲、共享利用等工作,結合匯交管控模型進行匯交進度、匯交內容、數據數量、數據版本、數據隱私、數據安全、數據質量等多維度管控。
數據管理者對匯交內容、數據數量、數據標準、數據版本、數據隱私、數據質量等進行終審,并發(fā)放匯交驗收憑證,用于項目結題;同時對匯交內容、數據數量、數據標準等進行分級分類管理、存儲和共享利用。匯交參與人員在數據共享利用階段要進行數據隱私管控,以避免隊列數據信息泄露。數據管理者在整個匯交流程中開展數據安全管控,以確保數據匯交的安全實施,形成有效的數據匯交安全協(xié)調機制。
開展精準醫(yī)學大數據匯交管控模型與應用研究,可為數據匯交工作的實施提供指導和參考依據,不僅有利于提高精準醫(yī)學數據匯交效率和規(guī)范化管理水平,而且有助于推動《科學數據管理辦法》的實施。
一是針對數據匯交內容、數據質量、數據版本等多維度管控對象開展匯交管控模型研究,為數據匯交工作機制實現、系統(tǒng)建設、匯交實施提供指導和參考依據,推動精準醫(yī)學數據開放共享。
二是應用精準醫(yī)學大數據匯交管控模型開展精準醫(yī)學數據匯交工作,有助于高效匯交多來源、多類型、多病種、多模態(tài)精準醫(yī)學數據,有利于從數據產生、傳輸、匯交、存儲、管理、分析、利用、共享等方面實現精準數據全生命周期管理。
三是《科學數據管理辦法》為精準醫(yī)學項目產出數據的匯交提供了國家政策依據,精準醫(yī)學大數據匯交管控模型與應用研究有助于推動《科學數據管理辦法》的實施和實現對國家預算資金資助產生數據的長期管理和共享使用,促進精準醫(yī)學創(chuàng)新研究的深入發(fā)展。
本文通過對精準醫(yī)學數據匯交內容、數據質量、數據標準、數據安全等多維度管控對象的研究,構建了精準醫(yī)學大數據匯交管控模型,探討了多維度數據匯交管控模型在精準醫(yī)學數據匯交不同階段的應用,為數據匯交工作提供指導和參考依據,為精準醫(yī)學數據資源的開放共享提供基礎支撐,為實現“健康中國2030”提供基礎保障。目前的工作側重于精準醫(yī)學數據匯交管控機制的研究,但要實現科學數據全生命周期管理,充分提高國家財政投入效益,提升醫(yī)學科技創(chuàng)新能力,仍需要繼續(xù)深入研究數據共享利用。因此,探索精準醫(yī)學數據共享體系和分析挖掘利用方法是未來研究的重點。