王瑩 周玉利 顧大勇
關(guān)鍵詞:檢驗(yàn)醫(yī)學(xué);大數(shù)據(jù);機(jī)器學(xué)習(xí);數(shù)據(jù)集成;數(shù)據(jù)治理;數(shù)據(jù)開(kāi)發(fā)
0 引言
檢驗(yàn)醫(yī)學(xué)作為醫(yī)學(xué)科學(xué)的重要支撐性技術(shù)學(xué)科,在疾病的早期診斷、病情監(jiān)測(cè)、預(yù)后判斷與風(fēng)險(xiǎn)評(píng)估等方面發(fā)揮著重要作用。隨著醫(yī)學(xué)檢驗(yàn)實(shí)驗(yàn)室自動(dòng)化、現(xiàn)代化技術(shù)水平的提升,醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)飛速增長(zhǎng),日積月累產(chǎn)生了海量數(shù)據(jù)資源,其中蘊(yùn)藏著大量已知和未知的臨床相關(guān)規(guī)律??蒲腥藛T通過(guò)回顧性或前瞻性研究,重新解讀醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)將發(fā)揮其重要價(jià)值,不僅有助于進(jìn)一步了解疾病的本質(zhì),確定疾病精準(zhǔn)診療的方法,而且有利于發(fā)現(xiàn)新型診斷標(biāo)志物和持續(xù)優(yōu)化醫(yī)學(xué)檢驗(yàn)項(xiàng)目的參考區(qū)間[1]。據(jù)不完全統(tǒng)計(jì),臨床決策所需信息的70%來(lái)自醫(yī)學(xué)檢驗(yàn),為臨床診斷提供強(qiáng)有力的數(shù)據(jù)支持[2-4] 。醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)不僅體量巨大、類(lèi)型繁多,還有特征高維和冗余等特點(diǎn),傳統(tǒng)的數(shù)據(jù)存儲(chǔ)和統(tǒng)計(jì)分析方法已難以處理愈加龐大的醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)[5-7]。
目前,醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)主要作為一次性的臨床診斷參考以及小樣本量的研究分析,導(dǎo)致這種狀況的客觀(guān)原因,一方面是醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)量大、醫(yī)學(xué)檢驗(yàn)項(xiàng)目參考區(qū)間相對(duì)固定的顯性信息明確,另一方面是醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)散落在實(shí)驗(yàn)室信息管理系統(tǒng)(Laboratory Infor? mation System,LIS) 中,傳統(tǒng)的數(shù)理統(tǒng)計(jì)工具和小樣本量難以全面、系統(tǒng)地發(fā)掘海量醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)中蘊(yùn)藏的信息。主觀(guān)原因,一方面是傳統(tǒng)科研的問(wèn)題導(dǎo)向流程,采用“發(fā)現(xiàn)問(wèn)題、形成假說(shuō)、收集數(shù)據(jù)、分析數(shù)據(jù)”的模式,數(shù)據(jù)的作用是支持假說(shuō)而不是用于發(fā)現(xiàn)問(wèn)題或規(guī)律;另一方面是把大數(shù)據(jù)平臺(tái)或工具充當(dāng)計(jì)算能力更強(qiáng)、存儲(chǔ)空間更大的數(shù)據(jù)平臺(tái)[8-13]。這些原因?qū)е箩t(yī)學(xué)檢驗(yàn)數(shù)據(jù)應(yīng)用方式不同程度存在四個(gè)方面的缺憾:①人為把“大數(shù)據(jù)”裁剪為“小數(shù)據(jù)”,方便使用傳統(tǒng)的統(tǒng)計(jì)分析工具,可能會(huì)錯(cuò)失被裁剪掉數(shù)據(jù)所蘊(yùn)含的有價(jià)值信息;②對(duì)大數(shù)據(jù)重點(diǎn)關(guān)注數(shù)據(jù)量的維度,卻忽略了大數(shù)據(jù)的另一重要特征——數(shù)據(jù)種類(lèi)多;③數(shù)據(jù)收集僅用于一次性特定的研究目的,沒(méi)有考慮復(fù)用于其他研究,導(dǎo)致產(chǎn)生大量重復(fù)的數(shù)據(jù)收集、數(shù)據(jù)清洗等工作;④傾向選擇理想的數(shù)據(jù)集作為標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)數(shù)據(jù)源,這與真實(shí)世界的數(shù)據(jù)分布情況差異較大,生成的機(jī)器學(xué)習(xí)模型普適性存疑。
傳統(tǒng)的數(shù)據(jù)收集、處理方式無(wú)法滿(mǎn)足機(jī)器學(xué)習(xí)和大數(shù)據(jù)對(duì)數(shù)據(jù)的需求,機(jī)器學(xué)習(xí)涵蓋了廣泛的方法,旨在為計(jì)算機(jī)提供學(xué)習(xí)任務(wù)的能力。這些方法依賴(lài)于從幾乎沒(méi)有人工輸入的數(shù)據(jù)中獲取模式的算法。這與嚴(yán)格依賴(lài)人類(lèi)知識(shí)來(lái)驗(yàn)證模型假設(shè)和變量選擇的統(tǒng)計(jì)技術(shù)形成鮮明對(duì)比。大數(shù)據(jù)方法通常不受經(jīng)驗(yàn)知識(shí)的影響,無(wú)偏見(jiàn)地收集和分析數(shù)據(jù),并發(fā)現(xiàn)重要的模式,支持循證醫(yī)學(xué),通過(guò)構(gòu)建相關(guān)的預(yù)測(cè)模型,從而更準(zhǔn)確地評(píng)估疾病風(fēng)險(xiǎn)以及改善預(yù)后[14-15]?,F(xiàn)有各種醫(yī)院信息化系統(tǒng)的設(shè)計(jì)初衷主要是為了滿(mǎn)足醫(yī)療業(yè)務(wù)流程需要,因此,在后續(xù)數(shù)據(jù)分析與應(yīng)用的需求滿(mǎn)足上尚存在較大差距,數(shù)據(jù)的收集和管理方面缺乏結(jié)合人工智能等高價(jià)值的數(shù)據(jù)二次利用的設(shè)計(jì)考慮[16]。傳統(tǒng)科研模式中存在的“科研構(gòu)思難、數(shù)據(jù)獲取難、想法驗(yàn)證難、數(shù)據(jù)處理難”等弊端,已嚴(yán)重阻礙臨床研究水平的進(jìn)一步提升,亟待使用新的技術(shù)手段加以解決[17]。
本研究針對(duì)醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)的大數(shù)據(jù)化進(jìn)行創(chuàng)新,面向機(jī)器學(xué)習(xí)對(duì)數(shù)據(jù)質(zhì)量的要求,綜合考慮實(shí)驗(yàn)成本和實(shí)驗(yàn)?zāi)繕?biāo)需要,選擇近5年的全量醫(yī)學(xué)檢驗(yàn)數(shù)據(jù),使用大數(shù)據(jù)技術(shù)把選定時(shí)間段的全量醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)系統(tǒng)化治理、開(kāi)發(fā),形成時(shí)段性醫(yī)學(xué)檢驗(yàn)大數(shù)據(jù),實(shí)現(xiàn)對(duì)醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)的高效率復(fù)用和可持續(xù)積累模式的探索與驗(yàn)證。
1 醫(yī)學(xué)檢驗(yàn)大數(shù)據(jù)關(guān)鍵技術(shù)
1.1 轉(zhuǎn)置數(shù)據(jù)結(jié)構(gòu)
醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)采集、處理、存儲(chǔ)均依托LIS,LIS作為業(yè)務(wù)系統(tǒng)通常采用關(guān)系型數(shù)據(jù)庫(kù),關(guān)系型數(shù)據(jù)庫(kù)具有強(qiáng)大的事務(wù)處理能力,盡可能降低數(shù)據(jù)冗余度,節(jié)約存儲(chǔ)空間,關(guān)系型數(shù)據(jù)庫(kù)的結(jié)構(gòu)特點(diǎn)決定了其只能做簡(jiǎn)單的統(tǒng)計(jì)分析,不能做復(fù)雜的邏輯運(yùn)算?;陉P(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)結(jié)構(gòu)不能滿(mǎn)足復(fù)雜的數(shù)據(jù)分析需求。隨著計(jì)算、存儲(chǔ)技術(shù)的發(fā)展,計(jì)算和存儲(chǔ)資源的成本飛速下降,在數(shù)據(jù)結(jié)構(gòu)方面以空間換時(shí)間的數(shù)據(jù)寬表結(jié)構(gòu)應(yīng)運(yùn)而生,數(shù)據(jù)寬表是一張把業(yè)務(wù)主題相關(guān)的指標(biāo)、維度、屬性關(guān)聯(lián)在一起的數(shù)據(jù)庫(kù)表,數(shù)據(jù)寬表具有降低數(shù)據(jù)復(fù)雜度、結(jié)構(gòu)簡(jiǎn)單、數(shù)據(jù)完備度高、減少數(shù)據(jù)交互、數(shù)據(jù)訪(fǎng)問(wèn)效率高和易于業(yè)務(wù)人員自主使用數(shù)據(jù)等優(yōu)點(diǎn),廣泛應(yīng)用于數(shù)據(jù)挖掘模型訓(xùn)練前的數(shù)據(jù)準(zhǔn)備[18-20]。
傳統(tǒng)的醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)結(jié)構(gòu)是以患者為中心,以提供患者個(gè)體的檢驗(yàn)報(bào)告為目的,構(gòu)成醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)的醫(yī)學(xué)檢驗(yàn)項(xiàng)目及結(jié)果以多行的形式存在,方便直觀(guān)展示患者個(gè)體各個(gè)醫(yī)學(xué)檢驗(yàn)項(xiàng)目結(jié)果,不利于對(duì)不同患者同一個(gè)醫(yī)學(xué)檢驗(yàn)項(xiàng)目結(jié)果做復(fù)雜邏輯運(yùn)算。轉(zhuǎn)為數(shù)據(jù)寬表可以實(shí)現(xiàn)患者ID主關(guān)鍵字的所有醫(yī)學(xué)檢驗(yàn)項(xiàng)目位于同一行,不同患者的同一醫(yī)學(xué)檢驗(yàn)項(xiàng)目結(jié)果位于同一列。可以在一張數(shù)據(jù)表中直接對(duì)不同患者的同一醫(yī)學(xué)檢驗(yàn)項(xiàng)目數(shù)據(jù)治理、數(shù)據(jù)開(kāi)發(fā)后進(jìn)行統(tǒng)計(jì)分析和復(fù)雜邏輯運(yùn)算。
1.2 建立數(shù)據(jù)治理標(biāo)準(zhǔn)
數(shù)據(jù)質(zhì)量是數(shù)據(jù)發(fā)揮價(jià)值的關(guān)鍵,數(shù)據(jù)治理是提升數(shù)據(jù)質(zhì)量、降低數(shù)據(jù)管理成本、保障數(shù)據(jù)安全和控制數(shù)據(jù)風(fēng)險(xiǎn)的方法。醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)通常來(lái)自不同廠(chǎng)家的不同類(lèi)型的設(shè)備,以實(shí)現(xiàn)醫(yī)學(xué)檢驗(yàn)功能為目的,缺乏全局性的數(shù)據(jù)標(biāo)準(zhǔn),數(shù)據(jù)類(lèi)型和質(zhì)量參差不齊,主要存在非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)格式混亂、無(wú)效數(shù)據(jù)、重復(fù)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)、數(shù)據(jù)缺失等問(wèn)題。大部分的醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),天然符合復(fù)雜邏輯運(yùn)算需求,但數(shù)據(jù)的使用維度是面向檢驗(yàn)報(bào)告,導(dǎo)致大量的非結(jié)構(gòu)化數(shù)據(jù)混雜其中,如定性的陰性、弱陽(yáng)性和陽(yáng)性等非結(jié)構(gòu)化文本。數(shù)據(jù)格式混亂包括定量的格式化數(shù)據(jù)中混雜“<”“>”“+”“.”“*”“中英文注解”和“NULL”等,錯(cuò)誤數(shù)據(jù)包括人工錄入錯(cuò)誤(如:1.00錄入1.0.0) 、年齡為負(fù)值、數(shù)據(jù)類(lèi)型轉(zhuǎn)換錯(cuò)誤(數(shù)值區(qū)間1~2轉(zhuǎn)為1月2日)等,無(wú)效數(shù)據(jù)包括定標(biāo)數(shù)據(jù)、測(cè)試數(shù)據(jù)、系統(tǒng)無(wú)法出具檢驗(yàn)項(xiàng)目結(jié)果的默認(rèn)數(shù)據(jù)等。
醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)治理需要全面統(tǒng)計(jì)分析醫(yī)學(xué)檢驗(yàn)數(shù)據(jù),在符合實(shí)際業(yè)務(wù)需求的前提下,建立數(shù)據(jù)清洗和數(shù)據(jù)轉(zhuǎn)換的標(biāo)準(zhǔn)。對(duì)于多值有序非結(jié)構(gòu)化數(shù)據(jù)按照業(yè)務(wù)要求的順序直接轉(zhuǎn)化為有序數(shù)值,對(duì)于多值無(wú)序非結(jié)構(gòu)化數(shù)據(jù),則留待后續(xù)實(shí)際使用時(shí)采用獨(dú)熱編碼(One-Hot Encoding)方式處理;對(duì)于格式化數(shù)據(jù)中混雜的非格式化符號(hào)一般采用針對(duì)性刪除的方式;對(duì)于錯(cuò)誤數(shù)據(jù)根據(jù)實(shí)際業(yè)務(wù)情況核驗(yàn)后的結(jié)果,采用正確的數(shù)據(jù)做替換;對(duì)于定標(biāo)數(shù)據(jù)、測(cè)試數(shù)據(jù)和系統(tǒng)無(wú)結(jié)果默認(rèn)數(shù)據(jù)等采用針對(duì)性刪除的方式。對(duì)于診斷結(jié)果通過(guò)統(tǒng)計(jì)分析基于不同語(yǔ)言、縮略方式、命名習(xí)慣等方式帶來(lái)的同一疾病的重復(fù)情況,根據(jù)業(yè)務(wù)需求對(duì)其做標(biāo)準(zhǔn)化統(tǒng)一。
2 醫(yī)學(xué)檢驗(yàn)大數(shù)據(jù)實(shí)驗(yàn)方案設(shè)計(jì)
大數(shù)據(jù)的基礎(chǔ)是數(shù)據(jù)與應(yīng)用分離,把數(shù)據(jù)作為資源實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)化,避免重復(fù)數(shù)據(jù)集成、數(shù)據(jù)治理和數(shù)據(jù)開(kāi)發(fā),該理念貫穿數(shù)據(jù)的全生命周期。在方案設(shè)計(jì)時(shí)采用分層策略實(shí)現(xiàn)清晰數(shù)據(jù)結(jié)構(gòu)、減少重復(fù)開(kāi)發(fā)、統(tǒng)一數(shù)據(jù)口徑和復(fù)雜問(wèn)題簡(jiǎn)單化。
2.1 整體方案
整體方案分為三層,分別為數(shù)據(jù)應(yīng)用層、數(shù)據(jù)操作層和數(shù)據(jù)來(lái)源層,如圖1所示。其中數(shù)據(jù)應(yīng)用層包括數(shù)據(jù)統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)和數(shù)據(jù)展示等應(yīng)用。數(shù)據(jù)操作層對(duì)數(shù)據(jù)來(lái)源首先進(jìn)行數(shù)據(jù)集成,數(shù)據(jù)集成后的一個(gè)副本做行列轉(zhuǎn)置,實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)從關(guān)系型向數(shù)據(jù)寬表轉(zhuǎn)換。通過(guò)數(shù)據(jù)洞察全面分析數(shù)據(jù)質(zhì)量,根據(jù)分析結(jié)果制定數(shù)據(jù)標(biāo)準(zhǔn)。按照數(shù)據(jù)標(biāo)準(zhǔn)采用計(jì)算機(jī)程序做數(shù)據(jù)清洗和數(shù)字化轉(zhuǎn)換。根據(jù)需要做數(shù)據(jù)歸一化,通過(guò)數(shù)據(jù)服務(wù)的方式向數(shù)據(jù)應(yīng)用層提供數(shù)據(jù)調(diào)用查詢(xún)服務(wù)。數(shù)據(jù)來(lái)源層主要為L(zhǎng)IS和醫(yī)院信息系統(tǒng)(Hospital Information System,HIS)的關(guān)系型數(shù)據(jù)庫(kù)。
2.2 方法設(shè)計(jì)
在數(shù)據(jù)操作層采用整體分級(jí)模式和分段清洗模式的數(shù)據(jù)治理方法,實(shí)現(xiàn)關(guān)系型數(shù)據(jù)平滑向數(shù)據(jù)寬表轉(zhuǎn)化。
整體分級(jí)模式:數(shù)據(jù)集成、數(shù)據(jù)治理和數(shù)據(jù)開(kāi)發(fā)涉及多個(gè)環(huán)節(jié),產(chǎn)生錯(cuò)誤則牽一發(fā)而動(dòng)全身。采用分級(jí)處理的方法來(lái)實(shí)現(xiàn)功能分工、隔離穩(wěn)定和方便實(shí)現(xiàn)的原則。主要分為數(shù)據(jù)集成、行列轉(zhuǎn)置、數(shù)據(jù)清洗和數(shù)字化轉(zhuǎn)換,如圖2所示。每一級(jí)的輸入和輸出均有對(duì)應(yīng)的數(shù)據(jù)表,每一級(jí)產(chǎn)生的系統(tǒng)或人工操作錯(cuò)誤不會(huì)波及上一級(jí),從而實(shí)現(xiàn)錯(cuò)誤的有效隔離。
分段清洗:數(shù)據(jù)清洗需要統(tǒng)一的策略,避免數(shù)據(jù)被多次清洗[21]。數(shù)據(jù)清洗通常采用結(jié)構(gòu)化查詢(xún)語(yǔ)言(Structured Query Language,SQL) ,SQL功能豐富、應(yīng)用靈活,但在實(shí)際應(yīng)用中運(yùn)行環(huán)境出于系統(tǒng)安全考慮會(huì)做相應(yīng)的資源限制,如果一次清洗的字段過(guò)多,會(huì)導(dǎo)致清洗語(yǔ)句的長(zhǎng)度或者清洗程序占用空間超出資源限制,從而產(chǎn)生系統(tǒng)錯(cuò)誤。如果將源數(shù)據(jù)表拆分為多個(gè)數(shù)據(jù)表再進(jìn)行數(shù)據(jù)清洗,雖然可以避免該錯(cuò)誤,但在數(shù)據(jù)量較大時(shí),拆分過(guò)程的操作復(fù)雜,效率較低。采用分段清洗模式在保持整體一致性的基礎(chǔ)上,通過(guò)對(duì)字段的分段實(shí)施,靈活適應(yīng)運(yùn)行環(huán)境可提供的資源。如圖3所示,S1、S2、……Sn為源數(shù)據(jù)表中的字段名稱(chēng),T1-1、T1-2、……T1-n為目標(biāo)數(shù)據(jù)表T1中的字段名稱(chēng),“as”代表字段對(duì)應(yīng)數(shù)值的簡(jiǎn)單的復(fù)制賦值,“->”代表字段對(duì)應(yīng)數(shù)值經(jīng)過(guò)SQL語(yǔ)句(例如Case when條件語(yǔ)句)處理后的結(jié)果賦值。整體清洗程序在運(yùn)行環(huán)境資源許可的情況下一次性完成,如果超出運(yùn)行環(huán)境資源限制,可以針對(duì)一部分字段進(jìn)行清洗處理,另外一部分保持簡(jiǎn)單賦值模式。例如第一段清洗程序只對(duì)源數(shù)據(jù)表S 中的S1、S2和S3三個(gè)字段的數(shù)值進(jìn)行清洗,清洗后的結(jié)果分別賦值到目標(biāo)數(shù)據(jù)表T1 中對(duì)應(yīng)的T1-1、T1-2、T1-3三個(gè)字段,源數(shù)據(jù)表S 中其余字段(S4至Sn)不做處理,直接賦值到目標(biāo)數(shù)據(jù)表T1中對(duì)應(yīng)的(T1-4至T1-n)。在第二段清洗中數(shù)據(jù)表T1為目標(biāo)數(shù)據(jù)表,已經(jīng)完成清洗的字段T1-1、T1-2、T1-3直接賦值新的目標(biāo)數(shù)據(jù)表T2對(duì)應(yīng)T2-1、T2-2、T2-3字段。T1-4、T1-5、T1-6三個(gè)字段的數(shù)值經(jīng)過(guò)清洗后賦值到目標(biāo)數(shù)據(jù)表T2的T2-4、T2-5、T2-6三個(gè)字段。源數(shù)據(jù)表T1的剩余字段(T1-7至T1-n) 不做處理直接賦值到目標(biāo)數(shù)據(jù)表T2中對(duì)應(yīng)的(T2-7至T2-n),后續(xù)分段依此類(lèi)推,直至完成所有字段的清洗工作。
3 實(shí)驗(yàn)實(shí)施與分析
3.1 實(shí)驗(yàn)環(huán)境與實(shí)驗(yàn)數(shù)據(jù)
研究采用的實(shí)驗(yàn)環(huán)境為商用公有云服務(wù)提供的大數(shù)據(jù)計(jì)算服務(wù)平臺(tái)Maxcomputer和大數(shù)據(jù)開(kāi)發(fā)治理平臺(tái)Dataworks。數(shù)據(jù)清洗采用SQL腳本。數(shù)據(jù)為某醫(yī)院2016年10月1日至2021年09月30日的LIS和HIS中全量醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)及診斷結(jié)果。原始數(shù)據(jù)包括患者的ID、年齡、性別、部門(mén)(門(mén)診或住院)、檢驗(yàn)日期、醫(yī)學(xué)檢驗(yàn)項(xiàng)目編碼、檢驗(yàn)結(jié)果、診斷結(jié)果共8個(gè)字段。醫(yī)學(xué)檢驗(yàn)項(xiàng)目總計(jì)1 297項(xiàng)(包括部分來(lái)自不同儀器設(shè)備對(duì)相同檢驗(yàn)項(xiàng)目的重復(fù)),醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)合計(jì)141 477 953條。在實(shí)驗(yàn)中,把醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)轉(zhuǎn)化為醫(yī)學(xué)檢驗(yàn)大數(shù)據(jù)。
3.2 實(shí)驗(yàn)實(shí)施過(guò)程
數(shù)據(jù)集成:以年為單位,從LIS和HIS中抽取患者的全量醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)和診斷結(jié)果生成數(shù)據(jù)文件,刪除861 252條無(wú)效醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)后剩余140 616 701條醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)的數(shù)據(jù)文件依次導(dǎo)入大數(shù)據(jù)計(jì)算服務(wù)平臺(tái)Maxcomputer。并逐年核對(duì)數(shù)據(jù)總量,保證數(shù)據(jù)導(dǎo)入過(guò)程不存在遺漏或丟失。
數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)置:以患者ID為主關(guān)鍵字、檢驗(yàn)日期為次關(guān)鍵字,把對(duì)應(yīng)的醫(yī)學(xué)檢驗(yàn)項(xiàng)目和結(jié)果從多行模式轉(zhuǎn)為多列模式,每位患者在確定的檢驗(yàn)日期的所有醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)成為數(shù)據(jù)寬表的一條記錄,如圖4所示,140 616 701 行、8 列關(guān)系型數(shù)據(jù)表轉(zhuǎn)置為4 903 891 行、1 338列的數(shù)據(jù)寬表。
數(shù)據(jù)清洗:對(duì)轉(zhuǎn)置后的數(shù)據(jù)寬表的每一列分別做不重復(fù)數(shù)據(jù)查詢(xún),并統(tǒng)計(jì)相應(yīng)的數(shù)據(jù)類(lèi)型、數(shù)值型數(shù)據(jù)數(shù)值區(qū)間、數(shù)據(jù)量、錯(cuò)誤數(shù)據(jù)類(lèi)型等。根據(jù)統(tǒng)計(jì)分析結(jié)果和對(duì)應(yīng)字段的醫(yī)學(xué)意義制定數(shù)據(jù)治理標(biāo)準(zhǔn)。按照數(shù)據(jù)治理標(biāo)準(zhǔn)針對(duì)每一列在SQL腳本中實(shí)現(xiàn)相應(yīng)的措施。例如對(duì)于簡(jiǎn)單的“>”“<”和“*”等無(wú)效字符的清除,直接采用空字符替換方式,對(duì)于結(jié)構(gòu)混亂數(shù)據(jù),采用正則表達(dá)式去除非法字符,對(duì)于少量的人工錄入錯(cuò)誤,采用正確數(shù)值替換的方式。
數(shù)字化轉(zhuǎn)換:對(duì)于多值有序非結(jié)構(gòu)化數(shù)據(jù)第一項(xiàng)為0、公差為1,構(gòu)建數(shù)值列對(duì)多值有序非結(jié)構(gòu)化數(shù)據(jù)做相應(yīng)的字符替換。
3.3 實(shí)驗(yàn)結(jié)果
經(jīng)過(guò)上述處理環(huán)節(jié),4 903 891行、1 338列的數(shù)據(jù)寬表中絕大數(shù)列已轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù),極少數(shù)因?yàn)樵磾?shù)據(jù)標(biāo)準(zhǔn)不一且數(shù)據(jù)量較少的醫(yī)學(xué)檢驗(yàn)項(xiàng)目結(jié)果未做處理,數(shù)據(jù)寬表每一條記錄對(duì)應(yīng)的診斷結(jié)果未做處理,主要是為了保障按照疾病種類(lèi)查詢(xún)的便利和靈活性。在研究思路產(chǎn)生階段快速查詢(xún)所關(guān)心疾病所對(duì)應(yīng)的數(shù)據(jù)量或若干項(xiàng)醫(yī)學(xué)檢驗(yàn)項(xiàng)目的數(shù)據(jù)量來(lái)決定是否有必要進(jìn)行研究。在數(shù)據(jù)應(yīng)用階段,可以根據(jù)研究需要,隨時(shí)檢索抽取其所包含的所有疾病類(lèi)別對(duì)應(yīng)的全項(xiàng)醫(yī)學(xué)檢驗(yàn)數(shù)據(jù),在數(shù)據(jù)挖掘分析階段,不但可以繼續(xù)使用傳統(tǒng)數(shù)理統(tǒng)計(jì)工具處理進(jìn)行分析,而且可以直接被各種機(jī)器學(xué)習(xí)算法讀取,而無(wú)須重復(fù)為不同的機(jī)器學(xué)習(xí)算法或不同的疾病做煩瑣的數(shù)據(jù)處理工作。通過(guò)實(shí)驗(yàn)不但可以全面掌握醫(yī)學(xué)檢驗(yàn)項(xiàng)目實(shí)際覆蓋率,而且可以分鐘級(jí)快速驗(yàn)證科研構(gòu)思的可行性,分鐘級(jí)完成機(jī)器學(xué)習(xí)數(shù)據(jù)源準(zhǔn)備。
對(duì)4 903 891條記錄中每個(gè)醫(yī)學(xué)檢驗(yàn)項(xiàng)目的檢驗(yàn)數(shù)量做了統(tǒng)計(jì),檢驗(yàn)數(shù)量超過(guò)百萬(wàn)的41項(xiàng),其中最高項(xiàng)平均紅細(xì)胞體積為2 128 955,占記錄總數(shù)的43.41%,即43.41%的患者均做了平均紅細(xì)胞體積這個(gè)醫(yī)學(xué)檢驗(yàn)項(xiàng)目。檢驗(yàn)數(shù)量為50萬(wàn)至100萬(wàn)26項(xiàng),檢驗(yàn)數(shù)量為10萬(wàn)至50萬(wàn)142項(xiàng),檢驗(yàn)數(shù)量為1萬(wàn)~10 萬(wàn)439項(xiàng),檢驗(yàn)數(shù)量為1萬(wàn)以?xún)?nèi)651項(xiàng)。通過(guò)時(shí)段性全量檢驗(yàn)數(shù)據(jù)統(tǒng)計(jì),第一次全景展示選定時(shí)段的所有醫(yī)學(xué)檢驗(yàn)項(xiàng)目的實(shí)際覆蓋率。
大數(shù)據(jù)可以有效地節(jié)省臨床操作和研發(fā)兩個(gè)方面的投入,本研究成果帶來(lái)了直觀(guān)的科研高效率,通過(guò)幾分鐘的檢索驗(yàn)證了B淋巴母細(xì)胞瘤白血病、慢性中性粒細(xì)胞白血病、毛細(xì)胞白血病等只有數(shù)十到數(shù)百不等病例的科研構(gòu)思的不可行性。只需要通過(guò)診斷結(jié)果的簡(jiǎn)單篩選,用時(shí)幾分鐘即可具備一種疾病類(lèi)型的機(jī)器學(xué)習(xí)業(yè)務(wù)流程所需的數(shù)據(jù)源。已經(jīng)生成了急性髓系白血病、慢性粒細(xì)胞白血病、甲狀腺疾病、乳腺惡性腫瘤等疾病的機(jī)器學(xué)習(xí)模型,機(jī)器學(xué)習(xí)模型不但具有較高的預(yù)測(cè)水平,預(yù)測(cè)評(píng)估結(jié)果的主要指標(biāo)受試者工作特征曲線(xiàn)下面積(Area Under Curve,AUC)、F1- Score大部分在0.9以上;而且發(fā)現(xiàn)了一些醫(yī)學(xué)檢驗(yàn)項(xiàng)目和某些疾病存在常規(guī)研究無(wú)法察覺(jué)的相關(guān)性,例如淀粉酶與慢性粒細(xì)胞白血病密切相關(guān)。
4 結(jié)束語(yǔ)
在傳統(tǒng)的臨床研究模式下,數(shù)據(jù)采集和數(shù)據(jù)處理分析均是耗費(fèi)大量人力、物力的工作,嚴(yán)重制約臨床科研成果的產(chǎn)出效率。據(jù)統(tǒng)計(jì),在醫(yī)院采用傳統(tǒng)人工模式僅在數(shù)據(jù)處理階段就需要1~2個(gè)月、數(shù)據(jù)抽取耗時(shí)5個(gè)月、科學(xué)研究約需1個(gè)月,醫(yī)護(hù)科研人員的時(shí)間大量花費(fèi)在數(shù)據(jù)的準(zhǔn)備階段[22]。有研究認(rèn)為,臨床數(shù)據(jù)獲取困難且需要大量的手工處理,導(dǎo)致科研周期長(zhǎng)、效率低下。合理的方式是科研人員將精力放在科研本身,節(jié)約科研人員的時(shí)間,提高科研產(chǎn)出[23]。大數(shù)據(jù)時(shí)代需要大數(shù)據(jù)思維,大數(shù)據(jù)思維強(qiáng)調(diào)整體性,要求用整體的眼光看待數(shù)據(jù),與個(gè)體化時(shí)代強(qiáng)調(diào)研究部分有代表性的數(shù)據(jù)大不相同[24]。
本研究采用了離線(xiàn)方式抽取2016—2021年近5 年的某綜合性三甲醫(yī)院全量臨床檢驗(yàn)數(shù)據(jù),沿用了現(xiàn)存業(yè)務(wù)部門(mén)與信息技術(shù)部門(mén)的合作模式和流程。使用了基于公有云服務(wù)的大數(shù)據(jù)平臺(tái)和機(jī)器學(xué)習(xí)平臺(tái),大幅降低了試錯(cuò)成本,提高了研究效率。對(duì)全項(xiàng)醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)不做p特定需求的處理并采用SQL腳本固化了數(shù)據(jù)治理、開(kāi)發(fā)的方法和經(jīng)驗(yàn),可以平滑遷移到將來(lái)的自建醫(yī)療大數(shù)據(jù)平臺(tái),既可對(duì)歷年醫(yī)學(xué)檢驗(yàn)數(shù)據(jù)統(tǒng)一處理,又可以實(shí)時(shí)處理新增醫(yī)學(xué)檢驗(yàn)數(shù)據(jù),彌補(bǔ)本研究?jī)H離線(xiàn)處理時(shí)段性歷史數(shù)據(jù)的不足。