亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于既有醫(yī)療數(shù)據(jù)構(gòu)建研究型數(shù)據(jù)庫的方法學(xué)探討及實(shí)例解讀(二):數(shù)據(jù)治理的方法

        2023-09-25 06:51:32趙國楨閆世艷郭玉紅宋爽胡雅慧郭詩琪徐霄龍葉浩然朱泠霏杜元任志穎盧海天胡晶李博劉清泉
        中國中醫(yī)藥信息雜志 2023年9期
        關(guān)鍵詞:數(shù)據(jù)庫

        趙國楨,閆世艷 ,郭玉紅 宋爽 ,胡雅慧 ,郭詩琪 ,徐霄龍 葉浩然 朱泠霏 杜元 任志穎 ,盧海天 胡晶李博劉清泉

        1.首都醫(yī)科大學(xué)附屬北京中醫(yī)醫(yī)院,北京市中醫(yī)藥研究所,北京 100010;2.北京中醫(yī)藥循證醫(yī)學(xué)中心,北京 100010; 3.北京中醫(yī)藥大學(xué),北京 100029; 4.天津中醫(yī)藥大學(xué),天津 301617

        隨機(jī)對照試驗(yàn)(randomized controlled trial,RCT)一般被認(rèn)為是干預(yù)措施療效和安全性評價(jià)的金標(biāo)準(zhǔn)[1]。但因其外推性較差、對于某些疾病領(lǐng)域難以實(shí)施、人力物力成本較高等因素,存在一定的局限性。如開展中醫(yī)藥RCT時(shí),由于存在辨證論治的特點(diǎn),若對患者證型加以限制,會(huì)增加患者招募難度,延長試驗(yàn)周期;而不對證型進(jìn)行限制,又可能低估中醫(yī)藥干預(yù)措施的實(shí)際療效??紤]到中醫(yī)藥在臨床實(shí)踐中被大量使用,具有較豐富的醫(yī)療數(shù)據(jù),研究者可通過真實(shí)世界研究(real-world study,RWS),利用臨床實(shí)際產(chǎn)生的數(shù)據(jù),系統(tǒng)性地收集、治理并分析,形成真實(shí)世界證據(jù)(realworld evidence,RWE),與RCT互補(bǔ),為醫(yī)療衛(wèi)生決策提供證據(jù)支持[2]。相較RCT,RWS可有較為寬泛的納排標(biāo)準(zhǔn),但仍需科學(xué)合理的研究設(shè)計(jì),以及完整、可靠的數(shù)據(jù)來源[3]。因此,基于真實(shí)世界數(shù)據(jù)(realworld data,RWD)開展嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)治理工作,構(gòu)建高質(zhì)量的研究型數(shù)據(jù)庫,是進(jìn)行RWS的關(guān)鍵基礎(chǔ)[4]。目前,國內(nèi)已有多篇相關(guān)技術(shù)規(guī)范,指導(dǎo)研究型數(shù)據(jù)庫的建設(shè)[4-5]。但因中醫(yī)藥RWD的復(fù)雜等特點(diǎn),數(shù)據(jù)治理過程仍面臨困難。

        本文以“中西醫(yī)結(jié)合治療新型冠狀病毒感染研究型數(shù)據(jù)庫”為例,對基于既有醫(yī)療數(shù)據(jù)構(gòu)建研究型數(shù)據(jù)庫中數(shù)據(jù)治理的方法進(jìn)行探討。本研究經(jīng)首都醫(yī)科大學(xué)附屬北京中醫(yī)醫(yī)院醫(yī)學(xué)倫理委員會(huì)審查批準(zhǔn)(2022-BL02-033-01),并在中國臨床研究注冊中心注冊(ChiCTR2200062917)[6]。

        1 相關(guān)概念和總體設(shè)計(jì)

        和既有醫(yī)療數(shù)據(jù)比較,研究型數(shù)據(jù)庫具有基本明確研究目的和研究對象、確定研究變量、數(shù)據(jù)格式統(tǒng)一、完成數(shù)據(jù)脫敏及異常數(shù)據(jù)清理等特點(diǎn)。為實(shí)現(xiàn)這些特點(diǎn),嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)治理工作是必要的。數(shù)據(jù)治理指針對特定臨床研究問題,為達(dá)到適用于統(tǒng)計(jì)分析而對原始數(shù)據(jù)所進(jìn)行的治理[7]。數(shù)據(jù)治理主要包括4個(gè)步驟:數(shù)據(jù)鏈接、數(shù)據(jù)提取、數(shù)據(jù)核查及數(shù)據(jù)清理,具體工作內(nèi)容見表1[4]。各步驟間存在區(qū)別,但實(shí)施時(shí)易相互混淆,導(dǎo)致步驟遺漏,如人工數(shù)據(jù)提取后未進(jìn)行數(shù)據(jù)核查及清洗。高質(zhì)量研究型數(shù)據(jù)庫的每一個(gè)變量均需按照上述步驟逐一完成。

        表1 數(shù)據(jù)治理各步驟的主要工作內(nèi)容

        2 數(shù)據(jù)鏈接

        構(gòu)建研究型數(shù)據(jù)庫的原始數(shù)據(jù)常多源,如電子醫(yī)療記錄、患者自行報(bào)告的中醫(yī)癥狀及舌象記錄等,且研究型數(shù)據(jù)庫通常包含多個(gè)變量集和數(shù)據(jù)模塊,因此需要通過鏈接變量實(shí)現(xiàn)數(shù)據(jù)鏈接。原始數(shù)據(jù)中可能存在多組鏈接變量,如以病案號鏈接病程記錄數(shù)據(jù)、以標(biāo)本號鏈接實(shí)驗(yàn)室檢查數(shù)據(jù)等。但在研究型數(shù)據(jù)庫中,通常以一個(gè)準(zhǔn)確的、無重復(fù)的、唯一的患者識別碼(identification number,ID)為鏈接變量,實(shí)現(xiàn)各變量集和數(shù)據(jù)模塊的鏈接。

        數(shù)據(jù)鏈接的工作核心是對患者ID進(jìn)行治理?;颊逫D是既有數(shù)據(jù)的一部分,也會(huì)出現(xiàn)重復(fù)、矛盾、缺失等問題。錯(cuò)誤的患者ID會(huì)導(dǎo)致數(shù)據(jù)鏈接錯(cuò)誤,給其他數(shù)據(jù)的治理過程帶來困難,因此需先對患者ID進(jìn)行核查及清理。課題組提出“縱向鎖定”方法,即在數(shù)據(jù)治理前需先明確既有數(shù)據(jù)中所包含的與本研究相關(guān)的全部患者及其ID,即使該患者只在一個(gè)數(shù)據(jù)集中被提及。在待建的橫截面數(shù)據(jù)集中,這些患者ID會(huì)形成一個(gè)無缺失的、無重復(fù)的縱向序列,并在全部橫截面數(shù)據(jù)集中該序列完全相同。這一縱向序列在后期數(shù)據(jù)治理過程中,無論如何調(diào)整數(shù)據(jù)庫變量都不應(yīng)發(fā)生改變,成為“鎖定狀態(tài)”,故稱為“縱向鎖定”。

        以本課題涉及的一家醫(yī)療中心數(shù)據(jù)為例,構(gòu)建數(shù)據(jù)庫所使用的既有數(shù)據(jù)包括入院記錄數(shù)據(jù)、出院記錄數(shù)據(jù)、死亡記錄數(shù)據(jù)、病案首頁數(shù)據(jù)、病程記錄數(shù)據(jù)、醫(yī)囑單數(shù)據(jù)、實(shí)驗(yàn)室檢查數(shù)據(jù)、影像學(xué)檢查數(shù)據(jù)共8個(gè)來源。首先對各來源數(shù)據(jù)集中的患者ID進(jìn)行核查及清理,使其格式相同且與患者準(zhǔn)確對應(yīng);接著在既有數(shù)據(jù)集內(nèi)對ID進(jìn)行去重,再將不同數(shù)據(jù)集的ID合并、數(shù)據(jù)集間去重、排序;最終形成該中心全部患者ID的縱向序列。具體流程見圖1。

        圖1 患者ID縱向序列確定流程

        3 數(shù)據(jù)提取

        3.1 數(shù)據(jù)提取方式

        原始數(shù)據(jù)通常從臨床中采集,但并非所有原始數(shù)據(jù)都被用于數(shù)據(jù)庫建設(shè),因此需按照預(yù)設(shè)的數(shù)據(jù)提取表進(jìn)行數(shù)據(jù)提取。數(shù)據(jù)提取可分為以下3種方式:計(jì)算機(jī)提取、人工提取和兩者的結(jié)合。3種數(shù)據(jù)提取方式的優(yōu)缺點(diǎn)及舉例見表2。數(shù)據(jù)提取時(shí),應(yīng)根據(jù)待建數(shù)據(jù)庫的變量格式和既有數(shù)據(jù)庫的變量格式共同確定提取方式。對于結(jié)構(gòu)化程度高的數(shù)據(jù),如醫(yī)囑、實(shí)驗(yàn)室檢查數(shù)據(jù),可直接使用計(jì)算機(jī)提??;對于非結(jié)構(gòu)化數(shù)據(jù),或需要復(fù)雜邏輯判斷數(shù)據(jù),如從病程中提取癥狀、生命體征數(shù)據(jù),通常使用計(jì)算機(jī)和人工結(jié)合的提取方式,即先通過計(jì)算機(jī)技術(shù)對其預(yù)處理,如關(guān)鍵詞抽取、文本切割等,再通過人工方式進(jìn)行數(shù)據(jù)提??;本課題多采用兩者結(jié)合方式提取數(shù)據(jù)。

        表2 不同數(shù)據(jù)提取方式對比

        數(shù)據(jù)提取期間需重點(diǎn)關(guān)注的是,凡涉及到人工操作,就會(huì)因知識基礎(chǔ)和對具體操作方法的理解不同,造成不同研究人員的提取結(jié)果存在差異的情況。減少差異的最佳方式是采用雙人背靠背獨(dú)立完成數(shù)據(jù)提取,再相互比對,但該方法較為耗時(shí)耗力,在數(shù)據(jù)量較大時(shí)難以實(shí)施。本課題根據(jù)實(shí)際情況,采取培訓(xùn)、預(yù)提取、格式限定、定期討論、不定期抽查等方法,盡可能降低由于不同人員操作引起的差異。

        以生命體征數(shù)據(jù)集中的血氧飽和度變量提取為例。對比多源數(shù)據(jù)可靠性后,選擇從病程記錄數(shù)據(jù)提取生命體征數(shù)據(jù)??紤]病程記錄數(shù)據(jù)為非結(jié)構(gòu)化文本數(shù)據(jù),因此選擇計(jì)算機(jī)和人工結(jié)合的提取方式。首先通過計(jì)算機(jī)對病程記錄數(shù)據(jù)預(yù)處理。通過數(shù)據(jù)對比,病程中與血氧飽和度相關(guān)的關(guān)鍵詞包括“SPO”“SPO2%”“血氧”“指氧”“脈氧”等42種。使用計(jì)算機(jī)截取各關(guān)鍵詞后的10個(gè)字符,從字符中提取數(shù)字,得到初步結(jié)果,再進(jìn)行人工提取。提取前對全部參加數(shù)據(jù)提取工作的人員開展培訓(xùn),詳細(xì)講解數(shù)據(jù)提取方案和規(guī)則,并對5%的數(shù)據(jù)進(jìn)行預(yù)提取。預(yù)提取后由數(shù)據(jù)核查團(tuán)隊(duì)逐一核查預(yù)提取結(jié)果,總結(jié)錯(cuò)誤及錯(cuò)誤原因,并通過小組會(huì)議進(jìn)行講解和討論。同時(shí),課題組對數(shù)據(jù)提取格式進(jìn)行限定,在電子數(shù)據(jù)提取表中僅可以填寫0~100的整數(shù),否則系統(tǒng)會(huì)提示并自動(dòng)清空已填寫數(shù)據(jù)。

        3.2 數(shù)據(jù)提取順序

        構(gòu)建研究型數(shù)據(jù)庫時(shí),各數(shù)據(jù)集的數(shù)據(jù)提取順序沒有嚴(yán)格要求。但部分?jǐn)?shù)據(jù)集中的某些變量會(huì)用于其他數(shù)據(jù)集變量的衍生計(jì)算,因此需先行提取。如本課題縱向數(shù)據(jù)集中的時(shí)間變量及橫截面數(shù)據(jù)集中的“住院天數(shù)”“生存天數(shù)”“首次服用中藥時(shí)的住院天數(shù)”等變量,其衍生運(yùn)算需要基于患者基本信息數(shù)據(jù)集中的“入院日期”變量,因此優(yōu)先對患者基本信息數(shù)據(jù)集、醫(yī)囑單數(shù)據(jù)集和病程記錄數(shù)據(jù)集開展數(shù)據(jù)提取工作。

        3.3 數(shù)據(jù)脫敏處理

        數(shù)據(jù)脫敏是保障醫(yī)療數(shù)據(jù)安全的重要途徑之一[8]。需進(jìn)行脫敏的數(shù)據(jù)包括且不限于患者及聯(lián)系人姓名、患者家庭及工作地址、患者及聯(lián)系人聯(lián)系方式、患者身份證及社??ㄌ?、患者出生死亡及出入院日期、醫(yī)護(hù)人員姓名及工號、住院科室等相關(guān)信息。

        數(shù)據(jù)脫敏處理應(yīng)在保證數(shù)據(jù)有效性的前提下進(jìn)行。數(shù)據(jù)脫敏的具體方法主要分為5種。①抑制:全部或部分刪除敏感信息;②去標(biāo)識化:用“*”替換敏感信息;③替代:使用偽裝數(shù)據(jù)、假名替換原數(shù)據(jù)中的敏感信息;④數(shù)值變換:對日期類型的敏感數(shù)據(jù),可通過加減同一個(gè)隨機(jī)天數(shù),實(shí)現(xiàn)脫敏;⑤泛化:對數(shù)據(jù)進(jìn)行抽象或概括性描述處理,如詳細(xì)住址可泛化為“北京市東城區(qū)”。

        4 數(shù)據(jù)核查

        不同提取方式得到的數(shù)據(jù)均存在數(shù)據(jù)錯(cuò)誤的可能性,且與前瞻性研究收集的數(shù)據(jù)相比,既有醫(yī)療數(shù)據(jù)出現(xiàn)錯(cuò)誤的可能性更高,因此有必要開展數(shù)據(jù)核查。數(shù)據(jù)核查的難點(diǎn)在于確定核查范圍,范圍過小會(huì)遺漏錯(cuò)誤數(shù)據(jù),范圍過大會(huì)消耗不必要的人力和時(shí)間。

        本課題根據(jù)數(shù)據(jù)情況,采用抽樣核查和全面核查相結(jié)合方式。抽樣核查指以系統(tǒng)抽樣方式隨機(jī)抽取一定比例數(shù)據(jù)進(jìn)行核查,多用于邏輯復(fù)雜的數(shù)據(jù),如核查人工提取數(shù)據(jù)的準(zhǔn)確性,通常為人工核查;全面核查是對該變量的全部數(shù)據(jù)進(jìn)行核查,多用于邏輯簡單的數(shù)據(jù),如醫(yī)囑單中各醫(yī)囑執(zhí)行時(shí)間是否在入院日期及出院日期之間,通常用計(jì)算機(jī)核查。但對于非常關(guān)鍵的變量,如主要結(jié)局指標(biāo)等,通常也會(huì)進(jìn)行人工全面核查。在抽樣核查時(shí)可先確定一個(gè)較低的抽樣比例,以盡可能減少工作量,但核查期間若發(fā)現(xiàn)某個(gè)條件下多次出現(xiàn)問題數(shù)據(jù),可針對這一條件的數(shù)據(jù)提高抽樣比例,甚至對該條件下的全部數(shù)據(jù)進(jìn)行核查。

        抽樣核查以中醫(yī)治療數(shù)據(jù)集的“連花清瘟膠囊使用情況”變量為例。該變量由計(jì)算機(jī)結(jié)合人工的方式,從醫(yī)囑單、病程記錄等多源數(shù)據(jù)中提取。核查組首先以5%比例進(jìn)行抽樣核查,發(fā)現(xiàn)少量自備藥患者,由于醫(yī)囑單中缺少自備藥的備注數(shù)據(jù),且病程記錄中誤寫為“蓮花清瘟膠囊”,故先前未識別出患者服用該藥物,被錯(cuò)判為“未使用”。因此,對病程記錄中“蓮花”等關(guān)鍵詞補(bǔ)充檢索并重新提取相關(guān)數(shù)據(jù)。數(shù)據(jù)提取完成后對該變量再次核查。

        全面核查以生命體征數(shù)據(jù)集為例。該數(shù)據(jù)集為縱向數(shù)據(jù),關(guān)鍵變量包括體溫、呼吸頻率、心率、收縮壓、舒張壓和血氧飽和度,采用計(jì)算機(jī)與人工結(jié)合的方式從病程記錄數(shù)據(jù)集中提取。除抽樣核查數(shù)據(jù)提取準(zhǔn)確性外,該數(shù)據(jù)集還采用計(jì)算機(jī)對極端值、缺失值、矛盾數(shù)據(jù)進(jìn)行全面逐一核查。

        5 數(shù)據(jù)清理

        數(shù)據(jù)清理的重點(diǎn)在于對核查出的各種問題數(shù)據(jù)制定恰當(dāng)?shù)那謇硪?guī)則。問題數(shù)據(jù)主要包括:非標(biāo)準(zhǔn)化數(shù)據(jù)、重復(fù)數(shù)據(jù)、矛盾數(shù)據(jù)、極端值和缺失值。數(shù)據(jù)清理應(yīng)保證數(shù)據(jù)的真實(shí)性和可溯源性,即在清理期間,保存原始數(shù)據(jù),并記錄數(shù)據(jù)清理流程,以供后期使用。

        5.1 非標(biāo)準(zhǔn)化數(shù)據(jù)

        數(shù)據(jù)標(biāo)準(zhǔn)化也稱為數(shù)據(jù)的一致性處理,如記錄格式統(tǒng)一、編碼統(tǒng)一等[5]。如本課題中的日期類型變量,該變量在SAS9.4軟件中可有多種格式,不同格式包含的信息及表達(dá)方式存在差異。本研究統(tǒng)一采用“YYMMDD10.”作為日期類型數(shù)據(jù)格式。

        5.2 重復(fù)數(shù)據(jù)

        重復(fù)數(shù)據(jù)指多個(gè)不同來源的數(shù)據(jù)引起的變量和數(shù)據(jù)重復(fù)[5]。若變量的多源數(shù)據(jù)一致,一般不做特殊處理;但若變量的多源數(shù)據(jù)不一致,則需對比不同來源數(shù)據(jù)的質(zhì)量,建立矛盾重復(fù)數(shù)據(jù)優(yōu)先級,刪除重復(fù)變量。部分重復(fù)數(shù)據(jù)還會(huì)因患者ID錯(cuò)誤引起,本課題已對患者ID進(jìn)行“縱向鎖定”,因此不會(huì)出現(xiàn)該問題。

        以基本信息數(shù)據(jù)集的“入院日期”變量為例。該變量共有6個(gè)數(shù)據(jù)來源:入院記錄、出院記錄、死亡記錄、病案首頁中的入院日期變量,以及首次病程記錄日期、首次醫(yī)囑單日期。經(jīng)數(shù)據(jù)質(zhì)量評價(jià),以上6個(gè)變量均有較好的可靠性。課題組將同一患者的6個(gè)數(shù)據(jù)進(jìn)行比對,發(fā)現(xiàn)以下2個(gè)問題:

        首次醫(yī)囑日期與入院日期不符。根據(jù)臨床實(shí)際情況,首次醫(yī)囑日期應(yīng)該是入院當(dāng)天,但部分患者的首次醫(yī)囑日期是在入院日期的后1天。通過進(jìn)一步查看這些患者的既有數(shù)據(jù),發(fā)現(xiàn)其入院時(shí)間均在22點(diǎn)30分以后,首次醫(yī)囑時(shí)間均為次日凌晨,符合邏輯關(guān)系,因此仍以原有入院日期為準(zhǔn)。

        病案首頁入院日期與其他來源不符。通過多源數(shù)據(jù)對比,發(fā)現(xiàn)極少數(shù)患者病案首頁的入院日期比入院記錄/出院記錄的入院日期晚1天。通過查看既有數(shù)據(jù),這些患者的首次醫(yī)囑日期與病案首頁的入院日期相同,且首次病程、主治醫(yī)師查房記錄的日期符合病案首頁入院日期的邏輯關(guān)系,最終確定以病案首頁來源的入院日期為準(zhǔn)。

        5.3 矛盾數(shù)據(jù)

        矛盾數(shù)據(jù)也稱為邏輯錯(cuò)誤數(shù)據(jù),主要指變量之間不符合邏輯關(guān)系。通常需要對矛盾的各數(shù)據(jù)分別核實(shí),找到矛盾的原因,并對數(shù)據(jù)進(jìn)行修正。

        如在基本信息數(shù)據(jù)集中,有個(gè)別患者既存在出院事件又存在死亡事件,2個(gè)變量矛盾。對2個(gè)變量的數(shù)據(jù)來源進(jìn)行核實(shí),發(fā)現(xiàn)這些患者既有出院記錄,又有死亡記錄,仍存在矛盾。進(jìn)一步核實(shí)病程記錄數(shù)據(jù)集,根據(jù)末次病程記錄獲得患者真實(shí)轉(zhuǎn)歸情況,對出院事件、死亡事件的變量數(shù)據(jù)進(jìn)行校正。

        5.4 極端值

        極端值也稱為離群值或奇異值,指某一變量中遠(yuǎn)大于或遠(yuǎn)小于其他數(shù)據(jù)的數(shù)據(jù)。極端值可分為人為極端值和自然極端值。自然極端值建議采用穩(wěn)健的統(tǒng)計(jì)方法進(jìn)行分析;人為極端值需經(jīng)核實(shí)后進(jìn)行校正[5]。

        如生命體征數(shù)據(jù)集中的體溫變量(℃),觀測值出現(xiàn)“63.4”“364”等極端值,經(jīng)課題組比對鄰日體溫、討論后認(rèn)為該觀測值為人為極端值,均應(yīng)為“36.4”。需注意的是,極端值不代表數(shù)據(jù)一定錯(cuò)誤,但出錯(cuò)的可能性較高,應(yīng)對其逐一清理。

        5.5 缺失值

        缺失值在臨床研究中是一個(gè)不可避免的問題[9]。處理缺失值的最好方式是避免缺失值產(chǎn)生,如在回顧性研究中應(yīng)盡可能對缺失值進(jìn)行溯源,但通常情況下難以實(shí)現(xiàn),因此需在統(tǒng)計(jì)分析階段對其進(jìn)行處理。

        如本課題對于非結(jié)局指標(biāo)類變量,根據(jù)變量類型采用均值、中位數(shù)、眾數(shù)等簡單且保守的填補(bǔ)策略;對于結(jié)局指標(biāo)類變量采用多重填補(bǔ)法,并對不同填補(bǔ)結(jié)果開展敏感性分析。

        6 小結(jié)

        在確定變量清單和數(shù)據(jù)庫架構(gòu)后,應(yīng)開展數(shù)據(jù)治理工作[10]。良好的數(shù)據(jù)治理,可為后續(xù)研究提供準(zhǔn)確的、可靠的數(shù)據(jù),是開展高質(zhì)量RWS的重要基礎(chǔ)。數(shù)據(jù)治理的難點(diǎn)可概括如下:①以唯一、無重復(fù)的患者ID序列進(jìn)行數(shù)據(jù)鏈接,并“縱向鎖定”;②盡可能減少不同操作人員在數(shù)據(jù)提取時(shí)的差異;③根據(jù)研究需要選擇恰當(dāng)?shù)臄?shù)據(jù)核查范圍;④對不同類型的問題數(shù)據(jù)制定恰當(dāng)?shù)那謇硪?guī)則。

        本文在數(shù)據(jù)提取部分,介紹了不同研究人員進(jìn)行人工操作時(shí)存在差異的問題,以及減少這些差異的方法。在數(shù)據(jù)核查和數(shù)據(jù)清理階段,同樣會(huì)涉及人工操作的差異化問題。此時(shí),仍可采用雙人背對背完成、培訓(xùn)、數(shù)據(jù)預(yù)提取或預(yù)清理、定期討論、不定期抽查等方法,以盡可能提高操作的同質(zhì)性,減少人為誤差。

        中醫(yī)藥RWS在數(shù)據(jù)治理及數(shù)據(jù)衍生階段仍面臨一些困難。如中醫(yī)四診數(shù)據(jù)多從病程記錄中提取,但由于不同醫(yī)生對四診信息的記錄存在差異,且原始數(shù)據(jù)的準(zhǔn)確性和完整性普遍不高,通常難以獲得可靠的四診信息。此外,中醫(yī)治療數(shù)據(jù)可能涉及患者服用的真實(shí)草藥處方,這些處方基本不同,難以開展下一步研究。本課題組嘗試使用其他來源數(shù)據(jù)對四診信息進(jìn)行補(bǔ)充;采用相似度匹配算法對草藥處方進(jìn)行分類[11],以“類方”的形式開展研究等方法解決上述問題。但如何建立高質(zhì)量的中醫(yī)藥研究型數(shù)據(jù)庫,并在此基礎(chǔ)上開展高質(zhì)量中醫(yī)藥RWS,仍需要臨床、方法學(xué)、信息學(xué)、統(tǒng)計(jì)學(xué)等多學(xué)科專家共同探索。

        本文以“中西醫(yī)結(jié)合治療新型冠狀病毒感染研究型數(shù)據(jù)庫”為例,對基于既有醫(yī)療數(shù)據(jù)建立研究型數(shù)據(jù)庫中數(shù)據(jù)治理的方法及難點(diǎn)進(jìn)行介紹。本文介紹的數(shù)據(jù)治理方法及案例可供開展RWS的研究人員參考。

        猜你喜歡
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        兩種新的非確定數(shù)據(jù)庫上的Top-K查詢
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        數(shù)據(jù)庫
        亚洲第一幕一区二区三区在线观看 | 久久精品性无码一区二区爱爱| 91蜜桃国产成人精品区在线| 久久夜色国产精品噜噜亚洲av| 亚洲精品www久久久久久| 国产a三级久久精品| 超碰性爱| 放荡成熟人妻中文字幕| 特黄熟妇丰满人妻无码| 少妇高潮惨叫喷水在线观看| 福利片免费 亚洲| 国产自拍精品在线免费观看| 亚洲一区自拍高清亚洲精品| 国自产偷精品不卡在线| 亚洲女同精品久久女同| 人妻少妇精品视频一区二区三区l| 久久香蕉国产线看观看精品yw | av一区二区三区综合网站| 免费无码一区二区三区a片百度| 亚洲人成人77777网站| 亚洲性爱区免费视频一区| 人妻精品人妻一区二区三区四区| 精品国内在视频线2019| 国产三级在线视频播放| 国产精品人成在线765| 久久精品免费一区二区喷潮| 无遮挡又黄又刺激又爽的视频| 亚洲性69影视| 一区二区三区av在线| 无遮挡呻吟娇喘视频免费播放| 亚洲地址一地址二地址三| av成人资源在线播放| 国99精品无码一区二区三区| 中文字幕一区二区三区精彩视频| 国产成人啪精品视频免费网| 久久中文字幕暴力一区| 免费无码一区二区三区蜜桃| 亚洲成av人片无码不卡播放器| av在线播放一区二区免费| av国产传媒精品免费| 久久综合第一页无码|