亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

淺談醫(yī)學數據常見質量問題及其清洗方法

2016-05-14 12:57:21武瑞仙周紅

科技資訊 2016年6期

武瑞仙周紅

【摘要】隨著社會經濟的發(fā)展和大數據時代的到來，各行業(yè)的數據量越來越大，醫(yī)療衛(wèi)生領域尤為明顯。數據數量的增長同時，數據質量的控制也給廣大研究人員帶來一定的困擾。本文在充分文獻分析的基礎上，探討了常見的數據質量問題及其清洗方法，總結了數據清洗六個步驟，旨在為衛(wèi)生研究人員提供參考。

【關鍵詞】醫(yī)學數據；數據質量；數據清洗

中圖分類號： R197.3 文獻標識碼：A 文章編號：1672-3791（2016）02（c）-0000-00

一、醫(yī)學研究數據

醫(yī)學研究數據指的是在醫(yī)學研究中觀測個體的某種特征或屬性的觀測值。更準確地講，是醫(yī)學研究中所有觀測個體的觀測值的集合。醫(yī)學研究數據作為醫(yī)學研究的核心對象，和整個研究的目的、設計和收集整理都密切相關，是醫(yī)學研究最重要的組成部分之一，醫(yī)學研究數據的質量也在很大程度上決定了醫(yī)學研究的質量。在實際研究中，搜集到的數據質量往往和預期目標存在較大差距，這些問題來源于醫(yī)學數據的整個產生過程。

二、常見質量問題

醫(yī)學測量過程包含三個核心要素：測量對象、測量規(guī)則和測量值。醫(yī)學研究數據質量問題多來源于兩個方面：一是測量錯誤，產生的原因一般是醫(yī)學測量過程中測量規(guī)則不當或是測量人員失誤。測量規(guī)則不當導致的誤差的大小和方向往往恒定不變或遵循著一定的規(guī)律變化，即通常屬于系統(tǒng)誤差。

二是輸入錯誤，是由數據錄入人員疏忽而造成的。在錄入流程不健全的情況下，尤其容易產生輸入錯誤。輸入錯誤導致的常見醫(yī)學數據質量問題有：

（1）不完整數據：一些應該有的信息缺失，如機構名稱、區(qū)域信息缺失等。

（2）錯誤數據：即錄入數據與原始測量數據存在不一致。

（3）重復數據：即“相似重復記錄”，指同一個研究對象在原始數據集中用多條不完全相同的記錄來表示，由于它們在格式、拼寫上的差異，導致數據庫管理系統(tǒng)不能正確識別。

可以看出，醫(yī)學數據質量問題來源于整個醫(yī)學研究過程，而隨著醫(yī)學研究的規(guī)模日益擴大，研究設計和實施的復雜性逐漸提高，醫(yī)學數據的質量也往往難以保證。而對于醫(yī)學數據中一些常見的質量問題，可以通過醫(yī)學數據清理對重復數據進行探測和判定；對缺失數據進行填補；采用分箱、聚類、回歸等多種手段對異常記錄處理，消除異常值，最終提高醫(yī)學數據質量，滿足研究分析需求，更好地達到研究目的。

三、數據清洗的基本內容

數據清洗的對象主要有重復的數據、不完整的數據和錯誤的數據，在衛(wèi)生領域中，這三類“臟數據”的處理是數據清洗的重要組成部分：相似重復記錄清洗是保證數據可用性的重要內容，在衛(wèi)生領域，經常出現同一個病人有多個檢查表或病歷信息，對于冗余信息剔除及可用信息的合并是重復記錄數據清洗的核心；缺失數據清洗則有助于醫(yī)務工作者了解數據收集的完整性，及時對必填信息和關鍵信息的收集過程加以控制，提高數據可用性；而異常數據的探測和清理則是判別和控制數據邏輯錯誤的重要手段。

四、數據清洗的基本流程

1.數據分析：數據分析是數據清洗的前提與基礎，通過詳盡的數據分析確定數據檢測算法、清洗策略等，還可以使用分析程序來獲得關于數據屬性的元數據，從而發(fā)現數據集中存在的質量問題。

2.定義數據清洗規(guī)則與工作流：根據上一步數據分析得到的結果來定義數據清洗規(guī)則和工作流等，其中包據確定數據源的個數，存在質量問題的醫(yī)學研究數據的多少程度，選擇合適的檢測算法、清洗策略、評估方法，需要執(zhí)行的數據轉換和清洗步驟。

3.數據檢測：根據確定的檢測算法檢測數據庫中的重復記錄和異常記錄。

4.數據清洗：執(zhí)行預先定義好的并且己經得到驗證的清洗策略、轉換規(guī)則和工作流等。數據清洗一般的類型轉換主要包括：

4.1對自由格式的屬性字段進行屬性分解，自由格式的屬性字段一般包含著很多的信息，而這些信息有時候需要進一步分解成多個屬性字段。

4.2處理輸入和拼寫錯誤，并盡可能地使其自動化，基于字典查詢的拼寫檢查對于發(fā)現拼寫錯誤有很大幫助。

4.3標準化：為了使實例匹配和合并變得更方便，應該把屬性值轉換成一致的和統(tǒng)一的格式。

5.數據清理流程評估：對定義的檢測算法、清洗轉換規(guī)則和工作流的正確性和效率進行驗證和評估?？梢栽跀祿吹臄祿颖旧线M行清洗驗證，當不滿足清洗要求時，要對檢測算法、轉換規(guī)則、工作流或系統(tǒng)參數進行調整和改進。

6.干凈數據回流：當數據被清洗后，干凈的數據應該替換數據源中原來存在質量問題的醫(yī)學數據，這樣不僅可以提高數據庫的數據質量，還可避免將來再次抽取數據后進行重復的清洗工作。

五、結束語

本文簡要的就醫(yī)學研究中數據常見質量問題、數據清洗內容及基本流程等幾個方面介紹了醫(yī)學數據常見質量問題的處理方式，揭示了數據質量問題的本質和標準化的清理流程，可操作性強。醫(yī)學領域數據事關人民的生命健康安全，其統(tǒng)計分析結果往往作為制定醫(yī)療措施的重要依據，因此，確保數據的真實可信十分必要。

參考文獻

[1]周奕辛.數據清洗算法的研究與應用[D].青島大學碩士畢業(yè)論文.2005.

[2]李鎰沖，姜勇，張梅，等.SAS軟件在中國慢性病及其危險因素監(jiān)測數據清理中的應用.現代預防醫(yī)學[J].3835-3842.

[3]葉鷗璟，李俊懷. 中文數據清洗研究綜述.計算機工程與應用[J].2012.48（14）：121-129.