摘 要: 利用數(shù)據(jù)預(yù)處理技術(shù),將腦卒中發(fā)病病例信息數(shù)據(jù)中的大量信息進(jìn)行處理,去除了數(shù)據(jù)中的數(shù)據(jù)不一致、冗余、錯(cuò)誤信息等,提高了數(shù)據(jù)質(zhì)量,有助于篩選出相對(duì)可靠的數(shù)據(jù),從而有利于得出真實(shí)、準(zhǔn)確的數(shù)據(jù)分析結(jié)果。
關(guān)鍵詞: 數(shù)據(jù)預(yù)處理; 數(shù)據(jù)質(zhì)量; 腦卒中; Excel
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2013)12-55-02
Application of data preprocessing technology in stroke patients information database
Yu Cuilan
(Department of computer science ,Dehong Teacher's College, Luxi, Yunnan 678400, China)
Abstract: Data preprocessing technology is applied to process large amounts of information in stroke patient data, to solve the problem of data inconsistency, redundancy, error information, etc. The preprocessing results improve data quality, help to select relatively reliable data, draw the true and accurate data analysis results.
Key words: data preprocessing; data quality; stroke; Excel
0 引言
現(xiàn)實(shí)世界的數(shù)據(jù)一般是不完整的、含噪聲的、不一致的,并且數(shù)據(jù)量大,多數(shù)還來自多個(gè)異構(gòu)數(shù)據(jù)源。這就給后續(xù)的數(shù)據(jù)分析和數(shù)據(jù)挖掘帶來極大的麻煩,甚至導(dǎo)致錯(cuò)誤的結(jié)論,所以有必要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,以提高數(shù)據(jù)質(zhì)量,從而提高分析結(jié)果的質(zhì)量。數(shù)據(jù)預(yù)處理[1-2]主要是指數(shù)據(jù)的抽取、轉(zhuǎn)化、和清理。抽取是指從外圍系統(tǒng)或源系統(tǒng)中把數(shù)據(jù)導(dǎo)入;轉(zhuǎn)化一般是指對(duì)數(shù)據(jù)進(jìn)行統(tǒng)一(包括數(shù)據(jù)格式和數(shù)據(jù)編碼的統(tǒng)一),清理是指把一些垃圾數(shù)據(jù)清理掉,保留有用數(shù)據(jù)。腦卒中是腦中風(fēng)的學(xué)名,是一種突然起病的腦血液循環(huán)障礙性疾病。人們想要根據(jù)病例數(shù)據(jù),對(duì)發(fā)病人群進(jìn)行統(tǒng)計(jì)描述,研究腦卒中發(fā)病率與氣溫、氣壓、年齡、職業(yè)的關(guān)系,對(duì)高危人群提出預(yù)警和干預(yù)的建議方案等。本文以中國(guó)某城市四家醫(yī)院2007年1月至2010年12月的腦卒中發(fā)病病例信息數(shù)據(jù)集(共61927條)為例,闡述了對(duì)這些數(shù)據(jù)進(jìn)行預(yù)處理的過程。
1 數(shù)據(jù)預(yù)處理
1.1 數(shù)據(jù)說明
數(shù)據(jù)來源于中國(guó)某城市四家醫(yī)院2007年1月至2010年12月的腦卒中發(fā)病病例信息(每家醫(yī)院一個(gè)excel數(shù)據(jù)表,分別是data1.xls、data2.xls、data3.xls、data4.xls,共有61927條記錄),數(shù)據(jù)字段格式如表1所示。
表1 數(shù)據(jù)字段格式
[Sex\Age\Occupation\Time of incidence\Report time\2\80\3\02-03-1990\03-01-2008\1\72\ \03/07/2008\20/07/2008\1\31\1\2009-9-9\2009-9-22\2\79\ \2009-03-08\2009-03-08\2\67\7\2009-3-17\ \1\63\ \2009-4-9\2009-04-09\2\80\1\03/07/2008\04/07/2008\2\83\1\03-05-2007\19-01-2008\]
先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理:根據(jù)四個(gè)數(shù)據(jù)表的Time of incidenc(發(fā)病時(shí)間)找出2007年至2010年每年的腦卒中病人信息。以下是對(duì)四個(gè)數(shù)據(jù)表的數(shù)據(jù)預(yù)處理的過程。
1.2 data1.xls數(shù)據(jù)預(yù)處理
⑴ 工作表“腦卒中”中,字段Time of incidence的值不規(guī)范,首先對(duì)它進(jìn)行處理,例如將值為“18-01-2007”的格式轉(zhuǎn)換為“2007-1-18”的格式,步驟如下:
① 選擇Time of incidence列,單擊“數(shù)據(jù)”-“分列”,分割符號(hào)用“-”,目標(biāo)區(qū)域到“$g$1”,使Time of incidence列的值分割成了三列,分別放到了g、h、i列;
② 單擊“數(shù)據(jù)”-“自動(dòng)篩選”,單擊i列的“自定義”,條件為“大于或等于2007”且“小于或等于2007”,例如篩選出所有格式為“18-01-2007”的病人記錄;
③ 單擊篩選出的病人記錄,按ctrl+A鍵,按ctrl+x鍵,新建一工作表dateformat,單擊A2,按ctrl+v鍵,則將篩選出的全部數(shù)據(jù)剪切到另一個(gè)工作表dateformat中;
④ 在工作表dateformat中,在單元格j2輸入公式“=date(i2,h2,g2)”,得到如“2007-1-18”的日期格式,然后在此列拖動(dòng)填充按鈕,得到所有如“2007-1-18”的日期格式;
⑤ 選擇j列,單擊“編輯”-“復(fù)制”,單擊單元格k2,單擊“編輯”-“選擇性粘貼”,單擊“值和數(shù)字格式”,單擊“確定”;
⑥ 刪除字段Time of incidence的值,將字段k的值復(fù)制到字段Time of incidence中;
將工作表dateformat中a列到e列的病人記錄加入到原工作表腦卒中。
至此,字段Time of incidence的值轉(zhuǎn)換完成。
⑵ 對(duì)處理后的工作表“腦卒中”,使用“數(shù)據(jù)”-“自動(dòng)篩選”,使用字段Time of incidence的“自定義”,分別篩選出Time of incidence為2007年(如設(shè)置條件為 “大于或等于2007-1-1”且“小于或等于2007-12-31”)、無效日期的記錄,并將它們分別存放到各個(gè)新建的工作表中。
1.3 data2.xls數(shù)據(jù)預(yù)處理
⑴ 工作表“腦卒中”中字段Time of incidence的值較為復(fù)雜,有格式:例如“18-01-2007”、“26/05/2008”、“2008-07-06“、“2009-2-12”,針對(duì)這些格式,要把它改成如“2008-7-6”的格式,方法同1.2,只是把分列時(shí)的分割符設(shè)為“/”和“-”,再分別對(duì)年在前面的和年在最后的格式進(jìn)行處理。
⑵ 將工作表“腦卒中”中字段Time of incidence的值為如“20080710”的格式轉(zhuǎn)換成的格式轉(zhuǎn)換為如“2008-7-10”的格式,方法如下:①找到第一個(gè)如“20080710”的格式,單擊左上角的綠色三角旁邊的下拉箭頭,選“轉(zhuǎn)換成數(shù)字”,則將文本數(shù)字轉(zhuǎn)換成了數(shù)字;②使用“數(shù)據(jù)”-“自動(dòng)篩選”,使用字段Time of incidence的“自定義”條件為“大于或等于20080101”且“小于或等于20081231”,篩選出如“20080710”的格式的數(shù)據(jù);③對(duì)篩選出的數(shù)據(jù),使用left()、mid()、right()三個(gè)函數(shù)分別取出年(2008)、月(07)、日(10),最后再用date函數(shù)得到格式為“2008-7-10”的日期。
⑶ 對(duì)處理后的工作表“腦卒中”,使用“數(shù)據(jù)”-“自動(dòng)篩選”,使用字段Time of incidence的“自定義”,分別篩選出Time of incidence為2007年、2008年、2009年、無效日期的記錄,并將它們分別存放到各個(gè)新建的工作表中。
1.4 data3.xls數(shù)據(jù)預(yù)處理
以工作表“腦卒中”中字段Time of incidence的值為例將“2007-04-02”的格式轉(zhuǎn)換為如“2007-4-2”的格式,方法同1.2,先分列,然后用data()合成日期。
對(duì)處理后的工作表“腦卒中”,使用“數(shù)據(jù)”-“自動(dòng)篩選”,使用字段Time of incidence的“自定義”,分別篩選出Time of incidence為2007年、2008年、2009年、2010年,以及無效日期的記錄,并將它們分別存放到各個(gè)新建的工作表中。
1.5 data4.xls數(shù)據(jù)預(yù)處理
⑴ 工作表“腦卒中”中字段Time of incidence的值含日期時(shí)間格式,首先要將日期時(shí)間分割開來:“數(shù)據(jù)-分列”,使用空格分割。
⑵ 該工作表“腦卒中”中字段Time of incidence如“04-10-2009”的格式,實(shí)際上就是“2009-10-4”,因此,選中該列,右鍵選“設(shè)置單元格格式”,數(shù)字選“日期”-“2001-3-14”,則將所有“04-10-2009”的格式顯示成了“2009-10-4”的格式。
⑶ 將字段Time of incidence如“'2007-01-05”的格式轉(zhuǎn)為“2007-1-5”的格式,方法同1.2。
⑷ 對(duì)處理后的工作表“腦卒中”,使用“數(shù)據(jù)”-“自動(dòng)篩選”,使用字段Time of incidence的“自定義”,分別篩選出Time of incidence為2007年、2008年、2009年、2010年,以及無效日期的記錄,并將它們分別存放到各個(gè)新建的工作表中。
最后,將四個(gè)數(shù)據(jù)文件data1、data2、data3、data4中的2007年、2008年、2009年、2010年、無效日期的數(shù)據(jù)分別放到一起,得到五個(gè)數(shù)據(jù)集,表2是2008年的其中幾條病人記錄。
表2 2008年病例信息表的其中幾條病人記錄
[Sex\Age\Occupation\Time of incidence\Report time\1\86\0\2008-3-1\2009-02-27\2\63\3\2008-5-15\2009-07-31\2\69\0\2008-7-1\2009-07-1\2\68\6\2008-11-1\2009-09-15\1\80\0\2008-12-25\2009-05-31\2\72\1\2008-12-26\2009-01-09\1\72\1\2008-12-26\2009-01-09\2\57\0\2008-12-28\2009-05-01\]
2 結(jié)束語
通過分析腦卒中數(shù)據(jù)的特點(diǎn),利用缺失值處理、數(shù)據(jù)不一致處理、數(shù)據(jù)集成、數(shù)據(jù)泛化、屬性構(gòu)造、數(shù)據(jù)歸約等數(shù)據(jù)預(yù)處理技術(shù),對(duì)四家醫(yī)院2007年1月至2010年12月的腦卒中發(fā)病病例數(shù)據(jù)集進(jìn)行處理,闡述了對(duì)這些數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理的過程,提高了數(shù)據(jù)質(zhì)量,從而有利于得出真實(shí)、準(zhǔn)確的統(tǒng)計(jì)分析結(jié)論。
參考文獻(xiàn):
[1] 陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程(第2版)[M].清華大學(xué)出版社,
2011.
[2] 王麗珍等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘原理及應(yīng)用(第2版)[M].科學(xué)出版社,
2009.
[3] 常博,李振偉.數(shù)據(jù)預(yù)處理在高速公路收費(fèi)系統(tǒng)中的應(yīng)用[J].科技資
訊,2010.27(103).
[4] 劉莉,徐玉生,馬志新.數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理技術(shù)綜述[J]. 甘肅科學(xué)
學(xué)報(bào),2003.1:117-119
[5]王華,胡學(xué)鋼.醫(yī)學(xué)數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理與Apriori算法改進(jìn)[J].
計(jì)算機(jī)系統(tǒng)應(yīng)用,2009.9:94-97