中國(guó)疾病預(yù)防控制中心農(nóng)村改水技術(shù)指導(dǎo)中心(102200) 李洪興 董國(guó)慶 王 麗 張 榮 陶 勇
SAS軟件在公共衛(wèi)生監(jiān)測(cè)數(shù)據(jù)核查中的應(yīng)用
中國(guó)疾病預(yù)防控制中心農(nóng)村改水技術(shù)指導(dǎo)中心(102200) 李洪興 董國(guó)慶 王 麗 張 榮 陶 勇△
△通訊作者:陶勇,E-mail:TaoYong@crwstc.org
公共衛(wèi)生監(jiān)測(cè)是指長(zhǎng)期、連續(xù)、系統(tǒng)地收集、分析和解釋與健康狀態(tài)、疾病、傷害、公共衛(wèi)生事件及其影響因素相關(guān)的資料,將分析結(jié)果和信息及時(shí)分發(fā)或反饋到有關(guān)機(jī)構(gòu)和人員,并且利用監(jiān)測(cè)信息的過(guò)程〔1〕。從監(jiān)測(cè)數(shù)據(jù)管理的角度來(lái)看,公共衛(wèi)生監(jiān)測(cè)是“數(shù)據(jù)形成”和“數(shù)據(jù)流動(dòng)”的過(guò)程?!皵?shù)據(jù)的形成”即數(shù)據(jù)采集,“數(shù)據(jù)的流動(dòng)”則包括數(shù)據(jù)上報(bào)、錄入、審核、評(píng)價(jià)、分析和利用等多個(gè)環(huán)節(jié)。從這一角度看,監(jiān)測(cè)數(shù)據(jù)核查在整個(gè)監(jiān)測(cè)活動(dòng)中起“承上啟下”的重要作用。同時(shí),監(jiān)測(cè)數(shù)據(jù)的一個(gè)重要特點(diǎn)是,數(shù)據(jù)量大,質(zhì)量參差不齊,通過(guò)手工核查數(shù)據(jù)不僅效率低,而且容易出錯(cuò)。本文就SAS在監(jiān)測(cè)數(shù)據(jù)核查中的應(yīng)用做分析研究。
數(shù)據(jù)核查是對(duì)數(shù)據(jù)的完整性、準(zhǔn)確性和邏輯性進(jìn)行檢查。完整性核查包含兩個(gè)方面,一是檢查記錄中關(guān)鍵變量有無(wú)缺失、遺漏,二是檢查數(shù)據(jù)是否達(dá)到調(diào)查或?qū)嶒?yàn)設(shè)計(jì)的預(yù)期目標(biāo)。準(zhǔn)確性是指測(cè)量結(jié)果與真實(shí)情況的符合程度,這個(gè)可以通過(guò)抽樣復(fù)核或類似數(shù)據(jù)比對(duì)來(lái)進(jìn)行篩查。數(shù)據(jù)的邏輯性檢查,是對(duì)數(shù)據(jù)是否符合常識(shí)或?qū)I(yè)情況要求的一種檢查。
數(shù)據(jù)核查的基本流程包括數(shù)據(jù)備份,定制數(shù)據(jù)核查規(guī)則,編寫(xiě)數(shù)據(jù)核查程序,計(jì)算機(jī)數(shù)據(jù)核查,手工復(fù)核等階段。對(duì)核查出來(lái)的異常數(shù)據(jù)的處理一般是:(1)電話或傳真核實(shí);(2)關(guān)鍵問(wèn)題的再培訓(xùn);(3)現(xiàn)場(chǎng)核實(shí)等。數(shù)據(jù)核查的一個(gè)重要原則是保證數(shù)據(jù)的可溯源性,對(duì)數(shù)據(jù)的原始狀態(tài)、修訂狀況都要有完整記錄。
(1)程序流程設(shè)計(jì)
首先要梳理業(yè)務(wù)邏輯規(guī)則,建立數(shù)據(jù)核查的標(biāo)準(zhǔn),并設(shè)計(jì)邏輯結(jié)構(gòu)嚴(yán)謹(jǐn)?shù)腟AS程序。SAS數(shù)據(jù)核查程序一般有以下幾個(gè)步驟:數(shù)據(jù)讀入;建立異常數(shù)據(jù)規(guī)則碼表和顏色碼表;通過(guò)數(shù)據(jù)步或PROC SQL語(yǔ)句篩選異常數(shù)據(jù);調(diào)用異常數(shù)據(jù)規(guī)則碼表給異常數(shù)據(jù)增加標(biāo)示變量;根據(jù)標(biāo)示碼表調(diào)用顏色碼表給不符合要求的數(shù)據(jù)增加顏色標(biāo)示并輸出為Excel表。此操作的目的是給不同的邏輯異常類型標(biāo)示不同顏色,使核查結(jié)果數(shù)據(jù)清晰準(zhǔn)確。
(2)利用SAS篩選異常數(shù)據(jù)
在異常數(shù)據(jù)篩選中比較常用的有DATA步和PROC SQL。如舒張壓大于收縮壓的數(shù)據(jù)可以用下面的過(guò)程:
對(duì)于數(shù)據(jù)缺失的篩選可以使用Where P1 is null;對(duì)變量的值閾校驗(yàn)可以使用Between and;另外,可以使用like關(guān)鍵詞配合%等通配符進(jìn)行更復(fù)雜的數(shù)據(jù)篩選〔2〕。另外常用于監(jiān)測(cè)數(shù)據(jù)核查的DATA步語(yǔ)句還有IF、CASE等。而使用SQL語(yǔ)句可以實(shí)現(xiàn)一些更為復(fù)雜的查詢,如查找ID重復(fù)的數(shù)據(jù)可以使用下面的命令:
在實(shí)際應(yīng)用中,兩種方法應(yīng)結(jié)合起來(lái),一般來(lái)說(shuō)對(duì)于大型的數(shù)據(jù)集,使用DATA的效率要遠(yuǎn)高于SQL,而使用SQL語(yǔ)句又能實(shí)現(xiàn)一些DATA無(wú)法完成的查詢,如復(fù)雜的表間關(guān)系核查。
(3)異常數(shù)據(jù)的顏色標(biāo)示
對(duì)識(shí)別的異常數(shù)據(jù)可以通過(guò)DATA語(yǔ)句或SQL語(yǔ)句賦予一個(gè)標(biāo)準(zhǔn)碼值。下面介紹如何使用這個(gè)碼值,來(lái)給數(shù)據(jù)標(biāo)示顏色。假設(shè)有一條記錄的舒張壓大于收縮壓,即P1變量大于P2變量,我們要做的工作是讓P1和P2變量輸出時(shí)標(biāo)示為紅色。另外,假設(shè)這種異常類型在碼表里標(biāo)示為“19”(變量名為AboID)。
利用ODS技術(shù),當(dāng)某條記錄的舒張壓大于收縮壓時(shí),在運(yùn)行數(shù)據(jù)核查程序時(shí),這條記錄便被篩選出來(lái),并在輸出的Excel核查文件的相應(yīng)變量上標(biāo)示紅色。當(dāng)數(shù)據(jù)核查員看到紅色標(biāo)示時(shí),就可以發(fā)現(xiàn)數(shù)據(jù)邏輯問(wèn)題并解決。因此,利用SAS軟件可以實(shí)現(xiàn)數(shù)據(jù)的批量核查,可以實(shí)現(xiàn)從數(shù)據(jù)讀取,異常記錄篩選,異常變量標(biāo)示,異常記錄數(shù)據(jù)輸出等的全程自動(dòng)化。
本文探討了利用SAS軟件進(jìn)行監(jiān)測(cè)數(shù)據(jù)復(fù)核的方法,由于SAS軟件在處理大型數(shù)據(jù)集上有相當(dāng)?shù)膬?yōu)勢(shì),所以這一方法有著很大的現(xiàn)實(shí)意義。另外,隨著數(shù)據(jù)的積累,公共衛(wèi)生監(jiān)測(cè)數(shù)據(jù)挖掘的概念也逐步得到關(guān)注。利用先進(jìn)的數(shù)據(jù)挖掘技術(shù)加強(qiáng)突發(fā)公共衛(wèi)生事件預(yù)警、控制與管理工作,以便準(zhǔn)確及時(shí)地獲取所需要的管理信息〔3〕。數(shù)據(jù)挖掘的前提和關(guān)鍵是原始數(shù)據(jù)的質(zhì)量,如何從海量的龐雜的數(shù)據(jù)中,提取有用的信息,用于公共衛(wèi)生決策支持,是一個(gè)重要的問(wèn)題。本文介紹的使用SAS進(jìn)行異常數(shù)據(jù)篩選、標(biāo)示的方法也同樣適用于醫(yī)學(xué)數(shù)據(jù)挖掘領(lǐng)域。
1.曾光.現(xiàn)代流行病學(xué)方法與應(yīng)用.北京:北京醫(yī)科大學(xué)中國(guó)協(xié)和醫(yī)科大學(xué)聯(lián)合出版社,1996:39.
2.姚志勇.SAS編程與數(shù)據(jù)挖掘商業(yè)實(shí)踐.北京:機(jī)械工業(yè)出版社,2010:93.
3.徐遠(yuǎn)平,汪尤利.數(shù)據(jù)挖掘在高校突發(fā)公共衛(wèi)生事件預(yù)警和控制中的應(yīng)用.現(xiàn)代預(yù)防醫(yī)學(xué),2007,34(17):3326-3327.