孫玉環(huán)
傳統(tǒng)的紙版問(wèn)卷調(diào)查與CATI、CAPI等計(jì)算機(jī)輔助調(diào)查手段相比較,具有簡(jiǎn)單方便、成本低廉的優(yōu)點(diǎn),目前仍是應(yīng)用最為普遍的一種調(diào)查手段。由于紙版問(wèn)卷是由訪問(wèn)員手工填寫,錄入員依照問(wèn)卷的填寫內(nèi)容直接錄入,參與人員任何形式的理解偏誤或疏忽,都有可能會(huì)產(chǎn)生登記性錯(cuò)誤或跳轉(zhuǎn)錯(cuò)誤。因此,在數(shù)據(jù)錄入階段,采取恰當(dāng)有效的措施,及時(shí)防止、發(fā)現(xiàn)和糾正數(shù)據(jù)采集和數(shù)據(jù)錄入環(huán)節(jié)產(chǎn)生的錯(cuò)誤,是提高紙版問(wèn)卷調(diào)查數(shù)據(jù)質(zhì)量的重要保證。而EpiData Association開發(fā)的EpiData作為一個(gè)免費(fèi)的專業(yè)數(shù)據(jù)錄入和數(shù)據(jù)管理軟件,具有界面友好、簡(jiǎn)單實(shí)用、錄入效率高、錄入質(zhì)量好等優(yōu)點(diǎn)〔1〕,SAS系統(tǒng)也因具有完備的數(shù)據(jù)存取、數(shù)據(jù)管理、數(shù)據(jù)分析和展現(xiàn)功能以及高效、靈活的處理海量數(shù)據(jù)的能力〔2〕,在調(diào)研領(lǐng)域有著廣泛的應(yīng)用。筆者在調(diào)查實(shí)踐中處理紙版問(wèn)卷數(shù)據(jù)的一般做法是,先利用EpiData程序錄入數(shù)據(jù),然后導(dǎo)出為SAS格式數(shù)據(jù)集,再基于SAS系統(tǒng)進(jìn)行數(shù)據(jù)清理和數(shù)據(jù)庫(kù)的規(guī)范整理。
本文將基于EpiData 3.02與SAS 9.2系統(tǒng),具體探討紙版問(wèn)卷數(shù)據(jù)錄入中常用的一些質(zhì)量控制過(guò)程和技巧。具體可以分為數(shù)據(jù)錄入前的準(zhǔn)備、數(shù)據(jù)錄入過(guò)程中的質(zhì)量核查和數(shù)據(jù)錄入后的整理三個(gè)環(huán)節(jié)。
1.問(wèn)卷數(shù)據(jù)的完備性及初級(jí)邏輯性審核
在數(shù)據(jù)錄入工作開始之前,首先需要對(duì)每一份所回收問(wèn)卷數(shù)據(jù)的完備性進(jìn)行核查,如果發(fā)現(xiàn)問(wèn)卷中存在必填項(xiàng)空缺、字跡模糊、潦草難以辨認(rèn)、邏輯錯(cuò)誤等問(wèn)題,就需要聯(lián)系相關(guān)督導(dǎo)或訪員加以確認(rèn),盡可能消除調(diào)查環(huán)節(jié)中的錯(cuò)填和漏填現(xiàn)象,保證所回收調(diào)查問(wèn)卷填寫內(nèi)容的規(guī)范、完整和準(zhǔn)確,為下一步的數(shù)據(jù)核查和錄入工作做好準(zhǔn)備。
2.程序準(zhǔn)備
EpiData程序的設(shè)計(jì)思路是,首先通過(guò)簡(jiǎn)單的文本來(lái)定義數(shù)據(jù)庫(kù)結(jié)構(gòu),然后將其轉(zhuǎn)化為錄入文件,最后通過(guò)設(shè)置錄入條件來(lái)進(jìn)行質(zhì)量控制〔3〕。在EpiData中設(shè)計(jì)數(shù)據(jù)錄入條件時(shí),可以運(yùn)用以下幾個(gè)方面的技巧:
(1)基本核對(duì)命令的設(shè)置 EpiData程序?yàn)橛脩籼峁┝艘粋€(gè)基本的“添加核對(duì)命令”對(duì)話框(后綴為chk),可以直接輸入最常用的核查和限定條件。以某調(diào)查項(xiàng)目的數(shù)據(jù)錄入程序?yàn)槔瑸樽兞縃HNO(問(wèn)卷編碼)添加核對(duì)命令的對(duì)話框如圖1所示。其中,Range,Legal對(duì)話框用于為變量定義一組允許錄入的數(shù)值,Jumps對(duì)話框用于定義邏輯跳轉(zhuǎn)關(guān)系,Must enter對(duì)話框用于設(shè)定當(dāng)前變量是否必須錄入。
圖1 “添加核對(duì)命令”對(duì)話框
雖然EpiData程序?yàn)橛脩籼峁┝颂砑踊竞藢?duì)命令的對(duì)話窗口,但為了實(shí)現(xiàn)某些特殊要求,有時(shí)還需要打開編輯窗口,直接編寫相應(yīng)的限定錄入條件。
(2)問(wèn)卷編碼的唯一性保證 問(wèn)卷編碼的唯一性,是避免問(wèn)卷重復(fù)錄入以及進(jìn)行后續(xù)數(shù)據(jù)處理和分析的必要保證。在打開的“對(duì)該字段編輯核對(duì)項(xiàng)”的窗口中,為變量 HHNO(問(wèn)卷編碼)增加“KEY UNIQUE 1”限定條件,即可將其設(shè)置為關(guān)鍵變量,并根據(jù)它為每一條記錄創(chuàng)建唯一的索引,確保一份問(wèn)卷只錄入一次(如圖2所示)。
(3)特殊變量值的設(shè)定 由于問(wèn)卷調(diào)查的復(fù)雜性,不可避免地會(huì)存在受訪者表示不知道、拒絕回答、不適用以及漏填等情況,為了在數(shù)據(jù)錄入時(shí)能夠靈活應(yīng)對(duì)各種特殊情況,可以對(duì)這些特殊變量值做統(tǒng)一規(guī)定,用“-1”表示不知道、“-2”表示拒絕回答、“-8”表示不適用、“-9”表示未填答。另外,除開放問(wèn)題外,字符型變量最好事先轉(zhuǎn)化為離散型數(shù)值變量,以數(shù)值的形式錄入,在數(shù)據(jù)整理階段再輔之以值標(biāo)簽的形式表示,這樣可以大大提高數(shù)據(jù)錄入的速度。
圖2 保證問(wèn)卷編碼唯一性的編輯核對(duì)項(xiàng)對(duì)話框
(4)規(guī)范填充兩個(gè)跳轉(zhuǎn)變量之間的變量值JUMPS命令的作用是設(shè)置有條件的跳轉(zhuǎn),在JUMPS和END之間,用戶通過(guò)指定一個(gè)合法值,實(shí)現(xiàn)在該特定值下跳轉(zhuǎn)到相應(yīng)的目標(biāo)字段。一般情況下,兩個(gè)跳轉(zhuǎn)變量之間的變量值會(huì)被自動(dòng)設(shè)定為空或缺失值,此種情況的缺失應(yīng)為“不適用”情況,但如果事先不做設(shè)定,就會(huì)與訪員漏填、錄入員漏錄等原因造成的缺失相混淆,給后期的數(shù)據(jù)清理工作帶來(lái)麻煩。這時(shí),可以利用“JUMPS RESET-8”命令,把兩個(gè)跳轉(zhuǎn)變量之間的全部變量值自動(dòng)填充為“-8”(即不適用)。
數(shù)據(jù)錄入過(guò)程中的質(zhì)量核查,主要包括對(duì)雙人錄入結(jié)果的核查與更正以及變量間的邏輯一致性核查與更正。
1.雙錄入結(jié)果的核查
經(jīng)驗(yàn)表明,一份包含300個(gè)左右選項(xiàng)、難易程度中等的紙版調(diào)查問(wèn)卷,單次錄入的錯(cuò)誤率約為1%。為了保證數(shù)據(jù)錄入質(zhì)量,在經(jīng)費(fèi)允許的條件下,最好實(shí)行雙人錄入,然后再對(duì)雙錄入結(jié)果進(jìn)行比對(duì)。對(duì)發(fā)現(xiàn)的雙錄入結(jié)果不一致的信息,組織核查員查找原始紙版問(wèn)卷,依據(jù)問(wèn)卷實(shí)際填答情況,更正錄入錯(cuò)誤的信息。進(jìn)行雙錄入核對(duì)的前提條件是兩個(gè)數(shù)據(jù)庫(kù)所用關(guān)鍵變量必須唯一,只要其中一個(gè)數(shù)據(jù)庫(kù)中的關(guān)鍵變量有重復(fù)值,就不能進(jìn)行數(shù)據(jù)比較〔4〕。雙錄入結(jié)果的核查過(guò)程,既可以在EpiData程序中實(shí)現(xiàn),也可以利用SAS程序中的compare過(guò)程實(shí)現(xiàn)。
(1)基于EpiData程序的雙錄入結(jié)果核查過(guò)程的實(shí)現(xiàn)。在準(zhǔn)備雙錄入時(shí),利用菜單中的“工具”→“復(fù)制數(shù)據(jù)文件結(jié)構(gòu)”,將已經(jīng)建立好的數(shù)據(jù)庫(kù)的結(jié)構(gòu)拷貝、另存為一個(gè)新的數(shù)據(jù)庫(kù),而其中已經(jīng)錄入的數(shù)據(jù)并不會(huì)被拷貝到新的數(shù)據(jù)庫(kù)中。雙錄入完畢后,再進(jìn)入菜單“其他功能”→“對(duì)兩個(gè)相同數(shù)據(jù)文件進(jìn)行有效性檢驗(yàn)”,選擇要進(jìn)行比較的兩個(gè)數(shù)據(jù)庫(kù)的文件名,然后設(shè)置核查過(guò)程中的一些參數(shù)。
(2)基于SAS程序的雙錄入結(jié)果核查過(guò)程的實(shí)現(xiàn)。下面這段SAS程序代碼實(shí)現(xiàn)的是兩次錄入結(jié)果(one和two兩個(gè)數(shù)據(jù)集)基于關(guān)鍵變量hhno的匹配核對(duì)過(guò)程。運(yùn)行程序后所查找出來(lái)的不一致信息,通過(guò)SAS的ODS系統(tǒng)〔5〕,被存儲(chǔ)在名為“雙錄入不一致信息匯總”的excel數(shù)據(jù)集中。
ods listing exclude all;ods html file=“d:雙錄入不一致信息匯總.xls”;
data one;set sunny.one;proc sort;by hhno;run;data two;set sunny.two;proc sort;by hhno;run;
proc compare base=one compare=two listall outdif transpose out=clean maxprint=(32700,32700);
id hhno;run;
ods html close;ods listing exclude none;
2.邏輯一致性核查
EpiData程序中所建立的chk核查文件,主要是在數(shù)據(jù)錄入過(guò)程中交互式地影響數(shù)據(jù)的錄入,在一定程度上保證了錄入數(shù)據(jù)的合理性和正確性。而邏輯一致性核查,則是在數(shù)據(jù)錄入完畢后,依據(jù)問(wèn)卷各條記錄的邏輯關(guān)系,通過(guò)一次性設(shè)置一批核查命令(條件語(yǔ)句),檢查數(shù)據(jù)庫(kù)中數(shù)據(jù)的邏輯一致性。邏輯一致性核查既可以在EpiData程序中實(shí)現(xiàn),也可以利用SAS程序?qū)崿F(xiàn)。對(duì)核查程序發(fā)現(xiàn)的所有不符合一致性要求的記錄,需要通過(guò)查找原始問(wèn)卷、聯(lián)系訪問(wèn)員或受訪者進(jìn)行確認(rèn),如果為錄入錯(cuò)誤就給予糾正。
為方便數(shù)據(jù)使用者,對(duì)已經(jīng)錄入完畢并通過(guò)質(zhì)量核查的問(wèn)卷數(shù)據(jù),還需要進(jìn)行補(bǔ)充和替換變量值、核查野碼、添加變量標(biāo)簽和變量值標(biāo)簽等數(shù)據(jù)清理和規(guī)范整理工作。該過(guò)程基于SAS系統(tǒng)完成的效率和質(zhì)量要遠(yuǎn)高于EpiData系統(tǒng)和其他統(tǒng)計(jì)分析軟件。
1.變量值的補(bǔ)充和替換
依據(jù)紙版問(wèn)卷錄入數(shù)據(jù),即使對(duì)“不知道”、“拒絕回答”、“不適用”、“未填答”等情況,都要求訪員和錄入員分別相應(yīng)填寫“-1”、“-2”、“-8”和“-9”等特殊值,但由于疏忽等種種原因,有時(shí)某些數(shù)據(jù)點(diǎn)依然會(huì)顯示為缺失(數(shù)值變量為“.”,字符變量為空格)。數(shù)據(jù)清理時(shí),需要針對(duì)缺失值產(chǎn)生的不同原因,逐一或逐類進(jìn)行補(bǔ)充和更正。對(duì)能夠判斷為不適用的情況,可以利用SAS程序統(tǒng)一賦值為-8(不適用);對(duì)能夠判斷為應(yīng)填未填的情況,可以利用SAS程序統(tǒng)一賦值為-9(缺失值)。如果在數(shù)據(jù)錄入時(shí),事先并沒(méi)有在EpiData程序中把兩個(gè)跳轉(zhuǎn)變量之間的全部變量值自動(dòng)填充為“-8”,那么選項(xiàng)跳轉(zhuǎn)涉及到的變量值也會(huì)顯示為缺失,這時(shí)也需要統(tǒng)一將其賦值為-8。
2.核查野碼
由于調(diào)查執(zhí)行過(guò)程的復(fù)雜性,對(duì)匯總后的調(diào)查數(shù)據(jù),還需要通過(guò)查看所有變量的頻數(shù)分布和描述性分析結(jié)果,查找并更正各變量可能存在的野碼以及過(guò)大或過(guò)小的奇異值,比如父親的性別為女、住房面積超過(guò)1000平方米等,這種錯(cuò)誤基本上是由于訪問(wèn)員的填寫錯(cuò)誤造成的。
3.添加變量標(biāo)簽和變量值標(biāo)簽
由于從EpiData程序中導(dǎo)出的數(shù)據(jù)只存儲(chǔ)了變量的簡(jiǎn)單描述,為方便數(shù)據(jù)使用者,可以為全部變量添加完整的標(biāo)簽進(jìn)行說(shuō)明,標(biāo)簽的一般設(shè)定格式為“變量名+問(wèn)題完整描述”;對(duì)于離散型數(shù)值變量,還應(yīng)為變量添加值標(biāo)簽。
1.胡靜.EpiData軟件的特點(diǎn)及使用簡(jiǎn)介,疾病監(jiān)測(cè),2006,21(5),273-275.
2.姚志勇編著.SAS編程與數(shù)據(jù)挖掘商業(yè)案例.北京:機(jī)械工業(yè)出版社,2010,1-2.
3.郭海濤,張澤,解宏偉.EpiData軟件與Stata軟件數(shù)據(jù)文件的轉(zhuǎn)接,軟件導(dǎo)刊,2010,9(3),15-16.
4.鄭文新,汪文新.EpiData軟件在流行病學(xué)調(diào)查中建立數(shù)據(jù)庫(kù)的應(yīng)用,數(shù)理醫(yī)藥學(xué)雜志,2005,18(5):486-497.
5.修良昌,丁元林.SAS中網(wǎng)頁(yè)格式輸出的實(shí)現(xiàn),中國(guó)衛(wèi)生統(tǒng)計(jì),2009,26(2):210-211.