謝裕軍
(舟山市統(tǒng)計局普查中心/主任,浙江 舟山 316021)
透析人口普查數(shù)據(jù)審核的有效方法
謝裕軍
(舟山市統(tǒng)計局普查中心/主任,浙江 舟山 316021)
數(shù)據(jù)質(zhì)量是普查工作的第一生命線,而數(shù)據(jù)審核是確保普查數(shù)據(jù)質(zhì)量的最終屏障。當(dāng)前,數(shù)據(jù)審核存在未提前謀劃、未編制專項審核程序等問題。建議拓寬數(shù)據(jù)審核的狹義范圍,并提出了從夯實基礎(chǔ)、細(xì)致審核、周密評估等三個方面來切實做好數(shù)據(jù)審核的若干有效方法和齊心協(xié)力、兵貴神速的審核工作要求。
人口普查;數(shù)據(jù)審核;方法
普查數(shù)據(jù)質(zhì)量是普查工作的第一生命線。做好普查數(shù)據(jù)審核工作與抓好清查摸底、普查登記、確保原始調(diào)查數(shù)據(jù)質(zhì)量是普查全過程質(zhì)量控制的最為關(guān)鍵的兩個工作環(huán)節(jié),而數(shù)據(jù)審核是確保普查數(shù)據(jù)質(zhì)量的最終屏障。只有確保了最終上報數(shù)據(jù)的高質(zhì)量才能使普查工作立于不敗之地。本文以舟山市第六次人口普查為實證,結(jié)合筆者本人的親身實踐和體會來探討人口普查數(shù)據(jù)審核的有效方法。
狹義的數(shù)據(jù)審核僅指普查數(shù)據(jù)以手工或光電掃描錄入到計算機(jī)后對數(shù)據(jù)內(nèi)部存在的邏輯差錯和合法而不合理差錯進(jìn)行查錯改錯的過程。筆者認(rèn)為這樣的認(rèn)識太過粗淺,或者說是數(shù)據(jù)審核的范圍太過狹窄。
數(shù)據(jù)審核應(yīng)該泛指對與普查數(shù)據(jù)直接或間接相關(guān)的以計算機(jī)數(shù)據(jù)為表現(xiàn)形式的調(diào)查數(shù)據(jù)、編碼、標(biāo)準(zhǔn)、匯總數(shù)據(jù)等的綜合審核。
首先,數(shù)據(jù)審核區(qū)別于對清查摸底表、普查登記表等手工填表數(shù)據(jù)的人工審核,指的是對計算機(jī)數(shù)據(jù)或信息的審核。對于錄入到計算機(jī)的摸底表匯總數(shù)據(jù)、手工快速匯總數(shù)據(jù),則也可把它們列入到數(shù)據(jù)審核的對象范圍,通過設(shè)置審核公式等來提高上報質(zhì)量。
其次,數(shù)據(jù)審核至少包括三大方面內(nèi)容。一是對與調(diào)查數(shù)據(jù)相關(guān)的分類、編碼、標(biāo)準(zhǔn)等基礎(chǔ)數(shù)據(jù)(信息)的審核,比如對普查區(qū)地址碼、普查小區(qū)地址碼、城鄉(xiāng)劃分碼、舟山島嶼地址碼的審核。二是對普查調(diào)查數(shù)據(jù)的邏輯審核、合法而不合理數(shù)據(jù)的審核,也就是傳統(tǒng)狹義范圍的數(shù)據(jù)審核。三是對匯總的綜合性數(shù)據(jù)的審核,以確保最終數(shù)據(jù)的合理性、與經(jīng)濟(jì)社會發(fā)展趨勢的吻合性。由于這三類數(shù)據(jù)都是以計算機(jī)數(shù)據(jù)形式存放在電腦里,因此可以采用計算機(jī)數(shù)據(jù)處理的相關(guān)技術(shù),并結(jié)合人工質(zhì)量評估的方法來做好對它們的審核。
當(dāng)前,數(shù)據(jù)審核存在四方面問題。
1.未提前謀劃,造成審核關(guān)系(公式)缺漏。往往在普查數(shù)據(jù)處理期間還多次反復(fù)修補審核關(guān)系,造成審核反復(fù),引起基層怨言。
2.對難以用審核公式表示的審核關(guān)系缺少有效的審核方法,沒有編制專項審核程序,導(dǎo)致數(shù)據(jù)審核不嚴(yán)格,存在盲區(qū)。
3.在方案設(shè)計制定時未從數(shù)據(jù)最終使用角度出發(fā)提前考慮綜合指標(biāo)數(shù)據(jù)的匯總公式和口徑,導(dǎo)致指標(biāo)設(shè)計有缺陷、綜合指標(biāo)數(shù)據(jù)難以有效匯總,影響了數(shù)據(jù)的匯總、評估和資料開發(fā)進(jìn)程。
4.對地址碼等分組、分類基礎(chǔ)信息審核不夠重視。如在數(shù)據(jù)光電掃描時才發(fā)現(xiàn)普查小區(qū)碼庫有遺漏、多余等。
對與調(diào)查數(shù)據(jù)相關(guān)的分類、編碼、標(biāo)準(zhǔn)等基礎(chǔ)數(shù)據(jù)(信息)的審核是數(shù)據(jù)審核的基石。
1.地址碼和城鄉(xiāng)劃分碼審核。首先,要設(shè)置嚴(yán)密的邏輯審核條件做好地址碼庫的機(jī)審。一是審核地址編碼是否規(guī)范,如行政村的3位編碼是否以“2”開頭、普查小區(qū)個數(shù)是否等于小區(qū)的最大編碼(判斷是否連續(xù)編碼、有無遺漏)、區(qū)劃名稱和編碼有無重復(fù)等。二是審核城鄉(xiāng)連接屬性是否編錯、是否與地址碼相匹配,如某個小海島鄉(xiāng)鎮(zhèn)下屬村的2位連接屬性編碼不能以“1、2”開頭,因為不可能與縣級政府連接等;其次,根據(jù)民政等部門的區(qū)域信息來核查行政區(qū)域有無遺漏、撤擴(kuò)并區(qū)域及相應(yīng)的城鄉(xiāng)劃分碼有無調(diào)整等;再次,要把新的地址碼庫與上年的統(tǒng)計地址碼庫進(jìn)行比對,對每一項變動都要仔細(xì)核查,確保萬無一失。
2.統(tǒng)計標(biāo)準(zhǔn)的審核。一般而言,盡量要直接取得已被多次使用并證實是正確的標(biāo)準(zhǔn)化電子文檔或數(shù)據(jù)庫表,如農(nóng)普、經(jīng)普中已經(jīng)使用過的行業(yè)、職業(yè)碼表。但有時因某些原因難以獲取,就要根據(jù)書籍、教材等通過人工錄入來構(gòu)建電子化碼表,而方法主要是采用人工審核,輔以計算機(jī)邏輯關(guān)系審核。
3.自增分類等其他基礎(chǔ)信息的審核。如舟山為了出份島嶼的人口資料,就必須增設(shè)島嶼地址碼庫。同樣,也要通過設(shè)置邏輯審核條件和人工評估來做好審核。
對普查調(diào)查數(shù)據(jù)的邏輯審核、合法而不合理數(shù)據(jù)的審核,也就是傳統(tǒng)狹義范圍的審核,是數(shù)據(jù)審核的主體。人口普查將之稱為編審凈化。
1.細(xì)致認(rèn)真,精心研究設(shè)置(增設(shè))審核關(guān)系。上級審核關(guān)系不全面、不嚴(yán)密,在歷次普查中或多或少存在,導(dǎo)致上下需要進(jìn)行多輪審核,即使如此還常常需要進(jìn)行集中會審。因此,作為地方各級普查辦,要在研究國家程序?qū)徍岁P(guān)系基礎(chǔ)上,盡早研究,進(jìn)一步完善邏輯審核關(guān)系,盡力做到嚴(yán)密而不遺漏。
一是完善指標(biāo)取值范圍和指標(biāo)之間、表表之間的審核關(guān)系。如“戶主的父母、岳父母、祖父母、媳婿的婚姻狀況不能填未婚”、“本科以下在校生有過婚姻,請核實”、“離開戶籍地原因為‘婚嫁’而婚姻狀況為‘未婚’,有沖突”等。對于戶主底冊住房情況錄入數(shù)據(jù),由于國家下發(fā)的程序中幾乎沒有邏輯審核關(guān)系,筆者對此就增補了十余條審核關(guān)系。
二是增加記錄總數(shù)遺漏或多余等檢查的審核關(guān)系。如在人普短表審核中,由于此時長表還未掃描,因此應(yīng)增加審核關(guān)系:“短表最大正常戶編號(編號600以下戶)大于等于正常戶戶數(shù)的92%時,請檢查長表抽樣比例是否正確?!睂嶋H有些小區(qū)長表抽樣錯誤,比例遠(yuǎn)小于8%而不是規(guī)定的約10%;有些小區(qū)對長表戶同時又填報了短表;有些小區(qū)沒有抽取長表。對于這些情況通過設(shè)置關(guān)系就能查出錯誤,而有些地區(qū)未設(shè)置該關(guān)系,導(dǎo)致后來長短表沖突,影響上報質(zhì)量。
三是增設(shè)針對本地實際的審核關(guān)系。如:“舟山戶籍50周歲以下婦女存活子女人數(shù)超過2人,請核實”,對生3個孩子及以上婦女家庭要核實,看是否有雙胞胎之類。
2.創(chuàng)設(shè)過渡表進(jìn)行審核。數(shù)據(jù)記錄間的相互關(guān)系,有的可以用一條邏輯審核關(guān)系來實現(xiàn)審核,如“戶主的配偶有2個及以上”、“戶主父母有3個及以上,或父母的性別相同”,用一條SQL語句還是可以檢查的,而有些就比較困難,如“岳父母或公婆,與戶主子女的年齡相差小于30歲”。對此,筆者通過編制小程序來產(chǎn)生一張“家庭成員關(guān)系表”,把家庭成員之間的關(guān)系以多條記錄形式一一羅列,再對這張過渡性的“家庭成員關(guān)系表”設(shè)置邏輯審核關(guān)系,對成員關(guān)系的所有審核就迎刃而解了。
3.編制專項檢查程序。有些審核,靠幾條審核關(guān)系是難以實現(xiàn)的。如戶籍少數(shù)民族人口的正確性問題,對此筆者專門編制了一個與公安戶籍人口庫進(jìn)行對比檢查的專項程序,產(chǎn)生對比不一致的人口清單并交付基層核查。
4.人工審核與機(jī)審的結(jié)合。人普長表行業(yè)、職業(yè)編碼的審核,不能像經(jīng)濟(jì)普查那樣根據(jù)主要業(yè)務(wù)活動來審核,因為對應(yīng)的文字雖經(jīng)掃描但并沒有識別入庫。對此,可用三種方法來做好審核:一是利用某些行業(yè)碼與職業(yè)碼互有沖突、不能成對出現(xiàn)的情況設(shè)置相應(yīng)的邏輯審核關(guān)系;二是把行業(yè)碼、職業(yè)碼配上行業(yè)標(biāo)準(zhǔn)和職業(yè)標(biāo)準(zhǔn)的文字信息,組織人工進(jìn)行審核;三是根據(jù)人工審核后錯誤的行業(yè)、職業(yè)組合構(gòu)建一張錯誤組合碼表,設(shè)置一條邏輯審核關(guān)系判斷行業(yè)職業(yè)組合是否在其中,是的話就需要核查,以此來避免數(shù)據(jù)修改后的人工多次復(fù)審。
對匯總的綜合數(shù)據(jù)的審核,包括數(shù)據(jù)之間的邏輯審核和質(zhì)量評估,應(yīng)以確保最終數(shù)據(jù)的合理性和與發(fā)展趨勢的銜接性,這是數(shù)據(jù)審核的最終屏障,也是把好質(zhì)量關(guān)的重要一環(huán)。
邏輯審核就是判斷經(jīng)匯總得到的綜合性數(shù)據(jù)之間有無邏輯矛盾和互相沖突的地方,可以依照前述方法通過設(shè)置檢查公式和人工審核相結(jié)合的方法來審核。當(dāng)數(shù)據(jù)間沖突時,要判別是因為口徑不一致還是匯總程序或匯總公式錯誤引起,及時向上級反映,如果是自行編制的程序就修正程序。
質(zhì)量評估,就是要評估各類人口大數(shù)、人口結(jié)構(gòu)數(shù)據(jù)、綜合指標(biāo)數(shù)據(jù)是否符合本地實際,與經(jīng)濟(jì)社會發(fā)展趨勢、有關(guān)部門行政登記數(shù)據(jù)、前次人口普查數(shù)據(jù)等是否吻合。重點做好六方面評估工作:一是常住人口、外來人口、現(xiàn)有人口、家庭戶規(guī)模、城鎮(zhèn)化水平等是否符合發(fā)展趨勢;二是戶籍人口、戶籍人口的年齡性別結(jié)構(gòu)、戶籍少數(shù)民族人口與公安部門戶籍登記數(shù)據(jù)是否吻合;三是年齡結(jié)構(gòu)、性別結(jié)構(gòu)、受教育程度相對“五普”數(shù)據(jù)的延續(xù)性,異動點判斷是否受到外來人口結(jié)構(gòu)的較大影響;四是出生、死亡人口數(shù)據(jù)與民政、衛(wèi)生、計生等部門數(shù)據(jù)的吻合性;五是人口自然增長率、就業(yè)失業(yè)率、勞動參與率、少數(shù)民族人口、人口平均預(yù)期壽命等的合理性;六是這些綜合數(shù)據(jù)的地區(qū)間差異是否正常。質(zhì)量評估主要依靠人工審核和判斷評估,輔之以專門編制的匯總小程序、匯總公式、數(shù)據(jù)圖表(如男女人口金字塔、年齡性別結(jié)構(gòu)曲線、城鎮(zhèn)化率直方圖等)來完成。
1.充分認(rèn)識,上下齊心。省、市、縣區(qū)、鄉(xiāng)鎮(zhèn)街道等各級人普機(jī)構(gòu)要切實增強對數(shù)據(jù)審核重要性的認(rèn)識,上下齊心、步調(diào)一致;人普辦領(lǐng)導(dǎo)、業(yè)務(wù)和編碼組、數(shù)據(jù)處理組要形成合力抓數(shù)據(jù)審核,確保普查數(shù)據(jù)上報質(zhì)量。
2.統(tǒng)計與計算機(jī)專業(yè)人員的緊密結(jié)合。復(fù)雜的邏輯審核關(guān)系,要全面、嚴(yán)密設(shè)置到數(shù)據(jù)處理程序中或自行編制專項檢查程序,就必須做到人普辦內(nèi)部統(tǒng)計(普查)專業(yè)業(yè)務(wù)人員與計算機(jī)數(shù)據(jù)處理技術(shù)人員的緊密結(jié)合,互相配合。
3.兵貴神速的工作作風(fēng)。邏輯審核關(guān)系一定要提早研究,有些指標(biāo)、指標(biāo)間關(guān)系、表間關(guān)系甚至在方案設(shè)計過程中就要熟悉精通。普查表式一旦定案,就要及早確定邏輯審核關(guān)系,力爭全面而嚴(yán)密。同時,在工作中要搶抓時間,提早開展一些必要的工作。如普查方案規(guī)定死亡表掃描時間與普查長表一樣放在第二批,由于死亡表數(shù)據(jù)與短表的戶信息有非常密切的聯(lián)系,因此舟山提早進(jìn)行死亡表的光電掃描,在舟山普查伴侶程序中設(shè)置短表與死亡表之間的邏輯審核關(guān)系進(jìn)行數(shù)據(jù)審核,提高了舟山普查短表上報的數(shù)據(jù)質(zhì)量,贏得了主動。
10.3969/j.issn.1674-8905.2011.11.023
張巧燕)