王小寧
(中國(guó)傳媒大學(xué) 數(shù)據(jù)科學(xué)與智能媒體學(xué)院,北京 100024)
基于人口調(diào)查的分析始終是人口學(xué)研究領(lǐng)域的一個(gè)關(guān)鍵問(wèn)題,當(dāng)前對(duì)人口統(tǒng)計(jì)相關(guān)的研究主要基于全國(guó)人口普查數(shù)據(jù),而對(duì)此的研究也集中采用第四、五、六次人口普查的數(shù)據(jù)。人口抽樣調(diào)查是根據(jù)隨機(jī)原則從所研究的人口總體中抽取一部分單位作為樣本,并利用抽取的樣本數(shù)據(jù)去推斷總體相應(yīng)各項(xiàng)指標(biāo)值的一種非全面調(diào)查。調(diào)查目的是用樣本信息去推斷總體信息,理想的情況是每個(gè)樣本代表的信息是相同的,但大多數(shù)情況下不同樣本代表的信息是有差異的。不少學(xué)者在處理抽樣數(shù)據(jù)時(shí),只是用抽樣數(shù)據(jù)直接對(duì)總體進(jìn)行估計(jì),而不去考慮樣本的代表性問(wèn)題,從而造成一定的偏差,使得樣本數(shù)據(jù)代表總體信息的說(shuō)服力下降,本文基于此種現(xiàn)狀提出一種基于權(quán)數(shù)的參數(shù)估計(jì)和控制方法。
本文旨在分析常規(guī)的人口抽樣調(diào)查中計(jì)算權(quán)數(shù)的一般步驟和權(quán)數(shù)調(diào)整及控制方法,并結(jié)合刀切法計(jì)算參數(shù)的標(biāo)準(zhǔn)誤差,將權(quán)數(shù)調(diào)整和權(quán)重控制方法同時(shí)加入到常規(guī)的加權(quán)估計(jì)中,一方面有效控制了估計(jì)的標(biāo)準(zhǔn)誤差,另一方面降低了變量的變異系數(shù)。同時(shí),采用第四次中國(guó)城鄉(xiāng)老年人生活狀況的調(diào)查數(shù)據(jù)(1)第四次中國(guó)城鄉(xiāng)老年人生活狀況抽樣調(diào)查數(shù)據(jù)來(lái)源于http://dscdc.cncaprc.gov.cn,由中國(guó)老齡科學(xué)研究中心提供。(以下簡(jiǎn)稱(chēng)老年人調(diào)查)為例進(jìn)行分析,證明加權(quán)調(diào)整方法的實(shí)用性和有效性。
權(quán)數(shù)就是一種表征樣本代表總體的指標(biāo),可表示為衡量被抽中的個(gè)體所能代表的抽樣群體的人口數(shù)量。廣義的權(quán)數(shù)是指以某種數(shù)量形式來(lái)測(cè)度被評(píng)價(jià)事物中各因素自身相對(duì)重要程度的度量值。權(quán)數(shù)是指以某種數(shù)量形式對(duì)比、權(quán)衡被評(píng)價(jià)事物總體中諸因素相對(duì)重要程度的量值,它集中反映了統(tǒng)計(jì)總體中各個(gè)指標(biāo)的重要程度。在抽樣中,權(quán)數(shù)反映每個(gè)最終樣本單元對(duì)總體單元代表性的程度,其在調(diào)查數(shù)據(jù)的統(tǒng)計(jì)推斷中,占有重要的地位。在人口抽樣調(diào)查中,權(quán)數(shù)表示被抽中的樣本在還原總體的過(guò)程中所代表的人口數(shù)。權(quán)數(shù)的作用主要體現(xiàn)在兩方面:一方面,通過(guò)權(quán)數(shù)能夠?qū)颖具€原到總體,反映不同單元在總體特征估計(jì)中的重要程度,獲得總體特征的無(wú)偏估計(jì);另一方面,由于抽樣的隨機(jī)性以及在實(shí)施過(guò)程中出現(xiàn)的無(wú)回答等情況,會(huì)使得樣本單元結(jié)構(gòu)和總體結(jié)構(gòu)之間不一致,這種不一致將會(huì)直接影響到統(tǒng)計(jì)推斷的精度,因此在實(shí)際使用權(quán)數(shù)過(guò)程中,需要對(duì)權(quán)數(shù)進(jìn)行適當(dāng)調(diào)整,以使得樣本單元的結(jié)構(gòu)和總體的結(jié)構(gòu)接近,方便進(jìn)行參數(shù)估計(jì)等深入的分析。
利用人口普查數(shù)據(jù)和抽樣調(diào)查數(shù)據(jù),不少研究者得出了很多有意義的結(jié)論,同時(shí)也發(fā)現(xiàn)了普查的一些問(wèn)題,例如吳連霞和吳開(kāi)亞采用全國(guó)第四、五、六次人口普查數(shù)據(jù)探析1990—2010 年中國(guó)人口老齡化時(shí)空演變規(guī)律,利用動(dòng)態(tài)年齡指標(biāo),通過(guò)構(gòu)建生命表測(cè)度老年人口與老齡化,運(yùn)用GIS空間分析法與固定年齡測(cè)算的老齡化進(jìn)行比較分析,厘清了悲觀(guān)老齡化的認(rèn)識(shí)誤區(qū),對(duì)拓展老年與老齡化研究方法和老齡社會(huì)的應(yīng)對(duì)策略等均具有一定的理論價(jià)值和現(xiàn)實(shí)意義[1]。張耀軍等根據(jù)北京市第三、四、五、六次人口普查的數(shù)據(jù),借助ArcGIS空間統(tǒng)計(jì)分析工具和技術(shù)對(duì)北京市人口空間分布進(jìn)行了一定的分析并對(duì)優(yōu)化北京人口空間提出了一些建議措施[2]。但是,普查數(shù)據(jù)也有一定的質(zhì)量問(wèn)題,張為民分析了2000年人口普查數(shù)據(jù),得出中國(guó)人口統(tǒng)計(jì)的數(shù)據(jù)質(zhì)量呈下降態(tài)勢(shì),人口漏報(bào)達(dá)到1.81%,同時(shí)分析了產(chǎn)生漏報(bào)的原因是既有普查方案設(shè)計(jì)的影響,也與群眾配合、經(jīng)費(fèi)投入、行政考核等密切相關(guān),并對(duì)第六次全國(guó)人口普查提出了具體的解決方案[3]。胡桂華和薛婷針對(duì)當(dāng)今民事登記系統(tǒng)覆蓋評(píng)估領(lǐng)域存在利用輔助信息量有限而難以提供精度高的凈誤差率的不足,提出用三系統(tǒng)估計(jì)量替代獨(dú)立雙系統(tǒng)估計(jì)量[4]。胡桂華的研究結(jié)論表明,真正的人口普查誤差其實(shí)是不能計(jì)算的;基于羅吉斯蒂回歸模型的雙系統(tǒng)估計(jì)量由于不受樣本量限制而可以選擇較多的事后分層變量,優(yōu)于基于事后分層的雙系統(tǒng)估計(jì)量[5]。
針對(duì)權(quán)數(shù)的分析,不少研究者從不同角度分析了其重要作用,金勇進(jìn)和張喆系統(tǒng)闡述了抽樣調(diào)查分析中權(quán)數(shù)的獲取和調(diào)整過(guò)程,同時(shí)提出了一種利用權(quán)效應(yīng)來(lái)對(duì)權(quán)數(shù)進(jìn)行評(píng)估的方法[6]。羅薇從不均等選擇概率的角度,提出兩類(lèi)常見(jiàn)的權(quán)數(shù)調(diào)整類(lèi)型及其調(diào)整方法——規(guī)模調(diào)整和結(jié)構(gòu)調(diào)整應(yīng)用于復(fù)雜樣本設(shè)計(jì)[7]。金勇進(jìn)和劉展對(duì)非概率加權(quán)抽樣推斷提出了一種新的方案,即先采用傾向得分匹配選擇樣本,再用傾向得分逆加權(quán)、加權(quán)組調(diào)整和事后分層調(diào)整對(duì)匹配后的樣本進(jìn)行加權(quán)調(diào)整來(lái)估計(jì)目標(biāo)總體[8]。針對(duì)抽樣調(diào)查中的無(wú)回答問(wèn)題,賀飛燕認(rèn)為,加權(quán)過(guò)程中對(duì)不同的無(wú)回答調(diào)整階段反映出的數(shù)據(jù)收集方法存在問(wèn)題,并提出了具體建議[9]。
具體調(diào)查實(shí)踐中,權(quán)數(shù)的計(jì)算過(guò)程包含了兩個(gè)方面:設(shè)計(jì)權(quán)數(shù)和實(shí)際權(quán)數(shù)的計(jì)算,權(quán)數(shù)調(diào)整以及誤差計(jì)算。設(shè)計(jì)權(quán)數(shù)的計(jì)算是基于問(wèn)卷設(shè)計(jì)方案計(jì)算出來(lái)的權(quán)數(shù),而實(shí)際權(quán)數(shù)是基于獲取的樣本信息得到的權(quán)數(shù)。本文以老年人調(diào)查為例進(jìn)行詳細(xì)的分析,此次調(diào)查設(shè)計(jì)遵循科學(xué)性、高效性和可操作性原則。首先,此次抽樣方案設(shè)計(jì)是嚴(yán)格的概率抽樣,抽取樣本用以滿(mǎn)足全國(guó)目標(biāo)量估計(jì)的需求。其次,抽樣設(shè)計(jì)保證有較高的效率,即在一定的抽樣誤差范圍和調(diào)查經(jīng)費(fèi)內(nèi)保證較高的估計(jì)精度。最后,抽樣設(shè)計(jì)結(jié)合了中國(guó)的實(shí)際情況,具有較強(qiáng)的可操作性。
設(shè)計(jì)權(quán)數(shù)是特定抽樣設(shè)計(jì)下,各樣本單元包含概率的倒數(shù),不同包含概率的樣本單元的權(quán)數(shù)也是不一樣的。對(duì)于多階段抽樣,設(shè)計(jì)權(quán)數(shù)為各階段樣本單元包含概率的倒數(shù)的乘積。由于抽樣調(diào)查數(shù)據(jù)輔助信息所限,無(wú)法獲得各街道(鄉(xiāng)鎮(zhèn))、各居(村)委會(huì)的老年人口總數(shù),故無(wú)法計(jì)算第三、四階段的樣本單元入樣概率,因此設(shè)計(jì)權(quán)數(shù)的計(jì)算公式較一般的多階段抽樣而言有所簡(jiǎn)化。
以此次老年人抽樣調(diào)查為例,第h個(gè)省份的第i個(gè)區(qū)縣第j個(gè)街道辦事處或鄉(xiāng)鎮(zhèn),第k個(gè)居(村)委會(huì)第l個(gè)被抽中的老年人的設(shè)計(jì)權(quán)數(shù)公式如下:
(1)
設(shè)計(jì)權(quán)數(shù)是在保證抽樣過(guò)程中完全按照設(shè)計(jì)方案得到的樣本權(quán)數(shù),但是在實(shí)際的調(diào)查過(guò)程中,往往存在無(wú)回答或其他突發(fā)情況導(dǎo)致調(diào)查樣本比設(shè)計(jì)的多或少,樣本結(jié)構(gòu)和實(shí)際人口結(jié)構(gòu)不一致的情況,這就需要對(duì)設(shè)計(jì)權(quán)數(shù)進(jìn)行進(jìn)一步的調(diào)整,從而計(jì)算出基于實(shí)際調(diào)查樣本的實(shí)際權(quán)數(shù)。實(shí)際權(quán)數(shù),主要是通過(guò)對(duì)實(shí)際調(diào)查樣本單元的無(wú)回答、無(wú)覆蓋進(jìn)行的計(jì)算調(diào)整,是實(shí)際的抽樣調(diào)查中獲取的權(quán)數(shù),實(shí)際權(quán)數(shù)有利于獲取調(diào)查樣本的代表性信息,實(shí)際權(quán)數(shù)的計(jì)算包含無(wú)回答調(diào)整和結(jié)構(gòu)調(diào)整。
需要說(shuō)明的是,在整理問(wèn)卷的過(guò)程中,往往存在因回答不符合要求被判為廢卷等情況,這是在數(shù)據(jù)處理階段要解決的事情,權(quán)數(shù)計(jì)算和調(diào)整只是利用清理完成的數(shù)據(jù)進(jìn)行計(jì)算,對(duì)于問(wèn)卷中的項(xiàng)目無(wú)回答情況,一般采用插補(bǔ)的方法進(jìn)行解決[10]。
無(wú)回答調(diào)整涉及各個(gè)階段的無(wú)回答調(diào)整,包括省份無(wú)回答、區(qū)縣無(wú)回答、街道(鄉(xiāng)鎮(zhèn))無(wú)回答和居(村)委會(huì)無(wú)回答等,但由于在實(shí)際的調(diào)查過(guò)程中一般前三個(gè)階段無(wú)回答情況較少,因此以居(村)委會(huì)的無(wú)回答調(diào)整為例進(jìn)行說(shuō)明。由于沒(méi)有抽樣的名單,只有實(shí)際調(diào)查的數(shù)據(jù),所以無(wú)回答調(diào)整僅就居(村)委會(huì)層面進(jìn)行無(wú)回答調(diào)整。無(wú)回答調(diào)整得到的權(quán)數(shù)是各個(gè)居(村)委會(huì)擬抽人數(shù)nhijkl除以實(shí)際調(diào)查的人數(shù)L再乘以設(shè)計(jì)權(quán)數(shù),調(diào)整后的權(quán)數(shù)為:
(2)
權(quán)數(shù)是樣本單元實(shí)際代表的未入樣單元個(gè)數(shù),其主要功能就是將樣本單元還原到總體。然而,由于樣本抽取的隨機(jī)性,可能造成樣本單元的結(jié)構(gòu)分布與總體結(jié)構(gòu)不一致,導(dǎo)致推斷的精度降低。因此,還需要對(duì)實(shí)際權(quán)數(shù)進(jìn)行結(jié)構(gòu)調(diào)整,使得樣本單元的結(jié)構(gòu)與總體一致。
常見(jiàn)的結(jié)構(gòu)調(diào)整方法有:校準(zhǔn)加權(quán)法、迭代法、事后分層法。金勇進(jìn)和張喆對(duì)幾種方法進(jìn)行了詳細(xì)的說(shuō)明論證[6]。根據(jù)本次調(diào)查的實(shí)際情況,本次權(quán)數(shù)調(diào)整使用迭代法,以省為分層變量,在各個(gè)層內(nèi)分別進(jìn)行權(quán)數(shù)的結(jié)構(gòu)調(diào)整。
在結(jié)構(gòu)調(diào)整中不僅要考慮樣本單元的年齡結(jié)構(gòu)與總體一致,同時(shí)考慮性別比例與總體一致。本次結(jié)構(gòu)調(diào)整只針對(duì)性別、年齡完整的樣本單元進(jìn)行權(quán)數(shù)的結(jié)構(gòu)調(diào)整,對(duì)于性別或年齡缺失的樣本單元,直接使用其經(jīng)無(wú)回答調(diào)整后的權(quán)數(shù)結(jié)果。迭代調(diào)整系數(shù)為:
adjhs=
(3)
其中s表示性別或年齡。以安徽省為例,根據(jù)老年人調(diào)查數(shù)據(jù)作為樣本數(shù)據(jù)和第六次人口普查數(shù)據(jù)作為總體數(shù)據(jù)進(jìn)行對(duì)比,發(fā)現(xiàn)樣本中70歲以下的男女比例比總體比例偏低,而樣本中70歲以上男女比例比總體比例要高,也就是說(shuō)樣本中年齡結(jié)構(gòu)偏大,與總體男女比例有一定的差異。這主要是由于:一是實(shí)際調(diào)查數(shù)據(jù)存在性別、年齡缺失的情況,對(duì)于這部分?jǐn)?shù)據(jù)無(wú)法進(jìn)行權(quán)數(shù)調(diào)整,故在此處未放入計(jì)算;二是由于使用的人口總體數(shù)據(jù)是2010年進(jìn)行的全國(guó)第六次人口普查數(shù)據(jù),而實(shí)際老年人調(diào)查是在2015年,兩者本身就有一定的時(shí)間差異,因此有必要對(duì)樣本結(jié)構(gòu)進(jìn)行調(diào)整使其與總體結(jié)構(gòu)相一致。
結(jié)合式(2)和式(3),經(jīng)過(guò)結(jié)構(gòu)調(diào)整后的樣本結(jié)構(gòu)和總體結(jié)構(gòu)的比例傾向一致,這樣在進(jìn)行深入分析時(shí)用調(diào)整后的權(quán)數(shù)就更具代表性了。經(jīng)過(guò)結(jié)構(gòu)調(diào)整后的調(diào)整系數(shù)如表1所示。
表1 安徽省的權(quán)數(shù)結(jié)構(gòu)調(diào)整系數(shù)
迭代調(diào)整系數(shù)是根據(jù)樣本中老年人口的性別年齡和總體中老年人口的差異,通過(guò)迭代調(diào)整得到的,可以用無(wú)回答調(diào)整后的權(quán)數(shù)與迭代調(diào)整系數(shù)相乘得到最終的權(quán)數(shù),通過(guò)調(diào)整系數(shù)可以保證樣本單元還原到總體的結(jié)構(gòu)與總體大致保持一致。
(4)
由于調(diào)查過(guò)程的復(fù)雜性,加上調(diào)查中存在的無(wú)回答、樣本結(jié)構(gòu)與總體結(jié)構(gòu)不一致等情況,最終計(jì)算得到的權(quán)數(shù)往往差距很大,使得估計(jì)量的方差也隨之變大,因此有必要對(duì)權(quán)數(shù)進(jìn)行適當(dāng)?shù)目刂埔员WC估計(jì)的方差不會(huì)太大。在抽樣調(diào)查中,一般用設(shè)計(jì)效應(yīng)來(lái)度量復(fù)雜抽樣設(shè)計(jì)相對(duì)于簡(jiǎn)單隨機(jī)抽樣的效率或相對(duì)精確程度[11]。設(shè)計(jì)效應(yīng)是復(fù)雜抽樣設(shè)計(jì)與具有相同樣本量的簡(jiǎn)單隨機(jī)抽樣設(shè)計(jì)的估計(jì)量的方差之比。當(dāng)設(shè)計(jì)效應(yīng)大于1,代表該抽樣設(shè)計(jì)的變異性大,需要更大的樣本量才能達(dá)到簡(jiǎn)單隨機(jī)抽樣的效率;反之若小于1,說(shuō)明只需要少量的樣本量就能達(dá)到簡(jiǎn)單隨機(jī)抽樣的效率。借此方法,金勇進(jìn)和張喆提出了利用權(quán)效應(yīng)來(lái)評(píng)估復(fù)雜抽樣設(shè)計(jì)相對(duì)于簡(jiǎn)單隨機(jī)抽樣的權(quán)數(shù)效率或相對(duì)精確程度[6]。權(quán)效應(yīng)是由抽樣設(shè)計(jì)的樣本權(quán)數(shù)和相同樣本量的簡(jiǎn)單隨機(jī)抽樣設(shè)計(jì)的樣本權(quán)數(shù)相比得到。一般情況下,權(quán)效應(yīng)大于1,越大表示權(quán)數(shù)變異越大,需要進(jìn)行一定的控制,使其在一個(gè)合理的范圍內(nèi)。王小寧和金勇進(jìn)從權(quán)數(shù)控制的角度出發(fā),利用權(quán)效應(yīng)這個(gè)系數(shù)對(duì)幾種不同的權(quán)數(shù)控制方法進(jìn)行對(duì)比研究,同時(shí)給出了復(fù)雜抽樣設(shè)計(jì)中進(jìn)行權(quán)數(shù)調(diào)整的控制方案[12]。盡管權(quán)數(shù)的調(diào)整有利于樣本單元權(quán)數(shù)和等于總體規(guī)模,保證樣本結(jié)構(gòu)和總體結(jié)構(gòu)更加一致,提高了估計(jì)精度,但由于調(diào)整后的權(quán)數(shù)差異變大,可能會(huì)增加估計(jì)量的方差。為了衡量權(quán)數(shù)帶來(lái)的影響,本文利用權(quán)效應(yīng)概念來(lái)分析相同抽樣方法下由權(quán)數(shù)調(diào)整帶來(lái)的估計(jì)量方差的變化。權(quán)效應(yīng)是加權(quán)估計(jì)量與簡(jiǎn)單估計(jì)方差的比值,它可以反映在相同的抽樣方法下由于權(quán)數(shù)原因?qū)烙?jì)方差帶來(lái)的影響,其計(jì)算公式為:
(5)
為了使得權(quán)數(shù)波動(dòng)在一個(gè)可控范圍,可使用分位數(shù)為5%和95%的權(quán)數(shù)對(duì)整體權(quán)數(shù)進(jìn)行截取調(diào)整。計(jì)算公式如下:
(6)
對(duì)于復(fù)雜樣本按照理論直接推導(dǎo)出標(biāo)準(zhǔn)誤差估計(jì),一則十分困難,二則從節(jié)約費(fèi)用和時(shí)間的角度考慮代價(jià)也很大。通常采用的替代方法主要有隨機(jī)組法、平衡半樣本方法、刀切法和自助法等。本次老年人調(diào)查的抽樣設(shè)計(jì)為四階段抽樣,本身是一個(gè)自加權(quán)設(shè)計(jì),但由于實(shí)際調(diào)查中遇到諸多情況導(dǎo)致樣本單元權(quán)重難以按照傳統(tǒng)的抽樣理論或泰勒展開(kāi)方法推導(dǎo)出估計(jì)量方差的精確或近似計(jì)算公式。對(duì)于這種復(fù)雜樣本的估計(jì)量的方差估計(jì),通常使用復(fù)制樣本法來(lái)近似估計(jì)方差。
刀切法是由Quenouille等提出的再抽樣方法[13-14],其原始動(dòng)機(jī)是降低估計(jì)的偏差。刀切法的用法與Bootstrap用法相似,類(lèi)似于“Leave-one-out”的交叉驗(yàn)證方法。假設(shè)x=(x1,x2,…,xn)為觀(guān)測(cè)到的獨(dú)立同分布的樣本數(shù)據(jù),n表示總樣本量,且該數(shù)據(jù)服從在空間χ上未知的分布F,即:
xi~F
(7)
定義第i(i=1,2,…,n)個(gè)刀切法樣本為丟掉第i個(gè)樣本后的剩余樣本,即:
x(i)=(x1,x2,…,xi-1,xi+1,…,xn)
(8)
(9)
(10)
這樣就得到了基于刀切法的參數(shù)θ的標(biāo)準(zhǔn)誤差的估計(jì)值。胡桂華等人使用分層刀切方差估計(jì)來(lái)計(jì)算抽樣方差[15],本文與該文的不同之處在于,一是原文使用了復(fù)制權(quán)數(shù)來(lái)剔除第一部樣本的一個(gè)樣本調(diào)查小區(qū)后,再重新計(jì)算剩下的第一部樣本調(diào)查小區(qū)的抽樣權(quán)數(shù),而式(9)和式(10)通過(guò)式(6)進(jìn)行權(quán)數(shù)截取后的權(quán)數(shù)來(lái)直接計(jì)算參數(shù)的估計(jì)值,分層信息在權(quán)數(shù)的調(diào)整(式(2)和式(3))中有體現(xiàn)。
對(duì)權(quán)數(shù)的評(píng)估需要借助具體的調(diào)查數(shù)據(jù)來(lái)進(jìn)行分析,以老年人調(diào)查數(shù)據(jù)為例進(jìn)行說(shuō)明,該調(diào)查緊緊圍繞老年人生活狀況和養(yǎng)老服務(wù)需求,重點(diǎn)了解城鄉(xiāng)老年人健康、照料護(hù)理服務(wù)、家庭、經(jīng)濟(jì)、社會(huì)參與、維權(quán)意識(shí)與行動(dòng)、宜居環(huán)境以及精神文化生活等方面的狀況。調(diào)查采取入戶(hù)訪(fǎng)談和調(diào)查問(wèn)卷收集數(shù)據(jù),主要以滿(mǎn)足全國(guó)代表性需要而抽取樣本。調(diào)查問(wèn)卷分為個(gè)人問(wèn)卷和社區(qū)問(wèn)卷,調(diào)查對(duì)象為居住在中國(guó)境內(nèi)的(不包括臺(tái)灣省、香港特別行政區(qū)和澳門(mén)特別行政區(qū))60周歲及以上的中國(guó)公民。調(diào)查范圍為全國(guó)各省、自治區(qū)、直轄市和新疆生產(chǎn)建設(shè)兵團(tuán),涉及466個(gè)縣(區(qū)),1 864個(gè)鄉(xiāng)鎮(zhèn)(街道)(每個(gè)抽中的縣(區(qū))抽4個(gè)鄉(xiāng)鎮(zhèn)(街道)),7 456個(gè)村(居)委會(huì)(每個(gè)抽中的鄉(xiāng)鎮(zhèn)(街道)抽4個(gè)村(居)委會(huì)),首次實(shí)現(xiàn)覆蓋全國(guó)范圍的調(diào)查目標(biāo)。調(diào)查樣本規(guī)模為22.368萬(wàn)(總抽樣比約為1‰)。調(diào)查結(jié)果數(shù)據(jù)(2)見(jiàn)http://www.cncaprc.gov.cn/contents/2/177118.html。顯示,老年人經(jīng)濟(jì)狀況得到顯著改善,老年醫(yī)療衛(wèi)生工作取得積極進(jìn)展,老齡產(chǎn)業(yè)市場(chǎng)不斷升溫,老年人社會(huì)參與和權(quán)益保障工作不斷拓展,老年人精神文化生活與時(shí)俱進(jìn)。調(diào)查獲取的原始數(shù)據(jù)形式如表2所示。
表 2 列舉了部分此次抽樣數(shù)據(jù),基于地理位置的數(shù)據(jù)與被訪(fǎng)者個(gè)人屬性的數(shù)據(jù)可以與第六次全國(guó)人口普查的整體數(shù)據(jù)進(jìn)行結(jié)構(gòu)對(duì)比,結(jié)合式(3)進(jìn)行結(jié)構(gòu)化調(diào)整。對(duì)權(quán)效應(yīng)的評(píng)估選取一個(gè)指標(biāo),即被訪(fǎng)者家庭的平均每月食品支出,是一個(gè)連續(xù)型變量。對(duì)于月均食品支出,可以直接估計(jì)其平均值。以全國(guó)樣本為例,根據(jù)式(4)和式(5)得到權(quán)數(shù)截取前的權(quán)效應(yīng)計(jì)算結(jié)果為3.87,而根據(jù)式(5)和式(6)經(jīng)過(guò)分位數(shù)為5%和95%的權(quán)數(shù)進(jìn)行截取調(diào)整后的權(quán)效應(yīng)變?yōu)?.31,有大幅下降并且在可控范圍之內(nèi)。而如果對(duì)權(quán)數(shù)不進(jìn)行任何調(diào)整,僅以設(shè)計(jì)權(quán)數(shù)作為最終權(quán)數(shù)計(jì)算的話(huà),權(quán)效應(yīng)為2.86。這也說(shuō)明權(quán)數(shù)截取調(diào)整使得樣本權(quán)數(shù)變動(dòng)在一個(gè)適當(dāng)?shù)姆秶鷥?nèi),比權(quán)數(shù)截取前也有效地降低了估計(jì)量的方差。
表2 老年人調(diào)查數(shù)據(jù)的基本形式
對(duì)于目標(biāo)變量缺失的情況,可以直接刪除,也可以采用常用的插補(bǔ)方法進(jìn)行插補(bǔ)后分析。因本次調(diào)查缺失數(shù)據(jù)較少,所以對(duì)缺失數(shù)據(jù)直接刪除。在估計(jì)全國(guó)老年人月平均食品支出時(shí),利用權(quán)數(shù)的計(jì)算公式如下:
(11)
1.計(jì)算每個(gè)樣本的最終權(quán)數(shù)。根據(jù)被訪(fǎng)者的地理屬性和個(gè)人屬性特征,計(jì)算其權(quán)數(shù)值。利用式(1)計(jì)算第h個(gè)省份的第i個(gè)區(qū)縣第j個(gè)街道辦事處或鄉(xiāng)鎮(zhèn),第k個(gè)村(居)委會(huì)中抽到的第l個(gè)老年人的設(shè)計(jì)權(quán)數(shù)Whijkl,即對(duì)于相同村(居)委會(huì)中老人的權(quán)數(shù)是相同的。將抽樣方案抽樣數(shù)據(jù)和實(shí)際得到的樣本數(shù)據(jù)進(jìn)行比較,利用式(2)進(jìn)行無(wú)回答調(diào)整,得到無(wú)回答調(diào)整后的權(quán)數(shù)。同時(shí),結(jié)合第六次人口普查的年齡、性別數(shù)據(jù)和樣本數(shù)據(jù)結(jié)構(gòu)特征,結(jié)合式(3)計(jì)算出各個(gè)省的調(diào)整系數(shù),利用式(4)得到最終的權(quán)數(shù)。
(12)
(13a)
(13b)
其中q=1,2,分別表示權(quán)數(shù)截取前和截取后的估計(jì)。
(14a)
(14b)
結(jié)合實(shí)際數(shù)據(jù),分別利用加權(quán)和加權(quán)截取后家庭月均食品支出的標(biāo)準(zhǔn)誤差進(jìn)行計(jì)算,具體見(jiàn)表3。
從表3可知,全國(guó)月均食品支出的加權(quán)截取后估計(jì)標(biāo)準(zhǔn)誤差為2.62,未進(jìn)行加權(quán)截取的標(biāo)準(zhǔn)誤差為5.11。各省家庭月均食品支出的加權(quán)估計(jì)標(biāo)準(zhǔn)誤差最大為98.73,經(jīng)過(guò)截取后標(biāo)準(zhǔn)誤差變?yōu)?7.86,各省家庭月均食品支出的估計(jì)標(biāo)準(zhǔn)誤差加權(quán)截取后最大值為北京市的34.88,該省加權(quán)的標(biāo)準(zhǔn)誤差為33.72;標(biāo)準(zhǔn)誤差加權(quán)截取后最小值為山東省的5.46,該省加權(quán)的標(biāo)準(zhǔn)誤差為5.30。綜合表3中的數(shù)據(jù)經(jīng)過(guò)權(quán)數(shù)截取,可以使得加權(quán)后標(biāo)準(zhǔn)誤差較大的省份截取后標(biāo)準(zhǔn)誤差適當(dāng)降低,而對(duì)于加權(quán)誤差比較小的省份經(jīng)過(guò)截取后標(biāo)準(zhǔn)誤差適當(dāng)增大,是在可控的范圍內(nèi),加權(quán)截取后的數(shù)據(jù)從理論上更有說(shuō)服力,利用了更多的樣本信息,也更方便解釋。
表3 全國(guó)和各省加權(quán)未截取和截取后家庭
從變異系數(shù)(標(biāo)準(zhǔn)誤差與平均值的比值,表示數(shù)據(jù)分布的離散程度)角度來(lái)看,全國(guó)加權(quán)截取后的變異系數(shù)為0.26%;從省份上來(lái)看,最大值為西藏自治區(qū)的3.04%,最小值為四川省的0.82%,但是經(jīng)過(guò)截取后的變異系數(shù)降低或保持不變,這也從側(cè)面驗(yàn)證了權(quán)數(shù)控制的有效性。從以上數(shù)據(jù)可看出,四川省的月均食品支出相對(duì)比較集中,北京市變動(dòng)比較大,西藏自治區(qū)離散程度較高。西藏自治區(qū)的變異系數(shù)較高,主要是因?yàn)樵撟灾螀^(qū)本身的老年人口較少,本次調(diào)查的樣本量較少,導(dǎo)致估計(jì)的相對(duì)誤差比較大。
本文首先探討了在人口研究中普查數(shù)據(jù)的應(yīng)用以及存在的數(shù)據(jù)質(zhì)量問(wèn)題,接著對(duì)相關(guān)的人口抽樣應(yīng)用問(wèn)題進(jìn)行了分析,發(fā)現(xiàn)直接利用抽樣樣本信息來(lái)對(duì)相關(guān)參數(shù)進(jìn)行估計(jì)所代表的信息利用不足,進(jìn)而提出在調(diào)查過(guò)程中利用權(quán)數(shù)和權(quán)數(shù)控制以解決這一問(wèn)題。針對(duì)抽樣中的權(quán)數(shù)問(wèn)題,從權(quán)數(shù)的計(jì)算、權(quán)數(shù)的無(wú)回答和結(jié)構(gòu)調(diào)整、權(quán)數(shù)的控制以及基于權(quán)數(shù)計(jì)算的變量的標(biāo)準(zhǔn)誤差出發(fā),結(jié)合老年人調(diào)查數(shù)據(jù)進(jìn)行了詳細(xì)的分析和說(shuō)明,同時(shí)強(qiáng)調(diào)了權(quán)數(shù)在抽樣調(diào)查中的重要性。權(quán)數(shù)雖在一定程度上增大了參數(shù)估計(jì)的標(biāo)準(zhǔn)誤差,但是從代表整體信息的角度上來(lái)看,比單純地利用樣本信息進(jìn)行估計(jì)更具有代表性。為了讓權(quán)數(shù)更有效地代表樣本,避免因權(quán)數(shù)過(guò)大或過(guò)小對(duì)估計(jì)的標(biāo)準(zhǔn)誤差造成大的影響,本文分別在實(shí)際數(shù)據(jù)中利用原始加權(quán)數(shù)據(jù)和加權(quán)截取(控制)數(shù)據(jù)進(jìn)行了分析,結(jié)果顯示在參數(shù)估計(jì)的過(guò)程中,對(duì)權(quán)數(shù)進(jìn)行一定的控制能適當(dāng)降低估計(jì)的標(biāo)準(zhǔn)誤差,同時(shí)能降低估計(jì)變量的變異系數(shù),在一定程度上能有效地提升分析的質(zhì)量和增加調(diào)查信息的認(rèn)可度。