摘要:以戶籍為基礎(chǔ)的抽樣經(jīng)常因?yàn)楦采w范圍不足而產(chǎn)生偏差。而這種問題在那些流動性很大并且統(tǒng)計(jì)資料不可靠的社會尤其突出。為了捕捉到這些傳統(tǒng)抽樣方法無法觸及的流動人口樣本,我們提出一種GPS輔助的區(qū)域抽樣的方法。我們將這種新方法運(yùn)用在北京進(jìn)行的一項(xiàng)調(diào)查中,與傳統(tǒng)的抽樣方式加以比較,結(jié)果表明空間抽樣方法大大降低了因覆蓋范圍不足而導(dǎo)致的抽樣偏差。成功地將城市流動人口納入到樣本中后,對有關(guān)的態(tài)度性問題的單變量和多變量分析產(chǎn)生了十分顯著的效果。
關(guān)鍵詞:流動人口;抽樣調(diào)查;偏差;抽樣方法;GPS
中圖分類號:F224
文獻(xiàn)標(biāo)識碼:A
文章編號:1004-0544(2007)06-0005-11
一、引言
精確人口資料的獲得對于社會科學(xué)研究中的概率抽樣設(shè)計(jì)和實(shí)施是—個必要的條件?!阍谏鐣{(diào)查中抽樣所依據(jù)的名單主要是公開的、可以獲得的人口普查數(shù)據(jù)或者戶籍資料。然而,無論人口普查進(jìn)行得多么圓滿,也總是面臨不完全統(tǒng)計(jì)的問題(USCMB 2000)。各種戶籍資料也不能為所進(jìn)行的調(diào)查提供完整的人口信息(Kviz 1984)。因?yàn)槲幢话ㄔ趦?nèi)的人口并非是隨機(jī)地流失,由此得出的普查或抽樣調(diào)查數(shù)據(jù)就產(chǎn)生了偏差,特別是當(dāng)涉及到少數(shù)民族群體、流動人口或無家可歸者時(shí)(Subeommittee onCensus and Population 1987.Skerry 200Q Andersonand Fienberg 2001;Steenkamp and Van Aardt 2001)。
調(diào)查研究中抽樣覆蓋范圍不完全的問題由來已久。在發(fā)達(dá)國家,由于名單不夠精確導(dǎo)致的調(diào)查偏差可以通過RDD(random digit dialing),即隨機(jī)號碼撥號技術(shù)給受訪者打電話進(jìn)行彌補(bǔ)。這種方法的有效性依賴于兩個因素:家庭電話的普及程度以及避免接通電話后無回答或拒訪(Tull and Albaum 1977)。不過,在與名單配合使用的情況下,RDD技術(shù)是可以信賴的(Brick et al.1995)。
然而,這些技術(shù)在電話普及率低的發(fā)展中國家并不適用。而且,由于擁有電話的多是較富裕的住戶、主要是城市居民,樣本會有嚴(yán)重的偏差。此外,在—個高水平人口流動的社會中。流動人口與其他居民相比就更不可能擁有電話。在這種情況下,官方資料雖然不夠完美,但卻比RDD更可靠,盡管它仍不足以提供無偏差的樣本。
其實(shí)類似的問題存在于很多地方:在發(fā)達(dá)國家的都市地區(qū)調(diào)查未記錄在冊的外國移民;在難民營或者處于戰(zhàn)亂國家中調(diào)查以編制緊急援助計(jì)劃;或要在近幾十年都沒有進(jìn)行過人口普查的國家(如伊拉克或阿富汗)進(jìn)行抽樣調(diào)查。本文提出和驗(yàn)證了在特定情形下(如在中國國內(nèi)大規(guī)模人口流動的條件下)如何減少抽樣覆蓋范圍偏差問題的方法,即GPS(全球定位系統(tǒng))輔助的空間抽樣方法。盡管我們?yōu)榱蓑?yàn)證這一方法的實(shí)驗(yàn)是在一個可以得到大量官方資料的地方(北京)開展的。但研究者仍可以將這套方法應(yīng)用于凡是需要進(jìn)行等概率抽樣而又無法獲得可靠的人口資料的地方。
二、抽樣調(diào)查在中國:如何覆蓋1.4億流動人口
在中國,人口普查數(shù)據(jù)的收集主要依靠與主管人口管理的機(jī)構(gòu)之間的協(xié)作。從1958年開始,所有城市居民都被要求到當(dāng)?shù)氐木用裎瘑T會(NCs)進(jìn)行登記,由此得到一個正式的戶籍。宿民委員會與戶籍的結(jié)合被證明是防止移民涌入城市的有效手段。與許多發(fā)展中國家不同的是,中國在工業(yè)化的初始階段并沒有經(jīng)歷人口從鄉(xiāng)村地區(qū)大規(guī)模地向中心城市涌入的情況。在中國,社會被人為地劃分為兩個截然不同的抽象領(lǐng)域,城市之外的人并不能自由地決定到城市中定居,除非他們獲得了一個合法的戶口。城市戶口可以使他們享有一系列城市體制提供的好處。只有在特別的情形下,公民才可能變更他們的戶口性質(zhì)——從農(nóng)業(yè)轉(zhuǎn)為非農(nóng)業(yè)(Goldstein 1987;Gui and Liu 1992;Johnson1994;Solinger 1995,1999;Goodking and West 2002;Wu and Treiman 2004)。
因?yàn)榫用裎瘑T會在收集人口資料方面的有效性。自從1978年開始,戶籍就被廣泛地用作概率抽樣的基礎(chǔ)。不過,由于中國經(jīng)濟(jì)的迅速轉(zhuǎn)型,建立在這種抽樣方式基礎(chǔ)上的調(diào)查研究的質(zhì)量已經(jīng)受到了影響。直到90年代初期,居民的準(zhǔn)確名單仍舊能夠從居民委員會獲得。而此時(shí)市場化改革已經(jīng)極大影響了這個機(jī)構(gòu)對居民戶籍管理的有效性。隨著糧食配給制和城市中各種必需品配給制的結(jié)束,那些原來在計(jì)劃經(jīng)濟(jì)下因沒有城市戶口而不能在城市中生存的農(nóng)村居民,開始向城市中心流動以尋找新的就業(yè)機(jī)會。私營企業(yè)、集體企業(yè)、甚至國有企業(yè)都情愿冒著違反國家戶籍規(guī)定的風(fēng)險(xiǎn)而給農(nóng)民提供臨時(shí)的就業(yè)機(jī)會。各種職業(yè)招聘的中介機(jī)構(gòu)現(xiàn)在也經(jīng)常將勞動力(通常是來自偏遠(yuǎn)的農(nóng)村地區(qū))引入城鎮(zhèn)。
戶籍制度的衰落已經(jīng)產(chǎn)生了巨大的影響。最近一次在2000年進(jìn)行的人口普查,將1.44億人列為流動人口(占人口總數(shù)的11.62%),6500萬人離開了農(nóng)村的家鄉(xiāng)但仍然居住于其家鄉(xiāng)所在的縣,3600萬人從他們的戶籍所在縣流出但未出省,又有4200萬人跨省定居(國家統(tǒng)計(jì)局2002,見表1和表5)。在北京、天津、廣東和上海等沿海地區(qū),流動人口的規(guī)模已經(jīng)超過了當(dāng)?shù)厝丝诳倲?shù)的20%。
流動人口的大量出現(xiàn)已經(jīng)受到了廣泛的關(guān)注(Goldstein 1987;Yang 1993;Solinger 1995,1999;Zhang 2001),但這種關(guān)注并沒有轉(zhuǎn)化為對基于居委會戶籍資料的抽樣調(diào)查項(xiàng)目審慎的重新評價(jià)。已經(jīng)有一些研究試圖針對不同類別的流動人口進(jìn)行分析,Goldstein等人(1991)對那些住在有正式戶籍登記的住戶中的流動人口進(jìn)行了分析,但他們自己也承認(rèn)這一方法只限于對流動人口中的一個特殊部分有效。正如Goodkind和West(2002)所討論的那樣,流動人口涵蓋了廣泛的類型,從最終獲得正式非農(nóng)戶口的長期居民到僅僅是短期的、非正式的、經(jīng)常返回家鄉(xiāng)的“季節(jié)性流動人口”。
短期流動人口在少數(shù)試圖量化流動規(guī)模的研究中被系統(tǒng)性地排除在外。國家統(tǒng)計(jì)局1987年進(jìn)行的“中國百分之一人口抽樣調(diào)查”將符合資格的調(diào)查對象定義為在采訪地點(diǎn)居住至少六個月以上的人.短期流動人口被排除在外。同樣,1990年的人口普查使用了一年期的基準(zhǔn),短期流動人口也被忽略不計(jì)(Liangand White 1996,p.376 n.3)。1996年,Liang和White的研究將他們的估算建立在“百分之二生育力與計(jì)劃生育抽樣調(diào)查”中10%的隨機(jī)樣本的基礎(chǔ)上(該調(diào)查于1988年由國家計(jì)劃生育委員會所開展)。該調(diào)查收集的是受訪家庭所有成員在過去的時(shí)間里省際流動的信息,但并沒有收集省內(nèi)流動的有關(guān)信息。1995年的“百分之一人口抽樣調(diào)查”在設(shè)計(jì)上更為合理:以村級單位為單元進(jìn)行1%的整群抽樣,一旦一個村子被抽中、村里的所有住戶都會被調(diào)查到,而不考慮其戶籍狀況,這就使得所有的住戶類型都被包括進(jìn)來。這樣,通過戶籍的類別就可以將受訪者區(qū)分開來(國家統(tǒng)計(jì)局1997;Fan 2000,n.10)。
以上這些研究都試圖對人口流動的數(shù)量和空間特征做出估計(jì)。其中最好的調(diào)查(如1995年進(jìn)行的百分之一抽樣)的確可以提供對這一問題較為合理的測量,但是對于社會學(xué)者和政治學(xué)者所更多關(guān)注的流動人口的特征、態(tài)度和行為等問題,這樣的調(diào)查并不能提供相關(guān)的信息。同時(shí),這樣的調(diào)查僅僅提供了一些匯總表格數(shù)據(jù),除此以外,連對這些調(diào)查結(jié)果做最簡單的交叉分析都是不可能的。
而且,由于多數(shù)調(diào)查,甚至是人口普查最終都是依靠居民委員會的協(xié)作,由居委會向抽樣員和調(diào)查員提供人口統(tǒng)計(jì)學(xué)的信息,而這些研究全都依賴于官方資料和政府機(jī)構(gòu),所以其結(jié)果常常令人懷疑。比如Fan的報(bào)告里顯示了一項(xiàng)令人難以置信的結(jié)果:流動人口比非流動人口的教育程度要高得多(Fan 2000,Table1)。同樣,國家統(tǒng)計(jì)局的1995年百分之一抽樣調(diào)查推算出流動人口的總數(shù)量只有3500萬,遠(yuǎn)遠(yuǎn)低于通常的估計(jì)(Liang and White 1996)。
因此那些依賴戶籍進(jìn)行抽樣調(diào)查的研究者在推論時(shí)面對一個嚴(yán)重的問題:大至四分之一實(shí)際意義上的城市居民是沒有正式登記的。因此在戶籍基礎(chǔ)上的概率抽樣只是對城市居民一個子集進(jìn)行的概率抽樣,這樣的抽樣已不可能涵蓋抽樣范圍內(nèi)的所有人口。
三、“捕捉”流動人口
盡管本文所使用的方法是特別用來解決在中國城市中存在的流動人口問題,但是對于解決抽樣調(diào)查中所面臨的一系列挑戰(zhàn)也可以是一個有效的方法。在許多發(fā)展中國家都缺乏一整套完整而準(zhǔn)確的人口統(tǒng)計(jì)數(shù)據(jù)。在諸如喀布爾、金邊、金沙薩等沒有人口普查數(shù)據(jù)的地方,除非研究者自己先在當(dāng)?shù)剡M(jìn)行普查,否則將不可能獲得等概率的樣本,而這顯然是不切合實(shí)際的。
我們這里提出的GPS輔助的區(qū)域抽樣方法與傳統(tǒng)的區(qū)域抽樣方法有很大的不同:我們不再假定總體是可預(yù)知的。嚴(yán)格遵循為數(shù)不多的幾項(xiàng)實(shí)施原則。我們發(fā)展出的空間抽樣程序可以在非預(yù)知總體中抽取居民的等概率樣本。有關(guān)總體的人口統(tǒng)計(jì)學(xué)特征的信息仍然有用,但已非必要,它可以幫助決定項(xiàng)目實(shí)施的量和成本,以及預(yù)測樣本的規(guī)模。如果實(shí)施得當(dāng),空間抽樣法可以不必依賴普查數(shù)據(jù)的質(zhì)量或者任何“官方”人口統(tǒng)計(jì)。從而成為針對任何類型的人口進(jìn)行等概率抽樣的通用工具。
(一)基本原理
設(shè)想一個人口分布在T個單位內(nèi)的抽樣空間——如圖—1的示例。(暫時(shí))假定我們可以獲得所有單位類型的預(yù)知規(guī)模度量(measures of size)。設(shè)φi表示單位作為人口密度?的分?jǐn)?shù),則(∑φi=1)。
區(qū)域類型:U1(黑色)U2(深灰)U3(向色)
T=∑φiti=100
φ1=5/100
φ2=48/100
φ3=47/100
1.預(yù)知單位規(guī)模測量的等概率抽樣。與任何抽樣方法一樣,空間單位隨機(jī)抽樣旨在得出目標(biāo)人口的無偏分布:只要樣本量足夠大,那么每一種單位類型的預(yù)期所占比例都等于φi,而且抽樣誤差是抽樣比的函數(shù)。如果我們假定每一個空間單位都是有人居住,那么就可以根據(jù)每一個空間單位被選中的概率。從而計(jì)算出來每一住戶被抽中的概率。
設(shè)k為空間單位的總數(shù),即樣本。每一個單位被抽中的概率是π=k/T。設(shè)θ為一個單位內(nèi)每一住戶的中選概率(θ=nj/Nj,Nj代表該單位內(nèi)的戶數(shù)),則每一戶的入選概率即為π與θ的乘積:
當(dāng)空間單位之間的分布密度不均勻時(shí),在類型i的空間抽樣單元中每一住戶的人選概率即為φi·П:
在圖-1示例的10×10的區(qū)域內(nèi)有5個人口稠密的區(qū)域。因此,當(dāng)k=10時(shí),一個有人居住的區(qū)域(黑色區(qū)域)內(nèi)的每一住戶的中選概率就是(5/100)×(10/100)×(1/N)=.005/N。
如果k>1,選中的區(qū)域內(nèi)的住戶密度可能是不均勻的,因此每戶中選概率隨著單位規(guī)模的變化而不同。如果可以獲得可靠的人口資料,那么就可以通過根據(jù)不同單位的情況選擇特別單元ni,或者在數(shù)據(jù)分析階段使用權(quán)重的方法來實(shí)現(xiàn)等概率的目的。
2非預(yù)知的單位規(guī)模測量的等概率抽樣。如果在一個以概率π選擇的單位中,住戶總數(shù)N是不可預(yù)知的,那么我們可以通過設(shè)定n=N來保證住戶抽選的等概率。也就是說,該抽樣單位內(nèi)的所有住戶都要訪到。
這樣的結(jié)果有兩方面的意義。首先,抽樣是獨(dú)立于人口度量的,中選概率僅僅是與樣本中的空間單位的比例有關(guān)。其次,無論空間單位的形狀或者表面的情況如何。中選概率是不變的,所需要的只是抽樣單位(在地圖上)有著明晰的邊界,如果被選中的話,調(diào)查者可以訪問所有在其中居住的合格受訪者,或者是—個特定的比例數(shù)量。
其要求和街區(qū)住戶列表(block listing)非常相似,也就是一旦一個街區(qū)被隨機(jī)選中,它必須被計(jì)數(shù)。傳統(tǒng)街區(qū)住戶列表抽樣法的成本與數(shù)據(jù)要求相當(dāng)之高。尤其在那些對“街區(qū)”缺乏統(tǒng)計(jì)定義的國家。對于自然街區(qū)的清晰描述非常具有挑戰(zhàn)性,比如像北京這樣的城市,在傳統(tǒng)鄰里結(jié)構(gòu)中老胡同院落鱗次櫛比,非常密集,包括很多住戶。調(diào)查過程也需要很多的時(shí)間和成本。由于預(yù)算有限,研究者只承擔(dān)得起小規(guī)模的街區(qū)住戶列表的成本;這個負(fù)面作用影響到樣本的地理代表性。
(二)結(jié)合GPS(空間定位系統(tǒng))技術(shù)的街區(qū)住戶列表
空間途徑比街區(qū)住戶列表抽樣更加有效,它并不是在大小形狀各異的街區(qū)中逐戶登記列表,而是將樣本地區(qū)從空間上分割成小的抽樣單位,小到可以更快更省地進(jìn)行登記。對于既定的預(yù)期樣本規(guī)模,產(chǎn)生非代表性樣本的風(fēng)險(xiǎn)被降低。因?yàn)楦〉某闃訂挝灰馕吨芯空呖梢陨婕案嗟木用駞^(qū)。
在基于街區(qū)住戶列表抽樣的研究項(xiàng)目中。街區(qū)規(guī)模很大程度上取決于定位它們的難易程度。采訪員被告知到由街道或其他一些容易辨認(rèn)的路標(biāo)圈定的地理區(qū)域內(nèi)去登記住戶地址.然而直到目前為止,人為地界定缺乏自然邊界的小區(qū)域很困難,因?yàn)檫@些區(qū)域在實(shí)際操作中很難接近。比如,我們沒辦法培訓(xùn)采訪員去訪問—個居于“北緯39度,10分,25.76秒;東經(jīng)111度,24分,45.12秒”的地址,除非她恰好是一個專業(yè)的地理勘查員,而這個任務(wù)所需的專業(yè)知識、成本以及時(shí)間使這幾乎是不可能的。
現(xiàn)代GPS儀解決了這個問題,因?yàn)樗鼈冇心芰σ院芨叩木_度來確定地球上任何一個小區(qū)域。 比如我們可以隨機(jī)抽選一個“一平方秒”的區(qū)域,并使用GPS儀指引我們在幾米精確度之內(nèi)到達(dá)目的地。之后調(diào)查者可以登記在這一平秒?yún)^(qū)域內(nèi)的所有住戶,一旦被列入,每一個住戶(或者相對于受訪者固定比例的住戶)都必須被訪問到。
不過,這里存在一個現(xiàn)實(shí)的缺陷:因?yàn)槿脒x概率不依賴于住戶的數(shù)量而是空間點(diǎn)(k\\T)的數(shù)量,因此最后的樣本規(guī)模無法預(yù)先確定。我們只能依靠對人口密度的“最佳估算”來決定樣本單元的合理數(shù)量和規(guī)模。
(三)具體抽樣設(shè)計(jì)
我們使用北京市戶籍的等概率樣本作為比較基準(zhǔn)。這個名單是由居民委員會提供。并由北京大學(xué)中國國情研究中心在2001年12月抽樣得來的。為了公正地對比我們的發(fā)現(xiàn)與傳統(tǒng)的研究結(jié)果,我們設(shè)計(jì)了一個北京空間集來對應(yīng)“北京地區(qū)研究”(Beijing Area Study,BAS)的空間廣度。在BAS抽樣框之外的居住點(diǎn)均被視為放空.所有在BAS樣本框中包括的街道委員會的住戶都符合人選資格,而不管他們是否有正式戶口。
考慮到控制實(shí)地實(shí)施的成本和時(shí)間,我們也使用這個集建立了北京的大致人口模型。集單元代表了空間“一分格”,每個單元都被編碼以確定有關(guān)街道對于初級抽樣單位(PSU)平面的相對范圍,即最新的北京街道地圖標(biāo)繪的建筑區(qū)平面(見圖—2)。
1.為流動人口進(jìn)行矯正。因?yàn)槲覀冏畛醯木幋a是利用BAS的樣本框來估計(jì)所有登記人口。所以還需要進(jìn)一步調(diào)整來統(tǒng)計(jì)每個PSU中的流動人口。然而,當(dāng)時(shí)此類數(shù)據(jù)在街道居委會層面并不具備。我們轉(zhuǎn)而依靠北京市政府公布的按城區(qū)估算的年度數(shù)據(jù)。
每個PSU的估計(jì)值乘以修正系數(shù)來代表PSU所在地的區(qū)內(nèi)可能的流動人口比例。因此,如果東城區(qū)的某個PSU事先被標(biāo)記為有l(wèi)O,OOO的戶籍人口,它的總?cè)丝诠浪銥?0,000×1.15=11,500。我們進(jìn)而假設(shè):不同區(qū)里流動人口的密度是不同的,但空間上每個區(qū)內(nèi)流動人口的分布是均勻的。因?yàn)楣嫉臄?shù)據(jù)是在城區(qū)層次上整合的。而流動人口密度在我們樣本框所排除的農(nóng)村地區(qū)很低。所以我們又引入了一些總體偏差。
也許有人置疑我們依據(jù)官方資料來估算密度和測量規(guī)模(MOS)的合理性,因?yàn)檎枪俜綌?shù)據(jù)的缺陷最先促使我們決定試驗(yàn)GPS抽樣方法。作為對中國統(tǒng)計(jì)數(shù)據(jù)的辯護(hù),值得指出的重要問題是中國的人口普查確實(shí)對流動人口做出了估計(jì)。在我們看來,這些數(shù)據(jù)的缺陷是因?yàn)閮H計(jì)入了長期流動人口而造成的。但當(dāng)計(jì)算MOS時(shí),我們只能使用2000年流動人口普查數(shù)據(jù)計(jì)算出對人口總數(shù)的估計(jì)。不過在PPS抽樣中,只有相對規(guī)模(MOS)才是重要的。由于各抽樣單位內(nèi)的長期和短期流動人口的比率是不同的,因此我們的修正系數(shù)又引入了一些偏差。
這就是為什么我們低估流動人口在樣本空間中的比例的原因。表-2通過比較研究實(shí)施時(shí)的數(shù)據(jù)(A欄)與經(jīng)修正系數(shù)修正過的當(dāng)時(shí)的普查數(shù)據(jù)(B欄)進(jìn)而總結(jié)出衡量誤差大小的一種測度。流動人口的密度在所有城區(qū)都更高,但最明顯的誤差出現(xiàn)在城市周邊的城區(qū)中(朝陽,豐臺,海淀和石景山),反之在城中心的誤差卻比較低。
把一個城區(qū)內(nèi)不同地方的流動人口密度硬性假定為一個平均值的做法當(dāng)然有可能產(chǎn)生負(fù)面的影響.但由于目前普查數(shù)據(jù)已發(fā)布至鄉(xiāng)鎮(zhèn)一級水平。所以我們對這些影響也已能夠測量。這種假定在城市中心是可以被接受的,但在預(yù)測那些流動人口高度密集的周邊區(qū)域時(shí)卻可能導(dǎo)致了嚴(yán)重的誤差。在豐臺區(qū)的一個街道,流動人口與戶籍人口的比率達(dá)到8:1(圖-3)。
最后的集由349個PSUs(即一分格:squareminutes)組成。在北京的緯度上,一分格實(shí)際上是準(zhǔn)矩形的梯形,高為1.853公里(緯),寬為1.418公里(經(jīng)),即2.262平方公里的區(qū)域。
圖-4總結(jié)了規(guī)模估計(jì)的測度。估計(jì)人口數(shù)在縱軸上分布,他們的位置由經(jīng)度與緯度所決定。請注意我們并不意在構(gòu)造一個北京總體的人口模型,而僅僅是估計(jì)BAS樣本覆蓋區(qū)域的人口密度。
我們將每個一分格作為第一階段抽取居民點(diǎn)的PSU,基于我們的規(guī)模測量(MOS),通過PPS方法(probabilities proportional to size,概率與規(guī)模成比例)選出50個樣本單位。為了保證城市和城市邊緣地區(qū)的代表性,PSU是按規(guī)模大小來進(jìn)行降序排列的。據(jù)此,所有的住戶都有同等的人選機(jī)會,這一設(shè)計(jì)確保了具有代表性的低密度、中密度和高密度社區(qū)都被抽中。
2次級抽樣單位:一秒格(square seconds)。接下來,我們隨機(jī)抽選了200個被定義為“一秒格”的次級抽樣單位(SSUs)——四個SSUs完全隨機(jī)地從每個PSU中抽出。為了便利對每個SSU的實(shí)測,研究小組決定不必按照長梯形的形狀定位一秒格,而是根據(jù)所有相關(guān)一秒格的地理坐標(biāo)統(tǒng)一將其簡化為同樣大小的正方形(54×54米)。然后對其中的有住戶的地址進(jìn)行登錄。
在實(shí)測了所有200個點(diǎn)之后,我們發(fā)現(xiàn)我們計(jì)數(shù)了比預(yù)期要多得多的“址”,大約4倍于我們需要的1000個住戶的規(guī)模。這個誤差最可能是由城市空間高異質(zhì)的密度造成。在北京,被調(diào)查的一分格近半數(shù)的是空的,而不空的格包含的“址”遠(yuǎn)遠(yuǎn)超過我們估計(jì)的住戶密度。而且,我們假定“址”與預(yù)計(jì)住戶數(shù)是一對一的關(guān)系,所以這只能極粗略地反映北京居民的居住狀況。
我們的預(yù)期樣本規(guī)模是建立在所能得到的最好的地圖和統(tǒng)計(jì)數(shù)據(jù)的基礎(chǔ)上的。這些資料對于粗略的整體估計(jì)應(yīng)該是夠用的。我們有理由相信我們對于PSU規(guī)模的相對度量是可以接受的,但是它們不足以在一秒格層次上對樣本規(guī)模做出準(zhǔn)確估計(jì)。址與戶之間的不確定關(guān)系以及很難準(zhǔn)確預(yù)測的流動人口數(shù)量都導(dǎo)致了這個預(yù)測誤差。
因?yàn)橹返臄?shù)量四倍于我們的預(yù)算所能承受的規(guī)模,我們就隨機(jī)選擇了1/4的一秒格,即每個PSU中只保留一個抽樣點(diǎn)。經(jīng)過現(xiàn)場勘查,確認(rèn)了49個抽樣點(diǎn)中有24個點(diǎn)是空的,所以問卷實(shí)施是在另外25個不空的一秒格進(jìn)行的。這個決定與保證每個住戶等概率入選的原則是一致的,但它卻意味著現(xiàn)場實(shí)施工作的困難。勘察樣本區(qū)域和訪問受訪人必須分開進(jìn)行,我們必須等到所有的區(qū)域都被勘測完畢后才能計(jì)算出址的總數(shù)以及單元的可行抽樣比率(14)。
因?yàn)槲覀冏罱K僅僅使用了我們勘測的200個點(diǎn)中的一部分。我們可以模擬出樣本規(guī)模的變化以及預(yù)計(jì)戶數(shù)和實(shí)際址數(shù)之間差距的程度。這個模擬假定我們在每個PSU中隨機(jī)抽取一個點(diǎn),進(jìn)行10000次復(fù)制。每一次抽取后都計(jì)算樣本規(guī)模(址的總數(shù))以及各PSU預(yù)計(jì)住戶數(shù)(根據(jù)北京人口模型)與實(shí)際址數(shù)之間的差距之和(圖—5)。
這樣,1348的平均樣本規(guī)模成為我們的目標(biāo)樣本規(guī)模。這里我們轉(zhuǎn)而關(guān)注樣本內(nèi)部的差異??紤]到住戶數(shù)和實(shí)際址數(shù)之間的不確定關(guān)系.很重要的是測定合適的樣本規(guī)模。人選樣本的規(guī)模要足夠大,從而可以進(jìn)行有意義的統(tǒng)計(jì)分析,但是又不能太大,以至于我們需要(也正如發(fā)生的那樣)在SSU中進(jìn)行二次抽樣。“浪費(fèi)”了勘測樣本區(qū)域的時(shí)間和金錢。抽取一個有800到1800個受訪人的樣本有93.4%的可能性,抽取1000到1800個受訪者的樣本有69.1%的可能性,抽取1000到1500個受訪者的樣本有60.1%的可能性。我們相信這些數(shù)據(jù)對于計(jì)劃實(shí)施工作是合理的。同時(shí),基于經(jīng)驗(yàn)。用來計(jì)算戶數(shù)的模型可以被更加細(xì)化。以及為達(dá)到預(yù)期樣本規(guī)模所需的抽樣點(diǎn)的數(shù)目也可以在這些發(fā)現(xiàn)的啟發(fā)下被重新計(jì)算。在49個點(diǎn)中。我們最后完成了738個訪問,比BAS的完成情況略高一點(diǎn)。我們相信這50個點(diǎn)日后將成為北京研究的合適底線。
四、空間定位系統(tǒng)抽樣真的有用嗎
我們的試驗(yàn)成功與否取決于三個因素:(1)是否有能力比其他現(xiàn)有方法更好地去覆蓋總體;(2)本次試驗(yàn)性調(diào)查得出的基本事實(shí)和以往BAS調(diào)查的結(jié)果是否重合;(3)GPS抽樣設(shè)計(jì)的抽樣誤差相對于傳統(tǒng)的(更簡單的)抽樣設(shè)計(jì)的抽樣誤差其敏感度如何。
(一)覆蓋范圍
GPS抽樣方法無疑與戶籍抽樣有許多非常不同的特點(diǎn)。如果使用傳統(tǒng)方法,738個完成樣本中有相當(dāng)高的比例(約45%)是不可能完成的:這其中有25%的外來人口,之前按抽樣設(shè)計(jì)便沒有被包括進(jìn)來。另外的20%是“人戶分離”的,也就是說這些在籍的北京市居民并不是住在他們戶口所登記的那個地址上(見表-3)。在BAS項(xiàng)目中,這種“人戶分離”的情況幾乎經(jīng)常被處理成為“無回答”(non-response):如果一個這樣的人被抽中,那么她在實(shí)際中基本上是訪不到的。
再者,實(shí)際外來人口的比例比北京市政府的統(tǒng)計(jì)估計(jì)要大一些:假定總的校正系數(shù)為1.25,那么在547個(1464403)擁有北京市戶口的受訪者中,就會有約137個外來人口[即(547×125)-547]。而在GPS抽樣中,則包括了189個外來人口,比預(yù)估多出了52個人。因此,結(jié)果與我們用來預(yù)測樣本量的政府?dāng)?shù)據(jù)與人口普查數(shù)據(jù)之問的差距相一致。由于公布的估算數(shù)據(jù)經(jīng)常會低估實(shí)際進(jìn)入到北京市的外來人口的規(guī)模。我們應(yīng)該抽取比預(yù)測更多的外來人口樣本。實(shí)際上我們也是這樣做的。圖—6顯示了對于所有的PSUs這些差異的幅度一同樣也是根據(jù)城區(qū)級的校正系數(shù)計(jì)算出來。雙變量分析結(jié)果證實(shí)了官方對外來人口規(guī)模是系統(tǒng)性的低估。這并不值得奇怪:地方官員沒有公布這種現(xiàn)象的準(zhǔn)確范圍的積極性,因?yàn)楸M管他們希望能夠?qū)σ?guī)模進(jìn)行控制,但在實(shí)踐中卻是越來越難。相應(yīng)的,外來人口遷入是受政府限制的(有時(shí)在一些極端的情況下,可能被逐出該城市),因此他們也不太會主動地向當(dāng)?shù)貦C(jī)關(guān)報(bào)告自己的遷入。然而,所有的樣本組成部分確實(shí)顯示了我們已經(jīng)成功地包括了所有的居民,不管他們是否有戶籍登記。由于相對規(guī)模度量(relative measures of size)總的來說得以保全,所以圖-6的結(jié)果還是可靠的。雖然預(yù)測的絕對值并不一定完全正確,但是我們預(yù)計(jì)的比其他地區(qū)有更少流動人口的地區(qū),在實(shí)地調(diào)查中確實(shí)也是密度很小的地區(qū)。
(二)與BAS樣本的對比
除了抽樣覆蓋范圍以外,在北京市的GPS抽樣設(shè)計(jì)的質(zhì)量好壞也在于它能夠在多大程度上重現(xiàn)BAS的結(jié)果,在兩種設(shè)計(jì)中都人選的受訪者,也就是那些居住在自己戶籍所在地址上的居民。
1.設(shè)計(jì)效應(yīng)闡釋。合理地比較不同的樣本必須要對抽樣設(shè)計(jì)有所交待(Kish 1965,1995)。在我們這一事例中.分層并不是一個主要的問題:BAS的設(shè)計(jì)只是要求在北京市城八區(qū)內(nèi)使用PPS(規(guī)模與概率成比例)的抽樣方法。而BAS-GPS也是用同樣的方法:所有的PSUs都是從一個與之前的地理區(qū)域相匹配的層級上獲得的。
在BAS中并不要求進(jìn)行概率加權(quán),因?yàn)橛缮鐓^(qū)居委會提供的戶籍名單可以直接抽到受訪者,因此就免去了先抽中戶,再從每戶中隨機(jī)地抽取一個合格受訪者這一步驟。GPS方法相比較而言要復(fù)雜一些,在SSUs(即一秒格)中,所有的地址必須都被走訪到,以確保每戶有相同的入選概率,但是每一戶中只有一個合格的受訪者接受采訪。因此,個人的加權(quán)必須既能夠解釋戶與戶之間規(guī)模的變化,也能夠說明每一次調(diào)查所能夠代表的戶數(shù)。
在兩種設(shè)計(jì)中都存在整群:即BAS中的居委會和GPS抽樣中的一秒格。因此,除非特別指明,BAS的設(shè)計(jì)效應(yīng)的計(jì)算僅通過PSU解釋整群問題,而GPS的設(shè)計(jì)效應(yīng)則不僅要通過PSU解釋整群,還需要進(jìn)行概率加權(quán)。
2.檢驗(yàn)設(shè)計(jì)效應(yīng)的人口統(tǒng)計(jì)學(xué)、經(jīng)濟(jì)學(xué)和政治學(xué)變量。人口統(tǒng)計(jì)學(xué)變量:由于兩次實(shí)際調(diào)查間隔了近七個月的時(shí)間,因此我們首先來比較那些不太受時(shí)間因素影響的變量結(jié)果和設(shè)計(jì)效應(yīng)。受本文篇幅所限,僅舉性別和年齡為例。
表-4揭示了GPS抽樣法對于樣本的人口統(tǒng)計(jì)學(xué)特征的顯著影響。2001年12月的BAS受訪者的平均年齡為43.1歲。而在GPS研究中.該平均年齡只有38.4歲。從設(shè)計(jì)效應(yīng)上看,兩者間差別的原因可以用GPS設(shè)計(jì)的覆蓋性更好來解釋。BAS中的受訪者和BAS-GPS中(即擁有北京市戶口并且居住在戶口所在住址的受訪者)分組人口的平均年齡是一致的。對比BAS樣本,GPS樣本包括了更加年輕的流動人口(主要是20多歲的年輕人),以及雖然同樣持有本市戶口但在城市內(nèi)遷移的人口,因此,GPS樣本的平均年齡年輕了六歲。
設(shè)計(jì)效應(yīng)(Deff)度量的是兩種方法之間的部分抵消的程度:在傳統(tǒng)的方法中,方差估計(jì)比較低,因?yàn)楦怕始訖?quán)是不需要的。GPS設(shè)計(jì)不僅能夠正確預(yù)測包括在BAS樣本中的不同受訪類型的均值,而且還能解釋那些由于是流動人口或是很難捕捉到的人戶分離者而沒有被包括在調(diào)查中的受訪人各組均值的巨大差異。所以顯然是更好的選擇。這里,GPS抽樣的意義不在于增進(jìn)效率,而在于避免了估計(jì)上的偏差。
同樣的結(jié)論也適用于性別這個變量:從戶籍名單上所抽取的BAS受訪者經(jīng)常有更多的男性,而在BAS-GPS中有52%的受訪者是女性。但是,在95%的置信水平上,樣本是平衡的。請注意不同戶籍類型人口中性別差異在GPS抽樣里已不復(fù)存在。(表-5)
收入變量:雖然相比較穩(wěn)定的人口統(tǒng)計(jì)學(xué)變量而言,收入變量對于時(shí)間更加敏感。但是流動人口與非流動人口間的不同點(diǎn)還是值得關(guān)注的,盡管兩次調(diào)查之間超過六個月的間隔時(shí)間可能會使人對直接的交叉比較產(chǎn)生疑問。
不同組間在平均收入的估計(jì)(每個月全家的收入/依靠這些收入生活的人數(shù),以元為單位計(jì))上有很大的差別。不僅如此,當(dāng)設(shè)計(jì)效應(yīng)納入考慮時(shí),收入上的差距變大了:毫無疑問。處于流動中的家庭是最窮困的群體,每月人均為912元(當(dāng)不用設(shè)計(jì)效應(yīng)進(jìn)行修正時(shí)為965元),相反對于那些人戶分離者而言,該數(shù)字為1208元,而處于中間水平的是那些居住在戶口所在地的居民,為990元。(表-6)
加入WTO對中國政治體系的預(yù)期影響:最后帶入比較的是—個時(shí)間敏感性很強(qiáng)的態(tài)度性變量:中國加入世貿(mào)組織(WTO)之后的可能的影響。2001年12月,在宣布中國正式加入WTO的多哈會議的一個月后,BAS的受訪者被要求評價(jià)一下這種成員資格的獲得對中國經(jīng)濟(jì)和政治的結(jié)構(gòu)性改革可能的影響。2002年的7月,當(dāng)最初的慶祝談判勝利的熱情逐漸散去,同樣的問題在GPS抽樣的調(diào)查中再次問到。顯然,區(qū)分在這個問題上兩個樣本的差異是由于不同的覆蓋范圍。抑或是由于民意實(shí)際發(fā)生了變化而造成的。已是不太可能的。
這些結(jié)論是非常有啟示性的。首先。GPS-BAS的受訪者在關(guān)于成為WTO成員國對于政治改革的影響上的態(tài)度沒有之前調(diào)查中的受訪者樂觀。更重要的是,那些流動人口和城市中的人戶分離者再一次的成為分布中的相反的兩極。富裕的人群更愿意將成員國身份引申到政治的層面上,盡管傾向于將加入WTO聯(lián)系到政治影響與受訪者對其經(jīng)濟(jì)影響的認(rèn)識有很大的相關(guān)性。(表-7)
應(yīng)該注意到在兩次調(diào)查中“無回答”的模式也同。在BAS中,只有1%的受訪者回答說“不知道”或者是拒絕回答有關(guān)加入WTO所產(chǎn)生的影響,而在GPS樣本中這個比例則達(dá)到10%(圖-7)。在BAS-GPS中,流動人口的問卷中“項(xiàng)目無回答”很多,占所有“無回答”的51%。北京戶口的居民(無論遷移與否)都有很高的回答率(92%),但是流動人口的回答率則僅有72%。同樣的結(jié)論也適用于對加入WTO對經(jīng)濟(jì)改革的影響的態(tài)度。
(三)多變量檢測
結(jié)合“無回答”的多種類型和不同群體觀點(diǎn)上的明顯差異要求我們對GPS在多變量分析中的效用問題做出回答。
因?yàn)椤盁o回答”隨著戶口登記類型的變化而變化,我們首先按照Heekman樣本選擇問題(Heekman sample-selection problem)對受訪人的回答進(jìn)行了模型化。(見表-8)選擇方程(the selection equation)僅用來解釋受訪人的戶口登記類型。我們在這里使用了三個虛擬變量,并且舍棄了常數(shù)項(xiàng)。結(jié)果方程(the outcomeequation)將回答作為人口統(tǒng)計(jì)學(xué)變量(年齡,性別,教育水平)、受訪人的職業(yè)類型(包括家庭主婦和失業(yè)者)和他的戶口登記類型的線形函數(shù)。因?yàn)槌跗诜治鲲@示了人們對于人世后給我國政治改革會帶來的影響的認(rèn)識與他們對人世給經(jīng)濟(jì)改革帶來的影響的認(rèn)識有很強(qiáng)的相關(guān)關(guān)系,所以受訪人對于后者的回答也被包括在內(nèi)。此外還包括了受訪人的家庭人均收入。
模型1證實(shí)“無回答”主要發(fā)生在流動人口之中,但這些差異到對于我們這里的實(shí)質(zhì)問題并沒有什么影響:p非常小且不顯著。在人們眼中,最大的實(shí)質(zhì)影響是人世對中國經(jīng)濟(jì)的影響。很明顯的是,那些認(rèn)為加入WTO對中國經(jīng)濟(jì)改革產(chǎn)生影響的人自然也認(rèn)為將對政治產(chǎn)生相同的作用。這種結(jié)果不隨著年齡和教育的變化而變化,但隨性別變化,雖然這種影響相當(dāng)之低(在0-10的區(qū)間內(nèi),“女性”的影響只有0.4)。
藍(lán)領(lǐng)和技術(shù)工人(不是農(nóng)民)希望在加入WTO會帶來政治改革方面的變化。另一方面,干部對經(jīng)濟(jì)改革所受的影響與政治改革的聯(lián)系則抱有深深的疑慮,這或許反映了官員們意識到國家的主要決策者希望中國一方面在劇烈的經(jīng)濟(jì)改革的路上前行,而同時(shí)并不會削弱中國共產(chǎn)黨的現(xiàn)有地位。請注意,戶籍類型在這里并不重要,一旦職業(yè)類型、性別和加入WTO對于經(jīng)濟(jì)影響的態(tài)度被考慮進(jìn)來,流動人口和非流動人口的態(tài)度沒有大的區(qū)別。
因?yàn)樵趹艏愋椭袥]有可測量的選擇偏差(measurable selection bias),模型2和3在沒有Heckman方式的條件下檢驗(yàn)了相似的細(xì)節(jié)。在沒有選擇樣本的情況下模型3重復(fù)了模型1的發(fā)現(xiàn)。與預(yù)期相符,當(dāng)p可以忽略不計(jì)的時(shí)候,實(shí)質(zhì)影響和所有相關(guān)系數(shù)的顯著水平幾乎都沒有區(qū)別。
模型2檢驗(yàn)了相反的實(shí)驗(yàn):如果我們的GPS抽樣排除了流動人口和人戶分離者,我們的結(jié)果將會是什么樣的?這個辦法使我們對模型3的估計(jì),基于331個居住在他們正式登記的地址的受訪人。結(jié)果顯示,即使戶籍類型并不能直接地影響受訪人關(guān)于加入WTO的政治影響的觀點(diǎn)。不能確保覆蓋流動人口和人口中最具活力的部分(遷移者)的抽樣設(shè)計(jì)會產(chǎn)生嚴(yán)重的誤導(dǎo):模型2夸大了性別偏差(B=68而不再是41)而且未能解釋藍(lán)領(lǐng)工人、技術(shù)人員和教師等對于WTO會導(dǎo)向政治改革的期望。在模型2中,這些相關(guān)系數(shù)比完整樣本小很多,并且有較大的標(biāo)準(zhǔn)誤。
五、結(jié)論
社會科學(xué)家們迄今還沒有充分利用GPS所帶來的技術(shù)飛躍。盡管理論上對空間抽樣為什么可以是等概率抽樣的回答非常清楚,但直到最近。由于不具備抽取便利的、可以經(jīng)濟(jì)地定位、調(diào)查和計(jì)算的小單元的能力。所以空間抽樣的應(yīng)用還僅限于自然科學(xué)。GPS革命地解決了這個障礙:社會科學(xué)應(yīng)用空間抽樣調(diào)查成為了一個既成的現(xiàn)實(shí)。
我們用GPS抽樣的試驗(yàn)結(jié)果非常令人鼓舞。我們的這篇文章說明了:
●這一方法可以在實(shí)際中運(yùn)用。
●這一方法成功地再現(xiàn)了受訪人數(shù)據(jù)的核心結(jié)果。這些人通常在其他抽樣技術(shù)中會被包含在內(nèi)。
●空間抽樣極大地提高了對于整體潛在人群的覆蓋率,而這一點(diǎn)是地方政府的制度能力在目前環(huán)境下所不能及的。
●單變量和多變量的分析均表明改善的覆蓋率產(chǎn)生了與傳統(tǒng)抽樣非常不同的結(jié)果。
然而空間抽樣并不是萬能的。實(shí)際中有大量困難存在,尤其是如何在設(shè)計(jì)階段正確地預(yù)測樣本規(guī)模。從理論角度說。不準(zhǔn)確的預(yù)測并不會使得這一方法失效,但它們會加大使用這一方法的成本。在目前可用的數(shù)據(jù)范圍內(nèi)。更好地構(gòu)建人口的空間分布模型會使得這個方法對于那些對成本很敏感的研究者有更大的吸引力。
無論是對樣本規(guī)模的預(yù)測,還是基于相對的規(guī)模測度的PPS抽取PSUs,我們在很大程度上仍然要依靠官方數(shù)據(jù)。我們相信我們的方法恰當(dāng)?shù)丶m正了使用這些官方數(shù)據(jù)而可能產(chǎn)生的問題,因?yàn)樵斐善畹倪^程現(xiàn)在是明了的。在很多發(fā)展中國家和一些極其具有挑戰(zhàn)性的環(huán)境中,擁有良好的人口統(tǒng)計(jì)數(shù)據(jù)可能只是一種奢望。比如,對處于戰(zhàn)爭區(qū)域的難民營的研究便無法納入預(yù)知的規(guī)模度量。在這種情況下,對研究者來說更好的選擇是接受最終樣本規(guī)模的不確定性,依據(jù)其對整群和在抽樣點(diǎn)之間的旅行費(fèi)用的容忍程度分階段或不分階段地完全隨機(jī)地抽取小單元??偠灾灰罱K樣本中的所有受訪人都被訪到,也就得到了等概率的樣本。
責(zé)任編輯 劉鳳剛