——基于浙江2015年1%人口抽樣調(diào)查"/>
趙靜(浙江省統(tǒng)計(jì)局,浙江 杭州 310000)
?
工作實(shí)務(wù)
大數(shù)據(jù)時(shí)代做好人口抽樣調(diào)查的思考
——基于浙江2015年1%人口抽樣調(diào)查
趙靜
(浙江省統(tǒng)計(jì)局,浙江 杭州 310000)
摘要:互聯(lián)網(wǎng)發(fā)展至今,以自動(dòng)記錄、儲(chǔ)存和連續(xù)擴(kuò)充的方式使一切可記錄的信息數(shù)據(jù)化。隨著網(wǎng)絡(luò)與各個(gè)傳統(tǒng)行業(yè)的融合不斷深入,大數(shù)據(jù)正逐漸為經(jīng)濟(jì)社會(huì)創(chuàng)造更多的價(jià)值。抽樣調(diào)查作為一種有嚴(yán)密理論依據(jù)的科學(xué)調(diào)查方法,至今已發(fā)展得相當(dāng)成熟。在大數(shù)據(jù)時(shí)代,如何更好地開(kāi)展調(diào)查工作,特別是運(yùn)用大數(shù)據(jù)做好人口抽樣調(diào)查,值得研究和探索。
關(guān)鍵詞:大數(shù)據(jù);抽樣調(diào)查;人口
隨著“互聯(lián)網(wǎng)+”與傳統(tǒng)產(chǎn)業(yè)的飛速融合,我們迎來(lái)了大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時(shí)代。當(dāng)前,運(yùn)用大數(shù)據(jù)推動(dòng)經(jīng)濟(jì)轉(zhuǎn)型升級(jí)、完善社會(huì)治理、提升政府服務(wù)和管理能力已成為趨勢(shì)。在人口統(tǒng)計(jì)專(zhuān)業(yè)領(lǐng)域,如何運(yùn)用大數(shù)據(jù)更好地開(kāi)展人口調(diào)查工作,值得研究和探索。
筆者認(rèn)為大數(shù)據(jù)是互聯(lián)網(wǎng)發(fā)展到現(xiàn)今階段的一種表象或特征,它基于“云計(jì)算”為代表的現(xiàn)代信息技術(shù),以自動(dòng)記錄、儲(chǔ)存和連續(xù)擴(kuò)充的方式,使一切可記錄的信息數(shù)據(jù)化。然后通過(guò)對(duì)這些原本很難收集和使用的數(shù)據(jù)進(jìn)行整合分析,得到與研究問(wèn)題相關(guān)的有用信息。隨著互聯(lián)網(wǎng)與各個(gè)傳統(tǒng)行業(yè)的融合不斷深入,大數(shù)據(jù)將逐步為經(jīng)濟(jì)社會(huì)創(chuàng)造更多的價(jià)值。它主要具備以下三個(gè)特點(diǎn):
1.大數(shù)據(jù)信息量巨大,為多維度的數(shù)據(jù)分析提供了選擇空間
傳統(tǒng)抽樣調(diào)查獲得的樣本數(shù)據(jù),是以特定研究為目的,依據(jù)嚴(yán)格設(shè)計(jì)的抽樣方案而獲得的結(jié)構(gòu)化數(shù)據(jù)。由于受到方案的限制,樣本數(shù)據(jù)的分析空間十分有限。以1%人口抽樣調(diào)查為例,由于樣本量的控制,方案設(shè)計(jì)時(shí)考慮更多的是樣本對(duì)各市常住人口的代表性,抽中樣本的分布在各縣(市、區(qū))間差異較大,自然無(wú)法滿(mǎn)足測(cè)算區(qū)縣一級(jí)常住人口的要求。
大數(shù)據(jù)則是各類(lèi)型數(shù)據(jù)的匯總,除了結(jié)構(gòu)型數(shù)據(jù),更多的是非結(jié)構(gòu)型數(shù)據(jù)、半結(jié)構(gòu)型數(shù)據(jù)或異構(gòu)數(shù)據(jù),很多數(shù)據(jù)難以用傳統(tǒng)的統(tǒng)計(jì)指標(biāo)或統(tǒng)計(jì)圖表加以體現(xiàn)。大數(shù)據(jù)的大體量與多樣性,彌補(bǔ)了抽樣調(diào)查中由于樣本有限,對(duì)某些規(guī)律、弱小信息捕捉不力的缺陷,為多維度、多層次的數(shù)據(jù)分析提供了可能性。
2.大數(shù)據(jù)結(jié)構(gòu)復(fù)雜多樣,無(wú)法按傳統(tǒng)方法分類(lèi)統(tǒng)計(jì)
隨著大數(shù)據(jù)的迅速發(fā)展,大部分?jǐn)?shù)據(jù)信息都已經(jīng)脫離出數(shù)據(jù)結(jié)構(gòu)的范疇,屬于非結(jié)構(gòu)化數(shù)據(jù),包括紙質(zhì)信息與數(shù)字化的視頻、音頻、郵件、圖片等等。各種數(shù)據(jù)格式之間互不兼容,給數(shù)據(jù)的提取、存儲(chǔ)、管理和應(yīng)用帶來(lái)了很大困難。
大數(shù)據(jù)是雜亂、不規(guī)整、良莠不齊的,傳統(tǒng)的量化方式已無(wú)法直接處理非結(jié)構(gòu)化數(shù)據(jù)。我們需要將統(tǒng)計(jì)研究的對(duì)象范圍從結(jié)構(gòu)性數(shù)據(jù)擴(kuò)展到一切數(shù)據(jù),重新思考數(shù)據(jù)的定義和分類(lèi)方法,并以此為基礎(chǔ)發(fā)展和創(chuàng)新統(tǒng)計(jì)分析方法,做好大數(shù)據(jù)與傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的對(duì)接。
3.大數(shù)據(jù)重視相關(guān)性而不是因果關(guān)系
大數(shù)據(jù)已然逐步占據(jù)當(dāng)前信息社會(huì)的中心舞臺(tái),也使得傳統(tǒng)知識(shí)觀中的因果規(guī)律遭到極大的挑戰(zhàn)。大數(shù)據(jù)的核心在于預(yù)測(cè),它通過(guò)各種復(fù)雜的數(shù)學(xué)算法處理海量數(shù)據(jù)來(lái)預(yù)測(cè)事情發(fā)生的可能性。這是一種從相關(guān)性著手,通過(guò)對(duì)過(guò)去的理解,釋放出對(duì)未來(lái)預(yù)測(cè)的新型思維方式,它從本質(zhì)上改變了傳統(tǒng)數(shù)據(jù)的開(kāi)采模式。另外,盡管大數(shù)據(jù)能夠非常好地檢測(cè)相關(guān)性,但其自身無(wú)法告訴我們哪一種相關(guān)性是有意義的。譬如,在互聯(lián)網(wǎng)上大數(shù)據(jù)的收集是根據(jù)關(guān)鍵詞搜索來(lái)統(tǒng)計(jì)的,然而很多關(guān)鍵詞看似與研究的問(wèn)題相關(guān),實(shí)際上相差甚遠(yuǎn)。如果在收集數(shù)據(jù)的過(guò)程中缺乏嚴(yán)謹(jǐn)?shù)膶徍藯l件,大數(shù)據(jù)的量級(jí)規(guī)模會(huì)擴(kuò)大這件虛假的相關(guān)性,導(dǎo)致我們做出錯(cuò)誤的判斷。
在社會(huì)經(jīng)濟(jì)發(fā)展過(guò)程中,人口始終是一個(gè)重要因素,其年齡、性別、受教育程度結(jié)構(gòu)和生育、就業(yè)等因素對(duì)一個(gè)國(guó)家或地區(qū)的經(jīng)濟(jì)發(fā)展?jié)摿?、社?huì)進(jìn)步狀態(tài)有全面而深遠(yuǎn)的影響。人口變動(dòng)情況是人口統(tǒng)計(jì)的重要內(nèi)容,國(guó)務(wù)院2010年頒布的《全國(guó)人口普查條例》明確規(guī)定,人口普查每10年進(jìn)行一次,尾數(shù)逢0的年份為普查年度。我國(guó)經(jīng)濟(jì)發(fā)展速度快,社會(huì)流動(dòng)規(guī)模大,經(jīng)過(guò)10年的發(fā)展,人口結(jié)構(gòu)必然會(huì)發(fā)生很大的變化,所以又建立了在兩次全國(guó)人口普查之間的1%人口抽樣調(diào)查制度,又稱(chēng)為“小普查”。開(kāi)展全國(guó)1%人口抽樣調(diào)查,能準(zhǔn)確、及時(shí)地掌握各地區(qū)的人口變動(dòng)情況,對(duì)研究未來(lái)人口發(fā)展趨勢(shì),保障、改善民生,以及制定各項(xiàng)方針政策都具有極其重要的意義。
1.調(diào)查目的和內(nèi)容
2015年全國(guó)1%人口抽樣調(diào)查的目的是了解2010年以來(lái)我國(guó)人口在數(shù)量、素質(zhì)、結(jié)構(gòu)、分布以及居住等方面的變化情況,為制定國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展規(guī)劃提供科學(xué)準(zhǔn)確的統(tǒng)計(jì)信息支持。調(diào)查標(biāo)準(zhǔn)時(shí)點(diǎn)為2015年11月1日零時(shí),調(diào)查內(nèi)容主要包括姓名、性別、年齡、民族、受教育程度、行業(yè)、職業(yè)、遷移流動(dòng)、社會(huì)保障、婚姻、生育、死亡、住房情況等。
2.抽樣方案的設(shè)計(jì)
由于受技術(shù)、時(shí)效性以及經(jīng)濟(jì)成本等原因的限制,抽樣調(diào)查作為一種科學(xué)的采樣方式,得到了廣泛的應(yīng)用。在調(diào)查經(jīng)費(fèi)一定的情況下,樣本量和抽樣方法的確定主要考慮以下兩個(gè)方面:首先要保證各市調(diào)查的樣本量對(duì)本市有較好的代表性,主要指標(biāo)的相對(duì)誤差控制在10%以?xún)?nèi);再者要保證落實(shí)到各縣(市、區(qū))調(diào)查樣本量差距不大,調(diào)查的最終樣本規(guī)模與其人口規(guī)模大體一致,便于組織實(shí)施。
2015年1%人口抽樣調(diào)查,以全國(guó)為總體,以各地級(jí)市為子總體(其中各地級(jí)市的樣本量來(lái)自于各地級(jí)市常住人口的平方根占所屬省的比例乘以1%人口抽樣分配到該省的樣本量)。浙江省采取分層、二階段、概率比例、整群的抽樣方法,共抽取了2602個(gè)村級(jí)調(diào)查單位,調(diào)查設(shè)計(jì)樣本量為65萬(wàn)常住人口,約占全部常住人口的1.18%。在1%人口抽樣調(diào)查中,采用二階段抽樣:第一階段抽取村級(jí)單位,第二階段抽取調(diào)查小區(qū)。平均每個(gè)調(diào)查小區(qū)常住人口數(shù)為250人,80戶(hù)左右。在第一階段抽樣時(shí),抽取方法為分層、概率比例抽樣。
分層抽樣的原則是盡可能使層內(nèi)各單位之間人口變動(dòng)指標(biāo)的差異減少,各層人口指標(biāo)差異增大,以降低抽樣誤差。分層后,按抽樣比和各層人數(shù)等比例分配每一層的樣本量。由于每層調(diào)查的人數(shù)是按人口比例分配的,層與層之間調(diào)查的人數(shù)差異很大。根據(jù)分層原則:一是充分利用人口普查的資料,依據(jù)城鄉(xiāng)屬性、外出人口比例、外來(lái)人口比例、非農(nóng)人口比例等多個(gè)經(jīng)濟(jì)發(fā)展指標(biāo),將所有村級(jí)單位細(xì)分為24層(包括開(kāi)發(fā)區(qū)、大學(xué)城等特殊層)。二是在層內(nèi)按比例抽取村級(jí)樣本單位。各層按與村級(jí)單位數(shù)成比例的PPS系統(tǒng)抽樣方法抽取村級(jí)單位,其中各層樣本村級(jí)單位數(shù)按該層村級(jí)單位總數(shù)占全部的比例分配。在每個(gè)抽中的村級(jí)單位中,采用簡(jiǎn)單隨機(jī)抽樣抽取一個(gè)調(diào)查小區(qū)樣本。
分層、概率比例抽樣使得每一層抽中的概率與其人口估計(jì)規(guī)模成正比,即人口少的層被抽中的概率??;在抽中的村(社區(qū))里,無(wú)論規(guī)模大小,都選擇一個(gè)常住人口250人左右的調(diào)查小區(qū),使抽中概率小的地區(qū),每一個(gè)人被抽中的概率增大;這一大一小的概率乘積,使得全市每個(gè)人被調(diào)查的概率保持不變。這種抽樣方式既保證了每個(gè)地級(jí)市每一層中的村(社區(qū))有同等被抽中的概率,又兼顧不同層間被抽中樣本的規(guī)模與全市的分布大體一致,因而對(duì)11個(gè)市具備了更好的代表性,也能夠如實(shí)反映全省的情況。
3.調(diào)查數(shù)據(jù)的質(zhì)量
通過(guò)2015年1%人口抽樣調(diào)查的原始數(shù)據(jù)與2010年第六次人口普查數(shù)據(jù)進(jìn)行結(jié)構(gòu)比對(duì),我們發(fā)現(xiàn),這次1%抽樣調(diào)查的數(shù)據(jù)質(zhì)量是相當(dāng)高的。從圖1來(lái)看,兩次調(diào)查的分年齡人口占比的曲線(xiàn)驚人的一致,波峰與波谷正好向后順延了5年,只是70歲以上的曲線(xiàn)略有不同,這主要是老年人口樣本量較小導(dǎo)致的抽樣誤差。圖2的分年齡性別比的曲線(xiàn)也說(shuō)明了這個(gè)問(wèn)題,2015年1%抽樣調(diào)查70歲以上的性別比都略高于2010年人普的同年齡段人口,95歲以上的性別比甚至出現(xiàn)了奇異值,再次證實(shí)抽樣調(diào)查樣本量越小,數(shù)據(jù)越容易發(fā)生偏差。
圖1 2015年1%人口抽樣調(diào)查與2010年第六次人口普查數(shù)據(jù)分年齡占比
圖2 2015年1%人口抽樣調(diào)查與2010年第六次人口普查數(shù)據(jù)分年齡性別比
1.抽樣調(diào)查的誤差不可避免
抽樣誤差是抽樣調(diào)查中的一個(gè)特有概念,在抽樣調(diào)查中,用任何一套樣本的調(diào)查數(shù)據(jù)推斷總體,都不可能得到確切的總體真值。抽樣誤差是不可避免的,是絕對(duì)存在的。1%人口抽樣調(diào)查采取的是分階段抽樣,每個(gè)階段都會(huì)產(chǎn)生誤差。就第一階段抽取村級(jí)單位來(lái)說(shuō),全省近32000個(gè)村級(jí)單位,平均每村(社區(qū))戶(hù)籍人口為1522人,而抽中的2603個(gè)村級(jí)單位,平均戶(hù)籍人口有2200人,很顯然,抽中的村相對(duì)規(guī)模較大,情況更復(fù)雜,代表性也愈強(qiáng)。但從推算總體的角度來(lái)說(shuō),肯定會(huì)產(chǎn)生偏差。
同時(shí),調(diào)查中的人為誤差也一直存在,尤其在目前統(tǒng)計(jì)與政體沒(méi)有分開(kāi)的情況下,將調(diào)查數(shù)據(jù)與政績(jī)掛鉤,必然會(huì)在統(tǒng)計(jì)數(shù)據(jù)上出現(xiàn)虛報(bào)和瞞報(bào)的行為,基層統(tǒng)計(jì)調(diào)查都不同程度受到過(guò)行政干預(yù)。同時(shí)基層調(diào)查員經(jīng)過(guò)層層培訓(xùn),對(duì)指標(biāo)的理解把控,以及對(duì)工作的責(zé)任心都參差不齊,也會(huì)造成數(shù)據(jù)偏差。
在這種背景下,就需要通過(guò)技術(shù)加權(quán)、部門(mén)數(shù)據(jù)佐證,大數(shù)據(jù)補(bǔ)充等多種方法多角度評(píng)估抽樣調(diào)查的數(shù)據(jù)質(zhì)量。
2.抽樣調(diào)查無(wú)法滿(mǎn)足多層次統(tǒng)計(jì)信息需求
抽樣調(diào)查一般只能滿(mǎn)足單層次的統(tǒng)計(jì)信息需求。2015年的1%人口抽樣調(diào)查在進(jìn)行樣本設(shè)計(jì)時(shí),以全國(guó)為總體,以各地級(jí)市為子總體,所以對(duì)全省和11個(gè)地級(jí)市都有代表性;但細(xì)化到縣(市、區(qū))一級(jí),由于樣本量少且分布不均,分縣的常住人口推算是完全沒(méi)有代表性的。
隨著戶(hù)籍制度的取消和人口流動(dòng)的頻繁,常住人口將替代戶(hù)籍人口越來(lái)越多地被應(yīng)用于各級(jí)政府行政決策的方方面面,因而會(huì)有更多的數(shù)據(jù)需求。如何在抽樣調(diào)查的背景下做好分縣常住人口的測(cè)算,是各級(jí)統(tǒng)計(jì)機(jī)構(gòu)面臨迫在眉睫的問(wèn)題。
抽樣調(diào)查是一種有嚴(yán)密理論依據(jù)的科學(xué)調(diào)查方法,其理論與方法體系主要依托于概率論,至今已發(fā)展得相當(dāng)成熟。作為一種非全面調(diào)查方法,抽樣調(diào)查在小數(shù)據(jù)時(shí)代以最少的人力成本,最小的采樣數(shù)據(jù)在社會(huì)統(tǒng)計(jì)中得到了廣泛的應(yīng)用。當(dāng)然,每一種調(diào)查方法都存在著一定的缺陷,在大數(shù)據(jù)時(shí)代,抽樣調(diào)查也面臨著諸多機(jī)遇與挑戰(zhàn)。經(jīng)過(guò)多部門(mén)收集匯總的大數(shù)據(jù)庫(kù)就像一座待開(kāi)發(fā)的寶庫(kù),不論對(duì)產(chǎn)業(yè)環(huán)節(jié)的實(shí)踐者還是對(duì)公共服務(wù)部門(mén)都有極具誘惑力的價(jià)值。但由于研究問(wèn)題的復(fù)雜性,大數(shù)據(jù)有時(shí)并不能如實(shí)地反映總體情況,大數(shù)據(jù)具有不確定性,較強(qiáng)的復(fù)雜性。從抽樣調(diào)查的角度來(lái)講,大數(shù)據(jù)更多的功能是一種輔助信息,并不是真實(shí)的總體信息,離開(kāi)抽樣調(diào)查的大數(shù)據(jù)將失去可靠的基礎(chǔ)保障。在大數(shù)據(jù)時(shí)代,抽樣調(diào)查與大數(shù)據(jù)應(yīng)該實(shí)現(xiàn)相互佐證,互為補(bǔ)充的功能。
在大數(shù)據(jù)時(shí)代,做好人口抽樣調(diào)查,筆者認(rèn)為有以下三個(gè)值得推進(jìn)的舉措:
1.運(yùn)用信息化手段采集調(diào)查數(shù)據(jù)。積極推進(jìn)移動(dòng)智能終端綜合管理平臺(tái)的應(yīng)用,充分利用PDA、智能手機(jī)、聯(lián)網(wǎng)直報(bào)等現(xiàn)代信息技術(shù)和設(shè)備采集統(tǒng)計(jì)調(diào)查數(shù)據(jù),從程序角度,更大提高人口抽樣調(diào)查數(shù)據(jù)質(zhì)量。
2.共享政府各部門(mén)的電子化行政記錄和綜合統(tǒng)計(jì)數(shù)據(jù)系統(tǒng)。人口問(wèn)題涉及社會(huì)的方方面面,公安部門(mén)的流動(dòng)人口登記情況、衛(wèi)計(jì)部門(mén)的出生人口數(shù)據(jù),社保部門(mén)的保險(xiǎn)繳納情況等等,都可以依托政府統(tǒng)一的政務(wù)數(shù)據(jù)交換平臺(tái),實(shí)現(xiàn)實(shí)時(shí)傳輸與共享。這對(duì)分析人口的結(jié)構(gòu)數(shù)據(jù),把握人口發(fā)展趨勢(shì)都很有借鑒意義。
3.開(kāi)發(fā)對(duì)大數(shù)據(jù)的挖掘與分析功能,整合各類(lèi)非結(jié)構(gòu)化數(shù)據(jù)資源。隨著“互聯(lián)網(wǎng)+”的高速發(fā)展,人作為一個(gè)社會(huì)屬性,很多信息在大數(shù)據(jù)中都有體現(xiàn),譬如淘寶網(wǎng)上某地級(jí)市用戶(hù)群的年齡結(jié)構(gòu),鐵道部門(mén)“春運(yùn)季”車(chē)票的銷(xiāo)售情況等等。統(tǒng)計(jì)部門(mén)應(yīng)不斷提高大數(shù)據(jù)分析技術(shù),對(duì)各類(lèi)非結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行多目標(biāo)、多角度、多層次的加工、整合,推進(jìn)大數(shù)據(jù)在人口抽樣調(diào)查評(píng)估分析中的應(yīng)用。
(責(zé)任編輯:施越霞)
統(tǒng)計(jì)科學(xué)與實(shí)踐2016年6期