齊嘉楠
(中國人口與發(fā)展研究中心,北京100081)
無回答頻次的影響因素研究及追蹤措施探討
齊嘉楠
(中國人口與發(fā)展研究中心,北京100081)
本文以2014年中國家庭追蹤調(diào)查首輪并行數(shù)據(jù)為基礎,采用多水平泊松回歸模型,對無回答頻次的影響因素進行了研究。研究結(jié)果表明,調(diào)查員的年齡、調(diào)查點發(fā)達程度以及居住環(huán)境對無回答次數(shù)有著重要影響,宏觀和中觀地區(qū)因素對無回答次數(shù)存在顯著影響。泊松多水平回歸在無回答研究的應用效果較好。最后,從技術(shù)和機制兩個層面,探討了有關(guān)追蹤的建議和對策。
無回答頻次;多水平泊松回歸;追蹤措施
隨著我國社會、經(jīng)濟快速發(fā)展,各界對調(diào)查的需求日益增多。在各類調(diào)查實施中,絕大多數(shù)會遭遇到無回答的困擾。無回答而產(chǎn)生的后果主要在兩個方面,一是減少樣本量,導致調(diào)查精度降低;另一方面在某種情況下后果更為嚴重,即帶來偏倚,使得在相關(guān)指標的預測時發(fā)生偏差。這促使調(diào)查設計的研究者們對無回答的特征、影響因素、對調(diào)查結(jié)果的影響、如何控制無回答等多個研究領(lǐng)域進行深入的探索,以解決或緩解因無回答導致的誤差發(fā)生。
通過對無回答對象的特征描述,可以加深調(diào)查設計者對無回答現(xiàn)象的了解,并有針對性地采取相應措施,可以有效的降低無回答的發(fā)生。賀飛燕[1]利用國家統(tǒng)計局和加拿大統(tǒng)計局社會統(tǒng)計項目的數(shù)據(jù),發(fā)現(xiàn)無回答者存在城鄉(xiāng)差異,一宅多戶的住戶無回答率較高。孫妍等[2]通過對拒訪對象進行追訪,發(fā)現(xiàn)中外調(diào)查拒訪的特點和模式基本一致,受住戶家庭的主事者社會經(jīng)濟特征、參訪經(jīng)歷等因素影響,認為拒訪行為是可預測的。
無回答受多方面因素影響,了解并對這些影響因素加以有效利用,可降低無回答的發(fā)生幾率。Jelke[3]認為,無回答受調(diào)查的主題、目標人群、調(diào)查時間、問卷長度、調(diào)查員的水平以及現(xiàn)場組織情況等多因素影響,且不同經(jīng)濟發(fā)展水平的地區(qū)間存在較大差異,農(nóng)村地區(qū)比城市地區(qū)回答率高,大城市比小城鎮(zhèn)回答率低,較低的社會經(jīng)濟狀況地區(qū)回答率較低。王華等[4]通過對臺灣民意電話調(diào)查數(shù)據(jù)分析后發(fā)現(xiàn),調(diào)查員的性別、年齡、語言及語音特征對單元無回答存在顯著影響,但部分影響模式還需進一步確認。胡順奇[5]則認為,不應把無回答的主要原因歸咎于被調(diào)查者,在調(diào)查過程中存在的隱瞞調(diào)查真相,誤導被調(diào)查者,泄露被調(diào)查者個人隱私以及誘導或脅迫被調(diào)查者等倫理問題,導致了無回答的產(chǎn)生,因此應重視調(diào)查過程中倫理的因素對無回答的影響,確保研究主題的確定、問題設計、調(diào)查方法到數(shù)據(jù)保存、統(tǒng)計分析、結(jié)論報告等各環(huán)節(jié)遵循潛在的倫理要求。
在應用調(diào)查數(shù)據(jù)時,如何應對無回答帶來的偏差一直以來都是眾多研究者關(guān)注的重點。對無回答誤差的調(diào)整方案會直接影響調(diào)查的結(jié)果。目前對無回答的調(diào)整主要包括兩種方式,即權(quán)數(shù)調(diào)整法和樣本替代法。張喆等[6]依據(jù)不同的數(shù)據(jù)缺失機制,提出了兩種不同的計算回答率的方式,并推斷出不同取值對估計效果的影響。Jelke[3]通過對無回答對象回訪調(diào)查或填寫主要指標問題的形式對無回答造成的偏倚予以糾正,也屬于權(quán)數(shù)調(diào)整法的一種形式。風笑天[7]認為,在實地調(diào)查的過程中,應盡量采取措施,在轉(zhuǎn)化和減少無回答數(shù)量上下工夫,最大限度地對由無接觸和拒絕回答等原因造成的無回答現(xiàn)象進行轉(zhuǎn)化,以此來保證足夠的回答率,而不應采用樣本替換的方法來補充樣本。王玉梅等[8]對無回答誤差分析了預防措施,通過樣本替代法和加權(quán)調(diào)整法對無回答誤差進行調(diào)整,同時提出,樣本替換易對結(jié)果造成嚴重偏倚,需要事先確定替換原則才能有效控制樣本替換對數(shù)據(jù)誤差的影響。賀建風等[9]認為,可以通過事前預防和事后補救的措施來對無回答誤差進行調(diào)整,通常的做法是在抽樣設計階段采用二重抽樣的方式獲得無回答單元的信息,或?qū)卮饐挝粩?shù)據(jù)使用加權(quán)因子,將無回答單位的設計權(quán)數(shù)在回答單位中重新分配加以解決。
無回答誤差無法避免,但可以通過在調(diào)查實施的不同階段采取應對措施對其加以控制。魯志賢[10]、王有剛[11]等學者均認為糾正無回答偏倚的根本途徑在于降低無回答率,可以對無回答進行有效地預防,相關(guān)措施包括加強調(diào)查的組織管理,設計優(yōu)良的問卷,加強訪員的培訓和管理及訪問技巧,加強公共關(guān)系以及與被訪者的溝通等。賀飛燕[1]則建議通過簡化任務控制表、嚴格的數(shù)據(jù)控制流程以及提高訪問員素質(zhì)等途徑來解決。牛成英等[12]構(gòu)建由無回答誤差引起的非抽樣誤差函數(shù)后發(fā)現(xiàn),使用增大樣本量的方法在有些場合下有效,有些場合下不太有效。當回答率、回答群中單元間變異程度以及實際調(diào)查的總體變異程度固定時,增大樣本量可以減小估計量方差,但能否減小估計量偏差,則主要取決于回答群和無回答群之間的差異。
研究無回答發(fā)生的次數(shù),有助于研究者在辨識影響無回答的風險因素之外,進一步了解這些風險因素可能產(chǎn)生的誤差偏倚程度,也正是本文研究的核心問題。此外,目前國內(nèi)已有的研究對宏觀(如區(qū)域、省份)、中觀(如縣、市、區(qū))等背景因素如何影響無回答的情況投入的關(guān)注不足,而不同區(qū)域、省份的社會、經(jīng)濟狀況存在的客觀差異,必定會對在區(qū)域內(nèi)的無回答狀況產(chǎn)生差異化的區(qū)別,即使在同一區(qū)域、省份內(nèi),不同的縣(市、區(qū))也會存在著較為顯著的差異,這類差異可從行政建制、經(jīng)濟發(fā)展水平等多方面體現(xiàn)出來,并最終反映到調(diào)查的無回答差異上來,這使得本文在此方面的研究有了一定的理論意義。得益于調(diào)查技術(shù)的快速發(fā)展,以往很多調(diào)查研究者無法或不易獲得的并行數(shù)據(jù),逐步應用到調(diào)查的分析中來,本研究對調(diào)查員相關(guān)信息(性別、年齡、受教育程度)與無回答次數(shù)間的關(guān)系進行了分析,為未來選配合適的調(diào)查員提供參考依據(jù)。
本文對下一輪的追蹤措施進行了初步的探討,提出政策建議,期望通過采取多種方式,預防并降低無回答的發(fā)生,提高追蹤的成功率。
(一)數(shù)據(jù)來源
本研究所采用的數(shù)據(jù)來自于國家衛(wèi)計委在2014年開展的一項追蹤調(diào)查項目——中國計劃生育家庭發(fā)展追蹤調(diào)查,2014年10月開始執(zhí)行第一輪調(diào)查,每兩年進行一次追蹤調(diào)查。
該調(diào)查樣本涵蓋中國大陸所有省份,涉及31個?。▍^(qū)、市)、233個地(市)、321個縣(市、區(qū))、1560個鄉(xiāng)(鎮(zhèn)、街道)的1625個樣本村(居)。設計樣本為32500個家庭,其中,安徽、山東、河南、廣東四省樣本分別為2000個家庭,河北、遼寧、江蘇、四川四省樣本分別為1500個家庭,北京、上海、江西、海南、貴州五?。ㄊ校颖痉謩e為1200個家庭,黑龍江、浙江、湖北、湖南、廣西、云南六省(區(qū))樣本分別為1000個家庭,其他省份樣本數(shù)均在1000個以下。
調(diào)查目標總體為常住人口家庭:包括戶籍人口家庭和流入人口家庭兩部分。調(diào)查對象涵蓋抽中樣本家庭中的戶主、配偶及他們現(xiàn)住本戶的親屬,包括兒童、青少年、成年人和老年人。
調(diào)查采用結(jié)構(gòu)式問卷的方式進行,調(diào)查問卷共分三類,即住戶問卷、個人問卷(0-5歲兒童、6-17歲青少年、18-59歲成年人、60歲及以上老年人)、社區(qū)問卷(居委會和村委會),共七種問卷。其中,村/居問卷主要了解村/居的人口狀況、背景條件及包括衛(wèi)生計生服務管理在內(nèi)的社區(qū)發(fā)展情況。
抽樣采取分層多階段與規(guī)模成比例(PPS)方法。全國31個?。▍^(qū)、市),每個省級單位為獨立子總體。省內(nèi)為三階段PPS抽樣,初級抽樣單元為縣(市、區(qū)),二級抽樣單位為居/村委會,每個樣本縣(區(qū)、市)包括5個樣本居/村委會(下文中,樣本點均指居委會或村委會),最終抽樣單位為家庭戶,每個樣本居/村民委員會抽取20個家庭戶。
住戶和個人調(diào)查采用面對面的調(diào)查方式,由調(diào)查員手持筆記本電腦或PAD利用計算機輔助調(diào)查系統(tǒng)(CAPI)進行,每個樣本點配備一名接受過國家一級培訓的調(diào)查員。
本研究利用該調(diào)查獲得的并行和調(diào)查數(shù)據(jù),對樣本點級無回答發(fā)生次數(shù)情況進行分析。無回答包括以下四種情況:家庭成員全部外出、家庭成員全部拒訪、家庭在樣本點內(nèi)有多處住宅而被重復抽中以及其他無法進行調(diào)查的情況。有一個觀測由于未調(diào)查社區(qū)問卷,因此在涉及社區(qū)的微觀層面數(shù)據(jù)存在缺失,對其進行插補處理。數(shù)據(jù)的基本情況如下:分析樣本量為1625個觀測。在調(diào)查員中,男性占33.4%,女性占66.6%;平均年齡33.7歲,其中,30歲以下組占31.5%,30-39歲組占48.4%,40歲及以上組占20.1%;受教育程度為高中的占15.1%,大專占44.6%,本科及以上占40.3%。無回答平均次數(shù)為2.38次。
(二)估計方法
對于計數(shù)類型的數(shù)據(jù),較符合泊松分布的特征,因此本文采用泊松回歸對數(shù)據(jù)進行分析。泊松回歸在社會生活中已經(jīng)有了較多的應用,謝元博等[13]、郭志剛等[14]、杜興強等[15]分別在健康風險、生育率和公司治理等領(lǐng)域進行了有益的探索。泊松分布的密度函數(shù)為:
為獲得一個可估計的回歸形式,將計數(shù)值與解釋變量聯(lián)系起來,通常的表達形式是:
其中,tij為補償系數(shù),x′ij為解釋變量,β為估計系數(shù)。
由于不同省份、區(qū)縣間存在客觀差異,本文擬采用多水平泊松分析,Rasbash等(2012)[16]在一個三層結(jié)構(gòu)的多水平泊松回歸中,表達形式為:
其中,β0jk=β0+v0k+vojk,v0k為省級隨機效應系數(shù),vojk為縣級隨機效應系數(shù)。
圖1 無回答研究框架圖
(三)研究框架
本研究認為,無回答數(shù)量主要受微觀以及宏觀狀況等兩個方面的因素的影響,擬通過實證研究對其加以驗證。在微觀層面,調(diào)查員方面,年齡大往往代表著閱歷較多,可能更了解調(diào)查對象的基本情況,熟悉周邊狀況;女性調(diào)查員與男性相比,可能會更具有親和力,給調(diào)查對象以安全感,而男性給人的感覺侵略性較強,使被拒絕的風險增大;受教育程度反映了調(diào)查員的素質(zhì),對調(diào)查的理解能力更強。不同特質(zhì)的調(diào)查員,面對潛在的調(diào)查對象時反應會有所不同,面對的是否接受調(diào)查的結(jié)果也不相同。在社區(qū)層面,村居規(guī)模的大小,流動人口的多少都會影響居住在社區(qū)里的居民接受調(diào)查的意愿,社區(qū)規(guī)模較大,流動人口居住較多的社區(qū),居民之間熟悉的程度相對較低,防范的心理更濃重,拒絕接受調(diào)查的可能便更大。
宏觀狀況方面,在省級層面,不但東部、中部和西部地區(qū)之間存在著經(jīng)濟、文化差異,即使是區(qū)域內(nèi)部,不同省份之間也存在著顯著差異;省內(nèi)受地形地貌、經(jīng)濟發(fā)展、產(chǎn)業(yè)布局等影響,縣、市、區(qū)之間同樣存在著差距。這些經(jīng)濟、文化層面的差異客觀存在,會在一定程度上影響受訪者接受調(diào)查的意愿,進而影響無回答的數(shù)量。
此外,由于本研究中采用的數(shù)據(jù)從復雜抽樣設計獲得,因此,在進行分析時也需要將權(quán)重的影響加以考慮,將各省家庭戶數(shù)也納入模型。
本研究采用的是基于一項家庭追蹤調(diào)查首輪的無回答數(shù)據(jù),對影響因素進行分析。對無回答的研究不應局限于首輪的影響,還應對其對未來追蹤的影響加以深入探討,并擬定相關(guān)建議。因此,如何確保未來追蹤成功,也是本研究期待解決的問題之一。此處假設首輪無回答數(shù)量與之后的追蹤無回答間存在著一定的相關(guān)關(guān)系,本研究試圖通過對首輪無回答的研究,對追蹤技術(shù)和機制提出相關(guān)建議,以改進追蹤的效果。在技術(shù)層面,探討人員、軟件、設備、管理信息系統(tǒng)等因素在追蹤中起到的作用。在機制層面,分析激勵機制、追蹤規(guī)則、差異化的資源投入以及無回答預警等多種因素對追蹤帶來可能的影響。
(一)描述性統(tǒng)計
調(diào)查員的受教育程度對無回答次數(shù)的影響沒有明顯的差異,性別和年齡因素發(fā)揮了某種作用。研究發(fā)現(xiàn),男性調(diào)查員的平均無回答次數(shù)為2.24次,比女性調(diào)查員平均低了約0.2次。將年齡進行了三段分組,分為30歲以下組、30~39歲組和40歲及以上組,發(fā)現(xiàn)30~39歲這一中間年齡段組的平均無回答次數(shù)最低,為2.26次,40歲及以上組和30歲以下組的平均無回答次數(shù)分別為2.33和2.59次。
從宏觀和中觀層面來看,無回答次數(shù)存在著較為顯著的差異。不同的地區(qū)無回答差異明顯,東部地區(qū)的平均無回答次數(shù)最高,為2.72次,中部地區(qū)的相應次數(shù)最低,為1.95次,西部地區(qū)與全國平均水平接近,為2.28次。在中觀層面上,調(diào)查地域所屬的區(qū)縣類型,其平均無回答次數(shù)也存在著差異,區(qū)的平均無回答次數(shù)最高,為2.64次;縣級市的相應次數(shù)其次,為2.25次;縣的相應次數(shù)最低,為2.14次。
在微觀層面上,城鄉(xiāng)屬性、社區(qū)規(guī)模和流動人口占比等因素內(nèi)部各組間的平均無回答次數(shù)存在著顯著的差異。居委會的平均無回答次數(shù)高于村委會,兩者分別為2.88次和1.99次。社區(qū)規(guī)模越大,平均無回答次數(shù)越高,5000人以上戶籍人口的社區(qū)平均無回答次數(shù)為2.71,2500~5000人規(guī)模的社區(qū)相應次數(shù)為2.40,2500人以下規(guī)模的社區(qū)平均無回答次數(shù)最少,為2.12次。社區(qū)內(nèi)流動人口比例越高,平均無回答次數(shù)也越高。社區(qū)內(nèi)流動人口占比在20%以上的,平均無回答次數(shù)為2.95,流動人口占比在3%~20%之間的,相應次數(shù)為2.35次,流動人口占比在3%及以下的平均無回答次數(shù)最少,為2.18次。
(二)影響因素分析
描述性統(tǒng)計只能大致看出自變量與因變量間是否存在相關(guān)關(guān)系,如要深入了解各自變量發(fā)生作用的程度,則需要進行回歸分析加以確定。本文中因變量選擇為無回答次數(shù),補償系數(shù)則選擇為為完成每個樣本點20戶的樣本量而總共入戶訪問的家庭數(shù),因此,泊松回歸擬合的結(jié)果經(jīng)指數(shù)化后,可視為每個樣本點的無回答率。
在本文的多水平泊松回歸建模過程中,首先選擇調(diào)查員的年齡作為基礎自變量,納入到多水平的分析中。模型一顯示,在多水平的構(gòu)架中,區(qū)縣級和省級兩個水平的方差均顯著,說明在無回答發(fā)生次數(shù)的研究中,宏觀和中觀的背景影響確實存在。只看年齡的影響,可知30歲以下的調(diào)查員無回答率為截距項的系數(shù)的指數(shù)(exp(-2.541)= 0.079),同理可知30~39歲和40歲及以上的調(diào)查員無回答率分別為0.074和0.067。與30歲以下的調(diào)查員相比,40歲及以上的調(diào)查員的無回答率比之低14.5%,30~39歲組比之低5.6%(不顯著)。此時,模型一中各年齡組的系數(shù)中還包含著其他各種影響因素的共同作用,需要繼續(xù)增加其他自變量以使模型對數(shù)據(jù)進行更好的擬合。
在模型一的基礎之上,本文先后增加了調(diào)查員層面的相關(guān)變量(調(diào)查員性別、調(diào)查員受教育程度)以及微觀層面相關(guān)變量(城鄉(xiāng)屬性、社區(qū)規(guī)模、流動人口占比)等變量,最終對模型解釋能力提高有顯著效果的只保留了城鄉(xiāng)屬性、流動人口占比兩個自變量。模型二中,在控制了其他影響因素后,居委會的無回答率相對于村委會高出41.6%。與流動人口占比在3%及以下的社區(qū)相比,流動人口占比在3%至20%之間的社區(qū)無回答率低12.3%,而流動人口占比超過20%以上的社區(qū)與之相比則差異不顯著。
模型三是在模型二的基礎上,增加了對宏觀、中觀背景變量以及自變量中變系數(shù)的影響。首先增加了宏觀背景變量(地區(qū))和中觀背景變量(縣市區(qū)類型),結(jié)果顯示均不顯著。將模型中自變量(城鄉(xiāng)屬性)的系數(shù)由固定變?yōu)閰^(qū)縣級和省級兩個水平上隨機系數(shù),結(jié)果顯示城鄉(xiāng)變量的系數(shù)、方差以及與區(qū)縣級的協(xié)方差均顯著,而在省級水平上方差不顯著。在最終構(gòu)建的模型三中,調(diào)查員年齡為30~39歲之間、40歲及以上的無回答率與30歲以下組相比分別低8.9%和13.5%。居委會的樣本點無回答率比村委會相應比例高45.2%。流動人口占比在3%至20%之間的社區(qū)無回答率比流動人口占比在3%及以下的社區(qū)低10.7%(p值為0.064),而流動人口占比在20%以上的社區(qū)的無回答率則與3%及以下的社區(qū)相比沒有顯著性的差異。此外,權(quán)重的影響因素在模型中也不顯著。在模型三的隨機部分,方差來源主要來自三部分,省級水平、區(qū)縣級水平和城鄉(xiāng)。其中,城鄉(xiāng)變量的系數(shù)變動存在著差異,村委會的區(qū)縣級水平的方差是省級水平方差的7.3倍,而居委會的波動性較小一些,區(qū)縣級水平的方差與省級水平方差之比為5.6。利用模型三對無回答率進行推斷,并還原到無回答次數(shù),與各省實際平均無回答水平進行比較,顯示擬合效果較好(詳見圖2)。對模型3的預測值與實際值進行Pearson相關(guān)分析,相關(guān)系數(shù)為0.855。計算模型3獲得的均方誤差為3.476,與模型1、模型2相比最小。
圖2 分省平均無回答次數(shù)實際觀測平均值與泊松回歸擬合值分布
表1 多水平泊松回歸系數(shù)、Odds Ratio及隨機項方差估計表
在執(zhí)行調(diào)查的過程中,目前存在多種調(diào)查模式,無論是面對面式調(diào)查或是電話調(diào)查,調(diào)查員的作用均很重要。雇用或選配什么樣的調(diào)查員,對控制無回答、調(diào)查員誤差等非抽樣誤差至關(guān)重要。具體到本文研究的無回答誤差,調(diào)查員的性別、受教育程度等均非重要的影響因素,只有年齡因素與無回答的次數(shù)存在著顯著的相關(guān)關(guān)系。年齡通常代表了經(jīng)驗,與人交往的能力和豐富的人生閱歷,給人以安全感而不是侵略性,這些因素在入戶調(diào)查過程中,對受訪者放松心情和警惕心理較為重要。但在目前很多調(diào)查采取計算機輔助調(diào)查的模式下,年齡較大有時并不是一件優(yōu)勢,因為年紀大的調(diào)查員往往不易接受新鮮事物,需要投入更多的精力和經(jīng)費對其電腦操作進行充分的培訓,這無疑增加了調(diào)查的成本。此外,調(diào)查員的性別、受教育程度雖對無回答的影響較小,但在招募調(diào)查員時,同樣有重要的意義。因為,男性調(diào)查員的自身安全性有較高的保障,更易于承擔夜晚、復雜地形地貌、混雜的居住環(huán)境等較為特殊場合的調(diào)查任務。通常受教育程度越高,對問卷的理解能力越強,調(diào)查的效率越高,有利于降低調(diào)查員誤差。所以,在調(diào)查員的招募過程中,年齡、性別、受教育程度等需要通盤加以考慮。
調(diào)查的微觀背景對無回答次數(shù)有著重要影響。本文選取的微觀層次的變量有三個:城鄉(xiāng)屬性、社區(qū)規(guī)模和流動人口占比,分別代表了所處發(fā)達程度、規(guī)模和居住環(huán)境,只有所處發(fā)達程度以及居住環(huán)境對無回答次數(shù)有著重要影響,而規(guī)模因素對無回答的影響較小。居委會相比村委會,受訪者對調(diào)查員并不熟悉,對陌生人警惕性較高,即使有居委會的同志進行配合,也往往不愿意接受調(diào)查。而在村里進行調(diào)查時,很多情況下屬于熟人熟戶,村委會的調(diào)查員甚至跟調(diào)查對象沾親帶故,這都使得受訪者更易接受調(diào)查。此外,城市中的受訪者往往都需要白天工作,不像農(nóng)村地區(qū)只要不是農(nóng)忙季節(jié),在家中容易遇到或者聯(lián)系到,這些因素均影響了城市的無回答次數(shù)要高于農(nóng)村。居住環(huán)境對無回答次數(shù)有一定影響,但該影響沒有城鄉(xiāng)屬性帶來的影響大,此外,本文意外發(fā)現(xiàn)流動人口占比并非越高無回答率也越高,而是呈現(xiàn)出一種“U”型的分布,這與本文的初始假設存在一定的矛盾,由于模型結(jié)果的統(tǒng)計檢驗出現(xiàn)了弱顯著性,因此,對該指標的影響還需在未來的研究中進一步加以確認。
宏觀和中觀地區(qū)因素對無回答次數(shù)存在影響。雖然有一些背景變量(地區(qū)、縣市區(qū)類型)未納入最終的多水平模型,但并不意味著宏觀和中觀的影響不存在,只是這種影響被納入到了多水平泊松模型的隨機部分中。本文研究者本以為無回答率的差異會主要發(fā)生省級水平,其次才是縣市區(qū)級水平,但實際的擬合結(jié)果顯示,差異的來源與原來的預期完全相反,無回答率差異的主要來源來自縣市區(qū)級,且城鄉(xiāng)間還存在著明顯的差異。若從這一結(jié)果進行趨勢推演,對無回答率的重要影響可能來自于更微觀的層面,即受訪者的個體差異對無回答的影響,這是未來應繼續(xù)深入研究的方向。
泊松多水平回歸在無回答研究的應用效果較好。無論從擬合的效果還是影響因素的比較,泊松多水平回歸的應用都較成功。通過選取合適的補償項,可直接輸出各樣本點的無回答率,方便分析擬合效果及相互比較。此外,泊松多水平回歸模型還可以容納較多的自變量,而不必擔心常規(guī)模型在數(shù)據(jù)量較少的情況下,必須考慮的自由度問題。雖然泊松多水平回歸模型有很多優(yōu)點,但也存在數(shù)據(jù)處理較為復雜、需要使用特定的軟件(本文多水平分析使用了MLwiN2.26[16])以及模型需要專業(yè)的解釋等困難。
在研究過程中,發(fā)現(xiàn)無回答的次數(shù)和方差并不相等,方差大于均值,此時泊松分布的性質(zhì)出現(xiàn)矛盾,該現(xiàn)象并不影響泊松分布的應用。這種現(xiàn)象在許多研究中多有發(fā)現(xiàn),Breslow[17]、Morton[18]等對此有較為深入的研究。此外,本研究未對時間因素如何影響無回答次數(shù)進行分析,由于本文采用一項追蹤調(diào)查的首輪調(diào)查數(shù)據(jù),調(diào)查時間為2014年10月,因此無法對不同調(diào)查時間點的影響加以研究,未來可在收集更多調(diào)查數(shù)據(jù)資料的基礎上對其進行進一步分析。
本研究所采用數(shù)據(jù)來源于中國家庭追蹤調(diào)查2014年首輪調(diào)查,對無回答次數(shù)的研究雖僅圍繞首輪調(diào)查時展開,但對于一項追蹤研究而言,不應局限于首輪,而更應著眼未來在追蹤過程中,如何確保將調(diào)查對象追蹤、調(diào)查到。因此,本文在以下部分將從技術(shù)和機制兩個層面,探討有關(guān)追蹤的建議和對策。
技術(shù)在此處的含義較為廣泛,包括人員、軟件、硬件以及管理信息系統(tǒng)等具體的內(nèi)容。在不改變調(diào)查模式的前提下,調(diào)查員的存在對降低調(diào)查的無回答率具有顯著的意義。在雇傭過程中,關(guān)注調(diào)查員一些背景信息(如性別、年齡、受教育程度)的同時,往往容易忽略一些更為簡單的事實,即調(diào)查員本身是否對調(diào)查充滿熱情,他(或她)對付出的努力得到的回報是否滿意,以及是否具備以往的調(diào)查經(jīng)驗。熱情代表了調(diào)查員對追蹤的正面、積極的看法,這會使其在定位、聯(lián)系以及獲得受訪者配合的過程中,做出正面的反饋,確保不輕易丟失任何一位受訪對象??山Y(jié)合實際工作,有目的地開發(fā)出一套量表工具,以在調(diào)查員招募時測量他(或她)是否對調(diào)查充滿熱情。公平、合理地確定調(diào)查員的薪酬,體現(xiàn)出調(diào)查員工作的難易程度和地區(qū)差異。在城市發(fā)達地區(qū),調(diào)查成功的成本通常遠高于農(nóng)村地區(qū)。在制定調(diào)查員薪酬時,應對地區(qū)差異、訪問成本加以通盤考慮,而不僅僅依靠成功調(diào)查的數(shù)量進行一刀切,可考慮按無回答率進行加權(quán),無回答率高的地區(qū),適當增加調(diào)查員的補貼。追蹤調(diào)查中,不但受訪者存在連續(xù)性,調(diào)查員的連續(xù)性也需得到應有的重視。國內(nèi)目前的追蹤調(diào)查,往往使用在校學生作為調(diào)查員,他們的優(yōu)點在于素質(zhì)高,受過統(tǒng)一的培訓,對問題的理解能力較強,但硬幣的另一面是學生的流動性較大,往往參加過一次調(diào)查之后,受各種原因影響,不會繼續(xù)參加下一次的追蹤,這便導致每輪追蹤時,調(diào)查對象遇到的都是新的調(diào)查員,調(diào)查員與受訪者之間不易建立某種穩(wěn)定的聯(lián)系。因此,在家庭追蹤調(diào)查中,最好在調(diào)查地點當?shù)剡M行招募,且優(yōu)先招募曾參加過首輪調(diào)查的調(diào)查員,這樣的調(diào)查員對當?shù)厍闆r更為熟悉,更易于與追蹤對象家庭建立聯(lián)系,有利于進行定位、追蹤與聯(lián)絡。
追蹤調(diào)查不同于一般的橫斷面調(diào)查,在執(zhí)行過程中,需要對調(diào)查過程進行質(zhì)量監(jiān)控,在后續(xù)的追蹤調(diào)查中,需要回置數(shù)據(jù),以便對前面的調(diào)查結(jié)果進行檢查與校正,這都決定了追蹤調(diào)查不能簡單的采用紙質(zhì)問卷的調(diào)查模式,而需要借助計算機輔助調(diào)查技術(shù)。當前比較主流的追蹤軟件分為兩類,一類是應用國外已有的商業(yè)化模塊化軟件系統(tǒng),另一類是自主開發(fā)定制化的軟件系統(tǒng)平臺,兩類軟件各有優(yōu)缺點。國外已有軟件優(yōu)點是技術(shù)成熟,模塊化系統(tǒng)較為規(guī)范,后臺技術(shù)團隊經(jīng)驗豐富,不利之處在于與國內(nèi)調(diào)查環(huán)境存在差異,遇到一些有本地特色的問題無法提供及時的解決方案,此外,漢化程度不夠以及成本較高也是存在的劣勢之一。自主開發(fā)定制化的軟件平臺優(yōu)點在于靈活性較高,能夠針對遇到的具體問題及時給出解決方案,不利之處主要集中在開發(fā)經(jīng)驗不足,開發(fā)的成功與否與調(diào)查執(zhí)行人員的經(jīng)驗與配合有直接聯(lián)系??紤]到追蹤調(diào)查的復雜性與多樣性,軟件開發(fā)的靈活性更應得到重視,自主開發(fā)定制化的軟件平臺是家庭追蹤調(diào)查的一項權(quán)衡后的選擇。
在首輪調(diào)查時,調(diào)查終端采用了筆記本電腦和pad兩種設備進行輔助調(diào)查。在實際調(diào)查時,有調(diào)查員反映需要攜帶的調(diào)查材料較多,筆記本電腦感覺過于沉重而不便于攜帶。但另一方面,筆記本電腦的分辨率較高,可視化界面較大,對于一些視力不好的調(diào)查員,或是較為復雜的表格可以一目了然的讀出題目的內(nèi)容。因此,在未來的追蹤調(diào)查中,仍需保留筆記本電腦和pad兩種終端模式,隨著智能手機的普及,進一步開發(fā)智能手機的應用模式。
管理信息系統(tǒng)屬于軟件平臺的一部分,在追蹤調(diào)查中發(fā)揮著重要作用。一個好的管理信息系統(tǒng)不僅是包括調(diào)查員、受訪者信息的數(shù)據(jù)庫,還應包含抽樣過程中附帶的地理信息。定位對于追蹤而言是首要問題,應將首輪調(diào)查時調(diào)查對象的社區(qū)、網(wǎng)格、住宅地址等信息以可視化的形式標注在電子地圖上,供調(diào)查員在追蹤時參考。相對于傳統(tǒng)的繪制紙質(zhì)調(diào)查地圖的形式,包含了調(diào)查對象地理位置信息的管理系統(tǒng)更容易保存,不易丟失,方便追蹤時調(diào)用。此外,如能與社會管理數(shù)據(jù)(如普查數(shù)據(jù)、公安管理數(shù)據(jù)或民政、社保數(shù)據(jù))進行關(guān)聯(lián),無疑會對追蹤的效果起到關(guān)鍵作用,但如何獲取此類數(shù)據(jù)以及與微觀數(shù)據(jù)庫進行關(guān)聯(lián)是難點。
良好的機制構(gòu)建是順利追蹤的保障。本研究擬從受訪者的激勵、追蹤規(guī)則、差異化的資源投入和無回答預警四個方面探討機制對追蹤的影響。對受訪者的激勵從類型來看,可分為紀念品型、實物獎勵型和現(xiàn)金激勵型,此外還有不提供任何激勵的情況。從激勵提供的時間來看,又分為事先激勵、事后馬上激勵和事后延遲激勵等類型。從激勵的分配來看,分為均勻分配型激勵、累加分配型激勵和遞減分配型激勵。目前國內(nèi)對激勵機制與追蹤成功率的研究較少,從家庭追蹤調(diào)查的實踐來看,不同地區(qū)存在不同的應用案例。總體來看,以現(xiàn)金激勵為主,以實物獎勵為輔。在未來追蹤時,可考慮制定統(tǒng)一標識的紀念品,發(fā)放給受訪者家庭,以提高受訪者對家庭追蹤調(diào)查的認同感與社會知名度,此外,還可考慮采用發(fā)放虛擬充值卡的方式提供激勵。從激勵的時間來看,以事后馬上激勵為主,即接受完調(diào)查之后支付相應的激勵措施。未來也可考慮事前激勵的方式,比如在兩輪追蹤調(diào)查之間,進行維護性跟蹤時,可適當提供激勵,以維持于受訪者的聯(lián)系,使其更愿意在未來進行正式的追蹤調(diào)查時,接受調(diào)查員的入戶訪問。此外,可將數(shù)據(jù)的質(zhì)量與提供激勵進行聯(lián)系,事先將激勵的一部分留作事后獎勵基金,如數(shù)據(jù)質(zhì)量較差,空填項過多,可扣除該戶的事后獎勵基金,否則將事后獎勵基金補償給調(diào)查對象,以此進行事后延遲激勵的嘗試。隨著通貨膨脹以及追蹤人員的擴充,可嘗試在不同輪的追蹤調(diào)查中,采用累加分配型的激勵機制。
追蹤規(guī)則對于一項追蹤調(diào)查而言至關(guān)重要。只有明確了追蹤的規(guī)則,確定了追蹤的對象,才能制定具體的追蹤方案,并培訓調(diào)查員對需追蹤的對象進行定位、聯(lián)絡、確認配合及登門調(diào)查。根據(jù)追蹤的難易程度或樣本的穩(wěn)定性,追蹤的規(guī)則分為以下幾種類型:1.只對抽取樣本所在地址進行追蹤。離開樣本所在地址的家庭成員放棄追蹤,新進入樣本所在地址的成員加入追蹤。2.初始樣本的追蹤。只對首次進入樣本的家庭成員進行追蹤,只有死亡后才退出追蹤,新增的家庭成員(比如嫁進的媳婦或新出生的嬰兒)都不追蹤。3.初始樣本加上當前與初始樣本有同居關(guān)系者及初始樣本的后代,這樣更能反映出不同輪次調(diào)查時家庭的結(jié)構(gòu)和演變情況。4.初始樣本加上當前與其有某種聯(lián)系的對象,該類型在類型3的基礎上不但包含了姻緣和血緣關(guān)系,還包含了經(jīng)濟、社會聯(lián)系,更能反映出當前的橫斷面調(diào)查特征與現(xiàn)狀。5.初始樣本加上歷次追蹤納入的新對象,該類型包含了不同時間點上的全部橫斷面調(diào)查對象,必須處理好可能存在較多缺失值的問題。選擇何種追蹤規(guī)則不僅關(guān)系到追蹤調(diào)查的成本,更與追蹤調(diào)查的研究目的息息相關(guān),需要調(diào)查的設計者慎重加以考慮。
在一個靜態(tài)的系統(tǒng)中,差異化的資源投入主要指在分配資源時應考慮無回答率的地區(qū)間差異,以及調(diào)查員水平的差異。但在一個動態(tài)系統(tǒng)中,則主要指流動的因素對無回答帶來的影響。追蹤調(diào)查就好比是一個動態(tài)系統(tǒng),在不同輪次間調(diào)查的對象可能由于各種原則發(fā)生流動的現(xiàn)象,而流動的范圍分為鄉(xiāng)鎮(zhèn)街道內(nèi)流動、縣內(nèi)流動、市內(nèi)流動、省內(nèi)流動、跨省流動以及跨國流動等多個層次,追蹤的成本隨流動范圍的擴大而增加,在確定追蹤規(guī)則后,流動的追蹤對象與留在原調(diào)查地點的追蹤對象相比,投入的追蹤資源必然存在巨大的差異。這在客觀上要求調(diào)查的執(zhí)行者采用差異化的資源投入針對不同類型的追蹤對象。在家庭追蹤調(diào)查首輪調(diào)查中,遇到外出流動的調(diào)查對象,則采取了電話調(diào)查的方式,對主要的問題進行了簡要調(diào)查。在未來的追蹤過程中,可考慮采用不同的調(diào)查模式(電話調(diào)查、郵寄問卷調(diào)查、網(wǎng)絡調(diào)查等)對外出對象進行追蹤,但由于調(diào)查模式和問卷內(nèi)容的改變,會對研究的目的產(chǎn)生潛在的影響,因此需要慎重選擇。此外,調(diào)查成本也是需要考慮的一個方面,如經(jīng)費不允許,則可對流動范圍過大的追蹤對象進行缺失處理,比如對流動范圍超出縣界的追蹤對象予以放棄,在下輪追蹤時如已返回則繼續(xù)調(diào)查。如經(jīng)費有保障,則可放寬對流動范圍的控制,對外出流動的追蹤對象盡可能多的進行調(diào)查。
建議無回答預警機制有助于提前對可能的追蹤失敗案例做出預判,以采取措施進行補救或糾正。家庭追蹤調(diào)查的周期為兩年,在兩年期間為維護樣本,需要定期回訪被訪者家庭,如有變動,需及時更新被訪者家庭的地址、人員和通訊等信息?;蛘咄ㄟ^事先郵寄郵件、發(fā)短息或打電話的方式,詢問被訪者家庭是否有信息需要更新,在通過多種方式詢問時,可獲取該家庭中更多人的聯(lián)系方式,以及是否近期家庭成員有外出的打算,這些信息都有助于調(diào)查組織者掌握被訪者的居留穩(wěn)定情況。根據(jù)回訪或反饋的結(jié)果,由專家對在下輪正式調(diào)查時可能失訪的家庭及人員進行建模。Couper等[19]認為建模時需要考慮的信息包括大致可分為個人和社會兩個層面。個人信息主要包括年齡、生活方式、家庭環(huán)境、就業(yè)情況以及房屋情況等;社會信息則應包含遷移流動率、城市化水平以及常住人口情況等。?
[1]賀飛燕.住戶調(diào)查中無回答誤差分析與調(diào)整方法研究[J].統(tǒng)計研究,2015(2):109-110.
[2]孫妍,鄒艷輝,丁華,嚴潔,顧佳峰,邱澤奇.跟蹤調(diào)查中的拒訪行為分析——以中國家庭動態(tài)跟蹤調(diào)查為例[J].社會學研究,2011(2):167-181.
[3]Jelke Bethlehem.Applied Survey Methods-A Statistical Perspective[M].John Wiley&Sons,New Jersey,2009:209-245.
[4]王華,葉宏明.臺灣地區(qū)民意調(diào)查中無回答的影響因素[J].臺灣研究集刊,2012(3):53-63.
[5]胡順奇.倫理視角下統(tǒng)計調(diào)查無回答問題探析[J].統(tǒng)計與信息論壇,2014(5):111-112.
[6]張喆,金勇進.無回答加權(quán)調(diào)整中的回答率模擬研究[J].統(tǒng)計與決策,2015(4):13-16.
[7]風笑天.社會調(diào)查中的無回答與樣本替換[J].南京大學學報(哲學、人文科學、社會科學版),2010(5):102-111.
[8]王玉梅,王楠楠.抽樣調(diào)查中無回答誤差的分析與調(diào)整[J].廣西財經(jīng)學院學報,2011(5):38-41.
[9]賀建風,劉建平,舒曉惠.抽樣調(diào)查中無回答誤差控制的研究[J].統(tǒng)計與決策,2008(5):162-163.
[10]魯志賢.抽樣調(diào)查中無回答的影響及處理方法——兼對《調(diào)查技能教程》中無回答調(diào)整的方法與應用條件的擴展[J].統(tǒng)計研究,2002(12):43-47.
[11]王有剛.抽樣調(diào)查中有效控制無回答誤差的措施[J].統(tǒng)計與決策,2011(23):16-18.
[12]牛成英,龐智強.非抽樣誤差函數(shù)的構(gòu)建——基于無回答誤差的討論[J].統(tǒng)計與決策,2014(20):23-25。
[13]謝元博,陳娟,李巍.霧霾重污染期間北京居民對高濃度PM2.5持續(xù)暴露的健康風險及其損害價值評估[J].環(huán)境科學,2014(1):1-8.
[14]郭志剛,巫錫煒.泊松回歸在生育率研究中的應用[J].中國人口科學,2006(4):2-15.
[15]杜興強,溫日光.公司治理與會計信息質(zhì)量:一項經(jīng)驗研究[J].財經(jīng)研究,2007(1):122-133.
[16]Jon Rasbash,F(xiàn)iona Steele,William J.Browne and Harvey Goldstein.A User’s Guide to MLwiN(Version 2.26)[M].University of Bristol,2012:183-192.
[17]Breslow.N.E.Extra-Poisson variation in log linear models[J].Applied Statistics,1984(33):38-44.
[18]Morton.R.A generalized linear model with nested strata of extra-Poisson variation[J].Biometrika,1987(74):247-257.
[19]Mick P.Couper,Mary Beth Ofstedal.Keeping in contact with mobile sample members[C].Methodology of longitudinal surveys,2009:185.
The Impact Effect of Non-Response Frequency and Discussion about the Tracking Strategy
QI Jia-nan
(China Population and Development Research Centre,Beijing 100081)
A multi-level Poisson regression is constructed and employed based on the parallel data,the first wave,of the 2014 China Family Panel Survey,to study the impact effect of non-response frequency.The results show that,under the background of macro and meso,the non-response frequency is impacted highly by the age of interviewer,as well as the developed degree and living environment of the interviewing place.Through application,the multi-level Poisson regression is good at the study of non-response.Finally,in the technology and mechanism views,there are discussions of the tracking strategy and suggestion.
Non-Response Frequency;Multi-level Poisson Regression;Tracking Strategy
C921.2
A
1007-0672(2016)06-0001-09
2016-05-12
本研究得到國家科技部“十二五”國家科技支撐計劃項目“人口與發(fā)展數(shù)學模型與綜合決策支持系統(tǒng)”(2012BAI40B01)和國家衛(wèi)生計生委《中國家庭發(fā)展追蹤》項目的資助。
齊嘉楠,男,河北石家莊人,中國人口與發(fā)展研究中心副研究員,研究方向:抽樣方法與調(diào)查,流動人口公共服務均等化。