王 峰,米子川
(山西財經大學 統計學院,山西 太原 030006)
在大數據日益成為歸納性統計研究的主流時,以小數據為特征的微觀調查數據也再次成為演繹性抽樣估計關注的焦點。一般認為,大數據告訴我們“是什么”,小數據則可以告訴我們“為什么”。2018年中國國家統計局與清華大學共同建立了國家統計局-清華大學數據開發(fā)中心,對“規(guī)模以上工業(yè)企業(yè)財務狀況年度調查”“住戶收支調查”等多個微觀調查數據和普查數據進行開發(fā)應用研究。此外還有諸如中國家庭追蹤調查(CFPS)、中國健康與養(yǎng)老追蹤調查(CHARLS)、中國綜合社會調查(CGSS)以及中國家庭金融調查(CHFS)等等一大批有影響力的微觀調查數據。這些眾多的微觀調查數據,幾乎全部是采用復雜抽樣方法得到的。在實際的調查中,由于受到調查目的、估計精度、調查費用和可操作性等調查要求的限制,需要采用分層、整群、不等概率和多階段等多種抽樣方法相結合的抽樣設計,來提高抽樣效率和樣本的代表性。我們把除單純的簡單隨機抽樣方法外,由其他多種抽樣方法組合而成的抽樣方式稱為復雜抽樣,由此得到的樣本為復雜樣本。這里的“復雜”指的是抽樣設計的特征偏離了放回簡單隨機抽樣的設計特征,而在有限總體的抽樣框中放回簡單隨機抽樣所獲得的數據就是獨立同分布的數據[1]。顯然復雜抽樣數據不是獨立同分布數據,其入樣概率多為不等概率,因此需要引入抽樣權數對復雜抽樣數據做系列調整。抽樣權數中的基礎權數,也就是單元入樣概率的倒數,可用于調整由于復雜設計帶來的不等概率的偏差。更進一步,統計學家在考慮無回答、抽樣框覆蓋偏差等因素時,需要對抽樣權數做進一步調整,形成最終的抽樣權數。
很顯然,在估計總體均值或比例等一些描述性分析時,抽樣權數是避免偏差必不可少的重要因素[2-4]。但是,在研究解釋變量和被解釋變量關系的模型中是否應該考慮抽樣權數,一直存有爭議[5-7]。近年來,對于抽樣權數和回歸模型也有集中性的討論[8-15]。應用抽樣權數的優(yōu)勢是明顯的。首先能使樣本較好地代表總體,至少在一些重要特征上樣本的分布與總體的分布趨于一致,且在一般情況下,加權后的估計量是其總體參數的無偏估計;其次,引入抽樣權數可以方便調整樣本信息,使樣本數據的應用更加靈活。當然,應用抽樣權數進行調整也存在明顯缺陷:首先增加了估計量的標準誤,從而導致估計的不穩(wěn)定性與精度的降低;其次是抽樣權數變化越大,其設計效應(Kishs deff)也越大。因此,在沒有必要應用抽樣權數的情況下,引入抽樣權數可能不僅不會使偏差減少,反而會造成估計量有效性的降低。另一方面,如果在應該加入抽樣權數的情況下,沒有加入抽樣權數,可能會使估計量產生更大偏差。
那么,在什么情況下應該使用抽樣權數呢?更進一步,使用復雜調查數據建立解釋變量和被解釋變量關系模型中是否應該使用抽樣權數?Bollen認為大體分三類:一類主要來自生物統計、公共衛(wèi)生和抽樣調查領域的學者,一般使用抽樣權數;另一類來自經濟社會領域(包括計量經濟)的學者,一般不考慮抽樣權數;還有一小部分學者可能用也可能不用權數[2]。Chambers和Skinner認為目前還沒有一個明確的答案[16]。本文將從抽樣權數的低效性和抽樣權數影響的顯著性入手,在平衡兩者得失的基礎上,給出一個判斷是否使用權數的思路,作為解決上述問題的一個參考,這也是本文的一個創(chuàng)新之處。
一般地,引入抽樣權數的估計量會滿足無偏性,但在通常情況下,其方差也會變大。Korn給出了引入抽樣權數所帶來的方差增大情況的測度指標,即抽樣權數低效性的測量,并給出了近似計算公式[17]。但是多數統計學家仍傾向于通過抽樣權數對模型造成的影響進行測度,以此來決定抽樣權數的取舍。從該測度的方法角度可以分為直接測度(系數差異性的檢驗)和間接測度(抽樣權數輔助檢驗)。接下來,通過分析抽樣權數低效性和抽樣權數影響的顯著性,在其各自適用性和優(yōu)缺點的基礎上,得到抽樣權數可忽略性的檢驗思路。
(1)
(2)
該公式來源于Korn,這里的CV是樣本權數的變異系數。低效性的檢驗來自如下邏輯:我們當然希望有一個無偏估計量,但是如果因為無偏而造成的方差(均方誤差)過大,我們還是選擇一個有偏估計量。這個低效性的計算就是測算這個方差(均方誤差)大多少,如果沒大多少,我們應該選擇無偏估計量,即應該使用抽樣權數。如果低效性很大了,說明加入權數后造成的方差(均方誤差)太大了,我們放棄無偏性,選擇有效性,即不應該加入權數。
那么到底方差(均方誤差)大多少就是太大了呢?目前還沒有一個客觀的標準,但是可以從以下幾個方面去考慮:
從低效性的絕對程度看:Korn認為,5%到10%的低效性在實際應用中不是很大[17]。本文認為,考慮到當前抽樣設計的復雜性,尤其是為降低抽樣成本以及無回答因素所帶來的抽樣設計上的復雜化,不超過30%的低效性,在實際中都會認為不是很大。這一點在本文后續(xù)的國內外數據測算中得到驗證。
從低效性對估計量期望精度的影響看:例如,在75%的低效性下,使估計2%的標準誤從0.01%增加一倍到了0.02%,不會認為是不可接受的大。同樣75%的低效性下,使估計2%的標準誤從0.5%增加一倍到了1%,這一般會認為大到了無法接受的程度[17]。
從未加權估計量偏差的期望大小來看:如果能夠準確估計未加權估計量的偏差,則可以考慮用偏差幫助選擇是否加權。即使不能從數據中足夠準確地估計出偏差,若能從理論上說明對于某些類型的參數,偏差可能會很小。例如,在估計兩個均值或比例的差異時,偏差會比估計單個均值或比例時小。在這些情況下,即期望偏差很小時,一般不會特別反對使用未加權估計量。
總的來看,從抽樣權數低效性測量的角度來判斷是否應該使用抽樣權數,還是需要研究者的主觀判斷,不同的使用者可能會有不同的結果;另外,在實際的應用中,出于計算方便,一般采用近似計算,在某些情況下可能存在誤導(參見例子[17])。但是,低效性測量的優(yōu)勢也是明顯的,首先低效性測量不依賴于所采用的推斷方法或模型,這樣適用性就很強;另外低效性的計算只依賴于抽樣權數的分布且計算簡單方便。
以上是根據抽樣權數對估計量方差(均方誤差)的影響,來判斷是否使用抽樣權數。另外一個思路是通過比較回歸模型中加權和未加權的系數是否有顯著差異來判斷是否需要加權,或者將權數置于模型中判斷其是否顯著。
2.抽樣權數輔助檢驗(Weight Association Tests)。Hausman曾建議評估其他形式的方程Y=Xβ+XMβM+ε中βM的顯著性來判斷設定誤差[18]。這里的XM是X的一個合適變形。用F檢驗H0:βM=0來檢驗設定誤差。另外,與一般多元回歸的假定類似,使用F檢驗需要我們假定ε來自于正態(tài)分布。盡管Hausman建議用這樣一個形式去檢驗各種設定誤差,但他并沒有考慮用它做加權檢驗。
Dumouchel等利用Hausman的回歸方法并將其用于確定是否加權[20-21]。再次考慮方程Y=Xβu+Xwβw+ε,這里Y是被解釋變量的向量值,X是未加權的解釋變量陣對應的系數為βu,Xw是相同解釋變量陣對應的加權系數為βw,ε是誤差向量。Dumouchel and Duncan建議用OLS估計這個回歸模型然后用F檢驗H0:βM=0去檢驗是否需要權數,拒絕原假設意味著需要加權??梢钥闯霰M管Hausman并沒有這么做,作為權數輔助檢驗(WA檢驗)的Dumouchel和Duncan和Fuller的F檢驗回歸法都是遵循Hausman替代基于回歸的設定誤差檢驗。Fuller將這一方法做了一個改變,推薦用回歸Y=Xβu+Wα+ε,這里W是權數變量,檢驗其系數α是否顯著非零。
在得到調查數據的抽樣權數后,其分布就容易直觀得到。加之低效性的判斷不依賴于所采用的模型方法,因此在判斷抽樣權數是否可以忽略時,首先計算抽樣權數的低效性,并根據前述內容做出低效性是否可以接受的判斷。
為給出低效性的一個一般經驗水平,這里給出了一些常見分布下的抽樣權數頻數分布圖。樣本量取1 000,見圖1,從上往下依次為:均勻分布 [U(a=1,b=1 000)] 、正態(tài)分布 [N(μ=1 000,σ2=10)] 、二項分布 [B(n=50,p=0.25)] 、指數分布 [e(λ=0.1)] 、卡方分布 [χ2(3)] 、Possion分布 [P(λ=4)]抽樣權數的頻數分布圖。因為這里都是權數所以不是整數的全部取最大整數。
圖1常見分布下的權數分布圖
考慮到常數分布很簡單,為一條水平直線,這里沒有畫出。對于常數分布,樣本權數的低效性顯然為零。因為此時的樣本就是等概率抽選,也可以認為樣本是自加權的,不存在因為權數的引入而造成估計量標準誤的增大。因此,抽樣權數的低效性為零,公式的計算結果也為零。可以認為,在不考慮抽樣權數的調查數據分析時,都是默認抽樣權數為常數,這顯然可能會低估估計量的標準誤,更主要的是通常會失去估計量無偏性。一般情況下,抽樣權數的分布不會是常數,除樣本是自加權樣本外,均會產生抽樣權數低效性的發(fā)生,這里測算了以上幾種常見參數分布的抽樣權數的低效性,見表1。
表1 抽樣權數在常見分布下的低效性
① 這里需要說明的是“再抽樣權數”與抽樣權數一樣僅僅是一個公布的權數。因為中國家庭追蹤調查(CFPS)抽樣設計的復雜性,調查數據清理和加權調整也異常復雜,耗時較長,無法滿足研究者對調查數據進行快速分析的需求。因此,在中國家庭追蹤調查的數據庫中包含了一個再整合數據庫,即對5個“大省”進行再抽樣調整樣本,使5個“大省”的抽樣比與“小省”的抽樣比近似相同,以便在沒有及時獲得抽樣權數的情況下利用再抽樣調查權數去推斷總體。
以上圖形可以從便捷的角度給出實踐中抽樣權數分布的直觀認知。即實際中可以很方便的畫出抽樣權數的頻數分布圖,如果這個分布圖與上述的某個圖形類似,就可以相應的得到抽樣權數低效性的一般認知。
由于抽樣權數的分布圖形只是對抽樣權數低效性判斷的一般認知,具有很強的主觀性,多數情況下甚至是無法做出判斷,因此這里綜合抽樣權數的低效性和抽樣權數影響的顯著性,提出一個檢驗抽樣權數可忽略性的判斷路徑,見圖2。
當抽樣權數的分布為正態(tài)分布[N(μ=1 000,σ2= 10) ]、二項分布[B(n= 50,p= 0.25) ]和Possion分布[P(λ=4)]時,抽樣權數的低效性比較小,也就是說考慮抽樣權數對估計量標準誤的影響很小,甚至可以忽略不計,這時候應該使用抽樣權數,即在保證估計量無偏的情況下,不會對標準誤產生很大影響;如果抽樣權數的分布為指數分布[e(λ=0.1)]時,此時的抽樣權數無效性達到了44.6%在這種情況下就要格外謹慎,雖然考慮抽樣權數能使估計量無偏,但此時估計量的穩(wěn)健性會較差。通常會選擇穩(wěn)健性,而放棄考慮抽樣權數。當然也可以選擇重新構建研究的子總體,獲取新的抽樣權數重新判斷; 如果抽樣分布類似均勻分布[U(a=1,b=1 000) ]和卡方分布[χ2(3)]時,低效性達到了24.5%和25%,此時考慮抽樣權數可能會影響到估計量的標準誤,至于影響的大小是否能夠接受,可以用上述假設檢驗的方法去檢驗。但為什么不直接用該假設檢驗來判斷呢?原因有二:一是低效性的判斷方便快捷不依賴于所采用的方法;二是假設檢驗的判斷,目前還局限于回歸模型的分析中,雖然對其他模型的構建可以提供參考,但當前還沒有證明該假設檢驗可以應用于其他一切模型。
圖2 抽樣權數可忽略性的判斷路徑圖
CFPS是北京大學中國社會科學調查中心主持的追蹤調查項目之一,調查對象是中國的25個省市自治區(qū)的家庭戶和家庭戶中的所有滿足調查條件的家庭成員。在抽樣設計上采用三階段、不等概率的整群抽樣設計[22]。本文以CFPS2010的數據為例,來說明抽樣權數可忽略性檢驗。
首先利用抽樣權數的分布圖做一個直觀的分析,圖3中左側圖形為中國家庭抽樣權數分布圖右側為中國家庭再抽樣權數①分布圖。這兩個圖形都與常數分布差的很遠,與圖1中正態(tài)分布[N(μ=1 000,σ2=10)]、二項分布[B(n=50,p=0.25)]相差也比較大,與卡方分布[χ2(3)]類似,因此其低效性都不會很小。對比兩個圖形,再抽樣權數的低效性要大于抽樣權數低效性。
圖3 全國家庭抽樣和再抽樣權數分布圖
這里根據式(2),對CFPS2010的抽樣調查數據中的家庭權數和家庭再抽樣權數的低效性做進一步分類測算,結果見表2??梢钥闯鲋袊彝サ某闃訖鄶档牡托詾?6.208%;其中城鎮(zhèn)家庭抽樣權數的低效性低于全國水平為25.422%;農村家庭抽樣權數的低效性高于全國水平為26.627%。同時也可以看出,家庭再抽樣的權數低效性較高,全國、城鎮(zhèn)和農村家庭的再抽樣權數低效性分別為34.537%、34.676%和33.702%。無論是抽樣權數還是再抽樣的權數,低效性雖然不小,但也沒有大到無法接受的程度。根據筆者掌握的國外抽樣權數低效性的測算結果:美國國家健康和營養(yǎng)調查(NHANES)中,NHANESII中2~18歲男孩抽樣權數的低效性是34%;NHANESI中25~74歲女性抽樣權數的低效性是48%;美國國民健康訪問調查(NHIS1987)18歲以上男性的抽樣權數的低效性是22%。為便于與國外比較,我們也計算了CFPS2010中25~74歲女性抽樣權數的低效性是26.451%,18歲以上男性的抽樣權數的低效性是26.131%,前者比美國同一指標低,后者略高。
表2 農村、城鎮(zhèn)及全國家庭抽樣權數的低效性單位:%
① 對于缺失數據可以考慮多種方法去插補,由于這些缺失值對權數的分布影響不大,因此本文直接刪除處理;對于家庭消費小于100元的家庭,CFPS用戶手冊中說明對其做過插補處理,但數據中仍然有6個家庭的消費小于100元,這里也刪除處理。
為了做進一步檢驗,我們計算了家庭消費和家庭收入調整后的抽樣權數的低效性。這里面的調整主要包括刪除了家庭消費和家庭收入中的缺失數據,也刪除了家庭消費在100元以下的數據①。經過這樣的調整,抽樣權數略微有些變化,見表2。調整后城鎮(zhèn)家庭抽樣權數的低效性均高于農村家庭抽樣權數的低效性,但低效性的變化都不是很大。
接下來我們測算了不同規(guī)模家庭的抽樣權數的低效性。根據家庭成員數將家庭規(guī)模劃分為:家1為1位家庭成員、家2為2位家庭成員,以此得到家6及以上為家庭成員數為6位及以上。從表3可以看出,雖然不同家庭規(guī)模的樣本量差異較大,一位家庭成員的家庭樣本數為728,三位家庭成員的家庭樣本數為33 556,但它們的抽樣權數的低效性都不是非常大,都沒有超過30%。
表3 按家庭人口數劃分的抽樣權數的低效性
因此,無論是家庭抽樣權數還是成人抽樣權數,以及不同規(guī)模家庭的抽樣權數,低效性都不是特別的大。因此,我們在使用調查數據時,應該考慮抽樣權數,這樣既可以得到一個無偏估計量,同時其有效性也不會降低很多。
由前面的分析可知,在考慮家庭收入和消費時,由于刪除了缺失數據和家庭消費小于100元的數據后,抽樣權數的分布有了略微的變化。但抽樣權數的低效性依然不是很大,因此從低效性的角度看,我們應該考慮抽樣權數。為對上述思路與路徑做完整的分析,接下來從抽樣權數影響的顯著性水平來檢驗抽樣權數是否可以忽略。即假設認為抽樣權數低效性的大小無法判斷,則通過假設檢驗來判斷。
這里利用權數輔助檢驗的方法,選取Dumouchel和Duncan所述方法對上述數據的抽樣權數是否應該引入模型進行檢驗。Dumouchel和Duncan是將權數及權數與解釋變量的交互作用引入模型,利用F檢驗其系數是否全部為零來判斷抽樣權數是否可以忽略。因為權數輔助檢驗需要依據模型來檢驗,由前述數據,這里對家庭消費和支出建立線性模型來檢驗抽樣權數的可忽略性。
表4 家庭支出關于家庭收入的線性模型比較
注:***表示在1%水平上顯著。
為全面展示抽樣權數可忽略性的判斷路徑圖,這里給出了另外一種情況,即抽樣權數是可忽略的。依然以CFPS2010的數據為例,選取cyear指標為抽樣權數。這其實相當于認為CFPS2010的數據是等概率抽選的,這也是在實際中,微觀調查數據建模時經常默認的,即數據是等概率抽樣獲取的,因此抽樣權數可以忽略。利用Dumouchel和Duncan所建議的檢驗方法,計算得到F(2,8 188) = 1.411,P=0.244,在0.1的顯著性水平下,我們不能拒絕,由此得出cyear作為權數是可忽略的。
然而事實是這些數據并不是等概率獲取的,所以說,在給微觀調查數據建模的時候,如果對抽樣權數視而不見,其所建立的模型就值得懷疑,因為多數大型、規(guī)范的調查數據很少是等概率抽取樣本,同時還要考慮因為無回答和抽樣框覆蓋偏差等因素所帶來的“過抽樣”和“欠抽樣”等問題。當然不是說對于這類調查數據就必須在模型中考慮抽樣權數,如果因為引入權數帶來方差的增大,足以影響到數據分析,或者假設檢驗沒有被拒絕,這時候可以如圖2所示,返回重新選擇研究的數據或者選擇不考慮抽樣權數處理。但無論怎么樣,對抽樣權數總歸要有一個處理,用要有用的理由,不用也要有個說明,這是我們的寫作動機之一,本文就此給出了解決該問題的一個路徑。
權數是把雙刃劍,在提高精度的同時,有可能提高估計量的誤差[15,23]。因此,在使用微觀調查數據時,是否使用抽樣權數,本文給出了一個判斷思路。即從抽樣權數的低效性和抽樣權數影響的顯著性兩方面入手,給出了一個判斷路徑圖。第一,通過分析抽樣權數低效性的計算過程,得出了抽樣權數低效性判斷的優(yōu)缺點,并給出了抽樣權數在幾種常見分布下,低效性的一個一般經驗判斷。第二,通過對抽樣權數影響的顯著性檢驗方法的綜述,根據方法的不同,分為系數差異性檢驗和權數輔助檢驗,并得出這些檢驗與Hausman的模型設定誤差檢驗的關系。最后,通過CFPS2010驗證了本文提出的檢驗路徑,并給出了CFPS2010家庭抽樣調查數據抽樣權數的低效性,與國外類似調查數據的低效性進行了比較。通過低效性判斷和Dumouchel-Duncan檢驗說明其抽樣權數的不可忽略性,即得到在使用CFPS2010家庭抽樣調查數據做統計推斷或數據建模時,應當考慮抽樣權數。當然,本文所運用的抽樣權數影響的顯著性檢驗還局限于回歸分析,如何將其推廣到其他模型,比如結構方程模型中,還需要做進一步研究;文中抽樣權數低效性大小的判斷,還缺乏客觀統一的標準,需要更多經驗數據的積累和方法的創(chuàng)新。