楊貴軍,沈文靜
(天津財經(jīng)大學 a.統(tǒng)計學院;b.中國經(jīng)濟統(tǒng)計研究中心,天津 300222)
準確掌握非普查年農業(yè)生產經(jīng)營活動情況有助于政府及時把握“三農”問題,為科學制定“三農”政策、進行宏觀經(jīng)濟管理與調控提供必要的數(shù)據(jù)支持。目前,有關中國非普查年農業(yè)生產經(jīng)營活動情況的估計主要依賴于農業(yè)抽樣調查,如農作物面積遙感測量和對地抽樣調查、農作物單位面積產量抽樣調查以及主要畜禽抽樣調查。估計量設計是決定抽樣估計精度的關鍵。因此,如何改進估計量,提高估計精度,是各國政府農業(yè)統(tǒng)計工作及本文的聚焦點。
中國農業(yè)抽樣調查主要采用赫維茨—湯普森估計量(HT估計量)。HT估計量對總體總值估計的基本思想為:將每個樣本單元的觀測值自加權1/πk倍再求和,其中πk為第k個樣本單元的入樣概率。盡管HT估計量具有無偏性,但在實踐中仍具有一定局限性,即僅利用樣本觀測值和入樣概率進行總體參數(shù)估計,而未使用任何輔助信息。中國每十年開展一次全國農業(yè)普查,動用了大量人力、物力和財力,收集了最為全面、準確和豐富的農業(yè)數(shù)據(jù)資料。此外,農業(yè)數(shù)據(jù)資料還包括歷史抽樣調查數(shù)據(jù)、農業(yè)行政記錄、遙感數(shù)據(jù)和以空前速度增長的由智能農業(yè)機械收集的實地觀察數(shù)據(jù)。采用HT估計量容易造成農業(yè)數(shù)據(jù)資料不充分利用,不能保證對農業(yè)生產經(jīng)營活動指標估計的精度,特別是在樣本代表性不足的情況下,很可能導致嚴重的誤差。
一種能有效利用輔助信息且具有代表性的估計量為廣義回歸估計量。廣義回歸估計量最早由Cassel等人提出并系統(tǒng)研究,以調查變量和輔助變量構建的超總體線性回歸模型為基礎[1]。當輔助變量總體總值和樣本輔助變量值可獲得時,依據(jù)調查變量與輔助變量的回歸關系,估計模型回歸系數(shù),從而構造總體參數(shù)的廣義回歸估計量。概括來看,采用廣義回歸估計量估計農業(yè)生產經(jīng)營活動情況的優(yōu)勢主要包括三個方面:一是統(tǒng)計性質的優(yōu)良性。廣義回歸估計量不僅具有漸近設計無偏性,當假定的超總體線性回歸模型能夠很好地擬合總體數(shù)據(jù),且樣本規(guī)模相同時,廣義回歸估計量通常比HT估計量的方差更小[2]。二是廣義回歸估計量能夠更充分地利用輔助信息。其利用任何已知總體總值和樣本單元值的輔助信息,大多數(shù)利用輔助信息的估計量均可看做廣義回歸估計量的特殊情況,如比率估計量、簡單回歸估計量和事后分層估計量等[3]。三是廣義回歸估計量具有廣泛的擴展性,能適用于任何抽樣設計,如分層抽樣、整群抽樣、多階段抽樣、兩步抽樣和連續(xù)抽樣等[4]。
另一方面,諸多國家的政府統(tǒng)計部門已在實踐中采用廣義回歸估計量。例如,美國統(tǒng)計局于1997年開始在農業(yè)抽樣調查中推廣使用多變量與規(guī)模成比例的概率抽樣和廣義回歸估計量,替代原來的分層抽樣和HT估計量[5]。加拿大統(tǒng)計局已構建了以廣義回歸估計量為核心的廣義估計系統(tǒng),并逐步應用于普查、商業(yè)調查、勞動力調查和多項追蹤調查[6]。澳大利亞統(tǒng)計局則主要將廣義回歸估計量應用于商業(yè)調查[7]。盡管中國政府統(tǒng)計部門還未將廣義回歸估計量應用于實踐調查,但已有學者對廣義回歸估計量進行了系統(tǒng)的研究。其中,陳光慧基于連續(xù)二階抽樣方案,給出了中國農產量調查中構造廣義回歸估計量的具體步驟[4]。
然而,尚未發(fā)現(xiàn)有學者針對中國農業(yè)抽樣調查,開展廣義回歸估計量的可行性和適用性研究。這里的可行性是指在當前中國背景下能否獲取可用于構造廣義回歸估計量的輔助信息。適用性主要體現(xiàn)在兩個方面,一是當采用廣義回歸估計量時,能否構建具有實踐可操作性的方差估計量,用于衡量廣義回歸估計量的估計精度,評估農業(yè)生產經(jīng)營活動指標估計值能否使用及在多大程度上使用。二是針對農業(yè)抽樣調查抽取樣本時的特殊情況,如抽樣比不同,輔助變量與調查變量的相關性不同,廣義回歸估計量相比于HT估計量是否能保持統(tǒng)計性質上的優(yōu)勢。
鑒于此,本文的研究目標為評估在中國農業(yè)抽樣調查中,構建廣義回歸估計量替代現(xiàn)行HT估計量的可行性及適用性。研究意義體現(xiàn)在三方面:一是廣義回歸估計量的統(tǒng)計性質更優(yōu)良,顯著提高對中國農業(yè)生產經(jīng)營活動情況的估計精度;二是有助于中國國家統(tǒng)計局進一步推廣應用廣義回歸估計量,為未來中國農業(yè)抽樣調查方案設計提供指導;三是對中國農業(yè)抽樣調查中廣義回歸估計量構造方法的研究,有助于提升中國在農業(yè)抽樣調查領域的基礎理論水平。
鑒于在中國農業(yè)抽樣調查中使用廣義回歸估計量的基本前提是輔助信息的可獲得性、真實性和完整性,本文首先討論中國背景下可利用的輔助信息。目前,可用于中國農業(yè)抽樣調查的輔助信息有很多。其中,農業(yè)普查數(shù)據(jù)為后續(xù)農業(yè)抽樣調查提供了最為全面、準確和豐富的輔助信息資料。農業(yè)行政記錄是指能夠用來生產農業(yè)統(tǒng)計(即農業(yè)經(jīng)濟統(tǒng)計、農業(yè)社會統(tǒng)計和農業(yè)環(huán)境統(tǒng)計)的行政記錄,由政府部門和其他組織為行政(非統(tǒng)計)目的而收集,通常是在提供服務期間或為登記、保存記錄或記錄交易而收集的信息。由于其收集頻率高、承載信息的單位小且成本相對較低,成為農業(yè)政府統(tǒng)計亟待開發(fā)使用的重要信息資源。遙感數(shù)據(jù)主要分為兩種,即航天遙感數(shù)據(jù)和航空遙感數(shù)據(jù)。遙感數(shù)據(jù)不僅能提供田間的空間覆蓋,還可以每天生成有關植物健康、當?shù)靥鞖夂妥魑飾l件的讀數(shù),得到作物生產的實時估算。將遙感技術與現(xiàn)場觀測相結合,已成為估計農作物種植面積的重要途徑。智能農業(yè)機械化的快速發(fā)展,也使收集農作物投入和產出的現(xiàn)場數(shù)據(jù)成為可能。
表1列舉了部分可用于廣義回歸估計量的輔助信息及具體用途。此外,為保證輔助信息所提供的總體輔助變量總值和樣本單元輔助變量值的真實性,以及對樣本單元較高的覆蓋度,有必要對輔助信息進行數(shù)據(jù)質量評估和整合[8]。技術細節(jié)請參見孟杰等人的研究以及世界糧農組織的系列工作文件[9-10]。
表1 構造廣義回歸估計量的輔助信息
分層兩階段抽樣是中國農業(yè)抽樣調查的重要抽樣方法,如普查年和非普查年的農作物面積遙感測量和對地抽樣調查、非普查年的主要畜禽抽樣調查。對于第一階段抽樣,通常以行政村為初級抽樣單元,采用與單元大小成比例的概率抽樣方法抽選村。鑒于不放回抽樣比有放回抽樣的效率更高,本文討論基于不放回的與單元大小成比例的概率抽樣,即πPS抽樣。對于第二階段抽樣,根據(jù)實際調查需要,以網(wǎng)格(200米×200米)或養(yǎng)殖場(戶)為次級抽樣單元,采用的抽樣方法為簡單隨機抽樣或隨機等距抽樣。本文在上述抽樣方法下,討論廣義回歸估計量在中國農業(yè)抽樣調查中的構造方法。
(1)
其中:
(2)
國內學者對廣義回歸估計量的方差估計普遍采用基于泰勒級數(shù)法的估計量,即:
(3)
其中:
該方差估計量的局限性在于需要為每一個調查變量,分別計算所有樣本單元的殘差值ehij。若農業(yè)抽樣調查的變量很多,且樣本規(guī)模較大,計算過程相當繁瑣耗時。此外,對于一階段為不放回的πPS抽樣,πhi,hi′難以計算。因此,式(3)并不適用于實踐抽樣調查。
2.計算第h層調查變量總值估計的刀切復制值:
(5)
4.第h層調查變量總值廣義回歸估計量的方差估計量為:
(6)
根據(jù)上述理論框架,采用蒙特卡洛模擬方法討論廣義回歸估計量在中國農業(yè)抽樣調查中的統(tǒng)計性質。中國于2016年開展第三次全國農業(yè)普查,本文基于第三次全國農業(yè)普查結果進行仿真研究,評估廣義回歸估計量在不同抽樣設計下的估計效率。鑒于畜牧業(yè)在農業(yè)農村經(jīng)濟發(fā)展中的重要位置,本文選取中國主要畜禽抽樣調查中的牛羊禽監(jiān)測調查為研究對象。
資料顯示,牛羊禽監(jiān)測調查的主要目標是估計全國牛羊禽散養(yǎng)戶的飼養(yǎng)情況,如分品種的存欄量、出欄量和飼養(yǎng)戶數(shù)等。原則上各省僅在現(xiàn)有國家抽樣調查縣內開展調查,若存在集中連片牛羊牧區(qū),可將牛羊牧區(qū)縣劃作一個獨立設計層進行抽樣。每一層內采用二階段抽樣方法,第一階段是與規(guī)模成比例的概率抽樣方法抽選行政村;第二階段從樣本村內采用隨機等距抽樣方法抽取養(yǎng)殖場(戶)??紤]到國家抽樣調查縣30多年不變,對農村總體的代表性大大降低,本模擬假設各省在所有縣內開展調查[12]。
將感興趣的總體參數(shù)設定為全省在抽樣調查時點的牛羊禽存欄量。選取的輔助信息為養(yǎng)殖場(戶)在第三次全國農業(yè)普查中的登記結果。三個研究目標為:第一,以牛羊禽養(yǎng)殖場(戶)在普查中存欄量的登記結果作為輔助信息,分別構造全省在抽樣調查時點牛羊禽存欄量的廣義回歸估計量,并比較廣義回歸估計量與HT估計量的估計效果;第二,研究輔助變量與調查變量相關性對廣義回歸估計量估計效果的影響;第三,研究抽樣比,即樣本量對廣義回歸估計量估計效果的影響。
為此,參數(shù)設定如下:設全省有400個行政村,每個行政村約25個養(yǎng)殖場(戶),普查時共計10 000個養(yǎng)殖場(戶)。從普查結果中隨機抽取10 000個經(jīng)脫敏處理的牛羊禽養(yǎng)殖場(戶),將其牛羊禽存欄量依次作為模擬中每個養(yǎng)殖場(戶)的輔助變量值xk,hij。k=1,2,3分別表示牛、羊和禽。由于缺少集中連片牛羊牧區(qū)信息,將所有行政村按養(yǎng)殖規(guī)模劃分為H=2層,各層的行政村數(shù)量分別為240和160。假設在抽樣調查時點,各養(yǎng)殖場(戶)飼養(yǎng)品種保持不變,且存欄量真實值yk,hij=max{1,|xk,hij+εk,h|},εk,h服從均值為0,標準差為sdk,h/a的正態(tài)分布。sdk,h表示第h層飼養(yǎng)第k種畜禽的養(yǎng)殖場(戶)在普查中登記存欄量的標準差。調整參數(shù)a,使各層內對于每一種畜禽,養(yǎng)殖場(戶)的真實存欄量與輔助變量的Pearson相關系數(shù)約為ρ,討論ρ分別為0.85、0.90、0.95和0.99的四種情形。相關總體信息見表2,其中Yk,h和Xk,h分別表示第h層養(yǎng)殖場(戶)對第k種畜禽的真實存欄量和輔助變量總值。抽樣比分別設定為f1h=0.1,0.3和f2hi=0.1,0.3。估計全省每種畜禽存欄量所用的輔助向量均為Xhij=(1,x1,hij,x2,hij,x3,hij),chij取為1。
表2 總體信息 單位:頭/只
(7)
(8)
其中,Yk表示全省在抽樣調查時點對第k種畜禽存欄量的真實值。同時,為了驗證廣義回歸估計量在統(tǒng)計性質方面的優(yōu)勢,將其與中國農業(yè)抽樣調查目前所采用的HT估計量進行對比。全省在抽樣調查時點牛、羊和禽存欄量的HT估計量為:
(9)
由表3的模擬結果得到如下三點結論:第一,在估計全省每種畜禽存欄量時,若同時使用養(yǎng)殖場(戶)在普查時對三種畜禽存欄量的登記結果作為輔助信息,來構造廣義回歸估計量,偏差可以忽略不計,可以實現(xiàn)比HT估計量顯著減少的相對均方根誤差;第二,輔助變量與調查變量的相關性越強,廣義回歸估計量在統(tǒng)計性質上的優(yōu)勢越明顯;第三,隨著一階抽樣比或二階抽樣比的增加,即樣本量的增多,廣義回歸估計量的相對均方根誤差呈下降趨勢。
表3 兩種估計量的模擬比較結果
本文在模擬試驗的基礎上,以ρ=0.99,抽樣比f1h=0.1和f2hi=0.1為例,構造全省牛羊禽存欄量的廣義回歸估計量及其方差估計,演示應用過程。表4給出了40個樣本村及其包含樣本養(yǎng)殖場(戶)的部分信息。whij表示樣本中第h層第i個行政村第j個養(yǎng)殖場(戶)的最終抽樣權數(shù),即入樣概率的倒數(shù)。
其中:
=(5 165,13 628,52 738,393 783)
=(5 165,19 336.17,49 493.87,808 619.9)
(1,x1,1ij,x2,1ij,x3,1ij)]=
5 165.0019 336.17 49 493.87808 619.8619 336.175 402 190.230.005 325.3549 493.870.0012 745 885.2846 116.07808 619.865 325.3546 116.073 016 446 228.34
表4 牛羊禽監(jiān)測調查部分樣本信息
表5 第h=1層刀切復制權數(shù)和刀切復制值
最后,由式(6)計算出第h=1層牛羊禽存欄量廣義回歸估計量的方差估計。第h=2層的方差估計步驟相同。表6匯總了全省及各層牛羊禽存欄量的廣義回歸估計及方差估計。
表6 估計結果
本文針對當前中國農業(yè)抽樣調查估計方法的不足,重點研究廣義回歸估計量應用于中國農業(yè)抽樣調查的可行性和適用性,主要結論如下:
第一,隨著大數(shù)據(jù)時代的到來,可應用于中國農業(yè)抽樣調查的輔助信息有很多,如農業(yè)普查數(shù)據(jù)、歷史抽樣調查數(shù)據(jù)、農業(yè)行政記錄、遙感數(shù)據(jù),以及由智能農業(yè)機械收集的實地觀察數(shù)據(jù)等,這為構造廣義回歸估計量提供了重要基礎。
第二,利用第三次全國農業(yè)普查數(shù)據(jù),針對中國畜禽抽樣調查,對廣義回歸估計量在不同抽樣設計情形下的統(tǒng)計性質進行仿真模擬。研究結果顯示,相比于目前所采用的HT估計量,廣義回歸估計量的統(tǒng)計性質更優(yōu)。
第三,實例演示表明,廣義回歸估計量構造過程易于理解,且當所有調查變量利用的輔助信息相同時,采用刀切法可以同時估計所有調查變量總體參數(shù)估計量的方差,實際操作便捷,計算效率高。廣義回歸估計量在中國農業(yè)抽樣調查中具有較好的應用價值。