王小寧
(中國傳媒大學(xué) 數(shù)據(jù)科學(xué)與智能媒體學(xué)院,北京 100024)
抽樣調(diào)查一直是統(tǒng)計(jì)學(xué)和社會學(xué)研究的一個熱門話題,利用調(diào)查問卷研究社會問題在大數(shù)據(jù)和人工智能時代仍是一個主要的方法,但是隨著同一調(diào)查項(xiàng)目要解決問題的增加,很多的調(diào)查問卷變得越來越長,而長問卷造成的直接結(jié)果是無回答率升高、問卷的數(shù)據(jù)質(zhì)量降低同時被訪者的回答負(fù)擔(dān)增大。解決長問卷無回答率高的一個方案是將長問卷中的所有問題分成幾個小的部分(本文稱其為數(shù)據(jù)項(xiàng)),然后僅對抽中的被訪者選擇其中的幾個數(shù)據(jù)項(xiàng)讓被訪者進(jìn)行填答,這種方法被稱為問卷分割設(shè)計(jì)(SQD)。每個被訪者填答的部分可以是固定的也可以是隨機(jī)的,具體情況可視調(diào)查目標(biāo)來決定。例如,如果感興趣的目標(biāo)是部分樣本的均值,方差和協(xié)方差等統(tǒng)計(jì)量,那么需要被訪者隨機(jī)回答其中的一個或幾個即可。
問卷分割數(shù)據(jù)的參數(shù)估計(jì)包括簡單參數(shù)估計(jì),如參數(shù)的均值和方差等,但當(dāng)落入某些域的樣本單元數(shù)目很小甚至為零時,此時傳統(tǒng)的參數(shù)估計(jì)方法得到的精度往往較低,而采用小域估計(jì)方法因其在小域樣本的估計(jì)精度和可靠性上有很大提升,因此成為一種研究小域樣本的主流方法?;趩柧矸指畹玫降臉颖驹跀?shù)據(jù)結(jié)構(gòu)上存在數(shù)據(jù)缺失,相比于完全的問卷結(jié)構(gòu)在進(jìn)行小域樣本的估計(jì)時使用小域估計(jì)方法精度更高。提高小域估計(jì)的精度和可靠性主要從改進(jìn)抽樣設(shè)計(jì)和改進(jìn)估計(jì)量兩方面進(jìn)行研究,但是改進(jìn)抽樣設(shè)計(jì)的本質(zhì)是在原來的基礎(chǔ)上增加樣本量,因此無法從根本上解決小域估計(jì)問題,改進(jìn)估計(jì)量的方法主要是借助該域或其他域的樣本信息或輔助信息來提升估計(jì)精度。
本文主要在問卷分割設(shè)計(jì)的基礎(chǔ)上,探索小域樣本中利用小域估計(jì)方法提升估計(jì)精度的問題。結(jié)合分割樣本數(shù)據(jù)的特點(diǎn)和現(xiàn)實(shí)統(tǒng)計(jì)估計(jì)中對小域樣本的需求,深入研究基于問卷分割的小域估計(jì)方法,提出了基于分割樣本的隱式鏈接模型間接估計(jì),即問卷分割樣本的經(jīng)驗(yàn)最好線性無偏預(yù)測模型(EBLUP),模擬結(jié)果顯示在偏差、相對偏差、估計(jì)的均方誤差和相對有效性等衡量指標(biāo)上優(yōu)于分割樣本常用的多重插補(bǔ)法(PMM)得到的估計(jì)結(jié)果,這為進(jìn)行小樣本的參數(shù)估計(jì)提供了一個不錯的思路,拓展了問卷分割設(shè)計(jì)的應(yīng)用范圍。
國外一些政府調(diào)查機(jī)構(gòu),如美國國家統(tǒng)計(jì)局和澳大利亞統(tǒng)計(jì)局的一些調(diào)查項(xiàng)目中已經(jīng)應(yīng)用了問卷分割設(shè)計(jì)。Chipperfield和Steel指出問卷分割設(shè)計(jì)優(yōu)于傳統(tǒng)抽樣設(shè)計(jì)的三個優(yōu)勢,第一是可以通過允許每個樣本單元的變化來增加調(diào)查目標(biāo)的有效性,如每個需要衡量的特征需要的樣本量是不同的,可以根據(jù)調(diào)查的目標(biāo)來靈活調(diào)整樣本量;第二是通過探索收集的數(shù)據(jù)項(xiàng)之間的相關(guān)性來提高估計(jì)的有效性,例如對信息施加影響可以增強(qiáng)估計(jì)的準(zhǔn)確性,這在利用插補(bǔ)方法分析數(shù)據(jù)時尤其管用,利用最好線性無偏估計(jì)(BLUE)來估計(jì)參數(shù)也利用了變量之間的相關(guān)性,借用相關(guān)性信息可降低估計(jì)參數(shù)的方差;第三是增加了從樣本單元中收集整個完整調(diào)查項(xiàng)目中所有問題的靈活性[1-2]。例如,對于訪員和研究機(jī)構(gòu)來說,實(shí)施短一點(diǎn)的調(diào)查問卷比長的調(diào)查問卷的壓力要小一些。盡管基于以上的優(yōu)勢問卷分割設(shè)計(jì)能夠?yàn)槲磥淼膯柧碚{(diào)查提供參考,但是因?yàn)閷υ擃I(lǐng)域的研究相對來說還是不夠充分,因此有必要對其進(jìn)行適當(dāng)?shù)耐卣?以使得它能夠被應(yīng)用到更多的領(lǐng)域中,或使其成為對于長問卷優(yōu)化來說更有效的一個替代方法。
問卷長度的縮短相對長問卷來說可以有效地提高被訪者的調(diào)查積極性,在一定程度上增加回答率,Chipperfield和Steel在平衡抽樣中的無回答率和抽樣效率之間進(jìn)行了理論分析,得出問卷分割設(shè)計(jì)結(jié)合數(shù)據(jù)插補(bǔ)是提升抽樣效率的一個不錯方法。問卷分割設(shè)計(jì)除了可以降低無回答率外,還可以提高回答數(shù)據(jù)的質(zhì)量。
關(guān)于問卷分割的研究不僅能提高調(diào)查的成本效率,相對簡單抽樣設(shè)計(jì)來說回答的時長也會減少,也可以減少無回答率的同時提高抽樣的效率。利用問卷分割設(shè)計(jì)得到的數(shù)據(jù)比簡單隨機(jī)抽樣的質(zhì)量也會增加,針對問卷中的缺失數(shù)據(jù)可用似然方法進(jìn)行估計(jì),對于參數(shù)估計(jì)中樣本比較少的情況下利用小域估計(jì)提升參數(shù)估計(jì)的精度,因此復(fù)雜調(diào)查中的問卷分割設(shè)計(jì)是一個很值得研究的問題。
小域估計(jì)一直是當(dāng)今抽樣調(diào)查中的一個熱點(diǎn)問題,由于小域的樣本量很小甚至為零,如果用傳統(tǒng)的直接估計(jì)無法得到小域的精確估計(jì),故借助于其他相鄰或相似的小域樣本信息和歷史信息的間接估計(jì)來提高估計(jì)精度是十分必要的[3]。在抽樣調(diào)查的背景下,若域統(tǒng)計(jì)量僅僅是基于特定域的樣本數(shù)據(jù),則將其稱為“直接”估計(jì)。直接估計(jì)量也可以使用已知的輔助信息,例如與感興趣的變量y相關(guān)的輔助變量x的總和。直接估計(jì)量通常是基于調(diào)查設(shè)計(jì)的,但它也可以在模型下估計(jì)?;谠O(shè)計(jì)的估計(jì)量使用調(diào)查權(quán)重,相關(guān)的推斷基于抽樣設(shè)計(jì)引起的概率分布,其中人口值保持不變。使用模型輔助直接估計(jì)也是基于設(shè)計(jì)的,旨在使推斷對可能的模型錯誤指定具有穩(wěn)定性。良好輔助數(shù)據(jù)的可用性和合適的鏈接模型確定對于間接估計(jì)形成是至關(guān)重要的。正如Schaible指出的那樣,需要通過不同機(jī)構(gòu)之間的協(xié)調(diào)與合作來擴(kuò)大對輔助信息的應(yīng)用[4]。
目前國內(nèi)對小域估計(jì)研究的論文相對較少,馮士雍將小域估計(jì)列為抽樣調(diào)查領(lǐng)域三個前沿研究方向之一[5]。呂萍對小域估計(jì)的理論和最新進(jìn)展進(jìn)行過綜述,介紹了基于模型的小域估計(jì)的主要方法[6]。呂萍和郭淡泊研究了傳統(tǒng)的比例、最優(yōu)、內(nèi)曼、等量分配方法和Power分配方法中與樣本量的分配方法[7]。周巍等利用抽樣調(diào)查數(shù)據(jù)結(jié)合衛(wèi)星遙感技術(shù)構(gòu)造多個目標(biāo)變量的單元層次模型估計(jì),估計(jì)了黑龍江省幾種農(nóng)作物的種植面積[8]。國外關(guān)于小域估計(jì)的研究文獻(xiàn)比較多,除了Rao和Molina出版了一部全面介紹小域估計(jì)理論的專著外,不少學(xué)者從模型的角度對小域估計(jì)進(jìn)行過探索[9]。小域估計(jì)通常抽樣不涉及傳統(tǒng)的人口統(tǒng)計(jì)方法,但是近年來對小面積統(tǒng)計(jì)的需求大大增加,政府在制定政策和計(jì)劃資金分配和區(qū)域規(guī)劃方面越來越多地使用小域估計(jì)方法,Zhang和Bryant探討了基于貝葉斯基準(zhǔn)的小域估計(jì)模型[10]。Fuller、Chambers等人的書中也給出了小域估計(jì)理論的詳細(xì)介紹[11-12];Sugasawa和Kubokawa給出了混合模型中小域估計(jì)的研究綜述[13];Jiang和Rao對穩(wěn)健小域估計(jì)方法做了一個系統(tǒng)性綜述[3]。關(guān)于小域估計(jì)在問卷分割中的應(yīng)用,朱鈺、Kamgar等得出運(yùn)用小域估計(jì)方法對分割問卷進(jìn)行參數(shù)估計(jì),能顯著提高統(tǒng)計(jì)調(diào)查的精度[14-15]。
問卷分割設(shè)計(jì)由于其在設(shè)計(jì)上的特點(diǎn)以及經(jīng)費(fèi)的約束,在某些域上也往往會存在樣本量很少的情況,因此結(jié)合小域估計(jì)的方法來對問卷分割設(shè)計(jì)得到的參數(shù)進(jìn)行估計(jì)不失為一個理想的選擇,借助小域估計(jì)方法也能在一定程度上增加估計(jì)的效率。使用問卷分割設(shè)計(jì)進(jìn)行數(shù)據(jù)收集,子樣本選擇是隨機(jī)的,因此相應(yīng)的無回答也是完全隨機(jī)的。根據(jù)對長問卷的分割策略,每個被訪者僅被問到其中的幾個數(shù)據(jù)項(xiàng),因此得到的數(shù)據(jù)從整體結(jié)構(gòu)來看是缺失的。同時調(diào)查項(xiàng)目有時受經(jīng)費(fèi)的影響獲取的樣本量比較小,尤其是在分析獲取問卷中部分問題的參數(shù)估計(jì)時,樣本量更少甚至接近于0,因此需要考慮使用輔助信息的手段來增加估計(jì)的準(zhǔn)確性,而小域估計(jì)是不錯的選擇。
為了能夠使得小域估計(jì)方法應(yīng)用于問卷分割設(shè)計(jì),在問卷分割設(shè)計(jì)的初始階段需要對問卷進(jìn)行如下的處理,使其能夠滿足小域估計(jì)的條件:
第一,初始的長問卷被分成一個核心數(shù)據(jù)項(xiàng)和幾個非核心數(shù)據(jù)項(xiàng)(比如K個),其中核心數(shù)據(jù)項(xiàng)是每個被訪者的必答項(xiàng),每個被訪者回答其中K個數(shù)據(jù)項(xiàng)中的一個或幾個。如果被訪者只是回答K個問題中的一個,以K=3為例,可表示為圖1所示的形式,其中“√”表示必答數(shù)據(jù)項(xiàng)和可選數(shù)據(jù)項(xiàng)中的回答部分,空白表示可選分組中的未回答部分(圖1表示相同)。
圖1 K=3核心部分+非重疊子集
圖1中包含一個“核心”數(shù)據(jù)項(xiàng)和三個非核心數(shù)據(jù)項(xiàng),核心數(shù)據(jù)項(xiàng)用y0表示,這個數(shù)據(jù)項(xiàng)可以是一個變量也可以是多個變量,一般來說通常會使用被訪者的個人屬性特征和與調(diào)查目的最相關(guān)的幾個變量作為這個核心的數(shù)據(jù)項(xiàng),如被訪者的年齡、性別、收入、受教育情況、婚姻狀態(tài)以及個人收入、是否信仰某種宗教等被訪者的個人屬性特征。除此之外,每個被訪者都會回答一個非核心數(shù)據(jù)項(xiàng)。這種設(shè)計(jì)的另一個優(yōu)點(diǎn)是任何yk(k=1,2,3)與y0之間的相關(guān)性是可以計(jì)算的,但是非核心部分的相關(guān)系數(shù)計(jì)算比較困難。此項(xiàng)設(shè)計(jì)的不足還包括對于任何yk(k=1,2,3)分配相同的樣本量才是適宜的,但是在實(shí)際中并不是所有的問卷都包含帶有人口屬性的核心數(shù)據(jù)項(xiàng)。一般情況下對于數(shù)據(jù)項(xiàng)包含K個非核心數(shù)據(jù)項(xiàng)的問卷來說,組合的方式有2K-1種,但是這個設(shè)計(jì)也有一個局限性,即當(dāng)數(shù)據(jù)項(xiàng)有多個時,例如K=7時組合就有27-1=127種,在實(shí)際調(diào)查中就會出現(xiàn)執(zhí)行困難。模式的選擇專注于這種類型的設(shè)計(jì),因?yàn)樗脑O(shè)計(jì)解決了為受訪者量身定制調(diào)查的目標(biāo)。
第二,所有的樣本單元基于已知的輔助變量進(jìn)行分類,因此,能夠保證同類樣本單元的同質(zhì)性,每個類可以看成是一個域。這里的輔助變量通常是被訪者用戶屬性的特征組合,如具有高中學(xué)歷、已婚、工人、工資5 000元/月~10 000元/月一類的人群可以堪稱一個域。
第三,每個被選中的被訪者隨機(jī)回答其中的核心數(shù)據(jù)項(xiàng)和固定的一個非核心數(shù)據(jù)項(xiàng),值得注意的是不同子樣本的個數(shù)(回答不同數(shù)據(jù)項(xiàng)的總類別數(shù))和總數(shù)據(jù)項(xiàng)(不包含核心數(shù)據(jù)項(xiàng))的個數(shù)是相同的。
第四,對于所有的類重復(fù)步驟三。
在抽樣調(diào)查中,調(diào)查方案往往是為了估計(jì)較高一層調(diào)查總體(例如全國)的目標(biāo)量而設(shè)計(jì)的,所以利用這些調(diào)查得到的、具有總體(全國)屬性的樣本,去估計(jì)下一層子總體(例如省、自治區(qū)或直轄市)的目標(biāo)量時,就會產(chǎn)生樣本量少且質(zhì)量不能保證的問題,原因要么是樣本分布由于總體變化而產(chǎn)生偏差造成代表性不夠,要么是樣本量太小而且方差不穩(wěn)定,更嚴(yán)重的情況是對某些小(區(qū))域來說,若上一層沒有對其抽取樣本,這時用于估計(jì)的樣本量就可能為零。小域估計(jì)就是從這一背景出發(fā),從小樣本中借助輔助信息來提升估計(jì)的效率。小域估計(jì)具體的參數(shù)估計(jì)方法包含直接估計(jì)、隱式模型估計(jì)和顯式模型估計(jì)方法等,接下來分別對這三種方法進(jìn)行分析研究。鑒于問卷分割數(shù)據(jù)的特點(diǎn),本文主要從隱式鏈接模型間接估計(jì)的角度探討提升分割樣本的估計(jì)精度。
基于隱式鏈接模型的間接估計(jì)也稱隱式模型估計(jì)法,包括合成估計(jì)和復(fù)合估計(jì)。這些估計(jì)量通常是基于設(shè)計(jì)的,并且它們的設(shè)計(jì)方差(即相對于采樣設(shè)計(jì)引起的概率分布的方差)通常比直接估計(jì)量的設(shè)計(jì)方差要小。然而,間接估計(jì)量通常會有設(shè)計(jì)偏差,并且設(shè)計(jì)偏差不會隨著整體樣本量的增加而減小。如果隱式鏈接模型近似為真,那么設(shè)計(jì)偏差可能很小,導(dǎo)致與直接估計(jì)量的均方誤差(MSE)相比更小,MSE的減少是使用間接估計(jì)的主要原因。
基于模型的小域估計(jì)方法有以下幾個優(yōu)點(diǎn):一是可以在假設(shè)模型下導(dǎo)出最優(yōu)估計(jì);二是區(qū)域特定的變異性測量可以與每個估計(jì)量相關(guān)聯(lián),而不像傳統(tǒng)間接估計(jì)量常用的全球測量(平均小區(qū)域);三是模型可以從樣本數(shù)據(jù)中驗(yàn)證;四是根據(jù)響應(yīng)變量的性質(zhì)和數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性(例如空間依賴性和時間序列結(jié)構(gòu)),可以接受各種模型。一般線性混合模型的經(jīng)驗(yàn)最優(yōu)線性無偏預(yù)測(EBLUP)方法已廣泛用于估計(jì)固定和隨機(jī)效應(yīng)的線性組合的實(shí)現(xiàn)值。EBLUP估計(jì)量分兩步獲得:一是獲取最優(yōu)線性無偏預(yù)測(BLUP),其首先獲得感興趣量的線性模型無偏估計(jì)類中模型的MSE,這取決于模型中隨機(jī)效應(yīng)的方差(和協(xié)方差);二是通過用方差和協(xié)方差參數(shù)的合適估計(jì)量替換,從BLUP獲得EBLUP估計(jì)量。在平方誤差損失下,小域估計(jì)中感興趣的統(tǒng)計(jì)量(例如平均值、比例或更復(fù)雜參數(shù))的最佳預(yù)測值(BP)是給定數(shù)據(jù)和模型參數(shù)的條件期望。計(jì)算BP需要分布式假設(shè),通過將BP相對于從假設(shè)的模型參數(shù)的先前分布導(dǎo)出的貝葉斯后驗(yàn)分布進(jìn)行積分,獲得平方誤差損失下的分層貝葉斯(HB)估計(jì)量。HB估計(jì)量等于被估計(jì)量的后驗(yàn)均值,其中期望是關(guān)于給定數(shù)據(jù)的感興趣量的后驗(yàn)分布。HB方法使用后驗(yàn)方差作為與HB估計(jì)量相關(guān)的不確定性度量。感興趣量的后驗(yàn)(或可信)間隔也可以從感興趣量的后驗(yàn)分布構(gòu)建。HB方法被廣泛用于小域估計(jì),因?yàn)樗芎唵?推論是精確的,并且可以使用馬爾可夫鏈蒙特卡羅(MCMC)方法處理復(fù)雜問題。如果目標(biāo)是產(chǎn)生估計(jì)集合,其分布在某種意義上足夠接近相應(yīng)估計(jì)的分布,則對小域總數(shù)或均值的基于模型的最優(yōu)估計(jì)可能是不合適的。該方法經(jīng)常對排名(例如學(xué)校、醫(yī)院或地理區(qū)域的排名)或識別具有極端價值的領(lǐng)域(區(qū)域)適用。一般情況下,需要構(gòu)建一組包含三個目標(biāo)的估計(jì),這些估計(jì)可以產(chǎn)生良好的排名、良好的直方圖和良好的區(qū)域特定估計(jì)。然而,同時優(yōu)化一般情況下是不可行的,并且有必要尋求可以在三個目標(biāo)之間實(shí)現(xiàn)有效平衡的折衷集。該方法通過隱式模型來建立小域和其他小域的聯(lián)系,達(dá)到提高分割樣本中小域中目標(biāo)變量的估計(jì)精度,主要方法包括:
1.合成估計(jì)量
該估計(jì)量是建立在隱式模型基礎(chǔ)上的間接估計(jì)方法,定義為當(dāng)一個大域的可靠無偏估計(jì)可以由調(diào)查樣本直接獲得時,在假定大域與其所覆蓋的各小域有共同特征的前提下,可以使用大域的估計(jì)量協(xié)助產(chǎn)生小總體的估計(jì)量。合成估計(jì)量是用大區(qū)域的估計(jì)量協(xié)助產(chǎn)生小域的估計(jì)量,因此它的精度就依賴于大域的直接估計(jì)的精度,因此得到的小域估計(jì)的方差要小于直接估計(jì)的方差,但是其均方誤差的估計(jì)量計(jì)算比較困難,一般會通過重抽樣方法得到。
2.組合估計(jì)量
在假設(shè)條件滿足的情況下可以使用合成估計(jì),但如果假設(shè)條件不滿足時仍使用原來的方法會產(chǎn)生很大的偏差,而直接估計(jì)雖然會產(chǎn)生無偏、一致的估計(jì)量,但是導(dǎo)致小域估計(jì)的目標(biāo)變量會有很大的方差,試著將兩者結(jié)合起來得到小域估計(jì)的組合估計(jì)量,即對直接估計(jì)量和合成估計(jì)量進(jìn)行加權(quán)平均:
(1)
正如上文中所說,小域估計(jì)可應(yīng)用于樣本量比較少的情況,而在問卷分割設(shè)計(jì)中,因?yàn)閷﹂L問卷進(jìn)行了分割,因此使得原來每個類較多的樣本量變得越來越少,故在估計(jì)總體的時候借助小域估計(jì)的一些思想來進(jìn)行。在介紹具體模型之前先介紹一下經(jīng)驗(yàn)最好線性無偏預(yù)測(EBLUP),假設(shè)分割樣本數(shù)據(jù)服從一般線性混合模型:
y=xβ+v+e
(2)
(3)
(4)
(5)
在存在每個單元的輔助信息情況下,平時常用的一個小域估計(jì)模型是嵌套誤差回歸模型,在第i類的總體Ni較大的假定下,模型可以寫成:
(6)
基于前面對經(jīng)驗(yàn)最優(yōu)線性無偏預(yù)測(EBLUP)的介紹,可以得到線性混合的EBLUP是一個基于模型預(yù)測,可以提高小域估計(jì)的有效性,對應(yīng)的預(yù)測為:
(7)
(8a)
(8b)
式(7)的均方誤差(MSE)估計(jì)量可以用下式表示:
(9)
式(9)右邊的三個符號對應(yīng)的表達(dá)式如下:
(10a)
(10b)
(10c)
(11)
(12)
C1,i、C2,i和C3,i的具體表達(dá)式見式(10a)、式(10b)和式(10c),從式(12)中得到了相關(guān)統(tǒng)計(jì)量的計(jì)算公式后,接下來使用幾個不同的測量指標(biāo)來比較不同方法的優(yōu)劣。參數(shù)估計(jì)的衡量是判斷參數(shù)估計(jì)效果的主要方法,本文中用到的幾個比較常見的衡量指標(biāo)為:
(1)參數(shù)估計(jì)絕對偏差(AB),具體的估計(jì)公式為:
(13)
(2)估計(jì)相對偏差(EARB),定義為:
(14)
(3)估計(jì)均方誤差(EMSE),定義為:
(15)
這里的參數(shù)方差也是通過Bootstrap得到,從定義上可看出參數(shù)估計(jì)的均方誤差是估計(jì)方差和估計(jì)偏差的平方和。
(4)估計(jì)的相對有效性,定義為:
(16)
其中ERE表示方法1(用下角標(biāo)表示)和方法2估計(jì)均方誤差的比值。
在本節(jié)中,采用數(shù)值模擬的形式生成具體的數(shù)據(jù),結(jié)合上一節(jié)的參數(shù)估計(jì)和參數(shù)估計(jì)衡量方法來分析和證明分割樣本中EBLUP方法的有效性。
1.參數(shù)設(shè)置
首先,設(shè)定一個長度為20個問題的長問卷,然后將這20個問題分成6個部分,1個是核心數(shù)據(jù)項(xiàng),其余5個是非核心數(shù)據(jù)項(xiàng)。核心數(shù)據(jù)項(xiàng)包含5個問題,這5個問題和其余的15個問題是高度相關(guān)的,這5個問題每個被訪者都會被問到。剩余的15個問題被分配給5個數(shù)據(jù)項(xiàng),其中每個數(shù)據(jù)項(xiàng)被分配3個問題,被分配的問題中不同數(shù)據(jù)項(xiàng)之間是相關(guān)性比較高的,而在同一數(shù)據(jù)項(xiàng)內(nèi)的問題相關(guān)性是比較低的。基于前面對相關(guān)性的描述,設(shè)定生成一個多元正態(tài)分布,同時生成一個多項(xiàng)式變量來代表分層變量,這個多項(xiàng)式變量和其他的變量是高度相關(guān)的。采用圖1所示的模式,采用簡單隨機(jī)抽樣的形式,對每個子樣本抽取固定的100個樣本。每層的樣本單元隨機(jī)分配給所有的5個非核心數(shù)據(jù)項(xiàng)。作為對比,每個問題的總體均值使用多重插補(bǔ)算法中的預(yù)測均值匹配法(PMM)以及使用輔助信息的小域估計(jì)技術(shù),比較兩個方法各自的AB、EARB和EMSE。
2.結(jié)果分析
在本次模擬中生成1 000個模擬的自助樣本,同時根據(jù)生成的數(shù)據(jù)計(jì)算自助總體均值在帶有輔助信息條件下的EBLUP和多重插補(bǔ)PMM估計(jì)方法,以及相應(yīng)估計(jì)的相對偏差(EARB)和估計(jì)的均方誤差(EMSE),具體結(jié)果見表1。
表1 1 000次Bootstrap樣本的參數(shù)估計(jì)結(jié)果
從表1可以看出,EBLUP比多重插補(bǔ)方法的相對偏差相對不大,但估計(jì)的相對偏差前者要比后者小一些,且基于EBLUP得到的均方誤差也比PMM方法要小得多,從這兩個指標(biāo)看,小域估計(jì)是一個不錯的選擇,同時在相對有效性上小域估計(jì)的EMSE多是多重插補(bǔ)的EMSE的比值(ERE)多在0.9以下也可以看出其有效性。
本文主要探討了在問卷分割得到的數(shù)據(jù)中當(dāng)進(jìn)行參數(shù)估計(jì)時樣本量比較小的類進(jìn)行估計(jì)時可能產(chǎn)生估計(jì)的偏差而采用的一種新的方法——小域估計(jì)方法,首先探討了該方法的統(tǒng)計(jì)學(xué)模型,然后在該模型的框架下對參數(shù)的估計(jì)進(jìn)行了研究,推導(dǎo)出其經(jīng)驗(yàn)最好線性無偏預(yù)測。在對具體參數(shù)的估計(jì)中,僅對總體均值和其均方誤差進(jìn)行了估計(jì)。
在模擬分析部分,探討了長問卷有20個不同問題,在實(shí)施問卷分割時被分割成6個數(shù)據(jù)項(xiàng)(1個核心數(shù)據(jù)項(xiàng)和5個非核心數(shù)據(jù)項(xiàng)),采用圖1所示的模式進(jìn)行問卷分配的情況下,生成100個隨機(jī)的樣本得到的結(jié)果,參考三個不同的衡量指標(biāo)結(jié)果均顯示小域估計(jì)方法比進(jìn)行多重插補(bǔ)的PMM方法更有效,這為進(jìn)行小樣本的參數(shù)估計(jì)提供了一個很好的思路。
本文探討的是當(dāng)被估參數(shù)相關(guān)樣本量比較少時的統(tǒng)計(jì)量的參數(shù)估計(jì),但是該方法有一個弱點(diǎn)是需要了解相關(guān)的信息來做輔助推斷,如果更好地利用不同數(shù)據(jù)源的信息來提升參數(shù)估計(jì)的結(jié)果也是未來的一個研究方向。同時當(dāng)研究的目標(biāo)是不同變量的相關(guān)關(guān)系或者對某個變量進(jìn)行預(yù)測時,這就需要圍繞模型分析來對問卷分割數(shù)據(jù)進(jìn)行具體的討論。