亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        簡(jiǎn)單隨機(jī)抽樣中的交互回歸估計(jì)及其應(yīng)用

        2023-06-04 08:40:54劉高生趙靜文
        黑龍江科學(xué) 2023年8期
        關(guān)鍵詞:樣本量比率方差

        劉高生,曹 琴,趙靜文

        (1.天津商業(yè)大學(xué) 理學(xué)院,天津 300134; 2.天津城建大學(xué) 經(jīng)濟(jì)與管理學(xué)院,天津 300384)

        0 引言

        大數(shù)據(jù)具有免費(fèi)獲取、數(shù)據(jù)量大等優(yōu)點(diǎn),但如果對(duì)大數(shù)據(jù)直接進(jìn)行分析,不僅數(shù)據(jù)量龐大、耗時(shí)長,且計(jì)算效率低。面對(duì)如此龐大的數(shù)據(jù),需要運(yùn)用抽樣技術(shù)進(jìn)行樣本選取,抽取一部分與總體研究對(duì)象高度相關(guān)的樣本量進(jìn)行分析,根據(jù)調(diào)查數(shù)據(jù),對(duì)全體對(duì)象進(jìn)行推斷、估計(jì)。目前,抽樣調(diào)查被廣泛應(yīng)用于各個(gè)領(lǐng)域,需進(jìn)一步研究如何選擇合適的抽樣估計(jì)方法,達(dá)到更好的抽樣估計(jì)效果。

        國外對(duì)抽樣調(diào)查方法的研究可追溯到19世紀(jì)。Kiaer提出了“代表性抽樣”概念,即從總體中抽出一組可代表該總體的樣本。Neyman、Hansen及Mahalanobis等進(jìn)行了進(jìn)一步的研究,提出了更加完整的抽樣調(diào)查方法理論體系。1980年,Metrika對(duì)簡(jiǎn)單估計(jì)、比率估計(jì)等估計(jì)方法的性能進(jìn)行了研究。20世紀(jì)初,Horviz和Thompson提出了無偏估計(jì)理論,抽樣調(diào)查方法的理論體系日趨完善。

        國內(nèi)關(guān)于抽樣調(diào)查的理論及方法日益豐富。孫山澤[1]等、金勇進(jìn)[2]等對(duì)7種主要調(diào)查方法的公式推導(dǎo)進(jìn)行了研究,給出了這些理論的應(yīng)用條件及方法。盧宗輝[3]等提出了基于對(duì)等概率和不等概率不同抽樣方式下抽樣方差的計(jì)算與比較,研究發(fā)現(xiàn),不等概率抽樣比率估計(jì)比等概率抽樣比率估計(jì)效果更好。鄧明[4]等闡述了基于比率估計(jì)的抽樣方法對(duì)復(fù)雜的時(shí)間序列數(shù)據(jù)季節(jié)指數(shù)的估計(jì),解決了季節(jié)指數(shù)對(duì)觀測(cè)期數(shù)要求高的問題。俞純權(quán)[5]討論了有輔助變量可利用時(shí)估計(jì)量的選擇問題。喬松珊[6]等利用多輔助信息構(gòu)造了比率估計(jì)。盧玉桂[7]等提出了基于R軟件利用分層抽樣方法,解決完整抽樣框和非完整抽樣框兩種不同情況下樣本選取及對(duì)總體參數(shù)的估計(jì)。賀建風(fēng)[8]等提出了基于大數(shù)據(jù)將切片逆回歸得到的綜合得分作為輔助變量來構(gòu)造概率,利用不等概率抽樣獲得了更好的抽樣估計(jì)效果。

        當(dāng)抽樣調(diào)查中存在輔助變量,且與目標(biāo)變量存在一定的線性關(guān)系時(shí),為估計(jì)總體均值,傳統(tǒng)的抽樣理論方法一般考慮回歸估計(jì),但回歸估計(jì)僅考慮了一個(gè)輔助變量的情況,而當(dāng)抽樣調(diào)查中存在多個(gè)輔助變量時(shí)則無法有效應(yīng)用。為充分利用變量間的交互信息,將其擴(kuò)展到多個(gè)交互輔助變量的情況,提出了多元交互回歸估計(jì)。在模型中加入交互效應(yīng),不僅可提高模型的解釋能力,還能深入研究交互效應(yīng)變量,這種類似交互式回歸的思想可參考文獻(xiàn)[9-10]。本研究運(yùn)用數(shù)據(jù)可視化的方式,將不同抽樣估計(jì)方法下復(fù)雜的理論結(jié)果用圖形直觀呈現(xiàn)出來,并對(duì)不同抽樣估計(jì)方法進(jìn)行比較分析,為實(shí)際調(diào)查研究提供了一定的方法參考。

        1 多元交互回歸估計(jì)

        在簡(jiǎn)單隨機(jī)抽樣方法中,估計(jì)總體均值常用的估計(jì)方法為簡(jiǎn)單估計(jì)(y.bar)、比率估計(jì)(y.R)及回歸估計(jì)(y.lr)等。其中,簡(jiǎn)單估計(jì)是用樣本均值作為總體均值的估計(jì)。當(dāng)抽樣調(diào)查過程中存在與主要目標(biāo)變量相關(guān)的輔助變量時(shí),通??梢钥紤]利用這些輔助變量信息來提高估計(jì)值的精度。而比率估計(jì)和回歸估計(jì)只考慮了一個(gè)輔助變量的情況,考慮到抽樣調(diào)查的指標(biāo)信息中可能存在多個(gè)輔助變量,故而提出了多元交互式回歸估計(jì)(y.lrm)。

        若得到的新的輔助變量很多,且存在很多對(duì)因變量不顯著的變量,可通過Lasso篩選變量的方法去掉不顯著的變量,如果這些新的輔助變量之間存在一定的相關(guān)性,可利用主成分降維法得到不相關(guān)的主成分,將得到的主成分及其交互項(xiàng)作為新的輔助變量。

        設(shè)研究的總體指標(biāo)量為Yj,Xij(i=1,2,3,…k;j=1,2,3…N),從總體中抽取n個(gè)簡(jiǎn)單隨機(jī)樣本,記為:yj,xij(i=1,2,3…k;j=1,2,3…n)。

        則多元交互樣本回歸系數(shù)bi(i=1,2,3…,k)可取以下向量的第i個(gè)值;

        b=(x′x)-1x′y;

        綜上,多元交互回歸估計(jì)的理論如下:

        (1)

        多元交互回歸估計(jì)的均方偏差的估計(jì)為:

        (2)

        2 Bootstrap方法估計(jì)方差的過程

        由于多元交互回歸估計(jì)的方差的估計(jì)計(jì)算公式較為復(fù)雜,提出Bootstrap方法估計(jì)多元交互回歸估計(jì)的方差過程,基本過程如下:步驟1:從總體中抽取n個(gè)原始樣本,采用重抽樣技術(shù)從原始樣本中重復(fù)抽取m次產(chǎn)生一定數(shù)量的再生樣本,此過程允許重復(fù)進(jìn)行,設(shè)定m=300次。步驟2:根據(jù)步驟1中抽取的再生樣本結(jié)果,計(jì)算出多元交互回歸估計(jì)值。步驟3:將步驟1、2、3重復(fù)執(zhí)行m次,即可得到m個(gè)多元交互回歸估計(jì)的估計(jì)值。步驟4:基于步驟3的計(jì)算結(jié)果,計(jì)算出這m個(gè)多元交互回歸估計(jì)值的方差,即為利用Bootstrap方法給出的多元交互回歸估計(jì)方差的估計(jì)。Bootstrap方法估計(jì)方差步驟如圖1所示。

        圖1 Bootstrap方法估計(jì)步驟示意圖Fig.1 Step diagram of Bootstrap method estimation

        3 模擬研究

        數(shù)值模擬的數(shù)據(jù)集從線性回歸模型Y=0.5X1+0.5X2+0.5X1*X2+e中產(chǎn)生,其中X1服從二項(xiàng)分布為B(1,0.5),X2服從正態(tài)分布N(1,1),誤差項(xiàng)e服從正態(tài)分布N(0,σ2)。多元交互回歸估計(jì)以X1、X2、X1*X2為3個(gè)輔助變量,比率估計(jì)及回歸估計(jì)以X1為輔助變量。

        從N=800的總體體中抽取n個(gè)樣本,誤差項(xiàng)的方差設(shè)定分別為σ=0.1、σ=0.5。運(yùn)用簡(jiǎn)單估計(jì)、比率估計(jì)、回歸估計(jì)及多元交互回歸估計(jì)4種方法估計(jì)總體均值。當(dāng)誤差項(xiàng)方差改變時(shí),對(duì)比分析不同的估計(jì)方法對(duì)總體均值的估計(jì)。設(shè)定樣本量n=100,試驗(yàn)重復(fù)抽取m=300次,得到4種估計(jì)的箱線圖如圖2所示。

        圖2 樣本均值估計(jì)箱線圖Fig.2 Box plot of sample mean estimation

        在無偏估計(jì)的條件下,抽樣調(diào)查方法模型的均值估計(jì)量越集中,則估計(jì)方差越小,估計(jì)效果越好。從圖2可知,當(dāng)固定樣本量,誤差項(xiàng)方差變大時(shí),4種估計(jì)的四分位差都變大,估計(jì)效果都變差。當(dāng)固定誤差項(xiàng)方差時(shí),簡(jiǎn)單隨機(jī)抽樣中的簡(jiǎn)單估計(jì)的四分位差較大,估計(jì)效果較差,比率估計(jì)與回歸估計(jì)四分位差相差不大,估計(jì)效果相差不大,而在回歸估計(jì)的基礎(chǔ)上提出的多元交互回歸估計(jì)的四分位差最小,估計(jì)效果較好。

        對(duì)模擬數(shù)據(jù)集抽取n1=100、n2=200、n3=300、n4=400的樣本,對(duì)比探究估計(jì)量的偏差及方差變化。利用Bootstrap方法,重復(fù)抽取m=300次,在σ=0.5的情況下得到這4種估計(jì)方法的估計(jì)偏差折線圖如圖3所示。

        圖3 估計(jì)偏差折線圖Fig.3 Line plot for estimating deviations

        由圖3可知,這4種估計(jì)的偏差都較小。當(dāng)n=100、200、300時(shí),簡(jiǎn)單隨機(jī)抽樣中的簡(jiǎn)單估計(jì)的偏差估計(jì)小于比率估計(jì)與回歸估計(jì)的偏差估計(jì),而當(dāng)n=400時(shí),比率估計(jì)與回歸估計(jì)的偏差估計(jì)均小于簡(jiǎn)單估計(jì)的偏差估計(jì),而多元交互回歸估計(jì)在任何樣本情況下的偏差估計(jì)量都是最小的。

        由圖4可知,固定估計(jì)方法隨著樣本量的增加,估計(jì)方差在減小,估計(jì)精度隨之提高,當(dāng)n=400時(shí),估計(jì)方差是最小的。在固定樣本量時(shí),簡(jiǎn)單估計(jì)的方差最大,比率估計(jì)與回歸估計(jì)的估計(jì)方差相當(dāng),多元交互回歸估計(jì)的估計(jì)方差最小,估計(jì)效果最好。簡(jiǎn)單估計(jì)的估計(jì)效果最差,主要是因?yàn)楹?jiǎn)單估計(jì)沒有利用輔助變量信息,而比率估計(jì)、回歸估計(jì)及多元交互回歸估計(jì)利用了輔助變量信息,從而提高了估計(jì)精度。比率估計(jì)與回歸估計(jì)利用了一個(gè)輔助變量,估計(jì)方差比簡(jiǎn)單估計(jì)要小,而多元交互回歸估計(jì)利用了多個(gè)輔助變量及交互信息,估計(jì)方差最小,估計(jì)效果最好。

        圖4 Boostrap方法得到的方差估計(jì)折線圖Fig.4 Line chart of variance estimation gained by Boostrap

        圖5給出了不同方法下方差的估計(jì)條形對(duì)比圖,藍(lán)色表示利用Bootstrap方法得到的估計(jì)均值算出的方差的估計(jì),綠色表示利用估計(jì)方法的計(jì)算公式得到的方差的估計(jì)。將運(yùn)用Bootstrap方法對(duì)方差進(jìn)行估計(jì)的結(jié)果與傳統(tǒng)公式計(jì)算方差的估計(jì)結(jié)果進(jìn)行比較可知,兩種估算方法下的估計(jì)方差都隨著樣本量的增加而減小,當(dāng)樣本量很大時(shí),兩種方法得到的方差估計(jì)大致相等,這說明利用Bootstrap方法對(duì)均值方差進(jìn)行估計(jì)所得的結(jié)果是合理有效的,可彌補(bǔ)傳統(tǒng)抽樣理論中方差估計(jì)計(jì)算復(fù)雜的缺陷,對(duì)抽樣方法理論及實(shí)際應(yīng)用具有一定的意義。

        圖5 方差的估計(jì)條形對(duì)比圖Fig.5 Bar comparison chart of variance estimation

        4 實(shí)證分析及結(jié)論

        實(shí)例分析使用的數(shù)據(jù)集為Bike Sharing Dataset[11],包括N=731條觀測(cè)數(shù)據(jù),變量數(shù)目為7個(gè),其中包括6個(gè)自變量、1個(gè)因變量。各個(gè)變量的指標(biāo)含義如下:workingday-(X1)工作日,weathersit-(X2)天氣情況,temp-(X3)溫度,atemp-(X4)體感溫度,hum-(X5)濕度,windspeed-(X6)風(fēng)速,cnt-(Y)共享單車租賃數(shù)量。

        對(duì)變量進(jìn)行相關(guān)分析可知,溫度、體感溫度與共享單車租賃數(shù)量相關(guān)系數(shù)接近0.6,天氣情況、濕度、風(fēng)速等研究變量都與共享單車租賃總數(shù)有一定的線性相關(guān)性,但是相關(guān)性較弱,而工作日的相關(guān)性程度最弱。為避免輔助變量間存在多重共線性,選擇體感溫度和天氣情況作為輔助變量。為估計(jì)共享單車租賃數(shù)量的均值,比率估計(jì)及回歸估計(jì)只利用體感溫度這個(gè)輔助變量,而多元交互回歸估計(jì)利用體感溫度、天氣情況及交互信息作為輔助變量。

        從N個(gè)總體中隨機(jī)抽取樣本量分別為100、400的樣本,重復(fù)抽取300次,采用簡(jiǎn)單估計(jì)、比率估計(jì)、回歸估計(jì)及多元交互回歸估計(jì)方法估計(jì)共享單車租賃數(shù)量的均值,得到不同樣本量情況下估計(jì)量的箱線圖如圖6所示。

        圖6 均值估計(jì)箱線圖Fig.6 Box plot of mean estimation

        由表1、表2可知,隨著抽取樣本量的增加,這4種估計(jì)的方差都在減少。在固定樣本量的條件下,簡(jiǎn)單估計(jì)的四分位距最大,多元交互式回歸估計(jì)的四分位距最小,比率估計(jì)和回歸估計(jì)的四分位距相差不大,說明提出的多元交互回歸估計(jì)在實(shí)際數(shù)據(jù)中估計(jì)效果較好。隨著抽取樣本量的增加,幾種方法得到的估計(jì)異常值有所增加,且數(shù)據(jù)異常值正負(fù)都有,這是由于樣本均值在樣本量很大的情況下服從正態(tài)分布導(dǎo)致的,結(jié)果合理。

        表1 n=100的均值估計(jì)Tab.1 Mean estimation of n=100

        表2 n=400的均值估計(jì)Tab.2 Mean estimation of n=400

        猜你喜歡
        樣本量比率方差
        方差怎么算
        一類具有時(shí)滯及反饋控制的非自治非線性比率依賴食物鏈模型
        醫(yī)學(xué)研究中樣本量的選擇
        概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
        計(jì)算方差用哪個(gè)公式
        航空裝備測(cè)試性試驗(yàn)樣本量確定方法
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        方差生活秀
        一種適用于微弱信號(hào)的新穎雙峰值比率捕獲策略
        自適應(yīng)樣本量調(diào)整中Fisher合并P值法和傳統(tǒng)檢驗(yàn)法的模擬比較
        国产98色在线 | 国产| 蜜桃在线观看免费高清完整版| 午夜精品久视频在线观看| 区一区一日本高清视频在线观看| 日韩精品有码中文字幕在线| 手机在线观看亚洲av| 亚洲中文字幕精品视频| 亚洲一区二区三区av无码| 日韩一欧美内射在线观看| 成人无码视频在线观看网站| 日韩在线精品视频免费| 久久久精品视频网站在线观看| 午夜精品射精入后重之免费观看| 水蜜桃精品一二三| www插插插无码视频网站| av天堂线上| 国产精品自拍午夜伦理福利| 日韩性爱视频| 日本50岁丰满熟妇xxxx| 亚洲国产精品线观看不卡| 人妻有码中文字幕在线| 天天躁夜夜躁av天天爽| 国产山东熟女48嗷嗷叫| 国产91吞精一区二区三区| 久草视频在线播放免费| 青青草国产手机观看视频| 帮老师解开蕾丝奶罩吸乳视频 | 激情在线一区二区三区视频| 国产猛烈高潮尖叫视频免费| 久久精品人人爽人人爽| 国产一毛片| 一区二区三区手机看片日本韩国| 国产一区二区精品亚洲| 亚洲av无码专区在线播放中文| 欧美巨大精品欧美一区二区| 黄色三级国产在线观看| 粉嫩国产av一区二区三区| 鲁鲁鲁爽爽爽在线视频观看| 国产午夜视频免费观看| 毛片在线视频成人亚洲| 国模雨珍浓密毛大尺度150p|