亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        缺失數據的結構方程建模:全息極大似然估計時輔助變量的作用*

        2016-02-01 17:43:48王孟成鄧俏文
        心理學報 2016年11期
        關鍵詞:樣本量參數估計偏差

        王孟成 鄧俏文

        (廣州大學心理系; 廣州大學心理測量與潛變量建模研究中心, 廣州 510006)

        1 引言

        在對心理學等社科調查的數據進行建模時, 常常遇到數據缺失的情況。例如, 研究參與者拒絕接受調查、不愿意回答或遺漏某些問題。毫不夸張的說, 數據缺失無法避免, 因此如何處理缺失數據就成了擺在研究者面前重要而又無法回避的問題。

        全息極大似然估計(Full Information Maximum Likelihood, FIML)和多重插補(Multiple Imputation,MI)是目前缺失數據建模最為學者推崇的方法(Graham, 2009; Schafer & Graham, 2002)。這兩種方法在特定條件下所得結果是等價的, 但鑒于建模軟件的可獲得性、統(tǒng)計處理的便捷性以及結果的穩(wěn)健性(e.g., Yuan, Yang-Wallentin, & Bentler, 2012), 在方法學實踐中FIML更加方便和靈活(Yuan et al.,2012; 王孟成, 葉浩生, 2014)。

        在缺失數據建模實踐中, 方法學者通常會建議納入輔助變量(auxiliary variable)來提高結果的穩(wěn)健性。采用FIML處理缺失數據時, 合理利用輔助變量可以使與FIML密切相關的缺失機制得到滿足,從而產生更可靠的參數估計, 增加統(tǒng)計功效(Collins,Schafer, & Kam, 2001; Graham, 2009)。然而, 當前方法學領域對納入輔助變量的研究還有些重要的問題尚未探明。例如, 納入自身就存在缺失的輔助變量是否有益?因此, 本研究擬采用蒙特卡洛模擬的方法對尚存的問題做進一步的探索, 希望為應用研究者合理使用輔助變量提供有益的指引。

        1.1 數據的缺失機制與現代的處理方法

        美國統(tǒng)計學家Rubin (1976)最早將缺失機制分為3類:完全隨機缺失、隨機缺失和非隨機缺失。完全隨機缺失(Missing Completely at Random,MCAR)指變量缺失發(fā)生的可能性與變量自身及其他變量都無關, 即變量出現缺失這一事件是隨機事件。隨機缺失(Missing at Random, MAR)指變量缺失發(fā)生的可能性與模型中某些觀測變量有關而與該變量自身無關, 即缺失發(fā)生的可能性與其他變量有關。非隨機缺失(Missing Not at Random, MNAR)指變量缺失發(fā)生的可能性只與自身相關。

        現代處理缺失數據的方法中, 最為研究者推崇的是全息極大似然估計和多重插補(Enders &Bandalos, 2001; Graham, 2009; Schafer & Graham,2002)。隨著統(tǒng)計軟件的發(fā)展, 這兩種方法得到了廣泛的應用(e.g., Kidger et al., 2015)。

        在處理缺失數據時, FIML使用所有觀測變量的全部信息進行參數估計, 因而又稱為全息極大似然估計。在滿足MCAR和MAR的條件下, FIML產生無偏和有效的參數估計。FIML處理缺失值并沒有使用替代值對缺失值進行替換, 而是根據未缺失數據的信息采用迭代的方式進行估計(Enders &Bandalos, 2001; Graham, 2009)。

        MI假設在數據隨機缺失情況下, 用兩個或更多能反映數據本身概率分布的值來插補缺失數據。一個完整的MI包含3步:數據插補, 計算和匯總。理論上, 在插補次數無限的情況下, MI與FIML結果一致。

        兩種方法都是目前處理缺失數據最有效的方法, 但兩種方法又有著顯著的不同。首先, FIML是專門用于模型分析的參數估計方法, 嚴格意義上來說, MI是基于統(tǒng)計模型的處理過程。其次, FIML分析時并非填補缺失值, 而是根據已知信息采用迭代的方式進行估計, MI需要填補數據再進行后續(xù)分析。最后, 運用MI處理缺失數據時輔助變量的效用還沒有一致的結論, 尤其是在實際數據處理中(Mustillo, 2012)。基于以上FIML和MI特點的比較,以及本文主要研究與輔助變量相關的內容, 本研究只關注FIML處理缺失數據時輔助變量的相關問題。

        1.2 輔助變量

        輔助變量是研究者不感興趣, 但能為缺失數據建模提供有用信息的變量(Enders, 2008)。提供輔助信息的變量通常是造成數據缺失的原因變量或者與研究變量相關的變量。

        由于MAR機制包含了未觀測的數據, 因此在缺少這些未觀測數據的條件下, 無法在統(tǒng)計上對數據是否滿足MAR進行檢驗(Raykov, 2011)。為了克服這一不足, 方法學者提出使用納入輔助變量的方式來提高滿足MAR假設的可能性(Collins et al.,2001; Schafer & Graham, 2002; Yuan & Lu, 2008)。目前在FIML分析中, 最常用的納入輔助變量的方式是通過Graham (2003)提出的飽和關聯模型(saturated correlates model, SCM)。在SCM中, 通常允許輔助變量間、輔助變量與外生觀測指標以及內生觀測指標的測量誤差相關。在SCM提出之前, 運用ML處理缺失數據比較麻煩, 因此先前的研究多側重通過專門運用MI的軟件包NORM (Schafer,1999)進行缺失數據處理。采用MI處理缺失數據時,納入輔助變量很方便, 但由于插補次數所導致結果的不確定性, 人們開始尋找ML下如何處理缺失數據的方法(Graham, 2003)。采用FIML進行分析時,若要納入輔助變量, 某些潛變量建模軟件(如Mplus)會默認采用SCM (Muthén & Muthén, 1998-2010)。SCM的提出為FIML/SEM處理缺失數據提供了很大的便利, 也使得Mplus等自動采用SCM模型的軟件成為運用FIML/SEM處理實際缺失數據或模擬研究常用的軟件(Enders, 2008; 王孟成, 2014)。

        2 問題提出

        2.1 先前類似研究

        先前的模擬研究多數只考慮了輔助變量不缺失的情況(Collins et al., 2001; Graham, 2003;Mustillo, 2012)。例如, Graham (2003)的研究通過SCM對單個不缺失的輔助變量進行FIML/SEM分析。這些模擬研究均發(fā)現不缺失的輔助變量與研究變量高度相關時, 納入輔助變量能夠改善模型參數估計。Mustillo (2012)的研究在回歸模型中通過MI處理缺失值, 探究輔助變量類型、研究變量的缺失率與缺失機制的關系, 該研究發(fā)現納入輔助變量對參數估計沒有明顯的改善。然而Collins等(2001)指出, 即使納入與缺失變量無關的輔助變量, 得到最壞的結果也是中性的, 并不會惡化參數估計。而當與缺失變量相關的輔助變量被忽略時, 均值、方差、回歸估計會產生實質性的偏差。

        另外, 納入輔助變量進行缺失數據分析時, 不僅研究變量存在缺失, 輔助變量也常常存在缺失。當輔助變量也存在缺失時, 情況又會如何?為數不多的研究表明, 盡管納入有缺失的輔助變量不如納入完全的輔助變量那么有效, 但納入總比忽略它更有益(Enders, 2008; Hardt, Herke, & Leonhart, 2012;Yoo, 2009)。例如, Enders (2008)采用FIML/SEM對研究變量的缺失機制(MAR)、單輔助變量的缺失機制(MCAR, MNAR)、輔助變量的缺失率(25%、50%)、相關程度(

        r

        =0.54,

        r

        =0.90)進行考查, 結果發(fā)現即使輔助變量缺失50% (且輔助變量的缺失機制為MNAR), 納入它也有利于參數估計。雖然以上研究考慮到輔助變量有缺失的情況, 但它們主要研究輔助變量與研究變量各自的缺失率或設定輔助變量的缺失率后, 讓研究變量的缺失率依輔助變量的缺失率而定(Enders, 2008), 而兩變量各自的缺失并不等于研究樣本中兩變量共同的缺失(簡稱共缺)。

        共缺指同一個體的數據在研究變量上有缺失,在輔助變量上也有缺失, 共缺率則是共缺頻數在樣本中的比例。因此, 研究變量與輔助變量共缺時,參數估計的情況成了數據分析時的另一個問題。Von Hippel (2007)指出, 即使輔助變量與研究變量呈高相關, 當輔助變量與研究變量共缺時, 結果也得不到改善。Enders (2008)的研究無意中發(fā)現當輔助變量與研究變量的共缺率達到15%時, 結果會產生明顯的偏差。但這個問題目前并沒有得到系統(tǒng)研究。因此更多的缺失機制組合、共缺率、輔助變量數等問題需要作進一步的探討。

        2.2 本研究的目的

        通過文獻回顧不難發(fā)現, 至少還有如下4個問題亟待解決:第一, 先前研究只探討了單個輔助變量的情況。當有多個輔助變量且樣本量足夠大的時候, 以上問題會發(fā)生怎樣的變化?第二, 上述研究并沒有對無意中發(fā)現的共缺率問題做進一步的探索; 第三, 以往研究僅局限在MAR機制的研究變量與MCAR和MNAR的輔助變量, 沒有進一步探究研究變量與輔助變量其他的缺失機制組合(簡稱共缺機制); 第四, 先前的研究在參數設定時參考Collins等(2001)的模型, 該研究設定輔助變量與研究變量的相關程度過高(0.54, 0.90), 這在實際研究中并不多見。

        針對以上4點, 本研究通過蒙特卡洛模擬, 采用FIML處理結構方程建模中的缺失數據, 主要目的是探究輔助變量與研究變量的共缺機制、共缺率、相關程度、輔助變量數與樣本量這些因素對參數估計結果的影響。

        3 研究設計

        3.1 模擬研究設計

        3.1.1 研究假設模型

        本研究設定的模型參照Enders (2008)的研究,模型由兩個因子(X和Y)構成結構模型, 每個因子有3個觀測指標, 外生潛變量X對內生潛變量Y的回歸系數設為0.60。外生潛變量X的指標(x1, x2和x3)的數據不缺失, 內生潛變量Y的指標(y1, y2和y3)的數據存在缺失, 輔助變量Z是一個/組有缺失的觀測變量(具體見下一小節(jié))。

        Collins等(2001)的研究發(fā)現, 輔助變量與研究變量之間的相關系數最好能達到0.4以上, 在他們的研究中, 研究變量間還設定

        ρ

        =0.90的高度相關, 然而在實際研究中如此高的相關并不多見。因此, 在參考前人研究(Enders & Peugh, 2004; Hardt et al., 2012)的基礎上, 本研究考慮如下兩組相關水平:低相關設為

        ρ

        =0.2,

        ρ

        =0.3和中等偏高相關為

        ρ

        =0.5,

        ρ

        =0.6。所有變量服從標準正態(tài)分布,即均值為0, 方差為1, 固定因子方差為1, 因子負荷為0.70, 殘差方差為0.51。存在多個輔助變量時,綜合Hardt等(2012,

        r

        =0.1或

        r

        =0.5)與Enders和Peugh (2004,

        r

        =0.3)的研究, 本研究設定輔助變量之間的相關系數為0.4。

        參照Graham (2003)提出的飽和關聯模型, 圖1給出了單個輔助變量的飽和關聯模型(輔助變量與研究變量呈低/高相關)。

        3.1.2 缺失機制

        當研究變量的缺失機制為MNAR時, 即變量缺失發(fā)生的可能性只與自身相關時, 納入輔助變量無法改善參數估計結果(Enders, 2006; Yoo, 2009)。再者, 當研究變量與輔助變量的共缺率很大, 缺失機制都是MNAR時, 此時任何方法都難以得到無偏的估計結果, 因此本研究只考慮研究變量Y的2種缺失機制(MAR & MCAR)與輔助變量Z的3種缺失機制(MAR, MCAR, & MNAR), 共6種共缺機制組合。

        圖1 蒙特卡洛模擬所依據的模型路徑圖

        與先前類似研究一致(Enders, 2008), 本研究采用邏輯回歸生成缺失數據。具體來說, 當Y觀測變量的缺失機制為MAR時, 設定Y的缺失與輔助變量Z有關, 斜率參數為正, 即Z的值越大, Y的缺失率越大。當輔助變量Z的缺失機制為MAR時, 設定Z的缺失與X觀測變量有關, 斜率參數設為負,即X觀測變量的值越大, Z的缺失率越小。當輔助變量Z的缺失機制為MNAR時, Z的缺失與自身相關, 設定斜率參數為負, 即Z的值越大, Z的數據缺失率越小。這樣, 當共缺組合形式為MAR-MNAR時, 輔助變量可為研究變量提供更多的信息, 同時可減少研究變量與輔助變量的缺失都是由輔助變量的缺失造成的可能性。

        3.1.3 樣本量和缺失率

        表1匯總了先前相關模擬研究中, 樣本量和缺失率的設置數據。大多數研究設置的樣本量在200~500之間, 考慮到大多數心理學調查研究和FIML對樣本量的要求, 本研究的樣本量設為100、200、500和1000。表中設定的缺失率指單純研究變量的缺失率或輔助變量的缺失率。根據Enders(2008)的研究, 當研究變量與單輔助變量的共缺率達到8%時, 輔助變量的納入能使結果得到改善,所得參數估計結果偏差很小, 而當共缺率達到15%時, 參數估計偏差顯著增加。因此本研究設定輔助變量與研究變量的共缺率為5%、10%、15%和20%。

        表1 相關模擬研究設置的樣本量與缺失率參數匯總

        3.1.4 輔助變量數

        不少研究建議納入輔助變量進行缺失數據分析, 但對于納入多少個輔助變量的問題在以往的研究中并沒有專門探討。Enders (2008)主要研究一個輔助變量的情況, 本研究的模擬方法參考Enders(2008)基于FIML/SEM的研究, 并與該研究結果進行比較。另外, 綜合模擬設置的最小樣本量、最大缺失率及結構方程模型的要求, 本研究主要考察1個、3個和5個輔助變量的情況。

        3.1.5 數據生成

        本研究所有的數據生成與分析均采用Mplus 7.0 (Muthén & Muthén, 1998-2010)完成。本研究共模擬3種情況:(1) 研究變量缺失, 輔助變量不缺失, 且在建模時納入輔助變量; (2) 研究變量和輔助變量共缺, 且在建模時納入輔助變量; (3) 研究變量與輔助變量共缺, 但在建模時不納入輔助變量。第一種模擬條件由第二種模擬條件設定輔助變量不缺失得到, 其中的缺失機制組合形式實質上只是研究變量的缺失機制, 但這兩種條件下研究變量的缺失率相同。第三種模擬條件由第二種模擬條件在模型分析時, 不納入輔助變量進行分析而得到。

        每種模擬共有576種組合, 每種組合均重復5000次。后兩種模擬條件中控制的因素有:4種樣本量(100、200、500、1000)、4種共缺率(0.05、0.10、0.15、0.20)、6種共缺機制組合(MAR-MAR, MARMCAR, MAR-MNAR, MCAR-MAR, MCAR- MCAR,MCAR-MNAR)、3種輔助變量數目(1、3、5)、兩種相關程度(低相關

        ρ

        =0.2,

        ρ

        =0.3和中等偏高相關

        ρ

        =0.5,

        ρ

        =0.6)。

        3.2 結果評價標準

        采用模擬研究中常用的兩個評估標準:參數估計的偏差(e.g., Enders & Bandalos, 2001; Yoo, 2009)和覆蓋率(Coverage; Yoo, 2009)。

        比較常用的估計偏差的指標是標準偏差(Standardized Bias; Collins et al., 2001; Enders &Gottschall, 2011), 標準偏差=(平均估計值?理論值)/平均標準誤(以示區(qū)分, 記為偏差)。如果偏差等于–0.5, 意味著該平均估計值處于理論值–0.5個標準誤的位置。Collins等(2001)指出偏差小于0.4為無偏估計, 后來的研究也采用此標準(Enders& Gottschall, 2011)。但有研究質疑以0.4作為判斷標準的適切性(Graham, 2009), 因此當偏差出現的情況較多時, 本研究同時采用偏差(Bias)作為結果評價指標。

        蒙特卡洛模擬中, 偏差可通過以下公式得到:

        另外, 在模擬研究中, 覆蓋率表示每次重復模擬計算所得結果等于/接近真值的比例, 類似于參數區(qū)間估計(頻率論)的置信區(qū)間:區(qū)間包含的真值。但這里的置信區(qū)間所允許的犯錯誤的概率(即顯著性水平)不是固定的, 顯著性水平=1?覆蓋率。所以,當覆蓋率為0.95時, 意味著在抽樣1000次(模擬計算)得到的結果所組成的區(qū)間中, 有950次得到的估計值在總的區(qū)間中包含了真值, 此時犯錯誤的概率為0.05。前人的研究認為覆蓋率小于0.90是不可接受的(Collins et al., 2001; Enders & Peugh, 2004),本研究也采用0.90的標準。

        4 結果

        綜合前人研究考慮的需要模型估計的參數(Collins et al., 2001; Enders, 2008), 本研究主要考慮因子負荷和回歸系數的估計值。其中因子負荷的結果(偏差與覆蓋率)由對應結果求平均數得到(即條目因子負荷之和除以條目個數)。由于版面限制本研究只呈現了部分結果(

        n

        =500), 更多的結果(其他樣本量與偏差的結果)可與作者聯系獲得。

        4.1 輔助變量不缺失

        建模時納入不缺失的輔助變量, 估計結果的偏差和覆蓋率都在可接受范圍??偟膩碚f, 樣本量越大, 因子負荷和回歸系數的偏差值越小。對于小樣本(

        n

        =100), 輔助變量越多, 回歸系數的偏差越大。對于回歸系數的參數估計而言, 隨著樣本量的增大,納入單個輔助變量依然是有益的。另外, 輔助變量越多(

        n

        =100除外), X因子負荷的偏差越小。在此模擬的各種條件下, 覆蓋率均達標且變化不大。

        4.2 輔助與研究變量共缺:建模時納入輔助變量

        在此條件下, 只有回歸系數的參數估計產生偏差, 其他參數均無偏。對于回歸系數的結果,“MCAR-”組合形式的參數估計結果都無偏。偏差多出現在“MAR-”組合形式中, 且樣本量越大, 出現偏差的情況越多。相關越高, 越容易出現偏差。

        在此模擬條件下, X、Y因子負荷的覆蓋率都在可接受范圍內。在高相關、MAR-MAR組合條件下,納入5個輔助變量時, X因子負荷的覆蓋率比其他輔助變量數目條件下的稍高(差異在0.01~0.02之間), 然而Y因子負荷沒有呈現此特點。同樣條件下, 回歸系數的覆蓋率更容易出現不可接受的結果(低相關條件下的結果幾乎全無偏), 有偏的結果全部出現在“MAR-”組合上(

        n

        =100無偏)。與Enders(2008)結果一致的是, 當

        n

        =500且研究變量的缺失機制為MAR時, MAR-MCAR組合似乎比MARMNAR組合出現偏差的情況更多(見表2)。而且在MAR-MCAR組合上, 當共缺率達到15%時, 單輔助變量的情況下出現明顯的偏差, 這也是為什么Enders (2008)的研究發(fā)現影響參數估計結果的因素主要是輔助與研究變量的共同缺失模式(共缺率),而不是缺失機制。

        表2 輔助變量與研究變量共缺且納入輔助變量時回歸系數的估計偏差S.E(n=500, 中等偏高相關)

        4.3 輔助與研究變量共缺:建模時不納入輔助變量

        在此模擬條件下, 大多數共缺機制組合下的結果都出現嚴重的偏差, 且高相關或輔助變量數多的條件下更容易出現偏差, 偏差與覆蓋率的結果呈現一致的規(guī)律。但是Y因子負荷的偏差都在接受范圍內, 且隨著樣本量的增大, 可接受的偏差值減小。另外, 即使是MCAR的研究變量, 估計結果也會出現偏差。與前一種模擬情況類似, 偏差多出現在“-MAR”、“-MCAR”組合上, “-MNAR”組合較少出現偏差(見表3)。

        4.4 不同模擬條件間的比較

        由于第一種模擬條件由第二種模擬條件設定輔助變量不缺失得到, 即兩種條件下的研究變量的缺失率、缺失機制等是相同的, 通過比較這兩種模擬條件下的結果發(fā)現, 輔助變量有缺失比不缺失時產生嚴重偏差的可能性更大。

        相對于第二種模擬的條件, 在第三種模擬條件下, 偏差主要出現在X因子負荷和回歸系數上。通過相關程度、輔助變量數、樣本量的比較, 發(fā)現偏差主要出現在中等偏高相關條件下; 且輔助變量越多, 出現偏差的情況越多; 樣本量越大, 出現偏差的情況也越多。通過比較高相關條件下X因子負荷偏差的結果, 發(fā)現在不納入輔助變量的條件下,MAR-MCAR, MCAR-MAR和MCAR-MCAR這3種組合的結果都出現偏差。納入輔助變量之后, 結果得到明顯的改善, 尤其是“MCAR-”組合, 估計結果的偏差全部都在可接受范圍內。

        通過比較第二種模擬和第三種模擬回歸系數的結果(見表4), 發(fā)現在不納入輔助變量時, 所有缺失機制的組合結果都出現偏差。其中, 在“MAR-”組合形式的MAR-MAR出現偏差數量最少; 在“MCAR-”組合形式中的MCAR-MNAR出現偏差數量最少。隨著樣本量的增大, 出現偏差的數量增多。納入輔助變量之后, “MCAR-”組合結果全部在可接受范圍內?!癕AR-”組合的結果在小樣本的條件下無偏, 大樣本時依然出現偏差, 但有偏的結果得到明顯的改善。納入輔助變量之后, 即使輔助變量與研究變量呈低相關, 因子負荷和回歸系數的估計同樣得到了改善, 可接受的偏差值變小。

        5 討論與結論

        Enders (2008)的研究主要考慮輔助變量的缺失率、缺失機制對參數估計的影響。本研究在Enders(2008)的基礎上, 進一步考查輔助變量與研究變量的共缺率、共缺機制、相關程度、輔助變量數目及樣本量對參數估計結果的影響。

        5.1 缺失機制的影響

        當輔助變量與研究變量共缺時, 相對于MNAR的輔助變量, MCAR的輔助變量更容易出現參數估計偏差。這說明, 即使輔助變量的缺失機制為MNAR, 納入模型進行分析也有利于改善參數估計(Enders, 2008)。Enders (2008)指出由于MCAR輔助變量的無方向性或不確定性, 增大了輔助變量的缺失機制與研究變量的缺失機制是由共同因素造成的可能性, 而MNAR輔助變量與研究變量的缺失機制能夠重合的機會較少。所以當輔助與研究變量共缺時, 如果采用納入輔助變量的方法進行缺失數據分析, 不能因為輔助變量的缺失機制為MNAR而有過多的顧慮, 因為共缺組合機制為MARMNAR或MCAR-MNAR所得到的結果比MARMCAR或MCAR-MCAR要好。另外, 盡管MAR與MCAR都是可忽略缺失, 但MCAR的假設更加嚴格(Rubin, 1976)。因此, 在輔助變量與研究變量呈中等偏高相關, 納入輔助變量時, 研究變量的缺失機制為MAR較MCAR更容易出現偏差。

        表3 輔助變量與研究變量共缺但不納入輔助變量時X因子負荷的估計偏差S.E(中等偏高相關)

        表4 輔助變量與研究變量共缺時納入與不納入輔助變量時回歸系數的估計偏差S.E比較(n=500, 中等偏高相關)

        最后, 需要考慮的一個重要問題是如何判斷實際數據的缺失機制是否滿足模擬設計下的共缺機制情況, 這涉及到缺失數據機制的檢驗問題。關于這個問題一直都是這個領域研究的難點, 目前對其的研究也不多(孫婕, 金勇進, 戴明鋒, 2013)。盡管我們在本研究中設計了幾種缺失值機制的組合, 但是并未涉及如何判斷實際研究中如何檢驗其機制的問題, 我們也沒有打算這么做, 因為這個問題超出了本研究的范圍。但是, 了解數據缺失的可能原因是必要的, 可以根據經驗猜想缺失的可能性, 并通過事后調查或根據已收集到的基本信息進行判斷。

        5.2 相關程度的影響

        本研究發(fā)現, 當輔助變量與研究變量的相關只有0.2~0.3時, 納入輔助變量也有利于得到無偏估計。這一發(fā)現與先前的研究結果不同, Hardt等(2012)發(fā)現相關太低時(

        r

        =0.1與

        r

        =0.5)輔助變量作用不大。Enders和Peugh (2004;

        r

        =0.1與

        r

        =0.3)也得到類似的結論。因為輔助變量與研究變量的相關越高,輔助變量能為研究變量提供的信息越多(Collins et al., 2001; Yoo, 2009)。然而, 這可能是由于他們設定的相關太低(

        r

        =0.1), 導致輔助變量的改善情況不明顯。而且, Enders (2008)指出當輔助變量也存在缺失時, 相對于輔助變量與研究變量高相關條件下的估計結果, 中等相關條件下的估計結果更接近于參數或輔助變量完全時的結果。因此, 根據本研究結果,當輔助變量與研究變量的相關達到0.2~0.3時, 即可考慮納入該輔助變量, 尤其是當共缺組合機制為MAR-MCAR時。

        本模擬結果還發(fā)現, 在輔助變量不缺失的情況下, 相關程度對研究結果影響不大, 這可能與研究變量的缺失率較低、相關較低有關(Collins et al.,2001)。

        5.3 輔助變量的數目

        過往的研究發(fā)現納入輔助變量對缺失數據建模是有益的(e.g., Collins et al., 2001; Enders, 2008),本研究也支持這一結論。但是, 很少有研究探討納入輔助變量的數目對參數估計的影響, 本研究對此問題做了有益的嘗試。本研究發(fā)現, 當輔助變量與研究變量存在共缺時, 對于MAR-MAR組合機制,納入單個輔助變量是有益的; 對于MAR-MCAR或MAR-MNAR組合機制, 納入多于一個輔助變量的效果更好。

        5.4 樣本量的影響

        在輔助變量不缺失的情況下, 樣本量越大, 結果越好。當不納入輔助變量進行分析時, 樣本量越大, 出現偏差的情況越多。另外, 根據Muthén和Muthén (2002)的觀點, 在輔助變量對參數估計的影響中, 樣本量并非獨自起作用, 它還受到變量間的缺失率、缺失機制等因素的影響。結合本研究的結果, 對于回歸系數偏差的參數估計(偏差、偏差), 當輔助與研究變量呈低相關, 共缺率為0.20, 輔助變量數為3個的時候, 如果樣本量為200或500, 在“MCAR-”組合機制條件下得到的偏差值最大; 而當樣本量為1000時, 在“MCAR-”組合機制條件下得到的偏差值最小。控制相關程度、共缺率、輔助變量數不變的情況下, 結果表明“MCAR-”組合機制條件下得到的偏差值隨著樣本量的增大而減小。對于Y因子負荷偏差的參數估計(偏差、偏差), 相同條件下, 如果樣本量為100、500或1000, 在“MCAR-”組合機制條件下得到的偏差值最小??刂葡嚓P程度、共缺率、輔助變量數不變的情況下, 結果表明“MCAR-”組合機制條件下得到的偏差值隨著樣本量的增大而減小。

        5.5 共缺率的影響

        本模擬結果僅發(fā)現納入不缺失的輔助變量時,相同樣本量的情況下, 共缺率越大, Y因子負荷的偏差越大, 其他條件下共缺率的影響并不明顯。本研究通過觀察所有變量的缺失模式, 計算輔助變量與研究變量共同缺失的比例, 從而得到共缺率。因此, 可能出現如下的情況:輔助變量越多, 每個輔助變量與研究變量的平均共缺率越低, 以至于共缺率對參數估計的影響差別不大。奇怪的是, 在大樣本量(

        n

        =500 或1000)、MAR-MAR組合機制條件下, 隨著共缺率的增大, 單個輔助變量時的參數估計的偏差總體呈增大的趨勢, 但并非與共缺率同步增大。因此, 缺失數據研究中, 缺失率的影響有待進一步的研究。

        5.6 不足與展望

        本研究也存在一些不足:第一, 本研究設定的共缺率較低, 這影響了共缺率對輔助變量作用的研究。以后的研究可以考慮模擬更高的共缺率, 以考察共缺率與共缺機制對輔助變量作用的影響。當然共缺率很高的情況在實踐中并不常見, 因此本研究設置的共缺率更具有實踐指導意義。第二, 雖然本模擬研究表明輔助變量與研究變量存在共缺時, 樣本量并非越大越好, 但對于多大的樣本量是合適的,本研究并不能提供明確的參考。第三, 本研究主要模擬結構方程模型下輔助變量的效用, 對于結果能否推廣到其他模型仍有待進一步的研究。另外, 本研究模擬的數據服從正態(tài)分布, 而實際研究中數據滿足正態(tài)性的情況相對較少, 以后的研究可以考慮數據非正態(tài)的情況。總之, 本研究在前人研究的基礎上對缺失值建模進行了更深入的分析, 當然缺失值建模領域尚存很多問題需要探索。

        致謝

        :作者非常感謝美國亞利桑那州立大學的Craig Enders博士在研究設計和數據模擬過程中給予的指導和幫助。作者同時感謝審稿專家在本文審稿過程中給予的指導和建議。Arbuckle, J. L. (1996). Full information estimation in the presence of incomplete data.

        Advanced Structural Equation Modeling: Issues and Technique

        s,

        3

        , 243–277.Collins, L. M., Schafer, J. L., & Kam, C. M. (2001). A comparison of inclusive and restrictive strategies in modern missing data procedures.

        Psychological Methods, 6

        , 330–351.Enders, C. K. (2006). Analyzing structural equation models with missing data. In G. Hancock & R. Mueller (Eds.),

        Structural Equation Modeling: A Second Course

        (pp. 313–342). Greenwich, CT: Information Age.Enders, C. K. (2008). A note on the use of missing auxiliary variables in full information maximum likelihood-based structural equation models.

        Structural Equation Modeling,15

        , 434–448.Enders, C. K., & Bandalos, D. L. (2001). The relative performance of full information maximum likelihood estimation for missing data in structural equation models.

        Structural Equation Modeling, 8

        , 430–457.Enders, C. K., & Gottschall, A. C. (2011). Multiple imputation strategies for multiple group structural equation models.

        Structural Equation Modeling, 18

        , 35–54.Enders, C. K., & Peugh, J. L. (2004). Using an EM covariance matrix to estimate structural equation models with missing data: Choosing an adjusted sample size to improve the accuracy of inferences.

        Structural Equation Modeling, 11

        ,1–19.Graham, J. W. (2003). Adding missing-data-relevant variables to FIML-based structural equation models.

        Structural Equation Modeling, 10

        , 80–100.Graham, J. W. (2009). Missing data analysis: Making it work in the real world.

        Annual Review of Psychology, 60

        , 549–576.Hardt, J., Herke, M., & Leonhart, R. (2012). Auxiliary variables in multiple imputation in regression with missing X: A warning against including too many in small sample research.

        BMC Medical Research Methodology, 12

        , 184–196.Kidger, J., Heron, J., Leon, D. A., Tilling, K., Lewis, G., &Gunnell, D. (2015). Self-reported school experience as a predictor of self-harm during adolescence: A prospective cohort study in the South West of England (ALSPAC).

        Journal of Affective Disorders, 173

        , 163–169.Mustillo, S. (2012). The effects of auxiliary variables on coefficient bias and efficiency in multiple imputation.

        Sociological Methods & Research, 41

        , 335–361.Muthén, B., Kaplan, D., & Hollis, M. (1987). On structural equation modeling with data that are not missing completely at random.

        Psychometrika, 52

        , 431–462.Muthén, L. K., & Muthén, B. O. (1998–2010).

        Mplus user’s guide

        (6th ed.). Los Angeles: Muthén & Muthén.Muthén, L. K., & Muthén, B. O. (2002). How to use a Monte Carlo study to decide on sample size and determine power.

        Structural Equation Modeling, 9

        , 599–620.Newman, D. A. (2003). Longitudinal modeling with randomly and systematically missing data: A simulation of ad hoc,maximum likelihood, and multiple imputation techniques.

        Organizational Research Methods, 6

        , 328–362.Raykov, T. (2011). On testability of missing data mechanisms in incomplete data sets.

        Structural Equation Modeling, 18

        ,419–429.Rubin, D. B. (1976). Inference and missing data.

        Biometrika,63

        , 581–592.

        Schafer, J. L. (1999). NORM: Multiple imputation of incomplete multivariate data under a normal model [Computer software]. University Park: Pennsylvania State University,Department of Statistics.

        Schafer, J. L., & Graham, J. W. (2002). Missing data: Our view of the state of the art.

        Psychological Methods, 7

        ,147–177.Sun, J., Jin, Y. J., & Dai, M. F. (2013). Discussion on testing the mechanism of missing data.

        Mathematics in Practice and Theory, 43

        , 166–173.[孫婕, 金勇進, 戴明鋒. (2013). 關于數據缺失機制的檢驗方法探討.

        數學的實踐與認識,

        43, 166–173.]Von Hippel, P. T. (2007). Regression with missing Ys: An improved strategy for analyzing multiply imputed data.

        Sociological Methodology, 37

        , 83–117.Wang, M. C. (2014).

        Latent variable modeling with Mplus

        .Chongqing, China: Chongqing University Press.[王孟成. (2014).

        潛變量建模與Mplus應用

        . 重慶: 重慶大學出版社.]Wang, M. C., & Ye, H. S. (2014). Planned missing data design:Through intended missing data make research more effective.

        Advances in Psychological Science, 22

        , 1025– 1035.[王孟成, 葉浩生. (2014). 計劃缺失設計——通過有意缺失讓研究更高效.

        心理科學進展, 22

        , 1025–1035.]Yoo, J. E. (2009). The effect of auxiliary variables and multiple imputation on parameter estimation in confirmatory factor analysis.

        Educational and Psychological Measurement, 69

        ,929–947.Yuan, K. H., & Lu, L. (2008). SEM with missing data and unknown population distributions using two-stage ML:Theory and its application.

        Multivariate Behavioral Research,43

        , 621–652.Yuan, K.-H., Yang-Wallentin, F., & Bentler, P. M. (2012). ML versus MI for missing data with violation of distribution conditions.

        Sociological Methods & Research, 41

        , 598–629.

        猜你喜歡
        樣本量參數估計偏差
        基于新型DFrFT的LFM信號參數估計算法
        醫(yī)學研究中樣本量的選擇
        如何走出文章立意偏差的誤區(qū)
        學生天地(2020年6期)2020-08-25 09:10:50
        兩矩形上的全偏差
        航空裝備測試性試驗樣本量確定方法
        測控技術(2018年4期)2018-11-25 09:46:52
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        Logistic回歸模型的幾乎無偏兩參數估計
        基于向前方程的平穩(wěn)分布參數估計
        基于競爭失效數據的Lindley分布參數估計
        關于均數與偏差
        乱色视频中文字幕在线看| 轻点好疼好大好爽视频| 亚洲av无码国产精品色| 国产真实强被迫伦姧女在线观看| 岛国AV一区二区三区在线观看| 日本一区二区三区啪啪| 亚洲天堂一区二区三区视频| av素人中文字幕在线观看| 亚洲女初尝黑人巨高清| 国产精品理人伦国色天香一区二区| 亚洲一区二区三区在线观看| 中文字幕乱码人妻在线| 亚洲一区二区三区日本久久九| 99精品人妻无码专区在线视频区| 国内露脸中年夫妇交换| 亚洲高清在线观看免费视频| 华人在线视频精品在线| 97在线观看播放| 精品国产福利在线观看网址2022| 国产精品三级自产拍av| 男女边摸边吃奶边做视频韩国| 亚洲第一se情网站| 国内久久婷婷精品人双人| 女同在线视频一区二区| 人妻激情偷乱视频一区二区三区| 久久中文精品无码中文字幕| 亚洲a∨好看av高清在线观看| 一区二区三区蜜桃av| 97久久超碰国产精品旧版| 青春草国产视频| 人妻秘书被社长浓厚接吻| 精品国品一二三产品区别在线观看| 蜜桃臀无码内射一区二区三区| 精品国产福利久久久| 精品亚洲国产亚洲国产| 中文字幕日韩欧美一区二区三区 | 国产精品自在线拍国产手机版| 亚洲不卡无码高清视频| 麻豆精品国产免费av影片| 99久久国产精品网站| 国产精品久久久久久52avav|