王 凱 陳方堯 譚 銘 陳平雁△
【提 要】 目的 建立一種新的用于評價結構方程模型(SEM)擬合效果的方法—校正擬合指數(shù)(CGFI)。方法 在已有擬合指數(shù)(GFI)方法的基礎上,通過增加1/(N-1)項校正樣本量導致的低估效應,通過自由度與變量個數(shù)的比值項對模型的復雜程度進行懲罰,構建了CGFI,表達為:CGFI=1-[dftest/k(k+1)][1-GFI-1/(N-1)]?;陬A設的SEM,采用Monte Carlo技術模擬產生數(shù)據,考慮樣本量、參數(shù)估計方法、模型誤設類型及誤設程度四種因素,將所提出的CGFI與其他3種擬合指數(shù)(GFI,AGFI,PGFI)進行比較。評價標準基于穩(wěn)健性和對模型誤設的敏感性。結果 CGFI較GFI有一定改善效果,受樣本量的影響更小,對模型誤設更為敏感;GFI和AGFI受樣本量的影響較大,在樣本量較小時存在一定低估。PGFI對模型誤設不敏感,且存在較為嚴重低估。GLS參數(shù)估計方法在模型嚴重誤設時容易得到反常的結果。結論 CGFI較GFI有較好的表現(xiàn),臨界值為0.95,可用于模型擬合效果的評價。
結構方程模型(structural equation modeling,SEM)擬合效果的評價有大量研究[1-5]。一般認為,一個良好的評價指數(shù)應該具備以下特性:①對各類型模型誤設(指模型參數(shù)的錯誤設定,如當總體參數(shù)非零時將其設定為零等)敏感;②不受樣本量、數(shù)據分布形態(tài)和參數(shù)估計方法的影響;③對參數(shù)過多的模型進行懲罰[6-7]。
Joreskog和Sorbom[8]提出了擬合指數(shù)(goodness-of-fit index,GFI)方法,其思想是度量樣本協(xié)方差陣和理論模型協(xié)方差陣之間接近的程度;GFI值越大擬合效果越好。GFI雖然是最常用的指標,但對其卻褒貶不一。Bollen和Stine[9]發(fā)現(xiàn),當模型嚴重誤設時會出現(xiàn)GFI值較大的矛盾結論;Gerbing[10]和Marsh[11]指出,GFI和樣本量之間存在較大的正向相關關系,并在樣本量有限時存在一定的低估。而Tanaka[12]和Sugawara[13]認為GFI不受樣本量和參數(shù)估計方法的影響。針對GFI可能存在的問題,Joreskog[8]和Mulaik[14]先后提出對自由度和待估參數(shù)進行懲罰的調整GFI(adjusted-goodness-of-fit index,AGFI)和無偏GFI(parsimony unbiased goodness-of-fit index,PGFI),理論認為這兩種指數(shù)較GFI有更好的性能,但尚缺乏研究證據的支持。
鑒于GFI一類指數(shù)的不足,本研究將在GFI方法的基礎上提出一種新的校正GFI(corrected goodness-of-fit index,CGFI)方法,以期較目前的GFI一類指數(shù)有更好的統(tǒng)計性能。
GFI一類指數(shù)包括GFI,AGFI和PGFI,其定義和特性見表1。
表1 三種擬合指數(shù)的定義和特性
*:S-樣本的協(xié)方差陣,Σ-估計的理論模型協(xié)方差陣,I-單位矩陣,dftest-理論模型的自由度,P-觀測變量的個數(shù)。
(1)
采用Monte Carlo技術,對研究提出的CGFI方法與其他GFI一類方法進行模擬比較。構建的理論模型見圖1,包含4個潛變量,每個潛變量包括5個觀測變量。
圖1 理論模型圖
本研究考慮兩種模型誤設類型:測量模型誤設和結構模型誤設(見表2)。
①測量模型的輕度誤設為,將觀測變量X5誤設為潛變量FB的條目;重度誤設為,將觀測變量X5誤設為潛變量FB的條目,觀測變量X7誤設為潛變量FA的條目。
②結構模型的輕度誤設為,將FA和FB之間的協(xié)方差誤設為0,F(xiàn)A和FC之間的回歸系數(shù)誤設為0;重度誤設為,將FA和FB之間的協(xié)方差和所有的回歸系數(shù)誤設為0。
表2 模型設定情況
樣本量設定為150,200,300,400,500,600,800,1000,1500,2000,5000共11種;參數(shù)估計方法為最大似然估計(ML)和廣義最小二乘(GLS)2種。觀測值服從正態(tài)分布。模擬次數(shù)設定為1000次。
模擬研究通過SAS(v.9.4;SAS Institute Inc,Cary,NC)實現(xiàn)。模擬數(shù)據通過SAS PROC IML產生,結構方程建模由SAS MACRO和SAS PROC CALIS完成[16],所得結果進行基本描述分析和析因設計的方差分析,統(tǒng)計檢驗水準α為0.05(雙側)。
模擬研究中,迭代次數(shù)設置為1,000,000次,以避免迭代不收斂。本研究的后續(xù)分析是基于全數(shù)據集下的結果。負方差的情況見表3。結果顯示,負方差的情況只在GLS方法下出現(xiàn),測量模型誤設更容易導致負方差的結果;同時模型誤設程度越大,出現(xiàn)負方差的比例也越大。
表3 負方差的基本情況(GLS方法)
*:N var-負方差,P var-正方差,ML方法下沒有出現(xiàn)負方差的情況,因此不在表中給出。
對模擬數(shù)據進行析因設計的方差分析,考慮的因素為樣本量、參數(shù)估計方法、模型誤設類型及誤設程度,通過分析每個因素的方差占總方差的比例,即方差貢獻率[2,16-19],來量化評價各因素對擬合指數(shù)的影響大小。兩種模型誤設類型下各因素對擬合指數(shù)的方差貢獻率結果見表4。
(2)
*:Misspecification(M)-模型誤設程度,Sample Size(SS)-樣本量,Estimation Method(EM)-參數(shù)估計方法。
如表4所示,測量模型誤設下,GFI、AGFI、PGFI三種指數(shù)有一致的結果,受樣本量的影響為0.520,對模型誤設的敏感性為0.272;CGFI與其他三種指數(shù)比較,受樣本量的影響有一定的降低(0.484),對模型誤設的敏感性也有部分提高(0.293)。結構模型誤設下,不管是從樣本量(0.221 vs 0.257)還是模型誤設敏感性(0.471 vs 0.445)角度,CGFI都較GFI有一定的改善;AGFI和GFI有相似的結果,而PGFI較GFI來說,受樣本量的影響更大(0.331 vs 0.257),對模型誤設較不敏感(0.273 vs 0.445),表現(xiàn)出較差的效果。
(1)真模型下擬合指數(shù)的變化趨勢
圖2顯示,在真模型情況下四種指數(shù)分別采用ML和GLS方法時隨樣本量變化的趨勢。采用ML方法,GFI和AGFI在樣本量小于300時存在明顯低估,并較大程度上受樣本量的影響;當樣本量逐漸增大時,這一現(xiàn)象逐漸消失,并趨近于理論真值。PGFI在所有樣本量情況下都存在較嚴重的低估。相對而言,CGFI在樣本量小于300時僅存在輕微低估,受樣本量的影響也較小,說明CGFI優(yōu)于GFI。
采用GLS方法的結果基本與ML方法一致。對比兩種參數(shù)估計方法下的結果來看,真模型下四種擬合指數(shù)基本不受參數(shù)估計方法的影響,表現(xiàn)出較為穩(wěn)健的結果。
圖2 真模型下四種擬合指數(shù)在不同參數(shù)估計方法下隨樣本量變化的趨勢
(2)測量模型誤設下擬合指數(shù)的變化趨勢
圖3顯示,在測量模型輕度誤設情況下四種指數(shù)分別采用ML和GLS方法時隨樣本量變化的趨勢。采用ML方法時,GFI和AGFI受樣本量的影響較為明顯,且在樣本量小于300時存在一定低估,PGFI則存在明顯低估。相比而言,CGFI受樣本量的影響較小,在樣本量小于300時有輕微低估。GLS方法的結果也基本一致。綜合兩種參數(shù)估計方法的結果看,CGFI的臨界值應高于常規(guī)臨界值0.90,初步確定為0.95。
圖3 測量模型輕度誤設下四種擬合指數(shù)在不同參數(shù)估計方法下隨樣本量變化的趨勢
圖4顯示,測量模型重度誤設情況下四種指數(shù)分別采用ML和GLS方法時隨樣本量變化的趨勢。采用ML方法,結論基本和測量模型輕度誤設下一致,CGFI基本在假定的臨界值0.95下方,說明這一假定尚且合理。當采用GLS方法時,GFI、AGFI和CGFI的結果都高于臨界值,得出矛盾結論,說明在測量模型重度誤設情況下,GLS方法得到的四種擬合指數(shù)值不能合理的反映模型擬合效果。
圖4 測量模型重度誤設下四種擬合指數(shù)在不同參數(shù)估計方法下隨樣本量變化的趨勢
(3)結構模型誤設下擬合指數(shù)的變化趨勢
圖5顯示,結構模型輕度誤設下四種指數(shù)采用ML和GLS方法時隨樣本量變化的趨勢。兩種參數(shù)估計方法的結果和測量模型輕度誤設下的情況基本一致,CGFI受樣本量的影響較小,且均在假定的臨界值0.95之上。
圖6顯示,結構模型重度誤設情況下四種指數(shù)分別采用ML和GLS方法時隨樣本量變化的趨勢。兩種參數(shù)估計方法的結果和測量模型重度誤設下的情況基本一致,CGFI均在假定的臨界值0.95之下,GLS方法的結果同樣出現(xiàn)反常情況,不能合理反映模型擬合效果。
圖5 結構模型輕度誤設下四種擬合指數(shù)在不同參數(shù)估計方法下隨樣本量變化的趨勢
圖6 結構模型重度誤設下四種擬合指數(shù)在不同參數(shù)估計方法下隨樣本量變化的趨勢
本研究在GFI方法基礎上構建了CGFI,基于的思想是通過校正樣本量糾正低估效應,通過調整自由度及待估參數(shù)對復雜模型進行懲罰。
復雜程度會影響到研究結果的穩(wěn)健性[15,20],研究指出,當SEM包含2~6個潛變量,每個潛變量包含2~6個觀測變量時,所得結果相對穩(wěn)健[9,20]。因此,我們在模擬研究中構建的理論模型包含4個潛變量,每個潛變量包括5個觀測變量,此設定與實際情況較為接近,模擬所得結論更具一般性。
在模型誤設方面,雖然有學者提出檢驗效能可以較為精確地量化模型誤設的程度,但該方法受樣本量的影響較大,將其作為量化指標并不科學[1,17]。因此,本研究從定性角度考慮兩種誤設程度,即輕度誤設和重度誤設[17-20],并盡量保持兩種測量模型和結構模型的誤設程度相當,確保研究結論的可靠[18-19]。
有研究指出,數(shù)據的正態(tài)性對擬合指數(shù)的影響較小[3,18],故本研究的模擬數(shù)據基于正態(tài)分布條件下產生,未考慮其他分布類型。
由于負方差問題(亦稱Heywood問題[21-22])不可避免,我們比較了包含和不包含負方差的分析結果,發(fā)現(xiàn)兩者差異不大,可以忽略。出現(xiàn)負方差的主要原因之一是模型誤設,負方差率越大,說明模型誤設越嚴重。此外,測量模型更容易發(fā)生負方差問題,模擬結果與已有研究結果一致[16,21]。
GFI和AGFI受樣本量的影響較大,尤其是在樣本量小于300時,還存在一定低估,這一結論與Gerbing[10]和Marsh[11]的結果一致。由于GFI和AGFI利用到樣本的協(xié)方差陣信息,而協(xié)方差陣在樣本量較小時不夠穩(wěn)定,但隨著樣本量的增大會漸趨穩(wěn)定。CGFI是在GFI的基礎上對樣本量和模型復雜程度進行了校正,與其他三種指數(shù)比較,CGFI受樣本量的影響有所降低,對模型誤設的敏感性也有所提高。
根據模擬結果,CGFI的臨界值確定為0.95,因為該臨界值在不同樣本量、不同參數(shù)估計方法、不同模型誤設類型及誤設程度時所表現(xiàn)的穩(wěn)定性。PGFI雖然也是在GFI的基礎上對模型復雜程度進行了校正,但從結果看,該指數(shù)受樣本量的影響較為嚴重,且在不同模型情況下,均存在較嚴重的低估。因此,使用該指數(shù)應謹慎。在模型誤設嚴重的情況下,GLS方法容易導致四種擬合指數(shù)值出現(xiàn)矛盾現(xiàn)象,這和Bollen和 Stine[9]的研究相吻合。
本研究雖然發(fā)現(xiàn)CGFI優(yōu)于其他三種指數(shù),但是并未將CGFI和RMSEA等其他常用指數(shù)進行比較研究;同時,結構方程模型復雜多樣,本研究尚未考慮每個潛變量下觀測變量數(shù)目及因子載荷大小的影響,因此本研究結論具有一定的局限性。
GFI和AGFI在樣本量較小時存在低估,PGFI對模型誤設不敏感,且存在較為嚴重的低估。我們提出的CGFI方法比現(xiàn)有方法GFI、AGFI和PGFI均有較好的性能,可用于結構方程模型擬合效果的評價,應用時推薦臨界值為0.95。