章剛勇(1.北京大學(xué)光華管理學(xué)院,北京100871;2.南昌大學(xué)經(jīng)濟(jì)管理學(xué)院,江西南昌330031)
?
結(jié)構(gòu)方程模型應(yīng)用:錯(cuò)誤設(shè)定與估計(jì)程序
章剛勇1,2
(1.北京大學(xué)光華管理學(xué)院,北京100871;2.南昌大學(xué)經(jīng)濟(jì)管理學(xué)院,江西南昌330031)
摘要:結(jié)構(gòu)方程模型雖已被廣泛應(yīng)用于社會(huì)科學(xué)實(shí)證研究,但其方法本身仍處于發(fā)展過程中。因PLSSEM估計(jì)程序被認(rèn)為具有較好的“普適性”而逐漸流行于市場研究中,在關(guān)注結(jié)構(gòu)方程模型應(yīng)用的幾個(gè)重要問題的基礎(chǔ)上,比較了CB-SEM與PLS-SEM兩類估計(jì)程序的主要差別;以Wheaton等人研究使用的模型為正確模型,設(shè)計(jì)了三種模型設(shè)定,又在隨機(jī)模擬的基礎(chǔ)上,討論了在兩類估計(jì)程序下擬合指標(biāo)和估計(jì)系數(shù)對(duì)模型結(jié)構(gòu)變化的不同反應(yīng),并給出一定的相關(guān)建議。
關(guān)鍵詞:模型設(shè)定;偏最小二乘估計(jì);基于協(xié)方差矩陣估計(jì);隨機(jī)模擬
結(jié)構(gòu)方程模型對(duì)隱變量使用多重指標(biāo)反映,可緩解與評(píng)價(jià)變量測度誤差,也可驗(yàn)證理論框架所設(shè)定的多個(gè)因素以直接或間接路徑相互影響的復(fù)雜層級(jí)關(guān)系,因此已成為社會(huì)科學(xué)研究中用于探索隱變量之間因果關(guān)系的一種擬標(biāo)準(zhǔn)工具[1]。結(jié)構(gòu)方程模型估計(jì)程序一般可分為兩類:一類是基于協(xié)方差矩陣估計(jì)的結(jié)構(gòu)方程模型估計(jì)程序(Covariance Based-Structure E-quations Modeling,CB-SEM)[2];另一類是基于方差估計(jì)的偏最小二乘結(jié)構(gòu)方程模型估計(jì)程序(Partial Least Squares-Structure Equations Modeling,PLS -SEM)[3]581-519。LISREL,AMOS,SPSS,SAS和R等多種軟件工具可應(yīng)用于結(jié)構(gòu)方程建模,最初研究者一般使用CB-SEM估計(jì)程序,近年來PLS-SEM估計(jì)程序逐漸開始流行,尤其被應(yīng)用于市場研究中[4]。多數(shù)研究者偏向于把PLS-SEM當(dāng)作是CB-SEM的一種備選方法,認(rèn)為兩者之間的關(guān)系并非對(duì)立而是并存或互補(bǔ)。當(dāng)研究目的為理論驗(yàn)證、顯變量為反映式變量、樣本數(shù)據(jù)符合CB-SEM假定時(shí),應(yīng)該選用CB-SEM估計(jì)程序;但如果研究目的是預(yù)測或探索性分析、顯變量為構(gòu)成式或混合式,尤其當(dāng)數(shù)據(jù)不符合CBSEM模型假定時(shí),則應(yīng)選用PLS-SEM估計(jì)程序。部分研究者認(rèn)為PLS-SEM估計(jì)程序優(yōu)于CB-SEM[5],與CB-SEM相比較,PLS-SEM估計(jì)程序?qū)δP徒Y(jié)構(gòu)、模型可識(shí)別性、樣本容量、數(shù)據(jù)形態(tài)無特別要求,且是一種偏誤較小的、精度較高的穩(wěn)健估計(jì)方法,甚至被認(rèn)為是解決因果關(guān)系估計(jì)的一種具有“普適性”的方法[6]。
社會(huì)科學(xué)研究者普遍反對(duì)數(shù)據(jù)導(dǎo)向型的統(tǒng)計(jì)建模方式,而支持理論導(dǎo)向型實(shí)證研究模式。事實(shí)上,社會(huì)學(xué)科理論所具有的模糊性及難被證偽等特點(diǎn)[7],使在大多數(shù)研究情境中,區(qū)分實(shí)證研究是以理論驗(yàn)證還是以理論探索為研究目的較為困難。研究者因?qū)ο嚓P(guān)理論的反思更新或研究角度不同,都可能使結(jié)構(gòu)方程模型路徑的某個(gè)箭頭指向改變,甚至某條路徑被先驗(yàn)地截?cái)?,從而?dǎo)致不同結(jié)構(gòu)的模型設(shè)定以對(duì)應(yīng)不同的理論框架或因果關(guān)系。然而,已有結(jié)構(gòu)方程建模方法論研究并未指出CB-SEM與PLS-SEM估計(jì)程序?qū)δP徒Y(jié)構(gòu)變化的反應(yīng)程度是否存在差異,當(dāng)模型結(jié)構(gòu)不能被先驗(yàn)地正確設(shè)定、或當(dāng)結(jié)構(gòu)方程模型被用于探索性研究時(shí),哪類估計(jì)程序的估計(jì)結(jié)果較為可靠。筆者發(fā)現(xiàn):其一,模型外部結(jié)構(gòu)差異(反映式或構(gòu)成式顯變量設(shè)置)、樣本容量、數(shù)據(jù)形態(tài)差異并不能成為選擇CB -SEM或PLS-SEM估計(jì)程序的理由,在小樣本和非正態(tài)分布的數(shù)據(jù)形態(tài)下,CB-SEM估計(jì)程序亦可調(diào)節(jié)使用;其二,盡管PLS-SEM估計(jì)程序?qū)δP徒Y(jié)構(gòu)、樣本數(shù)據(jù)形態(tài)、樣本容量無特別要求,并具已有研究所宣稱的“普適性”,然而其系數(shù)估計(jì)數(shù)值大小、顯著性等對(duì)模型結(jié)構(gòu)變化反應(yīng)不敏感,即當(dāng)模型某條路徑方向逆轉(zhuǎn),PLS-SEM估計(jì)結(jié)果也無明顯變化,易誤導(dǎo)研究者。相比而言,CB-SEM估計(jì)程序?qū)δP徒Y(jié)構(gòu)變化反應(yīng)較為敏感。
與回歸分析和因子分析等統(tǒng)計(jì)方法相比,結(jié)構(gòu)方程模型是個(gè)新的方向,相關(guān)論文出現(xiàn)在20世紀(jì)60年代以后,其方法還在發(fā)展中[8]65-72。結(jié)構(gòu)方程模型一般被分解為測量方程和結(jié)構(gòu)方程,采用一般的表述方法,方程式(1)用于度量方程系統(tǒng)內(nèi)部隱變量η和ξ之間的因果關(guān)系,反映模型內(nèi)部結(jié)構(gòu);測量方程如式(2)(3)所示,用于度量隱變量與顯變量之間的關(guān)系,反映模型外部結(jié)構(gòu)。式(2)(3)中的顯變量X和Y被設(shè)定為反映式變量,即:
CB-SEM程序一般假定誤差項(xiàng)ζ、ε與δ服從正態(tài)分布,且相互獨(dú)立,具有式(4)所表述的均值和協(xié)方差結(jié)構(gòu),即:
估計(jì)方程可以顯性地表達(dá)成式(5),式(5)等號(hào)左邊為樣本協(xié)方差矩陣(已知),等號(hào)右邊為總體協(xié)方差矩陣(由未知參數(shù)構(gòu)成)。CB-SEM程序的估計(jì)準(zhǔn)則是使度量樣本協(xié)方差矩陣與總體協(xié)方差矩陣的偏離程度的函數(shù)達(dá)到最小值(收斂準(zhǔn)則)。估計(jì)方法主要包括極大似然估計(jì)、廣義最小二乘估計(jì)和加權(quán)最小二乘估計(jì)等。
(一)自由度與模型識(shí)別
對(duì)于式(5)的估計(jì),比較方程的個(gè)數(shù)與待估計(jì)參數(shù)的個(gè)數(shù),存在模型識(shí)別不足、恰好識(shí)別、過度識(shí)別三種情形:若自由度大于0則為識(shí)別不足;若自由度等于零則為恰好識(shí)別;若自由度小于零則為過度識(shí)別。自由度等于樣本協(xié)方差矩陣中有效元素個(gè)數(shù)(一個(gè)n×n維的協(xié)方差矩陣,有效元素個(gè)數(shù)為n(n+1)/2)減去待估的未知參數(shù)個(gè)數(shù)。自由度是結(jié)構(gòu)方程模型中較為重要的概念,正確計(jì)算自由度需要區(qū)分內(nèi)生變量與外生變量,一般以在模型系統(tǒng)中不受其它變量影響的變量為外生變量,在路徑圖中可通過箭頭指向識(shí)別,只有箭頭指出和沒有箭頭指入的變量為外生變量,其它則為內(nèi)生變量。路徑方向改變可能導(dǎo)致內(nèi)生變量與外生變量角色轉(zhuǎn)換,影響模型的自由度,從而影響模型的識(shí)別狀態(tài),尤其是模型外部結(jié)構(gòu)路徑方向的改變。
對(duì)于結(jié)構(gòu)方程模型識(shí)別不足和恰好識(shí)別狀態(tài),在滿足收斂準(zhǔn)則的前提下,參數(shù)仍能被估計(jì),但參數(shù)檢驗(yàn)統(tǒng)計(jì)量和模型擬合指標(biāo)不能被計(jì)算或無意義;識(shí)別不足是CB-SEM估計(jì)較為理想狀態(tài),但可能出現(xiàn)參數(shù)估計(jì)之間存在線性依賴現(xiàn)象,這些被認(rèn)為是CB-SEM估計(jì)程序固有的缺點(diǎn)。然而,對(duì)于模型過度識(shí)別、模型擬合程度不足以及在模型估計(jì)過程中出現(xiàn)的異常問題(誤差項(xiàng)方差估計(jì)為負(fù)),可通過事先固定外部結(jié)構(gòu)路徑系數(shù),或通過設(shè)置顯變量協(xié)方差、方差等自由參數(shù)等方法得以改善。
反映式顯變量與構(gòu)成式顯變量在結(jié)構(gòu)方程模型路徑圖中是較易識(shí)別的,外部結(jié)構(gòu)路徑中被箭頭指向的顯變量為反映式顯變量,反之則為構(gòu)成式顯變量。在測量模型中,隱變量在反映式結(jié)構(gòu)中是顯變量的一個(gè)公共因子,模型的誤差項(xiàng)屬于顯變量;在構(gòu)成式結(jié)構(gòu)中,隱變量是顯變量的一個(gè)線性組合,誤差項(xiàng)屬于隱變量。測量模型的錯(cuò)誤設(shè)定不但可能影響模型的識(shí)別,而且影響到模型的估計(jì)結(jié)果。然而,反映式或構(gòu)成式顯變量的事先設(shè)定卻頗具爭議。
長期以來,研究者認(rèn)為可觀測的外在表象是事物內(nèi)在屬性的反映,反映式結(jié)構(gòu)占支配地位,并且想當(dāng)然地把構(gòu)成式結(jié)構(gòu)當(dāng)作是反映式結(jié)構(gòu)的對(duì)立,而不是一種可選結(jié)構(gòu)[9]65-72。構(gòu)成式結(jié)構(gòu)的反對(duì)者認(rèn)為研究者試圖使用一組顯變量的線性組合形式估計(jì)隱變量方差,以驗(yàn)證顯變量是否為隱變量的原因,但前提是前定的潛在因素(誤差項(xiàng))對(duì)一組顯變量具有一致的且可加總的影響,而這些是不可知的前定的潛在因素和構(gòu)成式顯變量不能共存于結(jié)構(gòu)方程模型中[10]。Rigdon認(rèn)為Cadogan的研究忽視了一個(gè)數(shù)學(xué)等式,并缺乏想象力,阻礙了研究領(lǐng)域多樣性發(fā)展[9-10]。反映式結(jié)構(gòu)與構(gòu)成式結(jié)構(gòu)選擇是個(gè)哲學(xué)思辨的問題,不僅取決于隱變量的概念所隱含的因果指向,而且還取決于商業(yè)實(shí)踐對(duì)概念的度量及架構(gòu)[11]。顯變量被設(shè)定為反映式或構(gòu)成式,不僅和理論概念相關(guān),還與變量度量架構(gòu)和數(shù)據(jù)收集方法有關(guān)。
傳統(tǒng)的結(jié)構(gòu)方程模型由式(1)~(3)式組成,其中式(2)(3)為測量方程,顯變量為反映式。把式(3)改寫為式(6),即設(shè)定顯變量X為構(gòu)成式,隱變量ξ被表述為一組顯變量X的線性組合,則式(1)、(2)、(6)組成了一類混合式結(jié)構(gòu)方程模型,此時(shí)顯變量X由內(nèi)生變量轉(zhuǎn)變?yōu)橥馍兞?,隱變量ξ由外生變量轉(zhuǎn)為內(nèi)生變量,這類模型在文獻(xiàn)中較少被討論,采用CB-SEM估計(jì)程序?qū)@類混合式SEM估計(jì),估計(jì)方程可由式(7)表示?;旌鲜侥P秃蛡鹘y(tǒng)SEM模型估計(jì)出的協(xié)方差矩陣是相等的,統(tǒng)計(jì)觀點(diǎn)認(rèn)為是等價(jià)的,但從建模所依據(jù)的社會(huì)學(xué)科理論角度看可能相差很大。進(jìn)一步解釋,這種等價(jià)性還體現(xiàn)在滿足模型收斂準(zhǔn)則的前提下,度量樣本協(xié)方差矩陣和總體協(xié)方差矩陣的偏離程度的目標(biāo)函數(shù)最小值相等(或幾乎相等),同時(shí)若模型自由度不發(fā)生變化,反映CB-SEM模型所有擬合指標(biāo)將保持不變,即:
其中Λ+ξ是Λξ的廣義逆矩陣。CB-SEM估計(jì)程序一般把式(6)的估計(jì)方程視為式(8)和其它估計(jì)方程聯(lián)立,求解未知參數(shù)。總體協(xié)方差矩陣中的各元素,在迭代運(yùn)算中被當(dāng)作未知參數(shù),但也可被強(qiáng)制固定(在SAS軟件包c(diǎn)alis模塊中,可以通過std,cov語句設(shè)置總體協(xié)方差矩陣),即:
CB-SEM估計(jì)程序以最小化樣本協(xié)方差與總體協(xié)方差的偏離程度為其估計(jì)原理,而PLS-SEM方法以最大化內(nèi)生隱變量被外生變量所解釋的方差為其估計(jì)原理。標(biāo)準(zhǔn)的PLS-SEM估計(jì)程序主要包括以下幾步[12]:第一步是初始化:設(shè)置外部結(jié)構(gòu)路徑的初始權(quán)重(一般設(shè)置為1),代入式(2)式(3)(不考慮誤差項(xiàng))計(jì)算隱變量的初值;第二步是內(nèi)部估計(jì):利用內(nèi)部結(jié)構(gòu)隱變量相鄰關(guān)系,采用最小二乘法(或加權(quán)法)得到隱變量的第一步估計(jì)值;第三步是外部估計(jì):使用隱變量估計(jì)值、顯變量觀測值,應(yīng)用最小二乘估計(jì)法對(duì)模型外部結(jié)構(gòu)進(jìn)行估計(jì),獲得外部結(jié)構(gòu)路徑權(quán)重的第一次估計(jì);第四步是計(jì)算因子得分:更新外部結(jié)構(gòu)的初始權(quán)重,重新計(jì)算隱變量的值,回到第二步的循環(huán)迭代直到某相鄰兩次外部權(quán)重系數(shù)估計(jì)變化小于某臨界值;第五步是在收斂的前提下,采用最小二乘法估計(jì)內(nèi)部結(jié)構(gòu)路徑系數(shù)。第二步內(nèi)部結(jié)構(gòu)隱變量相鄰關(guān)系權(quán)重矩陣的計(jì)算,主要有Centroid、Factorial和Path賦權(quán)3種方法。使用最小二乘法對(duì)模型的外部結(jié)構(gòu)估計(jì),即最大化隱變量被解釋方差。
PLS-SEM程序只要求模型外部結(jié)構(gòu)路徑權(quán)重系數(shù)收斂(局部收斂),可較為快速地獲得參數(shù)估計(jì)值,并且摒棄了基于正態(tài)分布的統(tǒng)計(jì)推斷,采用bootstrap方法實(shí)施參數(shù)檢驗(yàn)。PLS-SEM方法對(duì)于樣本量、數(shù)據(jù)分布類型、顯變量為反映式或構(gòu)成式,基本沒有要求,看上去像一種具有“普適性”的方法,這也是模型應(yīng)用者逐漸傾向于使用PLS-SEM方法的理由之一。事實(shí)上,PLS-SEM程序正因?yàn)榛乇芰巳质諗啃詥栴}和關(guān)鍵性統(tǒng)計(jì)假設(shè),被認(rèn)為是一種非有效的估計(jì)方法,至今仍未被以“注重統(tǒng)計(jì)規(guī)則,強(qiáng)調(diào)嚴(yán)謹(jǐn)性”而著稱的SAS軟件包相關(guān)模塊所包含①。CB-SEM在模型識(shí)別及收斂性方面的缺陷,可通過事先固定某些未知參數(shù)而得已改善,而對(duì)于小樣本問題或非正態(tài)性推斷問題,CB-SEM程序同樣也可以采用bootstrap方法進(jìn)行參數(shù)檢驗(yàn)。前提是模型應(yīng)用者對(duì)CB-SEM估計(jì)程序和應(yīng)用情境足夠熟悉。使用bootstrap方法參數(shù)檢驗(yàn),包含隨機(jī)抽樣和自抽樣兩類誤差,樣本容量小,自抽樣獲得的樣本與原樣本相似程度高,易夸大參數(shù)的顯著性程度。CB-SEM與PLS-SEM方法的比較如表1所示。
表1 CB-SEM與PLS-SEM方法比較表
已有結(jié)構(gòu)方程模型的方法論研究,多集中于研究模型的擬合程度與樣本容量、數(shù)據(jù)形態(tài)、估計(jì)方法之間的關(guān)系,采用的研究方法主要有Monte Carlo模擬法和Meta分析法[13-14],這類研究給予了結(jié)構(gòu)方程模型應(yīng)用的建議主要包括:其一,樣本容量至少為150個(gè),或至少是顯變量個(gè)數(shù)的10到15倍,并且依賴于隱變量的個(gè)數(shù);其二,樣本容量、數(shù)據(jù)形態(tài)影響收斂性、擬合程度、參數(shù)估計(jì)的有效性;其三,CB -SEM方法在理想狀態(tài)下可獲得無偏、有效或一致的估計(jì),而當(dāng)小樣本時(shí)和數(shù)據(jù)呈非正態(tài)分布時(shí),模型結(jié)構(gòu)是混合型,應(yīng)當(dāng)選用PLS-SEM方法,但已有方法論研究忽視了結(jié)構(gòu)方程模型的路徑系數(shù)在不同估計(jì)程序下對(duì)對(duì)模型結(jié)構(gòu)變化反應(yīng)差異。
(一)模型設(shè)定
圖1 SEM模型設(shè)定圖
圖1表述的模型設(shè)定有6個(gè)顯變量和3個(gè)隱變量,源于Wheaton等人的研究[15]84-136。該模型
①引自SAS9.4自帶的幫助文件,CALIS Procedure。本文引此只限于學(xué)術(shù)爭辯,不涉及統(tǒng)計(jì)軟件優(yōu)劣評(píng)價(jià)。在SEM方法論研究文獻(xiàn)中已被廣泛作為正確模型討論,且被軟件包(如LISRAL,SAS等)用戶指導(dǎo)說明或軟件自帶的幫助文件引用示例。圖1左部分為模型設(shè)定的路徑圖,其中外部結(jié)構(gòu)的3條路徑系數(shù)被固定為1(以1.00f表示);右部分為模型參數(shù)設(shè)置,代入式(5)可獲得模型總體協(xié)方差矩陣。Fan以圖1為正確模型,通過改變路徑系數(shù)大小構(gòu)造了兩類錯(cuò)誤模型。使用CB-SEM估計(jì)程序研究了樣本容量、數(shù)據(jù)形態(tài)(正態(tài)和非正態(tài))、CB -SEM估計(jì)方法(極大似然估計(jì)和廣義最小二乘估計(jì))和模型設(shè)定對(duì)GFI、AGFI、RMSEA等9個(gè)主要擬合指標(biāo)的影響。根據(jù)圖1所表述的正確模型,通過截?cái)嗄承┞窂交蚋淖兟窂椒较蚩梢垣@得3種模型設(shè)定,其中設(shè)定1被當(dāng)作是本文的基準(zhǔn)模型,并視為擬正確設(shè)定。
1.模型設(shè)定1。圖1所表示的模型路徑箭頭方向不改變,把誤差項(xiàng)ε1與ε3、ε2與ε4的關(guān)聯(lián)截?cái)啵⑶野褕D1所示的模型固定為1的路徑系數(shù)放松為自由參數(shù),設(shè)定理由是研究者事先較難獲得相關(guān)路徑系數(shù)的先驗(yàn)信息。改變后的設(shè)定更符合應(yīng)用研究者可能面臨的研究情境,其中待估計(jì)的參數(shù)為18個(gè),模型的自由度為3。
2.模型設(shè)定2。把顯變量X1和X2設(shè)定為構(gòu)成式顯變量,即相應(yīng)箭頭方向改變,用于考察外部結(jié)構(gòu)變化對(duì)擬合指標(biāo)和參數(shù)估計(jì)的影響。設(shè)定2即為前文所述的混合式結(jié)構(gòu)模型,其中待估計(jì)參數(shù)為19個(gè),模型的自由度為2。
3.模型設(shè)定3。把η1指向η2的路徑方向改變,用于考察內(nèi)部結(jié)構(gòu)改變對(duì)擬合指標(biāo)和參數(shù)估計(jì)的影響,其中待估計(jì)參數(shù)為18個(gè),模型的自由度為3。
(二)數(shù)據(jù)生成過程
區(qū)別于已有研究,本文更為關(guān)注確定樣本容量下CB-SEM與PLS-SEM估計(jì)結(jié)果的差異。考慮到已有研究指出的對(duì)CB-SEM所要求的適度樣本容量和當(dāng)樣本容量為200時(shí),模型的收斂性已趨于穩(wěn)定,本文把模擬產(chǎn)生的樣本容量設(shè)置為200。除了模型設(shè)定外,數(shù)據(jù)形態(tài)仍為本文關(guān)注的另一因素。
正態(tài)隨機(jī)樣本生成過程分為四步:第一步,生成6個(gè)相互獨(dú)立的服從標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)變量序列,每個(gè)序列樣本容量設(shè)置為200;第二步,把圖2右部分所設(shè)置的參數(shù)值代入式(5),計(jì)算總體協(xié)方差矩陣和相關(guān)系數(shù)矩陣;第三步,將相關(guān)系數(shù)矩陣分解,把6個(gè)相互獨(dú)立的序列轉(zhuǎn)換為具有相關(guān)系數(shù)矩陣所表述的相關(guān)程度的變量[16];第四步,6個(gè)變量乘以其標(biāo)準(zhǔn)差,即得到具有總體協(xié)方差結(jié)構(gòu)的均值為零、并服從正態(tài)分布的6個(gè)隨機(jī)變量序列(X1,X2,Y1,Y2,Y3,Y4)。重復(fù)以上步驟200次,可獲得200個(gè)具有給定協(xié)方差結(jié)構(gòu)、樣本容量為200的隨機(jī)樣本。
200個(gè)非正態(tài)隨機(jī)樣本生成過程前四步和正態(tài)隨機(jī)序列生成步驟相同。第五步類似于Fan的研究,非正態(tài)分布變量序列的生成采用Fleishman冪轉(zhuǎn)換方法[17],如式(9)所示,其中V表示由前面步驟生成的具有規(guī)定的協(xié)方差結(jié)構(gòu)的正態(tài)分布隨機(jī)變量,U表示經(jīng)轉(zhuǎn)換后具有一定的偏度和峰度的隨機(jī)變量,其中系數(shù)a,b,c和d通過查表獲得。X1和Y1的偏度和峰度被設(shè)置為0.75和0.81;X2和Y3偏度和峰度被設(shè)置為-0.86和0.78;Y2和Y4的偏度與峰度被設(shè)置為0.78和2.56,即:
(三)估計(jì)過程
對(duì)隨機(jī)產(chǎn)生的的200個(gè)具有正態(tài)分布特征的樣本和200個(gè)非正態(tài)分布樣本,分別采用CBSEM估計(jì)程序和PLS-SEM估計(jì)程序估計(jì)。模型設(shè)定和數(shù)據(jù)形態(tài)對(duì)CB-SEM和PLS-SEM程序的影響程度,通過收集和比較模型擬合指標(biāo)、參數(shù)估計(jì)值、正負(fù)性及顯著性四方面差異驗(yàn)證。不失一般性,CB-SEM參數(shù)估計(jì)及檢驗(yàn)采用SAS軟件包CALIS模塊所默認(rèn)的極大似然估計(jì);PLSSEM估計(jì)采用Monecke所開發(fā)和貢獻(xiàn)的“sem PLS”R軟件包的默認(rèn)設(shè)置;內(nèi)部結(jié)構(gòu)權(quán)重矩陣設(shè)置采用Centroid方法,參數(shù)檢驗(yàn)采用bootstrap方法;自抽樣次數(shù)為500。雖然PLS-SEM方法支持者認(rèn)為PLS-SEM方法收斂速度快,是一種計(jì)算節(jié)約型的估計(jì)方法,但考慮到參數(shù)檢驗(yàn)所需要的循環(huán)次數(shù),PLS-SEM方法在此方面表現(xiàn)并不比CB-SEM方法優(yōu)秀。因此,即使不考慮估計(jì)程序內(nèi)部的迭代運(yùn)算次數(shù),對(duì)CB-SEM需要循環(huán)估計(jì)200×2(2種數(shù)據(jù)形態(tài))×3次(3種模型設(shè)定);對(duì)PLS-SEM需要循環(huán)估計(jì)200×2(2種數(shù)據(jù)形態(tài))×3(3種模型設(shè)定)×500次。收集每一次估計(jì)得到的擬合指標(biāo)值、參數(shù)估計(jì)值及參數(shù)顯著性程度,其中PLS-SEM收集的擬合指標(biāo)包括平均R2、平均Communality和GOF的值。無論CBSEM或PLS-SEM,均收集模型內(nèi)部結(jié)構(gòu)路徑系數(shù)的估計(jì)值,并區(qū)分正負(fù)、顯著與否(在0.05顯著性水平下)。
200個(gè)隨機(jī)樣本(樣本容量為200)在正態(tài)和非正態(tài)兩種數(shù)據(jù)形態(tài)條件和在3種模型設(shè)定狀態(tài)下,CB-SEM或PLS-SEM估計(jì)程序均能滿足收斂準(zhǔn)則,其中CB-SEM程序迭代次數(shù)平均約為8次;PLS-SEM方法迭代次數(shù)平均約為6次。正態(tài)與非正態(tài)條件和3種模型設(shè)定下,模型迭代次數(shù)有所差別,但差異不大。
(一)擬合指標(biāo)與模型設(shè)定
1.CB-SEM估計(jì)程序。CB-SEM估計(jì)程序提供的擬合指標(biāo)可分為絕對(duì)指標(biāo)、簡約指標(biāo)和增量指標(biāo)3類。擬合指標(biāo)表現(xiàn)不一致,研究者有選擇性地報(bào)告部分指標(biāo),在應(yīng)用實(shí)踐中已成為模型使用者清楚但又?;乇艿膯栴}之一。以常用的3種擬合指標(biāo)卡方統(tǒng)計(jì)量值、GFI和RMSEA指標(biāo)值為例,其表達(dá)式如式(10)、(11)、(12)所示,其中主要變量包括樣本容量、目標(biāo)函數(shù)最小值、模型自由度、總體協(xié)方差矩陣和被估計(jì)的協(xié)方差矩陣等。同一樣本,若模型自由度相等,在模型滿足同一收斂準(zhǔn)則的前提下,對(duì)不同的模型結(jié)構(gòu)所擬合出的擬合指標(biāo)數(shù)值基本相同。模型設(shè)定1和設(shè)定3由于自由度相等,被估計(jì)出的包括這3個(gè)擬合指標(biāo)在內(nèi)的所有擬合指標(biāo)數(shù)值基本相同;模型設(shè)定2的擬合指標(biāo)與設(shè)定1擬合指標(biāo)差異源于自由度不同,若把模型2某一參數(shù)固定,經(jīng)調(diào)整后的設(shè)定2與設(shè)定1或設(shè)定3的擬合指標(biāo)值相同(如表2中的第3、5、6列所示)。在模型收斂和自由度相等的前提下,擬合指標(biāo)數(shù)值差異主要源于目標(biāo)函數(shù)值差別,而目標(biāo)函數(shù)值的差別又源于隨機(jī)抽樣誤差,以擬合指標(biāo)RMSEA為例,設(shè)定因素A(數(shù)據(jù)形態(tài),兩個(gè)水平:正態(tài)與非正態(tài))、因素B(模型設(shè)定,三個(gè)水平:設(shè)定1、設(shè)定3和經(jīng)調(diào)整后的設(shè)定2)做方差分析,結(jié)果顯示指標(biāo)值變動(dòng)的原因被抽樣誤差解釋了97.9%,被數(shù)據(jù)形態(tài)解釋了2.1%(p<0.001),而模型設(shè)定對(duì)指標(biāo)變動(dòng)無解釋作用。盡管結(jié)構(gòu)方程模型應(yīng)用者一般被建議擬合指標(biāo)RSMEA應(yīng)小于0.05、GFI大于0.9、卡方檢驗(yàn)所得的p值應(yīng)小于給定的顯著性水平等,但擬合指標(biāo)只能反映抽樣誤差和數(shù)據(jù)形態(tài)差異,與模型設(shè)定無關(guān),故以擬合指標(biāo)數(shù)值大小評(píng)判模型優(yōu)劣較為不妥。
表2 CB-SEM估計(jì)程序:幾種模型設(shè)定擬合指標(biāo)示例表(同一正態(tài)樣本)
2.PLS-SEM方法。收集PLS-SEM方法表示模型擬合程度的3個(gè)指標(biāo):平均R2、平均Communality和GOF值,設(shè)定因素A(數(shù)據(jù)形態(tài),兩個(gè)水平:正態(tài)與非正態(tài))和因素B(模型設(shè)定,三個(gè)水平:設(shè)定1、設(shè)定2、設(shè)定3)對(duì)3個(gè)指標(biāo)分別做方差分析。指標(biāo)平均R2的變動(dòng)被抽樣誤差解釋了99.4%、被模型設(shè)定解釋了0.6%(p=0.029 5);指標(biāo)平均Communality被抽樣誤差解釋了62.1%、被模型設(shè)定解釋了37.9%(p<0.001);指標(biāo)GOF被抽樣誤差解釋了97.3%、被模型誤差解釋了2.7%(p<0.001),而數(shù)據(jù)形態(tài)對(duì)指標(biāo)變動(dòng)無解釋作用。盡管模型設(shè)定對(duì)指標(biāo)變動(dòng)影響顯著,但若把因素B設(shè)置為模型設(shè)定1和設(shè)定2兩個(gè)水平,其它不變,因素B 對(duì)3個(gè)指標(biāo)的影響轉(zhuǎn)為不顯著(0.1的顯著水平下),模型設(shè)定對(duì)擬合指標(biāo)的影響主要源于設(shè)定2,即模型外部結(jié)構(gòu)變動(dòng)。
(二)內(nèi)部結(jié)構(gòu)路徑系數(shù)估計(jì)與模型設(shè)定
內(nèi)部結(jié)構(gòu)路徑系數(shù)如圖1所示,分別為γ1、γ2和β,在模型設(shè)定1中,圖1的顯變量與隱變量之間的路徑及方向不變;模型設(shè)定2中,X1與X2由反映式顯變量轉(zhuǎn)換為構(gòu)成式顯變量,其它路徑及方向不變;模型設(shè)定3中,η1指向η2的路徑方向改變,其它不變。
對(duì)確定的樣本形態(tài)(正態(tài)或非正態(tài)),確定的模型設(shè)定(設(shè)定1、2或3),采用某種估計(jì)程序(CBSEM或PLS-SEM程序),內(nèi)部結(jié)構(gòu)系數(shù)β、γ1和γ2可分別得到200個(gè)估計(jì)值。以設(shè)定1系數(shù)估計(jì)值為橫坐標(biāo)(ref),繪制各類組合下的相應(yīng)系數(shù)估計(jì)值散點(diǎn)圖,以反映設(shè)定2、設(shè)定3與設(shè)定1系數(shù)估計(jì)值的偏離程度。如圖2所示,從左到右依次為根據(jù)β(BE1)、γ1(GA1)和γ2(GA2)的估計(jì)值繪制的散點(diǎn)圖,圖2的上半部分為CB-SEM估計(jì)程序估計(jì)結(jié)果,下半部分為PLS-SEM估計(jì)程序估計(jì)結(jié)果。點(diǎn)圖示“!”表示設(shè)定1的估計(jì)系數(shù),其對(duì)應(yīng)的橫坐標(biāo)與縱坐標(biāo)相等;點(diǎn)圖示“+”表示設(shè)定2的系數(shù),其橫坐標(biāo)和縱坐標(biāo)分別對(duì)應(yīng)同一樣本在模型設(shè)定1和設(shè)定2條件下的系數(shù)估計(jì)值;點(diǎn)圖示“×”表示設(shè)定3的估計(jì)系數(shù),其橫坐標(biāo)和縱坐標(biāo)分別為同一樣本在模型設(shè)定1和設(shè)定3條件下的系數(shù)估計(jì)值。
圖2 正態(tài)條件下模型內(nèi)部結(jié)構(gòu)系數(shù)CB估計(jì)與PLS估計(jì)比較圖
由圖2可以發(fā)現(xiàn),采用CB-SEM估計(jì)程序?qū)υO(shè)定1和設(shè)定3估計(jì)所得出的系數(shù)估計(jì)值較為接近,區(qū)分度較?。辉O(shè)定1和設(shè)定2的系數(shù)估計(jì)值相隔較遠(yuǎn),區(qū)分度明顯,而在PLS-SEM估計(jì)程序下,3種設(shè)定的系數(shù)估計(jì)值幾乎難于區(qū)別;CB-SEM估計(jì)程序?qū)Y(jié)構(gòu)方程模型的路徑變化反應(yīng)較為敏感,尤其是模型外部結(jié)構(gòu)變化,當(dāng)一組反映式顯變量被設(shè)定為構(gòu)成式顯變量,PLS-SEM程序無論對(duì)模型外部結(jié)構(gòu)變化或內(nèi)部路徑變化反應(yīng)皆不敏感。若以設(shè)定1為正確模型,則可以認(rèn)為PLS-SEM估計(jì)程序不能較好地識(shí)別錯(cuò)誤模型,即當(dāng)結(jié)構(gòu)方程模型被先驗(yàn)地錯(cuò)誤設(shè)定時(shí),PLS-SEM估計(jì)程序可能誤導(dǎo)研究者,尤其被用于探索性研究。在非正態(tài)條件下有類似結(jié)果,如圖3所示。
圖3 非正態(tài)條件下模型內(nèi)部結(jié)構(gòu)系數(shù)CB估計(jì)與PLS估計(jì)比較圖
在樣本數(shù)據(jù)遵從正態(tài)分布的條件下,收集CBSEM和PLS-SEM估計(jì)程序內(nèi)部結(jié)構(gòu)路徑系數(shù)估計(jì)值,分別計(jì)算兩類估計(jì)程序下3種模型設(shè)定的γ1、γ2和β估計(jì)的均值、中位數(shù)、標(biāo)準(zhǔn)差、5%和95%分位數(shù)值等(見表3),并以設(shè)定1為基準(zhǔn)模型,分別計(jì)算設(shè)定2和設(shè)定3各系數(shù)估計(jì)值5%與95%的分位數(shù)所構(gòu)置的分位數(shù)區(qū)間與設(shè)定1的分位數(shù)區(qū)間重疊度,以此度量系數(shù)混淆度,如表3最后一列所示。
從表3中可以發(fā)現(xiàn):其一,PLS-SEM估計(jì)程序所獲得的系數(shù)標(biāo)準(zhǔn)差較小,系數(shù)符號(hào)和系數(shù)顯著性程度都較為穩(wěn)定;CB-SEM估計(jì)程序所獲得的系數(shù)標(biāo)準(zhǔn)差較大,系數(shù)符號(hào)和顯著性程度的穩(wěn)定性相對(duì)較弱。其二,在PLS-SEM估計(jì)程序下,由系數(shù)γ1、γ2和β估計(jì)值所反映的3類模型設(shè)定的混淆度均值各約為90%、91%、97%;PLS-SEM估計(jì)程序幾乎完全混淆了模型設(shè)定1和設(shè)定2,對(duì)模型設(shè)定3的識(shí)別能力也較弱;在CB-SEM估計(jì)程序下,系數(shù)γ1,γ2和β估計(jì)值的混淆度均值約為47%、37%、31%。CB-SEM估計(jì)程序可以完全區(qū)分模型設(shè)定1和設(shè)定2,對(duì)模型設(shè)定3的識(shí)別能力雖然較弱,但比PLS-SEM估計(jì)程序強(qiáng)。其三,設(shè)定1和設(shè)定3的區(qū)別在于η1指向η2的路徑方向逆轉(zhuǎn),其路徑系數(shù)β在CB-SEM框架下估計(jì)值的混淆度為62.2%;在PLS-SEM框架下混淆度為92.5%。對(duì)于內(nèi)部和外部結(jié)構(gòu)被正確設(shè)定的模型設(shè)定1,CB -SEM與PLS-SEM估計(jì)程序所得結(jié)果相對(duì)較為一致。在非正態(tài)分布條件下,可獲得類似結(jié)果(略)。
表3 正態(tài)分布數(shù)據(jù)形態(tài):內(nèi)部結(jié)構(gòu)路徑系數(shù)CB-SEM估計(jì)與PLS-SEM估計(jì)比較表
PLS-SEM估計(jì)程序雖然對(duì)隨機(jī)抽樣誤差反應(yīng)不敏感,可獲得內(nèi)部結(jié)構(gòu)系數(shù)的較為穩(wěn)定的估計(jì)(表現(xiàn)在系數(shù)的顯著性和標(biāo)準(zhǔn)差兩方面),但對(duì)模型結(jié)構(gòu)變化反應(yīng)相當(dāng)遲鈍,對(duì)模型內(nèi)部結(jié)構(gòu)或外部結(jié)構(gòu)變化也幾乎無辨識(shí)能力,易誤導(dǎo)模型應(yīng)用者,這應(yīng)該是對(duì)支持PLS-SEM方法的研究者一個(gè)較為嚴(yán)重的警示;相比而言,CB-SEM估計(jì)程序雖然受隨機(jī)抽樣誤差影響較大,獲得的內(nèi)部結(jié)構(gòu)系數(shù)估計(jì)穩(wěn)定性相對(duì)較弱,但對(duì)模型設(shè)定反應(yīng)較為敏感,尤其是對(duì)模型設(shè)定2。針對(duì)模型內(nèi)部結(jié)構(gòu)路徑方向或外部路徑方向設(shè)置錯(cuò)誤哪個(gè)更為嚴(yán)重的問題,CB-SEM估計(jì)程序認(rèn)為外部結(jié)構(gòu)路徑設(shè)定錯(cuò)誤比內(nèi)部結(jié)構(gòu)設(shè)定錯(cuò)誤更為嚴(yán)重。然而,模型內(nèi)部結(jié)構(gòu)變化代表研究者所關(guān)注的因果關(guān)系改變,則似乎更為重要。
本文關(guān)注了結(jié)構(gòu)方程模型應(yīng)用的幾個(gè)重要問題,包括反映式和構(gòu)成式顯變量設(shè)置,CB-SEM與PLS-SEM估計(jì)程序的主要區(qū)別等問題,并設(shè)計(jì)了3種模型設(shè)定,對(duì)隨機(jī)模擬產(chǎn)生的兩組具有給定協(xié)方差結(jié)構(gòu)的正態(tài)和非正態(tài)隨機(jī)樣本,分別采用CBSEM與PLS-SEM估計(jì)程序?qū)?種模型設(shè)定估計(jì),通過收集模型擬合指標(biāo)和內(nèi)部結(jié)構(gòu)系數(shù)估計(jì)值及顯著性程度,比較了兩類估計(jì)程序?qū)δP徒Y(jié)構(gòu)變化的反應(yīng)。結(jié)論和建議歸納如下:
第一,CB-SEM擬合指標(biāo)對(duì)數(shù)據(jù)形態(tài)反應(yīng)顯著,但擬合指標(biāo)變動(dòng)不能被模型設(shè)定差異所解釋;PLS-SEM擬合指標(biāo)對(duì)模型設(shè)定差異反應(yīng)顯著,但主要局限于對(duì)模型外部結(jié)構(gòu)變化反應(yīng),擬合指標(biāo)變動(dòng)不能被數(shù)據(jù)形態(tài)差異所解釋。無論CB-SEM還是PLS-SEM估計(jì)程序,擬合指標(biāo)的變動(dòng)大部分被隨機(jī)抽樣誤差所解釋。兩類程序的擬合指標(biāo)不被建議應(yīng)用于判斷模型設(shè)定優(yōu)劣。
第二,在模型被正確設(shè)定的前提下,CB-SEM 與PLS-SEM估計(jì)程序所得出的估計(jì)結(jié)果較為一致。PLS-SEM估計(jì)程序得出的內(nèi)部結(jié)構(gòu)路徑系數(shù)估計(jì)穩(wěn)定性較高,但對(duì)模型結(jié)構(gòu)變化反應(yīng)不敏感;相比而言,CB-SEM估計(jì)程序得出的內(nèi)部結(jié)構(gòu)路徑系數(shù)估計(jì)穩(wěn)定性較弱,但對(duì)模型結(jié)構(gòu)變化反應(yīng)較敏感,尤其是模型外部結(jié)構(gòu)變化。當(dāng)結(jié)構(gòu)方程模型被用于探索性研究時(shí),本文建議采用兩類程序交叉驗(yàn)證,當(dāng)兩類程序估計(jì)的結(jié)果較為一致時(shí),結(jié)論較為可靠。
第三,關(guān)于CB-SEM估計(jì)程序的使用。CBSEM估計(jì)的模型收斂性、可識(shí)別性或估計(jì)中出現(xiàn)的異常(比如方差為負(fù),被估計(jì)出的參數(shù)存在線性依賴),可以通過經(jīng)驗(yàn)或試算,固定某些自由參數(shù)值,或通過選用適當(dāng)?shù)膬?yōu)化方法、或調(diào)節(jié)收斂準(zhǔn)則而得以改善。若樣本量過小,數(shù)據(jù)形態(tài)偏離正態(tài)較嚴(yán)重,在模型收斂的前提下得出的系數(shù)估計(jì),也可使用bootstrap方法實(shí)施參數(shù)檢驗(yàn)。
第四,關(guān)于PLS-SEM估計(jì)程序的使用。樣本量小、數(shù)據(jù)具有非正態(tài)分布特征、模型具有混合式的顯變量結(jié)構(gòu)等,并非是選用PLS-SEM程序的理由。PLS-SEM估計(jì)程序?qū)δP徒Y(jié)構(gòu)變化反應(yīng)不敏感,然而對(duì)模型中某條路徑方向的改變,也可能意味其對(duì)應(yīng)的因果關(guān)系的逆轉(zhuǎn)。因此,只有當(dāng)模型結(jié)構(gòu)有較強(qiáng)的社會(huì)學(xué)科理論支撐,PLS-SEM估計(jì)程序應(yīng)用于理論驗(yàn)證較為合適;當(dāng)模型結(jié)構(gòu)缺乏較為嚴(yán)謹(jǐn)?shù)睦碚撝危琍LS-SEM估計(jì)結(jié)果較不可靠,故本文不建議PLS-SEM估計(jì)程序單獨(dú)應(yīng)用于探索性研究。
參考文獻(xiàn):
[1]Babin B J,Hair J F,Boles J S.Publishing Research in Marketing Journals Using Structural Equation Modeling[J].Journal of Marketing Theory &Practice,2008,16(4).
[2]J?reskog K G.Structural Analysis of Covariance and Correlation Matrices[J].Psychometrika,1978,43(4).
[3]Wold H.Partial Least Squares[C]∥Kotz S,Johnson N L.Encyclopedia of Statistical Sciences.New York:John Wiley &Sons,1985.
[4]Hair F J,Sarstedt M,Ringle M C,Mena A J.An Assessment of the Use of Partial Least Squares Structural Equation Modeling in Marketing Research[J].J.of the Acad.Mark.Sci,2012,40.
[5]Henseler J,Ringle C M,Sinkovics R R.The Use of Partial Least Squares Path Modeling in International Marketing[J].Advances in International Marketing,2009,20.
[6]Hair F J,Ringle M C,Sarstedt M.PLS-SEM:Indeed a Silver Bullet[J].Journal of Marketing Theory and Practice,2011,19.
[7]張楊.證偽在社會(huì)科學(xué)中可能嗎?[J].社會(huì)學(xué)研究,2007(5).
[8]吳喜之.復(fù)雜數(shù)據(jù)統(tǒng)計(jì)方法——基于R的應(yīng)用[M].2版.北京:中國人民大學(xué)出版社,2013.
[9]Rigdon E E.Comment on“Improper Use of Endogenous Formative Cariables”[J].Journal of Business Research,2014,67.
[10]Cadogan W J,Lee N.Improper Use of Endogenous Formative Variables[J].Journal of Business Research,2013,66.
[11]Finn A,Wang L.Formative vs.Reflective Measures:Facets of Variation[J].Journal of Business Research,2014,67.
[12]Monecke A,Leisch F.semPLS:Structural Equation Modeling Using Partial Least Squares[J].Journal of Statistical Software,2012,48.
[13]Fan X.Wang L.Effects of Potential Confounding Factors on Fit Indices and Parameter Estimates for True and Misspecified SEM Models[J].Educational and Psychological Measurement,1998,58.
[14]Westland J C.Lower Bounds on Sample Size in Structural Equation Modeling[J].Electronic Commerce Research and Applications,2010(9).
(責(zé)任編輯:郭詩夢(mèng))
【統(tǒng)計(jì)理論與方法】
[15]Wheaton D E,Muthen.Assessing Reliability and Stability in Panel Models.In D.R.Heise(Ed),Sociological Methodogy [M].San Francisco:Jossey-Bass.1977.
[16]Kaiser H F,Dickman K.Sample and Population Score Matrices and Sample Correlations Matrices from Arbitrary Population Correlation Matrix[J].Psychometrika,1962,27.
[17]Fleishman A I.A Method for Simulating Non-Normal Distributions[J].Psychometrika,1978,43.
Structure Equations Modeling:Misspecifications and Estimation Procedures
ZHANG Gang-yong1,2
(1.Guanghua School of Management,Peking University,Beijing 100871,China;
(2.School of Economics and Management,Nanchang University,Nanchang 330031,China)
Abstract:Structure equations modeling has been widely applied in the empirical research on social studies,whereas it is far from maturity.PLS-SEM procedure has been considered as a silver bullet and been warmly accepted in marketing research.Author pays attention to some arguable problems about SEM methodology and compare PLS-SEM to CB-SEM,and then discuss their distinct performances on structure alternatives with simulation.Conclusions and suggestions have been finally presented.
Key words:model specification;PLS-SEM;CB-SEM;simulation
基金項(xiàng)目:國家社會(huì)科學(xué)基金項(xiàng)目《我國科技政策分析的數(shù)據(jù)與方法研究》(14BTJ020)
收稿日期:2015-03-13;修復(fù)日期:2015-04-30
文章編號(hào):1007-3116(2015)07-0007-09
文獻(xiàn)標(biāo)志碼:A
中圖分類號(hào):F224.0
作者簡介:章剛勇,男,江西南昌人,博士生,副教授,碩士生導(dǎo)師,研究方向:應(yīng)用統(tǒng)計(jì)。