亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

概化理論G研究方差分量及其變異量估計影響因素*

2016-11-26 06:28:38黎光明

心理學探新 2016年5期

關鍵詞：測量模型設計

黎光明

(1.華南師范大學心理學院，心理應用研究中心，廣州 510631；2.心理健康與認知科學廣東省重點實驗室，廣州 510631)

概化理論G研究方差分量及其變異量估計影響因素*

黎光明1，2

(1.華南師范大學心理學院，心理應用研究中心，廣州 510631；2.心理健康與認知科學廣東省重點實驗室，廣州 510631)

概化理論是關于行為測量可靠性的統(tǒng)計理論。G研究是進行概化理論分析的關鍵步驟，其主要目的是進行方差分量及其變異量估計?？偨Y了影響概化理論G研究方差分量及其變異量估計的多種因素，包括估計方法、數(shù)據(jù)分布、研究設計、樣本容量、模型效應和數(shù)據(jù)形態(tài)等，并指出了相關研究存在的六方面不足，如缺乏估計方法的綜合比較、較少考察非正態(tài)分布數(shù)據(jù)、較少考慮不平衡或缺失數(shù)據(jù)等。

概化理論；G研究；方差分量；方差分量變異量估計

1 概化理論

概化理論(Generalizability Theory，GT)是關于行為測量可靠性(dependability)的統(tǒng)計理論(Shavelson & Webb，1991，p.1)。Cronbach，Gleser，Nanda和Rajartnam(1972，p.15)構建了可靠性的概念：來自于一次測驗或其它測量用作決策的分數(shù)，僅僅是許多分數(shù)中的一個，這些分數(shù)可能起著相同目的，決策者從來不對在特定刺激物、問題、測驗者、測驗時間等條件下產生的(這些)分數(shù)感興趣，因為一些測驗條件容易改變，而用于決策的理想分數(shù)是包含所有條件下獲得的觀察分數(shù)。根據(jù)Cronbach等人構建的可靠性概念，可靠性被定義為：將一次測量(如心理測驗、行為觀察、民意調查等)所得的觀察分數(shù)概化到包含所有可能條件下平均分的精確度，這些可能的條件是測驗者愿意接受的?？煽啃愿拍畹那疤峒僭O是人的知識、態(tài)度、技能等都處于穩(wěn)定狀態(tài)，僅僅是不同來源的誤差造成了個體之間的分數(shù)差異。

概化理論可用于分析多側面測量誤差(multifaceted measurement error)，將測量的情境關系(context of measurement situation)分為測量目標和測量側面兩部分(Shavelson & Webb，1991)。測量目標(object of measurement)是欲考察的實際特質，而測量側面(facet of measurement)是影響測量目標的各種因素。根據(jù)測量的情境關系，在測量目標確定的條件下，測量側面可以來自多方面，例如，學生評價教師教學水平，測量目標是教師教學水平，測量側面可以是學生、班級、專業(yè)、課程、項目以及教學水平維度(如教學態(tài)度、教學內容、教學方法、教學效果等)(Meyer，Liu，& Mashburn，2014；Casabianca，Lockwood，& McCaffrey，2015)。針對某個測量目標，如果測量側面僅一個，稱之為單側面設計，如p×i設計。對于p×i設計，如果i為隨機側面，可稱為單側面隨機設計，相應地，如果i為固定側面，可稱為單側面固定設計。如果測量側面超過一個，稱之為多側面設計，設計類型可以是交叉、嵌套，也可以是混合。

概化理論也可以分析多個測量目標與測量側面的情境關系，這就是多元概化理論(Multivariate Generalizability Theory，MGT)(Brennan，2001)。MGT是在單變量概化理論(Univariate Generalizability Theory，UGT)的基礎上發(fā)展起來的。MGT是UGT的深化和發(fā)展。與UGT一樣，MGT同時吸收了經典測量理論、實驗設計和方差分析的思想。

2 概化理論G研究

2.1 概化理論G研究方差分量估計

進行GT分析主要包括G研究和D研究兩個過程，G研究是概化研究，D研究是決策研究。G研究的主要任務是在觀測全域(universe of admissible observations)上盡可能地“挖掘”出研究設計中各種潛在的測量誤差來源，并估計這些誤差來源的方差分量(variance component)。D研究的主要任務是在概化全域(universe of generalizability)上，為了某種特殊的決策需要，以G研究所得到的方差分量估計值為基礎，通過調整測量過程中的各種關系(如調整各個側面樣本水平數(shù)、調整各個側面之間的關系或權重等)，來探索如何控制和調節(jié)測量誤差。G研究是D研究的基礎，D研究是G研究的深化。從G研究和D研究分析過程看，方差分量估計是進行概化理論分析的關鍵，這是因為，要得到D研究的相關統(tǒng)計量，如信噪比(S/N)、概化系數(shù)(Eρ2)、可靠性指數(shù)(φ)等都依賴于G研究所估出的方差分量。方差分量估計是概化理論的必用技術，是進行概化理論分析的關鍵。概化理論借用實驗設計與方差分析技術，對心理與教育測量中產生的總變異進行分解。測量側面在多大程度上影響了測量目標，即在總變異中，測量目標和測量側面的方差分量各占多少，是概化理論分析關心的問題。因此，需要探測測量側面在多大程度上影響到測量目標，并對其產生的誤差進行有效控制。

結合測量的情境關系，概化理論對經典測量理論給出的籠統(tǒng)誤差進行探查和分解，辨明誤差的不同來源，并且在一定范圍內變動測量的情境關系，以考察這種變動引起的誤差的相對變化，從而達到對誤差方差進行控制(Shavelson & Webb，1991)。因此，概化理論又稱為方差分量模型(variance component model)(Brennan，2000)。

2.2 概化理論G研究方差分量變異量估計

與其它統(tǒng)計量一樣，概化理論下估計出的方差分量受限于抽樣，不同的抽樣樣本，所估計的方差分量可能不一樣，這就要求進行方差分量估計時需要對其變異量進行探討。一般地，僅根據(jù)一個樣本的統(tǒng)計量來估計總體參數(shù)，可能存在偏差。在樣本統(tǒng)計量研究中，僅用一個(次)樣本平均數(shù)來估計總體均值，存在較大的風險，因為樣本平均數(shù)容易受抽樣的影響。探討方差分量變異量具有重要意義，這是因為，報告這些變異量可以在一定程度上說明方差分量測量的可靠性。概化理論G研究方差分量變異量主要包括標準誤和置信區(qū)間估計(Brennan，2001；Shin & Raudenbush，2012)。

3 概化理論G研究方差分量及其變異量估計影響因素

進行概化理論G研究方差分量及其變異量估計，需要考慮較多條件(影響因素)，如估計方法、數(shù)據(jù)分布、研究設計、樣本容量、模型效應及數(shù)據(jù)形態(tài)等。

3.1 估計方法

《教育與心理測試標準》(Standards for Educational and Psychological Testing，AERA，APA，& NCME，1999，p.27)和Brennan(2001，p.180)指出，為了獲得準確的方差分量變異量，理想的做法是進行多次獨立的重復測量。Brennan(2001，p.181)對9個ACT數(shù)學平行測驗進行了方差分量及其標準誤估計，結果如表1所示。

表1 九個ACT數(shù)學平行測驗估計的方差分量及其標準誤

3.2 數(shù)據(jù)分布

不同數(shù)據(jù)分布下不同方法對方差分量變異量估計可能產生不同的影響。特別地，當數(shù)據(jù)為非正態(tài)分布時，如二項分布、多項分布和偏態(tài)分布，適合于正態(tài)分布數(shù)據(jù)的方差分量變異量估計方法不一定適合于非正態(tài)分布數(shù)據(jù)。因此，也需要探討和比較基于不同非正態(tài)分布數(shù)據(jù)下不同方差分量變異量估計方法的優(yōu)劣。非正態(tài)分布數(shù)據(jù)在心理與教育測量實踐中具有常見性。例如，一些考試中的選擇題、是非題等，僅有兩種分數(shù)(錯和對)：0和1，就是二項分布數(shù)據(jù)。又如，一些心理與教育測驗中的等級評分，具有多個數(shù)據(jù)點，存在多種分數(shù)，如0～4分，則表示分數(shù)可取五個點，分別是0、1、2、3和4分，就是多項分布數(shù)據(jù)。而對于偏態(tài)分布數(shù)據(jù)，在實踐中也具有常見性，這是因為隨著社會的發(fā)展，心理與教育測量的應用領域發(fā)生了較大變化，被測群體的知識和能力等特質在一定程度上不再服從偏度為0的分布。

3.3 研究設計

常見的概化理論研究設計包括p×i、i：p、p×i×r、p×(i：r)、i：(p×r)、i：p：r等。其中對概化理論單側面隨機p×i設計研究最多，這種設計屬于單變量概化理論的交叉設計，p為測量目標，i為測量側面，p和i都隨機，p和i具有交叉關系(Brennan，2001，p.5)。

但是，隨著研究設計側面數(shù)和復雜度的增加，G研究難度加大。Smith(1981)指出，概化理論G研究方差分量估計的穩(wěn)定性受研究設計復雜度(側面數(shù))和研究設計構成(設計中嵌套的程度)影響。Smith認為使用多側面(multiple)設計所得方差分量的方差更小，因為用來估計方差分量方差的均方在多側面設計中比在單個復雜(singlecomprehensive)設計中要小。例如，學生(p)嵌套在學校(s)中，施測若干個項目(i)，項目嵌套在測驗(f)中，那么這個設計可表達成(p：s)×(i：f)。這個設計是多側面復雜設計，來自于每個學校的學生都被施測每個測驗的項目。對于(p：s)×(i：f)，還有可供替代的單個復雜設計，如p：[s×(i：f)]和i：[f×(p：s)]，前者表示每個學校不同組的學生被施測不同測驗的每個項目(也就是說，對于每個學校的學生有“學生-項目”形式)，后者表示對于每個學校每個測驗的項目施測于一個學生樣本(也就是說，對于每個測驗的項目有“項目-學生”形式)。與(p：s)×(i：f)設計相比，p：[s×(i：f)]設計和i：[f×(p：s)]設計估計的方差分量均方更大，所以產生的誤差也更大。雖然p：[s×(i：f)]和i：[f×(p：s)]設計也可以將所有的方差分量都估計出來，但Smith指出，多側面設計與單個復雜設計相比，G研究估計的方差分量更為穩(wěn)定，前者通常使用隨機觀察數(shù)，而后者通常使用固定觀察數(shù)。

3.4 樣本容量

樣本容量對G研究方差分量及其變異量估計有影響。Cronbach，Gleser，Nanda和Rajaratnam(1972)認識到教育和社會背景中準確估計方差分量對決策的重要性，認為研究者利用小樣本數(shù)據(jù)估計G研究方差分量，有時是站不住腳的，需要考察方差分量的變異量。Gao和Brennan(2001)認為，估計的方差分量因不同樣本存在差別，特別是當樣本較小時這種差異更加明顯，準確估計方差分量對于解釋評價結果至關重要，在其它條件相等的情況下，大樣本有助于獲得更為準確的估計結果，因為大樣本所估計的標準誤更小。

對于一個p×i設計，樣本容量可以是30×5、30×20、600×5、600×20等，p和i因素可能存在“樣本水平不一致性”(disproportionality)，表示一個因素的樣本容量與另一個因素的樣本容量不相一致。“樣本水平不一致性”在表現(xiàn)性評價中比較普遍，因為表現(xiàn)性評價經常是較多的人作答較少的題目，即人多題少(Othman，1995)?！皹颖舅讲灰恢滦浴睂研究方差分量及其變異量估計有影響。Brennan，Harris和Hanson(1987)的研究表明，“樣本水平不一致性”較大時，Satterthwaite方法估計G研究方差分量置信區(qū)間不理想。Leucht和Smith(1989)認為，“樣本水平不一致性”存在時，使用水平數(shù)較大者作為Bootstrap再抽樣策略，更為合理，如人的樣本容量超過了題目的樣本容量，那么再抽樣人，采用boot-p策略，反之，采用boot-i策略。Othman(1995)研究發(fā)現(xiàn)，“樣本水平不一致性”對Satterthwaite、TBGJL和Bootstrap方法估計正態(tài)分布數(shù)據(jù)和二項分布數(shù)據(jù)方差分量及其變異量有影響，“樣本水平不一致性”越大，這種影響越大。

3.5 模型效應

概化理論模型可以分為隨機效應模型、固定效應模型和混合效應模型三種(Brennan，2001；Chien，2008)。隨機效應模型是最常見的一種，假定測量目標和測量側面都是隨機，即樣本來自于一個較大容量總體，且是隨機抽取出來的。例如，對于一個樣本容量20×8的隨機效應p×i設計，測量目標是學生(p)，測量側面是項目(i)，p和i都隨機，構成測量的情境關系。測量目標對應的總體是測量總體(populationofmeasurement)，假定為無限，那么這20個人表示是從一個無限學生總體中隨機抽樣出來的。測量側面對應的總體是測量全域(universeofmeasurement)，假定為無限，那么這8個題目是從一個無限題目全域中隨機抽樣出來的。

判斷概化理論模型屬于隨機效應模型，測量側面必須滿足下列三個條件(Shavelson&Webb，1991，p.11)：一是當樣本的大小比全域要小得多；二是樣本被認為是隨機抽取的；三是所抽取的樣本與從同一全域抽出另外的樣本是可以相互交換。如果這些條件難以滿足，那么測量側面是固定側面，概化理論模型則屬于固定效應模型。如果這些條件部分得到滿足，既有隨機側面又有固定側面，那么概化理論模型則屬于混合效應模型。Brennan(2001，pp.86-94)對三種模型效應的G研究方差分量估計進行了介紹。不同的模型效應對G研究方差分量及其變異量估計有影響。Brennan，Harris和Hanson(1987)認為，G研究方差分量估計應該考慮總體是來自于有限總體還是無限總體，全域是來自于有限全域還是無限全域。Mislevy(2001)運用MCMC方法同時估計隨機效應模型和固定效應模型G研究方差分量變異量，對所得結果進行比較，發(fā)現(xiàn)不同的模型效應對G研究方差分量變異量估計也有影響。

3.6 數(shù)據(jù)形態(tài)

這里，數(shù)據(jù)形態(tài)是指平衡與不平衡、有缺失與無缺失等形態(tài)。在概化理論中，缺失數(shù)據(jù)(sparsedata)屬于不平衡數(shù)據(jù)(unbalanceddata)的一種特殊情況(Chiu&Wolfe，2002)。

概化理論平衡設計方差分量估計多采用ANOVA方法或T方法(Tterms)，不平衡設計多采用類似ANOVA方法(AnalogousANOVA)或類似T方法(AnalogousTterms)。概化理論平衡與不平衡數(shù)據(jù)方差分量估計方法(Brennan，2001)，如表2所示。

表2 概化理論平衡與不平衡數(shù)據(jù)方差分量估計方法

缺失數(shù)據(jù)是相對于完整(無缺失)數(shù)據(jù)而言的，缺失的原因可能是多方面的，如測評時的遺漏等。對于缺失數(shù)據(jù)G研究方差分量估計，Brennan(2001)提出了估計概化理論缺失數(shù)據(jù)方差分量的公式，針對單側面交叉設計，在數(shù)據(jù)少量缺失的情況下可以得出方差分量的無偏估計。Chiu 和Wolfe(2002)認為，也可以采用MBIB方法(Modified Balanced Incomplete Block)估計概化理論缺失數(shù)據(jù)方差分量。

4 問題與展望

概化理論G研究，是進行概化理論分析關鍵的一步，G研究是D研究的基礎，主要任務是進行方差分量及其變異量估計。G研究方差分量估計和方差分量變異量估計受到許多因素影響。當前，對于概化理論G研究方差分量及其變異量估計影響因素，一些研究進行過探討，但存在以下不足：

第一，缺乏估計方法的綜合比較。多數(shù)研究僅限于一種或兩種估計方法，缺少將Traditional、Bootstrap、Jackknife和MCMC四種方法一同比較的研究，特別是有關MCMC方法估計概化理論方差分量及其變異量方面的研究較少，這就導致了所得結果僅是“片斷”方法的研究結果，無法進行方法的綜合比較，所得結果在不同數(shù)據(jù)分布下也缺乏進一步的推廣性。

第二，較少考察非正態(tài)分布數(shù)據(jù)。一些研究所考慮的非正態(tài)分布數(shù)據(jù)也僅限于二項分布數(shù)據(jù)或多項分布數(shù)據(jù)，缺少對偏態(tài)分布數(shù)據(jù)進行探討，雖然Othman(1995)已經考慮到數(shù)據(jù)分布具有(弱)偏態(tài)，但是并沒有進行偏態(tài)分布數(shù)據(jù)方差分量及其變異量估計的研究，顯得不足。

第三，對多側面設計關注不足。關注單側面設計的研究居多，對多側面設計關注不足。測量目標可能受到多個因素影響，僅關注一個測量側面，存在局限。關注多側面設計是一種趨勢，因為隨著測量側面數(shù)的增加，能夠分解出更多的方差分量，有助于增強測量控制誤差的能力。

第四，抽取的樣本不具代表性。概化理論是隨機抽樣理論(漆書青，戴海崎，丁樹良，2002)，要求測量的數(shù)據(jù)具有代表性，樣本過少，將導致估計的方差分量不穩(wěn)定。另外，也有一些研究缺少考察“樣本水平不一致性”，往往僅考察一種樣本水平，如100×20，這將導致所得的結論難以拓廣至其它樣本情形。

第五，使用隨機效應模型居多。特別地，對于G研究方差分量變異量估計，較少學者真正意義上探討過固定效應模型和混合效應模型。根據(jù)Mislevy(2001)建議，可以使用MCMC方法估計固定效應模型和混合效應模型G研究的方差分量及其變異量。

第六，較少考慮不平衡或缺失數(shù)據(jù)。大多數(shù)研究設計僅考慮平衡設計，較少考慮不平衡設計，而這種設計在實踐中經常存在。鮮有學者用MCMC方法估計過缺少數(shù)據(jù)的方差分量及其變異量，實際上MCMC方法通過運用Bayes先驗分布，可以對“缺失”數(shù)據(jù)進行有效處理，避免了舍棄部分數(shù)據(jù)丟失大量信息的尷尬局面。

漆書青，戴海崎，丁樹良.(2002).現(xiàn)代教育與心理測量學原理(pp.42-78).北京：高等教育出版社.

American Educational Research Association，American Psychological Association，National Council on Measurement in Education.(1999).Standardsforeducationalandpsychologicaltesting(Rev.ed.).Washington，DC：Author.

Brennan，R.L.，Harris，D.J.，& Hanson，B.A.(1987).Thebootstrapandotherproceduresforexaminingthevariabilityofestimatedvariancecomponentsintestingcontexts(ACT Research Report Series87-7).Iowa City，IA：American College Testing Program.

Brennan，R.L.(2000).(Mis)conceptions about generalizability theory.EducationalMeasurement：IssuesandPractice，19(1)，5-10.

Brennan，R.L.(2001).Generalizabilitytheory.New York：Springer-Verlag.

Briggs，D.C.，& Wilson，M.(2007).Generalizability in item response modeling.JournalofEducationalMeasurement，44(2)，131-155.

Casabianca，J.M.，Lockwood，J.R.，& McCaffrey，D.F.(2015).Trends in classroom observation scores.EducationalandPsychologicalMeasurement，75(2)，311-337.

Chien，Y.M.(2008).Aninvestigationoftestlet-baseditemresponsemodelswitharandomfacetsdesigningeneralizabilitytheory.Unpublished doctoral dissertation.University of Iowa.

Chiu，C.W.T.，& Wolfe，E.W.(2002).A method for analyzing sparse data matrices in the generalizability theory framework.AppliedPsychologicalMeasurement，26(3)，321-338.

Cronbach，L.J.，Gleser，G.C.，Nanda，H.，& Rajaratnam，N.(1972).Thedependabilityofbehavioralmeasurements：Theoryofgeneralizabilityforscoresandprofiles.New York：Wiley.

Feng，W.C.(2002).ApplicabilityofthejackknifeprocedureforestimatingstandarderrorsofvariancecomponentestimatesinselectedrandomeffectsGstudydesigns.Unpublished doctoral dissertation.University of Iowa.

Gao，X.H.，& Brennan，R.L.(2001).Variability of estimated variance components and related statistics in a performance assessment.AppliedMeasurementinEducation，14(2)，191-203.

Leucht，R.M.，& Smith，P.L.(1989).Theeffectsofbootstrappingstrategiesontheestimationofvariancecomponents.Paper presented at the annual meeting of the American Educational Research Association，San Francisco，CA.

Li，F(xiàn).F.(2009).Aninformationcorrectionmethodfortestlet-basedtestanalysis：Fromtheperspectivesofitemresponsetheoryandgeneralizabilitytheory.Unpublished doctoral dissertation.University of Maryland.

Mao，X.，Shin，D.，& Brennan，R.L.(2005).EstimatingthevariabilityofestimatedvariancecomponentsandrelatedstatisticsusingtheMCMCprocedure：Anexploratorystudy.Paper presented at the annual meeting of the National Council on Measurement in Education，Montreal.

Meyer，J.P.，Liu，X.，& Mashburn，A.J.(2014).A practical solution to optimizing the reliability of teaching observation measures under budget constraints.EducationalandPsychologicalMeasurement，74(2)，280-291.

Mislevy，R.J.(2001).Generalizabilitytheory：AbriefintroductiontoBayesianinferenceing-theory.Available from http：//www.education.umd.edu/EDMS

Othman，A.R.(1995).Examiningtasksamplingvariabilityinscienceperformanceassessments.Unpublished doctoral dissertation.University of California，Santa Barbara.

Shavelson，R.J.，& Webb，N.M.(1991).Generalizabilitytheory：Aprimer.Newbury Park，CA：Sage.

Shin，Y.，& Raudenbush，S.W.(2012).Confidence bounds and power for the reliability of observational measures on the quality of a social setting.Psychometrika，77(3)，543-560.

Smith，P.L.(1981).Gaining accurancey in generalizability theory：Using mulitiple designs.JournalofEducationalMeasurement，18，147-154.

Tong，Y.，& Brennan，R.L.(2007).Bootstrap estimates of standard errors in generalizability theory.EducationalandPsychologicalMeasurement，67(5)，804-817.

Influence Factors of Estimating of Variance Components and Their Variability for Generalizability Study in Generalizability Theory

Li Guangming1，2

(1.School of Psychology，Center for Studies of Psychological Application，South China Normal University，Guangzhou 510631；2.Key Lab of Mental Health and Cognitive Science of Guangdong Province，Guangzhou 510631)

Generalizability theory is a statistical theory about the dependability of behavioral measurements.Generalizability studies，which focus on estimating the variance components and the variability of estimated variance components，is a crucial step of performing the generalizability analyses for generalizability theory.Estimation of variance components and their variability for generalizability study was influenced by some factors such as estimation procedure，data distribution，research design，sample size，model effect and data mode and so on.There was some deficiency in some researches about the influence factors for generalizability study such as lack of synthetic research about estimation procedures，less researches about non-normal data distribution，little focus on multifaceted design，only using random effect model，relatively less researches of unbalanced and sparse data.

Generalizability theory；Generalizability study；Variance component；Estimating the variability of estimated variance components

2014年國家自然科學基金面上項目(31470050)，廣州市教育科學“十二五”規(guī)劃2012年度面上一般課題(12AO19)，廣州市教育科學“十二五”規(guī)劃2014年重大課題(1201411413)，廣東省2015年度高等教育改革項目(粵教高函[2015]173號)，華南師范大學2014年度校級高等教育教學研究和改革項目(教學[2014]52號)。

黎光明，E-mail：Lgm2004100@sina.com。

B841.2

1003-5184(2016)05-0458-06