亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

閱讀理解測試的信度研究：來自概化分析的視角

2016-04-07 05:27:57關(guān)丹丹

心理學(xué)探新 2016年1期

關(guān)鍵詞：題組閱讀理解信度

關(guān)丹丹

(教育部考試中心，北京 100084)

閱讀理解測試的信度研究：來自概化分析的視角

關(guān)丹丹

(教育部考試中心，北京 100084)

摘要：閱讀理解測試通常為多個題目共用一個語篇材料，屬于典型的題組題型，傳統(tǒng)的基于單題的信度估計方法將會高估測試的信度。研究采用概化理論模型，通過比較傳統(tǒng)?信度系數(shù)以及不同的概化理論測量設(shè)計模型，探討不同方法對閱讀理解測量精度估計的差別；同時，通過改變語篇和題目的數(shù)量來觀察概化系數(shù)和可靠性指數(shù)等指標(biāo)的變化，為改進(jìn)考試設(shè)計和命題提供參考信息。結(jié)果表明，忽略語篇的單變量概化設(shè)計以及基于題目的?系數(shù)會在概化系數(shù)上高估0.0404，將語篇作為多變量的交叉設(shè)計會在概化系數(shù)上高估0.0480，基于語篇的?系數(shù)與單變量嵌套設(shè)計的概化系數(shù)一致。另外，增加閱讀理解中的語篇量或題目量都可以提高測量的精度，但增加語篇量在提高閱讀理解測試的測量精度上更為高效。

關(guān)鍵詞：閱讀理解；題組；概化理論；信度；?系數(shù)

1引言

閱讀理解是語言測試的主要題型之一，通常包括一定語篇的閱讀材料，并在閱讀材料后設(shè)置一些與材料理解相關(guān)的題目，以達(dá)到考核學(xué)生語言能力的目的。這種受共同刺激影響和制約的項目集合通常被稱為題組(Testlet)，閱讀理解屬于典型的題組題型(Wainer & Kiely，1987)。以往的研究顯示，在對由題組構(gòu)成的測試得分進(jìn)行估計時，如果采用傳統(tǒng)的基于單題的信度估計方法(如?系數(shù))將會高估測試的信度(Sireci，Thissen，& Wainer，1991；Wainer，1995)。在語言測試中，Bachman(1999)把這種由語篇題組造成的偏差稱為語篇效應(yīng)(Passage Effect)，并建議增加語篇量以降低這種偏差。國外針對閱讀理解測試的研究表明，語篇效應(yīng)確實會對信度的估計或者概化系數(shù)有影響(Li & Brennan，2007；Wan & Brennan，2005；Lee & Frisbie，1999；Lee，2002)。Li和Brennan(2007)采用多種概化設(shè)計對ITBS閱讀理解測試的研究表明，忽略語篇效應(yīng)會導(dǎo)致信度高估0.015，Lee和Frisbie(1999)的研究結(jié)果認(rèn)為使用基于單題的?系數(shù)對ITBS閱讀理解測試會高估0.04。在SAT考試中的言語測試也有報告0.10的高估(Sireci等，1991)。國內(nèi)關(guān)于語篇效應(yīng)對閱讀理解測量精度影響的量化研究相對較少，目前還是普遍以?系數(shù)報告閱讀理解的測試信度。

概化理論(Generalizability Theory)是由克龍巴赫等人于上個世紀(jì)70年代在經(jīng)典測量理論的基礎(chǔ)上發(fā)展起來的。概化理論是一種把測量誤差作為模型參數(shù)來處理的測量理論，它不僅保留了經(jīng)典測量理論中控制誤差的標(biāo)準(zhǔn)化技術(shù)，而且發(fā)展出了把誤差控制與決策需要或測量結(jié)果的概括程度相結(jié)合的理論和方法(楊志明，張雷，2003)。概化理論對測量目標(biāo)和測量側(cè)面(facet)進(jìn)行了區(qū)分，判別和分析不同側(cè)面對分?jǐn)?shù)的不同影響。從概化理論的視角來看，在使用閱讀理解測試對考生閱讀理解能力進(jìn)行測量時，至少包含兩個可能會影響考生分?jǐn)?shù)的側(cè)面：語篇和根據(jù)語篇設(shè)定的題目。使用概化理論方法可以分離出閱讀中的語篇、題目效應(yīng)，可以科學(xué)、有效地評價測量的精度。另外，使用概化理論還可以對其語篇量和題目量的大小進(jìn)行不同設(shè)計下的調(diào)整，結(jié)合概化系數(shù)、可靠性系數(shù)、相對誤差、絕對誤差等指標(biāo)綜合衡量，從而有助于獲得最佳的考試設(shè)計。Lee(2002)使用多種概化設(shè)計對閱讀理解測試分析時發(fā)現(xiàn)，增加語篇量和題目量能提升概化信度，張敏強等人(2010)采用數(shù)據(jù)模擬技術(shù)與概化理論對增加閱讀中的語篇量和題目量對提高測量精度也進(jìn)行過探討。但國內(nèi)尚缺乏對真實考試中閱讀理解測試測量精度的實證概化研究。

該研究以全國英語等級考試為例，對閱讀理解測試的信度進(jìn)行實證性研究。研究目的有兩個：一是比較傳統(tǒng)?信度系數(shù)以及不同的概化理論測量設(shè)計模型下，對閱讀理解測量精度估計的差別，量化實際考試中語篇效應(yīng)對測量精度估計的影響；二是通過改變語篇量和題目量來觀察概化系數(shù)和可靠性指數(shù)等指標(biāo)的變化，為考試工作者改進(jìn)該項考試的設(shè)計和命題提供有用的參考信息。

2研究方法

2.1被試與數(shù)據(jù)

數(shù)據(jù)來自某次全國英語等級考試(PETS)三級，抽取閱讀理解測試部分，共有考生6830人。該閱讀理解測試包含4篇閱讀材料，每篇閱讀材料設(shè)有5個題目，即共有20個題目。數(shù)據(jù)的描述統(tǒng)計見表1。

2.2概化分析

根據(jù)閱讀理解測試的數(shù)據(jù)結(jié)構(gòu)和觀測全域的概念，采用兩側(cè)面嵌套設(shè)計p×(i：h)對數(shù)據(jù)進(jìn)行分析是最為合適的模型。在設(shè)計中：p代表考生，i為題目，h為語篇。p×(i：h)表示考生依次作答每篇語篇下指定的題目。

但是，在使用概化理論分析英語測試的實際中，也可以忽略語篇的概念，或者是把語篇作為固定側(cè)面來考慮。因此，研究者共提出三種概化設(shè)計：(1)單變量p×i交叉設(shè)計，忽略語篇側(cè)面；(2)將語篇作為固定側(cè)面來考慮的多變量p?×i°交叉設(shè)計；(3)考慮語篇側(cè)面的單變量p×(i：h)設(shè)計。針對上述三種測量設(shè)計分別進(jìn)行概化研究(G研究)、基準(zhǔn)模式?jīng)Q策研究和改變語篇量和題目量的決策研究(D研究)。

數(shù)據(jù)分析采用GENOVA(Crick & Brennan，1983)和mGENOVA(Brennan，2001b)軟件。

3結(jié)果

3.1單變量p×i設(shè)計

單變量p×i設(shè)計的G研究與D研究結(jié)果見表2。基準(zhǔn)模式下，該閱讀理解測試的概化系數(shù)為0.8211，可靠性指數(shù)為0.8055。在P×I決策研究中，假定題目全域是無限的，因此可以通過改變題目面的水平數(shù)來看測試信度的變化。研究發(fā)現(xiàn)概化系數(shù)和可靠性指數(shù)均隨著題目數(shù)量的增加而提高。

表2　單變量p×i設(shè)計的G研究與D研究結(jié)果

3.2多變量p?×i°設(shè)計

多變量p?×i°設(shè)計的G研究結(jié)果見表3。考生在四篇閱讀理解上的得分相關(guān)較高，為0.7549~0.9238。語篇4的方差分量最大，語篇3的方差分量最小。

表3　多變量p?×i°設(shè)計的G研究結(jié)果

基準(zhǔn)模式下，按照每個語篇占25%的權(quán)重估計全域總分，D研究結(jié)果見表4。測量精度最高的是語篇4，其概化系數(shù)和可靠性指數(shù)為0.7329和0.7086；語篇2和語篇3的測量精度較低。全域總分的概化系數(shù)和可靠性指數(shù)均較高，分別為0.8287和0.8155；相對誤差和絕對誤差的方差均較小。這說明本次英語考試的閱讀理解測試的總體測量精度較高。

另外，4個語篇對全域總分方差的貢獻(xiàn)比例與當(dāng)初命題時各占25%的意圖不完全一致。其中語篇4的方差貢獻(xiàn)最大，而語篇2和語篇3的方差貢獻(xiàn)則低于命題意圖。命題者有必要對語篇2和語篇3所提供的閱讀材料和有關(guān)問題作進(jìn)一步的分析，以提升今后閱讀理解的命題質(zhì)量。

表4　多變量p?×i°設(shè)計的D研究結(jié)果(基準(zhǔn)模式)

表5　多變量p?×i°設(shè)計的D研究結(jié)果(改變題目量)

另外，通過改變題目量來看測試信度的決策研究中，增加每個語篇的題目量，則每個語篇的概化系數(shù)和可靠性指數(shù)增大，同時，閱讀理解測試全域總分的概化系數(shù)和可靠性指數(shù)也隨之增大，測量誤差減小。當(dāng)每個語篇的題目數(shù)量為6時，即可保證每個語篇的概化系數(shù)和可靠性指數(shù)均在0.50以上。

3.3單變量p×(i：h)設(shè)計

單變量p×(i：h)設(shè)計的G研究和D研究結(jié)果見表6。結(jié)果表明，語篇的方差分量小于嵌套在語篇中的題目方差分量。在基準(zhǔn)模式下(即語篇數(shù)量為4，每個語篇的題目數(shù)量為5)，D研究顯示概化系數(shù)為0.7807，可靠性指數(shù)為0.7533?？紤]到我國閱讀理解測試通常包括20~30題，在此范圍內(nèi)的D研究顯示，語篇的增加和每個語篇下題目數(shù)量的增加，都會增大概化系數(shù)和可靠性指數(shù)。具體表現(xiàn)為，當(dāng)每個語篇固定為5題時，隨著語篇的數(shù)量從4增加到6，概化系數(shù)由0.7807提高至0.8422；當(dāng)語篇數(shù)量固定為5篇時，隨著題目的數(shù)量從4增加到6，概化系數(shù)由0.7882提高到0.8365，結(jié)果見表6和圖1。可見，語篇的增加相對于每個語篇下題目的增加，在提高閱讀理解測試的測量精度上更為高效。這與Lee和Frisbie(1999)等人研究結(jié)果一致。

表6　單變量p×(i：h)設(shè)計的G研究與D研究結(jié)果

圖1　分別改變題目量與語篇量的概化系數(shù)變化

3.4幾種信度估計結(jié)果的比較

根據(jù)閱讀理解測試的數(shù)據(jù)結(jié)構(gòu)和觀測全域的概念，采用單變量p×(i：h)設(shè)計對數(shù)據(jù)進(jìn)行分析和信度估計是理論上最為合適的模型(Lee & Frisbie，1999；Brennan，2001a)，因此將其作為標(biāo)準(zhǔn)，比較基準(zhǔn)模式下其他兩種概化設(shè)計與單變量p×(i：h)設(shè)計對閱讀理解測量精度估計的差異；另外，采用傳統(tǒng)信度估計方法，分別計算基于題目的?系數(shù)，以及基于語篇得分的?系數(shù)，比較傳統(tǒng)信度估計與單變量p×(i：h)設(shè)計對閱讀理解測量精度估計的差異。結(jié)果見表7。

表7　幾種信度估計與p×(i：h)概化系數(shù)的比較

結(jié)果顯示，忽略語篇效應(yīng)或者把語篇作為多變量，都不能準(zhǔn)確的估計閱讀理解測試的精度，在概化系數(shù)上將會高估0.0404或0.0480。若采用傳統(tǒng)信度估計方法，基于題目的?系數(shù)會對閱讀理解測試的信度高估0.0404，基于語篇的?系數(shù)與p×(i：h)設(shè)計的概化系數(shù)一致。

4討論與結(jié)論

研究發(fā)現(xiàn)忽略語篇的單變量概化設(shè)計會在概化系數(shù)上高估0.04，基于題目的?系數(shù)估計也同樣會高估0.04，Lee和Frisbie(1999)所報告的ITBS閱讀理解測試高估結(jié)果與此研究非常一致，但在SAT考試中的言語測試曾報告有0.10的高估(Sireci等，1991)。這說明，語篇效應(yīng)對閱讀理解測試測量精度的影響是普遍存在且不可忽視的，影響程度及具體原因需要結(jié)合測試內(nèi)容進(jìn)行具體分析。另外，就語言測試而言，閱讀理解僅是語言測試的一個代表性題型，其所體現(xiàn)出來的“語篇效應(yīng)”或者說“題組效應(yīng)”同樣可能存在于聽力測試、完型填空測試等題型中。除了閱讀理解在測量精度上的高估外，聽力測試、完型填空測試亦有此類問題，因此語言測試若僅報告?zhèn)鹘y(tǒng)基于單題的信度估計指標(biāo)是不合適的，特別是對于高利害語言測試的信度報告應(yīng)該尤為謹(jǐn)慎。

對于此閱讀理解測試的信度估計而言，基于單題的克龍巴赫?系數(shù)與在隨機單面交叉設(shè)計條件下的概化系數(shù)估計值相等；基于語篇的?系數(shù)與在語篇側(cè)面的單變量p×(i：h)設(shè)計中的概化系數(shù)估計值相等，也就是說報告基于語篇的?系數(shù)也是可以的。該研究中將語篇作為固定側(cè)面來考慮的多變量p?×i°交叉設(shè)計雖然不適合估計整個測試的信度，但是能夠?qū)γ恳黄喿x理解進(jìn)行更精細(xì)的分析，從而為改進(jìn)閱讀理解設(shè)計和命題提供更多參考。

最后，該研究僅關(guān)注了閱讀理解測試中的語篇和題目兩個側(cè)面，還可以關(guān)注其他側(cè)面，如題目的能力考查點——語言測試中稱為微技能。通常而言，閱讀理解主要考察理解文中具體信息、理解主旨要義、理解作者的意圖、觀點或態(tài)度，以及進(jìn)行有關(guān)的判斷、推理和引申等四種微技能。關(guān)于語篇、微技能和題目的概化研究，將不僅有助于提高測量的信度，還有助于提高測量的效度。另外，考生自身的因素，如文化背景、常識、專業(yè)知識等也會影響測量的效果，同一份閱讀理解測試對于不同的考生亞群體，可能會表現(xiàn)出不同的語篇效應(yīng)，這種跨群體的概化研究比較將有助于確?？荚嚬健?/p>

參考文獻(xiàn)

楊志明，張雷.(2003).測評的概化理論及其應(yīng)用.北京：教育科學(xué)出版社.

張敏強，劉淑楨，黎光明.(2010).概化理論在英語閱讀精確性研究中的應(yīng)用.教育測量與評價(理論版)，5，4-8.

Bachman，L.F.(1999).FundamentalConsiderationsinLanguageTesting.Shanghai：Shanghai Foreign Language Education Press.

Brennan，R.L.(2001a).Generalizabilitytheory.New York：Springer-Verlag.

Brennan，R.L.(2001b).ManualformGENOVA.Iowa City，IA：Iowa Testing Programs，University of Iowa.

Crick，J.E.，& Brennan，R.L.(1983).ManualforGENOVA：AGeneralizedAnalysisofVarianceSystem.Iowa City，IA：The American College Testing Program，the ACT.

Lee，G.，& Frisbie，D.A.(1999).Estimating reliability under a generalizability theory model for test composed testlets.AppliedMeasurementinEducation，12(3)，237-255.

Lee，G.(2002).The influence of several factors on reliability for complex reading comprehension testlets.JournalofMeasurement，39，149-164.

Li，D.M.，& Brennan，R.L.(2007).AMulti-groupGeneralizabilityAnalysisofaLarge-scaleReadingComprehensionTest(CASMA Research Report NO.25).Iowa City，IA：Center for Advanced Studies in Measurement and Assessment，The University of Iowa.(Available from http：//www.education.uiowa.edu/casma).

Sireci，S.G.，Thissen，D.，& Wainer，H.(1991).On the reliability of testlet-based tests.JournalofEducationalMeasurement，28，237-247.

Wainer，H.(1995).Precision and differential item functioning on a testlet-based test：The 1991 Law School Admissions Test as an example.AppliedMeasurementinEducation，8，157-186.

Wainer，H.，& Kiely，G.L.(1987).Item clusters and computerized adaptive testing：A case for testlets.JournalofEducationalMeasurement，24(3)，185-202.

Wan，L.，& Brennan，R.L.(2005).Reliabilityofscoresfortestscomposedoftestlets：Acomparisonofapproachesinthreemeasurementmodels.Paper presented at the Annual Meeting of the National Council on Measurement in Education.April 12-14.Montreal，Canada.

Reliability Study in English Reading Comprehension Test：From the Perspective of Generalizability Theory

Guan Dandan

(National Educational Examinations Authority，Beijing 100084)

Abstract：For a reading comprehension test，it is usually the case that several passages are used with many items in each.Previous studies have indicated that the reliability of test scores composed of testlets might be overestimated by conventional item-based reliability estimation methods.By conducting a series of generalizability analyses of a reading comprehension test，this study demonstrated the amount of discrepancy in coefficients when different methods are used or different facets are taken into account.Results showed Cronbach’s alpha based on item scores and the G-coefficients of p×i were both higher than the G-coefficients of p×(i：h) and Cronbach’s alpha based on passage scores.The magnitude of overestimation was found to be about 0.0404.The difference of G-coefficients between p?×i and p×(i：h) models were 0.0480.The generalizability coefficients based on increasing numbers of passages or increasing numbers of items within each passage were found to be raised，but the generalizability coefficients increase at a greater rate by increasing the number of passages than by increasing the number of items per passage.

Key words：reading comprehension test；passages effect；Generalizability Theory；reliability；Cronbach’s alpha

中圖分類號：B841.2

文獻(xiàn)標(biāo)識碼：A

文章編號：1003-5184(2016)01-0070-05