亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

閱讀理解考試篇章數(shù)量與題目數(shù)量擬合度研究

2014-11-28 14:40:45柴省三

中國考試 2014年5期

關(guān)鍵詞：測量研究

柴省三

柴省三

閱讀篇章的選擇、多項(xiàng)選擇題目的設(shè)計(jì)以及篇章數(shù)量與測驗(yàn)題目數(shù)量的擬合度問題，是影響閱讀理解能力測試信度和效度的基本因素。篇章數(shù)量和題目數(shù)量的不同組合方式對閱讀理解測驗(yàn)誤差和信度的影響也不相同。本研究以中國漢語水平考試（HSK）的實(shí)測數(shù)據(jù)為基礎(chǔ)，隨機(jī)選擇500名考生作為研究樣本，借助概化理論的隨機(jī)雙面嵌套（nested）設(shè)計(jì)s×（i:p）分析了HSK閱讀理解測驗(yàn)中的誤差來源和結(jié)構(gòu)，對篇章數(shù)量和題目數(shù)量的匹配合理性進(jìn)行了檢驗(yàn)。研究結(jié)果顯示：增加文章數(shù)量和題目數(shù)量均可以提高測驗(yàn)的精度，但增加文章數(shù)量比增加題目數(shù)量對概化系數(shù)（Generalizability coefficient,Eρ2）的提高作用更有效；HSK閱讀理解測驗(yàn)的篇章數(shù)量和題目數(shù)量的現(xiàn)行組合方式符合誤差控制的原則和信度指標(biāo)的要求。

概化理論；概化系數(shù)；信度；閱讀理解測驗(yàn)；漢語水平考試（HSK）

在標(biāo)準(zhǔn)化語言測試中，閱讀理解能力測驗(yàn)的典型測量方法是多項(xiàng)選擇題（multiple-choice items），即通過選擇若干篇閱讀理解材料，并針對每篇閱讀材料設(shè)計(jì)一定數(shù)量的多項(xiàng)選擇題來考查被試的閱讀理解水平。這種測量方法具備操作思路簡單和評分過程客觀的獨(dú)特優(yōu)勢，但是，由于缺乏一套科學(xué)、公正的具體程序約束命題者的個(gè)人行為，所以閱讀理解材料的選擇和測驗(yàn)題目的設(shè)計(jì)質(zhì)量等具有較強(qiáng)的主觀性，加之受考生應(yīng)試過程中猜測因素的干擾，其測驗(yàn)的信度（reliability）和效度（validity）等在很大程度上都受到了影響。在以往的閱讀理解測試研究中，黃理兵和郭樹軍（2008）、馬瑞（2012）等分別針對漢語水平考試（HSK）和英語水平考試中閱讀理解材料的選擇和文本難度對測試信度和效度的影響進(jìn)行了探討；柴省三（2012）、Clapham（1996）、Cohen和Upton（2006）分別針對漢語水平考試（HSK）、國際英語語言測試系統(tǒng)（IELTS）、英語作為外語的語言測試（TOEFL）中閱讀材料的難度差異對信度和效度的影響進(jìn)行了研究；蔡陽洋（2013）、孔文（2009）和Freedle&Kostin（1993）等分別針對大學(xué)英語四級考試（CET4）、大學(xué)英語專業(yè)四級考試（TEM4）和TOEFL考試中測驗(yàn)項(xiàng)目的難度因素與測驗(yàn)效度的關(guān)系進(jìn)行了實(shí)驗(yàn)研究。然而，上述研究過程和方法基本上都是以經(jīng)典測量理論（CTT）為基礎(chǔ)，孤立地考察由于閱讀理解材料變量和測驗(yàn)項(xiàng)目變量所產(chǎn)生的構(gòu)想無關(guān)（construct-irrelevant）變異以及構(gòu)想缺失（construct-underrepresentation）變異對考試信度和效度的影響，而不是將測驗(yàn)中的閱讀材料和測驗(yàn)題目因素納入到同一個(gè)測量模型中，從整體上考察兩者對閱讀理解測驗(yàn)信度和效度的影響。因此，本文將借助概化理論（Generalizability Theory，GT）通過考察閱讀理解測驗(yàn)中的誤差來源和誤差結(jié)構(gòu)，研究中國漢語水平考試（HSK）閱讀理解測驗(yàn)中篇章數(shù)量和測驗(yàn)題目數(shù)量的擬合優(yōu)度問題。

1 閱讀理解測驗(yàn)的誤差來源

閱讀能力是語言測試領(lǐng)域中公認(rèn)的復(fù)雜構(gòu)想之一，因此，在語言測試中還無法針對這種潛在的特質(zhì)進(jìn)行直接測量，而只能采取間接測量的方式推斷被試的閱讀理解水平。在這種傳統(tǒng)的測量方式中，除了測驗(yàn)的目標(biāo)構(gòu)想（constructs，在下文概化研究中統(tǒng)一用s表示）以外，閱讀材料本身的內(nèi)容屬性、多項(xiàng)選擇題目中題干的設(shè)問角度以及選項(xiàng)語言的復(fù)雜度乃至干擾項(xiàng)的迷惑程度（plausibility）等都是影響被試考試結(jié)果的重要因素（Bernhardt，2011；亓魯霞，2008）。其中，由于篇章因素對測驗(yàn)分?jǐn)?shù)變異所產(chǎn)生的影響，稱為篇章效應(yīng)，由于測驗(yàn)項(xiàng)目本身的難度和性質(zhì)對測驗(yàn)分?jǐn)?shù)所產(chǎn)生的影響則屬于項(xiàng)目效應(yīng)。閱讀理解測試的整體難度主要取決于閱讀材料的難度、項(xiàng)目本身的難度以及兩者之間的交互作用（見圖1）。

圖1 閱讀測驗(yàn)分?jǐn)?shù)變異示意圖

在以往的實(shí)證研究中，針對閱讀理解測驗(yàn)分?jǐn)?shù)誤差或信度的探討大多都忽視了如下一個(gè)最基本的事實(shí)：在閱讀理解測驗(yàn)中盡管所選擇的文章在主題知識和語言理解難度方面比較合理，而且針對每篇文章所編制的測驗(yàn)題目也比較科學(xué)，但是，如果文章數(shù)量（number of passages）和題目數(shù)量（number of items）之間的組合結(jié)構(gòu)不合理，那么測量結(jié)果中的誤差仍有可能比較大，從而影響測驗(yàn)的信度和效度（Brown，1999）。比如，針對1篇閱讀材料設(shè)計(jì)20個(gè)測驗(yàn)題目和針對20篇閱讀理解材料設(shè)計(jì)20個(gè)測驗(yàn)題目（每篇文章編制1個(gè)題目）分別對被試進(jìn)行測量時(shí)，雖然兩種測量模式中的題目數(shù)量完全相同，但測驗(yàn)的誤差結(jié)構(gòu)、誤差來源和誤差權(quán)重等則不完全相同。因?yàn)?，在第一種測量模式中，文章的抽樣缺乏代表性，篇章的字、詞、句法復(fù)雜度引起的語言理解難度以及理解文章內(nèi)容所需要的背景知識難度共同引起的篇章效應(yīng)就比較明顯，因而篇章因素在測驗(yàn)分?jǐn)?shù)中引起的變異就比較顯著；在第二種測量模式中，如果針對每篇閱讀理解材料只編制1個(gè)測驗(yàn)題目，同時(shí)采用較多的閱讀材料進(jìn)行測量時(shí)，盡管這樣可以有效地抵消（counter-balance）文章抽樣不足引起的隨機(jī)誤差，但被試在測驗(yàn)中的猜測行為等隨機(jī)因素引起的誤差卻導(dǎo)致了測驗(yàn)結(jié)果未必能夠全面反映被試對相應(yīng)閱讀材料的理解水平，最終也會影響測驗(yàn)的信度和效度。在經(jīng)典測量理論中，閱讀理解測試研究只能針對測驗(yàn)題目的難度、區(qū)分度等指標(biāo)進(jìn)行考察，而無法對上述誤差來源和結(jié)構(gòu)進(jìn)行全面評估，但概化理論則可以對測驗(yàn)題目數(shù)量和篇章數(shù)量的最佳組合做出選擇，從而降低測量的誤差。

2 概化理論及研究設(shè)計(jì)

概化理論是在繼承經(jīng)典測量理論（CTT）的標(biāo)準(zhǔn)化技術(shù)和項(xiàng)目分析技術(shù)的基礎(chǔ)上，進(jìn)一步吸收實(shí)驗(yàn)設(shè)計(jì)的思想，對真分?jǐn)?shù)理論和參數(shù)估計(jì)方法等進(jìn)行系統(tǒng)改良而產(chǎn)生的現(xiàn)代教育測量理論之一（Brennan，2001；楊志明、張雷，2003）。由于在實(shí)際的測量活動中，任何一個(gè)測驗(yàn)都不可能窮盡觀測全域（universe of admissible observations）中各個(gè)測量側(cè)面（facets）中的所有條件水平，也不可能在所有側(cè)面的各個(gè)條件水平組合下對被試進(jìn)行重復(fù)測量，而且CTT理論下平行試卷的嚴(yán)格假設(shè)難以滿足，因此，GT理論以隨機(jī)平行測驗(yàn)代替了經(jīng)典測量理論中的嚴(yán)格平行測驗(yàn)假設(shè)，因而測驗(yàn)的條件更容易滿足。概化理論不僅能夠同時(shí)達(dá)到區(qū)分考生與評估考生真實(shí)能力之目的，而且可以較好地實(shí)現(xiàn)分析和控制各種測量誤差之目的（張敏強(qiáng)等，2010）。

概化理論的研究步驟包括概化研究（Generalizability Study，簡稱G研究）和決策研究（Decision Study，簡稱D研究）兩個(gè)階段。G研究的主要目標(biāo)是輔助設(shè)計(jì)一項(xiàng)具有充分概化能力的D研究，G研究的設(shè)計(jì)需要充分預(yù)計(jì)到測量的不同目的和用途，并且提供盡可能多的測量變異來源（variance sources）信息。G研究的內(nèi)容包括：（1）對測量過程進(jìn)行完整的邏輯解析，把影響測量目標(biāo)的所有因素或側(cè)面納入的研究模型中；（2）針對側(cè)面之間的關(guān)系進(jìn)行測量模式和測量結(jié)構(gòu)的實(shí)驗(yàn)設(shè)計(jì)；（3）根據(jù)測量目標(biāo)和側(cè)面之間的關(guān)系，選擇恰當(dāng)?shù)姆讲罘治黾夹g(shù)（ANOVA），將各種側(cè)面效應(yīng)以及側(cè)面之間的交互效應(yīng)等引起的方差分量分解出來，作為D研究階段的基準(zhǔn)數(shù)據(jù)。D研究則是一個(gè)與研究者的具體目標(biāo)密切相關(guān)的個(gè)性化過程，其主要內(nèi)容包括：（1）根據(jù)研究的目標(biāo)，界定研究的概化全域（universe of generalization）；（2）確定對測量結(jié)果所做的決策類型（相對決策還是絕對決策），提出測量側(cè)面的關(guān)系類型；（3）以G研究階段所獲得的方差分量為基礎(chǔ)，估計(jì)不同測量模式的誤差指標(biāo)、概化系數(shù)（Generalizability coefficient，Eρ2）或可靠性指數(shù)（dependability index，Φ）等，以便對原型測驗(yàn)（prototype test）的側(cè)面關(guān)系、條件組合關(guān)系的擬合（match）科學(xué)性等進(jìn)行綜合性評價(jià)（Brown et al.，1996）。

在上述閱讀理解測驗(yàn)方式中，用于測量考生閱讀水平的潛在文章數(shù)量實(shí)際上是無窮大的，所以閱讀材料可以看作從篇章全域（universe of passages）中隨機(jī)抽樣組成的篇章樣本。另外，針對每篇文章也可以編制若干個(gè)測驗(yàn)題目對被試進(jìn)行測量，因此，測驗(yàn)題目也可以看作從題目全域（universe of items）中抽取的一個(gè)隨機(jī)樣本。從測量結(jié)構(gòu)上來說，被試（s）與篇章（p）之間以及被試與測驗(yàn)題目（i）之間的關(guān)系屬于交叉關(guān)系（crossed），而測驗(yàn)題目（i）與篇章（p）之間的關(guān)系則屬于嵌套關(guān)系，即測驗(yàn)題目嵌套于（nested）篇章之中（i：p）。在這種測量模式中，被試的測驗(yàn)分?jǐn)?shù)變異是由被試（s）、篇章（p）、題目（i：p）引起的主效應(yīng)以及被試與篇章之間的交互效應(yīng)（sp）、被試與題目之間的交互效應(yīng)（si：p）等引起的變異分量所構(gòu)成（見圖2）（Brennan，2001）。為了對漢語水平考試（HSK）（初中等）閱讀理解測驗(yàn)的結(jié)構(gòu)關(guān)系進(jìn)行評價(jià)，本文將采用隨機(jī)雙面s×（i：p）嵌套設(shè)計(jì)進(jìn)行G研究和D研究。

圖2 s×（i：p）雙面嵌套中的分?jǐn)?shù)變異來源維恩圖

3 G研究過程與結(jié)果

中國漢語水平考試（HSK）是為測量母語非漢語者的漢語水平而設(shè)計(jì)的標(biāo)準(zhǔn)化考試，HSK（初中等）閱讀理解測驗(yàn)通過詞匯測驗(yàn)（20題）和篇章閱讀（30題）兩部分試題共同實(shí)現(xiàn)對考生閱讀理解能力的全面測量，其中詞匯測驗(yàn)和篇章理解部分的信度系數(shù)分別為0.828和0.866（具體結(jié)構(gòu)和α系數(shù)見表1）。本文首先以隨機(jī)雙面s×（i：p）嵌套設(shè)計(jì)為基礎(chǔ)，通過G研究估計(jì)各種主效應(yīng)和交互效應(yīng)引起的變異分量，從而為D研究提供決策基礎(chǔ)。

表1 閱讀理解測驗(yàn)結(jié)構(gòu)

3.1 研究材料

本研究以2011年4月17日在中國大陸32個(gè)考點(diǎn)參加HSK（初中等）考試的7 258名考生的實(shí)測數(shù)據(jù)為基礎(chǔ)，從上述閱讀理解測驗(yàn)部分的6篇文章中隨機(jī)選擇3篇文章作為文章全域的一個(gè)隨機(jī)樣本。由于在HSK（初中等）閱讀理解測驗(yàn)中，針對每篇文章所編制的題目數(shù)量并不完全相等，因此，本文從文章樣本的每篇文章中分別隨機(jī)選擇4個(gè)測驗(yàn)題目作為題目全域的一個(gè)隨機(jī)樣本。然后，采用隨機(jī)雙面s×（i：p）嵌套設(shè)計(jì)對閱讀理解測驗(yàn)進(jìn)行概化研究（G研究）。

3.2 研究被試

本文在對文章側(cè)面和題目側(cè)面進(jìn)行上述隨機(jī)抽樣處理的基礎(chǔ)上，從考生全域中隨機(jī)選擇500名被試作為研究樣本。500名被試樣本中最小年齡和最大年齡的考生別是15歲和52歲，平均年齡為20.89歲，其中男、女考生人數(shù)分別為239人和261人，被試樣本來自58個(gè)不同的國家和地區(qū)，母語背景涉及12種不同的語言。

3.3 概化研究（G研究）結(jié)果

在隨機(jī)雙面s×（i：p）嵌套設(shè)計(jì)中，被試的測驗(yàn)分?jǐn)?shù)總變異σ2（Xpir）可以分解為五個(gè)部分，即被試的閱讀水平差異引起的變異σ2（s）、文章難度差異引起的變異σ2（p）、嵌套在文章中的測驗(yàn)題目難度差異引起的變異σ2（i：p），以及被試與文章之間的交互效應(yīng)引起的變異σ2（sp）和被試與嵌套在文章中的題目之間的交互效應(yīng)等引起的變異σ2（si：p）。本文首先通過SPSS17.0進(jìn)行方差分析，獲得上述五種效應(yīng)在測驗(yàn)分?jǐn)?shù)總變異中引起的均方值（MS），然后按照表2提供的方差分量估計(jì)公式（其中ns、np和ni分別取500、3和4，分別代表被試樣本人數(shù)、文章樣本數(shù)量和題目樣本數(shù)量），以Visual FoxPro8.0自編計(jì)算機(jī)程序?qū)ι鲜龈鞣N變異分量和均方值的估計(jì)標(biāo)準(zhǔn)誤等進(jìn)行計(jì)算，最終獲得決策研究（D研究）階段的基準(zhǔn)數(shù)據(jù)（見表3）。

表2 s×（i:p）設(shè)計(jì)中G研究變異分量估計(jì)公式

在G研究的變異分量估計(jì)值中，由被試閱讀水平差異引起的變異分量為0.0193，約占總變異的7.65%，文章之間難度差異引起的變異分量僅為0.0004，占測驗(yàn)分?jǐn)?shù)總變異的0.16%。被試（s）和文章（p）之間的交互效應(yīng)引起的變異分量為0.0078，占測驗(yàn)分?jǐn)?shù)總變異的3.09%。由此可見：在HSK（初中等）閱讀理解測驗(yàn)中所選擇的文章在語言理解難度方面的差異比較小，考生在不同文章上所獲得的測驗(yàn)分?jǐn)?shù)之間具有很高的相關(guān)性。由嵌套在文章中的測驗(yàn)題目引起的分?jǐn)?shù)變異和被試與題目之間的交互效應(yīng)引起的變異分量分別為0.0339和0.1910，約占總變異的13.43%和75.67%，即被試與測驗(yàn)題目之間的交互效應(yīng)引起的變異在測驗(yàn)分?jǐn)?shù)總變異中所占的比重最高，這說明被試在不同測驗(yàn)題目之間的相對位置（relative standing）有較大的差異（Zhang，2006；Brown，1999），這種變異分量結(jié)構(gòu)比較符合HSK閱讀理解測驗(yàn)的測量構(gòu)想。

表3 s×（i:p）設(shè)計(jì)模式的G研究變異分量與標(biāo)準(zhǔn)誤

4 D研究過程與結(jié)果

D研究階段的核心內(nèi)容是通過考察在特定的概化全域中各個(gè)側(cè)面的條件樣本容量與概化系數(shù)（Eρ2）、測量誤差之間的對應(yīng)關(guān)系，評估在何種測量條件水平下測驗(yàn)的信度可以達(dá)到最大或者達(dá)到預(yù)先設(shè)定的測量精度要求。漢語水平考試（HSK）屬于常模參照性測驗(yàn)，因此，反映其測量誤差大小和信度高低的指標(biāo)主要是相對誤差（relative error）σ2（δ）和概化系數(shù)Eρ2，兩種指標(biāo)可以分別按照如下公式進(jìn)行估計(jì)（楊志明、張雷，2003；Brennan，2001）。

在以隨機(jī)雙面s×（i：p）嵌套設(shè)計(jì)為基礎(chǔ)的D研究中，本文針對文章側(cè)面在概化全域中的樣本容量（n′p）分別取1至10，題目側(cè)面的樣本容量（n′i）則分別取1至30，按照上述公式可以分別估計(jì)出300種（n′p×n′i=300）不同概化全域上的概化系數(shù)值（見表4）。

上述D研究的結(jié)果顯示：測量的概化系數(shù)值不僅隨著文章樣本容量的增加而提高，而且隨著題目樣本容量的增加而提高，單位文章數(shù)量的增加對概化系數(shù)的貢獻(xiàn)比單位測驗(yàn)題目數(shù)量的增加對概化系數(shù)的貢獻(xiàn)更為明顯，如果同時(shí)增加文章數(shù)量和測驗(yàn)題目數(shù)量則可以明顯提高測驗(yàn)的概化系數(shù)。不過，在實(shí)際的測量過程中，由于受考試時(shí)間、命題成本和分?jǐn)?shù)合成權(quán)重與分?jǐn)?shù)結(jié)構(gòu)等因素的制約，測驗(yàn)中的篇章數(shù)量和題目數(shù)量不可能都取最大值，而是在上述D研究結(jié)果中盡可能尋求一個(gè)成本相對較低、可行性較高和誤差較小的雙側(cè)面樣本組合方式。漢語水平考試（HSK）的現(xiàn)行試卷是由6篇文章和30個(gè)測驗(yàn)題目組成的一個(gè)特殊概化全域，因此，本研究可以進(jìn)一步對該測量模式的合理性進(jìn)行驗(yàn)證。

4.1 固定題目側(cè)面時(shí)文章數(shù)量的合理性研究

從表4的結(jié)果可見：在題目側(cè)面的樣本容量（n′i）保持不變的情況下，HSK閱讀理解測驗(yàn)的概化系數(shù)（Eρ2）隨著文章側(cè)面樣本容量（n′p）的增加而增加。比如，當(dāng)題目側(cè)面的樣本容量（n′i）固定為5時(shí)（n′i=5，即平均每篇文章5個(gè)測驗(yàn)題目）、文章側(cè)面的樣本容量取1時(shí)，測量的概化系數(shù)僅為0.2956，但當(dāng)文章側(cè)面的樣本容量增加到10時(shí)，測量的概化系數(shù)則提高到了0.8075，文章數(shù)量變化與概化系數(shù)的關(guān)系，可參見圖3。

表4 s×（i:p）設(shè)計(jì)之D研究結(jié)果（概化系數(shù)Eρ2）

圖3 文章側(cè)面樣本容量與概化系數(shù)的關(guān)系

如果只采用1篇文章對考生的閱讀理解能力進(jìn)行測量時(shí)，即使針對該文章設(shè)計(jì)30個(gè)測驗(yàn)題目，測量的概化系數(shù)也僅為0.5767；當(dāng)文章數(shù)量由1篇增加到3篇時(shí)，測驗(yàn)的概化系數(shù)則有非常明顯的提高；當(dāng)文章側(cè)面的樣本容量由3篇增加到5篇時(shí)，測驗(yàn)的概化系數(shù)仍有比較明顯的提高；但是，當(dāng)文章側(cè)面的樣本容量增加到6篇以后，概化系數(shù)的提高速度就會趨于平緩（見圖3），因此，為了避免測量的誤差過大，HSK閱讀理解測驗(yàn)的文章數(shù)量最好不少于6篇。

4.2 固定文章側(cè)面時(shí)題目數(shù)量的合理性研究

在文章側(cè)面的樣本容量（n′p）保持不變的情況下，HSK閱讀理解測驗(yàn)的概化系數(shù)（Eρ2）隨著題目側(cè)面樣本容量（n′i）的增加而增加。如果采用6篇文章對被試的閱讀能力進(jìn)行測量時(shí)，當(dāng)題目側(cè)面的樣本容量由1（n′i=1，共6個(gè)測驗(yàn)題目）增加到30（n′i=30，共180個(gè)題目）時(shí)，測量的概化系數(shù)由0.3681提高到0.8910。題目側(cè)面的樣本容量與概化系數(shù)的關(guān)系，請參見圖4。

由圖4可見：如果針對每篇文章編制的題目數(shù)量由1增加到3時(shí)（n′i由1增至3），無論n′p取1還是取10，測量的概化系數(shù)都會隨著題目數(shù)量的增加而急劇地提高；如果針對每篇文章平均編制3至5題時(shí)，概化系數(shù)的提高幅度雖沒有前者那么高，但仍然比較明顯；如果針對每篇文章設(shè)計(jì)的題目數(shù)量達(dá)到或超過6個(gè)以后，概化系數(shù)的提高速率就會明顯降低，n′p由1到10所對應(yīng)的所有概化系數(shù)曲線均處于平緩區(qū)，題目數(shù)量對概化系數(shù)的影響特征表明：為了保證HSK閱讀理解測驗(yàn)的信度，針對每篇文章設(shè)計(jì)的題目數(shù)量不應(yīng)該少于5個(gè)或6個(gè)（平均意義上的數(shù)量概念）。

5 研究結(jié)果與討論

現(xiàn)行的HSK閱讀理解測驗(yàn)?zāi)Ｊ绞窃陔S機(jī)雙面s×（I：P）嵌套設(shè)計(jì)的D研究中，文章樣本容量和題目樣本容量分別為6和5（即題目總數(shù)為30）時(shí)概化全域的一個(gè)特例。盡管D研究的結(jié)果表明：增加文章數(shù)量可以比較明顯地提高測驗(yàn)的概化系數(shù)，但是文章數(shù)量的增加必然意味著考生閱讀負(fù)擔(dān)的增加、考試時(shí)間的延長和考試研發(fā)成本的提高，因此，在實(shí)際的測量活動中，不能單純地依靠增加文章數(shù)量或題目數(shù)量來降低測量的誤差和提高概化系數(shù)，而是在閱讀題目數(shù)量（固定n′i）相同的前提下，尋求篇章數(shù)量和題目數(shù)量之間的最佳組合關(guān)系（Brown，1999）。

由于測驗(yàn)題目數(shù)量的設(shè)置，是由分測驗(yàn)構(gòu)想和分?jǐn)?shù)體系事先所決定的，因此，在由30個(gè)測驗(yàn)題目組成的HSK閱讀理解測驗(yàn)中，可以通過6種不同的測量方式實(shí)現(xiàn)對被試閱讀理解能力的考查（各種測量模式的結(jié)構(gòu)和測量精度，見表5）。

圖4 題目側(cè)面樣本容量與概化系數(shù)的關(guān)系

表5 六種概化全域中的各種測量精度指標(biāo)

由表5中的測量指標(biāo)可見：六種不同測量模式下的概化系數(shù)（Eρ2）分別為 0.57665、0.65284、0.68276、0.70885、0.71568和0.72979。在測驗(yàn)題目數(shù)量固定為30時(shí)，現(xiàn)行HSK閱讀理解測驗(yàn)?zāi)Ｊ剑╪′p=6，n′i=5）下的相對誤差、絕對誤差（absolute error）、可靠性指數(shù)和概化系數(shù)分別為0.00767、0.00887、0.68513和0.71568，如果僅從上述測驗(yàn)誤差指標(biāo)和概化系數(shù)來看，現(xiàn)行的HSK閱讀理解測驗(yàn)并不是最理想的測量模式（n′p=10，n′i=3為理想模式）。然而，閱讀水平的高低不僅體現(xiàn)在篇章閱讀能力方面，而且還反映在考生對第二語言詞匯掌握的深度（depth）和廣度（breadth）方面（Bernhardt，1998），因此，現(xiàn)行HSK是通過對篇章閱讀水平和詞匯習(xí)得水平的測試實(shí)現(xiàn)對閱讀理解能力的全面測量的。盡管篇章測驗(yàn)部分的概化系數(shù)并非是所有測量模式中的最佳選擇，但是，如果考慮到詞匯測量（20個(gè)題目）部分的信度貢獻(xiàn)，該測驗(yàn)仍可以達(dá)到較高的誤差控制要求和較高的信度標(biāo)準(zhǔn)，或者說，現(xiàn)行的HSK閱讀理解測驗(yàn)?zāi)Ｊ剑╪′p=6，n′i=5）下的篇章數(shù)量和題目數(shù)量擬合關(guān)系不僅滿足誤差控制的基本要求，而且是一個(gè)既經(jīng)濟(jì)又科學(xué)的測量模式。

[1]蔡陽洋.大學(xué)英語四、六級考試閱讀理解推斷類題型對比研究[D].上海：上海交通大學(xué)碩士學(xué)位論文，2013.

[2]柴省三.蘊(yùn)涵量表法在HSK閱讀理解測驗(yàn)公平性研究中的應(yīng)用[J].考試研究，2012：5，53-61.

[3]黃理兵，郭樹軍.HSK閱讀理解試題的語料和命題[J].世界漢語教學(xué)，2008，2：135-144.

[4]孔文.英語專業(yè)四級考試閱讀任務(wù)效度研究[M].北京：中國社會科學(xué)出版社，2009.

[5]馬瑞.閱讀理解測試中的難度因素探索[J].英語教師，2012，3：57-62.

[6]亓魯霞.不確定判斷與閱讀多選題的策略[J].中國考試，2008，7：9-16.

[7]楊志明，張雷.測評的概化理論及其應(yīng)用[M].北京：教育科學(xué)出版社，2003.

[8]張敏強(qiáng)，劉淑楨，黎光明.概化理論在英語閱讀精確性研究中的應(yīng)用[J].教育測量與評價(jià)，2010：5，4-8.

[9]Bernhardt,E.B.Understanding Advanced Second-Language Reading[M].New York:Taylor&Francis Group,2011.

[10]Brennan,R.L.Generalizability Theory[M].New York:Springer-Verlag New York,Inc,2001.

[11]Brown,J.D.&J.A.Ross.Decision dependability of item types,sections,tests,and the overall TOEFL test battery[A].In Milanovic,M.&N.Saville(Eds.).Performance testing,cognition and assessment[C].Cambridge University Press.1996：231-265.

[12]Brown,J.D.The relative importance of persons,items,subtests and languages to TOEFL test variance[J].Language Testing,1999,2:21-42.

[13]Clapham,C.The Development of IELTS,A Study of the Effect of Background Knowledge on Reading Comprehension[M].Cambridge:Cambridge University Press,1996.

[14]Cohen,A.D.&T.A.Upton.Strategies in responding to the new TOEFL reading tasks[R]TOEFL Research Report(No.RR-06-06).Princeton,NJ:ETS,2006.

[15]Freedle,R.&I.Kostin.The prediction of TOEFL reading item difficulty:implication for construct validity[J].Language Testing 199：2，133-170.

[16]Zhang,S.2006.Investigating the relative effects of persons,items,sections,and languages on TOEIC score dependability[J].Language Testing 2006：3，51-369.

Study of Match Fit between Passage and Item Numbers on Reading Comprehension Subsection of Chinese Proficiency Test

CHAI Xingsan

The selection of passages,the design of multiple choice items based on the passages and match fit between passage and item numbers are among the most important factors affecting reading comprehension test reliability and validity.This study applied generalizability theory to investigate the relative contributions of testtakers,items and passages to the score dependability of the Chinese Proficiency Test（HSK）.The study sampled 500 test takers from total of 7238 participants in the HSK generic data set which was administered in the April 2011 of the China mainland.The analysis isolated the variance components due to persons,items and passages,and their effects on the dependability.The research indicated that the main effect component that took the largest share of variance was the items within a passage;the increase of passage numbers contributed more than that of the item numbers did for the generalizability coefficient（Eρ2）.The findings taken together prove that the match of the passage and item numbers in the HSK is desirable for the measurement error control,reliability and validity.The current HSK prototype test structure of reading comprehension is an economical and practical measurement pattern.

Generalizability Theory；Generalizability Coefficient；Reliability；Reading Comprehension Test；HSK

G405

1005-8427(2014)05-0003-9

本文系教育部人文社會科學(xué)研究規(guī)劃基金項(xiàng)目“中外留學(xué)生語言測試體系比較與研究”（編號：13YJA740002）的階段性成果之一。

柴省三，男，北京語言大學(xué)，副教授（北京 100083）