柴省三
閱讀理解考試篇章數(shù)量與題目數(shù)量擬合度研究
柴省三
閱讀篇章的選擇、多項選擇題目的設(shè)計以及篇章數(shù)量與測驗題目數(shù)量的擬合度問題,是影響閱讀理解能力測試信度和效度的基本因素。篇章數(shù)量和題目數(shù)量的不同組合方式對閱讀理解測驗誤差和信度的影響也不相同。本研究以中國漢語水平考試(HSK)的實測數(shù)據(jù)為基礎(chǔ),隨機選擇500名考生作為研究樣本,借助概化理論的隨機雙面嵌套(nested)設(shè)計s×(i:p)分析了HSK閱讀理解測驗中的誤差來源和結(jié)構(gòu),對篇章數(shù)量和題目數(shù)量的匹配合理性進行了檢驗。研究結(jié)果顯示:增加文章數(shù)量和題目數(shù)量均可以提高測驗的精度,但增加文章數(shù)量比增加題目數(shù)量對概化系數(shù)(Generalizability coefficient,Eρ2)的提高作用更有效;HSK閱讀理解測驗的篇章數(shù)量和題目數(shù)量的現(xiàn)行組合方式符合誤差控制的原則和信度指標的要求。
概化理論;概化系數(shù);信度;閱讀理解測驗;漢語水平考試(HSK)
在標準化語言測試中,閱讀理解能力測驗的典型測量方法是多項選擇題(multiple-choice items),即通過選擇若干篇閱讀理解材料,并針對每篇閱讀材料設(shè)計一定數(shù)量的多項選擇題來考查被試的閱讀理解水平。這種測量方法具備操作思路簡單和評分過程客觀的獨特優(yōu)勢,但是,由于缺乏一套科學(xué)、公正的具體程序約束命題者的個人行為,所以閱讀理解材料的選擇和測驗題目的設(shè)計質(zhì)量等具有較強的主觀性,加之受考生應(yīng)試過程中猜測因素的干擾,其測驗的信度(reliability)和效度(validity)等在很大程度上都受到了影響。在以往的閱讀理解測試研究中,黃理兵和郭樹軍(2008)、馬瑞(2012)等分別針對漢語水平考試(HSK)和英語水平考試中閱讀理解材料的選擇和文本難度對測試信度和效度的影響進行了探討;柴省三(2012)、Clapham(1996)、Cohen和Upton(2006)分別針對漢語水平考試(HSK)、國際英語語言測試系統(tǒng)(IELTS)、英語作為外語的語言測試(TOEFL)中閱讀材料的難度差異對信度和效度的影響進行了研究;蔡陽洋(2013)、孔文(2009)和Freedle&Kostin(1993)等分別針對大學(xué)英語四級考試(CET4)、大學(xué)英語專業(yè)四級考試(TEM4)和TOEFL考試中測驗項目的難度因素與測驗效度的關(guān)系進行了實驗研究。然而,上述研究過程和方法基本上都是以經(jīng)典測量理論(CTT)為基礎(chǔ),孤立地考察由于閱讀理解材料變量和測驗項目變量所產(chǎn)生的構(gòu)想無關(guān)(construct-irrelevant)變異以及構(gòu)想缺失(construct-underrepresentation)變異對考試信度和效度的影響,而不是將測驗中的閱讀材料和測驗題目因素納入到同一個測量模型中,從整體上考察兩者對閱讀理解測驗信度和效度的影響。因此,本文將借助概化理論(Generalizability Theory,GT)通過考察閱讀理解測驗中的誤差來源和誤差結(jié)構(gòu),研究中國漢語水平考試(HSK)閱讀理解測驗中篇章數(shù)量和測驗題目數(shù)量的擬合優(yōu)度問題。
閱讀能力是語言測試領(lǐng)域中公認的復(fù)雜構(gòu)想之一,因此,在語言測試中還無法針對這種潛在的特質(zhì)進行直接測量,而只能采取間接測量的方式推斷被試的閱讀理解水平。在這種傳統(tǒng)的測量方式中,除了測驗的目標構(gòu)想(constructs,在下文概化研究中統(tǒng)一用s表示)以外,閱讀材料本身的內(nèi)容屬性、多項選擇題目中題干的設(shè)問角度以及選項語言的復(fù)雜度乃至干擾項的迷惑程度(plausibility)等都是影響被試考試結(jié)果的重要因素(Bernhardt,2011;亓魯霞,2008)。其中,由于篇章因素對測驗分數(shù)變異所產(chǎn)生的影響,稱為篇章效應(yīng),由于測驗項目本身的難度和性質(zhì)對測驗分數(shù)所產(chǎn)生的影響則屬于項目效應(yīng)。閱讀理解測試的整體難度主要取決于閱讀材料的難度、項目本身的難度以及兩者之間的交互作用(見圖1)。
圖1 閱讀測驗分數(shù)變異示意圖
在以往的實證研究中,針對閱讀理解測驗分數(shù)誤差或信度的探討大多都忽視了如下一個最基本的事實:在閱讀理解測驗中盡管所選擇的文章在主題知識和語言理解難度方面比較合理,而且針對每篇文章所編制的測驗題目也比較科學(xué),但是,如果文章數(shù)量(number of passages)和題目數(shù)量(number of items)之間的組合結(jié)構(gòu)不合理,那么測量結(jié)果中的誤差仍有可能比較大,從而影響測驗的信度和效度(Brown,1999)。比如,針對1篇閱讀材料設(shè)計20個測驗題目和針對20篇閱讀理解材料設(shè)計20個測驗題目(每篇文章編制1個題目)分別對被試進行測量時,雖然兩種測量模式中的題目數(shù)量完全相同,但測驗的誤差結(jié)構(gòu)、誤差來源和誤差權(quán)重等則不完全相同。因為,在第一種測量模式中,文章的抽樣缺乏代表性,篇章的字、詞、句法復(fù)雜度引起的語言理解難度以及理解文章內(nèi)容所需要的背景知識難度共同引起的篇章效應(yīng)就比較明顯,因而篇章因素在測驗分數(shù)中引起的變異就比較顯著;在第二種測量模式中,如果針對每篇閱讀理解材料只編制1個測驗題目,同時采用較多的閱讀材料進行測量時,盡管這樣可以有效地抵消(counter-balance)文章抽樣不足引起的隨機誤差,但被試在測驗中的猜測行為等隨機因素引起的誤差卻導(dǎo)致了測驗結(jié)果未必能夠全面反映被試對相應(yīng)閱讀材料的理解水平,最終也會影響測驗的信度和效度。在經(jīng)典測量理論中,閱讀理解測試研究只能針對測驗題目的難度、區(qū)分度等指標進行考察,而無法對上述誤差來源和結(jié)構(gòu)進行全面評估,但概化理論則可以對測驗題目數(shù)量和篇章數(shù)量的最佳組合做出選擇,從而降低測量的誤差。
概化理論是在繼承經(jīng)典測量理論(CTT)的標準化技術(shù)和項目分析技術(shù)的基礎(chǔ)上,進一步吸收實驗設(shè)計的思想,對真分數(shù)理論和參數(shù)估計方法等進行系統(tǒng)改良而產(chǎn)生的現(xiàn)代教育測量理論之一(Brennan,2001;楊志明、張雷,2003)。由于在實際的測量活動中,任何一個測驗都不可能窮盡觀測全域(universe of admissible observations)中各個測量側(cè)面(facets)中的所有條件水平,也不可能在所有側(cè)面的各個條件水平組合下對被試進行重復(fù)測量,而且CTT理論下平行試卷的嚴格假設(shè)難以滿足,因此,GT理論以隨機平行測驗代替了經(jīng)典測量理論中的嚴格平行測驗假設(shè),因而測驗的條件更容易滿足。概化理論不僅能夠同時達到區(qū)分考生與評估考生真實能力之目的,而且可以較好地實現(xiàn)分析和控制各種測量誤差之目的(張敏強等,2010)。
概化理論的研究步驟包括概化研究(Generalizability Study,簡稱G研究)和決策研究(Decision Study,簡稱D研究)兩個階段。G研究的主要目標是輔助設(shè)計一項具有充分概化能力的D研究,G研究的設(shè)計需要充分預(yù)計到測量的不同目的和用途,并且提供盡可能多的測量變異來源(variance sources)信息。G研究的內(nèi)容包括:(1)對測量過程進行完整的邏輯解析,把影響測量目標的所有因素或側(cè)面納入的研究模型中;(2)針對側(cè)面之間的關(guān)系進行測量模式和測量結(jié)構(gòu)的實驗設(shè)計;(3)根據(jù)測量目標和側(cè)面之間的關(guān)系,選擇恰當?shù)姆讲罘治黾夹g(shù)(ANOVA),將各種側(cè)面效應(yīng)以及側(cè)面之間的交互效應(yīng)等引起的方差分量分解出來,作為D研究階段的基準數(shù)據(jù)。D研究則是一個與研究者的具體目標密切相關(guān)的個性化過程,其主要內(nèi)容包括:(1)根據(jù)研究的目標,界定研究的概化全域(universe of generalization);(2)確定對測量結(jié)果所做的決策類型(相對決策還是絕對決策),提出測量側(cè)面的關(guān)系類型;(3)以G研究階段所獲得的方差分量為基礎(chǔ),估計不同測量模式的誤差指標、概化系數(shù)(Generalizability coefficient,Eρ2)或可靠性指數(shù)(dependability index,Φ)等,以便對原型測驗(prototype test)的側(cè)面關(guān)系、條件組合關(guān)系的擬合(match)科學(xué)性等進行綜合性評價(Brown et al.,1996)。
在上述閱讀理解測驗方式中,用于測量考生閱讀水平的潛在文章數(shù)量實際上是無窮大的,所以閱讀材料可以看作從篇章全域(universe of passages)中隨機抽樣組成的篇章樣本。另外,針對每篇文章也可以編制若干個測驗題目對被試進行測量,因此,測驗題目也可以看作從題目全域(universe of items)中抽取的一個隨機樣本。從測量結(jié)構(gòu)上來說,被試(s)與篇章(p)之間以及被試與測驗題目(i)之間的關(guān)系屬于交叉關(guān)系(crossed),而測驗題目(i)與篇章(p)之間的關(guān)系則屬于嵌套關(guān)系,即測驗題目嵌套于(nested)篇章之中(i:p)。在這種測量模式中,被試的測驗分數(shù)變異是由被試(s)、篇章(p)、題目(i:p)引起的主效應(yīng)以及被試與篇章之間的交互效應(yīng)(sp)、被試與題目之間的交互效應(yīng)(si:p)等引起的變異分量所構(gòu)成(見圖2)(Brennan,2001)。為了對漢語水平考試(HSK)(初中等)閱讀理解測驗的結(jié)構(gòu)關(guān)系進行評價,本文將采用隨機雙面s×(i:p)嵌套設(shè)計進行G研究和D研究。
圖2 s×(i:p)雙面嵌套中的分數(shù)變異來源維恩圖
中國漢語水平考試(HSK)是為測量母語非漢語者的漢語水平而設(shè)計的標準化考試,HSK(初中等)閱讀理解測驗通過詞匯測驗(20題)和篇章閱讀(30題)兩部分試題共同實現(xiàn)對考生閱讀理解能力的全面測量,其中詞匯測驗和篇章理解部分的信度系數(shù)分別為0.828和0.866(具體結(jié)構(gòu)和α系數(shù)見表1)。本文首先以隨機雙面s×(i:p)嵌套設(shè)計為基礎(chǔ),通過G研究估計各種主效應(yīng)和交互效應(yīng)引起的變異分量,從而為D研究提供決策基礎(chǔ)。
表1 閱讀理解測驗結(jié)構(gòu)
本研究以2011年4月17日在中國大陸32個考點參加HSK(初中等)考試的7 258名考生的實測數(shù)據(jù)為基礎(chǔ),從上述閱讀理解測驗部分的6篇文章中隨機選擇3篇文章作為文章全域的一個隨機樣本。由于在HSK(初中等)閱讀理解測驗中,針對每篇文章所編制的題目數(shù)量并不完全相等,因此,本文從文章樣本的每篇文章中分別隨機選擇4個測驗題目作為題目全域的一個隨機樣本。然后,采用隨機雙面s×(i:p)嵌套設(shè)計對閱讀理解測驗進行概化研究(G研究)。
本文在對文章側(cè)面和題目側(cè)面進行上述隨機抽樣處理的基礎(chǔ)上,從考生全域中隨機選擇500名被試作為研究樣本。500名被試樣本中最小年齡和最大年齡的考生別是15歲和52歲,平均年齡為20.89歲,其中男、女考生人數(shù)分別為239人和261人,被試樣本來自58個不同的國家和地區(qū),母語背景涉及12種不同的語言。
在隨機雙面s×(i:p)嵌套設(shè)計中,被試的測驗分數(shù)總變異σ2(Xpir)可以分解為五個部分,即被試的閱讀水平差異引起的變異σ2(s)、文章難度差異引起的變異σ2(p)、嵌套在文章中的測驗題目難度差異引起的變異σ2(i:p),以及被試與文章之間的交互效應(yīng)引起的變異σ2(sp)和被試與嵌套在文章中的題目之間的交互效應(yīng)等引起的變異σ2(si:p)。本文首先通過SPSS17.0進行方差分析,獲得上述五種效應(yīng)在測驗分數(shù)總變異中引起的均方值(MS),然后按照表2提供的方差分量估計公式(其中ns、np和ni分別取500、3和4,分別代表被試樣本人數(shù)、文章樣本數(shù)量和題目樣本數(shù)量),以Visual FoxPro8.0自編計算機程序?qū)ι鲜龈鞣N變異分量和均方值的估計標準誤等進行計算,最終獲得決策研究(D研究)階段的基準數(shù)據(jù)(見表3)。
表2 s×(i:p)設(shè)計中G研究變異分量估計公式
在G研究的變異分量估計值中,由被試閱讀水平差異引起的變異分量為0.0193,約占總變異的7.65%,文章之間難度差異引起的變異分量僅為0.0004,占測驗分數(shù)總變異的0.16%。被試(s)和文章(p)之間的交互效應(yīng)引起的變異分量為0.0078,占測驗分數(shù)總變異的3.09%。由此可見:在HSK(初中等)閱讀理解測驗中所選擇的文章在語言理解難度方面的差異比較小,考生在不同文章上所獲得的測驗分數(shù)之間具有很高的相關(guān)性。由嵌套在文章中的測驗題目引起的分數(shù)變異和被試與題目之間的交互效應(yīng)引起的變異分量分別為0.0339和0.1910,約占總變異的13.43%和75.67%,即被試與測驗題目之間的交互效應(yīng)引起的變異在測驗分數(shù)總變異中所占的比重最高,這說明被試在不同測驗題目之間的相對位置(relative standing)有較大的差異(Zhang,2006;Brown,1999),這種變異分量結(jié)構(gòu)比較符合HSK閱讀理解測驗的測量構(gòu)想。
表3 s×(i:p)設(shè)計模式的G研究變異分量與標準誤
D研究階段的核心內(nèi)容是通過考察在特定的概化全域中各個側(cè)面的條件樣本容量與概化系數(shù)(Eρ2)、測量誤差之間的對應(yīng)關(guān)系,評估在何種測量條件水平下測驗的信度可以達到最大或者達到預(yù)先設(shè)定的測量精度要求。漢語水平考試(HSK)屬于常模參照性測驗,因此,反映其測量誤差大小和信度高低的指標主要是相對誤差(relative error)σ2(δ)和概化系數(shù)Eρ2,兩種指標可以分別按照如下公式進行估計(楊志明、張雷,2003;Brennan,2001)。
在以隨機雙面s×(i:p)嵌套設(shè)計為基礎(chǔ)的D研究中,本文針對文章側(cè)面在概化全域中的樣本容量(n′p)分別取1至10,題目側(cè)面的樣本容量(n′i)則分別取1至30,按照上述公式可以分別估計出300種(n′p×n′i=300)不同概化全域上的概化系數(shù)值(見表4)。
上述D研究的結(jié)果顯示:測量的概化系數(shù)值不僅隨著文章樣本容量的增加而提高,而且隨著題目樣本容量的增加而提高,單位文章數(shù)量的增加對概化系數(shù)的貢獻比單位測驗題目數(shù)量的增加對概化系數(shù)的貢獻更為明顯,如果同時增加文章數(shù)量和測驗題目數(shù)量則可以明顯提高測驗的概化系數(shù)。不過,在實際的測量過程中,由于受考試時間、命題成本和分數(shù)合成權(quán)重與分數(shù)結(jié)構(gòu)等因素的制約,測驗中的篇章數(shù)量和題目數(shù)量不可能都取最大值,而是在上述D研究結(jié)果中盡可能尋求一個成本相對較低、可行性較高和誤差較小的雙側(cè)面樣本組合方式。漢語水平考試(HSK)的現(xiàn)行試卷是由6篇文章和30個測驗題目組成的一個特殊概化全域,因此,本研究可以進一步對該測量模式的合理性進行驗證。
從表4的結(jié)果可見:在題目側(cè)面的樣本容量(n′i)保持不變的情況下,HSK閱讀理解測驗的概化系數(shù)(Eρ2)隨著文章側(cè)面樣本容量(n′p)的增加而增加。比如,當題目側(cè)面的樣本容量(n′i)固定為5時(n′i=5,即平均每篇文章5個測驗題目)、文章側(cè)面的樣本容量取1時,測量的概化系數(shù)僅為0.2956,但當文章側(cè)面的樣本容量增加到10時,測量的概化系數(shù)則提高到了0.8075,文章數(shù)量變化與概化系數(shù)的關(guān)系,可參見圖3。
表4 s×(i:p)設(shè)計之D研究結(jié)果(概化系數(shù)Eρ2)
圖3 文章側(cè)面樣本容量與概化系數(shù)的關(guān)系
如果只采用1篇文章對考生的閱讀理解能力進行測量時,即使針對該文章設(shè)計30個測驗題目,測量的概化系數(shù)也僅為0.5767;當文章數(shù)量由1篇增加到3篇時,測驗的概化系數(shù)則有非常明顯的提高;當文章側(cè)面的樣本容量由3篇增加到5篇時,測驗的概化系數(shù)仍有比較明顯的提高;但是,當文章側(cè)面的樣本容量增加到6篇以后,概化系數(shù)的提高速度就會趨于平緩(見圖3),因此,為了避免測量的誤差過大,HSK閱讀理解測驗的文章數(shù)量最好不少于6篇。
在文章側(cè)面的樣本容量(n′p)保持不變的情況下,HSK閱讀理解測驗的概化系數(shù)(Eρ2)隨著題目側(cè)面樣本容量(n′i)的增加而增加。如果采用6篇文章對被試的閱讀能力進行測量時,當題目側(cè)面的樣本容量由1(n′i=1,共6個測驗題目)增加到30(n′i=30,共180個題目)時,測量的概化系數(shù)由0.3681提高到0.8910。題目側(cè)面的樣本容量與概化系數(shù)的關(guān)系,請參見圖4。
由圖4可見:如果針對每篇文章編制的題目數(shù)量由1增加到3時(n′i由1增至3),無論n′p取1還是取10,測量的概化系數(shù)都會隨著題目數(shù)量的增加而急劇地提高;如果針對每篇文章平均編制3至5題時,概化系數(shù)的提高幅度雖沒有前者那么高,但仍然比較明顯;如果針對每篇文章設(shè)計的題目數(shù)量達到或超過6個以后,概化系數(shù)的提高速率就會明顯降低,n′p由1到10所對應(yīng)的所有概化系數(shù)曲線均處于平緩區(qū),題目數(shù)量對概化系數(shù)的影響特征表明:為了保證HSK閱讀理解測驗的信度,針對每篇文章設(shè)計的題目數(shù)量不應(yīng)該少于5個或6個(平均意義上的數(shù)量概念)。
現(xiàn)行的HSK閱讀理解測驗?zāi)J绞窃陔S機雙面s×(I:P)嵌套設(shè)計的D研究中,文章樣本容量和題目樣本容量分別為6和5(即題目總數(shù)為30)時概化全域的一個特例。盡管D研究的結(jié)果表明:增加文章數(shù)量可以比較明顯地提高測驗的概化系數(shù),但是文章數(shù)量的增加必然意味著考生閱讀負擔(dān)的增加、考試時間的延長和考試研發(fā)成本的提高,因此,在實際的測量活動中,不能單純地依靠增加文章數(shù)量或題目數(shù)量來降低測量的誤差和提高概化系數(shù),而是在閱讀題目數(shù)量(固定n′i)相同的前提下,尋求篇章數(shù)量和題目數(shù)量之間的最佳組合關(guān)系(Brown,1999)。
由于測驗題目數(shù)量的設(shè)置,是由分測驗構(gòu)想和分數(shù)體系事先所決定的,因此,在由30個測驗題目組成的HSK閱讀理解測驗中,可以通過6種不同的測量方式實現(xiàn)對被試閱讀理解能力的考查(各種測量模式的結(jié)構(gòu)和測量精度,見表5)。
圖4 題目側(cè)面樣本容量與概化系數(shù)的關(guān)系
表5 六種概化全域中的各種測量精度指標
由表5中的測量指標可見:六種不同測量模式下 的 概 化 系 數(shù)(Eρ2)分 別 為 0.57665、0.65284、0.68276、0.70885、0.71568和0.72979。在測驗題目數(shù)量固定為30時,現(xiàn)行HSK閱讀理解測驗?zāi)J剑╪′p=6,n′i=5)下的相對誤差、絕對誤差(absolute error)、可靠性指數(shù)和概化系數(shù)分別為0.00767、0.00887、0.68513和0.71568,如果僅從上述測驗誤差指標和概化系數(shù)來看,現(xiàn)行的HSK閱讀理解測驗并不是最理想的測量模式(n′p=10,n′i=3為理想模式)。然而,閱讀水平的高低不僅體現(xiàn)在篇章閱讀能力方面,而且還反映在考生對第二語言詞匯掌握的深度(depth)和廣度(breadth)方面(Bernhardt,1998),因此,現(xiàn)行HSK是通過對篇章閱讀水平和詞匯習(xí)得水平的測試實現(xiàn)對閱讀理解能力的全面測量的。盡管篇章測驗部分的概化系數(shù)并非是所有測量模式中的最佳選擇,但是,如果考慮到詞匯測量(20個題目)部分的信度貢獻,該測驗仍可以達到較高的誤差控制要求和較高的信度標準,或者說,現(xiàn)行的HSK閱讀理解測驗?zāi)J剑╪′p=6,n′i=5)下的篇章數(shù)量和題目數(shù)量擬合關(guān)系不僅滿足誤差控制的基本要求,而且是一個既經(jīng)濟又科學(xué)的測量模式。
[1]蔡陽洋.大學(xué)英語四、六級考試閱讀理解推斷類題型對比研究[D].上海:上海交通大學(xué)碩士學(xué)位論文,2013.
[2]柴省三.蘊涵量表法在HSK閱讀理解測驗公平性研究中的應(yīng)用[J].考試研究,2012:5,53-61.
[3]黃理兵,郭樹軍.HSK閱讀理解試題的語料和命題[J].世界漢語教學(xué),2008,2:135-144.
[4]孔文.英語專業(yè)四級考試閱讀任務(wù)效度研究[M].北京:中國社會科學(xué)出版社,2009.
[5]馬瑞.閱讀理解測試中的難度因素探索[J].英語教師,2012,3:57-62.
[6]亓魯霞.不確定判斷與閱讀多選題的策略[J].中國考試,2008,7:9-16.
[7]楊志明,張雷.測評的概化理論及其應(yīng)用[M].北京:教育科學(xué)出版社,2003.
[8]張敏強,劉淑楨,黎光明.概化理論在英語閱讀精確性研究中的應(yīng)用[J].教育測量與評價,2010:5,4-8.
[9]Bernhardt,E.B.Understanding Advanced Second-Language Reading[M].New York:Taylor&Francis Group,2011.
[10]Brennan,R.L.Generalizability Theory[M].New York:Springer-Verlag New York,Inc,2001.
[11]Brown,J.D.&J.A.Ross.Decision dependability of item types,sections,tests,and the overall TOEFL test battery[A].In Milanovic,M.&N.Saville(Eds.).Performance testing,cognition and assessment[C].Cambridge University Press.1996:231-265.
[12]Brown,J.D.The relative importance of persons,items,subtests and languages to TOEFL test variance[J].Language Testing,1999,2:21-42.
[13]Clapham,C.The Development of IELTS,A Study of the Effect of Background Knowledge on Reading Comprehension[M].Cambridge:Cambridge University Press,1996.
[14]Cohen,A.D.&T.A.Upton.Strategies in responding to the new TOEFL reading tasks[R]TOEFL Research Report(No.RR-06-06).Princeton,NJ:ETS,2006.
[15]Freedle,R.&I.Kostin.The prediction of TOEFL reading item difficulty:implication for construct validity[J].Language Testing 199:2,133-170.
[16]Zhang,S.2006.Investigating the relative effects of persons,items,sections,and languages on TOEIC score dependability[J].Language Testing 2006:3,51-369.
Study of Match Fit between Passage and Item Numbers on Reading Comprehension Subsection of Chinese Proficiency Test
CHAI Xingsan
The selection of passages,the design of multiple choice items based on the passages and match fit between passage and item numbers are among the most important factors affecting reading comprehension test reliability and validity.This study applied generalizability theory to investigate the relative contributions of testtakers,items and passages to the score dependability of the Chinese Proficiency Test(HSK).The study sampled 500 test takers from total of 7238 participants in the HSK generic data set which was administered in the April 2011 of the China mainland.The analysis isolated the variance components due to persons,items and passages,and their effects on the dependability.The research indicated that the main effect component that took the largest share of variance was the items within a passage;the increase of passage numbers contributed more than that of the item numbers did for the generalizability coefficient(Eρ2).The findings taken together prove that the match of the passage and item numbers in the HSK is desirable for the measurement error control,reliability and validity.The current HSK prototype test structure of reading comprehension is an economical and practical measurement pattern.
Generalizability Theory;Generalizability Coefficient;Reliability;Reading Comprehension Test;HSK
G405
A
1005-8427(2014)05-0003-9
本文系教育部人文社會科學(xué)研究規(guī)劃基金項目“中外留學(xué)生語言測試體系比較與研究”(編號:13YJA740002)的階段性成果之一。
柴省三,男,北京語言大學(xué),副教授(北京 100083)