亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

主觀性試題分?jǐn)?shù)等值連接可行性初探

2014-11-28 08:19:13彭恒利張秀秀

中國(guó)考試 2014年12期

彭恒利張秀秀劉慧

彭恒利張秀秀劉慧

等值是保證測(cè)驗(yàn)公平性的主要手段，主觀性試題由于具有試題數(shù)量少、容易曝光、難度控制較難、評(píng)分受評(píng)分者因素影響大等特點(diǎn)，其等值問題一直是測(cè)量界一大難題。研究從實(shí)際問題和現(xiàn)實(shí)需求出發(fā)，使用了MHK口語(yǔ)的實(shí)測(cè)數(shù)據(jù)，采用非等組錨題的設(shè)計(jì)，將筆試客觀題的聽力理解部分作為錨題，嘗試對(duì)4套口試試卷進(jìn)行了IRT等值處理，并以隨機(jī)等組的辦法對(duì)其等值效果進(jìn)行了檢驗(yàn)。研究結(jié)果表明，把聽力理解部分作為錨題進(jìn)行口試試卷等值具有一定的可行性，因其中涉及許多問題，研究的結(jié)論還需進(jìn)一步驗(yàn)證。

MHK；口試；主觀性試題；等值連接

1 引言

等值是保證測(cè)驗(yàn)公平性的主要手段，目前許多大規(guī)?？荚囈呀?jīng)實(shí)現(xiàn)了測(cè)驗(yàn)中客觀題的等值，使不同版本測(cè)驗(yàn)的客觀題分?jǐn)?shù)之間具有了可比性。而主觀性試題由于受到多種因素的影響，其等值問題一直是測(cè)量界的一大難題，因而絕大多數(shù)考試的主觀性試題分?jǐn)?shù)是未經(jīng)過等值處理的。

作為標(biāo)準(zhǔn)化的考試，從科學(xué)性上講各套試卷間應(yīng)該是進(jìn)行等值的，但如何實(shí)現(xiàn)主觀性試題的等值卻不是可以輕松回答的。國(guó)際上許多著名考試機(jī)構(gòu)對(duì)此或直接忽略回避，或內(nèi)部解決不公開，這實(shí)際上也說明了就目前的測(cè)量技術(shù)而言，直接實(shí)現(xiàn)主觀題分?jǐn)?shù)之間的等值幾乎是不可能的。因此，從嚴(yán)格意義上講，主觀性試題之間是無法實(shí)現(xiàn)真正意義上的等值的，目前所能做的是把不同主觀性試題分?jǐn)?shù)連接起來，通過一定的技術(shù)手段使彼此之間的分?jǐn)?shù)具有一定的可比性，然后再作出相應(yīng)的調(diào)整。這實(shí)際上做的是對(duì)不同主觀試題的分?jǐn)?shù)削峰填谷，與“校準(zhǔn)”（Calibration）有些類似。為了便于理解，這里暫且借用等值的概念，用等值連接來表述實(shí)現(xiàn)主觀性試題之間的可比性。

MHK是面向國(guó)內(nèi)母語(yǔ)非漢語(yǔ)的少數(shù)民族漢語(yǔ)學(xué)習(xí)者的一項(xiàng)國(guó)家級(jí)標(biāo)準(zhǔn)化考試，分為筆試和口試兩部分。MHK雖早已實(shí)現(xiàn)筆試的客觀題等值，但同樣也面臨著主觀性試題等值連接的難題，其中口試的等值連接問題更為迫切。目前，MHK口試采用“人機(jī)對(duì)話”的方式進(jìn)行，受場(chǎng)地、硬件設(shè)備的限制，各個(gè)考場(chǎng)的口試分批次進(jìn)行。為防止考生泄題或作弊造成的不公平，每批次使用的試題均不同，這樣就出現(xiàn)了同一次考試，筆試只使用一套試題，口試使用多套試題的情況。由于不同套的口試試題之間內(nèi)容不一致，難度很難保證完全一致，這樣在同一次MHK口試中，就會(huì)出現(xiàn)有的考生因碰到偏易的試題得分較高，有的碰到偏難的試題得分較低的現(xiàn)象，這對(duì)考生來說是不公平的。實(shí)際上，這一個(gè)問題不是MHK獨(dú)有，而是一個(gè)具有普遍性的問題，托福（Test of English as a Foreign Language,TOEFL）、雅思（International English Language Testing System，IELTS）等許多影響力較大的考試都面臨著同樣的問題，所不同的是解決的思路有差異而已。

對(duì)于MHK來說，這是一個(gè)無法回避的問題，以近期某年11月MHK（三級(jí)）口試為例，各批次口試試題情況如表1所示。

表1 某年11月各套口試試題相關(guān)描述性統(tǒng)計(jì)

從表1可以看出，12套試卷的轉(zhuǎn)換分絕大多數(shù)在30分左右，但也出現(xiàn)了差異較大的，第4套試卷的轉(zhuǎn)換分最高，達(dá)35.37分，第10套試卷的轉(zhuǎn)換分最低，為26.23分，兩者的分差9分之多。這是什么原因造成的呢？是試題之間本身的難度差異？還是口試評(píng)分的誤差？抑或考生水平的差異？對(duì)于標(biāo)準(zhǔn)化考試來說，不僅應(yīng)做到命題和考試實(shí)施的標(biāo)準(zhǔn)化，也應(yīng)做到閱卷評(píng)分和分?jǐn)?shù)報(bào)告的標(biāo)準(zhǔn)化。在報(bào)告分?jǐn)?shù)時(shí)，應(yīng)設(shè)法消除或減少由于題目難度差異或者評(píng)分誤差造成的分差，這涉及的不僅僅是誤差控制的問題、公平性的問題，實(shí)質(zhì)上要解決的是各套口試試題間的分?jǐn)?shù)等值連接問題。

2 研究思路與方法

2.1 研究思路

2.1.1 等值條件

等值是對(duì)同一個(gè)測(cè)驗(yàn)的不同版本的分?jǐn)?shù)進(jìn)行連接的過程，是在構(gòu)念相同、難度相似、信度相同和考生目標(biāo)總體基本相同的情況下的分?jǐn)?shù)連接?！督逃郎y(cè)量》第四版中Dorans和 Holland（2000）指出，必須滿足以下5個(gè)條件才能成功等值：相同構(gòu)念、相同信度、對(duì)稱性、等價(jià)性、跨樣本一致性。前兩項(xiàng)是等值最重要的前提條件。客觀性試題在測(cè)驗(yàn)中具有題量多、評(píng)分客觀等特點(diǎn)，較容易滿足等值條件，因而目前與測(cè)驗(yàn)等值相關(guān)的研究多數(shù)集中于客觀性試題等值。與客觀性試題等值相比，主觀性試題的等值難度更大，需要考慮的因素更多。首先，主觀性試題的評(píng)分無法做到完全客觀化，受評(píng)分者效應(yīng)影響大，進(jìn)行等值面臨的最大的挑戰(zhàn)就是要保證信度相同，尤其評(píng)分者信度要做到高度一致，這樣才能使其具備等值的條件；其次，主觀性試題一般具有題量少、容易曝光的特點(diǎn)，這就給主觀性試題的等值設(shè)計(jì)造成了極大困難，直接設(shè)置錨題的條件基本不具備。而對(duì)共同題等值來說，設(shè)錨是關(guān)鍵，否則，就目前的等值技術(shù)而言，等值是很難實(shí)現(xiàn)的。

2.1.2 客觀題（聽力理解）作錨可行性

據(jù)上，主觀性試題本身直接設(shè)錨的路是不通的，那么是否意味著主觀性試題就無法等值連接呢？既然無法直接設(shè)錨，是否可以間接橋接設(shè)錨呢？從以往的研究來看，許多學(xué)者認(rèn)為“聽說能力具有密切關(guān)系”（Harrison，1959；楊惠元，2002；王佶旻，2012）。從語(yǔ)言產(chǎn)生機(jī)制來說，聽和說共同依賴神經(jīng)元的傳導(dǎo)和神經(jīng)云中所儲(chǔ)存的信息進(jìn)行理解和生成；從認(rèn)知心理學(xué)信息交流機(jī)制來說，聽說是兩個(gè)相反的運(yùn)動(dòng)過程，是一個(gè)信息加工、處理與發(fā)送、接受的動(dòng)態(tài)系統(tǒng)，在實(shí)際交際中不斷交替。在與語(yǔ)言測(cè)試密切相關(guān)的語(yǔ)言習(xí)得及語(yǔ)言教學(xué)相關(guān)研究中，越來越多學(xué)者支持“聽說一體化”。此外，美國(guó)教育考試服務(wù)中心在1979年推出托業(yè)（Test of English for International Communication,TOEIC）時(shí)，試卷內(nèi)容只有聽力和閱讀兩部分，他們認(rèn)為可以通過被試的聽力水平推測(cè)其口語(yǔ)水平，其后的效度研究也證實(shí)了這一點(diǎn)（Woodford，1985）。盡管有人會(huì)對(duì)上述的研究提出質(zhì)疑，但依據(jù)聽說之間的密切關(guān)系，至少可以尋找到一條間接實(shí)現(xiàn)口試試題等值連接的途徑，而且這條途徑也是具有一定的理論支撐的。

2.1.3 MHK口試等值的可行性

MHK的研發(fā)者在建構(gòu)理論框架時(shí)就提出：作為語(yǔ)言測(cè)驗(yàn)，MHK所考查的是“漢語(yǔ)交際能力”，其含義如下：（1）運(yùn)用漢語(yǔ)獲得信息和傳遞信息的能力；（2）對(duì)漢語(yǔ)環(huán)境的適應(yīng)能力；（3）在漢語(yǔ)環(huán)境中完成一定工作和學(xué)習(xí)任務(wù)的能力；（4）不是某種先天的能力，而是經(jīng)過適當(dāng)?shù)膶W(xué)習(xí)、練習(xí)而獲得的能力；（5）不是某種潛在能力，而是在考生參加考試時(shí)已經(jīng)具備的能力；（6）在一定情境、一定語(yǔ)言背景中運(yùn)用漢語(yǔ)的能力，而不是某些特定的語(yǔ)法知識(shí)，不是對(duì)某個(gè)單詞、句式的記憶或識(shí)記。其中特別指出，“在考試開發(fā)過程中，將從聽、說、讀、寫四個(gè)方面來考查考生的漢語(yǔ)交際能力，但是MHK并不將聽、說、讀、寫看成完全獨(dú)立的四個(gè)部分，它們之間是有聯(lián)系的?！保ㄖx小慶，2002）因此，從測(cè)驗(yàn)的構(gòu)念角度上看，MHK口試主觀性試題以聽力理解部分間接作為錨題是有依據(jù)的。

最主要的是，對(duì)于MHK來說，同一次考試的口試試題不同，但無論口試的批次有多少，其筆試部分的客觀題是完全一樣，這就為采用客觀題聽力理解部分作錨提供了基礎(chǔ)條件。另外，對(duì)于同一次MHK口試來說，不同批次口試的閱卷評(píng)分是混合在一起同時(shí)進(jìn)行的，而且借助計(jì)算機(jī)網(wǎng)上閱卷系統(tǒng)對(duì)評(píng)分質(zhì)量進(jìn)行了有效控制，各批次口試答題數(shù)據(jù)都是隨機(jī)分配給閱卷員的，因此，可以假設(shè)在大樣本量的情況下各套試題的評(píng)分誤差是均等的。在前期的有關(guān)研究中發(fā)現(xiàn)，各套口試試卷的分?jǐn)?shù)與聽力理解分?jǐn)?shù)的相關(guān)均在0.6上，兩者之間具有實(shí)質(zhì)性相關(guān)。

據(jù)上，研究擬以MHK口試為例，采用客觀題中的聽力理解分測(cè)驗(yàn)作為共同題，進(jìn)行MHK口試分?jǐn)?shù)等值連接的可行性探索。目的是對(duì)主觀性試題等值連接的可能性和可行性進(jìn)行初步探究，期望能為確保MHK測(cè)驗(yàn)公平性做些有益的嘗試，同時(shí)也能為尋求主觀性試題等值連接的可行性做些積極探索。

2.2 研究設(shè)計(jì)

研究使用MHK（三級(jí)）實(shí)測(cè)數(shù)據(jù)，探討用客觀題中聽力理解分測(cè)驗(yàn)作為共同題，進(jìn)行口試主觀性試題等值的可行性，并擬將等值后的數(shù)據(jù)結(jié)果與隨機(jī)等組的數(shù)據(jù)結(jié)果進(jìn)行比較，初步判斷聽力理解作錨的效果。

2.2.1 研究對(duì)象

研究使用MHK某年11月正式考試的實(shí)測(cè)口試及其對(duì)應(yīng)的筆試資料。本次考試，口試共進(jìn)行了12批次，因硬件條件所限，各批次的人數(shù)有較大差異。因研究是探索性的，主要是想探討聽力理解作錨的可行性。為使研究能順利進(jìn)行，從中選取了4套樣本量相當(dāng)?shù)目谠囋嚲碜鳛閷?shí)驗(yàn)樣本，主要的考慮如下：首先，這4套試卷的考生樣本各自都是對(duì)總體的分層隨機(jī)抽樣的結(jié)果，保證了各套試卷的樣本是大樣本的隨機(jī)組，可以進(jìn)行隨機(jī)等組設(shè)計(jì)；其次，保證了對(duì)總體的代表性，而對(duì)總體的代表性是等值對(duì)樣本最重要的要求之一。

由于參加不同試卷口試的考生共同參加了同樣的筆試測(cè)驗(yàn)，為了便于理解和說明，研究使用“組合試卷”這個(gè)概念，即將筆試中的客觀多項(xiàng)選擇題（Multiple Choice，MC）的聽力理解分測(cè)驗(yàn)抽取出來作為共同題，與4套均為主觀性試題（Construct Response，CR）的口試試卷重新組合成4套主客觀組合試卷，也就是4批次隨機(jī)抽樣的考生參加了4套不同試卷測(cè)驗(yàn)。研究要實(shí)現(xiàn)的就是使用組合試卷中的聽力理解部分作為錨題，對(duì)不同組合試卷中口試部分的分?jǐn)?shù)進(jìn)行等值處理。組合試卷的結(jié)構(gòu)如表2所示。

2.2.2 研究方法

等值的方法有多種，既可以在經(jīng)典測(cè)量理論（the Classical Testing Theory,CTT）下等值，也可在項(xiàng)目反應(yīng)理論（the Item Response Theory,IRT）下等值。無論采用哪種理論，等值的過程均涉及等值數(shù)據(jù)收集和等值數(shù)據(jù)處理兩部分。丁樹良與熊建華（2003）在其研究中提到，在IRT框架下實(shí)施等值，不僅理論完善、相關(guān)研究眾多，前提條件較容易滿足，而且等值關(guān)系也十分簡(jiǎn)潔。因此，研究中的組合試卷等值基于IRT進(jìn)行等值處理。IRT等值分為以下幾個(gè)步驟：一是IRT連接數(shù)據(jù)收集設(shè)計(jì)；二是選擇適合的IRT等值模型；三是項(xiàng)目參數(shù)和能力參數(shù)的估計(jì)；四是利用錨題或共同組求出轉(zhuǎn)換系數(shù)，進(jìn)行量表轉(zhuǎn)換，將項(xiàng)目參數(shù)或能力值參數(shù)估計(jì)結(jié)果置于同一尺度上，實(shí)現(xiàn)項(xiàng)目參數(shù)等值和能力參數(shù)等值；五是根據(jù)需要選擇將能力值轉(zhuǎn)換成為報(bào)告分?jǐn)?shù)。下面就研究中等值流程重要的幾個(gè)步驟進(jìn)行簡(jiǎn)要說明：

（1）研究采用非等組錨題設(shè)計(jì)，即通過聽力理解作為錨題來實(shí)現(xiàn)不同套口試試卷間的分?jǐn)?shù)連接。

（2）研究資料涉及0、1計(jì)分的客觀題和多級(jí)計(jì)分的口試主觀性試題。在多級(jí)計(jì)分題目的等值處理中，國(guó)內(nèi)外研究中最常用的多級(jí)計(jì)分項(xiàng)目反應(yīng)模型是等級(jí)反應(yīng)模型（Graded Response Model，GRM）。GRM也可以進(jìn)行0、1計(jì)分題目的參數(shù)估計(jì)，因此研究采用GRM模型進(jìn)行參數(shù)估計(jì)。

（3）使用項(xiàng)目分析軟件PARSCALE進(jìn)行每道題的參數(shù)估計(jì)，得到相應(yīng)項(xiàng)目參數(shù)值和考生能力值。研究采用分別估計(jì)的方法，參數(shù)標(biāo)定采用平均數(shù)和平均數(shù)方法（Mean/mean meathod，mm）及平均數(shù)和標(biāo)準(zhǔn)偏差方法（mean/sigma method，ms）。

3 研究結(jié)果

3.1 等值設(shè)計(jì)條件檢驗(yàn)

將研究材料中4套組合試卷的其中1套視為標(biāo)準(zhǔn)卷，另外3套待等值試卷分別稱為新卷1、新卷2、新卷3，標(biāo)準(zhǔn)卷與新卷的相關(guān)統(tǒng)計(jì)分析如表3所示。

為了進(jìn)一步說明組合試卷的單維性，上述組合試卷中的4種題型（抑或看成4個(gè)分測(cè)驗(yàn)）作為變量進(jìn)入因素分析，采用主成分分析法提取因素，結(jié)果發(fā)現(xiàn)每份組合試卷都只有一個(gè)因素的特征值大于1，分析結(jié)果為聽力理解部分作錨提供了支持。因素分析具體情況如表4所示。

表2 主客觀組合試卷結(jié)構(gòu)

表3 主客觀組合試卷統(tǒng)計(jì)數(shù)據(jù)

表4 各組合試卷探索性因素分析結(jié)果

3.2 等值連接數(shù)據(jù)處理結(jié)果

等級(jí)反應(yīng)模型既可以估計(jì)0、1計(jì)分，也可以估計(jì)多級(jí)計(jì)分。表5-6是采用分別估計(jì)的方法對(duì)4套組合試卷進(jìn)行參數(shù)估計(jì)的結(jié)果。

表5 各組合試卷錨題參數(shù)估計(jì)均值——0、1計(jì)分

由于等級(jí)反應(yīng)模型可以估計(jì)多級(jí)計(jì)分項(xiàng)目的參數(shù)，對(duì)于口試這種等級(jí)評(píng)分項(xiàng)目，等級(jí)反應(yīng)模型在諸多模型中是概念假設(shè)上最適用的。

3.3 等值連接系數(shù)標(biāo)定

由3.1參數(shù)估計(jì)的結(jié)果，按照MM與MS參數(shù)標(biāo)定方法進(jìn)行A、B系數(shù)的求取，然后使用轉(zhuǎn)換公式，實(shí)現(xiàn)各組合試卷參數(shù)與標(biāo)準(zhǔn)卷之間的連接，得到了轉(zhuǎn)后的考生能力值如表7所示。

3.4 等值連接效果判斷

等值完成后需對(duì)等值結(jié)果進(jìn)行評(píng)價(jià)，而評(píng)價(jià)的指標(biāo)就是等值關(guān)系中誤差的大小。等值誤差包括隨機(jī)誤差和系統(tǒng)誤差。隨機(jī)誤差由抽樣造成，隨著樣本容量的增大而減?。幌到y(tǒng)誤差則比隨機(jī)誤差復(fù)雜，造成誤差的原因有多種情況如：由等值方法的假設(shè)沒有被滿足、等值模型與等值數(shù)據(jù)并不擬合等所使用的等值方法引入的誤差；由沒有嚴(yán)格遵守收集數(shù)據(jù)的方法與要求而引入的誤差，等等。本研究目的是探討聽力理解部分作錨為口試試題分?jǐn)?shù)進(jìn)行等值的可行性，因此研究設(shè)計(jì)中并不涉及等值模型選擇、連接系數(shù)標(biāo)定方法等等值方法的比較，主要是探討使用聽力理解作錨這種等值設(shè)計(jì)進(jìn)行等值，能否縮小由試題難度差異帶來的分?jǐn)?shù)差異。比較理想的辦法是使用共同組設(shè)計(jì)進(jìn)行等值，然后比較聽力理解作錨等值與共同組等值的一致性，但共同組設(shè)計(jì)因時(shí)間、人力和物力限制，目前無法完成。

表6 各組合試卷口試題參數(shù)估計(jì)—多級(jí)計(jì)分

對(duì)MHK數(shù)據(jù)及其施測(cè)情況進(jìn)行分析，發(fā)現(xiàn)其有著獨(dú)特之處：

（1）MHK口試的施測(cè)形式是相同批次在不同考點(diǎn)同時(shí)進(jìn)行，也就是同一批次考生是隨機(jī)分布在各個(gè)考點(diǎn)的。前四個(gè)批次口試人數(shù)相當(dāng)，其實(shí)際情況便是該批次的考生是來自新疆地區(qū)的各個(gè)考點(diǎn)的，同一考點(diǎn)的考生又是隨機(jī)分配批次的。因此前四套可以看成在大樣本量中分層隨機(jī)抽樣而來的樣本，符合隨機(jī)等組的抽樣原則。

（2）為了驗(yàn)證這四批次是否為大樣本的隨機(jī)組，下面具體分析參加這四批次口試考生的筆試原始總分（包括聽力理解、閱讀理解、書面表達(dá)、寫作四個(gè)部分）分布情況，結(jié)果如表8所示，由表8可以看出，參加這四套組合試卷考生的語(yǔ)言能力水平分布十分相似。

因此，研究將參加MHK考試口試前四套的各批次考生視為隨機(jī)等組，隨機(jī)等組設(shè)計(jì)的思路是從同一總體中隨機(jī)抽取兩組考生，這兩組考生被認(rèn)為在能力分布上是相同的或很接近，考生所得分?jǐn)?shù)上的差異反應(yīng)的就是題目難度上的差異。具體分析各組合試卷考生口試原始分分布情況如表9所示。

由表9可以看出，新卷與標(biāo)準(zhǔn)卷之間平均值有差異，其中以新卷3與標(biāo)準(zhǔn)卷差異最大。研究將以隨機(jī)等組的考生原始分?jǐn)?shù)分布情況與等值后考生的能力值轉(zhuǎn)換后的分?jǐn)?shù)分布情況進(jìn)行了對(duì)比，比較等值處理后的分?jǐn)?shù)在平均值附近分布上的差異是否減小，以此來初步判斷聽力理解作錨的等值設(shè)計(jì)的可行性。

由表10可以看出，兩種標(biāo)定方法得到的結(jié)果基本一致。與表9中考生原始分?jǐn)?shù)的平均值之間差異比較，可以發(fā)現(xiàn)經(jīng)過等值處理之后各批次考生口試平均分差距縮小，且更接近標(biāo)桿卷平均分，這種分布情況更符合各批次考生水平相近的實(shí)際情況。說明用聽力作錨的等值處理后的分?jǐn)?shù)更能代表考生的實(shí)際水平。

表7 等值系數(shù)表

表8 各組合試卷考生筆試總分分布情況

表9 各組合試卷考生口試分?jǐn)?shù)分布情況

表10 等值后考生口試分?jǐn)?shù)均值

4 分析與討論

4.1 關(guān)于聽力作錨進(jìn)行等值的相關(guān)問題

通過相關(guān)分析及因素分析發(fā)現(xiàn)，MHK聽力理解與口試在很大程度上考查了相似的能力，客觀題聽力理解部分作為錨題進(jìn)行口試等值這種等值設(shè)計(jì)在一定程度上能夠縮小由試題難度帶來的分?jǐn)?shù)差異，具有可行性，上文等值處理結(jié)果是對(duì)其可行性的一次驗(yàn)證。

研究基于MHK實(shí)測(cè)資料中聽力理解與口試有著實(shí)質(zhì)性相關(guān)的特點(diǎn)，結(jié)合前人對(duì)聽說關(guān)系的研究及國(guó)內(nèi)外相關(guān)等值研究的基礎(chǔ)上提出的，所得到的等值結(jié)果是基于MHK的等值情境，MHK等值情境的特殊性可能會(huì)限制其等值連接結(jié)果的可推廣度，但是由于語(yǔ)言能力是一種綜合的交際能力，即使測(cè)驗(yàn)在編制的時(shí)候是分技能進(jìn)行考查的，各部分仍具有一定的相關(guān)，在沒有其他更好的辦法與途徑的時(shí)候，這種間接橋接的等值連接思路是值得探討的。

4.2 關(guān)于等值效果比較的檢驗(yàn)標(biāo)準(zhǔn)問題

與等值相關(guān)的研究的難點(diǎn)之一就是等值效果檢驗(yàn)標(biāo)準(zhǔn)的確定問題。多數(shù)等值研究中所使用的等值檢驗(yàn)標(biāo)準(zhǔn)多是用于比較等值方法是否一致的證據(jù)，但不能提供精確的程度，因?yàn)椴煌椒ㄖg很難找到比較的基準(zhǔn)，目前的研究同樣面臨這個(gè)問題。理想的情況是，在最短時(shí)間間隔內(nèi)將兩個(gè)不同的口試試卷施測(cè)于一組考生，以共同組等值方式作為檢驗(yàn)標(biāo)準(zhǔn)，這樣能對(duì)等值效果進(jìn)行更有力的說明。但是這種方式很難實(shí)現(xiàn)，一是很難保證參加兩次施測(cè)的考生具有相同的動(dòng)機(jī)水平；二是口試閱卷評(píng)分任務(wù)量大，專門組織等值施測(cè)代價(jià)較高；三是這樣連續(xù)實(shí)測(cè)兩次，尤其對(duì)于口試這樣的主觀性試題來說，很可能會(huì)存在練習(xí)效應(yīng)。因此依據(jù)MHK測(cè)試實(shí)施特點(diǎn)及其數(shù)據(jù)特點(diǎn)，研究選擇了“隨機(jī)等組設(shè)計(jì)”作為評(píng)價(jià)依據(jù)。從研究目的來說，是想探索聽力作錨進(jìn)行口試試題等值連接的可行性，并非要進(jìn)行嚴(yán)格上意義上的等值連接處理，因此對(duì)其等值誤差的來源及分析暫不討論。

4.3 有待進(jìn)一步研究的問題

近年來，隨著測(cè)量理論的發(fā)展，心理測(cè)量學(xué)家們對(duì)測(cè)驗(yàn)等值問題給予越來越多的關(guān)注，不僅提出了許多等值方法，而且圍繞等值問題展開了許多方面的研究。研究問題包括：不同等值設(shè)計(jì)之間的比較，不同理論模型之間的比較，不同等值系數(shù)估計(jì)方法之間的比較，等值誤差因素研究，等值誤差估計(jì)方法研究，等等（謝小慶，2000）。但是多數(shù)等值研究都是針對(duì)客觀性試題，缺乏對(duì)主觀性試題等值連接的研究。然而，在實(shí)際操作中又有許多大規(guī)模測(cè)驗(yàn)都面臨著主觀性試題等值連接問題。由于等值存在諸多的設(shè)計(jì)方案、模型和方法，而主觀性試題等值連接又存在諸多導(dǎo)致等值誤差的因素，圍繞主觀性試題等值連接問題，還需要在多方面展開進(jìn)一步的研究，其中以主觀性試題評(píng)分質(zhì)量控制最為關(guān)鍵，希望能在接下來的研究中能對(duì)此展開討論。

[1]Dorans,N.J.&Holland,P.W.,Brennan,R.L..(Ed).Educational measurement:Fourth Edition(ACE/Praeger Series on Higher Education)[M].New York:Praeger Publishers Inc.2006.

[2]EijiMuraki,Catherine M.Hombo&Yong-Won Lee.Equating and linking of performance assessments[J].Applied Psychological Measurement,2000,24,325-337.

[3]Harrison&Carrol Franklin.A study of the relationship between speaking and listening comprehension in the single individual[D].Montana State University,1959.

[4]Kadriye Ercikan,Richard D.Schwarz&Marc W.Calibration and scoring of tests with multiple-choice and constructed-response item types[J].Journal of Educational Measurement,.1998(35),137-154.

[5]Sooyeon Kim,Michael E.Walker&Frederick Mehale.Comparison among designs for equating mixed-format tests in larger-scale assessments[J].Journal of Measurement,2010（47），36-53.

[6]Woodford,E.Protase.An introduction to TOEIC:the initial validity study[R].Educational Testing Service.

[7]丁樹良，熊建華.項(xiàng)目反應(yīng)理論框架下幾個(gè)等值問題的探討[J].中國(guó)考試，2003（12）：14-15.

[8]楊惠元.漢語(yǔ)聽力說話教學(xué)法[M].北京：北京語(yǔ)言大學(xué)出版社，2002.

[9]謝小慶.對(duì)15種測(cè)驗(yàn)等值方法的比較研究[J].心理學(xué)報(bào)，2000（32）：217-223.

[10]謝小慶.中國(guó)少數(shù)民族漢語(yǔ)水平等級(jí)考試的理論框架[C].考試研究文集，2002：17-36.

[11] 謝小慶.HSK和MHK的等值[J].考試研究，2005（1）：33-46.

[12]謝小慶.考試分?jǐn)?shù)等值的新框架[J].考試研究，2008（4）：4-17.

（責(zé)任編輯周黎明）

Research on the Feasibility of Equating Tests with Constructed-response Items

PENG Hengli，ZHANG Xiuxiu and LIUHui

Equating the test scores is crucial to the fairness and reliability of a test.Nowadays most test forms with multiple-choice(MC)items have been equated to make sure that the scores can be comparable in most large-scale assessments.Whereas tests with constructed-response(CR)items pose some challenge in the area of equating.The number of items used in CR tests is typically much smaller,moreover those items are easier to be exposed and the item difficulty is harder to be controlled.Also CR items tend to be difficult to score objectively and reliably.The problem discussed in this study comes from the real testing procedure,which meets the practical needs.Using data from one administration of MHK,a large-scale exam for testing Chinese minority‘s Chinese proficiency,this study investigates the use of MC items from the listening comprehension part as anchor items to equate CR items in the oral test of MHK in the context of the Item Response Theory methodology,using random group design to verify the equivalent accuracy.The results support the feasibility of the use of the proposed equating method.Since there are a lot of relevant practical issues in the equating procedure of CR items,the conclusion of this study needs further verification.

MHK；Oral Test；Constructed-response Items；Equating

G405

1005-8427(2014)12-0024-8

本文系國(guó)家語(yǔ)委“十二五”科研規(guī)劃重點(diǎn)項(xiàng)目（編號(hào)：ZD1125-6)的研究成果之一。

彭恒利，男，北京語(yǔ)言大學(xué)語(yǔ)言科學(xué)院，副研究員（北京 100083）

張秀秀，女，北京語(yǔ)言大學(xué)語(yǔ)言科學(xué)院，在讀研究生（北京 100083）

劉慧，女，北京語(yǔ)言大學(xué)語(yǔ)言科學(xué)院，助理研究員，博士（北京 100083）