亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

兩種PETS計算機自適應(yīng)序列測試框架比較研究

2013-11-08 08:05:56關(guān)丹丹劉慶思

中國考試 2013年1期

關(guān)丹丹劉慶思

1 引言

全國英語等級考試（Public English Tests System，PETS）是國內(nèi)目前唯一進行嚴格題目試測并有現(xiàn)代化題庫支持的大規(guī)模社會性考試，所有客觀題都經(jīng)過試測和校準，采用的是Rasch測量模型。PETS多級別標準的系統(tǒng)描述處于世界先進之列，5個級別對考生所掌握語言知識和語言能力的要求具有極強的系統(tǒng)性，較高級別涵蓋較低級別的要求，并在較低級別的基礎(chǔ)上有所拓寬和加深；同時，各級別對考生語言能力的要求建立在同一能力量表之上，他們之間在統(tǒng)計上具有較強的可比性（劉慶思，2006）。

計算機自適應(yīng)序列測試（Computer-Adaptive Sequential Testing，CAST）是一種既能保持計算機自適應(yīng)測試的優(yōu)點，又能堅持專家智慧的設(shè)計（Wainer&Kiely，1987；Luech&Nungester，1998），正在成為考試改革的風向標。CAST允許學科專家對考試內(nèi)容的均衡性、科學性進行把控，有利于提高考試質(zhì)量；使考生能夠繼續(xù)沿用參加紙筆考試時所采用的答題策略；同時，還使對題池的維護更為方便，能夠適當減輕網(wǎng)絡(luò)和服務(wù)器的工作負擔（關(guān)丹丹& 劉慶思，2010）。

PETS試圖在CAST領(lǐng)域進行探索，并開發(fā)出相應(yīng)的測試系統(tǒng)（PETS-CAST），以便為考生提供優(yōu)質(zhì)的服務(wù)（關(guān)丹丹，劉慶思，莫春暉，2011）。那么，適合PETS特點的“最佳”CAST框架是什么？多少個階段，每個階段多少個模塊，每個模塊多少試題，如何計分，以及如何實現(xiàn)適應(yīng)性選擇才能保障對英語水平跨度極大的5個級別進行相對準確的測量？

模擬研究是一種在計算機上進行實驗的數(shù)學技術(shù)，被廣泛應(yīng)用于參數(shù)估計、認知診斷、CAT等各個領(lǐng)域，通過模擬研究，可預(yù)先獲知參數(shù)的真實值，然后根據(jù)參數(shù)估計方法得到其估計值，通過比較不同條件或者不同方法下的估計值與真實值的差異或者其他評價指標，可以檢驗和比較所開發(fā)系統(tǒng)的穩(wěn)定性與精確度。

為了比較不同PETS-CAST測試框架的效果，研究者根據(jù)PETS考試特點設(shè)計了兩個測試框架，并通過模擬研究對比兩種CAST框架的基本性能，檢驗測試的準確性和可靠性，以期為PETS實現(xiàn)CAST設(shè)計奠定堅實的理論基礎(chǔ)。

2 PETS-CAST設(shè)計

PETS-CAST將對考生在英語語言知識掌握方面和聽、讀方面的能力進行考查，采用的題型為較適合自適應(yīng)測試需要的選擇題。因?qū)懽髂壳吧袩o法即時計分，暫時排除適應(yīng)性過程。研究者按照自適應(yīng)序列測試理念，將PETS筆試的聽力、完形填空和閱讀理解三部分作為測試內(nèi)容，提出PETS-CAST測試的設(shè)想，即按測試內(nèi)容（聽力、英語知識運用和閱讀理解）分多個階段測試，每個階段結(jié)束后，適應(yīng)性地選擇下一階段適合考生水平的試題內(nèi)容。構(gòu)成每個階段的不同模塊的題量大小與PETS紙筆測試中該級別該部分的題量保持一致，從而實現(xiàn)對考生在聽力、英語知識運用和閱讀理解方面的能力進行準確、個性化考查的目的。

根據(jù)PETS考試的特點，經(jīng)語言測量學專家、PETS考試設(shè)計者和心理測量學家的討論，最終提出了兩種CAST設(shè)計方案：一是采用1-3-5三階段自適應(yīng)序列測試框架，二是采用1-2-5-5四階段自適應(yīng)序列測試框架，見圖1和圖2。在1-3-5框架中，每個模板由9個模塊構(gòu)成，組成9條路徑。在1-2-5-5框架中，每個模板由13個模塊構(gòu)成，組成13條路徑。

PETS-CAST系統(tǒng)會對考生解答每一階段試題的情況進行分析，估算出其大致的語言能力，然后按照圖1或圖2所示的測試框架為其投放相應(yīng)難度（級別）的下一階段的試題。試題難度恰當與否是根據(jù)考生能力確定的。根據(jù)PETS各級別合格標準，PETS-CAST為每個階段結(jié)束后確定了選擇下一階段的能力區(qū)間，從而為各階段不同難度（級別）試題的選擇奠定了基礎(chǔ)，即建立了路徑規(guī)則。

兩種設(shè)計的相同點是，在初期的標準確定階段，所有考生都接受中等難度的PETS三級完形填空模塊，都作答完形填空、聽力和閱讀理解，從而確保英語考查內(nèi)容的平衡。兩種設(shè)計的不同點為，除了由于階段不同、模塊數(shù)量不同所帶來的路徑不同外，在能力估計上也做了不同考慮。對于1-3-5設(shè)計而言，無論考生最終接受的是哪一路徑的測試，其PETS三級完形填空的作答成績都作為考生初始能力參與后續(xù)的能力估計。而對于1-2-5-5設(shè)計，PETS三級完形填空作答結(jié)束后，若考生的能力判斷為在三級范圍內(nèi)，直接進入PETS三級聽力模塊，且該階段的能力估計作為初始值參與后續(xù)的能力估計；若考生的能力判斷低于三級或者高于三級，系統(tǒng)會自動為其拋出PETS二級完形填空或PETS四級完形填空?？紤]到初始階段對考生能力估計的不穩(wěn)定性，會導致對考生能力估計值向正向或負向推得很遠（Rulison&Loken，2009；張華華，2002），因此只將三級完形填空的成績作為第二階段的選題依據(jù)，不作為初試能力值參與后續(xù)的能力估計過程。

圖2 1-2-5-5四階段CAST框架

3 模擬研究設(shè)計

為了檢驗PETS-CAST的基本性能，本研究根據(jù)CAST模型的要求編制了相應(yīng)的模擬程序。

3.1 模型選擇

本研究采用Rasch模型。所有試題來自PETS題庫，由命題專家組建模塊和模板，試題難度參數(shù)已知，所有試題均為0/1計分。根據(jù)研究需要，組建了兩套試題（panel#1和panel#2），模擬過程以panel#1為主，僅在模擬復本重測信度和分類一致性時使用panel#2。

3.2 自適應(yīng)序列框架

本研究分別采用1-3-5三階段和1-2-5-5四階段自適應(yīng)序列測試框架。

3.3 模擬研究的程序設(shè)計

研究采用蒙特卡羅模擬法進行（余嘉元，汪存友，2007）。為此編寫了考生能力真值生成程序、自適應(yīng)序列測試的模擬測試程序和考生能力估算程序。模擬過程如下：首先模擬生成一批考生能力真值，并讀入各模塊中所有試題的參數(shù)；然后，啟動自適應(yīng)序列測試的模擬測試程序，根據(jù)既定的路徑規(guī)則，在相應(yīng)模塊作答結(jié)束后，調(diào)用適合考生水平的下一階段的模塊，同時根據(jù)模擬產(chǎn)生的作答數(shù)據(jù)采用條件極大似然法不斷估算考生能力值，直至考生做完閱讀理解模塊，測試終止。測試中采用均勻生成隨機數(shù)的方法來確定考生得分，具體做法是先依據(jù)考生能力真值θ和試題難度參數(shù)，根據(jù)公式算考生 j在試題 i上的答對概率Pji，產(chǎn)生一個RAND（0，1）的隨機數(shù)Rji，j=1，2，3…N；i=1，2，3…M。如果Pji＞Rji，則認為該考生在試題i上的作答正確，令 Xji=1，否則Xji=0。據(jù)此，生成考生在每一階段試題上的做答反應(yīng)。根據(jù)每一階段結(jié)束后考生的能力值、自適應(yīng)路徑和PETS各級別能力范圍標準，確定下一階段投放給考生的試題模塊，考生完成閱讀理解模塊后測試結(jié)束。

3.4 模擬數(shù)據(jù)結(jié)構(gòu)

考生能力水平參數(shù)θ服從平均數(shù)μ=0，標準差σ=1的標準正態(tài)分布。4個樣本的模擬能力情況見表1。

表1 考生模擬能力分布

3.5 評價能力估算精度的指標設(shè)計

評價能力估算精度的指標有很多，本研究重點關(guān)注六個：一是考生估計能力與真實能力的相關(guān)，相關(guān)系數(shù)越高，表明能力估計越可靠。二是能力估算的標準誤SE（θ），考生能力估算的標準誤平均數(shù)小于0.3，即表明測驗提供了足夠的信息量，整體估算的標準誤較為理想。三是測量偏差（Bias），計算公式為利用真實能力值θ與估算能力值?的平均誤差來衡量自適應(yīng)序列測試系統(tǒng)對考生能力估算的準確性。四是絕對測量偏差（ABS），計算公式為實能力值θ與估算能力值θ?的誤差取絕對值后的平均數(shù)來衡量自適應(yīng)序列測試系統(tǒng)對考生能力估算的準確性；ABS可以排除測量偏差可能有正有負而帶來的累加抵消現(xiàn)象。五是均方根誤差（RMSE），計算公式為RMSE=利用真實能力值θ與估算能力值θ?的均方根誤差（Root Mean Squared Error，RMSE）評估自適應(yīng)序列測試系統(tǒng)對考生能力估算的準確度；RMSE利用對測量偏差進行平方處理的原理也同樣排除了測量偏差可能有正有負而帶來的累加抵消現(xiàn)象。六是分類決策一致性系數(shù)（Kappa），對于水平性考試而言，對考生的分類決策準確性和一致性比相關(guān)系數(shù)更有意義；由于PETS-CAST考試的分類結(jié)果有六類：不合格、一級合格、二級合格、三級合格、四級合格和五級合格，需要使用Kappa系數(shù)作為決策一致性和準確性的指標。表觀察一致率；稱為期望一致率。Landis和Koch（1977）將Kappa系數(shù)的大小劃分了6個區(qū)段：K＜0，一致性強度極差；0.0～0.2，微弱；0.21～0.40，弱；0.41～0.60，中度；0.61～0.80，高度；0.81～1.00，極強。

4 模擬研究結(jié)果與討論

4.1 模擬能力與估計能力的相關(guān)

計算每個階段結(jié)束后考生的能力估計值與其模擬能力值之間的相關(guān)，見表2。

由表2可知，隨著階段的增加，考生能力估計值與其模擬能力值之間的相關(guān)逐漸增高；樣本大小對相關(guān)系數(shù)沒有明顯影響。從相關(guān)分析來看，1-2-5-5四階段設(shè)計因多一個階段，最終的能力估計值與模擬能力值之間的相關(guān)（平均為0.968）要高于1-3-5三階段設(shè)計（平均為0.961）。

4.2 能力估計標準誤

計算每個階段結(jié)束后考生能力估計的標準誤，見表3。

由表3可知，隨著階段的增加，考生能力估計值的標準誤逐漸減小，樣本大小對估計標準誤沒有明顯影響。不同樣本下，1-2-5-5四階段設(shè)計最終的能力估計標準誤都小于0.180，好于1-3-5三階段設(shè)計（測量標準誤平均為0.202）。

4.3 測量偏差、絕對測量偏差與均方根誤差

計算能力估計的測量偏差、絕對測量偏差與均方根誤差，見表4。

由表4可知，樣本大小對測量偏差、絕對測量偏差與均方根誤差沒有明顯影響。就絕對測量偏差和均方根誤差而言，1-2-5-5四階段設(shè)計好于1-3-5三階段設(shè)計，準確性更高。

4.4 重測信度與復本重測信度

根據(jù)最初生成的四個樣本量大小不同的考生群體的能力真值，利用蒙特卡羅模擬方法，再次模擬考生在兩種CAST框架（1-3-5和1-2-5-5）上的作答反應(yīng)，兩次能力估計的相關(guān)即為重測信度。

另外，原考生群體能力真值不變，換一套試題（panel#2）后，利用蒙特卡洛模擬方法，生成考生在兩種CAST框架（1-3-5和1-2-5-5）上的作答反應(yīng)，兩次能力估計的相關(guān)即為復本重測信度，見表5。

由表5可知，樣本大小對重測信度與復本重測信度沒有明顯影響。就重測信度而言，1-2-5-5四階段設(shè)計好于1-3-5三階段設(shè)計，可靠性更高；兩種設(shè)計的復本重測信度基本相當。

表2 各階段能力估計值與模擬能力值相關(guān)

表3 各階段能力估計的標準誤

表4 測量偏差、絕對測量偏差與均方根誤差

4.5 分類準確性與一致性

根據(jù)考生的模擬能力值與估計能力值分別對考生的英語水平進行分類后（0/1/2/3/4/5），可以計算Kappa系數(shù)，作為CAST測試對考生的分類準確性指標；另外，根據(jù)對同一批考生模擬的復本重測情況，基于兩次測試的估計值對考生的英語水平進行分類（0/1/2/3/4/5），可以計算Kappa系數(shù)，作為兩次測試對考生的分類一致性指標，見表6。

由表6可知，樣本大小對分類準確性與一致性沒有明顯影響。就Kappa系數(shù)而言，兩個框架的決策準確性均在0.6以上，準確度較高；但兩次測試的分類一致性則在0.50以上，屬于中度一致。

5 總結(jié)

模擬研究結(jié)果表明，無論是哪種測試框架，PETS-CAST測試隨著階段的增加，都提供了更多的測驗信息，能力估計的標準誤逐漸減小，模擬能力與估計能力呈現(xiàn)出高相關(guān)。而且，能力估計的測量偏差、絕對測量偏差和均方根誤差均比較小，顯示了PETS實現(xiàn)CAST設(shè)計的準確性較高。另外，模擬研究還顯示，PETS-CAST的重測信度和復本重測信度很高，均在0.90以上。依據(jù)PETS-CAST成績對考生的英語水平進行分類的準確性在0.6以上，兩次測試的分類一致性在0.50以上，說明基于PETS-CAST測試對考生進行分類比較準確、可靠。樣本量大小對模擬效果影響不大。這說明在選擇真實考生試測時，只要樣本分布合理，不必選擇過大樣本量就可獲得可靠的結(jié)果。

就兩種PETS計算機自適應(yīng)序列測試框架比較而言，從測量指標來看，1-2-5-5框架因增加了一個階段，提供了更多的測驗信息量，對考生能力估計及分類決策的準確性更高，結(jié)果更為可靠；從對兩端考生的測量精度考慮，盡管1-3-5測試框架也能提供比較好的測量結(jié)果，但考慮到PETS考試跨度極大，研究者認為對兩端考生的測量（路徑345和路徑321）從內(nèi)容契合性上不如1-2-5-5框架（路徑3455和路徑3211）適應(yīng)性強。從考試的適應(yīng)性和考試的高利害性來看，PETS考試屬于高利害考試，1-2-5-5框架適應(yīng)性更強，對考生的測量更準確，更符合高利害考試的訴求。

綜上，研究者認為，相對于1-3-5三階段測試框架，PETS-CAST采用1-2-5-5四階段測試框架更為合理。下一步將在真實考生中對PETS-CAST測試系統(tǒng)進行反復試驗，以進一步檢驗其測試性能。

表5 重測信度與復本重測信度

表6 分類準確性與一致性（Kappa系數(shù)）

[1]關(guān)丹丹，劉慶思.計算機自適應(yīng)序列考試概述[J].中國考試，2010（1）：29-35.

[2]關(guān)丹丹，劉慶思，莫春暉.PETS計算機自適應(yīng)序列測試設(shè)計與模擬研究[J].心理學探新，2011，31（5）：467-471.

[3]劉慶思.英語等級考試題庫介紹[J].中國考試，2006（12）：21-24.

[4]張華華.計算機自適應(yīng)考試設(shè)計中的誤區(qū)[J].考試研究，2002，第二輯：35-39.

[5]余嘉元，汪存友.項目反應(yīng)理論參數(shù)估算研究中的蒙特卡羅方法[J].南京師大學報（社會科學版），2007（1）：87-91.

[6]Landis J.R.&Koch G.G.The measurement of observer agreement for Categorical data.Biometrics，1977，33，159-174.

[7]Luecht，R.M.，Nungester，R.J.Some practical examples of computer-adaptive sequential testing.Journal of Educational Measurement，1998（35）:229-249.

[8]Wainer H.，Dorans N.，Eignor D.，F(xiàn)laugher R.，Green B.，Misley R.，Steinberg L.&Thissen D.Computerized adaptive testing:A primer[M].Hillsdale，N.J.:Lawrence Erlbaum，2nd ，2000，166.

[9]Rulison，K.，&Loken，E.I’ve fallen and I can’t get up:can high-ability students recover from early mistakes in CAT?Applied Psychological Measurement，2009，33（2），83–101.