劉慶思 關(guān)丹丹
計(jì)算機(jī)自適應(yīng)序列測試(Computer-Adaptive Sequential Testing,CAST)是一種在計(jì)算機(jī)自適應(yīng)測試(CAT)基礎(chǔ)上開發(fā)出的計(jì)算機(jī)化測試形式,幾乎繼承了CAT所有的優(yōu)點(diǎn),同時(shí)還有獨(dú)到之處,已經(jīng)成為計(jì)算機(jī)輔助測試發(fā)展的方向(關(guān)丹丹&劉慶思,2010)。注意跟蹤考試技術(shù)發(fā)展的全國英語等級(jí)考試(Public English Tests System,PETS)在此領(lǐng)域進(jìn)行了探索,并開發(fā)出了相應(yīng)的考試系統(tǒng),稱為PETS-CAST(關(guān)丹丹,劉慶思,莫春暉,2011)。
PETS-CAST采用的是1-2-5-5框架,每個(gè)控制板由13個(gè)模塊構(gòu)成,組成13條路徑(見圖1,最初的設(shè)計(jì)不包含通過虛線箭頭所能到達(dá)的路徑)。PETS-CAST將對(duì)考生在英語語言知識(shí)掌握方面和聽、讀方面的能力進(jìn)行考查,采用的題型為較適合自適應(yīng)測試需要的選擇題。首先,任一考生將需要解答來自PETS-3級(jí)的完形填空題。作為本測試系統(tǒng)中的中等難度試題,該部分內(nèi)容有著雙重考查功能,一是確定考生的大致能力層次,以為其選取相應(yīng)難度的后續(xù)試題;二是考查本級(jí)別考生對(duì)語言知識(shí)的掌握情況。鑒于PETS各級(jí)別試題難度跨度較大,一、二級(jí)別的考生會(huì)覺得該完形填空題過難,而四、五級(jí)別的考生則會(huì)覺得過易,因此,難以用這篇完形填空考查出這幾個(gè)能力層次考生對(duì)語言知識(shí)的掌握情況,所以在第二階段為這些考生設(shè)計(jì)了難度較為恰當(dāng)?shù)耐晷翁羁疹}。處于三級(jí)能力范圍內(nèi)的考生,將直接得到PETS三級(jí)聽力試題。測試系統(tǒng)會(huì)對(duì)考生解答每一階段試題的情況進(jìn)行分析,估算出其大致的語言能力,然后據(jù)此為其投放相應(yīng)難度(級(jí)別)的下一階段的試題??忌淖鞔鸱磻?yīng)組態(tài)為0/1二元計(jì)分方式,考生的能力估計(jì)采用極大似然估計(jì)法,作答完閱讀理解模塊后施測終止。
為了檢驗(yàn)PETS-CAST測試系統(tǒng)的性能,研究者從理論和實(shí)踐兩方面探討CAST測試的可行性和測試效果。模擬研究顯示(關(guān)丹丹,劉慶思,莫春暉,2011;關(guān)丹丹 & 劉慶思,2013)PETS-CAST測試所設(shè)計(jì)的路徑能夠滿足不同能力水平考生的要求,一次測試能夠?qū)忌⒄Z水平所達(dá)到的級(jí)別(五個(gè)級(jí)別)進(jìn)行準(zhǔn)確的判斷,各條路徑的測量精度均能夠達(dá)到適應(yīng)性考試的要求。為了確保PETS-CAST測試的效度,除了模擬研究外,實(shí)證研究是必不可少的。談到效度的概念時(shí),《心理與教育測量標(biāo)準(zhǔn)》指出,“效度指證據(jù)和理論支持從測驗(yàn)分?jǐn)?shù)得出推斷的程度”(p.9);“效度研究(validation)就是搜集證據(jù)來科學(xué)合理地論證測驗(yàn)的解釋是否恰當(dāng)。按照現(xiàn)代效度理論觀,研究者需要從整個(gè)考試過程的各個(gè)環(huán)節(jié)來闡述效度概念。為了檢驗(yàn)PETS-CAST的效度,根據(jù)全國英語等級(jí)考試的考生群體分布,研究者選擇有代表性的學(xué)生群體參加PETS-CAST考試,從多個(gè)角度搜集效度證據(jù)。具體包括:了解學(xué)生的計(jì)算機(jī)操作水平,采用實(shí)證方式獲得PETS-CAST的多項(xiàng)信度和效度指標(biāo),調(diào)查學(xué)生對(duì)PETS計(jì)算機(jī)呈現(xiàn)形式和輔助工具的意見。測試系統(tǒng)的效度研究,有助于為該測試形式的完善和正式推出提供依據(jù)。
考慮到PETS各級(jí)別目標(biāo)學(xué)生的英語語言能力,研究者選擇了兩個(gè)考試群體作為考試樣本,一個(gè)是普通中學(xué)的高二學(xué)生,主要用于測試PETS低級(jí)別;另一個(gè)是大學(xué)英語系學(xué)生,主要測試PETS高級(jí)別。為了便于考試實(shí)施,利于考試效度研究,該研究采取整群抽樣方法。
北京某中學(xué)高二的全體學(xué)生共423人參加了PETS-CAST考試;男生179人,占42.3%;女生244人,占57.7%。北京某高校英語系大一(75人)、大二(140人)和大三(126人)共 341人參加了PETS-CAST考試;男生24人,占7%;女生317人,占93%。大部分學(xué)生熟悉計(jì)算機(jī)操作,65.72%的高二學(xué)生經(jīng)常(一周一次以上)使用計(jì)算機(jī),93.26%的大學(xué)生經(jīng)常使用計(jì)算機(jī);高中從未使用過計(jì)算機(jī)的為16人(3.78%),大學(xué)從未使用過計(jì)算機(jī)的有2人(0.59%)。88.74%的學(xué)生對(duì)自己計(jì)算機(jī)熟練程度的自我評(píng)定為一般或較好,其中高二學(xué)生中認(rèn)為自己計(jì)算機(jī)操作水平為一般(67.14%)和較好(19.39%)的占總?cè)藬?shù)的86.52%,大學(xué)生認(rèn)為自己計(jì)算機(jī)操作水平為一般(66.57%)和較好(24.93%)的占總?cè)藬?shù)的91.50%。因此,大部分學(xué)生都具備了一定的計(jì)算機(jī)操作技能,達(dá)到了作答PETS-CAST考試的基本要求。
為了驗(yàn)證PETS-CAST的可靠性,大學(xué)英語系學(xué)生在參加完第一次PETS-CAST考試(使用控制板1)一個(gè)月后,再次參加了PETS-CAST考試(使用控制板2)。兩次考試中,構(gòu)成考試控制板的模塊的數(shù)量、試題量,以及模塊的難度等均是平行的,即為兩套等價(jià)、可替換的考試控制板。
為了驗(yàn)證PETS-CAST的效度,研究者搜集了各學(xué)生群體最近一次的英語統(tǒng)一模擬考試成績,作為效標(biāo)。
考試結(jié)束后,通過在線問卷調(diào)查的形式從四個(gè)方面調(diào)查了學(xué)生對(duì)本次PETS-CAST考試的感受與意見,分別是:對(duì)答題演示、指導(dǎo)語和作答方式的滿意情況,對(duì)試題難度的感知情況,對(duì)計(jì)算機(jī)自適應(yīng)考試優(yōu)點(diǎn)的認(rèn)同情況,對(duì)計(jì)算機(jī)自適應(yīng)考試缺點(diǎn)的認(rèn)同情況。
表1顯示的是抽樣學(xué)生在各路徑的人數(shù)分布。
表1 學(xué)生在各路徑的人數(shù)分布
高中作答人數(shù)較多的路徑是3222、3-32和3-33這三個(gè)路徑,占高中學(xué)生總?cè)藬?shù)的61.47%,為低級(jí)別學(xué)生設(shè)計(jì)的各條路徑均有學(xué)生分布(3232、3233、3234、3432、3433、3434這六條路徑試測時(shí)尚未開啟);從路徑來看,大部分高二學(xué)生的英語水平應(yīng)介于PETS-2級(jí)和PETS-3級(jí)之間。大學(xué)生作答人數(shù)分布較多的路徑是3434、3444、3445和3455,占總?cè)藬?shù)的84.76%,各高級(jí)別路徑均有學(xué)生分布;從路徑來看,大學(xué)英語系學(xué)生的英語水平應(yīng)介于PETS-4級(jí)和PETS-5級(jí)之間。另外,3434這條臨時(shí)開啟的輔助路徑考試人數(shù)最多,這說明增加輔助路徑的決策是正確的,對(duì)于某個(gè)水平的學(xué)生而言,輔助路徑可能恰恰是測量這部分學(xué)生的最佳路徑。據(jù)此,最終確定了PETS-CAST系統(tǒng)測試框架(見圖1,包含通過虛線箭頭所能到達(dá)的路徑)。
學(xué)生作答結(jié)束后,根據(jù)學(xué)生在各部分的作答情況采用極大似然法估計(jì)學(xué)生能力值,同時(shí),參照PETS各級(jí)別合格標(biāo)準(zhǔn),對(duì)學(xué)生英語水平所屬級(jí)別進(jìn)行判斷(見表2)。
表2 PETS-CAST對(duì)學(xué)生合格與否的判斷情況
69.27%的高二學(xué)生達(dá)到PETS二級(jí)合格水平,達(dá)到一級(jí)合格和三級(jí)合格水平的學(xué)生分別占高二學(xué)生的14.89%和14.18%;57.48%的大學(xué)英語專業(yè)學(xué)生達(dá)到PETS四級(jí)合格水平,31.09%達(dá)到五級(jí)合格水平。
高二男生和女生英語水平對(duì)比見圖2。女生達(dá)到PETS二級(jí)合格和三級(jí)合格的總百分比(91.80%)要遠(yuǎn)高于男生(72.07%)。
大一、大二、大三3個(gè)年級(jí)學(xué)生的英語水平對(duì)比見圖3。大二和大三學(xué)生在PETS三級(jí)和四級(jí)合格率上相差不明顯,大一學(xué)生的五級(jí)合格率(14.67%)要遠(yuǎn)遠(yuǎn)低于大二學(xué)生(34.29%)和大三學(xué)生(37.30%)的合格率。
圖1 PETS-CAST系統(tǒng)測試框架
圖2 PETS-CAST考試高二男、女學(xué)生各級(jí)別合格率
由于PETS-CAST采用的是項(xiàng)目反應(yīng)理論模型,反映測量信度的指標(biāo)是估計(jì)的標(biāo)準(zhǔn)誤。高二學(xué)生和大學(xué)英語系學(xué)生的具體測量精度分別見表3和表4。對(duì)于不同的群體,測量標(biāo)準(zhǔn)誤均小于0.20,顯示該考試具有非常高的測量精度。
圖3 PETS-CAST考試大學(xué)一、二、三年級(jí)學(xué)生各級(jí)別合格率
表3 高二學(xué)生在PETS-CAST上的測量精度
表4 大學(xué)英語系學(xué)生在PETS-CAST上的測量精度
重測的有效樣本為223人。計(jì)算兩次考試對(duì)學(xué)生能力估計(jì)值的相關(guān),即為大學(xué)英語系學(xué)生在PETS-CAST上的重測信度。PETS-CAST的復(fù)本重測信度為0.785。其中,大一學(xué)生的重測信度為0.746,大二學(xué)生的重測信度為0.815,大三學(xué)生的重測信度為0.713。PETS-CAST覆蓋的學(xué)生英語水平跨度較大,而考試中受各種條件的限制僅選取高級(jí)別學(xué)生作為試測對(duì)象,使得群體的同質(zhì)性較強(qiáng),這一樣本選取方法無疑會(huì)低估PETS-CAST的重測信度。
高二學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)為0.557,男生的相關(guān)系數(shù)為0.523,女生的相關(guān)系數(shù)為0.439。大學(xué)英語系學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)具體為:大一學(xué)生的相關(guān)系數(shù)為0.438,大二英文專業(yè)學(xué)生的相關(guān)系數(shù)為0.619,大二英教專業(yè)學(xué)生的相關(guān)系數(shù)為0.556,大三英文專業(yè)學(xué)生的相關(guān)系數(shù)為0.520,大三英教專業(yè)學(xué)生的相關(guān)系數(shù)為0.444。
上述相關(guān)系數(shù)的大小介于0.40~0.65,屬于中等程度相關(guān)。經(jīng)檢驗(yàn),均具有統(tǒng)計(jì)學(xué)意義(P<0.01),即學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績具有顯著相關(guān)。對(duì)于高二學(xué)生而言,男生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)系數(shù)要明顯高于女生的相關(guān)系數(shù);對(duì)于大學(xué)英語系學(xué)生而言,大二學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)系數(shù)要高于大一、大三學(xué)生的相關(guān)系數(shù)。雖然總體上選擇了兩個(gè)英語水平相差比較大的群體,但在計(jì)算效標(biāo)關(guān)聯(lián)效度時(shí)卻需對(duì)若干群體分別計(jì)算,即仍然是同質(zhì)性比較強(qiáng)的群體,這無疑也會(huì)低估PETS-CAST的效標(biāo)關(guān)聯(lián)效度。
另需加以說明的是,作為效標(biāo)的模擬考試與PETS-CAST考試的考試性質(zhì)、構(gòu)想等均有較大差別,這也是造成兩者相關(guān)不夠高的原因。
毫無疑問,計(jì)算機(jī)熟練程度會(huì)影響學(xué)生在PETS-CAST上的成績。將高二學(xué)生和大學(xué)英語系學(xué)生中計(jì)算機(jī)操作水平自評(píng)為較差的(高二刪除52人,大學(xué)刪除29人)刪除后,再次計(jì)算其他學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)。高二學(xué)生在PETS-CAST上的成績與最近一次模擬考試成績的相關(guān)無論是總體(0.588)上,還是分男生(0.553)、女生(0.474)不同群體,均有一定程度的提高;大學(xué)英語系學(xué)生則表現(xiàn)為英文專業(yè)(大一為0.495,大二為0.633,大三為0.577)均有提高,而英教專業(yè)(大二為0.533,大三為0.436)略有下降。對(duì)于大學(xué)英語系學(xué)生而言,計(jì)算機(jī)水平較差的人數(shù)非常少(29人),具體到各年級(jí)和各專業(yè)刪除掉的學(xué)生更少,如英教大二和英教大三各刪除3人,所以英教專業(yè)相關(guān)系數(shù)的下降幅度可以忽略。
總體上看,校正后的相關(guān)系數(shù)提高,表明計(jì)算機(jī)操作水平對(duì)學(xué)生在PETS-CAST的成績有一定影響。
3.6.1 對(duì)考試形式和優(yōu)缺點(diǎn)的評(píng)價(jià)
絕大部分學(xué)生都“同意”或“基本同意”“考前答題演示對(duì)答題有幫助”(92.41%)、“各部分指導(dǎo)語清楚,容易理解”(96.86%),以及“各部分試題呈現(xiàn)和答題方式合適”(95.55%)。
學(xué)生對(duì)計(jì)算機(jī)化英語考試的優(yōu)點(diǎn)滿意程度非常高,大部分學(xué)生都認(rèn)同計(jì)算機(jī)自適應(yīng)考試的各項(xiàng)優(yōu)點(diǎn),具體包括:形式新穎(92.80%),界面舒服(85.99%),無須書寫、涂卡(96.47%),聽力聲音大小可調(diào)(94.50%),提供標(biāo)記等輔助工具(92.67%),顯示剩余時(shí)間提醒(93.98%)和有漏答提醒(97.77%)。同時(shí),他們認(rèn)為,相比于紙筆考試,計(jì)算機(jī)自適應(yīng)考試形式也有很多不易適應(yīng)之處,具體包括:“長時(shí)間盯著計(jì)算機(jī)屏幕”(86.39%)、“不能答題前瀏覽全卷”(88.35%)以及“不能自由選擇作答的順序”(87.57%)。這些缺點(diǎn)對(duì)計(jì)算機(jī)自適應(yīng)考試而言難以克服。
另外,考試過程中,研究者記錄了學(xué)生使用標(biāo)記等輔助工具的情況,對(duì)試題題號(hào)做標(biāo)記的頻率為人均0.92次,對(duì)試題內(nèi)容做標(biāo)記的頻率是人均1.04次。對(duì)標(biāo)記等輔助工具使用的頻率總體上非常低。這表明學(xué)生對(duì)計(jì)算機(jī)呈現(xiàn)的英語考試還不太適應(yīng),不能有效地利用計(jì)算機(jī)提供的輔助工具做標(biāo)記。
3.6.2 學(xué)生對(duì)PETS-CAST的難度感知(見表5)
表5 學(xué)生對(duì)PETS-CAST難度的感知
表6 學(xué)生對(duì)PETS紙筆考試和計(jì)算機(jī)考試的偏好
總體看來,超過60%的學(xué)生認(rèn)為試題難度適中;但具體到兩個(gè)群體,差別較大。高二學(xué)生近半數(shù)認(rèn)為試題較難,原因是:其一,PETS考試與學(xué)校里常見的英語水平考試在設(shè)計(jì)理念、題型上等有所不同,學(xué)生不適應(yīng);其二,PETS-CAST針對(duì)某些能力較強(qiáng)學(xué)生拋出的試題較他們熟悉的高考題難度增加,而導(dǎo)致他們明顯感到試題較難。這兩點(diǎn)在最后的開放性意見與建議中,均得到印證,許多英語水平好的學(xué)生都在“其他意見與建議”中指出試題較難。
68.85%的學(xué)生認(rèn)為不同階段的試題在難度上有一些差別,76.70%的學(xué)生感覺“有些不會(huì)答、有些會(huì)答”,這兩個(gè)問題的調(diào)查結(jié)果可互為印證,符合自適應(yīng)考試的特點(diǎn)。
3.6.3 學(xué)生對(duì)英語采用紙筆考試和計(jì)算機(jī)自適應(yīng)考試的偏好
關(guān)于學(xué)生對(duì)紙筆考試和計(jì)算機(jī)自適應(yīng)考試的感受見表6。
總體看來,學(xué)生關(guān)于“計(jì)算機(jī)打字速度與手寫速度哪個(gè)更快”的選擇,“計(jì)算機(jī)”(49.61%)比“手寫”(34.42%)稍多;認(rèn)為“計(jì)算機(jī)上對(duì)試題做標(biāo)記有影響”的比率(45.94%)比沒影響的(33.51%)稍多;認(rèn)為“在屏幕上閱讀長篇材料需要滾動(dòng),影響作答”的比率(44.24%)與沒影響的(44.76%)持平;但喜歡“參加紙筆考試”的比率(59.16%)遠(yuǎn)遠(yuǎn)高于計(jì)算機(jī)的(26.83%)。
大學(xué)英語系學(xué)生對(duì)計(jì)算機(jī)考試的喜好程度大大低于高二學(xué)生,喜歡參加紙筆英語考試的竟占到80.35%;高二學(xué)生對(duì)紙筆考試(42.08%)和計(jì)算機(jī)考試(41.61%)的選擇基本持平,沒有明顯偏好(見圖4)。
圖4 高二學(xué)生和大學(xué)生對(duì)紙筆考試和計(jì)算機(jī)考試的偏好選擇
該研究所選取的被試為高二學(xué)生和大學(xué)英語系學(xué)生。高二學(xué)生是PETS低級(jí)別考試的目標(biāo)考試對(duì)象,而大學(xué)英語系學(xué)生則是PETS高級(jí)別考試的目標(biāo)考試對(duì)象,關(guān)于他們英語水平的級(jí)別判斷也符合研究者對(duì)學(xué)生能力分布的預(yù)期。
大部分學(xué)生具備計(jì)算機(jī)操作的基本能力,僅少數(shù)學(xué)生尚未接觸過計(jì)算機(jī),可能導(dǎo)致對(duì)其英語成績的測量產(chǎn)生一定誤差。高二學(xué)生的英語水平基本上呈正態(tài)分布,大部分處于PETS二級(jí)合格水平,其次是一級(jí)合格和三級(jí)合格水平;大學(xué)英語系學(xué)生大部分處于PETS四級(jí)和五級(jí)合格水平。從能力分布看,所選被試廣泛地分布于PETS的各個(gè)級(jí)別,具有一定的代表性。
從測量標(biāo)準(zhǔn)誤來看,PETS-CAST的信度非常好,能夠?qū)W(xué)生的英語水平進(jìn)行比較準(zhǔn)確的測量;從PETS-CAST成績與最近一次統(tǒng)考成績的相關(guān)來看,相關(guān)顯著但相關(guān)系數(shù)并不高。這一方面與效標(biāo)的選擇有關(guān),校方提供的最近一次統(tǒng)考成績都是由學(xué)校老師自命的非標(biāo)準(zhǔn)化測驗(yàn),無論是測量目標(biāo)、測驗(yàn)構(gòu)想、測驗(yàn)質(zhì)量都與PETS考試不同。另一方面,計(jì)算機(jī)考試形式以及被試對(duì)計(jì)算機(jī)的熟練程度等會(huì)對(duì)考試成績帶來一定影響,如,女生的相關(guān)系數(shù)值明顯低于男生,可能是女生對(duì)計(jì)算機(jī)不夠熟練而受作答方式的影響較大;另一例證是,排除了計(jì)算機(jī)操作水平較差的學(xué)生后,效標(biāo)關(guān)聯(lián)效度有所提高。
就學(xué)生對(duì)PETS-CAST中工具的使用以及考試感受進(jìn)行的調(diào)查顯示,學(xué)生對(duì)考試系統(tǒng)所提供的輔助工具使用不足,這與學(xué)生不熟悉計(jì)算機(jī)形式的英語考試、缺乏經(jīng)驗(yàn)等有關(guān)。學(xué)生對(duì)計(jì)算機(jī)自適應(yīng)考試的優(yōu)點(diǎn)非常認(rèn)同,對(duì)其缺點(diǎn)也有同感,這與其他計(jì)算機(jī)自適應(yīng)考試研究得出的結(jié)果類似。總體上看,高二學(xué)生對(duì)于計(jì)算機(jī)自適應(yīng)考試和紙筆考試的選擇沒有明顯偏好,但大學(xué)英語系學(xué)生則對(duì)計(jì)算機(jī)考試的缺點(diǎn)反應(yīng)更加強(qiáng)烈,更傾向于選擇紙筆考試。
綜上所述,計(jì)算機(jī)自適應(yīng)英語考試的效度研究,證實(shí)了PETS-CAST系統(tǒng)的考試效果,展現(xiàn)了CAST考試的優(yōu)越性;研究結(jié)果為該考試形式的完善指明了方向。由于本研究中考試對(duì)象的代表性不夠,試測樣本未能覆蓋PETS各級(jí)別的目標(biāo)學(xué)生;另外,還需對(duì)兩種考試成績的可比性等進(jìn)行更為深入的研究。所以,PETS-CAST考試目前只能作為英語學(xué)習(xí)者或者PETS考生的自我考試或練習(xí)工具,尚難以取代現(xiàn)有的各級(jí)別紙筆考試。
[1]關(guān)丹丹,劉慶思.計(jì)算機(jī)自適應(yīng)序列考試概述[J].中國考試,2010(1):29-35.
[2]關(guān)丹丹,劉慶思,莫春暉.PETS計(jì)算機(jī)自適應(yīng)序列測試設(shè)計(jì)與模擬研究[J].心理學(xué)探新,2011,31(5):467-471.
[3]關(guān)丹丹,劉慶思.兩種PETS計(jì)算機(jī)自適應(yīng)序列測試框架比較研究[J].中國考試,2013(1):16-22.
[4]AERA,APA,&NCME.Standardsfor Educational and Psychological Testing.Washington,D.C.:AERA,1999:1-174.