龔大胃 麥陳淑賢 金 檀 劉 力
(香港教育學(xué)院,香港,999077;香港中文大學(xué),香港,999077;樹童國(guó)際語言教育研究院,廣州,511400;香港中文大學(xué),香港,999077)
香港考試及評(píng)核局(Hong Kong Examinations and Assessment Authority,簡(jiǎn)稱為HKEAA)于2012年在香港公開考試中開始大規(guī)模實(shí)施網(wǎng)上評(píng)卷(Onscreen Marking,簡(jiǎn)稱為OSM),以此取代傳統(tǒng)的紙質(zhì)評(píng)卷方式(Paper-based Marking,簡(jiǎn)稱為PBM)。網(wǎng)上評(píng)卷是指運(yùn)用計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和電子掃描技術(shù)將紙質(zhì)答卷掃描生成圖像,客觀題由計(jì)算機(jī)對(duì)考生填涂的信息點(diǎn)比對(duì)標(biāo)準(zhǔn)答案自動(dòng)給分,主觀題通過網(wǎng)絡(luò)隨機(jī)分派給各終端的評(píng)卷教師進(jìn)行評(píng)閱(趙建寧、厲浩2012)。
本文系統(tǒng)綜述香港考試及評(píng)核局針對(duì)網(wǎng)上閱卷實(shí)施情況所開展的一系列驗(yàn)證性研究,主要分為以下三個(gè)部分:首先,簡(jiǎn)要回顧網(wǎng)上評(píng)卷在國(guó)際上的實(shí)施背景及其研究現(xiàn)狀;其次,基于國(guó)際背景,從香港視角縱覽網(wǎng)上評(píng)卷的實(shí)施過程,并系統(tǒng)梳理針對(duì)香港中學(xué)會(huì)考(Hong Kong Certificate of Education Examination,簡(jiǎn)稱為HKCEE)英文科目網(wǎng)上評(píng)卷所開展的實(shí)證研究。最后,總結(jié)香港網(wǎng)上評(píng)卷的實(shí)踐經(jīng)驗(yàn),并展望日后網(wǎng)上評(píng)卷的研究方向。
雖然研究者和測(cè)試開發(fā)者對(duì)網(wǎng)上評(píng)卷的實(shí)施所持意見仍褒貶不一,但大規(guī)模公開考試中使用網(wǎng)上評(píng)卷的優(yōu)點(diǎn)已顯而易見。因此,國(guó)際范圍內(nèi)諸多研究者都致力于考查網(wǎng)上評(píng)卷的實(shí)施情況。
英國(guó)劍橋大學(xué)考試委員會(huì)(Cambridge Assessment)投資數(shù)百萬英鎊同英國(guó)RM 國(guó)際教育公司簽訂合同開發(fā)網(wǎng)上評(píng)卷系統(tǒng)。在2011至2014年期間,RM公司將向劍橋考試委員會(huì)旗下的三個(gè)公開考試部門提供網(wǎng)上評(píng)卷服務(wù):牛津、劍橋和英國(guó)皇家藝術(shù)學(xué)會(huì)考試局(Oxford Cambridge and RSA Examinations,簡(jiǎn)稱為OCR)、劍橋大學(xué)國(guó)際考試部(University of Cambridge International Examinations)以及劍橋大學(xué)英語考試部(Cambridge ESOL)。與此同時(shí),北愛爾蘭教學(xué)大綱、考試與評(píng)估委員會(huì)(The Council for Curriculum,Examination and Assessment)也表達(dá)了在其公開考試中大規(guī)模實(shí)施網(wǎng)上評(píng)卷的意向。
2009年,澳大利亞新南威爾士州政府教育委員會(huì)(The Government Board of Studies,NSW Australia)在當(dāng)?shù)丶s百分之十的公開考試中引入網(wǎng)上評(píng)卷系統(tǒng)。2010年,新南威爾士州近五分之一的公開考試已實(shí)施了網(wǎng)上評(píng)卷。
我國(guó)考生數(shù)目眾多,需要大量評(píng)分員來完成試卷的評(píng)閱工作,因而網(wǎng)上評(píng)卷在各類重要考試中得以廣泛使用(馬世曄2004;羅友花、劉鐵明2009)。自2005年起,我國(guó)大陸高等教育入學(xué)考試(簡(jiǎn)稱為“高考”)的所有試題形式(客觀題和主觀題)均采用網(wǎng)上評(píng)卷技術(shù)。其中,廣西省于1999年率先對(duì)高考英語科目實(shí)施網(wǎng)上評(píng)卷。自此,網(wǎng)上評(píng)卷在中國(guó)大陸以前所未有的規(guī)模展開,多數(shù)省份(自治區(qū)、直轄市)陸續(xù)開始使用網(wǎng)上評(píng)卷對(duì)高考不同部分試題進(jìn)行評(píng)分。截至目前,全國(guó)已有29個(gè)省份(自治區(qū)、直轄市)采用網(wǎng)上評(píng)卷,除少數(shù)小語種科目外,網(wǎng)上評(píng)卷已基本實(shí)現(xiàn)全科目覆蓋(參見http:∥news.xinhuanet.com/society/2011-06/16/c_121546140.htm)。
由于其龐大的考生數(shù)目,中國(guó)大陸經(jīng)網(wǎng)上閱卷評(píng)閱的試卷具體數(shù)目難以估算。網(wǎng)上評(píng)卷工作通常在多個(gè)閱卷中心進(jìn)行,各個(gè)省份(自治區(qū)、直轄市)自行負(fù)責(zé)考生試卷的評(píng)閱工作,例如,上海市的閱卷中心僅負(fù)責(zé)本地考生的高考評(píng)卷工作。據(jù)估計(jì),2008年約有3000名評(píng)卷員參與江蘇省高考閱卷工作,2010年約有2580名評(píng)卷員參與浙江省高考閱卷工作(參見http:∥www.pxdgc.com/new1353.html)。
網(wǎng)上評(píng)卷的應(yīng)用雖具有一定的實(shí)踐基礎(chǔ),但許多研究者仍對(duì)其實(shí)施持有不同的看法和建議。Adam(2005)回顧了英國(guó)最大考試機(jī)構(gòu)—英國(guó)資格評(píng)估與認(rèn)證聯(lián)合會(huì)(The Assessment and Qualifications Alliance,簡(jiǎn)稱為AQA)使用網(wǎng)上評(píng)卷的經(jīng)驗(yàn),并表達(dá)了對(duì)網(wǎng)上評(píng)卷的信度和效度的擔(dān)憂。他呼吁進(jìn)行更多的效度研究和有用性研究,采用“謹(jǐn)慎的方法”確保重要相關(guān)人員,尤其是政策制定部門和教師,能夠接受網(wǎng)上評(píng)卷所帶來的相應(yīng)變化。
在亞洲,香港研究者也針對(duì)這些研究熱點(diǎn)開展了一系列實(shí)證研究,主要關(guān)注紙質(zhì)評(píng)卷和網(wǎng)上評(píng)卷評(píng)分信度的比較(Coniam 2009ab,2010abc;Eowles 2008;Johnsonet al.2010)。Zhang等人(2003)的研究結(jié)果表明,使用上述兩種評(píng)分模式所得的考生平均分呈現(xiàn)顯著性差異,并且分?jǐn)?shù)差異基本一致。進(jìn)一步研究得出這兩種評(píng)分模式下的評(píng)分員一致性無顯著差異。因此,研究者認(rèn)為網(wǎng)上評(píng)卷同紙質(zhì)評(píng)卷的評(píng)分結(jié)果是具有可比性的。
其他國(guó)家和地區(qū)也針對(duì)評(píng)卷模式進(jìn)行了不同規(guī)模的評(píng)分研究,香港則是首個(gè)在其全部公開考試系統(tǒng)實(shí)施網(wǎng)上評(píng)卷的地區(qū)。自2012年,香港所有科目均實(shí)施網(wǎng)上評(píng)卷。正是由于評(píng)分模式的巨大轉(zhuǎn)變,香港研究者開展了一系列效度研究,這對(duì)其他國(guó)家和地區(qū)開展網(wǎng)上評(píng)卷起到一定的借鑒和啟示作用。
香港網(wǎng)上評(píng)卷的實(shí)施主要分為以下兩個(gè)步驟:(1)評(píng)卷前:考生完成考試后,所有試卷將集中送至評(píng)卷中心進(jìn)行掃描并存儲(chǔ)為圖像,然后通過系統(tǒng)分發(fā)給評(píng)分員。(2)評(píng)卷中:評(píng)卷中心為評(píng)卷員提供專用工作站,以確保評(píng)分員使用具有安全保障的局域網(wǎng)開展評(píng)卷工作。在進(jìn)行網(wǎng)上閱卷時(shí),評(píng)分員可以對(duì)單個(gè)試題評(píng)分,也可以對(duì)試卷進(jìn)行批注,以確保二次評(píng)分時(shí)評(píng)分員不會(huì)受到第一位評(píng)分員的影響,而這種情況在紙質(zhì)評(píng)卷時(shí)卻無法避兔。
與傳統(tǒng)紙質(zhì)評(píng)卷的方式相比,基于計(jì)算機(jī)技術(shù)的網(wǎng)上評(píng)卷的優(yōu)點(diǎn)主要有以下五個(gè)方面:第一、安全性。采用網(wǎng)上評(píng)卷,評(píng)分員無需自己收集試卷,這也避兔了考卷丟失情況。第二、質(zhì)量監(jiān)控。網(wǎng)上評(píng)卷系統(tǒng)實(shí)時(shí)監(jiān)控評(píng)分員的評(píng)卷質(zhì)量,并對(duì)評(píng)分員不可靠的評(píng)分行為做出預(yù)警和實(shí)時(shí)補(bǔ)救措施。第三、數(shù)據(jù)性。網(wǎng)上評(píng)卷系統(tǒng)會(huì)生成和提取考題層面的統(tǒng)計(jì)數(shù)據(jù),以用于研究和分析。因此,教育部門可以獲得關(guān)于學(xué)生表現(xiàn)的數(shù)據(jù)回饋。第四、目標(biāo)性。由于網(wǎng)上評(píng)卷能夠?qū)崿F(xiàn)單個(gè)試題層面的評(píng)分,因此題目分配具有一定靈活性。不同的試題可以根據(jù)需要分配給特定的評(píng)分員評(píng)閱,這也增加了評(píng)分的準(zhǔn)確性和效度。第五、準(zhǔn)確性和有效性。網(wǎng)上評(píng)卷系統(tǒng)會(huì)自動(dòng)檢查評(píng)分準(zhǔn)確性,評(píng)分員不用自己計(jì)算分?jǐn)?shù),這也消除了人工算分可能產(chǎn)生的誤差。
當(dāng)然,網(wǎng)上評(píng)卷也存有潛在的弊端。首先,評(píng)分員需要到特定的評(píng)卷中心進(jìn)行閱卷,并根據(jù)評(píng)卷中心的固定開放時(shí)間調(diào)整評(píng)卷時(shí)間。其次,由于評(píng)卷工作都在計(jì)算機(jī)上完成,評(píng)分員需要長(zhǎng)時(shí)間面對(duì)計(jì)算機(jī)工作。另外,評(píng)分員需要使用評(píng)分系統(tǒng)錄入數(shù)據(jù),并使用評(píng)卷系統(tǒng)中固定建立的批注符號(hào)(包括對(duì)號(hào)、半對(duì)號(hào)等),潦草的批注是無法錄入系統(tǒng)的。
基于以上的研究和實(shí)踐背景,本文將回顧一系列香港研究者針對(duì)英文科目網(wǎng)上評(píng)卷的效度驗(yàn)證研究,研究方法既包含量化分析也有質(zhì)化探討,主要圍繞以下四個(gè)研究假設(shè):
(1)采用紙質(zhì)評(píng)卷和網(wǎng)上評(píng)卷的所得分?jǐn)?shù)具有可比性;
(2)采用網(wǎng)上評(píng)卷不會(huì)影響考生分?jǐn)?shù),即:網(wǎng)上評(píng)卷和紙質(zhì)評(píng)卷獲得的考生分?jǐn)?shù)應(yīng)具有可比性;
(3)評(píng)分員掌握了足夠的計(jì)算機(jī)技術(shù),能夠有效使用網(wǎng)上評(píng)卷系統(tǒng);
(4)評(píng)分員對(duì)于使用網(wǎng)上評(píng)卷還是紙質(zhì)評(píng)卷模式?jīng)]有偏倚。
考生分?jǐn)?shù)在統(tǒng)計(jì)意義上的可比性一直是考察評(píng)分模式效度及測(cè)試公平性的核心議題,因此下文將分別針對(duì)以上提及的四個(gè)研究假設(shè)進(jìn)行討論,主要關(guān)注前兩個(gè)研究假設(shè)。
本研究主要數(shù)據(jù)源于2007年香港中學(xué)會(huì)考英文科目寫作分卷,當(dāng)年共有99,771名考生參加考試。寫作分卷測(cè)試要求考生完成兩個(gè)寫作任務(wù):任務(wù)一要求考生根據(jù)給定材料寫一篇約150字的描述性文章;任務(wù)二是開放性試題,要求考生論述聰明和美貌的重要性或闡釋喜歡在時(shí)尚界工作的理由。考生可在兩個(gè)話題中任選其一撰寫一篇250字的論述文(HKEAA 2007:18)。寫作測(cè)試采用分析性評(píng)分量表,涵蓋四個(gè)子維度和相應(yīng)的等級(jí)描述語(HKEAA 2007:104)。每個(gè)維度分為六個(gè)等級(jí),分別對(duì)應(yīng)1-6分(6分為最高分),總分為24分。所有的寫作試卷均采用雙評(píng)形式,若兩個(gè)評(píng)分員所評(píng)定分?jǐn)?shù)的差異大于等于5分,則由第三名評(píng)分員進(jìn)行評(píng)分。
研究者主要通過以下三種方式來確保寫作試卷的評(píng)分效度:(1)評(píng)分員一致性;(2)寫作分卷同其他分卷分?jǐn)?shù)的一致性;(3)寫作分卷同整個(gè)英文測(cè)試分?jǐn)?shù)的一致性(King 1994:6)。2006年香港中學(xué)會(huì)考采用傳統(tǒng)紙質(zhì)評(píng)卷方式,其評(píng)分員一致性為0.79(共188名評(píng)分員,每人約評(píng)閱800份試卷),寫作分卷得分同整個(gè)英文測(cè)試分?jǐn)?shù)的一致性為0.89。2007年采用網(wǎng)上評(píng)卷方式后,試卷隨機(jī)分發(fā)給評(píng)分員進(jìn)行評(píng)閱,如果兩個(gè)評(píng)分員出現(xiàn)評(píng)分差異,系統(tǒng)會(huì)自動(dòng)將試卷分發(fā)給第三個(gè)評(píng)分員進(jìn)行評(píng)分,因此網(wǎng)上評(píng)卷系統(tǒng)不能夠直接對(duì)評(píng)分員一致性進(jìn)行計(jì)算。表1呈現(xiàn)了2007年香港中學(xué)會(huì)考英文寫作分卷同其他分卷的分?jǐn)?shù)一致性。
表1 2007年中學(xué)會(huì)考英文科目寫作分卷同其他分卷成績(jī)之間的相關(guān)系數(shù)
一般認(rèn)為相關(guān)系數(shù)大于等于0.80時(shí),兩變量之間呈高度相關(guān)(Hatch&Lazaraton 1991:441)。如表1所示,總體來說,寫作分卷和其他分卷的分?jǐn)?shù)之間具有較高相關(guān)關(guān)系。其中,寫作分卷和口語分卷之間的相關(guān)系數(shù)相對(duì)較低(r=0.72),但和校本評(píng)核的分?jǐn)?shù)相關(guān)系數(shù)較高(r=0.83)。并且寫作分卷的分?jǐn)?shù)同2007年整個(gè)英文科目測(cè)試分?jǐn)?shù)相關(guān)系數(shù)高達(dá)0.90,同2006年的數(shù)據(jù)(r=0.89)具有可比性。顯而易見,采用網(wǎng)上評(píng)卷模式對(duì)整體測(cè)試信度并未產(chǎn)生影響。
2007年共有196名評(píng)分員參加香港中學(xué)會(huì)考英文科目寫作分卷的閱卷工作,其中117名評(píng)分員(占評(píng)分員總數(shù)59.7%)具有豐富評(píng)卷經(jīng)驗(yàn)(簡(jiǎn)稱為“老手評(píng)分員”),79名評(píng)分員(占評(píng)分員總數(shù)40.3%)是首次參與評(píng)卷工作(簡(jiǎn)稱為“新手評(píng)分員”)。研究者從196名評(píng)分員中選擇46名作為研究對(duì)象,主要基于兩方面標(biāo)準(zhǔn):第一、所選評(píng)分員在2007年香港中學(xué)會(huì)考寫作試卷的評(píng)分工作中具有較好評(píng)分表現(xiàn),即:評(píng)分員一致性系數(shù)較高、寫作試卷分?jǐn)?shù)和客觀評(píng)定的閱讀試卷分?jǐn)?shù)之間的一致性較高等。第二、所選評(píng)分員在性別、資歷、教學(xué)和評(píng)分經(jīng)歷方面具有一定代表性。可以看到,本研究的研究對(duì)象既包括老手評(píng)分員也有新手評(píng)分員,目的是為了比較兩類評(píng)分員的評(píng)分表現(xiàn):老手評(píng)分員具有豐富的紙質(zhì)評(píng)卷經(jīng)驗(yàn),卻沒有網(wǎng)上評(píng)卷經(jīng)驗(yàn);而網(wǎng)上評(píng)卷則是新手評(píng)分員唯一的評(píng)閱經(jīng)驗(yàn)。最終,有30名評(píng)分員參與本研究,包括25名老手評(píng)分員(83.3%)和5名新手評(píng)分員(16.7%),有關(guān)評(píng)分員的具體背景,可參見Coniam(2009a)的研究。研究者要求每個(gè)評(píng)分員評(píng)定2007年香港中學(xué)會(huì)考的100份試卷①,并告知他們可能會(huì)遇到先前評(píng)閱過的試卷,但并未告訴這些評(píng)分員他們將再次評(píng)閱先前已評(píng)閱過的100份答卷。類似數(shù)據(jù)收集方法的可行性已在先前的實(shí)證研究中得到驗(yàn)證:兩次評(píng)卷時(shí)間相隔九個(gè)月,當(dāng)評(píng)分員再次看到答卷時(shí),會(huì)當(dāng)作從未評(píng)閱過這些答卷(Coniam 1991)。
研究中使用的試卷共3000份,其中2145份是不同考生的答卷。研究者也采取了一定措施確保所選答卷的分?jǐn)?shù)能夠代表各個(gè)不同等級(jí)的考生表現(xiàn)(1至6級(jí))。本研究的數(shù)據(jù)分析方法采用經(jīng)典測(cè)量統(tǒng)計(jì),主要分析評(píng)分員一致性、不同試卷間分?jǐn)?shù)的一致性等(King 1994:6)。此外,研究者還使用T檢驗(yàn)來比較新手、老手評(píng)分員的評(píng)卷表現(xiàn)。數(shù)據(jù)分析主要分為以下兩個(gè)步驟:第一,分析評(píng)分員一致性以及英文科目不同分卷分?jǐn)?shù)之間的一致性;第二,分析兩種評(píng)分模式下分?jǐn)?shù)具有統(tǒng)計(jì)性差異的試卷。
2.3.1 評(píng)分一致性
如上文所提及,考生可在所給的兩個(gè)寫作題目?jī)?nèi)任選其一。先前研究結(jié)果顯示,選擇題目二的考生整體英語能力較高(Coniam 2009a)。T檢驗(yàn)的結(jié)果表明,兩種評(píng)分模式下兩個(gè)題目所得分?jǐn)?shù)之間沒有顯著性差異,因此可以推斷出,寫作題目并不是導(dǎo)致評(píng)分誤差的因素。然而,選擇兩個(gè)題目的考生的平均分呈現(xiàn)顯著性差異,這可能是由考生語言能力的差異所致。在本研究中,評(píng)分員信度是按照整個(gè)英文測(cè)試信度來計(jì)算的,并且控制了寫作任務(wù)因素。如表2所示,2007年評(píng)分員一致性系數(shù)為0.88,遠(yuǎn)高于2006年的評(píng)分員一致性系數(shù)(r=0.79)。
香港考試與評(píng)核局使用客觀評(píng)定的閱讀試卷分?jǐn)?shù)作為評(píng)分信度標(biāo)準(zhǔn)(King 1994:6),因此,本研究也分析了寫作分卷分?jǐn)?shù)同閱讀分卷分?jǐn)?shù)之間的一致性系數(shù),以及與英文科目其他分卷分?jǐn)?shù)(除寫作試卷)的一致性系數(shù)。結(jié)果表明,采用兩種評(píng)分模式所得分?jǐn)?shù)之間的相關(guān)系數(shù)均大于0.80,這說明評(píng)分員使用兩種評(píng)分模式的評(píng)分表現(xiàn)都十分可靠和穩(wěn)定。
表2 相關(guān)分析結(jié)果
2.3.2 評(píng)分員評(píng)閱經(jīng)歷
本研究采用T檢驗(yàn)來比較不同評(píng)閱經(jīng)歷評(píng)分員的評(píng)分表現(xiàn)。如表3所示,新手評(píng)分員和老手評(píng)分員評(píng)定的分?jǐn)?shù)之間沒有呈現(xiàn)顯著性差異。
表3 評(píng)分員評(píng)閱經(jīng)歷描述性統(tǒng)計(jì)
2.3.3 評(píng)分模式差異分析
通常情況下,評(píng)分員使用六分制評(píng)分標(biāo)準(zhǔn)進(jìn)行評(píng)分,若兩人所評(píng)分?jǐn)?shù)差異大于等于一分,將會(huì)進(jìn)行二次評(píng)分(例如,使用第三個(gè)評(píng)分員)(Attali&Burstein 2005:13)。2007年香港中學(xué)會(huì)考英文科目寫作分卷所設(shè)定的二次評(píng)分基準(zhǔn)是:兩個(gè)評(píng)分員的評(píng)分差異大于等于5分(總分為24分)。根據(jù)該基準(zhǔn),同年寫作試卷的分?jǐn)?shù)差異率約為10%(香港考試局,網(wǎng)上評(píng)卷資料個(gè)人交流,2007年7月)。表4呈現(xiàn)了本研究使用兩種評(píng)分模式所得分?jǐn)?shù)的差異率,其中正數(shù)表示紙質(zhì)評(píng)卷的分?jǐn)?shù)高于網(wǎng)上評(píng)卷分?jǐn)?shù),負(fù)數(shù)表示紙質(zhì)評(píng)卷分?jǐn)?shù)低于網(wǎng)上評(píng)卷分?jǐn)?shù)。
表4 網(wǎng)上評(píng)卷和紙質(zhì)評(píng)卷的分?jǐn)?shù)差異
同2007年寫作分卷的分?jǐn)?shù)差異率比,本研究使用兩種評(píng)卷方式所得的整體分?jǐn)?shù)差異率略低(8.1%)。網(wǎng)上評(píng)卷的分?jǐn)?shù)差異率(4.6%)略高于使用紙質(zhì)評(píng)卷的分?jǐn)?shù)差異率(3.5%),這也驗(yàn)證了T 檢驗(yàn)的結(jié)果,即:兩個(gè)寫作題目的試卷分?jǐn)?shù)之間出現(xiàn)正負(fù)5分差異的概率也相類似。雖然采用兩種評(píng)卷模式的評(píng)分員表現(xiàn)并沒有呈現(xiàn)有統(tǒng)計(jì)意義的差異,但以上的數(shù)據(jù)表明評(píng)分員在網(wǎng)上評(píng)卷時(shí)可能更為寬松。
2.3.4 分?jǐn)?shù)差異試卷分析
本研究也分析了網(wǎng)上評(píng)卷出現(xiàn)分?jǐn)?shù)差異的試卷,其研究假設(shè)為:出現(xiàn)差異的寫作試卷具有明顯的特征,這些特征能夠區(qū)別相同分?jǐn)?shù)等級(jí)的其他試卷,并且評(píng)分員也能夠發(fā)現(xiàn)這些特征,即:具有分?jǐn)?shù)差異的寫作試卷有更大的非擬合值(數(shù)據(jù)分析使用多層面Rasch模型,簡(jiǎn)稱為MERA②)。
數(shù)據(jù)收集:本研究的測(cè)試工具包括兩組寫作試卷,每組各30份。第一組為分?jǐn)?shù)差異大于等于5的試卷,第二組為評(píng)分員評(píng)定分?jǐn)?shù)完全相同的試卷。兩組試卷的分?jǐn)?shù)等級(jí)范圍從2級(jí)(5-8分)到5級(jí)(17-20分)(見表5)。
表5 兩組試卷的分?jǐn)?shù)差異
共12名評(píng)分員參與該項(xiàng)子研究,評(píng)分員在培訓(xùn)后分為兩組:第一組(評(píng)分員1-6)和第二組(評(píng)分員7-12)。本研究采用交叉評(píng)分設(shè)計(jì),即:第一組評(píng)分員在網(wǎng)上評(píng)閱編號(hào)為1的試卷集(101-115號(hào)),第二組評(píng)分員采用紙質(zhì)評(píng)卷方式來評(píng)閱編號(hào)為2的試卷集(201-215號(hào))。隨后,兩組評(píng)分員互換試卷進(jìn)行評(píng)閱。在評(píng)分員進(jìn)行閱卷時(shí),研究者會(huì)詢問他們是否留意到哪些試卷比較容易評(píng)閱或是不容易評(píng)閱,并讓他們?cè)谶@些試卷上進(jìn)行簡(jiǎn)要批注。評(píng)卷結(jié)束后,研究者結(jié)合評(píng)分員所做的批注,就其評(píng)分過程以及評(píng)閱過程中遇到的問題進(jìn)行半結(jié)構(gòu)式訪談。
數(shù)據(jù)分析和結(jié)果:本研究使用基于多層面Rasch模型開發(fā)的統(tǒng)計(jì)工具EACETs(Linacre 2004)分析評(píng)卷過程中不同因素的擬合統(tǒng)計(jì)量(fit statistics),結(jié)果表明模型擬合度較高。研究者預(yù)測(cè)第一組考生試卷(101-115)中會(huì)有較多不符合模型假設(shè)的情況。然而,實(shí)際分析結(jié)果并非如此:在三個(gè)非擬合模型假設(shè)的考生中,最不符合模型假設(shè)的試卷出現(xiàn)在第二組試卷中。研究者進(jìn)一步分析EACETs的“非預(yù)期反應(yīng)”也未能預(yù)測(cè)該結(jié)果。此外,評(píng)卷模式和寫作題目因素分析后的輸出數(shù)據(jù)呈現(xiàn)出相似的數(shù)據(jù)分布,符合預(yù)期的分析結(jié)果,即:“非預(yù)期反應(yīng)”的評(píng)分員的非擬合統(tǒng)計(jì)量(infit statistics)最差。綜上所述,評(píng)分模式和寫作題目因素對(duì)評(píng)卷結(jié)果沒有產(chǎn)生影響。
2.3.5 容易評(píng)分和不易評(píng)分試卷
基于訪談和評(píng)分員批注,研究者分析了評(píng)分員認(rèn)為容易或不易評(píng)分的試卷,并總結(jié)出四類試卷類型來闡釋造成網(wǎng)上評(píng)卷差異的因素,即:“與構(gòu)念無關(guān)的變量”(construct irrelevant variance)。表6通過節(jié)選部分評(píng)分員訪談和批注,對(duì)這四類試卷進(jìn)行解讀。
表6 四類影響評(píng)閱的因素
2.3.6 評(píng)分員的計(jì)算機(jī)能力和對(duì)網(wǎng)上評(píng)卷所持態(tài)度
在評(píng)分結(jié)束后,研究者對(duì)評(píng)分員進(jìn)行問卷調(diào)查,主要關(guān)注評(píng)分員對(duì)于網(wǎng)上評(píng)卷和紙質(zhì)評(píng)卷所持的態(tài)度。問卷主要分為三部分:第一部分是評(píng)分員個(gè)人信息和背景;第二部分有關(guān)評(píng)分員的計(jì)算機(jī)使用能力,例如,使用鼠標(biāo)、放大/縮小屏幕圖像、調(diào)整桌面高度和屏幕分辨率等。第三部分主要關(guān)注評(píng)分過程,例如,兩種評(píng)分模式的準(zhǔn)確性、視力疲勞程度以及短暫休息的頻率等。該部分問卷還詢問了評(píng)分員對(duì)于使用評(píng)分模式的和選擇評(píng)分地點(diǎn)的傾向(在家或評(píng)卷中心)。
問卷采用李克特量表,6分表示“非常同意”,1分表示“非常不同意”。評(píng)分員也可以寫下有關(guān)網(wǎng)上評(píng)卷過程的任何評(píng)論。問卷中第二部分共13個(gè)問題,信度為0.85。分析結(jié)果表明,評(píng)分員認(rèn)為自己具有較強(qiáng)的計(jì)算機(jī)操作能力。其中,26名評(píng)分員(共30名,占86.7%)認(rèn)為自己整體計(jì)算機(jī)能力較好,26名評(píng)分員(86.7%)認(rèn)為自己使用鼠標(biāo)進(jìn)行翻頁能力較強(qiáng),27名評(píng)分員(90.0%)認(rèn)為自己進(jìn)行放大/縮小屏幕圖像能力較強(qiáng)。分別有29名評(píng)分員(96.7%)以及25名評(píng)分員(83.3%)認(rèn)為自身使用鼠標(biāo)或鍵盤鍵入符號(hào)能力較強(qiáng)。
由于網(wǎng)上評(píng)卷要求評(píng)分員面對(duì)屏幕工作較長(zhǎng)時(shí)間,問卷也調(diào)查了評(píng)分員對(duì)于人體工學(xué)因素(例如:屏幕高度和分辨率等)的態(tài)度。有25名評(píng)分員(83.3%)認(rèn)為屏幕高度適中,27名評(píng)分員(90.0%)認(rèn)為屏幕分辨率較好。仍有21名評(píng)分員(70.0%)覺得對(duì)著屏幕閱讀不太舒適。
針對(duì)評(píng)卷地點(diǎn)的分析得出,新手評(píng)分員(M=3.00)認(rèn)為專門去評(píng)卷中心閱卷并不是問題,而老手評(píng)分員對(duì)此并不持特別樂觀的態(tài)度(M=2.46)。該結(jié)論呼應(yīng)了評(píng)分員對(duì)于評(píng)卷地點(diǎn)傾向的分析結(jié)果:比起老手評(píng)分員(M=2.28,p<.05),新手評(píng)分員更傾向在評(píng)卷中心進(jìn)行閱卷(M=4.40)。相比紙質(zhì)評(píng)卷,新手評(píng)分員對(duì)于網(wǎng)上評(píng)卷持有積極態(tài)度(M=3.80),而老手評(píng)分員卻并不那么認(rèn)同(M=2.26)。
在使用計(jì)算機(jī)方面,新手評(píng)分員比老手評(píng)分員態(tài)度更加積極,他們認(rèn)為網(wǎng)上評(píng)卷不會(huì)造成太嚴(yán)重的視疲勞(M=3.40),而老手評(píng)分員卻覺得眼睛十分疲勞(M=3.96)。在問及是否紙質(zhì)評(píng)卷會(huì)帶來視疲勞時(shí),新手(M=4.00)和老手評(píng)分員(M=3.96)都認(rèn)為網(wǎng)上評(píng)卷比紙質(zhì)評(píng)卷對(duì)視力的要求更高。此外,老手評(píng)分員認(rèn)為網(wǎng)上評(píng)卷更需要間歇休息時(shí)間(M=3.60)而新手評(píng)分員并沒有如此強(qiáng)烈的認(rèn)同(M=2.92)。有關(guān)是否紙質(zhì)評(píng)卷也需要間隔休息,所有評(píng)分員的回饋同網(wǎng)上評(píng)卷的分析結(jié)果類似(M=4.00)。表7歸納了評(píng)分員的總體評(píng)價(jià)。
表7 評(píng)分員對(duì)網(wǎng)上評(píng)卷所持態(tài)度
如表7所示,新手評(píng)分員均積極評(píng)價(jià)評(píng)卷中心的環(huán)境,他們認(rèn)為“控制”試卷有助于對(duì)評(píng)分進(jìn)行標(biāo)準(zhǔn)化。然而,老手評(píng)分員普遍對(duì)于網(wǎng)上評(píng)卷過程持有負(fù)面評(píng)價(jià)(16個(gè)負(fù)面評(píng)價(jià),4個(gè)中肯評(píng)價(jià)),主要包括四個(gè)方面:不習(xí)慣往返評(píng)卷中心,更習(xí)慣在家閱卷(13人);降低評(píng)卷的靈活性(5人);紙質(zhì)評(píng)卷更容易(3人);評(píng)卷系統(tǒng)限制了評(píng)分員在試卷上批注(2人)。另一方面,在評(píng)卷時(shí)評(píng)分員并沒有被要求必須對(duì)試卷進(jìn)行批注,然而,他們卻清晰地表明想要進(jìn)行批注,主要基于以下兩點(diǎn):第一、外審專家檢查評(píng)分時(shí)可作為參考;第二、可以標(biāo)注需要同外審專家進(jìn)行討論的問題。
僅有3名老手評(píng)分員對(duì)網(wǎng)上評(píng)卷給予了正面評(píng)價(jià)。與此同時(shí),我們也應(yīng)該注意到,老手評(píng)分員也意識(shí)到了網(wǎng)上評(píng)卷的益處,而不是僅僅認(rèn)為新的評(píng)卷系統(tǒng)只能帶來一系列的問題和缺點(diǎn)(Ealvey&Coniam 2010):
(1)“網(wǎng)上評(píng)卷有很多優(yōu)點(diǎn),例如,評(píng)分員不用一直等到具體數(shù)據(jù)出來就可以直接開始評(píng)閱第二批試卷。”(評(píng)分員76)
(2)“我認(rèn)為網(wǎng)上評(píng)卷是很好的,因?yàn)樵u(píng)分員在某種控制之下,如果他們不認(rèn)真閱卷,他們將會(huì)繼續(xù)接受培訓(xùn)。我認(rèn)識(shí)這對(duì)于考生來說是十分公平的方式?!保ㄔu(píng)分員110)
(3)“我十分喜歡網(wǎng)上評(píng)卷,因?yàn)橄到y(tǒng)會(huì)定期對(duì)試卷進(jìn)行監(jiān)控以檢查你的評(píng)分是否是連續(xù)的。這點(diǎn)在紙質(zhì)評(píng)卷是不能實(shí)現(xiàn)的。”(評(píng)分員140)
本文回顧和梳理了針對(duì)香港中學(xué)會(huì)考英文科目網(wǎng)上評(píng)卷實(shí)施情況的實(shí)證研究,主要關(guān)注兩方面:(1)網(wǎng)上評(píng)卷和紙質(zhì)評(píng)卷的量化比較;(2)評(píng)分員對(duì)兩種評(píng)卷模式所持態(tài)度的質(zhì)化分析。前者主要考查評(píng)卷模式是否會(huì)影響考生分?jǐn)?shù),以及兩種評(píng)卷模式的評(píng)分員一致性是否具有可比性。研究結(jié)果表明,無論采取何種評(píng)卷模式,考生所得分?jǐn)?shù)都是可靠的。后者主要關(guān)注評(píng)分員是否具有一定計(jì)算機(jī)能力來運(yùn)用新的評(píng)卷模式進(jìn)行閱卷,以及評(píng)分員對(duì)網(wǎng)上評(píng)卷的態(tài)度,以驗(yàn)證評(píng)分員對(duì)評(píng)卷模式?jīng)]有偏倚。
量化分析結(jié)果表明:(1)同一個(gè)評(píng)分員使用兩種評(píng)卷模式所得試卷的分?jǐn)?shù)與不同評(píng)分員評(píng)閱相同試卷所得分?jǐn)?shù)具有可比性;(2)評(píng)分員一致性系數(shù)表明,兩個(gè)評(píng)分員使用兩種評(píng)分模式閱卷的分?jǐn)?shù)也具有可比性;(3)同紙質(zhì)評(píng)卷相比,網(wǎng)上評(píng)卷的寫作成績(jī)同閱讀成績(jī)以及同整個(gè)英語科目的分?jǐn)?shù)之間的一致性系數(shù)也具可比性。因此可以得出,兩種評(píng)卷模式的評(píng)卷環(huán)境相似,使用任何一種評(píng)分模式對(duì)考生分?jǐn)?shù)不會(huì)產(chǎn)生影響。差異分?jǐn)?shù)的分析結(jié)果也驗(yàn)證了該結(jié)論。
在計(jì)算機(jī)能力方面,評(píng)分員普遍認(rèn)為自己具有較好的計(jì)算機(jī)能力。無論從技術(shù)還是從效率方面看,所有評(píng)分員都認(rèn)為使用計(jì)算機(jī)評(píng)卷不存在任何困難。因此可以認(rèn)為,在技術(shù)操作層面,網(wǎng)上評(píng)卷方式對(duì)評(píng)分員不具有影響。
從對(duì)網(wǎng)上評(píng)卷的態(tài)度來看,評(píng)分員總體持積極態(tài)度,新手評(píng)分員比老手評(píng)分員的評(píng)價(jià)更為積極;有部分評(píng)分員認(rèn)為應(yīng)當(dāng)在特定階段對(duì)網(wǎng)上評(píng)卷系統(tǒng)重新進(jìn)行評(píng)估。目前,網(wǎng)上評(píng)卷系統(tǒng)的開發(fā)更多的是從技術(shù)人員而不是從評(píng)分員的角度出發(fā)的。因此,網(wǎng)上評(píng)卷系統(tǒng)的有用性以及用戶友善性有待日后進(jìn)一步考察。
本文沒有涉及其他學(xué)科的網(wǎng)上評(píng)卷實(shí)施情況,但另有一系列的研究主要針對(duì)香港通識(shí)教育學(xué)科的網(wǎng)上評(píng)卷實(shí)施情況(Coniam&Yeung 2010;Coniam 2010b)。其量化分析結(jié)果與本研究類似。由此可以看到,同紙質(zhì)評(píng)卷相比,網(wǎng)上評(píng)卷在信度和測(cè)試公平性方面更勝一籌。在通識(shí)教育學(xué)科的評(píng)卷研究中,評(píng)分員對(duì)于網(wǎng)上評(píng)卷的態(tài)度比英文學(xué)科更為積極,說明評(píng)分員對(duì)網(wǎng)上評(píng)卷系統(tǒng)具有更高的接受度。
2012年香港公開考試的所有學(xué)科都已大規(guī)模采用網(wǎng)上評(píng)卷,因此,確保評(píng)卷信度具有重要的實(shí)踐意義。本文所回顧的一系列實(shí)證研究也恰好驗(yàn)證了網(wǎng)上評(píng)卷的信度。在國(guó)際范圍內(nèi),網(wǎng)上評(píng)卷系統(tǒng)還處于初期實(shí)施階段,并未完全成為公開考試的評(píng)分規(guī)范,亟待日后研究進(jìn)一步考查。香港首次中學(xué)文憑考試(Hong Kong Diploma of Secondary Education,簡(jiǎn)稱為HKDSE)于2012年舉行,所有18個(gè)科目均采用網(wǎng)上評(píng)卷。研究者將在評(píng)分前后階段對(duì)所有參與閱卷的教師評(píng)分員(N=4,000)進(jìn)行問卷調(diào)查,所使用的問卷也根據(jù)科目和題型等進(jìn)行了相應(yīng)改編。該項(xiàng)研究對(duì)于網(wǎng)上評(píng)卷的評(píng)估涵蓋了所有可能的測(cè)試題型,綜合考查了評(píng)分員對(duì)網(wǎng)上評(píng)卷的態(tài)度。
附注
①本研究的理想樣本是:新手、老手評(píng)分員的分布能夠同香港中學(xué)會(huì)考的評(píng)分員分布相似。但是這一點(diǎn)未能在研究中得以實(shí)現(xiàn),主要有兩方面原因:第一、老手評(píng)分員有相對(duì)較好的評(píng)分?jǐn)?shù)據(jù)表現(xiàn),因此更“有資格”參加本研究;第二、相比老手評(píng)分員,新手評(píng)分員的參與積極性稍低。
②近十年來,多面Rasch分析作為主要統(tǒng)計(jì)分析方法之一,在表現(xiàn)型語言評(píng)估中得以廣泛使用。該方法能夠?qū)η榫骋蛩剡M(jìn)行建模,包括評(píng)分員嚴(yán)厲度,任務(wù)難度等(Bond&Eox 2007;Weir 2005)。