肖 媛 李群鋒 董 彬
新冠肺炎疫情是百年來全球發(fā)生的最嚴重的傳染病大流行。為有效抗擊疫情蔓延,世界各國政府不得不關(guān)閉教育機構(gòu),面對面的聚集型教學(xué)與測試被迫中斷。世界教科文組織統(tǒng)計,2021 年5 月全球仍有近一半的學(xué)生受到教育中斷所帶來的影響[1];與此同時,在線教育的占比正在逐漸擴大。此次疫情對于全球教育業(yè)態(tài)的影響是深遠的。正如Gacs 和Chapelle所言,“我們已經(jīng)到了在線教育、語言測試實踐的分水嶺時刻[2-3]”。為了迅速適應(yīng)這種變化,2020年初,許多國家的教育組織從面授改為遠程教學(xué)[4]。多家國際知名語言教育考試機構(gòu)如美國教育考試服務(wù)中心(Educational Testing Service,ETS)、劍橋大學(xué)英語考評部(Cambridge Assessment English)、法國法語聯(lián)盟(Alliance Fran?aise)和中國教育部中外語言交流合作中心(簡稱“語合中心”)的線下考試經(jīng)歷短暫中斷后,在2020 年初相繼推出了居家版語言能力測試,這一創(chuàng)新的考試形式使全球數(shù)千萬語言學(xué)習(xí)者受益。居家語言測試對于恢復(fù)語言教育秩序做出了重要貢獻,對語言測試業(yè)態(tài)變革與發(fā)展產(chǎn)生深遠影響。
居家語言測試不是現(xiàn)有紙筆考試或網(wǎng)絡(luò)考試版本的簡單轉(zhuǎn)化,其在考試技術(shù)、考試安全、考試公平、考試倫理等諸多方面都面臨著獨特的挑戰(zhàn)。筆者以標準化的第二語言水平測試為研究對象,調(diào)查了9項居家語言測試,從內(nèi)容、效力、技術(shù)、安保4 個角度分析居家考試的現(xiàn)狀,在公平性、技術(shù)和安全3方面探討面臨的挑戰(zhàn),并對居家考試未來的發(fā)展進行展望,希望能為我國教育考試提供借鑒,并為不同利益相關(guān)者,特別是學(xué)習(xí)者、考試主辦單位和院校提供參考。
廣義上的居家考試由來已久,在獨立空間單獨進行的在線或非在線測試都可以稱為居家考試。狹義上的居家考試則僅指由于本次疫情而導(dǎo)致的由線下轉(zhuǎn)移到線上的有組織有計劃的大規(guī)模在家進行的測試。疫情以來,居家語言測試一經(jīng)推出便引起了學(xué)習(xí)者、使用者的廣泛關(guān)注,但關(guān)于居家測試的研究尚比較少見,僅有Isbell 和Kremmel 對英語為主的幾項居家測試的一項調(diào)研[5]。目前由于日語能力測試(JLPT)、韓語能力考試(TOPIK)、西語考試(DELE/SIELE)、德語考試(TestDaF/Goethe/?SD/?IF)等標準化語言測試僅在部分地區(qū)恢復(fù)了線下考試而尚未采用居家形式,使得調(diào)查對象的選擇相對有限。在綜合考慮影響力、語種分布及考生數(shù)量等因素的基礎(chǔ)上,選擇了領(lǐng)思考試(Linguaskill)[6]、托福居家版(TOEFL iBT?Home Edition)[7]、法語水平考試居家版(TEFExpress)[8]、雅思居家版(IELTS Indicator)[9]、HSK 居家版[10]、日語交流能力鑒定考試居家版(JLCAT)[11]、TOEFL?EssentialsTM[12]、美國外語教學(xué)學(xué)會ACTFL 居家考試TEP和Duolingo 9種測試進行分析[13-14]。
2020 年3 月到6 月,劍橋大學(xué)英語考評部、ETS等多家機構(gòu)比較集中地推出了居家版語言能力測試。如表1所示,這些測試可分為四種類型:
表1 國際居家語言測試內(nèi)容與形式
第一種是基于原有的紙筆或網(wǎng)絡(luò)版本測試開發(fā)的居家版考試,一般試卷體例固定,可稱為傳統(tǒng)型居家 考 試,如TOEFL iBT?Home Edition、IELTS Indicator 和HSK,這些考試的內(nèi)容、結(jié)構(gòu)與線下考試完全一致,覆蓋范圍最為廣泛,TOEFL iBT?Home Edition 在除了中國大陸和伊朗以外的地區(qū)開放;HSK 居家考試至2021 年5 月已覆蓋全球96 個國家和地區(qū),對原紙筆測試考點國家數(shù)的覆蓋達64%。
第二種是針對疫情開發(fā)的新測試,多采用基于人工智能技術(shù)(AI)的多級遠程自適應(yīng)模式,如Linguaskill、JLCAT 和TOEFL?EssentialsTM,這些考試的題目和考試時長根據(jù)應(yīng)試者的表現(xiàn)決定。有的還采用自由組合的模塊式設(shè)計考查聽、讀、說、寫各項語言技能,如Linguaskill,學(xué)習(xí)者可以根據(jù)需要選考或重考任意模塊,滿足了個性化和靈活性的需求。
第三種是根據(jù)已有測試開發(fā)的縮減版考試,僅在疫情期間使用,如TEF-Express只在2020年4月到9月間提供,題目數(shù)量和考試時間都縮短至TEF的一半(TEF 有閱讀、聽力、詞匯與結(jié)構(gòu)三項必考項目和寫作、口語兩項選考項目,Express 僅有閱讀和聽力兩個測驗)。
第四種測試是原本就被設(shè)計為B2B/B2C 形式的遠程自適應(yīng)考試,在疫情期間通過將原有測試組合或優(yōu)化,升級為居家版考試,TEP 和Duolingo 屬于這種情況。TEP 是美國外語教學(xué)學(xué)會開發(fā)的聽說讀寫全技能集成性測驗,實際上是將ACTFL 已有的口語OPIc、寫作WPTc 和聽讀L&Ract 三項自適應(yīng)考試匯集成一個測試,每項分技能測試單獨進行。除了HSK居家版和TEF-Express外,其他測試都考查聽說讀寫全技能??荚嚂r長1到4小時不等。
居家考試的評分可分為有資質(zhì)的評分員評分、自動評分和AI 輔助下的有資質(zhì)的評分員評分三種形式。根據(jù)前一部分對考試的分型,傳統(tǒng)型居家考試評分方式與線下考試保持一致,特別是口語和寫作都由有資質(zhì)的評分員評閱;自適應(yīng)考試多為自動評分或自動評分與人工評分相結(jié)合。每項考試都提供分項分數(shù)和總分,有些測試還提供與不同標準的參照量表,如Linguaskill分數(shù)以劍橋英語分數(shù)量表形式呈現(xiàn)并對應(yīng)CEFR;Duolingo 提供與CEFR、TOEFL iBT?和IELTS?Academic 的等級對應(yīng)量表;JLCAT 提供了和日語能力考試(JLPT)以及CEFR 的對應(yīng)量表;TEP 依據(jù)《美國外語教學(xué)學(xué)會語言能力指導(dǎo)大綱2012 版》(ACTFL Proficiency Guidelines 2012),對Novice 到Superior 各等級相應(yīng)語言能力進行描述??荚嚱Y(jié)束后的2~14天即可查詢成績,見表2。
表2 國際居家語言測試的分數(shù)和認可度
關(guān)于考試效力,TOEFL iBT?Home Edition 和HSK 明確指出不同考試版本具有相同的效力;特別是HSK,其居家版并沒有單獨設(shè)置名稱,各版本不作區(qū)分。雅思聯(lián)盟則明確說明,IELTS Indicator 僅在疫情期間為因受疫情影響而取消雅思考試的地區(qū)開放,并非所有機構(gòu)都接受居家版成績,建議考生咨詢相關(guān)單位后報考。為在疫情期間提升法語學(xué)習(xí)者法語水平而開發(fā)的TEF-Express 則與TEF沒有可比性,Express 沒有正式成績單,考后2 天會收到一封關(guān)于考試結(jié)果的郵件,官網(wǎng)指出Express 成績在作為入學(xué)和移民參考方面不能與TEF 進行比較,建議考試前咨詢相關(guān)單位是否認可,目前Express 只被加拿大個別大學(xué)接受。Duolingo 和TEP 的認可度非但沒有受到影響,反而因為其遠程形式的先天優(yōu)勢在疫情初期擴大了市場份額??梢姡蛞咔槎貏e推出的新考試還在逐步被認可的過程中,這些新考試一方面依托于測試提供者的品牌信譽和豐富的測評經(jīng)驗,另一方面測試提供者也在推動新考試認可度向“旗艦”項目靠近上不斷努力。劍橋大學(xué)英語考評部針對Linguaskill 提出了“以測促學(xué)”和“領(lǐng)軍AI 測評”的理念,在測試的可靠性、靈活性、易操作性、快速生成結(jié)果、降低考生焦慮感等方面宣傳其優(yōu)勢。ETS 則在其官網(wǎng)上從考試體驗、設(shè)計、成績、安全等方面將Essentials 與Duolingo、雅思學(xué)術(shù)類考試和PTE 學(xué)術(shù)英語考試進行對比,EssentialsTM在考費、考試便利、寄分服務(wù)、AI 輔助下的人工作業(yè)(出題、評分、監(jiān)考)諸多方面展現(xiàn)出了不小的優(yōu)勢。在ETS 的推動下,90%的美國、英國、加拿大院校愿意接受EssentialsTM作為錄取標準。但這些新考試推出時間還比較短,接受程度遠不如傳統(tǒng)考試廣泛。
各項居家考試對于考試環(huán)境和設(shè)備的總體要求差別不大??紙鲂枰毩?、封閉且安靜,考場內(nèi)需具備電腦、攝像頭、揚聲器和麥克風(fēng),一般不允許使用平板或手機,除非作為第二機位監(jiān)考使用,如HSK(表3)。對于耳機的要求則比較多樣,TOEFL iBT?Home Edition、JLCAT 和EssentialsTM、Duolingo 禁止使用耳機,考試過程中面部及耳朵需要清晰可見,Linguaskill則要求使用包耳式耳機;HSK 禁止使用藍牙等無接線耳機,TEP 則建議使用無線的USB 數(shù)字耳機。Windows 操作系統(tǒng)比MacOS 更為普遍,一般64 位Win7 及 以 上 可 滿 足 要 求,Google Chrome 和Firefox 是較為常用的瀏覽器,網(wǎng)絡(luò)帶寬基本要求是1Mbps。由于遠程應(yīng)用軟件存在將考試機鏈接至第三方設(shè)備的風(fēng)險,出于考試安全的目的,部分考試中,TeamViewer、Apple Remote Desttop、向日葵等遠程軟件被禁止使用。
表3 考試環(huán)境要求
各項居家版測試所采用的安保措施不盡相同,可歸納為監(jiān)控和使用指定程序兩種手段(表4),監(jiān)控包括考前核驗身份、考中遠程監(jiān)考和考后抽查三種。值得注意的是,除了真人遠程監(jiān)考外,生物識別技術(shù)和人工智能輔助手段在監(jiān)控中也有所應(yīng)用,雅思采用生物識別技術(shù)進行“人證”比對來確認考生身份,并在考后借助人工智能對考試過程和結(jié)果進行審查;JLCAT 采用了人臉識別和語音識別技術(shù);Duolingo 自動巡航監(jiān)控可辨析考生75 種以上的行為,為監(jiān)考老師判斷不當行為作出提示。使用指定程序方面,Linguaskill、TOEFL iBT?Home Edition/EssentialsTM、IELTS Indicator、HSK、Duolingo均要求應(yīng)試者安裝專用的考試客戶端,這些考試客戶端通常設(shè)有頁面前置、禁用未授權(quán)程序、禁用鼠標右鍵和鍵盤快捷鍵等功能。TEP、HSK和托福還啟用了遠程監(jiān)考程序,這些遠程程序中一部分是侵入式的,即安裝在考試機上,監(jiān)考老師可以遠程操控考生電腦,TEP和托福就屬于這種情況;還有一種是非侵入式的,遠程程序安裝在第二機位上如HSK。遠程軟件通常由第三方平臺提供,包括ZOOM、LogMeIn Rescue、騰訊會議等,并非是專門用于居家測試的監(jiān)控軟件。ETS則將監(jiān)考工作委托給了專門提供監(jiān)考服務(wù)的第三方公司ProctorU,ProctorU 不僅提供平臺還提供人員和技術(shù)的支持。TEF-Express 全程無監(jiān)控,僅書面告知考生誠信考試并對考試內(nèi)容進行保密。
表4 安保措施
疫情給線下考試帶來了前所未有的危機,卻為遠程居家考試的發(fā)展迎來了重要機遇,也為測試研發(fā)人員重新思考語言測試的發(fā)展提供了有益啟示。ETS 稱居家考試會成為一個永久性的選項(permanent option),HSK 相關(guān)研發(fā)人員認為居家考試很可能發(fā)展為一種常規(guī)考試類型,而這種全新的考試形式在考試的公平性、技術(shù)和安全等方面正面臨著不同于以往線下考試的獨特的挑戰(zhàn)。
在全球教育中斷的時刻,許多語言測試不約而同地選擇從線下轉(zhuǎn)為居家,并且Linguaskill 和Duolingo還提供隨時約考服務(wù),這無疑對促進教育公平做出了重要努力。但同時,測試的公平性問題引發(fā)了利益相關(guān)者極大的擔憂,并與測試安全和測試技術(shù)交織在一起。雖然一些測試的居家版試題與常規(guī)版并無差別,但許多單位并不認可居家考試成績,在人們的觀念中,在家進行的考試安全等級更低,而手寫與鍵盤輸入也存在難度差異,這些都有損考試公平,然而尚未見到任何語言測試機構(gòu)發(fā)布的關(guān)于紙筆版、機考版和居家版不同版本考試是否具有相同的構(gòu)念效度,以及不同版本測試之間分數(shù)轉(zhuǎn)換和銜接的實證研究。測試公平問題并不限于此,還涉及考試的標準化。作為測試行業(yè)標準的《教育與心理測量標準》(Standards for Educational and Psychological Testing,簡稱“標準”)在其2014版中對測試過程中的公平性問題(Fairness in Treatment During the Testing Process)進行了討論,從考試時長、考場、監(jiān)考人員、安全程序的一致性方面做了詳盡描述,包括為所有考生提供的設(shè)備具有相似的處理速度、所提供的圖表具有相同的分辨率和尺寸等[15]。而居家考試在私人環(huán)境中進行,無論軟、硬件設(shè)備還是網(wǎng)絡(luò)條件都千差萬別,無疑降低了對考試標準化的要求,從技術(shù)角度講也存在引發(fā)考試公平爭議的風(fēng)險。此外,還涉及考試的可達性(accesssibility)。這是2014 版《標準》中新增的概念,可理解為考生在所測量構(gòu)念上的表現(xiàn)不得因為任何無關(guān)特質(zhì)而受到影響,對于一些特殊應(yīng)試群體,如視障者,線下考試可通過提供盲文考卷、放大字考卷等,使這一群體能夠更公平地獲取考試內(nèi)容,居家考試在特殊應(yīng)試者個性化設(shè)置方面則受到了一定限制。為了更加順利地推動居家考試的發(fā)展,居家測試研發(fā)單位應(yīng)提高對考試公平性的認識,加強考試公平性的實證研究,形成科學(xué)的考試公平理論,以便提供更多的有力證據(jù)證明居家考試的公平性,這包括對不同版本測試效度的實證研究、不同版本測試的等值、是否應(yīng)該建立單獨的居家考試考生常模、不同環(huán)境中的應(yīng)試者的認知方式和焦慮水平對成績的影響等,這些議題都與考試公平密切相關(guān),同時也應(yīng)當盡可能通過技術(shù)手段消減因考試形式所帶來的公平性隱患,保障所有學(xué)習(xí)者參加考試的權(quán)利。
技術(shù)要求也是居家考試直面的挑戰(zhàn)之一。作為測試提供者,不僅要考慮服務(wù)器部署、并發(fā)壓力等技術(shù)問題,還要充分考慮應(yīng)試者所具備的實際條件。從以上調(diào)查的居家考試來看,居家考試對于考試環(huán)境和設(shè)備的要求大致相同,可以說當今全球初等發(fā)達及以上的國家和地區(qū)基本都能滿足居家考試的實施條件,這為居家考試的快速擴展提供了可能。另一方面,居家版測試對于網(wǎng)絡(luò)帶寬有比較嚴格的限制,HSK 相對于其他考試,對上傳和下載速度的要求是最低的,達到150Kbps 即可,其他考試則需達到512Kbps 或1Mbps 及以上;自適應(yīng)考試以及通過音頻、視頻、仿真考官等形式交付的試題對網(wǎng)絡(luò)帶寬要求更高,這對于能否在經(jīng)濟欠發(fā)達地區(qū)和網(wǎng)絡(luò)環(huán)境不穩(wěn)定的情況下開展居家考試帶來了挑戰(zhàn)。第二,缺乏居家口語測試專用軟件和居家測試監(jiān)控專用軟件。人機互動式口語考試通常只需要對考生回答進行錄音、保存并回傳至服務(wù)器,但遇到人與人遠程面試型的口語測試,許多考試的做法是選擇在第三方會議平臺上進行,如雅思聽讀寫在其考試專用客戶端Inspera 完成,口語則選用通用型的會議平臺Zoom暫時替代考試客戶端。由于測試開發(fā)時間緊迫,目前許多考試的居家客戶端某種程度上是原有機考版客戶端的升級版本,居家測試監(jiān)控專用軟件也普遍采用第三方軟件,如ProctorU,這對于考試安全和用戶隱私保護形成了潛在威脅??紤]到居家考試很可能發(fā)展成為一種常規(guī)化考試形式,測試研發(fā)單位應(yīng)當加大科研投入,提升居家考試技術(shù)水平。一方面,應(yīng)及時收集和分析居家環(huán)境中所產(chǎn)生的新要求新問題,優(yōu)化、完善現(xiàn)有系統(tǒng)的功能,自主研發(fā)適用于居家場景的考試和監(jiān)控系統(tǒng);另一方面,應(yīng)加大人、財、物的投入和保障力度,支持技術(shù)不斷更新迭代,使居家考試技術(shù)始終處于領(lǐng)先水平,進而維護測試的公平和安全。
除了上述兩方面,居家考試的安全性也備受關(guān)注。從采取的安保措施分析可知,以上所調(diào)查的居家考試在維護考試安全方面都做出了巨大努力,嚴密的監(jiān)控流程和專用軟件能有效減少考試違規(guī)行為發(fā)生。然而,居家考試在考生熟悉的私人環(huán)境中進行,即便通過網(wǎng)絡(luò)遠程監(jiān)控,有些行為也有可能逃過檢測[16],如使用隱蔽的拍攝設(shè)備盜取試題、通過無線電接收器接收答案等。開發(fā)和使用測試的利益相關(guān)者一致認為,當考試或其他結(jié)構(gòu)化評估出現(xiàn)某種形式的作弊或泄題時,分數(shù)的價值就會減少[17],使考試公平性受到損害[18]。居家測試提供者要強化考試安全觀念,對居家考試安全進行系統(tǒng)設(shè)計。國際考試委員會(International Test Commission,ITC)制定的《考試安全準則》(The International Test Commission Guidelines on the Security of Tests,Examinations,and Other Assessments)指出,考試安全的頂層設(shè)計便是制定考試安全計劃。居家考試也應(yīng)該根據(jù)自身考試理念、目標、設(shè)計制定相應(yīng)的《居家考試安全計劃》,通過《居家考試安全計劃》建立完備的居家考試安全體系。該體系應(yīng)涵蓋考試設(shè)計、開發(fā)、部署、實施、結(jié)果處理各關(guān)鍵階段,具體包括:
1. 優(yōu)化考試安全設(shè)計?;诖笠?guī)模題庫設(shè)計的自適應(yīng)考試在控制題目曝光率、防作弊和防泄題等方面都表現(xiàn)出了一定優(yōu)越性,Duolingo 稱只有參加1000 次考試才能碰到相同的試題。傳統(tǒng)考試也可以通過采用多套平行試卷(Multiple Equivalent Forms)、打亂題目和選項排列順序的方式降低考試風(fēng)險。另外,還可以優(yōu)化題目呈現(xiàn)方式,如將文字題通過圖片、音/視頻結(jié)合的多模態(tài)形式展現(xiàn)也能增加泄題難度;
2. 加強考試安全教育。使測試研發(fā)人員、使用者、考生和第三方機構(gòu)(院校、法院、雇主)出于法律和道德的要求,保障測試內(nèi)容和結(jié)果安全,履行自覺維護考試權(quán)威的義務(wù);
3. 強化作弊篩查機制。雅思和TEF Express 在考后通過人工或AI 對考試過程進行審查,筆者認為,除了審查考試過程的記錄外,還應(yīng)加強針對考試作答結(jié)果的作弊篩查,如雷同篩查、個體一致性篩查、短期多次應(yīng)試篩查等。互聯(lián)網(wǎng)的超時空特性使得一些人員利用時差進行跨國作弊成為可能,不僅要在相同國別、區(qū)域內(nèi)查,還可以開展跨國家、跨時區(qū)篩查,深入研究不同作弊行為特點,不斷優(yōu)化作弊篩查機制,提升作弊防控甄別能力;
4. 通過加強考試違規(guī)行為違法證據(jù)采信的方式維護考試安全。需對監(jiān)考人員進行摸底與培訓(xùn),建立違規(guī)者黑名單,控制多次考試間隔等。建立主動的、前瞻性的居家考試安全體系,將有助于保障考試安全。
由于居家考試的出現(xiàn),語言測試的業(yè)態(tài)已經(jīng)悄然改變,居家測試在未來或許會發(fā)展成為一種不可或缺的考試形式。希望對上述國際居家語言測試的調(diào)查和分析能為我國的教育考試發(fā)展起到參考作用。國際居家測試剛剛起步,正處于技術(shù)窗口期,我國測試研發(fā)人員應(yīng)抓住歷史機遇,積極投身研發(fā)工作,在居家測試這一新起點上增強我國教育考試的考試理念、考試理論、考試技術(shù)和考試產(chǎn)品的原創(chuàng)性、引領(lǐng)性,推動我國教育考試高質(zhì)量發(fā)展。
關(guān)于居家測試的研究剛剛開始,許多議題都值得深入地思考和分析。如何提升居家測試的公平性、安全性和技術(shù)水平是一系列相當復(fù)雜的問題,每一個專題都需要投入大量精力進行深入研究和實踐,需要語言教育、心理測量和計算機科學(xué)等不同領(lǐng)域的專家展開跨學(xué)科跨領(lǐng)域合作,本文僅提出一些淺見,希望能為測試利益相關(guān)者提供有益借鑒,未來筆者將進一步聚焦于居家考試的公平性開展實證研究。