呂鳴
智能測評技術(shù)在大規(guī)模英語口語考試評卷中的探索與實踐
呂鳴
本文探討在大規(guī)模英語口語考試中,機器智能評分部分取代人工評卷的可行性。通過對2015年上海市普通高中學業(yè)水平考試英語口語考試的考生答卷進行人工和機器評分比較,得出機器評分在穩(wěn)定性和客觀性上的表現(xiàn)明顯優(yōu)于人工評分,可以部分取代人工評卷。本文還對如何進一步提高智能評分的準確度提出建議。
智能測評;機器評分;口語考試
英語是我國學生的主要課程之一。英語課程的總體目標是培養(yǎng)學生的語言綜合運用能力。聽、說、讀、寫既要作為學習的內(nèi)容又要作為學習的手段,在重要的終結(jié)性評價中應(yīng)該包括口試、聽力考試和筆試,以全面考察學生的語言綜合運用能力。2014年9月,上海作為首批高考綜合改革的試點城市,對外公布了《上海市深化高等學??荚囌猩C合改革實施方案》,方案中提到深化外語考試的改革。從2017年開始,外語考試包括筆試和聽說測試,聽說測試部分采用人機對話的方式,一年舉行兩次,分別在每年1月和6月。高中生可最多參加兩次外語考試,選擇其中較好的一次成績計入高考總分。[1]
在新方案實施前,上海僅在每年1月舉行普通高中學業(yè)水平考試英語口語考試,近三年參加考試的人數(shù)均維持在每年5.5萬人左右。每次考試結(jié)束后,均需要組織近千名教師對考生語音答卷進行集中網(wǎng)上評閱并采用人工雙評模式。
2017年高考改革后,由于推行一年兩考,因此每次考試的人數(shù)可能大大超過當前。如果在這樣大規(guī)模的考試中,對所有考生的語音答卷進行集中人工網(wǎng)上評閱,則會存在如下問題:(1)人工評卷工作量大。按照目前人工雙評模式,若雙評差值超過設(shè)定的誤差閾值,則需要評卷組長進行仲裁打分以確定最終成績,因此,每次評卷的總工作量至少是考生數(shù)的2.1倍。以評閱完單個考生所有答題需要5~10分鐘計算,5萬考生的答卷需要千名教師花費2~3天才能完成。(2)人工評卷組織管理困難。上海市英語口語考試共有12套試卷,分別在不同的考試批次中使用,評卷同時在4個評卷點集中進行,因此在評卷前需要根據(jù)各批次的考生人數(shù)分布情況,劃分各評卷點的評閱工作量。若每套試卷按照題型劃分成多塊評閱,則更增加了管理的復(fù)雜度。(3)人工評卷存在較大主觀性。人工評卷工作量大且是重復(fù)性工作,特別是長時間用耳用眼去判別打分,難以保證評卷質(zhì)量不受影響。在人工評卷時,不同的評卷教師會按照各自對評卷標準的理解,產(chǎn)生不同的標準,即便是同一個評卷教師在不同時段也會產(chǎn)生標準偏差,這就帶來了很多主觀差異,考試的信度會受到一定的影響。
為解決上述問題,提高評卷效率和公平性,經(jīng)過對近三年上海市普通高中學業(yè)水平考試英語口語考試考生語音數(shù)據(jù)的分析研究,構(gòu)建了具有上海地域特色的智能語音評分模型。通過對比人評和機評的結(jié)果,驗證智能評測技術(shù)在上海英語口語考試評卷中的實際應(yīng)用效果,穩(wěn)步推進英語口語考試評卷由人工網(wǎng)上評卷向機器智能評分的轉(zhuǎn)變,為機器評分逐步取代人工評卷打下基礎(chǔ)。
2.1 智能評測的核心技術(shù)
智能評測的核心技術(shù)包含語音合成、語音識別和語音評測,其功能和核心技術(shù)如表1所示。
智能評分引擎的技術(shù)特征包含兩方面:(1)自由表述題的自動評分。首先需要引入連續(xù)語音識別技術(shù),以使得計算機能夠“聽懂”考生的表述內(nèi)容。[2]然后,基于題目要點和專家提供的參考答案,通過語義擴展生成本題定制化語言模型,并使用海量數(shù)據(jù)訓練和通用語言模型插值算法,有效降低未登錄詞的比例,提升識別性能;同時通過機器翻譯對語義進行相似度匹配,實現(xiàn)答案自動擴展,在機器評閱中對答題要點進行準確性比對,從而完成對表述完整度的評價。(2)基于人工輔助的模型自動優(yōu)化。使用專家對每套試題的轉(zhuǎn)寫結(jié)果進行語言模型的優(yōu)化。在通用評測模式下的語言模型如與真實的口語表述有部分不匹配,通過引入題目真實口語表述轉(zhuǎn)寫數(shù)據(jù)和自動擴展生成的訓練語料混合進行語言模型訓練,以大幅改善語言模型的性能;同時,基于專家打分和轉(zhuǎn)寫結(jié)果,通過數(shù)據(jù)驅(qū)動的方式訓練以自動發(fā)現(xiàn)新特征(如某些表述不好,一旦出現(xiàn)則會打低分等),對比專家打分結(jié)果和機器預(yù)測結(jié)果,使機器能學習專家打分的尺度,以進一步提高人機打分結(jié)果的一致性。
2.2 智能評測的實施
2.2.1 準備工作
評卷題塊劃分。在正式評卷時,為了讓機器與人工評分相結(jié)合,需將每套試卷按評卷模式分為全機評、人機互評和人兩評三個題塊,如表2所示。這樣劃分考慮到作答的主觀性與客觀性差異,使機器評分逐步取代人工雙評。客觀性最強的題塊一全部由機器評分,通過學習專家評分標準,機器可以更穩(wěn)定、客觀地進行評分;主觀性最強的題塊三則繼續(xù)維持人兩評的模式;處于兩者之間的題塊二則采用人機互評的模式,人一評可以彌補機器評分在某些方面靈活性不夠的缺點。
表1 智能口語評測核心技術(shù)
表2 2015年上海市普通高中學業(yè)水平考試英語口試評卷分塊方式
評卷系統(tǒng)改造。為滿足三種評卷模式相互共存,也為今后逐步取消人工雙評做好技術(shù)準備,需要對原有評卷系統(tǒng)進行技術(shù)改造,使各題塊可以選擇全機評、人機互評和人工雙評三種評卷模式中的任何一種,機評可以取代任意一個人工評次,且對已經(jīng)存在機評的評次不再進行評卷任務(wù)分配。
執(zhí)行效率預(yù)估。智能評卷的完成時間在實施中會遇到硬件環(huán)境的制約。實施步驟中數(shù)據(jù)預(yù)處理、基礎(chǔ)運算和評測運算完成所需要的時間和計算機配置是密切相關(guān)的,即評卷效率與線程數(shù)、主頻性能、可用內(nèi)存數(shù)成正比關(guān)系;另外,如果對智能評測引擎進行升級也會帶來評測效率的變化。因此,在正式實施前需要進行模擬運算以預(yù)估軟硬件執(zhí)行效率,確保整個流程能按計劃完成。
人機仲裁率預(yù)估。如采用人機互評,仲裁率是否能控制在正常水平將關(guān)系到重復(fù)勞動的多少。在評卷中如有大量人評與機評結(jié)果相差超過誤差閾值,將會有相應(yīng)數(shù)量的試卷需要評卷組長仲裁打分,造成人力的浪費。因此,需要在人工定標后的驗證環(huán)節(jié)對人機仲裁率進行預(yù)估,確保在正式評卷中不會出現(xiàn)高仲裁率。
2.2.2 實施步驟
根據(jù)上海的實際情況,將整個評卷實施步驟劃分為五個階段:數(shù)據(jù)準備、定標運算、效果論證、評卷和最終論證,每個階段包含的詳細步驟見表3。
2.3 人機評分對比結(jié)果
通過對2015年上海市普通高中學業(yè)水平考試英語口語考試的答卷進行人工和機器評分,除去機器不評分的部分(如人工定標部分和少部分由于錄音質(zhì)量不達標導致機器無法評分),對最終人機評分結(jié)果按題塊對比如下。
2.3.1 題塊一對比結(jié)果
由于題塊一是純朗讀題,采用機器評分完全取代人工評卷的方式,因此人機評分結(jié)果對比是基于對1 200份驗證集數(shù)據(jù)人工雙評和機器評分的對比,如表4所示。
2.3.2 題塊二對比結(jié)果
題塊二是人機互評題型,僅采用人一評,為驗證機評的可信度,分別用機評結(jié)果、人一評結(jié)果與人機最終分進行比較,統(tǒng)計每個分差間距內(nèi)的人數(shù),如表5所示。為明確仲裁是由哪一方偏差過大造成的,針對題塊二的4 377份評卷組長仲裁數(shù)據(jù),分別將機評結(jié)果和人一評結(jié)果對比仲裁分,從分差上可以看出仲裁的責任權(quán)重,最終得出“機器分更接近仲裁分”占58.08%,如表6所示。
2.3.3 題塊三對比結(jié)果
題塊三為全人評閱題型,答題的開放性最大,機器評分結(jié)果僅作參考,不計入最終成績??紤]到今后機器評分將逐步取代人一評,為驗證機器對開放性較大題型的評分準確度,分別用機評結(jié)果、人最終分、人一評結(jié)果和人二評結(jié)果進行對比,統(tǒng)計每個分差間距內(nèi)的人數(shù),如表7所示。
2.4 結(jié)論
題塊一采用機器評分完全取代人工評卷的方式,因此人機評分結(jié)果對比是基于對1 200份驗證集數(shù)據(jù)人工雙評和機器評分的對比。從分差上來看,機評結(jié)果更接近人評最終分,出現(xiàn)的大分差數(shù)據(jù)最少。
題塊二分別用機評結(jié)果、人一評結(jié)果與人機最終分進行比較,可以看出機器評分在準確率和穩(wěn)定性上略高于人評;在仲裁權(quán)重分析方面,抽取所有被仲裁的4 377份數(shù)據(jù),分別將機評結(jié)果、人一評結(jié)果分別與仲裁分對比,可以看出人評的被仲裁率較高,且在被仲裁數(shù)據(jù)中,人評偏差所造成的權(quán)重較大。
題塊三的機器評分雖然目前還停留在試驗階段,但從整體效果上看,機評結(jié)果更接近人評最終分,同時比人工雙評降低了約2/3的仲裁量。今后在有完備參考答案擴充的前提下,題塊三可采用人機互評,以進一步提高效率。
表3 上海市普通高中學業(yè)水平考試英語口試評卷實施步驟
表4 題塊一人機分差統(tǒng)計
表5 題塊二人機分差統(tǒng)計
表6 題塊二人機與仲裁分對比統(tǒng)計
表7 題塊三人機分差統(tǒng)計
人機對比數(shù)據(jù)表明,在大規(guī)模英語口語考試評卷中,機器完全可以輔助或者部分替代專家進行評卷,不僅可以大幅減少人工評卷的工作量,而且機評的穩(wěn)定性、客觀性等優(yōu)點也充分的展現(xiàn)出來,但在實際運用中也難免有不足之處。通過對源于機評的誤差抽樣分析后發(fā)現(xiàn):(1)在朗讀題中,考生將一個單詞讀成另一個單詞,機器沒有對這類錯誤扣分。(2)在情景對話環(huán)節(jié),考生的作答雖然部分內(nèi)容與評卷標準中所給的關(guān)鍵詞吻合,但整體的回答與情景不符,理應(yīng)不得分,但機器卻給了部分分數(shù)。
這些問題說明機器對考生作答的評閱比較機械,不能靈活處理超出標準學習范圍的作答。為進一步發(fā)揮機器評分的優(yōu)勢,提高評分精準度,還需要完善以下四方面問題:(1)啟用口語標準化考場。目前不同口語考場中使用的耳麥質(zhì)量參差不齊,座位間距也各不相同,可能會因噪聲干擾太大導致部分考生答卷不符合機器評分的最低聲源要求。因此,需啟用標準化考場,以降低噪音干擾,提高機器智能評卷的可識別率。(2)細化評分標準。以往的評分標準較粗略,沒有對諸如讀錯幾個單詞扣幾分等細節(jié)進行量化。因此,要使機器進行精準的評分就必須對評分標準細化、量化。(3)重視人工定標環(huán)節(jié)。人工定標是機器通過學習評卷專家制定的標準來對其他試卷進行評分的過程,如果標準制定有問題,那么之后的機器評分也必然有問題。因此,必須對參與人工定標及評卷教師進行資質(zhì)認證,其中人工定標的要求應(yīng)更為嚴格,認證結(jié)果每年動態(tài)更新,評卷教師優(yōu)勝劣汰,確保只有具有資質(zhì)的評卷教師才能參與評卷。(4)重視專家論證環(huán)節(jié)。如在高利害性考試中實施機器智能評卷,需要在機器校標和人工評卷后分別進行兩次專家論證。在機器校標完成后,專家需要對驗證數(shù)據(jù)的機評準確度進行抽樣判定,提早發(fā)現(xiàn)可能存在的問題,確保機器對剩余答卷評分的準確性;在人工評卷完成后,專家再根據(jù)最終數(shù)據(jù)分析報告對全集數(shù)據(jù)進行抽樣,驗證機評的可靠性。另外,對于高水平考生的答卷,需要專家對機器評分再做修正。
[1]上海市教育委員會.上海市深化高等學??荚囌猩C合改革實施方案[EB/OL].(2014-09-18)[2015-08-10].http://www.shmec. gov.cn/html/xxgk/201409/420032014012.php.
[2]嚴可,胡國平,魏思,等.面向大規(guī)模英語口語機考的復(fù)述題自動評分技術(shù)研究[J].清華大學學報(自然科學版),2009,49(S1).
The Exploration and Practice of Computerized Automatic Scoring in Large-scale English Oral Test
LU Ming
This paper discusses the feasibility of computerized automatic scoring replacing human scoring in largescale English oral test.The comparative analysis between computerized automatic scoring and human scoring in different question types of the oral examination for Shanghai Senior High School Achievement Test of 2015 shows that machine scoring is obviously better than human scoring in stability and objectivity.In some cases,machine scoring can take the place of human scoring.Suggestions on how to enhance the accuracy of machine scoring are put forward.
Intelligent Assessment;Computerized Automatic Scoring;Oral Test
G405
A
1005-8427(2015)10-0051-7
呂鳴,男,上海市教育考試院,工程師(上海 200235)