沈晨 羅雙虎
[摘要]基于現(xiàn)有英語(yǔ)聽(tīng)說(shuō)考試人機(jī)互評(píng)的評(píng)卷模式,探索雙機(jī)評(píng)測(cè)模式可行性,使用上海市初中外語(yǔ)聽(tīng)說(shuō)測(cè)試全真模擬數(shù)據(jù)試驗(yàn),對(duì)比3種獨(dú)立計(jì)算機(jī)智能評(píng)分算法的效果。結(jié)果顯示,機(jī)評(píng)分與報(bào)道分一致性達(dá)到96%以上,具備良好的效果,但存在1659份樣本雙機(jī)評(píng)后仍誤判的效果風(fēng)險(xiǎn),綜合考慮雙機(jī)評(píng)測(cè)模式的評(píng)卷組織、機(jī)評(píng)評(píng)價(jià)機(jī)制仍不完備,暫不具備可行性,需要進(jìn)一步的算法提升和應(yīng)用方法研究;算力改變對(duì)比驗(yàn)證結(jié)果表明,評(píng)分準(zhǔn)確性幾乎不下降的情況下,采用GPU算力結(jié)構(gòu)的評(píng)分算法的運(yùn)算速度相當(dāng)于CPU算力結(jié)構(gòu)的6倍,這可以使得評(píng)分時(shí)間和硬件投入大幅度減少。
[關(guān)鍵詞]中考;外語(yǔ)聽(tīng)說(shuō)測(cè)試;計(jì)算機(jī)智能評(píng)分
[中圖分類(lèi)號(hào)]G424.74[文獻(xiàn)標(biāo)識(shí)碼]A
[文章編號(hào)]1673—1654(2023)03—075—016
一、研究背景
習(xí)近平總書(shū)記在2018年底的中央經(jīng)濟(jì)工作會(huì)議上首次明確提出“加快5G商用步伐、加強(qiáng)人工智能、工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等新型基礎(chǔ)設(shè)施建設(shè)”[1]。2019年2月,中共中央、國(guó)務(wù)院印發(fā)《中國(guó)教育現(xiàn)代化2035》,明確提出“大力推進(jìn)教育理念、體系、制度、內(nèi)容、方法、治理現(xiàn)代化,著力提高教育質(zhì)量,促進(jìn)教育公平,優(yōu)化教育結(jié)構(gòu)”[2]。在教育考試領(lǐng)域,現(xiàn)代化人工智能技術(shù)已在普通中高考、大學(xué)英語(yǔ)四六級(jí)等高利害考試評(píng)卷方面形成規(guī)?;?biāo)準(zhǔn)化應(yīng)用,一方面,通過(guò)“人機(jī)雙評(píng)”模式有效降低教師評(píng)卷工作量,保障評(píng)卷公平;另一方面,通過(guò)“智能評(píng)分質(zhì)檢”對(duì)教師評(píng)卷進(jìn)行校準(zhǔn)和質(zhì)檢檢測(cè),保障評(píng)卷質(zhì)量。
隨著人工智能技術(shù)的發(fā)展[3],計(jì)算機(jī)智能評(píng)分技術(shù)(以下簡(jiǎn)稱(chēng)機(jī)器評(píng)分)日趨成熟[4]。上海市教育考試院從2017年新高考改革第一年開(kāi)始,在高考外語(yǔ)聽(tīng)說(shuō)測(cè)試中采用機(jī)器評(píng)分技術(shù),使用“人一評(píng)、機(jī)一評(píng)”的人機(jī)雙評(píng)模式進(jìn)行,避免了大規(guī)模抽調(diào)教師評(píng)分帶來(lái)的一系列復(fù)雜的調(diào)度事宜,節(jié)省了大量人力,同時(shí)也避免了多人評(píng)卷帶來(lái)的標(biāo)準(zhǔn)難以統(tǒng)一等問(wèn)題。
目前機(jī)器評(píng)分在上海高考外語(yǔ)聽(tīng)說(shuō)測(cè)試評(píng)卷中已經(jīng)穩(wěn)定應(yīng)用了10次,在歷次效果驗(yàn)證集上,機(jī)器評(píng)分效果已達(dá)到或超過(guò)人工評(píng)卷水平?;诟呖纪庹Z(yǔ)聽(tīng)說(shuō)測(cè)試機(jī)器評(píng)分的經(jīng)驗(yàn),在2021年上海新中考改革第一年首次開(kāi)考的初中外語(yǔ)聽(tīng)說(shuō)測(cè)試中也使用了同樣的技術(shù)。實(shí)行計(jì)算機(jī)考試,使用人機(jī)雙評(píng)模式保障評(píng)卷質(zhì)量。目前此項(xiàng)考試不包含聽(tīng)力,既有的聽(tīng)說(shuō)部分,總分值為10分,由四個(gè)題塊構(gòu)成,分別為朗讀、交際應(yīng)答、復(fù)述、表達(dá)。從2015年以來(lái)上海市小學(xué)入學(xué)人口統(tǒng)計(jì)來(lái)看,預(yù)計(jì)2029年參加中考人數(shù)近19萬(wàn),相較2018年的約10萬(wàn)增長(zhǎng)90%,考生語(yǔ)音的人工評(píng)卷組織成本仍然較高。因此,本研究嘗試探索雙機(jī)評(píng)模式替代人機(jī)互評(píng)模式的可行性。
二、智能測(cè)評(píng)技術(shù)在語(yǔ)音評(píng)卷中的應(yīng)用
(一)口語(yǔ)智能評(píng)測(cè)基本原理及方法
口語(yǔ)智能評(píng)測(cè)是指使用計(jì)算機(jī)對(duì)口語(yǔ)能力進(jìn)行自動(dòng)評(píng)分。依據(jù)對(duì)口語(yǔ)能力維度的劃分,口語(yǔ)智能評(píng)測(cè)包括發(fā)音評(píng)分和自然口語(yǔ)評(píng)分兩類(lèi)評(píng)分任務(wù),前者以限定文本的詞、句、篇朗讀為測(cè)試任務(wù),后者以非限定文本的情景應(yīng)答、口頭復(fù)述、看圖說(shuō)話、觀點(diǎn)陳述等為測(cè)試任務(wù)。
口語(yǔ)智能評(píng)測(cè)從20世紀(jì)90年代開(kāi)始得到廣泛研究,發(fā)展迅速。目前,主流的口語(yǔ)智能評(píng)測(cè)方法分為兩種:基于人工特征的評(píng)分方法[5]和基于深度學(xué)習(xí)的端到端評(píng)分方法[6]。基于人工特征的評(píng)分方法利用語(yǔ)音和語(yǔ)言處理淺層分析的結(jié)果構(gòu)建特征(如音素發(fā)音錯(cuò)誤率、語(yǔ)速、停頓頻率、詞匯多樣性等),將評(píng)分任務(wù)作為回歸任務(wù),從而對(duì)口語(yǔ)作答進(jìn)行評(píng)分。該方法應(yīng)用廣泛,具備高度的可解釋性,但由于人工特征與人工評(píng)分考察的維度和深度相距較遠(yuǎn),如難以抽取內(nèi)容語(yǔ)義特征,并不能完全適用于對(duì)評(píng)分準(zhǔn)確性有高要求的大規(guī)??谡Z(yǔ)考試評(píng)測(cè)。近年來(lái),基于深度學(xué)習(xí)的端到端評(píng)分方法開(kāi)始應(yīng)用于口語(yǔ)智能評(píng)測(cè)。該方法首先通過(guò)神經(jīng)網(wǎng)絡(luò)將口語(yǔ)作答的語(yǔ)音和文本形式的識(shí)別結(jié)果抽象地表示為分布式向量,然后再學(xué)習(xí)分布式向量與分?jǐn)?shù)之間的關(guān)系。近來(lái)一些研究成果顯示此類(lèi)方法可以取得優(yōu)于基于人工特征評(píng)分方法的效果,但存在可解釋性較差、對(duì)標(biāo)注數(shù)據(jù)依賴(lài)性強(qiáng)的問(wèn)題。
1.算法選取
為論證雙機(jī)評(píng)模式的可行性,本文采用當(dāng)前已大規(guī)模應(yīng)用的三套獨(dú)立的口語(yǔ)智能評(píng)測(cè)算法,在相同的有專(zhuān)家評(píng)分的定標(biāo)集上進(jìn)行定標(biāo)學(xué)習(xí),并經(jīng)過(guò)驗(yàn)證集的核驗(yàn)后對(duì)相同的全集數(shù)據(jù)進(jìn)行評(píng)分。評(píng)分結(jié)束后,將機(jī)器評(píng)分與報(bào)道分進(jìn)行對(duì)比分析。最終通過(guò)分析實(shí)驗(yàn)數(shù)據(jù),探究多機(jī)器評(píng)分并行代替人工雙評(píng)的可行性。
(1)算法I基本原理(如圖1):算法I分為朗讀類(lèi)題型評(píng)測(cè)和表達(dá)類(lèi)題型評(píng)測(cè),采用非端到端方案和端到端方案相融合的方法,最大程度上利用兩者的優(yōu)勢(shì),保障評(píng)分準(zhǔn)確性。在非端到端方案中,對(duì)于詞組和句子朗讀題型,基于語(yǔ)音識(shí)別結(jié)果,對(duì)考生朗讀進(jìn)行漏讀、增讀、重復(fù)、不當(dāng)停頓檢測(cè),獲得完成度、流暢度維度的評(píng)分特征;通過(guò)發(fā)音檢錯(cuò)技術(shù),對(duì)考生朗讀內(nèi)容進(jìn)行音素級(jí)發(fā)音準(zhǔn)確度評(píng)分特征提取。對(duì)于交際問(wèn)答、復(fù)述和表達(dá)題型,基于語(yǔ)音識(shí)別結(jié)果,通過(guò)語(yǔ)義匹配技術(shù)計(jì)算與參考答案的相似度,以獲得信息完整度和正確度相關(guān)評(píng)分特征;通過(guò)語(yǔ)法檢錯(cuò)技術(shù)提取詞匯及語(yǔ)法正確度評(píng)分特征;發(fā)音和流暢度則采用與朗讀題型一樣的評(píng)分特征。在端到端方案中,對(duì)于詞組和句子朗讀題型,端到端模型接受朗讀語(yǔ)音和朗讀文本作為輸入,直接預(yù)測(cè)專(zhuān)家分。對(duì)于交際問(wèn)答、復(fù)述和表達(dá)題型,端到端模型接受考生語(yǔ)音和識(shí)別結(jié)果,直接預(yù)測(cè)專(zhuān)家分。在非端到端方案中,語(yǔ)音識(shí)別、發(fā)音檢錯(cuò)、內(nèi)容及語(yǔ)義表征是核心。為提升最終的評(píng)分效果,算法I采用基于注意力機(jī)制的端到端語(yǔ)音識(shí)別系統(tǒng),識(shí)別性能顯著超過(guò)傳統(tǒng)的混合識(shí)別系統(tǒng),極大地提升了評(píng)分準(zhǔn)確率,特別是交際問(wèn)答這類(lèi)短語(yǔ)音題型。為提升發(fā)音分析的準(zhǔn)確度和區(qū)分性,算法I開(kāi)發(fā)了基于端到端框架的音素發(fā)音檢錯(cuò)模型,檢錯(cuò)效果顯著優(yōu)于傳統(tǒng)的基于GOP(Goodness of Pronunciation,計(jì)算機(jī)實(shí)現(xiàn)英語(yǔ)發(fā)音評(píng)價(jià)的一種算法)[7]的檢錯(cuò)模型。在內(nèi)容和語(yǔ)義表示方面,除了計(jì)算學(xué)生回答與參考答案詞級(jí)的淺層相似度之外,算法I還融合了基于LSTM(Long Short Term Memory Network,長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò))[8]、BERT(Bidirectional Encoder Representations from Transformer,來(lái)自變換器的雙向編碼器表征量)[9]等預(yù)訓(xùn)練語(yǔ)言模型的句子和段落級(jí)的矢量化方法,獲得了更好的穩(wěn)定性和準(zhǔn)確性。
(2)算法II與算法III基本原理(如圖2):首先將原始語(yǔ)音信號(hào)輸入到模型中,對(duì)原始信號(hào)按照10ms的窗口進(jìn)行采樣,在加快速度的同時(shí),減少了信息的損失。將采樣后的信號(hào)輸入到卷積神經(jīng)網(wǎng)絡(luò)[10],用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)一步提取語(yǔ)音的局部不變性特征。經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)得到的特征序列經(jīng)過(guò)線性變換層,特征序列得到進(jìn)一步映射。經(jīng)過(guò)映射后的特征序列,被輸入到多層循環(huán)迭代神經(jīng)網(wǎng)絡(luò),提取完整的音頻上下文信息。同時(shí),該特征序列輸入到多層卷積網(wǎng)絡(luò),進(jìn)一步捕獲局部不變形特征。將全局上下文信息與局部上下文信息進(jìn)行拼接,得到最終的特征向量。該特征向量經(jīng)過(guò)深度神經(jīng)網(wǎng)絡(luò),進(jìn)行高維空間映射到一維。將一維分?jǐn)?shù)經(jīng)過(guò)sigmoid激活函數(shù)進(jìn)行分?jǐn)?shù)非線性變換,獲得最終的評(píng)分。
算法II與算法III的不同之處在于,兩類(lèi)算法在語(yǔ)音識(shí)別準(zhǔn)確性和內(nèi)容特征矢量化方面均有所區(qū)別。在語(yǔ)音識(shí)別方面,以LSTM神經(jīng)網(wǎng)絡(luò)為聲學(xué)模型,識(shí)別率已經(jīng)達(dá)到90%以上,分別經(jīng)過(guò)改寫(xiě)和參數(shù)調(diào)整后,兩者差別不大。在內(nèi)容矢量表示方面,基于 Word2vec[11]、LSTM、CNN(ConvolutionalNeural Network,卷積神經(jīng)網(wǎng)絡(luò))、Decoder-Encoder(解碼器和編碼器)[12]、RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))的內(nèi)容表示分別部分融合使用,呈現(xiàn)出不同的結(jié)果,以進(jìn)行研究和分析。
2.實(shí)驗(yàn)流程規(guī)劃
如表1所示,整體實(shí)驗(yàn)流程規(guī)劃確定了9個(gè)工作步驟,前7個(gè)工作步驟讓機(jī)器能真正學(xué)會(huì)理解評(píng)判的方法。
(二)設(shè)計(jì)思路
1.訓(xùn)練評(píng)分方案
機(jī)器評(píng)分根據(jù)每個(gè)題型的特點(diǎn)選擇合適的特征,參考定標(biāo)集人工評(píng)分的標(biāo)準(zhǔn)進(jìn)行學(xué)習(xí),然后用各個(gè)題型學(xué)習(xí)到的評(píng)分標(biāo)準(zhǔn)對(duì)全集數(shù)據(jù)進(jìn)行評(píng)分。這樣就可以得到每個(gè)考生的小題機(jī)器分,然后按照各題的教師評(píng)卷規(guī)整方式(即教師評(píng)閱各題的最小顆粒度)進(jìn)行規(guī)整,得到最終各個(gè)題型的機(jī)器分(見(jiàn)表2)。
2.對(duì)比分析方案
本次實(shí)驗(yàn)對(duì)比,基于上海市2021年度首次開(kāi)考的初中外語(yǔ)聽(tīng)說(shuō)測(cè)試的全真模擬全部數(shù)據(jù)進(jìn)行對(duì)比分析,以當(dāng)次考試發(fā)布的報(bào)道分作為標(biāo)準(zhǔn),三套算法基于同樣的定標(biāo)集專(zhuān)家評(píng)分進(jìn)行訓(xùn)練出分,即算法 I、算法II、算法III的機(jī)評(píng)分,通過(guò)對(duì)比算法I、算法II、算法III與報(bào)道分的一致性,在確保機(jī)評(píng)分效果達(dá)到評(píng)卷要求的前提下,挑選最優(yōu)效果算法作為機(jī)評(píng)主評(píng),第二優(yōu)效果算法作為機(jī)評(píng)副評(píng),以報(bào)道分作為標(biāo)準(zhǔn),探索雙機(jī)評(píng)模式的可行性,并同步驗(yàn)證基于CPU(計(jì)算機(jī)中央處理器)運(yùn)算的機(jī)評(píng)方案升級(jí)到基于GPU(高性能計(jì)算、深度學(xué)習(xí)訓(xùn)練和推理的計(jì)算機(jī)處理器)運(yùn)算的機(jī)評(píng)方案,所帶來(lái)的評(píng)分效果影響及效率提升情況。
實(shí)驗(yàn)對(duì)比過(guò)程中涉及多個(gè)概念:報(bào)道分、機(jī)評(píng)分、專(zhuān)家仲裁等:
(1)報(bào)道分:外語(yǔ)聽(tīng)說(shuō)測(cè)試經(jīng)過(guò)雙評(píng)+仲裁模式后,形成的對(duì)外發(fā)布的最終報(bào)道分,計(jì)算方式是:雙評(píng)分在分差閾值范圍內(nèi)的采信雙評(píng)均分,超過(guò)分差閾值的交由專(zhuān)家仲裁,采信仲裁分。
(2)專(zhuān)家仲裁:經(jīng)過(guò)雙評(píng)后,雙評(píng)分差超過(guò)分差閾值,由評(píng)卷組提交評(píng)卷專(zhuān)家進(jìn)行人工仲裁。
(3)算法I:算法I的機(jī)評(píng)分。
(4)算法II:算法II的機(jī)評(píng)分。
(5)算法III:算法III的機(jī)評(píng)分。
3.評(píng)價(jià)指標(biāo)定義
本次實(shí)驗(yàn)中所需用到的評(píng)價(jià)指標(biāo)定義如下:
(1)得分率
得分率為考生成績(jī)的平均分與滿(mǎn)分的比值換算成的百分?jǐn)?shù)。它反映試題的難易程度,得分率越高說(shuō)明題目越簡(jiǎn)單,反之則越難。
(2)標(biāo)準(zhǔn)差
標(biāo)準(zhǔn)差是方差的算術(shù)平方根。標(biāo)準(zhǔn)差能反映一個(gè)數(shù)據(jù)集的離散程度。平均數(shù)相同的兩組數(shù)據(jù),標(biāo)準(zhǔn)差未必相同。
(3)相關(guān)度
相關(guān)度的取值范圍介于-1~1之間,越接近1表示兩組評(píng)分的排序關(guān)系越接近。
(4)一致率
假設(shè)評(píng)分設(shè)定的仲裁閾值是m分,將一組評(píng)分與報(bào)道分之間誤差絕對(duì)值小于等于m分的數(shù)據(jù)占總評(píng)分?jǐn)?shù)量的比例稱(chēng)為一致率。一致率反映了在允許誤差范圍內(nèi)評(píng)分的準(zhǔn)確性,取值范圍介于0~1之間,越接近1越好。
(三)實(shí)驗(yàn)結(jié)果分析
1.實(shí)驗(yàn)數(shù)據(jù)集說(shuō)明
本實(shí)驗(yàn)中的數(shù)據(jù)為初中外語(yǔ)聽(tīng)說(shuō)測(cè)試全真模擬數(shù)據(jù),所用的數(shù)據(jù)集包含定標(biāo)集與驗(yàn)證集,定標(biāo)集是機(jī)器用于學(xué)習(xí)評(píng)分標(biāo)準(zhǔn)的數(shù)據(jù)集合,驗(yàn)證集是用于檢驗(yàn)機(jī)器評(píng)分性能的數(shù)據(jù)集合,機(jī)評(píng)全集是計(jì)算機(jī)能夠正常評(píng)卷的數(shù)據(jù)集合。由于本實(shí)驗(yàn)已有全集報(bào)道分,故使用機(jī)評(píng)全集數(shù)據(jù)進(jìn)行比對(duì)分析。表3列出了本次驗(yàn)證各題的定標(biāo)集和驗(yàn)證集數(shù)量、全集數(shù)量、滿(mǎn)分以及仲裁閾值。仲裁閾值是根據(jù)專(zhuān)家組給定的雙評(píng)大分差上限,超過(guò)閾值則表示兩個(gè)評(píng)分之間誤差過(guò)大,兩評(píng)均不可信,會(huì)交由仲裁專(zhuān)家進(jìn)行仲裁。
2.算法I、II、III與報(bào)道分的效果對(duì)比分析
在機(jī)評(píng)全集的88322份樣本上,以報(bào)道分為標(biāo)準(zhǔn),分別對(duì)算法I、算法II、算法III的機(jī)器評(píng)分效果進(jìn)行對(duì)比分析。T1【朗讀】、T2【交際應(yīng)答】、T3【復(fù)述】、T4【表達(dá)】4類(lèi)題型依據(jù)相關(guān)度、一致率指標(biāo)對(duì)機(jī)器評(píng)分效果進(jìn)行對(duì)比分析的結(jié)果如表4~8所示。
分析表4~8可以發(fā)現(xiàn):
(1)從相關(guān)度、完全一致率、≤0.25分一致率和≤0.5分(滿(mǎn)分2.5分)一致率上看,T1【朗讀】、T2【交際問(wèn)答】、T3【復(fù)述】、T4【表達(dá)】4類(lèi)題型機(jī)器評(píng)分效果最優(yōu)的均是算法I,T1【朗讀】、T2【交際應(yīng)答】、T3【復(fù)述】題型效果排第二的是算法II,T4【表達(dá)】是算法III。
(2)從≤0.25分一致率指標(biāo)來(lái)看,在T1【朗讀】題型,效果最優(yōu)與第二的一致率差異為2.45%,且一致率均超過(guò)95%,效果較好;在T2【交際應(yīng)答】、T3【復(fù)述】、T4【表達(dá)】題型,效果最優(yōu)與第二差異為4.81%~ 10%不等,算法II、算法III在這些題型仍需持續(xù)優(yōu)化效果。
3.雙機(jī)評(píng)可行性分析
依據(jù)算法I、算法II、算法III與報(bào)道分對(duì)比分析結(jié)果,擬采用效果最優(yōu)的算法I作為機(jī)評(píng)主評(píng)(以下簡(jiǎn)稱(chēng)評(píng)1)、效果相對(duì)較優(yōu)的算法II作為機(jī)評(píng)副評(píng)(以下簡(jiǎn)稱(chēng)評(píng)2),探索雙機(jī)評(píng)模式的可行性;雙機(jī)評(píng)模式下,評(píng)1與評(píng)2的分?jǐn)?shù)在分差閾值范圍內(nèi),采信機(jī)器評(píng)分,取評(píng)1和評(píng)2的均分作為最終分;分?jǐn)?shù)在分差閾值以外的,由評(píng)卷組安排專(zhuān)家仲裁,仲裁分作為最終分。
對(duì)T1【朗讀】、T2【交際應(yīng)答】、T3【復(fù)述】、T4【表達(dá)】4類(lèi)題型,評(píng)1和評(píng)2的分?jǐn)?shù)進(jìn)行對(duì)比如表9、表10所示,共計(jì)僅有2758份樣本需專(zhuān)家仲裁,教師評(píng)卷工作量顯著降低。
針對(duì)需專(zhuān)家仲裁樣本集,即評(píng)1與評(píng)2不一致(分差>0.5分),評(píng)卷組需按照專(zhuān)家進(jìn)行仲裁評(píng)分,仲裁分作為最終分進(jìn)行發(fā)布,該數(shù)據(jù)集上不存在效果風(fēng)險(xiǎn)。
在采信機(jī)器評(píng)分樣本集上,即評(píng)1與評(píng)2一致(分差≤0.5分)的樣本集上,取評(píng)1和評(píng)2的平均分(以下簡(jiǎn)稱(chēng)“均分”)與報(bào)道分進(jìn)行對(duì)比分析,如表11、表12所示。從4個(gè)題型均分與報(bào)道分分差分布指標(biāo)來(lái)看,存在1659份樣本均分與報(bào)道分相差超過(guò)0.5分,會(huì)造成評(píng)分偏誤;針對(duì)上述大分差樣本進(jìn)行深度分析,對(duì)集合上報(bào)道分的評(píng)分分布進(jìn)行統(tǒng)計(jì)如表13所示,無(wú)有效途徑對(duì)效果風(fēng)險(xiǎn)進(jìn)行檢出。另外,從≤0.25分一致率指標(biāo)來(lái)看,T3【復(fù)述】、T4【表達(dá)】題型上報(bào)道分與均分一致率較低。
綜上所述,針對(duì)英語(yǔ)聽(tīng)說(shuō)測(cè)試場(chǎng)景的雙機(jī)評(píng)方案,從評(píng)卷組織上能夠極大地降低教師評(píng)卷工作量;但從評(píng)卷質(zhì)量保障上,存在1659份樣本雙機(jī)評(píng)后與報(bào)道分產(chǎn)生大分差的效果風(fēng)險(xiǎn),暫不具備可行性,仍需智能評(píng)分技術(shù)的持續(xù)進(jìn)步以及評(píng)卷組織流程上針對(duì)性的完善,才能更好地推進(jìn)方案執(zhí)行落地。
4. GPU方案驗(yàn)證分析
本次實(shí)驗(yàn),針對(duì)算法I,同步對(duì)機(jī)評(píng)全集數(shù)據(jù)進(jìn)行CPU方案和GPU方案的對(duì)比分析論證。保證在相同的數(shù)據(jù)基礎(chǔ)上進(jìn)行CPU與GPU不同版本的評(píng)分,針對(duì)這兩種評(píng)分方式的結(jié)果從時(shí)間效率、評(píng)分效果上進(jìn)行了對(duì)比分析,其結(jié)果如下:
(1)時(shí)間效率對(duì)比:GPU評(píng)分效率遠(yuǎn)遠(yuǎn)優(yōu)于CPU評(píng)分效率,一臺(tái)雙GPU顯卡服務(wù)器的運(yùn)行效率相對(duì)于一臺(tái)CPU服務(wù)器的效率提升6倍。
本次考試參與口語(yǔ)評(píng)分的人數(shù)約8.8萬(wàn),在中考評(píng)測(cè)過(guò)程中使用了11臺(tái)CPU服務(wù)器,同步使用2臺(tái)GPU服務(wù)器進(jìn)行驗(yàn)證。為了直觀地呈現(xiàn)CPU服務(wù)器與GPU服務(wù)器在口語(yǔ)評(píng)分中的時(shí)間性能差異,對(duì)本次評(píng)分中涉及的主要時(shí)間進(jìn)行了統(tǒng)計(jì),如表14所示。
考慮到后期上海中考人數(shù)可能增加的情況,對(duì)服務(wù)器數(shù)量使用進(jìn)行了估算。根據(jù)本次口語(yǔ)評(píng)分時(shí)間效率的統(tǒng)計(jì),若保證目前的評(píng)分周期不變,對(duì)10萬(wàn)名考生進(jìn)行評(píng)分,所需要的CPU與GPU服務(wù)器配置和數(shù)量如表15、表16所示。
(2)評(píng)分效果對(duì)比:基于得分率、標(biāo)準(zhǔn)差、相關(guān)度、一致率等指標(biāo)對(duì)兩次評(píng)分進(jìn)行對(duì)比,證實(shí)GPU評(píng)分效果略低于CPU的評(píng)分效果。
表17分別基于得分率、標(biāo)準(zhǔn)差等指標(biāo)對(duì)各題型得分與總分進(jìn)行對(duì)比??梢钥闯觯篏PU分與報(bào)道分之間的得分率最大差異為0.03、標(biāo)準(zhǔn)差最大差異為0.06,效果基本相當(dāng);GPU分與CPU分得分率最大差異是0.01、標(biāo)準(zhǔn)差最大差異為0.05,基本一致。
基于相關(guān)度、一致率(閾值范圍內(nèi))指標(biāo)對(duì)驗(yàn)證集上每個(gè)題型得分與總分進(jìn)行對(duì)比,結(jié)果如表18所示:總分上,GPU分與報(bào)道分的相關(guān)度、一致率高于人一評(píng)和人二評(píng)之間的統(tǒng)計(jì)結(jié)果,而與CPU分和報(bào)道分的統(tǒng)計(jì)結(jié)果基本相當(dāng);復(fù)述題、表達(dá)題上,GPU分與報(bào)道分的相關(guān)度、一致率明顯高于人一評(píng)和人二評(píng)之間的統(tǒng)計(jì)結(jié)果,略低于CPU分和報(bào)道分;朗讀、交際應(yīng)答上,GPU分與報(bào)道分的一致率略低于人一評(píng)和人二評(píng),CPU分與報(bào)道分的相關(guān)度、一致率與人一評(píng)和人二評(píng)相當(dāng)。
綜上,基于本次實(shí)驗(yàn)結(jié)果分析,可以得出結(jié)論:
第一,GPU在評(píng)分效率上有明顯優(yōu)勢(shì),基于目前提供的評(píng)分設(shè)備,1臺(tái)搭載NVIDIA T4雙GPU卡服務(wù)器的性能相當(dāng)于6臺(tái)搭載Intel Xeon 20核40線程CPU服務(wù)器。
第二,GPU評(píng)分效果在復(fù)述、表達(dá)題上與CPU評(píng)分效果相當(dāng),在朗讀、交際問(wèn)答題上還有差距,有待進(jìn)一步改進(jìn)。
三、實(shí)驗(yàn)總結(jié)及展望
人工智能是引領(lǐng)未來(lái)的新興戰(zhàn)略性技術(shù),是驅(qū)動(dòng)新一輪科技革命和產(chǎn)業(yè)變革的重要力量。習(xí)近平總書(shū)記多次作出重要指示,強(qiáng)調(diào)“要深入把握新一代人工智能發(fā)展的特點(diǎn),加強(qiáng)人工智能和產(chǎn)業(yè)發(fā)展融合,為高質(zhì)量發(fā)展提供新動(dòng)能”。
此次針對(duì)上海市2021年度首次開(kāi)考的初中外語(yǔ)聽(tīng)說(shuō)測(cè)試的全真模擬數(shù)據(jù)進(jìn)行的計(jì)算機(jī)智能評(píng)分,是一次突破性的創(chuàng)新和實(shí)驗(yàn),更是一次智能閱卷替代人工閱卷的有益嘗試。其在評(píng)分過(guò)程中呈現(xiàn)的智能程度、算法的先進(jìn)性、結(jié)果的準(zhǔn)確性和極高的效率等,都代表著未來(lái)專(zhuān)業(yè)化考試機(jī)構(gòu)人工智能的應(yīng)用方向,也為今后計(jì)算機(jī)智能評(píng)卷從后臺(tái)走向前臺(tái),由離線方式變?yōu)閷?shí)時(shí)、動(dòng)態(tài)應(yīng)用方式奠定了良好的基礎(chǔ)。
(一)智能測(cè)評(píng)技術(shù)應(yīng)用評(píng)分準(zhǔn)確性
計(jì)算機(jī)智能評(píng)分已經(jīng)形成了一套完善的“端到端”的識(shí)別處理方案。在語(yǔ)音識(shí)別方面,深度卷積神經(jīng)網(wǎng)絡(luò)與隱馬爾科夫模型結(jié)合的(CNN-HMM)模型,構(gòu)建一個(gè)狀態(tài)網(wǎng)絡(luò)并從中尋找與聲音最匹配的路徑,能夠準(zhǔn)確進(jìn)行語(yǔ)音識(shí)別。在英文識(shí)別方面,主要采用深度遞歸網(wǎng)絡(luò)識(shí)別算法(RNN),該算法已經(jīng)成熟并廣泛應(yīng)用于拉丁語(yǔ)系文字的識(shí)別中,且已被證明具有良好的識(shí)別效果。本次計(jì)算機(jī)智能評(píng)分中,對(duì)語(yǔ)音的識(shí)別率均已經(jīng)達(dá)到了97%以上,能夠滿(mǎn)足自動(dòng)評(píng)卷的要求。從最終人機(jī)對(duì)比結(jié)果可以看出,計(jì)算機(jī)智能評(píng)分與報(bào)道分的一致率達(dá)到了97%。另外,由于評(píng)卷教師在長(zhǎng)時(shí)間、高強(qiáng)度的評(píng)分過(guò)程中,極易身心疲憊,一定程度上會(huì)影響評(píng)卷教師對(duì)評(píng)分尺度的把握和評(píng)分一致性的把控,甚至出現(xiàn)打保險(xiǎn)分的現(xiàn)象,而計(jì)算機(jī)智能評(píng)分不會(huì)受到情緒、身心狀態(tài)、個(gè)人喜好等主觀因素的影響,能夠始終采用統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行評(píng)測(cè),從而很大程度上保證了評(píng)分的客觀公正性。
1.算力效果提升評(píng)分效率
隨著上海初中考生人數(shù)的增加,在評(píng)分周期不變情況下如何減少智能評(píng)卷對(duì)硬件的要求顯得十分重要,使用GPU機(jī)評(píng)方案提升機(jī)評(píng)效率勢(shì)在必行。
從本次GPU機(jī)評(píng)驗(yàn)證的結(jié)果看,在得分率、標(biāo)準(zhǔn)差、評(píng)分分布等基礎(chǔ)指標(biāo)上,GPU機(jī)評(píng)分已經(jīng)接近或達(dá)到人工評(píng)分水平,但整體效果略低于CPU評(píng)分,需要后期進(jìn)一步的優(yōu)化改進(jìn)??赡艿脑蛟谟冢旱谝淮螌?duì)于新考試的新題型進(jìn)行機(jī)評(píng),還需不斷地訓(xùn)練,在避免過(guò)度擬合的情況下進(jìn)行迭代。后期計(jì)劃對(duì)GPU評(píng)分策略做進(jìn)一步改進(jìn),需經(jīng)過(guò)多輪驗(yàn)證,確保GPU評(píng)分達(dá)到與CPU一致的水平,才能最終使用GPU評(píng)分取代CPU評(píng)分。
2.三類(lèi)獨(dú)立算法的改進(jìn)方向
智能測(cè)評(píng)技術(shù)在語(yǔ)音評(píng)卷中還需不斷改進(jìn)和優(yōu)化,本文三類(lèi)獨(dú)立算法在內(nèi)容維度的評(píng)分特征均無(wú)法自主直接提取,目前業(yè)內(nèi)其他各類(lèi)智能測(cè)評(píng)的應(yīng)用中,對(duì)于語(yǔ)音也無(wú)法全覆蓋地進(jìn)行答案枚舉。存在的問(wèn)題就是沒(méi)有標(biāo)準(zhǔn)答案,答案不可窮舉,機(jī)器不知道什么樣的作答是高分、中分和低分。雖然有人工定標(biāo)訓(xùn)練,靠人工提取定標(biāo)得分特征,通過(guò)選取的包含高、中、低水平的數(shù)據(jù),進(jìn)行人工打分,機(jī)器依據(jù)人工打分學(xué)習(xí)高低分的回答模式三種途徑,但由于訓(xùn)練集和驗(yàn)證集均是機(jī)器選取的,選取的合理性、科學(xué)性、代表性還有待進(jìn)一步研究??梢?jiàn),智能測(cè)評(píng)技術(shù)通用性的研究還需持續(xù)進(jìn)行,本次實(shí)驗(yàn)中使用的算法還需不斷迭代,在防止過(guò)度擬合的前提下保證機(jī)器評(píng)閱得更加精準(zhǔn),但從實(shí)際使用的角度也只能保證機(jī)器在某一項(xiàng)考試或者某一種類(lèi)別(即語(yǔ)音且是英語(yǔ)的作答)中進(jìn)行評(píng)判,真正的廣泛性還需商榷。
(二)對(duì)未來(lái)考試評(píng)卷智能化應(yīng)用的展望
近年來(lái)計(jì)算機(jī)智能評(píng)卷技術(shù)在大規(guī)模紙筆考試和計(jì)算機(jī)考試中的應(yīng)用,已經(jīng)驗(yàn)證了智能評(píng)測(cè)技術(shù)的實(shí)用性和可靠性。當(dāng)前針對(duì)外語(yǔ)聽(tīng)說(shuō)測(cè)試場(chǎng)景,使用人機(jī)互評(píng)+專(zhuān)家仲裁的評(píng)卷模式,已經(jīng)能夠高效率、高質(zhì)量地保障評(píng)卷工作;但是,使用雙機(jī)評(píng)模式,經(jīng)過(guò)本輪實(shí)驗(yàn)驗(yàn)證,當(dāng)前仍存在評(píng)卷質(zhì)量風(fēng)險(xiǎn);另外,以采信機(jī)器評(píng)分為主的雙機(jī)評(píng)模式,仍需要解決社會(huì)認(rèn)可度、可解釋性、多套算法如何同步進(jìn)行技術(shù)升級(jí)、評(píng)卷組織過(guò)程如何監(jiān)控質(zhì)量等具體問(wèn)題。
在后續(xù)的研究中,需從三個(gè)方面持續(xù)推進(jìn)評(píng)卷智能化進(jìn)程。第一,智能評(píng)卷技術(shù)的持續(xù)優(yōu)化迭代:歷年聽(tīng)說(shuō)外語(yǔ)測(cè)試積累的龐大數(shù)據(jù)集,以及語(yǔ)音識(shí)別、自然語(yǔ)義理解、多維度智能評(píng)測(cè)等技術(shù)上的持續(xù)進(jìn)步,是智能評(píng)卷技術(shù)效果穩(wěn)定的保障。第二,評(píng)卷組織流程上,需要針對(duì)雙機(jī)評(píng)模式設(shè)計(jì)完備的效果保障機(jī)制、運(yùn)營(yíng)監(jiān)控機(jī)制以及應(yīng)急預(yù)案:具體來(lái)說(shuō),仍需建立一套以人工評(píng)卷校驗(yàn)為核心的效果保障機(jī)制,防范雙機(jī)評(píng)出現(xiàn)系統(tǒng)性評(píng)分偏誤,由此產(chǎn)生的人工評(píng)卷工作量及保障機(jī)制也需深入研究;仍需具備隨時(shí)切換人機(jī)互評(píng)的應(yīng)急預(yù)案,保障機(jī)評(píng)出現(xiàn)系統(tǒng)性評(píng)分偏誤后評(píng)卷的正常開(kāi)展;需要建立自動(dòng)化、可視化的運(yùn)營(yíng)監(jiān)管機(jī)制,保障機(jī)評(píng)效率及穩(wěn)定性。第三,以采信機(jī)器評(píng)分為主(僅少量人工校驗(yàn))的雙機(jī)評(píng)模式需要完備的可解釋性,需要建立并完善對(duì)智能評(píng)分結(jié)果的評(píng)價(jià)機(jī)制。
總之,要充分抓住目前人工智能高速發(fā)展的大好機(jī)遇,加強(qiáng)每次大規(guī)模驗(yàn)證和應(yīng)用之后的數(shù)據(jù)分析工作,逐步建立一套完整的、科學(xué)的對(duì)評(píng)分結(jié)果的評(píng)價(jià)機(jī)制,全力推進(jìn)人工智能向應(yīng)用成果的轉(zhuǎn)換。
參考文獻(xiàn):
[1]國(guó)家發(fā)改委,科技部,工信部,等.“互聯(lián)網(wǎng)+”人工智能三年行動(dòng)實(shí)施方案[EB/OL]. [2023-01-11]. http://www.gov.cn/xinwen/2016-05/23/content_5075944.htm.
[2]中共中央,國(guó)務(wù)院.中國(guó)教育現(xiàn)代化2035[EB/OL].[2023-01-11].http://www.gov.cn/xinwen/2019-02/23/content_5367987.htm.
[3]中國(guó)信息通信研究院.人工智能白皮書(shū)(2022年)[C].2022.
[4]何屹松,徐飛,劉惠,等.新一代智能網(wǎng)上評(píng)卷系統(tǒng)的技術(shù)實(shí)現(xiàn)及在高考網(wǎng)評(píng)中的應(yīng)用實(shí)例分析[J].中國(guó)考試,2019,(1):57-65.
[5] Mao S,Wu Z,Jiang J,et al. NN-based Ordinal Regression for Assessing Fluency of ESL Speech [C] // ICASSP 2019 - 2019 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP). IEEE,2019.
[6] B. Lin,L. Wang,X. Feng,and J. Zhang,Automatic Scoring at Multi-granularity for l2 Pronunciation [C] // Interspeech,2020.
[7] Witt S M,F(xiàn) S J Y. Phone-level Pronunciation Scoring and AssessmentforInteractiveLanguageLearning[J].Speech Communication,2000,30(2/3):95-108.
[8] Sundermeyer M,Schlüter R,Ney H. LSTM Neural Networks for Language Modeling [C] // Thirteenth Annual Conference of the International Speech Communication Association,2012.
[9] Devlin J,Chang M W,Lee K,et al. Bert:Pre-training of Deep Bidirectional Transformers for Language Understanding [J]. arXiv preprint arXiv:1810.04805,2018.
[10] Hori T,Watanabe S,Zhang Y,et al. Advances in Joint CTCattention Based End-to -end Speech Recognition with a Deep CNN Encoder and RNN-LM [J]. arXiv preprint arXiv:1706.02737,2017.
[11] Mikolov T,Chen K,Corrado G,et al. Efficient Estimation of Word Representations in Vector Space [J]. arXiv preprint arXiv:1301.3781,2013.
[12] Bahdanau D,Cho K,Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate [J]. arXiv preprint arXiv:1409.0473,2014.
Feasibility Study of Intelligent Dual-machine Speaking Assessment Mode in Computer-based Foreign Language Listening and Speaking Test
Shen Chen Luo Shuanghu
Shanghai Municipal Educational Examinations Authority,Shanghai,200433
Abstract:Based on the existing evaluation mode of human-computer mutual assessment of English listening and speaking test,the feasibility of dual-computer evaluation mode was tentatively explored,and three independent computer intelligent scoring algorithms were compared by using the full-real simulation data test of Shanghai junior high school foreign language listening and speaking test. The results show that the consistency between the machine score and the report score reaches more than 96%,which has good results,but there is a risk that the effect of 1659 samples is still misjudged after the dual-machine evaluation,and the evaluation organization and evaluation mechanism of the dual-machine evaluation mode are still incomplete,and the dual-machine evaluation mode is not feasible for the time being,and further algorithm improvement and application method research are needed. The comparative verification results show that the scoring speed of the scoring algorithm using the GPU computing power structure is equivalent to 6 times that of the CPU computing power structure without the decrease in scoring accuracy,which can greatly reduce the time and hardware spent on scoring.
Key Words:Junior Entrance Examination,F(xiàn)oreign Language Listening and Speaking Test,Computer Intelligence Scoring
附件:
初中外語(yǔ)聽(tīng)說(shuō)樣卷
I. Read aloud朗讀(5小題,共2.5分)
Section 1:
Directions:Read the following phrases. You will have 10 seconds to prepare and 15 seconds to read.
朗讀詞組。準(zhǔn)備時(shí)間為10秒,朗讀時(shí)間為15秒。(3小題,共1.5分)
1. national flag
2. look after the children
3. surprised at the news
Section 2:
Directions:Read the following sentences. You will have 10 seconds to prepare and 20 seconds to read.
朗讀句子。準(zhǔn)備時(shí)間為10秒,朗讀時(shí)間為20秒。(2小題,共1分)
1. Would you come to my birthday party?
2. John is talking about the TV programme with his friends.
II. Quick response交際應(yīng)答(5小題,共2.5分)
Directions:You will hear five sentences. Make quick responses to the sentences you have heard. For each sentence,you will have 5 seconds to prepare and 10 seconds to answer.
根據(jù)你聽(tīng)到的句子作出應(yīng)答,每個(gè)句子準(zhǔn)備時(shí)間為5秒,答題時(shí)間為10秒。
1.
2.
3.
4.
5.
III. Retell復(fù)述(1小題,共2.5分)
Directions:Retell what you hear with the given points. You will hear the recording twice. You will have 60 seconds to prepare and 60 seconds to retell.
你將聽(tīng)到一段音頻,請(qǐng)根據(jù)所給要點(diǎn)進(jìn)行復(fù)述。錄音播放兩遍。準(zhǔn)備時(shí)間為60秒,答題時(shí)間為60秒。
你的復(fù)述可以這樣開(kāi)始:Henry keeps pets at home...
IV. Free talk表達(dá)(1小題,共2.5分)
Directions:Say at least five sentences according to the following information. You will have 60 seconds to prepare and 60 seconds to talk.
根據(jù)以下提示進(jìn)行表達(dá),至少講5句話。準(zhǔn)備時(shí)間為60秒,答題時(shí)間為60秒。
你的表達(dá)必須包含以下要點(diǎn):
1. What are the people in the picture doing?
2. What can you learn from the boy?
初中外語(yǔ)聽(tīng)說(shuō)樣卷參考答案及評(píng)分標(biāo)準(zhǔn)
I.朗讀
Section 1:
1. national flag辨音
清晰、正確朗讀2個(gè)單詞得0.5分
清晰、正確朗讀1個(gè)單詞得0.25分
清晰、正確朗讀0個(gè)單詞得0分
2. look after the children連讀
清晰、正確朗讀look after,the children 2個(gè)詞塊得0.5分
清晰、正確朗讀1個(gè)詞塊得0.25分
清晰、正確朗讀0個(gè)詞塊得0分
3. surprised at the news失爆
清晰、正確朗讀surprised,at the news 2個(gè)詞塊得0.5分
清晰、正確朗讀1個(gè)詞塊得0.25分
清晰、正確朗讀0個(gè)詞塊得0分
Section 2:
1. Would you come to my birthday party?(語(yǔ)調(diào))
清晰、正確體現(xiàn)升調(diào)得0.25
清晰、正確朗讀句子得0.25,讀錯(cuò)1個(gè)單詞不扣分(讀錯(cuò)≥2個(gè)單詞扣0.25分)
2. John is talking about the TV programme with his friends.(意群和停頓)
意群和停頓不影響理解得0.25
清晰、正確朗讀句子得0.25,讀錯(cuò)1個(gè)單詞不扣分(讀錯(cuò)≥2個(gè)單詞扣0.25分)
II.交際應(yīng)答
0.5分能對(duì)所給的句子進(jìn)行恰當(dāng)應(yīng)答
0.25分能應(yīng)答,但應(yīng)答不完全符合英語(yǔ)表達(dá)習(xí)慣
0分不能應(yīng)答或應(yīng)答不符合英語(yǔ)表達(dá)習(xí)慣
1. Thanks. / Thank you./ ...
2. Once a week. / Twice a month. / Every day. / Never.
3. Its worth watching. / This is the most exciting film that Ive ever seen. / Boring. / Interesting. / Fantastic...
4. Of course/ Certainly./ No problem. / Sorry,Im using it myself. / Sorry,Ive just lent it to Alice. /Sure.
5. Congratulations! / Good for you! / Great! / Good job! / Im glad to hear that. / You must have put a lot of effort into it. / You must have worked hard for it. / How nice! / How marvelous!
III.復(fù)述
Key points:
1. Henry has two pet cats.(0.5)
2. One is a black cat named Tommy.(0.5)
3. The other is a white cat called Kitty.(0.5)
4. Cats can take care of themselves(but dogs need people to walk them every day).(0.5)
5. Cats are quiet(but dogs usually make a lot of noises).(0.5)
IV.表達(dá)
Key points:
1. What
do housework;wipe the window;clean the floor;stand on a chair to clean the upper part of the window…
2. Opinion
learn to keep ones home clean and tidy;learn to share housework;show love for;form the habit of…
參考答案:
The people in the picture are doing housework. The boy is wiping the window while his mother is cleaning the floor. The boy is not tall enough,so he is standing on a chair to clean the upper part of the window. We can learn from the boy that we should share housework with our parents. And we should form the habit of doing housework.
2.5分內(nèi)容完整充實(shí),表達(dá)流暢連貫,語(yǔ)言結(jié)構(gòu)和用詞基本正確。
2分內(nèi)容完整、較充實(shí),表達(dá)較流暢連貫,語(yǔ)言結(jié)構(gòu)和用詞基本正確。
1.5分內(nèi)容較完整充實(shí),表達(dá)基本流暢連貫,語(yǔ)言結(jié)構(gòu)和用詞存在較多錯(cuò)誤,但不影響理解。
1分內(nèi)容不完整,表達(dá)欠流暢連貫,語(yǔ)言結(jié)構(gòu)和用詞存在較多錯(cuò)誤,但不影響理解。
0.5分僅能說(shuō)出個(gè)別單詞。
0分無(wú)法表達(dá)或表達(dá)內(nèi)容與所給提示完全不符。
只能講述4句,得分不高于2分
只能講述3句,得分不高于1.5分
只能講述2句,得分不高于1分
只能講述1句,得分不高于0.5分
(責(zé)任編輯:吳茳)