彭恒利
摘 要:主觀性試題的評分是考試界的難題。隨著計算機(jī)技術(shù)以及測量技術(shù)的迅猛發(fā)展,主觀性試題的計算機(jī)自動評分由設(shè)想變成了現(xiàn)實(shí)。自動評分涉及自然語言處理、信息檢索、人工智能等多個領(lǐng)域,核心是語音和圖像的識別、特征值的提取、模型的構(gòu)建等。目前,計算機(jī)自動評分技術(shù)雖然取得重大進(jìn)展,但尚有很大的提升空間,若能在實(shí)評中克服打保險分、跑題高評的不足,完全可以替代人工評分,在高利害考試中廣泛應(yīng)用。
關(guān)鍵詞:計算機(jī)自動評分;高利害考試;應(yīng)用;前景
【中圖分類號】G 【文獻(xiàn)標(biāo)識碼】B 【文章編號】1008-1216(2019)01B-0004-03
主觀性試題因其命題的角度靈活、測查的能力維度多樣以及效度方面的優(yōu)勢在高利害考試中得到了廣泛應(yīng)用,雅思(IELTS)、托福(TOEFL)、中國漢語水平考試(HSK)、中國少數(shù)民族漢語水平等級考試(MHK)以及高考、研究生考試等這些與考生切身利益高度相關(guān)的高利害考試中均設(shè)有主觀性試題。主觀性試題泛指無固定答案、采用多級計分的題目,如筆試中的簡答、論述題、作文等,口試中的問答、口頭報告等,其特點(diǎn)突出,缺陷也比較明顯:評分的信度和效度偏低、閱卷的耗費(fèi)大、效率低,等等。雖然網(wǎng)上評閱技術(shù)的應(yīng)用對此做了有效彌補(bǔ),但人工評分的趨中評分、疲勞效應(yīng)、評分效率低等問題依然突出。隨著計算機(jī)科學(xué)技術(shù)的快速發(fā)展,自然語言處理技術(shù)、大數(shù)據(jù)、人工智能等有了長足進(jìn)展。為了克服人工閱卷帶來的弊端,一些考試機(jī)構(gòu)嘗試用計算機(jī)自動評分系統(tǒng)來替代或部分替代人工閱卷員進(jìn)行評分,試圖破解主觀性試題的評分難題,由此計算機(jī)自動評分(Computer-Automated Scoring,CAS)就由設(shè)想變成了可能,許多大公司和考試機(jī)構(gòu)投巨資進(jìn)行攻關(guān),計算機(jī)自動評分系統(tǒng)被紛紛推出,并展現(xiàn)出了廣闊的應(yīng)用前景。
一、計算機(jī)自動評分技術(shù)的發(fā)展沿革
計算機(jī)自動評分研究肇始于1966年Ellis Page建立的作文自動反饋系統(tǒng)。起初開發(fā)這套系統(tǒng)的主要目的是為了在課堂上及時給學(xué)生進(jìn)行反饋,試圖通過計算機(jī)分析學(xué)生的作文,為學(xué)生提供有針對性的反饋。這種理念也影響了后期MyAccess!TM、WritetoLearnTM以及Criterion的網(wǎng)上寫作評價系統(tǒng)的開發(fā)。亦即最初的計算機(jī)自動評分技術(shù)主要用于測試練習(xí),僅給考生報告機(jī)器評分,一旦用于高利害、高風(fēng)險的考試中,則會比較謹(jǐn)慎,如美國教育考試服務(wù)中心(ETS)在GRE以及托??荚囍?,通常會采用“人機(jī)雙評”,即一個評分員和e-rater聯(lián)合評分,并且在最后的分?jǐn)?shù)報告中僅采用評分員評分。
口語計算機(jī)自動評分的應(yīng)用晚于作文。20世紀(jì)90年代初,SpeechRater投入使用,并于2006年用于TPO,口語的評分直接由機(jī)器完成。之后,培生公司的口語測試系統(tǒng)Ordinate和SpeechRater齊頭并進(jìn),展現(xiàn)出良好的發(fā)展勢頭。但兩者的技術(shù)路線卻有較大差異,SpeechRater的核心技術(shù)是自然語言處理,它能夠評價考生的發(fā)音、語言表達(dá)的流利程度、語法的準(zhǔn)確性以及一部分作答內(nèi)容,測試題目多采用非限定性題目,側(cè)重于考查考生的“自由發(fā)揮”的口語能力,評分準(zhǔn)確度與人工評分員的相關(guān)為0.7;而以O(shè)rdinate為技術(shù)核心的培生英語口試Versant則更側(cè)重于口語表達(dá)的熟練程度,測試多采用封閉式的問題,答案高度限定,依靠考生大聲朗讀、造句以及列舉反義詞等方式來“預(yù)測”考生的口語熟練程度,而非直接測量考生能力。由于答案的高度限定性,培生英語口試可以直接采用機(jī)器分?jǐn)?shù)為報告分?jǐn)?shù)。此外,這種技術(shù)顯示出較強(qiáng)的通用性,除了英語版,Versant口語考試還包括中文、西班牙語、阿拉伯語、荷蘭語以及法語口語考試。
國內(nèi)的計算機(jī)自動評分研究與國外的類似,作文的自動評分研究早于口語。因手寫體識別的瓶頸沒有實(shí)質(zhì)性的突破,作文的自動評分出現(xiàn)了短期的停滯。之后技術(shù)的突破是從英語開始的。梁茂成于2008年主持的項目“大規(guī)模考試英語作文自動評分系統(tǒng)的研制”通過了鑒定,有學(xué)者認(rèn)為“該評分系統(tǒng)的評分信度高于e-rater并且達(dá)到了可操作水平”。此外,還有外研社開發(fā)的新視野大學(xué)英語在線學(xué)習(xí)系統(tǒng)中的自動評分系統(tǒng)、浙江大學(xué)和杭州增慧網(wǎng)絡(luò)科技有限公司聯(lián)合開發(fā)的“冰果英語智能評閱系統(tǒng)”,以及“批改網(wǎng)”等。
隨著手寫識別技術(shù)的快速發(fā)展,近年來,國內(nèi)的計算機(jī)自動評分技術(shù)又有了新的突破。根據(jù)科大訊飛的技術(shù)報告,計算機(jī)識別英文書寫篇章復(fù)雜版面的準(zhǔn)確率可高達(dá)98%,并能讓計算機(jī)準(zhǔn)確地切分英文,能辨別書寫、空白、涂抹以及插入?yún)^(qū)域,計算機(jī)線下中英文手寫與計算機(jī)轉(zhuǎn)寫的準(zhǔn)確度高達(dá)96.5%。也就是說,該項技術(shù)實(shí)現(xiàn)了手寫體的識別和評分,在技術(shù)上領(lǐng)先于e-rater,因?yàn)閑-rater目前僅支持計算機(jī)輸入,紙筆作答暫時無法進(jìn)行計算機(jī)自動評分。
而語音識別技術(shù)的突破則助推了口語測評系統(tǒng)在實(shí)際考試中的應(yīng)用。2007年,科大訊飛發(fā)布了首個口語朗讀測評系統(tǒng)作為高利害考試的測評平臺,標(biāo)志著口語測評進(jìn)入了實(shí)用階段。2012年,廣東高考的英語口語考試開始使用訊飛的口語評測技術(shù),這在國內(nèi)高利害考試的評分中具有了里程碑的意義。目前,普通話水平測試(PSC)、中考英語測試以及中國少數(shù)民族漢語水平等級考試(MHK)也采用了訊飛的口語自動評分技術(shù)。
縱觀國內(nèi)外的相關(guān)研究和應(yīng)用,我們可以清楚地看到計算機(jī)自動評分技術(shù)的發(fā)展脈絡(luò):在評分技術(shù)上,現(xiàn)有的自動評分系統(tǒng)基本上都是建立在語音合成、語音識別和圖像識別的技術(shù)之上,通過特征值的提取、聚類、回歸等方式,實(shí)現(xiàn)了不能到能的跨越,在評分效率、穩(wěn)定性和一致性上接近或超過了人人評分;在技術(shù)應(yīng)用上,涉及的題型也在不斷擴(kuò)展,從朗讀、跟讀、簡答到自由回答,實(shí)現(xiàn)了從封閉性型向半封閉、開放性型的拓展;在評分質(zhì)量研究上,實(shí)現(xiàn)了從單純注重信度(人機(jī)相關(guān)、大分差率)到信效度并重的轉(zhuǎn)變。
二、計算機(jī)自動評分技術(shù)涉及的核心問題
計算機(jī)自動評分技術(shù)的開發(fā)和應(yīng)用涉及多個學(xué)科,是集計算機(jī)科學(xué)、語言學(xué)、統(tǒng)計學(xué)、心理與教育測量學(xué)之大成。口語和書面語的呈現(xiàn)方式不同,語言類型的不同,會給技術(shù)開發(fā)的路線帶來一定的影響,但就計算機(jī)自動評分技術(shù)來講,任何一個自動評分系統(tǒng)的開發(fā)和應(yīng)用都離不開圖像或者語音識別、特征值抽取、模型篩選、算法確定、分?jǐn)?shù)報告與解釋等幾個核心環(huán)節(jié),其中涉及矢量空間模型技術(shù)、自然語言處理技術(shù)、信息檢索技術(shù)、統(tǒng)計技術(shù)、人工智能等。為便于理解,下面從語音和圖像識別、特征值以及模型三個方面進(jìn)行介紹。
(一)語音識別與圖像識別
從自動評分的流程上來劃分,計算機(jī)自動評分系統(tǒng)大致可分為識別端和評分端。語音識別和圖像識別屬于識別端,它是主觀性試題自動評分的起點(diǎn)。語音識別主要用于口語考試,圖像識別主要用于書面的筆答如作文考試等。語音識別需要根據(jù)聲譜特征確定聲學(xué)模型,然后還要進(jìn)行降噪、聲學(xué)特征提取、說話人自適應(yīng)、轉(zhuǎn)換詞圖、標(biāo)識置信度等工作。早期的語言識別模型一般采用隱馬爾可夫模型,如SpeechRater和Ordinate均采用了該模型,但這種模型的識別率不高,SpeechRater的單詞識別率僅為50%?,F(xiàn)代的語音識別和圖像識別均采用了深度神經(jīng)網(wǎng)絡(luò)模型,從而使識別的速度更快、準(zhǔn)確率更高。據(jù)科大訊飛網(wǎng)上的資料介紹,其語音和手寫體的識別準(zhǔn)確率都達(dá)95%以上。
(二)特征值抽取
Bennett &Bejar(1998)提出了自動評分開發(fā)以及評估的兩個基本步驟:(1)抽取特征值;(2)將這些特征值通過某種模型統(tǒng)一成一個總體的分?jǐn)?shù)。確定了特征值,也就代表了自動評分系統(tǒng)會“按圖索驥”,根據(jù)人工設(shè)定的一系列語法、語義、語用、修辭特征判斷考生的表達(dá)能力處于量表的何處。進(jìn)一步講,特征值即代表了測試的部分構(gòu)念。
目前,主觀題自動評分的特征值多集中考查一些淺語言特征,語法、句法等語言特征是最容易獲取也最容易評分的內(nèi)容。以e-rater為例,它的11項原始特征值中,有9個是語言特征,另外2個為內(nèi)容特征。這9個語言特征分別是:文章結(jié)構(gòu)、行文、語法、語言使用、標(biāo)點(diǎn)拼寫等書寫規(guī)則、風(fēng)格、平均詞長、詞頻、地道程度。每個原始語言特征還包含一些易于統(tǒng)計和計算的子特征,比如書寫規(guī)則就包括拼寫、大小寫、標(biāo)點(diǎn)符號、復(fù)合詞規(guī)則,等等。然而有些原始特征僅能依賴一些非直接的統(tǒng)計因素,比如文章結(jié)構(gòu)特征值在很大程度上依賴于文章的長度。結(jié)構(gòu)和行文兩項特征值中,60%的得分來自文章長度,書寫等規(guī)則占該項得分的10%,其余30%則取決于考生的語法句法水平。內(nèi)容特征則更加難于數(shù)據(jù)化,e-rater的兩個內(nèi)容特征值能夠測量的內(nèi)容質(zhì)量是非常有限的,而寫作的語氣、口吻等內(nèi)容目前的技術(shù)水平還難以測量。這也是部分非測量界學(xué)者一直批評主觀題自動評分的一個主要原因。目前的特征值僅能測試一些語言熟練程度以及簡單交流,而對內(nèi)容、文章謀篇布局等寫作層面上的因素關(guān)注得太少。此外,子特征值是否能夠完全涵蓋原始特征值的全部也是爭議的焦點(diǎn)。如果子特征值無法完全涵蓋原始特征值,而原始特征值又無法涵蓋主觀題測試的構(gòu)念,那么主觀題自動評分的構(gòu)念就值得進(jìn)一步商榷。
(三)模型構(gòu)建
確立了特征值,之后就需要通過數(shù)學(xué)模型將加權(quán)后的特征值綜合評判給出分?jǐn)?shù)。模型的構(gòu)建是一個復(fù)雜的過程,一般來說,模型的開發(fā)和驗(yàn)證需要500~2000個樣本,評分也可采用多種模型,目前實(shí)際用于大規(guī)??荚嚨哪P椭饕ǎ壕€性回歸、多元回歸模型、分類樹模型、基于規(guī)則的專家系統(tǒng)等。
研究者還嘗試使用了一些新的模型,如貝葉斯網(wǎng)絡(luò)、人工智能網(wǎng)絡(luò)等。McNamara et al.(2015)采用了層級聚類的算法評閱高中生和大學(xué)新生的寫作,研究結(jié)果表明,使用這種算法機(jī)器評分與人工評分達(dá)到了55%的絕對一致率和92%的相鄰一致率。國內(nèi)自動評分系統(tǒng)常用的模型多為回歸模型。
在技術(shù)層面上,學(xué)界對模型的評判較多關(guān)注的是機(jī)器評分員與人工評分員的一致性、人機(jī)一致性和人人一致性的比較、機(jī)器評分員和人工評分員平均分的比較等。此外,評判模型的一個重要因素還要考查其是否很好地代表了構(gòu)念。
特征值抽取和模型確定是自動評分技術(shù)中最核心的部分,也是各考試機(jī)構(gòu)以及研究者研究的重點(diǎn)。因考試內(nèi)容和目的不同,各考試機(jī)構(gòu)以及研究者的技術(shù)路線或有差異,但都會將其中的許多特征值和變量作為技術(shù)內(nèi)核,視為專利或商業(yè)機(jī)密鮮有公布。
三、計算機(jī)自動評分技術(shù)在高利害考試中應(yīng)用的前景
據(jù)Ramineini和Williamson(2013)的調(diào)查,目前,美國等國家至少有十種以上的計算機(jī)自動評分系統(tǒng),最具代表性的包括基于人工智能開發(fā)的MyAccess!TM、培生公司基于潛在語義分析技術(shù)開發(fā)的Intelligent Essay Assessor (IEA)、美國教育考試服務(wù)中心(ETS)根據(jù)人工智能以及自然語言處理技術(shù)開發(fā)的e-rater等。國內(nèi)的一些高科技公司也推出了自己研發(fā)的自動評分系統(tǒng),如科大訊飛的多語種智能閱卷系統(tǒng),在普通話水平測試(PSC)、中考英語測試以及中國少數(shù)民族漢語水平等級考試(MHK)等考試中得到了廣泛應(yīng)用。MHK已實(shí)現(xiàn)朗讀題的計算機(jī)自動評分,封閉式簡答題替代人工進(jìn)行一評,并就作文、口語自由回答進(jìn)行了多次大規(guī)模的人機(jī)評分的對比實(shí)驗(yàn)。這些系統(tǒng)一經(jīng)推出便表現(xiàn)出了良好的性能,不僅大大節(jié)省了人力、物力和財力,還有效避免了疲勞效應(yīng),且具有安全性高、準(zhǔn)確性好、客觀性強(qiáng)、一致性高、穩(wěn)定性好等優(yōu)勢?;诖?,ETS的SpeechRater以及培生的Orindate系統(tǒng)都在口語測試中占領(lǐng)了相當(dāng)大的市場份額,ETS與Pearson還合作致力于將自動評分技術(shù)應(yīng)用到美國各州的共同核心標(biāo)準(zhǔn)測試中,該考試涉及數(shù)學(xué)、寫作、知識性簡答、口試以及完成模擬任務(wù)等內(nèi)容,顯示出廣闊的應(yīng)用前景。
目前,計算機(jī)自動評分在國內(nèi)的考試領(lǐng)域主要有三個用途:一是質(zhì)量檢測。多個省市已將自動評分系統(tǒng)作為質(zhì)檢系統(tǒng)用于中考、高考等高利害考試中,檢查空白卷、疑似雷同、疑似抄襲、特殊作答等;二是部分替代。在一些等級考試中,如普通話水平測試(PSC)、民族漢考(MHK)等中部分替代人工閱卷;三是完全替代。在一些低利害考試中,如成考、自考中部分分段完全替代人工評分。可以看出,計算機(jī)自動評分技術(shù)在國內(nèi)的高利害考試中的應(yīng)用還是比較隱性低調(diào)的,應(yīng)用的領(lǐng)域也是漸進(jìn)的。未來,隨著人工智能實(shí)現(xiàn)從感知智能到認(rèn)知智能的飛躍,通過計算機(jī)對人類的語義理解、知識表示、邏輯推理和自主學(xué)習(xí)的模擬和學(xué)習(xí),計算機(jī)自動評分技術(shù)將會實(shí)現(xiàn)質(zhì)的飛躍,評分質(zhì)量會顯著提高,應(yīng)用范圍也會呈現(xiàn)出竹子效應(yīng),有一個突飛猛進(jìn)的過程,更多的省市將在中考、高考等高利害考試中采用該項技術(shù)。更重要的是將實(shí)現(xiàn)與認(rèn)知診斷技術(shù)的有機(jī)融合,不僅能實(shí)現(xiàn)自動評分,而且還能給出個性化評價及反饋指導(dǎo),這在很大程度上就應(yīng)和了1966年P(guān)age開發(fā)自動測試系統(tǒng)的初衷。
盡管計算機(jī)自動評分技術(shù)發(fā)展的勢頭很好,我們也應(yīng)清醒地看到,受自身技術(shù)的局限,計算機(jī)自動評分技術(shù)需要探索的問題還很多。核心技術(shù)的“黑箱”如何解釋?趨中評分、高分偏少、跑題誤判問題怎樣解決?如何界定計算機(jī)自動評分的信度和效度?它們與人工評分的信度和效度的內(nèi)涵是否一致?等等。在計算機(jī)自動評分技術(shù)大規(guī)模使用之時,這些問題都需要一一解決。
四、結(jié)束語
綜上,計算機(jī)自動評分技術(shù)表現(xiàn)出了良好的應(yīng)用前景。對此,需要保持清醒的頭腦,盲目樂觀和消極悲觀同樣不可取。應(yīng)該看到,計算機(jī)自動評分技術(shù)既有自身難以克服的局限,還有許多問題亟待解決,特別是在高利害考試中,計算機(jī)完全替代人進(jìn)行評分尚待時日。同時,對于考試機(jī)構(gòu)來說,是否在實(shí)評中采用計算機(jī)自動評分技術(shù),既要過技術(shù)關(guān),也要過心理關(guān),用戶與考生對這項技術(shù)的了解和認(rèn)可還需要一個較長的過程。無論人工智能如何發(fā)展,計算機(jī)都不可能完全照搬人工評分的模式,它有自身的技術(shù)途徑,要允許和接受差異的存在,允許計算機(jī)和人的殊途同歸。因此,在相當(dāng)長的一段時間內(nèi),比較現(xiàn)實(shí)可行的評分模式是:用計算機(jī)替代一評,實(shí)現(xiàn)人機(jī)的優(yōu)勢互補(bǔ)。
基金項目:本文為北京語言大學(xué)“民族漢考(MHK)主觀性試題人機(jī)評分的對比研究”項目(項目編號:17YJ050004)的成果。
參考文獻(xiàn):
[1] Attali& Burstein.(2006). Automated Essay Scoring with e-raterV.2. The Journal of Technology, Learning, and Assessment, 4(3).Retrived from:https://ejournals.bc.edu/ojs/index.php/jtla/article/viewFile/1650/1492
[2] Bennett, R. E.,&Bejar, I. I. (1998). Validity and automated scoring: It's not only the scoring. Educational Measurement: Issues and Practice, 17(4), 9–17.
[3] McNamara, D. S., Crossley, S. A., Roscoe, R. D., Allen, L. K., & Dai, J. (2015). A hierarchical classification approach to automated essay scoring. Assessing Writing, 23, 35–59. Print.
[4] Ramineni, C., & Williamson, D. M. (2013). Automated Essay Scoring: Psychometric Guidelines and Practices. Assessing Writing, 18(1), 25–39. Print.
[5] Williamson, D. M., Xi, X., & Breyer, F. J. (2012). A Framework for Evaluation and Use of Automated Scoring. Educational Measurement: Issues and Practice, 31(1), 2–13. Print.
[6]梁茂成,文秋芳.國外作文自動評分系統(tǒng)評述及啟示[J].外語電化教學(xué),2007,(10).
[7]羅凱洲,韓寶成.Ordinate與SpeechRater口語自動評分系統(tǒng)述評與啟示[J].外語電化教學(xué),2014,(4).
[8]石曉玲.在線寫作自動評改系統(tǒng)在大學(xué)英語寫作教學(xué)中的應(yīng)用研究——以句酷批改網(wǎng)為例[J].現(xiàn)代教育技術(shù),2012,(10).
[9]王士進(jìn),李宏言,柯登峰.面向第二語言學(xué)習(xí)的口語大規(guī)模智能評估技術(shù)研究[J].中文信息學(xué)報,2011,(6).
[10]謝賢春.英語作文自動評分及其效度、信度與可操作性探討[J].江西師范大學(xué)學(xué)報(哲學(xué)社會學(xué)版),2010,(2).
[11]嚴(yán)可,胡國平,魏思.面向大規(guī)模英語口語機(jī)考的復(fù)述題自動評分技術(shù)[J].清華大學(xué)學(xué)報( 自然科學(xué)版),2009,(1).