何屹松 徐 飛 劉 惠 孫媛媛 竺 博 儲林林
(1.安徽省教育招生考試院,合肥 230001;2.科大訊飛股份有限公司,合肥 230001)
2014年9 月國務院頒布的《關于深化考試招生制度改革的實施意見》提出“改進評分方式,加強評卷管理,完善成績報告”[1]。2015年國家發(fā)展改革委、科技部等頒布的《“互聯(lián)網(wǎng)+”人工智能三年行動實施方案》以及2018年國務院頒布的《新一代人工智能發(fā)展規(guī)劃》提出了人工智能在各行業(yè)應用的總體思路與主要任務。探索將人工智能評分技術與網(wǎng)上評卷方式進行深度融合,更好實現(xiàn)對閱卷過程的質(zhì)量監(jiān)控和考試成績的定量分析,是考試機構的一項重要研究課題。
目前普通高考網(wǎng)上評卷方式是將掃描后的答題卡切分為圖像,以計算機為載體,組織評卷教師在網(wǎng)上閱卷。評卷過程中評卷教師根據(jù)計算機上呈現(xiàn)的考生答題信息,依照評分細則對考生的答題內(nèi)容進行評分,由系統(tǒng)實時將成績傳送至中心機房服務器中,并自動調(diào)取下一位考生答題信息繼續(xù)評閱。網(wǎng)上評卷方式從2005年開始規(guī)?;瘧靡詠?,在各類國家教育考試閱卷工作中發(fā)揮了重要作用。
現(xiàn)行網(wǎng)上評卷所遵循的技術規(guī)范是教育部2008年頒布的《國家教育考試網(wǎng)上評卷暫行實施辦法》《國家教育考試網(wǎng)上評卷技術暫行規(guī)范》《國家教育考試網(wǎng)上評卷統(tǒng)計測量暫行規(guī)范》。隨著技術和考試需求的發(fā)展,這些技術規(guī)范目前已經(jīng)不能完全滿足考試發(fā)展的需要,其評卷模式存在的一些問題,如評卷教師打保險分的現(xiàn)象并不能完全發(fā)現(xiàn)和得到及時糾正,對評卷結果的質(zhì)量評價也很難做到更加精準的定量分析。因此,需要開發(fā)新一代智能網(wǎng)上評卷系統(tǒng)。
對人工智能評分技術的研究,國外經(jīng)歷了一個發(fā)展過程。美國教育考試服務中心(ETS)從2005年開始將計算機評分系統(tǒng)(E-Rater)應用于托福和GMAT考試的作文評分,該系統(tǒng)的機器評分與評卷員的一致率達到97%,高于2名評卷員通常的一致率95%~97%;對于人機大分差的分歧樣本由第三人進行仲裁評分[2]。這種人工加機器、再加仲裁的評分模式,一經(jīng)公布便引起各國考試機構的高度關注。2010年后,隨著以深度神經(jīng)網(wǎng)絡為代表的新一代機器學習算法的發(fā)展,以及文檔圖像識別、自然語言理解等技術的突破,推動了人工智能評測技術在考試領域的研究應用。
人工智能用于輔助評分的3大技術要點有:一是文檔圖像識別技術。包括手寫體識別、公式識別、圖形識別等,最終將識別后的文字、字符、公式等轉(zhuǎn)換成文本格式,用于評分分析,要求識別準確率在95%以上,從而滿足輔助評分的需要。二是基于深度神經(jīng)網(wǎng)絡建模的評分模型訓練。這類自然語言技術用于評測算法,具備了處理文本信息的能力,并且可以科學全面地挑選樣本用于人工專家定標集合、學習和擬合人工專家評分,以訓練機器評分模型。三是多維度計算機智能評分算法。在該算法中,各個評分維度建立在海量數(shù)據(jù)分析處理的基礎上,并綜合考慮課程標準、評分標準、不同學科知識圖譜等多方面因素,以提高評分的準確性。目前,基于全連接的卷積神經(jīng)網(wǎng)絡(Fully Connected Convolutional Neural Networks)的圖像文檔版面分析理解和文字識別技術核心算法[3],使得智能閱卷評分系統(tǒng)已經(jīng)形成了一套完整的從圖片輸入端到文字輸出端的識別處理方案,對漢字和英文字符的識別率能夠達到一個較高的水平。在多維度評分方面,可將待評樣本按照某種算法進行特征向量提取,并對定標集合樣本進行同樣的特征提取,然后以定標樣本的專家評分作為目標,通過基于注意力編解碼機制的循環(huán)迭代神經(jīng)網(wǎng)絡(Attention Based Encoder-Decoder Recurrent Neural Networks)建模[4],形成基于當次考試精準的評分模型,進行計算機智能輔助評分。
與人工評卷方式相比,計算機智能輔助評分具有較高的效率、良好的評分準確性、多方位的輔助質(zhì)檢功能,能夠克服網(wǎng)上評卷中評卷教師易受自身主觀因素影響等不足,有效保證評卷質(zhì)量,可以提供更客觀的第三方質(zhì)量評價。
新一代智能網(wǎng)上評卷系統(tǒng)的設計思想是圍繞人工智能測評技術與網(wǎng)上評卷技術相結合的應用研究,實現(xiàn)網(wǎng)上評卷系統(tǒng)和人工智能測評系統(tǒng)在網(wǎng)絡層面的相互訪問和數(shù)據(jù)層面的實時共享。在千兆局域網(wǎng)條件下,通過相關數(shù)據(jù)接口,實現(xiàn)對1 000萬級別的掃描圖像和計算機智能測評結果的訪問和應用,既充分發(fā)揮人工閱卷在學科先導、教師評閱、專家仲裁和社會接受程度方面的特點,又充分發(fā)揮人工智能的高效率、高準確度和高可靠性的特點,以人機結合的方式全面加強對評分過程的數(shù)據(jù)分析和監(jiān)管。
新一代智能網(wǎng)上評卷系統(tǒng)以現(xiàn)有閱卷組織管理模式為基礎,主要包括答題卡掃描系統(tǒng)、智能評分系統(tǒng)和網(wǎng)上閱卷系統(tǒng)3個部分。本文主要討論智能評分系統(tǒng)和網(wǎng)上評卷系統(tǒng)的融合問題,融合后的系統(tǒng)結構見圖1。
從圖1可知,該方案的核心是在保留原有網(wǎng)上評卷系統(tǒng)和人工智能評分系統(tǒng)各自主體功能和操作方式不變的情況下,通過評卷輔助控制決策系統(tǒng)平臺(以下簡稱“評卷輔助平臺”)進行系統(tǒng)升級,將新增功能嵌入到原有系統(tǒng)當中,以平滑過渡的方式構造新一代智能網(wǎng)上評卷系統(tǒng),為后期拓展應用以及系統(tǒng)的進一步融合和升級奠定基礎。
圖1 高考網(wǎng)上評卷系統(tǒng)和人工智能輔助評分系統(tǒng)融合的系統(tǒng)結構示意圖
表1 評卷輔助平臺所需服務器配置
評卷輔助平臺為WEB架構,采用JAVA面向?qū)ο笳Z言開發(fā),關鍵業(yè)務數(shù)據(jù)的傳輸和存儲均進行加密處理。硬件方面,主要由數(shù)據(jù)庫服務器、文件服務器、應用服務器和網(wǎng)絡設備組成,服務器參考配置見表1。網(wǎng)上評卷系統(tǒng)和人工智能評分系統(tǒng)之間不能進行直接訪問,需各自與評卷輔助平臺進行連接,完成數(shù)據(jù)交換。在訪問策略控制方面,數(shù)據(jù)庫服務器的用戶和權限單獨設置,網(wǎng)上評卷系統(tǒng)和人工智能系統(tǒng)都不能訪問數(shù)據(jù)庫服務器,網(wǎng)上評卷系統(tǒng)只能訪問平臺的應用服務器,人工智能評分系統(tǒng)只能訪問平臺的應用服務器和文件服務器,見圖2。
評卷輔助平臺包括數(shù)據(jù)交換子系統(tǒng)和監(jiān)控、統(tǒng)計、處理子系統(tǒng)2個部分,其中:數(shù)據(jù)交換子系統(tǒng)通過Web service接口技術,提供數(shù)據(jù)交換服務;監(jiān)控、統(tǒng)計、處理子系統(tǒng)對交換過程進行監(jiān)控,對數(shù)據(jù)進行處理、統(tǒng)計、分析、決策。
圖2 評卷輔助平臺設備連接示意圖
監(jiān)控、統(tǒng)計、處理子系統(tǒng)主要監(jiān)控考生圖像數(shù)據(jù)的上傳下載、定標集圖像信息及專家評分結果的上傳下載、樣卷、機器評分、空白題給分卷、抄襲題干卷、抄襲范文卷、相似卷(疑似雷同卷)、復核卷等接口數(shù)據(jù)的接收與下發(fā)情況。對人工智能評分結果進行數(shù)據(jù)導入,對機評成績和人評成績進行質(zhì)檢比對。管理人員可根據(jù)條件設定,對大分差評分生成需要進行復核的試題信息,通過網(wǎng)上評卷系統(tǒng)發(fā)放給學科組進行復核,計入仲裁成績,并將復核結果反饋至評卷輔助平臺,供進一步統(tǒng)計分析使用。監(jiān)控、統(tǒng)計、處理子系統(tǒng)及其程序設計,可根據(jù)智能網(wǎng)上評卷系統(tǒng)的功能設計進行不斷升級和完善。
與評卷輔助平臺相對應,原有網(wǎng)上評卷系統(tǒng)需進行升級后才能滿足新一代智能網(wǎng)上評卷系統(tǒng)的應用需要?;谏鲜黾夹g方案,對新增功能采用服務引擎方式進行設計。服務引擎主要完成網(wǎng)上評卷系統(tǒng)與評卷輔助平臺的交互,包括上傳掃描完成考生的圖像信息、接收人工智能系統(tǒng)的輔助定標樣卷及分數(shù)、上傳人評最終成績、接收復核數(shù)據(jù)(包括人評與機評評分差值較大的考生數(shù)據(jù)、抄襲題干、抄襲范文、空白卷有分的考生數(shù)據(jù)、相似考生數(shù)據(jù)等)、上傳復核反饋結果等。服務引擎設計遵循新增模塊不能影響原有系統(tǒng)主體結構,新增功能不修改或少修改原有功能的設計思路。既保證原有網(wǎng)上評卷系統(tǒng)穩(wěn)定運行,又確保新增業(yè)務(如人工智能輔助網(wǎng)上評卷質(zhì)量控制)能夠以實時在線方式應用。
新一代智能網(wǎng)上評卷系統(tǒng)具有5個特點:一是系統(tǒng)的獨立性。評卷輔助平臺通過對數(shù)據(jù)接口的定義和網(wǎng)絡訪問的控制,保證自身的獨立性,使其既不依賴于特定的人工智能系統(tǒng),又不依附于特定的網(wǎng)上評卷系統(tǒng),可與國內(nèi)現(xiàn)行主流的網(wǎng)上評卷系統(tǒng)、人工智能評分系統(tǒng)對接,開放而兼容。二是數(shù)據(jù)交互的靈活性。掃描圖像數(shù)據(jù)通過評卷輔助平臺提供給人工智能評分系統(tǒng),人工智能評分系統(tǒng)的計算機自動評分結果又通過評卷輔助平臺提供給網(wǎng)上評卷系統(tǒng),數(shù)據(jù)的導入導出交換能力安全高效,過程可追溯,日志可審計。三是在線控制的實時性。例如,安徽省2018年在高考網(wǎng)評過程中實現(xiàn)了對高考語文作文題和高考英語作文題評分結果的定時定點比對,人工評分結果和計算機智能評分結果可以隨時在系統(tǒng)控制端進行實時動態(tài)分析,對人機大分差樣本、抄寫題干等異常答題樣本等情況進行精準質(zhì)檢反饋,質(zhì)量監(jiān)控的針對性大大提高。四是對離線方式的包容性。2018年安徽省增加了對高考語文簡答題、文科綜合能力測試簡答題、數(shù)學證明題的智能評分和實驗驗證,方法是通過評卷輔助平臺將機評結果導入網(wǎng)評系統(tǒng)當中,經(jīng)過監(jiān)控、統(tǒng)計、處理子系統(tǒng)和服務引擎進行質(zhì)檢反饋,結果顯示對多科目、多題型的輔助質(zhì)量監(jiān)控高效有序。五是系統(tǒng)的可擴展性。通過評卷輔助平臺這種中間雙向介入模式,可以將人工智能評分系統(tǒng)的評分結果作為一評直接提交給網(wǎng)上評卷系統(tǒng),為智能評分替代人工一評提供了更好的解決方案,也為人工智能評分技術在非高利害性考試閱卷組織管理中的推廣應用提供了思路。
評卷輔助平臺在安徽省2018年高考評卷中進行了試驗,試驗內(nèi)容包括:一是對高考英語作文題、高考語文作文題以在線方式實現(xiàn)智能評分,并將評分結果應用于輔助質(zhì)量監(jiān)控;二是對高考語文簡答題、高考數(shù)學證明/計算題、高考文科綜合能力測試政治簡答題以離線方式驗證智能評分效果,探索人工智能評卷技術在多科目、多題型上應用的可行性。
2018年安徽省實際參加高考統(tǒng)考人數(shù)為42萬,統(tǒng)考科目為語文、數(shù)學、英語和文科/理科綜合能力測試。掃描及評卷用各類服務器40臺,采用虛擬化技術對H3C UIS8000刀片服務器進行物理和邏輯劃分。評卷輔助平臺使用的3臺服務器單獨部署,按照特定的網(wǎng)絡連接方案與網(wǎng)評系統(tǒng)和人工智能評分系統(tǒng)進行連接。人工智能評分系統(tǒng)安排在獨立場地,由6臺高配置服務器及2臺操作終端進行處理。各服務器、交換機(千兆)、網(wǎng)絡安全設備、控制終端和移動硬盤等少量外設組成局域網(wǎng),與外網(wǎng)進行物理隔離。人工智能評分系統(tǒng)用到的服務器主要配置要求CPU為Intel Xeon V3 12核24線程;內(nèi)存≥64GB,4通道及以上;千兆網(wǎng)口;高性能GPU顯卡4塊(顯存大小≥16GB);操作系統(tǒng)為Windows Server 2008R2 64位。
此次試驗語文作文題、英語作文題、語文簡答題(第6題)各掃描圖像419 119份,其中定標樣本:語文作文601份,英語作文542份,語文簡答題(第6題)500份;文科綜合能力測試簡答題(第38題)、數(shù)學文科證明題(第18題)各掃描圖像175 863份,其中定標樣本:文科綜合能力測試第38題571份,數(shù)學文科第18題1 996份,見表2。
從表2可以看出,人工智能評分系統(tǒng)對除定標集、異常作答(包括特殊異常作答和非準確識別)2部分以外的樣本進行了計算機評分,語文作文389 299份,占全部樣本量的92.89%;英語作文390 701份,占全部樣本量的93.22%;語文第6題413 232份,占全部樣本量的98.60%;文科綜合能力測試第38題171 881份,占全部樣本量的97.74%;數(shù)學文科第18題125 773份,占全部樣本量的71.52%。所有樣本的評分結果均經(jīng)閱卷系統(tǒng)完整性、準確性檢查。
表2 試驗用樣本數(shù)量
人工智能評分檢測出的特殊異常作答樣本,包括與范文庫中文本內(nèi)容相似度高、與當次考試試卷題干相似度高、考生之間作答內(nèi)容相似度高3種情況,語文作文共有237份,英語作文共有2 557份,語文第6題10份,文科綜合能力測試第38題40份,見表3。
人工智能評分系統(tǒng)還對樣本的機評平均分和標準差進行統(tǒng)計分析,見表4。
此外,在人工智能評分系統(tǒng)檢測出的各類異常作答樣本以及定標數(shù)據(jù)集中,隨機挑選語文作文和英語作文各100份圖片進行識別率的統(tǒng)計對比,結果為:語文中文字符的識別準確率為96.93%,英語單詞的識別準確率為98.88%,這說明系統(tǒng)已經(jīng)達到了一個較高的水平。根據(jù)智能評分得到的數(shù)據(jù),通過評卷輔助平臺將相應結果與評卷教師的評分情況(報道分)進行了比對,并對以上各類異常作答樣本以及人機(報道分和機評分)產(chǎn)生大分差樣本進行標注,通過條件控制,將這些大分差樣本數(shù)據(jù)下發(fā)給各學科組評卷專家進行復核,各題型復核結果見表5至表8。
從上述復核情況看,人工智能評分系統(tǒng)對輔助質(zhì)量監(jiān)控起到精準定位、精細復核、精確評分的作用。
目前,基于人工智能的計算機自動評分系統(tǒng)在評分過程的智能程度、算法的先進性、結果的準確性和極高的效率方面等已經(jīng)得到證明[5];同時,還具有強大的數(shù)據(jù)處理能力,完備的輔助質(zhì)檢功能,能夠提供客觀的質(zhì)量評價標準,從而能夠在更大程度上保證評分的客觀公正。在實際應用過程中,如何更好地將人工智能技術與網(wǎng)上評卷技術結合起來,實現(xiàn)二者完美對接與深度融合,解決現(xiàn)有評卷組織管理模式中的一些深層次問題,依然有很長的路要走。
表3 人工智能評分系統(tǒng)檢測出特殊異常作答樣本數(shù)量
表4 人工智能評分樣本集合的平均分和標準差
表5 高考語文作文題復核結果 份
表6 高考英語作文題復核結果 份
表7 高考文科綜合能力測試第38題復核結果 份
表8 高考數(shù)學文科第18題復核結果 份
蓬勃發(fā)展的圖像識別和字符識別技術,使人工智能在各類考試中的測評應用成為可能;但是,一旦到了應用層面,人們所關心的就不僅僅是結果如何,而是新技術所涉及的全部內(nèi)容。如何做到讓考生、家長和社會接受,需要一個長期的、認識上的轉(zhuǎn)變過程和技術本身的不斷進步。要擴大人工智能在更多科目、更多題型上的處理能力,推動人工智能測評技術的發(fā)展,要加強對轉(zhuǎn)寫識別、智能評分等核心算法的研究,提升人工智能在識別精度和評分準確度方面的能力。例如,經(jīng)過對比發(fā)現(xiàn),考生在方格內(nèi)書寫作文和在開放區(qū)域內(nèi)書寫作文、在有下劃線的區(qū)域內(nèi)作答簡答題和在開放區(qū)域內(nèi)作答簡答題、在開放區(qū)域內(nèi)作答數(shù)學證明題和計算題等,其轉(zhuǎn)寫識別的精度都不盡相同,前者會高于后者,這些都是擺在考試管理者面前需要考慮的問題。在評分準確度方面,在人機大分差的樣本中,尤其是機器評分大于人工評分的樣本中,人工評分的準確度要高于智能評分。對于經(jīng)智能閱卷系統(tǒng)檢出的抄寫題干、相似作答等異常樣本,其分數(shù)經(jīng)復核后無一例外都是向下修正。因此,在人工智能全面參與高利害性考試的閱卷過程中,依然有很多的關鍵技術需要突破。
隨著人工智能技術以及其他新技術的突破,將會有更多企業(yè)參與到教育考試及評卷工作中來,也必將對現(xiàn)有網(wǎng)上評卷技術服務商提出更多更高的要求。因此,克服現(xiàn)有網(wǎng)評系統(tǒng)中的固有弊端,加強對人工智能輔助網(wǎng)上評卷的規(guī)范性研究,成為一個緊迫的研究課題。就網(wǎng)上評卷的流程而言,無論是人工閱卷還是計算機智能評卷,或是將二者結合起來形成的人工智能網(wǎng)上評卷系統(tǒng),其流程可以歸納為圖3。由圖3可知,這一流程在保留了二者獨立性的同時,進行了關聯(lián)融合,其目的是將智能評分結果及時反饋到人工評分的過程中,同步對分數(shù)進行比對、分析、計算,從而形成有針對性的應用方案,比如質(zhì)量控制方案等。
圖3 人工智能評分系統(tǒng)深度融合網(wǎng)評系統(tǒng)實施流程示意圖
目前的問題是如何進一步加強對人工智能與網(wǎng)上評卷相結合的規(guī)范性研究,從而形成一套有效的人機結合的智能網(wǎng)上評卷標準化實施流程。安徽省在2017年、2018年高考閱卷過程中對這一流程進行了積極探索,增加了人工智能輔助網(wǎng)上評卷質(zhì)量監(jiān)控功能,第二步將要實現(xiàn)的是在評卷過程中對考生異常答題信息的動態(tài)提示,包括對教師閱卷界面的調(diào)整等,第三步是人機融合后對網(wǎng)上評卷組織管理模式的改革創(chuàng)新。在應用上,只有實現(xiàn)了二者的融合,才能利用智能閱卷系統(tǒng)的文字轉(zhuǎn)寫功能和自主學習能力,更有針對性地為學科評卷組挑選專家樣卷;才能實現(xiàn)機器評分和人工評分相結合的新的雙評模式,節(jié)省人力和提高效率;才能使評卷系統(tǒng)具備及時發(fā)現(xiàn)人工評分偏差的能力,動態(tài)實現(xiàn)對機器評分與人工評分分差較大的樣本進行有針對性的質(zhì)檢反饋;才能使計算機智能閱卷系統(tǒng)通過不斷地數(shù)據(jù)挖掘和自主學習,在某種程度上達到專家水平。
人工智能評分系統(tǒng)在文字轉(zhuǎn)寫識別上的高識別率和建立在自然語義理解等核心算法上的多維度智能評分的高準確度和高效率,使其有著非常廣闊的發(fā)展空間??梢灶A見:在某些人工智能技術瓶頸得到突破后,其能夠在更多科目、更多題型上進行精準評分;在閱卷組織和管理模式上形成規(guī)范化和程序化的操作之后,以智能評分替代一評或部分替代人工評卷,將成為一種可能。未來在學業(yè)水平考試、自學考試及社會化考試等相對低利害的考試中,可以考慮用計算機智能評分替代多評模式下的人工一評,甚至可以直接替代某些高可信度分數(shù)段內(nèi)的人工評分。這種人機結合的智能閱卷組織管理模式,將成為未來考試閱卷智能化應用的發(fā)展方向。