沈晨 林正聞 馮朝君
摘要:在高利害型考試中(例如高考),閱卷是一項時間有限、條件有限的細致工作。當前,深度學習神經(jīng)網(wǎng)絡是人工智能領域中非常成功的算法,它能夠模擬人來處理識別文字圖片等數(shù)據(jù)。對于填空題這樣的客觀題型,利用深度學習技術,可以進一步提高閱卷效率和閱卷質量。文章將構建并訓練可用于識別手寫字符的神經(jīng)網(wǎng)絡模型,以實現(xiàn)高考數(shù)學中填空題的機器自動智能批閱。具體實現(xiàn)大致如下:首先對答題掃描圖片進行預處理,然后用訓練好的深度神經(jīng)網(wǎng)絡模型對答卷進行自動化批閱,最后對比人工閱卷結果進行差異化分析。結果表明,機器智能識別評分的準確率達到90%以上,對正確作答的召回達到甚至超過了預期水平。相比之前智能通過采樣少量樣本預測評分得分率,智能閱卷可以利用全部答卷(即總體),給出更加準確的得分率,這對評分細則的制定十分有益。此外,通過差異化分析,智能閱卷還能輔助閱卷質檢人員,盡量避免可能存在疑問的答卷圖片。
關鍵詞:自動閱卷;卷積網(wǎng)絡;深度學習;高考數(shù)學;填空題
中圖分類號:TP18? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2023)01-0024-04
中國作為全球教育考試體系較為完善的國家,每年都有大量的閱卷需求。高考、中考作為高利害性考試,從出題到閱卷的各個環(huán)節(jié)要求都十分嚴格。據(jù)統(tǒng)計,上海作為中國教育發(fā)達地區(qū)之一,參加中考的學生人數(shù)從2015年的7.9萬人,逐漸增長到2021年的近10萬人,到了2022年,總人數(shù)在11.4萬人。從人口統(tǒng)計數(shù)據(jù)可以預見,2023年參加中考的學生人數(shù)將會達到新的峰值在18萬人左右;同時,2022年參加上海高考的考生人數(shù)也在7萬左右,并逐年呈上升趨勢。
隨著考生規(guī)模的不斷擴大,人工評閱的工作量顯著增加,因此利用智能算法來自動化閱卷將是一種非常有潛力的解決方案。作為高考常規(guī)考試題型,填空題具有客觀性、多樣性等特點,相較于計算題、主觀題這樣靈活性較高的題型而言,填空題容易實現(xiàn)自動化閱卷,從而在一定程度上降低人工評閱的工作量;然而,相較于選擇題這樣答案固定的題型而言,填空題的多樣性增加了自動閱卷的難度。另外,填空題采用的是考生用筆書寫的作答方式,因此,答卷中不可避免地帶有考生各自獨特的書寫習慣,這將是智能自動閱卷需要重點解決的問題。本研究旨在探索卷積神經(jīng)網(wǎng)絡這一智能算法,在高考數(shù)學填空題評閱中的應用和該評分系統(tǒng)的效度,為其進一步的使用和推廣奠定基礎。
1 研究背景
1.1? 數(shù)學填空題的特點
數(shù)學填空題是一類常規(guī)的客觀題型,需要考生在規(guī)定的位置書寫答案,其形式簡單,答案較為固定,例如:
這類題型中每一空格的答案較為固定,但正確答案的形式可以有多種等價表述,即具有答案多樣性。以某次考試的填空題為例:
在第1題中,正確答案可以是[2-i]也可以是[-i+2];再例如第2題中,答案[(1,2)]也可以寫成集合的等價形式:{x|1 數(shù)學符號的書寫特點,填空題的答案不但可能包含多重元素,如數(shù)字、數(shù)學符號、漢字、標點符號等,還可以有左右,上下甚至嵌套等結構。例如:分數(shù)可以寫成[1/2]的左右結構,也可以寫成[12]這樣的上下結構;再例如:[5]是一種數(shù)學符號與數(shù)字的嵌套結構,因此數(shù)學填空題答案具有元素和結構復雜性。除此以外,部分數(shù)學符號的手寫近似程度很高,例如:中括號與小括號,逗號和點號,字母x及其大寫X等,即具有一定程度的混淆性。 總的來說,數(shù)學填空題答案的多樣性、元素和結構的復雜性以及易混淆性,成為了正確評閱填空題的難點,也正是本研究要解決的主要問題。 1.2 卷積神經(jīng)網(wǎng)絡算法對手寫數(shù)學符號的識別 當前人工智能(Artificial Intelligence, 簡稱AI) [1]在制造、交通、金融、教育和醫(yī)療等都有相當廣泛的應用。例如:自動駕駛系統(tǒng)、身份識別、大數(shù)據(jù)風控、智慧供應鏈等都是AI的技術的成功應用場景。人工智能賦能千行百業(yè),萬物智能化是技術發(fā)展的前沿的趨勢,在教育領域,智能化閱卷是智慧教育的一個非常有潛力的研究領域。 卷積循環(huán)神經(jīng)網(wǎng)絡(Convolutional Recurrent Neural Network,簡稱CRNN) [2]是一種用于解決序列圖像問題的端到端的識別方法,是人工智能領域的重要算法之一。CRNN集成了卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,簡稱CNN) [3]和循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,簡稱RNN) [4]兩種網(wǎng)絡的特點,可直接從圖片中預測序列。該模型在印刷體文字的識別上已經(jīng)達到了相當?shù)臏蚀_率,其優(yōu)點在于:1) 無須預先分割所要識別的文字,這將解決數(shù)學填空題中出現(xiàn)的結構復雜性問題。在以往的嘗試中,分割數(shù)學字符就已經(jīng)是非常困難的任務,由于考生書寫習慣的不同,其手寫數(shù)學符號往往帶有連筆,這樣的答案幾乎是無法分割的,但CRNN的端到端的特點十分有效地解決了這一問題[5]。2) 采用(Connectionist temporal classification,CTC) 結構作為網(wǎng)絡的訓練目標函數(shù)[6],將解決文字書寫的對齊問題,這樣一來,無論符號之間留有多少空白區(qū)域,都可以對應正確的識別輸出。3) 非常容易遷移學習,這將有助于提高神經(jīng)網(wǎng)絡的訓練速度,也有助于擴大訓練的樣本種類,繼而一定程度上克服數(shù)學符號的多樣性和易混淆性問題,并使得模型具有更好的泛化能力[7]。 2 評閱流程 2.1 神經(jīng)網(wǎng)絡構建與模型訓練 在神經(jīng)網(wǎng)絡搭建過程中,卷積循環(huán)網(wǎng)絡的結構采用了經(jīng)典的網(wǎng)絡參數(shù)配置[8-13],并使用成熟的Keras框架進行構建;在網(wǎng)絡的訓練過程中,輸入的訓練數(shù)據(jù)包含了國內外開源數(shù)據(jù)集合,例如:MNIST數(shù)據(jù)集,IAM數(shù)據(jù)集等,并從中學中現(xiàn)場采集了部分數(shù)據(jù)集,基本覆蓋了數(shù)學符號、集合、分數(shù)、根號、英文字符、標點符號等種類。整個訓練過程包含了預訓練,遷移學習,增加數(shù)據(jù)集,再訓練這樣若干次反復迭代過程,這也是本研究的創(chuàng)新點之一。通過這樣的迭代式訓練,整個網(wǎng)絡能力在不斷提升,有助于持續(xù)獲得最佳數(shù)學填空題的識別效果。 2.2 評閱實施技術細節(jié) 首先,需要對考生的答案圖片進行預處理,其中包括對各個試題的分割,例如圖3、圖4中,要對1~6和7~12題分別進行題目分割,即把每一題的區(qū)域提取出來。在圖片的掃描過程中,整體圖片位置與大小等特征方面基本沒有差異,由此筆者針對每一道題目只要按照少量圖片為基準進行選框,并對所有圖片以框為單位對框內的圖像進行提取即可得到該題所有考生的答案圖片。當然,這里可能需要注意的是,掃描機器的精度有限,每一張答題卡間的在橫坐標與縱坐標上都有著細微的差異,因此在選框的過程中要在接近題號的部分進行留白,在上下限的劃分則需要根據(jù)經(jīng)驗判斷選框區(qū)域。這里需要注意的是,畫框的合理性會決定最后的準確率,框的不合理可能會導致有一部分圖片中沒有把全部答案框選進來,從而導致預測的錯誤。 在完成選框后,下一步進行的是對所有考卷按照選定的圖像進行圖像切割。切割后的圖片無論是尺寸、顏色或是位置特征可能會有一些不符合模型要求,因此在切割的過程中需要對圖片進行處理,處理流程如下: 1) 根據(jù)選定的圖像框坐標進行圖片提??; 2) 對圖片進行0-1二值化處理,即將圖像中的值轉化為0或1; 3) 計算全為0的行與列,并將四周的無用部分去除,即找到最小矩形區(qū)域選出所有含有1的特征; 4) 計算長寬比例,將長或寬進行0填充至60:270的比例(訓練數(shù)據(jù)圖像比例); 5) 將圖像縮放至32:256的大小,將圖像反色后按題號導出至指定文件夾。 在完成預處理的所有流程后,將根據(jù)選框數(shù)量得到數(shù)個文件夾,每個文件夾中包含所有考生該題的答案圖片,以供后續(xù)預測使用。 然后,按照圖5的流程進行閱卷評分,其中主要包括:利用訓練好的神經(jīng)網(wǎng)絡模型識別考生答卷中的數(shù)學符號以及文字,比對評分標準進行評分,在評分結束后自動生成評分結果并提交給使用者。 2.3? 評價指標設計 在智能閱卷過程中,將同時對每一題的得分率進行預測,最終將與人工評閱結果進行對比。因此,智能評閱系統(tǒng)將有如下的幾個評分指標:1) 考生得分預測準確率;2) 預測每一題得分率的準確率;3) 差異化分析后的混淆矩陣和結果。 3 智能化閱卷實施效果 以某次考試的具體閱卷實施為例,智能化閱卷(下文中稱機器評閱)所預測的考生得分結果與人工評閱的比較如圖6所示。 可見,其準確率達到了90%以上,已經(jīng)非常接近人工評閱的結果。其次,對于考生作答正確的情況,其召回率也超出了預期,如圖7所示。 可見在大部分題目(題1、題4-10) 中,機器評閱能最大限度地把做對的考生尋找出來,其表現(xiàn)能力要優(yōu)于人工評閱的情況。 機器評閱所預測的得分率情況如表1所示??梢钥吹剑?jīng)過機器評閱全部試題后,可以預測每一題的得分率。另外,由誤差矩陣,還可以進一步對預測的得分率進行修正。得分率乘以每題總分,既可以獲得得分情況,結果表明,機器預測的得分結果更加接近真實成績。事實上,這一優(yōu)勢來自機器評閱是對全部試卷進行評分,而人工評閱只能通過采集部分少量樣本進行預測。 機器評閱后,將進行差異化分析之,獲得的混淆矩陣如圖8所示。 從圖8可以看出,各題在人工判對的情況下機器判對的概率都在98%以上,但在人工判對的情況下機器判錯的概率并不低,這是由于機器閱卷中設定的標準要嚴格一些,例如:出現(xiàn)涂改的地方往往判定為考生答錯。在具體的應用過程中,基本可以完全確定肯定對和肯定錯的部分,這對正確評閱試題非常有幫助,此外,對于誤差矩陣中判錯的部分,還將分析其差異性的來源,幫助質檢人員尋找可能有疑問的答卷。 基于差異化分析的結果,可以得出以下結論: 1) 盡管機器評閱已經(jīng)解決了一部分有涂改痕跡的圖片的問題,但還有很大的提升空間,機器評閱的錯誤大多來源于此,另外,涂改會造成學生答題位置的改變,例如,將第1題的答案寫在了第1、2題的中間位置,這為機器評閱增加了難度。 2) 機器評閱可以幫助質檢人員檢測出大部分可能有疑問的答卷,從而盡量減少了由于人工疲勞和慣性思維導致的問題。 通過評閱一致性對比,見圖9,其中“假陽性比例”是預測為真、真實為假的比例,“假陰性比例”是預測為假、真實為真的比例。可以看出,機器的批閱更加嚴格。 4 結論與討論 卷積循環(huán)神經(jīng)網(wǎng)絡模型對手寫識別的準確率在純數(shù)字,根式與分式都有較高的準確率,普遍達到80%,甚至90%以上,這可能是這些情況相對容易識別,但在區(qū)間與集合上的情況中,模型的表現(xiàn)能力弱一些,這可能與括號的準確識別有關,尤其是中括號和小括號的手寫體,即便是人工批閱都有一定程度的主觀性,而數(shù)學公式講究嚴格性,中括號與小括號的區(qū)間含義不同,這就為識別造成了較大的困難。對于端到端學習,筆者采用了組合多種多樣的手寫區(qū)間與集合的訓練集來增強其泛化能力。 因此,若將現(xiàn)階段模型用于考試填空題的預測,對于只包含純數(shù)字序列、根式與分式的題型可以直接進行預測識別。但對于區(qū)間和集合,筆者建議先使用少部分的數(shù)據(jù)用于遷移學習,再用于全部答卷的預測識別。 通過機器實際評閱下來,筆者發(fā)現(xiàn),如果要進一步提高準確率,可以采用以下幾個方面的策略:1) 答題紙最好能夠確定每一題的答題范圍,這樣就能保證圖片按題切割的成功率;2) 對于手寫涂改樣式進行明確要求,可以有效提升機器和人工的識別準確率和效率;3) 采用多個獨立的智能算法機器閱卷模型,可以盡可能減少人與機器在批閱時同時誤判的情況,從這方面講,機器閱卷如果要在未來完全脫離人工進行獨立閱卷還有很長的路要走。 基于本論文的研究結論,筆者將繼續(xù)完善和豐富手寫字符數(shù)據(jù)庫和訓練集,繼續(xù)針對數(shù)學填空題的評閱優(yōu)化提升預測精度,著重處理涂改等技術難題;并且嘗試擴展填空題的適應范圍,探索機器智能閱卷系統(tǒng)在英語、語文考試中的應用場景。筆者相信,機器閱卷通過努力最終會成為非常有潛力的“閱卷員”。 參考文獻: [1] 周飛燕,金林鵬,董軍.卷積神經(jīng)網(wǎng)絡研究綜述[J].計算機學報,2017,40(6):1229-1251. [2] 尹寶才,王文通,王立春.深度學習研究綜述[J].北京工業(yè)大學學報,2015,41(1):48-59. [3] 郭華.深度學習及其意義[J].課程 教材 教法,2016,36(11):25-32. [4] 郭麗麗,丁世飛.深度學習研究進展[J].計算機科學,2015,42(5):28-33. [5] 宋睿,陳鑫,洪宇,等.基于卷積循環(huán)神經(jīng)網(wǎng)絡的關系抽取[J].中文信息學報,2019,33(10):64-72. [6] 王鑫,吳際,劉超,等.基于LSTM循環(huán)神經(jīng)網(wǎng)絡的故障時間序列預測[J].北京航空航天大學學報,2018,44(4):772-784. [7] 李柯泉,陳燕,劉佳晨,等.基于深度學習的目標檢測算法綜述[J].計算機工程,2022,48(7):1-12. [8] 周凱龍.基于深度學習的圖像識別應用研究[D].北京:北京工業(yè)大學,2016. [9] 紀國強.基于機器學習的圖像識別研究[D].沈陽:沈陽理工大學,2018. [10] 張雁.基于機器學習的遙感圖像分類研究[D].北京:北京林業(yè)大學,2014. [11] 張慧,王坤峰,王飛躍.深度學習在目標視覺檢測中的應用進展與展望[J].自動化學報,2017,43(8):1289-1305. [12] Shi B G,Bai X,Yao C.An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(11):2298-2304. [13] Choudhury A,Sarma K K.A CNN-LSTM based ensemble framework for in-air handwritten Assamese character recognition[J].Multimedia Tools and Applications,2021,80(28/29):35649-35684. 【通聯(lián)編輯:唐一東】