亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        人工智能網(wǎng)上評卷技術(shù)的應用探索

        2021-01-13 07:28:30符耀章劉明巖江光賢
        考試研究 2021年1期
        關(guān)鍵詞:文本智能作文

        符耀章 劉明巖 馬 彪 江光賢

        考試是一定組織中的主體根據(jù)目的的需要,選擇運用有關(guān)資源, 對客體某方面或諸方面的素質(zhì)水平進行測試、 甄別或評價的一種社會活動[1]。評分是考試的基本功能。 長期以來,人工批閱是紙筆考試的主要評分方式,隨著科技發(fā)展,評分方式也在變化。

        1981 年,中國內(nèi)地第一次組織托??荚?,第一次使用機讀答題卡答題;1985 年,首臺光標閱讀器(OMR)使用,實現(xiàn)了客觀題自動化評卷,也標志著中國正式走進評卷技術(shù)1.0 時代。 客觀題自動化評卷大大減少了人工工作量,但主觀題評卷依然依賴人工批閱,評卷效率低、勞動強度大、工作周期長,需要人工進行試卷分發(fā)搬運、翻閱、登分、核分、合分等諸多工作, 極易發(fā)生差錯, 影響評卷的準確和公正。 1999年,廣西高考作為試驗點,利用專用掃描設備和評卷軟件,實現(xiàn)了非客觀題的計算機輔助評卷。 至此,中國考試評卷技術(shù)進入2.0 時代,即網(wǎng)上評卷。

        網(wǎng)上評卷技術(shù)經(jīng)過十幾年的發(fā)展, 在各類大規(guī)??荚囍械玫狡占埃e累了豐富的電子化評卷經(jīng)驗,但同時也帶來了新的問題, 如教師高強度長時間面對電腦評卷,易產(chǎn)生視覺、精神疲勞;雖然有完整的評卷過程監(jiān)督和結(jié)果監(jiān)控, 但仍有個別評卷教師因個體背景、 學識水平等因素與評分標準產(chǎn)生較大差異,影響評分結(jié)果。 隨著現(xiàn)代信息技術(shù)的發(fā)展應用,通過引入人工智能技術(shù)來解決現(xiàn)有評卷難點已成為研究的熱點。

        2016 年《國務院關(guān)于深化考試招生制度改革的實施意見》中,針對考試招生工作,明確指出“改進評分方式,加強評卷管理,完善成績報告”[2]。同年8 月,江蘇省教育考試院與科大訊飛達成合作, 在歷史考試數(shù)據(jù)中進行智能評卷效果驗證實驗, 正式開啟江蘇省人工智能評卷技術(shù)應用于考試的探索之路。

        一、智能評卷技術(shù)結(jié)合傳統(tǒng)網(wǎng)上評卷模式設計

        人工智能概念誕生于1956 年,在半個多世紀的發(fā)展歷程中,受到智能算法、計算速度、存儲水平等多方面因素的影響,該技術(shù)的應用發(fā)展經(jīng)歷了多次高潮和低谷。 2006 年以來,以深度學習為代表的機器學習算法在機器視覺和語音識別等領(lǐng)域取得了極大的成功,識別準確性大幅提升,人工智能再次受到學術(shù)界和產(chǎn)業(yè)界的廣泛關(guān)注。 云計算、大數(shù)據(jù)等技術(shù)在提升運算速度、降低計算成本的同時,也為人工智能發(fā)展提供了豐富的數(shù)據(jù)資源,協(xié)助訓練出更加智能化的算法模型。 人工智能的發(fā)展模式也從過去追求“用計算機模擬人工智能”, 逐步轉(zhuǎn)向機器與人結(jié)合而成的增強型混合智能系統(tǒng),用機器、人、網(wǎng)絡結(jié)合成新的群智系統(tǒng),以及用機器、人、網(wǎng)絡和物結(jié)合成的更加復雜的智能系統(tǒng)[3]。基于此背景,本研究重點探索在考試評卷業(yè)務場景下人機結(jié)合的應用模式和效果。

        圖1 考試評卷技術(shù)發(fā)展趨勢

        研究覆蓋多考試類型、多科目題型、不同數(shù)據(jù)量級, 也設計了一些計算機智能評卷技術(shù)在填空、作文、簡答等題型上的人機結(jié)合應用模式,在實驗中進行驗證。

        1. 英語、 數(shù)學填空題型應用智能評卷進行評分一致性質(zhì)檢

        技術(shù)原理: 基于卷積神經(jīng)網(wǎng)絡模型的填空題識別和批改方法,主要分為圖片預處理、圖片特征提取、文本編碼、注意力模型處理等步驟,如圖2所示。

        圖2 基于卷積神經(jīng)網(wǎng)絡模型的填空題識別批改方法

        (1)圖片預處理:考慮到每一小空的填寫內(nèi)容比較簡單,又由于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)[4]的輸入必須是大小統(tǒng)一的圖片,所以原圖輸入到模型之前需要將圖片進行規(guī)整。

        (2)圖片提取特征:使用VGG16 對每一個小填空區(qū)域進行特征提取。 為了和后續(xù)文本編碼結(jié)合使用,在CNN 編碼之后又設計經(jīng)過單層感知機將特征向量轉(zhuǎn)換成和文本編碼相同維數(shù)的特征W。

        (3) 文本編碼: 在文本編碼階段, 使用VGG+BiLSTM 對文本內(nèi)容進行編碼。 首先,在編碼之前需要將答案文本壓縮成ONE-HOT 向量 (獨熱向量),然后經(jīng)過MAXPOOLING 得到特征向量, 最終通過雙向LSTM 得到1024 維特征向量,這即為上階段所述文本編碼維數(shù)。

        (4)注意力模型處理:考慮到一張?zhí)羁諈^(qū)域只有一部分內(nèi)容是需要注意的, 全幅圖的ATTENTION 位置信息可能會給預測帶來負面影響, 為了更準確地匹配圖片中文本和答案中的文本信息,使用兩次ATTENTION 疊加的效果,最終將兩個特征結(jié)合的新特征作為后續(xù)的輸入,并經(jīng)過SOFTMAX 進行分類。

        應用流程:當前在各類考試評卷中,填空題型人工評卷主要采用人工雙評模式, 雙評評分不一致的數(shù)據(jù)再交由第三位專家進行判定, 由于客觀題答案明確、內(nèi)容較短,此種方式已能夠達到很高的準確率。 但實驗結(jié)果表明,由于存在考生書寫不規(guī)范、落筆較輕導致掃描圖像字跡顏色淺等問題,仍會造成評卷員無法判斷的個別案例, 而在計算機智能識別中可以很準確地識別出此類問題。 因此在填空題型的原有流程上增加智能評卷結(jié)果的一致性對比,不一致數(shù)據(jù)提交人工再確認,將進一步保證評卷準確性。

        圖3 增加填空題型智能質(zhì)檢的應用流程

        2. 語文、 英語作文題型應用相似卷檢測輔助評分合適性質(zhì)檢

        技術(shù)原理:相似卷檢測主要依賴兩項關(guān)鍵技術(shù),即圖文轉(zhuǎn)寫和相似文本檢測。在紙筆考試中,使用電子設備將考生紙質(zhì)答卷掃描為圖像后, 通過圖像版面分析和識別算法,對試卷圖像上的字符進行提取,并識別成電子文本是整個智能評卷技術(shù)關(guān)鍵之一。圖像版本分析理解主要是進行圖像文檔的文字區(qū)域定位,包含對手寫體文字字符的定位、手寫體文字與印刷體文字的區(qū)分、手寫體文字區(qū)域的行切分、檢測涂抹塊、檢測插入等情況分析處理。隨著深度學習的不斷發(fā)展, 以端到端的方式處理并準確理解文檔版面分析的方案也逐步成熟, 本文涉及的圖文轉(zhuǎn)寫技術(shù)處理流程如圖4 所示。

        圖4 文檔圖像版面理解分析的處理流程方法

        在版本理解分析基礎(chǔ)上使用目前業(yè)內(nèi)最先進的深度學習網(wǎng)絡, 包括卷積神經(jīng)網(wǎng)絡和循環(huán)迭代神經(jīng)網(wǎng)絡 (Recurrent Neural Networks,RNN)[5]等多個模型,實現(xiàn)了智能化的自動圖文轉(zhuǎn)寫。

        相似文本檢測主要依賴于文本相似算法, 答題圖像經(jīng)過識別轉(zhuǎn)寫技術(shù)處理成標準文本, 通過分詞技術(shù)進行分詞,再使用N-GRAM[6]詞袋模型并建立正反向倒排表, 采用余弦相似度、SIMHASH 等多種方式進行相似度計算, 最終通過綜合指標確定相似資源。 在應用方面,通過提取當次所有樣本數(shù)據(jù)、試題和已有的海量資源庫,建立模型,通過文本相似算法進行匹配計算, 最終輸出與目標文本高相似的篇章結(jié)果,并可同時輸出相似的文本標記。

        應用流程:相似檢測技術(shù)在文科類的大篇章文本答題場景下, 人工難以在海量數(shù)據(jù)中準確了解每一份作答是否有抄襲、宿構(gòu)等行為,利用計算機快速運算的特性,將疑似數(shù)據(jù)篩選出來,再提交給人工確認,是一種非常有效的輔助人工評卷的手段,主要流程如圖5 所示。

        圖5 相似卷檢測輔助評分合適性質(zhì)檢應用流程

        3. 語文、英語作文題型進行大分差評分質(zhì)檢

        技術(shù)原理: 智能評測技術(shù)主要依賴圖文轉(zhuǎn)寫結(jié)果,再通過專家定標評分、模型訓練和多維度計算機智能評分等環(huán)節(jié),最終輸出機評結(jié)果。

        專家定標評分: 在完成所有機器轉(zhuǎn)寫后的試卷樣本上進行文本聚類分析,從所有待評數(shù)據(jù)樣本中,考慮考生地域覆蓋、能力水平覆蓋等情況,選出最具有代表性的樣本組成定標數(shù)據(jù)集合, 提供給專家評卷教師進行定標評分, 通過學習專家教師在這些定標試卷上的評分結(jié)果, 機器逐步形成與專家教師定標標準相一致的評分標準, 也就是通過專家教師的定標結(jié)果來充分理解和掌握評分標準。

        圖6 文本聚類篩選進行人工專家定標打分的示意圖

        模型訓練: 在此基礎(chǔ)上生成此次考試試題的機器評分模型, 便可以使用該評分模型進行所有試卷的機器智能評分。 在沒有額外組織專家教師定標評分的基礎(chǔ)上, 也可以使用現(xiàn)場評分作為標準參考分進行定標來指導機器轉(zhuǎn)化學習評分標準, 但其準確度會與專家定標存在一些差距, 可能會帶來后續(xù)機器評分效果的波動。

        多維度計算機智能評分: 計算機在多個維度上建立起對待評分數(shù)據(jù)樣本的完整數(shù)據(jù)模型, 每一個維度上都有相應的評分,以數(shù)值表示,每一個維度上都對應相應的權(quán)重, 以體現(xiàn)這些維度對于評分的有用程度(作用越大權(quán)重越大,反之亦然),從而建立起科學的回歸模型,通過機器學習算法進行智能評分。以作文評分為例, 多維度計算機智能評分是將每篇文本使用WORD2VEC[7]的方法序列化處理后,提取字跡工整程度、 詞匯豐富度、 句子通順性等文本特征, 與詞向量矩陣組成表征作文客觀情況的特征矩陣。具體來說,將這個數(shù)學表示矩陣通過多層的深度循環(huán)神經(jīng)網(wǎng)絡RNN 的迭代后,將LSTM[8]單元層的輸出拼接為當前文章的特征向量作為回歸特征, 即完成了文章的深度網(wǎng)絡內(nèi)容特征提取, 并以專家評分作為目標即可進行嶺回歸(ridge regression)[9]等統(tǒng)計分析,以獲得每一維度特征對應的權(quán)重,即考試的回歸評分模型[10]。

        應用流程如圖7 所示。在高利害性考試中,可將智能評分結(jié)果作為一評參考分, 與人工評卷最終結(jié)果進行分差計算, 并通過與人工多評匹配的差值控制方法,篩選出一批人機評分結(jié)果差異較大的作答,組織專家組再次復核。經(jīng)過實驗,在復核后的有效數(shù)據(jù)中, 發(fā)現(xiàn)了因人工兩評同時評分不合理或仲裁時取用了不合理一方的結(jié)果的情況, 及時更正了人工閱卷缺失,提升了評卷質(zhì)量。

        圖7 智能評分輔助人工評卷大分差質(zhì)檢應用流程

        二、智能評卷技術(shù)結(jié)合傳統(tǒng)網(wǎng)評實驗驗證

        本研究實驗評價指標主要包含:

        ①相關(guān)度。相關(guān)度是評分是否可信的重要指標,又叫相關(guān)系數(shù),可以反映兩種數(shù)據(jù)質(zhì)檢的一致程度,取值范圍是-1~1, 分值越高表明兩組評分一致性越高,1 表示兩個評分完全一致。

        ②一致率。 計算機評分和人工評分質(zhì)檢分差在一定范圍內(nèi)視為評分一致(按照作文評卷的慣例,取滿分的20%作為分差的閾值, 如英語作文滿分25分,因此分差<5 分時視為評分一致),在雙評評卷中不一致的作文須第三人復評,以保證評分的準確性。一致率的比例也可以反映出將來實施人機雙評后的復評率的高低。 實驗分別如下:

        1. 2016 年6 月第一次實驗:離線驗證,初探機評效果

        基于歷史考試評卷數(shù)據(jù)進行離線方式驗證,從全集數(shù)據(jù)樣本中隨機定量語文及英語學科作文題型樣本數(shù)據(jù),進行手寫識別、機器學習和智能評測等步驟完成智能評分, 并將評分結(jié)果與人工評分結(jié)果進行效果比對。 通過本次實驗首次驗證了手寫識別正確率、智能評分效果達到可用水平,以及可通過計算機進行相似卷檢測。

        2. 2016 年11 月第二次實驗:人機同步,驗證實戰(zhàn)效果

        選擇一次正式考試評卷,過程中同步進行人機同時評分,且機器學習樣本來自于現(xiàn)場人評結(jié)果,計算機快速完成評卷,計算機智能評卷在此類考試語文作文題型中的相關(guān)度為0.93,一致率達到92.82%,體現(xiàn)了很好的評分效果,與人工評卷保持較高的一致性。

        3. 2017 年7 月第三次實驗:同步應用,探索應用模式

        第三次實驗的主要目標是探索計算機智能評卷與人工評卷的業(yè)務流程融合, 以達成有效的工作模式, 并在考試評卷中發(fā)揮實際的效用。 選取語文作文、英語作文全量樣本進行計算機智能評卷,機器學習樣本采用人工評卷現(xiàn)場結(jié)果。該實驗結(jié)果表明,人工評卷和智能評卷可以并行, 再通過有機結(jié)合實現(xiàn)輔助評卷質(zhì)檢。

        4. 2017 年11 月第四次實驗:拓展題型,驗證填空題效果

        在英語填空題型上也做了測試驗證, 最終結(jié)果表明: ①人工雙評之間會因為各類因素產(chǎn)生一定程度的差異; ②人機評分之間的一致性達到人工雙評間的水平。 英語填空題型答案相對固定、可枚舉,對于該類題型可以嘗試用智能評分作為一評輔助人工評卷或作為一評分進行人工評分檢查。

        5. 2017 年11 月第五次實驗:豐富考試類型,驗證不同考試下的效果

        第五次實驗選擇另外一種考試, 分別完成了語文作文、英語作文和政治簡答題型的智能評卷。實驗證明,在語文作文、英語作文實驗效果上,與具體考試類型無關(guān),不同考試的機評效果穩(wěn)定,同時驗證了在政治簡答題型上也可以進行智能評卷, 且效果水平與人工評卷相當。

        通過這五次實驗驗證, 計算機智能評分效果在語文作文(相關(guān)度0.92、一致率90.7%)、英語作文(相關(guān)度0.85、 一致率97.5%)、 英語填空 (相關(guān)度0.99、一致率99.8%)等題型中,均表現(xiàn)良好,與現(xiàn)場人工評分保持較高的一致性。 計算機智能檢測方法能夠在大量的答卷數(shù)據(jù)中辨別考生答題與題面、與其他考生的高相似內(nèi)容, 從而助力人工評卷時的準確判定。此外,通過這五次實驗,還對人機同步、離線的配合模式,定標樣本的現(xiàn)場人評、從人評結(jié)果中抽取等方式做了驗證,均達到較好的效果。

        三、在大規(guī)??荚囋u卷中應用實踐

        通過設計多次實驗,已在不同考試類型、不同科目題型、 不同的應用模式上進行了充分的驗證和應用模式的探索, 在實驗效果和工作方式都已完成較多積累的情況下, 決定在一次大規(guī)??荚囋u卷中正式進行應用的實踐。

        1. 應用模式

        本次智能評分質(zhì)檢應用工作與網(wǎng)評同步實施,高效完成了考生答案的圖像轉(zhuǎn)寫和智能評分, 主要的應用模式如下:

        (1)在語文作文、英語作文題型中計算機對考生答案進行手寫識別并進行目標文本精準相似檢測,應用相似結(jié)果輔助人工評分質(zhì)檢;

        (2)在語文作文、英語作文題型中計算機對考生答案進行手寫識別和智能評分, 結(jié)果作為對比參考分輔助人工評分質(zhì)檢;

        (3)在英語填空、數(shù)學填空題型中通過計算機對考生答案進行手寫識別、統(tǒng)計和判分,結(jié)果作為對比參考分輔助人工評分質(zhì)檢。

        2. 系統(tǒng)架構(gòu)

        本次應用實踐基于智能評卷質(zhì)檢系統(tǒng), 其架構(gòu)基于局域網(wǎng)環(huán)境應用設計,采用B/S 結(jié)構(gòu),通過瀏覽器可直接操作, 后端機器運算采用分布式的運算框架,支持通過擴充服務器來提升運算能力。主要設計原則包括:

        (1)安全,基于封閉式環(huán)境獨立運行的設計,可獨立部署于物理隔離的局域網(wǎng)環(huán)境中, 通過中間介質(zhì)進行數(shù)據(jù)交換,確保數(shù)據(jù)和信息的安全。

        (2)穩(wěn)定,應用與運算分離,即使應用服務宕機也不會影響運算;分布式運算使各運算節(jié)點獨立,可單節(jié)點降級;MYSQL、MONOGODB、REDIS 多類型數(shù)據(jù)庫使數(shù)據(jù)分而治之,互不影響。

        (3)可擴展,智能評卷主要依賴于機器運算,分布式運算框架支持增加/減少運算節(jié)點。

        (4)易使用,系統(tǒng)功能采用WEB 技術(shù)開發(fā),通過瀏覽器便可操作所有功能。

        圖8 智能評卷系統(tǒng)的網(wǎng)絡架構(gòu)

        本次實施除了應用系統(tǒng)架構(gòu)保障一定的安全隔離以外,主要采取的安全措施還包括:

        (1)簽訂保密協(xié)議,正式實施前參加工作的人員均簽訂《保密協(xié)議》;

        (2)數(shù)據(jù)加密控制,采取數(shù)據(jù)權(quán)限最小化原則,過程數(shù)據(jù)均采用保密號,確??忌P(guān)鍵信息安全;

        (3)系統(tǒng)環(huán)境隔離,智能評卷系統(tǒng)獨立部署,網(wǎng)評數(shù)據(jù)通過中介存儲受控交換,確保訪問安全。

        3. 實施流程

        應用實施流程主要分為預處理、定標訓練、智能評分等階段。預處理階段主要完成數(shù)據(jù)的對接,以及圖文轉(zhuǎn)寫和異常作答標識等內(nèi)容; 定標訓練階段是基于列表通過機器自動篩選代表性樣本, 將這些樣本作為機器學習對象進行模型訓練; 智能評分階段是計算機對全集數(shù)據(jù)進行特征提取和基于訓練模型的回歸評分。

        表1 大規(guī)??荚囍悄茉u卷應用實施流程

        4. 數(shù)據(jù)結(jié)論

        (1)語文作文、英語作文的相似卷質(zhì)檢

        表2 為2018 年相似卷質(zhì)檢結(jié)果。對待測文章與題干、 范文庫進行對比, 語文作文共發(fā)現(xiàn)相似數(shù)據(jù)255 份,其中與題干高相似149 份,與范文庫高相似106 份;英語作文共發(fā)現(xiàn)相似數(shù)據(jù)438 份,其中與題干高相似438 份,與范文庫高相似0 份。

        表2 2018 年語文、英語作文題相似質(zhì)檢情況統(tǒng)計

        表3 為2019 年相似卷質(zhì)檢結(jié)果。 對待測文章與題干、 范文庫進行對比, 語文作文共發(fā)現(xiàn)相似數(shù)據(jù)391 份,其中與題干高相似140 份,與范文庫高相似251 份;英語作文共發(fā)現(xiàn)相似數(shù)據(jù)1357 份,其中與題干高相似1354 份,與范文庫高相似3 份。

        表3 2019 年語文、英語作文題相似質(zhì)檢情況統(tǒng)計

        表4 為2020 年相似卷質(zhì)檢結(jié)果。 對待測文章與題干、范文庫進行對比,語文作文共發(fā)現(xiàn)相似數(shù)據(jù)160 份,其中與題干高相似100 份,與范文庫高相似60 份;英語作文共發(fā)現(xiàn)相似數(shù)據(jù)416 份,其中與題干高相似416 份,與范文庫高相似0 份。

        表4 2020 年語文、英語作文題相似質(zhì)檢情況統(tǒng)計

        (2)英語填空、數(shù)學填空的一致性質(zhì)檢

        如表5,2018 年填空題質(zhì)檢方面,共計完成英語填空2866910 份、 數(shù)學填空4005694 份樣本數(shù)據(jù)的人機對比質(zhì)檢, 經(jīng)人工篩選后提交英語填空3194份、數(shù)學填空104 份樣本由專家組復核,其中,英語填空重評了2594 份,數(shù)學填空重評了83 份。

        表5 2018 年英語、數(shù)學填空的人機對比輔助質(zhì)檢效果

        英語填空題型通過計算機智能評分后,以人工評分為參考,在全量數(shù)據(jù)集上去除機器拒識部分,僅對比機器有效評分部分,機評準確率達到了98.43%;數(shù)學填空題型在全量數(shù)據(jù)集上去除機器拒識部分,僅對比機器有效評分部分,機評準確率達到了99.52%。

        如表6,2019 年填空題質(zhì)檢方面,共計完成英語填空2723829 份、 數(shù)學填空3834910 份樣本數(shù)據(jù)的人機對比質(zhì)檢。 經(jīng)人工篩選后提交英語填空5898份、數(shù)學填空585 份樣本由專家組復核;其中,英語填空重評了3311 份,數(shù)學填空重評了445 份。

        圖9 2018 年英語填空題按小題人機一致率

        圖10 2018 年數(shù)學填空題按小題人機一致率

        表6 2019 年英語、數(shù)學填空的人機對比輔助質(zhì)檢效果

        英語填空題型通過計算機智能評分后, 以人工評分為參考,在全量數(shù)據(jù)集上去除機器拒識部分,僅對比機器有效評分部分, 機評準確率達到了99.71%;數(shù)學填空題型在全量數(shù)據(jù)集上去除機器拒識部分,僅對比機器有效評分部分,機評準確率達到了99.78%。

        如表7,2020 年填空題質(zhì)檢方面,共計完成英語填空2895210 份、 數(shù)學填空4182752 份樣本數(shù)據(jù)的人機對比質(zhì)檢。 經(jīng)人工篩選后提交英語填空3194份、數(shù)學填空2065 份樣本由專家組復核;其中,英語填空重評了2693 份,數(shù)學填空重評了1570 份。

        表7 2020 年英語、數(shù)學填空的人機對比輔助質(zhì)檢效果

        英語填空題型通過計算機智能評分后, 以人工評分為參考,在全量數(shù)據(jù)集上去除機器拒識部分,僅對比機器有效評分部分, 機評準確率達到了99.82%;數(shù)學填空題型在全量數(shù)據(jù)集上去除機器拒識部分,僅對比機器有效評分部分, 機評準確率達到了99.75%。

        圖11 2019 年英語填空題按小題人機一致率[12]

        圖12 2019 年數(shù)學填空題按小題人機一致率[13]

        圖13 2020 年英語填空題按小題人機一致率

        (3)語文作文、英語作文的大分差質(zhì)檢

        如表8,從相關(guān)度和一致率指標上看2018 年大分差質(zhì)檢結(jié)果,智能評分總體水平達到人工水平,在人機不一致部分有一定的質(zhì)檢效果, 但還需要持續(xù)改進研究以獲得更好效果。

        如表9,2019 年進行了英語作文的人機對比大分差仲裁,按照超過兩倍閾值(>8 分,總分25 分)共計發(fā)出221 人份數(shù)據(jù),有46 份樣本重新給分,可見,引入機評起到了較好的質(zhì)檢作用, 智能評分效果也較好。本次語文作文根據(jù)人機評分分差超過17 分的交由專家復核,共下發(fā)65 份復核,重新給分2 份。從相關(guān)度和一致率指標上看, 智能評分總體水平達到人工水平,在人機不一致部分有一定的質(zhì)檢效果,但還需要持續(xù)改進研究以獲得更好效果。

        表9 2019 年語文、英語作文題智能評分質(zhì)檢情況統(tǒng)計

        表10 2019 年語文、英語作文題智能評分效果分析

        如表11,2020 年進行了英語作文的人機對比大分差仲裁,按照超過兩倍閾值(>8 分,總分25分) 共計發(fā)出96 人份數(shù)據(jù), 有31 份樣本重新給分,可見,引入機評起到了較好的質(zhì)檢作用,智能評分效果也較好。 本次語文作文根據(jù)人機評分分差超過17 分的交由專家復核, 共下發(fā)306 份復核,重新給分1 份。 從相關(guān)度和一致率指標上看,智能評分總體水平達到人工水平, 在人機不一致部分有一定的質(zhì)檢效果, 但還需要持續(xù)改進研究以獲得更好效果。

        通過對比2018、2019、 2020 三年相關(guān)度和一致率數(shù)據(jù)發(fā)現(xiàn),2019 年在數(shù)據(jù)指標上略低于2018 年和2020 年,進一步分析發(fā)現(xiàn)與題目的開放程度和難易程度相關(guān)。

        表9 2020 年語文、英語作文題智能評分質(zhì)檢情況統(tǒng)計

        表10 2020 年語文、英語作文題智能評分效果分析

        (4)總結(jié)

        本次應用共涉及語文作文、 英語作文、 英語填空、數(shù)學填空等眾多題型;應用方式是人機數(shù)據(jù)規(guī)范對接、同步并行實施。 通過表中數(shù)據(jù)可以看出,各題型的人機評分相關(guān)度均達到0.8 以上, 且大多比人工雙評相關(guān)度略高;一致率方面,英語填空、數(shù)學填空題型上的人機一致率達到98%以上, 英語作文題型上的人機評分一致率略高于人工雙評一致率;在語文作文、英語作文題型上,還可以通過計算機智能文本檢測進行相似作答檢測。 以上這些評分及質(zhì)檢數(shù)據(jù)應用于評卷過程的質(zhì)檢,均達到了較好效果。

        四、智能評卷技術(shù)在網(wǎng)評中應用展望

        1. 研究總結(jié)

        歷時五年的實驗驗證及應用實踐表明, 應用智能評卷技術(shù)輔助人工評卷及質(zhì)檢是非常有效的,主要體現(xiàn)在以下幾個方面:

        (1)針對英語填空題、數(shù)學填空題等答案可窮舉的題型,一般人工專家評分是進行答案核對給分,即使人工多評情況下, 也客觀存在一些由于書寫不規(guī)范、文字顏色太淡等造成評卷教師無法判斷的情況。通過填空題的智能識別、匹配等算法技術(shù),可以利用計算機的快速運算能力輸出評判結(jié)果, 該結(jié)果可作為一評去配合人評, 提高效率的同時進一步提高了評卷質(zhì)量。

        (2)針對英語作文題、語文作文題等答題內(nèi)容篇幅較長的文科類題型,可以通過智能識別轉(zhuǎn)寫技術(shù),將考生答題圖像轉(zhuǎn)寫成文本, 文本識別率達95%以上,再通過分詞、建模,利用相似算法進行文本匹配,最終輸出與試卷試題內(nèi)容、與范文庫、考生間高相似的答題結(jié)果。通過該結(jié)果輔助人工專家評卷參考,可以提升評判準確度。

        (3)針對英語作文題、語文作文題、歷史簡答題等文科類主觀題型, 可以通過智能評測技術(shù)對全量數(shù)據(jù)樣本進行數(shù)學建模,對專家評分進行深度學習,并基于多維度智能評分手段進行全量樣本的評分。該計算機評分與專家評分在相關(guān)度、 一致率等指標上與人工雙評相當, 可以增加一評做質(zhì)檢校驗或進行一評的替代以提升效率。

        圖13 計算機智能評卷輔助平臺結(jié)構(gòu)

        2. 應用展望

        智能評卷技術(shù)應用于考試網(wǎng)評中需要持續(xù)的研究,需要在不同的考試中繼續(xù)探索,需要不斷擴展到新的題型,需要不斷發(fā)現(xiàn)和驗證新的應用結(jié)合方式,針對下一步研究探索提議和展望如下:

        (1)深入研究疑似抄襲卷質(zhì)檢和填空題尤其是補充答案的質(zhì)檢,提前與學科組充分溝通,拓展智能評分輔助質(zhì)檢功能和模式。 評卷前需要根據(jù)試題實際情況補充修訂標準答案, 若在評卷前借助計算機快速運算能力, 通過智能識別技術(shù)將全集樣本進行識別轉(zhuǎn)寫,并且通過文本聚類方法進行答案歸類排名,然后通過專家篩選的方案進行過濾, 可以大大提升增補參考答案的效率, 避免在評卷過程中發(fā)現(xiàn)新的解法再修訂標準答案。

        (2)研發(fā)“智能評卷輔助質(zhì)檢平臺”,打通掃描網(wǎng)評和智能評卷系統(tǒng)業(yè)務流, 評卷過程中直接使用“質(zhì)檢功能”。 將智能評卷系統(tǒng)和掃描評卷系統(tǒng)的業(yè)務流程貫通,通過增加統(tǒng)一的數(shù)據(jù)管理中心來匯總管理所有系統(tǒng)的數(shù)據(jù), 做到各系統(tǒng)間數(shù)據(jù)的實時交互。增加輔助質(zhì)檢平臺,將人機對比、質(zhì)檢復核等操作在質(zhì)檢平臺中完成, 通過操作質(zhì)檢平臺下發(fā)質(zhì)檢復核,并在人工評卷系統(tǒng)中實時獲取,提升評卷效率。

        圖14 計算機智能評卷在考試評卷中應用流程

        (3)逐步實現(xiàn)英語填空、數(shù)學填空、語文作文、英語作文、政治簡答、歷史簡答等題型中應用智能評分作為一評,相似卷檢測輔助人工評卷質(zhì)檢,通過應用實踐不斷提升智能評卷水平, 同時也促進人機結(jié)合應用模式的研究和拓展。

        猜你喜歡
        文本智能作文
        在808DA上文本顯示的改善
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        紅批有聲作文
        紅批有聲作文
        紅批作文
        紅批作文
        中国亚洲女人69内射少妇| 亚洲色图视频在线免费看| 午夜亚洲av日韩av无码大全| 亚洲永久无码7777kkk| 91爱爱视频| 日韩日本国产一区二区| 大尺度免费观看av网站| a级毛片免费观看在线| 国产午夜久久久婷婷| 亚洲精品一区二区三区蜜臀| 色婷婷色丁香久久婷婷| 水蜜桃精品一二三| 欧美视频九九一区二区| 国产午夜精品综合久久久| 国产成人精品无码片区在线观看| 久久人人爽人人爽人人av| 国产午夜无码精品免费看动漫| 麻豆成年人视频在线观看| 一边做一边说国语对白| 日本不卡在线视频二区三区| 亚洲天天综合色制服丝袜在线| 亚洲综合中文日韩字幕| 免费人成在线观看网站| 国产亚洲婷婷香蕉久久精品| 五月激情狠狠开心五月| 国产日产久久高清ww| 国产无遮挡又黄又爽在线观看| 人妻丰满熟妇AV无码片| 美女性色av一区二区三区| 中文字幕精品一区二区精品| 久久久久久av无码免费看大片| 国产精品一区二区三区不卡| 亚洲视频在线免费不卡| 久久精品国产网红主播| 人妻丰满熟妇AV无码片| 国产黄色一级大片一区二区| 97色偷偷色噜噜狠狠爱网站| 少妇三级欧美久久| 白丝美女扒开内露出内裤视频| 又黄又爽又色视频| 国产a v无码专区亚洲av|