亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于GloVe-CNN算法的英語在線考試主觀題自動(dòng)評(píng)分模型

        2023-07-08 07:26:10黎秋艷劉佳祎
        關(guān)鍵詞:語義單詞文本

        黎秋艷,劉佳祎,王 鵬,王 杰

        (1.桂林電子科技大學(xué) 信息科技學(xué)院,廣西 桂林 541004;2.桂林理工大學(xué) 網(wǎng)絡(luò)與信息中心,廣西 桂林 541006;3.廣西師范大學(xué) 網(wǎng)絡(luò)信息中心,廣西 桂林 541006)

        0 引 言

        隨著高校外語教育信息化的不斷普及, 智能化在線考試正逐漸成為高校教學(xué)、 管理過程中的不可或缺的重要組成部分, 考試方式的改革也伴隨著出現(xiàn)新的問題需要解決, 特別是英語在線考試主觀題自動(dòng)評(píng)分已經(jīng)成為當(dāng)前外語教育信息化比較關(guān)注的主題。相比選擇題而言, 主觀題或開放式考題答案相對(duì)復(fù)雜, 其具有形式多樣性和靈活多變性, 如翻譯和寫作等主觀題大多采用人工批改的方式, 由于多種因素的干擾, 使得評(píng)分不夠公正、 準(zhǔn)確[1]。

        國外較為經(jīng)典的自動(dòng)評(píng)分系統(tǒng)有1966 年美國Ellis Page 等開發(fā)的Project Essay Grader(PEG)[2]、 皮爾遜公司1989 年開發(fā)的Intelligent Essay Assessor(IEA)[3]和Jill Burstein團(tuán)隊(duì)研究開發(fā)的Electronic Essay Rater(E-Rater)系統(tǒng)[4]等。國內(nèi)梁茂成教授是最早涉足英文作文自動(dòng)評(píng)分領(lǐng)域的, 他將PEG和 IEA 兩個(gè)系統(tǒng)的優(yōu)點(diǎn)相結(jié)合, 主持并開發(fā)“大規(guī)??荚囉⒄Z作文自動(dòng)評(píng)分系統(tǒng)”[5]。主觀題的自動(dòng)評(píng)分方法主要可以分為以下幾類[6]: 一是參照標(biāo)準(zhǔn)答案利用規(guī)則匹配的方式建立評(píng)分規(guī)則[7], 通過詞規(guī)則進(jìn)行自動(dòng)評(píng)分。二是將人工構(gòu)建的特征和監(jiān)督機(jī)器學(xué)習(xí)算法相結(jié)合, 這種方法稱為傳統(tǒng)機(jī)器學(xué)習(xí)的方法, 其優(yōu)點(diǎn)是模型簡單易懂, 但是需要手動(dòng)構(gòu)建特征向量, 且評(píng)分效果受特征選擇的影響較大。2006 年, Hinton提出了深度學(xué)習(xí)的概念[8], 通過模擬人類大腦的神經(jīng)連接方法, 構(gòu)建深度神經(jīng)網(wǎng)絡(luò)模型, 從眾多數(shù)據(jù)內(nèi)容中自動(dòng)學(xué)習(xí)、 提取特征, 且評(píng)分效果較好, 但是需要大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源。三是基于深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)方法, 基于深度學(xué)習(xí)的文本特征表示技術(shù)受到很多學(xué)者青睞, 它可以更好地將文本語義表示出來, 主要用到Word2Vec[9]、 Doc2Vec[10]、 GloVe[11]等向量技術(shù)。徐慶婷等[12]提出了綜合語義技術(shù)與 LSTM 神經(jīng)網(wǎng)絡(luò)方法, 龔云[13]提出將孿生神經(jīng)網(wǎng)絡(luò)和增強(qiáng)的順序推理模型相結(jié)合的方法, 潘婷婷等[14]提出了基于混合語義空間的漢譯英自動(dòng)評(píng)分模型, 可以有效提高主觀題智能評(píng)卷的靈活性和準(zhǔn)確性。隨著技術(shù)的不斷創(chuàng)新, 學(xué)者們?cè)谧匀徽Z言處理領(lǐng)域有了新的發(fā)現(xiàn)。基于自然語言處理的評(píng)分模型是通過對(duì)文本進(jìn)行語義分析來評(píng)分, 但是需要大量語料庫和語言知識(shí)庫的支持。除ETS公司的E-Rater[15]之外, 還有很多的主觀題自動(dòng)評(píng)估軟件, 通常是采用自然語言處理常用的LSI[16]和LDA[17]方式提取語義等特征。錢升華等[18]則提出利用自然語言預(yù)處理BERT模型進(jìn)而得到語句向量。

        綜上, 針對(duì)主觀題自動(dòng)評(píng)分模型的研究是非常豐富和多樣化的, 不同的方法各有優(yōu)缺點(diǎn), 對(duì)于簡答題、 名詞解釋等主觀題的評(píng)閱取得了一定的研究成果。分?jǐn)?shù)的高低主要取決于考生的答案與實(shí)際參考答案的文本語義相似度大小, 即兩者的語義相似度的值越高, 獲得的評(píng)分就會(huì)越高。由于大多數(shù)主觀題答案無法用確定的語言來表達(dá), 即答案并不唯一, 而主觀題自動(dòng)評(píng)分模型的評(píng)分標(biāo)準(zhǔn)往往是固定的, 無法根據(jù)不同的評(píng)分標(biāo)準(zhǔn)進(jìn)行自適應(yīng)調(diào)整, 導(dǎo)致主觀題自動(dòng)評(píng)分模型評(píng)分準(zhǔn)確度受到部分影響。本文著重探索文本相似度的計(jì)算方法以及文本特征提取等內(nèi)容, 通過global vector全局詞頻統(tǒng)計(jì)的詞向量表示工具對(duì)文本語義進(jìn)行詞向量化, 結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(CNN)提取文本表達(dá)式特征, 經(jīng)過卷積層和池化層、 全連接層進(jìn)行相似度計(jì)算, 提出基于GloVe-CNN算法的主觀題自動(dòng)評(píng)閱模型, 并以廣西某高校英語考試主觀題為例, 對(duì)模型進(jìn)行實(shí)際測(cè)試, 驗(yàn)證模型準(zhǔn)確性, 助力地方高校教育人工智能化和在線考試系統(tǒng)。

        1 主觀題自動(dòng)評(píng)分模型的設(shè)計(jì)

        1.1 主觀題自動(dòng)評(píng)分處理模型

        基于GloVe-CNN算法的主觀題自動(dòng)評(píng)閱模型處理過程如圖1所示。

        圖1 GloVe-CNN模型處理過程Fig.1 Process of GloVe-CNN algorithm

        ① 數(shù)據(jù)預(yù)處理。首先對(duì)考生答案和參考答案原始文件資料分別進(jìn)行手寫文本識(shí)別及數(shù)據(jù)的預(yù)處理工作, 將文本的詞特征最大化保留, 消除特殊符號(hào)、 亂碼、 停用詞等無關(guān)因素以及重復(fù)出現(xiàn)的詞。

        ② 詞向量構(gòu)建。作為主流的詞嵌入GloVe模型繼承了Word2Vec的絕大部分優(yōu)點(diǎn), 是一種無監(jiān)督技術(shù), 使用全局統(tǒng)計(jì)信息、 全局先驗(yàn)信息以及共現(xiàn)窗口的優(yōu)勢(shì), 使得在近義詞、 多義詞的處理上更具有優(yōu)勢(shì), 能確保詞向量之間盡可能多地蘊(yùn)含語義、 語法等相關(guān)信息。因此, 本文采用GloVe變換詞向量功能, 將一個(gè)單詞表達(dá)成一個(gè)由實(shí)數(shù)組成的詞向量矩陣, 分別對(duì)考生答案和參考答案作文本特征進(jìn)行詞向量化描述, 再利用所獲得的詞向量建立映射矩陣, 作為下一層的輸入。

        ③ 文本語義特征提取。在完成詞向量的矩陣映射后, 將其作為數(shù)據(jù)輸入傳送到CNN模型中進(jìn)行語句特征的提取[19], 并作池化處理, 防止過擬合, 降低數(shù)據(jù)維度, 最后得到考生答案和參考答案的語義特征向量。通過深度學(xué)習(xí)訓(xùn)練, 得到含有上下文信息的詞向量, 使得文本表示的層次更加豐富。

        ④ 相似性分析。將參考答案特性矢量和考生回答語義特性矢量進(jìn)行拼接, 通過全連接層比較分析, 再傳遞相關(guān)系數(shù)給系統(tǒng)分析并測(cè)量其相似性值。

        ⑤ 結(jié)果輸出。將第④步得到的相似性數(shù)值通過歸一化計(jì)算, 確定答案文本的分?jǐn)?shù)。

        1.2 GloVe詞向量構(gòu)建

        GloVe模型是由Pennington等在2014年提出[20], 是一個(gè)基于詞共現(xiàn)矩陣?yán)碚摰脑~向量模式, 它將單詞表示為由實(shí)數(shù)組成的向量, 用于捕捉詞與詞之間的語義特性, 如相似性(similarity)、 類比性(analogy)等。在使用上下文信息的同時(shí), 也采用矩陣分解方式, 實(shí)現(xiàn)詞共現(xiàn)信息, 具體模型如圖2所示[21]。

        圖2 GloVe模型Fig.2 GloVe model

        GloVe模型主要是將每一個(gè)word向量作為參數(shù), 詞向量之間滿足相關(guān)性。假設(shè)wi,wj,wk為詞向量, 則通過F(wi,wj,wk)函數(shù)可以得到式(1), 即在單詞i、j出現(xiàn)的兩個(gè)語境范圍內(nèi), 單詞k出現(xiàn)概率的比值滿足相關(guān)性, 其中Pk/i、Pk/j分別表示單詞i、j出現(xiàn)語境范圍內(nèi)單詞k出現(xiàn)的概率。

        (1)

        當(dāng)F值很大時(shí), 表明單詞k與i相關(guān), 與單詞j不相關(guān); 當(dāng)F值很小時(shí), 則表明單詞k與i不相關(guān), 與單詞j相關(guān); 當(dāng)F值趨近1時(shí), 且兩個(gè)概率值都在較大時(shí), 則表明單詞k與單詞i、j均相關(guān); 當(dāng)F值趨近1時(shí), 且兩個(gè)概率值都在較小時(shí), 則表明單詞k與單詞i、j均不相關(guān)。

        GloVe模型利用迭代法的梯度下降方式, 將文本中的單詞進(jìn)行向量表示, 損失函數(shù)J可表示為

        (2)

        其中:wi和wj是所要求的詞向量;bi、bj分別為兩個(gè)詞向量的偏置項(xiàng);V是詞匯表的大小;X為共現(xiàn)矩陣;Xi, j表示詞匯i、j共同出現(xiàn)在一起的次數(shù);f(Xi, j)是一個(gè)權(quán)重函數(shù), 其作用是降低高頻詞對(duì)模型的干擾, 可印證不同共現(xiàn)次數(shù)Xi, j對(duì)結(jié)果的影響[22-23]。如果i、j兩個(gè)單詞沒有出現(xiàn)一起, 則Xi, j=0, 那么它們將不會(huì)參與計(jì)算,故f(0)=0。

        1.3 語義特征提取

        在完成詞向量的矩陣映射后, 將其作為數(shù)據(jù)輸入傳送到具有多個(gè)卷積層和池化層的多層卷積神經(jīng)網(wǎng)絡(luò)[24]模型中以疊加的方式提取語義特征。通過卷積層中的卷積核的窗口大小進(jìn)行卷積運(yùn)算, 進(jìn)而得到特征圖, 具體公式為

        (3)

        其中: (a,b)表示特征圖位置;Pt(a,b)表示輸出第t個(gè)卷積運(yùn)算結(jié)果;X表示輸入矩陣;Kt(m,n)為第t個(gè)卷積核矩陣, 核矩陣形狀為m×n;dim表示詞向量的長度。

        隨后, 將輸出結(jié)果傳送到池化層, 為了降低信息冗余、 提高重要特征提取能力、 防止過擬合, 利用最大池化法在每個(gè)特征圖中提取的最大值作為卷積層在該向量中提取到的最終的也是最重要的特征輸出, 最大池化法公式為

        Lt=max(Pt(a,b)),

        (4)

        其中,Lt表示第t個(gè)池化運(yùn)算后的最終輸出結(jié)果。

        1.4 相似性分析

        當(dāng)GloVe-CNN模型分別提取到兩個(gè)語義的特征后, 把兩個(gè)句子的特征通過全連接層進(jìn)行拼接, 傳遞相關(guān)系數(shù), 通過分析比較、 測(cè)量其相似度。目前有多種計(jì)算距離的方法, 不同的方法對(duì)結(jié)果的準(zhǔn)確性影響不同, 在自然語言處理領(lǐng)域中, 最常用的相似度計(jì)算模型是向量空間模型(VSM), 在向量空間模型中, 可以得到每個(gè)文本的詞向量, 將詞向量視為空間狀態(tài)下的兩條方向不同的線段, 兩者會(huì)形成一個(gè)夾角, 通過計(jì)算夾角的余弦值衡量文本間的相似度, 即計(jì)算余弦相似度[25]。如兩向量指向相同, 則余弦相似度越接近1, 表明兩向量夾角越小, 也就意味著用詞越相似。在不涉及上下文的情況下, 默認(rèn)這兩個(gè)文本的內(nèi)容最相似。

        采用余弦相似度來計(jì)算池化層輸出的兩個(gè)向量的夾角余弦值判斷兩個(gè)向量是否在相同方向, 進(jìn)而評(píng)估兩者的相似性。假設(shè)Ai和Bi分別代表向量A和向量B的各分量, 其余弦相似度為

        (5)

        1.5 模型訓(xùn)練

        (6)

        其中,n為樣本總數(shù)。

        2 主觀題自動(dòng)評(píng)分系統(tǒng)驗(yàn)證

        2.1 實(shí)驗(yàn)環(huán)境

        硬件方面: Windows 10專業(yè)版、 CPU Inter(R)Core(TM) i7、 內(nèi)存16 GB; 軟件方面: 依賴庫Python 3.8、 Jupyter Notebook、 Tensorflow、 Sklearn 等。

        2.2 數(shù)據(jù)來源

        使用人工錄入學(xué)生答卷、 參考答案和教師打分與試卷總分, 來完成數(shù)據(jù)集的收集工作。將預(yù)先訓(xùn)練好的GloVe詞向量作為數(shù)據(jù)的輸入端, 然后以GloVe-CNN模型基礎(chǔ)再次進(jìn)行訓(xùn)練, 模型訓(xùn)練共迭代 15 000 次, 每次訓(xùn)練大約25 min。實(shí)驗(yàn)數(shù)據(jù)為廣西某大學(xué)英語考試卷簡答題, 隨機(jī)選取5 400個(gè)樣本, 內(nèi)容主要涉及學(xué)生答卷、 參考答案、 教師評(píng)分和所有試題的總分等方面。將其文字?jǐn)?shù)據(jù)保存為*.csv格式, 并分成4列數(shù)據(jù)塊進(jìn)行存儲(chǔ), 依次為學(xué)生編號(hào)、 學(xué)生答卷和參考答案、 教師評(píng)分、 教師評(píng)分與系統(tǒng)評(píng)分的差值(文本相似度), 并以6∶2∶2的比例將數(shù)據(jù)分為用以訓(xùn)練模型參數(shù)的訓(xùn)練集、 選擇表現(xiàn)最優(yōu)參數(shù)的驗(yàn)證集和樣本測(cè)試的檢測(cè)集3個(gè)部分, 訓(xùn)練集和檢測(cè)集詳見表1。

        表1 數(shù)據(jù)集樣本Table 1 Dataset samples

        2.3 GloVe-CNN主觀題自動(dòng)評(píng)分模型效果

        目前, 對(duì)英語主觀題自動(dòng)評(píng)分效果通常結(jié)合人工評(píng)分結(jié)果和系統(tǒng)評(píng)分結(jié)果間的相關(guān)系數(shù)來評(píng)價(jià)。本文通過平方加權(quán)Kappa評(píng)價(jià)指標(biāo)[26]對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估, 從GloVe-CNN模型中調(diào)出預(yù)先訓(xùn)練好的8個(gè)子集漢譯英譯文的數(shù)據(jù), 通過判斷GloVe-CNN自動(dòng)評(píng)分系統(tǒng)評(píng)分結(jié)果與人工評(píng)分結(jié)果的評(píng)估系數(shù)k的值來確定評(píng)分的一致性: 若k=1, 表明不同方式評(píng)分結(jié)果之間的一致性是完全相同的; 若k=0, 則說明不同評(píng)分結(jié)果之間的評(píng)分一致性完全隨機(jī)的。本文將GloVe-CNN、 CNN(convolutional neural network)、 PV-DM(distributed memory version of paragraph vector)、 KNN(k-nearest neighbor)4種模型在使用相同數(shù)據(jù)集、 訓(xùn)練集和測(cè)試集的情況下, 對(duì)評(píng)估系數(shù)k進(jìn)行對(duì)比分析, 結(jié)果詳見圖3。

        圖3 不同模型k值對(duì)比Fig.3 Comparison of k values for different models

        對(duì)比CNN、 PV-DM、 KNN模型的k值可發(fā)現(xiàn), GloVe-CNN模型的k值平均值較高, 在子集1、 4、 6、 7、 8上的k值平均提升1%; 由于子集3為開放式問題, 大多數(shù)學(xué)生都是根據(jù)自身對(duì)題目的理解進(jìn)行回答, 另外閱卷老師個(gè)人主觀想法的差異會(huì)使分?jǐn)?shù)出現(xiàn)偏差, 因此語義表現(xiàn)特征不夠明顯,k值最低, 在該段子集上人工閱卷的評(píng)分相比其他子集分?jǐn)?shù)也略低。

        為了驗(yàn)證評(píng)分效果, 設(shè)置以下評(píng)價(jià)指標(biāo)對(duì)評(píng)分系統(tǒng)的可用性及大規(guī)模推廣性進(jìn)行評(píng)估, 主要包含: 評(píng)分系統(tǒng)和人工閱卷的相關(guān)系數(shù), 與人工閱卷的完全一致率、 一致率系數(shù)等, 詳見表2。

        表2 人工閱卷和自動(dòng)評(píng)分系統(tǒng)評(píng)估指標(biāo)Table 2 Manual marking and automatic scoring system evaluation indicators

        人工閱卷與計(jì)算機(jī)自動(dòng)評(píng)分結(jié)果兩者間相關(guān)系數(shù)在0.7以上, 方可應(yīng)用在大規(guī)??荚囋u(píng)分系統(tǒng)中[27]。 本文設(shè)計(jì)的系統(tǒng)模型與人工閱卷相關(guān)系數(shù)r為0.79, 已達(dá)到要求, 完全一致率和一致率系數(shù)分別是0.66和0.36, 這兩項(xiàng)評(píng)估指標(biāo)也達(dá)到了國際研究報(bào)告中提出的指標(biāo)(指標(biāo)見參考文獻(xiàn)[28])。

        為了進(jìn)一步對(duì)GloVe-CNN模型的預(yù)測(cè)性能進(jìn)行評(píng)價(jià), 在5 400份試卷中隨機(jī)抽取300份, 并邀請(qǐng)2位閱卷老師對(duì)紙質(zhì)版試卷分?jǐn)?shù)進(jìn)行復(fù)核, 將復(fù)核分?jǐn)?shù)和原有試卷分?jǐn)?shù)的平均評(píng)分作為最終分?jǐn)?shù), 結(jié)果保留兩位小數(shù), 分別將人工評(píng)閱平均分與CNN、 GloVe-CNN兩模型評(píng)分作差絕對(duì)值運(yùn)算對(duì)比, 結(jié)果見圖4。

        圖4 分?jǐn)?shù)差絕對(duì)值對(duì)比Fig.4 Comparison of absolute value of score difference

        考慮人工閱卷評(píng)分結(jié)果受人為主觀因素所影響, 因而部分樣本的分?jǐn)?shù)會(huì)存在一定的誤差。可以看出, 兩模型與人工閱卷分?jǐn)?shù)差在可控范圍內(nèi), 自動(dòng)評(píng)分模型在一定程度上也達(dá)到了比較理想的結(jié)果。 但總體來說, 本文設(shè)計(jì)的主觀題評(píng)分模型相對(duì)CNN模型誤差波動(dòng)幅度較小, 具有相對(duì)較高的準(zhǔn)確性。

        3 結(jié)束語

        在大數(shù)據(jù)時(shí)代背景下, 主觀題自動(dòng)評(píng)分系統(tǒng)可以有效減少人力成本, 并減少因人工評(píng)價(jià)中只注重關(guān)鍵詞匹配而導(dǎo)致的評(píng)價(jià)結(jié)果不正確、 不公正的問題。通過引入GloVe模型與卷積神經(jīng)網(wǎng)絡(luò)(CNN)構(gòu)建文本表達(dá)式特征, 進(jìn)而實(shí)現(xiàn)主觀題自動(dòng)評(píng)分, 通過平方加權(quán)Kappa評(píng)價(jià)指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行評(píng)估可以看出, GloVe-CNN模型整體性能較優(yōu)。通過隨機(jī)抽取300份樣本驗(yàn)證系統(tǒng)閱卷的準(zhǔn)確性, 對(duì)比系統(tǒng)評(píng)分?jǐn)?shù)據(jù)和人工閱卷結(jié)果, 兩者誤差在合理范圍內(nèi)。

        然而, 僅僅考慮到參考答案和學(xué)生答卷結(jié)果的接近程度, 沒有考慮到學(xué)生作答句法的合理性。若學(xué)生作答的句式并不通順或者回答文本只是由單詞所構(gòu)成, 此時(shí)簡單對(duì)比相似度雖然可以進(jìn)行自主打分, 但是在閱卷者眼中此情形無法得分。這些問題將是課題組繼續(xù)研究的方向, 以期進(jìn)一步完善該模型。

        猜你喜歡
        語義單詞文本
        語言與語義
        單詞連一連
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識(shí)別
        電子制作(2018年18期)2018-11-14 01:48:06
        看圖填單詞
        看完這些單詞的翻譯,整個(gè)人都不好了
        “上”與“下”語義的不對(duì)稱性及其認(rèn)知闡釋
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        認(rèn)知范疇模糊與語義模糊
        如何快速走進(jìn)文本
        免费看黄片的视频在线观看| 老汉tv永久视频福利在线观看 | 东京热日本av在线观看| 狠狠人妻久久久久久综合蜜桃 | 亚洲一区sm无码| 日本人妻系列一区二区| 91九色成人蝌蚪首页| 亚洲精品一区国产欧美| 日本中文字幕在线播放第1页| 无人视频在线播放在线观看免费| 午夜男女靠比视频免费| 日本肥老妇色xxxxx日本老妇| 国产精品久久无码一区二区三区网| 熟妇人妻不卡中文字幕| 国产一区二区三区精品毛片| 亚洲欧美综合精品成人网站| 欧美午夜精品一区二区三区电影| 国产aⅴ天堂亚洲国产av| 国产一区精品二区三区四区| 激情内射人妻1区2区3区| 国产av精国产传媒| 亚洲高清有码在线观看| 蓝蓝的天空,白白的云| 疯狂做受xxxx国产| 天天影视色香欲综合久久| 国产91AV免费播放| 精品日本一区二区三区| 妺妺窝人体色www聚色窝| 北条麻妃在线视频观看| 国产精品农村妇女一区二区三区| 亚洲一区二区三区,日本| 男女车车的车车网站w98免费| 国产精品1区2区| 男女啪啪动态视频在线观看| 国产又猛又黄又爽| 四虎成人精品无码永久在线| 国产精品国产三级国产av主| 亚洲精品一区三区三区在线 | 人妻少妇中文字幕在线观看| 老师脱了内裤让我进去| 韩日无码不卡|