亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語義相似度與XGBoost算法的英語作文智能評價框架研究

        2020-07-01 04:53:32呂欣程雨夏
        浙江大學學報(理學版) 2020年3期
        關鍵詞:評語語義作文

        呂欣,程雨夏

        (1.杭州電子科技大學外國語學院,浙江杭州310018;2.杭州電子科技大學計算機學院,浙江杭州310018)

        0 引 言

        英語作文能夠體現(xiàn)學生的寫作、思維和分析能力,是平時測試訓練、中考、高考、四六級、托福、雅思等[1-3]各類英語考試中必不可少的重要考核內(nèi)容。目前,對作文的評價大多由人工完成[4],需要花費大量教師較長的時間。由于教師每天需要評閱很多份試卷,容易產(chǎn)生視覺疲勞;閱卷老師的主觀偏好、身體疲勞程度、心情好壞等也會干擾評閱結(jié)果[5]。因此,作文評價具有一定的主觀性,在公平和公正性上難以一而慣制。

        近年來,隨著大數(shù)據(jù)、自然語言處理、深度學習技術的迅猛發(fā)展,計算機在理解人類語言方面也取得了一些突破性進展,例如機器翻譯,文本摘要等[6]。因此,有必要將計算機技術與語言學有機結(jié)合,研發(fā)一套性能優(yōu)異的自動評分系統(tǒng),在保證評分客觀性的同時,大大降低人工評閱工作量,節(jié)約人力和物力資源。

        作文自動評分主要借助統(tǒng)計學、數(shù)學分析、機器學習和自然語言處理等技術對作文進行自動評估。英語作文自動評分模型主要分為三類:基于專家系統(tǒng)的作文評分[7]、基于文本分類與回歸思想的作文評分[8]和將人工評分與機器評分相結(jié)合的評分方式[9]。

        基于專家系統(tǒng)的作文評分,是指將語言學規(guī)則編寫為計算機程序,構建專家系統(tǒng),對作文進行評分。1968年,Ellis Batten Page開發(fā)了一套作文自動評分系統(tǒng)PEG(project essay grade),從作文中抽取量化的語言學特征,作為反映作文質(zhì)量的量化指標[1-2]。但由于PEG系統(tǒng)的評價角度較單一,完全依賴專家給定的得分指標統(tǒng)計結(jié)果,沒有直接評測作文的內(nèi)在質(zhì)量,因此打分結(jié)果有所偏頗。而且,這類基于專家系統(tǒng)的模型,容易被考生摸索出得分規(guī)律。盡管如此,PEG系統(tǒng)是第一款公開發(fā)布的商業(yè)化自動作文評分軟件,對后續(xù)作文自動評分系統(tǒng)的研究與應用有重要影響[1-2]。國內(nèi)的批改網(wǎng)、冰果網(wǎng)等作文自動評分和評語生成系統(tǒng),大多也是基于專家系統(tǒng)的原理進行評價的[10]。

        基于文本分類與回歸思想的作文評分,是指先將作文映射到結(jié)構化的向量空間,再采用分類器或回歸模型進行打分。20世紀90年代末,LARKEY[8]基于分類器構建了作文文本分類模型,提升了打分質(zhì)量;FOLTZ[11]基于潛在語義分析(latent semantic analysis LSA)開發(fā)了智能作文評價系統(tǒng)(intelligent essay assessor,IEA),IEA首先構建詞語的共現(xiàn)矩陣,再基于奇異值分 解(singular value decomposition,SVD)將待評分作文與人工評分后的標準作文一起映射到潛在語義空間,求取兩類作文間的相似度,將加權后的分數(shù)作為評分結(jié)果?;贚SA的方法在一定程度上表達了文本的語義信息,但無法體現(xiàn)語序信息;另外,LSA沒有嚴謹?shù)臄?shù)理統(tǒng)計基礎,無法對文本表層信息進行量化評估,與專家系統(tǒng)相反,其可解釋性較差[12]。文獻[13]用隱狄利克雷分布(latent dirichlet allocation,LDA)對文檔進行向量化降維表達,基于相似度比較構建打分模型,得到的準確度較LSA模型提升了3%~5%。文獻[14]基于貝葉斯理論的分類模型構建作文評分系統(tǒng),但當評分所使用的特征相互不獨立時,評分效果較差。CHEN等[15]基于Text Rank對文章質(zhì)量先進行預排序,再采用分類器對文章進行等級制評分。該方法能夠有效識別考生對高質(zhì)量詞組的運用水平,但仍無法提取深層次的語義特征。魏揚威等[16]采用多種級別的語義特征進行英語作文的特征提取,如通過提取英語作文的詞法特征、從句特征、句子關系特征等,構建英語作文的語言學特征,再使用自編碼器對特征進行重構,并采用分層多項模型進行得分預測,但這些特征更多的是從寫作技巧上對英語作文進行評價,對于寫作內(nèi)容方面的特征,如詞匯、句子與主題的相關性等,缺乏針對性提取;劉婷等[17]從單詞、句子、文章整體結(jié)構三方面進行英語作文的特征提取,并根據(jù)這些特征采用分層指標體系對英語作文進行自動評分,但特征提取方法較為簡單,例如在提取單詞特征時僅采用各種英語等級的單詞數(shù)量、錯誤單詞數(shù)、主題相關度等作為特征,對詞義未采用分布式表征。也有將人工與機器評分相結(jié)合的作文評分方式。1990年前后,美國教育考試服務中心(Educational Testing Service,ETS)開發(fā)了E-rater系統(tǒng),它與閱卷教師同時給出某篇作文各自的分數(shù),通過一定的加權方式得到綜合得分。目前,E-rater已成為被廣泛關注的商業(yè)性評分系統(tǒng),并成功應用于GMAT,TOEFL,GRE等考試系統(tǒng)[9,12]。

        為了提高英語作文自動評分和評語標簽生成的準確性,筆者給出了包含具體操作流程的英語作文智能評價框架,見圖1。該評價框架能從詞、段落、詞性、篇章、主題等多個維度挖掘作文的深層語義,將訓練語料庫中的作文表示為綜合語義特征向量,采用XGBoost算法對待評分作文進行打分,并基于語義相似度模型給出作文的評語標簽。

        圖1 基于語義相似度與XGBoost算法的英語作文智能評價框架Fig.1 Automated English essay evaluating framework based on semantic similarity and XGBoost algorithm

        1 理論模型

        1.1 智能作文評價框架

        1.1.1 離線學習訓練階段

        步驟1將N篇文檔按統(tǒng)一編號(ID)進行歸整,采用數(shù)據(jù)清洗模塊檢查訓練語料的完整性(每篇作文需包含作文主體、評語、分數(shù))、編碼的一致性等;

        步驟2對每篇作文主體文本(X_train),依次求取該作文的word2vec,paragraph2vec,pos2vec,LDA的特征向量vw2v,vp2v,vpos2v,vLDA;

        步驟3將所有語義向量從左至右進行拼接,得到1×M維的綜合特征向量,所有訓練作文(N篇)構成N×M維的綜合特征向量空間Vall=[Vw2v,Vp2v,Vpos2v,VLDA]T;

        步驟4將N篇作文對應的分數(shù)(Y_train)進行歸一化處理,得到1×N維的分數(shù)向量空間W;

        步驟5將V和W輸入XGBoost回歸算法中進行訓練,得到打分模型;

        步驟6采用TF-IDF和Text Rank 2種算法對所有作文的評語分別計算評語標簽集,得到P1和P2,取其交集P=P1∩P2作為綜合評語標簽。

        步驟7基于kNN算法,查找與待評測作文相似的訓練集作文,利用訓練集作文的綜合評語標簽生成待評測作文的最終評語標簽。

        1.1.2 在線評價階段

        步驟1對待評測作文進行主體文本、編碼規(guī)范、字數(shù)達標等檢查;

        步驟2基于已經(jīng)訓練好的向量庫,將待評測作文主體表示為綜合特征向量;

        步驟3將待評測作文的綜合特征向量輸入訓練好的打分器,得到作文評分結(jié)果Y_online;

        步驟4采用基于k NN算法的語義相似度模型,找到與該作文最相匹配的前k篇作文,得到評語標簽,并借助基于規(guī)則的語法糾錯模塊進行語法勘誤,綜合后給出作文的評語。

        1.2 考慮分布式特征的綜合特征向量表示法

        以往的文本表示法,主要以one-hot編碼為主,其缺點是維數(shù)過多,而且無法表示深層次的作文語義。本文采用多種分布式表示技術,從不同尺度構造文本向量,從詞(word2vec)、段落(paragraph2vec)、篇章(LDA)角度抽取深層語義,共同構造綜合特征向量。

        1.2.1 基于word2vec的詞表示法

        2013年,Mikolov在Hinton的分布式語義表達基礎上提出了詞向量(word2vec)模型,其核心是基于Skip-Gram語言理論的三層神經(jīng)網(wǎng)絡模型(neural network model,NNM)[17]。Skip-Gram 的核心思想是根據(jù)當前詞去預測其上下文可能出現(xiàn)的詞,圖2為基于Skip-Gram的word2vec模型原理圖。

        在給定訓練詞語序列w1,w2,…,w T的情況下,根據(jù)Skip-Gram原理所構造的目標函數(shù)為

        圖2 基于Skip-Gram的word2vec模型原理圖Fig.2 Schematic diagram of word2vec model based on Skip-Gram

        其中,c指以w t為中心的訓練上下文的詞語數(shù)量,c越大考慮的上下文越廣,需耗費的計算時間越多。通常用層次Softmax函數(shù)表示式(1)中的語言概率集合p(w t+j|w t),并采用Huffman樹編碼,按詞頻將長度為L的句子表示出來。采用該數(shù)據(jù)結(jié)構能夠快速找到高頻詞,極大地降低了計算復雜度。

        其中,v w和v′w為詞w的輸入向量和輸出向量;W為所有詞的總數(shù);σ(x)=1/[1+exp(-x)];從j節(jié)點到根節(jié)點的路徑為n(w,j),特別地,n(w,1)=root,n(w,L(w))=w。

        結(jié)合圖2中預測最大概率鄰近詞的核心思路,采用多層感知器(multi-layer perceptron,MLP)神經(jīng)網(wǎng)絡模型求解目標函數(shù)(2),根據(jù)輸入詞向量v w,預測輸出詞向量v′w,即

        其中,tanh是神經(jīng)元激活函數(shù),b,d,W,U,H均為待求解參數(shù)。參數(shù)集的尋優(yōu)可采用隨機梯度下降(stochastic gradient descent,SGD),遺 傳 算 法(genetic algorithms,GA)等求解。

        對于詞性向量(pos2vec,part of speech to vector),將給定詞語序列w1,w2,…,w T對應的詞性序列表示為ps1,ps2,…,psT,其中,詞性主要包括:名詞(n),動詞(v),形容詞(adj),副詞(adv)等。該特征主要從詞性角度考核作文的詞語搭配合理性。

        1.2.2 基于paragraph2vec的段落表示法

        Paragraph2vec的核心計算原理與word2vec一致,均基于MLP模型,在求取目標函數(shù)(1)的過程中得到建模對象的向量,其差別在于建模對象的選取。為了更多地考慮單詞排列順序?qū)φZ義的影響,paragraph2vec引入了paragraph id,使每個句子都有唯一的id,如圖3所示。給定paragraph id,統(tǒng)計上下文中出現(xiàn)4個詞的概率,即把句子的位置也當成一項重要特征,以記錄段落之間隱含的語義。

        圖3 Paragraph2vec模型原理圖Fig.3 Schematic diagram of paragraph2vec model

        在訓練步驟中,只需在式(1)的詞語序列前增加id的特征,即 paragraph id,w1,w2,…,w T,后續(xù)的參數(shù)求解步驟不變。

        1.2.3 基于LDA的篇章表示法

        LDA模型是一種生成式的主題模型,是由詞語、主題、文檔構成的三層貝葉斯概率模型,其核心在于如何計算給定文檔的主題變量(即隱變量)的分布[18]。參數(shù)的具體估計過程如圖4所示。

        圖4 LDA的概率圖模型Fig.4 Probability graph model of LDA

        圖4 中,各參數(shù)之間滿足:

        以下為LDA模型的計算步驟:

        步驟1基于共軛理論,采用Dirichlet計算每個主題上特征詞的多項式分布φ=Dir(β),即參數(shù)β刻畫了該分布;

        步驟2基于Poisson分布,估計每篇作文特征詞語的規(guī)模 N=Poisson(ζ);

        步驟3基于Dirichlet分布,估計每篇作文中主題分布概率向量?=Dir(α);

        步驟4對于第m篇作文(m=1,2,…,M;M為作文總數(shù))的某特征詞w,從主題分布概率向量?中隨機抽取某主題z,再從z中挑選一個特征詞w。最后通過期望最大化(EM)方法對參數(shù)α,β進行最大似然估計,從而建立LDA三層模型。

        綜上所述,LDA通過構建概率模型,對主題分布?和特征詞分布φ之間的關系進行描述。上述2個變量可以通過Laplace近似估計、變分推理、Gibbs采樣等方法得到。最終由LDA主題模型得到的語義向量來描述“文本-主題-特征詞”之間的量化關系。

        1.3 XGBoost算法原理

        與傳統(tǒng) GBDT(gradient-based decision tree)方法相比,XGBoost在誤差逼近和數(shù)值優(yōu)化兩方面都進行了改進,近年來,在各類基于機器學習的應用和比賽中,XGBoost已成為最受歡迎的方法之一。

        假設有k棵樹組成模型:

        其中,Ω(fk)包含兩部分:參數(shù)γ反應葉子節(jié)點數(shù)量T對誤差的影響;參數(shù)λ反應葉子節(jié)點權重w對誤差的影響,此處采用L 2正則化,以防止葉子節(jié)點過多出現(xiàn)過擬合現(xiàn)象。目標函數(shù)(5)的詳細求解過程參見文獻[20]。

        1.4 基于k NN算法的作文評語標簽生成方法

        基于kNN算法的作文評語標簽生成方法的總體思路是:首先,通過TF-IDF方法和Text Rank方法篩選出訓練集中每篇作文的若干個典型評語標簽;然后,用1.2節(jié)中的綜合特征向量表示待評測作文和所有訓練集作文,并比較待評測作文與每篇訓練集作文特征向量的余弦相似度;最后,選取kNN算法的k值,將與待評測作文相似度較高的前k篇訓練集作文的典型評語標簽去重后,形成待評測作文的評語標簽。具體步驟如下:

        步驟1針對第i篇作文的評語Ci,采用TFIDF方法(式(6))計算各評語短句的TF-IDF權重值,按從大到小排序,得到一組評語短句序列:

        步驟2采用Text Rank方法(式(7))計算各評語短句的TR權重值,按從大到小排序,得到一組評語短句序列KTextRank:

        步驟3分別將TF-IDF權重值排在前n位的評語短句記為,將TR權重值排在前n位的評語短句記為,取交集得到該篇作文的綜合評語短句序列,依此類推,計算得到所有作文的綜合評語短句序列。

        步驟4圖1中,在線計算評語時,將待評測作文i的綜合向量vaill與訓練庫中各作文的綜合向量進行相似度計算(式(5)),并按照從大到小的順序進行排序:

        步驟5最后,基于k NN算法的思想,選取相似度排名前k位的評語短句,并去除重復的短句,組合為該作文最后的評語。

        2 實驗效果

        從某高校面向四級考試進行寫作訓練的英語作文中收集了900篇進行實驗,具體情況如表1所示,作文單詞數(shù)在150~200。為了保證原始標簽的準確性與公平性,要求2位老師分別對每篇作文進行評分,求取該作文的平均得分,將2位老師的評語進行匯總得到綜合評語。最后得到每個得分區(qū)間的作文數(shù)量,如表2所示,平均每篇作文包含7.2條評語短句。

        表1 各種主題的作文數(shù)量Table 1 Number of essays on various topics

        表2 各得分區(qū)間的作文數(shù)量Table 2 Number of essays in each score range

        根據(jù)圖1的技術路線,將900份作文平均分成5份(即每份180篇),隨機取其中4份(即80%)作為訓練樣本,剩余1份作為測試樣本。采用5輪交叉驗證的方式循環(huán)訓練和測試5次,每次得到一份評價指標,將5次指標的平均值作為評分結(jié)果。本文方法的打分效果與以往幾類評分方法效果的比較見表3,其中,本文方法的輸入特征包括四部分:

        表3 各類作文評分方法的評分效果Table 3 The scoring effect of various essay scoring methods

        word2vec,paragraph2vec,pos2vec和LDA,分別取50維、100維、20維、100維,則第i篇作文的綜合特征向量為valli=[vw2v,vp2v,vpos2v,vLDA],即 1×270 維的向量。從表3中可以看出,相比其他方法,本文方法評分結(jié)果具有最小的均方誤差和最大的皮爾遜相關系數(shù),說明本文方法與教師評分結(jié)果的誤差最小,且相關性最高。

        在評語標簽生成過程中,對TF-IDF權重值和Text Rank權重值前5位的綜合評語短句取交集,并將其作為綜合評語短句序列,采用k NN算法,取k=3,給出待評價的作文評語。比較新方法生成的作文評語標簽和教師評語,統(tǒng)計其平均準確率(precision)、召回率(recall)和F-score,并與單獨使用TF-IDF和Text Rank方法進行了對比,結(jié)果如圖5所示。

        圖5 作文評語標簽生成方法效果對比Fig.5 Comparison of essay comment label generation methods

        由圖5可知,本文方法通過結(jié)合TF-IDF方法和Text Rank方法,有效篩選出了典型的英語作文評語標簽,較采用單一標簽提取算法有較大優(yōu)勢,同時借助k NN算法使英語作文評語生成的準確性達到了較高水平(F-score大于0.8)。將主要的評語標簽(出現(xiàn)次數(shù)超過 3次)按 5個評分等級,即[0,60),[60,70),[70,80),[80,90),[90,100]進行聚類,其可視化圖見圖6。

        圖6體現(xiàn)了不同分數(shù)等級中,學生作文的一些集中特點,如分數(shù)偏低的普遍小錯誤較多、語言不流暢、詞匯使用或拼寫存在問題等。相鄰分數(shù)區(qū)間的評語標簽有一定的重疊性,跨分數(shù)區(qū)間的評語差異性較大。

        3 結(jié) 論

        提出的英語作文智能評價框架的主要創(chuàng)新點在于 :結(jié) 合 了 word2vec、pos2vec、paragraph2vec和LDA等文本表示技術生成英語作文的綜合特征向量,能夠?qū)τ⒄Z作文多維度的語義特征進行深層次提取,為作文評分和評語標簽生成提供依據(jù);采用了較為先進的XGBoost模型和結(jié)合TF-IDF、Text Rank和k NN算法的語義相似度模型進行評分和評語生成,提高了英語作文自動評分和評語標簽生成的準確性。另外,通過框架流程的合理設計,使綜合特征向量可以同時用于英語作文的評分和評語標簽生成,有效降低了框架的模型復雜度。

        圖6 評分等級對應的作文評語標簽聚類Fig.6 Clustering of essay comment labels corresponding to scoring levels

        在本文的評價框架中,還有一些語言類的特征沒有考慮在內(nèi),如基于依存句法/語法的特征,以后可將其加入到特征向量中,以提升評分指標;還可以研究綜合向量特征與評語標簽、學生常用詞句的關系,對常見問題、常犯錯誤和高分用法進行關聯(lián)性挖掘,以便針對性地指導學生進行規(guī)范寫作。

        猜你喜歡
        評語語義作文
        語言與語義
        流沙河語錄及諸家評語
        四川文學(2020年11期)2020-02-06 01:54:52
        紅批有聲作文
        紅批有聲作文
        紅批作文
        紅批作文
        “上”與“下”語義的不對稱性及其認知闡釋
        認知范疇模糊與語義模糊
        怎樣為作文寫評語
        散文百家(2014年11期)2014-08-21 07:16:36
        語義分析與漢俄副名組合
        外語學刊(2011年1期)2011-01-22 03:38:33
        越南女子杂交内射bbwxz| 久久国产亚洲AV无码麻豆| 91精品啪在线看国产网站| 男人深夜影院无码观看| 男女高潮免费观看无遮挡| 能看不卡视频网站在线| 91成人黄色蘑菇视频| 一个色综合中文字幕人妻激情视频| 午夜精品久久久久久久| 国内精品人妻无码久久久影院| 欧美成人一区二区三区在线观看 | 体验区试看120秒啪啪免费| 香蕉久久福利院| 性夜影院爽黄a爽在线看香蕉 | 亚洲国产精品成人久久av| 99久久精品国产一区色| 白嫩少妇高潮喷水av| 日韩中文字幕版区一区二区三区| 少妇aaa级久久久无码精品片| 国产嫖妓一区二区三区无码| 热久久亚洲| 免费一区二区三区av| 大桥未久av一区二区三区| 亚洲av无码国产精品色午夜洪| 国产精品无码无片在线观看3D| 饥渴少妇一区二区三区| 国产特黄a三级三级三中国| 国产精品久久国产精麻豆99网站| 午夜男女爽爽爽在线视频| 国产精品久久婷婷婷婷| 亚洲精品国产精品系列| 国产成人精品一区二区20p| 亚洲精品~无码抽插| 国内大量揄拍人妻在线视频| 亚洲精品成人av观看 | 一级内射免费观看视频| 国产精品久久久久久福利| 亚洲av无码乱码国产麻豆穿越| 初尝人妻少妇中文字幕在线| 亚洲精品中文字幕一二三四| 无码专区人妻系列日韩精品|