亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        英語作文自動評分系統(tǒng)研究與實現(xiàn)

        2019-09-10 07:22:44張銳捷宋萬里劉琪范圓圓姜戴銳葛藝
        現(xiàn)代信息科技 2019年4期

        張銳捷 宋萬里 劉琪 范圓圓 姜戴銳 葛藝

        摘 要:隨著近幾年來人工智能技術(shù)的發(fā)展,計算機技術(shù)被越來越多地應(yīng)用到教育領(lǐng)域,英語作文自動評分就是其中的一個方面。為達到英語作文自動評分的要求,該系統(tǒng)提取作文內(nèi)容等一系列特征進行綜合考評,使用自然語言處理、文本特征提取、潛在語法分析等技術(shù),實現(xiàn)英語作文自動評分功能。本系統(tǒng)可通過添加自定義的停用詞詞典,而擴展運用到更多的場景。

        關(guān)鍵詞:自動評分;潛在語義分析;文本特征提取

        中圖分類號:TP319 文獻標(biāo)識碼:A 文章編號:2096-4706(2019)04-0027-03

        Research and Implementation of English Composition Automatic Scoring System

        ZHANG Ruijie,SONG Wanli,LIU Qi,F(xiàn)AN Yuanyuan,JIANG Dairui,GE Yipeng

        (Nanjing Xiaozhuang University,Nanjing 211171,China)

        Abstract:With the development of artificial intelligence technology in recent years,computer technology has been more and more applied to the field of education. The automatic scoring of English composition is also one of the aspects to achieve automatic scoring of English composition. In order to meet the requirement of automatic scoring of English compositions,the system extracts a series of features such as the content of the compositions for comprehensive evaluation,and uses natural language processing,text feature extraction,potential grammar analysis and other technologies to achieve automatic scoring of English compositions. The system can be extended to more scenarios by adding a custom dictionary of stop words.

        Keywords:automatic scoring;latent semantic analysis;text feature extraction

        0 引 言

        計算機越來越廣泛地被運用到輔助教學(xué)的場景中,在英語助教領(lǐng)域也有點讀機、視頻教學(xué)、智能翻譯等多種應(yīng)用。在英語教學(xué)過程中,聽、說、讀、寫都是英語的基本技能,在日常的教學(xué)、訓(xùn)練、考核中,寫作能力是比較難培養(yǎng)的[1],也是最耗費老師精力的。寫作作為一種語言輸出形式,是評價學(xué)生英語綜合水平和應(yīng)用能力的一個重要指標(biāo)。目前國內(nèi)英語大規(guī)??荚囍?,如:英語高考、大學(xué)生英語四、六級考試,都有英語作文寫作的考核,但是在閱卷的時候英語作文區(qū)別于客觀題需要進行人工閱卷,人工閱卷不僅在判題時有較強的主觀性,甚至需要多人重復(fù)判一份試卷來保證結(jié)果的公正,這會導(dǎo)致工作量翻倍,耗費優(yōu)秀教師大量的時間和精力。英語作文自動評分系統(tǒng)的開發(fā)和使用,可有效的解決上述問題。

        最早的英語作文自動評分(AutomatedEnglishScoring,簡稱AES)系統(tǒng)是1966年由美國杜克大學(xué)的Ellis Batten Page等學(xué)者開發(fā)的PEG(Porject Essay Grader),后來許多AES系統(tǒng)被開發(fā)、實驗甚至投入商用,例如:IEA、E-Rater、IntelliMetric、BETSY等。其中最具代表性的有PEG、IEA和E-Rater三種[2]。這三種系統(tǒng)在考評時側(cè)重點不同:PEG重點比較表層語言特征,包括用詞、句型、結(jié)構(gòu)等;IEA側(cè)重考察作文內(nèi)容,即淺層語義;E-Rater在作文的表現(xiàn)形式和內(nèi)容意義兩個方面均有考慮。國內(nèi)的相關(guān)研究起步較晚,但近幾年許多學(xué)者都開始在英語作文自動評分上投入精力與成本。目前國內(nèi)也已經(jīng)有一些投入使用的AES系統(tǒng),如句酷批改網(wǎng)、新東方批改網(wǎng)和冰果英語作文評閱系統(tǒng)等。也有學(xué)者實地研究并得出結(jié)論,英語作文自動評分系統(tǒng)作為大學(xué)英語輔助教學(xué)工具,可以幫助學(xué)生在寫作時養(yǎng)成更加關(guān)注句法運用、篇章邏輯結(jié)果等習(xí)慣,進而有效提高學(xué)生寫作和自主學(xué)習(xí)的能力[3]。目前許多學(xué)者追求的目標(biāo)就是在可預(yù)計的未來中,能在考試場景中應(yīng)用英語作文自動評分系統(tǒng)。本文在調(diào)研大量文獻的基礎(chǔ)上,使用自然語言處理、文本特征提取、潛在語法分析等技術(shù),實現(xiàn)英語作文自動評分。

        1 系統(tǒng)設(shè)計

        本系統(tǒng)通過預(yù)處理文本、提取文本關(guān)鍵字等技術(shù)先對作文進行預(yù)處理,提取能代表作文內(nèi)容的特征單詞;之后將這些特征單詞應(yīng)用于潛在語義模型中,獲得能代表作文內(nèi)容的特征項;接著提取作文語言方面的信息,如單詞正確率,語法錯誤情況,句子的長度等,作為作文語言方面的特征項;然后將這些特征共同組成代表作文寫作水平的特征向量;最后利用潛在語義分析和K近鄰算法對英語作文進行評分。本文采用方法的基本算法流程如圖1所示。

        2 系統(tǒng)實現(xiàn)

        作文單詞特征提取與評價模塊,主要功能是對作文的用詞和句子結(jié)構(gòu)進行分析與評價,讀入整篇作文后分別以句和單詞為單位進行拆分,并對作文中的語句的內(nèi)容以及復(fù)雜程度進行評分,同時給出一定的語句錯誤提示;針對作文中單詞的使用情況(拼寫錯誤率,語法錯誤率等)進行評分,同時給出對應(yīng)的參考用詞。首先基于Lucene Analyzer的分詞[4],Lucene內(nèi)置提供的Analyzer不能滿足本系統(tǒng)的需求,我們還添加了自定義的停用詞表。在分詞后,參考了WordNet[5,6]里詞條和詞條的同義詞集的內(nèi)容,對單詞進行檢測,同時進行單詞正確率的計算。借助JWML在WordNet中查詞,統(tǒng)計出正確單詞的個數(shù),拼寫錯誤單詞的個數(shù),獲得正確單詞的詞根等。最后借助Lucene中已有的SpellChecker工具[7]來實現(xiàn)拼寫檢查功能。本系統(tǒng)使用了四六級詞匯表作為檢查范圍,并從中選出前5個作為參考詞,同時結(jié)合詞性標(biāo)注之后的結(jié)果給出更合理的建議。

        作文特征向量的抽取與評價模塊,主要完成的是提取文章特征值(關(guān)鍵詞),并根據(jù)學(xué)生作文的特征詞集與作文主題的貼合度進行評分。本系統(tǒng)為了提取在當(dāng)前作文中有效單詞對于文章主題的表達情況,使用TF-IDF(term frequency-inverse document frequency)[8,9]統(tǒng)計方法。我們認為字詞的重要性隨著它在當(dāng)前文章或同主題文章中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在不同主題文章中出現(xiàn)的頻率成反比下降。在算出單詞對于文章的重要性的時候,我們綜合考慮信息熵和條件熵[10],將待打分作文排序的前30詞和高分標(biāo)準(zhǔn)作文集進行歸一化處理,得出該文章和高分標(biāo)準(zhǔn)作文集的相似性,最終得出文章的特征分數(shù)。

        作文語句特征分析與評價模塊主要是對作文中語句的詞法和句法特點進行提取,然后根據(jù)文章中語句表達的完整性和句型的復(fù)雜程度進行評分,并針對語法和句法錯誤給出一定的錯誤提示信息。在系統(tǒng)實現(xiàn)時,本系統(tǒng)主要使用了斯坦福大學(xué)Stanford parser開源句法分析器,生成句法樹模型,對句子進行評價。將句子評價建立在單詞評價模塊對拼寫錯誤單詞的簡單詞法矯正的基礎(chǔ)上,這樣能夠獲得單詞與句子相對應(yīng)的樹狀結(jié)構(gòu)和句子成分間的依賴關(guān)系。在這個過程中還通過對句子成分的詞性分析,結(jié)合修正過拼寫的單詞表達的意思給出關(guān)于用法錯誤的單詞的建議。語法錯誤檢查運用的方法主要是基于規(guī)則和結(jié)構(gòu)樹的語法檢查?;谝?guī)則的語法檢查方法需要用到一個代表英語語法結(jié)構(gòu)的規(guī)則集,這些規(guī)則集盡可能多的覆蓋英語語法特征。

        作文篇章結(jié)構(gòu)分析與評價模塊,主要是分析文章不同段落之間的語義聯(lián)系,考察上下文是否緊湊、是否圍繞同一主題進行陳述,并根據(jù)段落間語義聯(lián)系程度進行評分。通過LSA[11]在大量訓(xùn)練集作文文本上構(gòu)建一個矩陣,該矩陣的一行代表一個詞,一列代表一個文檔,矩陣元素代表該詞在該文檔中出現(xiàn)的次數(shù);為了減小計算壓力,在矩陣上使用奇異值分解(SVD);接著通過計算皮爾森相關(guān)系數(shù)(Pearson correlation coefficient)[12]來標(biāo)識兩個詞語對應(yīng)的兩組線性數(shù)據(jù)的相關(guān)程度,這個過程借助了JAMA工具計算;最后通過對矩陣的計算,得到一個在0~1之間的值,作為段落間關(guān)聯(lián)度評分的依據(jù)。

        作文自動評分模塊,主要完成的是綜合評價,并獲取最終得分。在經(jīng)過前面多方面的處理后,可獲得四個基礎(chǔ)特征值,分別為單詞結(jié)構(gòu)評價、句子結(jié)構(gòu)評價、篇章結(jié)構(gòu)評價以及主題貼合度評價。這一部分在實現(xiàn)的時候本系統(tǒng)選擇了WEKA工具[13,14]中的KNN算法[15]。WEKA中所有算法對輸入的數(shù)據(jù)集都有統(tǒng)一要求,即ARFF格式,并要求以單一關(guān)系列表的形式輸入。這些數(shù)據(jù)可從文件中讀取或由數(shù)據(jù)庫產(chǎn)生。前期處理得出的四個屬性值便可利用以上信息增益的計算方法為作文中的每個屬性計算其信息增益,從而完成加權(quán),即越大的信息增益值的屬性將被賦予越大的權(quán)值。

        3 實驗結(jié)果與結(jié)果分析

        為了模擬本系統(tǒng)在真實環(huán)境中的使用情況,實驗數(shù)據(jù)選取了南京曉莊學(xué)院某學(xué)院2015級的英語期末考試卷共240份(兩種話題作文各120份)。使用了對比實驗的方法,分別統(tǒng)計了240份作文在期末試卷、批改網(wǎng)打分、本系統(tǒng)考評的分數(shù)情況,因為期末考試作文滿分是20分,其他兩種系統(tǒng)都是百分制的,為了方便對比我們將三個分數(shù)都轉(zhuǎn)換成對應(yīng)的百分制。圖2是隨機抽取34篇作文的評分結(jié)果。

        通過數(shù)字比較和圖形觀察都可以比較明顯的看出,本系統(tǒng)的打分結(jié)果更貼近老師真實的英語閱卷情況。

        4 結(jié) 論

        本系統(tǒng)通過預(yù)處理文本和提取文本關(guān)鍵字對作文先進行預(yù)處理,提取能代表作文內(nèi)容的特征單詞;之后將這些特征單詞應(yīng)用在潛在語義模型中,獲得能代表作文內(nèi)容的特征項;接著提取作文語言方面的信息,如單詞正確率、語法錯誤情況、句子的長度等,作為作文語言方面的特征項;然后將這些特征共同組成代表作文寫作水平的特征向量;最后利用潛在語義分析和K近鄰算法對英語作文進行評分。

        通過實驗表明,本文提出的英語作文自動評分系統(tǒng)基本滿足話題作文的閱卷參考需要,下一步是利用更好的分詞算法提高中間數(shù)據(jù)的清潔度,并優(yōu)化算法提高語義分析精準(zhǔn)度,進而使英語作文評分的成績更貼合實際情況。

        參考文獻:

        [1] 任霞.計算機輔助英語教學(xué) [J].科技創(chuàng)新導(dǎo)報,2008(17):223.

        [2] 梁茂成,文秋芳.國外作文自動評分系統(tǒng)評述及啟示 [J].外語電化教學(xué),2007(5):18-24.

        [3] 熊松榮,汪陽.寫作自動評價系統(tǒng)在大學(xué)英語寫作教學(xué)中的應(yīng)用 [J].湖北函授大學(xué)學(xué)報,2018,31(17):156-157.

        [4] Luo H,Guo S.The improvement of Chinese word analyzer based on Lucene [J].Microcomputer & Its Applications,2018,34(11):76-78+82.

        [5] Miller G A. WordNet:a lexical database for English [J].Communications of the ACM,1995,38(11):39-41.

        [6] Fellbaum C.WordNet:An Electronic Lexical Database [J].Library Quarterly Information Community Policy,1998,25(2):292-296.

        [7] Grainger T,Potter T. Solr in Action [M].Manning Publications Co.,2014.

        [8] 楊倩倩,徐棟.TFIDF方法在英語句子相似度計算中的應(yīng)用初探 [J].電腦知識與技術(shù),2012,8(17):4127-4128.

        [9] Joachims T.A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization [C]// International Conference on Machine Learning,1996:143-151.

        [10] 李榮陸.文本分類及其相關(guān)技術(shù)研究 [D].上海:復(fù)旦大學(xué),2005.

        [11] 桂詩春.潛伏語義分析的理論及其應(yīng)用 [J].現(xiàn)代外語,2003,26(1):76-84.

        [12] Pearson K. Note on Regression and Inheritance in the Case of Two Parents [J]. Note on Regression and Inheritance in the Case of Two Parents,1895,58:240-242.

        [13] Hall M,F(xiàn)rank E,Holmes G,et al. The WEKA data mining software:an update [J] .Acm Sigkdd Explorations Newsletter,2009,11(1):10-18.

        [14] Holmes G,Donkin A,Witten I H. WEKA:a machine learning workbench [C]// Conference on Intelligent Information Systems,2002:357-361.

        [15] Hastie T,Tibshirani R. Discriminant adaptive nearest neighbor classification [J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,1996,18(6):607-616.

        作者簡介:張銳捷(1996-),女,漢族,山西太原人,本科生,研究方向:智能教育技術(shù)、計算機軟件技術(shù);宋萬里(1981-),男,漢族,遼寧法庫人,副教授,研究方向:智能教育技術(shù)、數(shù)據(jù)挖掘;劉琪(1996-),女,漢族,本科生,研究方向:計算機軟件技術(shù);范圓圓(1997-),女,漢族,本科生,研究方向:計算機軟件技術(shù);姜戴銳(1997-),男,漢族,本科生,研究方向:計算機軟件技術(shù);葛藝芃(1997-),女,漢族,本科生,研究方向:計算機軟件技術(shù)。

        日韩一区二区不卡av| 日韩精品成人无码专区免费| 最近中文字幕大全在线电影视频| 久久久精品免费观看国产| 在线观看av片永久免费| 日本一区二区三区丰满熟女| 欧美最猛黑人xxxx| 久久精品亚洲中文字幕无码网站| 精品熟女少妇免费久久| 美女性色av一区二区三区| 午夜性刺激免费看视频| 男女性高爱潮免费网站| 中国精品视频一区二区三区| 麻豆国产精品伦理视频| 日韩欧美在线综合网另类| 精品国精品无码自拍自在线| 毛片在线啊啊| 男女视频网站在线观看| 人妻精品久久无码区| 国产综合激情在线亚洲第一页| 日本一区二区在线播放观看| 日本熟女精品一区二区三区| 丰满爆乳在线播放| 性导航app精品视频| 国语自产啪在线观看对白| 亚洲乱码一区二区三区在线观看| 国产午夜福利在线播放| 白色橄榄树在线免费观看| 精品熟女视频一区二区三区国产| 久久精品www人人爽人人| 久久亚洲黄色| 国产精品国产三级国产专区51区 | 一本一道人人妻人人妻αv| 国内大量揄拍人妻在线视频| 亚洲av粉色一区二区三区| 日本人妖熟女另类二区 | 亚洲中文字幕第一页在线| 日本高清视频在线一区二区三区| 国产在线一区二区三区四区 | 日本高清二区视频久二区| 黑人巨大精品欧美|