趙瑞雪
摘 要:英語(yǔ)自動(dòng)評(píng)分系統(tǒng)在信息化時(shí)代下得到長(zhǎng)足發(fā)展,但現(xiàn)有研究成果對(duì)于文本特征的分析和提取依然沒有很大進(jìn)展。針對(duì)這一問題,提出基于詞向量聚類的文本特征提取算法,并借助隨機(jī)森林模型對(duì)作文大賽中8個(gè)作文子集進(jìn)行預(yù)測(cè),并與人工評(píng)分結(jié)果進(jìn)了加權(quán)分析,研究發(fā)現(xiàn):首先,基于詞向量聚類的分析可以從單詞頻率、詞匯大小和分布位置3方面表征文本句式的多樣性與復(fù)雜性;其次,通過模塊化的評(píng)分思路對(duì)英語(yǔ)自動(dòng)評(píng)分系統(tǒng)進(jìn)行了4層架構(gòu)設(shè)計(jì):契合度特征生成模塊、文本特征生成模塊、非文本特征生成模塊以及學(xué)習(xí)模型評(píng)估模塊;最后,將預(yù)測(cè)成果進(jìn)行二次加權(quán)分析發(fā)現(xiàn),隨機(jī)森林模型的英語(yǔ)自動(dòng)評(píng)分效果較好,二次加權(quán)K值普遍在0.78以上,最高值為0.905,平均值為0.862,各項(xiàng)參數(shù)高于通用評(píng)分方法10%~18%,基于Bagging方法的隨機(jī)森林算法在獲取了精確的聚類向量特征后,可以在樣本數(shù)量不夠的情況下有效避免過度擬合誤差。該研究為人工智能背景下英語(yǔ)作文自動(dòng)評(píng)分方向的研究提供一定參考和借鑒。
關(guān)鍵詞: 英語(yǔ)作文; 自動(dòng)評(píng)分; 聚類分析
中圖分類號(hào): TP 319
文獻(xiàn)標(biāo)志碼: A
Abstract: Automatic English scoring system has been paid more and more attention to and studied, but there is still no great breakthrough in the analysis and extraction of text features. In order to solve this problem, this paper puts forward a text feature extraction algorithm based on clustering analysis and the weighted analysis with artificial score results. The study found the following conclusions. Firstly, based on the word, the standard text diversity and complexity can be analyzed by the word frequency vector clustering, vocabulary size and distribution of sentence of three aspects. Secondly, the modular scoring approach is adopted to design a four-layer architecture of the automatic scoring system, i.e., fit feature generation module, text feature generation module, non-text feature generation module and learning model evaluation module. Finally, a quadratic weighted analysis of the prediction results showed that the automatic English scoring effect of the random forest model was better. The quadratic weighted K value was generally above 0.78, the highest value was 0.905, the average value was 0.862, and the parameters were 10%~18% higher than the general scoring method. It is hoped that the research of this paper can provide some reference for the research of automatic scoring of English compositions under the background of artificial intelligence.
Key words: English composition; automatic grading; clustering analysis
0 引言
5G時(shí)代使得云計(jì)算的速率得到大幅度提升,隨著人工智能技術(shù)在各行各業(yè)的推廣和應(yīng)用,英語(yǔ)作文自動(dòng)評(píng)分的處理和分析研究也開始了相關(guān)探索[1-2]。目前,國(guó)外一些發(fā)達(dá)國(guó)家開始采用自動(dòng)評(píng)分系統(tǒng)軟件進(jìn)行一些基礎(chǔ)性考試的閱卷和評(píng)分,并取得了一定效果。例如,美國(guó)杜克大學(xué)研發(fā)的IEA英語(yǔ)自動(dòng)評(píng)分系統(tǒng)已經(jīng)被正式納入到托福和雅思考試中,大大提高了文章批改效率[3-4]。智能化的英語(yǔ)智能評(píng)分系統(tǒng)能夠極大提高英語(yǔ)批改效率,節(jié)約人力資源成本[5]。英語(yǔ)作文自動(dòng)評(píng)分的算法研究方面,關(guān)于英語(yǔ)文本的表征一直是研究難題,傳統(tǒng)的作文評(píng)分方法在文本內(nèi)容的分析方面較為模糊,其重點(diǎn)在于詞匯本意的解讀,無(wú)法理解語(yǔ)句潛在的意思表達(dá),因此會(huì)忽略一些關(guān)鍵作文信息。本文提出一種利用詞向量聚類的方式來對(duì)文本內(nèi)容特征進(jìn)行提取,該聚類方法一方面可以充分評(píng)價(jià)文本的字面大意,另一方面可以對(duì)作文的題意符合程度進(jìn)行模糊評(píng)價(jià)。此外,基于隨機(jī)森林學(xué)習(xí)模型對(duì)作文實(shí)現(xiàn)預(yù)測(cè)打分,利用國(guó)際上通用的英語(yǔ)語(yǔ)料庫(kù)對(duì)該英語(yǔ)自動(dòng)評(píng)分系統(tǒng)進(jìn)行評(píng)價(jià),發(fā)現(xiàn)該自動(dòng)評(píng)分系統(tǒng)所預(yù)測(cè)的分?jǐn)?shù)進(jìn)行二次加權(quán)后優(yōu)于目前國(guó)際上較為通用的評(píng)分系統(tǒng),從而驗(yàn)證了本文的研究成果。
1 文本內(nèi)容的詞匯聚類方法
英語(yǔ)作文寫作中的核心問題有兩個(gè),第一個(gè)是詞匯意思的準(zhǔn)確表達(dá),第二個(gè)是語(yǔ)句內(nèi)容與主題的契合程度[6]。本文依據(jù)目前較為通用的語(yǔ)料庫(kù)系統(tǒng)Word2vec模擬出詞匯向量,然后利用聚類方法對(duì)詞匯進(jìn)行不同類別的詞匯向量分級(jí),進(jìn)而獲取作文的本文特征值。
1.2 詞匯向量的生成
目前較為流行的詞匯向量生成方式以人工神經(jīng)網(wǎng)絡(luò)模擬為主,這類型方法通過自編碼方式對(duì)英文文本的特征進(jìn)行重新編碼,獲取不同詞匯的權(quán)重矩陣,然后通過神經(jīng)元函數(shù)進(jìn)行激活判斷,這種方法的缺點(diǎn)是當(dāng)文本訓(xùn)練量大時(shí)會(huì)降低詞匯向量的生成效率[7-8]。本文提出基于Word2vec語(yǔ)料庫(kù)的訓(xùn)練方式來對(duì)詞匯向量進(jìn)行表征,提高了訓(xùn)練的速度和效率,這種改進(jìn)的訓(xùn)練方法可以同時(shí)調(diào)用兩種向量訓(xùn)練模型,分別為CRB模型和SKIP模型,模型結(jié)構(gòu)原理,如圖1所示。
對(duì)比兩種不同的訓(xùn)練模型發(fā)現(xiàn),CRB模型是一個(gè)樹形結(jié)構(gòu),通過預(yù)測(cè)上下文的詞意來預(yù)測(cè)當(dāng)前詞匯,而SKIP模型剛好相反,通過確定當(dāng)前詞匯來預(yù)測(cè)上下文的詞意。為了提高訓(xùn)練模型的效率,需要提高訓(xùn)練參數(shù)c值,本文的詞匯向量生成基于輸入層進(jìn)行神經(jīng)網(wǎng)絡(luò)分析,然后通過投影層進(jìn)行歸類,最后通過輸出層獲取歸一化的詞匯概率分布情況。這種通過量中訓(xùn)練模型進(jìn)行正向和反向演示后,對(duì)樣本就能夠得到精確的區(qū)分度。
1.2 詞向量的聚類算法設(shè)計(jì)
英文單詞不同于漢字,由于其通過字母組合的方式,每個(gè)詞均可以通過詞向量的模式進(jìn)行表示[9]。每一個(gè)英文句式內(nèi)都有多個(gè)重復(fù)出現(xiàn)的詞,這些詞共同構(gòu)成了詞向量的類別以及內(nèi)在含義。鑒于以上特點(diǎn),本文提出利用K均值聚類算法,對(duì)英文作文中的詞向量進(jìn)行聚類分析,聚類過程中需要考慮詞匯數(shù)量、語(yǔ)法、頻率以及分布位置等,將聚類文本分割成N維向量,每個(gè)向量為詞匯聚類后的某一類別。其具體算法流程如下:
1.3 聚類詞向量特征提取
經(jīng)過聚類后的詞向量具備一定的代表性特征,英文作文分析中假設(shè)經(jīng)過聚類算法后得到k個(gè)聚類文本,每個(gè)句子中的單詞均在這k個(gè)聚類文本中,每篇文本中的不同語(yǔ)義進(jìn)行信息集合就能夠得到詞語(yǔ)的出現(xiàn)頻率、使用頻率等權(quán)重值。本文所處采用的自動(dòng)評(píng)分系統(tǒng)中主要統(tǒng)計(jì)了詞向量的3個(gè)特征,包括單詞頻率、大小以及分布位置,其中分布位置是用于表達(dá)句子的復(fù)雜性和多樣性特征,例如通過一個(gè)語(yǔ)義語(yǔ)句中作者使用了多個(gè)詞語(yǔ)進(jìn)行表述,代表該作者具備較好的英文功底。按照以上研究思路,本文對(duì)英文作文進(jìn)行了文本特征提取和分類。
2 基于隨機(jī)森林的評(píng)分模型設(shè)計(jì)
2.1 模型總體設(shè)計(jì)
英語(yǔ)評(píng)分模型總體上分為四個(gè)模塊,分別為:契合度特征生成模塊、文本特征生成模塊、非文本特征生成模塊以及學(xué)習(xí)模型評(píng)估模塊。
契合度特征用于表征英語(yǔ)作文與考試論點(diǎn)的符合程度,本文采用如下方法進(jìn)行契合度特征的生成:首先以單詞為單位,計(jì)算單詞出現(xiàn)的頻率F,然后計(jì)算該單詞的反向頻率TF,兩者的乘積為詞匯權(quán)重K,然后選取排名前10位的詞匯進(jìn)行均值聚類特征提取,從而獲取該詞匯的頻率、個(gè)數(shù)和分布情況。文本特征的提取按照第1節(jié)的方法進(jìn)行分析。非文本特征模塊中,剔除掉了詞匯向量的影響,而考慮文本的復(fù)雜程度例如語(yǔ)法特征和句式特征等。最后,利用隨機(jī)森林模型對(duì)以上三種特征進(jìn)行預(yù)測(cè)評(píng)估,進(jìn)而獲得評(píng)估分?jǐn)?shù)。
2.2 數(shù)據(jù)預(yù)處理
選取數(shù)據(jù)來源于某作文評(píng)分比賽過程中所用到的作文數(shù)據(jù),該作文共包含8個(gè)不同的作文子集以及得分點(diǎn),同時(shí)該題目的得分情況有人工評(píng)分和寫作評(píng)分。作文水平為初中水平,字?jǐn)?shù)一般在200~500字,預(yù)處理包括兩步驟:
首先,清洗關(guān)鍵數(shù)據(jù)。由于作文數(shù)據(jù)中存在一些錄入錯(cuò)誤或者筆誤等,導(dǎo)致作文字?jǐn)?shù)太少,作文得分不正常,這種數(shù)據(jù)應(yīng)進(jìn)行清洗和剔除。
其次,大小寫統(tǒng)一。由于英文作文格式要求部分字母大小寫不同,這樣在機(jī)器評(píng)分過程中會(huì)認(rèn)為是兩個(gè)不同單詞,本文通過將所有單詞轉(zhuǎn)化為小寫的方式進(jìn)行替換。
2.3 數(shù)據(jù)特征的提取
數(shù)據(jù)特征的提取包含3方面,尤其數(shù)據(jù)特征的準(zhǔn)確性和分類效果某種程度上其重要性高于預(yù)測(cè)模型。本文基于文本特征、非本文特征和作文契合度特征對(duì)數(shù)據(jù)進(jìn)行聚類分析和歸納。該數(shù)據(jù)特征的準(zhǔn)確輸入到模型中才能夠達(dá)到預(yù)想的訓(xùn)練效果。
2.4 隨機(jī)森林模型預(yù)測(cè)
選取隨機(jī)森林模型對(duì)特征數(shù)據(jù)進(jìn)行預(yù)測(cè)。隨機(jī)森林屬于Bagging模型的一種衍生模型,這種模型具有自動(dòng)采樣功能,通過對(duì)訓(xùn)練集合中的樣本進(jìn)行有目的的放回和選取進(jìn)而達(dá)到?jīng)Q策目的[10]。本質(zhì)上來說隨機(jī)森林模型是一種決策樹結(jié)構(gòu),通過對(duì)樹形結(jié)構(gòu)的邊和節(jié)點(diǎn)進(jìn)行甄別達(dá)到預(yù)測(cè)目的。本文的基本預(yù)算過程如下:
(1) 在作文集中隨機(jī)放回和抽取出x個(gè)樣本作文;
(2) 根據(jù)聚類算法所確定的聚類特征K提取n個(gè)特征,然后將第一步所抽取的n個(gè)樣本作文構(gòu)件決策樹;
(3) 重復(fù)決策樹構(gòu)造過程,形成隨機(jī)森林模型;
(4) 通過隨機(jī)森林形成的新數(shù)據(jù),進(jìn)行擬合和權(quán)重分析,獲取最終得分值。
隨機(jī)森林模型構(gòu)建過程中,關(guān)鍵的問題是對(duì)于子樹數(shù)量的確定、樹的深度確定以及樹的節(jié)點(diǎn)確定,只有建立合適的決策樹數(shù)量、節(jié)點(diǎn)和深度才能得到合理的模型。其關(guān)鍵算法如下:
RF= Random Forest Regressor( metri=8,depth d=20,feather f=50,
sample a=500,jobs=0)
class Least_square:
def __init__(self):
self.param = np.array([])
self.Y = np.array([])
least_instance = Least_square()
param = least_instance.fit(X,Y)
result,var = least_instance.predict(X)
3 英語(yǔ)自動(dòng)評(píng)分系統(tǒng)的評(píng)價(jià)
3.1 評(píng)價(jià)方法
為了驗(yàn)證基于詞向量聚類的自動(dòng)評(píng)分系統(tǒng)的打分效果,本文基于某作文評(píng)分比賽中所提供的標(biāo)準(zhǔn)數(shù)據(jù)作為研究對(duì)象,如表1所示。
表1中包含8個(gè)不同的作文集,不同作文集具有不同的文題和得分分布情況,每個(gè)子集中包含的論文一般為1 000~2 000篇,最低1 040篇,最高1 944篇。然后,利用自動(dòng)評(píng)分系統(tǒng)和人工評(píng)分結(jié)果進(jìn)行二次加權(quán)對(duì)比求得K值,若K=0,代表自動(dòng)評(píng)分系統(tǒng)與人工評(píng)分系統(tǒng)的相關(guān)性為0,沒有關(guān)聯(lián)度,自動(dòng)評(píng)分系統(tǒng)隨機(jī)性太大,不符合要求;若K=1,說明自動(dòng)評(píng)分系統(tǒng)與人工評(píng)分系統(tǒng)具有完全一致性。因此,K值越高,代表自動(dòng)評(píng)分系統(tǒng)的評(píng)分可信度越高。
3.2 評(píng)分效果驗(yàn)證
基于詞向量聚類,對(duì)8個(gè)作文子集進(jìn)行自動(dòng)化評(píng)分,并與人工評(píng)分結(jié)果進(jìn)行對(duì)比,采用二次加權(quán)算法求得加權(quán)值K,并與國(guó)際通用評(píng)分軟件對(duì)比,如表2所示。
從表2可以發(fā)現(xiàn),基于隨機(jī)森林算法的作文子集評(píng)分結(jié)果中,其二次加權(quán)K值普遍在0.78以上,最高值為0.905,平均值為0.862。而采用國(guó)際通用的評(píng)分算法所獲取的加權(quán)K值其最低值為0.654,最高值0.755,平均值0.792。從預(yù)測(cè)結(jié)果上看,本文的計(jì)算方法明顯優(yōu)于現(xiàn)有的評(píng)分預(yù)測(cè)模型,高于通用算法成績(jī)10%~18%,基本可以達(dá)到與人工評(píng)分相匹配的效果。進(jìn)一步分析作文樣本結(jié)構(gòu)發(fā)現(xiàn),基于Bagging方法的隨機(jī)森林算法在獲取了精確的聚類向量特征后,可以在樣本數(shù)量不夠的情況下有效避免過度擬合誤差,從而降低方差值。,而常規(guī)的模型預(yù)測(cè)算法在樣本數(shù)量低于1 400篇時(shí),其二次加權(quán)K值明顯降低,并且基本上低于0.7左右。
4 總結(jié)
針對(duì)目前通用的英語(yǔ)自動(dòng)評(píng)分系統(tǒng)在文本內(nèi)容特征的分析較為模糊,本文提出基于詞向量聚類的方法對(duì)英文作文文本中的文本特征進(jìn)行了重新分類和提取,并基于該文本特征開展了基于隨機(jī)森林模型的自動(dòng)評(píng)分設(shè)計(jì),結(jié)論如下:
(1) 基于詞向量聚類的思路,能夠從三個(gè)方面分析作文文本特征,首先是單詞頻率,其實(shí)是詞匯大小,最后是分布位置。其中,詞匯分布位置能夠充分表達(dá)句子的復(fù)雜多樣性,一個(gè)語(yǔ)義中作者使用了多個(gè)詞語(yǔ)進(jìn)行表述,說該作者具備較好的英文功底。
(2) 通過模塊化的評(píng)分思路對(duì)英語(yǔ)自動(dòng)評(píng)分系統(tǒng)進(jìn)行了總體架構(gòu)設(shè)計(jì),分別為:契合度特征生成模塊、文本特征生成模塊、非文本特征生成模塊以及學(xué)習(xí)模型評(píng)估模塊。
(3) 基于作文評(píng)分比賽中8個(gè)作文子集數(shù)據(jù)作為輸入?yún)?shù),與人工評(píng)分結(jié)果進(jìn)行二次加權(quán)分析,發(fā)現(xiàn)隨機(jī)森林模型的英語(yǔ)自動(dòng)評(píng)分效果較好,二次加權(quán)K值普遍在0.78以上,最高值為0.905,平均值為0.862,各項(xiàng)參數(shù)高于通用評(píng)分方法10%~18%。
由于時(shí)間有限,本文關(guān)于評(píng)分模型的修正還需要進(jìn)一步深入,今后的研究應(yīng)該著眼于多種學(xué)習(xí)模型如梯度提升樹模型、XGBoost模型等的優(yōu)缺點(diǎn)分析和融合度算法等。
參考文獻(xiàn)
[1]
陳春梅.人工智能在英語(yǔ)寫作中的應(yīng)用——項(xiàng)基于中國(guó)知網(wǎng)的統(tǒng)計(jì)與分析[J].樂山師范學(xué)院學(xué)報(bào),2019,34(7):105-111.
[2] 史舜威. 多特征智能批改模型的研究和應(yīng)用[D].北京:北京郵電大學(xué),2019.
[3] Attali Y, Burstein J. Automated essay scoring with e-rater? V.2[J]. The Journal of Technology, Learning and Assessment,2006, 4(3): 3-30.
[4] Daigon A. Computer grading of English composition. The English Journal, 1966, 55(1): 46-52.
[5] Landauer TK. Automatic essay assessment[J]. Assessment in education: Principles, policy & practice, 2003, 10(3):295-308.
[6] 穆向妮.英語(yǔ)深度學(xué)習(xí)云平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[J].微型電腦應(yīng)用,2019,35(8):20-22.
[7] 王柳莎.基于K-均值聚類算法的英語(yǔ)教學(xué)崗位勝任能力評(píng)估系統(tǒng)設(shè)計(jì)[J].微型電腦應(yīng)用,2019,35(7):128-130.
[8] 周明,賈艷明,周彩蘭,等.基于篇章結(jié)構(gòu)的英文作文自動(dòng)評(píng)分方法[J].計(jì)算機(jī)科學(xué),2019,46(3):234-241.
[9] 李思言. “互聯(lián)網(wǎng)+”大學(xué)英語(yǔ)寫作形成性評(píng)估模型的構(gòu)建與驗(yàn)證[D].哈爾濱:哈爾濱理工大學(xué),2019.
[10] 劉瓊.基于MVC架構(gòu)的英語(yǔ)教學(xué)系統(tǒng)設(shè)計(jì)及應(yīng)用[J].微型電腦應(yīng)用,2018,34(11):107-109.
(收稿日期: 2019.08.24)