鄭海燕
(咸陽職業(yè)技術(shù)學(xué)院師范學(xué)院,咸陽 712000)
英語作文自動評分是提升英語教學(xué)工作自動化水平的一項(xiàng)重要手段,但傳統(tǒng)的英語作文自動評分普遍十分依賴人工統(tǒng)計,文本特征抽取工作量較大,并不能很好地滿足英語教學(xué)工作自動化的需求。隨著機(jī)器學(xué)習(xí)技術(shù)的不斷完善,深度學(xué)習(xí)模型在英語閱讀理解和自動翻譯等方面的應(yīng)用越來越廣泛,教育界開始將相關(guān)技術(shù)應(yīng)用于英文寫作評分領(lǐng)域。例如:李俊嫻[1]建立了一套基于機(jī)器學(xué)習(xí)理論的英語機(jī)考作文自動評分算法,通過模塊結(jié)構(gòu)的混合評分指標(biāo)系統(tǒng)分別從內(nèi)容分析、句子多樣性分析和篇章結(jié)構(gòu)分析共3 個方面對英語作文進(jìn)行評分,使整個評分模型的分析結(jié)果更加符合評分標(biāo)準(zhǔn)。然而該方案只能借助簡單的規(guī)則實(shí)現(xiàn)針對英文文本的特征抽取,所提出的內(nèi)容分析模塊只適用于詞匯層次,難以充分分析文章整體的語言質(zhì)量。因此,本研究在英文寫作評分模型中融入表層語言特征、深層句法特征、內(nèi)容連貫特征和主題相關(guān)特征等四種特征向量,通過豐富評分層次使評分效果更加接近人工評分。
本研究所提出的英文寫作評分模型將基于作文實(shí)例的文本特征設(shè)定為輸入,將代表作文質(zhì)量的分?jǐn)?shù)值設(shè)定為輸出。
在模型訓(xùn)練方面,設(shè)當(dāng)前的訓(xùn)練數(shù)據(jù)集為D={ (x1,y1),(x2,y2),…,(xn,yn) };xi=(x(i1),x(i2),…,)T為作文實(shí)例;yi∈{1 ,2,…,r}為相應(yīng)的評分標(biāo)簽。首先基于選定的評分要素針對作文文本實(shí)施特征提取,獲取各項(xiàng)特征向量xm,再初始化子評分模型的權(quán)值分布αm=,建立子評分模型gm(xm),在此基礎(chǔ)上計算gm(xm)在訓(xùn)練數(shù)據(jù)集上的預(yù)測誤差率em,進(jìn)而對權(quán)值分布進(jìn)行更新,最終生成如下所示的評分模型[2-4]。
根據(jù)公式(1)所示的評分模型可知,該模型是一個由各子模型gm(x)線性組合而成的加法模型。本研究所選用的4個子模型分別為基于主題相關(guān)特征、內(nèi)容連貫特征、深層句法特征和表層語言特征的評分模型,運(yùn)用神經(jīng)網(wǎng)絡(luò)針對各子模型提取文本特征向量x,再以線性變換的方式將特征向量x轉(zhuǎn)換為具體數(shù)值,并通過加權(quán)平均將各子模型組合為完整的評分模型[5-7]。
基于本研究所選定的四項(xiàng)文本特征和transformer 編碼器工具建立如圖1 所示的混合神經(jīng)網(wǎng)絡(luò)評分模型。
圖1 英文寫作評分模型基本結(jié)構(gòu)
根據(jù)圖1可知,本研究所提出的英文寫作評分模型包含3個子網(wǎng)絡(luò),即淺層語言網(wǎng)絡(luò)、句法網(wǎng)絡(luò)和語義網(wǎng)絡(luò),各網(wǎng)絡(luò)均通過堆疊的transformer encoder 模塊來學(xué)習(xí)文本內(nèi)容,分別生成淺層語言信息特征、句法結(jié)構(gòu)信息特征和語義信息特征,并將各項(xiàng)特征信息輸入sigmoid 線性層,將各項(xiàng)特征向量轉(zhuǎn)換為具體分?jǐn)?shù)數(shù)值[8-10]。在此基礎(chǔ)上,針對通過BERT 模型所獲取的主題文本向量和語義向量實(shí)施余弦相似度計算處理,進(jìn)而獲取主題相關(guān)度評分,再對各項(xiàng)評分?jǐn)?shù)值實(shí)施加權(quán)求和處理而得到最終評分,整個評分模型的表達(dá)方式如下:
在上述公式中,αi代表各項(xiàng)特征向量的權(quán)重系數(shù);sim代表作文文本向量x1和主題文本向量x0的余弦相似度,該值取[ -1,1];σ代表sigmoid函數(shù);xi為transformer encode 模型生成的向量表示,即淺層語言向量、句法向量、語義向量和主題文本向量;R代表評分范圍內(nèi)的最大值;w代表線性層權(quán)重;b代表偏置系數(shù)。
通過transformer encoder 模型下的嵌入查找層確定英文文本中各單詞的位置,進(jìn)而生成詞匯位置信息embedding,本研究在embedding 的基礎(chǔ)上共堆疊6層transformerblocks,進(jìn)而獲取語義特征向量,運(yùn)用sigmoid函數(shù)將該向量轉(zhuǎn)換為具體分?jǐn)?shù)值。
該網(wǎng)絡(luò)負(fù)責(zé)基于各個句法成分之間的關(guān)系重新編譯英文文本,通過Stanford Tagger 詞性標(biāo)注工具對文本中所有的單詞詞性加以標(biāo)注,詞性標(biāo)注類型共計36 種,再運(yùn)用transformer encoder 模型下的embedding_lookup 層獲取文本各詞的位置embedding 和詞性embedding,采用與語義網(wǎng)絡(luò)相同的特征處理方法生成句法特征向量,運(yùn)用sigmoid函數(shù)將該向量轉(zhuǎn)換為具體分?jǐn)?shù)值。
運(yùn)用Stanford Parser 句法解析工具將英文文本中的各個句子解析為句法樹,進(jìn)而獲取句子的淺層語言特征,句法樹具體形式如圖2 所示。由于Stanford Parser 分析模式下英文文本的淺層語言特征共計15 個,因此需要采用15 維度的獨(dú)熱編碼對淺層語言特征加以向量化表示,進(jìn)而獲取淺層語言特征向量。
圖2 通過Stanford parser構(gòu)建的句法樹
通過kaggle 數(shù)據(jù)集對基于混合神經(jīng)網(wǎng)絡(luò)模型的英文寫作評分算法進(jìn)行測試,該數(shù)據(jù)集記錄了8種不同主題的英文作文文本,訓(xùn)練集和測試集的數(shù)據(jù)占比分別為60%和40%。
通過二次加權(quán)Kappa(quadratic weight kappa,QWK)來評估模型算法與人工評分之間的一致性水平,QWK 中的二次加權(quán)矩陣是一個R·R權(quán)重矩陣,其中各元素Wi,j的表達(dá)方式如下:
公式(5)將模型評分結(jié)果記為j,將人工評分結(jié)果記為i,各評分方案的評分范圍均為[ 1,R]。在此基礎(chǔ)上通過如下方法計算該評分模型的QWK值。
公式(6)將模型評分為j、人工評分結(jié)果為i的作文數(shù)量記為Oi,j,將模型評分為j與人工評分為i的histogram 向量的外積記為Ei,j。分別對Oi,j和Ei,j實(shí)施歸一化處理,使二者之間的元素總和相同,再對8 個文本數(shù)據(jù)集的QWK 進(jìn)行加總平均處理,將處理結(jié)果作為模型算法的最終評估指標(biāo),計算過程如下。
首先,將kappa 值記為k,通過費(fèi)雪變換的方式將k值限制在[ 0,0.999 ]區(qū)間范圍內(nèi),處理方法如下:
由于各主題作文在評分范圍方面存在差異,因此需要對最終平均k值加以規(guī)范,具體方法如下:
公式(8)所計算出的k值即為平均QKW值。
將本研究所提出的基于混合神經(jīng)網(wǎng)絡(luò)模型的英文寫作評分方法(HNNTEsem)與其他幾種主流的英文寫作評分模型算法進(jìn)行對比,對比結(jié)果如表1所示。
表1 各模型算法QKW指標(biāo)差異對比
根據(jù)實(shí)驗(yàn)分析對比結(jié)果可知,本研究所提出的基于混合神經(jīng)網(wǎng)絡(luò)模型的英文寫作評分方法在平均二次加權(quán)kappa指標(biāo)方面具有較為明顯的優(yōu)勢,針對英文作文的評分結(jié)果更加接近于人工評分,具有一定的應(yīng)用價值。
本文詳細(xì)介紹了混合神經(jīng)網(wǎng)絡(luò)模型在英文寫作評分中的應(yīng)用策略,介紹了該模型的基本結(jié)構(gòu)與數(shù)據(jù)處理的基本方法,并通過英文寫作評分實(shí)驗(yàn)展示了該算法相比于其他主流算法的應(yīng)用優(yōu)勢。在未來的研究工作中,還需要進(jìn)一步將該算法與圖形顯示技術(shù)結(jié)合起來,建立一套更具可視性能的作文文本分析系統(tǒng)。