魏揚(yáng)威, 黃萱菁
?
結(jié)合語言學(xué)特征和自編碼器的英語作文自動評分①
魏揚(yáng)威, 黃萱菁
(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 上海 201203) (復(fù)旦大學(xué)上海市智能信息處理重點(diǎn)實(shí)驗(yàn)室, 上海 201203)
近年來, 越來越多的大規(guī)模英語考試采用了自動評分系統(tǒng). 因此, 對英語作文自動評分的研究有著非常重要的價(jià)值. 我們先依據(jù)英語作文寫作技巧提取了大量語言學(xué)特征, 再分別使用自編碼器, 特征值離散化方法對特征進(jìn)行重構(gòu), 最后我們使用分層多項(xiàng)模型來輸出文章的最終得分. 實(shí)驗(yàn)表明, 該方法能取得很好的預(yù)測效果, 而且面對不同主題的作文進(jìn)行預(yù)測時(shí)也能顯示出較好的魯棒性. 相比于傳統(tǒng)自動評分方法皮爾森相關(guān)系數(shù)高出9.7%, 具有良好的實(shí)際應(yīng)用價(jià)值.
自動評分; 自編碼器; 離散化; 文本特征提取
英語作文自動評分使用自然語言處理相關(guān)技術(shù), 讓計(jì)算機(jī)系統(tǒng)對于目標(biāo)文章給出合適的得分. 隨著很多英語等級認(rèn)證考試報(bào)名人數(shù)的增加和計(jì)算技術(shù)的發(fā)展, 一些自動評分的軟件已經(jīng)正式被使用. 國外最有代表性的自動評分系統(tǒng)有: Project Essay Grade(PEG), 于1966年由美國的杜克大學(xué)(University of Duke)的Ellis Page等人開發(fā)[1]; intelligent Essay Assessor(IEA), 由美國科羅拉多大學(xué)(University of Colorado)開發(fā)[2]. e-rater評分系統(tǒng), 已經(jīng)正式被用來評測TOEFL和GRE考試中文章的質(zhì)量[3]. 性能優(yōu)異的自動評分系統(tǒng)結(jié)合文本糾錯(cuò)的功能[4,5]能減少人的工作量, 極大地節(jié)約人力物力資源.
英語作文自動評分的方法研究一直是一項(xiàng)具有挑戰(zhàn)性的, 且不斷被完善的任務(wù). 1996年Arthor Daigon通過對文章語言形式的考察進(jìn)行文章質(zhì)量評測[6]; 1998年, Leah S. Larkey使用了基于文本分類的方法取得了性能的提升[7]; 2011-2014年, Isaac Persing和Vincent Ng等人發(fā)表了一系列的文章, 使用了回歸方法分別從文章的組織結(jié)構(gòu)[8], 文章和對應(yīng)主題的相關(guān)性[9], 還有文章表達(dá)的清晰度方面[10]對文章質(zhì)量進(jìn)行評估; 2013年, Hongbo Chen和Ben He使用了排序的方法, 通過先對文章質(zhì)量進(jìn)行排序再進(jìn)行劃分等級來對文章評分[11].
自編碼器(autoencoder)是人工神經(jīng)網(wǎng)絡(luò)的一種, 通常用來學(xué)習(xí)特征的有效編碼. 2006年Hinton發(fā)表在science上的文章[17]提出了自編碼器, 引發(fā)了這幾年科學(xué)界對人工神經(jīng)網(wǎng)絡(luò)研究的熱潮. Hinton在文中使用了自編碼器對圖像的特征矩陣進(jìn)行壓縮編碼. 自編碼器也可以用于我們的英語自動評分任務(wù), 一方面可以降低特征的維數(shù), 另一方面可以通過重構(gòu)捕捉到原始特征中最重要的信息.
一篇英語作文的原始特征直接用來進(jìn)行分類或者回歸, 往往很難得到很好的評分預(yù)測結(jié)果. 我們可以先使用自編碼器對原始特征進(jìn)行重編碼, 再使用編碼結(jié)果來對文章的評分進(jìn)行預(yù)測.
自編碼器主要是學(xué)習(xí)一個(gè)近似等式:
這里的X表示輸入矩陣, w表示權(quán)重矩陣, b表示偏置. 自編碼器包括編碼和解碼的兩層結(jié)構(gòu). 通過編碼可以得到特征的另外一種表示方式, 再通過解碼將編碼結(jié)果還原出來. 如果最終輸出的還原結(jié)果和輸入非常接近, 那么編碼結(jié)果就可以看成是輸入的近似代替.
自編碼器的意義不在于還原輸入數(shù)據(jù), 而是體現(xiàn)在對隱層神經(jīng)元的限制. 如圖1所示, 為了進(jìn)行壓縮編碼, 我們將隱層神經(jīng)元的數(shù)量設(shè)置為2, 這樣就可以將輸入的5維特征壓縮到2維. 當(dāng)隱層神經(jīng)元的數(shù)量大于輸入特征的維度時(shí), 可以得到特征的高維稀疏編碼結(jié)果.
顯然, 自編碼器的目標(biāo)函數(shù)是輸出結(jié)果和輸入之間的重構(gòu)誤差盡可能小. 其計(jì)算公式如式(2)所示:
當(dāng)然, 為了避免系統(tǒng)的過擬合, 我們還要加入一個(gè)正則化項(xiàng)來控制模型的復(fù)雜度增長:
(3)
如果我們訓(xùn)練的是稀疏自編碼器, 需要在目標(biāo)函數(shù)中再增加一個(gè)約束項(xiàng), 控制模型的稀疏性. 這里引入激活的概念, 如果最后傳遞函數(shù)的輸出結(jié)果非常接近于0, 那么我們認(rèn)為該神經(jīng)元沒有被激活. 而如果最后傳遞函數(shù)輸出的結(jié)果接近于1, 那么該神經(jīng)元被激活了. 通常來說, 傳遞函數(shù)為sigmoid函數(shù):
或者是:
(5)
再引入稀疏性參考, 通常是一個(gè)非常接近于0的值, 比如0.05. 然后計(jì)算和的信息增益, 用來描述這兩者之間分布的差別.
(7)
其中, S2表示隱層中神經(jīng)元的總數(shù), j是對隱層神經(jīng)元的索引. 對于稀疏編碼, 我們將上式的信息增益也作為懲罰項(xiàng)加入目標(biāo)函數(shù)中. 因此對于稀疏自編碼器, 其目標(biāo)函數(shù)為式(8)所示. 其中是一個(gè)系數(shù), 表示對稀疏性懲罰的力度, 這個(gè)值越大表示對稀疏性要求越高.
在有了壓縮編碼和稀疏編碼自編碼器的目標(biāo)函數(shù)之后, 我們可以進(jìn)一步利用優(yōu)化算法, 如梯度下降法, 來對目標(biāo)函數(shù)進(jìn)行優(yōu)化以得到最優(yōu)的網(wǎng)絡(luò)結(jié)構(gòu). 在英語作文自動評分任務(wù)中, 對于提取的原始特征, 我們可以進(jìn)一步使用自編碼器進(jìn)行重構(gòu). 通過控制隱層神經(jīng)元的數(shù)量, 一方面壓縮編碼進(jìn)行特征壓縮, 另一方面稀疏編碼將特征重構(gòu)到高維.
機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行數(shù)據(jù)訓(xùn)練時(shí), 有時(shí)候會遇到少量的異常樣本. 比如英語作文自動評分任務(wù), 其中一維特征是平均每句話中第一人稱代詞所占的比例. 這個(gè)比例不會太高, 一般來說低于0.25, 一些異常學(xué)生作文在該維取值可能達(dá)到了0.8, 0.9或者更高. 為了削弱這些異常樣本的影響, 我們可以使用不同的區(qū)間來對特征值進(jìn)行分段. 比如這里我們可以取0~0.1, 0.1~0.2, 0.2~0.3, 0.3~0.4和0.4~1這幾個(gè)區(qū)間. 不論異常作文在該維度的取值是0.8還是0.9統(tǒng)統(tǒng)歸到0.4~1這個(gè)區(qū)間中, 其本身的特征值并不會加入系統(tǒng)訓(xùn)練. 這樣可以大大減少異常樣本對系統(tǒng)整體性能的干擾.
特征離散化關(guān)鍵問題就在于分割區(qū)間的選擇[18], 不同的分割區(qū)間直接影響到系統(tǒng)的性能. 我們首先將所有樣本都?xì)w為一個(gè)區(qū)間中, 使用信息增益的方式, 來決定是否進(jìn)一步分割區(qū)間, 再遞歸地分割其每個(gè)子區(qū)間. 首先是特征對應(yīng)的熵, 如式(9)所示:
其中是特征對應(yīng)的取值的集合,是上取值F對應(yīng)的比例. 下面我們使用分割邊界對特征劃分, 劃分之后其熵值計(jì)算方法為:
(10)
其中1和2分別是集合對應(yīng)分割邊界的兩個(gè)子集. 因此信息增益為:
當(dāng)然我們不能無限對特征值區(qū)間進(jìn)行分割, 因此, 我們需要增加一個(gè)停止分割條件[19]:
(12)
其中,是集合中的元素個(gè)數(shù), 使用以下公式進(jìn)行計(jì)算:
其中表示中元素的個(gè)數(shù),1和2分別表示1和2中元素的個(gè)數(shù). 有了上述條件之后, 我們在對連續(xù)特征進(jìn)行分割的時(shí)候就會逐漸收斂, 最終停止得到最優(yōu)的分割結(jié)果.
離散化能夠進(jìn)一步提升特征值的表達(dá)能力, 離散化之后的多維特征, 每個(gè)特征都可以有不同的權(quán)重, 因此特征的表達(dá)能力得到進(jìn)一步提升, 系統(tǒng)更加穩(wěn)定. 我們在進(jìn)行自動評分時(shí), 可以對于提取到的原始特征首先進(jìn)行離散化, 離散化后的高維特征再使用自編碼器重編碼. 重構(gòu)的特征最后分別使用支持向量機(jī)進(jìn)行回歸或者分層多項(xiàng)模型進(jìn)行分類, 以輸出一篇學(xué)生作文的最終得分.
一般地, 對英語作文的評價(jià)主要基于三個(gè)大的方面: 詞匯的使用, 即詞匯使用是否正確, 詞匯量是否豐富, 是否高級優(yōu)美; 語法的使用, 即語法結(jié)構(gòu)是否正確, 語法結(jié)構(gòu)是否復(fù)雜(不能過于單一), 句子是否通順; 話語的長短和連貫性, 即句子和句子之間結(jié)構(gòu)是否緊湊.
2002年Eli Hinkel研究了母語是英語的學(xué)習(xí)者和母語非英語的學(xué)習(xí)者的英語寫作在詞法、從句和句子間關(guān)系三個(gè)方面應(yīng)用的差異, 提供了指導(dǎo)英語寫作的一些技巧[12]. 我們認(rèn)為這些差異和技巧能反映英語學(xué)習(xí)者的文章質(zhì)量, 因此從這些角度出發(fā), 提取了一些語言學(xué)特征. 大多數(shù)現(xiàn)有的評分系統(tǒng)往往給出的只是簡單的特征, 如文章長度, 句子長度, 停用詞的個(gè)數(shù). 但是這些特征都不能直接反應(yīng)文章的寫作水平, 我們這里提取的特征, 每一項(xiàng)都旨在考察文章的表述能力和語言的運(yùn)用能力, 更加細(xì)致地考察了作者的寫作功底. 因此, 我們的特征能更好地完成作文評分的任務(wù).
3.1 詞法特征
詞法特征是對于英語寫作水平最基本的考察, 詞法的特征能反應(yīng)文章作者對于詞匯和短語的掌握能力. 如表1所示, 其中列舉類、語言活動類、分析類、結(jié)果類和模糊類等是作者表述中常用的關(guān)鍵性名詞詞匯; 動詞的不同時(shí)態(tài)以及動詞不定式和動名詞能夠考察作者對于動詞形式變換的熟練程度; 形容詞和副詞在句法中常用作修飾成分, 能考察作者對于不同修飾詞其修飾程度的把握. 學(xué)生英語作文中詞匯量不能過于狹窄, 不能僅僅使用某一類的詞.
表1 詞法特征
3.2 從句特征
傳統(tǒng)的特征提取往往只有詞匯級別的考察. 但是僅僅考察作者對于詞法使用的能力是不夠的, 假如一篇作文通篇堆砌高級的詞匯或者精美的短語, 可是全部使用單一的簡單句、短句子, 按照作文評測的標(biāo)準(zhǔn)不能給予高分. 另一方面, 如果只考察詞匯, 系統(tǒng)很容易被學(xué)生作文刻意使用一些詞匯所欺騙[20]. 從句的特征考察的正是作者運(yùn)用復(fù)雜句式的能力, 如果文章中使用的詞匯優(yōu)美準(zhǔn)確, 而且能夠很好地運(yùn)用各類從句使句法不再單一, 這樣的文章是有理由給予較高分?jǐn)?shù)的.
表2 從句級別的特征
3.3 句子間關(guān)系
如果作者的文章中對于詞匯和從句已經(jīng)能夠很好的掌握, 可是句子和句子之間不連貫沒有邏輯, 我們顯然不能給予這篇文章很高的得分. 因此我們加入了句子間關(guān)系的特征, 用來考察作者文章對于前后句子連貫性句子間邏輯性的掌握. 如表3所示, 主要考察前后句的并列, 平行, 遞進(jìn), 因果, 轉(zhuǎn)折關(guān)系, 以及后一句是否是對前一句的說明或者限制. 以上就是我們?nèi)康恼Z言學(xué)特征. 首先從詞法方面, 考察了英語作文中對各類詞匯的掌握情況, 每類詞匯都有其特定的表達(dá)含義和語氣. 同時(shí)還考察了動詞和形容詞的詞法活用, 反映了學(xué)生對于基本的語法知識、句子成分的理解. 然后我們考察了英語作文中從句的使用情況, 各類從句運(yùn)用得是否恰當(dāng)能極大地反映英語寫作水平的高低. 最后考察的是句子的前后關(guān)系, 我們認(rèn)為好的文章不僅要能有好的詞匯表達(dá), 好的從句使用, 還要在文章的組織結(jié)構(gòu)上要有一定的邏輯性, 連貫性. 其中從句級別特征和句子間關(guān)系特征在提取的時(shí)候, 我們先使用Stanford parser進(jìn)行句法分析[13], 再從句法分析樹上進(jìn)行匹配.
表3 句子間關(guān)系的特征
本項(xiàng)研究的數(shù)據(jù)集在kaggle上公開, kaggle是一個(gè)機(jī)器學(xué)習(xí)比賽的公共平臺, 我們可以免費(fèi)注冊賬號下載其舉辦的比賽的訓(xùn)練數(shù)據(jù). 該數(shù)據(jù)集是7-10年級的第一語言學(xué)習(xí)者的英語作文, 一共包含8個(gè)子集, 每個(gè)子集都是獨(dú)立的數(shù)據(jù), 獨(dú)立的主題, 平均文章長度都不同. 數(shù)據(jù)集概況見表1, 其中數(shù)據(jù)子集2在kaggle中給出了2項(xiàng)評分, 我們在這里選取了第1項(xiàng)評分, 即寫作應(yīng)用項(xiàng)作為其最終得分.
表4 數(shù)據(jù)集
如表4中所示, 文章類型主要是論述類、敘事類、說明類和回答問題類. 論述文、敘事文或者說明文要求作者的文章描述一個(gè)故事或者新聞. 而回答問題類則要求作者先閱讀一段材料, 再根據(jù)閱讀材料最后給出的問題和要求寫一篇文章. 8個(gè)數(shù)據(jù)子集的主題各自不同, 其中, 子集1要求談?wù)撚?jì)算機(jī)對生活帶來的影響; 子集2是談?wù)搱D書館是否需要對圖書內(nèi)容進(jìn)行審查; 子集3-6是先閱讀材料再根據(jù)提示寫作文, 4篇材料也都不同; 子集7要求寫一篇關(guān)于耐心的故事; 子集8說明笑是人際關(guān)系中的一個(gè)重要元素, 要求寫一篇關(guān)于笑的文章.
5.1 實(shí)驗(yàn)評測
(15)
(16)
其中A,E分別表示第篇文章的人工評分和系統(tǒng)評分,表示文章的總數(shù). 皮爾森相關(guān)系數(shù)用來反映系統(tǒng)評分和人工評分的線性相關(guān)程度, 取值范圍在[-1,1]之間, 值越大說明相關(guān)性越高. 接近于0表示人工評分和系統(tǒng)評分幾乎沒有相關(guān)性, 接近于1表示人工評分和系統(tǒng)評分幾乎一致, 而小于0則表示人工評分和系統(tǒng)評分負(fù)相關(guān).表示系統(tǒng)得分和人工得分之間的平均偏差,表示系統(tǒng)得分和人工得分之間的均方偏差. 相關(guān)系數(shù)用來作為最主要的評測指標(biāo), 平均偏差和均方偏差作為參考. 我們進(jìn)行5折交叉驗(yàn)證, 對于每個(gè)數(shù)據(jù)子集, 隨機(jī)切分成5份, 每次使用其中3份訓(xùn)練, 在第4份上調(diào)整參數(shù), 在最后1份上進(jìn)行測試.
為了進(jìn)行對比我們分別引入了兩個(gè)baseline系統(tǒng), 其中baseline1系統(tǒng)是kaggle在該比賽中用的baseline, 使用文章的單詞數(shù)和文章的字符個(gè)數(shù)對文章的得分進(jìn)行預(yù)測. 對于baseline2系統(tǒng)我們提取了一些目前系統(tǒng)中常用的特征, 文章的字符長度, 文章的單詞長度, 文章中疑問句和感嘆句個(gè)數(shù), 高級詞匯個(gè)數(shù), 拼寫錯(cuò)誤個(gè)數(shù), 停用詞個(gè)數(shù), n-gram和POS n-gram等特征, 并且結(jié)合Hongbo Chen于2012年發(fā)表在IEEE上的文章[16]中使用的特征, 來進(jìn)行評分.
5.2 特征效果對比
我們首先使用最簡單的方法來對比不同特征對于系統(tǒng)的影響, 直接用支持向量機(jī)(SVM)對于提取的特征進(jìn)行回歸[14]. 具體使用的是libsvm[15].
表5 實(shí)驗(yàn)結(jié)果
如表5中所示, 我們的語言學(xué)特征在這8個(gè)子集中的7個(gè)子集上取得了最高的人機(jī)評測相關(guān)系數(shù). 下面我們看一下這8個(gè)子集上的整體評測效果, 因?yàn)槊總€(gè)子集的評分區(qū)間不同, 所以我們先對得分區(qū)間進(jìn)行歸一化, 其公式如式(17)所示.
其中,表示文章的得分, max()表示所在子集的最高分, min()表示所在子集的最低分.
歸一化之后, 我們再來看8個(gè)子集上的整體效果. 從全部數(shù)據(jù)結(jié)果來看, 相比于baseline1系統(tǒng)和baseline2系統(tǒng), 語言學(xué)特征系統(tǒng)評分在相關(guān)系數(shù)方面分別取得了14.1%和5.4%的性能提升.
表6 8個(gè)子集整體效果
5.3 自編碼器
下面我們使用編碼器對于提取到的特征進(jìn)行重構(gòu), 語言學(xué)特征系統(tǒng)提取到的原始特征總共194維, 我們分別進(jìn)行壓縮編碼和稀疏編碼, 實(shí)驗(yàn)效果如表7所示.
表7 自編碼器特征重構(gòu)
表7中20維~140維是使用自編碼器進(jìn)行特征的壓縮編碼, 200維~2000維是使用自編碼器進(jìn)行特征的稀疏編碼. 其中特征壓縮到100維時(shí), 此時(shí)的相關(guān)系數(shù)達(dá)到0.787, 比直接使用支持向量機(jī)進(jìn)行回歸效果提升了3.4%.
5.4 特征值離散化
我們再結(jié)合特征值的離散化, 先使用基于于信息增益的方法, 將連續(xù)特征離散化到高維的二值特征. 再使用自編碼器來進(jìn)行特征壓縮. 其實(shí)驗(yàn)效果如表8所示. 使用特征值離散化后, 原始特征194維擴(kuò)展到了15800維二值的0,1特征. 我們再使用自編碼器對這15800維特征進(jìn)行壓縮重編碼. 如表8所示, 當(dāng)自編碼器將特征維數(shù)壓縮到1000維時(shí)相關(guān)系數(shù)達(dá)到0.803, 相比于未經(jīng)過特征值離散化效果提升了2.0%.
表8 特征離散化后的特征重編碼
5.5 分層多項(xiàng)模型
考慮到我們使用支持向量機(jī)進(jìn)行回歸的輸出結(jié)果是連續(xù)性的值, 而人工評分給出的是離散化的得分值, 因此我們可以嘗試使用分類的方法進(jìn)行自動評分. 然而一般的分類方式其類別和類別之間沒有嵌套或者大小的關(guān)系, 這和我們的任務(wù)相違背. 這里我們使用分層多項(xiàng)模型(Hierarchical Multinomial Model)來進(jìn)行分類, 在該模型中, 類別和類別之間有嵌套包含的關(guān)系,這和我們自動評分任務(wù)中得分和得分之間的關(guān)系非常吻合.具體使用的是matlab實(shí)現(xiàn)的機(jī)器學(xué)習(xí)工具包[1]http://cn.mathworks.com/help/stats/index.html. 為了進(jìn)行對比, 我們同樣將支持向量機(jī)的評分結(jié)
表9 回歸和分類結(jié)果對比
如表9所示, 支持向量機(jī)回歸輸出的是離散的值, 其對作文評分的結(jié)果在規(guī)整到人工評測的邊界之后, 人機(jī)相關(guān)系數(shù)從0.803下降到0.774. 相比之下, 分層多項(xiàng)模型雖然給出的人機(jī)相關(guān)系數(shù)是0.792, 但是因?yàn)槭欠诸惖慕Y(jié)果所以不需要進(jìn)一步規(guī)整, 相比于支持向量機(jī)的結(jié)果顯然更優(yōu).
我們對于baseline1和baseline2同樣加入了自編碼器, 特征離散化, 分層多項(xiàng)模型進(jìn)行測試. 結(jié)合語言學(xué)特征模型, 這三組系統(tǒng)的實(shí)驗(yàn)效果如圖2所示. 縱向比較來看, 無論哪一組實(shí)驗(yàn), 我們的語言學(xué)特征系統(tǒng)和兩個(gè)baseline比較, 均能取得最優(yōu)的效果. 橫向來看, 相比于最原始的支持向量機(jī)回歸, 我們的自編碼器, 特征值離散化的使用均能使得系統(tǒng)的性能得到進(jìn)一步提高. 因?yàn)榛貧w得出的結(jié)果是連續(xù)性數(shù)值, 輸出得分在規(guī)整之后系統(tǒng)性能必然會有所下降. 最后我們使用分層多項(xiàng)模型進(jìn)行分類, 直接給與一篇作文輸出離散的得分結(jié)果, 這相比于回歸之后再規(guī)整的結(jié)果人機(jī)相關(guān)系數(shù)更高.
5.6 主題無關(guān)性
最后我們從主題依賴性的角度出發(fā)來考察這3組系統(tǒng). 因?yàn)閿?shù)據(jù)集包含8個(gè)子集, 因此我們將全部數(shù)據(jù)按主題的不同分成5份進(jìn)行交叉驗(yàn)證, 使得訓(xùn)練用的作文和測試作文之間沒有主題交叉. 其實(shí)驗(yàn)效果如下表所示. 可以看出, 兩個(gè)baseline系統(tǒng), 特別是baseline2系統(tǒng)中引入了大量n-gram等和文章主題相關(guān)的特征. 這直接導(dǎo)致了在預(yù)測其他主題作文時(shí)系統(tǒng)性能的下降. 而我們的語言學(xué)特征系統(tǒng)使用的都是主題無關(guān)特征, 在面對不同主題的測試樣本時(shí), 依然能保持很好的魯棒性.
表10 8個(gè)子集間相互進(jìn)行交叉驗(yàn)證
本文依據(jù)英文寫作的技巧, 提取了大量的主題無關(guān)特征. 然后通過特征離散化減少異常樣本對系統(tǒng)的干擾, 自編碼器對特征進(jìn)一步重構(gòu)以提高特征表達(dá)能力. 最后我們分析了作文評分任務(wù)的特點(diǎn)使用分層多項(xiàng)模型來輸出文章的最終得分. 實(shí)驗(yàn)表明, 一方面我們的模型和特征要顯著優(yōu)于傳統(tǒng)的方法, 另一方面我們的系統(tǒng)在測試不同主題的作文時(shí)顯示出了良好的主題無關(guān)性.
1 梁茂成,文秋芳.國外作文自動評分系統(tǒng)評述及啟示.外語電化教學(xué),1997:18–24.
2 Attali Y, Burstein J. Automated essay scoring with e-rater?V. 2. The Journal of Technology, Learning and Assessment, 2006, 4(3): 3–30.
3 Daigon A. Computer grading of English composition. The English Journal, 1966, 55(1): 46–52.
4 Landauer TK. Automatic essay assessment. Assessment in education: Principles, policy & practice, 2003, 10(3): 295–308.
5 Dale R, Anisimoff I, Narroway G. HOO 2012: A report on the preposition and determiner error correction shared task. The 7th Workshop on the Innovative Use of NLP for Building Educational Applications. June 3-8, 2012. 54–62.
6 Ng HT, Wu SM, Wu Y, et al. The CoNLL-2013 shared task on grammatical error correction. Proc. of the Seventeenth Conference on Computational Natural Language Learning. August 8–9, 2013.1–12.
7 Larkey LS. Automatic essay grading using text categorization techniques. Proc. of the 21st annual international ACM SIGIR conference on Research and development in information retrival. 1998. 90–95.
8 Persing I, Davis A, Ng V. Modeling organization in student essays. Proc. of the 2010 Conference on Empirical Methods in Natural Language Processing. 2010. 229–239.
9 Persing I, Ng V. Modeling prompt adherence in student essays. Proc. of the 52nd Annual Meeting of the Association for Computational Linguistics(ACL). June 2014. 1534–1543.
10 Persing I, Ng V. Modeling thesis clarity in student essays. Proc. of the 51st Annual Meeting of the Association for Computational Linguistics. August4-9, 2013. 260–269.
11 Chen H, He B. Automatic essay scoring by maximizing human-machine agreement. Proc. of the 2013 conference on Empirical Methods in Natural Language Processing. 2013. 1741–1752.
12 Hinkel E. Second language writers’ text: Linguistic and rhetorical features. Routledge, 2002.
13 Marneffe MCD, Cartney BM, Manning CD. Generating typed dependency parses from phrase structure parses. Proc. of Language Resources and Evaluation Conference. 2006.
14 Burges CJC. A tutorial on support vector machines for pattern recognition. Data mining and knowledge discovery, 1998, 2(2): 121–167.
15 Chang CC, Lin CJ. LIBSVM: A library for support vector machines. ACM Trans. on Intelligent Systems and Technology. April, 2011.
16 Chen H, He B, Luo TJ, et al. A ranked-based learning approach to automated essay scoring. Second International Conference on Cloud and Green Computing. 2012.
17 Hinton GE, Salakhutdinov RR. Reducing the dimensionality of data with neural networks. Science, 2006, 313(5786): 504–507.
18 Dougherty J, Kohavi R, Sahami M. Supervised and unsupervised discretization of continuous features. Machine learning: Proc. of the Twelfth International Conference. 1995. 12. 194–202.
19 Dougherty J, Kohavi R, Sahami M. Supervised and unsupervised discretization of continuous features. Machine Learning: Proc. of the 12th International Conference. San Mateo. Morgan Kaufmann Publishers. 1995. 194–202.
20 葛詩利.面向大學(xué)英語教學(xué)的通用計(jì)算機(jī)作文評分和反饋方法研究[博士學(xué)位論文].北京:北京語言大學(xué),2008.
Automatic Essay Scoring Using Linguistic Features and Autoencoder
WEI Yang-Wei, HUANG Xuan-Jing
(School of Computer Science, Fudan University, Shanghai 201303, China) (Shanghai Key Laboratory of Intelligent Information Processing, Fudan University, Shanghai 201303, China)
In recent years, more and more large-scale English tests begin to use the automatic scoring system. Therefore, the research of this system is of great value. In this paper, we first extract a lot of features according to English writing guide. Then we use autoencoder and discretization algorithm to learn a different representation of features. Finally, we use a hierarchical multinomial model to output the final scores of articles. Experimental results indicate that this method not only achieves great performance for those essays of the same topic, but also shows good robustness when predicts essays of different topics. Compared with the traditional automatic score method, our approach achieves higher than 9.7% in term of Pearson Correlation Coefficient, with good practical values.
automatic essay scoring; autoencoder; discretization; textual feature extraction
國家自然科學(xué)基金(61472088)
2016-04-22;收到修改稿時(shí)間:2016-05-23
[10.15888/j.cnki.csa.005535]