李 霞, 劉建達(dá)
(1. 廣東外語外貿(mào)大學(xué) 思科信息學(xué)院,廣東 廣州 510006; 2. 廣東外語外貿(mào)大學(xué) 外國語言學(xué)及應(yīng)用語言學(xué)研究中心,廣東 廣州 510420)
作文自動評分是指通過計算機(jī)技術(shù)對作文進(jìn)行評價和分?jǐn)?shù)預(yù)估的過程[1-3]。隨著國內(nèi)英語認(rèn)證考試參加人數(shù)的逐年上漲,英語考試作文評分的工作量也逐年大幅上升。在二語習(xí)得(Second Language Acquisition)方面的許多研究表明[4-7],隨著寫作任務(wù)的加重,作文的計算機(jī)自動評分成為一個必然的趨勢,它可以消除傳統(tǒng)人工評分過程中由于人工閱卷員之間的地域性、經(jīng)驗性、語言能力、評卷的嚴(yán)厲度等方面的差異而導(dǎo)致的評分結(jié)果的一致性、準(zhǔn)確性、客觀性和可靠性的降低。同時使用計算機(jī)對作文進(jìn)行自動評分具有即時性、客觀性、經(jīng)濟(jì)性和公平性等優(yōu)點。
目前國外對以英語為母語的英文作文自動評分技術(shù)的研究相對較為成熟,幾個作文自動評分系統(tǒng)已被用于英語母語寫作評分中,比較有代表性的系統(tǒng)包括: PEG(Project Essay Grade)[8-9]、IEA(Intelligent Essay Assessor)[9-10]、E-rater(Electronic Essay Rater)[9-11]和IntelliMetric[3,9]等,這些系統(tǒng)分別從內(nèi)容或形式上提取特征,并利用機(jī)器學(xué)習(xí)中的分類或回歸技術(shù)來實現(xiàn)作文的自動評分,并取得了較好的效果。然而,受中國文化和漢語思維習(xí)慣的較大影響,中國學(xué)生在英語寫作的語言特征如詞匯、句法和篇章結(jié)構(gòu)等層次上與國外以英語為母語的學(xué)生所寫的英文作文差異較大[12-14]。例如,中國學(xué)生更容易出現(xiàn)高頻率的詞匯、短語搭配、介詞使用、句法等方面的錯誤,更多使用話語虛詞(如well、now、anyway、however等)、連接詞語和形容詞等語言特征,而以英語為母語的學(xué)生則更注重句型的變化性與靈活性等方面,如作文長度更長,更多使用各種從句等。已有自動評分技術(shù)對語言質(zhì)量的分析主要考慮作文中的句法多樣性等母語學(xué)生的寫作特點,而忽略了非母語學(xué)生寫作中特有的語言特征,這使得已有的作文自動評分系統(tǒng)無法很好的適用于中國學(xué)生的英語作文自動評分中[15]。
由于考生的作文分?jǐn)?shù)普遍位于中等水平位置,即分?jǐn)?shù)高和分?jǐn)?shù)低的作文相對較少,因此,作文評分?jǐn)?shù)據(jù)具有不平衡數(shù)據(jù)分布的特點,這使得傳統(tǒng)的分類算法在對作文進(jìn)行分類評分時效果不佳,通常大類樣本數(shù)據(jù)(在本文中為中等水平作文)分類效果要好于小類樣本數(shù)據(jù)(在本文中為高水平和低水平作文)。為此,本文首先依據(jù)中國學(xué)生的寫作特點,在提出基于高頻相鄰搭配詞組特征選擇方法的基礎(chǔ)上,利用不充分抽樣bagging算法對大類數(shù)據(jù)進(jìn)行多次隨機(jī)抽樣,并對多次分類結(jié)果進(jìn)行組合,最終結(jié)果為各分類結(jié)果的投票得分。對中國英語學(xué)習(xí)者語料[16]大學(xué)英語四、六級不同主題作文下的1 115篇英文作文的評分結(jié)果表明,本文提出的算法能夠較好的提取反應(yīng)中國學(xué)生寫作特點的特征,并有效適用于不平衡數(shù)據(jù)的分類,在類內(nèi)和類間的正確率、召回率和F度量值上均有較大幅度的提升。
傳統(tǒng)的特征選擇方法通常以分好的單個詞為單位,依據(jù)所提取的特征對文本構(gòu)建向量來進(jìn)行分類處理。以單個詞為單位的特征選擇方法在作文自動評分中會導(dǎo)致對文字完全相同但順序打亂前后的兩篇作文評為相同的分?jǐn)?shù),這是因為單個詞特征提取時沒有考慮到詞與詞之間的前后順序關(guān)系。依據(jù)中國學(xué)生英文寫作的特點,如對介詞和連詞等掌握相對不是很好、習(xí)慣使用短語詞組等特點,一方面避免出現(xiàn)詞序打亂后的作文被誤評,同時又能充分體現(xiàn)中國學(xué)生英文寫作的特點,本文提出基于高頻相鄰搭配詞組特征選擇方法,該方法既考慮到詞的前后順序關(guān)系,同時也符合中國學(xué)生在英文寫作中習(xí)慣使用短語詞組的特點。
在提取特征時,本文沒有過濾通常意義上的停用詞,這是因為在一般的文本分類中諸如of,to,that等詞由于具有較低的分類貢獻(xiàn)度而通常被做為停用詞過濾掉。但在英文作文中,介詞、連詞等的正確使用往往是衡量一個學(xué)生英文寫作水平的一個重要方面,同時它也是很多短語詞組的搭配詞,為此本文在提取作文特征時,并沒過濾任何停用詞,詳細(xì)特征選擇算法描述如下。
輸入:n篇已知分?jǐn)?shù)檔的英文作文;
輸出: 有效詞組特征;
1. 對英文作文依據(jù)空格分詞得到詞列表{t1,t2,….,tn};
2. 依據(jù)從左至右的順序提取相鄰二元搭配詞組,得到詞組列表titj(i=0,…,n;j=0,…,n,i≠j);
3. 計算每個相鄰二元詞組的信息增益值;
4. 對所有相鄰二元詞組的信息增益值排序;
5. 對橫坐標(biāo)為特征維數(shù),縱坐標(biāo)為相應(yīng)二元詞組特征的信息增益值為點對畫散點圖,計算急劇變化的點所對應(yīng)的維數(shù)k,k為該訓(xùn)練集的有效特征維數(shù);
6. 輸出前k個相鄰二元詞組特征作為該訓(xùn)練集的有效特征。
文本分類領(lǐng)域常用的特征選擇方法有文檔頻率(DF)方法、信息增益(IG)方法、互信息方法(MI)等[17],本文采用應(yīng)用廣泛的信息增益(IG)方法來提取取作文特征,本文所采用的信息增益的計算公式描述如式(1)所示:
為了驗證我們所理解的中國學(xué)生英文寫作的特點,我們利用信息增益特征選擇方法分別對來自中國英語學(xué)習(xí)者語料庫中大學(xué)英語四級作文中主題為Global Shortage of Fresh Water的290篇作文以及大學(xué)英語六級作文中主題為Haste Makes Waste下的344篇作文,分別以單詞為單位和以相鄰二元詞組為單位進(jìn)行了特征提取,提取結(jié)果如表1和表2所示。表1結(jié)果表明,相鄰二元詞組特征選擇方法所提取的特征能較好的反應(yīng)中國學(xué)生的寫作特點,例如,較多使用固定搭配、中國式英語、主動句等。如在大學(xué)英語四級庫中主題為Global Shortage of Fresh Water下290篇作文所提取的相鄰二元詞組特征中有較多的固定詞組搭配以及反應(yīng)中國學(xué)生寫作特點的詞匯,如is_important(非常重要…),use_them(使用他們…),under_the(在…下),are_also(也是…),very_shortage(非常缺乏…), must_be(必須), at_present(目前…), in_recent(最近…), already_used(已經(jīng)使用…)等。在大學(xué)英語六級庫中主題為Haste Makes Waste的344篇文章中所提取的相鄰二元詞組特征中也同樣反應(yīng)了中國學(xué)生的寫作特點,例如,try_to,it_must,easy_to, much_time, is_easy,makes_us,everyday_life, i_can,all_kinds等。從這些結(jié)果中可以看出中國學(xué)生習(xí)慣使用短語詞組和習(xí)慣使用主動句等寫作習(xí)慣。通過提取這些特征,能夠較好地提升中國英語學(xué)習(xí)者英語作文的分類評分效果。
表1 主題為Global Shortage of Fresh Water共290篇大學(xué)英語四級作文中所提取的特征對比
表2 主題為Haste Makes Waste共344篇大學(xué)英語六級作文中所提取的特征對比
采用文本分類中廣泛使用的向量空間模型(Vector Space Model)[18]來表示作文,每篇作文對應(yīng)于一個空間向量,其格式為V(dj)=(〈t1,w1〉,…,〈ti,wi〉,…,〈tm,wm〉)(i=1,2,…,m),這里的ti(i=1,2,…,m)為訓(xùn)練作文數(shù)據(jù)中選出的m個相鄰二元詞組特征,wi(i=1,2,…,m)為每篇作文dj(j=1,2,…,n)的第i個相鄰二元詞組特征所對應(yīng)的權(quán)重值,權(quán)重值的計算方法主要包括: 詞頻方法(TF)、逆文檔頻率方法(IDF)、詞頻—逆文檔頻率方法(TF-IDF)[19],在中國學(xué)生英文作文數(shù)據(jù)上的分類評分結(jié)果顯示,逆文檔頻率相對其他兩個權(quán)重公式具有較優(yōu)結(jié)果,其計算公式如式(2)所示:
其中,w(ti,dj)為特征詞組ti在作文dj中的權(quán)重,tf(ti,dj)為特征詞組ti在作文dj中出現(xiàn)的次數(shù),N為訓(xùn)練作文文檔的總數(shù),df(ti)為作文訓(xùn)練集中包含特征詞組ti的作文文檔個數(shù)。在本文算法中,逆文檔頻率IDF的計算效果最好。作文向量之間的相似度采用余弦相似度來計算,計算公式描述如式(3)所示:
(3)
(i,j=1,2,…,n)
其中sim(di,dj)表示第i篇作文和第j篇作文之間的相似度,而wik(k=1,2,…,m)表示第i篇作文的第k個詞的權(quán)重值,wjk(k=1,2,…,m)表示第j篇作文的第k個詞的權(quán)重值,m為表示整個作文數(shù)據(jù)中所有作文采用的相鄰二元詞組特征總數(shù)。
其中 V為所有二元詞組特征的總數(shù),Nk表示第k個相鄰二元詞組特征wk在作文d中出現(xiàn)的次數(shù),P(wj|ci)表示相鄰二元詞組特征wj在分?jǐn)?shù)檔ci的作文中出現(xiàn)的概率,其計算公式如式(5)所示:
其中Nji為第j個相鄰二元詞組特征在分?jǐn)?shù)檔ci的作文文檔中出現(xiàn)的次數(shù),Nci表示分?jǐn)?shù)檔ci的所有作文文檔中二元相鄰詞組的總數(shù)。
4.2基于隨機(jī)抽樣和算法組合的不平衡作文數(shù)據(jù)分類評分算法 由于作文數(shù)據(jù)具有分布不平衡的特點,簡單使用傳統(tǒng)適用于分布均勻的分類算法將不能有效適用于作文的自動分類。以大學(xué)英語四級主題為“GlobalShortageofFreshWater”290篇英文作文為例,分別對其進(jìn)行基于信息增益的特征選擇,特征維數(shù)為100,使用多項式樸素貝葉斯進(jìn)行評分結(jié)果如表3所示。在該結(jié)果中,2分檔和5分檔的召回率和F度量值均為0.4和0.5左右,低于大類數(shù)據(jù)3分檔和4分檔的R值和F值近30%,這說明傳統(tǒng)基于均勻分布樣本的分類算法不能很好的應(yīng)用于作文的自動評分上。
表3多項式樸素貝葉斯分類算法在GlobalShortageofFreshWater主題290篇作文上的分類結(jié)果
分?jǐn)?shù)檔作文個數(shù)PRF2分檔200.6920.450.5453分檔1270.7720.8270.7984分檔1220.7640.7950.7795分檔210.6430.4290.514
為了改變作文特征受大類作文數(shù)據(jù)的影響,本文提出了一種基于多次隨機(jī)抽樣及算法組合的不平衡數(shù)據(jù)分類評分方法,所提出的算法通過多次不充分抽樣來平衡數(shù)據(jù)樣本,并對多次評分結(jié)果進(jìn)行投票獲得最終評分結(jié)果,具體算法描述如下:
輸入: 待預(yù)測作文x,不充分抽樣次數(shù)m;
輸出: 預(yù)測類別;
1. for(inti=1;i≤m;i++)
2. {
3. 利用Bagging方法隨機(jī)從大類數(shù)據(jù)中抽樣得到與小類數(shù)據(jù)大小相同的樣本;
4. 將小類作文數(shù)據(jù)與抽樣得到的大類作文數(shù)據(jù)合并作為訓(xùn)練集;
5. 使用基于多項式模型的樸素貝葉斯分類算法對訓(xùn)練集進(jìn)行分類,得到分類結(jié)果yi;
6. }
8. 返回預(yù)測作文x的預(yù)測類別y′。
采用由桂詩春和楊慧中老師主編的中國學(xué)習(xí)者英語語料庫(Chinese Learner English Corpus,CLEC)[16]作為測試數(shù)據(jù),該語料庫包含了大學(xué)英語四級和大學(xué)英語六級等不同級別考試的作文,并對所有作文進(jìn)行了手工錯誤標(biāo)注和分?jǐn)?shù)歸類??紤]到實際計算機(jī)作文評分時,是不包含有錯誤標(biāo)注信息的,我們對所測試的不同主題的作文的錯誤標(biāo)注信息進(jìn)行了清除,使其盡量保持原始作文狀態(tài)。
為了較為全面地測試本文的評分算法,分別選取了CLEC語料中大學(xué)英語四級作文庫(ST3子庫)和大學(xué)英語六級作文庫(ST4子庫)中來自四個主題的共計1 115篇英文作文進(jìn)行評分測試。其中大學(xué)英語四級作文選取了Global Shortage of Fresh Water主題作文290篇和Getting to Know the World Outside the Campus主題作文202篇。大學(xué)六級作文選取了Haste Makes Waste主題作文341篇和My View on Job-Hopping主題作文282篇。按照大學(xué)英語四、六級的評分標(biāo)準(zhǔn),進(jìn)行評分時先把作文劃分成5個分?jǐn)?shù)等級,這5個登記分別是2分檔,5分檔,8分檔,11分檔,14分檔。在本研究中,由于所有作文語料沒有2分檔的作文,為此本文將評分范圍劃分成了4個分?jǐn)?shù)段: 5分檔、8分檔、11分檔和14分檔,并將其當(dāng)作類標(biāo)號,所測試的1 115篇作文按照分?jǐn)?shù)檔劃分的詳細(xì)信息如表4所示。
表4 1 115篇作文按分?jǐn)?shù)段劃分分布表
算法評估指標(biāo)采用分類準(zhǔn)確率P、召回率R和F度量值來進(jìn)行評價,對某個分?jǐn)?shù)或分?jǐn)?shù)檔類別ci,該類別樣本分類的正確率Accuracy、準(zhǔn)確率P、召回率R、F度量值的定義如下:
其中,Nci→ci表示類別ci中正確分類的作文個數(shù),Ncj→ci表示屬于類別cj且別分類為類別ci的作文個數(shù),Nci→cj表示屬于類別ci且別分類為類別cj的作文個數(shù),其中ci和cj表示不同的分?jǐn)?shù)或分?jǐn)?shù)段類別。
整個實驗是在一臺配置32位Win7操作系統(tǒng),安裝內(nèi)存為2G,處理器為Intel Celeron G530 2.4GHz 的臺式機(jī)器上進(jìn)行,程序用VC++6.0 實現(xiàn),所有實驗結(jié)果均采用十則交叉驗證后得到。
表5為本文算法與傳統(tǒng)多項式樸素貝葉斯分類算法在大學(xué)英語四、六級不同不平衡作文數(shù)據(jù)中的分類結(jié)果對比,為了讓結(jié)果具有可對比性,所有數(shù)據(jù)均為提取特征維數(shù)為100時的結(jié)果。從該結(jié)果可以看出,本文算法在特征維數(shù)為100的基礎(chǔ)上,不僅平均分類評分精度、召回率及F度量值有所提高,其中F度量值均提高10%以上,且大類作文數(shù)據(jù)和小類作文數(shù)據(jù)都取得了較平均和較好的P、R和F值,這證明本文的算法是有效可行的。
表5 本文算法與多項式樸素貝葉斯算法在四、六級作文上的分類結(jié)果對比
表6顯示了多項式樸素貝葉斯分類算法和本文算法在自動計算最佳特征維數(shù)時所得到分類評分結(jié)果的對比,其中本文算法中全部采用基于二元詞組特征。從實驗結(jié)果可以看出,本文所提出的算法無論是在P值、召回率或是F度量值上都是最優(yōu)的,并且相比傳統(tǒng)多項式樸素貝葉斯分類算法在單詞特征上的分類結(jié)果具有較大幅度的提升。
表6 不同算法在1 119篇作文上的分類結(jié)果對比
利用計算機(jī)實現(xiàn)作文自動評分是自然語言處理領(lǐng)域一個比較嶄新的研究方向,它擁有廣闊的應(yīng)用前景。本文結(jié)合中國學(xué)生受漢語影響以及所特有的寫作特點,如介詞掌握不好、短語搭配掌握不好等特征,提出了適用于中國英語學(xué)習(xí)者以及不平衡分布作文數(shù)據(jù)的集成分類評分算法,通過在CLEC語料庫中大學(xué)英語四級和六級一共1 115篇作文中的分類評分結(jié)果顯示,所提出的算法相比傳統(tǒng)面向分布均勻數(shù)據(jù)的分類方法具有較高的準(zhǔn)確率,能夠有效應(yīng)用于中國英語學(xué)習(xí)者的作文自動評分中。另外,由于本文的實驗數(shù)據(jù)僅限于大學(xué)四、六級作文數(shù)據(jù),并且每篇主題作文均不超過400篇,樣本量還是比較小,在接下來的工作中,將繼續(xù)探討高考英文作文的分類評分處理以及大樣本作文數(shù)據(jù)下的評分效果分析。
[1] Sherm is, M.D., J. Burstein. Automated Essay Scoring: Cross-disciplinary Perspective. Computational Linguistics[J]. 2004,30(2):245-246.
[2] Rudner, Lawrence, Phill Gagne. An overview of three approaches to scoring written essays by computer. Practical Assessment[J], Research & Evaluation, 2001, 7(26).
[3] S Valenti, F Neri, A Cucchiarelli. An Overview of Current Research on Automated Essay Grading[J]. Journal of Information Technology Education,2003,2(1):319-330.
[4] Hamp-Lyons L. On Second Language Writing[M].Lawrence Erlbaum Associates,2001.
[5] Kukich K. Beyond Automated EssayScoring[C]//Proceedings of the debate on automated essay grading. IEEE Intelligent systems,2004:22-31.
[6] Hamp-Lyons L. Fourth Generation Writing Assessment[M].Lawrence Erlbaum Associates,2001.
[7] Weigle S C. Assessing writing[M].Cambridge University Press,2002.
[8] Shermis M, Mzumara H R, Olson J, et al. On-line grading of student essays: PEG goes on the world wide web[J]. Assessment & evaluation in higher education, 2001, 26(3).
[9] 梁茂成,文秋芳.國外作文自動評分系統(tǒng)評述及啟示[J].外語化教學(xué),2007,17(2):18-24.
[10] Dikli S. Automated Essay Scoring[J]. Turkish Online Journal of Distance Education, 2006,7(1).
[11] Yigal Attali, Jill Burstein. Automated Essay Scoring With E-rater v.2.0[M]. Princeton,2005.
[12] 方清.中西方思維模式的不同及其對中國學(xué)生英語作文的影響[D].中山大學(xué),2003.
[13] 馬廣惠. 中美大學(xué)生英語作文語言特征的對比分析. 外語教學(xué)與研究. 2002,34(5):345-380.
[14] 葛詩利,陳瀟瀟.大學(xué)英語作文自動評分研究中的問題及對策[J].山東外語教學(xué),2009,3:21-26.
[15] Jill Burstein, Martin Chodorow. Automated Essay Scoring for Nonnative English Speakers[C]//Proceedings of a Symposium on Computer Mediated Language Assessment and Evaluation in Natural Language Processing. 1999: 68-75.
[16] 桂詩春,楊惠中.中國學(xué)習(xí)者英語語料庫[M].上海外語教育出版社,2003.
[17] Yang Yiming. A comparison study on feature selection in text categorization[C]//Proceedings of the Fourteenth International Conference on Machine Learning (ICML 1997), Nashville, Tennessee, USA, July 8-12, 1997: 412-420.
[18] Salton G, Wong A, Yang C S. A vector space model for automatic indexing [J]. Communications of ACM, 1975, 18(11):613-620.
[19] G Salton, C Buckley. Term-weighting approaches in automatic text retrieval. Information Processing and Management [J]. 1998, 24 (5):513-523.
[20] Andrew Mccallum, Kamal Nigam: A Comparison of Event Models for Naive Bayes Text Classification. In: AAAI-98 Workshop on ‘Learning for Text Categorization’, 1998.
[21] Rudner L M, Liang T. Automated essay scoring using Bayes’ Theorem [J]. The Journal of Technology, Learning and Assessment, 2002: (2).
[22] Larkey L, Croft W B. A Text Categorization Approach to Automated Essay Scoring[C]//Proceedings of Shermis M.D. and Burstein J. (eds.), Automated Essay Scoring: A Cross-Disciplinary Perspective, Lawrence Erlbaum Associates, Inc., Hillsdale, NJ, 2003: 55-70.