謝耀晶
(廣西外國(guó)語(yǔ)學(xué)院,廣西南寧 530222)
英語(yǔ)寫作是外語(yǔ)學(xué)習(xí)者語(yǔ)言水平的重要體現(xiàn),而寫作水平可以通過作文中的文本特征來體現(xiàn),因此對(duì)英語(yǔ)作文中文本特征的研究一直是國(guó)內(nèi)外研究的熱點(diǎn)。有關(guān)作文文本特征的研究多涉及詞匯、句法和連貫三方面。近年來,不少研究使用Coh-Metrix來檢驗(yàn)詞頻,詞匯多樣性,指稱銜接,連接詞以及句法復(fù)雜性等多個(gè)文本特征。然而,使用Coh-Metrix來檢驗(yàn)文本特征和寫作質(zhì)量之間的關(guān)系的研究還處在初級(jí)階段,值得對(duì)這一領(lǐng)域進(jìn)行更加深入的探索。近年來,句酷批改網(wǎng)(簡(jiǎn)稱“批改網(wǎng)”)在英語(yǔ)作文自動(dòng)評(píng)價(jià)方面已經(jīng)獲得了較高的認(rèn)可度。然而,早期的許多研究中很少發(fā)現(xiàn)同時(shí)使用批改網(wǎng)和Coh-Metrix這兩個(gè)文本分析器對(duì)英語(yǔ)議論文寫作中的文本特征進(jìn)行相關(guān)研究的論文。
Coh-Metrix(Automated Cohesion Metric Tool)是美國(guó)孟菲斯大學(xué)的McNamera等學(xué)者在2002—2011年間開發(fā),不斷完善和試驗(yàn)并最終成功投入應(yīng)用的以計(jì)算機(jī)技術(shù)為平臺(tái),能對(duì)文本進(jìn)行多維度測(cè)量的自然語(yǔ)言處理軟件。作為一個(gè)先進(jìn)的自動(dòng)文本分析器,Coh-Metrix擁有大量的測(cè)量指標(biāo),可以更加全面地考察作文的指示銜接、潛在語(yǔ)義分析、詞匯多樣性、句法復(fù)雜性、語(yǔ)篇正式性等多個(gè)文本特征。McNamera et al.指出Coh-Metrix 3.0中有106項(xiàng)指標(biāo),其中包括詞匯多樣性的四項(xiàng)指標(biāo) “LDTTRc,LDTTRa,LDMTLDa和 LDVOCDa”。
寫作自動(dòng)評(píng)價(jià)系統(tǒng) (Automated writing evaluation,AWE;automated essay scoring,AES)起源于20世紀(jì)60年代的美國(guó),主要用于水平考試作文評(píng)分。近年來,北京詞網(wǎng)科技有限公司推出的批改網(wǎng)(http://www.pigai.org)在國(guó)內(nèi)高校得到了廣泛的使用,該自動(dòng)作文評(píng)分系統(tǒng)運(yùn)用了云計(jì)算技術(shù),建設(shè)了標(biāo)準(zhǔn)語(yǔ)料庫(kù)。蔣艷和馬武林指出批改網(wǎng)將學(xué)生作文視為一個(gè)學(xué)習(xí)者語(yǔ)料,每篇作文的成績(jī)由192個(gè)子維度構(gòu)成,通過對(duì)比學(xué)生的作文和標(biāo)準(zhǔn)語(yǔ)料庫(kù),將測(cè)量出來的距離通過映射轉(zhuǎn)化成學(xué)生作文分?jǐn)?shù)、評(píng)語(yǔ)和反饋。
關(guān)于詞匯多樣性的內(nèi)涵,許多研究者進(jìn)行過有益的探討,普遍認(rèn)為詞匯多樣性是評(píng)估學(xué)習(xí)者詞匯知識(shí)應(yīng)用的有效手段。詞匯多樣性反映了學(xué)習(xí)者的詞匯水平,甚至一定程度上體現(xiàn)了語(yǔ)言水平。盡管詞匯多樣性的測(cè)量在教育和語(yǔ)言研究中使用較為廣泛,它卻很難被準(zhǔn)確的量化。 目前,大多數(shù)已經(jīng)被提出的詞匯多樣性的指標(biāo)都涉及類型(type)和標(biāo)記(token)的統(tǒng)計(jì)學(xué)上的關(guān)系,人們普遍知道的詞匯多樣性的測(cè)量方法是計(jì)算類型標(biāo)記比(TTR)。McNamara et al.認(rèn)為“詞匯多樣性指的是文本中類型數(shù)與標(biāo)記數(shù)之間的關(guān)系,即文本中出現(xiàn)的詞型數(shù)和實(shí)際出現(xiàn)的詞數(shù)的比值(type/token ratio,TTR),這一比值的獲得只需要將文本中詞型的數(shù)量除以文本中出現(xiàn)的所有詞的總數(shù)就可以得到。比如,如果“cat”這個(gè)詞在文中出現(xiàn)了8次,它的標(biāo)記值就是8,而它的類型值就是1。當(dāng)文本中的類型數(shù)等于標(biāo)記數(shù)時(shí),類型標(biāo)記比等于1,意味著文本中所有的詞都是不一樣的。也就是說,如果每個(gè)單詞在文本只出現(xiàn)一次,詞匯多樣性最復(fù)雜,文本相對(duì)比較難理解和處理,因?yàn)橛性S多新詞需要被解碼并融入到篇章語(yǔ)境中。相反,如果文本中出現(xiàn)相同詞的數(shù)量越多,類型標(biāo)記比率就越低,詞匯多樣性就越簡(jiǎn)單,文本處理就會(huì)更容易更快。然而,類型標(biāo)記比(TTR)受文本長(zhǎng)度的影響,所以為了克服TTR測(cè)量詞匯多樣性的這一缺點(diǎn),McCarthy&Jarvis指出需要使用MTLD和VOCD這兩個(gè)指標(biāo)來更好地計(jì)算文本的詞匯多樣性。McNamara et al.指出LDMTLDa這一指標(biāo)在議論文寫作的高分組和低分組中存在顯著差異,它能用來很好的區(qū)分議論文寫作質(zhì)量的不同水平。McNamara etal.指出由VOCD產(chǎn)生的LDVOCDa這個(gè)指標(biāo)的數(shù)據(jù)是由一個(gè)計(jì)算機(jī)語(yǔ)言分析軟件的程序來計(jì)算的,該程序能使經(jīng)驗(yàn)的TTR值曲線擬合理想的TTR值曲線,從而更準(zhǔn)確地計(jì)算文本的詞匯多樣性。
McNamara et al.指出Coh-Metrix有四個(gè)指標(biāo)來測(cè)量詞匯的多樣性,他們是實(shí)詞詞元的類符/標(biāo)記比例(LDTTRc),所有詞匯的類符/標(biāo)記比例 (LDTTRa),所有詞匯的語(yǔ)篇方面的詞匯多樣性 (LDMTLDa),以及所有詞匯的由VOCD這一電腦語(yǔ)言程序計(jì)算的詞匯多樣性(LDVOCDa)。在這四個(gè)縮寫詞中,小寫字母“c”表示這個(gè)指標(biāo)是為計(jì)算實(shí)詞(如:名詞,動(dòng)詞,形容詞和副詞等),小寫字母“a”則表示該指標(biāo)是為計(jì)算所有的詞匯而設(shè)計(jì)的。本文主要是通過分析LDTTRc,LDTTRa,LDMTLDa和 LDVOCDa這四個(gè)指標(biāo)來探究詞匯多樣性與寫作質(zhì)量的關(guān)系。
現(xiàn)有的很多關(guān)于詞匯多樣性測(cè)量的研究主要集中在詞匯多樣性測(cè)量指標(biāo)的有效性和可靠性以及如何使用這些指標(biāo)來測(cè)量作文的詞匯多樣性等,有關(guān)詞匯多樣性與作文質(zhì)量之間的關(guān)系的研究不是很多。Alderson系統(tǒng)探索了詞匯知識(shí)和語(yǔ)言水平之間的關(guān)系,結(jié)果發(fā)現(xiàn)詞匯與語(yǔ)言技能有顯著的相關(guān)關(guān)系,尤其是寫作能力,相關(guān)度r=0.70~0.79。Engber研究ESL作文質(zhì)量與詞匯水平的關(guān)系,結(jié)果發(fā)現(xiàn)詞匯部分在整體評(píng)分法中的關(guān)鍵作用,并指出作文質(zhì)量與詞匯變化在統(tǒng)計(jì)意義上顯著相關(guān)。然而,Jarvis指出詞匯多樣性與語(yǔ)篇的信息量之間有顯著的關(guān)系,但詞匯多樣性與作文質(zhì)量之間的關(guān)系卻更復(fù)雜得多。綜上所述,關(guān)于詞匯多樣性和寫作質(zhì)量之間是否存在顯著的直接的相關(guān)關(guān)系還需要我們進(jìn)行進(jìn)一步的研究。
本研究主要涉及兩大問題,即英語(yǔ)議論文中詞匯多樣性與作文質(zhì)量之間是否存在相關(guān)關(guān)系?就英語(yǔ)議論文寫作而言,人工評(píng)分和批改網(wǎng)評(píng)分在評(píng)價(jià)作文質(zhì)量時(shí)對(duì)詞匯多樣性這個(gè)文本特征的關(guān)注度是否存在差異?
本研究所用語(yǔ)料取自中國(guó)學(xué)生英語(yǔ)筆語(yǔ)語(yǔ)料庫(kù)(Written English Corpus of Chinese Learners,WECCL 2.0)。該語(yǔ)料庫(kù)是一個(gè)大型合作項(xiàng)目,全國(guó)有20多所各種層次的高等學(xué)校英語(yǔ)專業(yè)及部分非英語(yǔ)專業(yè)學(xué)生限時(shí)及非限時(shí)作文共4,950篇。語(yǔ)料來源廣泛,可以較為準(zhǔn)確地反映學(xué)生作文的真實(shí)情況。本研究從該語(yǔ)料庫(kù)中隨機(jī)選取了550篇議論文,為了確保研究結(jié)果的準(zhǔn)確性,所選的語(yǔ)料分別選自五個(gè)主題,每個(gè)主題110篇,每篇議論文的字?jǐn)?shù)大約300字。
首先,筆者把550篇議論文放進(jìn)批改網(wǎng)進(jìn)行自動(dòng)評(píng)分,然后分別邀請(qǐng)3位富有經(jīng)驗(yàn)的專業(yè)老師依據(jù)統(tǒng)一的評(píng)分標(biāo)準(zhǔn)對(duì)550篇議論文進(jìn)行評(píng)分,為了保證評(píng)分的效度和信度,他們先對(duì)前10篇作文進(jìn)行預(yù)打分,然后就每篇作文的優(yōu)缺點(diǎn)和最終得分進(jìn)行了集體討論,并用皮爾遜相關(guān)對(duì)三位老師的評(píng)分進(jìn)行統(tǒng)計(jì),所有作文評(píng)分完成后,三位老師的評(píng)分相關(guān)度為r=0.735**、0.747**、0.764**,顯著水平均為P<0.01。所以把人工評(píng)分的三個(gè)分?jǐn)?shù)的平均值視為人工評(píng)分的最終得分,再結(jié)合句酷的評(píng)分結(jié)果分出人工評(píng)分的高分組和句酷評(píng)分的高分組(分?jǐn)?shù)大于或等于80且小于90)以及人工評(píng)分的低分組和句酷評(píng)分的低分組 (分?jǐn)?shù)大于或等于70且小于80),由于人工評(píng)分的高分組只有193篇文章,所以為了公平起見,其他各組隨機(jī)分別選擇193篇文本,然后使用Coh-Metrix分別對(duì)這幾組文本進(jìn)行自動(dòng)評(píng)估,獲得Coh-Metrix自然語(yǔ)言處理軟件的相關(guān)語(yǔ)言特征的量化數(shù)據(jù),并結(jié)合本研究的問題,挑選出有關(guān)詞匯多樣性的各項(xiàng)指標(biāo)的量化數(shù)據(jù)。最后,使用統(tǒng)計(jì)工具19.0統(tǒng)計(jì)分析軟件通過單因素方差分析和皮爾遜相關(guān)系數(shù)分析等對(duì)所有數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析。
正如前面提到的那樣,詞匯多樣性一般是通過類型(types)/標(biāo)記(tokens)比來測(cè)量的。本文主要是通過測(cè)量Coh-Metrix中涉及詞匯多樣性的四個(gè)指標(biāo)來分析議論文寫作中的詞匯多樣性,它們分別是實(shí)詞詞元的類符標(biāo)記比指標(biāo)(LDTTRc),所有詞匯的類符標(biāo)記比指標(biāo)(LDTTRa),所有詞匯的語(yǔ)篇方面的詞匯多樣性指標(biāo)(LDMTLDa),以及所有詞匯由VOCD這一程序計(jì)算的詞匯多樣性指標(biāo)(LDVOCDa)。為了詳細(xì)描述各組之間的差異,筆者對(duì)所有數(shù)據(jù)進(jìn)行了單因素方差分析。單因素方差檢驗(yàn)要求各組方差相等 (一般來說如果概率值P值大于0.05,就視為各組之間的方差相等),方差齊性Levene檢驗(yàn)的結(jié)果顯示詞匯多樣性四個(gè)指標(biāo)的概率值分別是P=0.161,P=0.408,P=0.523,和P=0.945,P值均大于0.05,說明所有指標(biāo)各組之間的方差是相等的,滿足了單因素方差檢驗(yàn)的方差齊性條件,也說明了單因素方差檢驗(yàn)結(jié)果是有效的。單因素方差檢驗(yàn)結(jié)果顯示 F值分別為 16.188,6.543,5.015,8.219, 顯著水平均小于 0.05(分別為 P=0.000,P=0.000,P=0.002,P=0.000),說明測(cè)量詞匯多樣性的四個(gè)指標(biāo)各組平均值之間有顯著差異。
為了進(jìn)一步探究具體是哪些小組之間存在顯著差異,需要查看事后多重比較檢驗(yàn)結(jié)果。根據(jù)相關(guān)數(shù)據(jù),就LDTTRc和LDTTRa這兩個(gè)指標(biāo)而言,人工評(píng)分高分組(Group 1)和批改網(wǎng)評(píng)分高分組(Group 3)之間在統(tǒng)計(jì)上存在顯著差異,平均值差異的概率分別為0.002(P=0.002<0.01)和 0.025(P=0.025<0.05),均達(dá)到了較高的顯著水平;這兩個(gè)指標(biāo)人工評(píng)分低分組(Group 2)和批改網(wǎng)評(píng)分的低分組(Group 4)之間也存在顯著差異,平均值差異的概率分別為 (P=0.002<.01)和 (P=0.026<0.05);此外,批改網(wǎng)評(píng)分的高分組(Group 3)和低分組(Group 4)之間也達(dá)到了很高的顯著水平,平均值差異的概率分別為(P=0.000<0.001)和(P=0.003<0.001),而人工評(píng)分的高分組(Group 1)和低分組(Group 2)之間未發(fā)現(xiàn)有顯著差異,平均值差異的概率分別為(P=0.920>0.05)和(P=0.123>0.05),這意味著在實(shí)詞詞元的類符標(biāo)記比和所有詞匯的類符標(biāo)記比這兩個(gè)指標(biāo)上,人工評(píng)分和批改網(wǎng)評(píng)分之間具有顯著差異,同時(shí)批改網(wǎng)評(píng)分時(shí)會(huì)比較關(guān)注這個(gè)指標(biāo),而并沒有統(tǒng)計(jì)數(shù)據(jù)表明人工評(píng)分時(shí)也同樣會(huì)關(guān)注這個(gè)指標(biāo)。
就LDMTLDa和LDVOCDa這兩個(gè)指標(biāo)而言,在統(tǒng)計(jì)上存在顯著差異的只有批改網(wǎng)評(píng)分的高分組(Group 3)和低分組(Group 4),平均值差異的概率為0.002(P=0.002<0.01)和 0.000(P=0.000<0.001),均達(dá)到了很高的顯著水平,而這兩個(gè)指標(biāo)在人工評(píng)分的高分組(Group 1)和低分組(Group 2)之間均不存在顯著差異(P=0.958>0.05)和(P=0.372>0.05),這從另一個(gè)側(cè)面也說明了就詞匯多樣性的這兩個(gè)測(cè)量指標(biāo)而言,人工和批改網(wǎng)評(píng)分之間具有顯著差異。
綜上所述,測(cè)量詞匯多樣性這一文本特征的四個(gè)指標(biāo)都能很好地區(qū)分批改網(wǎng)評(píng)分的議論文作文質(zhì)量,詞匯多樣性與批改網(wǎng)評(píng)分的議論文質(zhì)量顯著相關(guān),而與人工評(píng)分的作文質(zhì)量之間不存在統(tǒng)計(jì)上的相關(guān)關(guān)系。此外,人工和批改網(wǎng)在進(jìn)行議論文寫作評(píng)分時(shí)對(duì)詞匯多樣性這一文本特征的關(guān)注度有顯著差異。
詞匯多樣性和寫作質(zhì)量的相關(guān)關(guān)系可以從表1和表2的數(shù)據(jù)中看出來。在人工評(píng)分中,詞匯多樣性中只有一個(gè)指標(biāo)(即LDTTRa)顯示與作文質(zhì)量有相當(dāng)?shù)偷呢?fù)相關(guān)(r=-0.177**,P<0.01),該相關(guān)系數(shù)的絕對(duì)值表示相關(guān)程度。秦曉晴認(rèn)為統(tǒng)計(jì)學(xué)中一般絕對(duì)值低于0.20以下的相關(guān)系數(shù)稱為最低相關(guān),一般可以忽略不計(jì)。從這些數(shù)據(jù)中我們可以推斷出在某種程度上詞匯多樣性和人工評(píng)分的作文質(zhì)量不相關(guān)。這一發(fā)現(xiàn)與先前杜慧穎和蔡金亭的研究結(jié)果相一致,他們指出在基于Coh-Metrix的研究中,詞匯多樣性和寫作質(zhì)量之間沒有發(fā)現(xiàn)有顯著關(guān)系。后兩項(xiàng)研究中的作文質(zhì)量都是通過人工評(píng)分得來的,所以從統(tǒng)計(jì)意義上來說,人工評(píng)分的過程中并沒有過多關(guān)注文本的詞匯多樣性,詞匯多樣性與人工評(píng)分的作文質(zhì)量之間沒有顯著相關(guān)關(guān)系。
表1 詞匯多樣性指標(biāo)與人工評(píng)分的作文質(zhì)量的相關(guān)關(guān)系
然而,在批改網(wǎng)評(píng)分中,所有測(cè)量詞匯多樣性的指標(biāo)都與作文質(zhì)量成正相關(guān)關(guān)系因?yàn)樗麄兯械腜值都是0.000,表明達(dá)到了統(tǒng)計(jì)意義,意味著變量之間不相關(guān)的概率幾乎為零。他們的相關(guān)系數(shù)分別是r=0.369**,r=0.202**,r=0.234**,和 r=0.281**,相關(guān)系數(shù)右上方有兩個(gè)*號(hào),表示顯著水平達(dá)到了0.01的顯著水平。相關(guān)系數(shù)都是正數(shù),所以他們變化的方向是一致的,也就是說當(dāng)詞匯多樣性中任何一個(gè)指標(biāo)的值增加時(shí),批改網(wǎng)評(píng)分的作文質(zhì)量也相應(yīng)提高,反之亦然。這一結(jié)果反映了批改網(wǎng)評(píng)價(jià)的作文質(zhì)量與詞匯多樣性在統(tǒng)計(jì)上顯著正相關(guān)。此外,就議論文中的詞匯多樣性這個(gè)文本特征而言,人工評(píng)分和批改網(wǎng)評(píng)分之間存在顯著差異,這一發(fā)現(xiàn)與前文中單因素方差分析的結(jié)果相一致。
表2 詞匯多樣性指標(biāo)與句酷批改網(wǎng)評(píng)分的作文質(zhì)量的相關(guān)關(guān)系
本研究的結(jié)果顯示人工評(píng)分的作文質(zhì)量與詞匯多樣性這個(gè)文本特征下的所有測(cè)量指標(biāo)沒有顯示存在相關(guān)關(guān)系,換句話說,人工評(píng)分員在進(jìn)行議論文寫作評(píng)分時(shí)并沒有過多的關(guān)注詞匯多樣性這個(gè)文本特征,也不會(huì)把詞匯多樣性作為議論文寫作質(zhì)量的評(píng)判標(biāo)準(zhǔn)。然而,與人工評(píng)分相反,批改網(wǎng)評(píng)分的作文質(zhì)量與測(cè)量詞匯多樣性的所有指標(biāo)都存在顯著關(guān)系,這一文本特征能很好地區(qū)分批改網(wǎng)評(píng)分中議論文寫作質(zhì)量的差異。相關(guān)數(shù)據(jù)顯示,批改網(wǎng)評(píng)分的高分組較低分組而言包含有更加豐富的詞匯,詞匯多樣性在批改網(wǎng)評(píng)分中扮演著重要的角色。Coh-Metrix所有測(cè)量詞匯多樣性的指標(biāo)中,LDTTRc這個(gè)指標(biāo)與批改網(wǎng)評(píng)分的相關(guān)系數(shù)最高,在一定程度上說明了議論文寫作中實(shí)詞(如:名詞,主動(dòng)詞,形容詞,副詞等)的多樣性會(huì)對(duì)批改網(wǎng)評(píng)分的作文質(zhì)量產(chǎn)生積極的影響,高分作文中包含有更加豐富的實(shí)詞。另外,本研究還發(fā)現(xiàn)在詞匯多樣性的關(guān)注度上,人工與批改網(wǎng)在進(jìn)行議論文寫作的評(píng)分時(shí)具有顯著差異,這說明人工評(píng)分和智能化方面的批改網(wǎng)評(píng)分仍然不可同日而語(yǔ),今后還要進(jìn)行更多的研究來探索人工評(píng)分和批改網(wǎng)評(píng)分之間其他方面的異同?;谝陨系慕Y(jié)論,本研究建議在評(píng)價(jià)英語(yǔ)議論文的寫作質(zhì)量時(shí),教師可以建立雙重評(píng)價(jià)機(jī)制,把教師評(píng)分和網(wǎng)絡(luò)自動(dòng)評(píng)分結(jié)合起來更客觀地評(píng)價(jià)學(xué)生的作文質(zhì)量。