亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        語料庫在語言測試中的應(yīng)用:回顧與反思*

        2016-12-22 06:32:40鄒紹艷
        關(guān)鍵詞:效度語料庫學(xué)習(xí)者

        鄒紹艷

        (1.上海交通大學(xué) 外國語學(xué)院,上海 200240;2.青島農(nóng)業(yè)大學(xué) 外國語學(xué)院,山東 青島 266109)

        ?

        語料庫在語言測試中的應(yīng)用:回顧與反思*

        鄒紹艷1,2

        (1.上海交通大學(xué) 外國語學(xué)院,上海 200240;2.青島農(nóng)業(yè)大學(xué) 外國語學(xué)院,山東 青島 266109)

        近年來,語料庫在語言測試領(lǐng)域的應(yīng)用得到廣泛認(rèn)可,其應(yīng)用潛力和前景也備受關(guān)注。本文首先回顧并梳理了語料庫在國際語言測試領(lǐng)域四個(gè)方面的應(yīng)用:考試開發(fā)、考試效度驗(yàn)證、自動(dòng)評(píng)分系統(tǒng)、語言能力量表構(gòu)建,然后對(duì)語料庫在國內(nèi)語言測試領(lǐng)域的應(yīng)用情況進(jìn)行了反思,并以中國英語學(xué)習(xí)者寫作能力量表的構(gòu)建為例,闡述了語料庫在構(gòu)建寫作能力量表中的應(yīng)用。

        語料庫;語言測試;中國英語學(xué)習(xí)者寫作能力量表

        一、引言

        自20世紀(jì)60年代第一個(gè)計(jì)算機(jī)化的語料庫——Brown語料庫在美國問世以來,語料庫作為一種新興的研究方法逐漸滲透到語言學(xué)研究的相關(guān)領(lǐng)域。20世紀(jì)90年代中期,隨著大型本族語者語料庫的建立(例如,英國國家語料庫British National Corpus,以下簡稱BNC和美國國家語料庫American National Corpus,以下簡稱ANC),語料庫在語言測試領(lǐng)域的應(yīng)用前景開始引起語言測試界的關(guān)注。 Alderson在1996年就預(yù)測了語料庫在語言測試中的一系列用途:設(shè)計(jì)考試題目、確立考試構(gòu)念、分?jǐn)?shù)評(píng)定與報(bào)道等等。[1]自此之后,語料庫開始被頻繁地用于大規(guī)模標(biāo)準(zhǔn)化考試、整體性測評(píng)以及發(fā)展性測評(píng)中。2003年,在英國雷丁大學(xué)召開的第26屆國際語言測試研究大會(huì)專門就語料庫和語言測試的關(guān)系成立了一個(gè)專題研討會(huì),學(xué)者們分別聚焦本族語者語料庫和二語學(xué)習(xí)者語料庫在寫作測試、閱讀測試以及口語測試中的應(yīng)用,闡明語料庫在語言測試領(lǐng)域的應(yīng)用前景。[2]

        當(dāng)前,我國正在調(diào)動(dòng)英語教學(xué)和測試各方面的資源制定中國英語能力等級(jí)量表(China Standards of English,簡稱CSE)。在這種背景下,我們重新回顧和反思語料庫在語言測試領(lǐng)域的應(yīng)用,不僅有助于豐富學(xué)界對(duì)這一領(lǐng)域研究現(xiàn)狀的認(rèn)識(shí),也希望發(fā)現(xiàn)值得借鑒的經(jīng)驗(yàn)亦或可能存在的不足,進(jìn)而探索語料庫在構(gòu)建中國英語能力等級(jí)量表中的應(yīng)用前景。

        二、語料庫在語言測試領(lǐng)域的應(yīng)用回顧

        縱觀語料庫在語言測試領(lǐng)域的應(yīng)用,基本涉及以下幾個(gè)方面:第一、語料庫用于開發(fā)、設(shè)計(jì)試題;第二、語料庫用于考試效度驗(yàn)證;第三、語料庫用于開發(fā)自動(dòng)評(píng)分系統(tǒng);第四、語料庫用于構(gòu)建語言能力量表。以下將結(jié)合語言測試領(lǐng)域的相關(guān)理論和研究,分別回顧與梳理語料庫在這四個(gè)方面的應(yīng)用情況。

        (一)考試開發(fā)

        20世紀(jì)80年代中期以來,隨著交際語言能力理論在應(yīng)用語言學(xué)領(lǐng)域逐漸被接受并得到廣泛應(yīng)用,語言測試的模式也從傳統(tǒng)的分離式語言測試(discrete- point language test)轉(zhuǎn)向交際語言測試(communicative language test)。交際語言測試是一種行為測試,是在真實(shí)或接近真實(shí)的情景中通過完成實(shí)際的交際任務(wù)來測量考生運(yùn)用語言知識(shí)的能力。[3]可見,真實(shí)性、情景化是交際語言測試的關(guān)鍵。Bachman認(rèn)為,真實(shí)性就是語言測試任務(wù)特征和目標(biāo)語言使用特征之間的吻合程度,是根據(jù)語言測試的成績做出推斷的前提。[4]

        語料庫研究方法的興起為提高語言測試的真實(shí)性提供了有效的解決途徑。20世紀(jì)90年代中期,除了本族語者語料庫之外,大型學(xué)習(xí)者語料庫(如CLC)以及一些學(xué)術(shù)英語語料庫(如Michigan Corpus of Academic Spoken English,簡稱MCASE;British Academic Written English corpus,簡稱BAWE語料庫,等)也相繼建立。這些語料庫的主要用途之一便是開發(fā)與目標(biāo)語使用相一致的測試。[5]例如,CLC就是一個(gè)含有錯(cuò)誤標(biāo)注(error- tagged)、測試文本和學(xué)習(xí)者信息的語料庫,劍橋考試中心的測試設(shè)計(jì)者們利用該語料庫來設(shè)計(jì)和修訂考試。具體而言,測試開發(fā)者可以借助語料庫了解本族語者在語言使用中的詞匯、語法特點(diǎn),包括詞匯和短語的相對(duì)頻率、句式、搭配和類聯(lián)接、語法結(jié)構(gòu)、程式化表達(dá)、詞序等。Park指出,考試的構(gòu)念(test construct)正是通過觀察這些特征而產(chǎn)生的。[5]

        在語料庫用于考試開發(fā)的研究方面,Sharpling報(bào)告了BAWE語料庫在設(shè)計(jì)Warwick英語測試的語法和語言使用部分試題中的應(yīng)用,他建議在計(jì)算機(jī)化考試和語料庫之間建立更加緊密的聯(lián)系,通過相互關(guān)聯(lián)的數(shù)據(jù)庫來輔助考試開發(fā)。[6]Weir和Milanovic指出,在設(shè)計(jì)側(cè)重考核詞匯、語法的測試任務(wù)時(shí)(如多項(xiàng)選擇式的完形填空、句子轉(zhuǎn)換等),可以利用語料庫設(shè)計(jì)真實(shí)的測試題目,以及潛在的干擾項(xiàng)。[7]Barker肯定了語料庫對(duì)于提高語言測試真實(shí)性的作用,他認(rèn)為本族語者語料庫和學(xué)習(xí)者語料庫的建立,使得語言測試的設(shè)計(jì)者們能夠根據(jù)更加真實(shí)的語言和文本來設(shè)計(jì)測試任務(wù),而且在設(shè)計(jì)任務(wù)時(shí)能夠更直接地定位到與目標(biāo)受試者最為相關(guān)的語言使用。[8]劍橋大學(xué)出版社的官方網(wǎng)站上提供了語料庫使用的諸多案例,其中一例便是學(xué)習(xí)者語料庫有助于甄別處于某種水平的學(xué)習(xí)者易犯的典型錯(cuò)誤,使得這一受試群體的測試題目或測試任務(wù)設(shè)計(jì)更有針對(duì)性。

        Park總結(jié)了語料庫在開發(fā)、設(shè)計(jì)試題中的應(yīng)用,即語言測試的設(shè)計(jì)者們可以根據(jù)本族語者語料庫或?qū)W習(xí)者語料庫中包含的豐富信息,如詞匯、語法、搭配、句式、程式化表達(dá)等等開發(fā)和設(shè)計(jì)語言測試,而且正是通過觀察語料庫中的這些信息,語言測試的構(gòu)念才能得以確立。[5]總之,正如鄒申等人所言,在設(shè)計(jì)與編制試題方面,語料庫可以為我們提供真實(shí)的、可供參考的語料,為制定決策提供客觀的數(shù)據(jù)。[9]

        (二)考試效度驗(yàn)證

        效度是語言測試最重要的屬性,[4]也是語言測試的基本出發(fā)點(diǎn)。效度研究貫穿于考試的整個(gè)過程:即從開發(fā)到驗(yàn)證其有效性,具體包括:語言能力構(gòu)念的界定、測試任務(wù)的設(shè)計(jì)(如何實(shí)現(xiàn)其真實(shí)性和交互性)、評(píng)分標(biāo)準(zhǔn)的制定(如何保證其科學(xué)性和可行性)、評(píng)分信度(如何實(shí)現(xiàn)評(píng)分員之間或自身的一致性)、考試分?jǐn)?shù)的解釋和使用等等。[4]Alderson(1996)曾指出,語料庫的應(yīng)用可以提高考試的內(nèi)容效度,因?yàn)闇y試材料選自真實(shí)語言文本,具有自然語言特征。[1]繼Alderson之后,Hawkey和Barker也指出,語料庫用于語言測試的效度驗(yàn)證,主要優(yōu)勢在于語料庫的發(fā)現(xiàn)可以為效度檢驗(yàn)提供證據(jù)。[10]

        美國教育考試服務(wù)中心(簡稱ETS)就是采用基于語料庫的方法來驗(yàn)證其旗下的TOEFL考試和GRE考試的效度。例如,為了檢驗(yàn)TOEFL 2000聽力和閱讀測試中使用的文本是否代表真實(shí)的口語和學(xué)術(shù)語言使用,Biber等人建立了TOEFL 2000學(xué)術(shù)口語和書面語語料庫(T2K- SWAL),并從語法、詞匯量、詞塊、詞匯分布等方面對(duì)該語料庫的文本進(jìn)行了語言分析,然后把分析的結(jié)果與課堂活動(dòng)中所用語言的特征進(jìn)行了對(duì)比,從而驗(yàn)證TOEFL 2000聽力和口語測試的效度。[11]Biber還利用T2K- SWAL語料庫檢驗(yàn)了詞塊的用法,發(fā)現(xiàn)立場標(biāo)記詞塊(stance bundles)在課堂教學(xué)中的使用頻率遠(yuǎn)遠(yuǎn)高于在課本中的使用頻率,盡管這兩種語域在態(tài)度確定和目標(biāo)實(shí)現(xiàn)這兩方面都包含了豐富的信息,但是它們卻采用不同的會(huì)話來實(shí)現(xiàn)各自的目標(biāo)。[12]換言之,詞塊體現(xiàn)了一種語域的語言模式,因而對(duì)詞塊的分析有助于完整地描述學(xué)習(xí)者的語言和語言需要。根據(jù)這一發(fā)現(xiàn),Biber建議在對(duì)TOEFL考試以及其它同類考試進(jìn)行效度驗(yàn)證時(shí),可開展類似的語料庫分析??傊?,Taylor和Barker強(qiáng)調(diào),可以定期地運(yùn)用學(xué)習(xí)者語料庫驗(yàn)證測試設(shè)計(jì)者對(duì)于語言特征以及不同水平等級(jí)的語言頻率的直覺判斷。[13]

        (三)自動(dòng)評(píng)分系統(tǒng)

        在語言測試領(lǐng)域,自動(dòng)評(píng)分系統(tǒng)主要用于口語和寫作這兩種產(chǎn)出性語言能力的評(píng)分。最早利用語料庫開展寫作自動(dòng)評(píng)分系統(tǒng)的國家是美國。上世紀(jì)60年代,美國杜克大學(xué)的Ellis Page教授等人應(yīng)美國大學(xué)委員會(huì)的請(qǐng)求,開發(fā)了Page Essay Grade(PEG)。PEG首先對(duì)一篇文章的可測量特征如長度以及平均句長等進(jìn)行多元回歸分析,然后基于人工評(píng)判的大量作文語料庫建立評(píng)分模型。[14]PEG的評(píng)分準(zhǔn)確率高,但該系統(tǒng)使用的文本特征都是與語言的形式特征有關(guān),對(duì)內(nèi)容、組織、體裁等語義方面的信息卻束手無策。為了彌補(bǔ)這些不足,上世紀(jì)90年代,美國的ETS和Vantage learning又分別研制了E- rater和Intellimetric。這兩種評(píng)分系統(tǒng)同PEG一樣,也是基于人工評(píng)判的作文語料庫建立評(píng)分模型,但是包含了更多關(guān)于語義信息方面的元素,因此操作起來更加復(fù)雜。到本世紀(jì)初,由以上評(píng)分系統(tǒng)衍生的自動(dòng)評(píng)分軟件如My Access、Criterion等被先后開發(fā)出來。除了提供總分之外,這些評(píng)分系統(tǒng)還針對(duì)寫作的內(nèi)容、組織結(jié)構(gòu)、語體使用、詞匯和語法等方面提供單項(xiàng)分。不僅如此,這些評(píng)分系統(tǒng)還能提供詳略不等的個(gè)性化反饋。Park詳細(xì)介紹了現(xiàn)代化自動(dòng)評(píng)分系統(tǒng)(以下簡稱 AES)的運(yùn)作:該系統(tǒng)通過測量作文中蘊(yùn)含的多種特征,并參考一個(gè)囊括結(jié)構(gòu)、銜接詞、錯(cuò)誤、詞匯和句法復(fù)雜度、篇章組織和展開的特征集進(jìn)行評(píng)分。[5]在把特征集和相關(guān)理論應(yīng)用到實(shí)際評(píng)分的過程中,大多數(shù)AES系統(tǒng)都會(huì)啟用一個(gè)培訓(xùn)數(shù)據(jù)庫,即一個(gè)已經(jīng)被人工評(píng)閱的作文語料庫,該語料庫被設(shè)為最佳基準(zhǔn),與人工評(píng)閱高度相關(guān)的特征被篩選出來收錄入特征集。

        AES系統(tǒng)的設(shè)計(jì)初衷是節(jié)省成本、時(shí)間和人力,提高評(píng)分信度。但是,正如Park所言,AES系統(tǒng)究竟在多大程度上實(shí)現(xiàn)了這些目標(biāo),尤其是在評(píng)判內(nèi)容和語言的說服力方面,仍然不得而知。[5]有的學(xué)者指出,AES系統(tǒng)的使用導(dǎo)致寫作從一種思辨型極強(qiáng)的創(chuàng)造性活動(dòng)降格為只追求表面特征和形式特征的活動(dòng),這必然對(duì)學(xué)生的寫作產(chǎn)生負(fù)面影響。[15]顯然,目前的AES技術(shù)還不足以仿效人工評(píng)閱,但是很多研究已經(jīng)表明在機(jī)器評(píng)分與人工評(píng)分之間的存在很高的相關(guān)關(guān)系,[16]說明這方面的技術(shù)在不斷進(jìn)步。Warschauer和Ware認(rèn)為,隨著性能的提高,AES系統(tǒng)必將在語言測試領(lǐng)域大放異彩,廣泛應(yīng)用于評(píng)分員培訓(xùn)、交互性語言測試、以及展示學(xué)生的歷時(shí)語言表現(xiàn)等多個(gè)方面。[17]

        (四)語言能力量表構(gòu)建

        除上述三個(gè)方面的應(yīng)用之外,語料庫在語言測試中發(fā)揮的又一個(gè)重要作用便是對(duì)傳統(tǒng)的評(píng)分大綱進(jìn)行補(bǔ)充,對(duì)不同水平學(xué)習(xí)者的語言能力采用“能做”描述。Park曾指出,語料庫能夠幫助測試開發(fā)者發(fā)現(xiàn)哪些語言特征是哪種水平的學(xué)習(xí)者所特有的。[5]例如,Hawkey和Barker通過對(duì)學(xué)習(xí)者語料庫進(jìn)行分析,篩選出不同水平學(xué)習(xí)者的寫作特征,然后根據(jù)這些特征構(gòu)建了一個(gè)二語寫作能力量表。[10]Granger和Thewissen利用一個(gè)包含錯(cuò)誤標(biāo)注的學(xué)習(xí)者語料庫展示了學(xué)習(xí)者的錯(cuò)誤如何與現(xiàn)有的評(píng)定標(biāo)準(zhǔn)(例如《歐洲語言共同參考框架》,簡稱《歐框》)進(jìn)行關(guān)聯(lián),以便達(dá)到評(píng)估的目的。他們指出,如果人工評(píng)分員參考《歐框》對(duì)國際英語學(xué)習(xí)者語料庫(ICLE)中的某一部分進(jìn)行評(píng)分,就會(huì)標(biāo)識(shí)出與《歐框》的每個(gè)等級(jí)相吻合的錯(cuò)誤,這些錯(cuò)誤可以進(jìn)一步用于判斷一篇作文的錯(cuò)誤類型以及錯(cuò)誤頻率。[18]Thewissen則更具體地實(shí)現(xiàn)了這一想法,他在語法錯(cuò)誤類型與《歐框》具體的等級(jí)之間建立了關(guān)聯(lián)。[19]

        在利用語料庫補(bǔ)充語言能力量表方面,歐洲理事會(huì)自2005年起開展的EP項(xiàng)目(English Profile Program)備受矚目。該項(xiàng)目旨在利用CLC語料庫補(bǔ)充與完善《歐框》從A1級(jí)到C2級(jí)的描述語,彌補(bǔ)某些等級(jí)描述較為粗略、籠統(tǒng)的不足。Hawkins和 Buttery指出,EP項(xiàng)目引入的一個(gè)重要概念就是“判別性特征”(criterial features),即與《歐框》的六個(gè)等級(jí)相對(duì)應(yīng)的語言特征。[20]具體而言,該項(xiàng)目旨在確立這些特征與學(xué)習(xí)者變量(如水平和母語背景)之間的相關(guān)關(guān)系,核心理念是我們可以期望低水平的學(xué)習(xí)者犯某種類型的錯(cuò)誤或者表現(xiàn)出一些不太地道的語言使用特征(即消極特征),而高水平的學(xué)習(xí)者表現(xiàn)出這些負(fù)面特征的頻率相對(duì)較少。另外,與低水平的學(xué)習(xí)者相比,高水平學(xué)習(xí)者的語言使用具有更加復(fù)雜的語言特征(即積極特征)。例如,新手寫作者所產(chǎn)出的文本中很少會(huì)包含語法上比較復(fù)雜的結(jié)構(gòu),如主從句、述謂結(jié)構(gòu)或者程式化表述以及搭配等等;而與之相反,高水平的學(xué)習(xí)者寫出的文本包含的消極特征較少,除了復(fù)雜的語法和程式化表述、[21]更加恰當(dāng)?shù)膽?yīng)答標(biāo)記詞、[22][23]短語動(dòng)詞以外,[24]還有更多其它的積極特征。一旦確定某種判別性特征與特定的水平或等級(jí)相關(guān)聯(lián),就可以采用更加客觀的描述語來補(bǔ)充傳統(tǒng)評(píng)分大綱的不足。

        目前,盡管這種利用判別性特征來補(bǔ)充評(píng)分量表的做法的準(zhǔn)確性還有待于進(jìn)一步驗(yàn)證,但是與傳統(tǒng)的評(píng)分大綱相比,這種基于語料庫和語言學(xué)理論構(gòu)建的評(píng)分量表無疑為測試設(shè)計(jì)者以及測試的使用者提供了更多關(guān)于受試者語言使用的真實(shí)案例。

        三、語料庫在中國語言測試領(lǐng)域的應(yīng)用反思

        如前所述,語料庫在語言測試領(lǐng)域的用途廣泛。但是與國外研究取得的成果相比,目前中國學(xué)者對(duì)于語料庫在外語測試領(lǐng)域的應(yīng)用仍然缺乏足夠的認(rèn)識(shí)和重視。

        首先,在考試設(shè)計(jì)方面,國內(nèi)幾乎沒有關(guān)于語料庫在該領(lǐng)域應(yīng)用的報(bào)道。一方面,可能由于大規(guī)??荚嚨母唢L(fēng)險(xiǎn)與機(jī)密性,相關(guān)的研究人員無法獲取考試設(shè)計(jì)的相關(guān)信息;另一方面,盡管國內(nèi)學(xué)者建立了一些學(xué)習(xí)者語料庫,但這些語料庫并沒有隨著時(shí)間的推移得到及時(shí)的更新與補(bǔ)充,因此在考試開發(fā)方面的作用有待進(jìn)一步探索。例如,楊惠中等人2003年建成的中國學(xué)習(xí)者英語語料庫(Chinese Learner English Corpus,簡稱CLEC)和文秋芳等人2005年建立的英語專業(yè)學(xué)生口筆語語料庫(Spoken and Written English Corpus of Chinese Learners,SWECCL)的規(guī)模都較大,但是都已建立10年有余。在這10年中,自然科學(xué)領(lǐng)域、社會(huì)科學(xué)領(lǐng)域新的成果不斷涌現(xiàn),網(wǎng)絡(luò)信息技術(shù)飛速發(fā)展,新的詞匯、新的術(shù)語源源不斷地補(bǔ)充到英語語言中,而且學(xué)習(xí)者的認(rèn)知能力和學(xué)習(xí)方式也發(fā)生了很大的變化,這一切都使得庫中語料的代表性受到挑戰(zhàn)。Park曾指出大規(guī)??荚嚨脑O(shè)計(jì)者可以利用語料庫甄辨某種水平的學(xué)習(xí)者易犯的錯(cuò)誤,并對(duì)考試的難度進(jìn)行相應(yīng)的調(diào)整。[5]但如果語料的代表性不強(qiáng),那么基于語料庫開發(fā)的考試內(nèi)容的真實(shí)性也會(huì)因此受到威脅。

        其次,國內(nèi)學(xué)者利用語料庫開展考試效度研究的案例比較匱乏,即便開展此類研究,所用語料的代表性和相關(guān)性也不夠充分。例如,穆惠峰借助自建小型語料庫、SWECCL語料庫、以及BNC語料庫對(duì)大學(xué)英語四級(jí)考試完形填空題的內(nèi)容效度進(jìn)行了驗(yàn)證。[25]但SWECCL語料庫中的口、筆語語料均來自中國高校的英語專業(yè)學(xué)生,因此其在該研究中的相關(guān)性和代表性值得探討。中國的外語考試種類繁多,而且規(guī)模較大,風(fēng)險(xiǎn)較高。在考試的效度驗(yàn)證方面,語料庫的作用仍有待進(jìn)一步挖掘和發(fā)揮。

        再次,與國外研究相比,國內(nèi)學(xué)者在利用語料庫開發(fā)自動(dòng)評(píng)分系統(tǒng)方面起步較晚,而且大都偏重于介紹和探討。例如,王金銓和文秋芳回顧了國內(nèi)外機(jī)器自動(dòng)評(píng)分系統(tǒng)的現(xiàn)狀、內(nèi)容和特點(diǎn),并進(jìn)一步探討了現(xiàn)有的機(jī)器自動(dòng)評(píng)分技術(shù)對(duì)中國學(xué)生翻譯自動(dòng)評(píng)分系統(tǒng)開發(fā)的啟示。[26]近年來,國內(nèi)學(xué)者在作文自動(dòng)評(píng)分系統(tǒng)的研發(fā)方面也取得了一定的成果。例如,梁茂成教授研制的大規(guī)模英語考試作文自動(dòng)評(píng)分系統(tǒng)(EFL Essay Evaluator,簡稱EEE)1.0,基于大量人工評(píng)判的中國大學(xué)生作文語料庫建立評(píng)分模型,從語言、內(nèi)容和組織結(jié)構(gòu)三個(gè)方面對(duì)作文進(jìn)行評(píng)價(jià)。還有基于網(wǎng)絡(luò)的作文批改系統(tǒng)(如句酷作文批改網(wǎng)),已經(jīng)在全國許多高校的大學(xué)英語教學(xué)中使用。但是,這些自動(dòng)作文批改系統(tǒng)在被廣泛應(yīng)用的同時(shí),也飽受詬病。例如,蔣艷和馬武林指出,目前的自動(dòng)評(píng)分系統(tǒng)“只能從語言上判斷水平,不能從語義上判斷內(nèi)容,無法對(duì)作文內(nèi)容錯(cuò)誤進(jìn)行識(shí)別、部分語言錯(cuò)誤無法識(shí)別”。[27](P76)可能正是因?yàn)榇嬖谏鲜霰锥?,目前這種基于語料庫開發(fā)的自動(dòng)評(píng)分系統(tǒng)尚未在國內(nèi)大規(guī)模外語考試中得以推廣和應(yīng)用。在未來的研究中,如能繼續(xù)改進(jìn)或完善語料庫在這一領(lǐng)域的應(yīng)用,必將極大地緩解大規(guī)??荚囍腥斯ぴu(píng)分的壓力,節(jié)省閱卷的成本,提高評(píng)分的信度。

        最后,在國內(nèi),盡管有學(xué)者開始倡導(dǎo)利用現(xiàn)有的語言能力量表對(duì)語料庫中的語料進(jìn)行分級(jí),[28]但如何利用語料庫構(gòu)建語言能力量表仍未得到相應(yīng)的關(guān)注。目前,我國自主開發(fā)的英語能力等級(jí)量表項(xiàng)目正在如火如荼地開展進(jìn)行中。根據(jù)該項(xiàng)目負(fù)責(zé)人劉建達(dá)教授的介紹,CSE量表描述語的分級(jí)主要采用專家判斷、教師評(píng)定學(xué)生和學(xué)生自評(píng)的方式進(jìn)行,[29]這在很大程度上與《歐框》的構(gòu)建方法相吻合。盡管有了Rasch模型等先進(jìn)統(tǒng)計(jì)手段的支撐,這種“自上而下”(top- down)構(gòu)建量表的方法能夠比較科學(xué)地對(duì)不同來源的描述語進(jìn)行難度排序,但也存在一定的問題。例如,Hustijin曾批判《歐框》制定過程中所采用的實(shí)證研究方法并非以二語學(xué)習(xí)者真實(shí)的數(shù)據(jù)為基礎(chǔ),在很多情況下,教師不得不參照自己所教的某位學(xué)生的能力判斷描述語的難度,這在一定程度上影響了描述語判斷的客觀性。[30]鑒于此,我們建議在構(gòu)建中國英語能力等級(jí)量表的過程中充分發(fā)揮語料庫的作用,尤其是在量表的后期效度驗(yàn)證階段,可以利用語料庫對(duì)量表進(jìn)行自下而上(bottom- up)的效度檢驗(yàn)。以下就以中國英語學(xué)習(xí)者寫作能力量表(以下簡稱寫作能力量表)的開發(fā)為例,具體闡述語料庫在量表開發(fā)中的應(yīng)用。

        四、語料庫在構(gòu)建中國英語學(xué)習(xí)者寫作能力量表中的應(yīng)用

        寫作能力量表的構(gòu)建主要遵循CSE總的構(gòu)建方案,基于前期收集、整理的大量寫作能力描述語,邀請(qǐng)專家、教師和學(xué)生對(duì)描述語的難度進(jìn)行判斷,從而實(shí)現(xiàn)描述語的分級(jí)驗(yàn)證。但是寫作能力作為一種產(chǎn)出型語言能力,其獨(dú)特的優(yōu)勢在于大量可收集、可保存、可觀察的寫作文本。而且我國學(xué)者已經(jīng)建立了一些大型的書面語語料庫(見表1),我們應(yīng)該充分利用語料庫提供的信息,彌補(bǔ)專家和教師判斷過程中可能出現(xiàn)的主觀性過強(qiáng)的問題,從而對(duì)量表進(jìn)行補(bǔ)充和完善。具體方案如下:

        表1 我國學(xué)者建立的漢語為母語的英語學(xué)習(xí)者書面語語料庫

        首先,從表1可以看出,目前我國學(xué)者建立的書面語語料庫主要源自大學(xué)階段的英語寫作文本。低端(如小學(xué)和初中)和高端(英語專業(yè)碩士、博士和高翻人才)學(xué)習(xí)者的語料庫比較稀缺,因此建議相關(guān)研究人員或機(jī)構(gòu)廣泛收集這兩個(gè)群體的寫作語料,建立高、低端英語學(xué)習(xí)者的寫作語料庫,使得各個(gè)英語學(xué)習(xí)階段的寫作語料庫互相銜接,形成“一條龍”。對(duì)于已經(jīng)建成的語料庫,可以利用近年來大規(guī)模考試的寫作文本或?qū)W生的日常習(xí)作對(duì)庫中的語料進(jìn)行補(bǔ)充和完善,使得庫中的語料更具代表性。

        其次,在對(duì)語料庫進(jìn)行補(bǔ)充和完善之后,需要重新審核和修訂庫中語料的分級(jí)。王麗和張立英介紹了四種不同的語料庫分級(jí)方法:學(xué)習(xí)者背景、教師判斷、測試成績以及量表等級(jí)。[28]第一種方法需要考慮學(xué)習(xí)者學(xué)習(xí)目標(biāo)語的時(shí)間以及受教育的程度;第二種方法一般是教師對(duì)學(xué)生水平或?qū)W生作文進(jìn)行判斷,劃分不同的等級(jí)水平;第三種方法是根據(jù)學(xué)生在標(biāo)準(zhǔn)化考試中的成績進(jìn)行分級(jí);第四種方法是在語料庫和比較知名的語言能力量表(如《歐框》)之間建立對(duì)接,根據(jù)量表的等級(jí)劃分語料庫的等級(jí)。由于我國目前尚未建成符合我國英語學(xué)習(xí)者特點(diǎn)的語言能力量表,所以第四種方法暫時(shí)無法采用。在構(gòu)建寫作量表的過程中,我們可以綜合運(yùn)用前三種方法,對(duì)寫作語料進(jìn)行初步分級(jí)。

        再次,語料庫初步分級(jí)之后,可以利用相關(guān)的語料庫分析工具(如Wordsmith,Coh- metrix,Concordancer等),并借助先進(jìn)的統(tǒng)計(jì)手段,對(duì)庫中不同水平的文本從詞匯、詞頻、搭配、銜接、句長等方面進(jìn)行特征分析和對(duì)比。在這方面,我們可以參考?xì)W洲理事會(huì)EP項(xiàng)目的研究成果。例如,2012年由Hawkins教授和Filipovic教授主編、劍橋大學(xué)出版社出版的CriterialFeaturesinL2English這本著作展現(xiàn)了英語學(xué)習(xí)者的語法特征。另外,劍橋大學(xué)出版社的官方網(wǎng)站上也在EnglishProfileJournal這本電子期刊上定期刊載該項(xiàng)目最新的研究動(dòng)態(tài)和成果,這些研究采用的工具和方法值得我們學(xué)習(xí)和借鑒。

        最后,根據(jù)語料庫分析提取的文本特征或做出的發(fā)現(xiàn)對(duì)前期通過“自上而下”的方法初步構(gòu)建的寫作能力量表進(jìn)行效度驗(yàn)證,并在此基礎(chǔ)上補(bǔ)充、修改和完善量表,使得量表的等級(jí)劃分更加科學(xué),語言能力描述更加細(xì)致、具體。當(dāng)然,在寫作能力量表建成之后,也可以反過來用其驗(yàn)證語料庫的分級(jí)。量表和語料庫相互驗(yàn)證、互相補(bǔ)充,共同服務(wù)于我國的外語教學(xué)和測試。

        五、結(jié)語

        在大數(shù)據(jù)時(shí)代,語料庫提供的豐富信息無疑是其他研究方法無法比擬的。但是,語料庫的補(bǔ)充、完善和修訂如同CSE量表的構(gòu)建一樣,需要語言教學(xué)部門、測試機(jī)構(gòu)、專業(yè)技術(shù)人員以及教育管理部門的通力合作。在構(gòu)建CSE的過程中,我們需要綜合運(yùn)用不同來源的證據(jù),例如理論上的證據(jù)、專家和教師以及學(xué)習(xí)者評(píng)判情況的證據(jù)、語料庫分析的證據(jù)。唯有如此,量表的效度才能得到充分驗(yàn)證,開發(fā)出來的量表才能既有相關(guān)理論支持,又能反映我國英語學(xué)習(xí)者的特點(diǎn)和規(guī)律,從而更好地服務(wù)于中國的英語教學(xué)、學(xué)習(xí)和測試。

        [1] Alderson,J. C. Do corpora have a role in language assessment?[A]//Usingcorporaforlanguageresearch. London:Longman,1996:248- 259.

        [2] Taylor,L.,Thompson,P.,McCarthy,M. & Barker,F(xiàn). Exploring the relationship between language corpora and language testing. In Symposium at 25th Language Testing Research Colloquium, Reading,UK,2003: 22- 25.

        [3] Carroll,B. J. & Hall,P. J.MakeyourownlanguageTests:APracticalGuidetoWritingLanguagePerformanceTests[M]. Oxford:Pergamon Press,1985.

        [4] Bachman,L. F.FundamentalConsiderationsinLanguageTesting[M]. Oxford: Oxford University Press, 1990.

        [5] Park,K. Corpora and language assessment:the state of the art[J].LanguageAssessmentQuarterly,2014,(11):27- 44.

        [6] Sharpling,G. P. When BAWE meets WELT:the use of a corpus of student writing to develop items for a proficiency test in grammar and English usage[J].JournalofWritingResearch,2010,(2):175- 189.

        [7] Weir,C. & Milanovic,M.ContinuityandInnovation:RevisingtheCambridgeProficiencyinEnglishExamination1913- 2002(StudiesinLanguageTesting,Volume15)[M]. Cambridge:UCLES/Cambridge University Press,2003.

        [8] Barker,F(xiàn). Using Corpora in Language Testing:Research and validation of language tests[J].ModernEnglishTeacher,2004,(13):63- 67.

        [9] 鄒申,楊任明.語料庫在試題設(shè)計(jì)和驗(yàn)證中的應(yīng)用研究[J].外語電化教學(xué),2008,(5):10- 15.

        [10] Hawkey,R. & Barker,F(xiàn). Developing a common scale for the assessment of writing[J].AssessingWriting,2004,(9):122- 159.

        [11] Biber,D.,Conrad,S.,Reppen,R.,Byrd,P.,Helt,M.,Clark,V.,Cortes, V.,Csomay,E. & Urzua,A.RepresentingLanguageUseintheUniversity:AnalysisoftheTOEFL2000SpokenandWrittenAcademicLanguageCorpus,report Number:RM- 04- 03. Educational Testing Service,Princeton,NJ,2004.

        [12] Biber,D.UniversityLanguage:ACorpus-basedStudyofSpokenandWrittenRegisters[M]. Amsterdam:John Benjamins,2006.

        [13] Taylor,L. & Barker,F(xiàn). Using corpora for language assessment [A]//EncyclopediaofLanguageandEducation. New York:Springer Science+Business Media,LLC,2008:241- 254.

        [14] 唐錦蘭,吳一安.在線英語寫作自動(dòng)評(píng)價(jià)系統(tǒng)應(yīng)用研究述評(píng)[J].外語教學(xué)與研究,2011,(2):273- 282.

        [15] Ericsson,P. F. & Haswell,R. H.Machinescoringofstudentessays:Truthandconsequences[C]. Logan:Utah State University Press,2006.

        [16] Attali, Y. & Burstein, J. Automated essay scoring with e- rater?v. 2[J].TheJournalofTechnology,LearningandAssessment, 2006,4(3): 3- 30.

        [17] Warschauer, M. & Ware, P. Automated writing evaluation: Defining the classroom research agenda[J].LanguageTeachingResearch, 2006,(10): 157- 180.

        [18] Granger,S. & Thewissen,J. The contribution of error- tagged learner corpora to the assessment of language proficiency[A]. Paper presented at the 27th language testing research colloquium. Ottawa,Canada,2005.

        [19] Thewissen,J. The phraseological errors of French- ,German- and Spanish- speaking EFL learners:Evidence from an error- tagged learner corpus[A]//Proceedingsfromthe8thteachingandlanguagecorporaconference. Lisbon,Portugal:Associa??o de Estudos e de Investigo??o Científica do ISLA- Lisboa,2008: 300- 306.

        [20] Hawkins,J. A. & Buttery,P. Criterial features in learner corpora:Theory and illustrations[J].EnglishProfileJournal,2010,(1):e5.

        [21] McCarthy,M. Spoken fluency revisited[J].EnglishProfileJournal,2010,(1): e4.

        [22] Farr,F(xiàn). Engaged listenership in spoken academic discourse:The case of student- tutor meetings[J].JournalofEnglishforAcademicPurposes,2003,(2):67- 85.

        [23] McCarthy,M. Good listenership made plain: British and American non- minimal response tokens in everyday conversation[A]//UsingCorporatoExploreLinguisticVariation. Amsterdam:John Benjamins,2002:49- 71.

        [24] Negishi,M.,Tono,Y. & Fujita,Y. A validation study of the CEFR levels of phrasal verbs in the English vocabulary profile[J].EnglishProfileJournal,2012,(3):e3.

        [25] 穆惠峰.基于語料庫的大學(xué)英語四級(jí)完型填空測試內(nèi)容效度驗(yàn)證研究 [J].外語電化教學(xué),2011,(4):66- 70.

        [26] 王金銓,文秋芳.國內(nèi)外機(jī)器自動(dòng)評(píng)分系統(tǒng)評(píng)述——兼論對(duì)中國學(xué)生翻譯自動(dòng)評(píng)分系統(tǒng)的啟示[J].外語界,2010,(1):75- 81,91.

        [27] 蔣艷,馬武林.中國英語寫作教學(xué)智能導(dǎo)師系統(tǒng):成就與挑戰(zhàn)——以句酷批改網(wǎng)為例[J].電化教育研究, 2013,(7):76- 81.

        [28] 王麗,張立英.學(xué)習(xí)者語料庫分級(jí)方法研究:反思與啟迪[J].中國海洋大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2016,(2):107- 113.

        [29] 劉建達(dá).我國英語能力等級(jí)量表研制的基本思路.中國考試,2015,(1):7- 11.

        [30] Hulstijn,J. H. The shaky ground beneath the CEFR: Quantitative and qualitative dimensions of language Proficiency1. The Modern Language Journal,2007,(4):663- 667.

        責(zé)任編輯:周延云

        The Application of Corpora in Language Assessment——Review and Reflection

        Zou Shaoyan1,2

        (1. College of Foreign Languages, Shanghai Jiao Tong University, Shanghai 200240;2. College of Foreign Languages, Qingdao Agricultural University, Qingdao 266109, China)

        The application of corpora in language assessment has gained wide recognition in recent years and the potential and prospects of its application have been attracting increasing attention as well. Situated in such a context, this research firstly reviewed and combed the application of corpora in the four areas of language assessment: developing and designing test items, validating tests, scoring essays and constructing rating scales. Based on the review, the research reflected the use of corpora in language assessment in China and further elaborated its potential use in developing the writing scales of China Standards of English. writing scales.

        Corpora; Language assessment; the Writing Scales of China Standards of English

        2016-09-09

        教育部哲學(xué)社會(huì)科學(xué)研究重大課題攻關(guān)項(xiàng)目--中國英語能力等級(jí)量表建設(shè)研究(15JZD049)

        鄒紹艷(1979- ),女,山東青島人,上海交通大學(xué)外國語學(xué)院在讀博士,青島農(nóng)業(yè)大學(xué)外國語學(xué)院講師,主要從事語言測試和外語教學(xué)研究。

        H05

        A

        1672-335X(2016)06-0109-06

        猜你喜歡
        效度語料庫學(xué)習(xí)者
        你是哪種類型的學(xué)習(xí)者
        《語料庫翻譯文體學(xué)》評(píng)介
        十二星座是什么類型的學(xué)習(xí)者
        慈善募捐規(guī)制中的國家與社會(huì):兼論《慈善法》的效度和限度
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        漢語學(xué)習(xí)自主學(xué)習(xí)者特征初探
        被看重感指數(shù)在中國大學(xué)生中的構(gòu)念效度
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        外語形成性評(píng)估的效度驗(yàn)證框架
        論遠(yuǎn)程學(xué)習(xí)者的歸屬感及其培養(yǎng)
        麻豆91蜜桃传媒在线观看| 国产亚洲欧洲AⅤ综合一区| 久久精品国产亚洲av成人擦边 | 亚洲精品国产字幕久久vr| 极品美女销魂一区二区三| 人妻少妇艳情视频中文字幕| 国产精品久久久久精品一区二区 | 亚洲图文一区二区三区四区 | 全免费a级毛片| 在线观看av国产自拍| 精品国产av一区二区三区| 成熟人妻换xxxx| 中国内射xxxx6981少妇| 国产精彩视频| 国产亚洲av无码专区a∨麻豆| 精品国产91天堂嫩模在线观看| 国产麻豆一区二区三区在线播放| 91在线视频在线视频| 亚洲av无码久久精品蜜桃| 日韩精品区欧美在线一区| 午夜精品一区二区三区视频免费看| av在线观看一区二区三区| 亚洲国产精品福利片在线观看| 国产美女69视频免费观看| 91精品蜜桃熟女一区二区| 丰满熟妇乱又伦精品| 无码av一区二区大桥久未 | 欧美韩国精品另类综合| 免费av一区男人的天堂| 国产成人精品亚洲日本在线观看 | 视频一区视频二区制服丝袜| 天天摸日日摸狠狠添| 狠狠综合亚洲综合亚色 | 久久精品噜噜噜成人| 国产va免费精品高清在线观看| 视频一区二区三区国产| 蜜臀av在线播放一区二区三区 | 亚洲av不卡电影在线网址最新 | 亚洲欧洲国产成人综合在线| 亚洲av成本人无码网站| 一区二区三区国产视频在线观看 |