當(dāng)代語(yǔ)言測(cè)試?yán)碚撆c實(shí)踐——席小明博士訪談錄

2015-03-30 03:26:50席小明李清華

當(dāng)代外語(yǔ)研究 2015年8期

席小明　李清華

(美國(guó)ETS研究中心,普林斯頓,08541;南方醫(yī)科大學(xué),廣州,510515)

席小明李清華

(美國(guó)ETS研究中心,普林斯頓,08541;南方醫(yī)科大學(xué),廣州,510515)

摘要:本文是對(duì)國(guó)際著名語(yǔ)言測(cè)試專家席小明博士的訪談。席博士在語(yǔ)言測(cè)試諸多領(lǐng)域,特別是效度研究方面取得了豐碩成果。在訪談中,她首先介紹了ETS的研究概況,分析了語(yǔ)言測(cè)試領(lǐng)域的現(xiàn)狀與前景,并對(duì)國(guó)內(nèi)語(yǔ)言測(cè)試研究提出了前瞻性的建議。席博士對(duì)語(yǔ)言測(cè)試的理論與實(shí)踐問(wèn)題的談話對(duì)國(guó)內(nèi)語(yǔ)言測(cè)試實(shí)踐與研究具有啟發(fā)意義。

關(guān)鍵詞:語(yǔ)言測(cè)試,效度,公平性

席小明博士現(xiàn)任美國(guó)ETS(Educational Testing Service)的“英語(yǔ)語(yǔ)言學(xué)習(xí)與測(cè)評(píng)研究中心”(English Language Learning and Assessment,ELLA)主任、高級(jí)研究員,是加利福尼亞大學(xué)洛杉磯分校應(yīng)用語(yǔ)言學(xué)專業(yè)語(yǔ)言測(cè)試方向博士。曾獲國(guó)際語(yǔ)言測(cè)試學(xué)會(huì)(International Language Testing Association,ILTA)2005年最佳論文獎(jiǎng)。學(xué)術(shù)兼職有國(guó)際語(yǔ)言測(cè)試學(xué)術(shù)期刊LanguageTesting和LanguageAssessmentQuarterly編委,勞特利奇(ROUTLEDGE)出版社系列叢書(shū)“Language Assessment at ETS:Innovation and Validation”主編之一。作為國(guó)際著名語(yǔ)言測(cè)試專家,席小明博士在語(yǔ)言測(cè)試領(lǐng)域研究成果豐碩。

本訪談主要涉及三個(gè)方面的內(nèi)容:(1)ETS的介紹;(2)語(yǔ)言測(cè)試研究的現(xiàn)狀與熱點(diǎn);(3)對(duì)國(guó)內(nèi)語(yǔ)言測(cè)試研究的建議。下面是訪談的筆錄。

李清華(以下簡(jiǎn)稱“李”):首先感謝席博士在百忙中抽出時(shí)間接受訪談。ETS是世界著名的教育評(píng)估與測(cè)量的研發(fā)中心,你們所開(kāi)發(fā)的TOEFL、GRE、TOEIC等大規(guī)模英語(yǔ)測(cè)試,在國(guó)內(nèi)有巨大影響。但是國(guó)內(nèi)讀者對(duì)ETS的研究還所知甚少。是否請(qǐng)您先介紹一下ETS?

席小明(以下簡(jiǎn)稱“席”):好的。國(guó)內(nèi)對(duì)ETS可能會(huì)有一些誤解,因?yàn)镋TS通常翻譯成“教育考試服務(wù)中心”或者“服務(wù)處”,給人感覺(jué)好像是幾個(gè)工作人員開(kāi)發(fā)考試,向全世界的考生提供服務(wù),甚至?xí)腥税阉?dāng)作一個(gè)政府機(jī)構(gòu)。實(shí)際上呢,ETS是全世界最大的、民間的、非盈利的教育研究機(jī)構(gòu)?？偛烤驮谖覀兯诘男聺晌髦莸钠樟炙诡D。這一研究機(jī)構(gòu)現(xiàn)有員工3000多人。它的研究和開(kāi)發(fā)部門叫“R & D”,即“Research and Development”。這是ETS最大的部門,有將近1300人。做試題開(kāi)發(fā)(assessment development,簡(jiǎn)稱AD)的部門有700多人。這只是全職的開(kāi)發(fā)人員,另外,還有很多part-time item writers(兼職命題人),主要在美國(guó)國(guó)內(nèi)。每年夏天AD都會(huì)組織全國(guó)的老師、博士研究生、碩士研究生進(jìn)行考題設(shè)計(jì)培訓(xùn)。也通過(guò)這種方式,培養(yǎng)和發(fā)現(xiàn)一些好的兼職命題人,慢慢地會(huì)被聘為正式員工。所以,這是一個(gè)培養(yǎng)和招聘人才的渠道。R&D部門有一個(gè)專門的測(cè)量統(tǒng)計(jì)人員組成的做數(shù)據(jù)分析的團(tuán)隊(duì),有近300人。他們負(fù)責(zé)ETS所有的考試的數(shù)據(jù)分析。還有ETS所承擔(dān)的考試,這些考試是美國(guó)的一些州委托ETS開(kāi)發(fā)的考試。實(shí)際上,考試試題在正式使用之前,要經(jīng)過(guò)pre-test(試測(cè))。測(cè)量統(tǒng)計(jì)人員對(duì)試測(cè)的結(jié)果分析,再把信息反饋給出題人員,讓他們修改考題。他們還輔助考題設(shè)計(jì)者assemble test forms(整合考試題目),以滿足每套試題在整體難度和區(qū)分度的要求。正式的考試完畢后,他們要分析考生的分?jǐn)?shù),做等值,然后做score reporting(分?jǐn)?shù)報(bào)道)。他們另外一個(gè)重要的任務(wù)是為新考試研發(fā)提供統(tǒng)計(jì)測(cè)量技術(shù)支持,如評(píng)分標(biāo)準(zhǔn)、評(píng)分量表等所有與psychometrics(心理測(cè)量學(xué))有關(guān)的工作,他們都會(huì)參與。

李清華,南方醫(yī)科大學(xué)外國(guó)語(yǔ)學(xué)院教授。主要研究方向?yàn)檎Z(yǔ)言測(cè)試。電子郵箱:lqhtesting@163.com

*錄音轉(zhuǎn)寫(xiě)稿由席小明博士審定。括號(hào)內(nèi)的解釋和附注系筆者所加。

李:研究部門除了負(fù)責(zé)統(tǒng)計(jì)分析的心理測(cè)量團(tuán)隊(duì)之外,還有哪些分支?主要的研究工作是什么?

席:除了上面提到的統(tǒng)計(jì)測(cè)量人員,研究部門的全職研究人員有180多人,這個(gè)部門近幾年發(fā)展很快,其研究涉獵很廣,教育測(cè)量的各個(gè)領(lǐng)域幾乎都有研究。包括認(rèn)知類的,還有非認(rèn)知類的。

李:語(yǔ)言能力屬于認(rèn)知能力之一。那么,非認(rèn)知構(gòu)念(non-cognitive construct)指的是什么?

席:比如現(xiàn)在著重研究的團(tuán)隊(duì)工作能力。

李:請(qǐng)您接著介紹研究團(tuán)隊(duì)和他們的工作。

席:我們的分支機(jī)構(gòu)包括Validity Research(效度研究)、Cognitive and Learning Sciences(認(rèn)知與學(xué)習(xí)研究)、Career and Workforce Readiness(職業(yè)和職員入職能力研究)、Assessment Innovations(測(cè)評(píng)創(chuàng)新)、Understanding Teaching Quality(教學(xué)質(zhì)量測(cè)評(píng))和我負(fù)責(zé)的ELLA研究中心。研究工作分四塊。第一塊是基礎(chǔ)研究。大家都覺(jué)得ETS是出考題的,其實(shí)呢,ETS對(duì)基礎(chǔ)研究的投入力度很大。每個(gè)領(lǐng)域都有大型研究課題,每年投入超過(guò)一千萬(wàn)美元支持基礎(chǔ)研究。這些研究都是前瞻性的,涉及面很廣。研究?jī)?nèi)容和ETS的考試沒(méi)有直接關(guān)系,而是面向未來(lái)的考試、學(xué)習(xí)、教學(xué)趨勢(shì),以期推動(dòng)更廣泛領(lǐng)域內(nèi)的教育研究發(fā)展。

比如,我們有一個(gè)大型研究課題叫CBAL,全稱是Cognitive-based Assessment of,for,as Learning(即基于認(rèn)知的促學(xué)評(píng)估)。這個(gè)團(tuán)隊(duì)成立很多年了,發(fā)表了一系列研究成果。CBAL研究針對(duì)美國(guó)國(guó)內(nèi)的學(xué)生,從幼兒園到12年級(jí),設(shè)計(jì)English language arts(英語(yǔ)語(yǔ)文)、science、maths等方面的考試。他們是試圖把認(rèn)知科學(xué)跟測(cè)評(píng)結(jié)合起來(lái),用認(rèn)知科學(xué)來(lái)指導(dǎo)測(cè)評(píng)。而且他們?cè)O(shè)計(jì)的考試是為了促進(jìn)學(xué)習(xí)和教學(xué),包括formative assessments(形成性評(píng)估)、interim assessments(期中評(píng)估)、summative assessments(終結(jié)性評(píng)估)和teacher professional development(教師專業(yè)發(fā)展)。他們的研究成果對(duì)美國(guó)中小學(xué)的教學(xué)做了很大的貢獻(xiàn),他們研發(fā)的考試模式對(duì)我們第二語(yǔ)言測(cè)試有很大的借鑒意義。

剛才我說(shuō)的是fundamental research initiative(基礎(chǔ)研究)。第二個(gè)研究板塊是支持每一項(xiàng)大規(guī)?？荚?像TOEFL iBT、TOEFL ITP(TOEFL Institutional Testing Program,即學(xué)院托福)、TOEFL Primary(即小學(xué)托福,面向8歲以上的小學(xué)生)、TOEFL Junior(即初中托福,面向11-15歲中小學(xué)生)、GRE、TOEIC和SAT等都有專門的研究團(tuán)隊(duì),研究它們的信度和效度。這些考試研究大多數(shù)都有外面研究人員參與,ETS會(huì)提供數(shù)據(jù)及研究基金,讓領(lǐng)域內(nèi)專家對(duì)我們的考試進(jìn)行獨(dú)立研究。第三塊是新考試的開(kāi)發(fā)研究。

李:開(kāi)發(fā)一項(xiàng)新考試,是不是需要多個(gè)部門相互合作?

席:是的。這個(gè)團(tuán)隊(duì)一般包括研究人員,考試設(shè)計(jì)及命題人員,和統(tǒng)計(jì)測(cè)量人員。還有IT以及Business Development(商業(yè)拓展)等部門。

李:開(kāi)發(fā)一項(xiàng)新考試,要從哪些方面進(jìn)行研究?比如說(shuō),在TOEFL iBT用于正式考試之前,做了什么研究?您也參與了大量工作,您可否介紹得略微詳細(xì)一些?

席:我們是做了多方面的研究。一項(xiàng)新的考試從研究到正式實(shí)施,需要經(jīng)過(guò)幾個(gè)步驟。第一步是conceptualization(理論構(gòu)建),在設(shè)計(jì)題目之前,要做前期工作,對(duì)要測(cè)試的知識(shí)技能進(jìn)行理論闡述。第二步是prototyping research(樣題研究)。一項(xiàng)新考試是不是考出了學(xué)生的知識(shí)技能?這一階段就是為了回答這個(gè)問(wèn)題。學(xué)生做完題之后,我們會(huì)做訪談,或者進(jìn)行stimulated recall(有提示的回憶),讓他們回憶做題的時(shí)候用了什么樣的過(guò)程和策略。下面一個(gè)步驟是pilot study(試測(cè))。這是把前期研究過(guò)的題目整合在一起,組成一份完整的試卷。這份試題的content domain(內(nèi)容域)覆蓋面的問(wèn)題、reliability(信度)的問(wèn)題、timing(考題時(shí)長(zhǎng))的問(wèn)題等多個(gè)方面的問(wèn)題都是這個(gè)階段要回答的。到了下一個(gè)階段field study(實(shí)地測(cè)試),這個(gè)時(shí)候,實(shí)驗(yàn)中用的試題跟正式考試是一樣的。讓學(xué)生在跟正式考試一樣的程序下來(lái)完成。這些學(xué)生必須是有代表性的樣本。獲得的數(shù)據(jù)是用來(lái)制定score scale(評(píng)分量表)以及equating plan(等值方案)。這就是新考試開(kāi)發(fā)的四個(gè)步驟。

李:ETS的研究工作與外部的研究機(jī)構(gòu)或政府機(jī)構(gòu)有合作嗎?

席:是的。這就是我要談到的研究部門的第四部分工作。ETS每年都會(huì)獲得一些external grant(外部資金)。我們的很多研究人員都可以從美國(guó)聯(lián)邦教育部(US Department of Education)申請(qǐng)到大量資金從事基礎(chǔ)研究。比如,我們這個(gè)中心做的formative reading assessment(形成性閱讀測(cè)評(píng))就獲得了一些資金支持。研究部門的工作就是這四大塊。

李:您領(lǐng)導(dǎo)的這個(gè)ELLA中心是新成立的研究機(jī)構(gòu)。能否介紹一下它的主要特色?

席:在成立ELLA這個(gè)獨(dú)立的研究中心以前,我們是Validity Center的一部分,我們做的工作大部分與考試效度有關(guān)。這幾年,因?yàn)橛⒄Z(yǔ)考試越來(lái)越多,而且地位越來(lái)越重要,我們覺(jué)得有必要把它獨(dú)立出來(lái),把所有的研究人員和資源整合在一起,從而獲得更多重視。我們?cè)?012年成立這個(gè)中心?，F(xiàn)在中心有15個(gè)全職的研究人員,他們都有博士學(xué)位,受過(guò)語(yǔ)言測(cè)試、二語(yǔ)習(xí)得專門的訓(xùn)練;還有很多研究輔助人員,他們基本都有碩士學(xué)位,大多是學(xué)心理學(xué)、教育測(cè)量及語(yǔ)言學(xué)的。另外還有administration support people(行政服務(wù)人員)。我們這個(gè)中心跟其他研究中心及部門有大量的研究合作。因?yàn)镋LLA這個(gè)研究領(lǐng)域涉及的面非常廣。比方說(shuō)做托福,人工智能輔助評(píng)分員評(píng)分需要大量的自然語(yǔ)言處理的研究人員參與。人工智能評(píng)分系統(tǒng)e-rater(寫(xiě)作評(píng)分系統(tǒng))和SpeechRater(口語(yǔ)評(píng)分系統(tǒng))也需要許多部門的合作。有些研究項(xiàng)目需要其他研究部門的參與,比如認(rèn)知科學(xué)研究人員。參加我們研究工作的還有很多考試設(shè)計(jì)和命題人員和教育測(cè)量統(tǒng)計(jì)人員。

我們有很多的指導(dǎo)委員會(huì)。比如托福就有External Advisory Committee(外部咨詢委員會(huì))。這些指導(dǎo)委員會(huì)里的國(guó)際語(yǔ)言學(xué)習(xí)和測(cè)試專家會(huì)對(duì)題目的開(kāi)發(fā)及我們的研究給予指導(dǎo),每年都開(kāi)幾次討論會(huì)。TOEFL Primary、TOEFL Junior也有專門的委員會(huì),指導(dǎo)跟青少年英語(yǔ)考試有關(guān)的研究。

另外,我們還有一個(gè)對(duì)外的項(xiàng)目,TOEFL COE Research Program(COE是Committee of Examiners的縮寫(xiě),即托福測(cè)試研究項(xiàng)目),給大學(xué)和其他研究機(jī)構(gòu)的研究人員提供資金、考題、數(shù)據(jù),讓他們來(lái)做TOEFL iBT的研究以及相關(guān)的基礎(chǔ)研究。每年都有幾個(gè)大的課題調(diào)撥給外面的研究人員。有一些世界一流學(xué)者參加這些研究。這個(gè)項(xiàng)目一直都很成功。我們中心也成立了一個(gè)類似的External research program(外部研究項(xiàng)目),給外面的研究人員和研究生提供資助,讓他們來(lái)參與研究TOEFL Primary、TOEFL Junior,及其他青少年英語(yǔ)測(cè)試和學(xué)習(xí)的基礎(chǔ)研究。

我們中心的研究人員會(huì)參加上面提到的四大部分的研究工作。我們做研究支持開(kāi)發(fā),但不會(huì)參加命題、改卷及數(shù)據(jù)分析。據(jù)我所知,目前世界上還沒(méi)有其他機(jī)構(gòu)能投入這么多資金來(lái)進(jìn)行基礎(chǔ)研究。所以,這是世界上最大的專門的英語(yǔ)考試和學(xué)習(xí)的研究機(jī)構(gòu)?，F(xiàn)在的研究范圍越來(lái)越拓展,不光是對(duì)英語(yǔ)語(yǔ)言能力的測(cè)量,還有考試對(duì)學(xué)生學(xué)習(xí)的影響、對(duì)教師教學(xué)的影響等方面都展開(kāi)深入的研究。

李:剛才您對(duì)ETS的研發(fā),特別是研究方面,做了全景式的介紹。下面請(qǐng)您談?wù)勈澜绶秶鷥?nèi)語(yǔ)言測(cè)試與評(píng)估的發(fā)展現(xiàn)狀、研究熱點(diǎn)、未來(lái)的發(fā)展方向等問(wèn)題。首先請(qǐng)您分析一下語(yǔ)言測(cè)試的研究現(xiàn)狀吧。

席:好。就英語(yǔ)考試的研究而言,我覺(jué)得整個(gè)領(lǐng)域的投入還是很不夠的。我們看到,一些大的研究機(jī)構(gòu)在做大量的考試方面的研究,一些小的研究機(jī)構(gòu)和大學(xué)也做一些研究,大多是基礎(chǔ)研究,可是,后者很難獲得真實(shí)的考試數(shù)據(jù)來(lái)研究考試對(duì)教學(xué)的影響,僅僅靠幾個(gè)大型考試研究機(jī)構(gòu)和公司是不夠的。怎么樣把語(yǔ)言測(cè)試的理論和方法簡(jiǎn)化一些,讓一線教師掌握一些基礎(chǔ)的研究手段?他們具備了這樣的能力之后,就可以對(duì)本地測(cè)試及課堂測(cè)試展開(kāi)研究。比如說(shuō),要考慮哪些基本的研究論題?收集哪些數(shù)據(jù)才能針對(duì)這些論題進(jìn)行研究?這是我的一點(diǎn)想法。

從今后的發(fā)展來(lái)看,我覺(jué)得有幾個(gè)大的研究方向。一是technology-enhanced assessment(技術(shù)輔助測(cè)評(píng))?，F(xiàn)在電腦和網(wǎng)絡(luò)越來(lái)越普及了,所以技術(shù)在考試中的作用是不可避免的。開(kāi)發(fā)計(jì)算機(jī)輔助測(cè)試,對(duì)我們來(lái)說(shuō),有機(jī)遇也有挑戰(zhàn)。這并不是僅僅把紙質(zhì)考題搬到電腦上。我們應(yīng)該考慮如下一些問(wèn)題:如,怎么樣用現(xiàn)代科技設(shè)計(jì)考題才能更好地測(cè)量學(xué)生的語(yǔ)言運(yùn)用能力以及拓展我們所能測(cè)量的能力?怎么樣用科技來(lái)輔助我們的考試設(shè)計(jì)?

ETS在這方面做了一些嘗試。比如在TOEFL Primary Speaking中,整個(gè)考試就是一個(gè)scenario-based task(故事情境)?？梢约僭O(shè)一幫小朋友在公園或者動(dòng)物園玩的時(shí)候,里面會(huì)出現(xiàn)各種場(chǎng)景,讓學(xué)生去give simple descriptions(簡(jiǎn)單描述)、tell a story(講故事)、make a request(提出請(qǐng)求),把所有語(yǔ)言交際的東西都融入到情景里面。在這個(gè)方面,技術(shù)可以起到很大作用。比如,可以用animation(動(dòng)畫(huà))模擬這些場(chǎng)景,讓學(xué)生感覺(jué)身臨其境。這是一個(gè)主要的研究方向。目前的研究好像還停留在paper-based(紙質(zhì))和computer-based(計(jì)算機(jī))考試的對(duì)比研究階段。這方面的研究是必要的。必須證明同樣的考試試題用不同的呈現(xiàn)方式,得出的分?jǐn)?shù)是一樣的,對(duì)學(xué)生是公平的。技術(shù)能提高考試的效率,但更重要的是,技術(shù)能不能幫助我們?nèi)y(cè)量傳統(tǒng)的紙筆測(cè)試所測(cè)不到的能力?

另外,大規(guī)?？荚囇芯繖C(jī)構(gòu)在formative assessment或者assessment for learning(促學(xué)測(cè)評(píng))方面的研究應(yīng)當(dāng)加強(qiáng)?，F(xiàn)在,人們提到考試機(jī)構(gòu),就會(huì)想到大規(guī)模的標(biāo)準(zhǔn)化考試。那么,怎么樣把考試與教學(xué)緊密地結(jié)合在一起?考試怎樣支持教學(xué)?作為檢驗(yàn)教學(xué)效果的手段,我剛才提到的CBAL的理念就是想把考試、教學(xué)和學(xué)習(xí)緊密地聯(lián)系起來(lái)。我們中心正在做的formative reading assessment以及其他類似的項(xiàng)目就是這方面的嘗試和探索。我覺(jué)得,在測(cè)試領(lǐng)域會(huì)有越來(lái)越多這類的考試。所以,支持這類考試的研究要跟上,要有一些新的assessment models(測(cè)評(píng)理論框架)。

李:您已經(jīng)談到了兩個(gè)大的研究領(lǐng)域。除了這些,還有什么值得我們今后加強(qiáng)研究?

席:再一個(gè)就是score interpretation(分?jǐn)?shù)解釋)的問(wèn)題。我們都知道CEFR(Common European Framework of Reference,歐洲共同語(yǔ)言參考標(biāo)準(zhǔn))。他們開(kāi)發(fā)這個(gè)標(biāo)準(zhǔn)的時(shí)候,恐怕沒(méi)有想到它會(huì)在全球產(chǎn)生這么大的影響。CEFR對(duì)普通的老師來(lái)說(shuō),是起到了一些作用,起碼有一個(gè)common language standard(統(tǒng)一的語(yǔ)言標(biāo)準(zhǔn))。我們可以判定學(xué)生的水平是B1還是B2。但我覺(jué)得,這個(gè)標(biāo)準(zhǔn)的運(yùn)用有很多問(wèn)題。它僅僅考慮了語(yǔ)言這個(gè)方面,是為成人研發(fā)的。那在認(rèn)知方面,對(duì)于兒童恐怕不太適合,因?yàn)樗麄冞€未達(dá)到與成人同等的認(rèn)知水平,盡管從語(yǔ)言水平來(lái)看是達(dá)到了。這些兒童學(xué)習(xí)者并不能完成一些過(guò)于復(fù)雜的交際任務(wù)。

另外,CEFR是一個(gè)非常generic(通用類)的標(biāo)準(zhǔn),對(duì)于那些特殊用途的語(yǔ)言考試適用嗎?這是我要談的第四個(gè)方面,就是ESP(English for Specific Purposes,專門用途英語(yǔ))的考試問(wèn)題。能把CEFR用于某個(gè)特殊領(lǐng)域嗎?比如,aviation English(航空英語(yǔ))、academic English(學(xué)術(shù)英語(yǔ))、medical English(醫(yī)學(xué)英語(yǔ)),這些領(lǐng)域英語(yǔ)交際要求的詞匯量和話語(yǔ)特征等等都會(huì)不一樣。所以,為不同的交際領(lǐng)域制訂出不同的語(yǔ)言測(cè)試標(biāo)準(zhǔn),這樣會(huì)更有意義。比如,在academic domain(學(xué)術(shù)英語(yǔ)交際領(lǐng)域)建立一個(gè)common yardstick(共同標(biāo)準(zhǔn))。既然不同交際領(lǐng)域的語(yǔ)言及交流模式有特殊性,那用所謂通用的標(biāo)準(zhǔn)去解釋分?jǐn)?shù),就會(huì)產(chǎn)生問(wèn)題。

李:CEFR是一個(gè)通用的標(biāo)準(zhǔn),但它是基于歐洲的英語(yǔ)學(xué)習(xí)者研制的。那么,在其他地區(qū),比如,東亞的中國(guó)、日本、韓國(guó),它還適用嗎?

席:我覺(jué)得,地域的差異還不是主要的問(wèn)題。CEFR畢竟不是基于specific curriculum(特定語(yǔ)言課程)開(kāi)發(fā)的。主要的問(wèn)題是specificity(具體化),還有它的target audience(適用人群)。CEFR不適用于小學(xué)生,也不是ESP的標(biāo)準(zhǔn)。如果一項(xiàng)考試考察的是English for general purposes(一般用途英語(yǔ)),那么CEFR是比較合適的,但在涉及到具體的、專業(yè)的英語(yǔ)測(cè)試時(shí),我們需要考慮更具體化的標(biāo)準(zhǔn)。另外,linking methodology(用來(lái)劃定與CEFR各水平級(jí)對(duì)等的考試分?jǐn)?shù)的方法)是個(gè)難題。它畢竟要靠expert judgment(專家主觀判斷)。那么,怎樣用多種方法來(lái)核對(duì)對(duì)等的結(jié)果?一些大型的考試分?jǐn)?shù)怎樣與CEFR的等級(jí)水平進(jìn)行對(duì)等?實(shí)際上,這一對(duì)等結(jié)果對(duì)考生的影響及其它的社會(huì)效應(yīng)是很大的。

李:您剛才談到了現(xiàn)代技術(shù)對(duì)考試的影響,CEFR和ESP等四個(gè)方面,主要是圍繞測(cè)試的實(shí)踐展開(kāi)。另外,在語(yǔ)言測(cè)試的理論層面,近幾年對(duì)validity(效度)和fairness(公平性)討論比較多。這二者的關(guān)系,目前還是有爭(zhēng)議的。您曾提出過(guò)一個(gè)考試公平性的模式①。在您看來(lái),是validity包括fairness,還是fairness包括validity。這個(gè)問(wèn)題非常重要,因?yàn)樗婕暗秸Z(yǔ)言測(cè)試研究的對(duì)象,需要拓展到社會(huì)的因素上,而不僅僅停留在對(duì)分?jǐn)?shù)的解釋上。

席:對(duì)。這個(gè)問(wèn)題很重要。我個(gè)人覺(jué)得,validity是一個(gè)寬泛的概念,包括test use and test consequence(測(cè)試使用和后果),就像Messick(1989)在EducationalMeasurement②的文章里闡述的那樣。最近Michael Kane(2006)的argument-based validation framework(基于論證的效度驗(yàn)證框架),還有Carol Chapelle等(2008)的應(yīng)用和擴(kuò)展,都是基于Messick闡述的validity這一基本概念的。Kane和Chapelle等都把validity看作是非常寬泛的概念?？墒?在Lyle Bachman的AUA(Assessment Use Argument,語(yǔ)言測(cè)評(píng)用途論證)③中,validity是一個(gè)相對(duì)窄的概念,他用justification of assessment use(測(cè)評(píng)使用的正當(dāng)性)來(lái)涵蓋validity。從理論上看,這些框架之間是有區(qū)別的,但從實(shí)際操作層面看,區(qū)別并不大,因?yàn)樗鼈兌及y(cè)試使用和測(cè)度后果等。您問(wèn)到validity和fairness的關(guān)系。Validity研究有非常成熟的體系,經(jīng)過(guò)了幾十年的發(fā)展,一開(kāi)始是1951年版的EducationalMeasurement里面Cureton的第一個(gè)關(guān)于validity的系統(tǒng)闡述論文,到后來(lái)的Cronbach(1971),到Messick(1989),再到Kane(2006)。Validity的概念和validation的方法,等等,都得到了明確的規(guī)范。比較而言,fairness的理論沒(méi)有這么系統(tǒng)全面。實(shí)際上,我認(rèn)為validity可以涵蓋fairness。因?yàn)閷?duì)于兩組考生,用考試的結(jié)果做決定,如果做不到公平,那就違反了validity的原則。我覺(jué)得,把fairness放到validity的大框架下,用validation的方法進(jìn)行fairness的研究,非常有用。比如,托福的考生有本科生和研究生,這個(gè)考試對(duì)于這樣兩個(gè)大群體來(lái)講,是不是公平的?對(duì)domain sampling(試題抽樣)、generalizability(概化、外推)、score-based decision(基于考試成績(jī)的決定)等這些validity方面的問(wèn)題,如果更有利于其中的一個(gè)群體,那么,這項(xiàng)考試對(duì)另一個(gè)群體就是不公平的。不公平的設(shè)計(jì)因素對(duì)考試公平性的影響會(huì)變得越來(lái)越大,對(duì)不同人群產(chǎn)生不同的影響。我覺(jué)得,應(yīng)該把fairness放在更大的validity的框架里來(lái)考慮和研究。

李:還有一個(gè)問(wèn)題。英語(yǔ)作為一種國(guó)際語(yǔ)言,就是作為通用語(yǔ)的英語(yǔ)(English as a Lingua Franca,簡(jiǎn)稱ELF),其地位越來(lái)越重要。這對(duì)托福這種國(guó)際型考試的未來(lái)發(fā)展有沒(méi)有影響?

席:當(dāng)然,影響是有的?，F(xiàn)在也有一些大型考試會(huì)考慮不同的accents(口音),但這主要取決于考試的目的,target language domain(適用范圍)、context(語(yǔ)境)、construct(構(gòu)念)的界定。比如,英國(guó)的一項(xiàng)achievement test(學(xué)業(yè)成績(jī)測(cè)試),課程教的就是英式英語(yǔ),那么,這項(xiàng)測(cè)試就要檢驗(yàn)學(xué)生對(duì)英式英語(yǔ)的掌握,當(dāng)然,考學(xué)生別的口音或者別的變體,就可能沒(méi)有必要。但是,換成一項(xiàng)international communication for business purposes(國(guó)際商務(wù)交際)考試,因?yàn)橐煌貐^(qū)的人打交道,那么考試就應(yīng)該考慮到英語(yǔ)的不同變體,才能做到考試的題目與target content domain(適用內(nèi)容范圍)匹配。所以,怎樣考慮ELF,要看具體考試。

李:最后,請(qǐng)您從語(yǔ)言測(cè)試研究專家的角度,對(duì)我們國(guó)內(nèi)的語(yǔ)言測(cè)試研究提一些建議吧。

席:這有些勉為其難,因?yàn)槲覍?duì)國(guó)內(nèi)的語(yǔ)言測(cè)試研究不是非常了解,我所知道的僅限于國(guó)內(nèi)學(xué)者在國(guó)際期刊上發(fā)表的論文和在國(guó)際會(huì)議上的交流,所以可能說(shuō)不到點(diǎn)子上。我覺(jué)得,現(xiàn)在國(guó)內(nèi)對(duì)考試的反撥效應(yīng)(washback)是很重視的。比如一些獨(dú)立學(xué)者就曾做過(guò)四六級(jí)考試(即大學(xué)英語(yǔ)考試四級(jí)和六級(jí),簡(jiǎn)稱CET)的反撥效應(yīng)研究。從前沿的理論和研究方法等方面,像conceptual model(理論模式)、validity model(效度模式)、validation methodology(效度驗(yàn)證方法)等都跟國(guó)際學(xué)者做過(guò)一些交流,非常有幫助。近幾年來(lái),交流是越來(lái)越多了。有一些國(guó)際知名的學(xué)者到國(guó)內(nèi)講學(xué),國(guó)內(nèi)的研究者也走出來(lái),與國(guó)際同行交流。這種雙向交流仍需要擴(kuò)大。ETS也非常歡迎這樣的雙向交流。

李:國(guó)內(nèi)目前還沒(méi)有像ETS這樣獨(dú)立的專門的教育測(cè)量與評(píng)估研究機(jī)構(gòu),但從ETS的成功以及它對(duì)世界教育測(cè)量發(fā)展作出的貢獻(xiàn)看,這種模式確實(shí)值得推廣。您覺(jué)得,在中國(guó)可以復(fù)制這樣的模式嗎?

席:我覺(jué)得,以后有可能產(chǎn)生。國(guó)家層面對(duì)教育考試非常重視,像CET、高考,都是教育部或者是地方教育部門來(lái)管理的?？荚囃墙逃母锏耐黄瓶?我聽(tīng)說(shuō)過(guò)考試是教學(xué)的“指揮棒”的說(shuō)法。但是,美國(guó)的一些模式也值得借鑒。比如,美國(guó)College Board(大學(xué)考試委員會(huì))④是一個(gè)獨(dú)立的松散的研究機(jī)構(gòu),這是一個(gè)民間非營(yíng)利的研究機(jī)構(gòu)。它開(kāi)發(fā)的SAT在美國(guó)中學(xué)影響很大?？墒?美國(guó)的大學(xué)不一定用SAT考試,他們有自己的自主權(quán),可以選擇自己認(rèn)可的考試。高考涉及的政策層面太多,可能比較難。但一些行業(yè)性考試、地方性考試、學(xué)校的學(xué)業(yè)考試等可以逐步跟國(guó)際接軌。獨(dú)立的民間的研究結(jié)構(gòu)可以嘗試介入或主持這樣的考試,用行業(yè)的標(biāo)準(zhǔn)進(jìn)行開(kāi)發(fā)和研究。從省市級(jí)的考試,再過(guò)渡到國(guó)家范圍的考試。

李:聽(tīng)了席博士的談話,我們受益匪淺。歡迎您經(jīng)常到國(guó)內(nèi)的高校和研究機(jī)構(gòu)講學(xué),讓國(guó)內(nèi)學(xué)者分享您和ETS專家的研究成果,促進(jìn)國(guó)內(nèi)語(yǔ)言測(cè)試的發(fā)展。非常感謝您接受我們的訪談！

席:不要客氣。

附注

① 參見(jiàn)Xi(2010)。

②EducationalMeasurement(Brennan 2006)與StandardsforEducationalandPsychologicalTesting(1999)一起,被看作教育與心理測(cè)量領(lǐng)域的“圣經(jīng)”。

③ 對(duì)AUA詳細(xì)闡述見(jiàn)Bachman(2005)、Bachman和Palmer(2010)。

④ 美國(guó)大學(xué)考試委員會(huì)是一個(gè)與大學(xué)、學(xué)院、學(xué)區(qū)和中學(xué)有關(guān)聯(lián)的非營(yíng)利組織。該組織主持的最著名的考試是SAT(Scholastic Assessment Test,學(xué)術(shù)能力評(píng)估測(cè)試,即美國(guó)的“高考”)。

參考文獻(xiàn)

American Educational Research Association, American Psychological Association, & National Council on Measurement in Education. 1999.StandardsforEducationalandPsychologicalTesting(2nd ed.) [Z]. Washington: American Educational Research Association.

Bachman, L. F. 2005. Building and supporting a case for test use [J].LanguageAssessmentQuarterly2: 1-34.

Bachman, L. F. & A. Palmer. S. 2010.LanguageAssessmentinPractice[M]. Oxford: Oxford University Press.

Brennan, R. L. (ed.). 2006.EducationalMeasurement[C]. Westport: American Council on Education/Praeger.

Chapelle, C., M. K. Enright & J. M. Jamieson. 2008.BuildingaValidityArgumentfortheTestofEnglishasaForeignLanguage[M]. New York: Routledge.

Cronbach, L. J. 1971. Test validation [A]. In R. L. Thorndike (ed.).EducationalMeasurement(2nd ed.) [C]. Washington, D. C.: American Council on Education. 443-507.

Cureton, E. E. 1951. Validity [A]. In E. F. Lindquist (ed.).EducationalMeasurement(1st ed.) [C]. Washington, D. C.: American Council on Education. 621-94.

Kane, M. 2006. Validation [A]. In R. Brennan(ed.).EducationalMeasurement[C]. Westport: Greenwood. 17-64.

Messick, S. 1989. Validity [A]. In R. L. Linn (ed.),EducationalMeasurement(3rd ed.)[C]. New York: American Council on Education and Macmillan. 13-103.

Xi, X. 2010. How do we go about investigating test fairness? [J].LanguageTesting27(2): 147-70.

(責(zé)任編輯甄鳳超)

[中圖分類號(hào)]H310.4

[文獻(xiàn)標(biāo)識(shí)碼]A

[文章編號(hào)]1674-8921-(2015)08-0026-05

[doi編碼]10.3969/j.issn.1674-8921.2015.08.005

作者簡(jiǎn)介:席小明,見(jiàn)正文。

當(dāng)代外語(yǔ)研究2015年8期

當(dāng)代外語(yǔ)研究的其它文章: 語(yǔ)料庫(kù)批評(píng)話語(yǔ)分析研究新進(jìn)展——《話語(yǔ)分析與媒體態(tài)度》評(píng)介; 宗教語(yǔ)言英譯的倫理透視——《水滸傳》英譯本對(duì)比研究之一; 類指句的入場(chǎng)問(wèn)題; 女性譯者主體性探究——析戴乃迭英譯《沉重的翅膀》; 中國(guó)學(xué)生英語(yǔ)能力可持續(xù)發(fā)展的途徑和方法——基于中國(guó)當(dāng)代英語(yǔ)教育名家敘事的考查; 英語(yǔ)通用語(yǔ)研究及其對(duì)中國(guó)英語(yǔ)教學(xué)的啟示

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

當(dāng)代語(yǔ)言測(cè)試?yán)碚撆c實(shí)踐——席小明博士訪談錄