蔡常石
(英國(guó)利物浦大學(xué) 語(yǔ)言學(xué)院,利物浦L69 3BX)
Compact First考試是劍橋國(guó)際英語(yǔ)認(rèn)證考試系列(FCE:First Certificate in English)中的一種模擬測(cè)試。[1]6該考試旨在幫助考生達(dá)到CEFR(歐洲共同語(yǔ)言參考標(biāo)準(zhǔn))的B2水平。該考試能夠全面反映考生現(xiàn)實(shí)生活中實(shí)際運(yùn)用語(yǔ)言的能力,如普通綜合能力、社交和旅游能力以及工作和學(xué)習(xí)能力等??荚囉晌鍌€(gè)部分組成:閱讀理解(1小時(shí))、寫(xiě)作(1小時(shí) 20分鐘)、英語(yǔ)應(yīng)用(45分鐘)、聽(tīng)力(40分鐘)及口語(yǔ)(14分鐘),每個(gè)部分各占總分值的20%。分析研究Compact First考試的口語(yǔ)部分對(duì)該考試形式和內(nèi)容的可靠性、有效性和真實(shí)性以及能否反映考生語(yǔ)言應(yīng)用能力進(jìn)行評(píng)估。
運(yùn)用試卷分析學(xué)理論對(duì)Compact First考試口語(yǔ)部分進(jìn)行分析,主要從語(yǔ)言測(cè)試的可靠性、有效性和真實(shí)性入手。
可靠性是一種不受非系統(tǒng)性波動(dòng)影響的概念。Hughes認(rèn)為要想一個(gè)測(cè)試是有效的,必須以系統(tǒng)準(zhǔn)確的評(píng)分為前提,即確保語(yǔ)言測(cè)試的可靠性。[2]36
根據(jù)不可靠性的來(lái)源可將可靠性分為以下三種類(lèi)型:
1.評(píng)分人的可靠性
評(píng)分人搜集到的信息中的不穩(wěn)定性(非系統(tǒng)性波動(dòng))將會(huì)影響到評(píng)分結(jié)果,即測(cè)試中評(píng)分人的可靠性。對(duì)于同一考生的試卷,不同的評(píng)分人可能會(huì)給出大相徑庭的評(píng)分。評(píng)分人的可靠性除了受評(píng)分者之間的差異影響外,還包括評(píng)分人自身的不可靠性。如:同一評(píng)分人在一天中的不同時(shí)段由于受到情緒或其他因素的影響,對(duì)同一考生也會(huì)給出不同的評(píng)分。
2.與考生相關(guān)的可靠性
考生自身的情況也會(huì)對(duì)可靠性造成影響。例如,由于考生生理或心理的狀況不同,或受到其他測(cè)試范圍以外的因素的影響,可能會(huì)有不同的應(yīng)試表現(xiàn)。
3.與測(cè)試方式有關(guān)的可靠性
可靠性還與測(cè)試的方式相關(guān)。語(yǔ)言水平相當(dāng)?shù)目忌瑓⒓硬煌}型的考試,其結(jié)果也會(huì)大不相同。例如,對(duì)于一些善于猜題的考生,在多項(xiàng)選擇題型的考試中就有可能獲得較高的分?jǐn)?shù)。
語(yǔ)言測(cè)試中的另一個(gè)重要的概念是有效性。Borsboom和Van提出有效性是指一個(gè)測(cè)試是否測(cè)試了想要測(cè)試的內(nèi)容。[3]145Hughes亦認(rèn)為:“如果一個(gè)測(cè)試能按照其計(jì)劃進(jìn)行準(zhǔn)確評(píng)估,那么此測(cè)試就是有效的?!盵2]143
有效性可分為內(nèi)容有效性、結(jié)構(gòu)有效性和考生認(rèn)可度有效性。
1.內(nèi)容有效性
內(nèi)容有效性涉及到測(cè)試是否涵蓋了被測(cè)試知識(shí)和技能的足夠范圍?!叭绻粋€(gè)測(cè)試的內(nèi)容包含了它打算包含的語(yǔ)言技能和結(jié)構(gòu)等具有代表性的范例,那么此測(cè)試就做到了內(nèi)容有效性。”[2]50例如,如果綜合語(yǔ)法能力測(cè)試包含兩個(gè)練習(xí):一個(gè)練習(xí)要求學(xué)生將10個(gè)句子改為過(guò)去時(shí),另一個(gè)練習(xí)要求學(xué)生將10個(gè)句子改為否定形式,其內(nèi)容有效性就不容樂(lè)觀。因?yàn)檫^(guò)去時(shí)和否定形式只是整個(gè)語(yǔ)法范圍中的一個(gè)小部分,而該測(cè)試的目的是測(cè)試考生的綜合語(yǔ)法能力。沒(méi)有達(dá)到測(cè)試的目標(biāo),就意味著該測(cè)試的內(nèi)容有效性很低。
2.結(jié)構(gòu)有效性
Hughes認(rèn)為:“‘結(jié)構(gòu)’這個(gè)詞存在于語(yǔ)言能力理論中的假設(shè),是指(語(yǔ)言學(xué)習(xí)者)任何潛在的(語(yǔ)言相關(guān)的)能力?!盵2]46此概念關(guān)注試卷所能測(cè)試到的考生潛在語(yǔ)言相關(guān)能力的深度。例如,如果閱讀理解測(cè)試要求學(xué)生在閱讀的基礎(chǔ)上寫(xiě)出總結(jié),然后按語(yǔ)言和內(nèi)容的準(zhǔn)確性進(jìn)行評(píng)分,該測(cè)試的結(jié)構(gòu)有效性就較低。原因在于這種測(cè)試過(guò)多涉及考生的寫(xiě)作總結(jié)能力而非閱讀理解能力。
3.考生認(rèn)可度有效性
Hughes指出:“如果某測(cè)試被考生視作能夠測(cè)出它應(yīng)該測(cè)試的內(nèi)容,那么此測(cè)試就具有考生認(rèn)可度有效性。”[2]151它反映考生對(duì)于試卷的態(tài)度。例如,一個(gè)原本準(zhǔn)備測(cè)試教學(xué)綱要里規(guī)定內(nèi)容的考試卻測(cè)試了此范圍以外的內(nèi)容,則會(huì)引起考生的不滿,從而導(dǎo)致較低的考生認(rèn)可度有效性。
語(yǔ)言存在于某一特定的語(yǔ)境中,而非孤立存在的。一個(gè)測(cè)試能否反映考生實(shí)際生活中可能使用語(yǔ)言的情境以及在何種程度上反映,則與語(yǔ)言測(cè)試中的真實(shí)性概念相關(guān)。例如,測(cè)試材料是不是從使用該種目標(biāo)語(yǔ)言的人群的現(xiàn)實(shí)生活中所選取的?測(cè)試項(xiàng)中的活動(dòng)是不是現(xiàn)實(shí)生活中存在的?
為了對(duì)Compact First考試試卷的實(shí)際使用效果進(jìn)行考察,由應(yīng)用語(yǔ)言學(xué)專(zhuān)業(yè)研究生組成了4人測(cè)試小組,對(duì)40名最近一次雅思成績(jī)均為6.5分的利物浦大學(xué)在校生進(jìn)行集中的口語(yǔ)測(cè)試。測(cè)試試卷為Compact First考試中的模擬考試2(口語(yǔ)部分),測(cè)試過(guò)程嚴(yán)格按模擬考試規(guī)定的流程進(jìn)行。
1.準(zhǔn)備階段
為了使測(cè)試工作順利開(kāi)展,除了應(yīng)提前通知考生考試信息外,還應(yīng)考慮選擇考生較佳的應(yīng)試狀態(tài)(如考生的空閑時(shí)間、熟悉的地點(diǎn)、健康的身體狀況和較佳的心態(tài)等)進(jìn)行測(cè)試。為此,測(cè)試小組選擇了考生的課余時(shí)間,并在考生就讀的大學(xué)圖書(shū)館進(jìn)行測(cè)試。測(cè)試小組在測(cè)試之前還做了其他一些必要的準(zhǔn)備工作,包括準(zhǔn)備錄音設(shè)備、熟悉試卷內(nèi)容和考試流程、研讀評(píng)分標(biāo)準(zhǔn)等。
2.測(cè)試階段
考生兩兩一組,由4名評(píng)分人對(duì)每組考生依次進(jìn)行測(cè)試。測(cè)試過(guò)程中注重不同類(lèi)型的互動(dòng)行為,包括考生之間及考生與評(píng)分人之間的對(duì)話(3分鐘)、考生的個(gè)人陳述(1分鐘)、考生之間協(xié)作完成一個(gè)任務(wù)(3分鐘)和考生之間的討論(4分鐘)。評(píng)分的標(biāo)準(zhǔn)涉及Grammar and Vocabulary(語(yǔ)法和詞匯)、Discourse Management(話語(yǔ)能力)、 Pronunciation(語(yǔ)音)、Interactive Communication(交際能力)和Global Achievement(綜合能力)等五個(gè)方面。該階段在14分鐘內(nèi)完成,并全程進(jìn)行了錄音。
3.評(píng)分階段
該階段由評(píng)分人依據(jù)Compact First口語(yǔ)考試的評(píng)分標(biāo)準(zhǔn)對(duì)考生進(jìn)行評(píng)分 (4名評(píng)分人獨(dú)立評(píng)分)。為了增強(qiáng)評(píng)分人的可靠性,進(jìn)行了兩次評(píng)分。第一次是根據(jù)考生的現(xiàn)場(chǎng)表現(xiàn)評(píng)分,第二次是根據(jù)錄音的內(nèi)容評(píng)分。
根據(jù)測(cè)試過(guò)程中反映出的情況和測(cè)試結(jié)果,主要從語(yǔ)言測(cè)試的可靠性、有效性和真實(shí)性的角度對(duì)Compact First考試試卷(口語(yǔ)部分)中存在的缺點(diǎn)和不足做出分析。
1.14 分鐘(14minutes)的口語(yǔ)測(cè)試時(shí)間是不充分的。近乎50%的考查對(duì)象不能在規(guī)定的時(shí)間內(nèi)自然表達(dá)其想法,或是說(shuō)話不多,或是條理不清,或是被評(píng)分人打斷。實(shí)際情況是這短短的14分鐘不可能全部用于對(duì)考生的口語(yǔ)能力測(cè)試。如:整個(gè)時(shí)間段內(nèi)考生不可能一直說(shuō)話,因?yàn)閰⒃囌咝枰獣r(shí)間考慮說(shuō)什么怎么組織語(yǔ)言,并且這14分鐘是兩個(gè)考生和一個(gè)評(píng)分人一起使用而非考生獨(dú)自使用的。時(shí)間的嚴(yán)重缺乏限制了測(cè)試的范圍和深度,大大影響了測(cè)試的有效性,包括內(nèi)容的有效性(如在口語(yǔ)測(cè)試中缺乏測(cè)試范例,例如在Part1中,僅僅給了5個(gè)例子)、結(jié)構(gòu)的有效性(如測(cè)試深度因?yàn)闀r(shí)間缺乏而不夠)和考生認(rèn)可度的有效性(如由于讓考生感覺(jué)到時(shí)間短缺而無(wú)法表現(xiàn)他們真實(shí)的口語(yǔ)能力)。建議增加該口語(yǔ)測(cè)試在整個(gè)測(cè)試(包括聽(tīng)說(shuō)讀寫(xiě))中所占的時(shí)間比例。
2.由于試卷中談話或討論部分提出的問(wèn)題并沒(méi)有正確或者錯(cuò)誤的答案(open test),此測(cè)試是一個(gè)主觀性測(cè)試而非客觀性測(cè)試,通常融入了評(píng)分人的主觀性。因此不可避免的降低了評(píng)分人的可靠性。雖然這是所有主觀性測(cè)試都不可避免的誤差,但并不意味著不可能降低該影響。建議盡量避免選取偏題怪題,力求內(nèi)容積極豐富(如Part4部分的內(nèi)容雖然夠不上偏題怪題,但話題比較狹窄,都是與危險(xiǎn)“risks”有關(guān)的,包括“accidents in kitchens”, “safer roads”, “risks in danger”,“extreme sports”,“rescued”and“safety rules”)而有意義,讓考生有話說(shuō)并且愿意交流,同時(shí)也一定程度上為評(píng)分者評(píng)分降低難度。
3.該口語(yǔ)測(cè)試在構(gòu)建良好的結(jié)構(gòu)有效性方面也存在問(wèn)題。例如,由于考生的圖片解釋能力不足,或者在聽(tīng)的過(guò)程中不能領(lǐng)悟來(lái)自其他伙伴的信息,而導(dǎo)致該考生無(wú)法繼續(xù)說(shuō)下去,致使所測(cè)試的是該考生的其他能力,如圖片解釋能力(in Part 2&3)和聽(tīng)力能力(in Part 3)而非其目標(biāo)語(yǔ)言的口語(yǔ)能力。建議選擇更為純粹的考題,其職能是考察考生的目標(biāo)語(yǔ)言能力而非其他能力。此外,由于該測(cè)試某種程度上無(wú)法反映出考生的真實(shí)口語(yǔ)能力(受其他能力的影響,如解釋圖片能力和聽(tīng)力能力),讓考生感到測(cè)試不公正,導(dǎo)致考生認(rèn)可度的有效性在第2部分和第3部分被降低了。
4.該測(cè)試的大部分設(shè)計(jì)脫離了真實(shí)語(yǔ)境而只是表現(xiàn)出與現(xiàn)實(shí)世界目標(biāo)語(yǔ)應(yīng)用較為松散的聯(lián)系,因此真實(shí)性較不理想。例如,在Part 2&3中出現(xiàn)的場(chǎng)景(pictures interpretation)在現(xiàn)實(shí)世界中幾乎不存在,同樣Part 4中關(guān)于“risks”的一系列提問(wèn)在日常生活中亦很少以這種方式提及,如“Who should pay if people who take risks have to be rescued?”(人們也很少談?wù)摗罢l(shuí)應(yīng)該為那些冒險(xiǎn)受傷的人付醫(yī)療費(fèi)? ”這樣的話題)。 “Which health and safety rules do you think are unnecessary?”(一般人對(duì)健康安全條例都未必清楚,更不會(huì)知道問(wèn)題所關(guān)注的其中哪些條例是非必須的。)因缺乏真實(shí)的語(yǔ)境使得對(duì)語(yǔ)言準(zhǔn)確性的評(píng)估極為困難,進(jìn)而影響了評(píng)分人的可靠性。建議通過(guò)設(shè)計(jì)更多真實(shí)生活環(huán)境中存在的話題來(lái)提高目標(biāo)語(yǔ)言測(cè)試的真實(shí)性。Part 1在這一點(diǎn)上做得較好,因?yàn)樗岢隽艘恍┰谌粘I钪泻芸赡艹霈F(xiàn)的更真實(shí)的問(wèn)題。
5.Part 1到Part 4為參試者提供了就不同話題回答的機(jī)會(huì)[如Part 1、2&3考生有機(jī)會(huì)被問(wèn)到或分到不同的題目,Part 4考生有自行選擇(“select”)考題的機(jī)會(huì)]。因?yàn)槭窃诓煌瑔?wèn)題的答案上去評(píng)定不同的考生,這就削弱了評(píng)分人的可靠性,因而致使主觀評(píng)定變得更難。同時(shí),由于讓考生有了避免回答其不喜歡的或者不擅長(zhǎng)的問(wèn)題的機(jī)會(huì),內(nèi)容有效性也被降低了,從而進(jìn)一步縮小了測(cè)試類(lèi)型的范圍。建議適度控制考生自由選擇考題的比例,或者在評(píng)分標(biāo)準(zhǔn)上做出相應(yīng)的調(diào)整。
表1 對(duì)比測(cè)試1
表2 對(duì)比測(cè)試2
測(cè)試小組還做了一個(gè)對(duì)比測(cè)試:測(cè)試1和測(cè)試2。由2名評(píng)分人對(duì)40名考生(每10人一組)進(jìn)行測(cè)試。采用附錄-1試題,5分制計(jì)分。測(cè)試1:評(píng)分人在Part 1的5個(gè)簡(jiǎn)答題中任選2題提問(wèn),在Part 4的6個(gè)問(wèn)答題中由考生任選1題回答。測(cè)試2:評(píng)分人在Part 1的5個(gè)簡(jiǎn)答題中任選3題提問(wèn),在Part 4的6個(gè)問(wèn)答題中由考生任選2題回答。兩次測(cè)試的結(jié)果已分別列于表1和表2(表中分?jǐn)?shù)為各組考生的平均得分)。
對(duì)比表1和表2可以看出:適量在Part 1中增加評(píng)分人提問(wèn)題的數(shù)量以及在Part 4中增加考生任選題的數(shù)量,可縮小不同評(píng)分人對(duì)同一考生的評(píng)分差距,即增強(qiáng)了“評(píng)分人的可靠性”。
6.小組討論(如Part 3)會(huì)影響到考生認(rèn)可度的有效性與考生相關(guān)的可靠性以及與測(cè)試方式有關(guān)的可靠性。因?yàn)槊總€(gè)考生的表現(xiàn)都可能?chē)?yán)重依賴于其伙伴,而這種情況可能發(fā)生在各種合作中,如主題針對(duì)的是考生不熟悉甚至不喜歡的方面,或者因?yàn)榭忌g的口語(yǔ)能力迥異而給對(duì)方很大的壓力,或考生之間無(wú)法達(dá)成共識(shí)。在這些情況下,考生有理由認(rèn)為測(cè)試是不公平的。正如Ahmad Abdulrahman所說(shuō):“可靠性從屬于考生認(rèn)可度有效性”。[4]143建議讓考生有機(jī)會(huì)在一次考試中接觸不同的合作伙伴。另外,該測(cè)試沒(méi)有給考生提供就測(cè)試內(nèi)容不理解或者疑慮和考官進(jìn)行交流的機(jī)會(huì) (如果考生提問(wèn),也許會(huì)影響到評(píng)分,也耽誤時(shí)間),而只是被動(dòng)的回答,這讓考生在測(cè)試中陷入了不同于平時(shí)正常交流的劣勢(shì)處境。建議題目設(shè)計(jì)中給考生留出適當(dāng)?shù)奶釂?wèn)空間。
7.由于一個(gè)評(píng)分人也可以作為談話者 (as an interlocutor)與考生對(duì)話,這也會(huì)因?yàn)樯婕暗皆u(píng)分人自身的表現(xiàn)而影響到評(píng)分人的可靠性,或者致使某些考生存在必須將評(píng)估者作為談話伙伴的壓力而降低主觀可靠性和與測(cè)試方式相關(guān)的可靠性。建議對(duì)評(píng)分人的自身素質(zhì)進(jìn)行培訓(xùn),使他們能最大程度的配合考生。
Compact First考試口語(yǔ)部分采用的是一種趨向于鼓勵(lì)考生使用交際性目標(biāo)語(yǔ)的測(cè)試方法,能在一定程度上保證測(cè)試的可靠性、有效性和真實(shí)性,因而是一種能夠比較全面反應(yīng)考生在現(xiàn)實(shí)生活中實(shí)際運(yùn)用英語(yǔ)口語(yǔ)能力的考試。但通過(guò)對(duì)其使用效果的實(shí)際考察,發(fā)現(xiàn)它還存在著一些不夠完善的地方,因此需要相應(yīng)的調(diào)整和改革。
附錄:
本文分析對(duì)象(CompactFirst考試中模擬測(cè)試2的口語(yǔ)部分)
Part 1 3 minutes(5 minutes for groups of three)
The examiners introduce themselves;the interlocutor ask the candidates their names and collects the mark sheets.
Interlocutor:First,we'd like to know something about you.These are examples of the kind of questions the interlocutor might ask each candidate:
·Do you ever play any sports?(Why?/Why not?)·Which city would you most like to visit?(Why?)
·Do you spend more time with your family or with your friends?(Why?)
·Do you prefer going out to places with other people or on your own?(Why?)
Part 2 4 minutes(6 minutes for groups of three)
Interlocutor:In this part of the test,I'm going to give each of you two photographs.I'd like you to talk about your photographs on your own for about a minute,and also to answer a short question about your partner's photographs.(Candidate A),it's your turn first.Here are your two photographs(Indicate the photographson page 34).They showpeople learning to do things.I'd like you to compare the photographs,and saywhat you think is difficult about learning to do these things.All right?
Candidate A:[One minute]
Interlocutor:Thank you.(Candidate B),do you enjoy learning to do new things?
Candidate B:[Approximately twenty seconds]
Interlocutor:Thank you.Now, (Candidate B), here are your two photographs(Indicate the photographs on page 35).They show people watching films.I'd like you to compare the photographs,and say how enjoyable you think it is to watch a film in these ways.All right?
Candidate B:[One minute]
Interlocutor:Thank you.(Candidate A),do you often go to the cinema?
Candidate A:[Approximately twenty seconds]
Interlocutor:Thank you.
Parts 3 and 4 7 minutes(9 minutes for groups of three)Part 3
Interlocutor:Now,I'd like you to talk about something together for about three minutes.(4 minutes for groups of three)Here are some pictures ofthings thathelp protectpeople from injury.(Indicate the photographs on page 36 and 37)First,talk to each other about how these objects can help keep people safe.Then decidewhich two are the most important safety items.All right?
Candidates:[Three or four minutes]
Part 4
Interlocutor:Select any of the following questions,as appropriate.·Why do so many accidentshappen in people's kitchens?
·What do you think we can do to make the roads safer?
·Why do some people take risks that put them in danger?
·Why are extreme sportsbecoming more popular among young people?
·Who should pay if people who take risks have to be rescued?
·Which health and safety rules do you think are unnecessary?
Select any of the following prompts,as appropriate:·What do you think?·Do you agree?·And you?
[1]May,P.Cambridge English Compact First[M].UK Cambridge:Cambridge University Press,2012.
[2]Hughes,A.Testing for Language Teachers[M].UK Cambridge:Cambridge University Press,2002.
[3]Borsboom, D.Mellenbergh, G.J.&Van Heerden.The concept of validity[J].Psychological Review, 2004,111(4).
[4]Ahmad Abdulrahman,A.An Investigation into the Construct Validityofan AcademicWritingTestin English with Special Reference to the Academic Writing Module of the IELTS Test[M].UK Exeter:University of Exete,2013.