摘 要:測(cè)試是英語(yǔ)教學(xué)環(huán)節(jié)中非常重要的一個(gè)部分,它能夠?yàn)橛⒄Z(yǔ)教學(xué)提供反饋,檢測(cè)學(xué)生的學(xué)習(xí)效果、教師的教學(xué)水平及學(xué)校的教學(xué)質(zhì)量。一份高質(zhì)量的試題一定具有以下特征:效度高、信度高、具有可操作性、具有積極的反撥作用。效度和信度是語(yǔ)言測(cè)試學(xué)專家一致認(rèn)為非常重要的評(píng)價(jià)指標(biāo)?;诖耍恼聫男Ф群托哦冗@兩個(gè)方面談?wù)勅绾慰刂圃囶}命制的質(zhì)量,并提出具體策略。
關(guān)鍵詞:英語(yǔ);效度;信度;試題
中圖分類(lèi)號(hào):G40? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):2095-9192(2022)16-0044-05
引? 言
英語(yǔ)測(cè)試對(duì)英語(yǔ)教學(xué)有很大影響,它對(duì)教學(xué)的反撥作用非常明顯。設(shè)計(jì)良好的測(cè)試會(huì)帶來(lái)正反撥作用,對(duì)促進(jìn)學(xué)生英語(yǔ)語(yǔ)言能力的提高起到很大作用,對(duì)教師的教學(xué)方向產(chǎn)生積極的指導(dǎo)作用。相反,試題命制如果出現(xiàn)問(wèn)題,則會(huì)給教師的教學(xué)和學(xué)生的學(xué)習(xí)帶來(lái)負(fù)面沖擊。因此,作為試題命制者,我們需要探討如何才能設(shè)計(jì)出一份高質(zhì)量的英語(yǔ)試題。
效度和信度是語(yǔ)言測(cè)試學(xué)專家一致認(rèn)為的非常重要的評(píng)價(jià)指標(biāo)。所以,本文從效度和信度這兩方面談?wù)勅绾慰刂圃囶}命制的質(zhì)量。
一、效度
語(yǔ)言測(cè)試的效度是指一個(gè)測(cè)試是否考了它要考的方方面面的內(nèi)容。效度一般分為六個(gè)方面:構(gòu)念效度、內(nèi)容效度、共時(shí)效度、預(yù)測(cè)效度、后效效度和表面效度。
(一)構(gòu)念效度
從廣義上講,構(gòu)念效度中的構(gòu)念是指整個(gè)考試以之為基礎(chǔ)的理論結(jié)構(gòu)。不同的考試有不同的構(gòu)念,即不同的考試有不同的理論依據(jù)。構(gòu)念不同,試卷所呈現(xiàn)出來(lái)的考查形式和考查內(nèi)容就會(huì)不同。構(gòu)念效度是語(yǔ)言測(cè)試的主要效度,是其他幾個(gè)方面效度的基礎(chǔ),構(gòu)念效度決定整個(gè)考試的性質(zhì)。
就高考而言,測(cè)試依據(jù)考試說(shuō)明編寫(xiě),考試說(shuō)明又是基于考試大綱設(shè)計(jì)出來(lái)的,而考試大綱編寫(xiě)依據(jù)的是《普通高中英語(yǔ)課程標(biāo)準(zhǔn)(2017年版2020年修訂)》(以下簡(jiǎn)稱《課程標(biāo)準(zhǔn)》)。因此,《課程標(biāo)準(zhǔn)》就是我國(guó)高考的理論基礎(chǔ)。
對(duì)于中學(xué)英語(yǔ)測(cè)試而言,越能體現(xiàn)《課程標(biāo)準(zhǔn)》要求的測(cè)試,構(gòu)念效度越好。目前,《課程標(biāo)準(zhǔn)》的修訂方向是從綜合語(yǔ)言運(yùn)用能力轉(zhuǎn)向英語(yǔ)學(xué)科核心素養(yǎng)。這就說(shuō)明,高中英語(yǔ)測(cè)試的構(gòu)念發(fā)生了變化。教育部組織研究、提出各學(xué)段學(xué)生發(fā)展核心素養(yǎng)體系,明確學(xué)生應(yīng)具備的適應(yīng)終身發(fā)展和社會(huì)發(fā)展需要的品格和關(guān)鍵能力,突出強(qiáng)調(diào)個(gè)人修養(yǎng)、社會(huì)關(guān)愛(ài)、家國(guó)情懷,更加注重自主發(fā)展、合作參與和創(chuàng)新實(shí)踐。因此,為了保證測(cè)試的構(gòu)念效度,在《課程標(biāo)準(zhǔn)》實(shí)施后,試題必須依據(jù)《課程標(biāo)準(zhǔn)》的要求進(jìn)行命制。
《課程標(biāo)準(zhǔn)》指出,英語(yǔ)學(xué)科核心素養(yǎng)主要包括語(yǔ)言能力、文化意識(shí)、思維品質(zhì)和學(xué)習(xí)能力,各要素的發(fā)展以三個(gè)水平劃分。我們以“文化意識(shí)”為例進(jìn)行說(shuō)明?!墩n程標(biāo)準(zhǔn)》提到,文化意識(shí)的培育有助于學(xué)生增強(qiáng)國(guó)家認(rèn)同和家國(guó)情懷,堅(jiān)定文化自信,樹(shù)立人類(lèi)命運(yùn)共同體意識(shí),學(xué)會(huì)做人做事,成為有文明素養(yǎng)和社會(huì)責(zé)任感的人。對(duì)“文化意識(shí)”這一素養(yǎng)的三級(jí)描述為:一級(jí),通過(guò)中外文化對(duì)比,加深對(duì)中國(guó)文化的理解,堅(jiān)定文化自信;二級(jí),尊重和理解文化的多樣性,具有國(guó)際視野,進(jìn)一步堅(jiān)定文化自信;三級(jí),分析、鑒別文化現(xiàn)象所反映的價(jià)值取向,自覺(jué)堅(jiān)定文化自信。不難看出,“堅(jiān)定文化自信”是個(gè)高頻短語(yǔ)。分析近幾年的高考題能夠發(fā)現(xiàn),高考題中有關(guān)中國(guó)元素和中國(guó)文化的內(nèi)容較以前有明顯增加,以2021新高考I卷語(yǔ)法填空為例。
Going to Mount Huangshan reminds me of the popular Beatles' song“The Long and Winding Road”.
56? ?is so breathtaking about the experience is the out-of-this-world scenes. The rolling sea of clouds you see once you are at the top will remind you how tiny we? ?57? ?(human) are.
The hot spring at the foot of the mountain is something you must try after the climb. It will? ?58? ?(undoubted) help you get refreshed! The amazing thing about the spring is that the colder the temperature gets, the? ?59? ?(hot) the spring! Strange, isn't it? But that's how nature is — always leaving us? ?60? ?(astonish).
What comes next is the endless series of steps. You can't help wondering how hard it? ?61? ?(be) for the people then to put all those rocks into place. Though it is the only unnatural thing on your way up the mountain, still it highlights the whole adventure? ?62? ?offers a place where you can sit down to rest your? ?63? ?(ache) legs.
As the song goes, this long and winding road“will never disappear”, and it will always stick in the visitor's memory. It sure does in? ?64? ?(I). While you're in China, Mount Huangshan is? ?65? ?must to visit!
這篇材料介紹了作者游覽黃山的所見(jiàn)所聞,展示了祖國(guó)的大好河山。
從微觀角度看,測(cè)試是否具有構(gòu)念效度體現(xiàn)在聽(tīng)說(shuō)讀寫(xiě)每一種測(cè)試是否考查了所要考查的能力。如下面一道口語(yǔ)測(cè)試題:
Can you tell me the name of the animal in the picture?
該口語(yǔ)測(cè)試的構(gòu)念效度比較低,因?yàn)樗疾榈牟恢皇强谡Z(yǔ)能力。如果學(xué)生口語(yǔ)能力達(dá)到了,但不認(rèn)識(shí)圖1中的動(dòng)物,那么試題就無(wú)法考查學(xué)生真實(shí)的口語(yǔ)能力。也就是說(shuō),這道題目并沒(méi)有考到它所要考的內(nèi)容。
(二)內(nèi)容效度
李筱菊認(rèn)為,內(nèi)容效度是指測(cè)試是否考了考試大綱規(guī)定要考的[1]。Hughes 認(rèn)為,如果一個(gè)測(cè)試的內(nèi)容包含了具有代表性的語(yǔ)言技能、結(jié)構(gòu)等,那它就被認(rèn)為是有效的。
(1)What is tested should be related to the predetermined test domain, e.g. a listening test should include the measurement of skills relevant to the test domain.
(2)What is tested should be representative of the predetermined set of skills or abilities, i.e. a test should cover a greater variety of skills or language elements relevant to the test domain.
我們可以看出,內(nèi)容效度關(guān)注的是考試是否和所要考查項(xiàng)目的能力相關(guān),考查點(diǎn)是否體現(xiàn)代表性的語(yǔ)言技能和結(jié)構(gòu)。我們來(lái)看下面的例子。
下列技能是否都和閱讀相關(guān)呢?
(1)能讀懂語(yǔ)言簡(jiǎn)單、不同類(lèi)型的材料,如簡(jiǎn)短故事、書(shū)信等,提取細(xì)節(jié)信息,概括主旨要義。
(2)能有條理地講述簡(jiǎn)短故事或個(gè)人經(jīng)歷。
(3)能通過(guò)分析句子和篇章結(jié)構(gòu)讀懂語(yǔ)言較復(fù)雜的材料,理解意義之間的關(guān)系。
很明顯,第二條是關(guān)于表達(dá)性技能的,那么在考查閱讀能力的考試中就不合適,與考查能力不相關(guān)。
再來(lái)看一個(gè)例子。某篇閱讀理解題的考查點(diǎn)見(jiàn)表1。
從表1可以看出,所有的設(shè)題都是具體細(xì)節(jié)題,那么這些題目的代表性是不夠合理的,所以這篇閱讀理解題目的內(nèi)容效度相對(duì)較低。
(三)共時(shí)效度
共時(shí)效度是指一個(gè)測(cè)試所檢測(cè)的內(nèi)容和一個(gè)目前已經(jīng)存在的測(cè)試標(biāo)準(zhǔn)之間的關(guān)系。這里所提到的目前已經(jīng)存在的測(cè)試標(biāo)準(zhǔn)包括兩個(gè)方面:一個(gè)高質(zhì)量的標(biāo)準(zhǔn)化測(cè)試;一系列評(píng)價(jià)標(biāo)準(zhǔn)。因此,我們需要借助另一個(gè)高質(zhì)量的測(cè)試或評(píng)價(jià)作為驗(yàn)證標(biāo)準(zhǔn),來(lái)判斷新的測(cè)試是否具有共時(shí)效度[2]。
首先,我們可以借助另一個(gè)高質(zhì)量的測(cè)試來(lái)檢驗(yàn)測(cè)試的共時(shí)效度:把一份試卷和一份水平相當(dāng)?shù)母哔|(zhì)量的試卷讓學(xué)生一起做,如果分?jǐn)?shù)相當(dāng),則共時(shí)效度高。
以 FCE(First Certificate in English,劍橋英語(yǔ)五級(jí)證書(shū)考試的第三級(jí))為例,通過(guò)FCE考試,相當(dāng)于雅思考試成績(jī)達(dá)到5~6.5分,即FCE(pass)= IELTS(5~6.5)。如果應(yīng)試者參加完FCE并通過(guò)考試,而且參加雅思考試成績(jī)達(dá)到了5~6.5分,則說(shuō)明 FCE考試的共時(shí)效度比較高。
(四)預(yù)測(cè)效度
預(yù)測(cè)效度是指測(cè)試是否起到了有效的預(yù)測(cè)作用,或者在多大程度上預(yù)測(cè)了學(xué)生在未來(lái)學(xué)習(xí)中的學(xué)習(xí)成就。以高考為例,從總體上說(shuō),考試成績(jī)較好的高中畢業(yè)生到大學(xué)仍然成績(jī)較好,成績(jī)比較低的學(xué)生則很難有很大的超越。因此,高考試卷具有比較好的預(yù)測(cè)效度。
共時(shí)效度和預(yù)測(cè)效度有一個(gè)共同點(diǎn),即它們都是利用測(cè)試之外的標(biāo)準(zhǔn)而得以證實(shí)的效度。因此,共時(shí)效度和預(yù)測(cè)效度也被稱為外在效度(external validity)。
共時(shí)效度和預(yù)測(cè)效度的不同之處在于:(1)前者是共時(shí),后者是歷時(shí)。共時(shí)效度是指通過(guò)對(duì)兩次時(shí)間相近的評(píng)價(jià)結(jié)果進(jìn)行比較,得出一致性程度的結(jié)論。預(yù)測(cè)效度要對(duì)兩次時(shí)間相隔較遠(yuǎn)的評(píng)價(jià)結(jié)果進(jìn)行比較,說(shuō)明測(cè)試是否能預(yù)測(cè)受試者目標(biāo)能力將來(lái)的發(fā)展。(2)考試目的不同。共時(shí)效度說(shuō)明測(cè)試是否能判斷受試者目標(biāo)能力的現(xiàn)狀;預(yù)測(cè)效度說(shuō)明測(cè)試是否能預(yù)測(cè)受試者目標(biāo)能力將來(lái)的發(fā)展。
測(cè)試學(xué)家們普遍認(rèn)為外在標(biāo)準(zhǔn)是最客觀的標(biāo)準(zhǔn),依據(jù)外在標(biāo)準(zhǔn)的驗(yàn)證方法是最科學(xué)的方法,因此,共時(shí)效度和預(yù)測(cè)效度也是被最多人承認(rèn)的效度[3]。
(五)后效效度
后效效度是指測(cè)試結(jié)果是否造成了一定的社會(huì)后果。
以英國(guó)醫(yī)生資格考試為例,該考試測(cè)試的是在英國(guó)當(dāng)醫(yī)生需具備的英語(yǔ)能力。如果該考試的難度過(guò)高,會(huì)出現(xiàn)醫(yī)生具備和病人交流所需的英語(yǔ)語(yǔ)言能力,但是沒(méi)有通過(guò)考試的情況,其后果是該醫(yī)生無(wú)法在英國(guó)從醫(yī),而英國(guó)很可能因此錯(cuò)失一位好醫(yī)生。如果該考試難度較低,很多醫(yī)生雖然還不具備和病人交流所需的英語(yǔ)語(yǔ)言能力,但是通過(guò)了考試,獲得了在英國(guó)的從醫(yī)資格,這樣造成的社會(huì)后果可能會(huì)很?chē)?yán)重,如給病人醫(yī)錯(cuò)病、開(kāi)錯(cuò)藥。
需要注意的是,如果一個(gè)測(cè)試的預(yù)測(cè)效度不佳,則其后效效度通常也會(huì)存在問(wèn)題。以高考為例,如果一個(gè)學(xué)生的高考成績(jī)很好,但大一成績(jī)很差,說(shuō)明高考預(yù)測(cè)效度不高,同時(shí)說(shuō)明高考的難度可能過(guò)低,該學(xué)生很可能英語(yǔ)能力還不足夠上大學(xué),但是卻被錄取了,這會(huì)對(duì)社會(huì)發(fā)展、學(xué)生就業(yè)等造成不良影響,這種情況也意味著該測(cè)試的后效效度不高。
(六)表面效度
表面效度是指試卷看上去是否能夠測(cè)量所要測(cè)量的東西,考試表面的形式和內(nèi)容是否讓受試者覺(jué)得有效、獲得認(rèn)同。
如果一項(xiàng)針對(duì)幼兒的英語(yǔ)測(cè)試沒(méi)有使用豐富的圖畫(huà),而是使用了大量的詞匯,那么該測(cè)試的表面效度就不高,是不會(huì)被認(rèn)同的。如果做題說(shuō)明中有生詞,受試者難以理解做題要求,則受試者會(huì)覺(jué)得不客觀公正,不會(huì)認(rèn)同,即表明該測(cè)試的表面效度不高。
另外,做題要求不明確或者出題不嚴(yán)密也都可能導(dǎo)致表面效度低。例如,一次測(cè)試中有這樣一道題目:How powerful is the earthquake? 正確答案是 7.9 magnitude(s)。但由于出題不嚴(yán)謹(jǐn),有的學(xué)生回答Very powerful。學(xué)生的作答不能算錯(cuò),但是與測(cè)試者期望的答案完全不同,這樣的測(cè)試表面效度就很低。
效度的六個(gè)方面(構(gòu)念效度、內(nèi)容效度、共時(shí)效度、預(yù)測(cè)效度、后效效度及表面效度)是一個(gè)整體,而不是效度的六個(gè)種類(lèi)。在實(shí)踐活動(dòng)中,不能將它們割裂開(kāi),而是要作為一個(gè)整體去考慮。
(七)如何保證效度
效度是評(píng)價(jià)測(cè)試最重要的一個(gè)指標(biāo),作為命題者,保證測(cè)試的效度是一項(xiàng)非常重要的工作。我們應(yīng)該如何保證測(cè)試的效度呢?
首先,在命題前,我們應(yīng)該有一份清晰而詳細(xì)的細(xì)目表,即考試說(shuō)明。根據(jù) levels of assessment design 理論,考試說(shuō)明是依照考試大綱制定的,而考試大綱又是以《課程標(biāo)準(zhǔn)》為參考的。因此,我們的測(cè)試能夠以考試說(shuō)明為基礎(chǔ)進(jìn)行命制,那么該測(cè)試的效度,尤其是內(nèi)容效度,就能得到保證。
其次,盡可能使用直接測(cè)試的方法。即聽(tīng)力考試通過(guò)聽(tīng)的方式,口語(yǔ)考試通過(guò)說(shuō)的方式,而不是通過(guò)選擇題考查語(yǔ)音知識(shí),這樣才可以保證測(cè)試的構(gòu)念效度,否則,考查的能力就不全面。這也是高考題增加聽(tīng)力測(cè)試后語(yǔ)音知識(shí)題被取消的原因。
另外,應(yīng)該讓學(xué)生熟悉試卷結(jié)構(gòu)和試題形式。每年中高考考試大綱的說(shuō)明都給出樣題,這是為了保證測(cè)試的表面效度。因此,我們命制的試題要跟樣題保持一致,讓學(xué)生熟悉測(cè)試形式,使試卷看上去公正。
最后,在命題完成之后,命題者需要對(duì)試題進(jìn)行檢查、改進(jìn)、試測(cè)和調(diào)整,最后定稿。這樣做的目的是從整體上把握測(cè)試的效度。
二、信度
信度是測(cè)試結(jié)果的可信、可靠程度,或者說(shuō)是一個(gè)測(cè)試的結(jié)果和它自身或其他測(cè)試結(jié)果之間一致性的實(shí)際水平。信度高的測(cè)試有很好的一致性和穩(wěn)定性。 測(cè)試信度的關(guān)鍵是客觀和公平,而要達(dá)到客觀、公平,我們需要考慮以下四種信度:考生信度、測(cè)試實(shí)施信度、測(cè)試內(nèi)容信度和評(píng)分信度。下面,我們將分析這四個(gè)方面的信度,并探討如何提高信度。
(一)考生信度
考生信度是指考生參加測(cè)試時(shí)的身心狀態(tài)和水平發(fā)揮的程度。保證考生信度涉及很多方面,如要確保考生的身體健康、動(dòng)機(jī)正確、情緒穩(wěn)定、記憶力正常、注意力集中、細(xì)心認(rèn)真、按時(shí)或提前完成測(cè)試、沒(méi)有作弊現(xiàn)象等。試想,如果有考生在考試當(dāng)天咳嗽或者發(fā)燒,勢(shì)必會(huì)影響考生水平的正常發(fā)揮,考試結(jié)果也不能真實(shí)地反映考生的水平,那么這個(gè)測(cè)試的信度就不是很高。有些測(cè)試可能會(huì)含有需要考生辨別顏色的題目,這樣的題目對(duì)患有色盲的考生來(lái)說(shuō)是不公平的,這同樣會(huì)影響考試的信度。有的考生在平時(shí)的學(xué)習(xí)過(guò)程中練習(xí)的題量較大,教師傳授的解題思路較多,對(duì)生活的體驗(yàn)較多,對(duì)某些領(lǐng)域的知識(shí)較熟悉,這部分考生能夠更容易理解做題說(shuō)明,更快找到解題思路,掌握較多的猜題技巧,更容易理解涉及某些領(lǐng)域知識(shí)的題目,并且能夠較快地完成測(cè)試;而做題量較少、生活體驗(yàn)較少、對(duì)某些領(lǐng)域的知識(shí)較生疏的學(xué)生就會(huì)處于劣勢(shì),這會(huì)導(dǎo)致測(cè)試結(jié)果有失公平,不利于保證測(cè)試的信度。
(二)測(cè)試實(shí)施信度
測(cè)試實(shí)施信度包括測(cè)試環(huán)境的信度和測(cè)試實(shí)施方式的信度。測(cè)試環(huán)境的信度涉及考場(chǎng)的地理位置、考場(chǎng)空間大小、考場(chǎng)的空氣流通、考場(chǎng)內(nèi)外的噪聲、考場(chǎng)的光線及考場(chǎng)的溫度等各方面情況。例如,考場(chǎng)的噪聲與考生的注意力密切相關(guān)。如果考場(chǎng)內(nèi)外有噪聲且噪聲很大,那么考生的注意力會(huì)受到嚴(yán)重干擾,尤其是當(dāng)考生在做聽(tīng)力測(cè)試的過(guò)程中,噪聲會(huì)嚴(yán)重影響考生的正常發(fā)揮,直接影響考生的考試成績(jī),進(jìn)而影響考試的信度。考場(chǎng)空間大小也與考試的信度有關(guān)。如果考場(chǎng)空間大,考生與考生的前后左右間隔距離加大,這樣會(huì)降低考生作弊的幾率,有利于保證考試的信度。反之,則有可能降低考試的信度[4]。
另外,考場(chǎng)的空氣流通程度、光線及溫度與考生的狀態(tài)緊密關(guān)聯(lián)。如果這三個(gè)條件達(dá)到最佳,則有助于將考生身體及大腦調(diào)整至最佳狀態(tài),保證考生在考場(chǎng)上的正常發(fā)揮,也有利于保證考試的信度。
測(cè)試實(shí)施方式的信度涉及測(cè)試所用設(shè)備的質(zhì)量、測(cè)試時(shí)間的長(zhǎng)度、監(jiān)考員的指令、同一測(cè)試用于不同時(shí)間、不同的測(cè)試對(duì)象及監(jiān)考員對(duì)考生的態(tài)度等各方面的情況。例如,測(cè)試同一聽(tīng)力試題時(shí),A考場(chǎng)的考生所聽(tīng)的內(nèi)容出自一臺(tái)小錄音機(jī),而B(niǎo)考場(chǎng)的考生所聽(tīng)的內(nèi)容出自一位教師的當(dāng)場(chǎng)朗讀,并且速度很慢,那么考試分?jǐn)?shù)的信度必然會(huì)降低。如果監(jiān)考員對(duì)如何填寫(xiě)答卷等的指令說(shuō)明不夠清楚,給考生造成理解的障礙,也會(huì)影響考生的分?jǐn)?shù),從而影響考試的信度。
(三)測(cè)試內(nèi)容信度
測(cè)試內(nèi)容信度涉及題量、題型的種類(lèi)、試題難易度、試題區(qū)分度和試題的偏頗性等方面。一般來(lái)說(shuō),一套信度較高的試題含有足夠多的題目和多種題型。題目越多,題型越多樣,越能檢測(cè)出考生對(duì)不同知識(shí)點(diǎn)和解題技巧的掌握程度,以及考生對(duì)不同題型的解答能力,考試結(jié)果更能客觀地反映出考生的水平。反之,如果一套試題只有四五個(gè)簡(jiǎn)答題,或十幾個(gè)選擇題,單憑回答幾個(gè)問(wèn)題或做十幾個(gè)選擇題就對(duì)考生的綜合語(yǔ)言運(yùn)用能力做出評(píng)價(jià),顯然是不公平的,是缺乏信度的。
試題的難易度和區(qū)分度也是衡量試題信度的兩個(gè)重要方面。如果一套試題中有幾道題目的難度超出考生的認(rèn)知水平,那么這幾道題就是沒(méi)有意義的,因?yàn)樗鼈儫o(wú)法檢測(cè)考生的真實(shí)水平。因此,保證試題的難度適中是保證試題信度的關(guān)鍵。難度適中也是保證區(qū)分度的一個(gè)重要途徑。題目太難或太簡(jiǎn)單,都會(huì)導(dǎo)致多數(shù)考生答錯(cuò)或者答對(duì),這樣的結(jié)果表明區(qū)分度很低。區(qū)分度是為了把不同水平的考生區(qū)分開(kāi),這有利于教師更好地了解每一位學(xué)生的水平,了解學(xué)生對(duì)知識(shí)點(diǎn)的掌握程度,也有利于各機(jī)構(gòu)通過(guò)一些重要考試公平地選拔人才。試題的區(qū)分度高,信度就高。試題的偏頗性也會(huì)影響試題的信度。試題的偏頗性即試題有利于一部分考生,而不利于另一部分考生。例如,如果試題中有的題目考查有關(guān)足球或籃球方面的內(nèi)容,那么男孩就較容易理解或解答該題目,而女孩就處于劣勢(shì),這樣的題目就有偏頗性。另外,還需要考慮的幾點(diǎn)是試題的內(nèi)容是否適合考生的心智;整套試題是否考查同一范疇、同一領(lǐng)域的內(nèi)容;試題是否有較大范圍的測(cè)試對(duì)象,即測(cè)試對(duì)象是否在不同水平。
(四)評(píng)分信度
評(píng)分信度包括評(píng)分標(biāo)準(zhǔn)的信度、評(píng)分員之間一致性的信度和評(píng)分員個(gè)體一致性的信度。對(duì)于一套試卷中的主觀題尤其像寫(xiě)作類(lèi)的題型,評(píng)分標(biāo)準(zhǔn)合理與否與試題的信度密切相關(guān)。例如,如果一套試題寫(xiě)作部分的評(píng)分標(biāo)準(zhǔn)比較籠統(tǒng),不夠詳盡,評(píng)分員評(píng)分時(shí)就有可能考慮不周,評(píng)分概念模糊,造成評(píng)分結(jié)果差異很大,進(jìn)而導(dǎo)致評(píng)分不夠客觀、公正。
評(píng)分員之間一致性的信度是指不同評(píng)分員給同樣的被評(píng)對(duì)象評(píng)定成績(jī)時(shí)的一致性程度的量度。如果評(píng)分員給出的分?jǐn)?shù)差異很大,就說(shuō)明評(píng)分員之間一致性的信度較低,這對(duì)考生來(lái)說(shuō)是不公平的。以高考書(shū)面表達(dá)為例,每份試卷隨機(jī)由兩位評(píng)分員評(píng)分,如果超過(guò)4分的差值,則由第三位評(píng)分員評(píng)分,如果第三位評(píng)分員與其他兩位評(píng)分員的差值仍超過(guò)4分,則需要由仲裁組最后仲裁。
評(píng)分員個(gè)體一致性的信度是指同一位評(píng)分員在不同的時(shí)間對(duì)同樣的項(xiàng)目評(píng)分一致性程度的量度。例如,A評(píng)分員在給某班40個(gè)考生的作文評(píng)分兩周以后再次評(píng)分,兩次評(píng)分的結(jié)果沒(méi)有太大的差異,則說(shuō)明該評(píng)分員的個(gè)體一致性的信度較高。反之,如果評(píng)分結(jié)果差異很大,則說(shuō)明該評(píng)分員的個(gè)體一致性的信度較低。
(五)提高試題信度的方法
增加一定量的客觀題。客觀題能使評(píng)分員做到評(píng)分一致,能夠保證測(cè)試有很高的評(píng)分信度。因此,如果一套試題中客觀題的數(shù)量多一些,主觀題的數(shù)量少一些,即使主觀題的評(píng)分結(jié)果有一些差異,總分的差異也不會(huì)太大。但是,這并不意味著客觀題越多越好,因?yàn)榭陀^題也有其局限性。因此,酌情適量增加客觀題是最明智的做法。
適當(dāng)增加題目的數(shù)量和題型。適當(dāng)增加一些題目的數(shù)量和不同的題型,即使有的題結(jié)果差異大一些,但對(duì)整套試題的測(cè)量誤差的影響不會(huì)太大,還能夠更有效地檢測(cè)考生的實(shí)際水平。
確保試題的難易度和區(qū)分度符合標(biāo)準(zhǔn)。要做到試題的難易度適中和區(qū)分度高,最好的辦法是根據(jù)題目分析后得出的難易度數(shù)據(jù)和區(qū)分度數(shù)據(jù),來(lái)判定這兩類(lèi)數(shù)據(jù)是否達(dá)標(biāo)。發(fā)現(xiàn)不達(dá)標(biāo)的題目,就應(yīng)立即修改,直至符合要求,這樣才能為試題的信度提供有力的支撐。
確保試題沒(méi)有偏頗性。要確保試題沒(méi)有偏頗性,需要從多方面考慮,如考生的年齡、性別、所處區(qū)域等。也就是說(shuō),考試內(nèi)容不偏向任一性別的考生、不偏向任一區(qū)域的考生,做到客觀、公平。
制定詳盡、可操作性強(qiáng)的評(píng)分標(biāo)準(zhǔn)。如果試卷中有主觀題,尤其是寫(xiě)作類(lèi)的題型,那么就需要制定一個(gè)客觀、詳盡、合理、操作性強(qiáng)的評(píng)分標(biāo)準(zhǔn),使評(píng)分員能夠很好地把握評(píng)分標(biāo)準(zhǔn),從而客觀、公正地評(píng)分。
培訓(xùn)評(píng)分員。在評(píng)分標(biāo)準(zhǔn)合格的情況下,對(duì)評(píng)分員的培訓(xùn)也很重要,也是提高測(cè)試信度的一個(gè)方法。評(píng)分標(biāo)準(zhǔn)擬好并不意味著萬(wàn)事大吉,評(píng)分員對(duì)評(píng)分標(biāo)準(zhǔn)的理解和把握程度,以及評(píng)分員對(duì)閱卷工作的責(zé)任心和使命感也是不可忽視的。因此,在評(píng)分工作開(kāi)始前,對(duì)評(píng)分員的培訓(xùn)必不可少。
三、效度和信度的矛盾和平衡
語(yǔ)言測(cè)試的效度和信度是英語(yǔ)測(cè)試中非常重要的兩個(gè)評(píng)價(jià)指標(biāo),它們各有側(cè)重又相輔相成,聯(lián)系密切。效度強(qiáng)調(diào)測(cè)試達(dá)到預(yù)期測(cè)試目的,信度強(qiáng)調(diào)測(cè)試和考分一致,一份設(shè)計(jì)良好的試題要求二者兼顧。然而,效度和信度之間又存在對(duì)立關(guān)系。效度高則意味著主觀題的題目比例會(huì)較大,這樣勢(shì)必會(huì)削弱試題的信度,然而信度高的試題不一定效度就高。例如,英語(yǔ)測(cè)試中的選擇題是保證高信度的一種題型,但如果選擇題過(guò)多,效度則無(wú)法保證,因?yàn)楹芏嘤嘘P(guān)學(xué)生語(yǔ)言運(yùn)用、語(yǔ)言交際、語(yǔ)用能力等的內(nèi)容是無(wú)法通過(guò)選擇題來(lái)考查的。
效度和信度的對(duì)立統(tǒng)一使命題者命制一份效度和信度都相當(dāng)高的試題變得非常難,所有的命題者都需要在二者之間尋求平衡。效度和信度應(yīng)該優(yōu)先考慮哪一個(gè)是很多語(yǔ)言測(cè)試專家一直在研究的問(wèn)題。
結(jié)? 語(yǔ)
很多專家認(rèn)為,就我國(guó)英語(yǔ)教學(xué)現(xiàn)狀和學(xué)生學(xué)習(xí)現(xiàn)狀而言,應(yīng)優(yōu)先考慮效度,然后在此基礎(chǔ)上盡量增加試卷的信度。這樣做會(huì)給目前的中學(xué)英語(yǔ)教學(xué)帶來(lái)積極的影響,能更加有效地促進(jìn)英語(yǔ)教學(xué)改革,使學(xué)生應(yīng)用語(yǔ)言的能力得到提高。將效度放在首位,盡量增加信度,將成為現(xiàn)代語(yǔ)言測(cè)試的發(fā)展趨勢(shì)和改革方向。
[參考文獻(xiàn)]
李筱菊.語(yǔ)言測(cè)試科學(xué)與藝術(shù)[M].長(zhǎng)沙:湖南教育出版社,2001.
劉潤(rùn)清,韓寶成.語(yǔ)言測(cè)試和它的方法(修訂版)[M].北京:外語(yǔ)教學(xué)與研究出版社,2000.
鄒申.語(yǔ)言測(cè)試[M].上海:上海外語(yǔ)教育出版社,2005.
潘鳴威,徐雯,馮豫,等.從考試命題邁向科學(xué)測(cè)評(píng)[M].北京:人民教育出版社,2021.
作者簡(jiǎn)介:劉永?。?968.3-),男,山西絳縣人,
現(xiàn)任英語(yǔ)周報(bào)社總編輯,研究生學(xué)歷,副編審。