岳斌
【摘 要】 完型填空這種測試項目被多種語言測試所采用,但卻一直具有爭議性。內(nèi)容效度為測試效度中最重要的一個方面,而完型填空的內(nèi)容效度如何仍然存有爭議,基于對該問題的興趣,作者決定對完型填空的內(nèi)容效度進(jìn)行綜述,有助于理清該領(lǐng)域的研究思路與發(fā)展方向,促進(jìn)語言測試效度,尤其是內(nèi)容效度的提高。
【關(guān)鍵詞】語言測試 完形填空 內(nèi)容效度
一.語言測試的內(nèi)容效度
評估一項測試有四個因素:信度、效度、難度和區(qū)分度。其中效度是最重要的因素,“因為如果一項測試對其設(shè)計目的是無效的,那么分?jǐn)?shù)也就沒有意義”(Alderson&Urquhart,1983)。.作為語言測試最關(guān)鍵的因素,在效度在語言測試領(lǐng)域引起了眾多研究者的關(guān)注。效度通常是指測試或其組成部分的適當(dāng)性,作為其應(yīng)測量內(nèi)容的衡量標(biāo)準(zhǔn)(Herming,2001年)。因此,效度是測試應(yīng)該遵循的基本標(biāo)準(zhǔn)。效度可分為表面效度、內(nèi)容效度和建構(gòu)效度。本文主要從內(nèi)容效度的角度對完形填空測試進(jìn)行研究。
(1)效度的分類
效度根據(jù)不同標(biāo)準(zhǔn)的分類吸引了眾多學(xué)者的關(guān)注。學(xué)者們對效度進(jìn)行了幾種分類,如Davies(1986)和Alderson等人(2000年)。Alderson提出的分類法是最廣泛采用的一種。他指出,效度分為三種類型:表面效度、內(nèi)容效度和結(jié)構(gòu)效度。表面效度是根據(jù)觀察者的主觀判斷,測試似乎是衡量了其應(yīng)該要衡量的知識或能力。如果一個考試對教師和考生看起來說是正確的,那就可以說它具有表面效度。內(nèi)容效度是指測試內(nèi)容必須對于課程中所教的內(nèi)容具有代表性和典型性。結(jié)構(gòu)效度是指一個測驗實際測到所要測量的理論結(jié)構(gòu)和特質(zhì)的程度,是指實驗與理論之間的一致性。然而,由于時間和精力的限制本研究僅探討內(nèi)容效度。
(2)內(nèi)容效度的定義和意義
如果考試的內(nèi)容構(gòu)成了語言技能、結(jié)構(gòu)等的代表性樣本,則認(rèn)為該考試具有內(nèi)容效度(休斯1989:22)。正如Kerlinger(1973)所說,“內(nèi)容效度就是內(nèi)容的代表性和抽樣的充分性”。Bachman認(rèn)為,內(nèi)容效度主要包括兩個方面:內(nèi)容相關(guān)性和內(nèi)容覆蓋面(Bachman,1990)。對于相關(guān)性,考試越與考試規(guī)范或考試大綱相關(guān),它就越有效。內(nèi)容覆蓋面關(guān)系到測試任務(wù)在目標(biāo)語境中充分展示的程度,這可以通過隨機(jī)選擇的代表性樣本實現(xiàn)。
Alderson(2000)提出,內(nèi)容效度在國際效度中是最重要的,因為高的內(nèi)容效度的測試傾向于準(zhǔn)確地測量應(yīng)該測量的內(nèi)容。如果沒有可靠的內(nèi)容效度,分?jǐn)?shù)解釋可能會被曲解。Hughes(2000)指出,“內(nèi)容效度越高,測試越能準(zhǔn)確地測量出它應(yīng)該測試的內(nèi)容”。一種測試,其中測試規(guī)范中所要求的內(nèi)容領(lǐng)域或語言行為表示不足或根本不表示,往往是不準(zhǔn)確的。此外,他(2000)還指出,僅包含部分內(nèi)容的測試,將不利于指導(dǎo)教學(xué)或提高實踐語言能力。
(3)內(nèi)容效度的分析方法
一般來說,語言測試的內(nèi)容效度構(gòu)建和評估分為兩個階段:測試前和測試后。
在測試前階段,測試設(shè)計者的任務(wù)是構(gòu)建語言行為或待測試內(nèi)容領(lǐng)域的類別,并給出測試任務(wù)的清晰藍(lán)圖。最后,測試設(shè)計者使用測試規(guī)范來確定要測試的語言行為。該規(guī)范必須描述測試中所涉及的特定語言技能和領(lǐng)域的詳細(xì)術(shù)語。
對于測試后階段,分析語言測試內(nèi)容效度的一種常見方法是將其與內(nèi)容應(yīng)該是什么的陳述進(jìn)行比較。在這里,內(nèi)容陳述可以是測試規(guī)范、正式的教學(xué)大綱、課程或領(lǐng)域規(guī)范(Alderson等人,1995)。這類似于Bachman對內(nèi)容相關(guān)性的觀點。當(dāng)測試規(guī)范和測試內(nèi)容進(jìn)行比較時,很容易發(fā)現(xiàn)內(nèi)容相關(guān)性的程度。通過這種方式,測試應(yīng)該通過反映語言行為和應(yīng)該覆蓋的區(qū)域來實現(xiàn)內(nèi)容效度。(Hilton,2000)。
二.語言測試中的完形填空
完形填空廣泛應(yīng)用于各個層次的語言測試。完形填空有四種類型:按固定比率刪詞的完形填空、意向刪詞完形填空、多項選擇完形填空和C-test。完形填空與閱讀、語法和詞匯有著密切的關(guān)系,這是完形填空研究中不可避免的問題。
(1)完形填空的定義、起源和發(fā)展
基于“閉合”心理格式塔理論,完形填空即是通過回憶不完整的視覺形狀從而趨向于閉合.1953年,Wilson Taylor首次使用完形填空法,稱為“cloze”。從那時起,許多研究人員和學(xué)者使用完形填空來衡量學(xué)生的閱讀理解力,其前提是完形填空不僅僅是一個完成任務(wù)的模式,也涉及從上下文推理(Rye,1982)。而以O(shè)ller為代表的一些研究者則認(rèn)為完形填空是一種既能測試閱讀理解力又能測試全球語言能力的有效方法,因為它要求被測試中整合所有相關(guān)的系統(tǒng)知識,以便理解整體語境。到目前為止,對完形填空程序的研究仍在進(jìn)行中,但爭議仍然懸而未決。
盡管得到了一些贊譽(yù)并且在應(yīng)用語言學(xué)和語言測試中取得一些實證結(jié)果,完形填空的效度一直存在較大的爭議。然而,大多數(shù)研究者都認(rèn)為完形填空是一種綜合性測試,而不是離散點測試。這導(dǎo)致了完形填空在各種語言測試中的應(yīng)用發(fā)生了變化。
(2)完形填空測試內(nèi)容效度的相關(guān)要素
完形填空與語法和詞匯有關(guān),這已被廣泛接受。完形填空沒有語法和詞匯是不可能存在的。為了做出正確的選擇,考生必須對選項有一個全面而嚴(yán)謹(jǐn)?shù)闹R??忌仨氄莆栈镜恼Z法知識,才能理解話語,找出并解釋所提供的線索,選擇最合適的單詞。正如Darnell(1968)提出的,完形填空可以有效地評估語法和詞匯,因為語篇提供了與語法和詞匯相關(guān)單詞的關(guān)系和線索。
完形填空也與閱讀有關(guān)。在完形填空測試中,考生使用閱讀技巧來識別單詞和理解上下文。實驗證明完形填空能有效地評價學(xué)生的閱讀能力。完形填空與閱讀有著密切的關(guān)系,這兩種測試需要相似的技巧和能力。Guning(1988)還指出,完形填空可以作為閱讀測驗的替代品,因為如果考生不理解他所讀的內(nèi)容,他就不知道要如何填空。
三.完形填空內(nèi)容效度的研究綜述
在完形填空60多年的發(fā)展歷程中,效度研究一直是研究的核心。相關(guān)研究主要有兩種觀點。
John·Oller 所代表的一種觀點認(rèn)為完形填空在評估整體語言能力方面是有效的。根據(jù)他的定義,語用測試必須是綜合性的,因為它試圖評估考生同時使用多種語言知識或技能的能力。因此,在語用測試中,為了完成任務(wù),測試者必須將給定的語言序列與必須推斷的外部語境聯(lián)系起來(Oller,1979)。他的理論得到了許多統(tǒng)計證據(jù)的支持。Cohen(1980)稱完形填空評估整體語言能力,包括語言知識、文本知識和單詞知識。Ahluwalia (1992年)還指出完形填空是一種綜合的、全球性的語言能力測試。Steinman(2002)甚至認(rèn)為完形填空可以取代結(jié)構(gòu)測試、詞匯測試和閱讀理解測試。Azevedo(1998)也列舉了完形填空的優(yōu)點,認(rèn)為它是以被測試者為導(dǎo)向的,因為它的評估和反饋是同時進(jìn)行的。
相反,還有另一種關(guān)于完形測試的觀點。Alderson (1979)指出,完形填空是一個離散的點狀測試,因為它僅僅是句子綁定,似乎衡量的是“低階”而不是“高階”語言技能。他(1983)認(rèn)為,很難保持完形填空的效度和信度之間的一致性,因為刪除不同的單詞會導(dǎo)致不同的結(jié)果。此外,Brown(1998)證明了完形填空的效度在19%到83%之間,其信度在3%到96%之間。Namara(2000)認(rèn)為,完形填空總體上似乎與語法和詞匯的離散點測試相同。
到目前為止,關(guān)于完形填空是離散還是的語言測試的爭論一直沒有平息下來,也沒有得出任何結(jié)論。但研究者更傾向于將完形填空作為一種綜合性的語言能力測試。
四.結(jié)語
完形填空廣泛應(yīng)用于國內(nèi)各類別、各級別的語言測試中,其效度如何,尤其是效度中最重要的內(nèi)容效度如何,具有重要意義。對此方面的研究進(jìn)行綜述,將有助于我們?nèi)媪私馔晷翁羁盏奶攸c,提高語言測試的效度。由于個人精力有限,完形填空的表面效度和結(jié)構(gòu)效度的研究綜述可以留待學(xué)者繼續(xù)分析,以得出更加全面的結(jié)論。