【摘要】當(dāng)一場考試確實考核了它打算考核的內(nèi)容時,才會被稱為有效的考試,效度在考試設(shè)計中起著指導(dǎo)性作用。本文從內(nèi)容效度(Content Validity)、效標(biāo)效度(Criterion Validity)和建構(gòu)效度(Construct Validity)三個方面論述效度并給出了每種效度的測試方法和框架。最后針對雅思學(xué)術(shù)寫作考試,就其是否具有從屬于效標(biāo)效度下的預(yù)測效度進(jìn)行了詳細(xì)的分析。
【關(guān)鍵詞】考試;效度;雅思學(xué)術(shù)寫作
【作者簡介】薛睿哲,電子科技大學(xué)成都學(xué)院。
考試的效度是衡量其是否為有效考試的重要標(biāo)準(zhǔn),效度體現(xiàn)在哪幾個方面以及如何檢測考試的效度是需要掌握的。雅思考試是很多國家的高校判斷學(xué)生是否具備足夠的英語能力在英語授課國家進(jìn)行學(xué)習(xí)的標(biāo)準(zhǔn)。論文寫作是很多高校主要的作業(yè)形式,雅思學(xué)術(shù)寫作是否具有足夠的預(yù)測效度,能夠預(yù)測學(xué)生入學(xué)后的寫作能力和水平,也是本文討論的話題。
一、 內(nèi)容效度
內(nèi)容效度反映了考試內(nèi)容在多大程度上覆蓋和關(guān)聯(lián)了考試設(shè)計者想要測試的內(nèi)容。比如,一個打算測試學(xué)生口語交流能力的考試卻給了學(xué)生一些需要用到語法知識的寫作題目,那么這個考試就沒有足夠的內(nèi)容效度。但是如果學(xué)生被給了一些真實的對話場景并被要求進(jìn)行口語輸出,這就具有很高的內(nèi)容效度。
通常測試內(nèi)容效度的方法是請專家判斷某項考試多大程度上能夠測驗其打算測驗的內(nèi)容。具體方法是把關(guān)于考試的說明和考試的實際內(nèi)容進(jìn)行系統(tǒng)對比,過程為:(1)專家寫下自己認(rèn)為每道問題在測驗什么技能,或?qū)<視玫揭粋€列表,然后在他們認(rèn)為每道題測驗的技能旁打勾。(2)收集專家和學(xué)生所寫的列表內(nèi)容并尋找他們之間的共同點。專家普遍認(rèn)為,出試題者打算測試的技能和實際測試的技能相符度高的考試可以被稱作有高度內(nèi)容效度的考試。
然而一次考試只能容納有限范圍的知識,很難確定讓專家評估的例卷是足夠有代表性的,所以選取哪些題目放在考試?yán)锸切枰苌髦乜紤]的。此外,考試任務(wù)的設(shè)置、答案的形式、題目的順序都是判斷內(nèi)容效度的因素,這些也都是出題人需要考慮的方面。
二、效標(biāo)效度
效標(biāo)效度是指考試結(jié)果與用其他標(biāo)準(zhǔn)測量考生某方面能力的結(jié)果具有較高的一致性。效標(biāo)效度下有兩個分支,一個是同時效度(concurrent validity),一個是預(yù)測效度(predictive validity)。同時效度指的是一個考試結(jié)果和考試者參加其他考試的結(jié)果一致,需要注意的是,這些考試的時間應(yīng)該是相距較近的。預(yù)測效度指的是考試者在該考試中的表現(xiàn)可以被用來預(yù)測他在該領(lǐng)域未來的表現(xiàn)。
為了檢測同時效度,在獲取了第一個考試結(jié)果后,其他反映該能力的指標(biāo)可以通過以下方法獲得:首先,其他和第一個考試類似的考試的結(jié)果;其次,教過該學(xué)生很長一段時間的老師給出的學(xué)生排名;再次,給老師一個表格,請老師對該學(xué)生的技能進(jìn)行打分。
檢測預(yù)測效度需要先對學(xué)生進(jìn)行一個考試,然后該種能力在未來需要進(jìn)行檢測時,通常通過獲取該生另一個同類型考試的成績、在學(xué)期末獲取的相關(guān)課程的成績、來自老師或同事的評價三種方式,但需要注意的是,來自老師和同事的評價不一定是可靠或客觀的。
三、建構(gòu)效度
建構(gòu)效度指的是考試結(jié)果和基于理論對考試者作出的預(yù)判之間的相關(guān)度。它可以用來檢測考試分?jǐn)?shù)與一些無法直接通過考試來考核的能力之間的關(guān)系。
檢測建構(gòu)效度的主要方法有以下幾種:一是比較要檢測的理論和考試的關(guān)系,把需要檢測的理論提供給專家,并判斷考試和該理論的關(guān)聯(lián)度。二是內(nèi)部關(guān)聯(lián)性檢測,即一個考試的組成部分之間的相關(guān)性以及子測驗和總測驗之間的關(guān)聯(lián)性。三是因素分析,包括兩方面探索性因素分析(EFA),即探索和考試相關(guān)度最大的因素并在基于理論的情況下給它們標(biāo)上標(biāo)簽;驗證性因素分析(CFA),即先從理論上對某些因素和考試之間的關(guān)系進(jìn)行檢驗,然后再通過數(shù)據(jù)進(jìn)行證明。
四、雅思學(xué)術(shù)寫作考試的預(yù)測效度討論
雅思考試是很多英語授課國家的大學(xué)要求國際學(xué)生參加的考試,雅思分?jǐn)?shù)也是進(jìn)行學(xué)校申請的一個必要條件。其作用是檢測考試參與者是否準(zhǔn)備好在英語授課國家進(jìn)行學(xué)習(xí)和生活。這意味著在雅思學(xué)術(shù)寫作考試中,如果學(xué)生得到了符合要求的分?jǐn)?shù),就證明他們已經(jīng)做好了出國上學(xué)的準(zhǔn)備,能夠按要求完成國外課程的學(xué)習(xí)。下面將會就兩個實驗討論雅思學(xué)術(shù)寫作是否具有預(yù)測效度,即雅思學(xué)術(shù)寫作考試是否能夠預(yù)測考生在國外學(xué)校的寫作水平。一個實驗是關(guān)于雅思學(xué)術(shù)寫作和大學(xué)學(xué)術(shù)寫作之間內(nèi)容和所需技能的比較,另一個是關(guān)于學(xué)生雅思學(xué)術(shù)寫作分?jǐn)?shù)和大學(xué)作業(yè)分?jǐn)?shù)之間關(guān)系的研究。
Moorea和Morton做了一個關(guān)于雅思學(xué)術(shù)寫作Task 2和大學(xué)作業(yè)的體裁、參考信息來源和修辭功能的對比研究。數(shù)據(jù)顯示,大學(xué)里的作業(yè)涉及各種體裁,其中論文是最常見的體裁,其次是案例研究、練習(xí)和研究報告。然而,在雅思學(xué)術(shù)寫作中,體裁是比較有限的。學(xué)生一般會被要求寫多大程度上他們同意或不同意某種觀點,或針對一個現(xiàn)象給出理由和解決方案,這是考試中最常見的兩種題目方向??梢钥闯?,雅思學(xué)術(shù)寫作和大學(xué)里所需的寫作體裁之間的共性是比較小的。
從參考信息來源方面來分析,大學(xué)的作業(yè)通常要求學(xué)生借鑒很多學(xué)者的著作或者發(fā)表的文章,或者用課上老師提供的文獻(xiàn),引用文獻(xiàn)的能力是很重要的。學(xué)生論文中每個觀點都需要文獻(xiàn)的支撐來進(jìn)行論證,而不是憑借自己的生活常識或經(jīng)驗進(jìn)行空想,或主觀地認(rèn)為某些觀點是成立的。并且引用文獻(xiàn)的格式方面也有系統(tǒng)的要求,時常有學(xué)生因為引用格式不正確或引用方式不恰當(dāng)而掛科。然而在雅思學(xué)術(shù)寫作中,學(xué)生不需要知道引用文獻(xiàn)的方法,而需要很大程度上用到考生以前的知識或常識來論證觀點,所舉的例子也是來源于考生自己的積累,可以是自身經(jīng)歷也可以是社會現(xiàn)象。但是在大學(xué)作業(yè)中,對以前知識和生活常識的掌握程度的要求是很少被提及的,但這卻是雅思學(xué)術(shù)寫作用來論證觀點的重要積累。所以,雅思學(xué)術(shù)寫作沒有讓學(xué)生知道在真正的大學(xué)場景中,需要用到什么樣的寫作能力,導(dǎo)致不少學(xué)生出國之后才發(fā)現(xiàn)國外的論文作業(yè)要求和他們之前所以為的并不一致,短時間內(nèi)很難適應(yīng)國外論文的寫作方式并達(dá)到要求。
在修辭功能方面,在大學(xué)學(xué)術(shù)寫作的作業(yè)中,平均每個作業(yè)會要求有2.5個修辭功能。在認(rèn)識功能方面(epistemic function),2/3的作業(yè)會要求評價功能(evaluation),這也是被要求最多的一個功能,其次是描述功能(description)和總結(jié)功能(summarisation)。然而在雅思學(xué)術(shù)寫作中,雖然評價功能也是被要求最多的,但是其他大學(xué)學(xué)術(shù)寫作需要的功能卻很少被要求。
Dooey和Oliver做的實驗,對學(xué)生的雅思分?jǐn)?shù)和他們出國上學(xué)后在大學(xué)的分?jǐn)?shù)進(jìn)行了對比研究,65名以英語為第二語言的學(xué)生和23名以英語為母語的學(xué)生被包括在內(nèi),只有15%沒有達(dá)到雅思分?jǐn)?shù)要求的學(xué)生在大學(xué)中掛科,并且一個雅思單科和總分都沒有達(dá)到要求的學(xué)生在第一學(xué)期的大學(xué)課程中拿到了81分。對于以英語為母語的學(xué)生來說,他們的雅思分?jǐn)?shù)很明顯會比第二語言學(xué)習(xí)者高。然而,他們中有15人在大學(xué)中掛了科,他們中甚至有雅思學(xué)術(shù)寫作分?jǐn)?shù)和在大學(xué)中的分?jǐn)?shù)呈現(xiàn)相反關(guān)系的情況出現(xiàn),即雅思學(xué)術(shù)寫作分?jǐn)?shù)高的學(xué)生在大學(xué)中得到的分?jǐn)?shù)卻相對更低。雖然在大學(xué)中影響分?jǐn)?shù)的因素有很多,但鑒于大學(xué)的作業(yè)多數(shù)為論文形式,需要學(xué)生進(jìn)行學(xué)術(shù)寫作,學(xué)生的期末分?jǐn)?shù)在某種程度上來說還是可以反映學(xué)生的寫作水平的。通過這個實驗我們可以看出,從分?jǐn)?shù)上來看,雅思學(xué)術(shù)寫作分?jǐn)?shù)高的學(xué)生,在大學(xué)里的學(xué)術(shù)寫作方面的表現(xiàn)不一定好。相反,雅思學(xué)術(shù)寫作單科沒有達(dá)到入學(xué)分?jǐn)?shù)要求的學(xué)生,在大學(xué)里也有可能獲得高分。由此可見,雅思學(xué)術(shù)寫作的分?jǐn)?shù),并不能準(zhǔn)確預(yù)測學(xué)生在今后的大學(xué)學(xué)習(xí)過程中的寫作表現(xiàn)。
五、結(jié)語
內(nèi)容效度、效標(biāo)效度和建構(gòu)效度并不是完全分開的,而是互為補充。在選擇方法去檢測效度時,建議采用組合的方式進(jìn)行,以保證檢測的有效性。雅思考試組織者宣稱學(xué)術(shù)寫作分?jǐn)?shù)能夠反映學(xué)生是否為國外大學(xué)的學(xué)習(xí)做好準(zhǔn)備,也就是符合所謂的預(yù)測效度。但從文中提到的兩個實驗來看,它并不具備預(yù)測效度。
參考文獻(xiàn):
[1]Lynch B K. Language Assessment and Programme Evaluation, 1st edn[M]. Edinburgh: Edinburgh University Press Ltd, 2003.
[2]Green A. Exploring Language Assessment and Testing, 1st edn[M]. Oxon: Routledge, 2014.
[3]Alderson J C, Clapham C, Wall D. Language Test Construction and Evaluation, 1st edn[M]. Cambridge: Cambridge University Press, 1995.
[4]Weir C J. Language Testing and Validation, 1st edn[M]. New York: Palgrave Macmillan, 2005.
[5]Fulcher G, Davidson F. Language Testing and Assessment, 1st edn[M]. New York: Routledge, 2007.
[6]Bachman L F. Fundamental Considerations in Language Testing, 1st edn[M]. Oxford: Oxford University Press, 1990.
[7]Cronbach L J, Meehl P E.Construct validity in psychological tests[J]. Psychological Bulletin, 52: 281-302. http://dx.doi.org/10.1037/h0040957, 1995.
[8]Moorea T, Morton J. Dimensions of difference: a comparison of university writing and IELTS writing[J]. Journal of English for Academic Purposes, 4: 43-66. https://doi.org/10.1016/j.jeap.2004.02. 001, 2005.