亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

大學英語學業(yè)考試試卷設計的效度

2010-12-31 19:41:05梅冬琪

中國新技術新產(chǎn)品 2010年8期

關鍵詞：內(nèi)容效度效度測驗

梅冬琪

（黑龍江大學劍橋?qū)W院外語系，黑龍江哈爾濱 150069）

1 引言

本文通過研究大學英語學考試大綱，旨在探討大學英語學業(yè)考試試卷設計效度問題，并使考試的形式有利于實現(xiàn)測試的目的，使大學英語考試試卷設計盡可能準確地反映學生的實際水平，充分發(fā)揮大學英語考試的鑒定和激勵功能。

2 效度及效度和語言測試的關系

效度表示一項研究的真實性和準確性程度。又稱真確性。它與研究的目標密切相關，一項研究所得結(jié)果必須符合其目標才是有效的,因而效度也就是達到目標的程度。效度是相對的，僅針對特定目標而言，因此只有程度上的差別。如用聽寫來測量學生的聽覺能力，其效度也是不理想的，因為書面記錄有聲語言不僅涉及學生的聽覺能力，而且還與他們的書寫速度、拼寫能力、語法知識、記憶能力和對全文的理解能力等有關。

測試的效度一般可分為以下幾類：

表面效度（face validity）。指測試應達到的卷面標準，即一套測試題從表面看來是否是合適的。例如，若一次閱讀理解力的測試包括許多受試者沒有學過的方言詞匯，則可認為這次測試缺乏表面效度。表面效度是測試出受試者正常水平的一種保證因素（Arthur Hughbes，2003，p.26）。

內(nèi)容效度（content validity）。指一套測試題是否測試了應該測試的內(nèi)容或者說所測試的內(nèi)容是否反映了測試的要求，即測試的代表性和覆蓋面的程度。例如，在成就測驗中，測驗題目是根據(jù)教學大綱和教材內(nèi)容適當抽出的，內(nèi)容效度就是判斷測驗題目（內(nèi)容）是否符合它欲測的目標。由于這種衡量效度的方法必須針對課程的目標和內(nèi)容，以系統(tǒng)的邏輯方法詳細分析題目的性能，故又稱課程效度或邏輯效度。確定內(nèi)容效度的方法主要有兩種：①專家判斷，即由有關專家對測驗題目與原定內(nèi)容范圍的符合性作出判斷；②統(tǒng)計分析，即以一組被試在取自同樣內(nèi)容范圍的兩個獨立測驗上得分的相關作出估計。內(nèi)容效度很容易與表面效度相混淆，實際上兩者意義不同。表面效度指從外表（如測驗的材料及用語、試題的印刷等）直觀地看，測驗題目與測量目標的一致程度，它與內(nèi)容效度所指測驗在實際測量上的有效程度不同。從技術意義上嚴格地說，表面效度不是效度，但為了取得被試的信任與合作，表面效度也不可忽視（Arthur Hughbes，2003，p.27）。

編制效度（construct validity）。指一套測試題的諸項目對編制該測試所依據(jù)的理論的各個基本方面的反映程度。例如，以結(jié)構主義語言理論為基礎，認為系統(tǒng)的語言習慣是通過句型而獲得的，那么，強調(diào)詞匯和語法環(huán)境的測試題目就失去了編制效度（Tim McNamara，2003p.48）。

經(jīng)驗效度（empirical validity）。經(jīng)驗效度是一種衡量測試有效性的量度，通過把一次測試與一個或多個標準尺度相對照而得出。經(jīng)驗效度可分為兩種：一是共時效度（concurrent validity），即將一次測試的結(jié)果同另一次時間相近的有效測試的結(jié)果相比較，或同教師的鑒定相比較而得出的系數(shù)；二是預測效度（predictive validity），即將一次測試的結(jié)果同后來的語言能力相比較，或是同教師后來對學生的鑒定相比較而得出的系數(shù)。

測量的各種效度的區(qū)別在于各自強調(diào)的方面不同。一個測驗可以有多種效度，每種效度視使用者的具體目的而定，因此，一般不存在測驗的統(tǒng)一效度。但各種效度又是相互聯(lián)系和補充的。內(nèi)容效度和構想效度既是效標關聯(lián)效度的保證，又須得到它的支持?？疾靸?nèi)容效度和效標關聯(lián)效度又有助于確定構想效度。一般來說，對某次測試的效度進行檢驗時，除了要根據(jù)教學大綱的要求和觀念有效性的理論對試卷的內(nèi)容進行考查以外，還須采用計算相關系數(shù)的定量方法，即計算出本次試卷與另一份已被確定能正確反映受試者水平的試卷之間的相關系數(shù)。系數(shù)高則有效性大。課堂測試的效度應在0.4-0.7之間，規(guī)模較大的測試其效度應在0.7以上（Tim Mc－Namara，2003）。

3 大學英語學業(yè)測試及大學英語考試大綱

作為大學英語基礎階段的一種學業(yè)測試，大學英語學業(yè)測試應在貫徹教學大綱的前提下，以教學內(nèi)容為基本依據(jù)，適當安排課外內(nèi)容。它以檢測學生、教師和課程安排能否較好地實現(xiàn)各自的預期目標為主要目的。有效度的測試可以幫助學生了解自己的學習情況，幫助教師了解教學效果以及教材的選擇和課程的設置是否得當。

大學英語教學改革的目標是既要保證學生獲得扎實的語言知識，又要把學生的語言運用能力突出上去。每個院校都會根據(jù)本院校的實際情況來制定適合的考試大綱。大綱基本包括：考試目的、考試對象、考試性質(zhì)、試方式與內(nèi)容、試范圍。如考試內(nèi)容為：聽力理解、語法結(jié)構、閱讀理解、翻譯（英譯漢）、寫作（或漢譯英）及口語等，并量細致量化考試內(nèi)容。多數(shù)學校大學英語學業(yè)考試的成績還包括平時課堂表現(xiàn)分數(shù)。試卷設計達到效度標準是準確地反映學生的實際水平，充分發(fā)揮大學英語學業(yè)考試的鑒定和激勵功能的前提。

4 效度對大學英語學業(yè)考試試卷設計的啟示

要提高試卷的效度，應從提高以下幾個效度著手：

內(nèi)容效度。是概念的整個內(nèi)容。實際上，任何一個試題都總是有關教學項目中全部題目中的一個樣本，這個試題的代表性的程度，就是這一試題對有關教學項目（連同目標）的內(nèi)容效度。通常來說，我們開展測驗與評價的核心目的是考查學生實現(xiàn)預期學習目標的程度。但是，學生的學習目標涉及知識與技能、學科共通能力、情感態(tài)度與價值觀等多個領域，每個領域又包含十分廣泛的內(nèi)容，即便是一次學科專項測驗，要測量的任務也是一個相當大的范圍。所以，我們通常無法對某一范圍或領域中的所有內(nèi)容和任務進行考查，只能從中抽取一個有代表性的樣本去評價學生，然后依據(jù)學生在樣本上的表現(xiàn)推測其發(fā)展狀況，做出有關解釋與決策。在測驗中，題目樣本對所要評價內(nèi)容范圍的代表程度反映了內(nèi)容效度的高低。從測量學角度來說，內(nèi)容效度指的就是測驗題目有效測量了特定目標并從整體上反映了所要測量領域的程度。

題目樣本的代表性越好，內(nèi)容效度越高；反之，題目樣本的代表性越不充分，內(nèi)容效度則越低。我們可以結(jié)合大學英語測試大綱來做進一步的分析。英語學習包括聽力、閱讀、寫作、口語交際和綜合性學習等方面，這幾個大的學習領域及其具體的學習要求就是英語評價的內(nèi)容范圍。作為一個完整的英語學業(yè)考試評價，只有評價任務或測驗題目均勻地取自整個內(nèi)容范圍，具有充分的代表性，才能真實、有效地反映學生學習的實際狀況。而如果題目僅選自少數(shù)領域，或者有些題目根本沒有落在評價范圍之內(nèi)，評價方案的內(nèi)容效度就不夠理想。

準則效度。準則效度是測試的分數(shù)與有關的等第、標準之間的相關程度。準則效度又可分為一致性效度與預測效度。例如每個學生英語的、學業(yè)考試分數(shù)在大一和大二總的得分之間的相關程度就是一致性效度。好的學業(yè)考試試卷往往一致性效度高。同時好的學業(yè)考試試卷預測效度也高。還有其他的效度，但主要就是這兩種效度，這兩種效度互相是有聯(lián)系的，內(nèi)容效應直接影響準則效度。編制試卷不僅要有科學的組卷過程，而且要講究試題科學性。這種科學性不僅表現(xiàn)在試題的安排布局上，而且更表現(xiàn)在試題本身的科學性上。考查目標功能時，采用由低到高的“了解”、“理解”、“掌握”和“運用”(或稱“應用”)四個層次是適宜的.它既反映了普遍的認知規(guī)律，又體現(xiàn)了英語的學科特點

[1]Arthur Hughbes，2003，Language Testing,上海：上海外語教育出版

[2]Arthur Hugbes，2003,Testing for Language Teachers,Cambridge University Press