劉慶思
(教育部考試中心,北京 100084)
效度(validity)是指所積累的證據(jù)和理論對考試用于特定目的后所產(chǎn)出分數(shù)的解釋提供支持的程度,是考試評價中的一項重要指標;效度驗證(validation)則是收集相關證據(jù)為特定分數(shù)解釋提供科學依據(jù)的過程[1]。效度無疑是教育測量的核心內容,而效度驗證則是人們在考試研究的具體實踐中需要經(jīng)常面對的問題。國際教育與心理測量界廣泛采用的《教育與心理測量標準》(Standards for Educational and Psychological Testing)(以下簡稱《標準》)和教育測量界的經(jīng)典著作《教育測量》(Educa?tional Measurement),歷來非常重視效度研究,分別呈現(xiàn)了效度驗證所需的類似于檢查清單的標準條目和效度驗證的基本模式,效度研究的最新成果都是通過這兩部著作的不同版本發(fā)布的。
效度驗證雖然意義重大,但尚未得到考試研究人員應有的重視。從已有的效度研究成果可以看出,研究人員無論是對效度研究重要性的理解,還是對效度驗證對象的認識,以及對效度驗證應采用的模式等,都存在一些問題,甚至存在理解錯誤之處。本文將在厘清這些問題的基礎上,就效度驗證的方式方法提出建議。
由效度的定義可知,效度驗證有兩個作用,一是為考試的分數(shù)解釋和使用提供支持,二是審核特定分數(shù)解釋和使用的合理性和恰當性。因此,效度無疑是評價考試質量的一項重要標準。沒有效度,其他都談不到[2]。
最新版的《標準》(2014版)將效度列為該書的第一章,在介紹了效度的定義后明確指出,效度是開發(fā)、運作和評估考試時應該考慮的一項最為基本的內容[1]。Oller早在1979年就指出,沒有效度的考試不能稱為考試[3]。最新版的《教育測量》(2006版)同樣將效度驗證列為該書的第一章,而且該著作各個版本都極為重視對效度研究最佳成果的推介。
效度研究的重要性亦體現(xiàn)在其悠久的發(fā)展史中。教育測量學初步形成于20世紀初,興起于20世紀20年代[4]。效度研究在教育測量學興起時期即應運而生,且隨著教育測量學的發(fā)展和教育考試的需要,日益豐富研究內容、完善研究框架,研究的科學性和系統(tǒng)性逐步提高,最終形成了當今關注考試各環(huán)節(jié)證據(jù)收集、具有嚴謹論證框架、采用多種分析方法的驗證模式。
效度驗證的對象是考試分數(shù)的解釋和使用,而非考試本身。這已經(jīng)是國際心理和教育測量界的共識。就這一觀點,Messick早在1989年出版的《教育測量》中就進行了清楚的說明,《標準》(1999版)也進行了類似的界定。然而,誠如Frisbie所言,在測量工作幾乎各個方面奠基性的概念中,效度似乎是被誤解最多、誤用最廣的一個[5]?;蛟S正因如此,2014版《標準》在重申1999版《標準》中所闡述的“效度評價的是對分數(shù)基于特定使用后的解釋,而不是考試本身”之后,明確申明:使用不合格的短語“考試效度”是錯誤的[1]。
在為澄清效度驗證對象而探討“有效的考試還是有效的分數(shù)”時,F(xiàn)risbie提出了兩個值得思考的問題:一個“好考試”使用后是否會給我們提供“糟糕的”信息(分數(shù))?由一個“好考試”產(chǎn)出的信息(分數(shù))是否會被以“糟糕的”方式使用?[5]他以一個6年級學生的單詞拼寫測試為例,生動地說明了“好考試”有可能被錯誤地使用。這個考試無論從考試內容設計,還是從題型設計來看,都是一個好的考試,然而,如果考試實施中監(jiān)考教師自行縮短了考試時間、考生抄襲別人答案或者某個(些)考生涂錯了答題卡的代號,“好考試”可能給出“糟糕的”信息(分數(shù))。此外,如果任課教師已針對該考試的內容進行過針對性訓練,那就不可能根據(jù)該考試成績準確推斷學生的單詞拼寫能力。這都充分說明,并不存在作為測量工具的考試效度,僅僅存在考試分數(shù)解釋和使用的效度[2]。
在效度研究的發(fā)展過程中,有一段時間曾采用“考試效度”這一概念,這要追溯到20世紀50年代前效標關聯(lián)效度主宰效度驗證的時期。當時,根據(jù)效標模型,所需測量的特質已經(jīng)確定,設計考試的目的是反映出該特質,而由考試與效標的相關情況即可輕而易舉地得到效度證據(jù)。然而,引進構念效度后,情況發(fā)生了變化,該模型要求對特定構念的解釋進行詳細說明,效度驗證的對象自然就變成了以構念為名的分數(shù)解釋。這一變化帶來的結果是,1955年至1989年期間,效度研究關注的重點逐步從對考試的效度驗證轉移到對考試分數(shù)特定解釋的處理和效度驗證[6]22。1989年出版的《教育測量》在心理和教育測量界正式明確了效度驗證的對象,即考試分數(shù)的解釋和使用。
如前所述,教育測量理論中效度研究的歷史已近百年。在此期間,隨著教育和心理測量理論的整體發(fā)展、研究人員認識的加深和考試評價的實際需要,效度驗證的模式經(jīng)歷了幾次更新,涵蓋內容日益豐富,整體性日益增強,邏輯性日益提高。目前的驗證模式已涵蓋考試的各個環(huán)節(jié)和與考試相關的各項內容,涉及參與考試的各類人群。大致來講,效度驗證模式的發(fā)展可以分為4個歷史時期:效標效度發(fā)展時期、分類效度發(fā)展時期、效度證據(jù)整合時期和基于論證的效度驗證時期。
20世紀20年代至50年代,效標效度可稱為效度的金字標準[6]18。Kelly于1927年即提出:“效度問題指一項測試是否測量了它所要測量的東西?!盵3]Bingham于1937年給出了效度的操作定義:“一項測試的成績與采用其他客觀方法測量的結果之間的相關系數(shù)就是測試的效度?!盵3]1951年出版的《教育測量》(第1版)將效度定義為“實際考試分數(shù)與‘真’標準分數(shù)之間的相關”,效度研究的任務是驗證具體考試能夠估量出效標的程度[6]18。效標效度分為共時效度和預測效度兩類,共時效度以同時存在的某個表現(xiàn)作為效標,一般用于驗證比效標花費更少、更易操作和安全性較低的考試;預測效度則是以將來某個時間的表現(xiàn)作為效標。當理據(jù)充分的效標存在時,效標模型非常有效。然而,效標效度的缺陷也非常明顯,理據(jù)充分、完全符合的效標難以得到;此外,研究人員幾乎不可能對所選定的效標進行效度驗證。
20世紀50年代起,教育測量研究人員為效度研究陸續(xù)引進了內容效度和構念效度,效度研究進入了分類效度發(fā)展時期。內容效度假設從某一領域選取樣本對考生的表現(xiàn)進行檢測,因此要驗證的內容是樣本(考試)對本領域知識、能力的代表性程度,比如,高考英語學科的考查內容應該代表高中生所掌握的語言知識和所發(fā)展的語言能力,然而,考試內容只能是從所有知識和能力中的抽樣,因此,樣本代表性至關重要。內容效度可以在一定程度上對效標效度中效標的合理性提供支持。構念效度理念的引進主要源于對堅韌性、憤怒度等人格測量的需要,其假設是存在一套經(jīng)過完好界定的理論,而由該理論可以得出實證性的預測。比如,假設英語能力是由語言知識、文化知識、語言技能等組成的,那么接下來需據(jù)此設計出能夠反映各能力組成部分(構念)的試題。如果基于理論的各個假設都得到了證實,那么該理論和以該理論為名的分數(shù)解釋就得到了支持[7]。1974年出版的《標準》總結了當時效度研究的狀況,列出了4類效度:預測效度、共時效度、內容效度和構念效度,對分類效度的體系提供了有力支持[6]20。然而,這一體系也存在著一些與生俱來的問題:內容效度主觀性較強且與考試分數(shù)無關,難以用于驗證有關分數(shù)解釋的結論[6]19;構念效度存在邏輯基礎薄弱和循環(huán)論證的問題[2];該體系零散、不完整的效度驗證方法難以對效度提供有力的支持。
20世紀70年代末期,在意識到分類效度體系的缺陷后,部分教育測量研究人員開始嘗試構建一個統(tǒng)一的效度模型。1985年出版的《標準》雖然仍承認不同種類的證據(jù)與不同的解釋相關,但首次提出了整體效度的概念[6]21。在1989年出版的《教育測量》中,Messick將當時存在的各個效度驗證模型整合成一個以構念效度為基礎的總體框架,將效度定義為“在整合性評估中得出的實證證據(jù)與理論原理,對依據(jù)考試分數(shù)或者其他測試模式所作出推斷和行動的充分性、適宜性提供支持的程度”,且設計出分層效度框架形象地說明其以構念效度為核心的效度整體觀[3]。1999年出版的《標準》接受了效度整體觀,同時提出了支持效度的5個方面的證據(jù):基于內容的證據(jù)、基于反應過程的證據(jù)、基于內部結構的證據(jù)、基于與其他變量之間關系的證據(jù)和基于測量結果的證據(jù)[6]23。Messick的效度驗證模型雖然在理論層面嚴密、考究,但高度抽象,在效度驗證的程序,諸如效度驗證的操作順序、驗證過程的檢測等方面,能夠為操作者提供的指導極為有限[8]179。
1988年,Cronbach提出了效度論證的概念,建議通過對所有證據(jù)進行連貫的分析以對預期的分數(shù)解釋和使用進行整體評價。1999年出版的《標準》明確指出,效度驗證就是對分數(shù)解釋與使用的論證[6]22。在多年研究的基礎上,Kane在《教育測量》(2006版)中系統(tǒng)闡述了其基于論證的效度驗證模式,之后又在Bachman、Chapell等人研究成果的基礎上進行了改進。該模式采用兩類論證:解釋性論證(interpretive argument)和效度論證(validity argu?ment)。解釋性論證詳細說明特定考試結果的解釋和用途,然后呈現(xiàn)出起點為從考生在考試中的表現(xiàn)推論出對分數(shù)的解釋、終點為基于分數(shù)作出決定這一過程中的推論(inference)和假設(assumption),為之后的效度論證搭建起驗證框架[9]。推論主要由評分推論、概化推論、外推推論、基于理論的推論和決策推論構成,形成一個完整的鏈式結構。Kane為解釋性論證引進了Toulmin論證模式,每個推論都要經(jīng)過Toulmin論證模式的檢驗,前一個推論中的“主張”即被作為后一個推論中的“資料”,該論證模式將效度證據(jù)緊密聯(lián)系起來,使得推論環(huán)環(huán)相扣。效度論證則是通過一系列的實證性研究檢驗解釋性論證中各個推論和假設的可靠性及充分性,Xi等人對效度驗證的方法進行了系統(tǒng)的總結[8]。
登錄國外知名考試機構的網(wǎng)站和“中國知網(wǎng)”,筆者以“validity”“validation”或“效度”為關鍵詞對近10年來的研究成果進行搜索,了解到國外考試機構就其具體考試項目進行效度驗證的基本情況和國內就考試項目進行效度驗證的大致狀況。PEAR?SON教育集團、美國的ETS和ACT、英國的劍橋評價、荷蘭的CITO等,都圍繞自己的主要考試項目進行了效度驗證,完成了數(shù)篇效度驗證報告。中國知網(wǎng)上以“效度驗證”為主題的有11篇博士論文、近300篇碩士論文和若干篇期刊論文。對這些資料進行認真分析后可以清楚地看到,效度驗證中存在兩大問題。
由前述已知,教育測量界視效度為考試設計和運作中最基本的考慮內容,同時也將其視為考試的根本。然而,或許是考試機構尚未意識到效度驗證的重要性,或許是考試研究人員無力或無興趣開展此類研究,致使效度驗證工作備受忽略,其結果是:其一,大量考試項目從未或很少進行效度驗證。國外各知名考試機構雖然都發(fā)表了一些效度驗證報告,但研究工作主要是圍繞其主要考試項目進行,如ETS的效度驗證集中在TOEFL,劍橋評價的效度驗證也是集中在其若干英語作為外語的考試項目上。國內的效度驗證也同樣集中于有限的考試項目,主要為若干考試項目中的外語學科、大學英語四六級考試、大學專業(yè)英語四八級考試,以及漢語水平考試和公務員考試,只有個別研究對高考中的物理和化學學科進行過一些效度驗證工作。大規(guī)模、高利害考試的項目未見有任何效度驗證結果發(fā)布。其二,即使就某些考試項目進行了效度驗證,驗證的系統(tǒng)性和整體性也差強人意。無論是國外各知名考試機構,還是國內研究人員,可能受人力物力投入和所掌握資料的限制,除個別項目外,基本都是將效度驗證的主體對象確定為某類試題,且只是進行內容效度、構念效度或者效標效度的研究,效度驗證的系統(tǒng)性和整體性遠未達到《標準》的要求。
效度驗證模式的發(fā)展經(jīng)歷了4個歷史時期,驗證模式所涵蓋內容日益增加,系統(tǒng)性和整體性程度日益提高。與此同時,效度驗證的核心概念由“效標”變?yōu)椤白C據(jù)”,繼而發(fā)展為“理由”;驗證的對象由考試變?yōu)榭荚嚪謹?shù)的解釋和使用。研究發(fā)現(xiàn),目前效度驗證的具體實踐明顯沒有跟上效度驗證模式發(fā)展的步伐,主要表現(xiàn)在以下3個方面:第一,考試宣傳中的高效度往往缺乏具體信息的支持。搜索國內有關考試的介紹或年度考試總結報告,經(jīng)??梢钥吹街T如“具有較高的信度和效度”“信度、效度較高”等表述,信度尚有數(shù)據(jù)可查,而效度則找不到任何理據(jù)的支持,這充分說明考試工作人員對效度“證據(jù)”“理由”的必要性缺乏足夠的認識,對考試規(guī)范性和科學性的認識尚有待提高。第二,誤用效度概念的情況比較普遍。Frisbie列出了6個選自法律文件、考試機構向不同人群所發(fā)布資料中對效度的誤解情況,主要問題是把效度研究對象錯誤地當成了考試[5]。這種情況無論是在國外,還是在國內都大量存在,但相對而言,國內對效度概念的誤用更為嚴重,所搜索到的絕大部分期刊論文和碩士論文、博士論文都錯誤地將效度驗證對象定義成了某項考試或考試的某類試題,鮮見研究者對考試的分數(shù)解釋和使用進行效度驗證,這說明很多考試研究人員的效度觀仍然停留在20世紀90年代前的水平,遠遠沒有跟上效度驗證模式的發(fā)展。另有若干論文似乎將“效度”當成了“效果”的代名詞,雖然在采用效度這一詞匯,但所談論內容與效度的基本概念相去甚遠。第三,分類效度仍是主流效度驗證方式。無論是國外還是國內的效度驗證報告或論文,大部分采用的驗證模式仍是20世紀60年代盛行的操作簡便、成本較低的分類模式。與國外考試機構所主持驗證不同的是,國內研究性論文的專注點集中在操作更為簡便、主觀性較強的內容效度,其次才是結構效度和效標效度,基于整體效度觀和論證的效度驗證極為少見,即使有也只是簡單嘗試。
效度驗證是考試研究中一項極為重要的工作,對評價考試質量、推進考試改革意義重大,考試機構應該以各種形式積極推動。第一,主持相關研究活動。論證基礎上的效度驗證模式講求系統(tǒng)性和整體性,需要根據(jù)總體的解釋性論證框架,從考試各環(huán)節(jié)以不同的技術手段收集所需數(shù)據(jù),開展大量實證性研究,推動效度論證的進行。這些工作需要大量人力物力的投入,同時還需要考試各環(huán)節(jié)提供信息支持,如非考試機構主持實在難以開展。第二,與獨立的考試評價機構或其他研究團隊合作開展效度驗證工作。考試機構可以以協(xié)議的形式向合作伙伴派發(fā)研究任務,為其提供驗證所需的各類資料和信息,同時要求其承諾保證驗證的客觀性和公正性。第三,適當開放數(shù)據(jù),為獨立的研究人員進行效度驗證提供便利。以招標的形式列出研究任務,邀請研究人員參與研究,并適當提供研究經(jīng)費和所需數(shù)據(jù),是國際上通用的一種合作研究方式,一是有利于團結社會各界考試研究人員,二是有利于宣傳考試項目,擴大考試影響力。考試機構可以嘗試將效度驗證任務細化分解后,向社會招標。
作為國際教育測量界的經(jīng)典著作,《教育測量》各個版本都總結了當時最新且較為成熟的教育測量學研究成果,Cronbach、Messick和Kane具有跨時代意義的效度研究成果都是通過該著作的推介而成為國際測量界公認的主流效度驗證模式,認真學習、努力吸收該著作中所推介的效度驗證模式至關重要。《標準》則是國際教育和心理測量界共同遵守的測量標準,對測量的理論基礎和具體實踐進行了很多約束性的界定,各項標準在國際教育和心理測量領域常常被當作檢查考試質量的清單?!稑藴省分嘘P于效度驗證的理念與《教育測量》保持一致,但其所提供的標準能夠作為研究人員進行效度驗證和其他人員審核驗證過程和結果共同遵循的指導性標準,能夠對效度驗證工作發(fā)揮很好的規(guī)范和指導作用。因此,可以將這兩部著作作為效度驗證的法規(guī)性文件。
如前所述,按照基于論證效度驗證模式的要求構建起解釋性論證框架后,需采用各種方法進行效度論證以對解釋性論證每段推論的可靠性進行檢驗,而解釋性論證中的任何一段推論幾乎都需要綜合運用統(tǒng)計學、質性研究的方法。僅從評分推論即可看出所需采用研究方法的綜合性:首先,要對考試實施的后效進行研究,主要檢查考生的表現(xiàn)是否受到了與構念非相關因素(考試實施條件、考試模式等)的影響;其次,要對評分指導進行綜合性審核,需要利用質性研究方法了解評分員對評分指導的理解,利用多層面Rasch模型檢測評分標準等;再次,需利用方差分析、多層面Rasch模型檢查評分員自身和評分員間的系統(tǒng)性誤差,同時還需采用質性研究方法了解評分員的評分傾向和決策過程等[8]183-184。由此可知,效度驗證研究團隊中既應包括從事教育測量和所驗證考試學科研究的專業(yè)人士,還應該有熟悉考試操作實施和熟練掌握統(tǒng)計分析工具和質性研究方法的研究人員。如此,方可以稱為一個人員結構合理、基本能夠進行效度驗證的研究團隊。
[1]AERA,APA,NCME.Standards for Educational and Psychological Testing[M].Washington,DC:AERA,2014.
[2]謝小慶.效度:從分數(shù)的合理解釋到可接受解釋[J].中國考試,2013(7):3-8.
[3]韓寶成.語言測試效度及其驗證模式的嬗變[J].外語教學與研究,2013(5):411-425.
[4]張敏強.20世紀教育測量學發(fā)展的回顧與現(xiàn)狀評析[J].教育研究,1999(11):32-37.
[5]FRISBIE D A.Measurement 101:Some Fundamentals Revisited[J].Educational Measurement:Issues and Practice,2005(3):21-28.
[6]KANE M.Validation[M]//BRENNAN R.Educational Measurement.Westport,CT:Greenwood Publishing,2006.
[7]CRONBACH L J,MEEHL P E.Construct Validity in Psychological Tests[J].Psychological Bulletin,1955(52):281-302.
[8]XI X.Methods of test validation[M]//SHOHAMY E,HORNBERGER N H.Encyclopedia of Language and Education(Volume 7:Lan?guage Testing and Assessment).New York:Springer,2008.
[9]KANE M.The Argument-Based Approach to Validation[J].School Psychological Review,2013,42(4):448-457.