華中科技大學(xué)附屬中學(xué) (430074) 梁 玉華中師范大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院 (430079) 徐章韜
對于定量取向的數(shù)學(xué)教育研究而言,效度分析作為研究中不可缺少的一環(huán),是衡量研究成敗優(yōu)劣、標(biāo)志研究科學(xué)化水平的最重要指標(biāo),反映了一項(xiàng)研究的真實(shí)性與準(zhǔn)確性程度.在數(shù)學(xué)教育教學(xué)過程中,要研究學(xué)生的學(xué)習(xí)態(tài)度、認(rèn)知策略、“四基”掌握情況等,常使用教育測量研究(包括學(xué)業(yè)成績的測驗(yàn)等).縱觀歷史發(fā)現(xiàn),教育測量的思想和實(shí)踐在我國由來已久,我國古代考試制度便是現(xiàn)代教育測量的先河.近代以來,教育測量研究的重點(diǎn)則放在編制教育測量的工具—測驗(yàn),和評價(jià)測量結(jié)果的工具—評價(jià)所應(yīng)參照的標(biāo)準(zhǔn)等科學(xué)原理和方法上,“量表”一般是包括這兩種工具在內(nèi).[1]教育測量走向客觀化、科學(xué)化是其必然趨勢,與此同時(shí),也對作為教育測量結(jié)果的質(zhì)量分析的核心指標(biāo)——效度提出了更加客觀化、精確化、科學(xué)化的要求.在測量研究中,效度往往與研究的目的密切相關(guān),一項(xiàng)研究所得結(jié)果必須符合其目的才是有效的,根據(jù)人們對研究目的解釋角度的不同,形成了諸如內(nèi)容效度、構(gòu)想效度、效標(biāo)關(guān)聯(lián)效度等系列概念.這些效度概念分別是用以解決何種矛盾的,其內(nèi)在關(guān)聯(lián)性如何,本文將說明這一問題,闡述效度在數(shù)學(xué)教育研究數(shù)據(jù)處理中的原理和應(yīng)用.
伴隨著測量理論和實(shí)踐的發(fā)展,效度由一個(gè)單一概念發(fā)展為一個(gè)內(nèi)涵豐富的多維概念系統(tǒng).由于效度是就測量結(jié)果達(dá)到測量目的的程度而言的,所以效度問題的兩個(gè)根本方面是測量什么和測量程度,從不同角度進(jìn)行考察,可以得到不同類型的效度.
由信度與效度的理論定義公式可以看出,Val≤ρXX,信度高,效度不一定高;效度高,往往信度一定高,因此高信度是高效度的必要不充分條件.關(guān)于信度與效度的關(guān)系可理解為,在教育測量中,既要求施測的準(zhǔn)確可靠,又要求工具的切實(shí)有效[1],有效的工具還需方法的嚴(yán)格配套,方能使教育測量精準(zhǔn)見效.但信度的高低不能決定效度的高低,信度高,效度卻不一定高,信度低,效度更不可能高.
早期的心理測量學(xué)認(rèn)為,測量就是要盡可能準(zhǔn)確地估計(jì)變量的價(jià)值,而要判斷這種估計(jì)的準(zhǔn)確性程度就需要“效標(biāo)”——效標(biāo)被假定能夠提供變量的“真正的”價(jià)值,于是就產(chǎn)生了效標(biāo)關(guān)聯(lián)效度,即測驗(yàn)與某種獨(dú)立的外在效標(biāo)——“標(biāo)準(zhǔn)測驗(yàn)”之間關(guān)系的程度.效標(biāo)是指能顯示或反映所欲測屬性的變量,是考察檢定測驗(yàn)效度的一個(gè)參考標(biāo)準(zhǔn),其本身具有良好的信度和效度,如標(biāo)準(zhǔn)化的學(xué)業(yè)成績測驗(yàn)、人格測驗(yàn)等.根據(jù)測驗(yàn)分?jǐn)?shù)和效標(biāo)分?jǐn)?shù)獲得時(shí)間的差異,效標(biāo)關(guān)聯(lián)效度可以分為同時(shí)效度和預(yù)測效度.預(yù)測效度是指測驗(yàn)分?jǐn)?shù)與未來的效標(biāo)之間的相關(guān)程度,多用于預(yù)測將來的結(jié)果,如利用美國的學(xué)業(yè)成績測驗(yàn)(SAT)來選拔接受高等教育的學(xué)生,該測驗(yàn)的效度如何,就要通過其效標(biāo)——即學(xué)生進(jìn)入高等學(xué)校后學(xué)習(xí)情況——來加以驗(yàn)證.同時(shí)效度是指測驗(yàn)分?jǐn)?shù)與現(xiàn)有效標(biāo)分?jǐn)?shù)之間的相關(guān)程度,常用于診斷現(xiàn)在的狀態(tài).效標(biāo)關(guān)聯(lián)效度常常用于局部效度的研究,即比較強(qiáng)調(diào)情境具體化時(shí)測驗(yàn)的效度.
效標(biāo)關(guān)聯(lián)效度的估計(jì)方法一般有相關(guān)法、區(qū)分法和命中率法.相關(guān)法是估計(jì)效標(biāo)關(guān)聯(lián)效度最常用的方法,計(jì)算測驗(yàn)分?jǐn)?shù)與效標(biāo)資料的相關(guān)系數(shù),作為測驗(yàn)的效度系數(shù).如果效標(biāo)分?jǐn)?shù)是連續(xù)變量,則計(jì)算測驗(yàn)分?jǐn)?shù)和效標(biāo)分?jǐn)?shù)之間的皮爾遜積差相關(guān)系數(shù);如果效標(biāo)分?jǐn)?shù)是離散變量,則計(jì)算測驗(yàn)分?jǐn)?shù)和效標(biāo)的等級相關(guān)系數(shù).區(qū)分法是將測驗(yàn)分?jǐn)?shù)按效標(biāo)分?jǐn)?shù)線分為成功組與失敗組,再考察兩組之間的差異是否顯著,差異顯著則說明具有較高的效度,也可分析成功組與失敗組分?jǐn)?shù)分布的重疊量,重疊量百分比越低效度越好.當(dāng)用測驗(yàn)分?jǐn)?shù)作為決策依據(jù)時(shí),常用四格相關(guān)系數(shù)求取效度系數(shù),即命中率法,決策的總命中率和正命中率是測驗(yàn)有效性的良好指標(biāo),具體關(guān)系見表1:
表1測驗(yàn)命中和失誤的四種情況
效標(biāo)測驗(yàn) 失敗成功成功A(失誤)B(命中)失敗C(命中)D(失誤)
然而,效標(biāo)關(guān)聯(lián)效度也存在一定的局限.在很多情況下,測驗(yàn)很難隨時(shí)找到合適的效標(biāo),因?yàn)樾?biāo)的值同樣需要驗(yàn)證.這樣,所謂的效標(biāo)驗(yàn)證就容易成為一個(gè)無限循環(huán)的、沒有結(jié)果的過程.另外,預(yù)測效度依賴于不能與測驗(yàn)分?jǐn)?shù)同時(shí)獲得的未來表現(xiàn)的指標(biāo),不能直接驗(yàn)證推斷,因此對于錄取、雇傭和認(rèn)證等情境中基于數(shù)據(jù)的決策是不充分的.[2]
鑒于效標(biāo)關(guān)聯(lián)效度容易陷入循環(huán)論證的僵局及預(yù)測效度的理想化,人們開始尋求替代物,目光逐漸聚焦于測驗(yàn)內(nèi)容對內(nèi)容領(lǐng)域的代表性,也即測驗(yàn)題目的要求反映表現(xiàn)領(lǐng)域內(nèi)容的程度,即所謂的內(nèi)容效度.內(nèi)容效度是指實(shí)際測量內(nèi)容與所要測量的特定的行為域之間的關(guān)聯(lián)度,即測驗(yàn)所用的測題對整個(gè)內(nèi)容范圍是否有很好的代表性,分配比例是否恰當(dāng).如對一個(gè)一般數(shù)學(xué)能力測驗(yàn)來說,一個(gè)包含加減法題目的測驗(yàn)顯然優(yōu)于一個(gè)包含體育項(xiàng)目的測驗(yàn),一個(gè)包含加減乘除題目的測驗(yàn)顯然優(yōu)于一個(gè)只包含加法題目的測驗(yàn),一個(gè)包含加減乘除題目且各部分題量均衡的測驗(yàn)顯然優(yōu)于一個(gè)包含加減乘除題目但絕大多數(shù)題目是加法題目的測驗(yàn).[3]因此要具備較高的內(nèi)容效度,就得要求測驗(yàn)的內(nèi)容域明確、內(nèi)容取樣要具有較高的代表性.
內(nèi)容效度的估計(jì)方法一般有邏輯分析法和統(tǒng)計(jì)分析法.運(yùn)用邏輯分析法時(shí)常采用專家評定的方法來估計(jì)內(nèi)容效度,評估程序一般為:界定和描述內(nèi)容域——將每個(gè)測驗(yàn)項(xiàng)目對應(yīng)的內(nèi)容域確定下來——將測驗(yàn)結(jié)構(gòu)與內(nèi)容域結(jié)構(gòu)相比較得出定性評判結(jié)論.統(tǒng)計(jì)分析法可分為復(fù)本相關(guān)法、評分一致性考察法、前后測比較法.復(fù)本相關(guān)法是從同一個(gè)內(nèi)容域總體中抽取兩套獨(dú)立的平行測驗(yàn),用以測試同一批被試,求其相關(guān)性,若相關(guān)系數(shù)大,則提供了支持內(nèi)容效度的證據(jù);評分一致性考察法是將內(nèi)容域使用評定量表的方式進(jìn)行評價(jià),一方面將結(jié)果以量化指標(biāo)表現(xiàn),另一方面減少了不同判斷者之間的差異;前后測比較法是指對同一批被試用兩個(gè)復(fù)本在內(nèi)容教學(xué)前后實(shí)施測驗(yàn),測驗(yàn)內(nèi)容效度可由兩次測驗(yàn)成績差異的顯著性來判斷.
內(nèi)容效度對學(xué)績測驗(yàn)和職業(yè)選拔測驗(yàn)比較適用,因?yàn)檫@些領(lǐng)域的內(nèi)容域比較容易確定.然而,對于內(nèi)容域的界定不清楚的情形,內(nèi)容效度是不適用的,如對能力傾向測驗(yàn)和人格測驗(yàn).內(nèi)容域的難以界定直接導(dǎo)致了缺乏嚴(yán)格量化的統(tǒng)計(jì)方法來評估內(nèi)容效度,對內(nèi)容效度的評估仍是以主觀評估為主.
內(nèi)容效度通常由專家(通常是測驗(yàn)編制者)來判斷,不可避免具有主觀性;并且對所測量領(lǐng)域內(nèi)容的界定也經(jīng)常存在分歧,難以達(dá)成共識,內(nèi)容效度也就難以確定.由于存在高度主觀性和強(qiáng)烈的確定性偏見,內(nèi)容效度的概念為公眾所詬病,因此順應(yīng)時(shí)代需求,結(jié)構(gòu)效度應(yīng)運(yùn)而生.結(jié)構(gòu)效度指測驗(yàn)?zāi)軌驕y量到某一理論構(gòu)想或心理特質(zhì)的程度.結(jié)構(gòu)效度涉及一個(gè)測驗(yàn)對一些未加“操作性定義”的品質(zhì)或特性的測量.
因此,因素分析的關(guān)鍵是進(jìn)行探索性因素分析找尋共同因素,求出因素負(fù)荷矩陣A,每個(gè)測驗(yàn)在共同因素上的因素負(fù)荷aij就是測驗(yàn)的因素效度,可以轉(zhuǎn)化為求解相關(guān)系數(shù)rij(即測驗(yàn)與各因素的相關(guān)),測驗(yàn)分?jǐn)?shù)總變異中來自有關(guān)因素的比例就是該測驗(yàn)結(jié)構(gòu)效度的指標(biāo).而后,再經(jīng)由驗(yàn)證性因素分析對所得量表進(jìn)一步驗(yàn)證,此時(shí)往往需要重選被試施測,將數(shù)據(jù)用結(jié)構(gòu)方程模型軟件處理,根據(jù)計(jì)算數(shù)據(jù)可以得到量表的結(jié)構(gòu)效度,同時(shí)可以調(diào)整以使結(jié)構(gòu)最優(yōu)化.因素分析對矩陣運(yùn)算有較高的要求,需要計(jì)算測驗(yàn)的相關(guān)系數(shù)矩陣、再生矩陣、再生矩陣的最大特征根、變量共同度的估計(jì)、共同因素個(gè)數(shù)的確定、因素負(fù)荷矩陣進(jìn)行旋轉(zhuǎn)變換等,[4]當(dāng)然,也可通過相關(guān)統(tǒng)計(jì)軟件(如SPSS)完成此過程.
多特質(zhì)-多方法矩陣法(MTMM)主要考慮兩個(gè)問題:其一,使用不同方法測量同一成分,結(jié)果的相關(guān)性高則稱測量具有聚斂效度,關(guān)鍵是“求同”、“收斂”;其二,用同種方法測量不同成分,結(jié)果的相關(guān)性低則稱具有判別效度,核心在于“求異”、“區(qū)別”.可見,MTMM的技術(shù)支持也是相關(guān)分析,將所得數(shù)據(jù)置于矩陣內(nèi)進(jìn)一步分析處理,就能判斷測驗(yàn)的結(jié)構(gòu)效度的高低,如果一個(gè)測驗(yàn)既具有聚斂效度又具有判別效度,則該測驗(yàn)具有較高的結(jié)構(gòu)效度,它們是結(jié)構(gòu)效度的重要指標(biāo).
效標(biāo)關(guān)聯(lián)效度、內(nèi)容效度、構(gòu)想效度是主要的三類效度指標(biāo),通常被認(rèn)為是效度的三位一體,是效度理論的主流觀念.各種效度的區(qū)別在于各自強(qiáng)調(diào)的方面不同:內(nèi)容效度提供了關(guān)于測驗(yàn)內(nèi)容域方面的信息,要驗(yàn)證的是測驗(yàn)對完善理論的匹配程度;構(gòu)想效度反映了測驗(yàn)與其所依據(jù)的理論或概念框架的符合程度,是對不完善理論的探索和驗(yàn)證;與前兩者相比,效標(biāo)關(guān)聯(lián)效度側(cè)重反映的是研究工具與其他測量標(biāo)準(zhǔn)之間的關(guān)系,關(guān)心依據(jù)測驗(yàn)做出決策的問題(做出預(yù)測的后果和效用).一個(gè)測驗(yàn)可以有多種效度,每種效度根據(jù)使用者的具體目的而定,但各種效度又是相互聯(lián)系和補(bǔ)充的,內(nèi)容效度和構(gòu)想效度既是效標(biāo)關(guān)聯(lián)效度的保證,又須得到它的支持.考察內(nèi)容效度和效標(biāo)關(guān)聯(lián)效度又有助于確定構(gòu)想效度.對于效度概念,三個(gè)側(cè)面各有所長卻也各有不足,宜有一個(gè)全面整體性的認(rèn)識,既要“尋求外部參照”(效標(biāo)關(guān)聯(lián)效度),又要“關(guān)注內(nèi)部解釋’(結(jié)構(gòu)效度和內(nèi)容效度),一個(gè)好的理論既要有內(nèi)在的完備性,又需外部的證實(shí).
在教育測量叱咤風(fēng)云的現(xiàn)代,效度作為反映測量質(zhì)量好壞的核心指標(biāo),其決定著測量的真實(shí)性、有效性和可推廣程度.如今,效度分析在數(shù)學(xué)教育領(lǐng)域應(yīng)用廣泛,如數(shù)學(xué)學(xué)習(xí)態(tài)度量表、高考數(shù)學(xué)試卷質(zhì)量分析、國際PISA測試質(zhì)量分析等,一方面可以評價(jià)已有測驗(yàn)的質(zhì)量優(yōu)劣,另一方面也可以為今后測驗(yàn)的改良提供參照,確實(shí)保證測驗(yàn)的有效性.不僅如此,效度分析在社會(huì)科學(xué)領(lǐng)域的應(yīng)用也越來越廣泛,如結(jié)構(gòu)化面試和人員選拔決策等.這體現(xiàn)了數(shù)學(xué)的擴(kuò)張性和輻射性,須充分理解效度的原理和內(nèi)涵以對各種測量研究的數(shù)據(jù)進(jìn)行有效性分析,把好“質(zhì)量”這一關(guān)!