亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        自學(xué)考試的效度及其證據(jù)來(lái)源探析

        2014-02-04 20:07:31韋小滿王橋影
        中國(guó)考試 2014年6期
        關(guān)鍵詞:效度測(cè)驗(yàn)自學(xué)

        田 霖 韋小滿 王橋影

        自學(xué)考試的效度及其證據(jù)來(lái)源探析

        田 霖 韋小滿 王橋影

        效度是衡量考試科學(xué)性的重要指標(biāo),反映考試在多大程度上實(shí)現(xiàn)了測(cè)量目的;效度驗(yàn)證也成為測(cè)驗(yàn)開發(fā)的重要環(huán)節(jié),用以支持分?jǐn)?shù)解釋及測(cè)驗(yàn)使用。本文簡(jiǎn)要介紹了效度概念的內(nèi)涵及效度驗(yàn)證的發(fā)展歷程,并嘗試將效度整體觀引入自學(xué)考試領(lǐng)域,對(duì)自學(xué)考試的效度驗(yàn)證及其證據(jù)來(lái)源進(jìn)行初步探索。本文提出,自學(xué)考試應(yīng)從命題管理的各個(gè)環(huán)節(jié)系統(tǒng)地收集證據(jù)進(jìn)行效度驗(yàn)證,效度證據(jù)的來(lái)源包括測(cè)驗(yàn)內(nèi)容、反應(yīng)過(guò)程、測(cè)驗(yàn)內(nèi)部結(jié)構(gòu)、測(cè)驗(yàn)評(píng)分、跟外部變量的關(guān)系、測(cè)驗(yàn)后果等多個(gè)方面。

        自學(xué)考試;效度;效度驗(yàn)證;效度證據(jù)

        傳統(tǒng)意義上的效度是指一個(gè)測(cè)驗(yàn)對(duì)其所欲測(cè)量的屬性確能測(cè)到的程度[1],《教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)》(1999年)提出,“效度是指證據(jù)和理論對(duì)測(cè)驗(yàn)分?jǐn)?shù)的特定解釋的支持程度”[2]。隨著效度理論的發(fā)展,效度概念內(nèi)涵從“相關(guān)即有效”到“多種類型的效度”,最終發(fā)展為“一元多維的整體效度概念”[3],效度驗(yàn)證的方法也從傳統(tǒng)的某種效度類型的檢驗(yàn),發(fā)展成為全面的、綜合的檢驗(yàn),包含對(duì)整個(gè)測(cè)驗(yàn)過(guò)程及測(cè)驗(yàn)結(jié)果的分析和解釋。由于效度反映了測(cè)驗(yàn)功能的有效性,因此效度驗(yàn)證成為測(cè)驗(yàn)開發(fā)的重要環(huán)節(jié)。自學(xué)考試作為國(guó)家大規(guī)模教育考試,效度是衡量其考試科學(xué)性的重要指標(biāo),現(xiàn)代效度理論的發(fā)展為自學(xué)考試的效度研究提供了新的思路,在自學(xué)考試領(lǐng)域具有廣闊的應(yīng)用前景。

        1 效度理論的發(fā)展概述

        效度概念的發(fā)展大致經(jīng)歷三個(gè)階段。第一階段為“單一效度觀”時(shí)期(20世紀(jì)50年代之前),其認(rèn)為“相關(guān)即有效”,此時(shí)效度用“測(cè)驗(yàn)的成績(jī)與采用其他客觀方法進(jìn)行度量所得結(jié)果之間的相關(guān)”表示。第二階段為“分類效度觀”時(shí)期(20世紀(jì)50年代至70年代),其將效度劃分為內(nèi)容效度、結(jié)構(gòu)效度和效標(biāo)關(guān)聯(lián)效度[3],內(nèi)容效度是指測(cè)驗(yàn)內(nèi)容對(duì)所要測(cè)量范圍的代表性程度;結(jié)構(gòu)效度是指測(cè)驗(yàn)對(duì)于人的假設(shè)屬性或理論概念測(cè)量到的程度[1];效標(biāo)關(guān)聯(lián)效度是指某測(cè)驗(yàn)結(jié)果與另一后來(lái)獲得的測(cè)驗(yàn)結(jié)果之間的相關(guān)(預(yù)測(cè)效度)或大約同時(shí)獲得的測(cè)驗(yàn)結(jié)果之間的相關(guān)(同時(shí)效度)[3]。有研究者認(rèn)為,將效度劃分為多種類型的傳統(tǒng)做法得到的效度是支離破碎的、不完整的,而且這種做法缺乏對(duì)測(cè)驗(yàn)成績(jī)的價(jià)值內(nèi)涵和社會(huì)后果的考慮[4]。第三階段為“效度整體觀”時(shí)期(20世紀(jì)70年代至今),其認(rèn)為效度就是“關(guān)于經(jīng)驗(yàn)證據(jù)和理論依據(jù)對(duì)基于測(cè)驗(yàn)分?jǐn)?shù)或其他測(cè)量模式的推論與活動(dòng)的合適性與恰當(dāng)性的支持程度的一種綜合評(píng)估判斷”[5],此時(shí)效度已經(jīng)成為一個(gè)統(tǒng)合各方面效度證據(jù)的綜合性概念,其包括內(nèi)容、實(shí)證、結(jié)構(gòu)、概括化、外部和后果六個(gè)層面,這六個(gè)層面相互關(guān)聯(lián),可以作為教育與心理測(cè)驗(yàn)的一般效度標(biāo)準(zhǔn)[4]。效度整體觀涵蓋了測(cè)驗(yàn)編制、實(shí)施、評(píng)分、分?jǐn)?shù)解釋、推廣以及社會(huì)影響等各環(huán)節(jié),是一個(gè)不斷評(píng)價(jià)、質(zhì)疑、檢查、解釋和推論的動(dòng)態(tài)過(guò)程[6]。

        傳統(tǒng)的效度驗(yàn)證主要關(guān)注試題、測(cè)驗(yàn)結(jié)構(gòu)和分?jǐn)?shù),研究者針對(duì)不同的效度類型提出了不同的效度驗(yàn)證方法:①內(nèi)容效度,這是教育考試領(lǐng)域較為關(guān)注的效度內(nèi)容,主要是通過(guò)專家的邏輯判斷進(jìn)行驗(yàn)證;②結(jié)構(gòu)效度,這是心理測(cè)驗(yàn)領(lǐng)域關(guān)注的效度內(nèi)容,一般通過(guò)因素分析、結(jié)構(gòu)方程模型、多元回歸分析等方法進(jìn)行驗(yàn)證,最終使得實(shí)證數(shù)據(jù)能夠最大限度地?cái)M合理論模型[1];③效標(biāo)關(guān)聯(lián)效度,主要通過(guò)計(jì)算本次測(cè)驗(yàn)結(jié)果與其他測(cè)驗(yàn)結(jié)果(效標(biāo)分?jǐn)?shù))之間的相關(guān)系數(shù)來(lái)進(jìn)行驗(yàn)證,而效標(biāo)分?jǐn)?shù)的獲得則是效標(biāo)關(guān)聯(lián)效度驗(yàn)證的難點(diǎn)。有研究者認(rèn)為,傳統(tǒng)效度理論將效度劃分為不同類型的做法是不合理的[4],導(dǎo)致其效度驗(yàn)證過(guò)程也是片面的、孤立的。效度整體觀認(rèn)為,效度作為一個(gè)完整的概念,它的驗(yàn)證過(guò)程應(yīng)該是全面的、綜合的,不僅對(duì)測(cè)驗(yàn)結(jié)果進(jìn)行分析和解釋,還應(yīng)對(duì)測(cè)驗(yàn)過(guò)程進(jìn)行分析和解釋;不僅對(duì)此時(shí)的測(cè)驗(yàn)結(jié)果進(jìn)行分析和解釋,還涉及對(duì)分?jǐn)?shù)使用后果和價(jià)值的解釋[6]。效度驗(yàn)證可依據(jù)Messick提出的效度六個(gè)層面進(jìn)行:①內(nèi)容層面,主要涉及測(cè)驗(yàn)的范圍與測(cè)驗(yàn)試題樣本的代表性;②實(shí)證層面,指測(cè)驗(yàn)應(yīng)確保其所引發(fā)的心理加工過(guò)程有代表性,能夠提供實(shí)驗(yàn)證據(jù)證明被試在任務(wù)完成過(guò)程中確實(shí)運(yùn)用了設(shè)想的心理加工過(guò)程;③結(jié)構(gòu)層面,要求測(cè)驗(yàn)的評(píng)分模式與待測(cè)構(gòu)念的內(nèi)在結(jié)構(gòu)相一致,應(yīng)最大限度地反映行為表現(xiàn)背后所隱含的結(jié)構(gòu)關(guān)系;④概括化層面,指測(cè)驗(yàn)分?jǐn)?shù)意義對(duì)總體、環(huán)境和其他測(cè)驗(yàn)題目的推廣程度,即分?jǐn)?shù)的使用范圍和界限;⑤外部層面,指測(cè)驗(yàn)成績(jī)與其他測(cè)驗(yàn)結(jié)果之間的關(guān)系在多大程度上反映了待測(cè)構(gòu)念的理論預(yù)期;⑥后果層面,指評(píng)價(jià)分?jǐn)?shù)解釋和使用所帶來(lái)的實(shí)際和潛在后果的證據(jù)和理論說(shuō)明[4]。

        效度整體觀的效度概念比傳統(tǒng)效度概念更為豐富,但其效度驗(yàn)證仍存在諸多問題需要解決,如證據(jù)收集的復(fù)雜性、證據(jù)的使用標(biāo)準(zhǔn)及其解釋、效驗(yàn)過(guò)程的可操作化、證據(jù)資料的量化處理等;傳統(tǒng)效度雖然受到效度整體觀的批判,但其效度驗(yàn)證方面已形成了成熟的檢驗(yàn)思路和數(shù)據(jù)統(tǒng)計(jì)方法,在一定時(shí)期內(nèi),傳統(tǒng)的效度驗(yàn)證方法中仍具有可借鑒性,效度整體觀應(yīng)批判性繼承其合理成分,提高效度驗(yàn)證過(guò)程的可操作性。

        2 自學(xué)考試的效度內(nèi)涵及效度驗(yàn)證

        自學(xué)考試是個(gè)人自學(xué)、社會(huì)助學(xué)和國(guó)家考試相結(jié)合的高等教育形式,是高等教育體系的重要組成部分。自學(xué)考試的考核標(biāo)準(zhǔn)與普通高等學(xué)校(含高職院校)相同層次、相同專業(yè)、相同課程的要求基本一致[7],通過(guò)自學(xué)考試相關(guān)專業(yè)課程的考生可獲得國(guó)家認(rèn)可的學(xué)歷。這就要求自學(xué)考試標(biāo)準(zhǔn)化試卷能夠有效測(cè)查相關(guān)課程的教學(xué)目標(biāo),確保通過(guò)自學(xué)考試的考生真正具備相關(guān)的專業(yè)能力。因此,效度驗(yàn)證是關(guān)系自學(xué)考試教育質(zhì)量的重要問題。

        教育考試領(lǐng)域的效度反映的是某課程的標(biāo)準(zhǔn)化試卷是否測(cè)量到該課程的考核目標(biāo)及其在多大程度上測(cè)量到了這種考核目標(biāo)。對(duì)于自學(xué)考試而言,考試效度是指試卷在多大程度上測(cè)量到了自考生的相關(guān)的專業(yè)知識(shí)或能力水平,其內(nèi)涵包括:試題考查內(nèi)容能夠有效代表課程知識(shí)結(jié)構(gòu)體系;試卷能夠測(cè)量考試大綱所規(guī)定的教學(xué)目標(biāo),并考查其在多大程度上測(cè)量到了這種教學(xué)目標(biāo);作為標(biāo)準(zhǔn)參照測(cè)驗(yàn),自學(xué)考試是否能夠有效地鑒別出達(dá)標(biāo)考生,即考試對(duì)及格考生與不及格考生進(jìn)行了有效區(qū)分。自學(xué)考試的效度越高,越能說(shuō)明考試管理機(jī)構(gòu)“基于考試分?jǐn)?shù)結(jié)果對(duì)考生作出判斷決策觀點(diǎn)是有效的[8]?!?/p>

        效度整體觀認(rèn)為效度驗(yàn)證包含兩個(gè)步驟:首先提出效驗(yàn)觀點(diǎn),即試圖對(duì)測(cè)試分?jǐn)?shù)做哪些解釋和使用,然后收集有關(guān)證據(jù)支持所提議的解釋與使用[9]。自學(xué)考試應(yīng)借鑒效度整體觀的效度驗(yàn)證思想,結(jié)合其考試目的及標(biāo)準(zhǔn)參照測(cè)驗(yàn)的屬性,從測(cè)驗(yàn)的開發(fā)與實(shí)施,到測(cè)驗(yàn)的評(píng)分,再到分?jǐn)?shù)解釋與使用等各個(gè)環(huán)節(jié)收集證據(jù),使用多方面的證據(jù)驗(yàn)證其考試效度。對(duì)某個(gè)自考課程進(jìn)行考試效度驗(yàn)證的一般過(guò)程包括:①明確該課程的考試目的。某專業(yè)課程考試是為了判斷考生的專業(yè)知識(shí)或技能,其考核目標(biāo)應(yīng)嚴(yán)格依據(jù)專業(yè)結(jié)構(gòu)設(shè)置、課程特點(diǎn)、考試大綱與教材的相關(guān)要求。②基于考試目的提出效驗(yàn)觀點(diǎn)。該課程的考試分?jǐn)?shù)能夠代表考生相應(yīng)的專業(yè)知識(shí)或技能水平,可以有效鑒別出不同水平的考生,尤其對(duì)自學(xué)考試合格標(biāo)準(zhǔn)附近的考生能夠進(jìn)行最大限度地區(qū)分。③圍繞效驗(yàn)觀點(diǎn)收集多層面的效度證據(jù)。效度是以證據(jù)為基礎(chǔ)的,效度驗(yàn)證的過(guò)程就是根據(jù)效驗(yàn)觀點(diǎn)積累和收集各種證據(jù)的過(guò)程,證據(jù)收集是效度驗(yàn)證的主要工作,如何根據(jù)自學(xué)考試的特點(diǎn)確定效度證據(jù)來(lái)源,是決定效度驗(yàn)證是否科學(xué)的關(guān)鍵。

        3 自學(xué)考試的效度證據(jù)來(lái)源

        效度驗(yàn)證是指研究者多方收集資料和證據(jù)來(lái)檢驗(yàn)測(cè)驗(yàn)效度的過(guò)程[10]?!督逃c心理測(cè)驗(yàn)標(biāo)準(zhǔn)》(1999年)中提到,效度證據(jù)的來(lái)源包括但并不限于:基于測(cè)驗(yàn)內(nèi)容的證據(jù)、基于反應(yīng)過(guò)程的證據(jù)、基于內(nèi)部結(jié)構(gòu)的證據(jù)、基于跟外部變量關(guān)系的證據(jù),基于測(cè)驗(yàn)后果的證據(jù)[2]。Weir提出的社會(huì)認(rèn)知效驗(yàn)框架對(duì)上述效度證據(jù)來(lái)源進(jìn)行了補(bǔ)充和發(fā)展,將評(píng)分層面的證據(jù)納入到效度證據(jù)體系中[11]。因此,自學(xué)考試的效度驗(yàn)證可參考上述效度證據(jù)來(lái)源框架,從試題開發(fā)到分?jǐn)?shù)使用各個(gè)環(huán)節(jié)系統(tǒng)地收集證據(jù)。

        3.1 基于測(cè)驗(yàn)內(nèi)容的證據(jù)

        測(cè)驗(yàn)內(nèi)容方面的證據(jù),要求就測(cè)驗(yàn)內(nèi)容領(lǐng)域的代表性與測(cè)驗(yàn)分?jǐn)?shù)解釋的適當(dāng)性之間做出邏輯和經(jīng)驗(yàn)的分析[12]。效度內(nèi)容方面的證據(jù)是考試結(jié)果解釋和使用的基礎(chǔ),如果考試在內(nèi)容方面不能提供足夠的證據(jù),其他方面的證據(jù)已毫無(wú)用處[13]。但目前,教育考試領(lǐng)域還沒有成熟的統(tǒng)計(jì)模型直接用于評(píng)估內(nèi)容取樣的恰當(dāng)程度,通常由多位學(xué)科專家根據(jù)測(cè)量目標(biāo)和測(cè)量?jī)?nèi)容范圍的界定,用邏輯分析的方法對(duì)考試內(nèi)容取樣代表性進(jìn)行評(píng)定,學(xué)科專家在評(píng)定過(guò)程中要嚴(yán)格參照自學(xué)考試的考核標(biāo)準(zhǔn)。

        自學(xué)考試基于內(nèi)容方面的效度證據(jù)包括:全部試題的測(cè)試內(nèi)容涉及了教材的哪些內(nèi)容領(lǐng)域及其所占的比重;試卷的內(nèi)容結(jié)構(gòu)是否符合命題藍(lán)圖(雙向細(xì)目表、考試大綱等)的要求,試卷的內(nèi)容結(jié)構(gòu)主要包括試卷試題考查內(nèi)容的章節(jié)分布情況、重點(diǎn)章節(jié)試題所占的分值比例、試卷的難度分布情況、考核不同認(rèn)知目標(biāo)試題的分值比例等??荚嚬芾頇C(jī)構(gòu)可依據(jù)不同的測(cè)驗(yàn)內(nèi)容的證據(jù)層面制定評(píng)定量表,邀請(qǐng)學(xué)科專家依據(jù)評(píng)定量表進(jìn)行逐項(xiàng)判斷,最終基于判斷結(jié)果給出試卷內(nèi)容代表性的整體評(píng)定結(jié)果,并計(jì)算多位專家判斷結(jié)果的相關(guān),作為評(píng)定結(jié)果可靠性的佐證。

        3.2 基于反應(yīng)過(guò)程的證據(jù)

        教育考試本質(zhì)上是從認(rèn)知心理學(xué)的角度來(lái)看待考試結(jié)果反映考生心理結(jié)構(gòu)的程度,即從考生作答問題的認(rèn)知加工過(guò)程的角度來(lái)考查考試結(jié)果解釋和分?jǐn)?shù)使用的有效性[13]。獲取考生反應(yīng)過(guò)程信息的方法包括:?jiǎn)柧矸?、訪談法、作答過(guò)程分析法、計(jì)算機(jī)模擬法、出聲思維法等。問卷法、訪談法需要依據(jù)考生的主觀自陳信息進(jìn)行證據(jù)收集,容易受主觀因素的影響;計(jì)算機(jī)模擬法、出聲思維法的使用容易受到考試環(huán)境的限制;實(shí)踐中常常通過(guò)命題教師及學(xué)科專家對(duì)考生作答過(guò)程進(jìn)行邏輯分析,獲取反應(yīng)過(guò)程的信息,作答過(guò)程分析法可操作化程度高,但指標(biāo)的量化過(guò)程較為復(fù)雜,容易受到評(píng)價(jià)者的主觀因素影響。

        自學(xué)考試的試卷包含不同的題型,可采取不同的認(rèn)知分析策略。對(duì)于客觀題,可對(duì)試題內(nèi)容、選項(xiàng)設(shè)置等進(jìn)行認(rèn)知分析,獲取考生反應(yīng)過(guò)程的證據(jù)信息;對(duì)于主觀題(證明題、應(yīng)用題、論述題、材料分析題、實(shí)驗(yàn)設(shè)計(jì)題等),可對(duì)試題考核內(nèi)容、背景材料、設(shè)問方式、考生試卷作答記錄進(jìn)行認(rèn)知分析,獲取考生反應(yīng)過(guò)程的證據(jù)信息。通過(guò)認(rèn)知分析的方法獲取考生反應(yīng)過(guò)程方面的證據(jù),對(duì)評(píng)價(jià)者的要求較高,其需要熟悉考試目標(biāo)、命題理論與技術(shù)、認(rèn)知心理學(xué)等相關(guān)知識(shí),并具備一定的命題經(jīng)驗(yàn)。通過(guò)對(duì)試卷進(jìn)行逐題分析并作出評(píng)定,最后綜合每道試題的評(píng)定結(jié)果完成對(duì)全卷的評(píng)定[10]。

        3.3 基于內(nèi)部結(jié)構(gòu)的證據(jù)

        測(cè)驗(yàn)內(nèi)部結(jié)構(gòu)的分析能反映測(cè)驗(yàn)項(xiàng)目或成分間的關(guān)系與作為分?jǐn)?shù)解釋基礎(chǔ)結(jié)構(gòu)間的一致性程度[14],心理測(cè)驗(yàn)研究領(lǐng)域?qū)τ跍y(cè)驗(yàn)內(nèi)部結(jié)構(gòu)關(guān)注較多。通常測(cè)驗(yàn)內(nèi)部結(jié)構(gòu)的建立需要經(jīng)過(guò)如下步驟:①對(duì)所要測(cè)量特質(zhì)根據(jù)某理論提出(心理)結(jié)構(gòu)假設(shè);②根據(jù)假設(shè)編寫測(cè)驗(yàn);③尋求測(cè)驗(yàn)分?jǐn)?shù)與其他測(cè)量結(jié)果的相關(guān);④根據(jù)測(cè)驗(yàn)結(jié)果驗(yàn)證結(jié)構(gòu)假設(shè)是否成立;⑤測(cè)驗(yàn)修訂。在教育考試中,專業(yè)課程試卷的考核目標(biāo)通常涵蓋這門課程涉及的全部知識(shí)體系,難以建立結(jié)構(gòu)清晰的心理特質(zhì)結(jié)構(gòu)。

        自學(xué)考試命題管理規(guī)范要求命題教師首先根據(jù)教材和考試大綱制定雙向細(xì)目表,試卷結(jié)構(gòu)安排與試題編寫應(yīng)嚴(yán)格依據(jù)雙向細(xì)目表的相關(guān)規(guī)定。對(duì)于某些容易劃分學(xué)科能力結(jié)構(gòu)的課程(如某些計(jì)算機(jī)類及外語(yǔ)類課程),可以嘗試結(jié)合考試大綱與雙向細(xì)目表,界定該課程所考查的心理模型,提出結(jié)構(gòu)假設(shè)??荚嚭笫占忌鷮?shí)測(cè)數(shù)據(jù),通過(guò)因素分析、多維尺度分析、結(jié)構(gòu)方程模型等方法對(duì)結(jié)構(gòu)假設(shè)進(jìn)行驗(yàn)證,獲取內(nèi)部結(jié)構(gòu)方面的證據(jù)。

        3.4 基于測(cè)驗(yàn)評(píng)分的證據(jù)

        效度整體觀認(rèn)為,信度不再僅僅是衡量測(cè)驗(yàn)穩(wěn)定性的指標(biāo),而是被納入到效度體系中作為一項(xiàng)證據(jù)。評(píng)分方面的效度證據(jù)反映的是教育評(píng)價(jià)者能夠在多大程度上相信考試的分?jǐn)?shù),主要涉及評(píng)分者信度和內(nèi)部一致性信度。自學(xué)考試可利用閱卷管理系統(tǒng)提供的考生作答數(shù)據(jù),從測(cè)驗(yàn)評(píng)分的角度收集評(píng)分者信度及內(nèi)部一致性信度的證據(jù),為效度驗(yàn)證提供支持。

        評(píng)分者信度主要用于主觀題評(píng)分,是指多位評(píng)分者對(duì)同一組考生作答反應(yīng)評(píng)分的一致性程度。主觀題評(píng)分受評(píng)分者主觀因素的影響較大,不同的評(píng)分者對(duì)相同的試題答案可能給出不同的分?jǐn)?shù),此時(shí)評(píng)分者的評(píng)分差異已成為考試誤差的來(lái)源之一。對(duì)于多位評(píng)分者進(jìn)行評(píng)分時(shí),分連續(xù)性計(jì)分和等級(jí)計(jì)分兩種情況進(jìn)行評(píng)分者信度的估計(jì):①當(dāng)多位評(píng)分者采用連續(xù)性計(jì)分法對(duì)一組考生的試卷進(jìn)行評(píng)定時(shí),采用Cronbach-α系數(shù);②當(dāng)多位評(píng)分者采用等級(jí)計(jì)分法對(duì)一組考生的試卷進(jìn)行評(píng)定時(shí),采用Kandall和諧系數(shù)(多列等級(jí)相關(guān))[1]。

        內(nèi)部一致性信度是指試卷內(nèi)部(試題之間)的一致性程度,通??捎梅职胄哦然蛲|(zhì)性信度表示:①分半信度,將每個(gè)考生的試卷按試題分成兩部分(兩個(gè)復(fù)本),然后用每個(gè)考生在兩個(gè)副本上的得分求出整個(gè)試卷的信度。分半信度的估計(jì)可采用Spearman-Brown公式矯正法、Rulon公式估計(jì)法、Flanagan公式估計(jì)法等;②同質(zhì)性信度,是指試卷內(nèi)各個(gè)試題間的一致性程度,即所有試題都測(cè)量同一種心理特質(zhì),各是體檢具有較高的相關(guān)性。對(duì)同質(zhì)性信度進(jìn)行估計(jì)時(shí),0-1計(jì)分的測(cè)驗(yàn)可采用K-R20、K-R21公式等;非0-1計(jì)分的測(cè)驗(yàn)可采用Cronbachα系數(shù)[1]。

        3.5 基于跟外部變量關(guān)系的證據(jù)

        測(cè)驗(yàn)的外部變量可能包括測(cè)驗(yàn)期望去預(yù)測(cè)的某些標(biāo)準(zhǔn)的測(cè)量、其他假設(shè)測(cè)量相同結(jié)構(gòu)的測(cè)驗(yàn),以及測(cè)量相關(guān)的或不同的結(jié)構(gòu)的測(cè)驗(yàn)結(jié)果?;诟獠孔兞筷P(guān)系的證據(jù)收集方法包括:求同與求異的方法(如多重特質(zhì)多重方法矩陣設(shè)計(jì))、測(cè)驗(yàn)—效標(biāo)關(guān)系(包括預(yù)測(cè)性效標(biāo)與同時(shí)性效標(biāo))、效度的概化(效度在新測(cè)驗(yàn)情境中的推廣—交叉效度驗(yàn)證)[14]。外部變量的確定與選擇,是收集測(cè)驗(yàn)分?jǐn)?shù)與外部變量關(guān)系的證據(jù)時(shí)需要解決的首要問題。

        在自學(xué)考試的效度驗(yàn)證中,測(cè)驗(yàn)—效標(biāo)關(guān)系方面的證據(jù)收集相對(duì)其他方法而言更具可操作性。效標(biāo)就是確能顯示或反映所欲測(cè)量的屬性的變量,是考查測(cè)驗(yàn)效度的一個(gè)參照標(biāo)準(zhǔn)。通常用公認(rèn)的比較客觀的一次同類標(biāo)準(zhǔn)考試成績(jī)來(lái)表示,可以是目前已經(jīng)存在的效標(biāo)分?jǐn)?shù),也可是未來(lái)將要獲得的效標(biāo)分?jǐn)?shù)[1]。對(duì)于某專業(yè)課程考試而言,可將普通高校同學(xué)歷層次、同專業(yè)、同課程的考試分?jǐn)?shù)作為效標(biāo)分?jǐn)?shù)[10],或嘗試將同專業(yè)中相近課程的考試分?jǐn)?shù)作為效標(biāo)分?jǐn)?shù),計(jì)算本次考試分?jǐn)?shù)與效標(biāo)分?jǐn)?shù)的相關(guān)系數(shù),相關(guān)程度越高則表明證據(jù)的效力越強(qiáng)。然而如何尋找更為科學(xué)、有效的效標(biāo)分?jǐn)?shù),仍是使用測(cè)驗(yàn)—效標(biāo)關(guān)系證據(jù)的難點(diǎn)與關(guān)鍵。

        3.6 基于測(cè)驗(yàn)后果的證據(jù)

        測(cè)驗(yàn)后果指試卷的實(shí)測(cè)數(shù)據(jù)結(jié)果、分?jǐn)?shù)的解釋和使用及其所帶來(lái)社會(huì)后果等,用于評(píng)價(jià)分?jǐn)?shù)解釋和使用結(jié)果[3]。測(cè)驗(yàn)后果的證據(jù)可以從考試的區(qū)分效度、反撥作用、對(duì)社會(huì)的影響等方面進(jìn)行收集[11]。對(duì)于自學(xué)考試而言,目前國(guó)內(nèi)某些地區(qū)的自學(xué)考試已經(jīng)具備成熟的網(wǎng)上閱卷技術(shù),成績(jī)管理數(shù)據(jù)庫(kù)中能夠存儲(chǔ)考生每個(gè)試題的作答信息,為試卷分析提供豐富的數(shù)據(jù)。自學(xué)考試作為標(biāo)準(zhǔn)參照測(cè)驗(yàn),其要求試題在及格線(60分)附近具有最大區(qū)分功能,能夠有效鑒別達(dá)標(biāo)考生與未達(dá)標(biāo)考生,因此可以借鑒“率差”作為評(píng)價(jià)指標(biāo)[15],即考查試題的局部區(qū)分功能,檢驗(yàn)試題是否在及格線附近(如45~60分與60~75分分?jǐn)?shù)段)對(duì)考生進(jìn)行了有效區(qū)分。另外,還可分析造成考生分?jǐn)?shù)差異的原因是否真正與測(cè)量目的有關(guān)(考生評(píng)價(jià)結(jié)果的不同是否是由于測(cè)量目標(biāo)所要求的特質(zhì)水平差異所造成)、合格考生是否在實(shí)踐中表現(xiàn)出應(yīng)有的能力水平等。

        效度整體觀認(rèn)為,效度證據(jù)的收集是一個(gè)獨(dú)立于測(cè)驗(yàn)編制與使用的調(diào)查研究過(guò)程,貫穿于整個(gè)測(cè)驗(yàn)的各個(gè)環(huán)節(jié)?;谛Ф茸C據(jù)作出自學(xué)考試的效度驗(yàn)證結(jié)論時(shí),應(yīng)注意效度是一個(gè)相對(duì)概念,是一個(gè)“程度問題”[6],效度驗(yàn)證結(jié)論是效度的“高”或“低”,而并非“有效度”或“無(wú)效度”。另外,理想的效度證據(jù)應(yīng)能充分支持效度觀點(diǎn),但如果收集的證據(jù)不能有效地支持效驗(yàn)觀點(diǎn),則需要基于效度證據(jù)對(duì)試題進(jìn)行調(diào)整,直到所有效驗(yàn)觀點(diǎn)得到支持或者最終放棄難以論證的效驗(yàn)觀點(diǎn)。

        4 小結(jié)

        隨著效度理論的發(fā)展,自學(xué)考試的效度概念有了新的內(nèi)涵并形成了基于多層面證據(jù)的效驗(yàn)方法。效度不再是測(cè)量工具本身的屬性,而是收集的證據(jù)對(duì)測(cè)驗(yàn)分?jǐn)?shù)的解釋、推論和決策的支持程度。效度整體觀為自學(xué)考試的效度驗(yàn)證提供了一個(gè)理論框架,依據(jù)自學(xué)考試的目的及考試管理各環(huán)節(jié)的分析,采用多側(cè)面的效度證據(jù)進(jìn)行效度驗(yàn)證是可行的。對(duì)效度概念與效驗(yàn)方法的再認(rèn)識(shí),有助于考試管理機(jī)構(gòu)從一個(gè)更為寬闊、全面的角度去認(rèn)識(shí)自學(xué)考試的效力和實(shí)質(zhì),明確自學(xué)考試能夠測(cè)量的以及不能測(cè)量的方面,不斷改進(jìn)自學(xué)考試的命題管理程序,更好地指導(dǎo)自學(xué)考試的試題編制和分?jǐn)?shù)的使用。

        效度證據(jù)涉及整個(gè)考試過(guò)程的各個(gè)環(huán)節(jié),考試管理機(jī)構(gòu)應(yīng)重視效度研究對(duì)于自學(xué)考試科學(xué)性的重要意義,并積極將效度理論用于指導(dǎo)命題管理實(shí)踐。結(jié)合自學(xué)考試的自身屬性,研究者可從試題編寫、試題審核校對(duì)、試卷評(píng)分、分?jǐn)?shù)解釋和使用等環(huán)節(jié)收集不同側(cè)面的效度證據(jù),以充分表明自學(xué)考試分?jǐn)?shù)解釋和使用的恰當(dāng)性。效度驗(yàn)證是一個(gè)動(dòng)態(tài)過(guò)程,不存在永遠(yuǎn)具備高效度的考試[6],即使證據(jù)表明某次課程考試的效度較高,但隨著自學(xué)考試的發(fā)展,效度研究仍要持續(xù)進(jìn)行。當(dāng)前自學(xué)考試的效度研究正處于探索階段,仍存在諸多問題有待解決,如具體課程考試效度證據(jù)框架的設(shè)定、效度證據(jù)標(biāo)準(zhǔn)的確定、證據(jù)收集方法的可操作化、證據(jù)資料的量化處理等問題,需要未來(lái)研究者的深入探討。

        [1]王孝玲.教育測(cè)量[M].上海:華東師范大學(xué)出版社,2005:23-85.

        [2]American Educational Research Association,American Psychological Association&National Council on Measurement in Education.Standards for educational and psychological testing[M].Washington,DC:American Educational Research Association,1999:1-174.

        [3]孫曉敏,張厚粲.效度概念演進(jìn)及其新發(fā)展[J].心理科學(xué),2004,27(1):234-235.

        [4]Messick S.Validity of psychological assessment[J].Psychologist,1995(9):941-945.

        [5]Messick S.Validity.In R.Linn(Ed.).Educational measurement(3rd ed.)[C].New York:Macmillan,1989:13-103.

        [6]關(guān)丹丹,車宏生.現(xiàn)代效度理論與效驗(yàn)方法述評(píng)[J].心理科學(xué),2010,33(3):654-656.

        [7]余仁勝.自學(xué)考試命題中及格線的校準(zhǔn)方法[J].中國(guó)考試(研究版),2005(6):37-39.

        [8]Kane M.T.Concerns in validity theory[J].Journal of Educational Measurement,2001,38(4):319-342.

        [9]Bachman L.F.Statistical Analysis for Language Assessment[M].Cambridge:Cambridge University Press,2004:258.

        [10]盧正勇.高等教育自學(xué)考試的課程考試效度研究[J].教育與考試,2007(1):17-20.

        [11]Weir C.J.Language Testing and Validation[M].Palgrave:Macmillan.2005:43-215.

        [12]康春花,曾平飛,田偉.貫穿測(cè)驗(yàn)過(guò)程的公平分析思路[J].教育測(cè)量與評(píng)價(jià)(理論版),2010(7):4-7.

        [13]雷新勇.大規(guī)模教育考試:命題與評(píng)價(jià)[M].上海:華東師范大學(xué)出版社,2006:281-303.

        [14]漆書青.現(xiàn)代測(cè)量理論在考試中的應(yīng)用[M].武漢:華中師范大學(xué)出版社,2003:405-442.

        [15]趙海燕,臧鐵軍.率差標(biāo)準(zhǔn)的確定和難度常模的建立——對(duì)2004~2009年高考北京卷的實(shí)證研究[J].中國(guó)考試,2010(3):3-15.

        (責(zé)任編輯 周黎明)

        Validity and Its Evidence in Self-taught Examination

        TIAN Lin,WEI Xiaoman and WANG Qiaoying

        Validity,as a key indicator of test’s scientific nature,reflects the effectiveness of test function and validation has become a significant step of test construction,which in turn supports score explanation and test appliance.This article has briefly introduced development of validity concept and validation approach,tried to bring unified conception of validity into self-taught examination and preliminarily discussed its validation approach and sources of validity evidence.The author proposes that self-taught examination should collect validity evidences systematically,which includes test content,students’cognitive process,test internal construct,test scoring,correlation with external variables as well as test consequence.

        Self-taught Examination;Validity;Validation;Validity Evidence

        G405

        A

        1005-8427(2014)06-0018-6

        田 霖,男,北京教育考試院,助理研究員,博士(北京 100083)

        韋小滿,女,北京師范大學(xué)教育學(xué)部,教授(北京 100875)

        王橋影,男,北京教育考試院,副研究員(北京 100083)

        猜你喜歡
        效度測(cè)驗(yàn)自學(xué)
        基于先學(xué)后教 培養(yǎng)自學(xué)力
        教學(xué)與自學(xué)
        對(duì)“自學(xué)·議論·引導(dǎo)”教學(xué)法的認(rèn)識(shí)和思考
        甘肅教育(2020年2期)2020-09-11 08:00:46
        沈尹默:如何自學(xué)書法,才能少走彎路?
        慈善募捐規(guī)制中的國(guó)家與社會(huì):兼論《慈善法》的效度和限度
        《新年大測(cè)驗(yàn)》大揭榜
        兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
        考試周刊(2016年88期)2016-11-24 13:30:50
        被看重感指數(shù)在中國(guó)大學(xué)生中的構(gòu)念效度
        外語(yǔ)形成性評(píng)估的效度驗(yàn)證框架
        你知道嗎?
        精品日韩av专区一区二区| 94久久国产乱子伦精品免费| 国产农村妇女高潮大叫| 影视先锋av资源噜噜| 国产做无码视频在线观看浪潮| 8090成人午夜精品无码| 激情一区二区三区视频| 日本一区二区高清在线观看| 国产日产韩国级片网站| 最新国产熟女资源自拍| 亚洲中文字幕无码一久久区| 国产精品第一二三区久久蜜芽 | 无码字幕av一区二区三区 | 久久精品欧美日韩精品| 欧美一级欧美一级在线播放| 久久男人av资源网站无码| 国产午夜精品久久久久99| 毛片av中文字幕一区二区| 男女啪啪视频高清视频| 国产亚洲欧美精品久久久| 一本之道高清无码视频| 521色香蕉网站在线观看| 久久精品视频按摩| 日韩产的人妻av在线网| 亚洲av无一区二区三区| 性高湖久久久久久久久| 亚洲 都市 校园 激情 另类| 无码伊人66久久大杳蕉网站谷歌 | 无码人妻精品丰满熟妇区| 97超级碰碰人妻中文字幕| 国产一级淫片免费大片| 国产精品一区二区午夜久久 | 国产av无码专区亚洲av琪琪| 国产成人精品午夜福利免费APP| 无码人妻少妇久久中文字幕| 日本一区二区三区综合视频| 日日碰狠狠添天天爽超碰97久久 | 日韩av在线毛片| 亚洲精品国产av成拍色拍| 永久免费毛片在线播放| 午夜无码国产理论在线|