王天劍
(貴州財(cái)經(jīng)大學(xué)外國(guó)語(yǔ)學(xué)院 貴州貴陽(yáng) 550004)
概化理論在中小學(xué)英語(yǔ)測(cè)試研究中的應(yīng)用
王天劍
(貴州財(cái)經(jīng)大學(xué)外國(guó)語(yǔ)學(xué)院 貴州貴陽(yáng) 550004)
概化理論是將方差分析與傳統(tǒng)的真分?jǐn)?shù)理論整合發(fā)展而來(lái)的可靠度(信度)理論,它是現(xiàn)代教育和心理測(cè)量的重要理論之一。為幫助研究者掌握概化理論在中小學(xué)英語(yǔ)測(cè)試研究中的應(yīng)用方法,文章討論了概化分析中的基本概念,并以一套英語(yǔ)演講能力評(píng)定程序可靠度研究為例,介紹了利用軟件EduG進(jìn)行概化分析的基本步驟。
概化理論;測(cè)試;研究
概化理論是關(guān)于行為測(cè)量可靠度的理論 (Shavelson& Webb,1991)[1](P1)。它是在經(jīng)典測(cè)量理論(Classical TestTheory, CTT)與方差分析理論(ANOVA)基礎(chǔ)上,經(jīng)不同專家逐步發(fā)展而來(lái)的現(xiàn)代測(cè)量理論(Cronbach etal,1963[2](P137-163);Cardinet etal,2010(pix))。根據(jù)經(jīng)典測(cè)量理論,觀測(cè)分?jǐn)?shù)(X)是真分?jǐn)?shù)(T)與隨機(jī)誤差(E)之和(X=T+E)。真分?jǐn)?shù)是對(duì)象某種特質(zhì)的真實(shí)值,隨機(jī)誤差是測(cè)量過(guò)程中產(chǎn)生的所有偏差。哪些因素導(dǎo)致了隨機(jī)誤差?為回答這一問(wèn)題,概化理論吸收了方差分析的思想,將隨機(jī)誤差進(jìn)一步區(qū)分為不同來(lái)源的誤差,估算各自所占比重,并計(jì)算可靠度系數(shù)(與經(jīng)典測(cè)量的信度系數(shù)可以類比的參數(shù)),反應(yīng)測(cè)量的精確度。使用概化理論,我們不僅可以評(píng)價(jià)既有測(cè)量程序的優(yōu)劣,也可以探索測(cè)量?jī)?yōu)化的方案。正因其重要應(yīng)用價(jià)值,概化理論在國(guó)外教育與心理測(cè)量中受到高度重視。美國(guó)教育研究協(xié)會(huì)、心理學(xué)協(xié)會(huì)和國(guó)家教育測(cè)量委員會(huì)聯(lián)合提出的《教育和心理測(cè)量標(biāo)準(zhǔn)》(Standards for Education and PsychologyTesting,AERA,1999)明確提出,在建立觀察和測(cè)量程序的信度與效度時(shí),需參照概化理論(GeneralizabilityTheory,GT)[3](P34)。
學(xué)校的各種測(cè)驗(yàn)、測(cè)試、考試(本文統(tǒng)稱“測(cè)試”)均屬于教育或心理測(cè)量。近年來(lái),國(guó)內(nèi)已有學(xué)者開(kāi)始利用概化理論理論研究英語(yǔ)測(cè)試。如,徐鷹等(2015)[4](P89-95)利用概化理論,分析了廣東省高考英語(yǔ)聽(tīng)說(shuō)模擬測(cè)試程序;孫海洋等(2011)[5](P61-65)對(duì)職前中學(xué)英語(yǔ)教師的口語(yǔ)測(cè)試進(jìn)行了概化和多元化分析;張英莉等(2014)[6](P4-8)應(yīng)用概化理論,對(duì)初中學(xué)生英語(yǔ)口試評(píng)分標(biāo)準(zhǔn)及評(píng)分者信度等進(jìn)行了分析。這些研究披露了英語(yǔ)測(cè)試程序中存在的種種缺陷,對(duì)于優(yōu)化測(cè)試方案具有重要參考價(jià)值。
測(cè)試貫穿中小學(xué)英語(yǔ)教學(xué)的始末。從安置性測(cè)試、平時(shí)測(cè)試、期末測(cè)試,到各種升學(xué)測(cè)試、競(jìng)賽測(cè)試等,無(wú)不需要具有較高信度和效度的測(cè)試程序。利用概化理論對(duì)有關(guān)數(shù)據(jù)進(jìn)行分析,對(duì)于提高測(cè)試質(zhì)量具有重要意義。鑒于國(guó)內(nèi)關(guān)于概化理論應(yīng)用的文獻(xiàn)尚不多見(jiàn),本文在介紹概化分析基本概念基礎(chǔ)上,結(jié)合實(shí)例,簡(jiǎn)要描述利用工具軟件EduG進(jìn)行概化分析的方法。
(一)側(cè)面。側(cè)面是測(cè)量的對(duì)象以及構(gòu)成測(cè)量條件的因素(相當(dāng)于方差分析中的自變量)。例如,測(cè)試時(shí)間、測(cè)試地點(diǎn)、測(cè)試方式、測(cè)試題目、受試者(或其某種特征)、評(píng)分員(或其某種特征)等均可視為側(cè)面,只要研究者對(duì)這些因素的影響感興趣。諸因素中,測(cè)量對(duì)象被稱作區(qū)別側(cè)面,構(gòu)成測(cè)量條件的因素被稱作工具側(cè)面。
(二)觀察設(shè)計(jì)。在測(cè)量中,側(cè)面之間就會(huì)形成不同的結(jié)構(gòu)關(guān)系:
1.交叉關(guān)系,即每一個(gè)側(cè)面的每個(gè)水平均與其他側(cè)面的每個(gè)水平存在結(jié)合。例如,測(cè)試中涉及10個(gè)學(xué)生(S)和2個(gè)評(píng)分員(R)兩個(gè)側(cè)面,每個(gè)學(xué)生需要接受每個(gè)評(píng)分員評(píng)分,即S和R的各個(gè)水平均有接觸,側(cè)面之間構(gòu)成交叉關(guān)系,表示為S×R,或者SR。其結(jié)果是,可以產(chǎn)生10×2=20個(gè)數(shù)據(jù)。
2.套嵌關(guān)系,即一個(gè)側(cè)面的不同水平與且僅與另一個(gè)側(cè)面的一個(gè)水平結(jié)合。例如,上述測(cè)試中,5個(gè)學(xué)生由評(píng)分員A評(píng)分,另外5個(gè)由評(píng)分員B評(píng)分,這時(shí)S的五個(gè)水平與R的一個(gè)水平接觸,另外五個(gè)水平與R的另一水平接觸,側(cè)面之間構(gòu)成套嵌關(guān)系,稱作S套嵌于R,表示為S:R。其結(jié)果是,可以產(chǎn)生10個(gè)數(shù)據(jù)。
如果有三個(gè)或者三個(gè)以上的側(cè)面作為測(cè)量條件,其間會(huì)形成更為復(fù)雜的關(guān)系。如對(duì)于A、B和C三個(gè)側(cè)面,可以構(gòu)成ABC(三個(gè)側(cè)面完全交叉),A:BC(BC交叉,A套嵌于BC),AB: C(AB為交叉,AB套嵌于C),或者A:B:C(A套嵌于B,而B(niǎo)進(jìn)一步套嵌于C)等。
上述側(cè)面之間的交叉或者套嵌關(guān)系,統(tǒng)稱為觀察設(shè)計(jì),反映的是數(shù)據(jù)的結(jié)構(gòu)關(guān)系。
(三)估計(jì)設(shè)計(jì)。估計(jì)設(shè)計(jì)需要回答的問(wèn)題是:各個(gè)側(cè)面是以多少個(gè)水平估計(jì)多大的全域(以多大的樣本量估計(jì)多大的總體)?我們需要完成的操作任務(wù)是,確定測(cè)量涉及的每一個(gè)側(cè)面分屬于以下哪種類型:
1.固定側(cè)面,即全域各個(gè)水平全部出現(xiàn)在研究中的側(cè)面。自然的固定側(cè)面很少,但研究者可以將一個(gè)側(cè)面的某些水平人為地定義為全域,并將其全部容納于研究中。例如,在一次測(cè)試中,某校將其僅有的5位高級(jí)英語(yǔ)教師作為一個(gè)評(píng)分員全域,并使其全部參加某次試卷的評(píng)閱,則評(píng)分員就是一個(gè)固定側(cè)面(側(cè)面水平=全域水平=5)。
2.有限隨機(jī)側(cè)面,即出現(xiàn)于研究中的水平是從有限全域中隨機(jī)抽取的側(cè)面。例如,某校將其僅有的5位高級(jí)英語(yǔ)教師作為一個(gè)評(píng)分員全域,某次試卷評(píng)閱中隨機(jī)抽取2名作為評(píng)分員,則評(píng)分員就是一個(gè)有限隨機(jī)側(cè)面(側(cè)面水平=2,全域水平=5)。
3.無(wú)限隨機(jī)側(cè)面,即出現(xiàn)于研究中的水平是從被視為無(wú)限大的全域中隨機(jī)抽取的側(cè)面。例如,英語(yǔ)教師可被視為一個(gè)無(wú)限大的全域,某次試卷評(píng)閱中隨機(jī)抽取5名作為評(píng)分員,則評(píng)分員就是一個(gè)無(wú)限隨機(jī)側(cè)面(側(cè)面水平=5,全域水平=Infinite)。
基于不同的抽樣方式獲得的研究結(jié)果,在適用范圍(概化)方面不同。例如,當(dāng)評(píng)分員是一個(gè)固定側(cè)面時(shí),研究結(jié)果在概化時(shí),僅適用于同樣的評(píng)分員參與的測(cè)量;當(dāng)評(píng)分員是隨機(jī)側(cè)面時(shí),結(jié)果可以概化到隨機(jī)抽樣的全域中。側(cè)面的隨機(jī)性或固定性隨研究目的而定,研究者可以根據(jù)研究興趣進(jìn)行雙向修改(將固定側(cè)面更改為隨機(jī)側(cè)面,或?qū)㈦S機(jī)側(cè)面更改為固定側(cè)面)。一個(gè)研究程序中可以同時(shí)容納固定側(cè)面與隨機(jī)側(cè)面(這樣的模型叫做混合模型)。
(四)測(cè)量設(shè)計(jì)。測(cè)量設(shè)計(jì)部分的任務(wù)是:確定哪些側(cè)面是區(qū)別側(cè)面,哪些是工具側(cè)面;確定測(cè)量是相對(duì)的,還是絕對(duì)的。
1.確定區(qū)別側(cè)面與工具側(cè)面。區(qū)別側(cè)面是研究的焦點(diǎn)或者研究對(duì)象。工具側(cè)面是完成測(cè)量需要依賴的各種條件因素。在教育研究中,一般情況下學(xué)生是區(qū)別側(cè)面,因?yàn)槲覀儍A向于關(guān)注學(xué)生的成績(jī)數(shù)據(jù)是否可靠。其他因素大多視為工具側(cè)面,它們是為測(cè)量學(xué)生服務(wù)的。但是我們可以將區(qū)別側(cè)面和工具側(cè)面換位使用。例如,在一個(gè)由學(xué)生(S)、試題(T)和評(píng)分者(R)組成的交叉設(shè)計(jì)(STR)中,如果旨在考查學(xué)生的得分是否可靠,則學(xué)生為區(qū)別側(cè)面,其他因素為工具側(cè)面(表示為S/TR);如果旨在檢查不同試題項(xiàng)目得分高低的穩(wěn)定性,則試題變成區(qū)別側(cè)面,學(xué)生和評(píng)分員變成工具側(cè)面(T/SR);如果旨在檢查不同評(píng)分員給分差別的穩(wěn)定性,則評(píng)分員為區(qū)別側(cè)面,學(xué)生和試題變成工具側(cè)面(R/ST)。
2.確定測(cè)量是相對(duì)的還是絕對(duì)的。為了將個(gè)人(或研究目標(biāo))排名進(jìn)行的測(cè)量叫做相對(duì)測(cè)量。例如競(jìng)賽、拔尖、擇優(yōu)之類的測(cè)試均為相對(duì)測(cè)量,因?yàn)槲覀兊哪康氖潜容^高低,鑒別優(yōu)差。為了了解個(gè)人(或研究目標(biāo))分?jǐn)?shù)水平的測(cè)量叫做絕對(duì)測(cè)量。例如,目標(biāo)測(cè)試、掌握性測(cè)試、學(xué)期測(cè)試、過(guò)級(jí)測(cè)試、畢業(yè)測(cè)試一般均作為絕對(duì)測(cè)量,因?yàn)槲覀儍A向于關(guān)注個(gè)人成績(jī)是否達(dá)到某一合格線。絕對(duì)測(cè)量是一種更加精確的測(cè)量,不僅能區(qū)別名次,而且能鑒定個(gè)人分值是否達(dá)到合格線。概化分析中,相對(duì)測(cè)量和絕對(duì)測(cè)量的可靠度是依據(jù)不同的參數(shù)衡量的。
借助軟件進(jìn)行概化研究非常簡(jiǎn)便?,F(xiàn)以一套英語(yǔ)演講能力評(píng)定程序的導(dǎo)航研究為例,展示利用EduG進(jìn)行概化分析的方法。
(一)問(wèn)題描述。為了確定一套英語(yǔ)演講能力評(píng)定程序的可靠度,某學(xué)校進(jìn)行了一個(gè)導(dǎo)航研究:隨機(jī)抽取10名初三學(xué)生作為被試,2名英語(yǔ)教師為評(píng)委,要求評(píng)委從語(yǔ)音、語(yǔ)法、詞匯、內(nèi)容四方面(能力維度),對(duì)被試的演講進(jìn)行評(píng)價(jià)。每個(gè)維度均需在一個(gè)三級(jí)量表上打分:“差”記1分,“中”記2分,“優(yōu)”記3分。由于兩個(gè)評(píng)分員都要對(duì)四個(gè)維度進(jìn)行打分,每個(gè)被試可以產(chǎn)生8個(gè)原始分?jǐn)?shù),最后需要以8個(gè)分?jǐn)?shù)的平均值作為每個(gè)被試的綜合成績(jī),并根據(jù)綜合成績(jī)將所有被試排名。表1是某個(gè)被試的得分樣例:
表1 被試不同能力維度得分樣例(平均2.375)
10名被試在各維度上的原始分?jǐn)?shù)共計(jì)80個(gè)。試根據(jù)這些數(shù)據(jù),利用概化理論分析該評(píng)分程序的可靠度。
(二)問(wèn)題分析。
1.觀察設(shè)計(jì)。本例共有三個(gè)側(cè)面:學(xué)生(10個(gè)水平),評(píng)分員(2個(gè)水平),能力維度(4個(gè)水平)。因每個(gè)評(píng)分員均要對(duì)每個(gè)學(xué)生在每個(gè)維度上評(píng)分,三個(gè)側(cè)面的各個(gè)水平均有接觸,所以這是一個(gè)完全交叉設(shè)計(jì):學(xué)生(S)評(píng)分員(R)能力維度(Q),或者SRQ。
2.估計(jì)設(shè)計(jì)。本例的被試學(xué)生和評(píng)分員是通過(guò)隨機(jī)程序抽取的,其全域可視為無(wú)限,這兩個(gè)側(cè)面均為為無(wú)限隨機(jī)側(cè)面。能力維度不是隨機(jī)抽取的,而是特意確定的,所以為固定側(cè)面,其全域水平為4。
3.測(cè)量設(shè)計(jì)。本例著重考查評(píng)定程序?qū)W(xué)生演講能力測(cè)量的可靠性,因此學(xué)生是區(qū)別側(cè)面(即研究對(duì)象),評(píng)分員和能力維度則構(gòu)成工具側(cè)面(測(cè)評(píng)的條件因素),這種關(guān)系可以表示為S/QR。由于演講比賽評(píng)分的目的是排名,測(cè)量是相對(duì)的。
(三)輸入程序指令。為了利用EduG軟件進(jìn)行概化分析,需打開(kāi)軟件,并在界面中按如下方式填寫(xiě)指令(見(jiàn)圖1)。
圖1 概化分析指令界面
完成如上指令的具體步驟包括:
1.確定文件名稱與保存位置。運(yùn)行軟件,依次點(diǎn)擊File 和New,在彈出的界面中填寫(xiě)文件的存儲(chǔ)名稱和位置(本例名稱取“example1”,保存位置為F盤(pán))。
2.打開(kāi)文件,在界面中填寫(xiě)相關(guān)指令。
●在Title后填寫(xiě)文件的標(biāo)題(這是分析報(bào)告中使用的標(biāo)題,本例用Procedureforrankingspeakingability);
●在Numberoffacets后選3,表示分析涉及三個(gè)側(cè)面;
●在Observation and estimation designs之下填寫(xiě)各側(cè)面的英文名稱(Student,Rater,Quality),名稱的字母代碼(S,R,Q,代表三個(gè)側(cè)面處于完全交叉關(guān)系)。填寫(xiě)各側(cè)面的水平(10,2, 4),各側(cè)面的全域容量(本例中學(xué)生和評(píng)分員來(lái)自無(wú)限全域,表示為INF;能力維度全域水平為4);
●在Measurementdesign后填寫(xiě)測(cè)量設(shè)計(jì)代碼(S/RQ,表示學(xué)生是區(qū)別側(cè)面,評(píng)分員和能力維度是構(gòu)成測(cè)評(píng)條件的工具側(cè)面);
●在Reports下勾選RTF(表示輸出的結(jié)果以Word表格形式呈現(xiàn));
●其他選項(xiàng)保持默認(rèn)值。
●插入數(shù)據(jù)。點(diǎn)擊Insertdata,選擇scores,即彈出數(shù)據(jù)錄入界面(見(jiàn)圖2)。第一列表示的是學(xué)生序號(hào),第二列是評(píng)分員序號(hào),第三列是能力維度序號(hào)。前三列是軟件根據(jù)觀察設(shè)計(jì)自動(dòng)生成的,第四列是需要我們錄入數(shù)據(jù)的位置。一個(gè)學(xué)生要受兩個(gè)評(píng)分員在四個(gè)維度評(píng)價(jià),故有8個(gè)原始數(shù)據(jù),10個(gè)被試的原始數(shù)據(jù)共計(jì)80個(gè),可以依次錄入表中。
圖2 數(shù)據(jù)錄入界面
(四)查看結(jié)果。錄入如上程序指令和數(shù)據(jù)后,點(diǎn)擊Compute,即可查看結(jié)果,主要包括如下部分。
1.哪些因素對(duì)學(xué)生的分?jǐn)?shù)變化有較大影響?
表2 方差分析表
表2是輸出的方差分析結(jié)果。各列依次表示對(duì)被試得分具有潛在影響的因素(側(cè)面及其交互)、平方和、自由度、均方、隨機(jī)效果模型方差成分、混合效果模型方差成分、Whimbey’s矯正的方差成分、各矯正成分的百分比及各隨機(jī)效果模型方差成分的標(biāo)準(zhǔn)誤。跟據(jù)表2第一列和第八列可知,有三個(gè)因素對(duì)被試得分影響分量較重:
SRQ(學(xué)生、評(píng)分員和能力維度的交互作用):51.7%
SR(學(xué)生和評(píng)分員的交互作用):28.8%
S(學(xué)生):16.1%
交互作用意味著,兩個(gè)評(píng)分員對(duì)不同學(xué)生的打分(SQ交互作用),以及兩個(gè)評(píng)分員對(duì)不同學(xué)生在不同能力維度上的打分(SQR交互作用)分歧較大。學(xué)生作為研究目標(biāo),對(duì)分?jǐn)?shù)的影響僅有16.1%,沒(méi)有的達(dá)到足夠的分量。
2.研究結(jié)果是否可靠?在概化中,測(cè)量誤差源于那些側(cè)面?表3呈現(xiàn)的是概化研究表(G-StudyTable)。其中第一列是研究對(duì)象,即區(qū)別側(cè)面(本例是指學(xué)生),第二列是區(qū)別側(cè)面的方差(相當(dāng)于經(jīng)典測(cè)量中真分?jǐn)?shù)解釋的變異,這里可理解為“學(xué)生的能力可以解釋的得分變異”),第三列是潛在的誤差來(lái)源(注意:由于能力維度Q為固定側(cè)面,不存在隨機(jī)抽樣誤差,故該側(cè)面及其交互作用對(duì)測(cè)量誤差的影響為零),第四、五列為相對(duì)誤差方差及其百分比,第六、七列為絕對(duì)誤差方差及其百分比。各列數(shù)據(jù)是進(jìn)一步計(jì)算可靠度系數(shù)的依據(jù)。
由于本例屬于相對(duì)測(cè)量,需要根據(jù)相對(duì)概化系數(shù)(Coef_Grelative),以及相對(duì)誤差方差判斷測(cè)量的可靠度與誤差根源。Coef_Grelative=0.53<0.80,即相對(duì)概化系數(shù)沒(méi)有達(dá)到0.80這一慣用的臨界值,表明測(cè)量可靠度不夠理想。這里的0.53也意味著,在概化中,“真分?jǐn)?shù)”能夠解釋的變異占53%,誤差能夠解釋的變異占47%。哪些因素導(dǎo)致了概化中的測(cè)量誤差?是SR,雖然其方差為0.07569,但因它是唯一的誤差源,故解釋全部誤差(100%)。
表3 概化研究表
(五)優(yōu)化設(shè)計(jì)方案。概化研究的特殊價(jià)值在于,它不僅能發(fā)現(xiàn)問(wèn)題,而且能提供解決問(wèn)題的方案。如何提高研究結(jié)果的可靠度?一般而言,可以通過(guò)增加隨機(jī)工具側(cè)面的抽樣水平,或者剔除固定工具側(cè)面中的不適宜水平,來(lái)達(dá)到提高測(cè)量結(jié)果可靠度的目的。
1.剔除固定工具側(cè)面中的不適宜水平。剔除固定工具側(cè)面中之不適宜水平的理論依據(jù)是,固定工具側(cè)面中的某些水平缺乏效度,會(huì)增加測(cè)量誤差。本例中能力(Q)為固定工具側(cè)面,其四個(gè)水平依次為語(yǔ)音、語(yǔ)法、詞匯和內(nèi)容。利用EduG中的G-Facetsanalysis,便可探明本側(cè)面哪一水平刪除后能夠提升相對(duì)概化系數(shù)。步驟為:
(1)勾選G-Facetsanalysis(G側(cè)面分析);
(2)在彈出對(duì)話框內(nèi)勾選Q并點(diǎn)擊OK;
(3)點(diǎn)擊Compute并觀察輸出結(jié)果。
表4G側(cè)面分析結(jié)果
表4呈現(xiàn)的是G側(cè)面分析結(jié)果。表中第三欄是刪除能力側(cè)面某一水平后相對(duì)概化系數(shù)(Coef_Grel.)可以達(dá)到的新高度。顯而易見(jiàn),刪除水平二(Level2,即語(yǔ)法),可以將相對(duì)概化系數(shù)最大幅度提高(達(dá)到0.68725)??梢酝普?,語(yǔ)法作為一個(gè)評(píng)定維度,會(huì)增加學(xué)生與評(píng)分員的交互作用(SR),擴(kuò)大測(cè)量誤差。刪除語(yǔ)法項(xiàng)將有助于優(yōu)化測(cè)量程序,提高結(jié)果的可靠度。
2.增加隨機(jī)工具側(cè)面的抽樣水平。凡是以樣本代表總體的研究,樣本量越大結(jié)果越準(zhǔn)確。這是通過(guò)增加隨機(jī)工具側(cè)面之抽樣水平,以提高測(cè)量結(jié)果的原理。本例評(píng)分員(R)為隨機(jī)工具側(cè)面,借助EduG可以探明,如何在可操作的范圍內(nèi)適當(dāng)增加其水平以獲得可靠測(cè)量結(jié)果。由于剔除能力維度之水平二(語(yǔ)法),可以提高結(jié)果可靠度,在增加評(píng)分員時(shí)可以將剔除能力維度水平二作為并列條件。分析步驟如下:
(1)指定剔除能力維度二為并行條件(在Observationand estimationdesigns中Quality一行最后一個(gè)方框內(nèi)點(diǎn)擊,在彈出對(duì)話框內(nèi)選2,點(diǎn)擊OK。結(jié)果見(jiàn)圖3);
圖3 剔除能力維度二后的觀測(cè)與估計(jì)設(shè)計(jì)界面
(2)改變?cè)u(píng)分員抽樣水平數(shù)(勾選Optimization,在彈出對(duì)話框中輸入如圖4的內(nèi)容,注意在五中優(yōu)化方案中,將R的觀察水平依次更改為3,4,5,6,7,點(diǎn)擊OK);
圖4 優(yōu)化方案界面
(3)點(diǎn)擊Compute觀察輸出結(jié)果。表5是輸出的優(yōu)化方案。表中顯示了不同優(yōu)化方案下的結(jié)果(絕對(duì)概化系數(shù)、誤差方差、測(cè)量標(biāo)準(zhǔn)誤等冗余數(shù)據(jù)略去)。根據(jù)相對(duì)概化系數(shù)的變化可知,評(píng)分員越多,系數(shù)越高。要達(dá)到可接受水平(系數(shù)大于或等于0.80)[7](P117-123),至少需要4位評(píng)分員(即Option2,相對(duì)信度為0.81464)。
表5 優(yōu)化方案分析表
總之,剔除一個(gè)評(píng)分維度(語(yǔ)法),額外增加兩個(gè)評(píng)分員(達(dá)到4個(gè)),便可預(yù)期測(cè)量程序達(dá)到可靠評(píng)價(jià)學(xué)生能力的目的。但是,也有一個(gè)前提條件,在測(cè)量程序的實(shí)際推廣應(yīng)用中,隨機(jī)抽取的評(píng)分員或者受試學(xué)生,必須與導(dǎo)航研究中涉及的人員具有類似性。否則,導(dǎo)航研究結(jié)果便失去推廣的基礎(chǔ)。
概化理論是將方差分析與傳統(tǒng)的真分?jǐn)?shù)理論整合發(fā)展而來(lái)的信度理論。借助概化研究分析,我們不僅能夠了解不同因素對(duì)測(cè)量結(jié)果和測(cè)量準(zhǔn)確度的影響,評(píng)價(jià)測(cè)量程序的信度,判斷結(jié)果的可靠度,也可以找到測(cè)量程序的優(yōu)化方案,進(jìn)而獲得滿意的結(jié)果。本研究借助具體案例,介紹了概化分析軟件EduG的使用方法。由于篇幅有限,只能展示部分基本用法,希望對(duì)中小學(xué)英語(yǔ)教育測(cè)量有益。
[1]ShavelsonRJ,WebbNM.Generalizabilitytheory:Aprimer [M].SagePublications,1991.
[2]Cronbach.L.J,Rajaratnam,N,&Gleser,GC.Theory of generalizability:A liberalization of reliability theory[J].British JournalofMathematicalandStatisticalPsychology,1963(2).
[3]AmericanEducationResearchAssociation(AERA),American Psychological Association (APA),National Council on MeasurementinEducation(NCME).StandardsforEducationand PsychologyTesting[M].WashingtonDC:AmericanPsychological Association,1999.
[4]徐鷹,曾用強(qiáng).基于概化理論和多層面Rasch模型的計(jì)算機(jī)化英語(yǔ)聽(tīng)說(shuō)考試評(píng)分研究[J].電化教育研究,2015(3).
[5]孫海洋,韓寶成.概化理論在口語(yǔ)考試設(shè)計(jì)中的應(yīng)用研究[J].外語(yǔ)教學(xué),2011(11).
[6]張英莉,姚春艷.初中英語(yǔ)口語(yǔ)測(cè)試信度的概化理論應(yīng)用研究[J].教育測(cè)量與評(píng)價(jià)(理論版),2014(2).
[7]靳雪蓮,滕金生,楊德山.網(wǎng)絡(luò)論壇公共事務(wù)討論語(yǔ)言的修辭特征和成因[J].重慶郵電大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2014(5).
[責(zé)任編輯 劉金榮]
H319
A
2095-0438(2017)02-0119-05
2015-10-15
王天劍(1968-),河南南陽(yáng)人,貴州財(cái)經(jīng)大學(xué)教授,博士,碩士生導(dǎo)師,研究方向:應(yīng)用語(yǔ)言學(xué)。
貴州省科學(xué)技術(shù)廳貴州財(cái)經(jīng)大學(xué)軟科學(xué)研究聯(lián)合基金資助項(xiàng)目(黔科合LH字[2014]7262)。