王天劍,彭中梅
(1. 貴州財(cái)經(jīng)大學(xué) 外國(guó)語(yǔ)學(xué)院,貴州 貴陽(yáng) 550004;2. 貴州財(cái)經(jīng)大學(xué) 圖書館,貴州 貴陽(yáng) 550004)
概化理論和EduG在教育測(cè)量研究中的應(yīng)用
——以試題難易度分析為例
王天劍1,彭中梅2
(1. 貴州財(cái)經(jīng)大學(xué) 外國(guó)語(yǔ)學(xué)院,貴州 貴陽(yáng) 550004;2. 貴州財(cái)經(jīng)大學(xué) 圖書館,貴州 貴陽(yáng) 550004)
概化理論是一種重要的現(xiàn)代教育和心理測(cè)量理論。它整合了方差分析與傳統(tǒng)的真分?jǐn)?shù)理論,形成一種新的測(cè)量信度評(píng)價(jià)技術(shù)。為了掌握概化分析技術(shù),討論了概化分析中的基本概念,并以一個(gè)試題難易度測(cè)量程序研究為例,介紹了利用軟件EduG進(jìn)行概化分析的基本程序和方法。
概化理論;EduG;教育測(cè)量
概化理論(Generalizability Theory, GT)是評(píng)價(jià)行為測(cè)量信度(reliability)的理論[1]。它整合了經(jīng)典測(cè)量理論(Classical Test Theory)與方差分析技術(shù)(Analysis of Variance),形成一種現(xiàn)代測(cè)量評(píng)價(jià)理論[2-4]。依據(jù)經(jīng)典測(cè)量理論,觀測(cè)分?jǐn)?shù)是真分?jǐn)?shù)與隨機(jī)誤差之和(X = T + E)。真分?jǐn)?shù)是測(cè)量特質(zhì)的真值,隨機(jī)誤差是測(cè)量中的所有偏差[4]。隨機(jī)誤差源于哪些因素?為探索這一問題,概化理論整合了方差分析的概念,將隨機(jī)誤差區(qū)分為不同的來(lái)源成分,估算各自所占權(quán)重,并計(jì)算信度系數(shù),反映測(cè)量的精準(zhǔn)度[5]?;诟呕治觯芯空卟粌H能評(píng)價(jià)既有測(cè)量程序之優(yōu)劣,也可以探索測(cè)量程序優(yōu)化之方案。概化理論在國(guó)外教育與心理測(cè)量中極受重視。美國(guó)心理學(xué)協(xié)會(huì)、教育研究協(xié)會(huì)和教育測(cè)量委員會(huì)聯(lián)合頒布的《教育和心理測(cè)量標(biāo)準(zhǔn)》(Standards for Education and Psychology Testing,AERA,2002)明確要求,在建立觀察和測(cè)量程序的信度與效度時(shí),需依據(jù)概化理論[6]。根據(jù)對(duì)2000-2014年間8種SSCI期刊的綜述,邱均平等指出,美國(guó)教育評(píng)價(jià)理論研究的三個(gè)熱點(diǎn)中含有概話理論(其余兩個(gè)是項(xiàng)目反應(yīng)理論和經(jīng)典測(cè)量理論)[7]。
學(xué)校的一般測(cè)試都屬于教育測(cè)量范疇。近年來(lái),國(guó)內(nèi)已有學(xué)者開始借助概化理論進(jìn)行相關(guān)研究。徐鷹等使用概化理論,考查了高考英語(yǔ)聽說(shuō)模擬測(cè)試和CET作文評(píng)分程序的信度[8-9];關(guān)丹丹從概化分析視角,研究了閱讀理解測(cè)試的信度[10];基于概話理論,溫紅博等檢查了義務(wù)教育階段學(xué)生識(shí)字量測(cè)試的信度[11]。這些研究披露了測(cè)量程序中存在的各種缺陷,對(duì)于改進(jìn)測(cè)量設(shè)計(jì)具有重要參考價(jià)值。
教育測(cè)量貫穿教學(xué)的始末。從平時(shí)測(cè)試、期末測(cè)試、升學(xué)測(cè)試,到各種競(jìng)賽測(cè)試等,無(wú)不需要采用具有較高信度和效度的測(cè)量程序。利用概化理論對(duì)測(cè)量數(shù)據(jù)進(jìn)行分析,對(duì)于提高測(cè)量信度具有重要意義。鑒于國(guó)內(nèi)關(guān)于概化理論應(yīng)用方法和操作入門的研究尚且有限,本文在描述概化分析基本程序的基礎(chǔ)上,以試題難易度分析為例,簡(jiǎn)要介紹利用工具軟件EduG進(jìn)行概化分析的步驟(EduG系瑞士教育專家Jean Cardinet指導(dǎo)下開發(fā)的概化分析免費(fèi)軟件,可從如下網(wǎng)頁(yè)下載:http://www.irdp.ch/ edumetrie/englishprogram.htm)。
1.1 確定觀察設(shè)計(jì)與估計(jì)設(shè)計(jì)
概化分析涉及的變量(測(cè)量的對(duì)象以及構(gòu)成測(cè)量條件的因素)統(tǒng)稱側(cè)面(facets)。觀察設(shè)計(jì)是指?jìng)?cè)面之間的結(jié)構(gòu)關(guān)系,主要包括交叉關(guān)系、套嵌關(guān)系及其各種組合派生的復(fù)雜關(guān)系。交叉關(guān)系是指每一個(gè)側(cè)面的每個(gè)水平,與其他任一側(cè)面的每個(gè)水平均存在接觸。套嵌關(guān)系是指一個(gè)側(cè)面的不同水平僅與另一個(gè)側(cè)面的一個(gè)水平結(jié)合。當(dāng)有三個(gè)或者更多側(cè)面時(shí),會(huì)存在復(fù)雜的交叉套嵌關(guān)系,如先交叉后套嵌,先套嵌后交叉,或者層層疊加套嵌。例如測(cè)量中的被試為10名學(xué)生(S),評(píng)分者為2名教師(R),這時(shí)學(xué)生和教師就是兩個(gè)側(cè)面,其水平分別為10和2。倘若每個(gè)學(xué)生均需要接受每個(gè)評(píng)分員評(píng)分,即S和R的各個(gè)水平均有結(jié)合,則兩側(cè)面構(gòu)成交叉關(guān)系(表示為S×R,或者SR)。這樣可以產(chǎn)生10 × 2 = 20個(gè)數(shù)據(jù)。倘若5名學(xué)生接受一名評(píng)分員評(píng)分,其余5名學(xué)生接受另外一名評(píng)分員評(píng)分,即S的5個(gè)水平與R的一個(gè)水平結(jié)合,S的其余5個(gè)水平與R的另一水平結(jié)合,這時(shí)兩個(gè)側(cè)面存在套嵌關(guān)系,S套嵌于R之內(nèi)(表示為S:R)。這樣可以產(chǎn)生1× 5 + 1×5 = 10 個(gè)數(shù)據(jù)。如果再介入一個(gè)試題側(cè)面I,則會(huì)存在SRI(三側(cè)面完全交叉),S:RI (RI交叉,S套嵌于RI),SR:I (SR交叉,SR套嵌于I),或者S:R:I (S套嵌于R,R進(jìn)一步套嵌于I) 等復(fù)雜關(guān)系。
估計(jì)設(shè)計(jì)是指規(guī)定各個(gè)側(cè)面是以多少個(gè)水平估計(jì)多大的總體(Universe)。它包括三種類型:(1)側(cè)面總體固定,總體的各個(gè)水平全部出現(xiàn)在研究中;(2)側(cè)面總體固定,以隨機(jī)方式抽取的總體的部分水平出現(xiàn)在研究中;(3)側(cè)面總體無(wú)限大(INFINITE,或者INF),以隨機(jī)方式抽取的總體的部分水平出現(xiàn)在研究中。不同的估計(jì)設(shè)計(jì)研究結(jié)果具有不同的概化程度。第一種類型的研究結(jié)果僅適用于研究中涉及的側(cè)面的特定水平,這類模型叫做固定模型;第二種和第三種類型的研究結(jié)果在理論上可以概化到總體的所有水平中,這兩類統(tǒng)稱隨機(jī)模型。一個(gè)研究程序中可以同時(shí)容納不同類型的設(shè)計(jì)成分,這樣的模型叫做混合模型。
1.2 確定測(cè)量設(shè)計(jì)
測(cè)量設(shè)計(jì)是指確定哪些側(cè)面是區(qū)別側(cè)面(Differentiation Facet),哪些是工具側(cè)面(Instrumentation Facet),測(cè)量性質(zhì)是相對(duì)的,還是絕對(duì)的。區(qū)別側(cè)面是測(cè)量的對(duì)象,工具側(cè)面是構(gòu)成測(cè)量條件的因素。在教育研究中,一般情況下區(qū)別側(cè)面就是學(xué)生,我們傾向于關(guān)注學(xué)生的測(cè)試結(jié)果是否穩(wěn)定可靠。其他因素大多屬于工具側(cè)面,它們是為學(xué)生的測(cè)試服務(wù)的。但是基于研究興趣,我們也完全可以將區(qū)別側(cè)面和工具側(cè)面調(diào)換位置。例如,在一個(gè)由學(xué)生(S)、評(píng)分者(R)和試題(I)組成的交叉設(shè)計(jì)(SRI)中,如果旨在考查學(xué)生的成績(jī)是否可靠,則區(qū)別側(cè)面為學(xué)生,其余因素構(gòu)成工具側(cè)面(表示為S/QR);如果旨在檢查學(xué)生在不同試題上得分高低的穩(wěn)定性,則區(qū)別側(cè)面是試題,評(píng)分員和學(xué)生變成工具側(cè)面(Q/ SR);如果旨在檢查不同評(píng)分員給分差別是否穩(wěn)定,則評(píng)分員成為區(qū)別側(cè)面,學(xué)生和試題構(gòu)成工具側(cè)面(R/SQ)。
為了將學(xué)生(或其他研究對(duì)象)排名進(jìn)行的測(cè)量叫做相對(duì)測(cè)量,為了考查學(xué)生(或其他研究對(duì)象)是否達(dá)到既定標(biāo)準(zhǔn)的測(cè)量叫做絕對(duì)測(cè)量。例如競(jìng)賽、拔尖、擇優(yōu)之類的測(cè)試均為相對(duì)測(cè)量,目標(biāo)測(cè)試、掌握性測(cè)試、過級(jí)測(cè)試、畢業(yè)測(cè)試等一般均視為絕對(duì)測(cè)量。之所以確定測(cè)量的性質(zhì)是相對(duì)的還是絕對(duì)的,目的在于選擇對(duì)應(yīng)的信度系數(shù)計(jì)算方法,并對(duì)結(jié)果做出正確的解釋。
借助軟件進(jìn)行概化研究非常簡(jiǎn)便?,F(xiàn)以一組試題難易度分析為例,展示利用軟件EduG進(jìn)行概化分析的方法。
2.1 問題描述
現(xiàn)有從題庫(kù)中隨機(jī)抽取的10道英語(yǔ)語(yǔ)法題,為了確定其相對(duì)難易度,校方進(jìn)行了一項(xiàng)測(cè)試研究。受試者為80名初三學(xué)生,其中40名隨機(jī)抽自普通班,40名隨機(jī)抽自重點(diǎn)班。為了控制試題的順序效應(yīng),10道試以兩種版本(A卷和B卷)呈現(xiàn),其間唯一的差別是隨機(jī)排列順序不同。重點(diǎn)班和普通班各有一半(20名)學(xué)生做A卷,一半學(xué)生做B卷。每道題做對(duì)計(jì)1分,做錯(cuò)記0分。每道題的難易度以通過率為考查指標(biāo),通過率越高越容易。例如,80名受試者中,有70名作對(duì)的題目,難易度為:70 / 80 = 0.875。由于每個(gè)學(xué)生都要完成10道題,80個(gè)學(xué)生可產(chǎn)生800個(gè)原始數(shù)據(jù)。試根據(jù)這些數(shù)據(jù),利用概化理論回答如下研究問題:
1)哪些因素對(duì)試題得分影響較大?
2)這種測(cè)量程序是否能準(zhǔn)確估計(jì)不同試題的難易度?
3)重點(diǎn)班與普通班在10道題上的平均得分是否類似?
4)試題呈現(xiàn)順序?qū)﹄y易度有影響嗎?
5)試題的難易度順序在重點(diǎn)班與普通班之間是否有別?
如上問題中,最核心的是測(cè)量程序能否準(zhǔn)確估計(jì)不同試題的難易度,其他屬于附帶性問題。
2.2 問題分析
2.2.1 觀察設(shè)計(jì)
本例共有四個(gè)側(cè)面:班級(jí)(Class或C),試卷版本(Version或V),試題(Question或Q)和學(xué)生(Student或S)。試題同班級(jí)、版本和學(xué)生等三個(gè)側(cè)面構(gòu)成交叉關(guān)系,因?yàn)橥瑯拥脑囶}被包含在不同的版本中,提供給每個(gè)班級(jí)的每個(gè)學(xué)生;班級(jí)同版本也構(gòu)成交叉關(guān)系,因?yàn)槊總€(gè)班級(jí)都要接觸不同版本的試卷;學(xué)生套嵌于班級(jí)和版本內(nèi)(Student within Class and Version,S:CV),因?yàn)榘嗉?jí)和版本交叉后構(gòu)成四種條件:重點(diǎn)班-A卷,重點(diǎn)班-B卷,普通班-A卷,普通班-B卷,每種條件內(nèi)“套嵌”20名學(xué)生。整個(gè)測(cè)量的觀察設(shè)計(jì)為:(S:CV)Q,即班級(jí)和版本交叉,學(xué)生套嵌于班級(jí)和版本的交叉單元內(nèi),學(xué)生、班級(jí)和版本同試題構(gòu)成交叉關(guān)系。
2.2.2 估計(jì)設(shè)計(jì)
本例中班級(jí)為固定側(cè)面,水平為2,全域?yàn)?,因?yàn)檠芯空呙鎸?duì)的班級(jí)類型僅有兩個(gè)水平:重點(diǎn)班和普通班,且兩個(gè)水平均進(jìn)入了測(cè)量程序。試卷版本水平為2,全域?yàn)闊o(wú)限,因?yàn)閮蓚€(gè)版本僅代表兩種試題排列順序,實(shí)際上10道試題通過不同的排列組合,可以組成大量(1010)的可能版本,由于數(shù)量過大,版本全域可視為無(wú)限。試題的水平為10,全域?yàn)闊o(wú)限,因?yàn)?0道試題僅為樣本,它們?nèi)∽灶}庫(kù),而題庫(kù)可視為一個(gè)無(wú)限總體。學(xué)生盡管有80名,但套嵌于每個(gè)“班級(jí)-版本”單元內(nèi)的水平數(shù)為20。因?yàn)閷W(xué)生是從無(wú)限總體中抽取的,其全域?yàn)闊o(wú)限。表1呈現(xiàn)的是觀察和估計(jì)設(shè)計(jì)結(jié)構(gòu)。
表1 觀察和估計(jì)設(shè)計(jì)表(INF = Infinite)
2.2.3 測(cè)量設(shè)計(jì)
本例著重考查測(cè)量程序?qū)υ囶}難易度測(cè)量的準(zhǔn)確度,因此試題是區(qū)別側(cè)面(即研究對(duì)象),班級(jí)、版本和學(xué)生為工具側(cè)面(測(cè)量的條件因素),這種關(guān)系可以表示為Q/CVS。由于研究者關(guān)注的焦點(diǎn)是程序?qū)υ囶}難易度測(cè)量的準(zhǔn)確度(各道題測(cè)出的通過率是否準(zhǔn)確可靠),測(cè)量是絕對(duì)的(解釋結(jié)果時(shí),需要觀察絕對(duì)指標(biāo))。
2.3 輸入程序指令
為了利用EduG進(jìn)行概化分析,需打開軟件,并在界面中按如下方式填寫指令(見圖1)。
圖1 概化分析指令界面
完成如上指令的具體步驟包括:
1)確定文件名稱與保存位置。運(yùn)行軟件,依次點(diǎn)擊File和New,在彈出的界面中填寫文件的存儲(chǔ)名稱和位置(本例名稱取“Analysis of question difficulty”,保存位置為F盤)。
2)打開文件,在界面中填寫相關(guān)指令。
ⅰ在Title后填寫文件的標(biāo)題(這是分析報(bào)告中使用的標(biāo)題,本例仍然用“Analysis of question difficulty”;
ⅱ在Number of facets后選4,表示分析涉及四個(gè)側(cè)面;
ⅲ參照表1,在Observation and estimation designs之下填寫各側(cè)面的英文名稱(EduG不能準(zhǔn)確識(shí)別漢字),名稱的字母代碼(C,V,S:CV,Q)。填寫各側(cè)面的水平(2,2,20,10),各側(cè)面的全域容量(無(wú)限表示為INF);
ⅳ在Measurement design 后填寫測(cè)量設(shè)計(jì)代碼(Q/CVS);
ⅴ在Reports下勾選RTF(表示輸出的結(jié)果以Word表格形式呈現(xiàn));
ⅵ其他選項(xiàng)保持默認(rèn)值①。
ⅶ插入數(shù)據(jù)。點(diǎn)擊Insert data,選擇scores,即彈出數(shù)據(jù)錄入界面(圖2)②。第一列表示的是班級(jí)序號(hào),第二列是版本序號(hào),第三列是學(xué)生序號(hào),第四列是問題序號(hào)。前四列是軟件根據(jù)觀察設(shè)計(jì)自動(dòng)生成的,第五列(Data)是需要我們錄入數(shù)據(jù)的位置。原始分?jǐn)?shù)共計(jì)800個(gè),可以依次錄入表中(從重點(diǎn)班內(nèi),做A卷的第一個(gè)學(xué)生,在第一道題上的得分開始,循序錄入)。
2.4 查看結(jié)果
錄入如上程序指令和數(shù)據(jù)后,點(diǎn)擊Compute,即可查看結(jié)果。如下部分將結(jié)合研究問題呈現(xiàn)相關(guān)結(jié)果。
1)哪些因素對(duì)試題得分影響較大?
表2是輸出的方差分析結(jié)果。各列依次表示對(duì)試題總分變異具有潛在影響的因素(側(cè)面及其交互)、平方和、自由度、均方、隨機(jī)效果模型方差成分、混合效果模型方差成分、Whimbey’s矯正的方差成分、各矯正成分的百分比及各隨機(jī)效果模型方差成分的標(biāo)準(zhǔn)誤。根據(jù)表2第一列和第八列可知,有四個(gè)因素對(duì)試題總分變異影響較重:
SQ:CV(學(xué)生、試題的交互作用)為61.6%;Q(試題)為17.0%;S:CV(學(xué)生)為 13.6 %;C(班級(jí))為6.6%。
學(xué)生和試題的交互作用意味著,不同學(xué)生在不同問題上得分或失分的傾向存在反差。需要注意的是,未知因素和隨機(jī)因素的影響與SQ的交互作用是混合在一起的,所以其分量較大(61.6%)。試題和學(xué)生對(duì)總分變異的影響居中(分別為17.0%和13.6%),班級(jí)類型的影響較低(6.6%)。需要注意的是,當(dāng)方差成分接近零時(shí),在計(jì)算中會(huì)出現(xiàn)負(fù)值(理論上的無(wú)效值),這些數(shù)值在后續(xù)處理中視為0。表2中的V、CVQ的方差成分均屬此類情況。
2)這種測(cè)量程序是否能準(zhǔn)確估計(jì)不同試題的難易度?
表3呈現(xiàn)的是概化研究表(G-Study Table)。其中第一列是研究對(duì)象,即區(qū)別側(cè)面(本例是指試題),第二列是區(qū)別側(cè)面的方差(相當(dāng)于經(jīng)典測(cè)量中真分?jǐn)?shù)解釋的變異,這里可理解為 “試題可以解釋的得分變異”),第三列是潛在的誤差來(lái)源,第四、五列為相對(duì)誤差方差及其百分比,第六、七列為絕對(duì)誤差方差及其百分比(注意:由于班級(jí)C為固定側(cè)面,不存在隨機(jī)抽樣誤差,故該側(cè)面及其交互作用對(duì)測(cè)量誤差的影響為零)。各列數(shù)據(jù)是進(jìn)一步計(jì)算概化系數(shù)(相當(dāng)于信度系數(shù))的基礎(chǔ)。當(dāng)系數(shù)大于或等于0.80時(shí),一般認(rèn)為測(cè)量結(jié)果準(zhǔn)確度比較理想[12-13]。
由于本例屬于絕對(duì)測(cè)量,需要根據(jù)絕對(duì)概化系數(shù)( Coef_G absolute)判斷測(cè)量的準(zhǔn)確度。這里Coef_G absolute = 0.94 > 0.80,表明測(cè)量結(jié)果可靠準(zhǔn)確,即程序能夠準(zhǔn)確估計(jì)不同試題的難易度或者通過率。這里的0.94也意味著,使用該程序測(cè)量試題難易度,誤差造成的影響僅有6%(誤差可解釋總分變異的6%)。
表2 方差分析表
表3 概化研究表
3)重點(diǎn)班與普通班在十道題上的平均得分是否類似?試題呈現(xiàn)順序?qū)﹄y易度是否有影響嗎?
回答這兩個(gè)問題,需要觀察有關(guān)方差分析結(jié)果和均分。方差分析結(jié)果(表2)顯示,班級(jí)(C)的均方(MS)為 14.31,對(duì)試題總分變異的影響權(quán)重為6.6%,版本(V)的均方為0.10,對(duì)試題總分變異的影響權(quán)重為0。據(jù)此可以初步推斷,班級(jí)側(cè)面對(duì)試題得分有一定影響,但試題呈現(xiàn)順序?qū)υ囶}得分(難易度)影響不顯著。
不同班級(jí)和版本的均分(Mean)差別是否顯著?為了獲取均分,需在EduG軟件指令界面中,點(diǎn)擊Mean,在彈出界面中選擇C(班級(jí)),或者選擇V(版本),然后點(diǎn)擊Compute,即可獲得重點(diǎn)班、普通班、A卷和B卷的平均分(見表4)。過率為39 %)。A卷和B卷的平均分差別不明顯:A卷的均分約為0.51(通過率約51 %),B卷的均分約0.54(通過率約54 %)。
綜合上述方差分析和均分結(jié)果可以推論:班級(jí)側(cè)面對(duì)試題得分有一定影響,重點(diǎn)班的均分明顯高于普通班;不同的呈現(xiàn)順序?qū)υ囶}得分(難易度或者通過率)影響不明顯。
表4 不同班級(jí)或版本均分
概化理論是將方差分析與傳統(tǒng)的真分?jǐn)?shù)理論整合發(fā)展而來(lái)的信度理論,它是現(xiàn)代教育和心理測(cè)量的重要理論之一。利用概化理論,我們可以對(duì)考試中的不同因素(如試題、受試者、評(píng)分者、考試條件等)進(jìn)行研究,了解不同因素對(duì)測(cè)量結(jié)果和測(cè)量準(zhǔn)確度的影響,評(píng)價(jià)測(cè)量程序的可靠度和測(cè)量結(jié)果的穩(wěn)定性。本文簡(jiǎn)要討論了概化分析中的觀察設(shè)計(jì)、估計(jì)設(shè)計(jì)、測(cè)量設(shè)計(jì)等基本概念,并以試題難易度測(cè)量程序研究為例,介紹了利用軟件EduG進(jìn)行概化分析的步驟,以及對(duì)輸出結(jié)果的解釋方法。囿于篇幅,只能涉及部分功能和用法,希望有助于概化分析技術(shù)的推廣。
平均分是指每人每題平均得分。由于做對(duì)一題得1分,做錯(cuò)得0分,每人每題的平均分介于0~1之間。全部做錯(cuò)均分為0,通過率為0 %;全部做對(duì)均分為1,通過率為100 %。根據(jù)表4可知,重點(diǎn)班和普通班在十道題上均分差別明顯:重點(diǎn)班均分約0.66(通過率約66 %),普通班均分為0.39(通
注釋:
① Number of decimals 表示結(jié)果中小數(shù)位數(shù);Decimal separator 表示小數(shù)的分隔符號(hào);Estimate of Phi用于絕對(duì)測(cè)量;Optimization和G-Facets analysis用于優(yōu)化設(shè)計(jì)研究。如關(guān)心均值,需點(diǎn)擊Mean并勾選相應(yīng)側(cè)面。
② 如有現(xiàn)成的原始數(shù)據(jù)(或平方和),點(diǎn)擊Import file with raw data(或Import sums of squares);如需瀏覽或編輯既有數(shù)據(jù),點(diǎn)擊Brows/Edit data;導(dǎo)出數(shù)據(jù)點(diǎn)擊Export data;刪除數(shù)據(jù)點(diǎn)擊Delete data。
[1] Shavelson R.J., Webb N.M. Generalizability theory: A primer [M]. California: Sage Publications Inc., 1991: 1-55.
[2] Cronbach, L. J., Rajaratnam, N., & Gleser, G. C.. Theory of generalizability: A liberalization of reliability theory[J]. British Journal of Mathematical and Statistical Psychology, 1963(2):137-163.
[3] Cronbach, L. J., Gleser, G. C., Nanda, H., et al. The dependability of behavioral measurements: Theory of generalizability for scores and profiles[M]. New York:Wiley, 1972:7-43.
[4] Brennan, R. L.. Generalizability theory[M]. New York:Springer, 2001:3-14.
[5] Cardinet, J., Johnson, S., Pini, G.. Applying generalizability theory using Edug[M]. New York, NY: Taylor & Francis Group, 2010:6-20.
[6] American Education Research Association (AERA), American Psychological Association(APA), National Council on Measurement in Education (NCME). Standards for education and psychology testing[M]. Washington,DC:American Psychological Association, 2002:15-17.
[7] 邱均平,歐玉芳. 美國(guó)教育評(píng)價(jià)研究的知識(shí)基礎(chǔ)與熱點(diǎn)[J]. 中國(guó)地質(zhì)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2016(3):142-149.
[8] 徐鷹,曾用強(qiáng). 基于概化理論和多層面 Rasch模型的計(jì)算機(jī)化英語(yǔ)聽說(shuō)考試評(píng)分研究[J]. 電化教育研究,2015(3): 89-95.
[9] 徐鷹. 概化理論和多層面R asch模型在CET- 4作文評(píng)分中的應(yīng)用研究[J]. 西安外國(guó)語(yǔ)大學(xué)學(xué)報(bào),2016(1):91-95.
[10]關(guān)丹丹. 閱讀理解測(cè)試的信度研究: 來(lái)自概化分析的視角[J]. 心理學(xué)探新,2016(1):70-74.
[11]溫紅博,等. 基于概化理論的識(shí)字量測(cè)驗(yàn)測(cè)試用字?jǐn)?shù)研究. 語(yǔ)言文字應(yīng)用,2016(1):74-84.
[12]靳雪蓮,滕金生,楊德山. 網(wǎng)絡(luò)論壇公共事務(wù)討論語(yǔ)言的修辭特征和成因[J].重慶郵電大學(xué)學(xué)報(bào)( 社會(huì)科學(xué)版),2014(5):117-123.
[13]翟洪昌,徐小霞,俞園. 房產(chǎn)銷售人員職業(yè)錨類型與工作滿意度的關(guān)系研究[J]. 文山學(xué)院學(xué)報(bào),2013(3):72-77.
The Application of Generalizability Theroy and EduG to Measurement in Education: Illustrated with a Study of Test Item Dif fi culty
WANG Tianjian1, PENG Zhongmei2
(1. School of Foreign Languages, Guizhou University of Finance and Economics, Guiyang 550004, China; 2. Library, Guizhou University of Finance and Economics, Guiyang 550004, China)
Being one of the most important modern measurement theories in education and psychology, generalizability theory combines ANOVA and traditional True-Score theory, and develops a new technique for the evaluation of reliability. To help readers grasp the skill of generalizability analysis, this paper discusses the fundamental concepts in it, and employs an example of test item dif fi culty study to illustrate the basic steps involved in generalizability analysis with the software EduG.
generalizability theory; EduG; application
G449
A
1674-9200(2016)06-0088-06
(責(zé)任編輯 楊愛民)
2016-03-10
貴州省科學(xué)技術(shù)廳、貴州財(cái)經(jīng)大學(xué)軟科學(xué)研究聯(lián)合基金資助項(xiàng)目“貴州省軟件產(chǎn)業(yè)進(jìn)入國(guó)際市場(chǎng)的終端用戶許可協(xié)議設(shè)計(jì)研究”(黔科合LH字〔2014〕7262)。
王天劍,男,河南南陽(yáng)人,貴州財(cái)經(jīng)大學(xué)外國(guó)語(yǔ)學(xué)院教授,博士,碩士生導(dǎo)師,主要從事教育測(cè)量學(xué)研究;彭中梅,女,河南南陽(yáng)人,貴州財(cái)經(jīng)大學(xué)圖書館館員,主要從事圖書資料管理研究。