王 天 劍
(貴州財經(jīng)大學(xué) 外國語學(xué)院, 貴州 貴陽 550004)
隨著計算機應(yīng)用的逐漸普及,大學(xué)英語考試方式也開始向機考(計算機輔助考試)方向轉(zhuǎn)變。機考不僅可以節(jié)約資源,節(jié)省閱卷工作量,而且可以通過隨機組卷,減少學(xué)生舞弊的機會。為了保證生成大量不同試卷,機考測試前需要準備容量充足的題庫。目前高校英語機考題庫來源各不相同,部分學(xué)校采用的是商業(yè)機構(gòu)提供的專用題庫,更多學(xué)校采用的是任課教師集體創(chuàng)建的題庫。題庫的質(zhì)量直接影響到考試的信度和效度,為考查某高校教師自建大學(xué)英語機考題庫的質(zhì)量,本研究借助概化理論,對一次英語機考成績進行多元分析。
概化理論從本質(zhì)上講是一種信度理論[1]1。它是在方差分析(ANOVA)與經(jīng)典測量(Classical Test Theory: CTT)技術(shù)基礎(chǔ)上,逐步拓展而來的理論體系[2] [3]1。按照CTT,測量結(jié)果包含真分數(shù)與測量誤差兩部分。利用ANOVA,概化理論進一步將誤差分解為不同來源成分,考查各自比重[4] [5]393-402,并估算概化系數(shù)以及可靠性指數(shù)。這兩種參數(shù)類似于CTT的信度,其中概化系數(shù)用于顯示,測量結(jié)果用于將對象排序時的穩(wěn)定性(相對信度);可靠性指數(shù)用于衡量,測量結(jié)果用于了解對象絕對水平時的可靠性(絕對信度)。如下公式(1)(2)分別用于概化系數(shù)及可靠性指數(shù)計算:
(1)
(2)
ρ2和Ф代表概化系數(shù)與可靠性指數(shù),σ2(τ)是測量對象的全域分方差,σ2(δ)系相對誤差方差;σ2(Δ)系絕對誤差方差[6]。
概化分析涉及一系列專業(yè)概念。主要包括:(1)側(cè)面。它是構(gòu)成測量條件的諸多因素(類似于方差分析中的自變量),例如,測量地點、測量時間、測量方式、評分員特征、受試者特征、測量題目等均可視為側(cè)面,只要研究者有意探究這些因素的影響。(2)觀察設(shè)計。它是指測量中,側(cè)面之間形成的不同結(jié)構(gòu)關(guān)系,如交叉關(guān)系(一個側(cè)面的每個水平,均與其他側(cè)面的每個水平相碰)、套嵌關(guān)系(一個側(cè)面的不同水平,僅與另一個側(cè)面的一個水平結(jié)合)、復(fù)雜的交叉套嵌組合關(guān)系,等等。(3)估計設(shè)計。估計設(shè)計回答的問題是,各個側(cè)面是以多少個水平估計多大的全域(分三種情況:有限全域中的水平全部用于估計,有限全域中的水平被隨機抽樣用于估計,無限全域中的水平被隨機抽樣用于估計)。
在類型上,概化分析包括一元概化分析和多元概化分析,前者用于單變量研究,后者聚焦于多變量研究[7]。在程序步驟上,一元或者多元概化分析都涵蓋G研究(概化研究)和D研究(決策研究)兩部分。前者能在觀測全域上展示各種方差來源及其比重;后者能在概化全域上,借助G研究的方差比重,通過調(diào)整測量條件,展示信度變化,從而探究優(yōu)化測量設(shè)計的手段[8] [9] [10]。因其在測量中的重要意義,概化理論與經(jīng)典測量理論和項目反應(yīng)理論被一并稱為三大高級測量理論。美國心理學(xué)學(xué)會、教育研究學(xué)會和國家教育測量委員會聯(lián)合提出的《教育和心理測量標準》(Standards for Education and Psychology Testing)[11]15-17中明確提出,在建立觀察和測量程序的效度與信度時,必需參照概化理論。
近年來,國外和國內(nèi)有不少學(xué)者采用概化理論,考查語言測試的方法、語言測試概念的內(nèi)在結(jié)構(gòu)、測試的信度等。Lin[12]采用蒙特卡洛模擬數(shù)據(jù),考查了評分員面試中,不同概化分析設(shè)計的適用性。結(jié)果顯示,當評分員方差相對較小時,完全交叉設(shè)計和區(qū)組套嵌設(shè)計同樣有效;當評分員方差相對較大時,只能采用區(qū)組套嵌,因為交叉設(shè)計傾向于高估信度。Sawaki[13]同時采用驗證性因子分析與概化分析,探究了口語能力的內(nèi)在結(jié)構(gòu)。結(jié)果發(fā)現(xiàn),口語能力是一種多元復(fù)合構(gòu)念(涉及發(fā)音、詞匯、連貫、組織、語法等子成分)。胡加圣、孫海洋[14] [15]等學(xué)者,利用概化理論考查了外語測試中的信度及其優(yōu)化措施等問題。綜觀國內(nèi)外研究可知,概化理論在語言測試研究中具有廣泛的應(yīng)用價值。面對不斷普及的機考,有必要對其進行概化理論分析,及時披露問題并予以解決。本文借助多元概化理論,分析大學(xué)英語機考的質(zhì)量問題。
(一)數(shù)據(jù)
研究以某校400名學(xué)生的大學(xué)英語聽力機考成績?yōu)榉治鰧ο?。每名學(xué)生的成績包含10篇短對話聽力理解分數(shù)(每篇5分,共計50分)和兩篇短文聽力理解分數(shù)(每篇25分,共計50分)。短對話考查的主要是基于短時記憶和簡單思維的聽力理解,短文考查的主要是基于長時記憶和綜合思維的聽力理解。
(二)分析方法
研究采用二變量、單側(cè)面多元概化分析。觀察設(shè)計為交叉設(shè)計:p×i,p表示考生,i表示試題(側(cè)面)。考生和試題視為從無限全域中隨機抽取的樣本,用于估計該全域參數(shù)(估計設(shè)計)。數(shù)據(jù)處理借助mGENOVA 軟件進行,它是Brennan[7]編寫的多元概化分析專用工具。
(三)結(jié)果
1.成績的分布特征
在進行概化分析之前,首先對400名學(xué)生在短對話和短文兩個變量上的成績進行描述統(tǒng)計,以展示其分布特征(表1)。
表1 學(xué)生成績在不同變量上的描述統(tǒng)計(n=400)
觀察表1中的最低分和最高分可知,各變量得分兩極分化嚴重,這表明學(xué)生個體差異明顯。
2.多元概化分析結(jié)果
多元概化分析主要在兩種試題變量上展開,分析包括G研究以及D研究兩部分。
(1)G研究結(jié)果
借助G研究,可以獲得不同效應(yīng)(考生、試題、考生與試題的交互作用)在短對話和短文兩個變量上的方差等指標,結(jié)果如表2所示。
表2 學(xué)生、題目和交互作用在兩個變量上的方差
根據(jù)表2可知,考生在兩個變量上的方差分別是4.35和4.92,試題在二變量上的方差依次是2.15和4.11,交互作用的方差是6.02和7.58。由于方差大小標志著影響的大小,可以推斷,交互作用對聽力成績的影響高于學(xué)生水平的影響。交互作用影響較大,意味著不同學(xué)生在不同試題上,得分或失分的傾向存在較大反差(如甲生在第一篇短對話上得分很高,在第二篇上很低,乙生在第一篇上得分很低,在第二篇上得分很高)。
題目難度在短對話上的方差雖然不大,但在短文上的方差與考生的對應(yīng)方差接近,表明試題難度對短文成績的影響不能忽略。考生對成績的影響不占優(yōu)勢,表明考試未能有效反映學(xué)生的英語聽力水平。
(2) D研究結(jié)果
第一,短對話和短文測量結(jié)果的精確度
根據(jù)其全域分方差、相對誤差方差和絕對誤差方差,可以檢查短對話和短文的測量精確度。表3呈現(xiàn)的是相關(guān)結(jié)果。
表3 短對話和短文測量結(jié)果的精確度
觀察表3可知,短對話的概化系數(shù)為0.63,可靠性指數(shù)為0.55;短文的概化系數(shù)為0.65,可靠性指數(shù)為0.57。這些指標反映著兩個變量測量的精確度(信度),由于低于0.80這一理想標準,測量結(jié)果不夠穩(wěn)定。
第二,短對話和短文整合在一起的測量精確度
按照短對話和短文兩變量所占比重(短對話分值比重為50%,短文為50%),設(shè)定權(quán)重系數(shù),對測量結(jié)果進行整合,可得短對話和短文整合在一起(全域合成分)的測量精確度(表4)。
表4 短對話和短文全域合成分測量精確度
根據(jù)表4,全域合成分概化系數(shù)和可靠性指數(shù)分別為0.68和0.59,與單個變量測量精確度(表3)相比略有提高。這表明,短對話和短文兩個變量得分合并起來代表聽力水平,具有一定的合理性。但是兩個信度指標仍未達到0.80。
第三,短對話和短文對全域合成分的貢獻
雖然兩變量的賦分顯示,其權(quán)重均為50%,但兩者對全域合成分方差的實際貢獻如何仍需D研究檢驗。表5比較了賦分權(quán)重與實際貢獻。
表5 短對話和短文對全域合成分的貢獻
表5顯示,短對話對全域合成分方差的貢獻(56.9%)略微高于賦分,而短文的貢獻(43.1%)稍微低于其賦分。短對話的測量誤差所占比重也較大(相對和絕對誤差方差分別為:62.0%和61.1%)。 這表明短對話和短文的權(quán)重有待調(diào)整。
第四,權(quán)重優(yōu)化后的全域合成分測量精確度
鑒于短對話和短文賦分與實際貢獻的差別,調(diào)整兩變量權(quán)重,進一步分析信度變化,結(jié)果呈現(xiàn)于表6。
表6 調(diào)整權(quán)重對信度的影響
根據(jù)表6,在合理范圍內(nèi),改變短對話和短文的權(quán)重,概化系數(shù)和可靠性指數(shù)雖有提升趨勢,但變化很慢。由于兩個變量是聽力課程測試的兩個平行特質(zhì),不易進一步改變權(quán)重。可見,通過調(diào)整賦分權(quán)重,不能走出測量不穩(wěn)定的困境。
第五,優(yōu)化試題數(shù)量后的全域合成分測量精確度
改變試題數(shù)量是嘗試調(diào)整測量精確度的常用手段。表7展示的是短對話和短文在權(quán)重各保持30%和70%的情況下,調(diào)整任務(wù)數(shù)量后可預(yù)期的對應(yīng)信度。
表7 調(diào)整題量對信度的影響
基于表7可知,在可操作范圍內(nèi),適當調(diào)整試題數(shù)量結(jié)構(gòu),能夠使信度有所提高。但即使在這種情況下,信度仍然低于理想水平??梢娬{(diào)整題量仍不能完全解決信度問題。
本文借助多元概化分析,考查了大學(xué)英語聽力機考的信度。結(jié)果顯示,對于成績的影響,考生與試題的交互作用明顯高于考生效應(yīng),試題難度效應(yīng)也不容忽略。交互作用和題目難度效應(yīng)的影響在短文方面尤為突出。無論是在短對話和短文兩個變量層面,還是在整個聽力測試層面,考試的信度都偏離了理想標準。在可操作范圍內(nèi),適度調(diào)整試題權(quán)重和題量,雖然能在一定程度上彌補信度的不足,但不能從根本上解決測量信度問題。
本研究與其他相關(guān)研究存在分歧。在一般測試中,成績的主要變異來源是考生,而不是試題或者交互效應(yīng)。Bae[16]對雙語兒童不同語言技能的概化分析中發(fā)現(xiàn),考生水平對成績變異的影響高于其他因素。在一項元分析研究中,In'nami等[17]考查了17項概化研究(涉及22個數(shù)據(jù)集),結(jié)果發(fā)現(xiàn),平均而言考生是成績變異的主要來源,其次是考生與試題的交互作用,試題效應(yīng)是比較微小的變異來源。事實上,任何有效度和信度的測試中,成績都應(yīng)當反映被試技能,被試應(yīng)屬于最主要的成績變異影響因素。
本研究披露的交互作用對于成績的影響, 遠遠高于考生作用,題目難度效應(yīng)不容小視。可能是因為采用機考時計算機系統(tǒng)隨機生成的試卷缺乏同質(zhì)性,不同學(xué)生在同一道試題中,接觸的具體任務(wù)難度波動較大,不同試卷難度波動較大。試題難度的影響,主要表現(xiàn)在絕對測量信度方面;考生與試題交互作用的影響,同時降低相對測量信度以及絕對測量信度。當成績信度較低時,考試的效度更無從談起。
由于隨機組卷的素材源于題庫,本研究暴露的機考問題,深層原因可能是題庫質(zhì)量不合格。在缺乏可操作的標準以及必要的技術(shù)條件下,教師集體創(chuàng)建的題庫,很容易出現(xiàn)同類任務(wù)難度不一的現(xiàn)象。這樣的題庫用于機考隨機生成試卷,很容易引起較高的交互作用和試題難度效應(yīng),降低考試信度和效度。
本研究考查了某高校大學(xué)英語聽力機考的信度,結(jié)論如下:
1.在缺乏同質(zhì)題庫條件下,大學(xué)英語聽力機考中采用隨機組卷,會導(dǎo)致信度不足,無法客觀反映學(xué)生聽力水平;
2.在缺乏同質(zhì)題庫條件下,調(diào)整試題數(shù)量和賦分權(quán)重,可以在一定程度上緩解信度危機。
解決大學(xué)英語聽力機考信度效度不足的問題,隨機組卷需要以嚴格意義上的同質(zhì)題庫為依托。建議在建立大學(xué)英語聽力題庫時,命題者要通過定性、定量、實證研究結(jié)合的方法,對聽力材料進行語料分析[18],對試題難度進行準確區(qū)分。在缺乏同質(zhì)題庫條件下,不宜使用計算機隨機組卷,而應(yīng)采用相同試卷。采用相同試卷,這樣可以在一定程度上降低考生與試題的交互作用,減少變異來源,提高成績的信度和效度,增加考試的公平公正性。
[1]Shavelson R J, Webb N M.Generalizability theory: A primer[M].Sage Publications, 1991.
[2]Brennan R L.A Perspective on the History of Generabability Theory [J].Educational Measurement Issues & Practice, 1997(4).
[3]Cardinet J, Johnson S, Pini G.Applying generalizability theory using EduG[M].Routledge, 2011.
[4]Klerk S D, Eggen T J H M, Veldkamp B P.A blending of computer-based assessment and performance-based assessment: Multimedia-Based Performance Assessment (MBPA).The introduction of a new method of assessment in Dutch Vocational Education and Training (VET)[J].Giornale Italiano Di Pedagogia Sperimentale, 2014(1).
[5]Urbano J, Marrero M, Martín D.On the measurement of test collection reliability[C]// International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM, 2013.
[6]Robert L.Brennan.Generalizability Theory and Classical Test Theory[J].Applied Measurement in Education, 2010(1).
[7]Brennan R L.Manual for mGENOVA (Version 2.1)[J].Occasional Paper, 2001(50).
[8]黎光明.概化理論G研究方差分量及其變異量估計影響因素[J].心理學(xué)探新, 2016(5).
[9]Gebril A.Bringing reading-to-write and writing-only assessment tasks together: A generalizability analysis[J].Assessing Writing, 2010(2).
[10]Srikaew D, Tangdhanakanond K, Kanjanawasee S.English speaking skills assessment for grade 6 Thai students: an application of multivariate generalizability theory[J].International Journal of Psychology: A Biopsychosocial Approach, 2015 (16).
[11]American Education Research Association (AERA), American Psychological Association(APA), National Council on Measurement in Education (NCME).Standards for Education and Psychology Testing[M].Washington,DC: American Psychological Association, 2002.
[12]Lin C K.Working with Sparse Data in Rated Language Tests: Generalizability Theory Applications.[J].Language Testing, 2017(34).
[13]Sawaki Y.Construct Validation of Analytic Rating Scales in a Speaking Assessment: Reporting a Score Profile and a Composite.[J].Language Testing, 2007(3).
[14]胡加圣.最新概化理論工具EduG及其外語教學(xué)應(yīng)用分析[J].外語學(xué)刊, 2014(6).
[15]孫海洋.概化理論和多層面Rasch模型在建立“職前中學(xué)英語教師口語考試模型”中的應(yīng)用[J].外語與外語教學(xué), 2011(5).
[16]Bae, Jungok|Bachman, Lyle F.An Investigation of Four Writing Traits and Two Tasks across Two Languages.[J].Language Testing, 2010(2).
[17]In'nami, Yo|Koizumi, Rie.Task and Rater Effects in L2 Speaking and Writing: A Synthesis of Generalizability Studies.[J].Language Testing, 2016(3).
[18]王天劍.基于語料庫的中美企業(yè)英文簡介文本特征研究[J].魯東大學(xué)學(xué)報(哲學(xué)社會科學(xué)版), 2016(6).