亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于多元概化理論的英語口語測試任務(wù)研究

2023-12-12 22:27:17吳泓霖

考試研究 2023年3期

[摘要]基于多元概化理論，對某次口語測試所包含的朗讀、聽后回答、回答問題、聽后復(fù)述四類常見的測試任務(wù)進(jìn)行研究，重點(diǎn)關(guān)注不同類型測試任務(wù)的區(qū)分效果、測量精度和對總分的貢獻(xiàn)程度。研究結(jié)果表明，偏封閉型、內(nèi)容導(dǎo)向的測試任務(wù)相比偏開放型、技能導(dǎo)向的測試任務(wù)，在區(qū)分效果、測量精度和對總分的貢獻(xiàn)上表現(xiàn)更好。

[關(guān)鍵詞]口語測試任務(wù)；多元概化理論；計算機(jī)化考試

[中圖分類號]G424.74[文獻(xiàn)標(biāo)識碼]A

[文章編號]1673—1654（2023）03—051—008

一、引言

（一）口語測試任務(wù)

口語測試是語言測試研究和實(shí)踐的重要領(lǐng)域。根據(jù)考官的參與程度，一般可分為直接型、半直接型、間接型口語測試[1]。間接型口語測試現(xiàn)在已經(jīng)很少使用，例如，早期的語音測試是讓考生在紙筆考試中選擇與對應(yīng)音素發(fā)音不同的單詞，不需要進(jìn)行口頭交流。直接型口語測試主要采用現(xiàn)場面試型口試的方式，由一位或多位考官對一位或多位考生進(jìn)行面對面的口語測試，例如雅思（IELTS）、劍橋通用五級（Main Suite）和全國英語等級考試（PETS）各個級別的現(xiàn)場口試等。隨著信息技術(shù)的廣泛應(yīng)用，目前最為主流的是半直接型口語測試，主要采用計算機(jī)化考試的實(shí)施方式。計算機(jī)化考試的研究和實(shí)踐開始于20世紀(jì)70年代[2]，歷經(jīng)多年探索，伴隨著計算機(jī)技術(shù)和語言測試?yán)碚摰娜诤习l(fā)展，其應(yīng)用已經(jīng)日漸成熟。目前，國外知名的語言類考試大多已經(jīng)推出了計算機(jī)化考試，例如托福網(wǎng)考（TOEFL iBT）、雅思機(jī)考（IELTS CBT）、劍橋領(lǐng)思（Linguaskill）等。國內(nèi)的語言類考試實(shí)行計算機(jī)化考試主要集中在口試的改革中，例如大學(xué)英語四、六級口語機(jī)考，以及部分省市（北京、上海、天津、廣東等）高考英語的口語機(jī)考。相關(guān)研究表明，實(shí)行口語機(jī)考對教學(xué)產(chǎn)生了良性的引導(dǎo)作用，促進(jìn)了學(xué)生聽、說能力的發(fā)展[3]。

設(shè)計口語測試時，設(shè)定測試任務(wù)十分重要，它不僅是測試本身構(gòu)念定義的直接反映，也會對語言學(xué)習(xí)產(chǎn)生反撥作用?？谡Z測試任務(wù)可以理解為說話者在特定的口語交際場景下，為了實(shí)現(xiàn)某種交際目標(biāo)而使用語言的活動[4]。口語測試任務(wù)可以有不同的分類維度，包括技能的綜合性、任務(wù)的開放性、交談內(nèi)容是事實(shí)性還是評價性、任務(wù)設(shè)計是基于構(gòu)念還是基于任務(wù)、所測能力屬于宏觀還是微觀等[5]。以計算機(jī)化口語測試為代表的半直接型口語測試中，最為常見的任務(wù)類型包括朗讀、情景問答、看圖說話、回答問題、聽后回答問題、故事復(fù)述等，這些任務(wù)已在相關(guān)省市的高考英語口語機(jī)考中被廣泛使用。

（二）多元概化理論

概化理論是現(xiàn)代心理測量理論之一[6]，雖然出現(xiàn)較晚、統(tǒng)計要求比較繁瑣，但隨著計算機(jī)技術(shù)的發(fā)展，其應(yīng)用范圍越來越大，包括常模參照性測驗(yàn)、標(biāo)準(zhǔn)參照性測驗(yàn)、非標(biāo)準(zhǔn)化測驗(yàn)、表現(xiàn)性評價等，受重視程度日漸提升。

根據(jù)概化理論，傳統(tǒng)意義上測量信度的概念被概化系數(shù)或可靠性系數(shù)取代[7]。概化理論重點(diǎn)關(guān)注分?jǐn)?shù)差異與相關(guān)影響因素（例如考生能力、試題難度等）之間的關(guān)系。在經(jīng)典測量理論的基礎(chǔ)上，概化理論引進(jìn)了實(shí)驗(yàn)設(shè)計和方差分析技術(shù)[8]，可以分離各類誤差的方差，并估算出不同方差成分的大小，用于探究不同因素對分?jǐn)?shù)差異造成的影響和各個因素之間的交互作用，這個過程被稱為概化研究或者G研究。在此基礎(chǔ)上，概化理論還能通過實(shí)驗(yàn)性研究估算出不同條件下概化系數(shù)的變化，尋找最佳的誤差控制方法，幫助考試設(shè)計者優(yōu)化試卷設(shè)計，這個過程被稱為概化理論的決策研究或D研究。

多元概化理論是概化理論的進(jìn)一步發(fā)展，主要適用于具有多個全域分?jǐn)?shù)等方面問題的研究，例如分析當(dāng)總測驗(yàn)被分解成多個分測驗(yàn)時，分測驗(yàn)的信度和試題數(shù)量變化對總測驗(yàn)信度造成的影響[9]。近年來，多元概化理論被廣泛應(yīng)用于高考等大規(guī)模高利害考試的評價中，可定量比較試卷中各個內(nèi)容模塊和相關(guān)題型的區(qū)分度與內(nèi)部一致性，為試卷質(zhì)量研究提供了理論模型和方法依據(jù)，有助于考試命題質(zhì)量的提高?；诙嘣呕碚搶谡Z測試進(jìn)行研究，可以分析各項測試任務(wù)的區(qū)分功能和測試信度，探究不同任務(wù)對總分的貢獻(xiàn)程度，便于考試設(shè)計者調(diào)整測試設(shè)計，進(jìn)而更好地達(dá)到預(yù)期的測量效果。

二、研究設(shè)計

（一）研究問題

基于定量分析回答不同類型口語測試任務(wù)的三個問題：

1.區(qū)分效果分別是什么樣的？

2.測量精度分別是什么樣的？

3.對總分的貢獻(xiàn)程度分別是什么樣的？

（二）研究工具

基于高考英語學(xué)科對于關(guān)鍵能力中口語表達(dá)的界定[10]，結(jié)合常見的口語測試任務(wù)類型，設(shè)計和實(shí)施了一次研究性英語口語測試，采用了計算機(jī)化考試的形式。如表1所示，本次口語測試滿分分值為10分，共11道試題，包含朗讀、聽后回答、回答問題、聽后復(fù)述四項任務(wù)，測試過程中允許考生做筆記。

參加本次口語測試的受試者為華東某省2所中學(xué)的高二年級學(xué)生，有效樣本共725份，其中男生約占45%，女生約占55%，學(xué)生的英語口語水平基本覆蓋了好、中、差各個層次。

（三）評分設(shè)計

10名評分員均為來自高校的英語教師，具有大型考試的閱卷經(jīng)驗(yàn)。正式評分開始前，評分員接受了培訓(xùn)，熟悉了評分標(biāo)準(zhǔn)并進(jìn)行了試評分，以保證評分尺度的一致性。

（四）數(shù)據(jù)分析

采用mGENOVA 2.1程序進(jìn)行多元概化分析全體有效樣本共725份。按照口語測試任務(wù)的結(jié)構(gòu)，將全部試題劃分為“朗讀”“聽后回答”“回答問題”“聽后復(fù)述”4個分測試，使用了4因子單面交叉設(shè)計p×i多元概化模型，p代表受試者（測量目標(biāo)），i代表試題（測量側(cè)面），分別計算各項口語測試任務(wù)和整個測試的概化系數(shù)（即信度）。在此基礎(chǔ)上，結(jié)合相關(guān)信息分析各項口語測試任務(wù)對整個測試的貢獻(xiàn)程度。

三、結(jié)果與討論

（一）描述性統(tǒng)計

各項測試任務(wù)的平均得分率從高到低依次為回答問題（68.18%）、朗讀（66.75%）、聽后回答（66.18%）、聽后復(fù)述（45.22%）。這表明，相比其他三項任務(wù)，聽后復(fù)述的平均得分率較低，任務(wù)難度相對較大。

（二）四因子模型的G研究

基于四因子概化模型的G研究，得到考生效應(yīng)（p）、試題效應(yīng)（i）及考生和試題之間的交互效應(yīng)（pi）在四個因子上的方差與協(xié)方差分量的估計矩陣，如表2所示。

考生效應(yīng)（p）反映由于考生水平差異導(dǎo)致的成績變異大小。從表2可以看出，四個因子中考生效應(yīng)（p）方差分量從大到小依次為聽后復(fù)述（0.32621）、朗讀（0.23622）、聽后回答（0.22236）、回答問題（0.09165）。這表明，在本次口語測試中，聽后復(fù)述對不同水平考生的區(qū)分作用最大，朗讀和聽后回答的區(qū)分作用大致相當(dāng)，回答問題的區(qū)分作用最小?？赡軐?dǎo)致這一現(xiàn)象的原因是：回答問題任務(wù)的開放性較大，考生發(fā)揮的空間也比較大，緊扣主題言之成理即可得到一定分?jǐn)?shù)，因此比較難以區(qū)分不同水平的考生，而其他三項任務(wù)對考生作答的評判具有相對剛性的約束，更容易區(qū)分不同水平的考生。

此外，根據(jù)相關(guān)系數(shù)的估計值，四個因子之間的相關(guān)系數(shù)介于0.36和0.51之間，這表明考生在各項任務(wù)上的得分高低順序有所差異。其中可能原因是四項任務(wù)分別測量了考生口語表達(dá)能力的不同方面。

試題效應(yīng)（i）反映出因試題難度差異導(dǎo)致的成績變異大小。從表2可以看出，聽后復(fù)述的方差分量（0.06921）最大，這表明在所有任務(wù)中，聽后復(fù)述任務(wù)由于試題難度差異造成的考生成績變異最大。換言之，這項任務(wù)的不同試題難度差異最為明顯。造成這個差異的可能原因在于聽后復(fù)述任務(wù)中聽力文本體裁對考生復(fù)述表現(xiàn)的影響。本次口語測試中，聽后復(fù)述的兩道試題分別使用了說明文和記敘文作為輸入內(nèi)容，且兩種體裁的內(nèi)容長度相當(dāng)，但考生復(fù)述說明文的得分率明顯低于對記敘文的復(fù)述，在一定程度上表明，對于考生來說，聽取說明文并進(jìn)行復(fù)述的難度大于記敘文，這與此前相關(guān)的研究結(jié)論一致[11]。

（三）四因子模型的D研究

1.各項任務(wù)全域分?jǐn)?shù)的測量精度

通過D研究估計出考生在四項任務(wù)上的全域分?jǐn)?shù)與相應(yīng)誤差項的方差分量，并計算出概化系數(shù)、可靠性指數(shù)及信噪比等指標(biāo)，如表3所示。

從表3可以看出，各項任務(wù)的概化系數(shù)（Gen Coefficient）均超過0.66，表明本次口語測試的試卷質(zhì)量較高，各項任務(wù)具有良好的測量精度、測量誤差較小。各項任務(wù)按照概化系數(shù)從高到低排序，依次為朗讀（0.95287）、聽后復(fù)述（0.86738）、回答問題（0.70215）、聽后回答（0.66259），這表明朗讀相比其他任務(wù)測量精度更高，其中可能的原因是朗讀部分的試題數(shù)量多于其他任務(wù)，相當(dāng)于對同一能力反復(fù)進(jìn)行多次測量，因此效果更好。

2.全域總分的測量精度

根據(jù)各項任務(wù)的題目數(shù)量比例，對四個因子的全域分?jǐn)?shù)進(jìn)行合成，估計出全域總分與相應(yīng)誤差項的方差分量，以及全域總分的概化系數(shù)、可靠性指數(shù)和信噪比等指標(biāo)，如表4所示。

從表4可以看出，全域總分的概化系數(shù)達(dá)到了0.93555，相對誤差和絕對誤差的方差分量分別僅為0.00909和0.01036，表明本次口語測試的總體測量信度較好。

3.各項任務(wù)對總分方差的貢獻(xiàn)度

為進(jìn)一步研究本次口語測試的四項任務(wù)對總分方差的實(shí)際影響程度，計算出各項任務(wù)對測試總分方差的實(shí)際貢獻(xiàn)度，如表5所示。

從表5可以看出，各項任務(wù)對總分方差的貢獻(xiàn)比例從高到低依次是朗讀（53.52%）、聽后復(fù)述（19.16%）、聽后回答（17.40%）、回答問題（9.12%）。各項任務(wù)對總分方差的貢獻(xiàn)比例與預(yù)先設(shè)定的賦分比例相比，存在一定差距。朗讀任務(wù)的貢獻(xiàn)比例高于賦分比例，聽后回答任務(wù)的貢獻(xiàn)比例大致相當(dāng)于賦分比例，回答問題和聽后復(fù)述任務(wù)的貢獻(xiàn)比例低于賦分比例。其中可能的原因是：朗讀任務(wù)的題量相對較大，包含了5道試題，而且考生成績分布較為分散；而回答問題和聽后復(fù)述任務(wù)都只有2道試題，且考生成績分布相對集中。這表明，可以考慮進(jìn)一步提高朗讀任務(wù)的賦分比例，或者增加回答問題和聽后復(fù)述任務(wù)的試題數(shù)量，以進(jìn)一步提升考試的信度和區(qū)分效果。

4.各項任務(wù)題目數(shù)量對測量精度的影響研究

通過D研究計算出各項任務(wù)題目數(shù)量變化對口語測試整體測量信度的影響情況，結(jié)果如表6所示。

由表6可知，當(dāng)各項任務(wù)的試題數(shù)量增加為2倍和3倍時，總分概化系數(shù)分別增加至0.9667和0.97755。此外，單獨(dú)增加某一項任務(wù)的試題數(shù)量，也可以提高總分概化系數(shù)，其中對提升整卷信度作用比較大的是增加朗讀和聽后復(fù)述的題目數(shù)量。

四、結(jié)論與啟示

（一）研究結(jié)論

采用四因子多元概化模型，對同一口語測試中的不同任務(wù)進(jìn)行了分析，得到以下結(jié)論：

在測量信度方面，本次口語測試的全域總分概化系數(shù)為0.93555，總體測量信度高，達(dá)到了預(yù)期的測量目的。具體到任務(wù)上，朗讀的概化系數(shù)最高，聽后回答的概化系數(shù)最低。四項任務(wù)分別測量了考生不同方面的口語表達(dá)能力，這與考試的構(gòu)念設(shè)計是一致的。

在區(qū)分效果方面，聽后復(fù)述和朗讀對不同水平考生的區(qū)分效果較好，而聽后復(fù)述由于不同試題難度差異對考生成績造成的影響最為明顯。這表明，需要注意聽后復(fù)述任務(wù)的難度控制，尤其是關(guān)注不同聽力體裁對任務(wù)難度的影響。

對總分的貢獻(xiàn)程度方面，朗讀對總分變異的貢獻(xiàn)最大且遠(yuǎn)高于其他三項任務(wù)，而回答問題的貢獻(xiàn)最小。此外，朗讀對總分方差的貢獻(xiàn)比例高于其賦分比例，而回答問題和聽后復(fù)述對總分方差的貢獻(xiàn)比例低于各自的賦分比例。這表明，應(yīng)該適當(dāng)增加朗讀部分的分值，或者增加回答問題和聽后復(fù)述部分的試題數(shù)量。

試題數(shù)量變化對總分概化系數(shù)的影響方面，同時增加各項任務(wù)的題目數(shù)量可以提升總分概化系數(shù)，而單獨(dú)增加朗讀或聽后復(fù)述的題目數(shù)量對總分概化系數(shù)的提升效果最為明顯。

（二）研究啟示

基于上述結(jié)論，在口語測試任務(wù)設(shè)計方面可得到如下啟示。

Wright提出，根據(jù)交際潛質(zhì)（communicative potential）不同，口語測試任務(wù)可以按照兩個維度進(jìn)行分類：任務(wù)類型和導(dǎo)向[12]。在任務(wù)類型的維度上，口語測試任務(wù)從開放到封閉進(jìn)行排列：開放性任務(wù)對考生作答不作限制，有多種可以接受的答案；封閉性任務(wù)則會對考生的作答進(jìn)行限制，超出范圍的答案是不可接受的。在導(dǎo)向的維度上，口語測試任務(wù)從技能導(dǎo)向到內(nèi)容導(dǎo)向進(jìn)行排列：技能導(dǎo)向任務(wù)一般考查口語能力本身，答案往往比較開放；內(nèi)容導(dǎo)向任務(wù)則將口語能力與具體的內(nèi)容融合起來進(jìn)行考查，答案的可控程度一般較高。

基于該分類依據(jù)，本次口語測試的四項任務(wù)中，朗讀、聽后復(fù)述、聽后回答屬于偏封閉型和內(nèi)容導(dǎo)向的任務(wù)類型，回答問題屬于偏開放型和技能導(dǎo)向的任務(wù)類型。本次研究的結(jié)果表明，整體而言，偏封閉型、內(nèi)容導(dǎo)向的測試任務(wù)比偏開放型、技能導(dǎo)向的測試任務(wù)在區(qū)分效果、測量精度和對總分的貢獻(xiàn)上表現(xiàn)更好。

從考試命題的角度，內(nèi)容導(dǎo)向的口語測試任務(wù)有助于減少考生“押題”和“背模板”等應(yīng)試現(xiàn)象。從考試評分的角度，封閉型的口語測試任務(wù)因?yàn)樽鞔饍?nèi)容可控，有利于評卷人員把握評分標(biāo)準(zhǔn)、控制評分誤差，最終保障評分質(zhì)量。從考試組織實(shí)施的角度，隨著人力成本的增加，大規(guī)模考試的評分工作和評卷人員的聘請日益成為考試組織機(jī)構(gòu)面臨的一大挑戰(zhàn)。為了解決這個問題，一些大規(guī)?？荚嚰娂娺M(jìn)行了機(jī)器自動評分的探索和應(yīng)用[13]。相關(guān)研究表明，封閉型和半封閉型的口語測試任務(wù)機(jī)器評分與人工評分的一致性明顯高于開放型任務(wù)[14]。因此，在口語測試中采用相對封閉型的任務(wù)，有助于自動評分的應(yīng)用、減少人工評分的組織成本。

本研究的主要不足在于考生樣本量偏少且僅限于高二年級學(xué)生，口語測試任務(wù)類型偏少。在今后類似的研究中，可考慮增加樣本數(shù)量和范圍，進(jìn)一步豐富任務(wù)類型，基于更具代表性的受試者群體和更多樣的任務(wù)類型，進(jìn)而對口語測試任務(wù)的特點(diǎn)進(jìn)行更為全面的研究。

參考文獻(xiàn)：

[1] OLoighlin K. The Equivalence Of Direct And Semi-Direct Speaking Tests [M]. Cambridge University Press，2001：4.

[2]曾用強(qiáng).對計算機(jī)化考試的幾點(diǎn)思考[J].外語電化教學(xué)，2010，（01）：52-55.

[3]侯艷萍.外語高考聽說測試改革的反撥作用研究[J].外語電化教學(xué)，2018，（05）：23-29.

[4] Luoma，S. Assessing Speaking [M]. Cambridge University Press，2004：31.

[5]李夢莉，范琳.機(jī)助口試?yán)碚撃Ｐ?、任?wù)特征和評分標(biāo)準(zhǔn)研究——新托福網(wǎng)絡(luò)口試和PhonePass～（TM）SET口試對比分析[J].中國考試，2013，（08）：22-27.

[6]劉遠(yuǎn)我，張厚粲.概化理論在作文評分中的應(yīng)用研究[J].心理學(xué)報，1998，（02）：211-218.

[7]羅照盛，郭小軍.認(rèn)知行為實(shí)驗(yàn)研究中最佳素材容量的選擇與確定：多元概化理論應(yīng)用[J].心理學(xué)報，2014，46（06）：876-884.

[8]楊志明，張雷.測評的概化理論及其應(yīng)用[M].北京：教育科學(xué)出版社，2003：18-20.

[9]趙軒，任子朝，陳昂.基于多元概化理論的高考數(shù)學(xué)文理科試卷質(zhì)量分析與對比研究[J].數(shù)學(xué)通報，2018，57（01）：25-30.

[10]陳康，吳泓霖，李新煜，等.基于高考評價體系的英語科考試內(nèi)容改革實(shí)施路徑[J].中國考試，2019，（12）：33-37.

[11]柳明明.高考英語聽后口頭復(fù)述任務(wù)效度論證研究[D].北京外國語大學(xué)，2015：114-115.

[12] Wright，T. Instructional Task And Discoursal Outcome In The L2 Classroom [J]. Lancaster Practical Papers in English Language Education，1987，（07）：49.

[13]金艷，王偉，楊浩然.語言測試中的技術(shù)應(yīng)用：基于大學(xué)英語四、六級考試的實(shí)踐分析[J].外語測試與教學(xué)，2021，（01）：1-7+27.

[14]孫海洋.國內(nèi)外英語口語自動評分研究綜述[J].外語教育研究前沿，2021，4（02）：28-36+89-90.

Research on English Speaking Test Tasks Based on Multivariate Generalizability Theory

Wu Honglin

National Education Examinations Authority，Beijing，100084

Abstract：Speaking test tasks，which can be seen as activities that involve a speaker in using language for the purpose of achieving a particular communicative goal in a particular speaking situation，are important parts of the design of a speaking test. Based on Multivariate Generalizability Theory，this study analyzes four common tasks such as reading-aloud，listening-and-answering，answering questions and listening-and-retelling focusing on the effect of differentiation，precision of measurement and contribution to the composite score regarding different tasks. The result of the study shows that in general closed and content-oriented speaking test tasks perform better than open and skill-oriented ones do in terms of the effect of differentiation，precision of measurement and contribution to the composite score.

Key words：Speaking Test Tasks，Multivariate Generalizability Theory，Computer-based Testing

（責(zé)任編輯：吳茳）

考試研究2023年3期

考試研究的其它文章: 基于初中學(xué)生成長百分等級模型的增值評價實(shí)踐探索; 基于AUA框架的劍橋職業(yè)英語考試評介; 基于知識圖譜的新高考改革研究現(xiàn)狀分析; 2022年天津市中考語文試題的價值追求; 基于國家安全觀視角的高中地理試題評析及教學(xué)路徑探索; 高校普通話水平測試工作評價標(biāo)準(zhǔn)研究