亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于多元概化理論的英語口語測試任務(wù)研究

        2023-12-12 22:27:17吳泓霖
        考試研究 2023年3期

        [摘要]基于多元概化理論,對某次口語測試所包含的朗讀、聽后回答、回答問題、聽后復(fù)述四類常見的測試任務(wù)進(jìn)行研究,重點(diǎn)關(guān)注不同類型測試任務(wù)的區(qū)分效果、測量精度和對總分的貢獻(xiàn)程度。研究結(jié)果表明,偏封閉型、內(nèi)容導(dǎo)向的測試任務(wù)相比偏開放型、技能導(dǎo)向的測試任務(wù),在區(qū)分效果、測量精度和對總分的貢獻(xiàn)上表現(xiàn)更好。

        [關(guān)鍵詞]口語測試任務(wù);多元概化理論;計算機(jī)化考試

        [中圖分類號]G424.74[文獻(xiàn)標(biāo)識碼]A

        [文章編號]1673—1654(2023)03—051—008

        一、引言

        (一)口語測試任務(wù)

        口語測試是語言測試研究和實(shí)踐的重要領(lǐng)域。根據(jù)考官的參與程度,一般可分為直接型、半直接型、間接型口語測試[1]。間接型口語測試現(xiàn)在已經(jīng)很少使用,例如,早期的語音測試是讓考生在紙筆考試中選擇與對應(yīng)音素發(fā)音不同的單詞,不需要進(jìn)行口頭交流。直接型口語測試主要采用現(xiàn)場面試型口試的方式,由一位或多位考官對一位或多位考生進(jìn)行面對面的口語測試,例如雅思(IELTS)、劍橋通用五級(Main Suite)和全國英語等級考試(PETS)各個級別的現(xiàn)場口試等。隨著信息技術(shù)的廣泛應(yīng)用,目前最為主流的是半直接型口語測試,主要采用計算機(jī)化考試的實(shí)施方式。計算機(jī)化考試的研究和實(shí)踐開始于20世紀(jì)70年代[2],歷經(jīng)多年探索,伴隨著計算機(jī)技術(shù)和語言測試?yán)碚摰娜诤习l(fā)展,其應(yīng)用已經(jīng)日漸成熟。目前,國外知名的語言類考試大多已經(jīng)推出了計算機(jī)化考試,例如托福網(wǎng)考(TOEFL iBT)、雅思機(jī)考(IELTS CBT)、劍橋領(lǐng)思(Linguaskill)等。國內(nèi)的語言類考試實(shí)行計算機(jī)化考試主要集中在口試的改革中,例如大學(xué)英語四、六級口語機(jī)考,以及部分省市(北京、上海、天津、廣東等)高考英語的口語機(jī)考。相關(guān)研究表明,實(shí)行口語機(jī)考對教學(xué)產(chǎn)生了良性的引導(dǎo)作用,促進(jìn)了學(xué)生聽、說能力的發(fā)展[3]。

        設(shè)計口語測試時,設(shè)定測試任務(wù)十分重要,它不僅是測試本身構(gòu)念定義的直接反映,也會對語言學(xué)習(xí)產(chǎn)生反撥作用??谡Z測試任務(wù)可以理解為說話者在特定的口語交際場景下,為了實(shí)現(xiàn)某種交際目標(biāo)而使用語言的活動[4]。口語測試任務(wù)可以有不同的分類維度,包括技能的綜合性、任務(wù)的開放性、交談內(nèi)容是事實(shí)性還是評價性、任務(wù)設(shè)計是基于構(gòu)念還是基于任務(wù)、所測能力屬于宏觀還是微觀等[5]。以計算機(jī)化口語測試為代表的半直接型口語測試中,最為常見的任務(wù)類型包括朗讀、情景問答、看圖說話、回答問題、聽后回答問題、故事復(fù)述等,這些任務(wù)已在相關(guān)省市的高考英語口語機(jī)考中被廣泛使用。

        (二)多元概化理論

        概化理論是現(xiàn)代心理測量理論之一[6],雖然出現(xiàn)較晚、統(tǒng)計要求比較繁瑣,但隨著計算機(jī)技術(shù)的發(fā)展,其應(yīng)用范圍越來越大,包括常模參照性測驗(yàn)、標(biāo)準(zhǔn)參照性測驗(yàn)、非標(biāo)準(zhǔn)化測驗(yàn)、表現(xiàn)性評價等,受重視程度日漸提升。

        根據(jù)概化理論,傳統(tǒng)意義上測量信度的概念被概化系數(shù)或可靠性系數(shù)取代[7]。概化理論重點(diǎn)關(guān)注分?jǐn)?shù)差異與相關(guān)影響因素(例如考生能力、試題難度等)之間的關(guān)系。在經(jīng)典測量理論的基礎(chǔ)上,概化理論引進(jìn)了實(shí)驗(yàn)設(shè)計和方差分析技術(shù)[8],可以分離各類誤差的方差,并估算出不同方差成分的大小,用于探究不同因素對分?jǐn)?shù)差異造成的影響和各個因素之間的交互作用,這個過程被稱為概化研究或者G研究。在此基礎(chǔ)上,概化理論還能通過實(shí)驗(yàn)性研究估算出不同條件下概化系數(shù)的變化,尋找最佳的誤差控制方法,幫助考試設(shè)計者優(yōu)化試卷設(shè)計,這個過程被稱為概化理論的決策研究或D研究。

        多元概化理論是概化理論的進(jìn)一步發(fā)展,主要適用于具有多個全域分?jǐn)?shù)等方面問題的研究,例如分析當(dāng)總測驗(yàn)被分解成多個分測驗(yàn)時,分測驗(yàn)的信度和試題數(shù)量變化對總測驗(yàn)信度造成的影響[9]。近年來,多元概化理論被廣泛應(yīng)用于高考等大規(guī)模高利害考試的評價中,可定量比較試卷中各個內(nèi)容模塊和相關(guān)題型的區(qū)分度與內(nèi)部一致性,為試卷質(zhì)量研究提供了理論模型和方法依據(jù),有助于考試命題質(zhì)量的提高?;诙嘣呕碚搶谡Z測試進(jìn)行研究,可以分析各項測試任務(wù)的區(qū)分功能和測試信度,探究不同任務(wù)對總分的貢獻(xiàn)程度,便于考試設(shè)計者調(diào)整測試設(shè)計,進(jìn)而更好地達(dá)到預(yù)期的測量效果。

        二、研究設(shè)計

        (一)研究問題

        基于定量分析回答不同類型口語測試任務(wù)的三個問題:

        1.區(qū)分效果分別是什么樣的?

        2.測量精度分別是什么樣的?

        3.對總分的貢獻(xiàn)程度分別是什么樣的?

        (二)研究工具

        基于高考英語學(xué)科對于關(guān)鍵能力中口語表達(dá)的界定[10],結(jié)合常見的口語測試任務(wù)類型,設(shè)計和實(shí)施了一次研究性英語口語測試,采用了計算機(jī)化考試的形式。如表1所示,本次口語測試滿分分值為10分,共11道試題,包含朗讀、聽后回答、回答問題、聽后復(fù)述四項任務(wù),測試過程中允許考生做筆記。

        參加本次口語測試的受試者為華東某省2所中學(xué)的高二年級學(xué)生,有效樣本共725份,其中男生約占45%,女生約占55%,學(xué)生的英語口語水平基本覆蓋了好、中、差各個層次。

        (三)評分設(shè)計

        10名評分員均為來自高校的英語教師,具有大型考試的閱卷經(jīng)驗(yàn)。正式評分開始前,評分員接受了培訓(xùn),熟悉了評分標(biāo)準(zhǔn)并進(jìn)行了試評分,以保證評分尺度的一致性。

        (四)數(shù)據(jù)分析

        采用mGENOVA 2.1程序進(jìn)行多元概化分析全體有效樣本共725份。按照口語測試任務(wù)的結(jié)構(gòu),將全部試題劃分為“朗讀”“聽后回答”“回答問題”“聽后復(fù)述”4個分測試,使用了4因子單面交叉設(shè)計p×i多元概化模型,p代表受試者(測量目標(biāo)),i代表試題(測量側(cè)面),分別計算各項口語測試任務(wù)和整個測試的概化系數(shù)(即信度)。在此基礎(chǔ)上,結(jié)合相關(guān)信息分析各項口語測試任務(wù)對整個測試的貢獻(xiàn)程度。

        三、結(jié)果與討論

        (一)描述性統(tǒng)計

        各項測試任務(wù)的平均得分率從高到低依次為回答問題(68.18%)、朗讀(66.75%)、聽后回答(66.18%)、聽后復(fù)述(45.22%)。這表明,相比其他三項任務(wù),聽后復(fù)述的平均得分率較低,任務(wù)難度相對較大。

        (二)四因子模型的G研究

        基于四因子概化模型的G研究,得到考生效應(yīng)(p)、試題效應(yīng)(i)及考生和試題之間的交互效應(yīng)(pi)在四個因子上的方差與協(xié)方差分量的估計矩陣,如表2所示。

        考生效應(yīng)(p)反映由于考生水平差異導(dǎo)致的成績變異大小。從表2可以看出,四個因子中考生效應(yīng)(p)方差分量從大到小依次為聽后復(fù)述(0.32621)、朗讀(0.23622)、聽后回答(0.22236)、回答問題(0.09165)。這表明,在本次口語測試中,聽后復(fù)述對不同水平考生的區(qū)分作用最大,朗讀和聽后回答的區(qū)分作用大致相當(dāng),回答問題的區(qū)分作用最小??赡軐?dǎo)致這一現(xiàn)象的原因是:回答問題任務(wù)的開放性較大,考生發(fā)揮的空間也比較大,緊扣主題言之成理即可得到一定分?jǐn)?shù),因此比較難以區(qū)分不同水平的考生,而其他三項任務(wù)對考生作答的評判具有相對剛性的約束,更容易區(qū)分不同水平的考生。

        此外,根據(jù)相關(guān)系數(shù)的估計值,四個因子之間的相關(guān)系數(shù)介于0.36和0.51之間,這表明考生在各項任務(wù)上的得分高低順序有所差異。其中可能原因是四項任務(wù)分別測量了考生口語表達(dá)能力的不同方面。

        試題效應(yīng)(i)反映出因試題難度差異導(dǎo)致的成績變異大小。從表2可以看出,聽后復(fù)述的方差分量(0.06921)最大,這表明在所有任務(wù)中,聽后復(fù)述任務(wù)由于試題難度差異造成的考生成績變異最大。換言之,這項任務(wù)的不同試題難度差異最為明顯。造成這個差異的可能原因在于聽后復(fù)述任務(wù)中聽力文本體裁對考生復(fù)述表現(xiàn)的影響。本次口語測試中,聽后復(fù)述的兩道試題分別使用了說明文和記敘文作為輸入內(nèi)容,且兩種體裁的內(nèi)容長度相當(dāng),但考生復(fù)述說明文的得分率明顯低于對記敘文的復(fù)述,在一定程度上表明,對于考生來說,聽取說明文并進(jìn)行復(fù)述的難度大于記敘文,這與此前相關(guān)的研究結(jié)論一致[11]。

        (三)四因子模型的D研究

        1.各項任務(wù)全域分?jǐn)?shù)的測量精度

        通過D研究估計出考生在四項任務(wù)上的全域分?jǐn)?shù)與相應(yīng)誤差項的方差分量,并計算出概化系數(shù)、可靠性指數(shù)及信噪比等指標(biāo),如表3所示。

        從表3可以看出,各項任務(wù)的概化系數(shù)(Gen Coefficient)均超過0.66,表明本次口語測試的試卷質(zhì)量較高,各項任務(wù)具有良好的測量精度、測量誤差較小。各項任務(wù)按照概化系數(shù)從高到低排序,依次為朗讀(0.95287)、聽后復(fù)述(0.86738)、回答問題(0.70215)、聽后回答(0.66259),這表明朗讀相比其他任務(wù)測量精度更高,其中可能的原因是朗讀部分的試題數(shù)量多于其他任務(wù),相當(dāng)于對同一能力反復(fù)進(jìn)行多次測量,因此效果更好。

        2.全域總分的測量精度

        根據(jù)各項任務(wù)的題目數(shù)量比例,對四個因子的全域分?jǐn)?shù)進(jìn)行合成,估計出全域總分與相應(yīng)誤差項的方差分量,以及全域總分的概化系數(shù)、可靠性指數(shù)和信噪比等指標(biāo),如表4所示。

        從表4可以看出,全域總分的概化系數(shù)達(dá)到了0.93555,相對誤差和絕對誤差的方差分量分別僅為0.00909和0.01036,表明本次口語測試的總體測量信度較好。

        3.各項任務(wù)對總分方差的貢獻(xiàn)度

        為進(jìn)一步研究本次口語測試的四項任務(wù)對總分方差的實(shí)際影響程度,計算出各項任務(wù)對測試總分方差的實(shí)際貢獻(xiàn)度,如表5所示。

        從表5可以看出,各項任務(wù)對總分方差的貢獻(xiàn)比例從高到低依次是朗讀(53.52%)、聽后復(fù)述(19.16%)、聽后回答(17.40%)、回答問題(9.12%)。各項任務(wù)對總分方差的貢獻(xiàn)比例與預(yù)先設(shè)定的賦分比例相比,存在一定差距。朗讀任務(wù)的貢獻(xiàn)比例高于賦分比例,聽后回答任務(wù)的貢獻(xiàn)比例大致相當(dāng)于賦分比例,回答問題和聽后復(fù)述任務(wù)的貢獻(xiàn)比例低于賦分比例。其中可能的原因是:朗讀任務(wù)的題量相對較大,包含了5道試題,而且考生成績分布較為分散;而回答問題和聽后復(fù)述任務(wù)都只有2道試題,且考生成績分布相對集中。這表明,可以考慮進(jìn)一步提高朗讀任務(wù)的賦分比例,或者增加回答問題和聽后復(fù)述任務(wù)的試題數(shù)量,以進(jìn)一步提升考試的信度和區(qū)分效果。

        4.各項任務(wù)題目數(shù)量對測量精度的影響研究

        通過D研究計算出各項任務(wù)題目數(shù)量變化對口語測試整體測量信度的影響情況,結(jié)果如表6所示。

        由表6可知,當(dāng)各項任務(wù)的試題數(shù)量增加為2倍和3倍時,總分概化系數(shù)分別增加至0.9667和0.97755。此外,單獨(dú)增加某一項任務(wù)的試題數(shù)量,也可以提高總分概化系數(shù),其中對提升整卷信度作用比較大的是增加朗讀和聽后復(fù)述的題目數(shù)量。

        四、結(jié)論與啟示

        (一)研究結(jié)論

        采用四因子多元概化模型,對同一口語測試中的不同任務(wù)進(jìn)行了分析,得到以下結(jié)論:

        在測量信度方面,本次口語測試的全域總分概化系數(shù)為0.93555,總體測量信度高,達(dá)到了預(yù)期的測量目的。具體到任務(wù)上,朗讀的概化系數(shù)最高,聽后回答的概化系數(shù)最低。四項任務(wù)分別測量了考生不同方面的口語表達(dá)能力,這與考試的構(gòu)念設(shè)計是一致的。

        在區(qū)分效果方面,聽后復(fù)述和朗讀對不同水平考生的區(qū)分效果較好,而聽后復(fù)述由于不同試題難度差異對考生成績造成的影響最為明顯。這表明,需要注意聽后復(fù)述任務(wù)的難度控制,尤其是關(guān)注不同聽力體裁對任務(wù)難度的影響。

        對總分的貢獻(xiàn)程度方面,朗讀對總分變異的貢獻(xiàn)最大且遠(yuǎn)高于其他三項任務(wù),而回答問題的貢獻(xiàn)最小。此外,朗讀對總分方差的貢獻(xiàn)比例高于其賦分比例,而回答問題和聽后復(fù)述對總分方差的貢獻(xiàn)比例低于各自的賦分比例。這表明,應(yīng)該適當(dāng)增加朗讀部分的分值,或者增加回答問題和聽后復(fù)述部分的試題數(shù)量。

        試題數(shù)量變化對總分概化系數(shù)的影響方面,同時增加各項任務(wù)的題目數(shù)量可以提升總分概化系數(shù),而單獨(dú)增加朗讀或聽后復(fù)述的題目數(shù)量對總分概化系數(shù)的提升效果最為明顯。

        (二)研究啟示

        基于上述結(jié)論,在口語測試任務(wù)設(shè)計方面可得到如下啟示。

        Wright提出,根據(jù)交際潛質(zhì)(communicative potential)不同,口語測試任務(wù)可以按照兩個維度進(jìn)行分類:任務(wù)類型和導(dǎo)向[12]。在任務(wù)類型的維度上,口語測試任務(wù)從開放到封閉進(jìn)行排列:開放性任務(wù)對考生作答不作限制,有多種可以接受的答案;封閉性任務(wù)則會對考生的作答進(jìn)行限制,超出范圍的答案是不可接受的。在導(dǎo)向的維度上,口語測試任務(wù)從技能導(dǎo)向到內(nèi)容導(dǎo)向進(jìn)行排列:技能導(dǎo)向任務(wù)一般考查口語能力本身,答案往往比較開放;內(nèi)容導(dǎo)向任務(wù)則將口語能力與具體的內(nèi)容融合起來進(jìn)行考查,答案的可控程度一般較高。

        基于該分類依據(jù),本次口語測試的四項任務(wù)中,朗讀、聽后復(fù)述、聽后回答屬于偏封閉型和內(nèi)容導(dǎo)向的任務(wù)類型,回答問題屬于偏開放型和技能導(dǎo)向的任務(wù)類型。本次研究的結(jié)果表明,整體而言,偏封閉型、內(nèi)容導(dǎo)向的測試任務(wù)比偏開放型、技能導(dǎo)向的測試任務(wù)在區(qū)分效果、測量精度和對總分的貢獻(xiàn)上表現(xiàn)更好。

        從考試命題的角度,內(nèi)容導(dǎo)向的口語測試任務(wù)有助于減少考生“押題”和“背模板”等應(yīng)試現(xiàn)象。從考試評分的角度,封閉型的口語測試任務(wù)因?yàn)樽鞔饍?nèi)容可控,有利于評卷人員把握評分標(biāo)準(zhǔn)、控制評分誤差,最終保障評分質(zhì)量。從考試組織實(shí)施的角度,隨著人力成本的增加,大規(guī)模考試的評分工作和評卷人員的聘請日益成為考試組織機(jī)構(gòu)面臨的一大挑戰(zhàn)。為了解決這個問題,一些大規(guī)??荚嚰娂娺M(jìn)行了機(jī)器自動評分的探索和應(yīng)用[13]。相關(guān)研究表明,封閉型和半封閉型的口語測試任務(wù)機(jī)器評分與人工評分的一致性明顯高于開放型任務(wù)[14]。因此,在口語測試中采用相對封閉型的任務(wù),有助于自動評分的應(yīng)用、減少人工評分的組織成本。

        本研究的主要不足在于考生樣本量偏少且僅限于高二年級學(xué)生,口語測試任務(wù)類型偏少。在今后類似的研究中,可考慮增加樣本數(shù)量和范圍,進(jìn)一步豐富任務(wù)類型,基于更具代表性的受試者群體和更多樣的任務(wù)類型,進(jìn)而對口語測試任務(wù)的特點(diǎn)進(jìn)行更為全面的研究。

        參考文獻(xiàn):

        [1] OLoighlin K. The Equivalence Of Direct And Semi-Direct Speaking Tests [M]. Cambridge University Press,2001:4.

        [2]曾用強(qiáng).對計算機(jī)化考試的幾點(diǎn)思考[J].外語電化教學(xué),2010,(01):52-55.

        [3]侯艷萍.外語高考聽說測試改革的反撥作用研究[J].外語電化教學(xué),2018,(05):23-29.

        [4] Luoma,S. Assessing Speaking [M]. Cambridge University Press,2004:31.

        [5]李夢莉,范琳.機(jī)助口試?yán)碚撃P?、任?wù)特征和評分標(biāo)準(zhǔn)研究——新托福網(wǎng)絡(luò)口試和PhonePass~(TM)SET口試對比分析[J].中國考試,2013,(08):22-27.

        [6]劉遠(yuǎn)我,張厚粲.概化理論在作文評分中的應(yīng)用研究[J].心理學(xué)報,1998,(02):211-218.

        [7]羅照盛,郭小軍.認(rèn)知行為實(shí)驗(yàn)研究中最佳素材容量的選擇與確定:多元概化理論應(yīng)用[J].心理學(xué)報,2014,46(06):876-884.

        [8]楊志明,張雷.測評的概化理論及其應(yīng)用[M].北京:教育科學(xué)出版社,2003:18-20.

        [9]趙軒,任子朝,陳昂.基于多元概化理論的高考數(shù)學(xué)文理科試卷質(zhì)量分析與對比研究[J].數(shù)學(xué)通報,2018,57(01):25-30.

        [10]陳康,吳泓霖,李新煜,等.基于高考評價體系的英語科考試內(nèi)容改革實(shí)施路徑[J].中國考試,2019,(12):33-37.

        [11]柳明明.高考英語聽后口頭復(fù)述任務(wù)效度論證研究[D].北京外國語大學(xué),2015:114-115.

        [12] Wright,T. Instructional Task And Discoursal Outcome In The L2 Classroom [J]. Lancaster Practical Papers in English Language Education,1987,(07):49.

        [13]金艷,王偉,楊浩然.語言測試中的技術(shù)應(yīng)用:基于大學(xué)英語四、六級考試的實(shí)踐分析[J].外語測試與教學(xué),2021,(01):1-7+27.

        [14]孫海洋.國內(nèi)外英語口語自動評分研究綜述[J].外語教育研究前沿,2021,4(02):28-36+89-90.

        Research on English Speaking Test Tasks Based on Multivariate Generalizability Theory

        Wu Honglin

        National Education Examinations Authority,Beijing,100084

        Abstract:Speaking test tasks,which can be seen as activities that involve a speaker in using language for the purpose of achieving a particular communicative goal in a particular speaking situation,are important parts of the design of a speaking test. Based on Multivariate Generalizability Theory,this study analyzes four common tasks such as reading-aloud,listening-and-answering,answering questions and listening-and-retelling focusing on the effect of differentiation,precision of measurement and contribution to the composite score regarding different tasks. The result of the study shows that in general closed and content-oriented speaking test tasks perform better than open and skill-oriented ones do in terms of the effect of differentiation,precision of measurement and contribution to the composite score.

        Key words:Speaking Test Tasks,Multivariate Generalizability Theory,Computer-based Testing

        (責(zé)任編輯:吳茳)

        国产成人亚洲综合| 国产亚洲精品色婷婷97久久久| 午夜大片在线播放观看| 99久久精品费精品国产一区二| 日本欧美大码a在线观看| 无遮挡18禁啪啪羞羞漫画| 一品二品三品中文字幕| 99久久国产露脸精品竹菊传媒| 97无码人妻Va一区二区三区| 国产av丝袜旗袍无码网站| 乱码一二区在线亚洲| 黄色网页在线观看一区二区三区| 精品国产亚洲av久一区二区三区| 日韩人妻久久中文字幕| 一区二区三区精品少妇| 成人毛片一区二区| 国产农村妇女高潮大叫| 91情侣视频| 久久av一区二区三区下| 亚洲一区中文字幕视频| 亚洲人成网站色在线入口口| 成人免费a级毛片无码片2022| 亚洲av无码一区二区乱孑伦as| 九九99无码精品视频在线观看| 伊人精品无码AV一区二区三区 | 好看的中文字幕中文在线| 国产女主播一区二区三区| 特级a欧美做爰片第一次| 亚洲av无码乱观看明星换脸va| 无码午夜剧场| 中文字幕成人乱码亚洲| 免费看av网站在线亚洲| 香蕉久久一区二区不卡无毒影院| 国产午夜毛片v一区二区三区 | 久久成人成狠狠爱综合网| 国产内射在线激情一区| 国产一区二区激情对白在线| 人妻中文字幕一区二区三区| 亚洲一区二区三区综合免费在线| 日韩精品无码中文字幕电影| 中文 国产 无码免费|