亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

高考英語科寫作新題型的概化理論研究

2018-05-30 08:18:31陳康

中國(guó)考試 2018年3期

陳康

（教育部考試中心，北京 100084）

2014年9月，國(guó)務(wù)院發(fā)布《關(guān)于深化考試招生制度改革的實(shí)施意見》（以下簡(jiǎn)稱《實(shí)施意見》），啟動(dòng)了我國(guó)自恢復(fù)高考以來最為全面和系統(tǒng)的考試招生制度改革?！秾?shí)施意見》提出，要深化高考考試內(nèi)容改革，依據(jù)高校人才選拔要求和國(guó)家課程標(biāo)準(zhǔn)，科學(xué)設(shè)計(jì)命題內(nèi)容，增強(qiáng)基礎(chǔ)性、綜合性，著重考查學(xué)生獨(dú)立思考和運(yùn)用所學(xué)知識(shí)分析問題、解決問題的能力。英語作為全國(guó)統(tǒng)考科目之一，內(nèi)容改革勢(shì)在必行。

寫作是英語語言運(yùn)用能力的重要表現(xiàn)形式，高考英語試卷自20世紀(jì)80年代以來一直包含寫作，并由短文改錯(cuò)和書面表達(dá)2種題型組成。2015年，教育部考試中心發(fā)布了供高考綜合改革試驗(yàn)省份使用的英語科考試說明，在寫作部分，以讀寫結(jié)合的新題型取代短文改錯(cuò)題，增加了直接型寫作任務(wù)的比重，強(qiáng)調(diào)讀與寫的綜合考查[1]。

對(duì)大規(guī)?？荚嚩?，測(cè)試的信度非常重要。高考英語試卷結(jié)構(gòu)重新設(shè)計(jì)后，寫作題包括2節(jié)，第1節(jié)是應(yīng)用文寫作，要求考生根據(jù)給定的任務(wù)情境和要求寫1篇短文；第2節(jié)是讀寫結(jié)合題型，要求考生在閱讀1篇文章的基礎(chǔ)上按題目要求續(xù)寫或完成1篇內(nèi)容概要。寫作題均需人工評(píng)閱。改革后寫作題的測(cè)量誤差怎樣？如何保證評(píng)分信度？這些都是測(cè)試設(shè)計(jì)者需要研究和解決的問題。本研究針對(duì)高考英語科寫作新題型，組織實(shí)施模擬測(cè)試并應(yīng)用概化理論（generalizability theory）模型對(duì)測(cè)試結(jié)果進(jìn)行分析，探究測(cè)量誤差的來源，驗(yàn)證高考英語科寫作新題型在測(cè)試信度上的表現(xiàn)。

1 理論基礎(chǔ)

概化理論是一種用來具體分析測(cè)試分?jǐn)?shù)中不同來源變異的測(cè)量模型。經(jīng)典測(cè)量理論假設(shè)觀察分?jǐn)?shù)由真分?jǐn)?shù)和隨機(jī)誤差構(gòu)成。隨機(jī)誤差不可再分解，因此，無法提供誤差來源的具體信息以及有效控制誤差的方法。而概化理論則能提供許多途徑分析不同測(cè)試情境和測(cè)量側(cè)面產(chǎn)生的測(cè)量誤差。應(yīng)用概化理論研究問題包括2個(gè)步驟：概化研究（generalizability study，簡(jiǎn)稱G研究）和決策研究（decision study，簡(jiǎn)稱D研究）[2]。G研究的主要內(nèi)容是在明確測(cè)量側(cè)面和觀測(cè)全域后，依照測(cè)量設(shè)計(jì)和測(cè)量模式收集樣本資料，進(jìn)而估計(jì)各種因素（測(cè)量目標(biāo)以及其他測(cè)量側(cè)面）的效應(yīng)及因素之間的交互效應(yīng)，分析測(cè)量誤差來源。D研究的主要內(nèi)容是以概化研究的結(jié)果為基礎(chǔ)計(jì)算概括全域上的概化系數(shù)（G系數(shù)）和依存性系數(shù)（Φ系數(shù)），并通過調(diào)整測(cè)量設(shè)計(jì)中的各種因素探索控制測(cè)量誤差的方法。此外，研究人員還可以根據(jù)需要確定不同的概括全域，進(jìn)行多個(gè)D研究后觀察各概括全域上的G系數(shù)和Φ系數(shù)，進(jìn)而確定所對(duì)應(yīng)測(cè)驗(yàn)設(shè)計(jì)的效果，為設(shè)計(jì)者決策提供參考。

概化理論在語言測(cè)試?yán)碚撗芯?，尤其是測(cè)試效度研究中得到了進(jìn)一步發(fā)展和深化。Messick認(rèn)為概化力是構(gòu)念效度的一個(gè)側(cè)面，可以從信度和遷移2個(gè)角度來理解[3]。概化力作為信度，是指考生表現(xiàn)在不同測(cè)試任務(wù)、情境和評(píng)分者之間的一致性；概化力作為遷移，是指根據(jù)考生在測(cè)試任務(wù)中的表現(xiàn)可以推測(cè)出其能夠完成的真實(shí)語言交際任務(wù)的范圍，因此它既依賴于概化理論，也離不開構(gòu)念理論的支撐。Bachman和Palmer將概化力定義為一個(gè)特定語言測(cè)試任務(wù)與目標(biāo)語言使用任務(wù)在任務(wù)特點(diǎn)上的一致性程度[4]。這種一致性程度越高，說明測(cè)試任務(wù)的概化力越強(qiáng)，即基于考生在測(cè)試中的表現(xiàn)得到的分?jǐn)?shù)解釋力越強(qiáng)。

在英語寫作測(cè)試中，除學(xué)生的語言運(yùn)用能力外，還可能有很多其他因素會(huì)引起分?jǐn)?shù)變異，比如寫作任務(wù)要求、評(píng)分者、評(píng)分標(biāo)準(zhǔn)等。對(duì)寫作測(cè)試進(jìn)行概化理論研究有助于分析這些不同側(cè)面對(duì)分?jǐn)?shù)變異的影響，進(jìn)而檢驗(yàn)測(cè)試設(shè)計(jì)的效果，明確誤差來源并采取有效措施控制誤差，提高測(cè)試信度。

2 研究方法

2.1 參加人員

研究者在我國(guó)中部某省的一所普通高中擬隨機(jī)抽選600名高三學(xué)生參加測(cè)試，并從該校聘請(qǐng)了4位有豐富教學(xué)經(jīng)驗(yàn)和一定大規(guī)?？荚噷懽黝}目評(píng)分經(jīng)驗(yàn)的高三年級(jí)英語教師作為評(píng)分者。參加測(cè)試的學(xué)生和評(píng)分者普遍表示對(duì)應(yīng)用文寫作題型十分熟悉，但是對(duì)讀寫結(jié)合題型相對(duì)陌生。因此，研究者向他們?cè)敿?xì)介紹了讀后續(xù)寫和概要寫作2種題型的要求和評(píng)分標(biāo)準(zhǔn)。

2.2 測(cè)量工具

高考英語科寫作的第2節(jié)讀寫結(jié)合新題型包括讀后續(xù)寫和概要寫作2種形式，它們?cè)诓煌即尾欢ㄆ诮惶媸褂?。為了將考試中可能出現(xiàn)的2種不同情況都納入研究范圍，研究者準(zhǔn)備了2套試卷，分別為測(cè)試1和測(cè)試2。測(cè)試1包括一個(gè)應(yīng)用文寫作任務(wù)和一個(gè)讀后續(xù)寫任務(wù)，測(cè)試2包括一個(gè)應(yīng)用文寫作任務(wù)和一個(gè)概要寫作任務(wù)。2套試卷均經(jīng)過命題專家審查和校對(duì)，符合高考英語試題質(zhì)量標(biāo)準(zhǔn)。

2.3 數(shù)據(jù)收集

測(cè)試1和測(cè)試2同時(shí)進(jìn)行，實(shí)際有575名學(xué)生參加測(cè)試，281名學(xué)生參加了測(cè)試1，294名學(xué)生參加了測(cè)試2。測(cè)試結(jié)束后，4位評(píng)分者分為2組，其中2位負(fù)責(zé)評(píng)閱測(cè)試1，另外2位負(fù)責(zé)評(píng)閱測(cè)試2。評(píng)分采用雙評(píng)制，每位評(píng)分者對(duì)所負(fù)責(zé)的所有學(xué)生作答獨(dú)立進(jìn)行評(píng)分，不與其他人討論。針對(duì)測(cè)試中的應(yīng)用文寫作和讀寫結(jié)合題目，評(píng)分者均按照高考英語科寫作部分評(píng)分標(biāo)準(zhǔn)中的5個(gè)檔次進(jìn)行整體評(píng)分，評(píng)分結(jié)束后研究者核查了學(xué)生名單和分?jǐn)?shù)，確保無誤。

2.4 數(shù)據(jù)分析

為了分析測(cè)試1和測(cè)試2中題目和評(píng)分者對(duì)測(cè)試信度的影響，研究者采用p×i×r兩面交叉設(shè)計(jì)分別對(duì)2個(gè)測(cè)試的評(píng)分結(jié)果做G研究。其中，p代表學(xué)生的英語寫作能力；i代表題目側(cè)面，有2個(gè)水平；r代表評(píng)分者側(cè)面，同樣有2個(gè)水平。題目側(cè)面和評(píng)分者側(cè)面均為隨機(jī)，使用GENOVA軟件進(jìn)行數(shù)據(jù)處理。

3 結(jié)果與討論

3.1 G研究

本研究針對(duì)測(cè)試1和測(cè)試2的結(jié)果分別做了G研究，通過p×i×r交叉設(shè)計(jì)可以得到p、r、i3種主效應(yīng)以及pr、pi、ri、pri4種交互效應(yīng)，結(jié)果見表1和表2。

表1 測(cè)試1各效應(yīng)的方差成分估計(jì)值及標(biāo)準(zhǔn)誤

表2 測(cè)試2各效應(yīng)的方差成分估計(jì)值及標(biāo)準(zhǔn)誤

在測(cè)試1和測(cè)試2各效應(yīng)的方差分量中，最大的均為考生方差分量，即真分?jǐn)?shù)方差分量（分別占各自方差分量總和的44.0%和39.6%），這表明2套試卷對(duì)考查目標(biāo)的測(cè)量都比較準(zhǔn)確，測(cè)試成績(jī)的總變異主要來自于考生英語寫作能力的差異。

方差分量位居第二的均為考生與評(píng)分者交互效應(yīng)的方差分量（分別占各自方差分量總和的20.3%和24.9%），位居第三的為考生、評(píng)分者與題目三者間交互效應(yīng)的方差分量（分別占各自方差分量總和的16.8%和18.7%），評(píng)分者主效應(yīng)的方差分量排在第四位（分別占各自方差分量總和的9.5%和13.0%），而評(píng)分者與試題交互效應(yīng)的方差分量很?。ň謩e占各自方差分量總和的0.1%）。這說明評(píng)分者誤差存在，并且主要表現(xiàn)在某些評(píng)分者在一些學(xué)生作答的評(píng)分尺度上缺乏一致性。

在測(cè)試1和測(cè)試2各效應(yīng)的方差分量中，試題主效應(yīng)的方差分量均比較小（分別占各自方差分量總和的2.0%和0.1%），說明使用不同試題考查學(xué)生寫作能力不會(huì)有很大差別，試題設(shè)計(jì)較科學(xué)合理。試題與評(píng)分者交互效應(yīng)的方差分量非常小，而試題與學(xué)生交互效應(yīng)的方差分量相對(duì)較大（分別占各自方差分量總和的7.3%和3.6%），說明評(píng)分者在不同題目之間的評(píng)分一致性很高，而考生在不同題目上的表現(xiàn)差異較大，這可能是學(xué)生對(duì)新題型不熟悉的緣故。

3.2 D研究

在對(duì)測(cè)試1和測(cè)試2的結(jié)果G研究的基礎(chǔ)上，又進(jìn)行了D研究，采用P×I×R交叉設(shè)計(jì)，并假定題目全域和評(píng)分者全域都是無限的，可以通過調(diào)整題目面和評(píng)分者面水平數(shù)來觀察G系數(shù)和Φ系數(shù)的變化。

3.2.1 G系數(shù)

概化理論中的G系數(shù)是測(cè)量目標(biāo)的有效變異占有效變異與相對(duì)誤差變異之和的比值，也可以理解為全域分?jǐn)?shù)變異與觀測(cè)分?jǐn)?shù)期望值之比。圖1和圖2分別顯示的是在測(cè)試1和測(cè)試2中將題目數(shù)量和評(píng)分者數(shù)量由1個(gè)增加到4個(gè)時(shí)G系數(shù)的變化情況。當(dāng)評(píng)分者數(shù)量固定，題目數(shù)量由1個(gè)增加到2個(gè)時(shí)，G系數(shù)的提高幅度最大（測(cè)試1約0.10，測(cè)試2約0.06），之后繼續(xù)增加題目數(shù)量，G系數(shù)變化不大。當(dāng)題目數(shù)量固定時(shí)，評(píng)分者數(shù)量由1個(gè)增加到2個(gè)時(shí)，G系數(shù)的提高幅度最大（測(cè)試1約0.13，測(cè)試2約0.15），之后繼續(xù)增加評(píng)分者數(shù)量，G系數(shù)變化不大。對(duì)于提高G系數(shù)而言，增加評(píng)分者數(shù)量的效果優(yōu)于增加題目數(shù)量效果。測(cè)試1和測(cè)試2中均有2道寫作題和2位評(píng)分者，其G系數(shù)均在0.7左右，說明2個(gè)測(cè)試的信度較高。

圖1 測(cè)試1題目面和評(píng)分者面數(shù)量變化時(shí)G系數(shù)的變化

圖2 測(cè)試2題目面和評(píng)分者面數(shù)量變化時(shí)G系數(shù)的變化

3.2.2 Φ系數(shù)

概化理論中的Φ系數(shù)是測(cè)量目標(biāo)自身的分?jǐn)?shù)變異在全體分?jǐn)?shù)變異中所占的比率。圖3和圖4分別顯示的是在測(cè)試1和測(cè)試2中將題目數(shù)量和評(píng)分者數(shù)量由1個(gè)增加到4個(gè)時(shí)Φ系數(shù)的變化情況。當(dāng)評(píng)分者數(shù)量固定，題目數(shù)量由1個(gè)增加到2個(gè)時(shí)，Φ系數(shù)的提高幅度最大（測(cè)試1約0.08，測(cè)試2約0.05），之后繼續(xù)增加題目數(shù)量，Φ系數(shù)變化不大。當(dāng)題目數(shù)量固定時(shí)，評(píng)分者數(shù)量由1個(gè)增加到2個(gè)時(shí)，Φ系數(shù)的提高幅度最大（測(cè)試1約0.14，測(cè)試2約0.16），之后繼續(xù)增加評(píng)分者數(shù)量，Φ系數(shù)變化不大。對(duì)于提高Φ系數(shù)而言，增加評(píng)分者數(shù)量的效果優(yōu)于增加題目數(shù)量效果。測(cè)試1和測(cè)試2中均有2道寫作題和2位評(píng)分者，其Φ系數(shù)均在0.6～0.7之間，說明2個(gè)測(cè)試中評(píng)分者一致性程度較高。

圖3 測(cè)試1題目面和評(píng)分者面數(shù)量變化時(shí)Φ系數(shù)的變化

圖4 測(cè)試2題目面和評(píng)分者面數(shù)量變化時(shí)Φ系數(shù)的變化

3.3 研究局限

本研究存在以下不足：第一，采用模擬測(cè)試的方法獲取數(shù)據(jù)，學(xué)生的作答動(dòng)機(jī)和評(píng)分者的評(píng)分狀態(tài)與正式高考存在差別，若能以正式高考的數(shù)據(jù)進(jìn)行分析，則結(jié)論會(huì)更具說服力。第二，雖然向參加測(cè)試的學(xué)生和負(fù)責(zé)評(píng)分的教師詳細(xì)地介紹了讀寫結(jié)合的新題型，但是學(xué)生缺乏充分訓(xùn)練，評(píng)分者對(duì)評(píng)分標(biāo)準(zhǔn)不熟悉等因素依然對(duì)測(cè)試和評(píng)分結(jié)果有一定影響。

4 總結(jié)與啟示

通過對(duì)高考英語科寫作2種新題型同時(shí)進(jìn)行模擬測(cè)試并對(duì)測(cè)試結(jié)果進(jìn)行概化理論分析可以得出：第一，高考英語科寫作題目方面的誤差較小。此外，高考英語科寫作題直接型寫作任務(wù)由1個(gè)增加到2個(gè)，在一定程度上提高了該題的測(cè)試信度。第二，影響高考英語科寫作題評(píng)分的主要因素是評(píng)分者，采用雙評(píng)制有助于測(cè)試信度保持在比較理想的水平。

上述結(jié)論也對(duì)高考英語科寫作題的命題工作具有一定的啟示：第一，對(duì)于新設(shè)計(jì)的題型，需要持續(xù)跟蹤研究評(píng)分情況和反撥效應(yīng)，收集各方面的意見和建議，為繼續(xù)完善做好準(zhǔn)備。第二，需要聚焦評(píng)分者層面，加強(qiáng)評(píng)分標(biāo)準(zhǔn)與評(píng)分質(zhì)量控制研究，進(jìn)一步提高寫作題評(píng)分信度。

[1]教育部考試中心.普通高等學(xué)校招生全國(guó)統(tǒng)一考試英語科考試說明（高考綜合改革試驗(yàn)省份使用）（第一版）[M].北京:高等教育出版社,2015.

[2]楊志明,張雷.測(cè)評(píng)的概化理論及其應(yīng)用[M].北京:教育科學(xué)出版社,2003.

[3]MESSICK S.Validity and washback in language testing[J].Language Testing,1996,13（3）:241-256.

[4]BACHMAN L,PALMER A.Language assessment in practice[M].Oxford:Oxford University Press,2010.