亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高考作文改革與評分誤差控制:基于測量學的視角

        2016-06-05 14:19:55關丹丹
        中國考試 2016年5期
        關鍵詞:高考作文信度量表

        關丹丹

        高考作文改革與評分誤差控制:基于測量學的視角

        關丹丹

        從測量學角度來看,高考作文因其評分主觀性強影響了對考生寫作能力甚至是語文能力的測量。如何改革作文才能進一步減小評分誤差、提高考試的公平性,是落實此次考試招生制度改革的一項具體任務。研究一表明,與西方采用的小評分量表相比,我國高考采用的60分制大評分量表評分趨中效應更為嚴重,評分標準更為寬松,不同評分者對評分標準的掌握一致性較差,據(jù)此建議改革高考作文評分量表的設計,將目前的大評分量表改為小評分量表,成績單獨報告。研究二表明,增加作文任務數(shù)量有助于明顯提高評分信度,據(jù)此建議將高考作文由一個大作文變?yōu)橐淮笠恍蓚€作文。

        考試招生制度改革;作文改革;評分量表;評分誤差

        1 研究問題的提出

        2014年9 月,國務院發(fā)布了《關于深化考試招生制度改革的實施意見》,對高考考試內容與形式改革提出了明確的要求,其中關于“改進評分方法,加強評卷管理”的具體要求,其終極目標指向就是要減少評分誤差,確??荚囋u分的公平公正。作文評分質量一直是心理與教育測量領域研究重點關注的問題之一。國內外許多研究證實,作文評分中存在很大誤差,因此作文評分中的誤差控制一直是考試研究中的一個重點。從測量學的角度來講,作文最致命的弱點在于信度,因其評分無法客觀,信度難以保證,更無從談及效度。

        影響作文評分的主要因素有三個層面:考生層面、作文層面和評分者層面。就考生層面而言,主要是考生的寫作能力,這也是測量的目標,但顯然考生的書法質量會帶來評分誤差;就評分者層面而言,造成評分誤差的原因多種多樣,評分者對標準的掌握、評分的寬嚴程度,評分者的個人喜好、疲勞程度,以及在評分過程中的猶豫等個體差異都會損害評分信度[1]。就作文層面而言,作文任務類型會同時影響考生的作答和評分者的評分,作文任務難度和評分標準等也會引起評分員評分的差異。

        近些年,網上(無紙化)閱卷技術為作文評分過程帶來了巨大的便捷,考生的作文圖像通常要經過兩名評分者“背對背”評閱,有的甚至要經過三評、四評,最終得出一個合理的分值。雖然網上閱卷系統(tǒng)通過閾值設置和誤差監(jiān)控等對評分者評卷過程和質量進行了一系列控制,但對評分一致性的過分關注造成了習得性的“越保守,越安全”的趨中評分現(xiàn)象[2]。其中語文作文評分最為明顯,以某年高考語文、英語的作文得分為例,總體來看,語文作文的平均分較高,但標準差過小,這就表示考生的得分集中在中等偏上的高分區(qū),且評分出現(xiàn)了比較明顯的趨中效應,因此對考生的中文寫作能力沒有很好地區(qū)分開;相比較而言,從英語作文得分的統(tǒng)計指標來看,對考生英語寫作能力的區(qū)分比較好(見表1)。

        從測量學角度,高考作文如何改革才能提高作文評分的信度呢?從前面提到的影響作文評分的三個層面的因素來看,考生因素可以暫不考慮;因網上閱卷系統(tǒng)已有比較成熟的質量評價體系,評分者因素只能是“加強評卷管理”;作文因素,或者說作文設計本身如何改革,也許更值得考試工作者研究和思考。

        從測量學技術手段分析,關于作文評分誤差的早期研究多采用經典測量理論(CTT),主要關注評分主體即評分者的一致性。隨著研究者對評分誤差來源的深入認識,以及測量理論和計算機技術的發(fā)展,近些年,開始越來越多地關注評分標準的科學性、評分者的數(shù)量、試題的形式,以及上述因素的交互作用等對評分誤差的影響。這些誤差來源使用傳統(tǒng)的經典測量理論無法有效評估,概化理論(GT)和多面Rasch測量模型(MFRM)則在不同程度上解決了此類問題,成為當前探討作文評分誤差的主要手段[3][4][5]。

        本文聚焦作文本身的改革,探討作文評分量表的設計以及作文任務的數(shù)量對評分信度的影響。研究者分別采用多面Rasch模型和概化理論模型,試圖從現(xiàn)代測量學的視角為減少作文評分誤差提供一個可能的改革思路。

        2 改革作文評分量表設計:大小兩種評分量表的評分誤差比較

        2.1 研究背景

        目前國內外涉及作文的大規(guī)模考試中,只有我國作文部分的分值較大(大評分量表),不論是漢語作文,還是外語作文,且作文成績計入總分;而美國、英國、德國、澳大利亞等國的考試項目作文部分的分值均小于10分(本文稱為小評分量表),且報告分數(shù)獨立于總分(見表2)。

        表2 國內外大規(guī)??荚囎魑牟糠衷u分分值比較

        國外考試為何都選擇小評分量表?在對比國內外考試作文評分量表時,我們最關心的是評分量表的大小是否影響評分效果?具體來說,同一組評分者如果采用兩種評分量表評價同一組考生的作文,我們會問:(1)評分的趨中效應是否存在差別;(2)對評分標準的掌握是否存在差別;(3)評分的穩(wěn)定性是否存在差別。

        表1 我國高考語文和英語作文部分得分的描述統(tǒng)計

        2.2 研究設計與研究方法

        6位評分者先后分別采用大評分量表(0~60/0~40)和小評分量表(0~6),分別對某次考試中113名考生(每名考生完成兩篇作文)的226篇作文進行評分。研究者采用多面Rasch模型,使用FACETS軟件對數(shù)據(jù)進行了分析。

        2.3 研究結果

        研究發(fā)現(xiàn):

        (1)大評分量表趨中評分現(xiàn)象嚴重,不能很好地區(qū)分考生的寫作能力(見圖1、圖2);而且,大評分量表中,評分者使用的有效分數(shù)范圍沒有涵蓋理論值,作文的滿分值越大,評分者使用的有效分數(shù)的比率越低,60分制中,有40%的分數(shù)值沒有被使用。

        (2)大評分量表下評分者對考生作文的評分標準更為寬松,評分比率排名前三的等級集中在高分區(qū),即對考生能力普遍高估(見表3)。

        (3)大評分量表下,不同評分者之間對評分標準的把握不一致,差異顯著(Separation=3.37,Chisquare=63.3,p<0.05);小評分量表下,評分者寬嚴標準上差異不顯著(Separation=0.83,Chi-square=8.5,p>0.05)。

        (4)大小兩種評分量表下,評分者自身一致性均較好(內擬合度均方和外擬合度均方均在可接受范圍0.7~1.3內)。

        總的來看,與小評分量表相比,大評分量表雖然分數(shù)點較多,但并沒有能很好地區(qū)分考生,反而因“趨中”帶來了更大的誤差,使考試評分的準確性和公平性受到威脅。因此,評分量表的設計對作文評分效果有很大的影響,應該引起考試設計者的關注[6]。

        圖1 40/60分制評分的層面圖

        圖2 6分制評分的層面圖

        表3 兩種評分量表下評分等級的比較

        3 改革作文任務數(shù)量設計:作文任務數(shù)量對評分信度的影響

        3.1 研究背景

        GRE、IELTS等國際知名考試的作文部分一般都包含兩個寫作任務,北京2014年也將高考語文作文部分由一篇大作文變?yōu)橐淮笠恍善魑摹目荚嚦闃拥慕嵌葋碇v,增加作文任務的數(shù)量,顯然有助于考查考生的寫作能力。那么從心理測量學角度,增加作文任務的數(shù)量會在多大程度上提高評分信度,作文任務數(shù)量增加至幾篇最為合適呢?

        3.2 研究設計與研究方法

        3位具有一定閱卷經驗的評分者對某次考試113名考生的作文進行評分,每位考生有兩個寫作任務:作文1要求考生分析所給篇章段落存在的缺陷與漏洞,并評述論證的有效性;作文2為一篇論說文。根據(jù)研究一的結果,兩篇作文均采用6分量表進行評分。研究者采用概化理論模型,使用GENOVA軟件研究了作文與評分者數(shù)量變化對評分信度的影響。

        3.3 研究結果

        研究發(fā)現(xiàn):

        (1)在概化研究中,題目水平為2,評分者水平為3,此時概化系數(shù)為0.823,評分信度比較高。

        (2)當決策研究采用P×I×R交叉設計,并假定評分者全域和題目全域都是無限的(兩面隨機),可以通過改變評分者面和題目面的水平數(shù)來看概化系數(shù)的變化(見圖3)。

        圖3 概化系數(shù)隨評分者面和題目面水平數(shù)的變化圖

        增加評分者的數(shù)量和作文任務的數(shù)量均能直接提高作文評分的準確性,且回報都遵循邊際遞減原則。具體為:在評分者人數(shù)不變的情況下,作文任務的數(shù)量由1題增加至2題,概化系數(shù)的增幅最大;在作文任務不變的情況下,評分者人數(shù)由1人(單評)增加至2人(雙評),概化系數(shù)增幅最大。作文任務為2題,評分者采用雙評,概化系數(shù)接近0.76,已比較理想??偟膩砜?,考慮到我國大規(guī)??荚囍饔^題閱卷操作已經實現(xiàn)雙評的前提,增加作文任務數(shù)量對作文評分效果有直接影響,應該引起考試設計者的關注[7]。

        4 政策建議

        根據(jù)以上兩項研究的結果,提出政策建議如下:

        (1)考試設計者可以從作文的評分量表設計上減少評分誤差,提高評分信度。具體為借鑒西方考試機構做法,將高考作文部分由大評分量表改為小評分量表,并單獨報告作文成績。值得注意的是,操作上,高校招生也要相應地改變以考試總分作為錄取唯一依據(jù)的傳統(tǒng)做法。

        (2)考試設計者可以從增加作文任務的數(shù)量上減少評分誤差,提高評分信度。具體為將高考作文部分由一篇寫作任務增加至兩篇寫作任務。值得注意的是,操作上,作文任務數(shù)量的增加要同時考慮到任務難度和考試時間的相應變化,以及考后閱卷工作量的增加等。

        5 結束語

        作文作為考查語言表達能力的重要手段,在我國許多大規(guī)模教育考試中占據(jù)重要地位??刂谱魑脑u分誤差,提高評分質量,是確??荚嚬焦闹匾U稀?/p>

        作文評分誤差的控制是個世界性的難題,完全避免作文評分誤差是不可能的,但是我們可以無限地減小和控制作文評分的誤差。

        [1]Lane,S.,&Stone,C.A.Performance assessment[M]//R.L.Bren?nan.Educational measurement.Washington,DC:American Council on Education,2006:387-431.

        [2]王博,等.主觀評分保守現(xiàn)象的形成機制與控制研究[J].心理學探新,2012(5):429-438.

        [3]Engelhard,G.J.The measurement of writing ability with a manyfacet Rasch Model[J].Applied Measurement in Education,1992(5):171-191.

        [4]劉遠我,張厚粲.概化理論在作文評分中的應用研究[J].心理學報,1998(2):211-218.

        [5]劉紅云,陳閱,駱方.學業(yè)水平測試中作文評分誤差的多面Rasch分析[J].心理科學,2010(4):925-927.

        [6]關丹丹,等.兩種評分量表的評分效應比較研究[J].教育研究與實驗,2011(4):92-96.

        [7]關丹丹.研究生入學考試寫作評分的概化理論研究與多面Rasch分析[J].心理學探新,2014(5):437-440.

        College Entrance Essay Reform and Scoring Error Control: From the Perspective of Psychometrics

        GUAN Dandan

        From the perspective of psychometrics,college entrance essay scoring is so subjective that much impact on measure of writing ability,as well as measure of the candidates’language ability.In order to further reduce the scoring error and improve the fairness of the examination,essay reform is to implement a specific task in the system reform of the Entrance Examination and Enrollment.The first study shows that,compared with small scoring scale in western countries,large scale such as using 60-point rating in China turns out to be more serious effect of tending toward the middle,scoring criterion is more relaxed,and different raters show poor consistency on scoring. So the first suggestion about essay reform is that scoring scale should be designed to be smaller than present large scale,and report the essay scores independently.The second study shows that increasing the number of writing tasks will improve the reliability of scoring.So it is proposed to design two writing tasks instead only one in college entrance essay.

        Examination and Enrollment System Reform;Essay Reform;Scoring Scale;Scoring Error

        G405

        A

        1005-8427(2016)05-0012-5

        關丹丹,女,教育部考試中心,副研究員,博士(北京 100084)

        猜你喜歡
        高考作文信度量表
        高考作文的得分點
        《廣東地區(qū)兒童中醫(yī)體質辨識量表》的信度和效度研究
        高考作文如何用“詞”
        高考作文兩關注
        你眼里的2016高考作文是怎樣的?
        金色年華(2016年12期)2016-12-01 04:34:09
        科技成果評價的信度分析及模型優(yōu)化
        三種抑郁量表應用于精神分裂癥后抑郁的分析
        體育社會調查問卷信度檢驗的方法學探索——基于中文核心體育期刊163篇文章分析
        初中生積極心理品質量表的編制
        心理學探新(2015年4期)2015-12-10 12:54:02
        中文版腦性癱瘓兒童生活質量問卷的信度
        中文字幕亚洲精品码专区| 巨胸喷奶水www视频网站| 国产一区二区三区中文在线| 疯狂添女人下部视频免费| 久久欧美与黑人双交男男| 高h视频在线免费观看| 国产精品亚洲在线播放| 亚洲av无码一区二区三区鸳鸯影院| 国产精品多人p群无码| 最新亚洲精品国偷自产在线| 午夜久久精品国产亚洲av| 亚洲无人区一码二码国产内射| 99久久精品人妻少妇一| 男女猛烈无遮挡免费视频| 国产精品免费久久久久影院仙踪林 | 丰满熟妇乱子伦| 综合网五月| 一本久道视频无线视频试看| 麻豆最新国产av原创| 色吊丝中文字幕| 色丁香色婷婷| 亚洲成av在线免费不卡| 亚洲成人av在线蜜桃| 野外亲子乱子伦视频丶| 国产黄页网站在线观看免费视频| 亚洲中文字幕女同一区二区三区| 亚洲三级香港三级久久| 国产精品视频一区二区三区不卡| 成av人片一区二区三区久久| 亚洲地区一区二区三区| 亚洲一区免费视频看看| 风流老太婆大bbwbbwhd视频| 国产午夜福利小视频合集| 99综合精品久久| 一区二区精品天堂亚洲av| 国产黄大片在线观看画质优化| 久久人人爽人人爽人人片av麻烦 | 真人新婚之夜破苞第一次视频| 国产人在线成免费视频麻豆| 国产精品国产三级国产专播| 欧美成人a在线网站|