亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “證據(jù)推理”能力測(cè)評(píng)工具的開(kāi)發(fā)與檢驗(yàn)

        2024-01-04 10:23:38羅瑪
        考試研究 2023年5期
        關(guān)鍵詞:證據(jù)推理能力

        [摘要]“證據(jù)推理”能力強(qiáng)調(diào)從已有經(jīng)驗(yàn)、問(wèn)題情境中識(shí)別、轉(zhuǎn)換、形成證據(jù),利用證據(jù)進(jìn)行推理,從而獲得結(jié)論、解決問(wèn)題的關(guān)鍵能力。基于測(cè)量評(píng)價(jià)理論的探討,確立測(cè)評(píng)工具研制的思路,利用前期研究中確立的“證據(jù)推理”能力的內(nèi)涵結(jié)構(gòu),參考PISA試題,研究設(shè)計(jì)了試測(cè)工具。利用效標(biāo)關(guān)聯(lián)設(shè)計(jì)和Rasch分析方法檢驗(yàn)工具的信效度。根據(jù)數(shù)據(jù)結(jié)果對(duì)其進(jìn)行修正,最終形成更為科學(xué)、信效度高、實(shí)用性好的“證據(jù)推理”能力測(cè)評(píng)工具。研究中測(cè)評(píng)工具的開(kāi)發(fā)思路和方法,可以為素養(yǎng)、能力測(cè)評(píng)工作提供一定的借鑒。

        [關(guān)鍵詞]“證據(jù)推理”能力;測(cè)評(píng)工具;Rasch分析;實(shí)證檢驗(yàn)

        [中圖分類號(hào)]G424.74[文獻(xiàn)標(biāo)識(shí)碼]A

        [文章編號(hào)]1673—1654(2023)05—050—011

        基金項(xiàng)目本文系浙江省社科規(guī)劃課題“基于項(xiàng)目式學(xué)習(xí)發(fā)展學(xué)生科學(xué)思維能力的跨學(xué)科實(shí)踐和測(cè)評(píng)研究”(課題編號(hào):23NDJC133YB)的階段性研究成果之一。

        學(xué)科核心素養(yǎng)是不同學(xué)科培養(yǎng)人的指引,是課程目標(biāo),也是評(píng)價(jià)依據(jù)。其中,理科課程對(duì)推理思維的培養(yǎng)顯示出高度的重視[1],在各科目的課程標(biāo)準(zhǔn)文件中有著不同但明確的表達(dá),如數(shù)學(xué)學(xué)科中的“邏輯推理”、物理學(xué)科中的“科學(xué)思維”、化學(xué)學(xué)科中的“證據(jù)推理”、生物學(xué)科中的“理性思維”等。雖然表達(dá)各異,但對(duì)于科學(xué)研究的本質(zhì)過(guò)程與思維要求,學(xué)界形成了共識(shí),如“基于事實(shí)證據(jù)和科學(xué)推理對(duì)不同觀點(diǎn)和結(jié)論提出質(zhì)疑、批判,進(jìn)而提出創(chuàng)造性見(jiàn)解”[2]是科學(xué)思維的要求,也是科學(xué)素養(yǎng)的體現(xiàn)。本研究關(guān)注的是“基于證據(jù)的推理”能力素養(yǎng),嘗試開(kāi)發(fā)能夠測(cè)評(píng)這種構(gòu)念的工具,并利用實(shí)證數(shù)據(jù)進(jìn)行檢驗(yàn)、修正。

        在前期研究的基礎(chǔ)上,確立“證據(jù)推理”能力這一構(gòu)念的內(nèi)涵、結(jié)構(gòu);與之相匹配,選擇測(cè)評(píng)工具的內(nèi)容載體,使每個(gè)項(xiàng)目都有明確的水平要求,每個(gè)水平層次都有多個(gè)項(xiàng)目來(lái)測(cè)查;結(jié)合專家審議的方式初步構(gòu)建出測(cè)評(píng)的工具,由此保證其內(nèi)容效度和表面效度。繼而利用實(shí)證校驗(yàn)(empirical validation)的方式對(duì)工具進(jìn)行質(zhì)量檢驗(yàn),將試測(cè)工具與經(jīng)典的LCTSR(LawsonsClassroomTestofScientific Reasoning)相比較,進(jìn)行效標(biāo)關(guān)聯(lián)效度的檢驗(yàn)?;赗asch測(cè)量模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行質(zhì)量分析;依據(jù)參數(shù)結(jié)果,結(jié)合訪談,進(jìn)行項(xiàng)目的修正、優(yōu)化,最終獲得質(zhì)量檢驗(yàn)合格的測(cè)評(píng)工具。

        一、測(cè)評(píng)對(duì)象的內(nèi)涵結(jié)構(gòu)

        測(cè)評(píng)對(duì)象為“證據(jù)推理”能力,首先需要對(duì)該構(gòu)念進(jìn)行界定。結(jié)合新課標(biāo)中學(xué)科核心素養(yǎng)的闡釋,及國(guó)內(nèi)外文件中對(duì)能力素養(yǎng)的表達(dá),將“證據(jù)推理”能力(Evidence-based Reasoning Competence,ERC)定義為:在科學(xué)學(xué)習(xí)中,從已有經(jīng)驗(yàn)、問(wèn)題情境中識(shí)別、轉(zhuǎn)換、形成證據(jù),利用證據(jù)進(jìn)行推理,從而獲得結(jié)論、解決問(wèn)題的能力表現(xiàn)[3]。識(shí)別、篩選證據(jù),轉(zhuǎn)換、形成證據(jù),應(yīng)用、評(píng)價(jià)證據(jù)等過(guò)程是科學(xué)探究和科學(xué)實(shí)踐的重要環(huán)節(jié),是科學(xué)工作者展開(kāi)科學(xué)研究、得到科學(xué)發(fā)現(xiàn)的基本過(guò)程。關(guān)注于“基于證據(jù)的推理”能力,也即“證據(jù)推理”能力,對(duì)科學(xué)學(xué)習(xí)和教學(xué)具有重要意義。

        基于理論探討和德?tīng)柗普{(diào)查法,整合“證據(jù)”和“推理”兩方面的復(fù)雜性,逐步構(gòu)建形成了可操作的、多水平遞進(jìn)的“證據(jù)推理”能力框架(Framework of Evidencebased Reasoning Competence,F(xiàn)ERC)[4]。最終的框架確立了6個(gè)水平,在每一級(jí)推理復(fù)雜性水平之下各有兩個(gè)子水平(a與b),在證據(jù)復(fù)雜性上交叉體現(xiàn),如表1所示??蚣芊从沉藢W(xué)生“證據(jù)推理”能力的不同水平表現(xiàn),即測(cè)評(píng)對(duì)象的內(nèi)涵結(jié)構(gòu)。

        在此框架中,證據(jù)的復(fù)雜性(CE)從三個(gè)方面去刻畫(huà),涉及證據(jù)的顯現(xiàn)程度(以E表示顯性,I表示隱性)、情境熟悉度(以F表示熟悉,U表示陌生),以及所需證據(jù)的數(shù)量(S表示單一證據(jù),M表示多重證據(jù));推理的復(fù)雜性(CR)劃分為三個(gè)層級(jí),初級(jí)水平、過(guò)渡水平和高級(jí)水平。例如,當(dāng)學(xué)生解答問(wèn)題時(shí),遭遇一個(gè)陌生情境(U),線索不明(I),而且所需利用的證據(jù)較多(M),在這種復(fù)雜性表征的組合情況下(MIU),其解決問(wèn)題的困難程度自然最高;若學(xué)生遇到的是熟悉的情境(F),僅需單一證據(jù)(S),而且顯而易見(jiàn)(E),這種證據(jù)復(fù)雜性(SEF)對(duì)思維的要求最低。

        二、測(cè)評(píng)工具的設(shè)計(jì)

        依據(jù)測(cè)評(píng)工具開(kāi)發(fā)的理論基礎(chǔ),按照研制思路,參照測(cè)量構(gòu)念的水平框架,進(jìn)行測(cè)評(píng)工具的設(shè)計(jì)。

        (一)項(xiàng)目編制的原則

        測(cè)量是以被試對(duì)工具項(xiàng)目的作答反應(yīng)區(qū)分被試的能力水平,工具項(xiàng)目的難度表征需從主客體兩方面考慮[5]。被試群體是根據(jù)測(cè)量理論或?qū)嶋H情況挑選出的樣本,而項(xiàng)目本身的復(fù)雜程度則是在工具研制過(guò)程中必須設(shè)計(jì)、考慮的。從項(xiàng)目或工具客體的影響來(lái)看,項(xiàng)目的新穎性、邏輯結(jié)構(gòu)[6]、情境設(shè)置、任務(wù)要求等問(wèn)題本身的屬性影響著項(xiàng)目的難度,其本質(zhì)是關(guān)系復(fù)雜性(relational complexity)的作用[7]。

        本研究所關(guān)注的是學(xué)生在科學(xué)領(lǐng)域的能力表現(xiàn),因此內(nèi)容涉及科學(xué)學(xué)習(xí)、科學(xué)知識(shí)方面,這是項(xiàng)目設(shè)計(jì)可供選擇的情境來(lái)源和內(nèi)容依托?!白C據(jù)推理”能力的測(cè)查項(xiàng)目應(yīng)注重情境的創(chuàng)設(shè),在解決問(wèn)題的過(guò)程中,從項(xiàng)目的情境中挖掘“證據(jù)”,在頭腦中進(jìn)行轉(zhuǎn)換,運(yùn)用推理思維去作答。根據(jù)水平框架(表1),證據(jù)所依托的內(nèi)容載體應(yīng)從顯性/隱性、熟悉/陌生等多個(gè)方面去設(shè)計(jì)。

        例如,大型的國(guó)際測(cè)評(píng)項(xiàng)目PISA就是以“能力”測(cè)評(píng)為核心目標(biāo),以“情境”為主要載體,依據(jù)包含“能力”“知識(shí)”和“態(tài)度”的科學(xué)框架,開(kāi)發(fā)了科學(xué)能力測(cè)評(píng)工具[8]。一般不要求學(xué)過(guò)有關(guān)的知識(shí),只需根據(jù)題目情境、文字說(shuō)明(提供信息)、圖表(如條形圖)等,加以分析、轉(zhuǎn)換,提取出有價(jià)值的“證據(jù)”,結(jié)合題目前面所提供的信息(類似于科學(xué)常識(shí)、道理)建立出正確的關(guān)系(運(yùn)用推理思維),這樣才能正確解答問(wèn)題[9]。題目的呈現(xiàn)形式和情境要求增加了解答的難度,主要涉及可能不熟悉的情境,甚至非常陌生,是被試解決問(wèn)題的障礙之一;題目中的圖像解讀,需要被試從中提取“證據(jù)”,建立簡(jiǎn)單的數(shù)學(xué)關(guān)系或因果關(guān)系等,做出推斷。此外,與PISA一樣,還需設(shè)計(jì)詳細(xì)的評(píng)分標(biāo)準(zhǔn)和編碼,尤其是對(duì)于非選擇題(如建構(gòu)反應(yīng)題)。

        基于以上分析,項(xiàng)目設(shè)計(jì)主要遵循了以下原則:①項(xiàng)目中盡量不涉及具體的學(xué)科知識(shí)要求;②以不同的情境為載體;③以多種形式表現(xiàn)證據(jù)及其復(fù)雜性,如圖表、文字等混合呈現(xiàn);④能力要求依據(jù)框架而來(lái),水平層次具體而清晰;⑤避免冗長(zhǎng)多余的表述增加閱讀負(fù)擔(dān)等。據(jù)此,結(jié)合專家小組審議的建議保證基本的表面效度,開(kāi)發(fā)了適于測(cè)查學(xué)生“證據(jù)推理”能力的工具。

        (二)項(xiàng)目對(duì)應(yīng)與評(píng)分

        參考PISA 2006的科學(xué)樣題①,初步編制的測(cè)評(píng)工具共有25個(gè)項(xiàng)目,包含12個(gè)單項(xiàng)選擇題(P01,P02,P06,P07,P08,P10,P11,P14,P15,P18,P19,P23);13個(gè)建構(gòu)反應(yīng)題,其中8個(gè)1分題(P03,P04,P05,P09,P16,P17,P20,P25),5個(gè)2分題(P12,P13,P21,P22,P24),滿分為30分。工具項(xiàng)目的情境豐富,涉及科學(xué)的多個(gè)領(lǐng)域,涉及的證據(jù)來(lái)源于生活現(xiàn)象、實(shí)驗(yàn)現(xiàn)象、科學(xué)常識(shí)、科學(xué)史料、數(shù)據(jù)資料等。

        在項(xiàng)目設(shè)計(jì)的過(guò)程中,需要從顯現(xiàn)度、情境熟悉度和所需證據(jù)數(shù)量三個(gè)方面考慮每道題所呈現(xiàn)的“證據(jù)”,確保每道題都有一個(gè)水平歸屬,不至于出現(xiàn)某水平上沒(méi)有可測(cè)的項(xiàng)目,或者某項(xiàng)目的水平不明的情況。試測(cè)項(xiàng)目與框架水平的對(duì)應(yīng)情況如表2所示。

        例如項(xiàng)目P01,是一道選擇題,正確答案是D。題目涉及的情境是齲齒問(wèn)題,被試很熟悉,而且解題所需的證據(jù)可以直接從題干中獲得,利用簡(jiǎn)單的信息即可推理得到“細(xì)菌產(chǎn)生酸性物質(zhì)”,能力水平要求低。而項(xiàng)目P12要求通過(guò)實(shí)驗(yàn)情境(以圖示和文字說(shuō)明)推導(dǎo)出壓強(qiáng)(或壓力)的影響因素,解題的證據(jù)并不復(fù)雜,但需要從圖中對(duì)比、轉(zhuǎn)換才能獲?。╝與b相比增加了重量或質(zhì)量),比較隱性,而且相比于齲齒、沙灘或雪地上的行走,被試并不熟悉利用小凳子和海綿做實(shí)驗(yàn)的這種特定情境,下一步做出正確推理,回答出影響因素并不難。項(xiàng)目P12是建構(gòu)反應(yīng)題,獲得滿分(2分)還需要正確、完整地回答出因素與結(jié)果之間的關(guān)系,可參考評(píng)分標(biāo)準(zhǔn)示例。

        項(xiàng)目示例(P01):

        生活在我們口腔中的細(xì)菌會(huì)導(dǎo)致齲齒(牙齒蛀蝕)。對(duì)于齲齒,我們查找到以下信息:

        ·導(dǎo)致齲齒的細(xì)菌以糖為食物;

        ·糖能轉(zhuǎn)化成酸性物質(zhì);

        ·酸性物質(zhì)會(huì)破壞牙齒表面;

        ·刷牙對(duì)預(yù)防齲齒有幫助。

        (1)(1分)為什么細(xì)菌會(huì)造成齲齒?()(P01)

        A細(xì)菌產(chǎn)生琺瑯質(zhì)B細(xì)菌產(chǎn)生糖

        C細(xì)菌產(chǎn)生礦物質(zhì)D細(xì)菌產(chǎn)生酸性物質(zhì)

        項(xiàng)目示例(P12):

        人在沙灘或雪地上行走,會(huì)在沙灘或雪地上留下腳印,即壓力會(huì)使物體的表面產(chǎn)生凹陷的效果。為探究影響壓力效果的相關(guān)因素,開(kāi)展實(shí)驗(yàn)(如下圖所示),通過(guò)比較海綿凹陷的程度,得出結(jié)論。

        (1)(2分)對(duì)比a與b,你能發(fā)現(xiàn)影響壓力效果的因素之一是什么?并請(qǐng)用一兩句話描述這個(gè)結(jié)論。(P12)

        評(píng)分標(biāo)準(zhǔn)示例(P12):

        以下回答計(jì)2分:正確回答了因素,并且正確描述或?qū)Ρ攘爽F(xiàn)象及壓力大小的作用效果。

        ·可能的回答:因素是重物(壓力)的大?。ǘ嗌伲?;受力面相同時(shí)(或描述出圖a與b都是凳子腳作用于海綿),壓力越大(或說(shuō)明加上重物),壓力的作用效果越明顯。

        以下回答計(jì)1分:正確回答了因素;但僅描述或?qū)Ρ攘爽F(xiàn)象,未描述作用效果與壓力大小這個(gè)變量之間的關(guān)系。

        ·可能的回答:因素是重物(壓力)的大小(多少);圖a壓得淺,圖b壓得深。

        以下回答計(jì)0分:因素回答錯(cuò)誤(即使現(xiàn)象對(duì)比的描述正確,也計(jì)為完全錯(cuò)誤);或因素與現(xiàn)象對(duì)比均錯(cuò)誤;或僅作答一部分且錯(cuò)誤。

        ·可能的回答:因素是接觸面;重物大,作用效果明顯。

        未填答記-3(缺失值)

        在統(tǒng)計(jì)編碼時(shí),將沒(méi)有作答的記為缺失值(編碼為-3),而非賦0分;得分即編碼數(shù)字;選擇題回答正確則編碼為1,錯(cuò)誤為0,未作答的缺失情況同樣編碼為-3;卷面最低得分為0,最高分為30分。

        三、測(cè)評(píng)工具的檢驗(yàn)

        除了利用專家審議的方法保證工具的內(nèi)容效度、表面效度之外,還應(yīng)運(yùn)用試測(cè)收集實(shí)證數(shù)據(jù)的方式進(jìn)行質(zhì)量分析。本研究進(jìn)行了試測(cè),使用效標(biāo)關(guān)聯(lián)的方法及Rasch測(cè)量模型進(jìn)行數(shù)據(jù)分析。

        (一)試測(cè)概述

        在正式的試測(cè)之前,挑選部分樣本進(jìn)行了小范圍測(cè)試,以檢視ERC工具施測(cè)時(shí)可能發(fā)生的情況,如測(cè)試時(shí)長(zhǎng)、學(xué)生閱讀題項(xiàng)所遇到的問(wèn)題等。之后挑選樣本進(jìn)行試測(cè),基本流程和數(shù)據(jù)處理方式概述如下。

        1.測(cè)試實(shí)施的流程

        以效標(biāo)關(guān)聯(lián)效度(criterion validity)為指標(biāo)檢驗(yàn)“證據(jù)推理”能力(ERC)測(cè)評(píng)工具的實(shí)用效度(pragmatic validity)。許多研究采用LCTSR[10-11]進(jìn)行推理能力的評(píng)價(jià)和分析,其內(nèi)容效度已然得到證實(shí)[12-13],因此可以將LCTSR作為一個(gè)基準(zhǔn),來(lái)檢視另一個(gè)測(cè)量工具,以二者的相關(guān)性來(lái)說(shuō)明新的測(cè)量工具是否具有效標(biāo)效度。

        試測(cè)包含兩次測(cè)試。首先利用LCTSR對(duì)被試樣本進(jìn)行測(cè)試,回收測(cè)試數(shù)據(jù);在一周后,對(duì)同一批樣本進(jìn)行“證據(jù)推理”能力的測(cè)試。在兩次測(cè)試過(guò)程中,由班主任或任課教師主試,向?qū)W生簡(jiǎn)要說(shuō)明測(cè)試的基本情況,強(qiáng)調(diào)根據(jù)題目信息進(jìn)行作答(兩次測(cè)試的卷首位置均提供了說(shuō)明),測(cè)試時(shí)間均為30分鐘。

        2.試測(cè)的樣本選擇

        兩次測(cè)試的樣本來(lái)自S市的兩所初級(jí)中學(xué)(YC與YL),包含八、九兩個(gè)年級(jí),這兩所中學(xué)的基本情況類似,教學(xué)質(zhì)量位于區(qū)內(nèi)中等水平,數(shù)據(jù)分析時(shí),并不比較學(xué)校差異,將樣本混合進(jìn)行整體考查。

        發(fā)放的測(cè)試卷共有627份,其中YC中學(xué)248人,八年級(jí)154人,九年級(jí)94人;YL中學(xué)379人,八年級(jí)186人,九年級(jí)193人。剔除未作答的答卷(缺失處理),前后兩次測(cè)試的有效樣本率均達(dá)到95%以上。被試的基本情況如表3所示,參加LCTSR測(cè)試的有效樣本數(shù)為N=582,ERC測(cè)試的有效樣本共有593人,兩個(gè)測(cè)試均是男生略多于女生,8年級(jí)略多于9年級(jí)。

        3.數(shù)據(jù)的處理方式

        施測(cè)之后,評(píng)閱所收集的問(wèn)卷,評(píng)閱人為課程與教學(xué)論專業(yè)的博士生1名、碩士生1名,評(píng)閱之前對(duì)其進(jìn)行培訓(xùn)和指導(dǎo),嚴(yán)格按照評(píng)分標(biāo)準(zhǔn)進(jìn)行。對(duì)于建構(gòu)反應(yīng)題,評(píng)判不一致時(shí)需互相商議,仍無(wú)法達(dá)成一致則交由專家組決斷。

        以LCTSR測(cè)試的結(jié)果為標(biāo)桿,與同樣本下的ERC測(cè)試結(jié)果相比對(duì),計(jì)算相關(guān)系數(shù)表征后一工具的效度。然后,運(yùn)用Rasch測(cè)量模型對(duì)本輪試測(cè)結(jié)果進(jìn)行具體分析,以期對(duì)ERC測(cè)評(píng)工具進(jìn)行質(zhì)量檢驗(yàn),更為重要的是獲得工具修正的依據(jù)。

        (二)試測(cè)結(jié)果

        按照第二輪試測(cè)的流程,利用SPSS 22.0對(duì)測(cè)試的數(shù)據(jù)進(jìn)行描述分析和校標(biāo)效度檢驗(yàn),利用WINSTEPS 3.72.0進(jìn)行Rasch分析。

        1.描述統(tǒng)計(jì)與效標(biāo)效度

        信度系數(shù)為Cronbachsα=0.809(N=593),表明ERC測(cè)評(píng)工具的內(nèi)部一致性信度良好,可以認(rèn)為25個(gè)項(xiàng)目所測(cè)查的是同一種構(gòu)念[14]。

        將ERC與LCTSR測(cè)試進(jìn)行匹配,共計(jì)552名被試作答了兩次測(cè)試,二者得分的相關(guān)系數(shù)為0.527(Pearson積差相關(guān)),統(tǒng)計(jì)顯著(p = 0.000,N=552),即顯著的中度相關(guān),說(shuō)明用于試測(cè)的ERC測(cè)評(píng)工具具有較好的實(shí)用效度。

        總的來(lái)說(shuō),SPSS分析獲得的信效度系數(shù)反映試測(cè)工具的質(zhì)量良好。對(duì)于“證據(jù)推理”能力這一構(gòu)念,它與科學(xué)推理能力既有共性,又有區(qū)別。與測(cè)量科學(xué)推理能力的LCTSR工具有顯著的相關(guān)性即可印證二者的共同之處,說(shuō)明試測(cè)工具能夠?qū)W(xué)生的“推理能力”構(gòu)念進(jìn)行測(cè)評(píng);而本研究的ERC測(cè)評(píng)又不只如此,其研究的問(wèn)題或?qū)ο笫菍W(xué)生在科學(xué)學(xué)習(xí)領(lǐng)域,基于“證據(jù)”進(jìn)行“推理”的能力。

        2.Rasch分析的結(jié)果

        參考WINSTEPS使用手冊(cè)及Rasch模型應(yīng)用的實(shí)證研究[15],對(duì)試測(cè)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析,參照比對(duì)使用手冊(cè)中的參數(shù)指標(biāo)進(jìn)行評(píng)價(jià)。

        (1)總體質(zhì)量分析

        將所有的觀測(cè)值數(shù)據(jù)(N=627)導(dǎo)入WINSTEPS中進(jìn)行運(yùn)算,軟件自動(dòng)識(shí)別出缺失(missing)或缺少作答(lacking responses)的觀測(cè)值34個(gè),即共計(jì)593個(gè)被試(person)的回答視為有效(valid responses),所有25個(gè)項(xiàng)目(item)均被估算,結(jié)果如表4所示。在Rasch模型中,將項(xiàng)目的難度估計(jì)值(Measure)固定為0,此時(shí)被試的Measure即反映了被試的平均能力水平,就本研究而言,即被試的ERC水平為0.35(Rasch分),略高于項(xiàng)目難度值,差距并不大,說(shuō)明該工具項(xiàng)目合適于該輪試測(cè)樣本的ERC測(cè)評(píng)。

        結(jié)合表中的其他參數(shù)可以說(shuō)明工具的總體質(zhì)量,這些參數(shù)均有其可以接受的取值范圍。模型誤差(Model Error)反映了實(shí)際觀測(cè)值與理論模型值之間的差異,被試和項(xiàng)目的誤差值均較小,接近于0,說(shuō)明利用工具收集的觀測(cè)值(observation)能夠較為準(zhǔn)確地反映真實(shí)情況,即學(xué)生的ERC;Infit與Outfit反映的是觀測(cè)數(shù)據(jù)與模型之間的擬合度,分別包含MNSQ與ZSTD兩個(gè)值,對(duì)本研究的被試和項(xiàng)目而言,其MNSQ趨近于1,ZSTD趨近于0,皆十分理想(perfect),說(shuō)明ERC測(cè)評(píng)工具的觀測(cè)值與Rasch理論的理想模型適配良好;分離度(Separation)參數(shù)表示工具項(xiàng)目區(qū)分被試能力的程度,值越大說(shuō)明區(qū)分得越好,從表中可以看到,項(xiàng)目的分離度大(9.98),被試的分離度接近于2(1.92),在可以接受(acceptable)的范圍[16-17];信度(Reliability)系數(shù)說(shuō)明的是觀測(cè)結(jié)果的一致性、穩(wěn)定性,信度愈高表示測(cè)量誤差值愈低,進(jìn)行某個(gè)構(gòu)念的測(cè)評(píng)時(shí),希望所獲得的觀測(cè)值不會(huì)因形式或時(shí)間的改變而有所變動(dòng),試測(cè)工具的項(xiàng)目難度測(cè)量信度值(0.99)趨近于1,被試能力測(cè)量的信度(0.79)低于項(xiàng)目信度,但仍屬于信度良好的范圍內(nèi)。

        基于Rasch模型假設(shè),以上參數(shù)結(jié)果說(shuō)明ERC試測(cè)工具的總體質(zhì)量特征良好。但在被試分離度上略有欠缺,而且有可能存在其他未能反映的問(wèn)題,還需進(jìn)行深入細(xì)致的檢驗(yàn)和分析。

        (2)單維性的分析

        滿足單維性(unidimensionality)是“好測(cè)量”(good measurement)的特征之一,將試測(cè)后的觀測(cè)值進(jìn)行多維度檢查(multidimensionality investigations),得到標(biāo)準(zhǔn)化殘差分析的有關(guān)數(shù)據(jù)(表5)。

        Rasch測(cè)量模型是利用基于標(biāo)準(zhǔn)的主成分分析(PCA,principle components analysis)(正交不旋轉(zhuǎn))對(duì)原始分(raw score)進(jìn)行檢驗(yàn)。在以上標(biāo)準(zhǔn)化殘差表中,無(wú)法解釋的原始總方差(Raw unexplained variance)下的“對(duì)比”(contrast)最為關(guān)鍵,它反映了按照主成分分析能否分解出某成分(component)或因素(factor)不能由Rasch測(cè)量解釋,但這些成分或因素又需要被解釋。當(dāng)?shù)谝粋€(gè)成分的殘差大于2時(shí),則需要進(jìn)一步審視項(xiàng)目的觀測(cè)值,找到是什么原因產(chǎn)生了這個(gè)“脫離”維度(off-dimensional)的成分。單維性即檢測(cè)是否有可能的“威脅”存在,存在非Rasch模型才能解釋那些“無(wú)法解釋”(unexplained)的部分,而這正是表中的“對(duì)比”(contrasts)所報(bào)告的內(nèi)容。

        就本研究的試測(cè)工具而言,第1個(gè)成分的殘差為1.8<2,滿足單維性要求,說(shuō)明工具項(xiàng)目經(jīng)Rasch模型檢驗(yàn),即使是“無(wú)法解釋”的部分也未發(fā)現(xiàn)威脅Rasch測(cè)量的因素,可以認(rèn)為觀測(cè)值都能夠由Rasch測(cè)量下的項(xiàng)目難度、被試能力及評(píng)定結(jié)構(gòu)等進(jìn)行解釋。根據(jù)表中的數(shù)據(jù),測(cè)量所能解釋的原始方差(Raw variance explained by measures)占原始分?jǐn)?shù)總體方差(Total raw variance in observations)的31.6%,不算很高,但是因?yàn)椴淮嬖诘?個(gè)維度,則數(shù)據(jù)在統(tǒng)計(jì)意義上仍是可控的,方差解釋率良好,可以不必修正工具或樣本[18]。

        按照對(duì)數(shù)尺度(logarithmically scaled),以表中方差值的百分比為縱坐標(biāo),呈現(xiàn)出各成分方差的碎石圖(圖1)。圖中字母T、U、M、P、I代表的是不同方差;數(shù)字1~5則表示分解的可能成分(components),它們所占百分比皆在3%~4%,由圖可以清晰地比對(duì)出各自的差異不大,再次印證了試測(cè)工具的項(xiàng)目?jī)H測(cè)量了一個(gè)ERC構(gòu)念。

        為探查測(cè)評(píng)工具中更加細(xì)節(jié)的問(wèn)題,提供工具完善的線索和方向,對(duì)25個(gè)項(xiàng)目進(jìn)行了具體的分析。圖2所示的標(biāo)準(zhǔn)殘差對(duì)比圖(Standardized Residual Contrast Plot)直觀呈現(xiàn)了所有項(xiàng)目的載荷系數(shù)(loading)與項(xiàng)目難度估計(jì)值(item measure)的關(guān)系。圖中的字母表示的是不同的項(xiàng)目,此處共有25個(gè),當(dāng)縱坐標(biāo)的數(shù)值超過(guò)[-0.4,0.4]區(qū)間范圍時(shí),即不滿足單維性檢驗(yàn)。

        由圖2可知,項(xiàng)目A(P12)、B(P13)與C(P21)超出規(guī)定的參數(shù)范圍,需要在工具優(yōu)化的過(guò)程中重新審視,仔細(xì)考慮是否存在其他因素影響這些項(xiàng)目對(duì)于ERC的測(cè)查。

        (3)項(xiàng)目作答分析

        對(duì)于工具所有項(xiàng)目的作答情況,可以進(jìn)行細(xì)致對(duì)比分析,例如對(duì)于選擇題,某些選項(xiàng)如無(wú)人選擇,則需重新考慮選項(xiàng)的設(shè)置。而本輪試測(cè)中,所有選擇題(共12個(gè)單項(xiàng)選擇的項(xiàng)目)的選項(xiàng)均有被試作答。

        建構(gòu)反應(yīng)評(píng)分題,包括012計(jì)分題(5個(gè))及01計(jì)分題(8個(gè))。如圖3所示,以012計(jì)分題的作答概率曲線為例,橫坐標(biāo)表示的是被試能力與項(xiàng)目難度估計(jì)值之間的差值(Person [MINUS] Item MEASURE),縱坐標(biāo)表示對(duì)被試作答評(píng)分(0,1,2)的概率。在臨界值(threshold)位置,被試獲得兩種分?jǐn)?shù)的概率相等,即曲線交叉處的縱坐標(biāo)相等。圖示的3條曲線界限明顯,能至少涵蓋[-3,3]的能力區(qū)間,并在恰當(dāng)?shù)哪芰c(diǎn)有峰值,如能力最高的被試獲得最高分(3分)的幾率最大,或者說(shuō)能力最高的被試才最有可能獲得最高分。根據(jù)項(xiàng)目的作答曲線,本輪試測(cè)工具在各評(píng)分等級(jí)之間區(qū)分度較好,能夠合理說(shuō)明不同能力學(xué)生的得分幾率的大小,符合Rasch模型的基本理論假設(shè)。

        此外,基于Rasch模型對(duì)觀測(cè)項(xiàng)目的分布及擬合情況進(jìn)行分析,結(jié)果發(fā)現(xiàn),除了少數(shù)項(xiàng)目需要再修正,工具能夠基本涵蓋被試樣本的能力水平,與模型擬合較好,對(duì)于ERC這一構(gòu)念的考查和估計(jì)是“有效的”。至此,通過(guò)LCTSR測(cè)試及ERC試測(cè),對(duì)測(cè)評(píng)工具進(jìn)行了質(zhì)量分析,數(shù)據(jù)結(jié)果表明,該工具的信效度良好,滿足Rasch理論模型的假設(shè),但仍有一些項(xiàng)目需要修正、完善。

        四、測(cè)評(píng)工具的修正

        基于Rasch模型對(duì)ERC測(cè)評(píng)工具進(jìn)行質(zhì)量分析的過(guò)程中,不僅獲得了工具質(zhì)量的參數(shù),也發(fā)現(xiàn)了存在問(wèn)題的項(xiàng)目。在項(xiàng)目修正過(guò)程中,主要依據(jù)量化的數(shù)據(jù)結(jié)果,同時(shí)還調(diào)查了答題者的實(shí)際感受,由此更加全面地考慮如何改進(jìn)工具的項(xiàng)目??傮w來(lái)看,試測(cè)工具的項(xiàng)目修正主要涉及剔除質(zhì)量較差的項(xiàng)目,修改計(jì)分題的評(píng)分標(biāo)準(zhǔn),或者改變題型和試題表述等方面。

        在數(shù)據(jù)支持和訪談分析相結(jié)合的基礎(chǔ)上,我們修正了其他單維性不良、水平不一致、擬合指數(shù)不好的項(xiàng)目。我們也重新梳理了各項(xiàng)目的表述、措辭,某些項(xiàng)目的復(fù)雜性編碼、能力水平的歸屬等。而且在細(xì)節(jié)的修改上,質(zhì)性的訪談方法更為有效。例如,項(xiàng)目P14預(yù)設(shè)的證據(jù)復(fù)雜性編碼為MEF,即需要多重的、顯性化證據(jù),題目情境是面包制作過(guò)程中的發(fā)酵這類生活現(xiàn)象,屬于熟悉的情境。但經(jīng)訪談發(fā)現(xiàn),學(xué)生并不熟悉面團(tuán)發(fā)酵,訪談對(duì)象表示“聽(tīng)說(shuō)過(guò)這個(gè)詞,不過(guò)不懂”“猜測(cè)應(yīng)該是有氣體產(chǎn)生”等??梢?jiàn),該項(xiàng)目的情境熟悉度并不符合預(yù)設(shè),其證據(jù)復(fù)雜性編碼應(yīng)為MEU。定量的數(shù)據(jù)結(jié)果與質(zhì)性分析的合理結(jié)合有助于挖掘數(shù)據(jù)表層之下的意義,這些修正、調(diào)整對(duì)準(zhǔn)確、深入分析學(xué)生的能力表現(xiàn)很有必要。

        經(jīng)過(guò)檢驗(yàn)和優(yōu)化,最終形成的ERC工具包含23個(gè)項(xiàng)目,滿分25分,與框架水平的對(duì)應(yīng)情況如表6所示。

        五、結(jié)語(yǔ)

        本研究從測(cè)量理論的闡釋出發(fā),擇定以IRT為指導(dǎo),采用紙筆測(cè)驗(yàn),以Rasch模型為數(shù)據(jù)檢驗(yàn)的方法,確立了ERC測(cè)評(píng)工具研制的思路,并依此進(jìn)行具體的描述和討論。結(jié)合專家審議,依據(jù)“證據(jù)推理”能力的內(nèi)涵結(jié)構(gòu),以盡量少的學(xué)科內(nèi)容要求和情境創(chuàng)設(shè)為準(zhǔn)則,參考PISA試題,編制了試測(cè)工具。其后利用實(shí)證方法檢驗(yàn)工具的信效度,此處包含效標(biāo)關(guān)聯(lián)效度的設(shè)計(jì),以及Rasch分析方法的應(yīng)用,以求更加科學(xué)全面地實(shí)施工具檢驗(yàn)。

        在效標(biāo)關(guān)聯(lián)效度的驗(yàn)證及Rasch模型的數(shù)據(jù)檢驗(yàn)之下,得到了工具質(zhì)量良好的結(jié)論,同時(shí)也獲得了工具修正的線索和啟發(fā);針對(duì)試測(cè)工具中值得重新審視的項(xiàng)目,從評(píng)分標(biāo)準(zhǔn)、題型、情境表達(dá)等方面予以改進(jìn),甚至剔除,以求獲得更為科學(xué)的、信效度優(yōu)秀的、實(shí)用性好的測(cè)評(píng)工具。

        研究采用的測(cè)評(píng)工具開(kāi)發(fā)思路和方法,可以為素養(yǎng)、能力測(cè)評(píng)工作提供一定的借鑒和啟發(fā)。本研究所開(kāi)發(fā)的工具不依托于某特定學(xué)科,以求單純考查學(xué)生的關(guān)鍵能力,因此能適用于物理、化學(xué)等多個(gè)科學(xué)學(xué)科,在實(shí)際教學(xué)評(píng)實(shí)踐中,也可根據(jù)需要進(jìn)行適當(dāng)改編。但工具的應(yīng)用、推廣,也需要更大樣本的測(cè)量調(diào)查。而且,測(cè)量過(guò)程中所挑選的樣本,所應(yīng)用的統(tǒng)計(jì)方法對(duì)工具質(zhì)量及樣本表現(xiàn)的分析等都有影響,對(duì)各種質(zhì)量參數(shù)的結(jié)果也需謹(jǐn)慎采納,有必要結(jié)合深入的質(zhì)性分析技術(shù),實(shí)現(xiàn)進(jìn)一步的優(yōu)化。

        參考文獻(xiàn):

        [1]核心素養(yǎng)研究課題組.中國(guó)學(xué)生發(fā)展核心素養(yǎng)[J].中國(guó)教育學(xué)刊,2016,(10):1-3.

        [2]教育部.普通高中物理課程標(biāo)準(zhǔn)[M/S].北京:人民教育出版社,2017:4-5.

        [3]羅瑪.從科學(xué)推理到證據(jù)推理:內(nèi)涵的探討[J].化學(xué)教學(xué),2019,(09):3-6.

        [4]羅瑪.“證據(jù)推理”能力的水平框架構(gòu)建——基于德?tīng)柗普{(diào)查[J].化學(xué)教學(xué),2021,(03):13-18.

        [5]羅瑪,王祖浩.教育考試中試題難度的測(cè)評(píng)研究——影響因素、評(píng)估方法及啟示[J].教育測(cè)量與評(píng)價(jià),2016,(9):52-57.

        [6] Fynewever H. A Research Methodology for Studying What Makes Some Problems Difficult to Solve [J]. International Journal of Science Education,2010,32(16):2167-2184.

        [7]辛自強(qiáng).關(guān)系-表征復(fù)雜性模型的檢驗(yàn)[J].心理學(xué)報(bào),2003,35(4):504-513.

        [8] OECD. Measuring Student Knowledge and Skills:The PISA 2000 Assessment of Reading,Mathematical and Scientific Literacy. Education and Skills [Z]. Sourceoecd Education & Skills,2000.

        [9] OECD.Cresswell J,Vayssettes S.Assessing Scientific,Reading and Mathematical Literacy:A Framework for PISA 2006 [Z]. 2006.

        [10] Lawson A E.The Development and Validation of A Classroom Test of Formal Reasoning [J]. Journal of Research in Science Teaching, 1978,15(1):11-24.

        [11] Lawson A E. The Generality of Hypothetico-deductive Reasoning:Making Scientific Thinking Explicit [J]. American Biology Teacher,2000,62(7):482-495.

        [12] Bao L,Cai T,et al. Learning and Scientific Reasoning [J]. Science,2009,323(5914):227-237.

        [13] Lee C Q,She H C.Facilitating StudentsConceptual Change and Scientific Reasoning Involving the Unit of Combustion [J].Research in Science Education,2010,40(4):479-504.

        [14]榮泰生.AMOS與研究方法[M].重慶:重慶大學(xué)出版社,2010:81-83.

        [15] Sondergeld T A,Johnson C C.Using Rasch Measurement for the Development and Use of Affective Assessments in Science Education Research [J]. Science Education,2014,98(4):581-613.

        [16] Lamar M M.Using and Developing Measurement Instruments in Science Education:A Rasch Modeling Approach [J]. Science Education,2012,96(1):183–185.

        [17] Mok M M,Cheong C Y,Moore P J,et al.The Development and Validation of the Self-directed Learning Scales(SLS)[J]. Journal of Applied Measurement,2006,7(4):418-449.

        [18] Linacre J. M. A Users Guide to WINSTEPS / MINISTEP:Rasch-model Computer Programs [M]. Chicago,IL:WINSTEPs. com,2011:333-337.

        The Development and Validation of the Measurement Instrument of the Evidence-based Reasoning Competency

        Luo Ma

        College of Teacher Education,Ningbo University. Ningbo,Zhejiang,315211

        Abstract:Thecompetencyof“Evidence-basedReasoning”(EBR)emphasizedtheidentification,transformation and formation of scientific evidence,using evidence to reason and reach a conclusion,leading to the problem-solving. This study begun with the discussion of the theory on measurement and evaluation in order to identify the process of instrument development.Based on the structure of the construct of EBR competency,according to our previous study,and the PISA instrument,this study designed an instrument for pilot test.It used the criterion-related examination and Rasch analysis to test the reliability and validity of the instrument after the pilot test.According to the data results,the modification of the instrument was conducted to obtain the valid and reliable,practical and scientific instrument for EBR competency measurement.And the development process and method applied in this study would provide some reference and inspiration for ability assessment and measurement.

        Key words:Evidence-based Reasoning(EBR)Competency,Measurement Instrument,Rasch Analysis,Empirical Examination

        ①PISA 2006科學(xué)的樣題,來(lái)源鏈接為https://www.docin.com/p-53392617.html。

        猜你喜歡
        證據(jù)推理能力
        消防安全四個(gè)能力
        幽默是一種能力
        大興學(xué)習(xí)之風(fēng) 提升履職能力
        你的換位思考能力如何
        證據(jù)推理方法在供應(yīng)商評(píng)估中的應(yīng)用
        基于證據(jù)推理解答電化學(xué)試題
        基于證據(jù)推理算法的入侵檢測(cè)系統(tǒng)
        基于“證據(jù)推理”的化學(xué)實(shí)驗(yàn)實(shí)踐研究
        基于實(shí)驗(yàn)探究和思維訓(xùn)練的課堂教學(xué)實(shí)踐
        努力拓展無(wú)人機(jī)飛行能力
        欧美激情国产一区在线不卡| 免费无遮挡禁18污污网站| 又黄又爽又色的视频| 国产在线拍偷自拍偷精品| 国产三级精品三级在专区中文| 精品久久av一区二区| 国产成人涩涩涩视频在线观看| 在线观看免费人成视频| 91精品人妻一区二区三区蜜臀| 亚洲精品视频1区2区| 丁香六月久久婷婷开心| 免费看操片| 免费啪啪av人妻一区二区| 亚洲一区二区国产激情| 国产xxxxx在线观看| 456亚洲人成影视在线观看| 国产三级国产精品国产专区| 风韵丰满熟妇啪啪区99杏| 日韩人妻无码精品久久| 好爽受不了了要高潮了av| 国产猛男猛女超爽免费av| 亚洲成av人片在www鸭子| 麻麻张开腿让我爽了一夜| 亚洲成在人网av天堂| 美女被内射很爽的视频网站| 中文字幕人妻无码视频| 波多野结衣aⅴ在线| 亚洲香蕉av一区二区蜜桃| 黄污在线观看一区二区三区三州| 亚洲va无码手机在线电影| 欧美xxxx新一区二区三区| 凹凸世界视频a一二三| 国产精品av在线| 成年人黄视频大全| 人妻色中文字幕免费视频| 亚洲免费观看视频| 国内揄拍国内精品人妻浪潮av| 老熟女一区二区免费| 中文字幕av人妻少妇一区二区| 国产午夜福利片| 久久中国国产Av秘 入口|