潘 澎 胡象嶺
(曲阜師范大學(xué)物理學(xué)系,山東 曲阜 273165)
力概念量表(Force Concept Inventory,簡稱FCI)是由美國學(xué)者David Hestenes等人以力學(xué)診斷測驗(yàn)(Mechanics Diagnostic Test,MDT)為基礎(chǔ)開發(fā)的運(yùn)用于教學(xué)和研究的測試工具,用于評估學(xué)生對牛頓力學(xué)最基本概念的理解,包括29個測題,內(nèi)容涉及運(yùn)動學(xué)、牛頓第一定律、牛頓第二定律、牛頓第三定律、力的疊加原理、力的種類6個方面,發(fā)表于1992年.[1]經(jīng)Ibrahim Halloun等人修訂的版本,包括30個多項(xiàng)選擇題,1995年發(fā)布.[2]FCI是廣為人知且應(yīng)用廣泛的力學(xué)概念測驗(yàn),已成為物理教育研究領(lǐng)域的重要診斷工具.[3]
在我國物理教育研究領(lǐng)域,有研究者使用FCI對我國學(xué)生進(jìn)行測評,被試涉及初中生、高中生、大學(xué)生.2000年曲亮生等運(yùn)用1992年版FCI對我國中學(xué)和大學(xué)不同層次的學(xué)生進(jìn)行了小范圍測試,并與美國的測試結(jié)果進(jìn)行了對比.[4]2004年王春風(fēng)等采用FCI對165 名高一學(xué)生進(jìn)行了測試,運(yùn)用集中度分析法定量分析學(xué)生選項(xiàng)的集中程度,揭示學(xué)生在學(xué)習(xí)力和運(yùn)動這部分內(nèi)容時的認(rèn)知模式和錯誤認(rèn)識.[5]2011年李正福等以FCI 問卷為工具對90名剛學(xué)習(xí)完高一力學(xué)內(nèi)容的藏族高一學(xué)生進(jìn)行測試,以了解學(xué)生掌握力學(xué)知識的情況.[6]2011年張軼炳等以寧夏大學(xué)和美國俄亥俄州立大學(xué)的理工科學(xué)生(各180名)為樣本,以FCI測試成績?yōu)橐罁?jù),比較了中美大學(xué)生的測試成績,并對中美大學(xué)生力學(xué)概念理解的差異進(jìn)行了分析.[7]2018年吳維寧等在傳統(tǒng)教學(xué)與互動參與式教學(xué)的對比實(shí)驗(yàn)中將FCI作為前后測的測評工具以檢驗(yàn)概念轉(zhuǎn)變的效果.[8]還有研究者以FCI為工具考察教師對力學(xué)概念的理解情況.在曲亮生等人的研究中,考察了44名初中教師、37名高中教師在FCI測試上的表現(xiàn).[4]2007年李光蕊等以FCI為工具,以166名初中和高中物理教師為被試,考察了我國中學(xué)物理教師對力學(xué)相關(guān)概念的掌握情況.[9]
測評工具的質(zhì)量檢驗(yàn)是教育測評的一個重要環(huán)節(jié),然而,在我國物理教育研究中,中文版FCI雖然常被作為評估學(xué)生牛頓力學(xué)知識理解情況的測試工具,卻鮮見其信度與效度等測量學(xué)指標(biāo)的檢驗(yàn)報告,至今只見到吳維寧采用Rasch分析方法對其進(jìn)行的評估.[10]吳維寧的研究以820名學(xué)生(其中大學(xué)一年級學(xué)生253名,高一學(xué)生267名,初二學(xué)生200名)為被試,運(yùn)用懷特圖(Wright Map)、氣泡圖(Bubble Chart)等初步分析了學(xué)生能力分布與試題難度分布的適切度、測試數(shù)據(jù)的擬合度,研究結(jié)果顯示,總的看來,FCI的適切性與擬合度指標(biāo)較好,但也存在有待改進(jìn)的問題.
本研究以中學(xué)生為被試基于Rasch模型對中文版FCI 的測量學(xué)特征進(jìn)行較為全面的檢驗(yàn),以評估中文版FCI的質(zhì)量,為今后進(jìn)一步修訂和完善該測試工具提供測量學(xué)依據(jù).本研究所使用的中文版FCI,是以美國AAPT官方網(wǎng)站建議的中文簡體版(即北京師范大學(xué)郭晨躍翻譯的1995版FCI)為基礎(chǔ)修訂而成,修訂的內(nèi)容為題目的表述,修訂的原則是題目的表述既要符合英文原版的命題意圖又要符合我國物理題目的表述習(xí)慣.[2]
本研究的被試是已經(jīng)完成初中力學(xué)知識學(xué)習(xí)的9年級學(xué)生和已完成高中階段力學(xué)知識學(xué)習(xí)的高二年級學(xué)生.在曲阜市城區(qū)各選一所初中和一所高中,在兩個學(xué)校各隨機(jī)選取兩個班進(jìn)行測試.共發(fā)放測試卷172份,收回172份,剔除無效答卷后,得到有效答卷149份.有效被試中,男生73人,女生76人.有效初中生被試71人,男生35人,女生36人.有效高中生被試78人,男生38人,女生40人.
Rasch模型最早是由丹麥數(shù)學(xué)家Georg Rasch提出的用來測量潛在特質(zhì)的概率模型.[11]根據(jù)測量的數(shù)據(jù)類型,可以把Rasch 模型分為二分模型、部分給分模型和等級量表模型;根據(jù)維度的多少,可分為單維模型和多維模型;根據(jù)參數(shù)估計(jì)數(shù)目不同,可分為兩面模型和多面模型.
根據(jù)二分Rasch模型原理, 特定的被試對特定的項(xiàng)目作出特定反應(yīng)的概率可以用被試能力與該項(xiàng)目難度的一個函數(shù)來表示.被試回答某一題目正確與否取決于被試能力和題目難度之間的比較.Rasch 模型具有被試與題目共用標(biāo)尺、線性數(shù)據(jù)、參數(shù)分離等特點(diǎn),從而確保了客觀測量的實(shí)現(xiàn).[12]
Rasch分析方法已成為教育測評工具質(zhì)量分析的重要手段.[13]本研究采用二分Rasch模型評估中文版FCI的質(zhì)量.
本研究利用Winsteps3.72.0軟件進(jìn)行Rasch分析.測試結(jié)果采用二級計(jì)分方式,回答正確計(jì)為1,回答錯誤計(jì)為0.將測試數(shù)據(jù)轉(zhuǎn)化為符合軟件運(yùn)行要求的txt格式的記事本文件,編制程序文件,運(yùn)行Winsteps3.72.0進(jìn)行數(shù)據(jù)處理.輸出結(jié)果包括整體質(zhì)量檢驗(yàn)結(jié)果、懷特圖、數(shù)據(jù)與模型擬合統(tǒng)計(jì)、氣泡圖等.
對149名被試30個項(xiàng)目數(shù)據(jù)進(jìn)行整體質(zhì)量檢驗(yàn),結(jié)果如表1所示.
表1 整體質(zhì)量檢驗(yàn)結(jié)果
從表1看出,學(xué)生能力平均值為0.23,與項(xiàng)目難度相差不大(Rasch模型中通常將項(xiàng)目難度平均水平設(shè)為0),表明測驗(yàn)整體上能較好地匹配學(xué)生的能力水平.
Outfit MNSQ(OMNSQ)和Infit MNSQ(IMNSQ)是Rasch分析程序報告的兩個擬合統(tǒng)計(jì)量,前者是未加權(quán)均方擬合統(tǒng)計(jì)量,后者是加權(quán)均方擬合統(tǒng)計(jì)量,ZSTD統(tǒng)計(jì)量表示擬合統(tǒng)計(jì)量的顯著性.MNSQ的期望值為1,取值范圍為(0,∞),一般認(rèn)為其值在0.5-1.5 之間表示數(shù)據(jù)與模型擬合程度可接受;理想擬合情況下ZSTD 值為0,當(dāng)其值介于-2-2 時,認(rèn)為擬合較好.從表1可見,被試和題目的擬合度指標(biāo)均接近理想值,擬合程度好.
一般認(rèn)為分離度指數(shù)超過2較好,本研究中的被試、項(xiàng)目分離度(Separation)分別為2.83、3.45,表明測驗(yàn)?zāi)茌^好地區(qū)分被試的能力.
信度(Reliability)的理想值為1,大于0.7 表明測驗(yàn)信度較高,0.6~0.7 表明信度良好.本研究中的被試信度為0.89,試卷信度為0.92,信度較高.
Rasch模型通過對數(shù)轉(zhuǎn)換,將被試能力與試題難度轉(zhuǎn)換成等距的Logit放在同一標(biāo)尺上進(jìn)行標(biāo)定,形成項(xiàng)目——被試圖(即懷特圖),它可以直觀地表征被試與項(xiàng)目之間的匹配情況.
懷特圖如圖1所示.中間豎線表示Logit 刻度尺,標(biāo)尺上的M表示平均水平(Mean),S表示距離均值一個標(biāo)準(zhǔn)誤(One Standard Error),T表示距離均值兩個標(biāo)準(zhǔn)誤(Two Standard Error).最左端數(shù)字是用于對比被試能力水平和題目難度的Logit 量尺值,自下而上Logit 值增大,表示被試能力水平升高、題目難度增加.標(biāo)尺左邊表示被試能力水平分布,一個“X”代表一個被試.標(biāo)尺右邊是試題的難度分布情況,編號代表了不同的題目.被試之間的距離代表了被試之間的能力差異,試題之間的距離代表了試題之間的難度差異.在懷特圖中,理想的分布情況應(yīng)該是:不同難度的題目均有能力水平與之對應(yīng)的被試,且在被試分布相對密集之處對應(yīng)的題目數(shù)量相對較多.
圖1 懷特圖
由圖1可見,被試能力水平的平均值M略高于題目難度均值M,但比較接近,說明測試的整體難度適當(dāng).這與前述整體質(zhì)量檢驗(yàn)的結(jié)果是一致的.被試能力水平分布范圍大約為6.5個Logit,分布形態(tài)大致為雙峰分布.
題目難度分布范圍大約為5個Logit,難度最大的題目是第23題,最小的是第1題,除第1、23題外,其他題目均分布在距均值兩個標(biāo)準(zhǔn)誤之內(nèi),題目的難度分布形態(tài)較為合理.但個別題目間難度差異較大(如第1題與第16題之間).
從分布的對應(yīng)情況看,題目難度分布與被試能力分布的形態(tài)差異較大,高水平被試沒有與之相對應(yīng)的題目,題目的難度分布沒有覆蓋所有水平的學(xué)生.
每個題目與Rasch模型的擬合情況如表2所示,包括難度估計(jì)值(measure)、標(biāo)準(zhǔn)誤(S.E.)、infit和outfit的殘差均方擬合指標(biāo)(MNSQ和ZSTD)以及相關(guān)系數(shù)(CORR.).Infit MNSQ和outfit MNSQ的范圍在0.5-1.5內(nèi)表示擬合較好,小于0.5為過度擬合,大于1.5為欠擬合.標(biāo)準(zhǔn)誤表示測量的誤差,標(biāo)準(zhǔn)誤越小,說明試題對被試的測量越穩(wěn)定,題目的信度也就越高.相關(guān)系數(shù)表示題目與測量目標(biāo)相關(guān)程度,相關(guān)系數(shù)越大,說明該題目與測量目標(biāo)越相關(guān).
表2 每個題目的測量數(shù)據(jù)與Rasch模型的擬合情況
續(xù)表
表2中按題目難度排序,從上到下試題難度依次降低,第1題難度最小,第23題難度最大.
由表2可見,題目標(biāo)準(zhǔn)誤均在0.2左右.Infit MNSQ在0.65-1.53范圍內(nèi),除了第29題的Infit MNSQ為1.53略大于1.5外,其他各題的Infit MNSQ都在0.5-1.5的范圍內(nèi).Outfit MNSQ在0.4-2.13范圍內(nèi),除了第1、26題的Outfit MNSQ分別為0.40、0.46小于0.5,第6、9、8、29題的Outfit MNSQ分別為1.52、1.62、2.09、2.13大于1.5外,其他各題的Outfit MNSQ都在0.5-1.5范圍內(nèi).相關(guān)系數(shù)在0.25-0.74范圍內(nèi),與測量目標(biāo)都是正向相關(guān)的,第29、8題分別為0.25、0.29,其他各題都大于0.3.
根據(jù)Rasch 擬合統(tǒng)計(jì)量使用時應(yīng)遵循“均方統(tǒng)計(jì)量先于ZSTD統(tǒng)計(jì)量,未加權(quán)均方擬合統(tǒng)計(jì)量先于加權(quán)均方擬合統(tǒng)計(jì)量,不夠擬合先于過分?jǐn)M合”的原則,[14]結(jié)合相關(guān)系數(shù)的大小來判斷,總的看來,擬合指標(biāo)最差的是第29題,其次是第8題,再次是第9、6題.
氣泡圖可以直觀地顯示題目與模型的擬合程度和題目的測量誤差,如圖2所示.圖中每一個氣泡代表一個題目,氣泡的大小代表標(biāo)準(zhǔn)誤的大小,氣泡越小則標(biāo)準(zhǔn)誤越小,測量結(jié)果越準(zhǔn)確.圖中橫坐標(biāo)為未加權(quán)均方擬合統(tǒng)計(jì)量(Outfit MNSQ),左邊表示欠擬合,右邊表示過度擬合;縱坐標(biāo)為題目難度的測量值(Measure),從下往上題目難度越來越大.
由圖2可見,第1題難度最小,第23題難度最大.各個氣泡的大小差異不大,表示各個題目的標(biāo)準(zhǔn)誤相差不大.大部分題目擬合度在可接受范圍內(nèi),但第8、29題的位置與其他題目明顯分離,Outfit MNSQ值較大,即擬合較差.有部分氣泡重合在一起,說明這些題目的難度和擬合指標(biāo)接近.氣泡圖所展現(xiàn)的結(jié)論與表3相互印證.
圖2 氣泡圖
本研究的主要目的是檢驗(yàn)中文版FCI的測量學(xué)特征,從研究的結(jié)果看,中文版FCI的測量學(xué)特征大部分比較理想,個別不理想.
從整體質(zhì)量來看,對于中學(xué)生被試而言,測試的整體難度適當(dāng),擬合度較高,分離度、信度均較好.這就是說,總體看來FCI的質(zhì)量是理想的.這一結(jié)果,在我國的研究報告中還沒有見到.
從題目難度與被試能力分布的匹配情況來看,題目難度分布范圍大約為5個Logit,難度分布形態(tài)較為合理,但個別題目間(如第1題與第16題之間)難度差異較大.題目難度分布與被試能力分布的形態(tài)差異較大,高水平被試沒有與之相對應(yīng)的題目,題目的難度分布沒有覆蓋所有水平的學(xué)生.出現(xiàn)這一情況,可能與本研究的樣本有關(guān),本研究的樣本包括初中生和高中生,懷特圖顯示被試能力水平分布范圍大約為6.5個Logit,分布形態(tài)大致為雙峰分布.在吳維寧的研究中曾發(fā)現(xiàn)初中被試能力均值低于試題難度均值1.5個Logit,高中被試能力均值比試題難度均值高2個Logit.[10]這提示我們,FCI對我國初中生和高中生的適切性有待在更大樣本中進(jìn)一步檢驗(yàn).
從每個題目的測量數(shù)據(jù)與Rasch模型的擬合情況來看,大部分題目擬合較好,但第29、8、9、6題等題目的擬合度較差.這與吳維寧[10]的研究結(jié)果不盡一致,他的研究結(jié)果顯示除第15題外其他題目的擬合指標(biāo)都在理想范圍內(nèi).這提示我們,有必要在今后的研究中進(jìn)一步考察每個題目的質(zhì)量.
本研究是基于Rasch測量理論采用Winsteps軟件對中文版FCI的質(zhì)量進(jìn)行的初步考察,對該測試的測量學(xué)指標(biāo)的考察并不十分全面,如測試的內(nèi)容效度、結(jié)構(gòu)效度、預(yù)測效度等還有待進(jìn)一步檢驗(yàn).盡管如此,本研究的結(jié)果仍是有益的,為我們提供了FCI部分測量學(xué)指標(biāo)比較理想的證據(jù),但也提醒我們,FCI未必是一個很完善的測量工具,個別測題有待完善,測量學(xué)指標(biāo)有待進(jìn)一步檢驗(yàn).
客觀地說,中文版FCI的信度、效度等測量學(xué)指標(biāo)并沒有在我國得到充分的檢驗(yàn),它卻被不少物理教育研究者作為測量工具,這是我國物理教育研究中值得深思的一個現(xiàn)象.