李拉拉 鄧金祥 李太華
物理學中有大量的概念、規(guī)律與學生的直覺相悖。當新的物理概念與先前的認知沖突時,學生常常難以接受[1],因為在潛意識里他們更相信自己的直覺,而不是習得的物理概念與規(guī)律。反過來,一些反直覺的物理問題,也往往會挑戰(zhàn)學生潛在的錯誤概念或思維定式[1],促進學生質疑創(chuàng)新思維的發(fā)展。反直覺問題(counterintuitive problem)通常是指其答案或解決方案超出學生預期的問題[2]。這類問題看起來有一個顯而易見的答案,也稱常識性回答,但其正確答案卻與常識性回答相反[3]。有研究表明,利用反直覺物理問題能使學生形成認知沖突并激發(fā)學習興趣[4],有效考查學生的概念理解程度[5],有助于開展問題解決與概念轉變等方面的研究。
我國《普通高中物理課程標準(2017年版)》強調教學要增強學生創(chuàng)造性地解決實際問題的能力。而實際情境中的物理問題大多具備反直覺特征,需要學生具備突破思維定勢,實現(xiàn)質疑創(chuàng)新的意識和能力。因此,從提高學生物理概念與規(guī)律學習遷移能力、促進實際問題解決能力提升的培養(yǎng)需求角度,開展反直覺問題的研究極具現(xiàn)實意義與實踐價值。Nuri Balta 等人在綜合了一系列相關研究成果的基礎上,開發(fā)了反直覺力學測試(Counterintuitive Dynamics Test,簡稱CIDT)[2],用于評估學生反直覺力學問題的解決能力,成為與國際上廣泛使用的力學概念測試(Force Concept Inventory,簡稱FCI),用于開展力學概念測試與問題解決的教學和研究。作為一個新開發(fā)的量表,CIDT 的質量如何,是否適切于中國學生,在國內開展探索其教學與科研價值的研究工作之前,有必要對其進行科學的檢驗。
反直覺力學測試(CIDT)與力學概念測試(FCI)類似,由30 道單項選擇題構成,內容涉及牛頓三大定律,如表1所示。
表1 CIDT中的力學概念分布
CIDT 將反直覺問題作為載體,考查學生的反直覺物理問題解決水平。以第24題為例,如圖1所示,學生通常會認為t1=t2,因為直覺告訴他們,甲、乙兩種情況具有相同的光滑表面和粗糙表面,盡管順序不同,下落的時間應該是一樣的。但實際上,前一半路程木塊從光滑表面下滑,相對于粗糙表面,在中間位置的速度更大;且由動能定理可知,甲、乙兩種情況下木塊到底端時末速度相同,所以后一半路程,甲情況下的平均速度也大于乙。兩段時間相加可得t1<t2,故選C。
圖1 反直覺力學測試(CIDT)第24題
反直覺力學測試(CIDT)原為英文版,為了考察其質量及對中國學生的適切性,本研究先對CIDT 進行中文翻譯,并進行小樣本測試,再根據(jù)學生的作答情況組織語言學專家與學科專家進行語義修訂,最終得到CIDT 漢譯版。本測試采用CIDT 漢譯版,由專業(yè)人員在課堂上監(jiān)督完成,測試時間為40 分鐘,計分方法為獨立記分法,即每答對一題計1 分,答錯計0分。
本研究選取四川境內的四所高中進行測試,包括瀘州市某重點私立學校、廣安市某重點公立學校、南充市某重點公立學校和一所普通公立學校。被試為已經學習了牛頓三大定律的高中普通班學生,共計733人,其中高一347人、高二386人。
本研究采用單維Rasch模型評估CIDT漢譯版的質量,并利用Winsteps4.4.6 軟件進行分析,輸出結果包括整體質量檢驗、懷特圖、各項目擬合分析、氣泡圖等。
Rasch 模型最早是由丹麥數(shù)學家喬治·拉希(Georg Rasch)在項目反應理論基礎上提出的用于測量被試潛在特質的概率模型[6]。Rasch模型是一種理想化的數(shù)學模型,采用個體能力(Bn)、題目難度(Di)以及個體n 正確作答題目i 的概率(Pni)的數(shù)學函數(shù)來表示,表達式是:
圖2 Rasch模型數(shù)學關系函數(shù)圖像
被試是否能正確回答某一問題完全取決于被試的能力與題目難度之間的差異。當被試能力與難度相當時(Bn= Di),被試n 答對題目i 的概率為0.5;當被試能力遠低于項目難度時(Bn<Di),被試答對題目的概率趨近于0;當被試能力遠大于項目難度時(Bn>Di),被試答對題目的概率趨近于1。
Rasch 模型具有被試與題目共用標尺、線性數(shù)據(jù)、參數(shù)分離等特點,所以與經典測試理論相比,更具優(yōu)勢[7]。
將實驗測得的原始數(shù)據(jù)導入Winsteps4.4.6 軟件進行整體質量檢驗,其中包括難度估計值(Measure)、項 目 擬 合(Infit 和Outfit)、信 度(Reliability)以及分離度(Separation)等指標,具體參數(shù)如圖3所示。
圖3 整體質量檢驗結果
Rasch 模型將項目難度均值設定為0。從圖3 可知,誤差(S.E)為0.09,低于0.4,趨近于理想值0。從擬合度指標來看,Infit MNSQ 和Outfit MNSQ 分別為1.00 和1.03,Infit ZSTD 和Outfit ZSTD 分 別 為-0.4和-0.1,均在理想范圍內,說明本次數(shù)據(jù)與Rasch 模型擬合程度較好。從分離度指標來看,項目分離度是10.40,大于2,表示CIDT 漢譯版能較好地區(qū)分被試的能力。項目的信度為0.99,大于0.7,信度較高。從上述各項參數(shù)指標可以看出測量工具整體質量較好。
Rasch模型通過對數(shù)轉換,將項目難度和被試能力標定在同一把量尺上,生成項目-被試對應圖,又稱懷特圖,如圖4所示。懷特圖中間的豎線為logit線性量尺,M(Mean)是均值,S(One Standard Error)指距離均值一個標準誤差,T(Two Standard Error)指距離均值兩個標準誤差。左側分布的是被試的能力水平,每一個“#”代表6 個被試,不足6 人用“·”表示。右側是CIDT漢譯版中30道題目的難度分布情況。從下往上看,被試的能力水平和試題難度均逐漸升高。
圖4 懷特圖
從圖4 可以看出,測試項目分布合理,不存在明顯的扎堆現(xiàn)象,項目難度分布較廣;被試呈現(xiàn)出中間多兩邊少的正態(tài)分布狀態(tài);從被試與項目對應來看,被試能力水平的均值M 略低于項目難度均值,比較接近,表明測試的整體難度適當。被試的能力分布范圍約為4.6 個logit,試題的難度分布范圍約為4.1 個logit,大部分被試都有與之對應的題目,所以CIDT 漢譯版的難度基本能涵蓋到全體被試的能力。
對Rasch 模型的分析需要符合單維性的基本假設,即測試項目僅考查被試的一種能力或潛在特質。通過圖5 所示的標準殘差對比圖,可以直觀地看出測試項目的單維性。圖中30 個大小寫字母分別對應一個測試項目,橫坐標表示項目的難度區(qū)間,縱坐標表示該項目與其他能力或潛在特質的相關系數(shù)。一般認為因子載荷(Contrast Loading)在-0.4~0.4 之間表明該項目單維性較好。
圖5 標準殘差對比圖
從圖5 可以看出,項目A 和B 超出了理想范圍,說明這兩個項目可能受到了其他因素的影響,但其他項目均在可接受范圍內,故從整體來看符合單維性假設,這表明CIDT 漢譯版能夠有效測試出被試解決反直覺力學問題的能力。
通過Rasch模型處理數(shù)據(jù),不但能夠得到測量工具整體的質量情況,還能得到每個項目的詳細信息。表2 反映了CIDT 漢譯版中30 個項目的擬合指標統(tǒng)計情況,包括項目難度(Measure)、相關系數(shù)(PTEMEA)、未加權均方擬合統(tǒng)計量(Outfit MNSQ)、加權均方擬合統(tǒng)計量(Infit MNSQ)和標準化均方擬合統(tǒng)計量(ZSTD)等。
從表2 可知,30 個項目的難度范圍在-1.75~2.41logit 之 間,跨 度 為4.16 個logit。誤 差 在0.08~0.13 之間,說明項目難度的估計值較為可靠。除了第3 題的Outfit MNSQ 為1.65 略大于1.5 外,其他各題的Infit MNSQ 和Outfit MNSQ 均在理想范圍內,且趨于理想值1。大部分ZSTD 統(tǒng)計量的絕對值偏大,超出了理想范圍,是因為ZSTD 值易受樣本容量影響。而本研究的樣本量較大,用Rasch模型進行分析時,導致大部分被試和項目都顯著失配,因此這里的ZSTD 值不具有參考意義[8]。 相關系數(shù)(PTMEA)在0~0.53范圍內,且均為正值,表明各個項目與試卷的測量目標相一致。綜合各項指標來看,CIDT漢譯版中各項目與模型擬合度較好。
表2 各項目擬合情況統(tǒng)計表
圖6 是項目氣泡圖,它可以直觀地顯示各項目與模型的擬合程度以及測量誤差。橫坐標為未加權均方擬合統(tǒng)計量(Outfit MNSQ),橫軸中的Overfit(<0.50)表示的是數(shù)據(jù)的變異量小于Rasch 模型的預期,Underfit(>1.50)代表的是數(shù)據(jù)的變異量大于Rasch模型的預期[9];縱坐標為項目難度估計值,從下往上難度逐漸增加。圖中每一個氣泡代表一個題目,氣泡的大小代表標準誤差的大小,氣泡越大則標準誤差越大,測量的誤差越大。
圖6 氣泡圖
由圖6 可見,第3 題難度最大,第22 題難度最小,且除第3 題外的所有試題的擬合度都落在可接受范圍內。其中第3 題氣泡較大,說明其難度估計值的誤差較大。本氣泡圖所呈現(xiàn)的結果與表1 能相互印證(具體題目可參考附錄)。
本研究基于Rasch 模型,應用Winsteps 軟件對CIDT 漢譯版進行質量檢驗。通過對測量工具整體質量參數(shù)、單維性、項目擬合、以及懷特圖和氣泡圖等指標的分析,得到以下結論。
CIDT 漢譯版整體質量較好。試題難度均值與被試的能力均值不相上下,所以試題的整體難度設置合理,而且難度分布比較均勻,能與不同水平的被試相匹配;試題的分離度較高,遠超理想值,說明該試題能有效區(qū)分不同能力的被試;除第3 題的Outfit MNSQ 指標超出理想范圍外,其余各項目的測試數(shù)據(jù)與模型擬合度較高,說明本研究中被試實際作答反應與模型的預期結果一致。
CIDT 漢譯版能有效測量被試的反直覺力學問題解決能力?;赗asch模型的分析,需滿足單維性假設,即測試的項目僅能測試出被試的一種能力或潛在特質。從單維性檢驗的情況來看,除了A、B 兩個項目(分別對應第28題和第23題)以外,絕大多數(shù)題目都在理想范圍內,較好地滿足單維性假設。
CIDT 漢譯版中個別題目有待進一步觀察或優(yōu)化設計。第23、28 題的單維性指標略超出理想范圍,說明這兩道題測量反直覺力學問題解決水平的有效性偏弱,在今后的測試中需要進一步觀察;第3題的Outfit MNSQ 指標超出理想范圍,說明第3 題的測試數(shù)據(jù)與模型欠擬合,其原因可能是部分低能力水平的學生正確回答了該題目,而部分高能力水平的學生錯誤地回答了該題目。同時結合難度指標來看,第3 題的難度最高,所以學生在作答該題時,猜測的成分比較大。在今后的研究中,對指標異常的題目,不提倡直接刪除,應該結合經典測試理論和學科知識進行判斷,再進一步觀察或優(yōu)化。
綜上所述,本研究利用Rasch 模型對CIDT 漢譯版的質量進行了檢驗,結果表明該量表適用于我國高中學生。然而在解決了CIDT 適切性的問題后,如何利用該量表考查我國學生反直覺問題解決水平的發(fā)展趨勢,及其內在的認知機制與差異等問題,則亟需深入研究。