詹沛達 于照輝 李菲茗 王立君
?
一種基于多階認知診斷模型測評科學素養(yǎng)的方法
詹沛達 于照輝 李菲茗 王立君
(浙江師范大學教師教育學院, 金華 321004)
科學素養(yǎng)是指作為一名有反思意識的公民所具有的解決科學問題和運用科學理念的能力。為實現(xiàn)在認知診斷中對科學素養(yǎng)的測評, 本文基于PISA 2015科學素養(yǎng)測評框架首次提出科學素養(yǎng)包含的三階潛在結(jié)構(gòu), 使用新提出的多階認知診斷模型對PISA 2015科學測評數(shù)據(jù)進行分析, 并通過模擬研究探究新模型的心理測量學性能。結(jié)果表明:(1)新模型能夠較好地分析包含三階潛在結(jié)構(gòu)的科學素養(yǎng); (2)科學知識對科學素養(yǎng)的影響最大, 科學背景次之, 科學能力的影響最小; (3)全貝葉斯MCMC算法能夠為新模型提供較精準的參數(shù)估計。
科學素養(yǎng); 認知診斷; PISA; DINA模型
“科學技術(shù)推動了生產(chǎn)力的發(fā)展、經(jīng)濟的繁榮和社會的進步, 促進了人們的生產(chǎn)方式、生活方式和思維方式的變革??茖W技術(shù)的快速發(fā)展對每一位公民的科學素養(yǎng)提出了新的要求” (中華人民共和國教育部, 2017)。實際上, 關(guān)于如何提高個體或公民的科學素養(yǎng)是一個交叉學科問題, 它一直以來都是科學教育、教育心理學和學習科學等學科領域的學者們共同關(guān)注的重難點??茖W素養(yǎng)是一個不斷發(fā)展的概念, 它的內(nèi)涵和界定方式會隨時代發(fā)展而發(fā)生改變(see Miller, 1983; OECD, 2006)。2017年, 《義務教育小學科學課程標準》將“科學素養(yǎng)”定義為“了解必要的科學技術(shù)知識及其對社會與個人的影響, 知道基本的科學方法, 認知科學本質(zhì), 樹立科學思想, 崇尚科學精神, 并具備一定的運用它們處理實際問題、參與公共事務的能力”, 從本質(zhì)上講, 該定義就是說“科學素養(yǎng)是指作為一名有反思意識的公民所具有的解決科學問題和運用科學理念的能力” (OECD, 2016)。
為實現(xiàn)對科學素養(yǎng)的客觀測評, 國際學生評估項目(Programme for International Student Assessment, PISA)在2015年把科學素養(yǎng)的內(nèi)涵劃分為科學能力(Competencies)、科學知識(Knowledge)、科學背景(Contexts)和科學態(tài)度(Attitudes)四個相互關(guān)聯(lián)的維度, 并給出了相應的測評或評估框架, 見圖1。這就要求學生在一定的科學背景中, 根據(jù)自己的科學態(tài)度, 運用科學知識來解決科學問題, 從而展現(xiàn)出自己的科學能力(劉克文, 李川, 2015)。PISA 2015測評框架是在PISA 2006科學測評框架(OECD, 2006)的基礎上修訂而來的, 其發(fā)展主要體現(xiàn)在對科學知識維度的更詳細劃分??茖W測評框架的逐步完善, 是在實踐基礎上不斷重新認識科學素養(yǎng)的結(jié)果??梢哉f, PISA 2015科學素養(yǎng)測評框架是目前最新最具可操作性的科學素養(yǎng)測評框架。
除具有可操作性的測評框架外, 一個適宜測評方法也同樣重要。適宜的測評方法應能夠匹配測評框架, 并能夠?qū)崿F(xiàn)對科學素養(yǎng)客觀且準確的評價。然而, 目前國內(nèi)外已有研究絕大多數(shù)只是對公民或中小學學生科學素養(yǎng)的問卷調(diào)查(e.g., Roos, 2014; 高宏斌, 2011; 秦浩正, 錢源偉, 2008), 這僅是對科學素養(yǎng)整體現(xiàn)狀的大致了解。而且這些調(diào)查多采用自我報告法, 主觀性較強, 存在一定的社會贊許性。僅有少許研究關(guān)注到了對科學素養(yǎng)的測評(e.g., 胡詠梅, 楊素紅, 盧珂, 2012)。除研究方法有待改進外, 目前絕大多數(shù)研究所使用的測評/數(shù)據(jù)分析方法和理論也較為落后, 仍以經(jīng)典測量理論為主(e.g., Roos, 2014; 任磊, 張超, 何薇, 2013), 僅有個別研究使用到了題目作答理論(item response theory, IRT)模型(e.g., 胡詠梅等, 2012)。另外, 需要強調(diào)的是盡管PISA為科學素養(yǎng)建構(gòu)了多維結(jié)構(gòu), 但數(shù)據(jù)分析時仍使用了單維IRT模型(OECD, 2017)。即PISA現(xiàn)有的測評方法并不匹配測評框架, 其主要原因之一是因為PISA更關(guān)注的是國家/經(jīng)濟體的整體現(xiàn)狀而非個體參與者, 所以對個體使用一個籠統(tǒng)的單維潛在特質(zhì)可以簡化整體研究的復雜性。而當把個體視為測評主體時, 就需要更復雜的測評方法(e.g., Zhan, Jiao, & Liao, 2018)。綜上所述, 為在PISA 2015科學素養(yǎng)測評框架下實現(xiàn)對科學素養(yǎng)客觀且準確的測評, 需要嘗試從新的視角切入, 使用或開發(fā)更適宜的測評方法。
圖1 PISA 2015科學素養(yǎng)測評框架(來源:OECD (2016)第23頁圖2.2).
近些年, 隨著認知心理學的發(fā)展, 研究者們逐漸發(fā)現(xiàn)被試在完成某項任務時常需要多種能力的相互配合, 因此, 早期心理測量模型中的單維性假設并不符合實際(Reckase, 2009; Wang & Chen, 2004; 康春花, 辛濤, 2010; 詹沛達, 王文中, 王立君, 2013)。另外, 除了簡單的總分外, 人們也希望能從被試的實際作答情況中獲得更豐富的信息, 以便對被試做出更客觀的評價和補救。基于此, 認知診斷測評(cognitive diagnostic assessment, CDA)在近一二十年內(nèi)受到了國內(nèi)外學者的更多關(guān)注(Rupp, Templin, & Henson, 2010; 涂冬波, 蔡艷, 丁樹良, 2012)。CDA是指在心理與教育測量學中對個體認知過程、加工技能或知識結(jié)構(gòu)(統(tǒng)稱為屬性)的診斷性測評。作為一種將形成性評價和終結(jié)性評價相結(jié)合的綜合評價形式(詹沛達, 陳平, 邊玉芳, 2016), CDA的初衷是通過測評個體對屬性的掌握狀態(tài)為教師或干預者提供診斷反饋報告, 進而幫助他們實施補救教學或有針對性的干預(Zhan et al., 2018)。CDA改變了以往評價方法重結(jié)果、輕過程的弊端, 符合當前我國一些教育政策導向。比如:《基礎教育課程改革綱要(試行)》中“改變課程評價過分強調(diào)甄別與選拔的功能, 發(fā)揮評價促進學生發(fā)展、教師提高和改進教學實踐的功能”的具體目標。因此, 如何在CDA中實現(xiàn)對科學素養(yǎng)的測評是一個兼具理論意義和實踐意義的議題。
下文中, 我們首先將對PISA 2015科學素養(yǎng)測評框架做進一步解讀, 明確該框架所包含的三階潛在結(jié)構(gòu); 其次, 對現(xiàn)有的高階認知診斷模型(higher- order cognitive diagnosis model; HO-CDM)進行介紹并闡明其局限性; 然后, 提出一種新的多階認知診斷模型(multi-order CDM; MO-CDM), 以期在CDA中滿足對三階或更高階潛在特質(zhì)的分析需求, 并匹配PISA 2015科學素養(yǎng)測評框架, 實現(xiàn)對科學素養(yǎng)的準確測評。再然后, 我們以PISA 2015科學測評數(shù)據(jù)分析為例來說明新模型的現(xiàn)實可應用性, 并對數(shù)據(jù)分析結(jié)果進行解讀。最后, 通過一個模擬研究來探究新模型的參數(shù)估計返真性。
PISA 2015認為科學素養(yǎng)的核心是科學能力, 而科學能力的展現(xiàn)需要在特定的科學背景下輔以足夠的科學知識, 并受到科學態(tài)度的影響。這4個維度相輔相成, 共同組成了科學素養(yǎng), 即科學素養(yǎng)是科學能力、科學知識、科學背景和科學態(tài)度的高階/高位概念, 個體科學素養(yǎng)的高低決定了他在這4個維度方面的表現(xiàn)情況。進一步, 根據(jù)《PISA 2015測評與分析框架》(OECD, 2016):
(1) 科學能力又被細分為3種子能力, 分別是科學地解釋現(xiàn)象、評估和設計科學探究和科學地解釋數(shù)據(jù)和證據(jù)。即科學能力是3這子能力的高階概念, 個體科學能力的高低決定了其3項子能力的高低;
(2) 科學知識又被細分為3種子知識, 分別是內(nèi)容性知識、程序性知識和認知性知識。即科學知識是這3種子知識的高階概念, 個體對科學知識的掌握程度決定了其對3種子知識的掌握程度;
(3) 科學背景又被細分為3種子背景, 分別是個人的、當?shù)?國家的和全球的。即科學背景是這3個子背景的高階概念, 個體對科學背景的熟悉程度影響著其對3種子背景的熟悉程度;
(4) 科學態(tài)度又被細分為3種子態(tài)度, 分別是對科學的興趣、評估科學探究方法的價值和環(huán)境意識。即科學態(tài)度是這3種子態(tài)度的高階概念, 個體的科學態(tài)度影響其3種子態(tài)度。
綜上所述, 基于PISA 2015科學素養(yǎng)測評框架, 科學素養(yǎng)包含三階潛在結(jié)構(gòu), 如圖2所示。其中, 第三階潛在特質(zhì)為科學素養(yǎng), 是PISA 2015科學素養(yǎng)測評框架中的最高階概念; 第二階潛在特質(zhì)包括:科學能力、科學知識、科學背景和科學態(tài)度, 是該測評框架中的4個主要概念; 而第一階潛在特質(zhì)為科學地解釋現(xiàn)象、評估和設計科學探究等12項, 是該測評框架中的低階概念。
為在CDA中實現(xiàn)對科學素養(yǎng)的測評, 需要一種能夠分析科學素養(yǎng)三階潛在結(jié)構(gòu)的CDM。鑒于目前尚未有CDM能夠處理三階潛在結(jié)構(gòu), 這就需要我們建構(gòu)新的模型, 以期滿足測評需求。
在心理學和教育學中, 潛在特質(zhì)除了可能存在多維性外, 還可能進一步存在層階關(guān)系, 這被稱為高階(層階)潛在特質(zhì), 比如, 圖2所示的科學素養(yǎng)所包含的三階潛在結(jié)構(gòu); 再比如, 韋氏成人智力量表中也測量了三階潛在特質(zhì):第一階中包含了13個子測驗并分別測量了一種潛在特質(zhì), 在第二階中這13種潛質(zhì)就被歸為4種外延更廣的潛在特質(zhì)(言語能力、知覺推理、工作記憶和信息加工速度), 而在第三階中這4種潛在特質(zhì)又包含在一般智力之中(Ryan & Schnakenberg-Ott, 2003)。
高階潛在特質(zhì)的概念是建構(gòu)在多維潛在特質(zhì)概念之上的, 用于描述多個潛在特質(zhì)之間可能存在的結(jié)構(gòu)關(guān)系?;诖? 研究者們開發(fā)了兩類不同的高階心理測量模型(陳飛鵬, 詹沛達, 王立君, 陳春曉, 蔡毛, 2015):基于多維IRT模型建構(gòu)的高階IRT模型(de la Torre & Song, 2009; Huang, Wang, Chen, & Su, 2013; Rijmen, Jeon, von Davier, & Rabe- Hesketh, 2014)和基于CDM建構(gòu)的高階認知診斷模型(HO-CDM) (de la Torre & Douglas, 2004; Templin, Henson, Templin, & Roussos, 2008; Zhan, Wang, & Li, in press), 本文聚焦于后者。
在CDA中, 鑒于被試對屬性的掌握可能受到一個(或多個)更高階的潛在特質(zhì)的影響且為減少參數(shù)估計的數(shù)量, de la Torre和Douglas(2004)提出了高階潛在結(jié)構(gòu)模型
圖2 PISA 2015科學素養(yǎng)所包含的三階潛在結(jié)構(gòu)
圖3 CDA中二階潛在特質(zhì)與屬性間的關(guān)系示例圖
注:θ為第二階潛在特質(zhì); α為(第一階)屬性;為總屬性數(shù)量;為總題目數(shù)量
3.2.1 多階潛在結(jié)構(gòu)模型(MO-LSM)
基于條件獨立性假設, MO-LSM假設當給定更高一階的潛在特質(zhì)時, 各低階潛在特質(zhì)之間相互獨立。需要說明的是, 盡管式(3)在理論上能夠處理多階的潛在特質(zhì), 但考慮到現(xiàn)實測驗情境中出現(xiàn)四階潛在特質(zhì)的可能性已經(jīng)較小, 且為匹配PISA 2015科學素養(yǎng)所包含的三階潛在結(jié)構(gòu), 本研究聚焦于僅包含1個第三階潛在特質(zhì)的三階潛在結(jié)構(gòu)模型, 如圖4, 該模型可被描述為:
圖4 CDA中第三階潛在特質(zhì)與屬性間的關(guān)系示例圖.
注:θ為第三階潛在特質(zhì); θ為第二階潛在特質(zhì); α為(第一階)屬性;為總屬性數(shù)量;為總題目數(shù)量。
3.2.2 MO-DINA模型
通常, CDM由兩部分組成:測量模型和潛在結(jié)構(gòu)模型(Rupp et al., 2010), 前者定義了被試作答題目的正確概率, 后者描述了屬性之間的結(jié)構(gòu)關(guān)系。在3.2.1中, 我們已經(jīng)定義了MO-LSM, 為提高參數(shù)估計的精度和效率, 我們選用引入題目內(nèi)特征依賴性的貝葉斯DINA模型(Zhan, Jiao, Liao, & Bian, 2018)作為測量模型, 模型詳述見附錄。
本研究采用全貝葉斯馬爾可夫鏈蒙特卡洛(MCMC)算法來實現(xiàn)對MO-DINA模型的參數(shù)估計, 并基于JAGS軟件(Version 4.3.0)實現(xiàn)。各待估計參數(shù)的先驗分布詳見附錄, 相應的JAGS代碼也可向作者索取。關(guān)于如何使用JAGS實現(xiàn)對貝葉斯CDM的參數(shù)估計, 可參閱Zhan、Jiao、Man和Wang (in press)。
通過對PISA 2015科學測評數(shù)據(jù)的分析, 呈現(xiàn)出MO-DINA模型的現(xiàn)實需求和可應用性?;谏衔闹袑茖W素養(yǎng)所包含的三階潛在結(jié)構(gòu)劃分, 在針對科學素養(yǎng)的測評中, 我們想測評被試在所有第一階、第二階和第三階潛在特質(zhì)(屬性)上的表現(xiàn)情況。因此, 本研究欲回答兩個問題:(1) MO-DINA模型是否適用于測評含三階潛在結(jié)構(gòu)的科學素養(yǎng)?如果可以, 那么(2)科學素養(yǎng)的子維度中哪個對它的影響最大?即在PISA 2015中, 科學素養(yǎng)的核心維度是哪個?
4.2.1 多階潛在特質(zhì)設定
根據(jù)本文第2節(jié)的內(nèi)容, PISA 2015科學素養(yǎng)包含了三階潛在結(jié)構(gòu), 各階潛在特質(zhì)的名稱及它們之間的結(jié)構(gòu)關(guān)系見圖2。在數(shù)據(jù)分析時, 我們依據(jù)MO-DINA模型將模型參數(shù)與多階潛在特質(zhì)進行匹配,第三階潛在特質(zhì):θ→科學素養(yǎng); 第二階潛在特質(zhì):θ→科學能力, θ→科學知識, θ→科學背景; 第一階潛在屬性:A1→科學地解釋現(xiàn)象, A2→評估和設計科學探究, A3→科學地解釋數(shù)據(jù)和證據(jù), A4→內(nèi)容性知識, A5→過程性知識, A6→認知性知識, A7→個人背景, A8→地區(qū)/國家背景, A9→全球背景。需要說明的是, 在第二階潛在特質(zhì)中, 因為科學態(tài)度是通過學生問卷來獲取的, 并不包含在認知題目數(shù)據(jù)中, 所以本研究暫不涉及。
4.2.2 被試與題目
根據(jù)《PISA 2015技術(shù)報告》(OECD, 2017)的“附錄A:題池的分類(Item Pool Classification)”, 數(shù)據(jù)清理過程如下:(1)選用“2015 field trial and main survey cluster”中S01所包含的18道題目, 共47548人; (2)選用中國(QCH)樣本, 共1079人; (3)將數(shù)據(jù)中“not reached”和“no response”等設定為缺失值NA; (4)刪除在18題中全部缺失作答的3名被試, 剩余1076人; (5)將剩余所有缺失值視為完全隨機缺失。全貝葉斯MCMC算法可以根據(jù)其他參數(shù)的估計值計算出缺失值的后驗分布, 這是一種“自動填補”的過程, 無需做其他設定。另外, DS519Q01原為三級評分題目(i.e.,Y∈{0, 1, 2}), 限于MO-DINA模型暫只能處理二級評分題目, 我們將該題目分數(shù)二級化:0→0, 1→0, 2→1。最終, 清理后的數(shù)據(jù)包含= 1076人在= 18題上的二級評分數(shù)據(jù)。屬性與題目之間的對應關(guān)系(i.e., Q矩陣)見表1。
表1 PISA 2015科學測驗部分題目的Q矩陣
注:空白為“0”; 選用“2015 field trial and main survey cluster” = S01的題目。
三模型均使用兩條馬爾可夫鏈(隨機起點), 每條鏈包含10, 000次迭代, 其中預熱5, 000次迭代, 稀疏值1。最終剩余10, 000次迭代用于參數(shù)估計。使用潛在量尺縮減因子(PSRF) (Brooks & Gelman, 1998)進行參數(shù)估計收斂檢驗, 本研究中所有參數(shù)的PSRF均小于1.2, 表示參數(shù)估計已收斂。
本研究使用AIC、BIC和DIC作為模型?數(shù)據(jù)相對擬合指標, 指標值越小的模型表明該模型與數(shù)據(jù)的擬合相對更好。另外, 本研究使用后驗預測模型檢驗(posterior predictive model checking, PPMC)來評估模擬?數(shù)據(jù)絕對擬合指標, 其中后驗預測概率(), 接近0.5則表明模型與數(shù)據(jù)擬合, 小于0.05或大于0.95則表示該模型不擬合該數(shù)據(jù)。
表2呈現(xiàn)了3個模型的各項模型?數(shù)據(jù)擬合指標值。首先, 根據(jù)值, 3個模型均擬合該數(shù)據(jù)。其次, 4個相對擬合指標都判斷DINA模型的相對擬合最差, 說明針對該數(shù)據(jù)應考慮高階潛在結(jié)構(gòu)。然后, 在4個相對擬合指標中, –2LL和AIC均判斷MO-DINA模型的相對擬合更好, 而BIC和DIC則判斷HO-DINA模型的相對擬合更好, 這是由BIC和DIC對模型復雜性的懲罰相對更高導致的。另外, 由于HO-DINA模型是MO-DINA模型的特例(i.e., 約束γ= 1), 似然函數(shù)比檢驗(Δ–2LL = 13,= 3,< 0.05)認為兩模型差異顯著, 應選擇MO-DINA模型。最后, 再結(jié)合本研究的研究目的和問題, 我們綜合認為MO-DINA模型更適宜于本研究。下文將基于MO-DINA模型的分析結(jié)果進行解讀。
表2 PISA 2015科學測驗部分題目數(shù)據(jù)的模型?數(shù)據(jù)擬合指標值.
表3 PISA 2015科學測驗部分題目的參數(shù)估計值.
注:95% CI = 95%貝葉斯可信區(qū)間;g= 猜測參數(shù),s= 失誤參數(shù);IDI= 題目區(qū)分度.
表4 PISA 2015科學測驗部分題目的題目均值向量和方差協(xié)方差矩陣估計值.
表3呈現(xiàn)了題目參數(shù)的估計值。整體看這18道題的質(zhì)量一般, 有個別題目的猜測參數(shù)或失誤參數(shù)達到了0.8左右。這點根據(jù)題目區(qū)分度(IDI= 1 –s–g) (de la Torre, 2008)也能夠發(fā)現(xiàn), 部分題目的區(qū)分度已經(jīng)低于0.2。這其中可能原因是(1)測驗Q矩陣不完備(K?hn & Chiu, 2017); (2)題目涉及了Q矩陣以外的其他屬性。另外, 表4呈現(xiàn)了logit轉(zhuǎn)換后的題目參數(shù)的均值向量和方差協(xié)方差矩陣, 可以看到兩類題目參數(shù)之間呈高程度負相關(guān), 這符合Zhan等人(2018)的觀點。
就高階潛在特質(zhì)的估計值而言, 首先, 1個第三階潛在特質(zhì)和3個第二階潛在特質(zhì)的估計值整體分布形態(tài)基本一致, 這是因為它們之間的相關(guān)性較高(3個回歸系數(shù)分別為:0.847 (= 0.094)、0.973 (= 0.025)和0.927 (= 0.057), 因此, 它們之間相關(guān)系數(shù)約為0.8)。需要說明的是, 特質(zhì)之間在統(tǒng)計上有高相關(guān)并不一定代表它們是同一個特質(zhì)。比如, 盡管身高和體重之間呈高相關(guān), 但兩者絕非同一種特質(zhì)。因此, 當特質(zhì)之間存在高相關(guān)時, 能否用一個籠統(tǒng)的高階特質(zhì)來囊括它們是需要做進一步理論判定的?;赑ISA 2015科學素養(yǎng)測評框架, 我們認為這3個第二階潛在特質(zhì)在定義和內(nèi)涵上都是不一樣的, 不應將它們視為同一特質(zhì)。另外, 我們還使用HO-DINA模型和單維兩參數(shù)Logistic模型(Birnbaum, 1968)分析了該批數(shù)據(jù), 發(fā)現(xiàn)MO-DINA模型中的第三階潛在特質(zhì)估計值與HO-DINA模型的高階潛在特質(zhì)估計值的相關(guān)系數(shù)為0.996, 且與單維兩參數(shù)Logistic模型的潛在特質(zhì)估計值的相關(guān)系數(shù)為0.936, 表明三者對“科學素養(yǎng)”的估計值具有高相關(guān)性, 同時也表明MO-DINA模型可提供更多的分析結(jié)果信息。
圖5呈現(xiàn)了高階潛在結(jié)構(gòu)參數(shù)的估計值, 包括第三階與第二階潛在特質(zhì)之間的回歸系數(shù)和第二階潛在特質(zhì)與屬性之間的屬性區(qū)分度參數(shù)。首先, 3個回歸系數(shù)均接近于1, 說明PISA 2015科學素養(yǎng)測評框架中把科學能力、科學知識和科學背景作為科學素養(yǎng)的主要組成部分的做法是合理的。其次, 根據(jù)這3個回歸系數(shù)的大小可知:對科學素養(yǎng)而言, 科學知識的影響最大, 科學背景的影響次之, 科學能力的影響最小。然后, 根據(jù)屬性區(qū)分度的大小可發(fā)現(xiàn), (1)科學地解釋現(xiàn)象對科學能力的影響最大; (2)過程性知識對科學知識的影響最大; (3)地區(qū)/國家背景對科學背景的影響最大。
表5呈現(xiàn)了個別被試的診斷結(jié)果示例。使用MO-DINA模型進行分析時, 除了能夠得到9個屬性的診斷分類結(jié)果外, 還能夠得到被試在多階潛在特質(zhì)上的估計值。以2號和23號被試為例, 盡管兩者在屬性模式上完全一樣, 但他們在多階潛在特質(zhì)上的表現(xiàn)還是有所差異的, 說明它們對屬性的掌握概率存在差異。
總體而言, 根據(jù)對PISA 2015科學測驗數(shù)據(jù)的分析結(jié)果, 可以說MO-DINA模型滿足本文的分析需求, 在匹配PISA 2015科學素養(yǎng)測評框架的基礎上, 實現(xiàn)了對科學素養(yǎng)的客觀測評。
在探討完MO-DINA模型的現(xiàn)實可應用性后, 我們通過一個簡單的模擬研究來探討它的參數(shù)估計返真性。模擬研究中的部分設定參考上文的實證數(shù)據(jù)分析結(jié)果, 使用圖7中的三階潛在結(jié)構(gòu), 即第三階潛在特質(zhì)1個, 第二階潛在特質(zhì)3個, 屬性= 9個; 題目數(shù)量設定為= 30, Q矩陣設定見圖6; 題目參數(shù)按如下方法生成:(logit(g), logit(s))’ = (β, δ)’ ~(μ, Σ), 其中μ= μ= –2.197, Σ = [1, –0.6; –0.6, 1]; 屬性截距向量λ= (–1, 0, 1, –1, 0, 1, –1, 0,1), 所有屬性區(qū)分度均設定為λ1= 1.5, 即假設屬性之間為中等程度相關(guān); 被試量設定為= 1, 000, 第三階潛在特質(zhì)從標準正態(tài)分布中生成, 第三階與第二階潛在特質(zhì)之間的3個載荷均設定為γ= 0.8, 即假設各二階潛在特質(zhì)之間相關(guān)系數(shù)為0.64。模擬研究中, 迭代次數(shù)、預熱次數(shù)等與實證研究中的保持一致, 本研究中所有參數(shù)的PSRF均小于1.2, 表示參數(shù)估計已收斂。另外, 使用偏差(Bias)、均方根誤差(RMSE)和皮爾遜相關(guān)系數(shù)(Cor)來探究連續(xù)變量(e.g., 題目參數(shù), 潛在特質(zhì))的返真性。使用屬性正確判準率(ACCR)和屬性模式正確判準率(PCCR)來探究屬性的返真性。
圖5 PISA 2015科學測驗中潛在結(jié)構(gòu)參數(shù)估計值(基于MO-DINA模型).
注:括號內(nèi)為95%貝葉斯可信區(qū)間.
表5 PISA 2015科學測驗部分題目數(shù)據(jù)的診斷結(jié)果示例(基于MO-DINA模型).
注:括號內(nèi)為95%貝葉斯可信區(qū)間.
圖6 模擬研究中的K × I的Q’ 矩陣. 灰色表示“1”, 白色表示“0”.
圖7 模擬研究中題目參數(shù)的返真性.
注: bias = 偏差; RMSE = 均方根誤差.
圖7呈現(xiàn)了題目參數(shù)返真性。就Bias而言, 絕大多數(shù)題目的參數(shù)Bias小于0.01, 猜測參數(shù)和失誤參數(shù)的Bias的平均絕對值分是0.002和0.004。就RMSE而言, 所有題目參數(shù)的RMSE均小于0.05, 猜測參數(shù)和失誤參數(shù)的RMSE的均值分別是0.018和0.026。還可發(fā)現(xiàn), 猜測參數(shù)的RMSE隨著題目測查的屬性數(shù)量的增加而下降, 而失誤參數(shù)的RMSE隨著題目測查的屬性數(shù)量的增加而增加, 這與以往一些研究的結(jié)論是一致的(e.g., de la Torre, 2009; Zhan, Jiao, Liao, et al., 2018)。此外, 猜測參數(shù)和失誤參數(shù)的Cor分別是0.981和0.964, 即題目參數(shù)的估計值與真值之間呈高相關(guān)。整體而言, MO-DINA模型的題目越參數(shù)返真性較好。
圖8呈現(xiàn)了屬性參數(shù)的ACCR。9個屬性的ACCR均高于0.900, 表明單個屬性的參數(shù)估計返真性很好。另外, PCCR為0.512, 考慮到屬性數(shù)量為9, 即有512種可能的屬性模式需要被估計, 根據(jù)已有研究經(jīng)驗, 該判準率符合預期。
圖8 模擬研究中屬性參數(shù)的屬性正確判準率(ACCR).
表6呈現(xiàn)了高階潛在特質(zhì)參數(shù)的返真性。首先, 4個高階潛在特質(zhì)的返真性類似, 1, 000名被試的bias的平均絕對值約為0.1, RMSE的均值約為0.69, Cor均高于0.7。參考以往關(guān)于HO-DINA模型的研究結(jié)果(e.g., de la Torre & Douglas, 2004; de la Torre, 2009; Zhan et al., 2018), 整體而言, 高階潛在特質(zhì)參數(shù)的返真性良好, 滿足實際應用需求。
表6 模擬研究中高階潛在特質(zhì)參數(shù)的返真性.
注:bias = 偏差; RMSE = 均方根誤差; Cor = 皮爾遜相關(guān)系數(shù).
表7 模擬研究中潛在結(jié)構(gòu)參數(shù)的返真性
注:bias = 偏差; RMSE = 均方根誤差; Cor = 皮爾遜相關(guān)系數(shù); λ0= 屬性難度參數(shù), λ1= 屬性區(qū)分度參數(shù), γ, γ, γ= 第三階與第二階潛在特質(zhì)之間的回歸系數(shù).
表7呈現(xiàn)了高階潛在結(jié)構(gòu)參數(shù)的返真性。首先, 對于屬性難度參數(shù)的返真性優(yōu)于屬性區(qū)分度參數(shù)的返真性, 與以往關(guān)于HO-DINA模型的研究結(jié)論一致。其次, 第三階潛在特質(zhì)與3個第二階潛在特質(zhì)之間回歸系數(shù)的返真性也較好, RMSE均小于0.08。整體而言, 潛在結(jié)構(gòu)參數(shù)的返真性較好。
為實現(xiàn)對科學素養(yǎng)的客觀且準確的測評, 本文首先根據(jù)PISA 2015科學素養(yǎng)測評框架, 提出了科學素養(yǎng)所包含的三階潛在結(jié)構(gòu)。然后, 鑒于當前尚未有CDM能夠處理包含三階潛在結(jié)構(gòu)的數(shù)據(jù), 我們提出了多階認知診斷建模思路, 并以DINA模型為例, 建構(gòu)了多階DINA (MO-DINA)模型。新模型采用全貝葉斯MCMC算法實現(xiàn)參數(shù)估計。新模型與PISA 2015科學素養(yǎng)測評框架相匹配, 滿足對科學素養(yǎng)的客觀且準確測評的需求。之后, 本文以PISA 2015科學測驗數(shù)據(jù)分析為例來說明新模型的現(xiàn)實需求和可應用性。最后, 通過一個模擬研究來探究新模型的參數(shù)估計返真性。實證研究結(jié)果表明當測驗數(shù)據(jù)結(jié)構(gòu)存在多階潛在結(jié)構(gòu)或者數(shù)據(jù)分析者需要了解被試在多階潛在特質(zhì)方面的表現(xiàn)時, 可考慮使用MO-DINA模型。模擬研究結(jié)果表明本文提出的全貝葉斯MCMC算法能夠為MO-DINA模型提供較好的參數(shù)估計返真性。
本文中, 盡管MO-DINA模型是針對PISA 2015科學素養(yǎng)所包含的三階潛在結(jié)構(gòu)而提出的, 且因為MO-DINA模型是HO-DINA模型的拓廣, 所以理論上該模型也可以適用于其他包含二階及以上階潛在結(jié)構(gòu)的測驗, 比如國際數(shù)學和科學趨勢研究(TIMSS)和(中國)國家義務教育階段教育質(zhì)量監(jiān)測等大規(guī)模測驗均包含了多階潛在結(jié)構(gòu)。當然, 本研究并不是為了說明任何包含多階潛在結(jié)構(gòu)的測驗或者任何針對科學素養(yǎng)的測驗都需要使用MO-DINA模型來進行分析, 而只是從“為學習而評價(assessment for learning)”的新測評理念出發(fā), 向讀者提供一種新的測評視角和方法, 以期進一步豐富數(shù)據(jù)分析模型的可選項。在實踐中, 我們除了可根據(jù)測驗編制的理論和實際測驗需求等來選擇分析模型外, 還可以嘗試使用數(shù)據(jù)驅(qū)動方法, 依據(jù)模型?數(shù)據(jù)擬合指標(e.g., AIC、BIC和DIC等)來選擇合適的模型, 進而得到客觀的、準確的以及滿足需要的數(shù)據(jù)分析結(jié)果。
需要強調(diào)的是, 一般存在3個及以上的低階潛在特質(zhì)時才會考慮使用高階模型。具體而言, 對于二階LSM (見式(1)), 當= 3時, 使用無結(jié)構(gòu)潛在結(jié)構(gòu)模型需要估計2– 1 = 7個結(jié)構(gòu)參數(shù), 而使用二階LSM僅需要估計6個參數(shù)(包含3個屬性區(qū)分度和3個屬性難度); 而對于第三階與第二階潛在特質(zhì)而言, 當?shù)诙A潛在特質(zhì)屬性數(shù)量為3時, 直接估計3者之間的相關(guān)系數(shù)和估計第三階與第二階潛在特質(zhì)之間的載荷均需要3參數(shù), 而當?shù)诙A潛在特質(zhì)數(shù)量大于3時, 則使用高階結(jié)構(gòu)可以減少待估計參數(shù)數(shù)量。比如, 就圖5的三階潛在結(jié)構(gòu)而言, 直接使用DINA模型需要估計2– 1 = 511個結(jié)構(gòu)參數(shù), 使用MO-DINA模型僅需要估計21個結(jié)構(gòu)參數(shù)(包含9個屬性區(qū)分度、9個屬性難度和3個載荷), 可以大幅降低待估計參數(shù)數(shù)量。但若使用包含三個維度的二階DINA模型, 則同樣需要估計21個結(jié)構(gòu)參數(shù)(包含9個屬性區(qū)分度、9個屬性難度和3個相關(guān)系數(shù)), 但此時就無法實現(xiàn)對“科學素養(yǎng)”維度的測量。因此, 是否選用高階模型, 可以從理論(測驗框架)和模型簡約兩個角度進行考慮, 但究竟高階模型是否合理, 最終還要回歸到理論, 因為并不是所有潛在特質(zhì)都適合建構(gòu)高階結(jié)構(gòu)。比如, 大五人格的五個維度就不應用高階潛在特質(zhì)“性格”去解釋, 因為從理論上講人格的五個維度應該是獨立的(盡管數(shù)據(jù)分析結(jié)果會存在低相關(guān))。
盡管本研究將科學素養(yǎng)劃分為了三階潛在結(jié)構(gòu), 但第一階的屬性粒度仍然較大, 而通常CDA可能更適用于測評一些粒度較小的屬性(see Leighton & Gierl, 2007; 詹沛達等, 2016)。實際上, 基于PISA 2015科學測評框架, 本研究中的第一階屬性還能夠進一步劃分為粒度更小的概念, 比如, A1“科學地解釋現(xiàn)象”還能夠進一步劃分為“回憶并應用適當?shù)目茖W知識(Recall and apply appropriate scientifc knowledge)”和“提供解釋性假設(Offer explanatory hypotheses)”等小粒度概念, 詳見OECD (2016)的表2.4a。盡管理論上我們可以使用包含四階潛在結(jié)構(gòu)的MHO-DINA模型做進一步分析, 但受限于《PISA 2015技術(shù)報告》中并未呈現(xiàn)題目與小粒度概念之間的具體對應關(guān)系(即沒有相應的Q矩陣), 所以本文暫只關(guān)注到對科學素養(yǎng)所包含的三階潛在結(jié)構(gòu)的測評。另外, 如有需要, 后續(xù)還可以嘗試使用三階IRT模型(e.g., Huang et al., 2013)來分析該數(shù)據(jù), 并與本文的分析結(jié)果進行對比研究。
當然, 由于能力和精力有限, 本研究仍有一些局限值得后續(xù)做出進一步探究, 比如:(1)盡管本文主要關(guān)注的是潛在結(jié)構(gòu)模型, 但仍僅使用了DINA模型作為測量模型, 后續(xù)可嘗試探究基于其他測量模型時的性能; (2)未考慮屬性之間可能存在的層級結(jié)構(gòu)(Leighton, Gierl, & Hunka, 2004), 如何將屬性層級結(jié)構(gòu)引入到多階潛在結(jié)構(gòu)中值得今后進一步關(guān)注(e.g., Zhan, Ma, Jiao & Ding, in press); (3)僅涉及二分屬性, 而未考慮更為精細的多分屬性(Karelitz, 2004), 如何將MO-LSM拓廣到多分屬性是一個有意義的話題(e.g., Zhan, Wang et al., in press); (4)假設多階潛在結(jié)構(gòu)建構(gòu)合理, 而現(xiàn)實測驗中多階潛在結(jié)構(gòu)的界定可能會存在偏差, 在這種情況下MO- DINA模型的表現(xiàn)情況值得做進一步研究; (5) MO- DINA模型僅考慮了單一的作答數(shù)據(jù)源, 并未考慮諸如題目作答時間、鼠標點擊次序數(shù)據(jù)等過程性數(shù)據(jù), 如何將過程性數(shù)據(jù)引入到當前建模思路中非常值得關(guān)注(e.g., Liu, Liu, & Li, 2018; Zhan et al., 2018); (6) MO-DINA模型僅針對橫斷測驗數(shù)據(jù), 暫無法處理縱向測驗數(shù)據(jù), 后續(xù)可嘗試對其做進一步拓廣(e.g., Li, Cohen, Bottge, & Templin, 2016; Zhan, Jiao, Liao & Li, in press); (7)實證數(shù)據(jù)分析中, 未考慮科學態(tài)度維度, 如何將由學生問卷測評的科學態(tài)度和由認知題目測評的其他3個維度一同納入到對科學素養(yǎng)的測評中值得今后做進一步探索。
Birnbaum, A. (1968).. In F. M. Lord & M. R. Novick (Eds.). Statistical theories of mental test scores. Addison- Wesley, Reading, MA.
Brooks, S. P., & Gelman, A. (1998). General methods for monitoring convergence of iterative simulations.. 7(4), 434–455.
Chen, F., Zhan, P., Wang, L., Chen, C., & Cai, M. (2015). The development and application of higher-order item response models., 150–157.
[陳飛鵬, 詹沛達, 王立君, 陳春曉, 蔡毛. (2015). 高階項目反應模型的發(fā)展與應用., 150–157.]
de la Torre, J. (2008). An empirically-based method of Q-matrix validation for the DINA model: Development and applications.(4), 343–362.
de la Torre, J. (2009).DINA model and parameter estimation: A didactic.(1)115 –130.
de la Torre, J., & Douglas, J. A. (2004). Higher-order latent trait models for cognitive diagnosis.(3), 333–353.
de la Torre, J., & Song, H. (2009). Simultaneously estimation of overall and domain abilities: A higher-order IRT model approach.(8), 620–639.
Gao, H. B. (2011). Results of the eighth survey on Chinese citizens' scientific literacy were released., 63–64.
[高宏斌. (2011). 第八次中國公民科學素養(yǎng)調(diào)查結(jié)果發(fā)布., 63–64.]
Hu, Y., Yang, S., & Lu, K. (2012). The research of assessment tools of adolescents’ scientific literacy and its quality analysis.16–21.
[胡詠梅, 楊素紅, 盧珂. (2012). 青少年科學素養(yǎng)測評工具研發(fā)及質(zhì)量分析.16–21.]
Huang, H.-Y., Wang, W.-C., Chen, P.-H., & Su, C.-M. (2013). Higher-order item response models for hierarchical latent traits.(8), 619– 637.
Junker, B. W., & Sijtsma, K. (2001). Cognitive assessment models with few assumptions, and connections with nonparametric item response theory., 258–272.
Karelitz, T. M. (2004).(Unpublished doctoral dissertation). University of Illinois at Urbana-Champaign
Kang, C., & Xin, T. (2010). New development in test theory: multidimensional item response theory.(3), 530–536
[康春花, 辛濤. (2010). 測驗理論的新發(fā)展:多維項目反應理論.(3), 530–536.]
K?hn, H.-F., & Chiu, C.-Y. (2017). A procedure for assessing the completeness of the Q-matrices of cognitively diagnostic tests.(1), 112–132
Leighton, J., & Gierl, M. (Eds.). (2007).. Cambridge University Press.
Leighton, J. P., Gierl, M. J., & Hunka, S. M. (2004). The attribute hierarchy method for cognitive assessment: A variation on Tatsuoka’s rule-space approach.(1), 205–237.
Li, F., Cohen, A., Bottge, B, & Templin, J. (2016). A latent transition analysis model for assessing change in cognitive skills.(2), 181–204.
Liu, H., Liu, Y., & Li, M. (2018). Analysis of process data of PISA 2012 computer-based problem solving: Application of the modified multilevel mixture IRT model..
Liu, K., Li, C. (2015). The content and characteristic of PISA 2015 draft science framework.(7), 98–105.
[劉克文, 李川. (2015). PISA 2015科學素養(yǎng)測試內(nèi)容及特點.(7), 98–105.]
Macready, G. B., & Dayton, C. M. (1977). The use of probabilistic models in the assessment of mastery.(2), 99–120.
Miller, J. D. (1983). Scientific literacy: A conceptual and empirical review.,(2), 29–48.
OECD. (2006).. Paris: PISA, OECD Publishing
OECD. (2016).. Paris: PISA, OECD Publishing
OECD. (2017).. Paris: PISA, OECD Publishing
Qin, H., & Qian, Y. (2008). A survey report on Shanghai adolescents’ scientific literacy.(24), 31–35.
[秦浩正, 錢源偉. (2008). 上海青少年科學素養(yǎng)調(diào)查報告.(24), 31–35.]
Reckase, M. D. (2009).. New York: Springer.
Ren, L., Zhang, C., & He, W. (2013). Constructing and anallysis of the model of how the factors affect the scientific literacy of Chinese citizens and a comparative investigation., 983–990.
[任磊, 張超, 何薇. (2013). 中國公民科學素養(yǎng)及其影響因素模型的建構(gòu)與分析.(7), 983–990.]
Rijmen, F., Jeon, M., von Davier, M., & Rabe-Hesketh, S. (2014). A third-order item response theory model for modeling the effects of domains and subdomains in large-scale educational assessment surveys.(4), 235–256.
Roos, J. M. (2014). Measuring science or religion? A measurement analysis of the National Science Foundation sponsored science literacy scale 2006–2010.(7), 797–813.
Rupp, A. A., Templin, J., & Henson, R. A. (2010).New York, NY: Guilford Press
Ryan, J. J., & Schnakenberg-Ott, S. D. (2003). Scoring reliability on the Wechsler Adult Intelligence Scale-Third Edition (WAIS-III).(2), 151–159.
Templin, J. L., Henson, R. A., Templin, S. E., & Roussos, L. (2008). Robustness of hierarchical modeling of skill association in cognitive diagnosis models.(7), 559–574.
The Ministry of Education of the People's Republic of China. (2017).Retrieved June 2, 2017, from http://www.moe.edu.cn/srcsite/A26/s8001/201702/t20170215_296305.html
[中華人民共和國教育部. (2017).. 2017-06-02取自http://www.moe.edu.cn/srcsite/A26/ s8001/201702/t20170215_296305.html]
Tu, D., Cai, Y., & Ding, S. (2012).. Beijing: Beijing Normal University Publishing Group.
[涂冬波, 蔡艷, 丁樹良. (2012).. 北京: 北京師范大學出版社。]
Wang, W.-C., & Chen, P.-H. (2004). Implementation and measurement efficiency of multidimensional computerized adaptive testing.(5), 295–316.
Zhan, P., Chen, P., & Bian, Y. (2016). Using confirmatory compensatory multidimensional IRT models to do cognitive diagnosis.(10), 1347–1356.
[詹沛達, 陳平, 邊玉芳. (2016). 使用驗證性補償多維IRT模型進行認知診斷評估.(10), 1347–1356.]
Zhan, P., Jiao, H., & Liao, D. (2018). Cognitive diagnosis modelling incorporating item response times.(2), 262–286.
Zhan, P., Jiao, H., Liao, D., & Li, F. (in press). A longitudinal higher-order diagnostic classification model.
Zhan, P., Jiao, H., Liao, M., & Bian, Y. (2018). Bayesian DINA modeling incorporating within-item characteristic dependency.. Advanced online publication. URL https://doi.org/10.1177/0146621618781594
Zhan, P., Jiao, H., Man, K., & Wang, L. (in press). Using JAGS for Bayesian cognitive diagnosis modeling: A tutorial..
Zhan, P., Ma, W., Jiao, H., & Ding, S. (in press). A sequential higher-order latent structural model for hierarchical attributes in cognitive diagnostic assessments.
Zhan, P., Wang, W.-C., & Li, X. (in press). A partial mastery, higher-order latent structural model for polytomous attributes in cognitive diagnostic assessments.
Zhan, P., Wang, W.-C., & Wang, L. (2013). Testlet response theory: an introduction and new developments.(12), 2265–2280.
[詹沛達, 王文中, 王立君. (2013). 項目反應理論新進展之題組反應理論.(12), 2265?2280.]
測量模型選用引入題目內(nèi)特征依賴性的貝葉斯DINA模型(Zhan, Jiao, Liao, & Bian, 2018), 可表示為:
式中,Y為被試作答題目的結(jié)果; Ψ= (β, δ)’為logit量尺上滿足二元正態(tài)分布的題目參數(shù)向量(兩者通常為負相關(guān)), 它們與常規(guī)DINA模型中的猜測和失誤參數(shù)之間的關(guān)系為:logit(g) = β, logit(s) = δ;q為Q矩陣中元素,q= 1表示題目考查了屬性, 反之,q= 0。將該模型與正文中式(4)相結(jié)合即可得到MO-DINA模型。
其次, 關(guān)于題目參數(shù)的先驗分布, 參考Zhan, Jiao, Liao等人(2018), 設定如下:
μ = (μ, μ)’為logit轉(zhuǎn)換后的題目參數(shù)均值, Σ為方差協(xié)方差矩陣, 有
ρ為logit轉(zhuǎn)換后的題目參數(shù)之間的相關(guān)系數(shù)。其中, μ和μ的超先驗(hyper-prior)分布分別設定為μ~(–1.096, 4)和μ~(–1.096, 4), 鑒于logit(–1.096) ≈ 0.25, 所以該設定與四則一選擇題的理論猜測概率相符合; 另外, 設定Σ ~ InvWishart(R, 2), 其中R為二維單位矩陣。
再有, 關(guān)于高階潛在特質(zhì)參數(shù), 參考Huang等人(2013), 設定如下:
最后, 關(guān)于高階潛在結(jié)構(gòu)參數(shù), 參考Zhan, Jiao和Liao (2018), 設定如下:
Using a multi-order cognitive diagnosis model to assess scientific literacy
ZHAN Peida; YU Zhaohui; LI Feiming; WANG Lijun
(College of Teacher Education, Zhejiang Normal University, Jinhua 321004, China)
In PISA 2015, scientific literacy is defined as “the ability to engage with science-related issues, and with the ideas of science, as a reflective citizen”. There are four interdependent dimensions are specified in the scientific literacy assessment framework for PISA 2015: Competencies, Knowledge, Contexts, and Attitudes. Given that knowledge of scientific literacy contributes significantly to individuals’ personal, social, and professional lives, it is of vital importance to find an objectively and accurately assessment method for scientific literacy. However, only unidimensional IRT models were used in the analysis in PISA 2015. Which means that the analysis model does not match with such a multidimensional assessment framework. It is desired to develop a new analysis model. This study attempts to measure scientific literacy in cognitive diagnostic assessment for the first time.
According to the scientific literacy assessment framework for PISA 2015, a third-order latent structure for scientific literacy is first pointed out. Specifically, the scientific literacy is treated as the third-order latent trait; Competencies, Knowledge, Contexts, and Attitudes are all treated as second-order latent traits; And nine subdomains, e.g., explain phenomena scientifically and content knowledge, were treated as first-order traits (or attributes). Unfortunately, however, there is still a lack of cognitive diagnosis models that can deal with such a third-order latent structure. To this end, a multi-order DINA (MO-DINA) model was developed in this study. The new model is an extension of the higher-order (HO-DINA) model, which is similar to the third-order IRT models. To illustrate the application and advantages of the MO-DINA model, a sub-data of PISA 2015 science assessment data were analyzed. Items were chosen from the S01 cluster, and participants were chosen from China. After data cleaning, 1076 participants with 18 items were retained. Three models were fitted to this sub-data and compared, the MO-DINA model, in which the third-order latent structure of scientific literacy was considered; the HO-DINA model, in which the scientific literacy was treated as a second-order latent trait and contacted with attributes directly; and the DINA model.
All three models appear to provide a reasonably good fit to data according to the posterior predictive model checking. According to the –2LL, AIC, BIC, and DIC, the DINA model fits the data worst, and the MO-DINA model fits the data best, the results of MO-DINA model are used to make further interpretations. The results indicated that (1) the quality of 18 items are not good enough; (2) The correlations among second-order latent traits are high (0.8, approximately); (3) Knowledge has the greatest influence on scientific literacy, Contexts second, and Competencies least; (4) Explain phenomena scientifically, procedural knowledge, and local/national has the greatest influence on Competencies, Knowledge, and Contexts, respectively. In addition, a simulation study was conducted to evaluate the psychometric properties of the proposed model. The results showed that the proposed Bayesian MCMC estimation algorithm can provide accurate model parameter estimation.
Overall, the proposed MO-DINA model works well in real data analysis and simulation study and meets the needs of assessment for PISA 2015 scientific literacy which included a third-order latent structure.
scientific literacy; cognitive diagnosis; PISA; DINA model
10.3724/SP.J.1041.2019.00734
2018-09-21
* 國家自然科學基金青年基金項目(31600908)、浙江省自然科學基金項目(LY16C090001)、教育部人文社會科學研究青年基金項目(19YJC190025)和浙江省教育科學規(guī)劃重點課題(2019SB112)資助。
詹沛達, E-mail: pdzhan@gmail.com
B841