中央民族大學 胥 云 北京師范大學 武尊民
提 要:認知診斷測試可以反映受試的知識結(jié)構(gòu)和分項技能掌握情況,為受試提供詳細的反饋信息。本文簡要介紹了認知診斷的原理和步驟,總結(jié)了國內(nèi)外英語測試領域的認知診斷研究已取得的進展,并指出目前該領域尚存的問題遠大于已取得的成就,在未來的研究中需要設計嚴格意義上的認知診斷測試,探索檢驗Q矩陣效度的多種方法并開展診斷結(jié)果促學的實證研究。
近年來,英語測試領域的關(guān)注重點從測試的選拔功能轉(zhuǎn)向測試對教學的指導作用,學習者和教育機構(gòu)對測試結(jié)果反饋的需求與日俱增(Lee, 2015)。美國的“不讓一個孩子掉隊”(No Child Left Behind Act)法案已明確規(guī)定,大規(guī)??荚嚤仨毺峁┽槍W生個人的反饋報告(Roberts & Gierl, 2010),測試結(jié)果的反饋越來越受到重視。
傳統(tǒng)測試一般只能匯報受試的總分,這種反饋僅能反映受試的總體水平及其在一個群體中所處的位置(Alderson, 2005)。而認知診斷測試(Cognitive Diagnostic Assessment,CDA)是認知心理學和心理測量學的結(jié)合(Sawaki, Kim & Gentile, 2009; Von Davier, 2005),可以將受試的語言能力細化,反映受試對某個特定知識點或分項技能的掌握情況,詳細地描繪出受試相對于其他學習者特有的知識結(jié)構(gòu)和技能掌握模式。
由于相比傳統(tǒng)測試形式,認知診斷測試具有準確診斷、詳細反饋的優(yōu)勢,近二十年來,國內(nèi)外陸續(xù)有研究者嘗試將認知診斷技術(shù)引入英語測試領域,旨在發(fā)現(xiàn)學生的優(yōu)勢和缺點,探查需要進一步教學干預的領域,并提供詳細的反饋。目前,國內(nèi)英語測試領域的認知診斷研究剛剛起步,了解國內(nèi)外現(xiàn)有研究的共性和局限可以使未來研究有效借鑒前人研究成果,揚長避短,研制出適合英語學科的認知診斷測試,改善考試結(jié)果的匯報機制,從而最大程度上發(fā)揮診斷測試的促學作用。因此,本文將對英語測試領域的認知診斷研究進行梳理,分析其共同點和現(xiàn)存問題,為英語認知診斷測試進一步深入發(fā)展提供啟示。
語言測試中的認知診斷研究基本都經(jīng)歷三大步驟:確定屬性(attribute)、建立Q矩陣(Q-matrix)、判別受試屬性掌握模式(attribute mastery pattern)(Lee & Sawaki, 2009b)。
(1)確定屬性
認知診斷中的屬性是指成功完成任務必須掌握的知識、技能以及經(jīng)歷的認知過程(Birenbaum, Kelly & Tatsuoka, 1993)。也有學者認為除知識、技能外,屬性還包括所有影響測試的因素,例如任務特點等(Buck & Tatsuoka, 1998)。以閱讀測試為例,各個認知屬性相當于閱讀能力下屬的分項技能,或者閱讀測試構(gòu)念的細化。例如,某閱讀測試旨在考查4項閱讀分項能力,分別是“能讀懂文章大意”、“能理解細節(jié)和事實性信息”、“能理解作者意圖、觀點和態(tài)度”以及“能根據(jù)事實性信息簡單推斷信息的意義”,這4項分項能力即是該閱讀測試的4個屬性。
(2)建立Q矩陣
Q矩陣表現(xiàn)的是每個測試題目考查的認知屬性,建立Q矩陣實際上是在定義測試題目和認知屬性之間的關(guān)系(Sawaki et al., 2009),即題目與構(gòu)念的關(guān)系。在Q矩陣中,0代表完成一道題目不需要某一屬性所涉及的知識和技能,1則相反,如果受試答對題目,則說明已掌握該屬性(Gierl, Leighton & Hunka, 2000)。
表1.Q矩陣舉例
目前確定屬性和建立Q矩陣主要有4種方法,分別是文獻法、專家判斷、做題過程研究和因子分析法(Lee & Sawaki, 2009b;涂冬波等,2012)。文獻法指綜合分析考試說明、雙向細目表以及本領域已有研究,確定屬性以及題目和屬性間的關(guān)系;專家判斷法主要依靠學科專家的知識和經(jīng)驗進行判斷;做題過程研究通過對受試進行有聲思維實驗,觀察其在做題過程中動用了哪些能力,從而判斷完成特定題目需要的知識和技能;此外,還可以基于測試結(jié)果進行因子分析,據(jù)此建立或者驗證Q矩陣的合理性。
(3)判別屬性掌握模式
認知診斷的最后一步是判別屬性掌握模式。以上文的閱讀測試為例,4個屬性會產(chǎn)生16種屬性掌握模式,分別是0000,0100,0010,0001……1111模式。其中0000模式表示4種屬性全未掌握,0100模式表示受試在屬性2上已經(jīng)達到要求,但其他3種屬性尚未掌握,而1111模式則代表4種屬性全部掌握。
本文以規(guī)則空間模型(rule space model)為例,簡要介紹屬性掌握模式判別的原理。每種屬性掌握模式有其對應的受試的理想反應模式(ideal response pattern)。根據(jù)每種理想反應模式可以計算出該模式對應的一組序偶(θ,ζ),這里θ代表受試的潛在能力(latent ability),而ζ表示能力為θ的受試其實際反應模式偏離其能力水平對應的項目反應模式的程度(涂冬波等,2008)。根據(jù)每種理想反應模式對應的(θ,ζ)可以將其映射到一個二維空間(即規(guī)則空間)中,共得到16種理想反應模式所對應的16個純規(guī)則點。然后根據(jù)每個受試的實際反應模式(real response pattern),即受試在所有題目上的實際作答,計算出其對應的序偶(θ’,ζ’),將所有受試映射到規(guī)則空間中,通過計算每個受試對應的點與16種理想反應模式對應的純規(guī)則點之間的距離,將受試判定到與之距離最小的屬性掌握模式中(涂冬波等,2012)。
到目前為止,成功應用于英語測試領域的認知診斷模型已有十余種。從表2中可以看出,最早得以應用的是規(guī)則空間模型。1997年Buck和規(guī)則空間模型的創(chuàng)始人Tatsuoka(1983)首次合作,使用規(guī)則空間模型診斷托福閱讀和聽力能力(Buck, Tatsuoka & Kostin, 1997; Buck & Tatsuoka, 1998),開創(chuàng)英語測試領域應用認知診斷模型之先河。但是,規(guī)則空間模型存在一個弱點,即并非每次都能判別全部受試的屬性掌握模式。例如,Scott(1998)和Buck & Tatsuoka(1998)的研究中,分別有84%和96%的受試被判別屬性掌握模式,但仍有少部分受試無法判別。此外,規(guī)則空間模型對屬性之間的層級關(guān)系要求較嚴格,更適用于數(shù)學領域的認知診斷,而語言理解是一個復雜的過程,研究者對其中涉及到的認知能力以及各個能力之間的關(guān)系還缺乏完全準確的理解(Yi,2017)。
與規(guī)則空間模型相比,融合模型尤其適合屬性數(shù)量不多、各個屬性間高度相關(guān)的測試(涂冬波等,2008),這一特點與英語學科高度契合。尤其是融合模型的配套軟件Arpeggio(DiBello & Stout, 2010)的開發(fā)應用使外語研究者也能進行復雜的認知診斷數(shù)據(jù)分析,而在同一時期,其它模型多數(shù)需要研究者自編相應程序進行運算,或者已開發(fā)相應軟件,但還未對廣大外語研究者開放。因此,融合模型在一個時期內(nèi)成為英語測試領域認知診斷的首選模型。使用融合模型的一系列研究中,Jang(2009)的影響力較大,與此前的研究相比,Jang更加重視認知診斷結(jié)果的信、效度檢驗和反饋報告的呈現(xiàn)形式,從而進一步推進了英語測試中認知診斷的發(fā)展。
早期認知診斷研究多數(shù)缺乏信、效度檢驗,僅僅側(cè)重認知診斷模型是否能對受試的知識結(jié)構(gòu)成功判別,而Jang(2009)則嘗試從多個角度進行效度檢驗,檢驗的方式主要有兩種,一種是通過軟件自動生成大量的虛擬受試并對其進行判別,考查多次判別的結(jié)果是否一致(A.-Y.Kim, 2015)。另一種是通過問卷、訪談等請受試進行自我評估,然后與認知診斷結(jié)果進行比對(Jang, 2009; Jang et al., 2015; Y.-H.Kim, 2011)。例如,Jang(2009)采用問卷調(diào)查的方式檢驗診斷準確性,結(jié)果顯示,40%的學生認為診斷結(jié)果符合自己的實際狀況,學生的自我評估與診斷結(jié)果呈顯著正相關(guān),為認知診斷的效度提供了證據(jù)。借鑒Jang(2009)的經(jīng)驗和方法,此后的研究越來越重視使用多種手段驗證診斷結(jié)果的準確性和穩(wěn)定性。
Jang(2009)的另一大特色是注重反饋報告的設計,不同于此前僅報告受試屬性掌握模式的方式,Jang(2009)在名為“DiagnOsis”的反饋報告中,報告了受試在9種閱讀屬性/分項技能上的掌握概率(見圖1),而Jang et al.(2015)在反饋中不僅報告了受試掌握一項技能的可能性,同時也具體描述出受試如掌握這一技能可以完成哪些任務(見圖2),這些反饋報告的形式多次被之后的研究所借鑒。
圖1.閱讀分項技能掌握概率(Jang,2009:72)
圖2.閱讀能力診斷報告(Jang et al., 2015:380)
在規(guī)則空間模型和融合模型成功應用之后,越來越多的模型被運用于英語測試領域,其中包括G-DINA(Chen & Chen, 2016; Li, Hunter & Lei, 2016; 陳慧麟、陳勁松,2013;馬曉梅等,2012; 孟亞茹,2013)、屬性層級模型(Wang, 2007; Wang & Gierl, 2011;蔡艷等,2011)、GDM(Lee & Sawaki, 2009a; Von Davier, 2005)、樹回歸(Sheehan, 1997; 杜文博、馬曉梅, 2018)、線性Logistic模型(陳慧麟、趙冠芳, 2013)、ACDM、RRUM、DINA和DINO(Li et al., 2016; Yi, 2017;閔尚超、熊笠地,2019)。而該領域的研究重點也從對單一、既定模型的嘗試使用方面轉(zhuǎn)向?qū)Χ鄠€不同模型擬合度的對比上。
英語測試領域最早對不同模型進行比較的是Lee & Sawaki(2009a)的研究。在對托福閱讀和聽力進行認知診斷時,該研究同時使用融合模型、GDM和Latent Class Model三種模型,但研究的側(cè)重點并不是對比各模型的擬合度,而是檢驗診斷結(jié)果的一致性。結(jié)果顯示,三種模型對受試的判別結(jié)果較一致,但也存在細微差別。近期研究越來越注重認知診斷模型的選擇,最新幾項研究將重點放在補償模型和非補償模型的擬合效果對比上。
補償模型假設屬性間存在補償機制,即受試“在一個或幾個屬性上的高水平掌握可以彌補其對另一個或幾個屬性的掌握缺失”,而非補償模型假設屬性間不能相互補償,受試必須掌握某屬性才能正確作答(涂冬波等,2012:44)。英語測試領域認知診斷研究早期使用較多的規(guī)則空間模型、融合模型和屬性層級模型都屬于非補償模型。近期幾項最新研究嘗試對比幾種補償和非補償模型,例如Li et al.(2016)在對托福閱讀能力進行認知診斷時對比了5種模型(飽和模型G-DINA,補償模型DINO和ACDM、非補償模型DINA和RRUM),結(jié)果顯示,幾種模型的擬合效果排序如下:ACDM>G-DINA>RRUM>DINA>DINO。其中,補償模型ACDM僅僅略優(yōu)于非補償模型RRUM,模型擬合上的差距很小,但RRUM卻明顯優(yōu)于DINA和同為補償模型的DINO,所以不能得出補償模型明顯優(yōu)于非補償模型的結(jié)論。Yi(2017)和閔尚超、熊笠地(2019)的研究也得出相似的結(jié)論,即閱讀和聽力理解過程中是存在補償機制的,掌握一個屬性可以彌補其他屬性的缺失,但研究結(jié)果還不足以證明非補償模型不適合于閱讀或聽力能力的診斷。產(chǎn)生這一現(xiàn)象的原因可能是對語言的理解過程既包含補償關(guān)系,也包含非補償關(guān)系(Jang, 2009; Li, 2011;閔尚超、熊笠地, 2019)。此外,除了補償/非補償,模型的其他屬性也在同時發(fā)揮巨大作用,影響模型擬合(Yi,2017)。因此,研究者們指出,在認知診斷模型的選擇上不能僅僅參考模型擬合數(shù)據(jù)的好壞,還要考慮屬性數(shù)量多少、屬性之間的關(guān)系、模型和測試構(gòu)念的契合程度、模型復雜程度、所需樣本量大小等多種因素(Li et al., 2016;涂冬波等,2012;Von Davier, 2014)。
從診斷目標看,目前英語測試中認知診斷模型主要用于接受性技能,即閱讀和聽力能力的診斷?,F(xiàn)有研究絕大多數(shù)都是在已有的、非認知診斷測試基礎上提取診斷信息,這種做法被稱為“改編(retrofit)”認知診斷測試(Lee & Sawaki, 2009b)。依托的測試主要是大型綜合性考試,如托福(Buck et al., 1997; Kasai, 1997; Kim, 2010, 2011; Lee & Sawaki, 2009; Scott, 1998; Von Davier, 2005; Yi, 2017)、SAT(Sheehan, 1997; Wang, 2007; Wang & Gierl, 2011)、TOEIC(Buck et al., 1997)、PISA(Chen & Chen, 2016;陳慧麟、陳勁松,2013;陳慧麟、趙冠芳,2013)和高考(蔡艷等,2011)等。
在眾多研究中,為數(shù)不多的、嚴格意義上的認知診斷測試是馬曉梅課題組(杜文博、馬曉梅,2018;馬曉梅等,2012;孟亞茹,2013)開發(fā)的“個性化英語學習診斷與指導系統(tǒng)”。該系統(tǒng)設計過程中遵循了認知診斷測試的開發(fā)流程,首先確定8種閱讀測試屬性,然后通過改編和自編相結(jié)合的方式專門命題,考查已確定的這些屬性,而反饋報告可以分別從個體水平和群體水平層面上提供8種閱讀屬性的掌握概率(見圖3和4)。該系統(tǒng)的開發(fā)過程可以為設計嚴格意義上的英語認知診斷測試提供啟示。
圖3.群體水平屬性掌握概率(杜文博、馬曉梅,2018:85)
目前,英語測試領域已有研究充分證明了認知診斷模型用于英語測試的可行性,但由于技術(shù)的復雜性,認知診斷技術(shù)在英語測試中的應用還只是小規(guī)模、實驗性質(zhì)的,已有研究在取得進展的同時還存在以下問題:
(1)“改編”的英語認知診斷測試存在局限
如上文所述,英語測試領域的認知診斷研究絕大多數(shù)依托托福、高考等大型綜合性考試,從非認知診斷測試中提取診斷信息,而這種“改編”的認知診斷測試存在不可避免的局限。首先,嚴格意義上的認知診斷測試中,干擾項并非隨意設置,而是專門針對某種錯誤類型設計的,受試選擇特定干擾項則體現(xiàn)出其對某個概念的理解或者規(guī)則的使用存在問題(Wen, 2003)。而改編的認知診斷測試達不到這一要求(Lee & Sawaki, 2009b),因為題目并非為了認知診斷而設計,模型擬合結(jié)果也很難達到最佳狀態(tài)(Leighton & Gierl, 2007)。其次,一些學者對于基于托福這樣的綜合能力考試汲取診斷信息提出質(zhì)疑。診斷測試多使用分離式題目(discrete item),為的是明確錯誤原因,而托福等測試使用的多是綜合性題型,涉及到多項技能的綜合運用。用綜合性試題做診斷測試并不合適,因為即使受試無法完成測試任務也無從判斷出現(xiàn)問題的分項技能,診斷結(jié)果也就無法解讀(Alderson, 2010)。
(2)Q矩陣檢驗環(huán)節(jié)的缺失
Q矩陣是認知診斷的核心環(huán)節(jié),矩陣的質(zhì)量直接決定了診斷結(jié)果。同一批數(shù)據(jù),使用相同的認知診斷模型,只要Q矩陣不同,診斷結(jié)果就會大相徑庭。但依據(jù)不同方法,如專家判斷、做題過程研究和數(shù)據(jù)的因子分析建立的Q矩陣常常不一致,需要研究者自行做出判斷,不可避免地摻雜一定主觀因素。這種情況下對Q矩陣的檢驗就顯得尤為重要,但是,目前英語測試領域的認知診斷研究多數(shù)缺失Q矩陣檢驗這一步驟,只側(cè)重報告建立Q矩陣的結(jié)果(Sawaki, Kim & Gentile, 2010)。
近期幾項最新研究都非常注重這一環(huán)節(jié),詳細報告了對Q矩陣的驗證或改良過程(Chen & Chen, 2016;杜文博、馬曉梅,2018;閔尚超、熊笠地,2019)。例如,杜文博、馬曉梅(2018)在Q矩陣建立時采用了專家判斷法,每道題目標記屬性時,7位專家中超過4位(57%以上)意見達成一致時才可確定,并通過Fleiss Kappa 系數(shù)檢驗專家判斷的內(nèi)部一致性。之后,該研究采集學生做題過程的有聲思維口述報告加以分析,將分析結(jié)果與專家判斷確定的Q矩陣進行比對驗證,最后通過題目難度對試題屬性的樹回歸分析,考查試題屬性對題目難度的解釋力,以檢驗屬性的有效性。閔尚超、熊笠地(2019)則是將3種Q矩陣帶入4種認知診斷模型中逐一對比模型擬合效果,從而選擇最佳Q矩陣方案。
(3)掌握/未掌握切分點的劃定
采用不同模型的研究對屬性掌握/未掌握切分點的劃定存在一定差異。使用融合模型的研究多將切分點劃分為[0.4,0.6],低于0.4的則被判定為未掌握,高于0.6則已經(jīng)掌握了該屬性,而概率落在0.4到0.6之間則不能明確判定是否已經(jīng)掌握(Jang, 2009; Kim, 2011)。使用規(guī)則空間模型的研究則將切分點設定為0.67(Buck et al., 1997; Buck & Tatsuoka, 1998;胥云,2015),高于這個切分點的概率判定為掌握,而使用其它模型的研究有時也將切分點設為0.5。切分點劃分直接影響受試是否掌握某屬性,但對于切分點如何劃定,各個模型之間并不統(tǒng)一。此外,考查的多個屬性難度各不相同,但目前研究中,多個不同屬性都采用同樣的切分點,這種做法會造成屬性難度很大程度上決定屬性是否被掌握。但如果為不同難度的屬性分別設定切分點,在如何劃定這個問題上還沒有統(tǒng)一的看法(李峰,2009)。
(4)全未掌握/全掌握模式比例過高
多數(shù)英語測試中的認知診斷結(jié)果出現(xiàn)了全未掌握模式(0000)和全掌握模式(1111)比例過高的情況。例如,Lee & Sawaki(2009a)發(fā)現(xiàn),盡管使用3種不同模型,對閱讀能力的診斷結(jié)果中兩種模式合計比例高達59%—76%,而在對聽力的診斷中,也出現(xiàn)了類似的結(jié)果,47%—75%的診斷結(jié)果屬于全未掌握或全掌握模式。從表3中可以看出,Li et al.(2016)對5種模型的對比研究中也出現(xiàn)了這一現(xiàn)象,兩種模式合計高達54.5%—73.2%,這一比例遠遠高于數(shù)學和邏輯等領域的診斷結(jié)果。而全未掌握/全掌握模式與傳統(tǒng)測試模式下的0分和滿分無異,等同于只報告一項總分,診斷結(jié)果反映不出受試的內(nèi)在差異,嚴重限制了診斷和反饋的價值(Lee & Sawaki, 2009b)。
表3.不同模型判別的全未掌握/全掌握模式比例(Li et al., 2016)
產(chǎn)生這種現(xiàn)象的原因尚不明確。筆者推測,依據(jù)英語學科傳統(tǒng)劃分的兩種甚至兩種以上的能力,有可能在認知、心理層面存在同質(zhì)性,甚至同屬一種能力,這也就導致了如果屬性1已掌握,屬性2和3也會顯示已掌握。想要改善這一問題,需要在劃分屬性并確定屬性之間的關(guān)系時,采集認知、心理學層面的證據(jù)。
(5)重診斷、輕促學
不同于水平測試,診斷測試包含三大要素——診斷、反饋和后續(xù)教學。這三要素同等重要,缺一不可(Lee, 2015)。診斷結(jié)果能否有效、及時地反饋給涉考者,反饋后是否對后續(xù)教學起到積極有效的指導和促進作用,其意義甚至超過了診斷測試本身。后續(xù)補救教學研究對于診斷測試有兩方面的意義,一方面可以從旁佐證診斷準確與否,如對受試的薄弱領域進行有針對性的補救教學后,受試在該領域上的得分顯著提高,則從一定程度上證明了診斷的準確性。此外,診斷的最終目的是“干預”,發(fā)現(xiàn)薄弱環(huán)節(jié)而不進行補救性教學,或進行教學后卻效果甚微,則診斷的意義也會大打折扣。
但是,目前英語測試領域的認知診斷研究存在重診斷、輕促學的問題,現(xiàn)有研究重點仍集中在模型使用和對知識結(jié)構(gòu)的判別方面,對于診斷結(jié)果如何反饋于學習者,并對學習者學習改進是否有實際促進作用鮮有實證研究(戴海琦等,2013)。
由于認知診斷技術(shù)的復雜性,語言能力的認知診斷也還處于摸索階段(Wen, 2003; 涂冬波等,2008),在這一領域還存在很大的探索空間,而英語測試主要應在以下幾方面進一步開展認知診斷研究。
(1)設計嚴格意義上的英語認知診斷測試
如上文所述,英語測試領域多基于綜合性考試提取診斷信息,這種改編的認知診斷測試存在很大局限。雖然在認知診斷研究的摸索階段采用這種做法是無奈之舉,在條件成熟后還是應該設計嚴格意義上的英語認知診斷測試。
圖5.認知診斷測試設計基本步驟(改編自涂冬波等,2012:12)
嚴格意義上的認知診斷測試在試題命制前要事先確定要考查的認知屬性及其層級關(guān)系,這些屬性應該體現(xiàn)受試的認知過程(涂冬波等,2012)。之后命題人員應針對屬性,即已經(jīng)細化了的知識和分項技能設計專門的試題予以考查。試題命制完成后,通過小規(guī)模試測驗證模型中所涉及的屬性以及屬性間層級關(guān)系是否合理,使用的方法主要包括做題過程的有聲思維口述報告和眼動研究(Leighton,et al., 2004; Leighton & Gierl, 2007;蔡艷等,2010)。若不合理則再次重復之前的過程直到合理,之后進行大規(guī)模正測、診斷、反饋結(jié)果等一系列步驟(見圖5)。設計嚴格意義上的認知診斷測試有望改善本領域現(xiàn)存的一些問題,如改編的認知診斷測試存在的缺陷以及全未掌握/全掌握模式比例過高的問題。
(2)嘗試應用多級評分或混合評分模型
英語認知診斷測試使用的題型普遍是二級評分(0—1評分)的選擇題,極少數(shù)研究涉及到多級評分題型時則先將其轉(zhuǎn)化成二級評分,再加以診斷。這是因為多數(shù)現(xiàn)有研究使用的模型僅能處理0—1評分數(shù)據(jù),一些能夠考查更高層次認知能力但需要使用多級評分的題型則無法使用,導致診斷結(jié)果無法最大程度上反映受試的知識和技能掌握情況。實際上,在心理學領域,規(guī)則空間模型、融合模型、GDM模型和屬性層級模型等均已發(fā)展出可以處理多級評分的模型,有些模型甚至可以處理0—1評分和多級評分的混合評分方式(田偉、辛濤,2012),但在英語測試領域還鮮有應用這些新模型的研究。因此,在未來的研究中,還需要不同領域的學者緊密合作,在英語測試中嘗試應用多級評分或混合評分模型,最大程度上發(fā)揮認知診斷技術(shù)的優(yōu)勢。
(3)探索檢驗Q矩陣的多種方法
如上文所述,如果Q矩陣的效度受到質(zhì)疑,則之后建立在Q矩陣上的診斷結(jié)果的可靠性和穩(wěn)定性都無法保證。但對于Q矩陣的驗證目前沒有統(tǒng)一的方法,有些認知診斷軟件中有特定的參數(shù)來檢驗Q矩陣,例如融合模型軟件Arpeggio中的參數(shù)“Cj”可以檢驗Q矩陣界定的屬性是否足夠完整,當“Cj”值過高或者過低時則表示題目不僅包含了Q矩陣所界定的屬性,很可能還涉及到其它未被界定的屬性。研究者可以依據(jù)題目難度值,區(qū)分度值和“Cj”值反復調(diào)整Q矩陣,直至其處于合理區(qū)間。但并非所有軟件都有這樣的參數(shù),使用其它模型的研究者還需要另辟蹊徑對Q矩陣進行檢驗。有些研究者提出,可以在題目難度和Q矩陣之間建立回歸方程,如發(fā)現(xiàn)Q矩陣可以解釋絕大多數(shù)項目難度的變異則證明Q矩陣較理想(Birenbaum et al., 1993;李峰,2009)。在未來研究中還需進一步探討驗證和改良Q矩陣的多種方法。
(4)開展診斷后教學補救效果研究
目前,認知診斷結(jié)果應用于教學還存在以下問題。首先,對未掌握的分項技能單獨補救是否確實有效?認知診斷的優(yōu)勢在于可以清楚地指導教師鎖定學生弱項,準確地、有針對性地進行教學補救。但是,哪項技能未掌握就單獨補救哪項技能是否真的有效?換言之,如果學生閱讀中推測文中隱含意義這一分項技能沒有掌握,是否不斷地練習這一技能即可提高?有學者質(zhì)疑把某一項閱讀技能分離出來單獨進行教學的效果。受試在閱讀總體水平提高后,各分項技能是否都會相應地提高?這個問題還需要實證研究的驗證,如果無法按照診斷結(jié)果對特定分項技能進行補救并取得教學效果,那么認知診斷的作用將大大受限。
其次,認知診斷如何與課堂教學、課本相配合?認知診斷結(jié)果詳細、具體,可對細化了的分項能力進行診斷,但當前很多課堂采用的教學方法卻是綜合性、任務型的教學,如何使診斷和教學大綱、各種教學方法相配合(Harding, Alderson & Brunfaut, 2015)?此外,認知診斷對知識和技能的分類與傳統(tǒng)教學模式下以話題和功能分類的方式有很大不同,即使受試意識到自己在某項分項技能上存在不足,但是如何去改進?目前,還沒有與認知診斷分類方式相對應的教學和練習材料,教師即使拿到認知診斷結(jié)果,又如何基于認知診斷的分類方式進行教學,并重點加強薄弱分項技能的培養(yǎng)(Davidson, 2010)?此外,認知診斷涉及的統(tǒng)計技術(shù)極其復雜,如何有效解釋診斷結(jié)果,不造成教師和學生的理解困難?這一系列問題都有待未來研究加以解決。
綜上所述,雖然已有多種認知診斷模型成功運用于英語測試領域,但現(xiàn)存問題和面臨的困難遠大于已取得的成就。認知診斷測試的信、效度檢驗即使在認知和心理學領域也是極具挑戰(zhàn)性的研究課題,目前還沒有統(tǒng)一的方法;探索Q矩陣的檢驗方式、多級評分或混合評分模型在英語認知診斷測試中的應用需要跨領域?qū)W者的合作;診斷結(jié)果的促學作用有待證實,和英語教學需要進一步實現(xiàn)對接,與測試相配套的教學和練習材料尚且欠缺。在認知診斷技術(shù)真正應用于英語測試之前還有很多問題尚未解決,而在這個過程中需要不同領域研究者的通力合作。但是應該認識到,在不久的將來,隨著計算機語言學和自然語言處理技術(shù)的發(fā)展,計算機輔助診斷并即時給出針對受試個人的個性化反饋報告是英語測試發(fā)展的必然方向,而認知診斷技術(shù)將在實現(xiàn)這一目標過程中發(fā)揮至關(guān)重要的作用。因此,解決現(xiàn)階段面臨問題是在一步步掃清障礙,使認知診斷測試不再止步于小規(guī)模實驗性質(zhì)的嘗試,盡早在英語測試實踐中發(fā)揮其應有的作用。