張泉慧 張 穎 馮 攀
全國(guó)醫(yī)學(xué)博士外語(yǔ)統(tǒng)一考試是根據(jù)國(guó)務(wù)院學(xué)位委員會(huì)頒發(fā)的《臨床醫(yī)學(xué)專(zhuān)業(yè)學(xué)位試行辦法》和《口腔醫(yī)學(xué)專(zhuān)業(yè)學(xué)位試行辦法》,為醫(yī)學(xué)博士研究生招生單位提供服務(wù)而設(shè)置的考試??荚嚢ㄓ⒄Z(yǔ)、日語(yǔ)、俄語(yǔ)三個(gè)類(lèi)別,旨在考查考生掌握和運(yùn)用外語(yǔ)的實(shí)際能力,保證醫(yī)學(xué)博士學(xué)位的授予質(zhì)量[1]??荚囎?002 年起實(shí)施,2018 年修訂考試大綱,2019 年正式實(shí)施新的考試大綱。新大綱更加注重考查學(xué)生的外語(yǔ)應(yīng)用能力和交際能力,要求考生在聽(tīng)、說(shuō)、讀、寫(xiě)的應(yīng)用方面加強(qiáng)訓(xùn)練。因此,本研究試圖通過(guò)對(duì)考試數(shù)據(jù)的分析,了解大綱修訂后聽(tīng)力理解題目結(jié)構(gòu)變化對(duì)考生作答的影響,分析考生在聽(tīng)力屬性上的掌握情況變化。
以往,對(duì)于考試的研究分析主要集中在經(jīng)典測(cè)驗(yàn)理論的難度、區(qū)分度等指標(biāo)的評(píng)價(jià)上。這些指標(biāo)較為籠統(tǒng),對(duì)于試題開(kāi)發(fā)和考生個(gè)人的指導(dǎo)作用相對(duì)有限。相比而言,項(xiàng)目反應(yīng)理論在參數(shù)估計(jì)方面表現(xiàn)更穩(wěn)定,能提供更多有價(jià)值的題目信息,本研究在對(duì)比大綱修訂前后題目參數(shù)變化時(shí),主要采用項(xiàng)目反應(yīng)理論進(jìn)行分析。以往的考試很少探查到考生作答背后所涉及的認(rèn)知心理加工過(guò)程及屬性表現(xiàn)。隨著認(rèn)知診斷這一測(cè)驗(yàn)新理論的出現(xiàn),認(rèn)知水平與能力評(píng)估建立了更密切的關(guān)系,從題目反應(yīng)獲得更細(xì)致的屬性評(píng)價(jià)成為可能,向考生個(gè)人提供更有效的分?jǐn)?shù)解釋得以實(shí)現(xiàn),這使得認(rèn)知診斷研究成為近年來(lái)的熱點(diǎn)。本研究試圖通過(guò)認(rèn)知診斷模型探討題目考查屬性的變化和考生的屬性掌握情況。
當(dāng)前認(rèn)知診斷應(yīng)用的模型已超過(guò)六十種,主要分為兩類(lèi):一類(lèi)是多成分潛在特質(zhì)模型,即通過(guò)考生作答反應(yīng)分析其具備的潛在特質(zhì),如線性邏輯斯蒂克特質(zhì)模型、多成分潛在特質(zhì)模型以及多維項(xiàng)目反應(yīng)理論下的一系列模型;另一類(lèi)是潛在分類(lèi)模型,即按照考生的得分模式找到潛在特質(zhì)上質(zhì)的差異并據(jù)此分類(lèi),如Tatsuoka 等提出的規(guī)則空間模型、新發(fā)展起來(lái)的融合模型、統(tǒng)一模型、DINA 模型、G-DINA 模型等。其中,G-DINA 模型是當(dāng)前使用較為廣泛的一種認(rèn)知模型,由de la Torre[2]提出,該模型假設(shè)相對(duì)寬松,認(rèn)為試題各認(rèn)知屬性對(duì)試題答對(duì)概率有著不同的貢獻(xiàn)比例,掌握部分認(rèn)知屬性的被試也有一定的答對(duì)概率,具有補(bǔ)償性、飽和性特征。一些國(guó)內(nèi)研究者認(rèn)為,G-DINA 模型的補(bǔ)償性特征契合了語(yǔ)言測(cè)驗(yàn)的綜合性和多元性,飽和性特征則比較理想地應(yīng)對(duì)了語(yǔ)言屬性的抽象性和難區(qū)分性,因此對(duì)語(yǔ)言測(cè)驗(yàn)的多元性和抽象性特征有較高的適應(yīng)度[3,4]。
從近些年的文獻(xiàn)來(lái)看,國(guó)內(nèi)已有一些研究者對(duì)該模型進(jìn)行了探索與研究:吳婷使用G-DINA 模型對(duì)九年級(jí)學(xué)生進(jìn)行數(shù)學(xué)學(xué)科中“圓認(rèn)識(shí)”專(zhuān)題的診斷分析[5];胡泊、泰中華以2019 年英語(yǔ)專(zhuān)八閱讀選擇題為例,應(yīng)用G-DINA 模型進(jìn)行實(shí)證研究[6];王磊等基于G-DINA 模型分析高中數(shù)學(xué)測(cè)驗(yàn)[7];董艷云等對(duì)比分析了Mixed-CDMs 與G-DINA 模型在英語(yǔ)聽(tīng)力診斷測(cè)評(píng)中的應(yīng)用[8];劉歡在小學(xué)五年級(jí)閱讀能力測(cè)評(píng)中采用五種認(rèn)知診斷模型(含G-DINA)進(jìn)行研究[9];肖云南使用G-DINA 模型對(duì)大學(xué)英語(yǔ)分級(jí)測(cè)試聽(tīng)力理解做了認(rèn)知診斷研究[3];孟亞茹應(yīng)用G-DINA 模型對(duì)大學(xué)生聽(tīng)力能力進(jìn)行診斷[11];陳慧麟、陳勁松分別應(yīng)用G-DINA 模型的補(bǔ)償模型及飽和模型對(duì)PISA閱讀測(cè)試進(jìn)行了認(rèn)知診斷[4]。但總體來(lái)看,G-DINA應(yīng)用于語(yǔ)言測(cè)試領(lǐng)域的相關(guān)研究仍較為有限,涉及聽(tīng)力理解的認(rèn)知診斷數(shù)量較少,研究更多停留在分析探討階段,運(yùn)用到實(shí)際考試反饋中的不多。
基于此,本研究采用IRT 估計(jì)試題參數(shù),對(duì)比考試大綱修訂前后題目參數(shù)的變化;采用G-DINA 模型進(jìn)行認(rèn)知診斷,分析考生聽(tīng)力屬性考查點(diǎn)的變化與考生屬性掌握情況的變化,探討具體原因,最后形成考生個(gè)性化分?jǐn)?shù)報(bào)告模板,嘗試為后續(xù)反饋試題命制、促進(jìn)教學(xué)、幫助考生了解自身潛質(zhì)與不足起到參考作用。
2018 年與2019 年全國(guó)醫(yī)學(xué)博士英語(yǔ)統(tǒng)一考試聽(tīng)力理解測(cè)驗(yàn),測(cè)驗(yàn)長(zhǎng)度30題,作答時(shí)間30分鐘,內(nèi)容對(duì)比如表1所示:
表1 聽(tīng)力理解測(cè)驗(yàn)內(nèi)容結(jié)構(gòu)
根據(jù)兩個(gè)年度的測(cè)驗(yàn),描述考生構(gòu)成及成績(jī),采用IRT 估計(jì)試題參數(shù),劃分聽(tīng)力屬性,使用探索性結(jié)構(gòu)方程模型分析數(shù)據(jù)與模型擬合度,最后應(yīng)用G-DINA模型進(jìn)行認(rèn)知診斷。
具體方法如下:應(yīng)用Visual Foxpro9.0 自編程序描述考生構(gòu)成及成績(jī)。采用R 軟件包,估計(jì)IRT 試題參數(shù)。認(rèn)知診斷時(shí),根據(jù)以往文獻(xiàn)中有關(guān)聽(tīng)力屬性的劃分,請(qǐng)相關(guān)專(zhuān)家逐題標(biāo)注題目屬性;采用MPLUS.7 軟件中的探索性結(jié)構(gòu)方程模型分析數(shù)據(jù),根據(jù)標(biāo)準(zhǔn)化殘差均方根(Standardized Root Mean square Residual,SRMR)、近似均方根誤差(Root Mean Square Error of Approximation,RMSEA)、相對(duì)擬 合 指 數(shù)(Comparative Fit Index,CFI;Tucker-Lewis Index,TLI)等相關(guān)指標(biāo)分析數(shù)據(jù)與模型的擬合程度;最后選擇G-DINA 模型進(jìn)行認(rèn)知診斷,了解考生在不同聽(tīng)力能力屬性上的掌握情況,模型計(jì)算公式如下:
其中,考生完成試題j時(shí)被細(xì)分為個(gè)潛在類(lèi)別組,代表題目j所需的屬性;P() 代表考生對(duì)試題j的答對(duì)概率,δj0是猜測(cè)答對(duì)概率,即不具備任何認(rèn)知屬性時(shí)的答對(duì)概率;δjk是掌握單一的認(rèn)知屬性αlk時(shí)對(duì)答對(duì)概率的影響;δjkk′是指認(rèn)知屬性αlk和αlk′的掌握對(duì)答對(duì)概率的交互性作用;δj2...k*是全部認(rèn)知屬性的掌握對(duì)答對(duì)概率的交互性作用。
如表2 所示,兩個(gè)年度考生年齡集中在30-40歲,比例接近60%;考生男女比例接近,各自約占一半;學(xué)歷構(gòu)成中,碩士研究生比例最高,兩個(gè)年度占比都在90%左右。
表2 考生背景構(gòu)成
如表3 所示,2019 年考生人數(shù)增加,平均分和試卷信度均高于2018 年,顯著性檢驗(yàn)P <0.01,具有統(tǒng)計(jì)學(xué)意義。
表3 考生成績(jī)描述
IRT 包括單參數(shù)、雙參數(shù)和三參數(shù)模型,三個(gè)模型下的參數(shù)估計(jì)結(jié)果顯示:題目參數(shù)良好,其中三參數(shù)模型數(shù)據(jù)與模型擬合更優(yōu),擬合度指標(biāo)——?dú)埐罹剑∕ean-square,MNSQ)為1.005(單參數(shù)模型為1.012,雙參數(shù)模型為1.009),理想擬合情況下的MNSQ 值為1,MNSQ 值在0.5-1.5 之間表示數(shù)據(jù)與模型預(yù)期擬合程度可接受,三參數(shù)擬合度最接近1,擬合更好;參數(shù)估計(jì)標(biāo)準(zhǔn)誤數(shù)值為0.03(單參數(shù)模型為0.04,雙參數(shù)模型為0.06),誤差最小。
IRT 理論中,難度b數(shù)值越大,難度越大;區(qū)分度a數(shù)值越大,題目區(qū)分度越大。和2018 年相比,2019年聽(tīng)力測(cè)驗(yàn)平均難度降低,整體區(qū)分度提高,題目猜測(cè)度接近。2019 年試卷總信息量高于2018 年,測(cè)量誤差更小,測(cè)量精度和穩(wěn)定性更好。具體結(jié)果如表4所示:
表4 兩個(gè)年度聽(tīng)力理解測(cè)驗(yàn)題目參數(shù)
研究參照以往第二語(yǔ)言測(cè)試中聽(tīng)力理解相關(guān)文獻(xiàn)研究的結(jié)果,結(jié)合博士英語(yǔ)聽(tīng)力理解考試的題型結(jié)構(gòu),并與命題專(zhuān)家討論,初步確定了該考試中涉及的七個(gè)認(rèn)知屬性A1~A7(通過(guò)與專(zhuān)家的討論,并參考已有文獻(xiàn),假設(shè)屬性之間沒(méi)有固定的層級(jí)關(guān)系),分別為:
?A1 理解詞語(yǔ)與詞組
?A2 理解句子及結(jié)構(gòu)
?A3 定位事實(shí)和細(xì)節(jié)
?A4 識(shí)別語(yǔ)境
?A5 總結(jié)與概括
?A6 推理
?A7 選擇性注意
如表5 所示,這些認(rèn)知屬性主要?jiǎng)澐譃閮蓚€(gè)層面,語(yǔ)言知識(shí)和理解策略;兩者之間相互并行,考生作答時(shí)可同時(shí)使用不同層面的認(rèn)知屬性。
表5 聽(tīng)力認(rèn)知屬性界定
根據(jù)表5 聽(tīng)力屬性劃分,研究標(biāo)注并對(duì)比了兩個(gè)年度中每道聽(tīng)力試題所涉及的屬性,表6 為題目標(biāo)注情況,考查到的屬性標(biāo)注1,未考查的屬性標(biāo)注為0,一道題目可以只考查一項(xiàng)屬性,也可以同時(shí)考查多個(gè)屬性。
表6 聽(tīng)力理解的認(rèn)知屬性Q矩陣
表7 顯示了模型與數(shù)據(jù)的擬合情況。一般來(lái)說(shuō),相對(duì)擬合指數(shù)(CFI、TLI)大于0.90,說(shuō)明數(shù)據(jù)與模型擬合良好;標(biāo)準(zhǔn)化殘差均方根(SRMR)、近似均方根誤差(RMSEA)的結(jié)果越小,代表模型對(duì)參數(shù)的估計(jì)越接近真值,兩個(gè)年度TLI、CFI 都在0.9 以上,SRMR、RMSEA 數(shù)值小,均低于0.01,可知兩個(gè)年度的擬合情況都良好,模型與數(shù)據(jù)是匹配的。
表7 模型擬合情況
表8 顯示了兩個(gè)年度聽(tīng)力題目中屬性考查的頻次,可以看出兩個(gè)年度考查的屬性總頻次是接近的,2019年考查的屬性略多;在前三項(xiàng)聽(tīng)力屬性中,2018年比2019年考查的頻次更多,在后四項(xiàng)聽(tīng)力屬性中,2019 年比2018 年考查的頻次更多??梢钥闯?,2019年更多地測(cè)試了“理解策略”方面的高階聽(tīng)力屬性。
表8 兩個(gè)年度聽(tīng)力測(cè)驗(yàn)屬性考查頻次
表9 所示為兩個(gè)年度考生在各認(rèn)知屬性上的掌握情況,2019 年考生在“語(yǔ)言知識(shí)”的掌握情況上略低于2018 年,但在“理解策略”方面的掌握情況明顯好于2018年。
表9 考生掌握各認(rèn)知屬性的掌握概率
根據(jù)考生得分情況,將得分前27%的考生劃分為高分組,得分后27%的考生劃分為低分組。如表9所示,2019 年考生在低階認(rèn)知屬性的掌握率與2018年接近;高階認(rèn)識(shí)屬性的掌握率優(yōu)于2018年。
表10 不同分組群體屬性掌握百分比(%)
圖1 2018、2019年度考生在聽(tīng)力認(rèn)知屬性上的掌握率(%)
與大綱修訂前(2018 年)相比,2019 年的聽(tīng)力測(cè)驗(yàn)平均難度有所降低,這可能與考生整體水平的提高有關(guān),博士和碩士研究生整體人數(shù)較2018 年增加,博士研究生人數(shù)比例略有升高。2019 年聽(tīng)力測(cè)驗(yàn)的整體區(qū)分度提高,說(shuō)明題目能更有效地區(qū)分不同能力水平的考生,同時(shí)測(cè)驗(yàn)信度有所上升,測(cè)驗(yàn)的可靠性與穩(wěn)定性更好。
兩個(gè)年度聽(tīng)力認(rèn)知屬性的考查頻次各有不同。2018 年考查各屬性的總頻次為56 次,其中語(yǔ)言知識(shí)屬性(涉及A1、A2、A3 三個(gè)屬性)考查了18 次,理解策略方面(涉及A4、A5、A6、A7 四個(gè)屬性)考查了38次;2019年屬于修訂大綱后的第一次考試,考查各屬性的總頻次為60 次,其中語(yǔ)言知識(shí)屬性考查了11次,理解策略考查了49 次。可以看出,修訂大綱后,題目更多地考查了理解策略,即更高階的聽(tīng)力認(rèn)知屬性,這與大綱修訂的初衷相符,考試更加側(cè)重對(duì)語(yǔ)言應(yīng)用的考查,而非單個(gè)知識(shí)點(diǎn)的識(shí)記。
掌握概率描述的是考生掌握某項(xiàng)屬性的可能性。聽(tīng)力屬性中語(yǔ)言知識(shí)方面,2018 年考生的總體掌握情況略好于2019 年;在“理解策略”方面(涉及A4、A5、A6、A7四個(gè)屬性),2018年不及2019年,由于2019 年聽(tīng)力理解部分的平均分高于2018 年,可以推知2019 年的考生在理解策略上的得分更高,也就意味著考生在高階的聽(tīng)力認(rèn)知屬性掌握情況越好,對(duì)分?jǐn)?shù)的貢獻(xiàn)越大。
7 個(gè)聽(tīng)力認(rèn)知屬性中,考生在A2(理解句子及結(jié)構(gòu))、A3(定位事實(shí)與細(xì)節(jié))、A7(選擇性注意)的掌握概率在45%以上,高于其他屬性掌握情況,說(shuō)明這三個(gè)屬性的難度相對(duì)較小,容易掌握。具體到不同認(rèn)知層面,考生對(duì)“語(yǔ)言知識(shí)”的掌握概率介于0.4~0.5之間,對(duì)“理解策略”的掌握概率在0.3~0.5 之間,可見(jiàn),考生掌握“理解策略”的難度比“語(yǔ)言知識(shí)”更大。在使用“理解策略”時(shí),考生A4、A5、A6 掌握率比A7要低,提示考生在“理解策略”中掌握薄弱的環(huán)節(jié)集中在識(shí)別語(yǔ)境、總結(jié)概括及推理;A7 掌握情況最好,意味著考生在聽(tīng)文段的過(guò)程中,對(duì)特定詞匯等聽(tīng)力信息進(jìn)行篩選、抓取的能力尚可,具備一定的有針對(duì)性捕捉相關(guān)信息的能力。
對(duì)高低水平組聽(tīng)力屬性掌握情況進(jìn)行單因素方差分析,可知:兩組群體對(duì)7 種屬性的掌握概率存在統(tǒng)計(jì)學(xué)差異(P<0.01)。其中,低水平組對(duì)于理解策略的掌握情況明顯低于語(yǔ)言知識(shí);相比之下,高水平群體對(duì)兩個(gè)層面的所有屬性掌握較為良好,大致在70%~83%之間浮動(dòng),“理解策略”的掌握概率要好于“語(yǔ)言知識(shí)”,其包含的四個(gè)屬性中,A5、A6、A7 這三個(gè)屬性的掌握情況最好,說(shuō)明考生在總結(jié)概況、推理和選擇性注意方面的能力較強(qiáng)。這也意味著,如果想獲得更好的成績(jī),考生需要加強(qiáng)整體語(yǔ)境、文段大意、文意推理等方面的能力,而這些能力本身需要知識(shí)的積累、語(yǔ)感的培養(yǎng)和不斷的練習(xí)才能有所提升。
同時(shí)也發(fā)現(xiàn),考生對(duì)聽(tīng)力理解策略的使用與聽(tīng)力水平高低密切相關(guān),高水平組對(duì)各種策略的掌握率更高;而低水平組成功使用各種策略的概率較低,會(huì)更多地將精力集中于語(yǔ)音語(yǔ)調(diào)辨認(rèn)、詞組及語(yǔ)法成分識(shí)別等低階的聽(tīng)力屬性,應(yīng)用高階認(rèn)知屬性存在困難,因此建議醫(yī)學(xué)生的英語(yǔ)教學(xué)應(yīng)關(guān)注學(xué)生聽(tīng)力理解過(guò)程中的策略培養(yǎng)與使用,針對(duì)學(xué)生的薄弱環(huán)節(jié)有的放矢地練習(xí)。
為了向考生提供更有效的分?jǐn)?shù)反饋,研究編制了考生分?jǐn)?shù)報(bào)告,報(bào)告中的提示能夠幫助考生在后續(xù)學(xué)習(xí)中針對(duì)自身的薄弱環(huán)節(jié)有目的地進(jìn)行改善。
圖2 考生分?jǐn)?shù)報(bào)告模板
全國(guó)博士英語(yǔ)統(tǒng)一考試在大綱修訂后,考試內(nèi)容結(jié)構(gòu)有所調(diào)整,從內(nèi)容上更側(cè)重交際能力的考查,題目的區(qū)分度更高,對(duì)聽(tīng)力各認(rèn)知屬性的考查頻次更高,尤其是聽(tīng)力屬性中涉及的高階認(rèn)知屬性,考查更多,體現(xiàn)了以能力為導(dǎo)向的要求,符合實(shí)際需求,與目前的教學(xué)評(píng)價(jià)改革的要求是一致的,這將對(duì)后續(xù)的學(xué)校教學(xué)、考生學(xué)習(xí)及考試改革等均起到積極的促進(jìn)作用。