語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)：產(chǎn)生、發(fā)展與面臨的挑戰(zhàn)*

2016-07-19 11:14:34張啟睿邊玉芳中國(guó)人民公安大學(xué)犯罪學(xué)院北京100038北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國(guó)家重點(diǎn)實(shí)驗(yàn)室北京100875

楚雄師范學(xué)院學(xué)報(bào) 2016年2期

關(guān)鍵詞：測(cè)驗(yàn)語(yǔ)言

張啟睿，邊玉芳（中國(guó)人民公安大學(xué)犯罪學(xué)院，北京 100038；北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國(guó)家重點(diǎn)實(shí)驗(yàn)室，北京 100875）

張啟睿，邊玉芳
（中國(guó)人民公安大學(xué)犯罪學(xué)院，北京 100038；北京師范大學(xué)認(rèn)知神經(jīng)科學(xué)與學(xué)習(xí)國(guó)家重點(diǎn)實(shí)驗(yàn)室，北京 100875）

摘要：認(rèn)知診斷測(cè)驗(yàn)是認(rèn)知心理學(xué)與現(xiàn)代測(cè)量學(xué)相結(jié)合的產(chǎn)物，測(cè)量方式和測(cè)驗(yàn)設(shè)計(jì)方法均建立在認(rèn)知理論基礎(chǔ)上，可以提供有關(guān)知識(shí)掌握狀態(tài)與技能水平的詳細(xì)信息。利用測(cè)驗(yàn)結(jié)果采取有針對(duì)性的補(bǔ)救措施，可以提高學(xué)習(xí)效率。認(rèn)知診斷測(cè)驗(yàn)已經(jīng)有了長(zhǎng)足發(fā)展，在語(yǔ)言領(lǐng)域中也有了廣泛應(yīng)用。但由于語(yǔ)言的復(fù)雜性和認(rèn)知診斷測(cè)量模型的局限性，語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)研究還有待于進(jìn)一步發(fā)展。

關(guān)鍵詞：語(yǔ)言；測(cè)驗(yàn)；認(rèn)知診斷

Lado于1961出版了《Language testing》，標(biāo)志著語(yǔ)言測(cè)驗(yàn)成為一門(mén)獨(dú)立學(xué)科。隨后，陸續(xù)出現(xiàn)許多理論與方法用于評(píng)估個(gè)體的語(yǔ)言知識(shí)狀態(tài)與語(yǔ)言技能水平。隨著研究的深入，研究者認(rèn)識(shí)到籠統(tǒng)的語(yǔ)言水平測(cè)驗(yàn)總分或能力分?jǐn)?shù)不能實(shí)現(xiàn)這一目的，測(cè)驗(yàn)分?jǐn)?shù)相同的個(gè)體，往往具有不同的知識(shí)狀態(tài)和能力結(jié)構(gòu)。這就需要測(cè)驗(yàn)?zāi)軌蛱峁┯嘘P(guān)語(yǔ)言知識(shí)狀態(tài)與技能水平的更為詳細(xì)的個(gè)性化評(píng)估信息。學(xué)生和教師可以采取更有針對(duì)性的補(bǔ)習(xí)和輔導(dǎo)，提高語(yǔ)言學(xué)習(xí)效率，在這一認(rèn)識(shí)激勵(lì)下，伴隨著認(rèn)知診斷測(cè)驗(yàn)理論發(fā)展，語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)應(yīng)運(yùn)而生。

認(rèn)知診斷測(cè)驗(yàn)是以認(rèn)知為基礎(chǔ)的評(píng)價(jià)方法。它依賴(lài)于如下共識(shí):了解測(cè)驗(yàn)背后的認(rèn)知過(guò)程，可以有效地構(gòu)建測(cè)驗(yàn)項(xiàng)目、解釋測(cè)驗(yàn)結(jié)果和評(píng)分。［1-3］認(rèn)知心理學(xué)家與心理測(cè)量學(xué)家使用認(rèn)知模型構(gòu)建測(cè)驗(yàn)項(xiàng)目，利用認(rèn)知診斷統(tǒng)計(jì)模型分析測(cè)驗(yàn)數(shù)據(jù)，通過(guò)測(cè)驗(yàn)結(jié)果了解個(gè)體的弱點(diǎn)與不足，制定出有針對(duì)性的教學(xué)與學(xué)習(xí)計(jì)劃。這些特點(diǎn)使認(rèn)知診斷測(cè)驗(yàn)成為新一代測(cè)驗(yàn)理論的代表。本文綜述了語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的產(chǎn)生、結(jié)構(gòu)、現(xiàn)狀和難點(diǎn)，指出未來(lái)的研究方向。

一、語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的產(chǎn)生

（一）原有語(yǔ)言測(cè)驗(yàn)的缺陷

經(jīng)典語(yǔ)言測(cè)驗(yàn)都屬于標(biāo)準(zhǔn)參照測(cè)驗(yàn)，都在經(jīng)典測(cè)驗(yàn)理論和項(xiàng)目反應(yīng)理論指導(dǎo)下發(fā)展起來(lái)，目的是測(cè)量個(gè)體在量表中的位置，以觀察是否完成了特定教學(xué)要求或達(dá)到了一定專(zhuān)業(yè)水平。分?jǐn)?shù)要么僅代表個(gè)體在群體中的位置，缺乏知識(shí)水平的信息；要么提供了分?jǐn)?shù)的知識(shí)性解釋?zhuān)R(shí)有時(shí)非常繁雜，沒(méi)有基于認(rèn)知理論，使個(gè)體在補(bǔ)習(xí)時(shí)無(wú)的放矢。為了保證不同位置能夠反映出個(gè)體的不同水平，量表必須準(zhǔn)確、可靠、有區(qū)分性，符合分?jǐn)?shù)分布的一般規(guī)律；測(cè)量必須有效。這一類(lèi)測(cè)驗(yàn)以學(xué)生的考試成績(jī)?yōu)槟繕?biāo)，對(duì)考生的行為感興趣，可以稱(chēng)之為教育心理測(cè)量模型（Educational Psychometric Measurement Models）［4］或標(biāo)準(zhǔn)測(cè)驗(yàn)理論（Standard test theory）［5］。從認(rèn)知科學(xué)的角度看，這一理論存在著不足:（1）項(xiàng)目不一定有心理學(xué)意義。模型的好壞取決于能否較好地描述數(shù)據(jù)，不取決于是否符合認(rèn)知加工過(guò)程。（2）模型的部分假設(shè) （如項(xiàng)目的局部獨(dú)立性假設(shè)、項(xiàng)目難度的單維性假設(shè)）和認(rèn)知心理學(xué)的實(shí)驗(yàn)結(jié)果不符。例如，在閱讀理解測(cè)驗(yàn)中，一篇文章后有幾道題目，這些題目容易造成局部依賴(lài)，與題目局部獨(dú)立性假設(shè)不符；解題中的技能、策略、知識(shí)結(jié)構(gòu)，很難說(shuō)是單維的。（3）把項(xiàng)目和分?jǐn)?shù)看作是不可觀察的“黑箱”，內(nèi)容是否有效需要反復(fù)論證。［6］為了彌補(bǔ)這些缺陷，研究者利用認(rèn)知加工模型，對(duì)認(rèn)知過(guò)程作出假定，并與標(biāo)準(zhǔn)測(cè)驗(yàn)理論結(jié)合，從而實(shí)現(xiàn)對(duì)認(rèn)知技能與知識(shí)結(jié)構(gòu)的測(cè)量。Fischer使用IRT模型進(jìn)行了認(rèn)知診斷嘗試，從認(rèn)知的角度對(duì)項(xiàng)目難度進(jìn)行定義，使單維IRT模型向診斷模型發(fā)展［7-8］；Tatsuoka等人使用規(guī)則空間模型估計(jì)能力，把被試歸類(lèi)到認(rèn)知模式類(lèi)別中［9］；Misley等人應(yīng)用項(xiàng)目反應(yīng)理論評(píng)估考生使用不同策略的項(xiàng)目。這些努力促進(jìn)了語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)產(chǎn)生。［10］

（二）語(yǔ)言能力觀的演進(jìn)

語(yǔ)言能力是語(yǔ)言測(cè)驗(yàn)的對(duì)象，語(yǔ)言能力觀對(duì)語(yǔ)言測(cè)驗(yàn)具有深遠(yuǎn)影響，語(yǔ)言能力觀的演進(jìn)經(jīng)歷了2個(gè)重要階段:

（1）結(jié)構(gòu)主義的語(yǔ)言能力觀。認(rèn)為語(yǔ)言應(yīng)該劃分成小塊，再描述如何拼湊在一起，產(chǎn)生連續(xù)的言語(yǔ)。［11］語(yǔ)言能力包括語(yǔ)言成分和語(yǔ)言技能。語(yǔ)言成分指構(gòu)成有意義語(yǔ)言的各個(gè)要素，如語(yǔ)音、語(yǔ)調(diào)、重音、語(yǔ)素、詞匯以及詞匯的意義等。語(yǔ)言技能包括聽(tīng)、說(shuō)、讀、寫(xiě)。需要逐個(gè)測(cè)試語(yǔ)言成分和語(yǔ)言技能。［12］在這種語(yǔ)言能力觀影響下，聽(tīng)、說(shuō)、讀、寫(xiě)的分立式測(cè)驗(yàn)流行起來(lái)，許多影響大的語(yǔ)言測(cè)試（TOEFL、GRE、劍橋英語(yǔ)考試）都遵循該思路安排測(cè)驗(yàn)。分立式測(cè)驗(yàn)有易于操作、評(píng)分客觀的優(yōu)點(diǎn)，但語(yǔ)言測(cè)試不注重對(duì)語(yǔ)言能力的解釋?zhuān)荒芮逦磉_(dá)知識(shí)和技能的關(guān)系，忽略語(yǔ)言運(yùn)用的環(huán)境和語(yǔ)言的整體性。教師孤立地進(jìn)行分項(xiàng)教學(xué)，學(xué)生缺乏在語(yǔ)言交際中綜合運(yùn)用語(yǔ)言的能力。［13］

（2）功能主義的語(yǔ)言能力觀。Oller主張將分解測(cè)試綜合起來(lái)，認(rèn)為語(yǔ)言能力是一種無(wú)形的、各部分無(wú)差別的整體，主張運(yùn)用綜合測(cè)試測(cè)量運(yùn)用多項(xiàng)語(yǔ)言知識(shí)的能力。在整體能力觀影響下，人們開(kāi)發(fā)出完形填空、翻譯、寫(xiě)作等綜合測(cè)試形式。［14］Hymes提出“交際能力”的概念，認(rèn)為交際能力包括語(yǔ)言是否合乎語(yǔ)法和是否可以接受。［15］Canale和Swain認(rèn)為，交際能力包括四個(gè)方面:①語(yǔ)法能力（詞匯、形態(tài)、句法和音位）；②社會(huì)語(yǔ)言學(xué)能力（社會(huì)文化規(guī)則和話(huà)語(yǔ)規(guī)則）；③成段話(huà)語(yǔ)能力；④策略能力（交際中的應(yīng)變能力）。［16］Bachman認(rèn)為，語(yǔ)言能力是把語(yǔ)言知識(shí)和語(yǔ)言使用的場(chǎng)景特征結(jié)合起來(lái)，創(chuàng)造并解釋意義的能力，包括語(yǔ)言能力、策略能力和心理、生理運(yùn)動(dòng)機(jī)制三個(gè)部分。這一模型強(qiáng)調(diào)交際語(yǔ)言能力的各個(gè)部分以及它們與語(yǔ)用環(huán)境和語(yǔ)言使用者的知識(shí)結(jié)構(gòu)之間的相互作用。［17］按照這種模型開(kāi)發(fā)的語(yǔ)言測(cè)試既注重考慮個(gè)體的語(yǔ)言知識(shí)，同時(shí)又考慮在有意義的語(yǔ)境中能否恰當(dāng)使用語(yǔ)言的能力，擺脫了分立式測(cè)試對(duì)綜合性語(yǔ)言行為作分類(lèi)式歸納、綜合性測(cè)試目的不明以及題目之間相互依賴(lài)等不足。［13］這一模型被譽(yù)為“語(yǔ)言測(cè)試史上的里程碑”。語(yǔ)言測(cè)試開(kāi)始注重知識(shí)和能力的關(guān)系，注重對(duì)項(xiàng)目背后的語(yǔ)言能力的解讀，個(gè)體在語(yǔ)言環(huán)境中的認(rèn)知過(guò)程開(kāi)始受到重視，語(yǔ)言測(cè)量學(xué)家與語(yǔ)言心理學(xué)家開(kāi)始越來(lái)越多地分享研究的成果。

（三）后現(xiàn)代主義的影響

語(yǔ)言測(cè)試的科學(xué)精神，正在被越來(lái)越多地為后現(xiàn)代主義理念詮釋。［18］科學(xué)精神強(qiáng)調(diào)確定性、可預(yù)測(cè)性、普遍性，后現(xiàn)代主義強(qiáng)調(diào)不確定性、暫時(shí)性、地域性和個(gè)體性。［19］在閱讀理解測(cè)驗(yàn)中，科學(xué)精神強(qiáng)調(diào)文本內(nèi)容理解的確定性、同一性。后現(xiàn)代主義認(rèn)為，意義并非源于文本自身，而是產(chǎn)生于讀者同文本之間的相互作用。對(duì)于同一文本，可以有不同的解釋。［20］Alderson認(rèn)為，閱讀理解測(cè)試應(yīng)該允許多種可能的理解，試題設(shè)計(jì)者應(yīng)該在可接受范圍上更加開(kāi)放些。閱讀能力測(cè)驗(yàn)應(yīng)該超越文本內(nèi)容的束縛，探究認(rèn)知加工的內(nèi)容。［21］后現(xiàn)代主義強(qiáng)調(diào)個(gè)體性，強(qiáng)調(diào)測(cè)驗(yàn)的結(jié)果不僅提供了一般輪廓，還應(yīng)該針對(duì)個(gè)體提供不同的評(píng)價(jià)信息。測(cè)驗(yàn)應(yīng)該為學(xué)習(xí)者提供詳細(xì)的診斷反饋，反映學(xué)生在特定知識(shí)領(lǐng)域內(nèi)的認(rèn)知水平，給予途徑或方法去幫助學(xué)生補(bǔ)救認(rèn)知缺陷，或提高知識(shí)掌握的熟悉性。［22］McNamara把這種個(gè)人覺(jué)悟意識(shí)提高歸因于“后現(xiàn)代主義發(fā)動(dòng)的知識(shí)變革把個(gè)體的意識(shí)模式置于整個(gè)社會(huì)背景中加以重新闡釋”，呼吁“重新審視語(yǔ)言測(cè)試研究的重點(diǎn)”［23］。

（四）語(yǔ)言測(cè)驗(yàn)效度理論研究的不斷深入

經(jīng)典的語(yǔ)言測(cè)驗(yàn)由于缺乏效度理論的支持，在效度檢驗(yàn)時(shí)往往以其他語(yǔ)言測(cè)驗(yàn)為標(biāo)準(zhǔn)計(jì)算校標(biāo)關(guān)聯(lián)效度。效度被看作是一種相關(guān)系數(shù)，容易陷入其他測(cè)驗(yàn)效度又如何的循環(huán)論證之中。隨著效度理論研究的深入，出現(xiàn)了不同類(lèi)型的效度，但繁多的效度表明了選擇效度證據(jù)時(shí)的任意性。［24］通過(guò)探索，構(gòu)念效度成為效度的核心。［25］在構(gòu)念效度的基礎(chǔ)上，出現(xiàn)了整體效度觀。整體效度觀認(rèn)為，效度是一個(gè)整體概念。效度既非對(duì)測(cè)試的評(píng)價(jià)，也非對(duì)測(cè)試分?jǐn)?shù)的評(píng)價(jià)，是對(duì)測(cè)試結(jié)果的解釋和使用的評(píng)價(jià)。效度針對(duì)測(cè)試的特定解釋和使用，同一測(cè)試分?jǐn)?shù)可以有不同的解釋和使用。效度只有程度的高低，不是全或無(wú)。整體效度觀強(qiáng)調(diào)后果效度，認(rèn)為效驗(yàn)過(guò)程就是收集、積累證據(jù)支持對(duì)測(cè)試結(jié)果的特定解釋或使用。測(cè)試開(kāi)發(fā)者和使用者都有效驗(yàn)舉證的責(zé)任。［24］（P26-27）構(gòu)念效度與整體效度觀要求在測(cè)驗(yàn)設(shè)計(jì)之初就應(yīng)該把握好測(cè)驗(yàn)?zāi)康?、?nèi)容和試題的對(duì)應(yīng)關(guān)系。與經(jīng)典的語(yǔ)言測(cè)驗(yàn)比，認(rèn)知診斷測(cè)驗(yàn)在測(cè)驗(yàn)效度控制上具有優(yōu)勢(shì)。Messick提出了在整體效度觀指導(dǎo)下效驗(yàn)舉證的方法:（1）內(nèi)容分析:由相關(guān)專(zhuān)家判斷項(xiàng)目與要測(cè)量構(gòu)念的對(duì)應(yīng)關(guān)系。（2）項(xiàng)目分析:用定量的方法探究相關(guān)因素對(duì)項(xiàng)目難度和區(qū)分度的影響，用定性的方法考察被試使用的策略，用語(yǔ)篇分析法研究被試的語(yǔ)言，并將語(yǔ)言和語(yǔ)用特征與構(gòu)念定義作比較。（3）維度分析:研究測(cè)試的內(nèi)部結(jié)構(gòu)。通過(guò)反應(yīng)數(shù)據(jù)的心理測(cè)量學(xué)模型與構(gòu)念理論的擬合加以檢驗(yàn)。（4）測(cè)試分?jǐn)?shù)與其他測(cè)試和行為的關(guān)系。（5）行為差異分析:分析不同群體在不同測(cè)試任務(wù)上的差別。（6）測(cè)試結(jié)果分析:通過(guò)問(wèn)卷、訪談、觀察了解測(cè)試結(jié)果的準(zhǔn)確性。［26］將語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的方法與這6種方法比較，二者在多數(shù)方法上一致。因此，語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)?zāi)茉谧畲蟪潭壬媳ＷC測(cè)驗(yàn)的構(gòu)念效度。

（五）測(cè)量理論的進(jìn)步和計(jì)算機(jī)技術(shù)的應(yīng)用

分析和解釋個(gè)體差異，僅有認(rèn)知模型是不夠的，必須強(qiáng)調(diào)測(cè)驗(yàn)設(shè)計(jì)，即根據(jù)測(cè)量對(duì)象的心理模型來(lái)選擇、編制項(xiàng)目和測(cè)驗(yàn)。［28］測(cè)驗(yàn)設(shè)計(jì)是通過(guò)項(xiàng)目設(shè)計(jì)，引發(fā)出個(gè)體內(nèi)在認(rèn)知特點(diǎn)的外在表現(xiàn)，實(shí)現(xiàn)對(duì)內(nèi)在認(rèn)知特征的判斷。測(cè)驗(yàn)設(shè)計(jì)好后，需要借助合適的測(cè)量模型，使理性的思辨獲得實(shí)證性的數(shù)據(jù)。具體做法是:將各種認(rèn)知變量直接融入模型，借助統(tǒng)計(jì)方法揭示個(gè)體認(rèn)知變量的特征。認(rèn)知診斷測(cè)驗(yàn)與傳統(tǒng)測(cè)驗(yàn)的模型具有很大的不同:在傳統(tǒng)測(cè)驗(yàn)中，有一套測(cè)量模型就能夠解決有統(tǒng)計(jì)特征的個(gè)體能力定位，如真分?jǐn)?shù)模型以及由此引申的信度、效度、難度、區(qū)分度計(jì)算，構(gòu)成了一套解決能力定位和測(cè)驗(yàn)質(zhì)量分析的模型。在認(rèn)知診斷測(cè)驗(yàn)中，出現(xiàn)了一族模型，每一個(gè)模型都對(duì)應(yīng)于特殊的對(duì)象，模型之間從表現(xiàn)形式到診斷功能都有較大的差異。［29］由于認(rèn)知診斷測(cè)驗(yàn)要求較大的測(cè)驗(yàn)規(guī)模，加上模型公式復(fù)雜，計(jì)算繁瑣，數(shù)據(jù)量大，一些計(jì)算機(jī)軟件，如Statshop［30］、Arpeggio［31］、Mdltm［32］等被開(kāi)發(fā)出來(lái)。

二、語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的發(fā)展

（一）語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的結(jié)構(gòu)

語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)通常包括四個(gè)階段:

（1）定義認(rèn)知屬性:認(rèn)知屬性即測(cè)驗(yàn)要評(píng)估的內(nèi)容。認(rèn)知屬性以及屬性與項(xiàng)目之間存在著一定的聯(lián)系規(guī)則，認(rèn)知診斷測(cè)驗(yàn)假設(shè)項(xiàng)目可以被描述為一系列認(rèn)知屬性，如果被試正確地回答了某一項(xiàng)目，就意味著掌握了構(gòu)成該項(xiàng)目的相關(guān)屬性。［2］穩(wěn)固的屬性定義以及屬性與項(xiàng)目的編碼是確定屬性掌握輪廓和解釋測(cè)驗(yàn)結(jié)果的關(guān)鍵，在確定認(rèn)知屬性的過(guò)程中，可以從測(cè)驗(yàn)?zāi)康?、相關(guān)的認(rèn)知學(xué)習(xí)理論、測(cè)驗(yàn)項(xiàng)目的內(nèi)容分析、被試的口語(yǔ)匯報(bào)告獲得指導(dǎo)。［33-34］定義認(rèn)知屬性不僅要基于相關(guān)的認(rèn)知模型，還要對(duì)知識(shí)的內(nèi)容屬性進(jìn)行充分的挖掘。

（2）構(gòu)建屬性的層級(jí)關(guān)系:即確認(rèn)認(rèn)知屬性之間的邏輯關(guān)系或心理順序。構(gòu)建屬性層級(jí)關(guān)系可以借鑒認(rèn)知屬性確定中的方法，如學(xué)科專(zhuān)家確定法、口語(yǔ)報(bào)告法、文獻(xiàn)分析法等。屬性層次關(guān)系有四種基本類(lèi)型:線(xiàn)性型、收斂型、分支型和無(wú)結(jié)構(gòu)型。這四種基本類(lèi)型可以組合成更為復(fù)雜的網(wǎng)絡(luò)型。［35］

（3）數(shù)據(jù)分析:基于數(shù)據(jù)估計(jì)個(gè)體認(rèn)知屬性掌握的輪廓。選擇一定的認(rèn)知診斷模型去校準(zhǔn)測(cè)驗(yàn)，在不同的認(rèn)知診斷模型中，數(shù)據(jù)分析的過(guò)程不同。一些認(rèn)知診斷模型本質(zhì)上是分類(lèi)運(yùn)算法則，根據(jù)認(rèn)知屬性掌握模式將被試分類(lèi)。也有使用線(xiàn)性項(xiàng)目反應(yīng)理論進(jìn)行估計(jì)，根據(jù)整體熟練水平及反應(yīng)特性分類(lèi)。多數(shù)基于項(xiàng)目反應(yīng)理論的認(rèn)知診斷模型是多維模型，即假定存在著多維建構(gòu)。校準(zhǔn)模型的過(guò)程通常包括項(xiàng)目參數(shù)估計(jì)以及項(xiàng)目參數(shù)檢驗(yàn)。無(wú)論選擇何種估計(jì)方法，均要檢查模型對(duì)項(xiàng)目和被試參數(shù)的收斂是否達(dá)到。如果沒(méi)有收斂或產(chǎn)生嚴(yán)重的模型與數(shù)據(jù)的不擬合，就要檢查所選屬性、所確定的屬性層級(jí)關(guān)系及所用的認(rèn)知診斷模型是否合適。

（4）報(bào)告分?jǐn)?shù)和診斷反饋。數(shù)據(jù)分析完成以后，要設(shè)計(jì)溝通性強(qiáng)、說(shuō)明性高的的分?jǐn)?shù)報(bào)告，報(bào)告可以分為個(gè)體報(bào)告和團(tuán)體報(bào)告。個(gè)體報(bào)告報(bào)告學(xué)生在測(cè)驗(yàn)中的總體表現(xiàn)，即總體能力水平（定量報(bào)告），同時(shí)報(bào)告學(xué)生對(duì)測(cè)驗(yàn)的各認(rèn)知屬性的掌握情況（定性報(bào)告）。團(tuán)體報(bào)告要給出團(tuán)體的總體水平及對(duì)認(rèn)知屬性的掌握情況。［36］在分?jǐn)?shù)報(bào)告的同時(shí)，針對(duì)弱點(diǎn)與缺陷，提供有針對(duì)性的補(bǔ)救措施。因此，一個(gè)完整的診斷報(bào)告至少包含以下信息:學(xué)習(xí)者的知識(shí)掌握狀態(tài)和水平、知識(shí)或技能的優(yōu)勢(shì)、知識(shí)或技能的弱勢(shì)以及如何對(duì)弱勢(shì)進(jìn)行補(bǔ)救學(xué)習(xí)。

（二）語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的研究現(xiàn)狀

語(yǔ)言認(rèn)知診斷的研究范式有二:（1）編制與開(kāi)發(fā)新的語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)。（2）在現(xiàn)有語(yǔ)言測(cè)驗(yàn)基礎(chǔ)上，使用新技術(shù)，獲取有效的診斷性信息。多數(shù)研究沿著后一種范式進(jìn)行。在認(rèn)知屬性確定及屬性層級(jí)關(guān)系分析上，研究多采用專(zhuān)家小組評(píng)定與口語(yǔ)報(bào)告法，通過(guò)對(duì)已有測(cè)驗(yàn)項(xiàng)目?jī)?nèi)容的評(píng)定，確定語(yǔ)言加工所需的知識(shí)與能力。在模型選擇上，多采用規(guī)則空間模型對(duì)數(shù)據(jù)進(jìn)行擬合。

規(guī)則空間模型是將在測(cè)驗(yàn)項(xiàng)目上的反應(yīng)劃歸為某種與認(rèn)知技能相聯(lián)系的屬性掌握模式的統(tǒng)計(jì)方法。模型包括兩部分:（1）確定Q矩陣?yán)碚?，確定可能的屬性掌握模式以及在屬性掌握模式下在項(xiàng)目上的典型反應(yīng)模式；（2）建構(gòu)規(guī)則空間，根據(jù)在測(cè)驗(yàn)項(xiàng)目上的反應(yīng)進(jìn)行模式判別。［9］模型以特定認(rèn)知規(guī)則刻畫(huà)測(cè)驗(yàn)項(xiàng)目，用認(rèn)知規(guī)則掌握模式表征認(rèn)知結(jié)構(gòu)。在運(yùn)用規(guī)則空間模型診斷學(xué)生的知識(shí)狀態(tài)或策略時(shí)，通常將單一分?jǐn)?shù)轉(zhuǎn)化為對(duì)試題中涉及的認(rèn)知過(guò)程與技能的掌握概率，將知識(shí)、技能和策略定義為規(guī)則或?qū)傩?，不同屬性的組合可以產(chǎn)生不同屬性模式；通過(guò)在各項(xiàng)目上的反應(yīng)找出個(gè)體的屬性模式，根據(jù)屬性掌握與否的組合診斷出個(gè)體的知識(shí)結(jié)構(gòu)，了解個(gè)體在認(rèn)知過(guò)程與技能的哪些方面已經(jīng)具有良好結(jié)構(gòu)，哪些部分需要完善，從而進(jìn)行有針對(duì)性的補(bǔ)救教學(xué)。［37］

Buck等人考察了5000名日本被試參加托業(yè)考試（TOEIC）的情況。先從語(yǔ)言學(xué)的角度確定了27種重要屬性，然后對(duì)屬性進(jìn)行了修改、精簡(jiǎn)。經(jīng)過(guò)4次RSM分析，確定了16種技能和8種有交互作用的技能組合，這些技能包括綜合分散信息的能力、應(yīng)用相關(guān)內(nèi)容處理文本的能力、在記憶中保存信息并進(jìn)行推論的能力、利用相關(guān)背景知識(shí)處理任務(wù)的能力等。然后，利用這些技能與技能組合構(gòu)建Q矩陣，將91%的被試歸入相應(yīng)的屬性掌握模式，為被試提供診斷性報(bào)告。Buck等人運(yùn)用多元回歸方法驗(yàn)證結(jié)果，發(fā)現(xiàn)這些屬性解釋了被試表現(xiàn)中97%的變異。［38］Buck等人又研究第二語(yǔ)言測(cè)驗(yàn) （日本學(xué)生的英語(yǔ)測(cè)驗(yàn)）中聽(tīng)力理解簡(jiǎn)答題。首先，從語(yǔ)言學(xué)的角度分析出完成這些題目所需要的多種技能。經(jīng)過(guò)兩次RSM分析，最后確定了15種技能和14種有交互作用的技能組合，將96%的被試成功歸入相應(yīng)的屬性掌握模式，為被試作出診斷分析。［33］Kasai應(yīng)用規(guī)則空間模型分析英語(yǔ)托福測(cè)試中的閱讀理解測(cè)驗(yàn)，利用專(zhuān)家評(píng)定等方法從托福閱讀理解測(cè)驗(yàn)中分析出16種認(rèn)知屬性，把屬性劃分為4個(gè)類(lèi)別:（1）與整篇文章相關(guān)的屬性；（2）與位置信息相關(guān)的屬性；（3）與選擇正確選項(xiàng)相關(guān)的屬性；（4）與考試策略相關(guān)的屬性。盡管托業(yè)考試和托?？荚囋陂喿x理解測(cè)驗(yàn)上的測(cè)試目的、能力要求與篇章設(shè)置不同，但都涉及語(yǔ)言閱讀理解的相關(guān)內(nèi)容。［39］Scott等人使用規(guī)則空間模型對(duì)托福閱讀理解考試進(jìn)行分析，得到的認(rèn)知屬性與Kasai存在區(qū)別。Scott等人歸納了24種認(rèn)知屬性，通過(guò)分類(lèi)，總結(jié)出8種認(rèn)知屬性，分別是:（1）與問(wèn)題類(lèi)型相關(guān)的屬性；（2）與文本結(jié)構(gòu)相關(guān)的屬性；（3）與定位必要信息相關(guān)的屬性；（4）與獲得正確選項(xiàng)相關(guān)的屬性；（5）與語(yǔ)言特征相關(guān)的屬性；（6）與測(cè)驗(yàn)形式相關(guān)的屬性；（7）與背景知識(shí)相關(guān)的屬性；（8）與高級(jí)認(rèn)知技能相關(guān)的屬性。［40］雖然屬性不同，卻未影響三個(gè)研究結(jié)果的準(zhǔn)確性，它們?cè)诒辉噷傩哉莆漳Ｊ缴系呐袣w率都在90%以上，表明規(guī)則空間模型可以用作語(yǔ)言測(cè)驗(yàn)的診斷方法，同時(shí)也說(shuō)明認(rèn)知屬性界定的重要性。認(rèn)知屬性不同，可以得到不同的結(jié)果。這就為后來(lái)的補(bǔ)救教學(xué)提供了難度:如果認(rèn)知屬性定義粗糙，則診斷信息作用有限，直接影響補(bǔ)救教學(xué)效果；如果認(rèn)知屬性定義詳細(xì)，數(shù)目繁多，就為診斷模型及數(shù)據(jù)分析提出了較高要求。

在國(guó)內(nèi)，徐式婧對(duì)《使用漢語(yǔ)水平認(rèn)定考試》中的聽(tīng)力理解測(cè)驗(yàn)進(jìn)行認(rèn)知診斷研究，分析852名被試在C.TEST［A-D級(jí)］測(cè)驗(yàn)18個(gè)聽(tīng)力理解題目上的反應(yīng)。首先，綜合了3名對(duì)外漢語(yǔ)教學(xué)專(zhuān)家和12名對(duì)外漢語(yǔ)專(zhuān)業(yè)研究生的意見(jiàn)，借鑒了前人的研究，確定了被試作答18個(gè)聽(tīng)力理解測(cè)驗(yàn)題目所需的9種聽(tīng)力理解微技能，利用規(guī)則空間模型將大部分被試成功地歸入68種屬性掌握模式。在此基礎(chǔ)上，為被試提供關(guān)于聽(tīng)力理解技能掌握情況的診斷報(bào)告。［41］王靜運(yùn)用規(guī)則空間模型對(duì)在閱讀理解題目上的反應(yīng)作診斷性評(píng)價(jià)。他們基于文獻(xiàn)整理、2名對(duì)外漢語(yǔ)教學(xué)研究專(zhuān)家的建議以及10名有對(duì)外漢語(yǔ)教學(xué)經(jīng)驗(yàn)的教師的意見(jiàn)，確定了作答全部閱讀理解題目所需的8種閱讀理解微技能，采用軟件對(duì)776名被試進(jìn)行了參數(shù)估計(jì)，將被試成功地歸入50種理想的反應(yīng)模式中，歸類(lèi)比率為90%，最終為被試提供了能表明閱讀理解微技能掌握情況的診斷報(bào)告。［42］也有的研究者采用先確定認(rèn)知屬性再編制診斷測(cè)驗(yàn)的范式。劉慧采用自編測(cè)驗(yàn)的方式，利用規(guī)則空間模型對(duì)漢語(yǔ)為第二外語(yǔ)的留學(xué)生漢語(yǔ)顏色詞學(xué)習(xí)情況進(jìn)行診斷研究。［43］李小蘭結(jié)合運(yùn)用知識(shí)空間理論和規(guī)則空間模型，在專(zhuān)家?guī)椭麓_定了漢語(yǔ)聽(tīng)力理解技能結(jié)構(gòu)，編制了漢語(yǔ)作為第二語(yǔ)言的“中級(jí)漢語(yǔ)聽(tīng)力理解技能測(cè)驗(yàn)”。對(duì)306名中級(jí)水平的漢語(yǔ)學(xué)習(xí)者施測(cè)后，運(yùn)用分類(lèi)診斷功能成功地將94%的被試歸類(lèi)，并探討了技能結(jié)構(gòu)、被試數(shù)量、被試水平對(duì)研究結(jié)果可能造成的影響。［44］

規(guī)則空間模型是在語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)研究中廣泛使用的方法。規(guī)則空間模型實(shí)現(xiàn)了認(rèn)知分析與診斷補(bǔ)救的結(jié)合。但是，在實(shí)際應(yīng)用中，使用規(guī)則空間模型也存在著一定的障礙。首先，規(guī)則空間模型的Q矩陣?yán)碚撌謬?yán)格。由鄰接矩陣到可達(dá)矩陣，再到縮減矩陣、被試屬性矩陣、理想反應(yīng)模式矩陣，每一步的銜接都十分嚴(yán)密，對(duì)Q矩陣的層次性、順序性、清晰性的要求十分嚴(yán)格。這在數(shù)學(xué)等邏輯思維領(lǐng)域容易實(shí)現(xiàn)，在語(yǔ)言領(lǐng)域就比較困難。其次，規(guī)則空間模型建立的基礎(chǔ)是項(xiàng)目反應(yīng)理論，要根據(jù)項(xiàng)目反應(yīng)理論理論軟件算出每名被試的能力值，因此對(duì)樣本量有要求，樣本量小會(huì)影響診斷的結(jié)果。再次，規(guī)則空間模型沒(méi)有用參數(shù)來(lái)刻畫(huà)項(xiàng)目與其所測(cè)屬性間的關(guān)系。僅用Q矩陣來(lái)表明項(xiàng)目測(cè)量了何種屬性、未測(cè)量何種屬性，并沒(méi)有用參數(shù)來(lái)說(shuō)明項(xiàng)目的難易與所測(cè)屬性的關(guān)系，項(xiàng)目所測(cè)的認(rèn)知屬性是否完備，在模型中也沒(méi)有一個(gè)評(píng)價(jià)的標(biāo)準(zhǔn)。因此，一些研究者嘗試將新的認(rèn)知診斷模型運(yùn)用到語(yǔ)言測(cè)驗(yàn)中去。

目前，運(yùn)用于語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的其他模型有DINA模型、屬性層次方法（AHM）、融合模型（FM）、廣義診斷模型（GDM）等。DINA模型克服了規(guī)則空間模型的局限，對(duì)屬性的層級(jí)關(guān)系要求不嚴(yán)格，考慮了學(xué)生在實(shí)際解題中可能存在的失誤或猜測(cè)成分，形式更加靈活。DINA模型是比較簡(jiǎn)單的認(rèn)知診斷模型，在滿(mǎn)足診斷目的前提下，參數(shù)越簡(jiǎn)單，模型擬合就越好。［45］陳艷梅利用了DINA模型，選用PISA的閱讀公開(kāi)題目，研究初中三年級(jí)學(xué)生的語(yǔ)文閱讀能力。在293名被試中，77.1%掌握了閱讀能力的全部三個(gè)屬性，17.4%只掌握了部分屬性，5.5%全未掌握。［46］研究從微觀層面對(duì)閱讀能力的發(fā)展進(jìn)行了評(píng)價(jià)，為教師和學(xué)生提供了指導(dǎo)。融合模型對(duì)認(rèn)知屬性的層級(jí)關(guān)系要求亦不嚴(yán)格，還可以提供比DINA模型更加豐富的信息。在融合模型的項(xiàng)目反應(yīng)函數(shù)中，包括兩個(gè)與能力相關(guān)的參數(shù)αj、θj，分別是技能掌握參數(shù)和對(duì)Q矩陣中未指定的重要技能的殘余能力的掌握程度，還包括3個(gè)與項(xiàng)目有關(guān)的參數(shù)πi、rik、ci，分別代表項(xiàng)目i的難度參數(shù)、項(xiàng)目i中屬性k的區(qū)分度參數(shù)以及項(xiàng)目i反應(yīng)函數(shù)依賴(lài)于Q矩陣之外的其他技能的程度。這些參數(shù)彌補(bǔ)了規(guī)則空間模型的不足。Lee和Sawaki采用擴(kuò)展的認(rèn)知診斷模型、融合模型、潛在類(lèi)別分析模型分析ESL閱讀和聽(tīng)力測(cè)驗(yàn)的數(shù)據(jù)，比較了幾個(gè)模型的優(yōu)劣，發(fā)現(xiàn)融合模型是一個(gè)很成功的認(rèn)知診斷模型，符合有效的認(rèn)知診斷模型應(yīng)具備的三個(gè)條件，即對(duì)學(xué)生的知識(shí)狀態(tài)進(jìn)行估計(jì)、刻畫(huà)項(xiàng)目與各屬性的關(guān)系、模型參數(shù)可以識(shí)別。［47］Jang應(yīng)用融合模型對(duì)LanguEdge閱讀課程測(cè)驗(yàn)進(jìn)行了研究。首先通過(guò)出聲思維分析和測(cè)驗(yàn)項(xiàng)目?jī)?nèi)容分析確定了9種主要的閱讀理解技能。然后根據(jù)確定的9個(gè)閱讀技能屬性對(duì)LanguEdge閱讀理解測(cè)驗(yàn)題目中所涉及的閱讀技能屬性進(jìn)行屬性與項(xiàng)目之間的矩陣構(gòu)建，表1是屬性與項(xiàng)目對(duì)應(yīng)關(guān)系圖。由表1可見(jiàn)，在使用融合模型對(duì)閱讀技能屬性檢驗(yàn)時(shí)，屬性與項(xiàng)目之間的對(duì)應(yīng)關(guān)系相對(duì)于規(guī)則空間模型而言是松散的。一個(gè)項(xiàng)目中涉及到的屬性之間并不需要一個(gè)嚴(yán)格的層級(jí)結(jié)構(gòu)。這為測(cè)量語(yǔ)言中并行存在的復(fù)雜認(rèn)知加工提供了途徑。

表1　Jang（2009）研究中屬性與項(xiàng)目的對(duì)應(yīng)關(guān)系

Jang使用融合模型估計(jì)被試的閱讀技能掌握模式。通過(guò)對(duì)后驗(yàn)掌握模式概率分布的分類(lèi)，對(duì)每一被試的每項(xiàng)閱讀技能，都可以提供掌握（概率大于0.60）、未掌握（概率小于0.40）以及不確定（概率在0.60到0.40之間）三種評(píng)定。將結(jié)果匯總，采用掌握概率條形圖形式將最終診斷報(bào)告提供給被試。Jang隨后考察了被試對(duì)診斷報(bào)告的評(píng)價(jià)。40%的學(xué)生反映報(bào)告中的技能掌握模式非常準(zhǔn)確地反應(yīng)了閱讀技能現(xiàn)狀。根據(jù)診斷報(bào)告，Jang進(jìn)行了輔導(dǎo)。通過(guò)一段時(shí)間輔導(dǎo)后，39%的學(xué)生表示輔導(dǎo)作用非常有效，50%的學(xué)生表示輔導(dǎo)有一定的作用。研究取得了初步的成效，也驗(yàn)證了融合模型在語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)中的有效性。［48-49］黃海峰采用融合模型對(duì)HSK初、中等考生的數(shù)據(jù)進(jìn)行診斷分析:采用探索性因素分析提取6個(gè)因子，以6個(gè)因子作為認(rèn)知屬性，根據(jù)項(xiàng)目在各因子上的載荷值大小把載荷矩陣轉(zhuǎn)換為項(xiàng)目與屬性關(guān)系的Q矩陣，也取得了較好的結(jié)果。［50］但融合模型的聯(lián)合正確診斷率還不很理想。［51］Douglas研究表明，融合模型的正確診斷率受測(cè)驗(yàn)認(rèn)知屬性的個(gè)數(shù)以及屬性間的相關(guān)程度影響。認(rèn)知屬性個(gè)數(shù)越少，正確診斷率就越高；認(rèn)知屬性之間的相關(guān)越高，正確診斷率也越高。［52］因此，該模型更適宜于認(rèn)知屬性不太多（5個(gè)左右）、屬性之間相關(guān)高的認(rèn)知診斷測(cè)驗(yàn)。除以上兩個(gè)模型外，還有人使用廣義診斷模型（GDM）進(jìn)行語(yǔ)言診斷測(cè)驗(yàn)。［32］［53］廣義診斷模型的優(yōu)點(diǎn)在于使用要求不嚴(yán)，適用范圍廣泛，不僅可以分析二分的觀測(cè)數(shù)據(jù)，還可以分析多分的觀測(cè)數(shù)據(jù)，既可以分析二分的潛變量，也可以分析順序或連續(xù)的潛變量。

語(yǔ)言是一個(gè)復(fù)雜的過(guò)程。語(yǔ)言測(cè)驗(yàn)具有自身的特點(diǎn)。研究者在創(chuàng)建新的語(yǔ)言認(rèn)知診斷模型的同時(shí)，也針對(duì)語(yǔ)言測(cè)驗(yàn)的特點(diǎn)，開(kāi)展一些相應(yīng)的研究。在語(yǔ)言測(cè)驗(yàn)中，常使用短文作為測(cè)驗(yàn)內(nèi)容，這就不可避免地會(huì)遭遇到含篇章題組形式的項(xiàng)目，進(jìn)而產(chǎn)生局部依賴(lài)。劉文將題組反應(yīng)理論與廣義診斷模型相結(jié)合，探討局部依賴(lài)和題組內(nèi)項(xiàng)目數(shù)量對(duì)二分廣義診斷模型與多分廣義診斷模型的影響。結(jié)果表明，隨著題組內(nèi)局部依賴(lài)程度的增加，診斷的準(zhǔn)確性下降。題組內(nèi)項(xiàng)目的多少對(duì)于診斷的準(zhǔn)確性也有影響。［54］

綜上所述，語(yǔ)言認(rèn)知診斷研究已經(jīng)逐步開(kāi)展起來(lái)。但由于語(yǔ)言現(xiàn)象的復(fù)雜性和統(tǒng)計(jì)測(cè)量技術(shù)本身的限制，這些研究還處于探索階段，離大規(guī)模的普及還有一定距離。

三、語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)面臨的挑戰(zhàn)

（一）語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)研究的難點(diǎn)

語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)?zāi)壳案嗟赝Ａ粼谘芯亢椭行∫?guī)模實(shí)測(cè)階段，在大規(guī)?？荚囍械膽?yīng)用并不多見(jiàn)。什么原因使語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的發(fā)展步履蹣跚？語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)研究有如下難點(diǎn):

（1）缺乏可操作的認(rèn)知理論模型。語(yǔ)言認(rèn)知診斷研究并不缺乏測(cè)量模型，但測(cè)量模型與語(yǔ)言認(rèn)知學(xué)習(xí)理論之間存在著較大的脫節(jié)。復(fù)雜的模型（如統(tǒng)一模型）雖然能很好地容納語(yǔ)言認(rèn)知心理研究的結(jié)果，參數(shù)也能精確地解釋心理特質(zhì)，但參數(shù)估計(jì)等技術(shù)難以解決，常常出現(xiàn)無(wú)法識(shí)別參數(shù)的情況。簡(jiǎn)單的模型（如DINA）的參數(shù)估計(jì)技術(shù)容易解決，但參數(shù)不能很好地解釋心理現(xiàn)象。即便是被譽(yù)為最為成功的認(rèn)知診斷測(cè)量模型――融合模型，也不能處理認(rèn)知屬性太多、屬性之間高度相關(guān)的情況。語(yǔ)言認(rèn)知心理學(xué)家無(wú)法提供可操作的語(yǔ)言認(rèn)知學(xué)習(xí)理論。以語(yǔ)言習(xí)得為例，較為流行的是聯(lián)結(jié)主義模型。［55］該模型認(rèn)為，語(yǔ)言習(xí)得是學(xué)習(xí)者通過(guò)語(yǔ)言材料獲取語(yǔ)言知識(shí)并儲(chǔ)存于心理詞典中。心理詞典中有形、音、義三種表征系統(tǒng)，詞匯在心理詞典中呈分布式表征，詞匯在頭腦中不是以單一概念的方式儲(chǔ)存，而是以語(yǔ)義特征、句法特征、語(yǔ)音特征的形式分別儲(chǔ)存在不同的表征系統(tǒng)中。新詞和已有詞匯在語(yǔ)義、字形、語(yǔ)音特征上是否匹配，決定了新詞的學(xué)習(xí)速度。聯(lián)結(jié)主義模型通過(guò)特征單元激活、抑制與聯(lián)結(jié)能有效地表達(dá)語(yǔ)言行為。聯(lián)結(jié)主義模型可以解釋很多語(yǔ)言現(xiàn)象，其合理性也被計(jì)算機(jī)模擬證明。但是，將聯(lián)結(jié)主義模型轉(zhuǎn)變?yōu)榭刹僮鞯恼J(rèn)知屬性以及認(rèn)知屬性的層級(jí)關(guān)系就有困難。在一些認(rèn)知模型里，有的認(rèn)知加工成分無(wú)法變成認(rèn)知診斷測(cè)驗(yàn)中可操作的認(rèn)知屬性。

（2）在現(xiàn)有語(yǔ)言測(cè)驗(yàn)的基礎(chǔ)上提取認(rèn)知診斷信息存在著“瓶頸”。由于開(kāi)發(fā)新的語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)困難重重，多數(shù)研究是在現(xiàn)有語(yǔ)言測(cè)驗(yàn)的基礎(chǔ)上，利用認(rèn)知診斷技術(shù)分析出有用信息。對(duì)這種研究范式，有以下質(zhì)疑:①認(rèn)知受試題內(nèi)容的影響大，不同的試題可能出現(xiàn)不同認(rèn)知加工模式，這在閱讀測(cè)驗(yàn)中尤為明顯。閱讀過(guò)程嚴(yán)重地依賴(lài)于文本，受測(cè)驗(yàn)項(xiàng)目編排形式的影響也大。這樣，針對(duì)同一認(rèn)知過(guò)程有不同的認(rèn)知加工模式，這對(duì)補(bǔ)救措施安排帶來(lái)很大困惑。②原有測(cè)驗(yàn)題目的難度分布。由于原有測(cè)驗(yàn)并非為認(rèn)知診斷設(shè)計(jì)，在項(xiàng)目難度分布上，原有測(cè)驗(yàn)會(huì)根據(jù)測(cè)驗(yàn)需求，有意安排測(cè)驗(yàn)難度。例如，在過(guò)關(guān)性測(cè)驗(yàn)中，題目的難度會(huì)降低，測(cè)驗(yàn)里含有大量的難度低的題目，干擾了認(rèn)知診斷信息的提取。③原有測(cè)驗(yàn)與認(rèn)知診斷測(cè)驗(yàn)的編制原理存在著差異。

（3）在定義認(rèn)知屬性和創(chuàng)建認(rèn)知屬性層級(jí)關(guān)系時(shí)具有主觀性。人們廣泛使用專(zhuān)家小組評(píng)定法，在同一專(zhuān)家小組內(nèi)部，會(huì)出現(xiàn)意見(jiàn)不一致的情況，這就給認(rèn)知屬性打上了主觀烙印。以周霞和徐式婧研究為例［41］［56］，對(duì)象都為漢語(yǔ)二語(yǔ)聽(tīng)力理解測(cè)驗(yàn)，能力水平要求類(lèi)似。在定義認(rèn)知屬性和創(chuàng)建認(rèn)知屬性層級(jí)關(guān)系時(shí)，都采用專(zhuān)家小組評(píng)定操作程序，但結(jié)果不同，前者確定了9種認(rèn)知屬性，后者確定了8種認(rèn)知屬性，認(rèn)知屬性中有4種不一致，屬性的層級(jí)關(guān)系也不一致。究竟哪一個(gè)真實(shí)描繪了漢語(yǔ)二語(yǔ)聽(tīng)力理解能力的結(jié)構(gòu)？在下結(jié)論時(shí)需要慎重。

（4）補(bǔ)救措施的合理性需要證實(shí)。Jang對(duì)考生和教師的訪談發(fā)現(xiàn)，不足主要集中在診斷報(bào)告上。一位教師對(duì)補(bǔ)救措施提出了質(zhì)疑，認(rèn)為盡管知道學(xué)生的優(yōu)勢(shì)和缺陷，但由于學(xué)生的閱讀能力存在著差異，教師無(wú)法也無(wú)時(shí)間對(duì)每一個(gè)學(xué)生做個(gè)別輔導(dǎo)。一些診斷信息過(guò)于細(xì)微，偏于認(rèn)知，缺乏操作性，不具有教學(xué)指導(dǎo)意義。有考生咨詢(xún)，在診斷報(bào)告上，已經(jīng)掌握的部分，是否不再需要進(jìn)行同類(lèi)知識(shí)點(diǎn)的測(cè)量以及相同能力的培養(yǎng)？有的考生質(zhì)疑認(rèn)知屬性的劃分，認(rèn)為閱讀技能不能被區(qū)分得如此細(xì)致，因?yàn)楹芏嚅喿x需要將多種技能進(jìn)行綜合。［49］

另外，語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)在實(shí)施中還存在認(rèn)知屬性的粒度、題目數(shù)量與技能的對(duì)應(yīng)關(guān)系、同一屬性需要測(cè)試多少題目、紙筆測(cè)驗(yàn)題目無(wú)法涵蓋所有認(rèn)知屬性等問(wèn)題。

（二）語(yǔ)言認(rèn)知論斷未來(lái)的研究方向

盡管語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)還存在著難點(diǎn)或問(wèn)題，但是，作為一種新興的測(cè)驗(yàn)理論，仍然具有許多優(yōu)點(diǎn)和光明前景。未來(lái)研究應(yīng)該做好如下工作:

（1）加強(qiáng)認(rèn)知心理學(xué)與心理測(cè)量學(xué)的結(jié)合。語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的未來(lái)在于第一種研究范式，它將給語(yǔ)言測(cè)驗(yàn)理論和應(yīng)用帶來(lái)革命性的進(jìn)展。隨著認(rèn)知心理學(xué)研究的深入，可以用于認(rèn)知診斷的語(yǔ)言認(rèn)知模型會(huì)不斷涌現(xiàn)。應(yīng)該結(jié)合語(yǔ)言學(xué)習(xí)過(guò)程，對(duì)語(yǔ)言認(rèn)知模型進(jìn)行可操作性的修改和補(bǔ)充。

（2）開(kāi)發(fā)適用性強(qiáng)的認(rèn)知診斷測(cè)量模型和計(jì)算機(jī)統(tǒng)計(jì)軟件。在進(jìn)行語(yǔ)言認(rèn)知診斷研究時(shí)，會(huì)遇到語(yǔ)言認(rèn)知診斷模型的晦澀難懂和計(jì)算機(jī)統(tǒng)計(jì)軟件紛繁復(fù)雜的問(wèn)題，巨大的模型與冗長(zhǎng)的程序往往會(huì)讓認(rèn)知心理學(xué)家望而卻步。因此，應(yīng)該致力開(kāi)發(fā)出實(shí)用性強(qiáng)的測(cè)量模型與計(jì)算機(jī)程序。

（3）加強(qiáng)診斷報(bào)告的設(shè)計(jì)。語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的價(jià)值體現(xiàn)在對(duì)個(gè)體補(bǔ)救學(xué)習(xí)的幫助上。診斷信息只告訴個(gè)體“哪里弱”，補(bǔ)救報(bào)告要告訴個(gè)體“如何強(qiáng)”。研究者要結(jié)合補(bǔ)救教學(xué)的實(shí)際，針對(duì)診斷出的問(wèn)題，設(shè)計(jì)出操作性強(qiáng)、指導(dǎo)性高的補(bǔ)救意見(jiàn)。

（4）加強(qiáng)語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)與計(jì)算機(jī)輔助測(cè)驗(yàn)、計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的聯(lián)合。以往的語(yǔ)言測(cè)驗(yàn)，往往未涵蓋語(yǔ)言認(rèn)知的整個(gè)過(guò)程，計(jì)算機(jī)技術(shù)為語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)提供了廣闊的操作平臺(tái)。借助計(jì)算機(jī)技術(shù)，可以克服紙筆測(cè)驗(yàn)的缺陷，如測(cè)驗(yàn)內(nèi)容無(wú)法覆蓋所有知識(shí)點(diǎn)，補(bǔ)救措施滯后導(dǎo)致補(bǔ)救效果低等。計(jì)算機(jī)技術(shù)還可為診斷測(cè)驗(yàn)提供非語(yǔ)言的卻影響語(yǔ)言過(guò)程的診斷信息，如注意力、動(dòng)機(jī)、文化差異等，還可以提供項(xiàng)目反應(yīng)時(shí)間、答案選項(xiàng)變動(dòng)等多種信息。

（5）加強(qiáng)群體的語(yǔ)言認(rèn)知診斷研究。Tatsuoka等應(yīng)用RSM比較20多個(gè)國(guó)家的8年級(jí)學(xué)生參加TIMSS-R數(shù)學(xué)考試情況。由專(zhuān)家確定完成測(cè)驗(yàn)所需的23種技能，99.5%的被試被成功歸類(lèi)，并為被試作出診斷性評(píng)價(jià)，發(fā)現(xiàn)不同國(guó)家的學(xué)生在技能掌握和認(rèn)知上有很大差異。語(yǔ)言具有深刻的民族性。［57］Worlf認(rèn)為，語(yǔ)言影響認(rèn)知。［58］因此，可以利用語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)研究使用不同語(yǔ)言、有不同文化背景的人的語(yǔ)言認(rèn)知學(xué)習(xí)，揭示語(yǔ)言認(rèn)知的群體特征。

總之，認(rèn)知診斷理論是為了彌補(bǔ)標(biāo)準(zhǔn)測(cè)驗(yàn)理論在描述個(gè)體知識(shí)與技能掌握方面的不足而發(fā)展起來(lái)的新一代測(cè)驗(yàn)理論。［5］認(rèn)知機(jī)制與測(cè)量模型是認(rèn)知診斷理論發(fā)展的兩大動(dòng)力。今后，要將語(yǔ)言認(rèn)知心理學(xué)的最新成果進(jìn)行可操作化轉(zhuǎn)變，根據(jù)語(yǔ)言測(cè)驗(yàn)特點(diǎn)，選擇合適的認(rèn)知診斷模型，將語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)研究推向深入，開(kāi)創(chuàng)語(yǔ)言測(cè)驗(yàn)的美好未來(lái)。

參考文獻(xiàn)：

［1］Gao L.，Rodgers T.Cognitive-psychometric modeling of the MELAB reading items［N］.Paper presented at the annual meeting of the National Council on Measurement in Education，Chicago，2007.

［2］Gierl，M.，Leighton，J.P.，＆Hunka，S.M.Exploring the logic of Tatsuoka’s rule-space model for test development and analysis［J］.Educational Measurement：Issues and Practices，2000，（3）.

［3］National Research Council.Knowing what students know：The science and design of educational assessment［M］.Washington，DC：National Academy Press，2001.

［4］桂詩(shī)春.認(rèn)知與語(yǔ)言測(cè)試.基礎(chǔ)教育外語(yǔ)教學(xué)研究［J］.2003，（12）.

［5］Mislevy R.J.Foundations of a new test theory［A］.In：N Frederiksen et al.Eds.Test theory for a new generation of tests［C］.Hillsdale NJ：LEA.19-39.

［6］Snow，R.Lohman，D.Implications of cognitive psychology for educational measurement［A］.In Linn（ed）：Educational Measurement，［C］.3 Edition.N.Y：ColierMacMillen，1989.

［7］Fischer，G.H.The linear logistic test model as an instrument in educational research［J］.Acta Psychologica，1973，（6）.

［8］ Fischer，G.H.Logistic latent trait modelswith linear constraints［J］.Psychometrika，1983，（1）.

［9］Tatsuoka，K.K.Rule space：An approach for dealing with misconceptions based on item response theory［J］.Journal of Educational Measurement，1983，（4）.

［10］Misley，R.J.，Verhelst，N.Modeling item responses when different subjects employ different solution strategies.Technical Report［N］.RR-87-47-ONR，Educational Testing Service，Princeton，NJ，1987.

［11］Baker，D.Language Testing：A Critical Survey and Practical Guide［J］.London：Edward Ar-nold，1989.

［12］Lado R.Language Testing：the construction and use of foreign language tests［M］.London：Longm an.

［13］李傳益.語(yǔ)言能力觀對(duì)語(yǔ)言測(cè)試的影響.咸寧學(xué)院學(xué)報(bào)［J］.2009，（5）.

［14］Oller，J.W.Issues in Language Testing Research［M］.Rowley，Mass：Newbury House，1983.

［15］Hymes，D.Foundations in sociolinguistics：an ethnographic approach［M］.London：Tavistock publications，1974.

［16］Canale，M.，Swain，M.Theoretical bases of communicativ eapproaches to second language teaching and testing［J］.Applied linguistics，1980，（1）.

［17］Bachman，L.F.，Palmer，A.S.Language testing in practice［M］.Oxford：Oxford University Press，1996.

［18］Lewy，A.Postmodernism in the field of achievement testing［J］.Studies in Educational Evaluation，1996，（22）.

［19］Grenz，S.J.A Primer on Postmodernism［M］.Michigan，US：William B.Eerdmans Publishing Co，1996.

［20］Rosenau，P.M.Post-Modernism and the Social Sciences：Insights，Inroads and Intrusions ［M］.Princet on：Princeton University Press，1992.

［21］Alderson，J.C.Assessing Reading［M］.Cambridge：Cambridge University Press，2000.

［22］Rupp，A.A.Unique characteristics of cognitive diagnosis models［N］.Paper presented at the annual meeting of the National Council on Measurement in Education，Chicago，2007.

［23］McNamara，T.Language assessment as social practice：Challenges for research［J］.Language Testing，2001，（18）.

［24］Kane，M.T.Current concerns in validity theory［J］.JEM，2001，（4）.

［25］Anastasi，A.Psychological Testing（6th ed.）［M］.New York：Macmillan，1988.

［26］Messick，S.Validity of psychological assessment：Validation of inferences from person’s responses and performance as scientific inquiry into scoring meaning［J］.American Psychologist，1995，（9）.

［26］Bachman，L.F.Statistical Analyses for Language Assessment［M］.Cambridge：CUP，2004.

［27］Weir，C.J.Language Testing and Validation［M］.Palgrave：Macmillan，2005.

［28］Embretson，S.E.Cognitive psychology applied to testing［A］.In F.T.Durso（eds.），Handbook of applied cognition［C］.New York：Wiley＆Sons，1999.

［29］Fu，J.，Li，Y.Cognitively diagnostic psychometric models：An integrative review［N］.Paper presented at the annual meeting of the National Council on Measurement in Education，Chicago，2007.

［30］Almond，R.G.，Yan，D.，Matukhin，A.，＆Chang，D.StatShop testing（ETS Research Memorandum No.RM-06-05）［M］.Princeton，NJ：Educational Testing Service，2006.

［31］DiBello，L.，＆Stout，W.Arpeggio documentation and analyst manual（Ver.3.1.001）（Computer software）［M］.St.Paul：MN：Assessment Systems Corporation，2008.

［32］von Davier，M.Multidimensional latent trait modeling（mdltm）（Computer software）［M］. Princeton，NJ：Educational Testing Service，2006.

［33］Buck，G.，Tatsuoka，K.K.Application of the rule-space procedure to language testing：Examining attributes of a free response listening test［J］.Language Testing，1998.

［34］Leighton，J.P.，Gierl，M.J.Defining and evaluating models of cognition used in educational measurement to make inferences about examinees’thinking processes［J］.Educational Measurement：Issues and Practices，2007，（2）.

［35］Leighton，J.P.，Gierl，M.J.，＆Hunka，S.The attribute hierarchy method for cognitive assessment：A variation on Tatsuoka’s rule-space approach［J］.Journal of Educational Measurement，2004，（41）.

［36］涂冬波，漆書(shū)清，戴海琦，蔡艷，丁樹(shù)良.教育考試中的認(rèn)知診斷評(píng)估，考試研究［J］. 2008，（4）.

［37］余嘉元.運(yùn)用規(guī)則空間模型識(shí)別解題中的認(rèn)知錯(cuò)誤［J］.心理學(xué)報(bào)，1995，（2）.

［38］Buck，G.，Tatsuoka，K.，＆Kostin，I.The subskills of reading：Rule-space analysis of amultiple-choice test of second language reading comprehension［J］.Language Learning，1997，（47）.

［39］Kasai，M.Application of the rule-space model to the reading comprehension section of the Test of English as a Foreign Language（TOEFL）［D］.Unpublished doctoral dissertation，University of Illinois at Urbana-Champaign，1997.

［40］Scott，H.S.Cognitive diagnosis perspectives of a second language reading test［D］.Unpublished doctoral dissertation，University of Illinois at Urbana-Champaign，1998.

［41］徐式婧.C.TEST聽(tīng)力理解測(cè)驗(yàn)的診斷性評(píng)價(jià)研究［D］.碩士學(xué)位論文.北京語(yǔ)言大學(xué)，2007.

［42］王靜.C.TEST閱讀理解測(cè)驗(yàn)的診斷性評(píng)價(jià)研究［D］.碩士學(xué)位論文.北京語(yǔ)言大學(xué)，2008.

［43］劉慧.規(guī)則空間模型在留學(xué)生漢語(yǔ)顏色詞掌握模式診斷中的應(yīng)用［D］.碩士學(xué)位論文.北京語(yǔ)言大學(xué)，2006.

［44］李小蘭.知識(shí)空間理論與規(guī)則空間模型在漢語(yǔ)聽(tīng)力理解技能測(cè)驗(yàn)編制中的應(yīng)用［D］.碩士學(xué)位論文.北京語(yǔ)言大學(xué)，2006.

［45］Dibello，L.V.，＆Stout，W.Guest Editors’Introduction and Overview：IRT-Based Cognitive Diagnostic Models and Related Methods［J］.Journal of Educational Measurement，2007，（4）.

［46］陳艷梅.初中三年級(jí)學(xué)生閱讀能力評(píng)價(jià)研究［D］.碩士學(xué)位論文.江西師范大學(xué)，2009.

［47］Lee，Y.W.，＆Sawaki，Y.An application of three cognitive diagnosis models to ESL reading and listening assessments：Latent class analysis，general diagnostic model，and fusion model［Z］.Manuscript in preparation，2008.

［48］Jang，E.E.A validity narrative：Effects of reading skills diagnosis on teaching and learning in the context of NG TOEFL［D］.Unpublished doctoral dissertation，University of Illinois at Urbana-Champaign，2005.

［49］Jang，E.E.Cognitive diagnostic assessment of L2 reading comprehension ability：Validity arguments for Fusion Model application to LanguEdge assessment［J］.Language Testing，2009，（1）.

［50］黃海峰.基于融合模型的漢語(yǔ)作為第二語(yǔ)言閱讀之認(rèn)知診斷研究.博士學(xué)位論文［D］.北京語(yǔ)言大學(xué)，2010.

［51］Hartz，S.A Bayesian framework for the unified model for assessing cognitive abilities：Blending theory with practicality［D］.Unpublished doctoral dissertation，University of Illinois，Urbana-Champaign，2002.

［52］Douglas，J.，de la Torre，J.，Chang，H.，Henson，R.，＆Templin，J.Skills diagnosis with latent variable models［M］.Symposium presented at the annual meeting of the National Council on Measurement in Education，San Francisco，CA，2006.

［53］Von Davier，M.A general diagnostic model applied to language testing data（ETS Research Rep ［Z］.No.RR-05-16）.Princeton，NJ：Educational Testing Service，2005.

［54］劉文.題組認(rèn)知診斷方法模擬與初中語(yǔ)文測(cè)驗(yàn)的認(rèn)知診斷研究［D］.博士學(xué)位論文.北京師范大學(xué)，2011.

［55］McClelland，J.，Rumelhart，D.An interactive activation model of context effects in 1etter perception：Part 1.An account of basic findings［J］.Psychological Review，1981，88.

［56］周霞.HSK（中級(jí)）聽(tīng)力理解測(cè)驗(yàn)的診斷性研究［D］.碩士學(xué)位論文.北京語(yǔ)言大學(xué)，2009.

［57］Tatsuoka，K.K.，Corter，J.E.，＆Tatsuoka，C.Patterns of Diagnosed Mathematical Content and Process Skills in TIMSS-R Across a Sample of 20 Countries［J］.American Educational Research Journal.2004，（4）.

［58］Whorf，B.L.Language，thought，and reality：Selected writing of Benjamin Lee Whorf［M］. New York：Wiley，1956.

（責(zé)任編輯劉祖鑫）

A Review on the Research of Cognitive Diagnostic Studies to Language Assessment

ZHANG Qirui＆BIAN Yufang

（Institute of Criminology，People’s Public Security University of China，100038，Beijing；National Key Laboratory of Cognitive Neuroscience and Learning，Beijing Normal University，100875，Beijing）

Abstract:Cognitive Diagnostic Assessment（CDA）is a new developing technology in cognition psychology and psychological measurement.Based on the theory of cognition，CDA could provide diagnostic information，such as the student’s mastery level about some knowledge or skills，which can be used to adopt remedial measures and improve learning efficiency.Cognitive diagnosis assessment has grown by leaps and bounds.Its application in language assessment conforms to the latest trend of thought and technical innovation in the area of language assessment.However，due to the complexity of language itself，as well as the limitations of cognitive diagnostic measurement model，Cognitive diagnostic studies of language assessment needs further development.

Key words:language.assessment.cognitive diagnostic.

中圖分類(lèi)號(hào)：H0

文章標(biāo)識(shí)碼：A

文章編號(hào)：1671-7406（2016）02-0071-09

*收稿日期：2016-01-16

作者簡(jiǎn)介：張啟睿（1982—），男，中國(guó)人民公安大學(xué)犯罪學(xué)院講師、博士，研究方向:教育學(xué)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)：產(chǎn)生、發(fā)展與面臨的挑戰(zhàn)*

一、語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的產(chǎn)生

二、語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的發(fā)展

三、語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)面臨的挑戰(zhàn)

語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)：產(chǎn)生、發(fā)展與面臨的挑戰(zhàn)*

一、語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的產(chǎn)生

二、語(yǔ)言認(rèn)知診斷測(cè)驗(yàn)的發(fā)展