近二十年漢語(yǔ)口語(yǔ)測(cè)試研究綜述

2022-12-29 09:50:53馬赟鶴

青海師范大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版) 2022年1期

馬赟鶴

(北京外國(guó)語(yǔ)大學(xué) 中國(guó)語(yǔ)言文學(xué)學(xué)院，北京 100089)

一、引言

語(yǔ)言測(cè)試是通過(guò)評(píng)價(jià)被試行為抽樣而推測(cè)其語(yǔ)言能力的過(guò)程，與人們對(duì)語(yǔ)言的認(rèn)識(shí)與語(yǔ)言教學(xué)密不可分，其演變過(guò)程反映了人們對(duì)語(yǔ)言能力認(rèn)識(shí)的變化。Spolsky(1995)將語(yǔ)言測(cè)試分為三個(gè)主要發(fā)展階段：前科學(xué)測(cè)試階段(pre-science testing)、心理測(cè)量—結(jié)構(gòu)主義測(cè)試階段(psychometric-structuralist testing)、心理語(yǔ)言學(xué)-社會(huì)語(yǔ)言學(xué)測(cè)試階段(psycholinguistic-sociolinguistic testing)，體現(xiàn)了語(yǔ)言觀從“知識(shí)說(shuō)”到“技能說(shuō)”、再到“交際能力說(shuō)”的轉(zhuǎn)變。20世紀(jì)末，隨著任務(wù)型教學(xué)法的發(fā)展，基于任務(wù)的語(yǔ)言測(cè)試也隨之興起，從關(guān)注語(yǔ)言能力到關(guān)注語(yǔ)言使用能力的轉(zhuǎn)變促成了測(cè)試的轉(zhuǎn)向。

作為語(yǔ)言能力最直接的外化表現(xiàn)，口語(yǔ)能力測(cè)評(píng)的重要程度不言而喻，但卻被認(rèn)為很難以一個(gè)高信效度的方式度量，原因在于口語(yǔ)的本質(zhì)是動(dòng)態(tài)的、嵌入語(yǔ)境的，同時(shí)以不同的形式(獨(dú)白、雙人對(duì)話、多人討論)存在于不同情景中。測(cè)試特征、對(duì)話者特點(diǎn)、評(píng)分方式等相關(guān)因素會(huì)影響考生表現(xiàn)，進(jìn)而影響考生的分?jǐn)?shù)。隨著漢語(yǔ)作為第二語(yǔ)言教學(xué)的興起，漢語(yǔ)口語(yǔ)能力的評(píng)價(jià)亟需一系列基于不同使用目的和需求的、高信效度的測(cè)試體系。我們統(tǒng)計(jì)了近20年來(lái)發(fā)表在期刊上的漢語(yǔ)口語(yǔ)測(cè)試相關(guān)研究，從口語(yǔ)能力界定、測(cè)試信效度、測(cè)試評(píng)分等不同方面對(duì)其進(jìn)行整理與綜述。

二、理論基礎(chǔ)

開(kāi)發(fā)和使用語(yǔ)言測(cè)試的最基本要求就是對(duì)語(yǔ)言能力有清晰明確的界定，不科學(xué)的語(yǔ)言能力觀將會(huì)對(duì)測(cè)試效度產(chǎn)生不良影響(Bachman，1990；David，1989)。就語(yǔ)言測(cè)試研發(fā)來(lái)說(shuō)，對(duì)語(yǔ)言能力的認(rèn)識(shí)與界定是其根本。Hymes(1972)將社會(huì)文化因素融入對(duì)語(yǔ)言能力的認(rèn)識(shí)，提出了面向語(yǔ)言使用的“交際能力(communicative competence)”，主要包括語(yǔ)言能力(language competence)與社會(huì)語(yǔ)言能力(sociolinguistic competence)。這一觀點(diǎn)雖然存在定義不清、沒(méi)有對(duì)應(yīng)理論框架模型的缺點(diǎn)(陳宏，1996)，但卻為后來(lái)的交際語(yǔ)言能力理論發(fā)展奠定了基礎(chǔ)。Canale & Swain(1980)用語(yǔ)法能力(grammatical competence)精確了Hymes(1972)中提到的語(yǔ)言能力(linguistic competence)，并將語(yǔ)篇能力(discourse competence)納入了理論范圍，但仍存在體系內(nèi)部松散、四種能力交互關(guān)系不明所帶來(lái)的可操作性弱的缺憾(韓寶成，2000)。Bachman(1990)在吸收前人理論的基礎(chǔ)上提出了由語(yǔ)言能力(language competence)、策略能力(strategic competence)和心理生理機(jī)制(psychophysiological mechanism)三部分組成的交際語(yǔ)言能力(communicative language ability)，CLA模型。其中語(yǔ)言能力包含篇章知識(shí)和語(yǔ)用知識(shí)；策略能力是一種心理能力(mental capacity)，通過(guò)運(yùn)用語(yǔ)言知識(shí)與現(xiàn)實(shí)世界相勾連；而生理心理機(jī)制則是交際時(shí)所涉及到的神經(jīng)和心理過(guò)程。三者之間分工合作、連接緊密，把涉及到交際過(guò)程的各種因素都融入其中，是“語(yǔ)言測(cè)試史上的里程碑”(Skehan，1992)。

從測(cè)試方法來(lái)看，直接口試和半直接口試是使用較為頻繁的形式，二者各有所長(zhǎng)。雅思口語(yǔ)考試和OPI(Oral Proficiency Interview)都是經(jīng)典的直接口試，評(píng)分標(biāo)準(zhǔn)和水平等級(jí)非常完備。HSK口試則是典型的半直接口試，考生只會(huì)接觸到測(cè)試指導(dǎo)、講話提示等刺激，不會(huì)直面考官。直接口試更適用于分級(jí)考試或課程測(cè)驗(yàn)，可模擬更真實(shí)的交際情境，但存在可行性差、評(píng)分信度不高的缺點(diǎn)；而半直接口試雖然更適合大規(guī)模標(biāo)準(zhǔn)化測(cè)試，但是卻犧牲了部分交際真實(shí)性(Stansfield，1991；柴省三，2003)。

三、相關(guān)實(shí)證研究

(一)口語(yǔ)能力

當(dāng)人們認(rèn)為語(yǔ)言運(yùn)用成為語(yǔ)言學(xué)習(xí)的最終目的，交際語(yǔ)言能力就成為核心部分(Hymes，1970，1972)。根據(jù)Bachman提出的交際語(yǔ)言能力框架(CLA)，語(yǔ)言能力、策略能力和生理心理機(jī)制都應(yīng)該是口語(yǔ)能力的組成部分。CLA的能力分項(xiàng)不同于結(jié)構(gòu)主義思想下的能力分項(xiàng)(如考察口語(yǔ)能力劃分為聲調(diào)、發(fā)音、流利度)等，前者是認(rèn)為語(yǔ)言的本質(zhì)是交際工具，而后者則認(rèn)為語(yǔ)言是一套符號(hào)系統(tǒng)。這種能力分項(xiàng)的改變體現(xiàn)了對(duì)語(yǔ)言認(rèn)識(shí)的不斷深入。

劉頌浩等(2002)通過(guò)對(duì)比漢語(yǔ)學(xué)習(xí)者與漢語(yǔ)母語(yǔ)者在圖片描述任務(wù)中的信息點(diǎn)覆蓋數(shù)量和語(yǔ)言表達(dá)形式來(lái)推測(cè)交際策略的使用和語(yǔ)言水平之間的關(guān)系，發(fā)現(xiàn)學(xué)習(xí)者語(yǔ)言水平越低，就越傾向于采用減縮策略，而水平越高，就越傾向于采用成就策略；從語(yǔ)言形式上看，水平越高的學(xué)生越傾向于采用復(fù)雜的語(yǔ)言形式。但作者認(rèn)為這些差別不足以作為劃分口語(yǔ)水平的方式，原因在于區(qū)分程度不夠，沒(méi)有統(tǒng)一簡(jiǎn)明的標(biāo)準(zhǔn)。

漢語(yǔ)口語(yǔ)能力測(cè)試的發(fā)展正在經(jīng)歷著語(yǔ)言能力認(rèn)識(shí)的轉(zhuǎn)變。王佶旻(2002)在探討客觀化評(píng)分效度時(shí)使用了發(fā)音、語(yǔ)法、流利性分項(xiàng)評(píng)分和總體評(píng)分兩種模式。在結(jié)論部分，她探討了將口語(yǔ)水平定義為發(fā)音、語(yǔ)法、流利性三個(gè)維度是否科學(xué)的問(wèn)題，她意識(shí)到這是關(guān)于“語(yǔ)言能力究竟是單維的還是多維的”的問(wèn)題，關(guān)鍵在于分項(xiàng)評(píng)分的基礎(chǔ)是仍舊是結(jié)構(gòu)主義思想，而總體評(píng)分更傾向于將語(yǔ)言當(dāng)作一個(gè)整體，不可劃分。

在后續(xù)研究中，王佶旻(2008)重新思考口語(yǔ)能力的本質(zhì)，將口語(yǔ)能力定義為“在口頭渠道運(yùn)用語(yǔ)言的能力”，并構(gòu)建出了以“聽(tīng)-說(shuō)模式的口語(yǔ)表達(dá)能力”和“獨(dú)白模式的口語(yǔ)表達(dá)能力”為子模式的口語(yǔ)能力測(cè)驗(yàn)的理論模式，短語(yǔ)、句子、語(yǔ)段成為表達(dá)的三種形式，兩種子模式與三種形式相互作用。作者對(duì)275名初級(jí)漢語(yǔ)學(xué)習(xí)者進(jìn)行半直接式口語(yǔ)測(cè)試，“聽(tīng)-說(shuō)模式”渠道通過(guò)快速問(wèn)答和圖片比較進(jìn)行驗(yàn)證，形式以短語(yǔ)、句子為主，“獨(dú)白模式”渠道通過(guò)聽(tīng)后重復(fù)和看圖說(shuō)話模式進(jìn)行驗(yàn)證，形式以句子、語(yǔ)段為主。經(jīng)過(guò)探索性因素分析和驗(yàn)證性因素分析發(fā)現(xiàn)實(shí)驗(yàn)數(shù)據(jù)與理論模型擬合程度良好(NFI、CFI、NNFI、GFI、AGFI均大于0.9)。通過(guò)與Rivers和Temperley(1978)、Littlewood(1981)、Bygate(1987)所提出的三種語(yǔ)言能力模型進(jìn)行對(duì)比，發(fā)現(xiàn)區(qū)分雙向互動(dòng)與單項(xiàng)表達(dá)共存是其共同之處，這與作者所提出的“聽(tīng)—說(shuō)模式”與“獨(dú)白模式”不謀而合。這種雙向模式的建立體現(xiàn)出了作者逐步擺脫了結(jié)構(gòu)主義思想的限制，但仍未針對(duì)語(yǔ)言的交際屬性提出相應(yīng)的能力模式。

隨著任務(wù)型教學(xué)法在對(duì)外漢語(yǔ)教學(xué)實(shí)踐中的廣泛應(yīng)用，王佶旻(2013)從區(qū)分情境模式、語(yǔ)言表現(xiàn)和交際策略三個(gè)方面入手描寫學(xué)習(xí)者的口語(yǔ)能力，嘗試建立與歐洲語(yǔ)言共同參考框架(CEFR)相匹配的語(yǔ)言能力框架，并以中級(jí)口語(yǔ)能力量表為例展示了構(gòu)建過(guò)程。這個(gè)量表展現(xiàn)出了任務(wù)型測(cè)試的特征，采用的描述語(yǔ)更注重對(duì)“能做(can do)”的表述，展現(xiàn)出了語(yǔ)言能力觀的發(fā)展。

鄒鵬(2016)分析了OPI口語(yǔ)能力評(píng)價(jià)量表，發(fā)現(xiàn)其對(duì)于語(yǔ)言能力等級(jí)評(píng)估標(biāo)準(zhǔn)包括“總體任務(wù)與功能”“語(yǔ)境及內(nèi)容”“準(zhǔn)確性”和“語(yǔ)言類型”多個(gè)方面。面對(duì)當(dāng)前漢語(yǔ)口語(yǔ)教學(xué)仍舊停留在“語(yǔ)音”“詞匯”“語(yǔ)法”層面的情況，作者指出引入新的能力評(píng)估標(biāo)準(zhǔn)將對(duì)口語(yǔ)教學(xué)產(chǎn)生正面的反撥作用。他將OPI測(cè)試流程與口語(yǔ)課堂教學(xué)過(guò)程對(duì)應(yīng)起來(lái)，強(qiáng)調(diào)通過(guò)教師的角色轉(zhuǎn)換刺激學(xué)生的語(yǔ)言輸出，同時(shí)培養(yǎng)交際能力，提供符合語(yǔ)言使用情景的反饋。

對(duì)于語(yǔ)言能力的認(rèn)識(shí)會(huì)影響語(yǔ)言教學(xué)與語(yǔ)言測(cè)試。從語(yǔ)言學(xué)習(xí)的最終目的來(lái)看，重視交際語(yǔ)言能力的培養(yǎng)才是最有效的方式。學(xué)界對(duì)于口語(yǔ)能力的認(rèn)識(shí)正在朝著正確的方向轉(zhuǎn)變，在教學(xué)實(shí)踐和測(cè)試構(gòu)念中皆有所體現(xiàn)?！缎聺h語(yǔ)水平考試大綱HSK口試》中就指出“新HSK是一項(xiàng)國(guó)際漢語(yǔ)能力標(biāo)準(zhǔn)化考試，重點(diǎn)考察漢語(yǔ)非第一語(yǔ)言的考生在生活、學(xué)習(xí)和工作中運(yùn)用漢語(yǔ)進(jìn)行交際的能力”。

(二)測(cè)試任務(wù)

任務(wù)型測(cè)試是因任務(wù)型教學(xué)法測(cè)量學(xué)生完成目標(biāo)能力的需求而興起的，它更強(qiáng)調(diào)測(cè)試方式及評(píng)價(jià)標(biāo)準(zhǔn)的真實(shí)性，以確保學(xué)習(xí)者能夠使用語(yǔ)言而非僅僅知道一些規(guī)則和詞匯。語(yǔ)言測(cè)試對(duì)決策起到重要的支撐作用，因此要重視任務(wù)與現(xiàn)實(shí)之間連接關(guān)系，同時(shí)也要處理好任務(wù)理念與語(yǔ)言測(cè)試之間的接口問(wèn)題。Bachman & Palmer(1996)提出了“語(yǔ)言使用任務(wù)(language use task)”，是指“在特定場(chǎng)景下人們運(yùn)用語(yǔ)言實(shí)現(xiàn)某一特定目標(biāo)或達(dá)到某一特殊目的的活動(dòng)”，這一定義強(qiáng)調(diào)了語(yǔ)言使用、特定場(chǎng)景和特定目標(biāo)三個(gè)方面。同時(shí)，Bachman & Palmer指出他們所提的“任務(wù)”既可以指測(cè)試環(huán)境下的語(yǔ)言任務(wù)，也可以包括用于教學(xué)、生活等各個(gè)方面的語(yǔ)言任務(wù)。這個(gè)定義突出了測(cè)試任務(wù)的真正意義——來(lái)源于現(xiàn)實(shí)交際，反映現(xiàn)實(shí)需求。

任務(wù)型測(cè)試還存在著許多問(wèn)題，如在測(cè)試控制條件內(nèi)哪些任務(wù)和相關(guān)語(yǔ)言使用情景能夠被充分模擬、評(píng)價(jià)測(cè)試表現(xiàn)的真實(shí)性標(biāo)準(zhǔn)、評(píng)價(jià)任務(wù)表現(xiàn)時(shí)的評(píng)分員信度、構(gòu)念表征和難度等級(jí)視角下的任務(wù)可比性、作為測(cè)試設(shè)計(jì)基礎(chǔ)的任務(wù)的普遍適用性和衍生限制以及創(chuàng)制、任務(wù)型測(cè)試的可行性和經(jīng)濟(jì)性問(wèn)題。但這些問(wèn)題不僅僅存在于以任務(wù)型測(cè)試中，評(píng)分員信度、難度可比性等問(wèn)題在大多數(shù)主觀性測(cè)試中都存在，因此不能因?yàn)檫@些問(wèn)題就否認(rèn)以任務(wù)型測(cè)試對(duì)于真實(shí)語(yǔ)言使用能力表現(xiàn)抽樣和評(píng)價(jià)的優(yōu)點(diǎn)。目前，漢語(yǔ)學(xué)界對(duì)于任務(wù)型教學(xué)法的研究正在如火如荼地展開(kāi)，但是與之配套的語(yǔ)言測(cè)試的研發(fā)和使用卻稍顯不足。相關(guān)研究主要關(guān)注任務(wù)體裁、任務(wù)編制與任務(wù)難度。

任務(wù)難度有別于傳統(tǒng)的題目難度，它不能用計(jì)算統(tǒng)計(jì)難度的公式進(jìn)行計(jì)算，需要采取新的方法(Davies et al.，1999)。為更好地衡量任務(wù)難度，王佶旻(2013)編制了包含35條能做描述、7條口語(yǔ)交際策略和10條語(yǔ)言表現(xiàn)評(píng)價(jià)標(biāo)準(zhǔn)在內(nèi)的中級(jí)口語(yǔ)能力量表，采用多級(jí)積分的Rasch模型(RSM)來(lái)估算描述語(yǔ)的任務(wù)難度，得出其所設(shè)計(jì)的由52條描述語(yǔ)所組成的量表信度、區(qū)分度很高。

聶丹(2012)基于話語(yǔ)體裁對(duì)任務(wù)難度的影響建立了體裁難度量表。作者認(rèn)為敘述、描寫、說(shuō)明、議論體裁四分法不足以“反映題材內(nèi)部認(rèn)知活動(dòng)的復(fù)雜類型”，因此將四大體裁與認(rèn)知目標(biāo)分類相結(jié)合進(jìn)行難度排序，通過(guò)感知調(diào)查與實(shí)際問(wèn)答兩種方式制定了體裁難度5級(jí)分?jǐn)?shù)量表：“敘述、描寫”難度值為1，非常容易；“說(shuō)明—類舉、說(shuō)明—比較”難度值為2，比較容易；“說(shuō)明—闡釋”難度值為3，一般；“議論—測(cè)評(píng)”難度值為4，比較難；“議論—論說(shuō)、說(shuō)明—決策”難度值為5，非常難。但我們認(rèn)為作者對(duì)于體裁的劃分仍然不夠詳細(xì)。Eggins & Slade(1997)將口語(yǔ)體裁分為主題明確的語(yǔ)塊體裁和無(wú)固定主題的閑談體裁，其中語(yǔ)塊體裁對(duì)應(yīng)的是聶丹(2012)所提到的以口語(yǔ)模態(tài)呈現(xiàn)的書(shū)面體裁，對(duì)于閑談體裁，作者卻沒(méi)有涉及?？赡苡捎谧髡呤峭ㄟ^(guò)對(duì)C.TEST面試型口語(yǔ)測(cè)試任務(wù)進(jìn)行抽樣分析，受限于試題的類型數(shù)量，但這也反映出測(cè)試研發(fā)階段的不足之處。

翟艷(2012)針對(duì)任務(wù)型教學(xué)理念和模式提出了新的口語(yǔ)測(cè)試方案。她以意義原則、目的原則、真實(shí)性原則、做事原則、信息交流原則和結(jié)果原則6個(gè)原則為根本依據(jù)，概括出了任務(wù)型語(yǔ)言測(cè)試的動(dòng)態(tài)、雙向、主動(dòng)、明晰、自由、多維的6個(gè)形式特征，制定了“以任務(wù)為載體、以互動(dòng)為交流方式”的測(cè)試形式及評(píng)分方法，考察以往試題的任務(wù)特征，形成了包含熱身、進(jìn)入、展開(kāi)、結(jié)束和反饋4個(gè)步驟的任務(wù)型口語(yǔ)測(cè)試。作者指出，目前大多數(shù)口語(yǔ)試題仍然停留在結(jié)構(gòu)主義影響下的語(yǔ)言測(cè)試的階段，需要面向新的教學(xué)理念、教學(xué)需求不斷改進(jìn)測(cè)評(píng)方式。

王爽、王佶旻(2020)分析了TOEIC口語(yǔ)考試，認(rèn)為“以證據(jù)為中心”的評(píng)價(jià)模式(evidenced-centered design，ECD)框架下的領(lǐng)域分析、領(lǐng)域建模、概念性評(píng)價(jià)框架、評(píng)價(jià)執(zhí)行和評(píng)價(jià)發(fā)布5個(gè)層次指導(dǎo)了TOEIC口語(yǔ)考試研發(fā)的整個(gè)過(guò)程，同時(shí)其口語(yǔ)任務(wù)設(shè)計(jì)及模型框架為實(shí)際操作提供了固定范式?；诖耍髡邔?duì)漢語(yǔ)口語(yǔ)測(cè)試進(jìn)行了反思，提出口語(yǔ)能力的界定和細(xì)化是任務(wù)設(shè)計(jì)的基礎(chǔ)，在設(shè)計(jì)時(shí)要考慮漢語(yǔ)的特點(diǎn)；同時(shí)任務(wù)設(shè)計(jì)一定要注重與口語(yǔ)能力構(gòu)想的關(guān)聯(lián)性，詳盡列出子能力的證據(jù)來(lái)源，在任務(wù)具體化過(guò)程中要體現(xiàn)出任務(wù)特征，使命題和評(píng)分更有邏輯。

基于交際語(yǔ)言測(cè)試相關(guān)理論，郭修敏(2017)為凸顯小規(guī)模直接口試交際性、互動(dòng)性、真實(shí)性的優(yōu)勢(shì)，對(duì)漢語(yǔ)口試命題及施測(cè)過(guò)程提出改進(jìn)的建議。她認(rèn)為應(yīng)該對(duì)題目進(jìn)行調(diào)整，剔除“朗讀”等單項(xiàng)表達(dá)型試題，增加“角色扮演”類試題，保留“回答問(wèn)題”類題型，在整個(gè)口試過(guò)程中要既包含交際性口試、又包含結(jié)構(gòu)性口試；同時(shí)要改進(jìn)“口頭報(bào)告”題型，控制話題的綜合性及難易程度；要改變?cè)u(píng)分制度，重視口語(yǔ)測(cè)試成績(jī)對(duì)與教學(xué)的正面反撥作用，重視對(duì)學(xué)生的口語(yǔ)交際能力的培養(yǎng)。

(三)測(cè)試評(píng)分

作為測(cè)試記錄本身和解讀的依據(jù)，測(cè)試評(píng)分為測(cè)試研發(fā)者和利益相關(guān)者提供用來(lái)解讀考生語(yǔ)言能力最基礎(chǔ)、同時(shí)也是最顯著的信息(Bachman，2010)。從評(píng)分方法上看，口語(yǔ)測(cè)試評(píng)分可分為主觀評(píng)分和客觀評(píng)分，前者主要包含分項(xiàng)等級(jí)評(píng)分和總體等級(jí)評(píng)分，后者主要包括0/1評(píng)分和機(jī)器評(píng)分。在自動(dòng)信息處理技術(shù)成熟之前，口語(yǔ)測(cè)試主要采用主觀評(píng)分的方式，但隨著相關(guān)技術(shù)的成熟，一些考試開(kāi)始采用客觀化評(píng)分的手段，以減少評(píng)分員誤差對(duì)于測(cè)試信度的影響、提高測(cè)試效率及經(jīng)濟(jì)性(郭修敏，2017)。對(duì)于主觀性考試，評(píng)分員在評(píng)分中起到了關(guān)鍵性作用，需要依據(jù)評(píng)分標(biāo)準(zhǔn)對(duì)考生表現(xiàn)進(jìn)行解釋。因此，閱卷人評(píng)分誤差將會(huì)對(duì)測(cè)試信度產(chǎn)生影響(趙琪鳳，2012)。

柴省三(2003)從評(píng)分一致性和準(zhǔn)確性兩個(gè)維度對(duì)HSK(高等)口試評(píng)分標(biāo)準(zhǔn)進(jìn)行研究。為考察組間一致性，作者請(qǐng)四組評(píng)分員對(duì)20名學(xué)生的口試樣本進(jìn)行評(píng)分，計(jì)算共時(shí)組間與組內(nèi)的肯德?tīng)柡椭C系數(shù)W值，發(fā)現(xiàn)組間組內(nèi)評(píng)分結(jié)果有較高一致性；為考察歷時(shí)一致性，作者請(qǐng)四組評(píng)分員間隔6個(gè)月為相同的40名考生進(jìn)行評(píng)分，兩次評(píng)分結(jié)果相關(guān)系數(shù)較高，均達(dá)到顯著相關(guān)水平。為考察分類一致性，作者將40名被試的客觀題評(píng)分與其口語(yǔ)評(píng)分進(jìn)行頻數(shù)分析，最后發(fā)現(xiàn)兩個(gè)結(jié)果基本符合正態(tài)分布，但口語(yǔ)評(píng)分結(jié)果區(qū)分度不夠明顯，呈現(xiàn)出“中央趨勢(shì)”。該研究表明HSK(高等)口試評(píng)分信度符合標(biāo)準(zhǔn)化考試的要求。

趙琪鳳(2012)采用概化理論中隨機(jī)單面嵌套r：p設(shè)計(jì)的G研究與隨機(jī)單面嵌套r：p的D研究?jī)煞N計(jì)算方法考察了六種不同題型組合下測(cè)試員評(píng)分信度情況。G研究結(jié)果表明只評(píng)議論性話題能夠更好地體現(xiàn)測(cè)量目標(biāo)，D研究結(jié)果顯示，綜合評(píng)價(jià)三類題目的測(cè)量信息信度最高，只評(píng)價(jià)議論性話題緊隨其后，信度最低的組合為綜合朗讀和問(wèn)答一評(píng)分。實(shí)驗(yàn)驗(yàn)證了評(píng)分信度會(huì)受到題目類型的影響，作者指出說(shuō)明與議論性題目能夠更好地區(qū)分高水平學(xué)生，在教學(xué)實(shí)踐中要加大議論、辯論類題目的練習(xí)。

為擺脫主觀評(píng)分的局限，王佶旻(2002)對(duì)問(wèn)答、重復(fù)句子、口頭評(píng)價(jià)三種題型分別采用0/1制評(píng)分、總體等級(jí)評(píng)分與分項(xiàng)(發(fā)音、語(yǔ)法、流利性)客觀化評(píng)分進(jìn)行打分，將原始數(shù)據(jù)轉(zhuǎn)換為非線性T分?jǐn)?shù)后進(jìn)行信度檢驗(yàn)和效標(biāo)關(guān)聯(lián)效度檢驗(yàn)。信度檢驗(yàn)結(jié)果表明，兩種評(píng)分標(biāo)準(zhǔn)均具有較高的評(píng)分信度。可能受到參與者異質(zhì)性程度低影響，效標(biāo)關(guān)聯(lián)效度檢驗(yàn)中0/1制評(píng)分、總體等級(jí)評(píng)分與HSK總分的相關(guān)性均低于分項(xiàng)客觀化評(píng)分與HSK總分的相關(guān)性。對(duì)于構(gòu)念效度的檢驗(yàn)，作者采用多種成分多重方法(Multicomponent-Multimethod，MCMM)考察五種評(píng)分方法的構(gòu)念效度，發(fā)現(xiàn)構(gòu)念效度由高到低排序呈現(xiàn)問(wèn)答>重復(fù)句子>口頭評(píng)價(jià)。

為減少評(píng)分員誤差，郭修敏(2016)試圖通過(guò)構(gòu)建評(píng)分員培訓(xùn)體系提高測(cè)試信度。作者構(gòu)建了評(píng)分員培訓(xùn)體系的步驟，并對(duì)比接受過(guò)培訓(xùn)和未接受培訓(xùn)的兩組評(píng)分員評(píng)價(jià)分?jǐn)?shù)與考生其他學(xué)業(yè)成績(jī)的相關(guān)性，發(fā)現(xiàn)受訓(xùn)組嚴(yán)厲度上升、評(píng)出的口語(yǔ)成績(jī)與效標(biāo)的相關(guān)程度更高，評(píng)分更能準(zhǔn)確有效地反映考生的口語(yǔ)能力。因此，該培訓(xùn)體系能夠達(dá)到較為理想的效果，能夠減輕評(píng)分者誤差。

(四)效度研究

效度定義的發(fā)展經(jīng)歷了從單一概念到種類概念、再到整體概念的歷程，構(gòu)念效度的提出將各種分類效度加以整合，形成科學(xué)、融合的觀念。對(duì)于語(yǔ)言測(cè)試研發(fā)及其效度驗(yàn)證，Bachman(2005，2006，2010)提出了測(cè)試用途論證框架(Assessment Use Argument，AUA)，展現(xiàn)出鮮明的完整效度觀。測(cè)試的開(kāi)發(fā)和解釋與使用都需要5個(gè)步驟：(基于測(cè)試任務(wù)的)考生表現(xiàn)、測(cè)試記錄(分?jǐn)?shù)、描述)、(語(yǔ)言能力的)解釋、決策、后果。AUA框架從自上而下和自下而上兩個(gè)方向分別實(shí)現(xiàn)了測(cè)試的開(kāi)發(fā)和驗(yàn)證過(guò)程，每一步驟互為結(jié)論、互為理?yè)?jù)。從整個(gè)框架來(lái)看，每一步驟都是不可或缺的一部分，都會(huì)對(duì)整個(gè)測(cè)試產(chǎn)生重大影響。但漢語(yǔ)口語(yǔ)測(cè)試效度驗(yàn)證的理念仍然停留在分類效度層面，整體效度觀還沒(méi)有形成。

趙琪鳳(2011)為了提高考試效率、精簡(jiǎn)考試題目，探討了高等漢語(yǔ)水平考試口試題目類型和題目數(shù)量的效標(biāo)關(guān)聯(lián)效度。作者將考生的客觀題、聽(tīng)力題及作文得分作為內(nèi)部效標(biāo)，將平時(shí)成績(jī)、教師評(píng)分和排序作為外部效標(biāo)，考察六種處理水平下口試試題得分和考生實(shí)際的口試得分與內(nèi)、外效標(biāo)之間的關(guān)聯(lián)效度，發(fā)現(xiàn)六種處理水平下口試試題得分均與內(nèi)部效標(biāo)有較高關(guān)聯(lián)，但除了處理五(只評(píng)朗讀和問(wèn)答第二題，給出口試得分)外，其他水平與外部效標(biāo)相關(guān)性都不高，所以作者認(rèn)為只考察朗讀和問(wèn)答題2足以有效地評(píng)價(jià)考生的口語(yǔ)水平。

北京大學(xué)和培生公司(Pearson)聯(lián)合開(kāi)發(fā)了自動(dòng)化漢語(yǔ)口語(yǔ)考試(Spoken Chinese Test，SCT)，李曉琪、李靖華(2014)從測(cè)試信度、內(nèi)部結(jié)構(gòu)和外在效標(biāo)三步對(duì)SCT的有效性進(jìn)行了檢驗(yàn)。由于SCT屬于計(jì)算機(jī)化口語(yǔ)考試，不存在評(píng)分員誤差，作者就通過(guò)對(duì)測(cè)試評(píng)分進(jìn)行了歷時(shí)信度評(píng)估，發(fā)現(xiàn)總分與子分?jǐn)?shù)信度均較高。從內(nèi)部結(jié)構(gòu)看，作者將五個(gè)子能力的相關(guān)性做了描述統(tǒng)計(jì)，表明語(yǔ)言表達(dá)形式(發(fā)音、聲調(diào)、流利度)與語(yǔ)言表達(dá)內(nèi)容(詞匯、語(yǔ)法)之間關(guān)聯(lián)系數(shù)較低，但是兩方面內(nèi)部關(guān)聯(lián)系數(shù)較高，且通過(guò)主成分分析法發(fā)現(xiàn)存在一個(gè)主要因素，即漢語(yǔ)口語(yǔ)表達(dá)能力。作者還將OPI與HSK口試作為外在效標(biāo)，發(fā)現(xiàn)三者成績(jī)顯著相關(guān)，說(shuō)明它們考察的是同一特質(zhì)變量。最終驗(yàn)證了SCT測(cè)試的有效性和可靠性。

(五)測(cè)試參與者

作為語(yǔ)言測(cè)試中的重要角色，測(cè)試參與者特征對(duì)于測(cè)試的影響也值得關(guān)注。王佶旻(2007)擴(kuò)充了Bachman & Palmer(1996)提出的在第二語(yǔ)言測(cè)驗(yàn)中應(yīng)該考慮的6類個(gè)人背景因素，分析了留學(xué)生性別、年齡、學(xué)習(xí)目的、國(guó)別、母語(yǔ)背景、教育背景、職業(yè)背景、華裔家庭背景8類個(gè)體背景因素與口語(yǔ)測(cè)驗(yàn)表現(xiàn)之間的關(guān)系，發(fā)現(xiàn)年齡、國(guó)別和華裔家庭背景3項(xiàng)對(duì)口語(yǔ)測(cè)驗(yàn)表現(xiàn)有顯著影響，青年組、歐美學(xué)生組、華裔學(xué)生組各分測(cè)驗(yàn)表現(xiàn)均優(yōu)于其他組別組學(xué)生；而性別、學(xué)習(xí)目的、受教育程度和母語(yǔ)背景5項(xiàng)因素對(duì)口語(yǔ)測(cè)驗(yàn)表現(xiàn)無(wú)顯著影響。

四、結(jié)語(yǔ)

從結(jié)構(gòu)主義思想到重視語(yǔ)言的交際功能，再到任務(wù)型教學(xué)法的興起，語(yǔ)言測(cè)試也發(fā)生從結(jié)構(gòu)主義語(yǔ)言測(cè)試到交際語(yǔ)言測(cè)試再到基于任務(wù)的語(yǔ)言測(cè)試的轉(zhuǎn)向(文秋芳，1999；韓寶成，2003)。對(duì)于漢語(yǔ)口語(yǔ)測(cè)試的研究涵蓋了口語(yǔ)能力、測(cè)試任務(wù)、測(cè)試評(píng)分、測(cè)試參與者與效度研究，但仍存在可以繼續(xù)探索之處。

首先，教學(xué)中的形成性評(píng)價(jià)關(guān)注不夠。Bachman & Palmer(2010)將課堂語(yǔ)言測(cè)試分為隱性模式和顯性模式兩種。隱性模式主要指“評(píng)價(jià)—決策—教學(xué)—評(píng)價(jià)—決策—教學(xué)”等步驟循環(huán)進(jìn)行的形成性評(píng)價(jià)，教師會(huì)通過(guò)測(cè)試做出決定調(diào)整自己的講授、解釋、重復(fù)來(lái)促進(jìn)教學(xué)。顯性教學(xué)模式主要用來(lái)進(jìn)行以診斷為目的的形成性評(píng)價(jià)和以判斷能力水平為目的的總結(jié)性評(píng)價(jià)。課堂中的測(cè)試為語(yǔ)言教學(xué)起到了重要的支撐作用。在漢語(yǔ)口語(yǔ)測(cè)試研究中，主要關(guān)注的都是大規(guī)模、高利害測(cè)試，對(duì)于課堂中為語(yǔ)言教學(xué)服務(wù)的形成性評(píng)價(jià)研究重視程度不夠。其次，對(duì)直觀的測(cè)試評(píng)分關(guān)注較多，對(duì)評(píng)分解讀關(guān)注較少。作為決策信息來(lái)源的一體兩面，測(cè)試評(píng)分和評(píng)分解讀的受關(guān)注程度卻并不均衡。而作為AUA框架的中間環(huán)節(jié)，評(píng)分解讀起著承上啟下的重要作用，如果不能根據(jù)合理的解讀做出決策，測(cè)試的意義將會(huì)大打折扣，因此還需要繼續(xù)關(guān)注這一環(huán)節(jié)。

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放