王 珊 ,劉卓瑛
(1.海南師范大學(xué)外國(guó)語(yǔ)學(xué)院,海南???571158;2.張家口職業(yè)技術(shù)學(xué)院,河北張家口 075051)
?
英語(yǔ)口語(yǔ)測(cè)試信度對(duì)比研究
王 珊1,劉卓瑛2
(1.海南師范大學(xué)外國(guó)語(yǔ)學(xué)院,海南???571158;2.張家口職業(yè)技術(shù)學(xué)院,河北張家口 075051)
通過對(duì)比計(jì)算機(jī)輔助口試和傳統(tǒng)面試型口試在內(nèi)容信度、實(shí)施信度和評(píng)分信度方面研究發(fā)現(xiàn):在內(nèi)容信度一致的情況下,計(jì)算機(jī)輔助口試的實(shí)施信度和評(píng)分信度明顯高于面試型口試。機(jī)試兩位評(píng)分老師的評(píng)分相關(guān)系數(shù)為0.889,高于口試0.762的相關(guān)。同時(shí),問卷調(diào)查顯示63.09%的學(xué)生認(rèn)為口語(yǔ)機(jī)考不存在評(píng)分老師的印象分,因此更加公正。
計(jì)算機(jī)輔助口語(yǔ)機(jī)考;面試型口語(yǔ)考試;信度
隨著我國(guó)改革開放的不斷深入,我們與國(guó)際社會(huì)在政治、經(jīng)濟(jì)、文化等領(lǐng)域進(jìn)一步擴(kuò)大交流,對(duì)能夠嫻熟使用外語(yǔ)進(jìn)行口頭交流的人才需求日益增加。因此,外語(yǔ)口語(yǔ)測(cè)試具有重大的實(shí)際意義。金艷(2000)指出口語(yǔ)測(cè)試對(duì)口語(yǔ)教學(xué)有極強(qiáng)的“指揮棒”作用,科學(xué)的口語(yǔ)能力測(cè)試能夠推動(dòng)口語(yǔ)教學(xué)向著正確的方向發(fā)展。蔡基剛(2005)更進(jìn)一步指出大學(xué)英語(yǔ)四、六級(jí)口試不僅對(duì)大學(xué)英語(yǔ)教學(xué)產(chǎn)生影響,甚至對(duì)中、小學(xué)英語(yǔ)教學(xué)也起到指揮棒的作用。雖然大學(xué)英語(yǔ)四、六級(jí)考試委員會(huì)早在1999年就開始實(shí)行了四、六級(jí)口語(yǔ)考試,但是由于存在考試信度、效度、師資、時(shí)間、費(fèi)用等諸多問題,大學(xué)英語(yǔ)口語(yǔ)測(cè)試一直難以大規(guī)模推廣普及(周忠新,2007)。2005年2月,國(guó)家四、六級(jí)考試委員會(huì)在正式出臺(tái)的《全國(guó)大學(xué)英語(yǔ)四、六級(jí)考試改革方案(試行)》中明確提出“將積極研究開發(fā)計(jì)算機(jī)口語(yǔ)測(cè)試,以進(jìn)一步擴(kuò)大口語(yǔ)考試規(guī)?!?。計(jì)算機(jī)輔助英語(yǔ)口語(yǔ)測(cè)試能否在保證測(cè)試信度和效度的前提下使英語(yǔ)口試得以大規(guī)模的實(shí)施,并使口語(yǔ)測(cè)試的反撥作用得以充分發(fā)揮成為當(dāng)今國(guó)內(nèi)外語(yǔ)教學(xué)研究的熱點(diǎn)之一。
信度表示口語(yǔ)測(cè)試結(jié)果的穩(wěn)定性,即同一考生在不同測(cè)試條件下測(cè)試結(jié)果應(yīng)當(dāng)是一致的。測(cè)試的信度與效度之間存在著密切的關(guān)系,但是需要說明的是這種關(guān)系是單方向的。信度低則效度差,而效度差信度不一定低,即口語(yǔ)測(cè)試的高信度是高效度的保障(劉潤(rùn)清,1991:19)??谠囆哦戎饕▋?nèi)容信度、實(shí)施信度和評(píng)分信度。在外語(yǔ)口語(yǔ)測(cè)試中,評(píng)分信度一直受到研究者的密切關(guān)注。因?yàn)榭脊賹?duì)評(píng)分誤差的控制在很大程度上決定了口試的信度,誤差越大,信度越低,反之亦然。實(shí)行多人對(duì)同一考生打分可以消除評(píng)分誤差,提高口試信度。另外,口試信度還受到考官對(duì)評(píng)分標(biāo)準(zhǔn)的理解和把握。二語(yǔ)口語(yǔ)測(cè)試中常用的評(píng)分標(biāo)準(zhǔn)有三種:分析評(píng)分法(analytic scoring)、綜合評(píng)分法(holistic scoring)和任務(wù)分項(xiàng)評(píng)分法(item analytic scoring)。第一種方法是指考官對(duì)考生的口語(yǔ)水平的不同維度進(jìn)行評(píng)分,例如考生的語(yǔ)音、語(yǔ)法、流利程度等維度分項(xiàng)打分,然后依據(jù)各個(gè)分項(xiàng)得分算出總分。第二種評(píng)分方法是考官按照一定的評(píng)分準(zhǔn)則根據(jù)自己對(duì)考生口語(yǔ)水平的總體印象進(jìn)行打分。這種評(píng)分方式的特點(diǎn)是速度快,適用于大規(guī)模的口語(yǔ)考試。第三種評(píng)分方法是考官對(duì)考生完成每項(xiàng)任務(wù)完成情況進(jìn)行打分,例如內(nèi)容、語(yǔ)言表達(dá)等??偡指鶕?jù)每項(xiàng)任務(wù)完成的得分計(jì)算得出。呂長(zhǎng)竑等(2008)比較研究了這三種口語(yǔ)測(cè)試常用的評(píng)分標(biāo)準(zhǔn)。他們發(fā)現(xiàn)分析評(píng)分法的效度和信度最高,但是要求授權(quán)考官必須經(jīng)過嚴(yán)格的閱卷培訓(xùn)。就大學(xué)英語(yǔ)口語(yǔ)實(shí)施的實(shí)際情況而言,綜合評(píng)分標(biāo)準(zhǔn)最符合這種大規(guī)模口試可操作性較強(qiáng)、效度和信度較高的評(píng)分要求。
Clark(1975)最早將口語(yǔ)分為直接型口試和間接型口試。直接型口試又稱面試型口試(Oral Proficiency Interview簡(jiǎn)稱OPI),具有較高的表面效度,可以較為真實(shí)地測(cè)試學(xué)生的交際能力,但評(píng)分信度通常較低。間接型口試也稱錄音考試(Simulated Oral Proficiency Interview簡(jiǎn)稱SOPI),利用磁帶方式錄音,實(shí)行評(píng)分和考試分開,因此信度高于面試型口試。國(guó)內(nèi)金艷和郭杰克(2002)在探索磁帶錄音式口試時(shí)發(fā)現(xiàn)錄音考試考官的評(píng)分相關(guān)為0.835,評(píng)分信度比較令人滿意。隨著科技的不斷進(jìn)步,口語(yǔ)考試形式現(xiàn)在正在向計(jì)算機(jī)輔助口試(Computer-based Oral Proficiency Test 簡(jiǎn)稱COPT)方向發(fā)展。COPT通過計(jì)算機(jī)來(lái)提供聲音、 圖像及視頻,讓考生按照指令回答問題,考試結(jié)束后計(jì)算機(jī)自動(dòng)記錄并存儲(chǔ)考生回答,考官則根據(jù)所錄音頻或錄像來(lái)給予評(píng)分。蔡基剛(2005)研究結(jié)果表明計(jì)算機(jī)口試無(wú)論在效度和信度方面都超過四、六級(jí)面試型口試;在考試成本上也有較大的降低。
本文主要通過對(duì)比面試型口試與計(jì)算機(jī)輔助機(jī)試兩種測(cè)試方式在內(nèi)容信度、實(shí)施信度和評(píng)分信度的差異,研究后者能否取代前者的可行性,為實(shí)現(xiàn)大規(guī)模英語(yǔ)口試提供實(shí)證研究依據(jù)。
本研究的對(duì)象是海南師范大學(xué)二年級(jí)非英語(yǔ)專業(yè)學(xué)生和參加評(píng)分的老師。考生熟悉傳統(tǒng)的面對(duì)面型口語(yǔ)測(cè)試方式和計(jì)算機(jī)輔助機(jī)試,本次口語(yǔ)考試成績(jī)將計(jì)入期末總評(píng)成績(jī),因此考生十分重視本次口試。
4.1 內(nèi)容信度
考試內(nèi)容的長(zhǎng)度、難度與區(qū)分度是影響內(nèi)容信度的三個(gè)因素(Bachman,1999)。從理論上說,測(cè)試內(nèi)容覆蓋面越廣,時(shí)間長(zhǎng)度越長(zhǎng),測(cè)試信度越高。本次期末口語(yǔ)考試的題型為回答問題,測(cè)試內(nèi)容是視聽課堂所學(xué)過的知識(shí),試題題庫(kù)于考前一周公布,要求學(xué)生對(duì)每個(gè)問題做好充分的準(zhǔn)備,考試時(shí)隨機(jī)發(fā)放試題。這樣避免了考生對(duì)某一考題準(zhǔn)備充分得高分而對(duì)另一話題沒準(zhǔn)備而得分的情況,從而提高了口語(yǔ)測(cè)試的內(nèi)容信度。考生首先在語(yǔ)音實(shí)驗(yàn)室參加機(jī)試,錄音由外教社大學(xué)英語(yǔ)口語(yǔ)考試系統(tǒng)自動(dòng)收取并存儲(chǔ),教師給音頻錄音評(píng)分??荚嚱Y(jié)束兩天后,我們從參加機(jī)考的全年級(jí)中隨機(jī)抽取了一個(gè)班41名考生使用傳統(tǒng)的面對(duì)面考試形式對(duì)他們?cè)俅芜M(jìn)行了口語(yǔ)測(cè)試,題型和考題內(nèi)容不變,考生采用抽簽的方式進(jìn)行傳統(tǒng)的面試型口試。因此,兩種口試的內(nèi)容信度是一致的。
4.2 實(shí)施信度
所謂實(shí)施信度是指測(cè)試準(zhǔn)備和過程的可靠性。蔡基剛(2005)在分析考試條件時(shí)指出,面試型口試的實(shí)施信度依賴于考官現(xiàn)場(chǎng)的諸如語(yǔ)音、語(yǔ)調(diào)、語(yǔ)速、精神狀態(tài)等可變因素。如果考官語(yǔ)速過快、口氣過硬和發(fā)音模糊都會(huì)影響到考生口語(yǔ)水平的發(fā)揮。在本次研究中,問卷調(diào)查結(jié)果表明有58.35%的考生表示在面試型口試中會(huì)因?yàn)槁牪欢噶疃恢勒f什么。而只有3%的考生認(rèn)為口語(yǔ)機(jī)考的指導(dǎo)信息和提示信息不清楚。在面試型口試過程中,考官容易對(duì)講得流利的考生更加寬容而對(duì)講得結(jié)結(jié)巴巴的考生耐心欠佳而出現(xiàn)對(duì)口試規(guī)定時(shí)間任意地延長(zhǎng)或縮短。但是在計(jì)算機(jī)口試中則不會(huì)出現(xiàn)這種情況,因?yàn)榭荚嚂r(shí)間會(huì)在電腦屏幕上自動(dòng)顯示,考試同時(shí)開始進(jìn)行和結(jié)束。這樣每一位考生的考試時(shí)間都得到保證從而提高了考試的實(shí)施信度。
4.3 評(píng)分信度
評(píng)分信度取決于評(píng)分標(biāo)準(zhǔn)、評(píng)分依據(jù)和評(píng)分者。在本研究中,計(jì)算機(jī)口試和面試型口試均采用了既符合期末大規(guī)??荚囈?、信度和效度又較高的綜合評(píng)分法(呂長(zhǎng)竑,2008)。兩組參加評(píng)分的老師均已從事大學(xué)英語(yǔ)教學(xué)十年以上,擁有研究生學(xué)歷。唯一的差別是評(píng)分依據(jù)不同:面試型口試的兩位評(píng)分老師現(xiàn)場(chǎng)同時(shí)給一位考生打分;機(jī)考兩位評(píng)分老師拿到學(xué)生錄音材料后分別在各自的電腦上閱卷。如表1,表2所示,計(jì)算機(jī)口試的評(píng)分信度明顯高于傳統(tǒng)的面試型口試。
表1:面試型口試兩位老師評(píng)分相關(guān)性
**. 在 .01 水平(雙側(cè))上顯著相關(guān)。
表2:計(jì)算機(jī)口試兩位老師評(píng)分相關(guān)性
**. 在 .01 水平(雙側(cè))上顯著相關(guān)。
表1和表2顯示面試型口試兩位老師評(píng)分的相關(guān)是0.762;計(jì)算機(jī)口試兩位老師評(píng)分的相關(guān)是0.889,高于面試型評(píng)分。雖然兩組老師使用的都是綜合評(píng)分法,但是機(jī)考評(píng)分老師的評(píng)分信度比較令人滿意。學(xué)生在面對(duì)面口試時(shí)容易緊張,評(píng)分老師長(zhǎng)時(shí)間的評(píng)分工作易引起疲倦,這都會(huì)影響到考試的效度和信度。相對(duì)于教師和學(xué)生面對(duì)面的口語(yǔ)測(cè)試,計(jì)算機(jī)輔助口試可以使考生口語(yǔ)水平的發(fā)揮不受考官情緒的影響;評(píng)分可由教師在方便的時(shí)間和舒適的地方進(jìn)行;相同的考題使測(cè)試信度得到保證。這一研究結(jié)果與學(xué)生調(diào)查問卷中的一項(xiàng)調(diào)查結(jié)果相吻合。如表3所示,63.09%的學(xué)生認(rèn)為機(jī)考的評(píng)分更加公正。
表3:口語(yǔ)機(jī)考不存在考官對(duì)考生的印象分,因此更公正
4.4 面試、機(jī)試成績(jī)描述統(tǒng)計(jì)量
本次期末大學(xué)英語(yǔ)口語(yǔ)考試總分為100分,如表4所示,考生的機(jī)試平均分74.15分,略高于面試平均分,說明學(xué)生對(duì)課堂學(xué)習(xí)的知識(shí)掌握較好。對(duì)于滿分100分的考試而言,機(jī)試標(biāo)準(zhǔn)差8.49很小,面試標(biāo)準(zhǔn)差9.68高于機(jī)試。這說明學(xué)生機(jī)試的表現(xiàn)比面試相近。面試的各項(xiàng)成績(jī)低于機(jī)試可能是由于學(xué)生面對(duì)考官時(shí)的緊張和焦慮造成的。調(diào)查問卷顯示,56.7%的受試者認(rèn)為在面試型口試中感到緊張和焦慮。
表4:面試、機(jī)試描述統(tǒng)計(jì)量
綜上所述,計(jì)算機(jī)口試無(wú)論在內(nèi)容、實(shí)施和評(píng)分方面都具有較高的信度。且在內(nèi)容信度一致的情況下,機(jī)試的實(shí)施信度和評(píng)分信度都高于傳統(tǒng)的面試型口試。計(jì)算機(jī)口試科學(xué)合理的評(píng)分是確??荚囆哦群托Ф鹊年P(guān)鍵,計(jì)算機(jī)輔助口語(yǔ)測(cè)試是一種較為理想的口語(yǔ)測(cè)試手段,評(píng)分結(jié)果令人滿意。但是如果計(jì)算機(jī)輔助口語(yǔ)測(cè)試采用綜合法和分析法相結(jié)合來(lái)評(píng)分是否會(huì)取得更高的信度呢?例如,劍橋大學(xué)考試委員會(huì)的口語(yǔ)測(cè)試就是運(yùn)用綜合/分析法評(píng)分;國(guó)內(nèi)大學(xué)英語(yǔ)四、六級(jí)口試 ( CET - SET )也是采用分析性的綜合評(píng)分法。楊惠中(1999)認(rèn)為該評(píng)分方法科學(xué)、 客觀, 而且有很強(qiáng)的可操作性。另外,評(píng)分員自身必須加強(qiáng)語(yǔ)言測(cè)試?yán)碚摰膶W(xué)習(xí)和研究,培訓(xùn)環(huán)節(jié)是必不可少的。
[1]教育部高等教育司. 大學(xué)英語(yǔ)課程教學(xué)要求(試行)[Z].上海: 外語(yǔ)教育出版社,2004.
[2]考委會(huì). 全國(guó)大學(xué)英語(yǔ)四、六級(jí)考試改革方案(試行)[Z].大學(xué)外語(yǔ)教學(xué)通訊,2005,(1).
[3]蔡基剛. 大學(xué)英語(yǔ)四、六級(jí)計(jì)算機(jī)口語(yǔ)測(cè)試效度、信度和可操作性研究[J].外語(yǔ)界,2005,(4):66 -75.
[4]金艷. 大學(xué)英語(yǔ)四、六級(jí)考試口語(yǔ)考試對(duì)教學(xué)的反撥作用[J].外語(yǔ)界,2000,(4).
[5]金艷,郭杰克. 大學(xué)英語(yǔ)四、六級(jí)考試非面試型考試效度研究[J].外語(yǔ)界,2002,(5): 72-79.
[6]劉潤(rùn)清. 語(yǔ)言測(cè)試和它的方法[M]. 北京:外語(yǔ)教學(xué)與研究出版社,1991.
[7]呂長(zhǎng)竑,宋冰,王焰,劉文麗,黎斌. 口語(yǔ)測(cè)試評(píng)分標(biāo)準(zhǔn)比較研究[J].外語(yǔ)教學(xué)與研究,2008,(6):440-446.
[8]楊惠中. 大學(xué)英語(yǔ)口語(yǔ)考試設(shè)計(jì)原則[J].外語(yǔ)界,1999,(3): 48-57.
[9]周忠新.大學(xué)英語(yǔ)大規(guī)模口語(yǔ)測(cè)試的探討研究[J]. 教學(xué)研究, 2007, ( 1) : 44-48.
[10]Bachman, L. F. Fundamental Considerations in Language Testing[M]. 上海:上海外語(yǔ)教育出版社,1999.
[11]Clark J L. Theoretical and technical considerations in oral proficiency test[A]. In Randall L J, Spolsky B (Ed). Testing Language Proficiency[C]. Virginia: Centre for Applied Linguistics, 1975.
A Comparative Study of the Reliability of Oral Proficiency Test
WANG Shan1,LIU Zhuo-ying2
(1.School of Foreign Languages Study, Hainan Normal University, Haikou, Hainan 571158;2. Zhangjiakou Vocational and Technical College, Zhangjiakou, Hebei 075051)
When examining the inter-reliability of the Computer-based Oral Proficiency Test (COPT) and Oral Proficiency Test (OPT), the findings show that inter-reliability of COPT is higher than that of OPT in terms of implementing and rating when contents of both tests are equal. The findings also show that the inter-reliability of raters of COPT obtains a correlation of 0.889, higher than that of OPT, 0.762, which coincides with the results of a survey conducted to the students, in which 63.09% of them hold the belief that rating of COPT is more reliable than that of OPT. The research proves the higher reliability of COPT.
OPI; COPT, reliability
2015-03-21
王 珊(1978-),女,海南??谌?,講師,碩士。研究方向:英語(yǔ)語(yǔ)言教學(xué)和測(cè)試。
本文為2011年度海南省高校大學(xué)英語(yǔ)教改項(xiàng)目“計(jì)算機(jī)輔助英語(yǔ)口語(yǔ)測(cè)試的實(shí)效性研究”(項(xiàng)目編號(hào):Hyjg2011-7)的研究成果。
H319
A
1008-8156(2015)02-0055-03
修回日期:2015-05-05
張家口職業(yè)技術(shù)學(xué)院學(xué)報(bào)2015年2期