史天化,唐國平
(1.福建工程學(xué)院外語系,福建 福州 350108;2.攀枝花學(xué)院外國語學(xué)院,四川 攀枝花 617000)
口語評分中評分員對評分標準的理解和使用
——配對口試評分的報告分析
史天化1,唐國平2
(1.福建工程學(xué)院外語系,福建 福州 350108;2.攀枝花學(xué)院外國語學(xué)院,四川 攀枝花 617000)
通過有聲思維實驗方法并輔以刺激回憶,收集四名不同性格傾向的評分員在配對口語考試評分時進行的思維報告數(shù)據(jù),定性分析結(jié)果表明:在實際評分中,評分員對評分量表的理解和使用存在很大的差異性,具體表現(xiàn)在:(1)外向的評分員在評分過程中,表現(xiàn)的比內(nèi)向的評分員更為寬容;(2)內(nèi)向的評分員更多地關(guān)注評分量表中的各項具體指標和標準,而外向的評分員強調(diào)任務(wù)的完成狀況和考生之間的比較、交流,和互動;(3)外向的評分員比內(nèi)向的評分員更少地依賴評分量表,更多地使用非語言的特征。本研究結(jié)果對考試評分標準的修訂和評分員培訓(xùn)均有啟示。
配對口語評分;評分標準;口試評分
在語言測試領(lǐng)域,對口語評分的研究一直是口試研究的重點之一。目前,口語研究多側(cè)重于三人以上的小組測試模式,比如 Berry(2004),[1]Gary J.Ockey(2009)[2]等,很少有對雙人配對口語測試中有聲思維的作用以及評分員性格傾向?qū)υu分量表的不同理解和使用的研究。本文采用認知心理學(xué)研究方法——有聲思維進行試驗記錄,分析評分員大腦的思維加工過程,研究評分的認知過程。以某工科院校非英語專業(yè)大學(xué)生為實驗對象,研究雙人配對口語測試中有經(jīng)驗的評分員的性格傾向?qū)υu分量表的不同理解和使用差異。
在過去二十幾年里,國外諸多學(xué)者專家們,如Iwashita(1998),[3]Orr(2002),[4]Lyn May(2009),[5]等等,就不同配對模式,學(xué)生外語水平,性格情感特征,學(xué)生學(xué)習(xí)風格偏好與學(xué)生性別,專業(yè)及母語類型等因素對口語產(chǎn)出產(chǎn)生的影響進行了一系列的研究。相比國外,國內(nèi)在外語教學(xué)中的口語測試和口語測試領(lǐng)域的研究都要晚得多。目前影響最廣的大學(xué)英語四、六級考試和高校英語專業(yè)四、八級考試長久以來并不包含口語測試部分,直至1994年英語專業(yè)四級考試才開始進行錄音口試試點,[6]1999年大學(xué)英語四,六級考試才開始有條件的口語測試(考生筆試成績達到一定分數(shù)才有資格參加)。而在口語測試領(lǐng)域,研究課題主要來自國外研究的啟發(fā)和國內(nèi)口語測試的實踐,包括測試形式,[7]口試真實性[8]以及大學(xué)英語口試[9]和英語專業(yè)四級考試[6]的效度等。
口語評分屬主觀性評分,往往通過讓考生完成一項指定任務(wù),展示其在問題解決中的推理、判斷和表達等方面的技能,然后評分員依據(jù)既定的標準對考生的表現(xiàn)進行綜合評定。其評估是由評分員依據(jù)評分標準完成的,因此測試分數(shù)只能看作是實際語言運用的部分指標。也就是說,測試分數(shù)不能完全反映出考生的語言能力,因為分數(shù)還受到其他非語言因素的影響,比如評分員和評分標準因素。Skehan[10]提出,在配對口語中,口語評分是多重因素互相影響的結(jié)果,這些因素包括考生之間,任務(wù)特點,評分標準以及評分員等。其中,examiners和 task characteristics會影響到受試的performance,而評分員又按照評分標準進行評分,最終得出考生的口語成績。依據(jù)Skehan的口語評分模型,本研究要探討的研究問題是:(1)不同性格傾向的評分員在評分過程中的寬嚴度是否有差異?(2)不同性格特征的評分員在理解和使用評分量表方面是否存在差異?
1.實驗對象。
四名評分員參加了本次實驗,具有專業(yè)英語教學(xué)經(jīng)驗2-12年不等,副教授職稱,其中性格偏內(nèi)向和外向各兩人,其內(nèi)、外向人格傾向和特征事先經(jīng)“艾森克人格問卷量表”檢測。20名學(xué)生參加該實驗,年齡為19-21歲,系福建某工程學(xué)院一年級學(xué)生,從三個工科專業(yè)中隨機挑選出來??忌蝿?wù)設(shè)計按照學(xué)院期末口語考試模式。首先,考生兩人一組,共十組,接著從12個備選題目中抽取試題,準備三分鐘,然后要求考生依據(jù)題目要求在三至五分鐘時間內(nèi)完成口語對話??忌目谡Z產(chǎn)出全部通過計算機口語考試系統(tǒng)自動錄音。20名考生的音頻文件全部轉(zhuǎn)寫為文本文件。
2.研究工具和研究步驟。
本實驗采用有聲思維的方法,希望了解評分員特定的思維過程以及評分員在評分中使用了哪些方法和策略,另外,還想了解在評分過程中某些因素對思維過程和機制的影響作用。評分員在對考生的口語表現(xiàn)評分時可以隨時按暫停,在任何可能影響評分的狀況出現(xiàn)時,比如考生的某句話,甚至是一個單詞、習(xí)語的表達;也可能是評分員認為重要的,有意義的一些非語言特征,比如考生的情緒或眼神的交流等。
此外,并輔以刺激回憶(stimulated recall)。實施中盡可能多地給評分員口頭報告和回憶的時間。評分員一邊聽磁帶評分一邊盡可能地說出當時的真實想法,但是如果聽、說、評不能兼顧,可以隨時暫停錄像。另外,由于注意力有限,評分員很難做到評分和口頭報告同時順利有效進行。研究者會根據(jù)情況讓評分員再看一遍錄像,逐句播放,評分員在受刺激后回憶剛才評分時大腦中的想法,以對有聲思維進行必要地補充。
3.數(shù)據(jù)的收集與分析。
研究者對所有的錄音資料進行轉(zhuǎn)寫和定性分析,定性分析是再反復(fù)聽錄音資料、反復(fù)閱讀轉(zhuǎn)寫文本的基礎(chǔ)上形成的。
1.評分員在評分過程中不僅使用或參照了評分量表內(nèi)的因素,而且融入了很多評分量表中沒有的特征和標準。
本研究關(guān)注的是在多大程度上評分員一致地使用了評分量表中的標準。要回答這個問題首先要了解該口語考試的評分標準。本實驗采用目前大學(xué)英語口語考試大綱中的評分標準。該標準從語言的準確性和范圍,話語的長短和連貫性以及語言的靈活性和適切性三個方面進行評價。(參照大學(xué)英語口語考試大綱及樣題,1999:4)
表一
表一羅列出了評分員在有聲思維報告中涉及的所有評分標準,包括語言特征和非語言特征??偟膩碇v,不同性格的評分員都會基本按照表一中的各項標準綜合打分。但是,內(nèi)向的評分員更多地強調(diào)語言準確性,流暢性,任務(wù)的完成情況,考生的自信程度,幽默情況,和對考生的第一印象。而外向的評分員則傾向于流暢性,語言范圍,靈活性和適切性及考生之家的交互性。在刺激回憶報告中,內(nèi)向的評分者提到習(xí)語表達,語法結(jié)構(gòu)準確,流暢或停頓、猶豫、重復(fù),彼此交流互動,以及語言的發(fā)雜程度;而外向的則為:話語輪換自然,交流氣氛熱烈,較好地控制任務(wù)的完成,語言準確、流暢。可以看出以上不同性格的評分員在評分中各有側(cè)重,但是也存在個別的重合。像語言的準確,流暢,彼此交流,任務(wù)的完成狀況所有的評分員都有提及。
表二
2.從表二中我們可以看出評分員的總體評分傾向。
(1)內(nèi)向的評分員在評分中使用積極性評論的比例為56%,而外向性的則遠遠高出,達到72%。這說明在有聲思維中,外向的評分員比內(nèi)向的評分員更多地使用積極性的評論,更多地認可考生的表現(xiàn),因此,外向的評分員在評分過程中,表現(xiàn)的比內(nèi)向的評分員更為寬容。
(2)教育心理學(xué)的研究表明內(nèi)向性格傾向偏好視覺型、獨自型和審慎型;外向性格傾向偏向場依存型和合作型。本研究也得出類似的結(jié)論:內(nèi)向的評分員更多地關(guān)注考生個體地表現(xiàn),而對考生間的差異,比較,互動的思維活動只占全部的18%;而外向的評分員高達31%。原因可能是在評分過程中,內(nèi)向的評分員更多地關(guān)注評分量表中的各項具體指標和標準,而外向的評分員強調(diào)任務(wù)的完成狀況和考生之間的比較、交流,和互動。
(3)從表中評分員使用評分量表的情況看,即使是經(jīng)驗豐富的評分員也不可能只注意考生的發(fā)音、語法、流利行和可理解性,而不被考生口語表達中各種各樣的其他特征所影響.所有的評分者在評分過程中不僅使用了評分量表中的各項指標,而且也根據(jù)自身的經(jīng)驗融入了很多評分量表中沒有涉及到的非語言特征。內(nèi)向的評分員思維活動中71%的涉及給定的評分量表,而剩余的29%則是依據(jù)自己的經(jīng)驗和喜好,即依據(jù)表一中的非語言特征進行評分。與內(nèi)向的評分員相比,外向的評分員更少地依賴評分量表(54%),更多地使用非語言的特征(46%)。
本研究在配對口語評分中使用有聲思維,分析了評分員性格傾向?qū)υu分量表的不同理解和使用差異。外向的評分員在評分過程中,表現(xiàn)的比內(nèi)向的評分員更為寬容,更多地使用非語言的特征,更多地關(guān)注任務(wù)的完成狀況和考生之間的比較、交流,和互動。
基于以上研究結(jié)論,研究者對大學(xué)英語配對口語考試提出以下建議:(1)口語考試的題目應(yīng)該讓考生能夠以信息交流和意義表達為出發(fā)點,提供盡可能真實的交際情景和語境。這樣才能夠保障口語測試的質(zhì)量及測試的信度和效度。(2)設(shè)計明確詳細的評分標準和量表。測試評分過程中,評分員需要一份描述清晰,標準科學(xué)而又便于操作的評分標準和量表。評分量表應(yīng)從語法能力,語用能力和社會文化能力三個方面來考察應(yīng)試者運用語言來完成現(xiàn)實生活任務(wù)即以言行事能力。但是,評分標準的細分要恰當,標準越復(fù)雜,評分員所關(guān)注的面就越不一致,分數(shù)的信度,效度都會越低。(3)在評分標準上,口語評價的標準不是完全看語法、語音,而是要看交際效果和交際效率,語言能力只是交際能力的一個組成部分而非全部。(4)在評分量表中,只考慮考生與測試任務(wù)或考生自身各種能力之間的互動是不全面的,還應(yīng)該從社會語言學(xué)角度把人際間的互動也考慮在內(nèi)。尤其是在口語考試中,考生與考官,考生與搭檔間的互動在評分量表上要有所體現(xiàn)。
本研究為以后的口語測試的評分標準修訂以及評分員的培訓(xùn)提供借鑒和依據(jù),進而為傾向于犯不同類型的評分者偏差的評分員提供有針對性的培訓(xùn)和反饋,從而提高測試評分的信度和效度。
[1]Berry,V.A study of the interaction between individual personality differences and oral performance test facets.Unpublished doctoral dissertation.King’s College,U-niversity of London.2004(1):25.
[2]Ockey,G.J.Is the oral interview superior to the group oral?[J].Working Papers on Language Acquisition and Education, International University of Japan,2009(4),165-167.
[3]Iwashita,N.The validity of the paired interview in oral performance assessment[J].Melbourne Papers in Language Testing,1998(5):51 -65.
[4]Orr,M.The FCE Speaking test:using rater reports to help interpret test scores[J].System,2002(30):143 -154.
[5]May,L.Assessment of oral proficiency in EAP programs:A case for pair interaction[J].Language and Communication Review,2009(9):13-19.
[6]文秋芳.英語口語測試與教學(xué)[M].上海:上海外語教育出版社,1999.
[7]盛越,管博.配對形式在口語考試中的作用——從劍橋第一證書口試看配對形式的作用[Journal of Lanzhou Railway University][J].蘭州鐵道學(xué)院學(xué)報(社科版),2000(5).
[8]鄒申.論口語測試的真實性[Foreign Language World][J].外語界,2001(3).
[9]熊敦禮,陳玉紅,劉澤華,黃更新.大學(xué)英語大規(guī)模錄音口語測試的研究[Foreign Language Teaching and Research][J].外語教學(xué)與研究,2002(4).
[10]Skehan,P:A cognitive approach to language learning[M].Oxford:Oxford University Press.1998:172.
Raters’Understanding and Utilization of the Rating Scale in an Oral Test:An Analysis of Scoring Process in a Paired Candidate Test
Shi Tianhua,Tang Guoping
This study adopted Think Aloud Protocol and stimulated recall to collect thinking data of four raters with different personality types.Qualitative researches demonstrate that raters have distinct understanding and utilization of rating scales.The more detailed findings are:⑴the introverted raters are more severe than extroverted ones;⑵the introverted raters pay more attention to the specific features of the rating scale,whereas extroverted raters concentrate task realization and the interaction of candidates;⑶the extroverted raters attend to more non-criterion features,and rely much less on the rating scale.These findings have implications for both the development of rating scales and the training of raters for paired candidate discussion tasks.
paired oral scoring;rating criteria;oral scoring
G642.475
A
1672-6758(2012)06-0033-2
史天化,碩士,講師,福建工程學(xué)院。唐國平,碩士,副教授,攀枝花學(xué)院。
2010年福建工程學(xué)院教育科學(xué)規(guī)劃課題(批準號:GB-K-10-18)項目成果,同時該課題為重大專項子課題,課題編號:GA-K-09-06
Class No.:G642.475Document Mark:A
(責任編輯:蔡雪嵐)