亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

中級漢語學(xué)習(xí)者語言能力自評量表的編制與檢驗

2012-07-05 09:19:14王佶旻

中國考試 2012年11期

關(guān)鍵詞：語言能力

王佶旻

現(xiàn)代教育理念已經(jīng)從以教師為中心轉(zhuǎn)向以學(xué)生為中心，學(xué)習(xí)者應(yīng)該學(xué)什么，怎么去學(xué)成為語言學(xué)習(xí)的核心問題。在學(xué)習(xí)過程中，評價學(xué)習(xí)成就的方法主要有三種：測驗、教師評價和學(xué)生自我評價，Mats Oscarson（1989）認為進行自我評價對學(xué)習(xí)有益，學(xué)習(xí)者有意識地評價自己的交際效果是習(xí)得過程的重要組成部分，它可以幫助學(xué)習(xí)者提高學(xué)習(xí)意識，明確學(xué)習(xí)目的，是評估領(lǐng)域的拓展。

語言能力自評量表是學(xué)生自我評估語言能力的評價工具，它可以幫助學(xué)習(xí)者對自己的語言水平做出判斷，從而對進一步學(xué)習(xí)產(chǎn)生正面的影響。同時自評量表還能告訴學(xué)習(xí)者要提高語言能力應(yīng)該學(xué)會哪些語言知識和技能，這樣學(xué)習(xí)者就會有意識地去獲得這些能力。

語言能力自我評價量表具有很廣泛的實用價值，但自我評價量表必須建立在可靠性和有效性的基礎(chǔ)上，因而對所編制的量表進行質(zhì)量檢驗是十分必要的。

1 研究背景

最早的語言能力量表是美國政府部門在1955年制定的FSI（Foreign Service Institute）量表，制定該量表的初衷是為了規(guī)范測驗的操作和評分，因此它不是自評量表而是測驗的評分標(biāo)準(zhǔn)。其后，歐洲、美國、加拿大、澳大利亞及其他地方出現(xiàn)了多個語言能力量表，如美國的ACTFL大綱、澳大利亞的ISLPR量表、加拿大的CLB量表以及歐洲的ALTE量表等。其中ACTFL量表和ALTE量表是最具影響力的語言能力量表。

ACTFL大綱是美國教育測驗服務(wù)中心（Educational Testing Service,ETS）和美國外語教學(xué)委員會（American Council for the Teaching of Foreign Language,ACTFL）于20世紀(jì)80年代制定的語言能力量表。該量表把語言水平分為10個小級別，并對聽、說、讀、寫四項分技能做了等級描述。ACTFL大綱對學(xué)習(xí)者的評估側(cè)重于真實的能力，而不細究學(xué)習(xí)者在何時何地以何種方式學(xué)習(xí)語言。ACTFL大綱是一個對語言教學(xué)、學(xué)習(xí)、測試以及語言政策都產(chǎn)生了長遠影響的能力量表。它對能力等級的劃分、等級標(biāo)準(zhǔn)的界定和語言表現(xiàn)的描述都為以后的能力量表的制定提供了參考。

ALTE量表是歐洲語言測評中心協(xié)會（Association of Language Testers in Europe）制定的關(guān)于語言應(yīng)用能力的評估量表，是歐洲語言共同參考框架（CEF）的重要組成部分。ALTE量表是以語言使用者為中心的評估機制，因而也可以作為學(xué)習(xí)者的自我評估量表。該量表把語言水平分為六個等級，并從聽、說、讀、寫四個方面對語言能力進行了詳細的描述。描述采用“能做（can-do）”的形式，從社會生活與旅游、工作和學(xué)習(xí)三個方面對語言能力進行描寫。

上述這些語言能力量表有三個主要特點：一是以聽、說、讀、寫四項語言技能為綱來描寫語言能力；二是以特定的任務(wù)或語言使用者能夠做什么來描述具體的語言能力，也就是用行為表現(xiàn)來進行評估；三是對能力等級的劃分都以初、中、高三個主要等級為基礎(chǔ)。

2 研究過程

2.1 中級漢語學(xué)習(xí)者語言能力自評量表的編制

本研究的自評量表以中級漢語學(xué)習(xí)者為評估對象，分為聽、說、讀、寫四個分量表。在每一個分量表中，我們都從三個層面進行描述，第一個層面是能力概說，以概括的語言對每一水平等級進行描述，描述的主要任務(wù)是找出每一水平等級的區(qū)別性特征。例如聽力理解的能力概說為：“在日常生活、工作和學(xué)習(xí)中可以比較順利地實現(xiàn)和母語者的交流，能夠比較準(zhǔn)確地把握說話人的態(tài)度，觀點，聽懂重要的問題、指示，可以在較短的時間內(nèi)參與到討論中，不僅能聽懂自己熟悉話題的大部分觀點，在較陌生的話題上，也具備一定的跳躍障礙的能力，從而獲取需要的關(guān)鍵信息。”

第二個層面是“能做描述”，通過語言任務(wù)的形式對不同水平等級的學(xué)習(xí)者能夠做什么進行詳細描述。能做描述也要從不同的子能力維度展開，以典型的作業(yè)任務(wù)為描述的依據(jù)，而非隨意描述。比如在閱讀能力量表中，“能做描述”分為文本說明和閱讀過程兩個子維度。文本說明部分主要根據(jù)閱讀材料的體裁和篇章來對學(xué)習(xí)者進行區(qū)分。例如“能讀懂會議議程。”閱讀過程關(guān)注閱讀時所涉及的各種技能，包括總結(jié)和概括、尋找細節(jié)、查找段落關(guān)系、推論、與目的語文化背景的結(jié)合、閱讀技巧以及使用參考書和詞典的能力。例如“能將一篇文章里不同部分的信息，或者不同文章里的信息歸納匯總，以完成特定的交際任務(wù)?！?/p>

第三個層面是量化指標(biāo)，主要從字、詞掌握數(shù)量，閱讀和聽力的速度等方面來區(qū)分不同水平的學(xué)習(xí)者。例如“能在30分鐘內(nèi)寫出300字以上的信或短文?！?/p>

中級漢語學(xué)習(xí)者語言能力自評量表采用李克特5級量表（Likert scale）來采集數(shù)據(jù)，學(xué)生在完成量表時需要對每一條描述語和自己實際語言水平相符的程度進行評價，如果完全符合選擇5，完全不符合則選1。量表的結(jié)構(gòu)和題目數(shù)量如表1所示。

2.2 被試

本研究的被試為報名參加2011年6月舉行的漢語水平考試HSK（初中等）考試的考生，共165名。被試在報名當(dāng)日完成量表調(diào)查，并于一周后參加HSK考試。因此被試完成量表時的語言水平與其參加HSK考試時的水平基本一致。被試的具體情況如表2所示。

2.3 題目的難度與區(qū)分度

題目的難度和區(qū)分度與量表的質(zhì)量密切相關(guān)，難度適中，區(qū)分度良好的題目所組成的量表具有較好的測量精度。由于題目采用5級量表記分而非0/1記分，因此難度的求得采用公式P=所有被試該題得分的平均數(shù)/該題滿分分數(shù)。區(qū)分度用被試在該題上的得分與其量表總分之間的相關(guān)來表示，同時檢驗高分組和低分組的得分差異。根據(jù)測量學(xué)的一般做法，高分組指的是得分從高到低排列，前27%的人，低分組則是后27%的人，高分組和低分組的得分有顯著差異代表題目的區(qū)分度良好。我們按上述辦法計算了每個題目的難度、區(qū)分度以及高分組和低分組得分的平均數(shù)差異檢驗（T檢驗）。結(jié)果表明，題目難度中等偏易，區(qū)分度良好，高分組和低分組得分的平均數(shù)差異顯著。具體情況如表3所示。

2.4 量表的信度檢驗

我們使用α系數(shù)檢驗總量表以及各分量表的內(nèi)部一致性信度，結(jié)果如表4所示。

表4 總量表及各分量表的內(nèi)部一致性信度

從表4可以看出，中級漢語學(xué)習(xí)者自評量表以及聽力、閱讀、口語和書面分量表的內(nèi)部一致性信度（α系數(shù)）都較高，說明量表的測量信度較好。

2.5 量表的效標(biāo)關(guān)聯(lián)效度檢驗

2.5.1 效標(biāo)的選取

信度和效度是測驗的兩大質(zhì)量標(biāo)準(zhǔn)，也是測驗研究的重要問題，其中效度又是重中之重。正如Dieterish&Freeman（1979）所談到的，如果脫離了效度問題，那么包括信度在內(nèi)的一切有關(guān)測驗標(biāo)準(zhǔn)或質(zhì)量的討論都會顯得毫無意義。Bachman（1990）也指出，在測驗的開發(fā)、解釋及應(yīng)用中，需要考慮的最重要的問題就是效度。在建立效度的過程中，我們需要收集一種證據(jù)，這種證據(jù)表明測驗分數(shù)和某個標(biāo)準(zhǔn)之間的關(guān)系，而我們相信這個標(biāo)準(zhǔn)同樣表現(xiàn)了所測的能力。使用這種方法建立的效度就是效標(biāo)關(guān)聯(lián)效度（criterion-related validity）。在效標(biāo)關(guān)聯(lián)效度的檢驗過程中，最重要的步驟就是尋找合適的效標(biāo)。一個好的效標(biāo)必須具備以下幾個條件：

表2 被試的具體情況

（1）同質(zhì)性，即與研究對象的測量特質(zhì)相同。

（2）有效性，即能真正反映所要測量的特質(zhì)。

（3）可靠性，也就是要有較高的信度。

（4）客觀性，即沒有“效標(biāo)污染”。個人的效標(biāo)成績可能由于評定者知道其預(yù)測源分數(shù)而受到影響，從而降低了客觀性，這稱為“效標(biāo)污染”。

（5）實用性，最佳的效標(biāo)測量應(yīng)該用法簡單、省時、花費少。（鄭日昌等，2001）

本研究采用被試參加的漢語水平考試（HSK）作為效標(biāo)。HSK是專門測試母語非漢語者的漢語水平的國家級標(biāo)準(zhǔn)化考試，具有二十幾年的歷史，在海內(nèi)外享有很高的學(xué)術(shù)和市場聲譽，是一個比較可靠的效標(biāo)。本次HSK（初中等）考試的結(jié)構(gòu)、題型與信度系數(shù)如表5所示。

表5 HSK（初中等）考試的結(jié)構(gòu)、題型與信度系數(shù)

在效標(biāo)選取上，我們采取考察內(nèi)容近似的原則，以HSK總分作為總量表的效標(biāo)，以HSK聽力理解測驗的成績作為聽力理解分量表的效標(biāo)，以HSK閱讀理解測驗的成績作為閱讀理解分量表的效標(biāo)。由于HSK考試的綜合填空部分考查書面表達和漢字書寫能力，因而可以作為書面表達分量表的效標(biāo)?？谡Z分量表的效標(biāo)也選用HSK聽力理解測驗的成績，這是因為聽和說具有十分密切的關(guān)系，在沒有口語測驗作為效標(biāo)的情況下，選擇聽力測驗成績作為效標(biāo)也是可行的。

2.5.2 檢驗結(jié)果

效標(biāo)關(guān)聯(lián)效度的檢驗結(jié)果如表6所示。

表6 效標(biāo)關(guān)聯(lián)效度的檢驗結(jié)果

從表6可以看到，總量表以及四個分量表與各自的效標(biāo)的相關(guān)都在0.05水平上顯著，相關(guān)系數(shù)在0.40～0.50，屬于中等程度的相關(guān)。

3 討論與結(jié)論

3.1 量表中描述語的選擇與修訂

語言能力自評量表中對能力的劃分和界定主要依靠各種描述語來完成，因此描述語的質(zhì)量直接影響到量表的信、效度。描述語的產(chǎn)生有不同的方法，比如向?qū)＜艺骷瘜W(xué)習(xí)者語言能力的評述語，根據(jù)確定的語言能力結(jié)構(gòu)及其參數(shù)體系來編寫描述語等。我們采用的方法是收集國內(nèi)外已有的語言能力量表和大綱，把其中的描述語挑選出來，然后根據(jù)確定的語言能力維度和參數(shù)體系將合適的描述語放進去，最后再進行描述語的修訂。

通過對每一條描述語的難度、區(qū)分度以及選項分布等題目質(zhì)量參數(shù)的評估，我們歸納了挑選和修訂描述語的幾條基本原則：（1）描述語的單維性，即，除總說部分外，每條描述語只描述一個參數(shù)或一項能力；（2）描述語的排他性，即任意一條描述語中都不含有其他描述語所描述的內(nèi)容，描述語之間不重復(fù)；（3）描述語都采用正向描述的方式，不使用否定詞語；（4）盡量避免大量使用程度詞來修飾描述語，如比較準(zhǔn)確等；（5）描述語在表達上做到準(zhǔn)確、簡潔。

3.2 量表的質(zhì)量評估

評價量表的質(zhì)量主要從題目質(zhì)量、量表信度和效度三方面著手。從研究結(jié)果來看，中級漢語學(xué)習(xí)者語言能力自評量表質(zhì)量優(yōu)良。題目平均難度為0.66，屬于中等偏易，說明問卷中的題目與被試的實際語言水平比較相符。在分量表中，聽力和口語的難度略低于閱讀和寫作。這可能是因為題目大多描寫課堂外實際運用語言的場景，而學(xué)生在現(xiàn)實生活中運用聽和說的機會多于讀和寫，因而他們對聽力和口語的場景熟悉程度高，傾向于給出較高的分數(shù)。從題目的區(qū)分度來看，所有題目在高分組和低分組中都有很好的鑒別力，平均數(shù)差異顯著，題目與總分的相關(guān)較高，說明題目具有較好的區(qū)分度。量表的信度檢驗表明題目的內(nèi)部一致性很好，信度較高。

從量表的效度檢驗來看，總量表和效標(biāo)（HSK總分）之間的相關(guān)為0.46，這在自我評價的研究中是相對較高的。Bachman&Palmer（1989）的研究計算了自我評價和面試以及多項選擇題的相關(guān)，分別為0.47和0.46，他們認為這樣的相關(guān)已經(jīng)是相當(dāng)可觀了。其他一些研究，如Powers,D.,Roever,C.,Huff,K.L.,&Trapani,C.S.（2004）得到了0.3的相關(guān)，而Anne-Mieke Janssen-van Dieten（1989）的研究僅得到了0.19的相關(guān)。因而我們可以說本研究的語言能力自我評價量表的效標(biāo)關(guān)聯(lián)效度還是比較高的。從各個分量表來看，聽力、閱讀、口語和寫作分量表與它們各自的效標(biāo)之間的相關(guān)都在0.40以上，其中閱讀分量表的效標(biāo)關(guān)聯(lián)效度系數(shù)達到了0.50，說明各個分量表的效標(biāo)關(guān)聯(lián)效度都比較好。

3.3 關(guān)于語言技能間的關(guān)系

在分析四個分量表與HSK各個分測驗的相關(guān)關(guān)系的過程中，我們發(fā)現(xiàn)了一些有意思的現(xiàn)象。雖然四個分量表與它們各自的效標(biāo)之間的相關(guān)最高，但它們同時都和語法分測驗具有較高的相關(guān)。這種現(xiàn)象暗示著語法知識在聽、說、讀、寫四項技能中都占有很重要的位置，反過來說，也暗示著語法不是一個需要獨立測量的子能力，而是作為一種語言使用的必備要素體現(xiàn)在聽、說、讀、寫各項語言技能中。這一點張凱（1997）和郭樹軍（1997）在研究HSK的構(gòu)想效度時已經(jīng)有所發(fā)現(xiàn)。

另外，我們還發(fā)現(xiàn)，口語分量表與HSK各個分測驗的相關(guān)是最低的，與自評量表中其他分量表的相關(guān)也是相對最低的。這一方面是因為我們選擇的效標(biāo)中沒有口語測驗，另一方面也說明口語能力是一種相對獨立的語言技能。這一現(xiàn)象在周聰（2010）以及原鑫（2011）的研究中曾經(jīng)得到了證實。這就提醒我們在對語言技能進行評估時要采取分開評價的模式，特別是對于口語能力。

[1] 郭樹軍.漢語水平考試（HSK）項目內(nèi)部結(jié)構(gòu)效度檢驗[J].漢語水平測試研究.北京：北京語言大學(xué)出版社.1997.

[2] 高級水平漢語學(xué)習(xí)者聽說讀寫四項技能的關(guān)系研究[D].北京語言大學(xué)碩士論文.2011.

[3] 周聰.綜合式測試方法對初級水平漢語學(xué)習(xí)者的適用性研究[D].北京語言大學(xué)碩士論文.2010.

[4] 張凱.漢語水平考試結(jié)構(gòu)效度初探.見：漢語水平測試研究[M].北京：北京語言大學(xué)出版社.1997.

[5] 鄭日昌，蔡永紅，周益群.心理測量學(xué)[M].北京：人民教育出版社.2001.

[6] Bachman,L.F.,Fundamental Considerations in Language Testing.Oxford University Press.1990.

[7] Bachman,L.F.&Palmer,A.S.,The Construct Validity of Self-rating of Communicative Language Ability.Language Testing.1989，V6 N1：14-29.

[8] Anne-Mieke Janssen-van Dieten.The Development of a test of Dutch as a Second Language:the validity of self-assessment by inexperienced subjects.Language Testing.1989，V6 N1：30-47.

[9] Dieterish&Freeman.A Guide to English Proficiency Testing in School.Center for Applied Linguistics.1979.

[10] Mats Oscarson.Self-assessment of Language Proficiency:rationale and applications.Language Testing.1989，V6 N1：1-13.

[11] Powers,D.,Roever,C.,Huff,K.L.,&Trapani,C.S.Validating LanguEdgeTM Courseware scores against faculty ratings and student self-assessments.ETS Research Report.2004.