呂亮平
摘要:文章通過介紹浙江水利水電學(xué)院二外德語期末考試的試卷設(shè)計(jì)情況,并且對(duì)其進(jìn)行信效度驗(yàn)證,嘗試為德語教師在二外德語命題方面提供建議。
關(guān)鍵詞:語言測(cè)試;信度;效度;實(shí)證分析
中圖分類號(hào):G642.0? ? ?文獻(xiàn)標(biāo)志碼:A? ? ?文章編號(hào):1674-9324(2020)10-0114-03
一、引言
德語作為第二外語在我國(guó)發(fā)展很快,但是對(duì)德語作為第二外語的測(cè)試研究卻不多。浙江水利水電學(xué)院商務(wù)英語專業(yè)從2015級(jí)學(xué)生開始實(shí)行二外德語教學(xué),為期兩個(gè)學(xué)期。由于目前還沒有針對(duì)二外德語的專門測(cè)試,開發(fā)能夠體現(xiàn)二外德語水平,向企業(yè)及高校提供真實(shí)二外德語水平的測(cè)試成為當(dāng)務(wù)之急。本文將介紹浙江水利水電學(xué)院二外德語期末考試的試卷設(shè)計(jì)情況,并對(duì)其進(jìn)行信效度驗(yàn)證,嘗試為德語教師在二外德語命題方面提供建議。
二、研究方法
1.研究的理論基礎(chǔ)。語言測(cè)試的信度即“測(cè)試結(jié)果的一致性”,即測(cè)試結(jié)果的可信度和可靠度(Bachman,1990)。語言測(cè)試的效度是指考試是否考查了所要考查的內(nèi)容,是否達(dá)到了所要達(dá)到的目的(Morrow,1986)。語言測(cè)試的效度包括內(nèi)容效度、表面效度、結(jié)構(gòu)效度等。信度和效度作為評(píng)判測(cè)試能否真正體現(xiàn)測(cè)試者水平的標(biāo)準(zhǔn),既相互獨(dú)立又相互制約。沒有信度就不可能存在效度,而具有信度的測(cè)試也不一定有效度。一個(gè)測(cè)試只有同時(shí)具備這兩個(gè)因素,才能真正體現(xiàn)測(cè)試者的實(shí)際水平。
2.研究對(duì)象。本研究的調(diào)查對(duì)象為浙江水利水電學(xué)院2016級(jí)商務(wù)英語專業(yè)1—3班的學(xué)生。這些學(xué)生來自全國(guó)各地,全部為統(tǒng)考統(tǒng)招生,大部分來自浙江省,英語基礎(chǔ)良好。這些學(xué)生學(xué)習(xí)二外德語的時(shí)間為1年。1班學(xué)生為24人,參加考試23人,有效試卷數(shù)23份;2班學(xué)生26人,參加考試26人,有效試卷數(shù)26份;3班學(xué)生23人,參加考試23人,有效試卷數(shù)23份。我院為了規(guī)范期末考試,每門課程采用A、B卷命題,每卷附有評(píng)分標(biāo)準(zhǔn),來保證閱卷的一致性和公正性。而本研究的72份有效試卷均來自A卷。該測(cè)試定位為診斷考試,目的是測(cè)試學(xué)生的語言能力,看他們是否掌握了課程大綱所規(guī)定的內(nèi)容和目標(biāo)。鑒于測(cè)試對(duì)象尚處于德語學(xué)習(xí)初期,測(cè)試主要為語言知識(shí)能力,說、讀、寫的能力,尚未涉及口語測(cè)試部分。
3.研究方法。本研究采用定性、定量的方法來檢驗(yàn)測(cè)試的信效度。借助SPSS軟件來進(jìn)行數(shù)據(jù)分析,用α指標(biāo)來檢驗(yàn)測(cè)試信度;從測(cè)試的內(nèi)容效度、結(jié)構(gòu)效度和表面效度等來檢驗(yàn)測(cè)試效度。
三、結(jié)果分析
1.信度。從試題的量看,一共8個(gè)大題,共39個(gè)小題,考試時(shí)間為120分鐘??荚囆问綖殚_卷。經(jīng)過考試后的抽樣詢問,大部分學(xué)生表示能在規(guī)定時(shí)間內(nèi)完成試卷,說明時(shí)間分配和試題量是相符的,具體見表1。
從圖1的分?jǐn)?shù)分布來看,優(yōu)秀率(90分及以上)占9.7%,良好率(70—89分之間),占57%,及格率(60分及以上)占84.7%,不及格率(60分以下)占15.3%。數(shù)據(jù)基本符合正態(tài)分布的兩頭小、中間大的要求。
從試題的集中趨勢(shì)來看,結(jié)合圖2和其他數(shù)據(jù),如均值為75分,中位數(shù)為76.75,眾數(shù)為70,可以看出眾數(shù)、均值和中位數(shù)存在一定的差距,說明本次測(cè)試結(jié)果總體分布存在一定的負(fù)偏態(tài)。
從試卷的離散程度看,從全距、四分位全距和標(biāo)準(zhǔn)差來看,本次測(cè)試結(jié)果的離散程度較大。
利用α系數(shù)來計(jì)算信度,計(jì)算出該試卷的信度系數(shù)為0.752。通常Cronbach系數(shù)的值在0—1之間。如果α系數(shù)不超過0.6,一般認(rèn)為內(nèi)部一致信度不足;達(dá)到0.7—0.8時(shí)表示量表具有相當(dāng)?shù)男哦?。由此可見,該測(cè)試的信度較高。
2.效度。(1)內(nèi)容效度。內(nèi)容效度指測(cè)量工具內(nèi)容上(包括材料、題材、題目)的代表性或所選內(nèi)容樣本的充分性(Bachman,1990)。檢測(cè)試卷的內(nèi)容效度要看其考查內(nèi)容是否達(dá)到了它的考查目標(biāo)。從考題范圍上看,該試卷的內(nèi)容覆蓋了該學(xué)期教學(xué)大綱所涉及的內(nèi)容,考查了學(xué)生基本日常對(duì)話的口語能力以及自學(xué)能力。如對(duì)情態(tài)動(dòng)詞、第三格和第四格、完成時(shí)和過去時(shí)等語法的掌握,對(duì)Essen und Trinken、Wohnen in Deutschland、Kaufen und Schenken、Freizeit und Ferien主題下詞匯和句式表達(dá)的運(yùn)用,對(duì)以上主題的日常交際的掌握,所有材料的內(nèi)容覆蓋面廣,不過分集中于某一主題。從被測(cè)試的技能上看,測(cè)試了說、讀、寫的能力以及查閱文獻(xiàn)和自主學(xué)習(xí)的能力,都基本符合該門課程的測(cè)試目標(biāo)。所選材料和技能都在大綱規(guī)定的范圍內(nèi),具有內(nèi)容的關(guān)聯(lián)性,與教學(xué)大綱高度契合,說明了測(cè)試內(nèi)容的有效性。(2)結(jié)構(gòu)效度。在結(jié)構(gòu)效度上,采用了分項(xiàng)與整體分組之間的相關(guān)系統(tǒng)的計(jì)算進(jìn)行評(píng)價(jià)的方法。將學(xué)生總分和各個(gè)部分的成績(jī)輸入SPSS,計(jì)算出各部分之間的相關(guān)系數(shù),得出表2。從表2可以看出,學(xué)生總體得分幾乎與部分得分存在顯著相關(guān)性。編寫對(duì)話與其他題型相關(guān)程度不高,表明該題型與其他題型考查的語言能力存在較大差異,進(jìn)一步的研究發(fā)現(xiàn)編寫對(duì)話的短語和句式全部是課文對(duì)話練習(xí)中的句子,加上開卷考試的原因,那這部分考查的便不再是口語能力,而是運(yùn)用和改寫的能力。詞匯填空、語法選擇題、改寫句子之間存在高度相關(guān),說明這兩個(gè)題型考查的都是同一種能力,即基礎(chǔ)語言知識(shí)。對(duì)話填空和閱讀理解相關(guān)度不低,說明考查的能力存在一致性。(3)表面效度。該試卷干凈整潔、印刷清晰;試題編排從易到難;篇幅長(zhǎng)短合適,布局合理;主客觀題分開,便于改卷;試題題型常見,試題指令明確。因此,從卷面來看,具有表面可信度和公眾的可接受度,具有良好的表面效度。(4)真實(shí)性。真實(shí)性是指某一語言測(cè)試任務(wù)與實(shí)際語言運(yùn)用任務(wù)在特征方面的對(duì)應(yīng)程度。在討論語言測(cè)試時(shí),真實(shí)性永遠(yuǎn)是一個(gè)重要方面(Carroll,1980)。在本測(cè)試中涉及說、讀、寫的任務(wù)的設(shè)置,需要符合交際性測(cè)試的要求。在測(cè)試中,說、讀、寫的詞匯都是《大學(xué)德語課程教學(xué)要求》規(guī)定的范圍,內(nèi)容為日常生活范圍中句子結(jié)構(gòu)比較簡(jiǎn)單和情節(jié)不太復(fù)雜的對(duì)話和場(chǎng)景等,具有真實(shí)性。但是口語能力是以編寫對(duì)話的形式出現(xiàn),有所欠缺;閱讀材料雖然來源于現(xiàn)實(shí)的語言內(nèi)容,但是考慮到學(xué)生的詞匯和語法掌握程度,做了部分改編。
四、對(duì)試卷的改進(jìn)建議
1.調(diào)整題型。試卷中客觀部分占了約60%,雖然是出于語言知識(shí)有限的考慮,但是適當(dāng)增加主觀題數(shù)量和分值,能使主客觀題分布更合理,也可以避免閱卷的主觀性和偏頗性。
2.增加綜合性考試題型。雖然目前階段沒有針對(duì)二外德語的專業(yè)測(cè)試,但是無論是德語中的德??荚?、DSH考試還是大學(xué)德語登記考試,都明確要求學(xué)生具備在篇章層面上的理解和閱讀能力,考查考生對(duì)語言的整體掌握情況,而不是把某些知識(shí)作為單獨(dú)的部分進(jìn)行分散測(cè)試(翁震華,2016)。因此綜合性考試題型應(yīng)該作為語言考試中的主體,研究既有高效度又客觀的綜合性考試題是二外德語測(cè)試中必須加強(qiáng)的一方面。
3.增加口語考試。雖然口語考試組織的難度比較大,但是口語表達(dá)能力是反映學(xué)生整體語言能力的重要方面??谡Z考試部分的增加,會(huì)促進(jìn)學(xué)生對(duì)口語的重視,促使他們主動(dòng)練習(xí),從而全面提升語言應(yīng)用能力。
通過分析可以得出,該測(cè)試的信效度高,可以為其他二外德語測(cè)試提供借鑒。但是,測(cè)試本身在題型分布、設(shè)置上還存在欠缺,對(duì)口語部分的測(cè)試也需要增加。希望能夠有統(tǒng)一的二外德語的測(cè)試標(biāo)準(zhǔn)出現(xiàn),能指導(dǎo)教師在二外德語測(cè)驗(yàn)中的實(shí)踐。
參考文獻(xiàn):
[1]Bachman L.F.Fundamental COnsideration in Language Testing[M].Oxford,UK:OUP,1990.
[2]Carrol,B.J.Testing communicative competence[J].Annual Review of Applied Linguistics,1980.
[3]Morrow K.The evaluation of tests of communicative performance[A].In Mportl(Ed).Innovations in Language Testing[C].Londeon NFER/Nelson,1986.
[4]翁震華.德國(guó)“德語作為外語”測(cè)試的研究及其啟示——以入學(xué)德國(guó)高校德語考試為例[J].中國(guó)考試,2016.
[5]全國(guó)大學(xué)德語四、六級(jí)考試委員會(huì).大學(xué)德語四級(jí)考試大綱[M].上海:上海外語教育出版社,2010.
[6]教育部高等學(xué)校大學(xué)外語教學(xué)指導(dǎo)委員會(huì)德語組.大學(xué)德語課程教學(xué)要求[M].北京:高等教育出版社,2010.
[7]施俊,楊勇.基于統(tǒng)計(jì)軟件SPSS的試卷質(zhì)量分析[J].電腦知識(shí)與技術(shù),2017.
An Empirical Analysis of the Reliability and Validity of the German Language Test
—Taking the Final Examination of German as an Example
LV Liang-ping
(Zhejiang University of Water Resources and Electric Power,Hangzhou,Zhejiang 310018, China)
Abstract:This paper introduces the design of the final examination paper of German as a second foreign language in Zhejiang University of Water Resources and Electric Power,and verifies its reliability and validity,trying to provide suggestions for German teachers in the field of German as a second foreign language proposition.
Key words:language test;reliability;validity;empirical analysis