高黎 黃珊
(陸軍工程大學(xué) 基礎(chǔ)部,江蘇 南京210002)
軍隊院校外語教學(xué)新大綱要求,軍隊院校大學(xué)英語課程包括通用英語和軍事英語兩部分,本科生軍官學(xué)員在完成通用英語階段學(xué)習(xí)后繼續(xù)學(xué)習(xí)軍事英語,并達到軍事英語能力分級培養(yǎng)與考核二級標準的要求。新大綱還規(guī)定終結(jié)性考核為課終考試,考試不及格則課程成績記為不及格。然而,雖然有了明確的考核標準,軍隊院校尚未建立軍事英語試題庫,也沒有標準化的軍事英語考試可供參考。在缺乏統(tǒng)一題庫和標準卷作為參考的情況下,課程組自行命題的試卷是否覆蓋了教學(xué)大綱所規(guī)定的內(nèi)容?能否準確、科學(xué)地評價教學(xué)效果,形成良好的反撥作用?有必要對考試的信度和效度進行研究。
近年來有不少研究檢驗了不同層次、不同類型考試的效度,其中涉及大學(xué)英語的典型研究有大學(xué)英語四六級考試(楊惠中,1998)[1](55-184)、大學(xué)英語口語考試(楊惠中,1999)[2](48-57)、大學(xué)英語六級考試閱讀理解(劉娜,2014)[3](113-116)和大學(xué)英語課程期末考試(王天發(fā)等,2006[4](274-280);王篤勤,2010[5](13-20))等。但這些研究都圍繞通用英語考試而開展,鮮有涉及軍事英語課程考核的項目,更缺乏結(jié)合新大綱課程考核相關(guān)要求開展的研究,無法為軍事英語課程考核提供借鑒和指導(dǎo)。
信度指測試分數(shù)的可靠性,即測試結(jié)果是否反映了測試對象的實際語言水平[6](36-37)。測試的信度主要受試題本身的可靠性和評分的可靠性兩個因素的影響。試題本身是否可靠主要取決于試題的覆蓋面、數(shù)量和區(qū)分度等因素;評分是否可靠則看評分標準是否準確客觀。
效度,即語言測試的有效性,指一套測試是否達到了預(yù)定的目的及是否測量了要測量的內(nèi)容[6](38)。李筱菊將語言測試的效度分為內(nèi)在效度、外在效度、使用效度和超考試效度4大類[7](38-43),其中,內(nèi)在效度即測試本身的效度,包括結(jié)構(gòu)效度和內(nèi)容效度。本文主要分析考試的內(nèi)在效度。
某軍校大二年級共計1236名學(xué)員參加了大學(xué)英語III期末考試,大學(xué)英語III為軍事英語教學(xué)階段。本研究隨機抽取了全校7個專業(yè)217個學(xué)員的期末考試成績作為研究樣本。
研究試卷為該校二年級學(xué)員于2019年1月使用的一套期末考試卷。該試卷的目的主要是考查通用軍事英語知識和技能,具體包括:寫作、聽力、詞匯、閱讀和翻譯水平。題型與權(quán)重參考但不同于大學(xué)英語四級考試,包括五項測試任務(wù):寫作15%、聽力理解25%、詞匯25%、閱讀理解25%和翻譯10%。其中客觀題70道,占75%。主觀題6道,占25%。每份試卷都配有專用答題紙,客觀題采用機器閱卷,主觀題由教員通過網(wǎng)上閱卷系統(tǒng)集中批改。
研究工具包括數(shù)據(jù)統(tǒng)計軟件SPSS 26.0、Microsoft Word 2007和Flesch易讀度美國參考量表。
測試信度的系數(shù)以0.7—0.8之間為可接受性系數(shù),用SPSS 26.0計算出本套測試卷的Cronbachα值為0.757,達到可接受標準。
表1測試成績描述統(tǒng)計
圖1總分正態(tài)分布圖
從圖1可以看出,標準差小,總分偏度值-1.253,在正態(tài)分布圖上偏向右邊,說明結(jié)果偏易??偡址逯禐?.883,曲線分布過尖,分數(shù)集中在某些分數(shù)段,與聽力、詞匯兩項的分數(shù)分布情況有關(guān)(見下圖)。
圖2聽力題正態(tài)分布圖
圖3詞匯題正態(tài)分布圖
結(jié)構(gòu)效度是所有效度之本[7](38-43),核心是顯示分數(shù)意義及解釋的可靠性。結(jié)構(gòu)效度的高低可通過計算測試卷中各個項目的關(guān)聯(lián)性檢驗。本套期末測試卷的相關(guān)系數(shù)如表2所示:
表2 Pearson相關(guān)系數(shù)
根據(jù)經(jīng)典測試理論,因為總分是對語言能力的綜合測量[8](184),各題與總分的相關(guān)系數(shù)可能達到0.7或更高。從表2可看出這套試卷中各大題與總分在0.01水平上相關(guān)性顯著,相關(guān)系數(shù)分別為0.591、0.830、0.778、0.824和0.638,基本達到或接近經(jīng)典測試理論期望的指標。聽力、閱讀與總分之間相關(guān)性達到0.830和0.824,屬于高相關(guān),說明這兩項的得分情況最能體現(xiàn)學(xué)員的軍事英語水平。
測試項目之間的相關(guān)系數(shù)如果在0.9—1,說明相關(guān)性很高,0.7—0.9相關(guān)性高,0.4—0.7相關(guān)性中等,0.2—0.4相關(guān)性低,0.2以下則相關(guān)性可以置之不顧[9](191)。如兩題之間的相關(guān)系數(shù)過高,表明考查的是同一能力,保留一個即可。如兩題相關(guān)系數(shù)過低,則說明可能有語言之外的其他因素在起作用。本套試卷中各大題都在0.01水平上相關(guān),相關(guān)系數(shù)大都在0.4以上。寫作與詞匯、閱讀低相關(guān),分別為0.352和0.335,但與翻譯(0.426)的相關(guān)性有實質(zhì)意義,說明寫作任務(wù)完成得好的學(xué)員翻譯能力相應(yīng)更高。聽力與翻譯(0.393)低相關(guān),但與詞匯(0.575)和閱讀理解(0.520)實質(zhì)相關(guān),說明聽力水平與軍事詞匯和術(shù)語的積累量、語言理解能力相關(guān)度高。翻譯除與寫作相關(guān),與詞匯(0.479)、和閱讀理解(0.437)有實質(zhì)性關(guān)系,反映了翻譯這一綜合度高的語言能力與其他要素的關(guān)系。各大項之間的相關(guān)性較為理想。
內(nèi)容效度指測試內(nèi)容是否反映了既定的測試目的,測試內(nèi)容是否具有代表性,能否達到預(yù)期效果。內(nèi)容效度包括內(nèi)容的關(guān)聯(lián)性和內(nèi)容的覆蓋范圍兩個方面[9](114),因此可以教學(xué)大綱為依據(jù),檢驗測試的內(nèi)容效度。新大綱要求大學(xué)英語課程軍事英語教學(xué)階段按照軍事英語能力分級培養(yǎng)與考核要求的一級、二級標準實施。本學(xué)期是軍事英語學(xué)習(xí)的第一學(xué)期,期末時學(xué)員應(yīng)該達到一級標準的要求。
測試卷第一項是短文寫作。大綱的軍事英語能力分級培養(yǎng)與考核一級標準要求學(xué)員能就簡單的軍事話題在半小時內(nèi)寫出120詞的短文。試卷第一部分是寫作,要求學(xué)員針對“戰(zhàn)場上影響指揮官決策的因素”在30分鐘內(nèi)寫一篇不少于120字的文章。該題與軍事話題相關(guān),字數(shù)要求符合一級要求的標準。
軍事英語一級標準要求能聽懂語速較慢的軍事主題類談話,明確大致的思想和主要支撐性事實,語速為每分鐘90詞左右。試卷第二項聽力理解包括單選、判斷正誤和聽寫三種題型。第一題是一篇關(guān)于巡邏路線和任務(wù)部署的短文,語速為每分鐘122詞,題型為單項選擇。第二題是一段關(guān)于聯(lián)合國維和任務(wù)發(fā)展歷程的介紹,語速為每分鐘102字,題型為判斷正誤。第三題是聽三段短文或?qū)υ捦瓿蓡卧~聽寫,分別是一段介紹一項名為Bright Star的國際聯(lián)合軍演的短文、一段巡邏過程中發(fā)生的電臺通信對話和一段維和人員在護送過程中被身份不明人員攔截后產(chǎn)生的對話,語速分別為每分鐘110字、95字、204字。內(nèi)容上符合大綱關(guān)于“軍事背景下日常生活、訓(xùn)練相關(guān)”的要求,但語速遠超一級標準要求的每分鐘90詞的標準,接近甚至達到了二級標準的每分鐘120詞,最后一個對話甚至遠超四級要求每分鐘160詞—180詞的標準。但因為所有聽力材料均來源于教材,甚至為課堂講授過的聽力材料,而且聽寫任務(wù)中考生可以聽三次短文或?qū)υ挘Z速過快造成的困擾可以得到緩解。雖然課程考試題較之教材原題做了一定的改編,但使用教材聽力內(nèi)容作為試題導(dǎo)致測試受記憶干擾過大,導(dǎo)致該題區(qū)分度小,影響全卷成績的正態(tài)分布。
試卷第三項是詞匯,包括根據(jù)縮略語默寫術(shù)語和術(shù)語中譯英兩部分,考查的均為軍事核心詞匯和術(shù)語,內(nèi)容符合新大綱的要求。但兩道題都只考察了詞匯和術(shù)語的拼寫,不能測試學(xué)習(xí)者能否正確使用核心詞匯和短語,結(jié)果偏易,區(qū)分度過低,導(dǎo)致正態(tài)分布負偏態(tài)向右偏移。
試卷第四項是閱讀理解。考生需要閱讀三篇短文,分別關(guān)于護送任務(wù)中指揮官的職責(zé)、戰(zhàn)爭原因、維和任務(wù)基本原則,長度分別為177詞、348詞和155詞,分別采取選詞填空、常規(guī)仔細閱讀和簡答題的形式。測試目標符合新大綱對“掌握中心大意、理解主要事實和重要細節(jié)”的要求。三篇短文的體裁包括敘述文、說明文和議論文,話題涉及軍事背景的不同主題,符合大綱要求。為測定語篇的易讀度,本文參考了Flesch易讀度指數(shù)(Flesch Reading Ease)公式和易讀度美國參考量表,三篇短文的易讀度分別為40.7、61.3和35.8。根據(jù)Flesch易讀度參考量表[10](211-233),分值為60—70的是“標準”閱讀材料,有該等級閱讀能力的人相當(dāng)于美國7年級—8年級的學(xué)員,在美國成年人中所占比例為80%;30—50是“難”的閱讀材料,有該等級閱讀能力的人相當(dāng)于美國大學(xué)生的閱讀水平,只有24%的美國成年人具備該等級閱讀能力。由此可見,此次測試的語篇對大二學(xué)員偏難。10道考題中,考查主旨大意1題,作者態(tài)度1題,推測判斷2題,猜測詞義1題,事實細節(jié)5題,覆蓋了不同閱讀技能。但是其中3題只考單句理解能力,另有2題只需依賴尋讀(scanning)就能迅速找到答案,使得考生在不需理解文章的情況下就能完成試題,影響該項目的效度。
表3 Flesch易讀參考量表[8](184)
語言測試的基本要求就是保證信度和效度。這套軍事英語課程考試卷的信度和效度雖然基本符合要求,但是存在一些問題。一是部分項目未能考查受試者的實際語言能力,測試成績受到非語言因素影響,區(qū)分度不高。二是個別項目難度設(shè)置不符合要求,影響測試的效度。
導(dǎo)致試卷信度和效度受影響的因素比較復(fù)雜。一方面,軍隊院校大學(xué)英語課程內(nèi)容的改革實踐過程較短,教學(xué)團隊尚未積累足夠的軍事英語教學(xué)資源。通用英語教學(xué)中,得益于長期教學(xué)的豐富積累,教學(xué)團隊可以根據(jù)需要選取資源,滿足日常教學(xué)與測試的需要。各課程團隊軍事英語教學(xué)時間較短,教師經(jīng)驗不足,教學(xué)資源短缺,團隊在教學(xué)中經(jīng)常面臨“巧婦難為無米之炊”的窘境,導(dǎo)致考試命題選材難度不當(dāng)?shù)膯栴}。另一方面,由于尚未形成軍事英語課程試題庫,缺乏標準卷作為參考,課程考試依賴教學(xué)團隊自行命題,質(zhì)量受到命題人語言測試研究水平、對課程大綱考核要求理解偏差等因素的影響,在測試內(nèi)容、題型的選擇上,未能有效檢測考生的軍事英語應(yīng)用能力,干擾考試信度和效度。
為了解決上述問題,需要課程團隊重視語言測試理論研究,做好相應(yīng)的預(yù)測和調(diào)研工作,遵循語言測試的命題原則,把握好課程考試的信度和效度,不斷提高測試質(zhì)量,使測試結(jié)果能夠準確評價學(xué)員的軍事英語能力,科學(xué)地反饋教學(xué)效果,對教學(xué)形成良好的反撥作用。與此同時,建立軍事英語課程試題庫的任務(wù)刻不容緩。課程組要以語言測試理論為指導(dǎo),根據(jù)教學(xué)大綱建立重點突出、難度分級,覆蓋面、題型、題量滿足課程考核要求的試題庫,為規(guī)范化、標準化的課程考試提供保障。