甘 橋, 楊 英, 李亞琪
(西安交通大學 外國語學院, 陜西 西安 710049)
完型填空是語言測試中一種極為常見的題型,考察應試者的詞匯、句法、語用等語言知識,以及推理、判斷、連貫等答題技能,對于英語專業(yè)四級水平測試而言,完型填空是構成該試題的重要組成部分[1]。完型填空是由Taylor(1953)首次設計使用,主要是為了測試文章的可讀性[2]。Hofman & Habib-Allah (1982)指出完型填空具有出色的區(qū)分度,有利于區(qū)別學生的語言學能[3],Boyle & Falvey (1994)進一步指出完型填空涉及語用層面,在測試學生的語言學能力方面有很高的信效度[4]。2016年英語專業(yè)四級的新一輪改革,將完型填空的題型由多選式變?yōu)榱思瘞焓?,試題數(shù)量由以往的20題減少為10題,試題內容增加了開放性。至于本研究中完型填空的具體分類和學科屬性,何蓮珍(1999)指出多項選擇式和集庫式完型填空均為選擇性完型填空試題類型[5]。多項選擇式完型填空指的是每個題目有4個選項,但只有一個最佳答案,該類完型填空具有較高信度,但是效度較缺乏,因為選項分布范圍較小,集中于一道題目,猜測度大幅提高,即猜測度的客觀存在難以區(qū)分不同水平的學生,不利于測試的公平性。而集庫式完型填空是答案以單詞或短語的形式存在于答案框,由學生通讀全文進行選擇,答案框里的單詞或短語數(shù)目往往多于題目數(shù),以便增加題型的區(qū)分度,減少猜測度。該類題型將試題的區(qū)分度和猜測度做了平衡,能增加難易度的合理性[6],理論上應當具有更高的信效度,而實際是否如此呢?本研究通過48位被試的實驗數(shù)據進行詳盡探討。
1)這兩種不同類型的完型填空對考生的表現(xiàn)有影響嗎?
2)多項式選擇完型填空和集庫式完型填空兩者的信效度有否不同?
3)與多項式選擇完型填空相比,集庫式完型填空是否能更好地測量學生的英語語言能力?
實驗設計時對被試的基本選取條件是未通過英語專業(yè)四級,因此處于大二年級第一學期的70位被試收到邀請參加了該項實驗,每位被試要求完成兩個問卷和改革前后的兩套試題,限時30分鐘,由于有些被試未能完成整套試題,有些未及時反饋等原因,最終有效數(shù)據為48份,平均年齡20歲,平均英語學習年限為14年,其中少數(shù)民族學生4位,漢族學生44位,因為英專學生的分布現(xiàn)狀是女生多于男生,因此此次實驗被試男生14名,女生34名,性別并不是本研究要考慮的因素,便不會對研究結果有干擾影響。
研究采用了試題+問卷的模式進行實驗操作,以便進行更為全面的調查。每份試題包括背景信息問卷、改革前后的兩套試題和難易度問卷三個部分構成。其中背景信息問卷主要內容為性別、年齡、年級、民族、英語學習年限、高考英語成績、目前所獲英語等級證書等。
改革前后的試題選擇了2015年(15分鐘完成)和2016年(10分鐘完成)兩年專業(yè)四級考試真題,而難易度問卷主要是測試學生的難易感知是否與測試結果匹配,要求被試在完成兩套試題后完成,完成三個問題:1)以上兩篇完型填空,哪一篇難度更大?A.第一篇 B.第二篇;2)以上兩篇完型填空,你覺得哪一篇更能測試出你的完型填空解答能力?A.第一篇B.第二篇;3)以上兩篇完型填空的題目型式,哪一篇更符合你完型填空的做題習慣?A.第一篇B.第二篇。
實驗數(shù)據采用Rasch模型多層面分析軟件FACETS[7]以及SPSS 23.0進行測算,以便客觀的對比兩種完型填空試題的信效度。
1)題目難度
由表1可知題目難度介于-3.07~3.23之間,分別對應第15題和第9題,表明第15題最難而第9題最簡單。擬合度的值表明第6題的難度是可接受的,而第6題則過度擬合,過度擬合的測驗表明兩個可能的結果:該題目難易度不理想或者該題目的測試內容獨立于考生的語言能力,不具有針對性。此外,測試者的能力介于-0.87~5.17之間,橫跨8個單位,表明該套試題的區(qū)分度是較為理想的。在48位考生中,第21位表現(xiàn)最出色,獲得該套試題的滿分,然而第11位表現(xiàn)最弱,只做對了35%的題目。
2)區(qū)分度
表1題目難易度分布
表2 試題與考生的擬合度
學生序號內部擬合均值外部擬合均值內部擬合t值外部擬合t值學生序號內部擬合均值外部擬合均值內部擬合t值外部擬合t值271.419.900.74.4370.710.53-1.2-0.8311.782.522.31.730.550.12-0.4-0.6381.662.362.32.590.550.12-0.4-0.6421.102.260.41.3240.490.40-2.4-1.6……………190.430.36-2.9-1.850.740.48-0.9-0.6均值0.970.970.10.3160.740.48-0.9-0.6標準誤0.371.220.80.6410.740.58-1.1-0.9
通過考察試題和考生的擬合度能夠準確的測量試題的區(qū)分度,即試題多大程度上能反映考生的真實學能,將不同實力的考生區(qū)分開來,使得考生成績更具有效度。由表2可知11個考生內部擬合均值超出了0.75~1.3的可接受范圍,而第31位、第38位、第24位和第19位考生的非擬合值最高,試題的構念效度未能有效體現(xiàn),然而試題的區(qū)分度對于其余考生而言是有效的。
綜合以上多項選擇式完型填空實驗的數(shù)據,結果顯示個人能力的值在-0.87~5.17,題目難易度在-3.07~3.23,得滿分的可能性低于50%,27位考生的分數(shù)呈現(xiàn)不同分區(qū)。試題的區(qū)分度整體較為理想,但是第6題過度擬合。
為了比較相同考生在多項式選擇完型填空和集庫式完型填空兩種題型上的不同表現(xiàn),基于Rasch模型我們進一步對集庫式完型填空的不同指標進行對比匯報。
表3題目難易度分布
由表3可知題目難度介于-1.48~1.41之間,分別對應第7題和第4題,表明第7題最難而第4題最簡單。擬合度的值表明第6題和第9題的難度是不可接受的,因為它們的內部擬合MNSQ值超出了0.75~1.3的合理值范圍,此外它們的t值也未介于-2~2之間,因此這兩道題的構念效度不夠理想,試題質量較差。此外,測試者的能力介于-1.5~1.5之間,橫跨8個單位,表明該套試題的區(qū)分度是較為理想的。在48位測試者中,第3位、第9位、第14位、第15位和第21位考生表現(xiàn)最出色,獲得該套試題的滿分,然而第38位考生表現(xiàn)最弱,一道題也沒有做對。
表4 試題與考生的擬合度
由表4可知9個考生內部擬合均值超出了0.75~1.3的可接受范圍,只有第39位同學的非擬合值超出了-2~2,試題的構念效度未能有效體現(xiàn),而多項選擇式完型填空有4位同學的擬合度不夠理想,相對而言,集庫式完型填空的構念效度更好。
對比兩類完型填空的實驗數(shù)據不難發(fā)現(xiàn)集庫式完型填空的極值多于多項式選擇完型填空,其中5位考生獲得了集庫式完型填空試題的滿分,1位考生獲得0分,而僅1位考生獲得了多項式選擇完型填空的滿分且無人獲得0分,由此可知多項式選擇完型填空的難度高于集庫式完型填空且區(qū)分度不如集庫式完型填空理想,當考生在完成多項式選擇完型填空時,因為每道題有獨立的4個選項作參考,試題的猜測度則更大,不利于真實區(qū)分考生的語言能力。
此外,兩種完型填空數(shù)據的配對樣本t檢驗結果具有顯著性,即同一群體考生完成兩種類型的完型填空試題,所得分數(shù)顯著不同,如表5所示。
表5 配對樣本t檢驗結果
與多項式選擇完型填空相比,集庫式完型填空中個人能力與試題難度的關系更加緊密,表明區(qū)分度更好,然而實驗結果表明目前使用的集庫式完型填空題目數(shù)量偏少,10道題不足以有效反映考生的語篇閱讀能力,給該類完型填空的信效度帶來負面影響,因此后續(xù)英語專業(yè)四級水平測試中可以考慮繼續(xù)使用集庫式完型填空,但是應當增加題目數(shù)量,以便更好地實現(xiàn)試題的構念效度,將難易度、區(qū)分度和猜測度有效平衡,達到更合理的完型填空測試目標。
本研究通過系列實驗,基于Rasch模型進行了數(shù)據的信效度分析,探討了多項式選擇完型填空和集庫式完型填空的異同,是英語專業(yè)四級完型填空改革后的首項實驗對比研究,對于后續(xù)的完型填空試題構念設計具有重大理論和實踐指導意義,有助于考生更有針對性地準備英語專業(yè)四級水平測試[8],也有利于出題者掌握改革前后考生的不同表現(xiàn)進行試題的調整和改進。然而由于此次實驗被試樣本量偏小,研究結論的普遍性不足,后續(xù)研究可通過增加被試數(shù)量并對比影響完型填空構念效度的因素,如被試英語學習時長、測試時間、性別、認知風格等來進一步完善實驗設計,提升研究結果的可推廣性。