鄭靜靜
(鄭州成功財經(jīng)學(xué)院,河南 鞏義 451200)
TEM8人文知識測試構(gòu)念效度研究
鄭靜靜
(鄭州成功財經(jīng)學(xué)院,河南 鞏義 451200)
本文在測試使用論證理論的指導(dǎo)下,在新的統(tǒng)一效度的框架下,對英語專業(yè)八級新增人文知識題目從難度、區(qū)分度、信度、公正性和考點分布等方面進行構(gòu)念效度分析.
人文知識;構(gòu)念效度;AUA框架
從2005年起的英語專業(yè)八級考試(簡稱TEM8)在測試內(nèi)容方面新增加了人文知識項目. TEM8作為以全面檢查已完成英語專業(yè)高年級階段課程的學(xué)生的語言能力、語言知識和專業(yè)知識為目標(biāo)的大規(guī)模高風(fēng)險型考試,其改革必將對學(xué)生、學(xué)校和社會都要產(chǎn)生很大影響.因此,對其考試效度的檢驗顯得至關(guān)重要.
測試使用論證理論框架(簡稱AUA)(Bachman,2005)是從哲學(xué)方法論的角度入手,對測試有用性模型(Bachman,1996)的發(fā)展和補充.該框架既涵蓋了原框架的主要內(nèi)容(信度、構(gòu)念效度、真實性、互動性、影響和可行性),也使這些要素在新框架內(nèi)形成相互關(guān)聯(lián)的有機整體.它對提升語言測試的設(shè)、開發(fā)和使用都具有非常重要的指導(dǎo)意義.本文正是在測試使用論證理論的指導(dǎo)下,對英語專業(yè)八級人文知識測試部分的構(gòu)念效度進行研究分析.
效度檢驗是確保對考試分?jǐn)?shù)的合理使用和基于考試分?jǐn)?shù)的推斷有意義的重要手段.根據(jù)Bachman(1996),考試效度驗證主要集中在構(gòu)念效度、信度、互動性、真實性、影響和可行性方面.在這種傳統(tǒng)的效度概念中,效度被分為相互獨立的部分,而構(gòu)念效度只是其中之一.這種分類存在一定欠缺,缺乏對分?jǐn)?shù)使用的社會后效以及分?jǐn)?shù)的社會決策意義的考察(Messick,1995).本研究采用的是新的統(tǒng)一的構(gòu)念效度,它是一種綜合效度概念,彌補了傳統(tǒng)的效度概念的不足,擴充了其內(nèi)涵和外延,既對分?jǐn)?shù)的意義進行解釋,也研究測試使用的社會價值.
公正是效度的重要方面.因此,測試開發(fā)者有責(zé)任對考試分?jǐn)?shù)偏差進行分析.本研究采用項目差異功能(簡稱DIF)來測量考試分?jǐn)?shù)偏差.TEM8是全國性考試,考生來自于不同背景,而這些背景可能會影響其分?jǐn)?shù).因此,對新增加試題的項目差異功能的分析對于保證考試公平性具有重要意義.
3.1 研究目的
本研究探索所研究TEM8人文知識試題的構(gòu)念維度并探究其分?jǐn)?shù)的意義;評估TEM8人文知識部分?jǐn)?shù)據(jù)的構(gòu)念是否在不同的考生群體中保持一致;檢查人文知識部分試題對于不同類別的考生的公正性;分析2011至2013年的人文知識試題的考點,檢驗其內(nèi)容效度.
3.2 研究樣本
本次研究以參加2013年3月舉行的英語專業(yè)八級考試的河南省內(nèi)部分高校的部分考生為樣本,這些考生分別來自于不同類型的高校,分為綜合性、理工類、師范類、外語類和其他.
3.3 研究數(shù)據(jù)
本研究的數(shù)據(jù)包括兩個方面,一是2011至2013年的英語專業(yè)八級人文知識測試真題;二是由考試中心提供的2013年考生專八成績的原始數(shù)據(jù).對前者進行內(nèi)容考點分布即內(nèi)容效度的研究.對后者采用數(shù)據(jù)分析方法,提供效度依據(jù).
3.4 分析過程
本研究中,構(gòu)念一致是指測驗的分?jǐn)?shù)在所有考生群體中具有相同的意義.數(shù)據(jù)分析分為以下步驟:(1)探索該分測驗試題的難度系數(shù)及其相關(guān)系數(shù);(2)對該分測試的分?jǐn)?shù)的一致性及信度進行比較分析;(3)對不同考生在此測試題上的的項目功能差異進行分析,探究考試的公正性;(4)對2011-2013年的人文知識題目的測試內(nèi)容進行考點分析.
4.1 難度系數(shù)及不同學(xué)校類型考生間難度相關(guān)系數(shù)
本研究用分測試10個題目在不同類型學(xué)校的項目難度系數(shù)來代表的是來自某類院校的考生答正確某試題的比例,與試題的難易程度成反比.根據(jù)數(shù)據(jù)統(tǒng)計結(jié)果,該分測試的10個題目之間難度系數(shù)存在一定差異,在所有參照考生中,難度系數(shù)在0.429到0.901之間,平均難度為0.654,難度的標(biāo)準(zhǔn)差為0.110.這說明,試題整體上不難,試題間難易程度相差較大.
由不同院校類型間的難度系數(shù)的相關(guān)系數(shù)數(shù)據(jù)分析得知,其值都在0.9以上,說明試題難度在不同類型院校間相關(guān)度較高,即同一道試題對于不同學(xué)校的考生的難易程度相同.
4.2 信度比較
題目的信度在測量學(xué)意義上是指分?jǐn)?shù)的一致性.本研究的信度指的是人文知識不同題目間的內(nèi)部一致性系數(shù),表示的是題目同質(zhì)性的程度,用α系數(shù)表示.
表1 難度系數(shù)的相關(guān)
表2 人文知識題目內(nèi)部一致性系數(shù)
從上表可以看出,整體考生的α系數(shù)僅0.5125,偏低,說明人文知識測試不同題目間的的內(nèi)部一致性偏低,α系數(shù)的范圍介于0.5432和0.4675之間,說明不同院校類型間此方面差異不大,從而說明證明該分測量的在不同類型院校較穩(wěn)定. 4.3項目差異功能分析
為了確??荚嚨墓?,本研究對不同背景不同專業(yè)類型的考生進行項目功能差異分析.STD P-DIF取值范圍為{-1,1},其中在{-0.05,+0.05}范圍內(nèi)的值被看做有細(xì)微差異,取值范圍在{-0.10,-0.05}和{0.05,0.1}兩個范圍內(nèi)就要引起注意,而如果所得值在{-0.1,+0.1}以上,被視為異常,該項目功能就需要仔細(xì)審查.其中而負(fù)值表示題目對目標(biāo)組不利,正值表示題目對參照組不利.
分析結(jié)果如下:
按照專業(yè)類型,有四道試題的STD p-dif統(tǒng)計量為負(fù)數(shù),表明這些題目對目標(biāo)組(外語院??忌?不利,而其他試題的STD p-dif統(tǒng)計量為正數(shù),對參照組(非外語院??忌?不利,但沒有在(-0.1,+0. 1)以上的值,不利程度不大.按照專業(yè)類型分析,從上表可以看出,大部分題目的DIF值為正數(shù),說明大部分題目對目標(biāo)組(外語專業(yè)本科)有利,也沒有在(-0.1,+0.1)以上的值,說明這種有利性不顯著.這說明不同學(xué)校類型、不同專業(yè)類型的考生在該分測試上也沒有明顯的項目功能差異存在,該分項測試具有對于不同背景的考生是公正的.
表3 人文知識分測量STD p-dif統(tǒng)計量
4.4 考點分布
本研究分析了近三年英語專業(yè)八級的考點分布,其結(jié)果如下表:
以2011、2012、2013年TEM8真題為例,2011年10道選擇題中人文地理知識共占3道,文學(xué)知識占4道,語言學(xué)知識占3道;2012年10道選擇題中人文地理知識占4道,文學(xué)知識占2道,語言學(xué)知識占4道;2013年10道選擇題中人文地理知識占4道,文學(xué)知識占3道,語言學(xué)知識占3道.通過此部分近三年的TEM真題可以看出,人文知識、文學(xué)知識以及語言學(xué)知識這三部分的分值比重并不固定,在內(nèi)容方面,人文地理主要考查美國、英國、澳大利亞、加拿大、新西蘭等國家概況,文學(xué)方面主要考查小說和詩歌,尤其偏重英美作家作品,語言學(xué)方面題目近三年涉及較多的是社會語言學(xué)和詞匯學(xué),也考察了語音學(xué)、形態(tài)學(xué),甚至近些年比較熱門的認(rèn)知語言學(xué)也在考察范圍之內(nèi).這些考題的設(shè)計,內(nèi)容廣泛,層次多樣,滿足了《考綱》對此部分考查目的的要求.通過這一部分的測試,能夠有效檢測出考生的人文知識掌握能力.
表4 2011年至2013年八級考試人文知識試題題目的考點分布
研究發(fā)現(xiàn),TEM8人文知識測試的大部分題目難度不高,題目區(qū)分度不顯著,內(nèi)部一致性偏低;對不同群體測試的構(gòu)念一致;在項目功能差異方面該測試對不同院校不同專業(yè)的考生差異表現(xiàn)不明顯,說明考試具有較高的公平、公正性;在構(gòu)念維度方面,人文知識考試包括三個維度,即英語國家概況、語言學(xué)和英美文學(xué),這與《考試大綱》要求相符;內(nèi)容方面,英語國家概況比較偏重地理的考察,文學(xué)方面對于英美作家作品的考察較多,語言學(xué)方面偏重對于社會語言學(xué)和語音學(xué)方面的考察.
本研究是在Bachman測試使用論證的指導(dǎo)下對英語專業(yè)八級人文知識試題的構(gòu)念效度進行分析,研究結(jié)果對于考試的設(shè)計和改革具有一定的參考價值,對于語言測試的效度驗證也有一些參考意義.但由于受客觀條件的限制,本研究在操作方面存在一些局限,比如抽樣只局限在河南省的部分高校,試題范圍只是近三年的專八試題,研究結(jié)果具有一定的實際意義但代表性不夠等,需要更多研究者加以完善.
〔1〕Bachman,L.F.,&Palmer,A.(1996).Language testing in practice.Oxford:Oxford U-niversity Press.
〔2〕Bachman,L.F.(2005).Building and supporting a case for test use.Language Assessment Quarterly,2(1),1-34.
〔3〕Messick,S.(1996).Validity and Washback in Language Testing.Princeton:ETS.
〔4〕高等英語專業(yè)八級考試大綱修訂小組.高等英語專業(yè)八級考試大綱(2004年新版)[Z].上海:上海外語教育出版社,2004.
〔5〕鄒申.TEM考試效度研究[M].上海:上海外語教育出版社,1997.
H319
A
1673-260X(2014)07-0256-03
河南省社科聯(lián)、河南省經(jīng)團聯(lián)2013年度調(diào)研課題(SKL-2013-1525)