亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

高考語文作文試題的城鄉(xiāng)公平分析

2018-05-03 07:08:18黃曉婷韓雨婷吳方文

中國考試 2018年2期

黃曉婷韓雨婷吳方文

（1.北京大學，北京 100871；2.北京師范大學，北京 100875；3.華東師范大學，上海 200062）

1 研究背景

近年來，社會對高考公平性的關(guān)注已經(jīng)逐步由程序公平擴展到了考試內(nèi)容對不同群體學生是否公平上來。特別是高考語文作文題的公平性，曾引起媒體的熱議。例如，2015年的陜西省高考語文作文題為就女大學生舉報在高速路上違反交規(guī)的父親引發(fā)的爭議，給女兒、父親或其他相關(guān)方寫一封信。有一種觀點認為這道題對于不了解高速公路及高速上不能打手機等規(guī)定的農(nóng)村學生不公平。

國際上已有很多成熟的統(tǒng)計模型來估算試題對于不同群體難度是否存在顯著差異。項目功能差異（Differential Item Functioning,DIF）檢驗[1]是最合適、也是目前最常用的鑒別試題是否存在對某些群體不公平情況的方法。具體來說，DIF是指不同群體（如不同性別、族裔或地區(qū)等）的被試，在能力相同時，在某試題上得分幾率的差異。當差異較大時，即DIF指數(shù)的絕對值在統(tǒng)計上顯著大于臨界值時，被試在該題上的得分就不僅僅取決于他/她的知識或能力，而是在很大程度上還取決于被試所屬的群體，該題對不同的群體就不公平。例如，在上面提到的作文題中，如果學生得分的高低僅與其作文水平相關(guān)，則試題沒有DIF；但如果學生因為生活在偏遠農(nóng)村，不熟悉高速公路等背景知識，從而無法正常完成作文，則可能出現(xiàn)顯著的DIF。

實際上，在國際上較為知名的大型標準化考試中，計算項目的公平指數(shù)已經(jīng)是題庫建設(shè)和維護的一項常規(guī)性工作，但我國在這方面的實證研究還較少。其中一個重要的原因在于已有的統(tǒng)計模型都是針對國外標準化考試的，試題絕大部分為客觀題（如單項選擇題、是非判斷題等），且試題的評分等級通常只有5個左右。而在我國的高考中，主觀題占據(jù)了相當?shù)谋戎?，且評分等級常常多達20個，作文題的評分等級理論上多達61級，數(shù)據(jù)結(jié)構(gòu)與國外標準化考試存在顯著的差異。因此，已有的統(tǒng)計方法不一定適用。針對上述問題，本研究先通過模擬實驗，從已有的DIF檢驗方法中甄選出最優(yōu)方案，再以2015年語文高考的實證數(shù)據(jù)為例，檢驗作文的城鄉(xiāng)公平性。

2 研究方法

目前，國際上已經(jīng)有很多種計算DIF的方法，各種方法都有以下步驟：

第一步，獲得測試數(shù)據(jù)。

第二步，明確要對比的群體，即目標組和參照組。

第三步，確定匹配變量。由于DIF不是直接對比兩組被試的得分高低，而是對比不同組中能力相同的被試在某道試題上的得分情況，因此，需要先估算被試的能力，再對同樣能力的被試進行對比。被試能力，通常就是DIF分析中的匹配變量。匹配變量有兩類：測驗總分（即原始分），或是由項目反應模型（item response model）估算的被試的潛在真實能力（即潛變量）[2]。

第四步，估算DIF指數(shù)。根據(jù)是否使用項目反應理論或其他測量模型，檢驗DIF的方法可以相應地分為兩類：參數(shù)檢驗方法（使用項目反應理論或其他測量模型的方法）和非參數(shù)檢驗方法（不使用項目反應理論或其他測量模型的方法）。表1展示了每個類別中的一些常用的檢驗方法。

表1 常見DIF檢測方法

第五步，對于統(tǒng)計方法識別出來的有顯著DIF的試題，還需要進一步分析可能的原因和對應的修改辦法。

表1中羅列的方法都適用于一般標準化考試中的選擇題和分步計分題。但是要用來分析高考作文題時，需要先解決兩個問題。

第一個問題是找到匹配變量。過去的標準化考試往往是單一維度的，也就是說所有的試題都在測量同一種潛在能力。此時，匹配變量可以采用總分或由項目反應理論計算出的潛在能力①有一些方法會多次循環(huán)，排除所有有DIF的試題，用DIF-free的試題作為匹配變量。。近年來，越來越多的測試是多維度的。當每個維度有相當數(shù)量的試題時，研究者可以用該維度的總分或該維度能力潛變量估值作為匹配變量。在高考語文中，測試學生作文能力的題僅有1道作文題。如果簡單地用語文總分或語文能力潛變量，很可能無法較為準確地匹配能力相同的考生。當測試中沒有相同類別的試題時，匹配變量只能用所測能力最接近的試題組來代替。除作文題外，高考語文試卷在內(nèi)容上還包含閱讀和表達兩大類；從題型來說，也有選擇題和開放題②不含默寫式的填空題。兩類。我們分別計算了不同內(nèi)容的得分、不同題型的得分與作文得分的相關(guān)系數(shù)，結(jié)果如表2所示。從表2可以看出，開放題與作文成績的相關(guān)性最高，基本達到了匹配變量的使用標準，因此，我們將12道開放題的成績（或由此估算出的潛在能力）作為匹配變量。

表2 不同內(nèi)容、題型與作文題得分的相關(guān)系數(shù)

第二個問題是模型是否能處理多評分等級的項目。在常見的標準化考試中，單項選擇題是0/1計分，分步計分題大多數(shù)采用0～5之間的整數(shù)，很少有超過10個分值級別的。但在高考作文中，總分為60分，理論上就有61個評分等級。在已有的理論研究和實證分析中，尚未嘗試過分析這種形態(tài)的數(shù)據(jù)。因此，我們無法直接判斷哪種模型能最精確地檢驗出DIF。

為了選出檢驗高考語文作文題是否存在DIF的最佳方法，我們從不同參數(shù)類型和匹配變量類型中，各選取1～2種較為常用的方法，通過模擬研究，來比較哪種方法能更靈敏、更精確地檢測出類似高考作文分數(shù)的數(shù)據(jù)中的DIF。具體來說，我們選取了以下 4 種 DIF 檢驗的方法：P-MH[3]、P-STND[4]、P-SIBTEST[5]和基于PCM（Conquest內(nèi)置）的DIF檢驗方法[6]。

在模擬研究中，除了這4種方法外，還有2個重要的控制條件。一是DIF的大小。由于不知道高考作文題是否存在DIF或DIF的效應值多大，我們設(shè)定了3種情況，即很?。珊雎?，效應值為0.1）、中等大?。ㄐ禐?.5）和嚴重DIF（效應值為0.8）。第二個控制條件是試題的評分等級數(shù)。高考作文題雖然理論上有61個等級，但在實際測試中，并非所有等級都會被經(jīng)常使用。沒有使用到或很少被使用的分數(shù)等級往往會被合并。因此，我們在模擬研究中也設(shè)置了3種不同的分數(shù)等級：10（0～9分）、21（0～20分）和41（0～40分）。這樣，結(jié)果對于其他10～20級評分的開放題也有借鑒意義。綜上，模擬研究采用了4×3×3的完全隨機設(shè)計（即4種DIF檢驗方法、3種DIF大小、3種分數(shù)等級）。

模擬過程如下：

1）參考高考試題的難度分布，固定20個項目的難度參數(shù)。

2）將其中1題設(shè)為作文題，分別加上0.1、0.5和0.8的DIF。

3）隨機生成16 524個被試的能力參數(shù)（同實證數(shù)據(jù)的樣本量），隨機將1/3的被試分為目標組（農(nóng)村），2/3為參照組（城市）。

4）根據(jù)被試能力、組別和項目難度，生成作答數(shù)據(jù)。

5）采用傾向性匹配法，根據(jù)“作文題”以外的19道題的得分情況，將兩組被試進行匹配。

6）隨機抽樣。當樣本量太大時，任何微小的差異都會被檢測出來，從而放大“Ⅰ類錯誤”的概率。因此，樣本量并非越大越好。根據(jù)董圣鴻等人的模擬研究[7]，SIBTEST方法的樣本量在1 000～2 000時，就能得到很好的DIF檢出效果。因此，本研究對能力匹配后的5 718對樣本進行隨機抽樣，最后得到1 000對樣本（城鄉(xiāng)被試各1 000人）。

7）分別采用 P-MH、P-STND、P-SIBTEST和Conquest內(nèi)置DIF檢驗方法，對隨機抽樣得到的作答數(shù)據(jù)進行DIF檢驗，記錄每一次運算的結(jié)果。

8）在每種條件下（4×3×3，共36種），重復試驗100次。

在得到對模擬數(shù)據(jù)的DIF檢驗結(jié)果后，我們依據(jù)該方法犯“Ⅰ類錯誤”概率和統(tǒng)計檢驗力來比較4種方法的優(yōu)劣。所謂“Ⅰ類錯誤”，就是指把一些沒有DIF的項目錯誤地檢測為存在DIF的情況。如果某種DIF檢測方法犯“Ⅰ類錯誤”的概率較高，那么這種方法會把某些高質(zhì)量的、沒有DIF的項目誤判為存在DIF，對DIF真正原因的檢測帶來很大的困擾。統(tǒng)計檢驗力則是指某種方法正確檢驗出實際存在DIF的能力。

在模擬研究中，我們主要采用統(tǒng)計軟件R和項目反應模型軟件ConQuest來進行數(shù)據(jù)分析。其中，使用P-MH和P-STND方法時，采用了R語言的自編程序；使用P-SIBTEST方法時，采用了R語言中的mirt包；使用基于PCM的方法時，采用了ConQuest軟件。

3 模擬研究結(jié)果分析

模擬研究的結(jié)果見表3～表5。表3展示了當DIF很小，在統(tǒng)計上可以忽略不計時，4種方法犯“Ⅰ類錯誤”的概率。P-STND和基于PCM的方法表現(xiàn)較好，沒有出現(xiàn)“Ⅰ類錯誤”。P-SIBTEST最差，“Ⅰ類錯誤”率在處理41級計分時高達98%。P-MH和P-SIBTEST出現(xiàn)“Ⅰ類錯誤”概率較高的原因可能是χ2統(tǒng)計量對樣本量變化敏感，當樣本容量較大時，微小的差異都會造成顯著的檢驗結(jié)果。

表3 DIF可忽略時（DIF=0.1），4種方法犯“Ⅰ類錯誤”的概率

表4顯示了當DIF為中等大小時，4種不同方法的統(tǒng)計檢驗力?？梢园l(fā)現(xiàn)，基于PCM的方法在處理10級、21級和41級計分的項目中都表現(xiàn)最佳。P-STND在處理10級和21級計分的項目時也達到了100%的檢出率，但在處理41級計分的項目時，檢出率略低于基于PCM的方法。P-MH方法則在處理10級計分項目時稍顯不足。

表4 存在中等DIF時（DIF=0.5），4種方法的統(tǒng)計檢驗力

從表5我們可以看出，當DIF較大時，基于PCM的方法再次顯示了最強的統(tǒng)計檢驗力。P-STND在這種情況下，和基于PCM的方法不相上下。另兩種方法盡管都有所提高，但仍然低于P-STND和基于PCM的方法。

表5 存在較大DIF時（DIF=0.8），4種方法的統(tǒng)計檢驗力

由此可見，基于PCM的方法在各種情況下都最為靈敏和準確。這種方法對DIF參數(shù)的估算與我們設(shè)定的值十分接近（如表6）。經(jīng)過100次重復模擬，當項目為10級計分時，這種方法對DIF指數(shù)的估值是0.1051，標準誤為0.0081，與設(shè)定值的差異在統(tǒng)計上不顯著。從全表來看，當真實的DIF值（設(shè)定值）較小時，這種方法傾向于高估DIF指數(shù)，計分等級越多，高估傾向越明顯。當真實的DIF值（設(shè)定值）較大時，這種方法傾向于低估DIF指數(shù)，計分等級越多，低估傾向越明顯。但估計值與真實值的差異都不顯著。由于基于PCM的方法犯“Ⅰ類錯誤”的概率更小，統(tǒng)計檢驗力更高，估計較為精準，因此是檢測高考作文題是否存在DIF的首選。

表6 不同條件下基于PCM的方法對DIF大小的估算結(jié)果

4 實證研究分析

模擬實驗表明基于PCM的方法在前述4種方法中最適合用來檢驗高考作文題是否存在DIF。因此，我們用這種方法對2015年高考語文作文題進行了分析。從東北部某省的考生中隨機抽取16 524個樣本（該省總樣本量的5%），其中城市學生5 718名，農(nóng)村學生10 806名。初步的統(tǒng)計描述結(jié)果顯示，城市學生平均作文成績?yōu)?0.44分，農(nóng)村學生平均作文成績?yōu)?9.95分。盡管兩組學生成績差異的t檢驗顯著，但實際效應值非常小，僅為0.114。

隨后，使用2015年語文試卷中的12道開放題作為錨題，對考生進行能力匹配。運用ConQuest內(nèi)置的程序進行運算。結(jié)果顯示，12道開放題加1道作文題（共13題）的總體信度為0.66①信度不太高的主要原因可能有兩個方面，一是題量較少，二是開放題和作文題都受評分員的較大影響。。試題與分步計分模型（PCM模型）的擬合良好。DIF指數(shù)為0.012，也就是說作文題對城鎮(zhèn)學生比對農(nóng)村學生難度差異為0.012，這一差異非常微小，實際的效應值低于Paek指出的臨界值0.426，因此可以忽略。因此，2015年高考語文作文試題不存在顯著的城鄉(xiāng)差異。

5 研究結(jié)果與討論

公平是高考的基本要求，確保試題對不同群體考生公平是高考命題和題庫建設(shè)十分重要的環(huán)節(jié)。DIF分析可以為試題的公平性提供實證依據(jù)。在本研究中，通過模擬實驗對現(xiàn)有的DIF檢驗方法進行了甄選，并嘗試運用選出的最佳方法分析實證數(shù)據(jù)。

本實證研究還存在一些局限性：一是對學生城鄉(xiāng)背景的劃分基于戶籍。隨著我國城鎮(zhèn)化的飛速發(fā)展、人口向縣城集中等因素，用學生實際生活所在地來劃分會更加科學。二是在上面的分析中，只關(guān)注了城鄉(xiāng)DIF，而性別DIF、民族DIF等也是保證試題公平性不可忽視的部分。

統(tǒng)計方法為檢驗DIF提供了手段，未來還需要對存在DIF的試題進行深入的質(zhì)性分析，尋找造成DIF的可能原因。只有在命題中避免了這些因素，命題質(zhì)量才能不斷提高。

[1]HOLLAND P W,WAINER H.Differential item functioning[M].Hill?sdale,NJ:Erlbaum,1993.

[2]POTENZA M T,DORANS N J.DIF assessment for polytomously scored items:A framework for classification and evaluation[J].Ap?plied Psychological Measurement,1995,19（1）:23-37.

[3]MANTEL N,HAENSZEL W.Statistical aspects of the analysis of data from retrospective studies of disease[J].Journal of the National Cancer Institute,1959,22（4）:719-748.

[4]MANTEL N.Chi-square tests with one degree of freedom;exten?sions of the Mantel-Haenszel procedure[J].Journal of the American Statistical Association,1963,58（303）:690-700.

[5]DORANS N J,KULICK E.Demonstrating the utility of the standard?ization approach to assessing unexpected differential item perfor?mance on the Scholastic Aptitude Test[J].Journal of educational measurement,1986,23（4）:355-368.

[6]SHEALY R,STOUT W.A model-based standardization approach that separates true bias/DIF from group ability differences and de?tects test bias/DIF as well as item bias/DIF[J].Psychometrika,1993,58（2）:159-194.

[7]董圣鴻,馬世曄.三種常用dif檢測方法的比較研究[J].心理學探新,2001,21（1）:43-48.