亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        測驗等值:新一輪高考改革的技術(shù)問題

        2015-01-30 20:39:13程乾張心
        中國考試 2015年4期
        關(guān)鍵詞:等值樣本量公平性

        程乾 張心

        1 引言

        新一輪考試招生制度綜合改革明確要求在高中學(xué)業(yè)水平考試和外語科目考試中,為學(xué)生提供兩次考試機會。這可以避免考生因偶然因素導(dǎo)致的考試失誤。然而將哪一次考試成績作為考生的最終成績是一個必須面臨且必須解決的問題。原因在于,即使兩次考試考查的是同一種能力結(jié)構(gòu),也很難確保這兩次考試的難度完全相等。若一部分學(xué)生只進行了難度相對大的那一次考試,而一部分學(xué)生只進行了難度相對小的那一次,顯然后者的成績更有可能比前者高。這樣就會產(chǎn)生考試的不公平。因此為了消除這種因兩次考試難度差異而造成的不公平,就需要將這兩次考試的成績放在同一個量尺上進行比較。這就是測驗等值。

        對實現(xiàn)不同測驗間的分?jǐn)?shù)可比以及相應(yīng)方法的需求可以追溯到心理測量的起源。[1]在過去的90多年中,不同測驗分?jǐn)?shù)之間可比性的標(biāo)準(zhǔn)化評價已經(jīng)成為心理測量領(lǐng)域一個重要焦點。[2]如今,實現(xiàn)測驗分?jǐn)?shù)間可比的過程被統(tǒng)一稱作“測驗連接”。[3]作為測驗連接分類中條件最嚴(yán)格的一種,測驗等值因教育與心理實踐的需要(兩個平行測驗間的分?jǐn)?shù)需要相互轉(zhuǎn)換)得到廣泛重視。核等值法、局部觀察分?jǐn)?shù)等值法等新的等值方法不斷涌現(xiàn),對現(xiàn)有方法進行持續(xù)有效的改進、測驗等值??某霭?,[4][5][6]都體現(xiàn)測驗等值研究領(lǐng)域的蓬勃發(fā)展。但是,等值的嚴(yán)格條件,也給測驗等值的實際應(yīng)用帶來諸多困難,能否嚴(yán)格有效地控制各個環(huán)節(jié)將直接影響等值的效果。本文擬從6個方面說明測驗等值需要注意的一些關(guān)鍵性問題,以期為高考改革面臨的技術(shù)性問題提供參考和借鑒。

        2 測驗等值及其相關(guān)技術(shù)問題

        2.1 明確等值定義

        測驗等值作為測驗連接的一種,其定義隨著理論和實踐研究的深入而發(fā)生變化[7][8][9][10][11][12],有些定義甚至還存在明顯的矛盾,這給等值研究帶來一定的困難。Kolen和Brennan[13]的等值定義是現(xiàn)在普遍認(rèn)同的:等值是通過調(diào)節(jié)測驗間的難度差異使得測驗分?jǐn)?shù)可以相互轉(zhuǎn)換的統(tǒng)計過程。這種調(diào)節(jié)是對測驗難度差異的調(diào)節(jié),而非對測驗內(nèi)容差異進行調(diào)節(jié)。等值的實現(xiàn)是建立在一系列前提假設(shè)上的,只有滿足這些前提假設(shè),等值質(zhì)量才能得到保證。他們總結(jié)前人的研究提出了測驗等值的5個前提:對稱性(Symmetry)、相同細(xì)目(Same specification)、公平性(Equity)、觀察分?jǐn)?shù)等值性(Observed score equating)和群體不變性(Population invariance)。這5個等值前提是測驗等值的基礎(chǔ)。在教育測量中,兩套試卷只有在滿足或者近似滿足這5個前提時,才能有效地進行等值。我們也可以依據(jù)這5個前提,對兩次考試是否適合等值進行預(yù)先判斷。當(dāng)然,最終還是需要根據(jù)對以上5個前提的實測數(shù)據(jù)判斷等值的有效性。

        2.2 選擇合適的等值設(shè)計

        在進行等值前,先要考慮選擇什么樣的等值設(shè)計。等值設(shè)計的主要原則是使得所采集的數(shù)據(jù)能夠最有效地提供不同測驗形式的差異信息。常見的等值設(shè)計主要有平衡單組設(shè)計、隨機等組設(shè)計和錨題非等組設(shè)計。

        平衡單組設(shè)計的優(yōu)點是最大可能地節(jié)約了考生樣本,但缺點是很難保證測驗安全,測驗施測存在順序效應(yīng)、考生疲勞效應(yīng)和學(xué)習(xí)效應(yīng)。平衡單組設(shè)計的使用可以檢測是否存在嚴(yán)重的順序效應(yīng)、疲勞效應(yīng)和學(xué)習(xí)效應(yīng)。當(dāng)這些效應(yīng)的影響特別大時,可以放棄后測兩組數(shù)據(jù)從而變成隨機等組設(shè)計。

        隨機等組設(shè)計假設(shè)兩個考生樣本來自同一個總體,因此要盡可能地抽取兩個等同的樣本。隨機等組設(shè)計需要的樣本量相對較大。

        錨題非等組設(shè)計需要通過設(shè)置錨題來調(diào)節(jié)兩個不同總體之間的差異。由于現(xiàn)實原因,等值經(jīng)常使用錨題非等組設(shè)計。未來高考外語和高中學(xué)業(yè)水平考試將實行一年兩次考試,倘若要對兩次考試進行等值,只能使用錨題非等組設(shè)計。因為考生能力在兩次考試之間有明顯的變化,在統(tǒng)計上不能認(rèn)為這兩批考生來自同一個考生總體。但是,錨題非等組設(shè)計也是這幾種等值設(shè)計中最復(fù)雜的一種,許多潛在因素(如錨題的編制)可能會嚴(yán)重影響等值的有效性。

        此外,在條件允許的情況下,在這些等值設(shè)計中還可輔以雙鏈/多鏈技術(shù),以降低等值誤差。[14]總而言之,等值設(shè)計的選擇包括試卷開發(fā)和實施的復(fù)雜性、是否滿足統(tǒng)計假設(shè)等方面的現(xiàn)實考慮。

        2.3 是否需要等值

        在教育測量中,當(dāng)我們收集到考試數(shù)據(jù)時,還應(yīng)基于數(shù)據(jù)判斷兩次考試是否可以等值,這是常被忽略的問題。判斷的原則涉及兩個方面,一是來自兩次考試的數(shù)據(jù)差異過大而不適合等值;二是來自兩次考試數(shù)據(jù)過于相似而沒必要等值。一方面,如果兩次考試數(shù)據(jù)差異過大,很可能是由于兩次考試本身就不符合等值前提,導(dǎo)致其數(shù)據(jù)不能用來等值。另一方面,如果試卷開發(fā)、等值設(shè)計、數(shù)據(jù)收集以及質(zhì)量控制過程都得到了有效保障,得到的數(shù)據(jù)極有可能十分相似,將這些分?jǐn)?shù)直接進行相互轉(zhuǎn)換就能夠滿足當(dāng)前的需求。那么在這種情況下,不使用等值或者使用恒等函數(shù)也許是一種更好的選擇[15],使用等值反而極有可能會引入更多的誤差。

        Hanson[16]基于對數(shù)線性模型提出一種確定是否使用等值的方法。如果來自兩個測驗的分?jǐn)?shù)分布間的差異僅由隨機誤差造成(沒有拒絕零假設(shè)),那么基于任何等值方法的結(jié)果與恒等函數(shù)之間的差異同樣也由隨機誤差造成。這時,等值僅會引入誤差,因此使用恒等函數(shù)也許是更好的選擇。所以,兩次考試的分?jǐn)?shù)進行等值之前,必須明確是否有必要等值。如果兩次考試及其分?jǐn)?shù)滿足等值的條件,那么分?jǐn)?shù)分布間的差異應(yīng)該不會太大,這時就要確定使用等值還是使用恒等函數(shù)。只有當(dāng)引入的誤差比恒等函數(shù)小時,才會考慮等值。

        2.4 選擇合適的等值方法

        等值方法多種多樣,如何在教育考試中選擇合適的等值方法是一個棘手的問題。Kolen和Brennan給出了幾種常見等值方法的適用條件和建議。[17]他們認(rèn)為試題開發(fā)、等值設(shè)計、數(shù)據(jù)收集、標(biāo)準(zhǔn)化和質(zhì)量控制的有效性等都是等值方法能否有效使用的前提。雖然可以分析比較所有這些等值方法的結(jié)果,然后選擇在當(dāng)前等值情景中表現(xiàn)最好的等值方法。但是,由于這些等值方法分別有各自的適用條件,因此可以先分析它們的適用條件,排除掉一部分方法選項,進而分析比較剩下的那些方法。

        樣本量是選擇合適等值方法的一個重要因素,其大小直接影響到等值的精度。Kolen和Brennan認(rèn)為在隨機等值設(shè)計中,等百分位等值至少需要1 500的樣本量,線性等值至少需要400的樣本量,平均數(shù)等值需要的樣本量更少;在錨題非等組設(shè)計中需要的樣本量不僅要參考隨機等值設(shè)計,還要結(jié)合錨題與測驗的相關(guān)程度等其他因素。[18]Harris建議三參數(shù)IRT等值法需要的樣本量參照等百分位等值,基于Rasch模型的IRT等值法需要的樣本量參照線性等值。[19]因此,僅就樣本量而言,當(dāng)樣本量小于400但不是特別小時,平均數(shù)等值法也許是比較好的選擇;當(dāng)樣本量大于400小于1 500時,平均數(shù)等值、線性等值和基于Rasch模型的IRT等值法也許是比較好的選擇;當(dāng)樣本量大于1 500時,樣本量則也許不是選擇等值方法的重要影響因素。另外,如果進行等值的測驗涉及標(biāo)準(zhǔn)設(shè)定(即通過等值從一個測驗的臨界分?jǐn)?shù)確定另一個測驗的臨界分?jǐn)?shù)),那么在等值時,這兩個測驗臨界分?jǐn)?shù)附近的精確性應(yīng)該是首先要考慮的問題。相應(yīng)的,在兩測驗各自臨界分?jǐn)?shù)附近應(yīng)有足夠的被試,才能保證等值精確性。

        測驗難度差異是影響等值方法選擇的另一個重要因素。等值是對測驗形式間難度差異的調(diào)節(jié)。當(dāng)難度差異較小時,任何等值方法都能取得相對好的效果;若測驗難度差異過大,任何等值方法都不會得到有效的結(jié)果。[20]在可接受的難度差異范圍內(nèi),對方法的選擇就受到難度差異大小的影響。平均數(shù)等值法和線性等值法適用于兩測驗間難度差異較小時的等值;等百分位等值法和IRT等值法更適用于兩測驗間難度相對較大時的等值。但Kim等人認(rèn)為很難確定測驗難度差異在什么程度才能保證某種等值方法有效。[21]因此根據(jù)難度差異大小選擇等值方法應(yīng)充分參考已有的文獻資料和經(jīng)驗,并在條件允許的情況下多進行前期研究。

        等值后分?jǐn)?shù)量表的使用范圍也是合理選擇等值方法時應(yīng)考慮的因素。如果只使用平均數(shù)附近的等值分?jǐn)?shù),即只要求平均值附近的分?jǐn)?shù)點滿足一定等值精度而不考慮其他分?jǐn)?shù)點的等值精度,平均數(shù)等值和線性等值就是簡單而可靠的方法;如果要使用整個分?jǐn)?shù)量表,那么就應(yīng)該考慮等百分位等值和IRT等值。

        最后,還應(yīng)考慮統(tǒng)計假設(shè)是否成立。比如在錨題非等組設(shè)計中,若兩批考生能力差異過大、兩個測驗差異過大或者錨題設(shè)置不同于測驗,那么該設(shè)計的假設(shè)就會不成立。這樣,該等值設(shè)計任何等值方法都不會得到理想結(jié)果。同樣在錨題非等組設(shè)計中,每一種方法都有各自的強假設(shè),如果這些假設(shè)沒有近似滿足,也不能得到理想的等值結(jié)果。

        2.5 選擇合適的等值評價標(biāo)準(zhǔn)

        通過以上環(huán)節(jié)收集到考試數(shù)據(jù)后,最終目標(biāo)就是確定最理想的等值結(jié)果。為了實現(xiàn)這個目的,需要先嘗試多種等值方法,然后依據(jù)一些評價標(biāo)準(zhǔn)作出一種最佳選擇。然而每一種評價標(biāo)準(zhǔn)都有其優(yōu)劣與適用條件。Harris和Crouse指出,測驗等值中沒有一個放之四海而皆準(zhǔn)的標(biāo)準(zhǔn)。因此必須選擇合適的等值評價標(biāo)準(zhǔn)。[22]

        2.5.1 公平性

        Lord首先提出“公平性”的概念,但他所提的公平性只有在測驗嚴(yán)格平行下才能實現(xiàn)。因此實際應(yīng)用中并沒有使用Lord的概念,而是采用弱公平性。Digivi[23]和Morris[24]分別提出一階公平性(First-Order Equity,F(xiàn)OE)和二階公平性(Second-Order Equity,SOE)兩種弱公平性概念。在給定真分?jǐn)?shù)的條件下,它們分別要求被試在測驗Y的觀察分?jǐn)?shù)分布與變換后的測驗X觀察分?jǐn)?shù)分布的期望(一階矩)和方差(二階矩)相同。公平性標(biāo)準(zhǔn)直接對應(yīng)當(dāng)前等值情境下哪種等值方法更滿足公平性前提。Kim等人,Tong和Kolen以及Lee等人用弱公平性比較了多種條件下不同等值方法的表現(xiàn);[25][26][27]Andrews用弱公平性評價多維IRT等值結(jié)果。[28]

        2.5.2 群體不變性

        與公平性標(biāo)準(zhǔn)一樣,群體不變性也是一種直接對應(yīng)等值前提的評價標(biāo)準(zhǔn)。例如,如果考生群體分為男女兩個子群體后,男女子群體的等值關(guān)系與總體的等值關(guān)系差異過大,說明這種等值關(guān)系是依賴于群體的,此時就因不滿足群體不變性前提而不適合等值。Dorans和Holland用差異均方根(RMSD)和差異期望均方根(REMSD)這兩個指標(biāo)來評價線性等值中群體不變性。[29]Von Davier等人和Dorans等人同樣用RMSD和REMSD來分析錨題非等組設(shè)計中的等值方法的群體不變性。[30][31]當(dāng)這兩個指標(biāo)過大時,即兩測驗間的連接關(guān)系表現(xiàn)出明顯的群體依賴性,那么這種連接關(guān)系不能看作是等值關(guān)系。

        2.5.3 等值誤差

        等值誤差包括系統(tǒng)誤差和隨機誤差,二者之和稱為等值總誤差。隨機誤差就是因抽樣引起的等值標(biāo)準(zhǔn)誤,又稱等值標(biāo)準(zhǔn)誤;若能直接應(yīng)用總體數(shù)據(jù)估計測驗間的等值關(guān)系,那么所估等值關(guān)系就不會存在隨機誤差,[32]但實際等值中往往因采用抽樣數(shù)據(jù)而肯定存在隨機誤差。不同等值方法在不同等值情境中的等值標(biāo)準(zhǔn)誤不同,因此可以比較各方法間等值標(biāo)準(zhǔn)誤大小來選擇。

        系統(tǒng)誤差來源復(fù)雜,方法的假設(shè)條件不滿足,數(shù)據(jù)采集不規(guī)范,施測被試群體的代表性不足,數(shù)據(jù)處理技術(shù)等都可能產(chǎn)生系統(tǒng)誤差。不同方法的等值誤差不同,顯然誤差越小的方法等值越精確。計算系統(tǒng)誤差和總誤差必然涉及等值真值,但等值真值在真實情景中是未知的,一般是通過蒙特卡洛模擬得到,并以某種測量模型(如項目反應(yīng)理論中的各種模型)定義。在模擬過程中,為使模擬更接近真實數(shù)據(jù),常采取的手段是先利用真實作答數(shù)據(jù)估計出IRT項目參數(shù)與能力,然后將這些估計值作為參數(shù)真值,再以此為基礎(chǔ)模擬出作答數(shù)據(jù),最后對模擬出的作答數(shù)據(jù)使用各種等值方法。用等值誤差作為等值評價標(biāo)準(zhǔn)存在的潛在問題主要是模擬與真實情況的一致性。

        2.5.4 等值到自身/循環(huán)等值

        該評價標(biāo)準(zhǔn)是通過將一個測驗直接或通過一組測驗間接地等值到自己,然后比較直接和間接的分?jǐn)?shù)轉(zhuǎn)換的差異。比如將測驗A等值到測驗B,測驗B等值到測驗C,測驗C又等值回測驗A。通過這種方式,測驗A就等值到自身。Brennan和Kolen指出了該評價標(biāo)準(zhǔn)的局限性:(1)估計更少參數(shù)的等值方法(如線性等值)將比估計更多參數(shù)的等值方法可?。ㄈ绲劝俜治坏戎担?;(2)在錨題非等組設(shè)計中,用循環(huán)等值得到的結(jié)果取決于循環(huán)開始時選擇的測驗。[33]比如將測驗A通過測驗B和測驗C等值到自身與將測驗C通過測驗A和測驗B等值到自身會得到不同的結(jié)果。因此使用這個評價標(biāo)準(zhǔn)時應(yīng)該注意這些局限。但是用該標(biāo)準(zhǔn)確實有助于識別產(chǎn)生較差等值結(jié)果的方法。因為,若將測驗等值到自身時,某種方法都得到不好的結(jié)果,那么這種方法在將測驗等值到另一個測驗也不會得到很好的結(jié)果。

        2.5.5 大樣本

        如果能夠基于被試總體數(shù)據(jù)進行等值,那么就可以將其作為等值的評價標(biāo)準(zhǔn)。一些研究者[34][35]使用了非常大的被試樣本,并把這個樣本當(dāng)作被試總體。然后在這個大樣本抽取一些小樣本,并將其等值結(jié)果與大樣本等值結(jié)果比較。大樣本評價標(biāo)準(zhǔn)的局限是很少能夠獲得大量的被試樣本。

        正如前面提到的,任何等值標(biāo)準(zhǔn)都有其優(yōu)劣。在測驗等值時,應(yīng)盡量使用多種評價標(biāo)準(zhǔn)。最理想的結(jié)果是這些評價標(biāo)準(zhǔn)都指向一致的等值方法。但是,當(dāng)這些評價標(biāo)準(zhǔn)指向不同的等值方法時,就必須仔細(xì)分析導(dǎo)致這一問題的原因,并根據(jù)等值的實際用途、客觀事實及主觀經(jīng)驗進行彌補和選擇。

        2.6 等值過程的質(zhì)量控制

        測驗等值由許多環(huán)節(jié)組成,每一個環(huán)節(jié)間都相互聯(lián)系。只有將每個環(huán)節(jié)都控制得當(dāng),才能獲得有效的等值結(jié)果。[36]質(zhì)量控制對測驗等值是否充分至關(guān)重要,但是也相當(dāng)繁雜和耗費時間。[37]可以從以下幾個方面對測驗等值質(zhì)量進行控制:檢查是否按平行測驗原則編制測驗;檢查錨題設(shè)置是否有效;檢查測驗是否按照標(biāo)準(zhǔn)化流程實施;檢查需要等值的兩份測驗是否有統(tǒng)一的評分標(biāo)準(zhǔn);檢查是否按標(biāo)準(zhǔn)化流程閱卷;檢查用于等值的樣本是否有代表性;檢查等值設(shè)計是否可行;檢查是否正確應(yīng)用等值方法;檢查等值結(jié)果與以往研究和實踐是否一致;如果涉及臨界分?jǐn)?shù)的等值,還應(yīng)檢查等值結(jié)果是否與預(yù)期一致。

        3 結(jié)語

        測驗等值作為心理測量領(lǐng)域的重要組成部分,其理論和實踐在國外都有比較深入的研究。相比之下,國內(nèi)有關(guān)測驗等值的研究顯得有些滯后,且大多從理論出發(fā),實際應(yīng)用則少之又少。隨著我國考試招生制度改革的深入,高中學(xué)業(yè)水平考試和高考外語正在探索為考生提供兩次考試,實現(xiàn)兩次考試分?jǐn)?shù)間的相互轉(zhuǎn)換是一個必須解決的問題。測驗等值理論與技術(shù)為該問題的解決提供了明確方向,也必將在考試中得到實際應(yīng)用。在當(dāng)前對等值有較高需求的大環(huán)境下,需要更多測驗等值的應(yīng)用研究,以逐步解決等值實踐中的難題。

        [1] Holland,P.W.,&Dorans,N.J.Linking and equating[M]//R.L.Brennan.Educational measurement(4th ed.).Westport,CT:Praeger Publishers,2006.

        [2] Davier,A.A.Von.Statistical Models for Test Equating,Scaling,and Linking[M].New York:Springer-Verlag,2011.

        [3] 程乾.“測驗連接”概念框架演變述評[J].考試研究,2013(2):72-79.

        [4] Dorans,N.J.Assessing the population sensitivity of equating functions[J].Journal of Educational Measurement,2004,41(1):1-2.

        [5] Pommerich,M.,&Dorans,N.J.Linking Scores via Concordance:Introduction to the Special Issue[J].Applied Psychological Measurement,2004,28(4):216-218.

        [6] Davier,A.A.Von,&Liu,M.Population invariance[J].Applied Psychological Measurement,2008,32(9).

        [7] Angoff,W.H.Scales,norms,and equivalent scores[M]//R.L.Thorndike.Educational measurement(2nd ed.).Washington,DC:American Council on Education,1971.

        [8] Dorans,N.J.,Moses,T.P.,&Eignor,D.R.Equating Test Scores:Toward Best Practices[M]//Davier,A.A.Von.Statistical Models for Test Equating,Scaling,and Linking.New York:Springer-Verlag,2011.

        [9] Feuer,M.J.,Holland,P.W.,Green,B.F.,Berdahl,J.L.,&Hemphill,F.C.Uncommon Measures:Equivalence and Linkage among Educational Tests[M].Washington,D.C:National Academy Press,1999.

        [10] Flanagan,J.L.Units,scores,and norms[M]//E.F.Lindquist.Educational measurement.Washington,D.C:American Council on Education,1951.

        [11] Lord,F.M.Applications of item response theory to practical testing problems[M].Hillsdale,NJ:Lawrence Erlbaurn Associates,Inc,1980.

        [12] Mislevy,R.J.Linking educational assessments:Concepts,issues,methods,and prospects[M].Princeton,NJ:ETS Policy Information Center,1992.

        [13][15][17][18] Kolen,M.J.,&Brennan,R.L.Test Equating,Scaling,andLinking:MethodsandPractices(3rded.)[M].NewYork:Springer-Verlag,2014.

        [14] 戴海琦.等值誤差理論與我國高考等值誤差控制[J].江西師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),1999,32(1):29-35.

        [16] Hanson,B.Testing for differences in test score distributions using log-linear models[C]//Paper presented at the Annual Meeting of the National Council on Measurement in Education.San Fraincisco,1992.

        [19] Harris,D.C.Practical issues in equating[C]//Paper presented at the annual meeting of the American Educational Research Association.Atlanta,1993.

        [20] Kolen,M.J.,&Brennan,R.L.Test Equating,Scaling,and Linking:Methods and Practices(2nd ed.)[M].New York:Springer-Verlag,2004.

        [21][25] Kim,D.I.,Brennan,R.,&Kolen,M.A Comparison of IRT Equating and Beta 4 Equating[J].Journal of Educational Measurement,2005,42(1):77-99.

        [22] Harris,D.J.,&Crouse,J.D.A Study of Criteria Used in Equating[J].Applied Measurement in Education,1993,6(3):195-240.

        [23] Divgi,D.R.Two procedures for scaling and equating test with item response theory[C]//Paper presented at the annual meeting of the American Educational Research Association.Los Angeles,1981.

        [24] Morris,C.N.On the foundations of test equating[M]//P.W.Holland,&D.B.Rubin.Test equating.New York:Academic Press,1982.

        [26] Tong,Y.,&Kolen,M.J.Assessing Equating Results on Different EquatingCriteria[J].AppliedPsychologicalMeasurement,2005,29(6):418-432.

        [27] Lee,E.,Lee,W.C.,&Brennan,R.L.Assessing Equating Results Based on First-order and Second-order Equity[R].Iowa City:Center for Advanced Studies in Measurement and Assessment,2010.

        [28] Andrews,B.J.Assessing first-and second-order equity for the common-item nonequivalent groups design using multidimensional IRT[R].Iowa City,2011.

        [29] Dorans,N.J.,&Holland,P.W.Population Invariance and the Equatability of Tests:Basic Theory and the Linear Case[J].Journal of Educational Measurement,2000,37(4):281-306.

        [30] Davier,A.A.Von,Holland,P.W.,&Thayer,D.T.The Chain and Post-Stratification Methods for Observed-Score Equating:Their Relationship to Population Invariance[J].Journal of Educational Measurement,2004,41(1):15-32.

        [31] Dorans,N.J.,Jinghua Liu,&Hammond,S.Anchor Test Type and Population Invariance:An Exploration across Subpopulations and Test Administrations[J].Applied Psychological Measurement,2008,32(1):81-97.

        [32] 漆書青,戴海琦,丁樹良.現(xiàn)代教育與心理測量學(xué)原理[M].北京:高等教育出版社,2002.

        [33][37] Brennan,R.L.,&Kolen,M.J.Some Practical Issues in Equating[J].Applied Psychological Measurement,1987,11(3):279-290.

        [34] Hanson,B.A.,et al.A Comparison of Presmoothing and Postsmoothing Methods in Equipercentile Equating[R].ACT Research Report Series,Iowa City,1994.

        [35] Livingston,S.A.,et al.What Combination of Sampling and Equating Methods Works Best?[J].Applied Measurement in Education Revised,1990,3(1):73-95.

        [36] Allalouf,A.Quality Control Procedures in the Scoring,Equating,and Reporting of Test Scores[J].Educational Measurement:Issues and Practice,2007,26(1):36-46.

        猜你喜歡
        等值樣本量公平性
        醫(yī)學(xué)研究中樣本量的選擇
        異步電動機等值負(fù)載研究
        防爆電機(2020年5期)2020-12-14 07:03:50
        航空裝備測試性試驗樣本量確定方法
        一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機制
        Sample Size Calculations for Comparing Groups with Binary Outcomes
        公平性問題例談
        電網(wǎng)單點等值下等效諧波參數(shù)計算
        關(guān)于公平性的思考
        基于戴維南等值模型的靜穩(wěn)極限在線監(jiān)視
        漢語國俗語義在維吾爾語中的等值再現(xiàn)
        語言與翻譯(2014年1期)2014-07-10 13:06:11
        亚洲综合国产一区二区三区| 日韩精品一区二区亚洲专区| 亚洲国产精品成人av网| 国产精品成人va在线观看| 在线永久看片免费的视频| 亚洲av中文无码乱人伦在线咪咕| 水蜜桃视频在线观看入口| 少妇人妻中文字幕hd| 亚洲中文字幕无码专区| 午夜在线观看有码无码| 日本免费人成视频播放| 日本草逼视频免费观看| 中文字幕av长濑麻美| 国产午夜福利不卡在线观看 | 日本免费不卡一区| 日韩人妻有码中文字幕| 中文字幕av高清人妻| 成人三级a视频在线观看| 国产精品欧美久久久久老妞 | 国产人妻丰满熟妇嗷嗷叫| 91福利视频免费| 亚洲av精品一区二区| 国产乱码人妻一区二区三区| 亚洲精品无码乱码成人| 国产美女裸身网站免费观看视频| 亚洲av永久一区二区三区| 久久亚洲欧美国产精品| 午夜无码伦费影视在线观看| 欧美一欧美一区二三区性| 高清少妇一区二区三区| 欧洲美女黑人粗性暴交视频| 人妻影音先锋啪啪av资源| 青榴社区国产精品| 日本视频在线观看二区| 国产成本人片无码免费2020| 久久国产亚洲AV无码麻豆| 色综合久久精品中文字幕| 男人的天堂av网站| 亚洲图区欧美| 亚洲国产av中文字幕| 日韩欧美亚洲国产精品字幕久久久 |