亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        不同鉚測(cè)驗(yàn)設(shè)計(jì)下多維IRT等值方法的比較*

        2013-02-03 01:45:15劉紅云
        心理學(xué)報(bào) 2013年4期
        關(guān)鍵詞:等值方根測(cè)驗(yàn)

        劉 玥 劉紅云

        (1四川省教育科學(xué)研究所,成都 610225) (2北京師范大學(xué)心理學(xué)院,北京 100875)

        1 引言

        在大型的教育測(cè)驗(yàn)中,常常會(huì)出現(xiàn)考核同一個(gè)內(nèi)容的多個(gè)測(cè)驗(yàn)形式,為了實(shí)現(xiàn)這些測(cè)驗(yàn)分?jǐn)?shù)之間的比較,會(huì)用到測(cè)驗(yàn)等值的方法。根據(jù)等值所依據(jù)的原理,一般可以分為經(jīng)典測(cè)驗(yàn)理論(CTT)下的等值方法和項(xiàng)目反應(yīng)理論(IRT)下的等值方法(Kolen&Brennan,2004)。其中,IRT等值方法又以其理論完善,等值關(guān)系簡(jiǎn)潔,且題目參數(shù)具有跨群體不變性等優(yōu)勢(shì),而受到廣泛關(guān)注。在大多數(shù)的標(biāo)準(zhǔn)測(cè)驗(yàn)中,考生的能力參數(shù)和題目參數(shù)是由單維IRT模型(UIRT)估計(jì)得到的,因此,基于單維IRT模型的等值方法已經(jīng)得到了較為深入的研究(Kolen&Brennan,2004)。

        然而,在現(xiàn)實(shí)情境里,測(cè)驗(yàn)通常會(huì)包含多維結(jié)構(gòu)(Ackerman,1994;DeMars,2006;Reckase,1985)。在很多大型的教育評(píng)價(jià)項(xiàng)目中,對(duì)于一個(gè)概括性的能力的測(cè)量,通常會(huì)包含關(guān)于多個(gè)子學(xué)科(子能力)的題目。例如在關(guān)于學(xué)生科學(xué)能力的測(cè)驗(yàn)中,可能包含分別來(lái)自于物理,地理,生物等多個(gè)學(xué)科的題目。這時(shí),傳統(tǒng)IRT理論的單維性假設(shè)很容易遭到違背?;趩尉SIRT假設(shè)的參數(shù)估計(jì)和IRT等值結(jié)果會(huì)出現(xiàn)一定的偏差(Reckase,2009;Brossman,2010)。因此,許多研究者已經(jīng)逐漸開(kāi)展了對(duì)基于多維項(xiàng)目反應(yīng)理論(MIRT)下等值方法的研究和探索。

        迄今,很多研究已經(jīng)將單維IRT下的等值方法推廣到多維結(jié)構(gòu)中。這些方法主要有多維均值/均值方法,均值/標(biāo)準(zhǔn)差方法(Yao,2011),IRT相等函數(shù)方法,Stoking-Lord(測(cè)驗(yàn)特征函數(shù))方法,Haebara(項(xiàng)目特征函數(shù))方法,直接方法(Oshima,Davey&Lee,2000),LL方法(Li&Lissitz,2000),Min的方法(Min,2003),NOP方法(Reckase&Martineau,2004)和同時(shí)等值的方法(Simon,2008)等。這些方法和單維IRT等值方法的主要區(qū)別是,多維IRT等值不僅需要調(diào)整不同測(cè)驗(yàn)量尺原點(diǎn)和單位大小的差異,還要進(jìn)行量尺旋轉(zhuǎn)和維度相關(guān)調(diào)整等一系列過(guò)程(Reckase,2009)。這些方法之間的主要區(qū)別在于它們計(jì)算參數(shù)轉(zhuǎn)換矩陣的原理和方法不同。一些研究還基于題目參數(shù)的返真性對(duì)多維IRT等值方法進(jìn)行了比較(Davey,Oshima,&Lee,1996;Li&Lissitz,2000;Oshima et al.,2000;Yao&Boughton,2009)??偟膩?lái)說(shuō),大多數(shù)研究結(jié)果表明,Stoking-Lord(SL)方法和Haebara(HB)方法較為穩(wěn)定,并且得到的等值結(jié)果更加準(zhǔn)確(Davey et al.,1996;Oshima et al.,2000;Yao,2011;Simon&Davison,2008)。但是Yon(2007)的研究也證明,NOP方法對(duì)題目區(qū)分度的等值結(jié)果比多維Stoking-Lord方法準(zhǔn)確。Brossman(2010)在提出多維IRT真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值方法后發(fā)現(xiàn),與單維IRT等值的規(guī)律相似,多維IRT真分?jǐn)?shù)等值和觀察分?jǐn)?shù)等值表現(xiàn)出很高的一致性,僅在低分段和滿分附近出現(xiàn)一定的差異。Simon(2008)對(duì)多維IRT同時(shí)等值和分別等值方法進(jìn)行了比較研究,他們建議,當(dāng)兩組被試的能力水平差異不大且多維測(cè)驗(yàn)各維度間的相關(guān)較高時(shí),同時(shí)等值的方法要優(yōu)于分別等值??偟膩?lái)說(shuō),關(guān)于多維IRT等值方法的比較還沒(méi)有得出較為一致的結(jié)論。

        進(jìn)行多維IRT等值,數(shù)據(jù)結(jié)構(gòu)必須符合以下兩個(gè)條件之一(Angoff,1982;Davey et al.,1996):(1)測(cè)驗(yàn)之間包含相同的題目(鉚測(cè)驗(yàn));(2)有一批相同的考生同時(shí)參加了兩個(gè)測(cè)驗(yàn)。在實(shí)踐中,尤其是大規(guī)模測(cè)驗(yàn)中,鉚測(cè)驗(yàn)設(shè)計(jì)應(yīng)用得最為廣泛。鉚測(cè)驗(yàn)本身對(duì)等值結(jié)果有顯著的影響。有學(xué)者認(rèn)為,鉚測(cè)驗(yàn)的選擇必須盡可能代表整個(gè)測(cè)驗(yàn)的特征(Cook&Petersen,1987;Klein& Jarjoura,1985;Marco,Petersen,&Stewart,1983)。Kolen和Brennan(2004)曾建議,鉚測(cè)驗(yàn)應(yīng)當(dāng)包含足夠多的題目,經(jīng)驗(yàn)的法則是鉚題量至少為測(cè)驗(yàn)總題量的20%。Sinharay和Holland(2007)認(rèn)為,鉚題應(yīng)當(dāng)具有內(nèi)容代表性,并且難度參數(shù)的均值與總測(cè)驗(yàn)相等,只是變異性略小。針對(duì)多維IRT等值,Yao和Boughton(2009)對(duì)同時(shí)含有多項(xiàng)選擇題和結(jié)構(gòu)性試題測(cè)驗(yàn)的多維IRT等值進(jìn)行了考察,結(jié)果發(fā)現(xiàn)在鉚測(cè)驗(yàn)中使用簡(jiǎn)單結(jié)構(gòu)的題目(題目只屬于其中一個(gè)維度)或與結(jié)構(gòu)性試題分值相等的多項(xiàng)選擇題,能夠提高等值結(jié)果的準(zhǔn)確性。Yao(2011)進(jìn)而提出了一些在多維IRT等值中選擇鉚測(cè)驗(yàn)的標(biāo)準(zhǔn),其中包括:鉚測(cè)驗(yàn)的測(cè)驗(yàn)特征函數(shù)應(yīng)當(dāng)與整個(gè)測(cè)驗(yàn)接近,鉚測(cè)驗(yàn)中各維度題目的數(shù)量應(yīng)當(dāng)與總測(cè)驗(yàn)中各維度題目的數(shù)量成比例等。其研究結(jié)果證明,按照所提出的標(biāo)準(zhǔn)選擇鉚測(cè)驗(yàn),即使在每個(gè)維度只有2道鉚題的情況下,多維Stoking-Lord方法也能得到較好的維度分和總分的等值結(jié)果。

        盡管鉚測(cè)驗(yàn)的選擇在等值中至關(guān)重要,但是在多維IRT等值中,很少有研究關(guān)注在不同鉚測(cè)驗(yàn)設(shè)計(jì)下各種多維IRT等值方法的比較(Yao&Boughton,2009)。另外,以往的研究主要關(guān)注題目參數(shù)的等值結(jié)果,很少有研究對(duì)能力參數(shù)的返真性進(jìn)行比較。為了充分考察在不同的鉚測(cè)驗(yàn)設(shè)計(jì)下,各等值方法的表現(xiàn),從而為實(shí)踐中多維IRT等值總結(jié)鉚測(cè)驗(yàn)的設(shè)計(jì)原則和選擇等值方法提供依據(jù),本文在不同的鉚測(cè)驗(yàn)設(shè)計(jì)下,采用模擬研究的方法對(duì)五種應(yīng)用較廣的多維IRT等值方法—— 均值/均值(MM)方法,均值/標(biāo)準(zhǔn)差(MS)方法,多維Stoking-Lord(SL)方法,多維Haebara(HB)方法,最小平方(LS)方法進(jìn)行比較,旨在考察鉚測(cè)驗(yàn)中題目數(shù)量和鉚測(cè)驗(yàn)構(gòu)成方式對(duì)不同等值方法的影響,主要解決以下幾個(gè)問(wèn)題:(1)在多維IRT等值中,五種常用等值方法的優(yōu)劣;(2)鉚測(cè)驗(yàn)的長(zhǎng)度對(duì)等值結(jié)果的影響;(3)使用不同的策略選擇鉚測(cè)驗(yàn)(鉚測(cè)驗(yàn)中各維度題目數(shù)量之比與總測(cè)驗(yàn)中各維度題目數(shù)量之比相同,鉚測(cè)驗(yàn)中各維度題目數(shù)量相同)是否會(huì)對(duì)等值結(jié)果有影響。同時(shí),還考慮了測(cè)驗(yàn)維度之間的相關(guān)和兩個(gè)群體能力差異大小對(duì)等值結(jié)果的影響。

        2 多維IRT模型及等值方法

        2.1 兩參數(shù)多維IRT模型

        其中,

        d

        不同于單維IRT模型中的難度參數(shù)。多維IRT的難度參數(shù)定義為:

        2.2 多維IRT等值

        與單維IRT等值的原理類(lèi)似,多維IRT等值的目的是找到合適的轉(zhuǎn)換矩陣

        A

        ,

        B

        ,從而將不同測(cè)驗(yàn)的題目和能力參數(shù)等值到同一量尺上。使用轉(zhuǎn)換矩陣進(jìn)行量尺轉(zhuǎn)換的公式為:

        下面,介紹本研究采用的五種多維IRT等值方法。

        SL方法。

        Oshima,Davey和Lee(2000)將單維IRT中的Stoking-Lord方法推廣到多維結(jié)構(gòu)的數(shù)據(jù)中。因此,對(duì)于含有兩個(gè)維度的多維測(cè)驗(yàn),多維SL等值方法求出將下面函數(shù)最小化時(shí)的轉(zhuǎn)換矩陣

        A

        ,

        B

        。

        HB方法。

        Oshima,Davey和Lee(2000)將單維IRT中的Haebara方法推廣到多維結(jié)構(gòu)的數(shù)據(jù)中。因此,對(duì)于含有兩個(gè)維度的多維測(cè)驗(yàn),多維Haebara等值方法求出將下面函數(shù)最小化時(shí)的轉(zhuǎn)換矩陣

        A

        ,

        B

        。

        LS方法。

        在LS方法中,題目參數(shù)的轉(zhuǎn)換矩陣與之前的方法有一些區(qū)別,其定義如下(Li&Lissitz,2000):

        3 模擬設(shè)計(jì)

        3.1 混合實(shí)驗(yàn)設(shè)計(jì)

        在研究中,由于五種多維IRT等值方法均會(huì)應(yīng)用于每組需等值的模擬數(shù)據(jù),因此,這是一個(gè)混合實(shí)驗(yàn)設(shè)計(jì)。組內(nèi)變量為五種等值方法,組間變量為各種模擬條件。組間變量有6個(gè)。(1)測(cè)驗(yàn)長(zhǎng)度:測(cè)驗(yàn)中所有的題目個(gè)數(shù),分別取40和80兩種情況。(2)兩個(gè)維度題目數(shù)量的比例:有兩個(gè)水平,分別為1:1(兩個(gè)維度題目數(shù)量相等)和3:1(兩個(gè)維度題目數(shù)量不等)。(3)鉚測(cè)驗(yàn)長(zhǎng)度:取三個(gè)水平,鉚測(cè)驗(yàn)題目數(shù)量分別為全卷的1/20,1/5和1/3。(4)鉚測(cè)驗(yàn)的選擇策略:考慮了兩種方法,即在每個(gè)維度中選取相等數(shù)量的題目組成鉚測(cè)驗(yàn)和根據(jù)全卷中每個(gè)維度題目的數(shù)量,按比例選取鉚題組成鉚測(cè)驗(yàn)。(5)兩個(gè)維度之間的相關(guān):取三個(gè)水平r=0,0.5,0.9,分別代表無(wú)相關(guān),中等程度相關(guān)和高相關(guān)。(6)等值群體的能力水平差異:分為兩種情況,兩組群體能力水平無(wú)差異(等組等值)和兩組群體能力水平有差異(非等組等值)。在等組等值的情況下,兩組被試的能力服從均值為0,標(biāo)準(zhǔn)差為1的多元正態(tài)分布;在非等組等值的情況下,參加基礎(chǔ)測(cè)驗(yàn)組的被試能力服從均值為-0.5,標(biāo)準(zhǔn)差為1的多元正態(tài)分布,參加新測(cè)驗(yàn)組的被試能力仍服從均值為0,標(biāo)準(zhǔn)差為1的多元正態(tài)分布。組間變量(1)到(4)交叉形成了17種不同的鉚測(cè)驗(yàn)設(shè)計(jì),具體見(jiàn)表1。每種鉚測(cè)驗(yàn)設(shè)計(jì)下,考慮兩個(gè)維度之間的相關(guān)和等值群體能力的差異,模擬設(shè)計(jì)共有17×2×3=102種。

        3.2 數(shù)據(jù)生成

        使用R語(yǔ)言自編程序產(chǎn)生每種條件下的反應(yīng)數(shù)據(jù)。每種條件下包括在基礎(chǔ)測(cè)驗(yàn)和新測(cè)驗(yàn)上,各3000名被試對(duì)題目的反應(yīng),所有的題目均為0/1計(jì)分。產(chǎn)生數(shù)據(jù)所依據(jù)的模型為多維兩參數(shù)Logistic模型,模型包含兩個(gè)維度,并且測(cè)驗(yàn)符合簡(jiǎn)單結(jié)構(gòu)。在各條件下,模擬數(shù)據(jù)的參數(shù)分布參照前人文獻(xiàn)及實(shí)證研究經(jīng)驗(yàn)。其中

        a ~N(0.8,0.2 ),b ~N(0,1 )

        ,該分布與ETS進(jìn)行SAT測(cè)驗(yàn)的觀察分?jǐn)?shù)的邊緣分布匹配,故可以與實(shí)際數(shù)據(jù)相比較(Bradlow,Wainer&Wang,1999)。每種設(shè)計(jì)條件下數(shù)據(jù)重復(fù)模擬30次。

        3.3 參數(shù)估計(jì)和等值

        表1 不同鉚測(cè)驗(yàn)設(shè)計(jì)

        按照等值研究的步驟,研究采用了兩步等值法(Kim&Cohen,1998;Kim&Cohen,2002)。第一步將新測(cè)驗(yàn)上的題目參數(shù)和能力參數(shù)轉(zhuǎn)換到基礎(chǔ)測(cè)驗(yàn)的量尺上。第二步將第一步中所有等值后的參數(shù)轉(zhuǎn)換到真值的量尺上。在每種等值方法的條件下,第一步和第二步使用的方法完全相同。例如,在第一步中使用了MM方法將新測(cè)驗(yàn)的參數(shù)等值到基礎(chǔ)測(cè)驗(yàn)的量尺上,在第二步中,以?xún)商诇y(cè)驗(yàn)的所有題目為鉚題,再次使用MM方法將等值后的參數(shù)轉(zhuǎn)換到產(chǎn)生值的量尺上。

        對(duì)于MM和MS方法,通過(guò)程序LinkMIRT(Yao,2004)計(jì)算轉(zhuǎn)換矩陣

        A

        B

        。對(duì)于SL,HB和LS方法,調(diào)用R中的軟件包“Plink”完成等值(Weeks,2010)。根據(jù)前面介紹的兩步方法,每次等值時(shí),等值方法需重復(fù)使用兩次以得到最后的參數(shù)結(jié)果。

        3.4 評(píng)價(jià)標(biāo)準(zhǔn)

        本研究從四個(gè)方面評(píng)價(jià)各參數(shù)等值后的返真性:(1)偏差(

        Bias

        ),絕對(duì)偏差(

        MAE

        ),誤差均方根(

        RMSE

        ),等值后結(jié)果與真值的相關(guān)(

        Correlation

        )。

        偏差的意義是總體考察各條件下,各參數(shù)等值后結(jié)果是否有定向的偏差。其計(jì)算公式如下:

        絕對(duì)偏差和誤差均方根考察了各條件下,等值后的各參數(shù)值與真實(shí)值的差異的大小。這兩個(gè)值越小,說(shuō)明等值后各參數(shù)值與模擬的真實(shí)值越接近,等值效果越好。其計(jì)算公式如下:

        公式中各參數(shù)表示的意義與公式(14)相同。

        等值后結(jié)果與真值的相關(guān)計(jì)算了各條件下,等值后各參數(shù)值與真實(shí)值的積差相關(guān)。它的意義是考察等值后參數(shù)結(jié)果與真實(shí)值的一致性水平。

        4 結(jié)果

        在參數(shù)估計(jì)過(guò)程中,所有設(shè)計(jì)因子的條件下模型均成功收斂。下面,從4個(gè)評(píng)價(jià)標(biāo)準(zhǔn)的角度呈現(xiàn)研究結(jié)果。

        4.1 偏差

        表2列出了各條件下各參數(shù)等值后的偏差。對(duì)于區(qū)分度參數(shù),不同條件下得到的結(jié)果基本一致,MM,SL,HB和LS方法的偏差總體較小,而MS方法偏差較大。對(duì)于截距參數(shù),總體來(lái)看,SL,HB和LS方法的偏差小于MM和MS方法;隨著測(cè)驗(yàn)長(zhǎng)度增加,各方法下截距參數(shù)等值偏差減小;兩個(gè)維度的題目數(shù)量比例、鉚測(cè)驗(yàn)長(zhǎng)度、鉚測(cè)驗(yàn)選擇策略和測(cè)驗(yàn)維度之間的相關(guān)對(duì)截距參數(shù)等值偏差幾乎沒(méi)有明顯影響;等值群體能力水平的差異對(duì)SL,HB和LS方法沒(méi)有影響,對(duì)MM和MS方法有一定影響。對(duì)于能力參數(shù),SL,HB和LS方法幾乎沒(méi)有偏差,明顯小于MM和MS方法,且?guī)缀醪皇芷渌蛩氐挠绊憽M和MS方法容易受其他因素的影響,如在非等組等值的情況下,MM和MS方法的偏差很大。

        4.2 絕對(duì)偏差和誤差均方根

        由于絕對(duì)偏差和誤差均方根具有較高的一致性,因此在本節(jié)的結(jié)果中,都參照誤差均方根加以比較。

        4.2.1 等值方法的比較

        多維IRT等值方法對(duì)參數(shù)估計(jì)的精度有很大的影響。SL,HB和LS方法得到的等值后各參數(shù)精度較高,且這三種多維IRT等值方法幾乎不受其他因素的影響,在各條件下等值結(jié)果相對(duì)穩(wěn)定。MM方法對(duì)區(qū)分度參數(shù)等值的誤差也較小,但是,MM方法對(duì)截距參數(shù)和能力參數(shù)的估計(jì)誤差較大,MS方法對(duì)所有參數(shù)等值的誤差都較大。

        具體來(lái)說(shuō),對(duì)于題目參數(shù)和能力參數(shù),在所有模擬因子的條件下,等值方法對(duì)誤差均方根的影響僅依賴(lài)于等值群體的能力水平差異而不同。圖1表示了等值群體的能力水平差異的不同水平下,五種等值方法得到的區(qū)分度參數(shù)、截距參數(shù)、能力參數(shù)的誤差均方根。

        從圖1中可以看出,在等組等值的條件下,SL,HB和LS方法的結(jié)果略?xún)?yōu)于MM和MS方法;隨著等值群體的能力水平差異增大,SL,HB和LS方法的結(jié)果保持穩(wěn)定,而MM和MS方法的結(jié)果出現(xiàn)了較大的偏差。尤其對(duì)于截距參數(shù)和能力參數(shù),MM和MS方法在非等組條件下的誤差明顯增大。

        綜上,從五種等值方法的比較結(jié)果可以看出,SL,HB和LS方法得到誤差均方根顯著小于MM和MS方法,在實(shí)際應(yīng)用中應(yīng)當(dāng)作為首選方法。因此,在下面對(duì)鉚測(cè)驗(yàn)設(shè)計(jì)的考察中,僅選取SL、HB和LS三種等值方法。

        4.2.2 鉚測(cè)驗(yàn)設(shè)計(jì)對(duì)題目參數(shù)等值結(jié)果的影響

        區(qū)分度參數(shù)。

        如圖2所示,對(duì)于區(qū)分度參數(shù),測(cè)驗(yàn)長(zhǎng)度和鉚測(cè)驗(yàn)長(zhǎng)度對(duì)區(qū)分度參數(shù)估計(jì)的精度有較大的影響,即測(cè)驗(yàn)長(zhǎng)度越長(zhǎng),鉚測(cè)驗(yàn)長(zhǎng)度越長(zhǎng),誤差均方根越小。同時(shí),測(cè)驗(yàn)長(zhǎng)度和鉚測(cè)驗(yàn)長(zhǎng)度的交互作用對(duì)參數(shù)估計(jì)的精度也有較大的影響,在測(cè)驗(yàn)長(zhǎng)度較短的條件下,鉚測(cè)驗(yàn)長(zhǎng)度僅為全卷的1/20時(shí)得到的誤差均方根遠(yuǎn)大于其他條件。在相同的測(cè)驗(yàn)長(zhǎng)度和鉚測(cè)驗(yàn)長(zhǎng)度下,鉚測(cè)驗(yàn)選擇策略對(duì)參數(shù)等值結(jié)果沒(méi)有影響。另外,根據(jù)附表2~附表4,兩個(gè)維度題目數(shù)量的比例對(duì)區(qū)分度參數(shù)等值結(jié)果沒(méi)有顯著影響。兩個(gè)維度之間的相關(guān)和等值群體的能力水平差異對(duì)區(qū)分度參數(shù)等值結(jié)果沒(méi)有顯著影響。并且,在維度之間的相關(guān)或等值群體的能力水平差異不同的條件下,測(cè)驗(yàn)長(zhǎng)度、鉚測(cè)驗(yàn)長(zhǎng)度和鉚測(cè)驗(yàn)選擇策略對(duì)參數(shù)等值結(jié)果的影響不存在差異。

        圖1 等值方法與等值群體的能力水平差異交互作用

        圖2 鉚測(cè)驗(yàn)設(shè)計(jì)對(duì)區(qū)分度參數(shù)誤差均方根的影響

        截距參數(shù)。

        鉚測(cè)驗(yàn)設(shè)計(jì)對(duì)截距參數(shù)的誤差均方根的影響與區(qū)分度參數(shù)類(lèi)似。如圖3所示,測(cè)驗(yàn)長(zhǎng)度越長(zhǎng),鉚測(cè)驗(yàn)長(zhǎng)度越長(zhǎng),截距參數(shù)估計(jì)的誤差均方根越小。另外,根據(jù)附表1,附表2,附表4,兩個(gè)維度題目數(shù)量的比例,鉚測(cè)驗(yàn)選擇策略和維度之間的相關(guān)對(duì)截距參數(shù)的等值結(jié)果沒(méi)有顯著影響。不同的是,等值群體的能力水平差異對(duì)截距參數(shù)的等值結(jié)果有一定影響,等值群體的能力水平差異越大,誤差均方根越大。在等值群體的能力水平差異不同的條件下,鉚測(cè)驗(yàn)設(shè)計(jì)對(duì)截距參數(shù)等值結(jié)果的影響是相同的。

        4.2.3 鉚測(cè)驗(yàn)設(shè)計(jì)對(duì)能力參數(shù)等值結(jié)果的影響

        如圖4所示,首先,題目數(shù)量較多的維度(維度1),其能力參數(shù)的等值誤差均方根要小于題目數(shù)量較少的維度(維度2)。其次,對(duì)于兩個(gè)維度的能力參數(shù),測(cè)驗(yàn)長(zhǎng)度和兩個(gè)維度之間的相關(guān)的影響顯著,即測(cè)驗(yàn)長(zhǎng)度越長(zhǎng),相關(guān)越高,誤差均方根越小。并且,對(duì)于題目數(shù)量較少的維度,相關(guān)對(duì)能力參數(shù)估計(jì)結(jié)果的影響更大。測(cè)驗(yàn)長(zhǎng)度和相關(guān)還呈現(xiàn)出交互作用,當(dāng)測(cè)驗(yàn)長(zhǎng)度較短時(shí),隨著相關(guān)增加,誤差均方根減小的幅度較大(維度1約0.047,維度2約0.134);當(dāng)測(cè)驗(yàn)長(zhǎng)度較長(zhǎng)時(shí),隨著相關(guān)增加,誤差均方根減小的幅度較小(維度1約0.031,維度2約0.107)。

        圖3 鉚測(cè)驗(yàn)設(shè)計(jì)對(duì)截距參數(shù)誤差均方根的影響

        圖4 測(cè)驗(yàn)長(zhǎng)度和相關(guān)對(duì)能力參數(shù)誤差均方根的影響

        根據(jù)附表4,兩個(gè)維度題目數(shù)量的比例對(duì)能力參數(shù)等值結(jié)果有顯著影響,對(duì)于維度1能力參數(shù),兩個(gè)維度題目數(shù)量相等時(shí)的誤差均方根要大于數(shù)量不等的條件,對(duì)于維度2能力參數(shù),則與之相反。這是與每個(gè)維度題目數(shù)量相關(guān)的。在該因子的兩個(gè)水平下,其他因子對(duì)能力參數(shù)等值結(jié)果的影響具有很強(qiáng)的一致性,并且,僅當(dāng)兩個(gè)維度題目數(shù)量的比例不同時(shí),才能進(jìn)行鉚測(cè)驗(yàn)選擇策略的比較。因此,為了仔細(xì)考察鉚測(cè)驗(yàn)選題策略對(duì)能力參數(shù)等值的影響,本部分以?xún)蓚€(gè)維度題目數(shù)量不等的條件為例進(jìn)行分析。表3列出了兩個(gè)維度題目數(shù)量比例不同的條件下,SL方法得到的兩個(gè)維度能力參數(shù)的誤差均方根(HB和LS方法的結(jié)果與之類(lèi)似)。

        從表3中可以看出,當(dāng)兩個(gè)維度題目數(shù)量不等時(shí),兩種選題策略下的誤差均方根在數(shù)值上非常接近。隨著鉚測(cè)驗(yàn)長(zhǎng)度的增加,誤差均方根有一定的減少,尤其對(duì)于維度2能力參數(shù),在測(cè)驗(yàn)長(zhǎng)度較長(zhǎng)的條件下,該現(xiàn)象較為明顯。等值群體的能力水平差異對(duì)能力參數(shù)估計(jì)結(jié)果沒(méi)有影響。

        4.3 等值后結(jié)果與真值的相關(guān)

        在各種條件下,SL,HB和LS方法等值后各參數(shù)值與真實(shí)值的相關(guān)(區(qū)分度參數(shù):0.923~0.998,截距參數(shù):0.997~1.000,能力參數(shù):0.697~0.987)大于MM和MS方法(區(qū)分度參數(shù): 0.479~0.998,截距參數(shù):0.829~1.000,能力參數(shù):0.542~0.943),且更加穩(wěn)定。說(shuō)明SL,HB和LS方法的最后得到的等值結(jié)果與真實(shí)值存在較高的一致性。MM和MS方法得到的相關(guān)系數(shù)變異較大,在一些條件下,它們的結(jié)果甚至不可接受。對(duì)于SL,HB和LS方法,鉚測(cè)驗(yàn)設(shè)計(jì)對(duì)區(qū)分度參數(shù)和能力參數(shù)相關(guān)值的影響與誤差均方根的結(jié)果類(lèi)似,而截距參數(shù)的相關(guān)在各條件下普遍較高(在0.998左右),不受其他模擬因子的影響。

        表3 兩個(gè)維度題目數(shù)量比例不同條件下SL方法使用兩種鉚測(cè)驗(yàn)選題策略得到的能力參數(shù)誤差均方根

        5 討論與結(jié)論

        本研究基于含有兩個(gè)維度的多維補(bǔ)償性IRT模型模擬數(shù)據(jù),比較了五種多維IRT等值方法在各鉚測(cè)驗(yàn)設(shè)計(jì)下的表現(xiàn),研究結(jié)果可以為多維IRT等值方法的比較及其影響因素的探索提供更詳細(xì)的信息。

        首先,通過(guò)對(duì)等值方法比較可以看出,SL,HB和LS方法得到的等值結(jié)果比MM和MS方法準(zhǔn)確,特別是在非等組等值的情況下,其優(yōu)勢(shì)更為明顯。在各模擬條件下,SL,HB和LS方法三種等值方法得到的結(jié)果較為穩(wěn)定,這不僅與之前單維IRT等值的研究結(jié)果相呼應(yīng)(Hanson&Béguin,2002),也與前人關(guān)于多維IRT等值的已有研究結(jié)果一致(Davey et al.,1996;Oshima et al.,2000;Yao,2011)。SL,HB和LS方法的優(yōu)勢(shì)可能仍在于它們?cè)谟?jì)算轉(zhuǎn)換矩陣時(shí),同時(shí)考慮了所有的題目參數(shù)。然而,除了MM方法對(duì)區(qū)分度參數(shù)等值的誤差均方根較小之外,MM和MS方法在大多數(shù)情況下表現(xiàn)很差。其中,MS方法的誤差均方根最大,這可能一方面由于該方法在等值過(guò)程中只考慮了難度參數(shù),而另一方面,計(jì)算轉(zhuǎn)換矩陣時(shí)需要用到難度參數(shù)的標(biāo)準(zhǔn)差,這個(gè)統(tǒng)計(jì)量本身不如平均數(shù)穩(wěn)定,并且當(dāng)鉚題數(shù)量較小時(shí),其標(biāo)準(zhǔn)差也極不準(zhǔn)確。在應(yīng)用LinkMIRT軟件進(jìn)行MM和MS方法等值時(shí),計(jì)算出的轉(zhuǎn)換矩陣

        A

        中的元素有時(shí)很大。這與其他方法的結(jié)果存在顯著差異。回顧MM和MS方法的原理,可知轉(zhuǎn)換矩陣

        A

        為對(duì)角矩陣,即對(duì)角線之外的元素均為0。但是我們?cè)诠烙?jì)參數(shù)時(shí),沒(méi)有加入維度之間獨(dú)立的假設(shè),所以在計(jì)算轉(zhuǎn)換矩陣時(shí)理應(yīng)考慮維度之間的相關(guān)。這兩種方法沒(méi)有能夠?qū)⒕S度之間的關(guān)系納入轉(zhuǎn)換矩陣的計(jì)算中,這可能是它們的結(jié)果出現(xiàn)異常值的一個(gè)原因。因此,在實(shí)際應(yīng)用中最好選用SL,HB和LS方法進(jìn)行多維IRT等值。

        其次,在選擇 SL,HB和LS方法的前提下考慮不同鉚測(cè)驗(yàn)設(shè)計(jì)的影響。對(duì)于第一個(gè)研究問(wèn)題,鉚測(cè)驗(yàn)長(zhǎng)度對(duì)區(qū)分度參數(shù),截距參數(shù)都有一定的影響。當(dāng)測(cè)驗(yàn)長(zhǎng)度較短時(shí),如果鉚測(cè)驗(yàn)長(zhǎng)度僅為全卷的1/20,得到的結(jié)果最差。隨著鉚測(cè)驗(yàn)長(zhǎng)度增加,參數(shù)等值后的誤差均方根減小。但當(dāng)鉚測(cè)驗(yàn)長(zhǎng)度增加到全卷的1/5以后,等值誤差均方根沒(méi)有明顯的減小。在單維IRT中,Harris和Crouse(1993)建議鉚測(cè)驗(yàn)長(zhǎng)度不需要太長(zhǎng),經(jīng)驗(yàn)的標(biāo)準(zhǔn)是鉚測(cè)驗(yàn)至少需包含8道題目或者占全卷的20%(Sykes,1997)。在本研究中,對(duì)于SL,HB和LS方法,雖然鉚測(cè)驗(yàn)長(zhǎng)度對(duì)等值誤差均方根的影響在統(tǒng)計(jì)檢驗(yàn)上達(dá)到了顯著水平,但是該變量在數(shù)值上的影響較為微弱。這與Yao(2011)的研究結(jié)果類(lèi)似,在多維IRT等值中,如果選擇了較好的等值方法,等值結(jié)果準(zhǔn)確性將幾乎不受鉚測(cè)驗(yàn)長(zhǎng)度影響。這可能是在數(shù)據(jù)模擬與模型擬合過(guò)程中,均采用了多維補(bǔ)償性模型的緣故。該結(jié)果對(duì)于實(shí)際應(yīng)用具有重要的意義,一旦選擇了良好的多維IRT等值方法,只需要較少數(shù)量的鉚題就能得到較準(zhǔn)確的等值結(jié)果。這樣既能夠減少編制鉚題時(shí)花費(fèi)的人力物力,還能在一定程度上縮短測(cè)驗(yàn)長(zhǎng)度,提高效率。對(duì)于第二個(gè)研究問(wèn)題,不同的鉚測(cè)驗(yàn)選擇方法對(duì)SL,HB和LS方法沒(méi)有顯著影響。在構(gòu)建鉚測(cè)驗(yàn)時(shí),基本要求是它應(yīng)當(dāng)是整個(gè)測(cè)驗(yàn)的一個(gè)“微縮版本”(Kolen&Brennan,2004)。很多研究者關(guān)注了鉚測(cè)驗(yàn)在內(nèi)容上的代表性(Cook&Petersen,1987)。他們認(rèn)為,使用具有內(nèi)容代表性的鉚測(cè)驗(yàn)?zāi)軌蛉コ戎灯?并且增加估計(jì)的等值系數(shù)的精確性。因此本研究假設(shè),如果按照兩個(gè)維度題目數(shù)量的比例選擇鉚題,會(huì)得到較好的等值結(jié)果。研究結(jié)果沒(méi)有證明之前的假設(shè),這其實(shí)也沒(méi)有違背對(duì)鉚測(cè)驗(yàn)內(nèi)容代表性的要求。因?yàn)樵谘芯吭O(shè)計(jì)中,每個(gè)維度的鉚題都符合簡(jiǎn)單結(jié)構(gòu)??梢酝茰y(cè),如果某些維度不含鉚題,或者含有的鉚題均同時(shí)屬于多個(gè)維度(項(xiàng)目?jī)?nèi)多維),那么將會(huì)違背鉚測(cè)驗(yàn)具有內(nèi)容代表性的原則,從而導(dǎo)致有偏差的等值結(jié)果。另外,鉚測(cè)驗(yàn)選擇策略的問(wèn)題,對(duì)于單個(gè)維度來(lái)說(shuō)就轉(zhuǎn)化為鉚測(cè)驗(yàn)長(zhǎng)度的問(wèn)題,只要對(duì)于每個(gè)維度來(lái)說(shuō),簡(jiǎn)單結(jié)構(gòu)的鉚題數(shù)量達(dá)到了一定的比例,就能得到較穩(wěn)定的等值結(jié)果。

        最后,在大多數(shù)關(guān)于多維IRT等值的研究中,都只考察了等值方法對(duì)題目參數(shù)的返真性(Oshima et al.,2000;Yao&Boughton,2009;Simon,2008)。但是,有些情況下等值的目的是將參加不同測(cè)驗(yàn)考生的能力水平調(diào)整到同一量尺上。因此,本研究還包括了對(duì)各種等值方法下,能力參數(shù)返真性的比較。對(duì)于SL,HB和LS方法,兩個(gè)維度能力參數(shù)的等值結(jié)果普遍受到相關(guān)和測(cè)驗(yàn)長(zhǎng)度的影響。另外,題目數(shù)量少的維度能力參數(shù)等值結(jié)果較差,并且容易受到鉚測(cè)驗(yàn)長(zhǎng)度和等值群體的能力水平差異的影響。說(shuō)明對(duì)于題目數(shù)量少的維度,更應(yīng)該注意對(duì)鉚測(cè)驗(yàn)的選擇。總的來(lái)說(shuō),即使對(duì)于這三種方法,能力參數(shù)等值后的誤差均方根也較大。為了探索原因,以鉚測(cè)驗(yàn)設(shè)計(jì)9~11為例(在此情況下測(cè)驗(yàn)長(zhǎng)度最長(zhǎng),且兩個(gè)維度的題目數(shù)量相等,參數(shù)估計(jì)準(zhǔn)確性應(yīng)當(dāng)最高),計(jì)算了BMIRT對(duì)能力參數(shù)估計(jì)值的誤差均方根。結(jié)果顯示,SL,HB和LS方法能力參數(shù)估計(jì)的誤差均方根在0.375到0.436之間,而參數(shù)的等值誤差均方根在0.375到0.439之間。因此,能力參數(shù)等值后的誤差很可能大部分來(lái)源于參數(shù)估計(jì)的誤差。迄今,很多研究者已經(jīng)對(duì)多維IRT模型的參數(shù)估計(jì)進(jìn)行了深入的研究(de la Torre,2009;Zhang&Stone,2004;Bolt&Lall,2003;Yao,2003),并編寫(xiě)了一些估計(jì)軟件。其中大部分能得到較為準(zhǔn)確的題目參數(shù)估計(jì)結(jié)果,而能力參數(shù)估計(jì)結(jié)果并不理想。因此,采用合適的估計(jì)方法減小模型對(duì)能力參數(shù)估計(jì)的誤差,可能是提高多維IRT能力參數(shù)等值準(zhǔn)確性的一個(gè)有效途徑。

        現(xiàn)在,多維IRT模型在教育測(cè)量領(lǐng)域得到了越來(lái)越多的應(yīng)用。多維IRT等值自然也成為了實(shí)際中急需實(shí)現(xiàn)的方法。本研究探討了五種常用的多維IRT等值方法在不同鉚測(cè)驗(yàn)設(shè)計(jì)下的表現(xiàn),對(duì)多維測(cè)驗(yàn)中多維IRT等值方法的選擇和鉚測(cè)驗(yàn)的設(shè)計(jì)具有一定的實(shí)踐意義。第一,在編制多維IRT測(cè)驗(yàn)時(shí),應(yīng)盡量保證每個(gè)維度都有充足的題目數(shù)量,維度之間具有較高的相關(guān)。第二,在設(shè)計(jì)多維IRT等值的鉚題時(shí),應(yīng)當(dāng)保證每個(gè)維度都有一定數(shù)量的鉚題,并且盡可能使用簡(jiǎn)單結(jié)構(gòu)的鉚題。另外,各維度鉚

        題的分布不一定需按照全卷各維度題目數(shù)量的比例,但需要達(dá)到每個(gè)維度鉚測(cè)驗(yàn)長(zhǎng)度比例的最低標(biāo)準(zhǔn)。第三,在等值方法上選擇使用SL,HB和LS方法,盡量避免MM和MS方法。本研究還存在一定的局限性。如研究數(shù)據(jù)均模擬0/1計(jì)分的題目,并且被試的能力分布也滿足多元正態(tài)分布,在實(shí)際中會(huì)出現(xiàn)等級(jí)評(píng)分的題目甚至混合類(lèi)型的題目,并且被試群體的能力也會(huì)呈現(xiàn)出各種分布形態(tài),有必要在以后的研究中對(duì)這些更加復(fù)雜的情況加以討論。此外,研究?jī)H討論了對(duì)于維度能力的等值,實(shí)際中可能還需要實(shí)現(xiàn)對(duì)總能力的等值。因此結(jié)合Yao(2011)提出的方法,在各條件下對(duì)多維IRT維度能力和總能力等值的結(jié)果進(jìn)行比較,是值得進(jìn)一步研究的問(wèn)題。

        本研究得到的主要結(jié)論如下:

        第一,在本研究設(shè)置的各個(gè)模擬條件下,多維SL,HB和LS等值方法得到的等值結(jié)果比MM和MS方法準(zhǔn)確,并且這三種方法表現(xiàn)更加穩(wěn)定。在等值群體的能力水平存在差異的情況下,多維MM和MS等值方法得到的等值結(jié)果誤差很大。因此,在等值方法選擇上,推薦使用多維SL,HB和LS等值方法。

        第二,對(duì)于多維SL,HB和LS等值方法:(1)測(cè)驗(yàn)長(zhǎng)度對(duì)各參數(shù)的等值結(jié)果影響顯著,測(cè)驗(yàn)長(zhǎng)度越長(zhǎng),等值結(jié)果的誤差均方根越小;(2)鉚測(cè)驗(yàn)長(zhǎng)度對(duì)各參數(shù)的等值結(jié)果有一定影響,鉚測(cè)驗(yàn)長(zhǎng)度越長(zhǎng),等值誤差均方根越小;(3)鉚測(cè)驗(yàn)選擇策略對(duì)各參數(shù)等值結(jié)果沒(méi)有顯著的影響;(4)維度之間的相關(guān)對(duì)區(qū)分度參數(shù)和截距參數(shù)的等值結(jié)果沒(méi)有影響,對(duì)于能力參數(shù),隨著相關(guān)的增加等值誤差均方根減小;(5)等值群體的能力水平差異僅對(duì)截距參數(shù)有一定影響,在非等組的條件下得到的等值誤差均方根大于等組的條件。

        Ackerman,T.A.(1994).Using multidimensionalitem response theory to understand what items and tests are measuring.

        Applied Measurementin Education,7

        (4),255–278.Angoff,W.H.(1982).Summary and derivation of equating methods used at ETS.

        Test Equating,55

        ,69.Bolt,D.M.,&Lall,V.F.(2003).Estimation of compensatory and noncompensatory multidimensionalitem response models using Markov chain Monte Carlo.

        Applied Psychological Measurement,27

        (6),395–414.Bradlow,E.T.,Wainer,H.,&Wang,X.H.(1999).A Bayesian random effects model for testlets.

        Psychometrika,64

        (2),153–168.

        Brossman,B.G.(2010).Observed score and true score equating procedures for multidimensional item response theory.University of Iowa.

        Cook,L.L.,&Paterson,N.S.(1987).Problems related to the use of conventional and item response theory equating methodsin lessthan optimalcircumstances.

        Applied Psychological Measurement,11

        (3),225–244.Davey,T.,Oshima,T.C.,& Lee,K.(1996).Linking multidimensional item calibrations.

        Applied Psychological Measurement,20

        (4),405–416.de la Torre,J.,&Song,H.(2009).Simultaneous estimation of overall and domain abilities:A higher-order IRT model approach.

        Applied PsychologicalMeasurement,33

        (8),620–639.DeMars,C.E.(2006).Application of the bi-factor multidimensionalitem response theory modelto test let-based tests.

        Journal of Educational Measurement,43

        (2),145–168.Hanson,B.A.,&Béguin,A.A.(2002).Obtaining a common scale for item response theory item parameters using separate versus concurrent estimation in the common-item equating design.

        Applied PsychologicalMeasurement,26

        (1),3–24.Harris,D.J.,&Crouse,J.D.(1993).A study of criteria used in equating.

        Applied Measurement in Education,6

        (3),195–240.Kim,S.H.,&Cohen,A.S.(1998).A comparison of linking and concurrent calibration under item response theory.

        Applied Psychological Measurement,22

        (2),131–143.Kim,S.H.,&Cohen,A.S.(2002).A comparison of linking and concurrent calibration under the graded response model.

        Applied Psychological Measurement,26

        (1),25–41.Klein,L.W.,&Jarjoura,D.(1985).The importance of content representation for common-item equating with nonrandom groups.

        JournalofEducationalMeasurement,22

        (3),197–206.Kolen,M.J.,&Brennan,R.L.(2004).

        Test equating,scaling,and linking:Methods and practices.

        New York:Springer Verlag.Li,Y.H.,&Lissitz,R.W.(2000).An evaluation of the accuracy of multidimensional IRT linking.

        Applied Psychological Measurement,24

        (2),115–138.Marco,G.L.,Petersen,N.S.,&Stewart,E.E.(1983).

        A large scale evaluation of linear and curvilinear score equating models Volume I

        (RM-83-2).Princeton,NJ:Educational Testing Service.Min,K.S.(2003).

        The impact of scale dilation on the quality of the linking of multidimensional item response theory calibrations

        .Michigan State University,Department of Counseling,Educational Psychology,and Special Education.Oshima,T.C.,Davey,T.C.,& Lee,K.(2000).Multidimensional linking: Four practical approaches.

        Journal of Educational Measurement,37

        (4),357–373.Reckase,M.D.(1985).The difficulty of test items that measure more than one ability.

        Applied Psychological Measurement,9

        (4),401–412.Reckase,M.D.(2009).

        Multidimensional item response theory.

        New York:Springer Verlag.Reckase,M.D.,&Martineau,J.(2004).

        The vertical scaling of science achievement tests

        .Committee on Test Design for K-12 Science Achievement.Washington,DC.Sch?nemann,P.H.(1966).A generalized solution of the orthogonalProcrustes problem.

        Psychometrika,31

        (1),1–10.Simon,M.K.(2008).

        Comparison of concurrent and separate multidimensional IRT linking of item parameters

        .University of Minnesota.Sinharay,S.,&Holland,P.W.(2007).Is it necessary to make anchor tests mini-versions of the tests being equated or can some restrictions be relaxed.

        JournalofEducational Measurement,44

        (3),249–275.Sykes,R.C.(1997).

        Guidelines for the selection of anchor items for mixed(or single)item format tests

        .Monterey,CA:CTB/McGraw-Hill.Weeks,J.P.(2010).Plink:An R packageforlinking mixed-format tests using IRT-based methods.

        Journal of Statistical Software,35

        (12),1–33.Yao,L.H.(2003).

        BMIRT:Bayesianmultivariateitem response theory

        .Monterey,CA:CTB/McGraw-Hill.Yao,L.H.(2004).

        LinkMIRT:Linking of multivariate itemresponse model

        .Monterey,CA:Defense Manpower Data Center.Yao,L.H.(2011).Multidimensional linking for domain scores and overall scores for nonequivalent groups.

        Applied Psychological Measurement,35

        (1),48–66.Yao,L.H.,&Boughton,K.(2009).Multidimensional linking for tests with mixed item types.

        Journal of Educational Measurement,46

        (2),177–197.

        Yon,H.(2007).Multidimensionalitem responsetheory(MIRT)approaches to vertical scaling.Michigan State University.

        Zhang,B.,&Stone,C.(2004).

        Direct and indirect estimation of three-parameter compensatory multidimensional item response models

        .Paper presented at the annual meeting of the American Educational Research Association,San Diego,CA.

        猜你喜歡
        等值方根測(cè)驗(yàn)
        方根拓展探究
        異步電動(dòng)機(jī)等值負(fù)載研究
        《新年大測(cè)驗(yàn)》大揭榜
        均方根嵌入式容積粒子PHD 多目標(biāo)跟蹤方法
        兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
        考試周刊(2016年88期)2016-11-24 13:30:50
        揭開(kāi)心算方根之謎
        電網(wǎng)單點(diǎn)等值下等效諧波參數(shù)計(jì)算
        基于戴維南等值模型的靜穩(wěn)極限在線監(jiān)視
        你知道嗎?
        數(shù)學(xué)魔術(shù)
        国产成人精选在线不卡| 久久午夜福利无码1000合集 | 亚洲欧美日韩专区一| 在线观看免费人成视频国产| 久久一区二区三区少妇人妻| 乱码丰满人妻一二三区| 后入内射欧美99二区视频| 亚洲片在线视频| 成人av一区二区三区四区| 国产太嫩了在线观看| 欧美精品久久久久久久自慰| 欧美一级视频在线| 一本色道久久亚洲精品| 日本无码欧美一区精品久久| 中文在线天堂网www| 日本韩国黄色三级三级| 亚洲丝袜美腿在线视频| 无码乱人伦一区二区亚洲一| 精品国产国产AV一区二区| 亚洲精品99久91在线| 精品国产sm最大网站| 久久精品女人天堂av| 国产精品九九久久一区hh| 青青草视频在线播放观看| av无码电影一区二区三区| 一本色道av久久精品+网站 | 国产内射视频在线免费观看| 最近中文字幕大全在线电影视频| 亚洲色大成网站www在线观看| 亚洲av日韩av天堂久久不卡 | 久久久老熟女一区二区三区| 911香蕉视频| 麻豆国产精品伦理视频| 国产精品二区一区二区aⅴ污介绍 少妇伦子伦情品无吗 | 日本二一三区免费在线| 国产suv精品一区二区883| 欧美色资源| 国产三级不卡视频在线观看| 伊人久久大香线蕉av不卡| 色999欧美日韩| 成人亚洲av网站在线看|