亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        主觀題評分中的評分者漂移及其傳統(tǒng)檢測方法

        2018-11-06 01:23:02趙海燕
        中國考試 2018年8期
        關(guān)鍵詞:效應(yīng)模型研究

        趙海燕 辛 濤 田 偉

        (1.北京教育考試院,北京 100083;2.北京師范大學心理學部,北京 100875;3.北京師范大學中國基礎(chǔ)教育質(zhì)量監(jiān)測協(xié)同創(chuàng)新中心,北京 100875)

        主觀題作為一種重要的題目形式,由于形式多樣、考查靈活以及能夠探查考生深層次的能力,備受測驗編制者和命題者的青睞,業(yè)已成為眾多大型測驗和考試的重要組成部分[1-2]。主觀題評分通常先制訂評分細則,再由評分員根據(jù)主觀印象按照細則對行為樣本進行評定。不管評定量尺建構(gòu)得如何好,量尺信度仍然主要取決于進行評定的人,主觀題最突出的構(gòu)念無關(guān)變異主要來自于評分員[3]。研究表明,評分員自身在多次評分時難以保持一致,不同評分員對于相同行為樣本的評分也不盡相同。評分員自身以及不同評分員間在多次評定上的不一致性,直接降低了結(jié)果分數(shù)的信度和效度,這種現(xiàn)象被稱為評分者效應(yīng)(rater effects)[4]。一段時間以來,研究者傾向于將評分者效應(yīng)視為評分員固有的一種靜態(tài)特征,不隨時間、場合和任務(wù)發(fā)生改變,并以相同方式影響著所有被評價的行為樣本。隨著研究的深入,研究者逐漸認識到評分員的表現(xiàn)會隨著時間、場合以及任務(wù)的變化而改變[3,5-6],從而引起評分者效應(yīng)的波動,即發(fā)生評分者漂移(rater DRIFT)。

        一些大型測驗機構(gòu)和教育管理部門已經(jīng)意識到評分者漂移的存在與危害,如美國教育與心理測驗標準(The Standards for Educational and Psychological Testing)明確指出:測驗實施者必須對評分員的表現(xiàn)進行實時監(jiān)控,以確定是否存在評分者漂移,并在報告結(jié)果分數(shù)時要去除這種測驗無關(guān)變異的影響[7]。評分者漂移的存在凸顯了動態(tài)評估的重要性,為評分過程的質(zhì)量監(jiān)控提出了新的挑戰(zhàn)。在此背景下,研究評分者漂移的模式、規(guī)律以及內(nèi)在機制,深入挖掘評卷質(zhì)量的發(fā)展與保持機制,不僅對評分過程的改進、有效監(jiān)控機制的建立、評分員的遴選與評價的完善具有重要的實踐價值,也能為補償方案的制定奠定基礎(chǔ),最終有助于提升大規(guī)??荚嚨男哦?、效度與公平性。

        評分者漂移屬于新近出現(xiàn)的研究主題,對多數(shù)研究者而言比較陌生。有鑒于此,本文將重點介紹評分者漂移的定義、使用的指標與傳統(tǒng)的檢測方法,并對未來研究方向加以展望。

        1 評分者效應(yīng)及評分者漂移

        1.1 評分者效應(yīng)

        研究表明,評分員的知識背景、綜合能力、工作經(jīng)驗、情緒偏好以及疲勞程度等個人特征,均會對評分的精確性和客觀性產(chǎn)生影響,從而導致評分者效應(yīng)的出現(xiàn)[4];在主觀題和其他類似任務(wù)的評分中,評分者效應(yīng)非常普遍,這些效應(yīng)會隨著培訓與監(jiān)控減弱,但不會完全消失[4,8-15]。

        Scullen等認為,評分者效應(yīng)是一大類效應(yīng),導致這類效應(yīng)的系統(tǒng)變異與評分員在評定中的表現(xiàn)有關(guān),與被試的行為無關(guān)[16]。評分者效應(yīng)按表現(xiàn)與影響機制可細分為多個子類別。一般說來,最受關(guān)注的效應(yīng)有嚴厲度或?qū)捤啥刃?yīng)(severity/leniency)、不準確性效應(yīng)以及評定量尺使用模式上的系統(tǒng)變異,如趨中效應(yīng)(central tendency)和范圍限制等[17]。

        1.2 評分者漂移

        在評分進程中,諸多因素都可能影響評分員的行為表現(xiàn),其中包括個人因素、評卷環(huán)境的物理因素以及評分過程中的學習、質(zhì)量監(jiān)控和培訓的延遲作用等。大規(guī)模考試的評卷過程短則持續(xù)數(shù)天,長則持續(xù)數(shù)個星期;影響評分表現(xiàn)的諸多因素都會隨著時間、場合以及任務(wù)的變化而變化;相應(yīng)地,評分員的表現(xiàn)也會發(fā)生改變[3],從而引起評分者效應(yīng)的波動,即評分者漂移。

        評分者漂移的定義也隨著研究進程的發(fā)展而逐漸演變。早期研究認為,評分者漂移源自于評分員使用評分細則的前后不一致[18]。隨著研究的推進,研究者認識到評分員會“隨著時間進程的推進逐漸地、或多或少地展示出評分者效應(yīng)”,評分者漂移是“評分員隨著評卷時間進程的推進所發(fā)生的在評分表現(xiàn)上的差異性變化”[19]。實際上,在Wolfe等的最初提法中,評分者漂移的英文名稱DRIFT近似為Differential Reader Functioning over Time的首字母,意為評分員的跨時間功能差異[5]。評分者漂移也是多種評分者效應(yīng)波動的總稱,如嚴厲度漂移、不準確性漂移以及趨中效應(yīng)漂移等。

        評分員的嚴厲度水平會隨著評卷進程的推進而變化:當評卷過程持續(xù)較長時間時,評分員的平均評定可能在今天與明天、上午與下午,甚至試卷批次間發(fā)生波動,即評分員表現(xiàn)出嚴厲度漂移[6]。趨中效應(yīng)同樣會發(fā)生波動:隨著評卷進程的推進,一些評分員會更加頻繁地使用量尺的中間類別,表現(xiàn)一種漸進的范圍限制,即發(fā)生量尺類別使用的漂移[6]。不準確性效應(yīng)也會隨著評卷進程發(fā)生漂移:一方面,練習效應(yīng)使一些評分員變得更加準確;另一方面,疲勞和厭倦也可能導致評分誤差隨著評卷進程的推進而上升。此外,一些評分項目還包含持續(xù)培訓或階段性校正,這些做法也會導致不準確性效應(yīng)發(fā)生變化[20]。

        評分者漂移領(lǐng)域最受青睞的是嚴厲度效應(yīng),大部分研究均針對該效應(yīng)展開[3,18]。只有少數(shù)研究關(guān)注其他效應(yīng)的漂移[6,21-23]。研究表明,即使在相同評分環(huán)境下,不同評分員的評分表現(xiàn)也會隨著時間進程的推進出現(xiàn)不同的趨勢。總的說來,研究者已經(jīng)認識到了評分者漂移研究的意義與價值,并進行了一定規(guī)模的研究。這些研究的方法和結(jié)論對了解評分行為有所助益,盡管仍存在一些不盡人意之處。

        2 傳統(tǒng)的檢測方法

        早期研究多采用重復評定策略,借助評定間的分數(shù)變化、相關(guān)分析和方差分析探查嚴厲度的跨時間變化[24]。隨后,Congdon等[3]基于多面Rasch模型(Many Faceted Rasch Model,MFRM)[25]和差異檢驗方法檢測嚴厲度漂移;在此基礎(chǔ)上,Wolfe等拓展了一個監(jiān)控評分者漂移的通用框架,并用于檢測多個效應(yīng)的漂移[6,26]。此外,還有一些研究借助多水平模型檢測評分者漂移[23,27-28]。下文著重介紹傳統(tǒng)的檢測方法。

        2.1 監(jiān)控評分者漂移的通用框架

        Wolfe等提出的通用框架將評分者漂移的監(jiān)控過程分為4個步驟:一是將評卷進程劃分為時間片段,劃分基于評卷進程的長度和內(nèi)部特點,相應(yīng)地可按星期、天,甚至小時進行劃分。二是確定評分者效應(yīng)的指標,計算各時段的指標值并進行基線比較或相鄰比較。前者選擇一個時段作為參照,探查評分員在參照時段和目標時段間的行為變化;后者則將某一時段與相鄰時段進行比較,以偵測評分員在相鄰時段間的行為變化。兩者在本質(zhì)上屬于簡單的差異顯著性檢驗;當結(jié)果顯示差異顯著時,即認定存在評分者漂移。三是選擇刻畫評分者漂移的參照框架,可分為內(nèi)部參照框架和外部參照框架。內(nèi)部參照框架根據(jù)特定評分員與其他評分員的一致性程度來刻畫其表現(xiàn),適用于采用多重評定的評分程序;外部參照框架則根據(jù)評分員的評定與某外部標準(如客觀題分數(shù)或?qū)<掖蚍郑┑囊恢滦猿潭葋砜坍嬈浔憩F(xiàn),適用于采用單一評定的評分程序。四是決定是否采用錨定策略以及是否使用全部數(shù)據(jù)建立鏈接。使用外部參照框架時,要采用錨定策略,即用外部指標固定某些參數(shù)值。若不采用錨定策略,則要使用全部數(shù)據(jù)建立量尺標度[6]。

        2.2 多面Rasch模型及其變式

        傳統(tǒng)Rasch模型可視為包含兩個面:個體能力和題目難度。事實上,個體在主觀題上的得分不僅取決于其能力和題目難度,還受到評分員嚴厲度和題目特定等級難度等因素的影響。有鑒于此,Linacre將傳統(tǒng)Rasch模型拓展為多面Rasch模型?;A(chǔ)的多面Rasch模型中只加入了一個評分員側(cè)面,其數(shù)學表達式為:

        其中,πnrx和πnrx-1分別為個體n被評分員r評為等級x和x-1的概率;An為個體n的能力水平,即在潛在能力連續(xù)體上的位置;Sr為評分員r的嚴厲度;Tx為等級x相對于等級x-1的難度或閾限位置。

        多面Rasch模型有幾種變式可用于處理評分者漂移。第一個變式中加入了一個時間側(cè)面,故稱為時間模型(the time facet model)[25],可用于探測評分員在不同時段間的整體變化。要直接估計評分員個體在每一時段的水平,則要用到分離模型(the separate model)[25]。時間模型也可以進一步擴展為交互作用模型(the interaction model)[25],模型中加入了評分員和時間的交互項,表示評分員在每一時段對其總嚴厲度的偏離。

        多面Rasch模型自誕生以來,廣泛用于主觀題的分數(shù)等值、評分者效應(yīng)偵測、題目審定過程的質(zhì)量監(jiān)控和考試公平性研究等領(lǐng)域[2,8-9,11-13,20,26]。在評分者漂移的傳統(tǒng)檢測方法中,多個指標直接源自或部分基于多面Rasch模型。

        2.3 靜態(tài)評分者效應(yīng)的指標

        2.3.1 嚴厲度效應(yīng)

        當評分員打分具有持續(xù)低于或高于個體真實能力水平的傾向時,就表現(xiàn)出嚴厲度或?qū)捤啥刃?yīng)[9,11,29]。對嚴厲度效應(yīng)的定義通常處于一定的測驗理論框架下。如在項目反應(yīng)理論框架下,嚴厲度或?qū)捤啥刃?yīng)被定義為:相較于其他評分員,目標評分員一致地給出偏低或者偏高的評定的傾向,前提是考慮該評分員所評的特定行為樣本的水平[13,20]。嚴厲度效應(yīng)的度量可直接使用經(jīng)典測量理論框架下的平均數(shù),當然這只作為一種粗略的度量;更常見的做法是從評分者模型中直接獲得嚴厲度估計,大多數(shù)評分者模型均直接給出了嚴厲度參數(shù),如多面Rasch模型的Sr等。

        2.3.2 趨中效應(yīng)

        范圍限制是指評分員未能使用整個量尺,將評定限制在量尺的某個范圍或區(qū)域內(nèi)[12,29]。當分數(shù)聚集在量尺中部時,范圍限制一般也被稱為趨中效應(yīng),趨中效應(yīng)是范圍限制的一個特例[12,29]。趨中效應(yīng)并不影響量尺中段評定的準確性和有效性,但會導致低端被試能力的高估和高端被試能力的低估。與嚴厲度效度不同,趨中效應(yīng)在多數(shù)評分者模型中并沒有直接指標,研究者為此開發(fā)了若干導出指標。

        探測范圍限制和趨中效應(yīng),最簡單的指標是原始分的標準差或方差[30]。一般說來,分數(shù)向平均數(shù)集中且標準差較小意味著存在趨中效應(yīng)[31]。

        多面Rasch模型的常用估計程序FACETS[32]給出的均方擬合指標(fit indexes),也可用于探測趨中效應(yīng)。均方擬合指標相當于卡方統(tǒng)計量除以自由度,取值范圍為0~+∞。均方擬合指標的值在0.50~1.50[10]或0.60~1.50[33]表明擬合度可以接受。當存在趨中效應(yīng)時,擬合統(tǒng)計量明顯小于1[31]。

        基于模型考查趨中效應(yīng)還可計算殘差與期望值的相關(guān)(the expected-residual correlation,rres,exp)[4,31]。殘差與期望值的相關(guān)被稱為殘期相關(guān);當存在趨中效應(yīng)時,殘期相關(guān)為負,趨近于-1;當存在極端化傾向(趨中效應(yīng)的反面)時,殘期相關(guān)為正,趨近于+1[4]。類似指標還有殘差與模型分的相關(guān)(the correlation between ratee measures and modelbased residuals,rres,score)。殘差與模型分的相關(guān)被稱為殘模相關(guān),同樣可作為趨中效應(yīng)指標。二者的區(qū)別在于分數(shù)的單位,期望值的單位為logit,模型分的單位則為原始分數(shù)單位[31]。

        2.3.3 不準確性效應(yīng)

        不準確性效應(yīng)指評分員的評分與個體真實能力間看似隨機的差異與分歧[4]。通常,評分者效應(yīng)強調(diào)對評分誤差的均衡的系統(tǒng)性貢獻;與此不同的是,不準確性效應(yīng)屬于非均衡性誤差,可以因時間、特質(zhì)、群體、被評價個體的不同而異[12],實際上對效度構(gòu)成更大的潛在威脅[8]。評分情境下的諸多因素均會導致不準確性效應(yīng)出現(xiàn),如評分員對測驗的內(nèi)容背景了解不充分,評分前未經(jīng)過充分培訓,具有不可改變的偏見等,主要原因都是評分員未掌握評分細則[31]。

        不準確性效應(yīng)同樣可借助殘期相關(guān)進行偵測。Wolfe指出,當存在趨中效應(yīng)時,殘期相關(guān)為負向;當存在不準確性效應(yīng)時,殘期相關(guān)接近零[4]。度量不準確性效應(yīng)還可借助一個基于原始分的指標:他評相關(guān),即與其他評分員給分的相關(guān)(rSR-ROR)。相較準確性較低的評分員,準確性較高的評分員的他評相關(guān)指標應(yīng)更高一些[12]。與他評相關(guān)類似的指標是原模相關(guān)[31],即評分員所給原始分數(shù)與模型估得的個體能力分數(shù)間的相關(guān)(the score-measure correlation或the point-measure correlation,rscore,measure)。較高的正的原模相關(guān)說明評分員給分與被試能力估計間具有較強的一致性[31]。此外,均方擬合指標可說明評分員能否對行為樣本進行可信區(qū)分,因此可同時作為趨中效應(yīng)和不準確性效應(yīng)的指標。這兩個指標的期望值均為1,大于1表明變異大于預期,即存在不準確性效應(yīng)[33-34]。

        2.4 嚴厲度漂移檢測方法

        傳統(tǒng)方法檢測嚴厲度漂移,首先要基于分離模型或交互作用模型[30]擬合得到分時段的嚴厲度指標,然后對不同時段的指標進行差異檢驗。

        當基于分離模型擬合數(shù)據(jù)時,可計算標準化差異指標(Signed Area Index,SAI)探查嚴厲度漂移[6,35],用公式表示為:

        其中,SAIrc表示標準化差異指標;c為待比較的時段,b為基線時段;Src和Srb指評分員r在時段c和b的嚴厲度估計。SAI的顯著性檢驗主要借助Z檢驗[6,35],用公式表示為:

        其中,ZSAIrc表示標準化差異指標的檢驗值和表示在時段c和b的評分員嚴厲度估計的方差。ZSAIrc的正值表示評分員變得嚴厲,負值表示變得寬松。計算出ZSAIrc后,可將它與標準正態(tài)分布直接比較。一些學者建議將它看作效果量指標(effect size indicator),數(shù)值大于0.50表示效應(yīng)有意義[36]。

        擬合交互作用模型得到的交互項估計Irt可直接作為嚴厲度漂移指標,表示評分員在每一時段的嚴厲度對其自身平均嚴厲度的偏離。對該指標可進行Waldt-test檢驗,零假設(shè)為評分員在時段c對其總嚴厲度的偏離為0。當樣本足夠大時,可以將t值與Z分布直接比較,t值計算公式表示為:

        一些研究使用標準化差異指標探查嚴厲度漂移[15,18]。這個指標的主要不足在于其分布未知。大多數(shù)研究者假設(shè),在零假設(shè)條件下標準化差異指標服從標準正態(tài)分布[3,15,18]。另一些研究使用交互項指標探測嚴厲度漂移[3,38]。此外,還有些研究對上述兩個指標進行比較,但并未得出一致結(jié)論[6]。

        2.5 均方類指標檢測方法

        評分員所給分數(shù)的標準差或方差可作為趨中效應(yīng)的粗略指標。比較評分員在不同時段所做評定的方差,可用來說明是否存在趨中效應(yīng)漂移。方差的比較一般采用F檢驗,指標計算公式表示為:

        當存在趨中效應(yīng)時,源自FACETS程序的均方擬合指標一般小于1。若評分員出現(xiàn)趨中效應(yīng)漂移,均方擬合指標也會相應(yīng)變小。因此,均方擬合指標在統(tǒng)計上顯著降低將指示這種量尺類別使用上的變化。均方擬合指標近似符合卡方分布除以自由度,那么,兩個均方擬合指標的比值應(yīng)近似地符合F分布,自由度分別等于各自的自由度。檢驗值計算公式表示為:

        其中,MSc和MSb分別為時段c和時段b的均方擬合指標。評分員變異性的跨時間下降將導致均方擬合指標的數(shù)值隨之下降,即Ffit小于1[6]。此外,F(xiàn)fit還可以用作不準確性漂移的檢測指標,檢驗原理與指標計算公式相同。

        2.6 相關(guān)系數(shù)類指標檢測方法

        在評分者效應(yīng)的指標中,多個均為相關(guān)系數(shù),如度量不準確性效應(yīng)的他評相關(guān)[12]和原模相關(guān)[31]、度量趨中效應(yīng)和不準確性效應(yīng)的殘期相關(guān)[4,31]以及度量趨中效應(yīng)的殘模相關(guān)[31]等。對于這類指標,要先將相關(guān)系數(shù)轉(zhuǎn)化為Fisher-Z函數(shù),再進行Z檢驗。如對于他評相關(guān),轉(zhuǎn)換公式與檢驗指標計算公式表示為[6]:

        其中,ZrSR-RORc與ZrSR-RORb分別為在時段c和b的他評相關(guān)的Fisher-Z函數(shù)轉(zhuǎn)換值。Nc和Nb分別為ZrSR-RORc與ZrSR-RORb所基于的評定數(shù)。其他幾個相關(guān)系數(shù)類指標的檢驗同理。

        利用差異檢驗法偵測評分者漂移,優(yōu)點是簡單明了,可以遵循現(xiàn)成的統(tǒng)計原理;不足在于每次只能比較兩個時段,難以縱覽評分者漂移的全貌。此外,當劃分時段較多時,比較數(shù)量也隨之增加;多重比較的Ⅰ類錯誤率也會相應(yīng)地呈指數(shù)增長。在這種情況下須對Ⅰ類錯誤率進行校正[27]。

        3 結(jié)束語

        針對評分者效應(yīng)和漂移,前人做了大量的研究。這些研究著眼于諸多評分者效應(yīng),基于不同的研究方法,在一定程度上揭示了評分者效應(yīng)和漂移的機制以及負面影響。令人遺憾的是,評分者效應(yīng)和漂移領(lǐng)域的大部分研究均針對有限的評分周期、有限的評分員樣本以及有限的評分者效應(yīng)展開。

        結(jié)合現(xiàn)有研究的不足,對未來研究的可能方向加以展望:

        首先,評分者效應(yīng)和漂移領(lǐng)域目前大部分研究均采取心理測量取向,重視評分者模型的開發(fā),并不關(guān)注效應(yīng)產(chǎn)生的認知過程。事實上,研究評分者效應(yīng)和漂移,除了心理測量取向外,還可以著眼于認知過程,通過構(gòu)筑認知模型,厘清評分過程中的不同要素的作用及關(guān)系[14,17,39]。在評分者效應(yīng)領(lǐng)域,兩個取向的研究目前基本處于分離狀態(tài)。然而,評分行為的外在表現(xiàn)和內(nèi)在認知過程是難以分割的有機整體。只有將認知過程和心理測量有效融合,才能真正揭示外在差異背后的深層次心理原因,從而實現(xiàn)對評分者效應(yīng)和漂移的有效鑒別與控制,最終保證行為表現(xiàn)測量的信度、效度和公平性。

        其次,評分者效應(yīng)和漂移研究方法相對單一,過于倚重差異檢驗方法,并未考慮多重評分策略導致的數(shù)據(jù)層級性。多次差異檢驗不僅易導致I類錯誤率增加,而且很難反映評分員的整體趨勢變化。目前,評分者漂移的研究主要基于多面Rasch模型和差異檢驗方法。傳統(tǒng)方法有其優(yōu)勢,也存在明顯的不足。相較而言,借助適合數(shù)據(jù)結(jié)構(gòu)特點的多水平模型偵測評分者漂移,不失為一種可行方法。評分者漂移在測量領(lǐng)域并不屬于熱點主題,目前多水平方面的應(yīng)用尚處于起步階段,在效應(yīng)變量的選取、時間變量的加入、模型的細節(jié)設(shè)置方面都有待深入研究。這些探索將有助于提升評分者漂移檢測的效度和效率。

        第三,評分者效應(yīng)的大部分研究、評分者漂移的絕大部分研究均針對嚴厲度效應(yīng)進行,只有極少數(shù)研究關(guān)注其他效應(yīng)[6]。而且,大多數(shù)研究均基于英語作文評分背景下的有限評分員樣本,嚴重制約了結(jié)論的外部效度。不僅很少有研究關(guān)注高利害性大規(guī)模教育考試的真實評分過程,而且較大樣本的多種評分者效應(yīng)的整合研究在國內(nèi)外都是稀缺的。事實上,統(tǒng)計無法從根本上消除評分者效應(yīng)和漂移。對于評分者漂移的調(diào)控,認識到其存在以及危害性僅僅是一個開端,更重要的是從評分設(shè)計入手,在評分過程中尋求解決方案。研究評分過程和評分設(shè)計的改進,在研究設(shè)計上要綜合考慮各方面因素,加入足夠的評分員變量,綜合多種評分者效應(yīng),實現(xiàn)對評分過程的全面刻畫。在此基礎(chǔ)上采取恰當?shù)慕y(tǒng)計解決方案,才能在效應(yīng)發(fā)生后進行有效的事后補救。

        猜你喜歡
        效應(yīng)模型研究
        一半模型
        FMS與YBT相關(guān)性的實證研究
        鈾對大型溞的急性毒性效應(yīng)
        遼代千人邑研究述論
        懶馬效應(yīng)
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        視錯覺在平面設(shè)計中的應(yīng)用與研究
        科技傳播(2019年22期)2020-01-14 03:06:54
        EMA伺服控制系統(tǒng)研究
        應(yīng)變效應(yīng)及其應(yīng)用
        国产三级黄色片子看曰逼大片| 国产精成人品| 国产精品深田咏美一区二区| 无码伊人久久大蕉中文无码| 久久人妻少妇嫩草av蜜桃| 三级全黄裸体| 最新国产乱人伦偷精品免费网站| 疯狂做受xxxx高潮视频免费| 国内老熟妇对白xxxxhd| 浪荡少妇一区二区三区| 白色白色视频在线观看| 精品亚洲国产成人蜜臀av| 明星性猛交ⅹxxx乱大交| 视频在线观看一区二区三区| 亚洲日本国产一区二区三区| 无套无码孕妇啪啪| 国产99久久精品一区二区| 精品少妇爆乳无码aⅴ区| 中文字幕有码手机视频| 高清毛茸茸的中国少妇| 亚洲aⅴ无码成人网站国产app| 久久国产精品岛国搬运工| 蜜桃免费一区二区三区| 久久久久久亚洲av无码蜜芽| 四虎影视亚洲精品| 人妻风韵犹存av中文字幕| 国产美女主播视频一二三区| 全部孕妇毛片丰满孕妇孕交| 99热成人精品国产免| 熟女少妇av一区二区三区 | 日本55丰满熟妇厨房伦| 国产高清亚洲精品视频| 男女交射视频免费观看网站| 人妻少妇精品无码专区二区 | 97福利视频| 国产伦奸在线播放免费| 精品无人码麻豆乱码1区2区| 成年女人永久免费看片| 国内自拍视频在线观看h| 日本无遮挡真人祼交视频| 人妻少妇精品视频一区二区三区|