亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        美國(guó)州級(jí)測(cè)驗(yàn)的特色及其對(duì)我國(guó)的參考價(jià)值

        2021-01-02 20:15:55劉香東王一波于魯泉龔佑文
        考試研究 2021年4期
        關(guān)鍵詞:效度測(cè)驗(yàn)試卷

        劉香東 王一波 于魯泉 龔佑文

        目前,我國(guó)心理與教育測(cè)量的關(guān)注重點(diǎn)在于高考改革,對(duì)中小學(xué)教育的研究并不多[1]。這是因?yàn)槲覈?guó)的中小學(xué)教育往往受高考評(píng)價(jià)指標(biāo)影響,教育改革常常是依賴對(duì)中考、高考進(jìn)行改革,進(jìn)而影響中小學(xué)教育內(nèi)容。在美國(guó),雖然類似中國(guó)的高考SAT(Scholastic Aptitude Test) 和 ACT(American College Testing)也有一定的影響,但是州級(jí)(美國(guó)的州相當(dāng)于中國(guó)的省)測(cè)驗(yàn)(State Assessment)是教育問(wèn)責(zé)制(Educational Accountability)主要的評(píng)價(jià)指標(biāo)。美國(guó)州級(jí)測(cè)驗(yàn)有三個(gè)核心特色,分別是同行評(píng)審(Peer Review)、技術(shù)報(bào)告(Technical Report)及(心理測(cè)量)技術(shù)咨詢委員會(huì)(Technical Advisory Committee,TAC)。在這三個(gè)核心特色上,具有教育測(cè)量學(xué)或相關(guān)領(lǐng)域的資深背景心理測(cè)量研究員(Psychometrician)發(fā)揮著關(guān)鍵作用。體現(xiàn)了心理測(cè)量專業(yè)的應(yīng)用性。本文針對(duì)這三個(gè)方面的內(nèi)容加以探討。

        一、州級(jí)測(cè)驗(yàn)中的同行評(píng)審

        美國(guó)對(duì)州級(jí)測(cè)驗(yàn)的重視要從聯(lián)邦《初等和中等教育法案》(The Federal Elementary and Secondary Education Act,ESEA)談起。從 2005 年開(kāi)始,該法案要求每個(gè)州的教育廳對(duì)中小學(xué)3-8 年級(jí)及高中的語(yǔ)文、數(shù)學(xué)、科學(xué)三門課的州級(jí)測(cè)驗(yàn)提交同行評(píng)審報(bào)告,同行評(píng)審報(bào)告包括六個(gè)方面的內(nèi)容[2]:

        第一,州課程標(biāo)準(zhǔn)與州測(cè)驗(yàn)。要求證明州測(cè)驗(yàn)與本州的課程標(biāo)準(zhǔn)(Curriculum Standards)相一致。一般來(lái)講,主要的證據(jù)包括州級(jí)測(cè)驗(yàn)與州課程標(biāo)準(zhǔn)的一致性評(píng)估(Alignment Evaluation),而且一致性評(píng)估一般由外部專業(yè)的考試公司來(lái)進(jìn)行,以實(shí)現(xiàn)評(píng)估的客觀性。

        第二,州測(cè)驗(yàn)的實(shí)施與管理。包括州測(cè)驗(yàn)的設(shè)計(jì)與開(kāi)發(fā)、試題開(kāi)發(fā)、考試實(shí)施、考試實(shí)施的監(jiān)測(cè)、考試安全等。主要提供的證據(jù)包含:州測(cè)驗(yàn)的設(shè)計(jì)與試題的開(kāi)發(fā)是否符合標(biāo)準(zhǔn)化的程序——教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)(2014 版)[3],是否采用一致性評(píng)估的結(jié)果,是否有一套完善的考試政策來(lái)保障考試安全,是否采用一些工具來(lái)監(jiān)測(cè)考試作弊等。

        第三,州測(cè)驗(yàn)的技術(shù)質(zhì)量——效度(Validity)。包括州測(cè)驗(yàn)總體效度、基于內(nèi)容的效度、基于認(rèn)知處理的效度、基于內(nèi)部結(jié)構(gòu)的效度、基于與其他變量關(guān)系的效度等。這些基于不同內(nèi)容的效度來(lái)自教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)(2014 版)對(duì)效度的定義。例如,在基于內(nèi)部結(jié)構(gòu)的效度方面,州教育廳要提供州測(cè)驗(yàn)的維度分析(Dimensionality Analysis)、試題質(zhì)量分析、項(xiàng)目功能差異(Differential Item Functioning)分析等來(lái)證明測(cè)驗(yàn)的總體效度;在基于與其他變量關(guān)系的效度方面,如果一些4 年級(jí)的學(xué)生在州數(shù)學(xué)測(cè)驗(yàn)中得到優(yōu)秀(Advanced)的水平,而且他們的成績(jī)?cè)趪?guó)家教育進(jìn)展評(píng)估((National Assessment of Educational Progress)4 年級(jí)數(shù)學(xué)考試中也取得好的成績(jī),即州數(shù)學(xué)考試成績(jī)與國(guó)家教育進(jìn)展評(píng)估數(shù)學(xué)成績(jī)高度相關(guān),就會(huì)為州測(cè)驗(yàn)的整體效度提供一個(gè)有利的證據(jù)。

        第四,州測(cè)驗(yàn)的技術(shù)質(zhì)量——其他維度。包括州測(cè)驗(yàn)的信度、公平性與可及性(Accessibility)、評(píng)分(Scoring)、測(cè)驗(yàn)的多個(gè)試卷、測(cè)驗(yàn)的不同版本等。例如,在州測(cè)驗(yàn)的信度方面,州教育廳需要提供試卷的總信度(Test Reliability)、條件測(cè)驗(yàn)標(biāo)準(zhǔn)誤差(Conditional Standard Error of Measurement)、判別準(zhǔn)確性(Classification Accuracy)與判別一致性(Classification Consistency)等;在公平性與可及性方面,州教育廳需要提供證據(jù)表明試題的開(kāi)發(fā)經(jīng)過(guò)了偏見(jiàn)與敏感性審查(Bias and Sensitivity Item Reviews),在試卷開(kāi)發(fā)過(guò)程中盡可能地避免了使用有項(xiàng)目差異的試題,以及在試卷使用后進(jìn)行的項(xiàng)目差異分析;在州測(cè)驗(yàn)的多個(gè)試卷方面,強(qiáng)調(diào)州測(cè)驗(yàn)要保持成績(jī)說(shuō)明的一致性,即跨年度的試卷是類似或者相當(dāng)?shù)模–omparable),這是因?yàn)橐詫?duì)學(xué)生成績(jī)跨年度的比較來(lái)作為教師業(yè)績(jī)?cè)u(píng)估指標(biāo)之一,是教育責(zé)任制實(shí)施的基礎(chǔ),如果跨年度試卷不同,而且沒(méi)有等值的設(shè)計(jì),對(duì)學(xué)生成績(jī)跨年度的比較既不準(zhǔn)確也不科學(xué),因此州教育廳要提供證據(jù)證明每個(gè)試卷的開(kāi)發(fā)都遵循一致的試卷藍(lán)圖(Test Blueprint)、具體而詳盡的等值與鏈接(Linking)的過(guò)程,以及對(duì)等值的評(píng)估;在州測(cè)驗(yàn)的不同版本方面,如果有同一年級(jí)的紙質(zhì)考試與計(jì)算機(jī)考試,教育廳要提供考試模式比較分析(Test Mode Effect Analysis)來(lái)證明紙質(zhì)考試與計(jì)算機(jī)考試具有可比較性。

        第五,包容所有學(xué)生(Inclusion of All Students)。要求證明州測(cè)驗(yàn)考慮到殘疾學(xué)生、英語(yǔ)非母語(yǔ)的學(xué)生的特殊需要。州教育廳需要為殘疾學(xué)生提供調(diào)節(jié)性(Accommodation)政策,如提供州測(cè)驗(yàn)的盲文版本。州教育廳需要證明對(duì)英語(yǔ)非母語(yǔ)的學(xué)生是否在州測(cè)驗(yàn)上需要調(diào)節(jié)性政策進(jìn)行了調(diào)查,以及這些調(diào)節(jié)性政策是否適合英語(yǔ)非母語(yǔ)的學(xué)生。

        第六,課程標(biāo)準(zhǔn)與成績(jī)報(bào)告。包括采用嚴(yán)謹(jǐn)?shù)膶W(xué)術(shù)課程標(biāo)準(zhǔn)、制定規(guī)范的標(biāo)準(zhǔn)設(shè)定(Standard Setting)、撰寫合理的成就水平描述(Achievement Level Description)及有意義的成績(jī)報(bào)告。以標(biāo)準(zhǔn)設(shè)定為例,同行評(píng)審要求標(biāo)準(zhǔn)設(shè)定的過(guò)程必須符合科學(xué)的設(shè)計(jì)方法,由具有代表性的專家小組討論決定。以撰寫成就水平描述為例,例如一個(gè)學(xué)生在4 年級(jí)的數(shù)學(xué)達(dá)到掌握(Mastery)的水平該具有什么樣的知識(shí)與技能,這些都是經(jīng)過(guò)有經(jīng)驗(yàn)的教師組討論起草的。在成績(jī)報(bào)告(Reporting)方面,同行評(píng)審要求成績(jī)報(bào)告要能幫助家長(zhǎng)、教師、教育政策制定者理解學(xué)生的成績(jī)。成績(jī)報(bào)告要體現(xiàn)不同成就水平(Achievement Level)學(xué)生的比例與人數(shù)。一些報(bào)告要包括試卷的每道試題的成績(jī)及子科目(Subcategory)的成績(jī),有利于家長(zhǎng)與教師有的放矢地針對(duì)學(xué)生需要提高的地方實(shí)施補(bǔ)救措施。成績(jī)報(bào)告要體現(xiàn)學(xué)校、學(xué)區(qū)、州整體在各個(gè)成就水平上的學(xué)生的比例,這有利于州教育廳與學(xué)區(qū)對(duì)薄弱學(xué)校實(shí)施有針對(duì)性的支持性政策。

        值得一提的是,同行評(píng)審要求各州測(cè)驗(yàn)除了在首次提交評(píng)審?fù)猓看螌?duì)州測(cè)驗(yàn)的重點(diǎn)進(jìn)行改革時(shí)都需要重新提交評(píng)審。一般情況下教育部的同行評(píng)審團(tuán)給出的反饋是:通過(guò)、補(bǔ)充材料、不通過(guò)。如果不能通過(guò)同行評(píng)審,那么將會(huì)影響ESEA 法案對(duì)該州的撥款,因此各州教育廳對(duì)通過(guò)評(píng)審都非常重視。

        二、美國(guó)州級(jí)測(cè)驗(yàn)中的技術(shù)報(bào)告

        州測(cè)驗(yàn)的技術(shù)報(bào)告是各州教育廳提交同行評(píng)審的核心證據(jù)。技術(shù)報(bào)告是州測(cè)驗(yàn)依據(jù)教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)(2014 版)開(kāi)發(fā)的重要證明。技術(shù)報(bào)告的內(nèi)容通常包括:州測(cè)驗(yàn)的設(shè)計(jì)與開(kāi)發(fā)、州測(cè)驗(yàn)的實(shí)施與考試安全、評(píng)分與成績(jī)報(bào)告、心理測(cè)量分析(Psychometric Analyses)、標(biāo)準(zhǔn)設(shè)定、州測(cè)驗(yàn)的效度、測(cè)驗(yàn)的信度等若干章節(jié)。在州聯(lián)盟中小學(xué)考試(Partnership for Assessment of Readiness for College and Careers,簡(jiǎn)稱PARCC)的技術(shù)報(bào)告[4]中還包含質(zhì)量控制(Quality Control)與量表分?jǐn)?shù)(Scale Score)兩部分內(nèi)容。一般來(lái)講3-8 年級(jí)與高中(9-12)年級(jí)的技術(shù)報(bào)告是單獨(dú)生成的。下面就技術(shù)報(bào)告的主要內(nèi)容予以介紹,重點(diǎn)介紹同行評(píng)審中未詳細(xì)說(shuō)明的部分。

        在州測(cè)驗(yàn)的設(shè)計(jì)與開(kāi)發(fā)這一章節(jié)中,首先強(qiáng)調(diào)的是測(cè)驗(yàn)與課程標(biāo)準(zhǔn)的一致性。美國(guó)目前有41 個(gè)州都使用共同核心州立標(biāo)準(zhǔn)(The Common Core State Standards)。測(cè)驗(yàn)的開(kāi)發(fā)由有經(jīng)驗(yàn)的教師、研究者、心理測(cè)量師和科目?jī)?nèi)容專家共同參與。測(cè)驗(yàn)的開(kāi)發(fā)過(guò)程包括:測(cè)驗(yàn)的設(shè)計(jì)、試題與閱讀段落的審查、質(zhì)量的監(jiān)測(cè)以及公平性的審查等。其中試題的審查包括:試題內(nèi)容的審查、偏見(jiàn)與敏感性的審查、編輯的審查(語(yǔ)法錯(cuò)誤)、技術(shù)性審查(試題難易程度、年齡適宜性等)。試卷的組合(Test Construction)包括:試卷符合考試藍(lán)圖(Test Blueprint)、鏈接的設(shè)計(jì)(保證跨年度的不同試卷具有可比性),以及調(diào)節(jié)性試卷(Accommodation Form)。這一章還包括田野測(cè)試(Field Testing)的設(shè)計(jì):隨機(jī)排列在正式考題中,還是單獨(dú)組成一部分放在正式考題之后。

        在測(cè)試的實(shí)施與考試安全這一章主要包括適宜的調(diào)節(jié)性考試政策與考試安全。以內(nèi)布拉斯卡州的技術(shù)報(bào)告[5]為例,針對(duì)考生安全,首先聘請(qǐng)了專門的網(wǎng)絡(luò)公司監(jiān)測(cè)是否有考試內(nèi)容在網(wǎng)絡(luò)與社交媒體上泄露,其次通過(guò)統(tǒng)計(jì)分析進(jìn)行監(jiān)測(cè),具體監(jiān)測(cè)方法有:響應(yīng)時(shí)間(Response Time)、正式試題(Operational Items)與田野試題得分差異(田野試題通常是新的試題,如果差異很大表明考生提前知道試題內(nèi)容)、試題表現(xiàn)的變化(如果試題在考試期間變得簡(jiǎn)單,表明試題有可能已經(jīng)泄露)、不尋常的提高(Unusual Gain)(通過(guò)統(tǒng)計(jì)方法監(jiān)測(cè)出一個(gè)考點(diǎn)考生的成績(jī)比去年的考生成績(jī)意外提高)、雷同卷等。

        在評(píng)分這一章,以州聯(lián)盟中小學(xué)考試的技術(shù)報(bào)告為例,分成三部分:機(jī)器評(píng)分(Machine-Scored)、人工評(píng)分(Human or Hand-scored)、智能化評(píng)分(Automated or AI Scored)。 對(duì)于評(píng)分來(lái)說(shuō),保證評(píng)分的質(zhì)量與一致性非常重要,除了對(duì)人工評(píng)分者的培訓(xùn)外,人工評(píng)分與智能評(píng)分都有10%-20%的重讀(Read Behind),同時(shí)對(duì)評(píng)分者間一致性信度(Inter-rater Agreement)也有嚴(yán)格的要求,如果一致性信度低于一定的比例,那么會(huì)增加對(duì)這個(gè)評(píng)分者的重讀比例或者重新培訓(xùn)等。

        在心理測(cè)量分析這一部分,州聯(lián)盟中小學(xué)考試的技術(shù)報(bào)告分為三章:經(jīng)典測(cè)驗(yàn)分析、項(xiàng)目功能差異分析、項(xiàng)目反應(yīng)理論校準(zhǔn)(Item Response Theory Calibration)與鏈接。而內(nèi)布拉斯卡州的技術(shù)報(bào)告只把心理測(cè)量分析列為一章。這一章是心理測(cè)量師工作的核心部分。

        在經(jīng)典測(cè)試分析(Classical Item Analysis)上,以州聯(lián)盟中小學(xué)考試的技術(shù)報(bào)告為例,該章列舉了考試結(jié)束(Post Administration)后,對(duì)試題難度與區(qū)分度的分析。如果發(fā)現(xiàn)有問(wèn)題的試題,心理測(cè)量師與科目專家等在數(shù)據(jù)分析結(jié)果的基礎(chǔ)上討論是否在評(píng)分時(shí)去除該試題。這些紅色警示的標(biāo)準(zhǔn)(Flag Criteria)與田野試驗(yàn)的試題警示標(biāo)準(zhǔn)或者試卷組成的試題警示標(biāo)準(zhǔn)[6]可能略有不同。除此之外,技術(shù)報(bào)告還包括試卷總體的描述性統(tǒng)計(jì)結(jié)果(如試題的難度、區(qū)分度的平均值、最大與最小值)

        以下是考試結(jié)束后,心理測(cè)量師與科目專家需要審視的試題紅色警示的標(biāo)準(zhǔn)[7]:

        (1)客觀或主觀題試題難度低于0.25 或者高于0.95。

        (2)試題的點(diǎn)二列相關(guān)系數(shù)(Item-total Corre-lation)小于 0.15。

        (3)任何干擾選項(xiàng)的點(diǎn)二列相關(guān)系數(shù)(選項(xiàng)與總分)為正數(shù)的。

        (4)對(duì)于總體考試成績(jī)前20%的考生,對(duì)某個(gè)試題干擾項(xiàng)的選擇超過(guò)對(duì)正確選項(xiàng)的選擇。

        (5)任何一個(gè)試題,如果客觀題的放棄或未選擇的比例超過(guò)5%,主觀題放棄比例超過(guò)15%。

        (6)主觀試題的任何一個(gè)分?jǐn)?shù)(0,1,2,3 等等)的得分比例少于3%。

        在項(xiàng)目功能差異分析這一章,主要介紹了項(xiàng)目功能差異的公式(客觀題與主觀題的公式不同)及警示線的標(biāo)準(zhǔn)。項(xiàng)目功能差異的分組一般分為:性別差異,男女考生的比較;種族差異,白人考生與黑人考生的比較、白人考生與拉丁美裔考生的比較;經(jīng)濟(jì)水平,貧困學(xué)生(Economically Disadvantaged)與非貧困學(xué)生的比較;英語(yǔ)水平,英語(yǔ)非母語(yǔ)與英語(yǔ)第一語(yǔ)言考生的比較;殘疾考生與正??忌谋容^。技術(shù)報(bào)告會(huì)包括目前試卷中含有項(xiàng)目功能差異試題的數(shù)量與嚴(yán)重程度(B or C)等。

        在項(xiàng)目反應(yīng)理論校準(zhǔn)與鏈接這一章,首先主要介紹項(xiàng)目反應(yīng)理論的公式,有采用Rasch 模型的,也有采用2PL 的。其次介紹項(xiàng)目反應(yīng)理論的假設(shè)條件是否成立,包括單一維度(Unidimensionality)和局部獨(dú)立性(Local Independence)。第三,介紹模型擬合度,對(duì)于 Rasch 模型,Infit 和 Outfit 是 Winsteps軟件使用的兩個(gè)衡量Rasch 模型是否能很好預(yù)測(cè)學(xué)生成績(jī)的指標(biāo)。對(duì)于2PL 或者3PL,Q1 統(tǒng)計(jì)數(shù)據(jù)和試題擬合圖表(Item Fit Plot)是判斷模型是否能很好預(yù)測(cè)學(xué)生成績(jī)的指標(biāo)。第四,預(yù)測(cè)的試題難度參數(shù)(Difficulty Parameter)與試題區(qū)分度參數(shù)(Discrimination Parameter)的描述性統(tǒng)計(jì)結(jié)果。最后,鏈接參數(shù)估計(jì),跨年度試卷的鏈接是把新的試卷的試題參數(shù)(難度參數(shù)與區(qū)分度參數(shù))轉(zhuǎn)換到基準(zhǔn)試卷的同一尺度上。這樣學(xué)生在跨年度的兩個(gè)試卷上的成績(jī)就可以直接進(jìn)行比較。這個(gè)鏈接通常依賴的是兩個(gè)試卷?yè)碛幸徊糠止餐脑囶}(Common Item Sets)??缒甓仍嚲淼逆溄油ǔJ褂肧TUIRT(Kim & Kolen,2004)[8]這個(gè)軟件來(lái)完成。

        在標(biāo)準(zhǔn)設(shè)定這一章,教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)(2014 版)強(qiáng)調(diào)標(biāo)準(zhǔn)設(shè)定需要選擇一個(gè)適合州測(cè)驗(yàn)的標(biāo)準(zhǔn)設(shè)定的方法。目前有兩個(gè)比較常用的標(biāo)準(zhǔn)設(shè)定方法:Angoff 和Bookmark 方法。州聯(lián)盟中小學(xué)考試在中小學(xué)設(shè)立了5 個(gè)成就水平:超越期望(Exceeded Expectations),符合期望(Met Expectations),接近期望(Approached Expectations),部分符合期望(Partially Met Expectations),未符合預(yù)期。標(biāo)準(zhǔn)設(shè)定的專家組根據(jù)標(biāo)準(zhǔn)設(shè)定的方法來(lái)設(shè)定每個(gè)成就水平分?jǐn)?shù)線(Cut Score)。標(biāo)準(zhǔn)設(shè)定通常會(huì)在正式討論前舉行一個(gè)摸底調(diào)查(Pre-policy Meeting),從而使分?jǐn)?shù)線的設(shè)定也考慮到教育政策制定者、一線校長(zhǎng)與教師的聲音。在標(biāo)準(zhǔn)設(shè)定過(guò)程中,針對(duì)每個(gè)水平,標(biāo)準(zhǔn)設(shè)定的專家組起草政策與范圍成就水平描述。這樣使學(xué)生、家長(zhǎng)、教師明確達(dá)到相應(yīng)水平獲得什么樣的知識(shí)、技能,以及什么樣的學(xué)生需要幫助。

        在成績(jī)報(bào)告一章,值得關(guān)注的是,技術(shù)報(bào)告包含了學(xué)生在每個(gè)成就水平上的百分比,以及對(duì)比上一年考試在每個(gè)成就水平的百分比的變化,例如學(xué)生人數(shù)在符合預(yù)期上是否比前一年更多了,有的州把學(xué)生在前兩個(gè)成就水平的百分比之和,即超越期望和符合期望,作為學(xué)校和教師評(píng)價(jià)的一個(gè)指標(biāo)。技術(shù)報(bào)告還包含效度與信度兩章,因?yàn)檫@兩章在同行評(píng)審中已經(jīng)介紹,這里不再贅述。

        州教育廳每年花大約5-10 萬(wàn)美元請(qǐng)考試機(jī)構(gòu)撰寫技術(shù)報(bào)告(3-8 年級(jí)和高中),技術(shù)報(bào)告是心理測(cè)量師與內(nèi)容專家共同合作的成果,技術(shù)報(bào)告確保州測(cè)驗(yàn)的開(kāi)發(fā)遵循了教育與心理測(cè)驗(yàn)標(biāo)準(zhǔn)(2014版)的合理程序,保證了測(cè)驗(yàn)開(kāi)發(fā)的規(guī)范化,證明了測(cè)驗(yàn)的質(zhì)量(信度與效度),同時(shí)也為同行評(píng)審提供重要文件(當(dāng)然同行評(píng)審不只需要技術(shù)報(bào)告,還需要其他文件材料的證明)。

        三、美國(guó)州級(jí)測(cè)驗(yàn)中的(心理測(cè)量)技術(shù)咨詢委員會(huì)

        心理測(cè)量技術(shù)咨詢委員會(huì)與同行評(píng)審和技術(shù)報(bào)告密切相關(guān),技術(shù)咨詢會(huì)的會(huì)議紀(jì)要可以作為提交同行評(píng)審的重要證據(jù)。在會(huì)議中如果討論了州測(cè)驗(yàn)在等值和鏈接上的設(shè)計(jì),那么這是保障州測(cè)驗(yàn)跨年度試卷可比性的重要依據(jù)。心理測(cè)量師在技術(shù)報(bào)告中對(duì)州測(cè)驗(yàn)效度與信度的數(shù)據(jù)或證據(jù)的收集,常常也是技術(shù)咨詢會(huì)討論的重要內(nèi)容。下面主要介紹技術(shù)咨詢委員會(huì)的使命、組成與會(huì)議的形式等。

        內(nèi)布拉斯卡州教育廳技術(shù)委員會(huì)的宗旨是:“審視本州州測(cè)驗(yàn)計(jì)劃,州測(cè)驗(yàn)的質(zhì)量,教育問(wèn)責(zé)體系”[9]。智能平衡(Smarter Balanced)測(cè)驗(yàn)是美國(guó)十四個(gè)州采用的考試,其(心理測(cè)量)技術(shù)咨詢委員會(huì)的目標(biāo)是對(duì)州測(cè)驗(yàn)的效度、信度、準(zhǔn)確性和公平性方面提供技術(shù)指導(dǎo)。技術(shù)咨詢委員會(huì)的成員是來(lái)自心理測(cè)量領(lǐng)域有一定科研成果的專家。這些專家的研究領(lǐng)域包括:測(cè)驗(yàn)設(shè)計(jì),計(jì)算機(jī)自適應(yīng)考試,對(duì)特殊教育學(xué)生的考試,考試的使用,數(shù)學(xué)及語(yǔ)文專業(yè)知識(shí)等。例如內(nèi)布拉斯卡州教育廳技術(shù)委員會(huì)包括5 名大學(xué)心理測(cè)量學(xué)相關(guān)專業(yè)的教授與5 名考試機(jī)構(gòu)或獨(dú)立咨詢?nèi)说取?/p>

        美國(guó)各州基本上很少有自己開(kāi)發(fā)的試卷,一般是通過(guò)外包的形式由專業(yè)的考試公司來(lái)進(jìn)行。專業(yè)的考試公司一般都擁有由心理測(cè)量師與內(nèi)容專家組成的團(tuán)隊(duì),而且有的公司承攬多個(gè)州測(cè)驗(yàn)的合同,擁有規(guī)模化與專業(yè)化的優(yōu)勢(shì)。技術(shù)咨詢委員會(huì)會(huì)議上一般由考試公司的心理測(cè)量師以PPT 的形式提出問(wèn)題,這些問(wèn)題一般都有一定的前期研究,建立在數(shù)據(jù)分析的基礎(chǔ)上,然后由技術(shù)委員會(huì)委員提出指導(dǎo)意見(jiàn)。技術(shù)咨詢委員會(huì)通常設(shè)一名會(huì)議主持人,同時(shí)負(fù)責(zé)記錄各委員的意見(jiàn),會(huì)議結(jié)束后再監(jiān)督各考試公司的心理測(cè)量師根據(jù)委員會(huì)的意見(jiàn)予以實(shí)施。一般來(lái)講,技術(shù)咨詢委員會(huì)每年春節(jié)(3-4 月份)和秋季(10-11 月份)召開(kāi)兩次會(huì)議。由于疫情,今年許多州采取遠(yuǎn)程視頻會(huì)議的方式舉行技術(shù)咨詢委員會(huì)會(huì)議。

        實(shí)例問(wèn)題一:內(nèi)布拉斯卡州對(duì)學(xué)生增長(zhǎng)百分比(Student Growth Percentile ,SGP)的方法比較感興趣,認(rèn)為SGP 比量表分?jǐn)?shù)(Scale Score)和Z-分?jǐn)?shù)能更好地測(cè)量學(xué)生的成長(zhǎng)。對(duì)技術(shù)咨詢委員會(huì)的問(wèn)題:技術(shù)咨詢委員會(huì)的委員是否可以談?wù)劜捎肧GP作為評(píng)價(jià)學(xué)校和學(xué)區(qū)表現(xiàn)的優(yōu)勢(shì)和劣勢(shì)?實(shí)例問(wèn)題二:內(nèi)布拉斯加州準(zhǔn)備進(jìn)行3-8 年級(jí)的標(biāo)準(zhǔn)設(shè)定,某某考試公司提交了標(biāo)準(zhǔn)設(shè)定的計(jì)劃書(shū)(包括標(biāo)準(zhǔn)設(shè)定的方法、專家組的招募等),請(qǐng)問(wèn)技術(shù)咨詢會(huì)委員對(duì)這個(gè)計(jì)劃書(shū)(包括標(biāo)準(zhǔn)設(shè)定的方法及過(guò)程)有什么反饋意見(jiàn)?委員對(duì)范圍成就水平描述草案有什么反饋意見(jiàn)?請(qǐng)委員對(duì)于設(shè)定分?jǐn)?shù)線需要三輪判決(Judgment)還是一輪判決提出指導(dǎo)意見(jiàn)。值得一提的是,有的問(wèn)題專家委員會(huì)會(huì)一直跟蹤及反饋。例如教育責(zé)任制的模型問(wèn)題,是內(nèi)布拉斯卡州技術(shù)委員會(huì)連續(xù)3-4 年討論的主題。

        四、我國(guó)教育考試改革可借鑒的經(jīng)驗(yàn)

        從教育政策制定者的角度來(lái)看,首先要重視中小學(xué)3-8 年級(jí)的教育問(wèn)責(zé)制。我國(guó)當(dāng)前中小學(xué)教育受高考、中考的影響較大,這導(dǎo)致有的地方教育主管部門過(guò)度關(guān)注高考與中考的升學(xué)率,而忽視低年級(jí)學(xué)生的成長(zhǎng)。美國(guó)3-8 年級(jí)的教育問(wèn)責(zé)體系是一個(gè)參考,美國(guó)有的州甚至把學(xué)前班至小學(xué)二年級(jí)也放入教育問(wèn)責(zé)體系當(dāng)中??缒甓仍嚲恚ˋcross Year Form)的等值是教育問(wèn)責(zé)體系的基礎(chǔ),否則第一年的試卷簡(jiǎn)單,而第二年的試卷難,這樣就無(wú)法衡量學(xué)生的學(xué)習(xí)成績(jī)是否有進(jìn)步。開(kāi)發(fā)具有高質(zhì)量(效度與信度)的測(cè)驗(yàn),并通過(guò)等值與鏈接保證跨年試卷的可比性需要大量的投入,這不是一個(gè)省教育考試院能完成的,最好通過(guò)國(guó)家層面推動(dòng),由幾個(gè)省教育考試院共同參與或聯(lián)盟。如美國(guó)州聯(lián)盟中小學(xué)考試與智能平衡測(cè)試都是美國(guó)教育部投巨資啟動(dòng),然后多個(gè)州參與資助運(yùn)行的。其次,探索省級(jí)測(cè)驗(yàn)的同行評(píng)審制度與技術(shù)報(bào)告要求。美國(guó)教育部把州測(cè)驗(yàn)是否通過(guò)同行評(píng)審與教育資金撥款聯(lián)系起來(lái),使各州教育廳必須重視州測(cè)驗(yàn)的質(zhì)量,從而保證了教育問(wèn)責(zé)制的有效實(shí)施。我國(guó)教育部或教育部考試中心,也可以在幾個(gè)省試驗(yàn)與探索同行評(píng)審制度與省級(jí)測(cè)驗(yàn)的技術(shù)報(bào)告制度。需要明確的是,如果沒(méi)有撥款或資金的鼓勵(lì),很難調(diào)動(dòng)省級(jí)考試院對(duì)省級(jí)測(cè)驗(yàn)進(jìn)行改革(如推行跨年度試卷的等值等)的積極性。對(duì)省級(jí)測(cè)驗(yàn)的改革需要有3-5 年試驗(yàn)、探索、總結(jié)和完善的過(guò)程。在這個(gè)過(guò)程中,來(lái)自教育一線的反饋和心理測(cè)量專家的跟進(jìn)指導(dǎo)都是必不可少的,待經(jīng)驗(yàn)成熟后才能推廣至全國(guó)。

        從各省級(jí)教育考試院的角度來(lái)看,首先可以開(kāi)發(fā)有質(zhì)量的省級(jí)測(cè)驗(yàn)。應(yīng)當(dāng)認(rèn)識(shí)到3-8 年級(jí)教育問(wèn)責(zé)制的重要性(發(fā)現(xiàn)薄弱的學(xué)校,及時(shí)予以支持與幫助),認(rèn)識(shí)到提高省級(jí)測(cè)驗(yàn)的質(zhì)量與跨年度試卷等值對(duì)實(shí)施教育問(wèn)責(zé)制的重要性。推動(dòng)跨年度試卷等值的難度不小,這需要各省級(jí)教育考試院進(jìn)行探索,而且需要心理測(cè)量師在測(cè)驗(yàn)的設(shè)計(jì)開(kāi)發(fā)、等值與鏈接上進(jìn)行大量的工作。其次,改革需要循序漸進(jìn)??缒甓仍嚲黹_(kāi)發(fā)后,先在小范圍的地方進(jìn)行試驗(yàn),待跨年度試卷等值的模式比較成熟、效果也很好的情況下再在省級(jí)范圍內(nèi)推廣,推廣也要循序漸進(jìn),例如先從初一示范,然后第二年推廣到小學(xué)六年級(jí)與初中二年級(jí),然后推廣到小學(xué)三年級(jí)至初中三年級(jí),最后推廣到高中。最后,有條件的教育考試院可建立(心理測(cè)量)技術(shù)咨詢委員會(huì)。國(guó)內(nèi)目前的模式常常是考試院與某大學(xué)的心理學(xué)系達(dá)成合作框架協(xié)議,或者共同創(chuàng)建考試研究中心。這是一個(gè)很好的開(kāi)端,同時(shí),亦可考慮聘請(qǐng)外國(guó)教育測(cè)量專家。

        最后,需要推動(dòng)我國(guó)心理測(cè)量學(xué)科的發(fā)展。美國(guó)有大約135 所教育測(cè)量學(xué)博士、碩士授予點(diǎn),而我國(guó)心理測(cè)量學(xué)博碩士授予點(diǎn)并不多。以美國(guó)醫(yī)生資格考試認(rèn)證中心(National Board of Medical Examiners,NBME))為例,該中心擁有 30 多名心理測(cè)量及相關(guān)專業(yè)博士學(xué)位的心理測(cè)量師。如果師資力量缺乏,可以考慮聘請(qǐng)海外教育測(cè)量專家遠(yuǎn)程授課。也可以由教育部考試中心牽頭建立一個(gè)心理測(cè)量國(guó)內(nèi)外專家?guī)?,向海?nèi)外招募(心理測(cè)量)技術(shù)咨詢委員會(huì)的后備人員,然后向各個(gè)教育考試院推薦。只有在心理測(cè)量專家指導(dǎo)下,才能保證開(kāi)發(fā)出高質(zhì)量的省級(jí)測(cè)驗(yàn)。

        猜你喜歡
        效度測(cè)驗(yàn)試卷
        慈善募捐規(guī)制中的國(guó)家與社會(huì):兼論《慈善法》的效度和限度
        《新年大測(cè)驗(yàn)》大揭榜
        Module5 A Trip Along the Three Gorges
        Module5 Great People and Great Inventions of Ancient China
        Module 4 Sandstorms in Asia
        Module 1 Europe
        兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
        考試周刊(2016年88期)2016-11-24 13:30:50
        被看重感指數(shù)在中國(guó)大學(xué)生中的構(gòu)念效度
        外語(yǔ)形成性評(píng)估的效度驗(yàn)證框架
        你知道嗎?
        国产日韩网站| 亚洲av综合色区无码一区| 人妻精品久久无码区| 国产999精品久久久久久| 日本少妇按摩高潮玩弄| 国产少妇露脸精品自拍网站| 97色伦图片97综合影院| 婷婷五月综合丁香在线| 无码一区二区三区在线在看| 五月激情在线观看视频| 国产欧美精品aaaaaa片| 中国国语毛片免费观看视频| 国产91网| 国产av熟女一区二区三区蜜臀| 在线免费观看一区二区| 亚洲美腿丝袜 欧美另类| 亚洲an日韩专区在线| 青青草是针对华人绿色超碰| 婷婷五月六月激情综合色中文字幕| 亚洲美女又黄又爽在线观看| 精品久久亚洲一级α| 精品成人av人一区二区三区| 宅男66lu国产在线观看| 亚洲国产精品尤物yw在线观看| 午夜视频福利一区二区三区| 澳门蜜桃av成人av| 亚洲综合久久精品无码色欲| 亚洲AⅤ无码国精品中文字慕| 女同欲望一区二区三区| 亚洲国产精品久久久久秋霞小说| 成人性生交片无码免费看| 少妇特殊按摩高潮惨叫无码| 日本超级老熟女影音播放| 国产乱国产乱老熟300部视频| 国产午夜亚洲精品理论片不卡 | 国产成人+亚洲欧洲+综合| 精品人妻免费看一区二区三区| 日韩人妻中文字幕专区| 国产农村妇女毛片精品久久 | 女厕厕露p撒尿八个少妇| 午夜爽毛片|