黃方慧?趙志群
摘 要 借鑒語(yǔ)言測(cè)試的AUA測(cè)試框架,以信度理論和整體效度觀為理論基礎(chǔ),運(yùn)用修正式德?tīng)柗品?gòu)建了包括4項(xiàng)一級(jí)指標(biāo)、11項(xiàng)二級(jí)指標(biāo)和33項(xiàng)三級(jí)指標(biāo)的職業(yè)技能評(píng)價(jià)方法有效性框架。研究發(fā)現(xiàn):信度、效度是職業(yè)技能評(píng)價(jià)方法在評(píng)價(jià)技術(shù)上最重要的質(zhì)量標(biāo)準(zhǔn);職業(yè)技能評(píng)價(jià)方法的有效性評(píng)價(jià)不僅關(guān)注評(píng)價(jià)工具本身的有效性,還注重評(píng)價(jià)及其結(jié)果使用的有效性;對(duì)職業(yè)技能評(píng)價(jià)方法的有效性評(píng)價(jià)是基于證據(jù)的有效性論證;所構(gòu)建的有效性框架具有良好的應(yīng)用價(jià)值和可推廣性。在設(shè)計(jì)職業(yè)技能評(píng)價(jià)方法時(shí),建議將信度和效度理論作為理論基礎(chǔ),關(guān)注評(píng)價(jià)及其結(jié)果的使用對(duì)考生、院校和企業(yè)的影響,注重利益相關(guān)者的參與,關(guān)注評(píng)價(jià)的公平性。
關(guān)鍵詞 職業(yè)技能評(píng)價(jià);職業(yè)教育;有效性框架;證據(jù);修正式德?tīng)柗品?/p>
中圖分類(lèi)號(hào) C975 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 1008-3219(2022)13-0014-06
作者簡(jiǎn)介
黃方慧(1988- ),女,中國(guó)消防救援學(xué)院講師,博士,研究方向:教育評(píng)價(jià),技能評(píng)價(jià)(北京,102202);趙志群(1966- ),男,北京師范大學(xué)教授,博士,博士生導(dǎo)師,研究方向:職業(yè)教育課程與教學(xué)論
基金項(xiàng)目
北京市教育科學(xué)“十三五”規(guī)劃2020年優(yōu)先關(guān)注課題“‘1+X證書(shū)制度建設(shè)中技能評(píng)價(jià)方法研究”(BDEA2020009);教育部1+X證書(shū)制度2020年度專(zhuān)項(xiàng)課題“職業(yè)技能等級(jí)證書(shū)考核模型與評(píng)價(jià)技術(shù)研究”,主持人:趙志群
一、問(wèn)題提出
2019年1月,國(guó)務(wù)院頒發(fā)《國(guó)家職業(yè)教育改革實(shí)施方案》(國(guó)發(fā)[2019]4號(hào))(簡(jiǎn)稱(chēng)“職教20條”),提出在職業(yè)院校和應(yīng)用型本科高校啟動(dòng)“學(xué)歷證書(shū)+職業(yè)技能等級(jí)證書(shū)”(即“1+X”證書(shū))試點(diǎn)工作,這項(xiàng)工作是否能夠成功,在很大程度上取決于職業(yè)技能評(píng)價(jià)的質(zhì)量,而評(píng)價(jià)方法對(duì)技能評(píng)價(jià)結(jié)果的真實(shí)性與可信度具有直接影響。目前,國(guó)內(nèi)對(duì)技能評(píng)價(jià)的方法和工具研究較弱,現(xiàn)有評(píng)價(jià)方法普遍在技術(shù)上缺乏系統(tǒng)性考慮,如高職招生考試特別是專(zhuān)業(yè)考試,無(wú)法保證區(qū)分度、信度和效度[1];評(píng)價(jià)標(biāo)準(zhǔn)不清晰,評(píng)分隨意,評(píng)價(jià)結(jié)果缺乏客觀性和公平性等[2]。雖然部分技能評(píng)價(jià)方法已經(jīng)開(kāi)始從評(píng)價(jià)技術(shù)上探討評(píng)價(jià)方法有效性問(wèn)題,例如檢驗(yàn)評(píng)價(jià)方法的信度、效度、區(qū)分度和難度等,但尚缺乏對(duì)技能評(píng)價(jià)方法的系統(tǒng)性元評(píng)價(jià)研究,也未形成技能評(píng)價(jià)方法的質(zhì)量標(biāo)準(zhǔn)。
科學(xué)有效的技能評(píng)價(jià)方法是保證技能評(píng)價(jià)結(jié)果真實(shí)、可信的前提。只有符合教育測(cè)量相關(guān)質(zhì)量標(biāo)準(zhǔn)的技能評(píng)價(jià)方法,在評(píng)價(jià)技術(shù)上才是科學(xué)的、可信的、高質(zhì)量的,其評(píng)價(jià)結(jié)果才有意義。缺乏教育測(cè)量理論(例如效度、信度理論)指導(dǎo)的評(píng)價(jià)過(guò)程,將無(wú)法保證評(píng)價(jià)的可信度和科學(xué)性[3]。如何保證技能評(píng)價(jià)方法的質(zhì)量,以及如何對(duì)技能評(píng)價(jià)方法的質(zhì)量進(jìn)行評(píng)價(jià),是當(dāng)前技能評(píng)價(jià)亟需解決的關(guān)鍵問(wèn)題。
對(duì)評(píng)價(jià)方法質(zhì)量或有效性評(píng)價(jià)的相關(guān)文獻(xiàn)進(jìn)行回顧發(fā)現(xiàn),目前國(guó)際上已有的元評(píng)價(jià)指標(biāo)更關(guān)注對(duì)項(xiàng)目或方案的評(píng)價(jià),不適合從評(píng)價(jià)技術(shù)層面對(duì)評(píng)價(jià)方法的有效性進(jìn)行評(píng)價(jià)。效度驗(yàn)證是教育與心理測(cè)量中用來(lái)驗(yàn)證測(cè)量方法或工具是否有效的方法,主要關(guān)注評(píng)價(jià)方法或技術(shù)層面的有效性。隨著效度理論的發(fā)展,在整體效度觀指導(dǎo)下的效度驗(yàn)證模式主要采用基于證據(jù)的有效性論證方式?;谧C據(jù)的有效性論證方式是凱恩(T. M. Kane)于1992年在整體效度觀理論基礎(chǔ)上提出的,采用圖爾敏(E. S. Toulmin)“事實(shí)—主張”論證模型[4]對(duì)有效性開(kāi)展論證的方式,即首先建立與分?jǐn)?shù)解釋相關(guān)的推論和假設(shè),再通過(guò)收集、評(píng)估和呈現(xiàn)相關(guān)證據(jù)來(lái)闡明評(píng)價(jià)工具或方法的有效性[5]。凱恩在2006年出版的《教育測(cè)量》中正式提出基于證據(jù)的有效性論證方式——“解釋使用論證”[6]。目前在國(guó)際教育與心理測(cè)量、語(yǔ)言測(cè)試領(lǐng)域已有較多的理論和實(shí)踐研究,形成多種基于證據(jù)的有效性論證模式,主要有凱恩的解釋使用論證模式、巴赫曼(L. Bachman)和帕爾默(A. Palmer)的語(yǔ)言測(cè)試使用論證框架等。研究發(fā)現(xiàn),美國(guó)語(yǔ)言學(xué)家巴赫曼和帕爾默提出的測(cè)試使用論證框架(Assessment Use Argument, 簡(jiǎn)稱(chēng)AUA)[7]以整體效度觀作為理論依據(jù),構(gòu)建起一套系統(tǒng)的、可操作的程序,涵蓋了從評(píng)價(jià)開(kāi)發(fā)、評(píng)價(jià)結(jié)果使用到評(píng)價(jià)影響的整個(gè)過(guò)程,是目前發(fā)現(xiàn)的比較成熟和全面的有效性框架。本研究借鑒語(yǔ)言測(cè)試使用論證框架,對(duì)職業(yè)技能評(píng)價(jià)方法及其質(zhì)量進(jìn)行研究,力圖采用基于證據(jù)的有效性論證方式構(gòu)建科學(xué)的、符合職業(yè)技能評(píng)價(jià)的有效性框架。
二、研究方法
美國(guó)教育家克隆巴赫(L. J. Crobach)提出設(shè)計(jì)評(píng)價(jià)指標(biāo)的流程包括發(fā)散和收斂?jī)蓚€(gè)階段[8]。發(fā)散階段是指在構(gòu)建有效性框架中,廣泛收集相關(guān)資料,盡可能將評(píng)價(jià)對(duì)象的各種表現(xiàn)進(jìn)行分解,提出詳細(xì)、全面的指標(biāo)體系初稿。收斂階段是依據(jù)一定原則、采用一定方法,對(duì)指標(biāo)進(jìn)行篩選與歸并。根據(jù)克隆巴赫指標(biāo)構(gòu)建流程,本研究第一階段主要通過(guò)文獻(xiàn)研究法,基于已有成熟研究,初步構(gòu)建技能評(píng)價(jià)方法有效性框架初稿;根據(jù)初稿設(shè)計(jì)專(zhuān)家咨詢(xún)第一輪問(wèn)卷,選取部分專(zhuān)家和職業(yè)院校教師進(jìn)行訪(fǎng)談和試測(cè),經(jīng)討論修改后,形成正式的專(zhuān)家咨詢(xún)問(wèn)卷。第二階段采用修正式德?tīng)柗品ㄟM(jìn)行專(zhuān)家意見(jiàn)征詢(xún),確定有效性框架。
修正式德?tīng)柗品ǎ∕odified Delphi Method)與傳統(tǒng)德?tīng)柗品ú煌?,其是根?jù)已有研究結(jié)果設(shè)計(jì)的結(jié)構(gòu)性問(wèn)卷作為第一輪問(wèn)卷,而不是開(kāi)放性問(wèn)卷,提高了傳統(tǒng)德?tīng)柗品ǖ男蔥9]。專(zhuān)家咨詢(xún)問(wèn)卷采取線(xiàn)上發(fā)放方式,通過(guò)微信和郵件將初步構(gòu)建的有效性框架及框架指標(biāo)說(shuō)明與解釋、問(wèn)卷鏈接等相關(guān)資料發(fā)送給專(zhuān)家,確保專(zhuān)家能夠非常清晰框架構(gòu)建的邏輯、思路及理論依據(jù)。專(zhuān)家數(shù)量和質(zhì)量在一定程度上影響德?tīng)柗品ㄙ|(zhì)量。在選擇專(zhuān)家時(shí)主要考慮代表性和專(zhuān)業(yè)性。本研究是職業(yè)技能評(píng)價(jià)理論與實(shí)踐的綜合研究,既要考慮專(zhuān)家在職業(yè)技能評(píng)價(jià)領(lǐng)域的實(shí)踐經(jīng)驗(yàn),也要考慮其對(duì)教育與心理測(cè)量相關(guān)理論的熟悉程度。研究采用經(jīng)驗(yàn)選擇方式,擬選取8位專(zhuān)家。經(jīng)過(guò)第一輪德?tīng)柗品ǎl(fā)現(xiàn)兩位專(zhuān)家對(duì)技能評(píng)價(jià)的實(shí)踐或教育測(cè)量理論不熟悉,權(quán)威度不符合要求,予以剔除。最后確定6位專(zhuān)家,專(zhuān)家們?cè)诩寄茉u(píng)價(jià)領(lǐng)域均具有豐富的理論和實(shí)踐研究經(jīng)驗(yàn)。827AFB11-E725-4353-B6B1-98A9710221ED
三、研究過(guò)程與結(jié)果
本研究首先通過(guò)文獻(xiàn)研究確定高質(zhì)量的技能評(píng)價(jià)方法要滿(mǎn)足哪些評(píng)價(jià)技術(shù)質(zhì)量標(biāo)準(zhǔn);其次明確已有可借鑒的有效性評(píng)價(jià)方式和框架;最后采用修正式德?tīng)柗品ㄟM(jìn)行有效性框架的構(gòu)建和質(zhì)量測(cè)算。
(一)專(zhuān)家咨詢(xún)質(zhì)量測(cè)算
為保證修正式德?tīng)柗品▽?zhuān)家咨詢(xún)的質(zhì)量,對(duì)專(zhuān)家積極系數(shù)、權(quán)威度、意見(jiàn)協(xié)調(diào)度進(jìn)行測(cè)算。
1.專(zhuān)家積極系數(shù)
專(zhuān)家積極系數(shù)是指參與咨詢(xún)專(zhuān)家數(shù)與全部專(zhuān)家總數(shù)之比:C=M/N。C為專(zhuān)家的積極系數(shù),M為參與咨詢(xún)專(zhuān)家數(shù),N為全部專(zhuān)家總數(shù)。兩輪專(zhuān)家咨詢(xún)問(wèn)卷回收率均為100%,專(zhuān)家積極系數(shù)為1,且專(zhuān)家都按照要求填寫(xiě),填寫(xiě)問(wèn)卷的時(shí)長(zhǎng)符合問(wèn)卷答題時(shí)長(zhǎng)要求。在第一輪專(zhuān)家咨詢(xún)中,部分專(zhuān)家還對(duì)指標(biāo)表述提出了建設(shè)性意見(jiàn),并針對(duì)某些問(wèn)題,通過(guò)微信與研究者進(jìn)行討論與交流。
2.專(zhuān)家權(quán)威度
考慮到不同專(zhuān)家對(duì)不同指標(biāo)權(quán)威度理解的差異,需要獲取專(zhuān)家對(duì)指標(biāo)的熟悉程度和判斷依據(jù)。根據(jù)權(quán)威度要求,剔除部分不符合要求的專(zhuān)家。熟悉程度和判斷依據(jù)的賦值均參照已有研究[10]。邀請(qǐng)專(zhuān)家根據(jù)實(shí)際情況對(duì)評(píng)判依據(jù)做出自評(píng),按照等級(jí)分值及公式算出專(zhuān)家權(quán)威系數(shù)。一般認(rèn)為專(zhuān)家權(quán)威系數(shù)Cr大于等于0.700即為可接受,研究剔除了權(quán)威系數(shù)低于0.700的兩位專(zhuān)家,入選的6位專(zhuān)家的權(quán)威系數(shù)分布如表1所示,6位專(zhuān)家的權(quán)威系數(shù)都在0.800及以上,所選專(zhuān)家具有較高的可信度。
3.專(zhuān)家意見(jiàn)協(xié)調(diào)度
專(zhuān)家意見(jiàn)協(xié)調(diào)程度有兩種測(cè)算方法,一種是通過(guò)變異系數(shù)計(jì)算,另一種是通過(guò)肯德?tīng)栂禂?shù)計(jì)算,獲得專(zhuān)家對(duì)某指標(biāo)意見(jiàn)的分歧。變異系數(shù)越小表示意見(jiàn)協(xié)調(diào)程度越高,通常認(rèn)為變異系數(shù)小于0.25可接受,變異系數(shù)大于0.25表示專(zhuān)家分歧較大。研究選取0.25作為變異系數(shù)的基準(zhǔn)數(shù)進(jìn)行指標(biāo)篩選??系?tīng)枀f(xié)調(diào)系數(shù)(W)是檢驗(yàn)專(zhuān)家對(duì)指標(biāo)評(píng)分結(jié)果一致性的指標(biāo),判斷專(zhuān)家對(duì)指標(biāo)的評(píng)價(jià)是否存在較大分歧。數(shù)據(jù)顯示,第一輪和第二輪專(zhuān)家咨詢(xún)的肯德?tīng)栂禂?shù)分別為0.462和0.560,均在可接受范圍內(nèi)。
(二)第一輪專(zhuān)家咨詢(xún)
將第一輪問(wèn)卷數(shù)據(jù)錄入數(shù)據(jù)處理軟件SPSS26中,計(jì)算平均數(shù)、標(biāo)準(zhǔn)差和變異系數(shù),對(duì)有效性框架進(jìn)行量化和質(zhì)性分析。根據(jù)數(shù)據(jù)分析結(jié)果,對(duì)指標(biāo)體系進(jìn)行修改和完善。研究以算術(shù)平均分大于3.50分、標(biāo)準(zhǔn)差小于1.00、變異系數(shù)小于0.25作為指標(biāo)篩選標(biāo)準(zhǔn)。
1.量化分析
測(cè)算結(jié)果顯示,第一輪專(zhuān)家咨詢(xún)問(wèn)卷中個(gè)別指標(biāo)變異系數(shù)大于0.25,說(shuō)明專(zhuān)家有不同意見(jiàn)。其中,一級(jí)和二級(jí)指標(biāo)的算數(shù)平均值均大于3.50,標(biāo)準(zhǔn)差小于1.00,變異系數(shù)均小于0.25,說(shuō)明專(zhuān)家認(rèn)同一級(jí)和二級(jí)指標(biāo)。三級(jí)指標(biāo)中,III-1、III-13、III-27三個(gè)指標(biāo)的標(biāo)準(zhǔn)差均大于1.00、變異系數(shù)也大于0.25,其他三級(jí)指標(biāo)的算術(shù)平均分均大于3.50、標(biāo)準(zhǔn)差小于1.00、變異系數(shù)小于0.25,說(shuō)明專(zhuān)家對(duì)III-1、III-13、III-27指標(biāo)持有不同意見(jiàn),見(jiàn)表2。針對(duì)有異議的指標(biāo),研究者與專(zhuān)家進(jìn)行深入溝通與交流,最后達(dá)成共識(shí)。
2.質(zhì)性分析
對(duì)專(zhuān)家反饋的意見(jiàn)進(jìn)行質(zhì)性分析發(fā)現(xiàn),意見(jiàn)主要分為三類(lèi):修改表述、合并指標(biāo)、拆分指標(biāo)。對(duì)于“修改表述”的意見(jiàn),研究者查閱相關(guān)文獻(xiàn),與專(zhuān)家進(jìn)行充分交流與討論,進(jìn)一步完善表述,使指標(biāo)表述更適切、更易理解和接受。此外,結(jié)合指標(biāo)的實(shí)踐依據(jù)、合理性、準(zhǔn)確性等相關(guān)意見(jiàn),對(duì)指標(biāo)進(jìn)行合并和拆分。具體修改如下:一是有專(zhuān)家提出“I-3測(cè)試決策”較難理解,建議改成更容易理解與接受的詞語(yǔ)。研究者通過(guò)查閱相關(guān)文獻(xiàn),發(fā)現(xiàn)國(guó)內(nèi)語(yǔ)言測(cè)試領(lǐng)域也都使用“測(cè)試決策”,但為了便于理解,研究用“測(cè)試結(jié)果使用”來(lái)代替“測(cè)試決策”,并在注釋中說(shuō)明,本研究中“測(cè)試結(jié)果使用”即指“測(cè)試決策”。二是有專(zhuān)家提出可以將“I-3測(cè)試決策”和“I-4測(cè)試影響”合并,但研究者認(rèn)為測(cè)試結(jié)果的使用與帶來(lái)的影響是兩個(gè)維度,不應(yīng)合并。三是關(guān)于二級(jí)指標(biāo)中“推廣性”“相關(guān)性”指標(biāo)的理解,有專(zhuān)家提出與教育測(cè)量與評(píng)價(jià)中“相關(guān)性”和“推廣性”的理解不同,為避免誤解,建議尋找更適切的表述。為此,研究者查閱相關(guān)資料、結(jié)合專(zhuān)家建議,將“推廣性”修改為“適用性”,將“相關(guān)性”修改為“關(guān)聯(lián)性”。四是有專(zhuān)家提出,二級(jí)指標(biāo)“一致性”可以分為“評(píng)分的一致性”和“測(cè)試工具的一致性”,研究者采納專(zhuān)家的意見(jiàn)。
綜合以上量化和質(zhì)性分析結(jié)果,研究對(duì)指標(biāo)體系進(jìn)行優(yōu)化與完善,形成第二輪專(zhuān)家咨詢(xún)問(wèn)卷。
(三)第二輪專(zhuān)家咨詢(xún)
針對(duì)第一輪專(zhuān)家咨詢(xún)修改后的指標(biāo)體系,邀請(qǐng)專(zhuān)家再次對(duì)指標(biāo)的合理性進(jìn)行評(píng)分。將專(zhuān)家數(shù)據(jù)錄入SPSS26中,計(jì)算標(biāo)準(zhǔn)差、平均數(shù)和變異系數(shù)。計(jì)算結(jié)果顯示,指標(biāo)體系的一級(jí)、二級(jí)和三級(jí)指標(biāo)的算術(shù)平均數(shù)均大于3.50、變異系數(shù)均小于0.25、標(biāo)準(zhǔn)差小于1.00,說(shuō)明專(zhuān)家對(duì)指標(biāo)達(dá)成一致意見(jiàn)。在第二輪專(zhuān)家咨詢(xún)問(wèn)卷中,沒(méi)有專(zhuān)家提出問(wèn)題和建議。綜上,可認(rèn)為專(zhuān)家都認(rèn)同第一輪問(wèn)卷修改后的指標(biāo)體系。
經(jīng)過(guò)兩輪專(zhuān)家咨詢(xún)問(wèn)卷,確定技能評(píng)價(jià)方法有效性框架,包括4項(xiàng)一級(jí)指標(biāo)、11項(xiàng)二級(jí)指標(biāo)和33項(xiàng)三級(jí)指標(biāo),如表3所示。
四、結(jié)論與建議
(一)結(jié)論
研究借鑒語(yǔ)言測(cè)試的論證框架,通過(guò)文獻(xiàn)研究法、訪(fǎng)談法、修正式德?tīng)柗品?gòu)建職業(yè)技能評(píng)價(jià)方法的有效性框架,得到以下結(jié)論:
1.信度、效度是職業(yè)技能評(píng)價(jià)方法在評(píng)價(jià)技術(shù)上最重要的質(zhì)量標(biāo)準(zhǔn)
在教育與心理測(cè)量中,通常認(rèn)為滿(mǎn)足教育和心理測(cè)量標(biāo)準(zhǔn)的評(píng)價(jià)方法,在技術(shù)上才是科學(xué)、可信和高質(zhì)量的。美國(guó)教育研究協(xié)會(huì)(AERA)、美國(guó)心理學(xué)協(xié)會(huì)(APA)、全美教育測(cè)量學(xué)會(huì)(NCME)共同制定的《教育和心理測(cè)試標(biāo)準(zhǔn)》,為教育和心理測(cè)量領(lǐng)域開(kāi)展科學(xué)有效的測(cè)試提供“質(zhì)量準(zhǔn)則”,包括信度、效度、公平性等。其中,信度和效度被認(rèn)為是衡量測(cè)試質(zhì)量的最重要指標(biāo)[11]。除了教育和心理測(cè)量,語(yǔ)言測(cè)試也非常關(guān)注評(píng)價(jià)方法質(zhì)量,特別是評(píng)價(jià)技術(shù)質(zhì)量,主要以教育和心理測(cè)量的相關(guān)理論(例如信度理論和效度理論)作為測(cè)試的技術(shù)理論基礎(chǔ),開(kāi)展測(cè)試有效性研究。信度與效度被認(rèn)為是衡量語(yǔ)言測(cè)試質(zhì)量好壞的重要指標(biāo)[12]。在教育與心理測(cè)量中,效度即有效性,是評(píng)價(jià)質(zhì)量的核心[13]。通常把信度作為效度的必要不充分條件,即效度高的測(cè)試信度一定高,但信度高的測(cè)試效度不一定高[14]。高質(zhì)量的職業(yè)技能評(píng)價(jià)不僅在評(píng)價(jià)內(nèi)容和方法設(shè)計(jì)上緊隨技術(shù)和工作組織的發(fā)展,而且在評(píng)價(jià)技術(shù)上要遵循教育與心理測(cè)量的信度和效度要求。只有滿(mǎn)足信度和效度等測(cè)評(píng)技術(shù)標(biāo)準(zhǔn),才能保證職業(yè)技能評(píng)價(jià)方法的科學(xué)性和有效性[15]。827AFB11-E725-4353-B6B1-98A9710221ED
2.職業(yè)技能評(píng)價(jià)方法的有效性評(píng)價(jià)不僅關(guān)注評(píng)價(jià)工具本身的有效性,還注重對(duì)評(píng)價(jià)及其結(jié)果使用的有效性評(píng)價(jià)
根據(jù)整體效度觀,好的測(cè)試不僅要求工具本身科學(xué)有效,而且還要考慮測(cè)試結(jié)果及使用的影響?!昂玫臏y(cè)試”可能會(huì)帶來(lái)糟糕的分?jǐn)?shù),“好的測(cè)試”得出的分?jǐn)?shù)也有可能會(huì)被錯(cuò)誤使用[16]。美國(guó)學(xué)者斯蒂金斯(R. Stiggins)研究發(fā)現(xiàn),部分“好的測(cè)驗(yàn)”并沒(méi)有提高學(xué)生成績(jī)或激發(fā)學(xué)習(xí)動(dòng)機(jī),反而對(duì)學(xué)生造成巨大傷害[17]。職業(yè)技能評(píng)價(jià)結(jié)果是否能夠獲得較高的社會(huì)認(rèn)可度,不僅受評(píng)價(jià)工具本身質(zhì)量影響,而且在很大程度上是由評(píng)價(jià)結(jié)果及其使用的影響決定的。在設(shè)計(jì)和開(kāi)發(fā)一項(xiàng)評(píng)價(jià)時(shí),設(shè)計(jì)者應(yīng)首先明確哪些影響是期望的,并且希望利益相關(guān)者能夠從評(píng)價(jià)中獲得哪些好處。美國(guó)學(xué)者坤南(J. A. Kunnan)提出“評(píng)價(jià)的有益性原則”[18],即評(píng)價(jià)應(yīng)該給社會(huì)帶來(lái)好處,不應(yīng)該危害社會(huì)。要想保證評(píng)價(jià)對(duì)利益相關(guān)者的影響是有益的,應(yīng)該從兩個(gè)方面出發(fā):評(píng)價(jià)本身和評(píng)價(jià)結(jié)果使用的影響。研究所構(gòu)建的有效性框架突破以往只關(guān)注評(píng)價(jià)工具本身質(zhì)量的做法,更加關(guān)注評(píng)價(jià)及其結(jié)果使用的質(zhì)量及影響,是對(duì)職業(yè)技能評(píng)價(jià)方法全面而整體的評(píng)估。
3.對(duì)職業(yè)技能評(píng)價(jià)方法的有效性評(píng)價(jià)是基于證據(jù)的有效性論證
隨著效度理論的發(fā)展,效度驗(yàn)證模式也在發(fā)生變化,更加注重基于證據(jù)或論證的效度驗(yàn)證模式?;谧C據(jù)的有效性論證模式與傳統(tǒng)的有效性或元評(píng)價(jià)指標(biāo)構(gòu)建和評(píng)價(jià)過(guò)程不同,其是基于整體效度觀開(kāi)展的有效性論證模式,包括有效性理論框架的構(gòu)建和基于證據(jù)的論證兩部分。有效性理論框架的構(gòu)建是搭建評(píng)價(jià)方法有效性的相關(guān)推論和假設(shè)的推理框架,基于證據(jù)的論證是根據(jù)理論框架通過(guò)收集、評(píng)估和呈現(xiàn)相關(guān)證據(jù)來(lái)闡明一種評(píng)價(jià)方法或工具的有效性?;谧C據(jù)的職業(yè)技能評(píng)價(jià)方法的有效性評(píng)價(jià),在過(guò)程上包括有效性論證框架的構(gòu)建和基于證據(jù)的論證兩個(gè)過(guò)程。縱觀國(guó)際上的相關(guān)研究,基于證據(jù)的有效性論證方式是目前國(guó)際教育與心理測(cè)量、語(yǔ)言測(cè)試領(lǐng)域普遍認(rèn)同的有效性評(píng)價(jià)模式,但在職業(yè)教育領(lǐng)域還沒(méi)有相關(guān)研究。將基于證據(jù)的有效性論證方式引入職業(yè)教育領(lǐng)域,可以為職業(yè)技能評(píng)價(jià)方法的有效性評(píng)價(jià)提供新的思路和方法。
4.所構(gòu)建的有效性框架具有良好的應(yīng)用價(jià)值和可推廣性
研究所構(gòu)建的職業(yè)技能評(píng)價(jià)方法有效性框架,通過(guò)兩輪專(zhuān)家咨詢(xún)達(dá)成了專(zhuān)家共識(shí),即專(zhuān)家認(rèn)同本研究所構(gòu)建的有效性框架;專(zhuān)家積極系數(shù)、權(quán)威度和意見(jiàn)協(xié)調(diào)度也符合要求,咨詢(xún)質(zhì)量較高,具有較強(qiáng)的可信度。綜上,所構(gòu)建的有效性框架可應(yīng)用于現(xiàn)有的職業(yè)技能評(píng)價(jià)領(lǐng)域。目前我國(guó)已有的職業(yè)技能考試,普遍存在缺乏從評(píng)價(jià)技術(shù)上考慮評(píng)價(jià)方法質(zhì)量的問(wèn)題。研究所構(gòu)建的框架是一個(gè)通用的有效性框架,一方面可以為建立有效的“職教高考”制度、完善“文化素質(zhì)+職業(yè)技能”的考試招生辦法、改進(jìn)技能大賽考核方法等提供理論基礎(chǔ)和方法指導(dǎo);另一方面可以規(guī)范職業(yè)技能評(píng)價(jià)方法的設(shè)計(jì),改善我國(guó)職業(yè)技能評(píng)價(jià)方法的質(zhì)量,提高職業(yè)技能評(píng)價(jià)結(jié)果的科學(xué)性和可信度。
(二)建議
1.職業(yè)技能評(píng)價(jià)方法的設(shè)計(jì)應(yīng)將信度和效度理論作為理論基礎(chǔ)
職業(yè)技能評(píng)價(jià)不應(yīng)只是經(jīng)驗(yàn)層面的具體操作,還應(yīng)有科學(xué)層面的教育評(píng)價(jià)理論作為支撐[19]。信度和效度理論是科學(xué)的評(píng)價(jià)方法需要遵循的最基本的教育和心理測(cè)量理論。只有保證評(píng)價(jià)方法的信度和效度,評(píng)價(jià)結(jié)果才有價(jià)值。為此,設(shè)計(jì)者在設(shè)計(jì)評(píng)價(jià)方法時(shí),應(yīng)關(guān)注信度和效度等質(zhì)量標(biāo)準(zhǔn),將信度和效度理論作為理論基礎(chǔ)。基于信度理論開(kāi)發(fā)的評(píng)價(jià)方法首先要進(jìn)行信度測(cè)算,包括評(píng)分信度和評(píng)價(jià)工具信度的測(cè)算,保證滿(mǎn)足信度的相關(guān)要求。評(píng)分信度包括評(píng)分者信度和評(píng)分者間信度。評(píng)價(jià)工具信度包括內(nèi)部一致性、復(fù)本信度、折半信度、重測(cè)信度的測(cè)算。不同的效度理論發(fā)展階段,效度驗(yàn)證方式不同。目前國(guó)內(nèi)普遍采用單一或分類(lèi)效度驗(yàn)證方式,例如進(jìn)行內(nèi)容效度、結(jié)構(gòu)效度或效標(biāo)關(guān)聯(lián)效度等的驗(yàn)證。分類(lèi)效度中每個(gè)效度的驗(yàn)證都是一個(gè)巨大工程,在效度驗(yàn)證中沒(méi)辦法對(duì)所有類(lèi)別的效度都進(jìn)行測(cè)算。隨著整體效度觀理論的提出,目前已形成一種新的基于證據(jù)或論證的效度驗(yàn)證方式,其突破傳統(tǒng)效度驗(yàn)證模式的局限性,不再對(duì)效度進(jìn)行分類(lèi)驗(yàn)證,而是對(duì)整體的效度進(jìn)行驗(yàn)證,更關(guān)注評(píng)價(jià)及評(píng)價(jià)結(jié)果使用的有效性。目前,這種效度驗(yàn)證方式已有成熟理論和實(shí)踐研究,可將其引入職業(yè)技能評(píng)價(jià)中。
2.職業(yè)技能評(píng)價(jià)方法的設(shè)計(jì)應(yīng)關(guān)注評(píng)價(jià)及其結(jié)果的使用對(duì)考生、職業(yè)院校和企業(yè)的影響
職業(yè)技能評(píng)價(jià)能否獲得社會(huì)認(rèn)可,受到多方因素影響,最直接的影響來(lái)自于評(píng)價(jià)及其結(jié)果的使用對(duì)考生、職業(yè)院校和企業(yè)的影響是否有益。在評(píng)價(jià)實(shí)施后應(yīng)及時(shí)追蹤考生反饋,反饋內(nèi)容不應(yīng)只是對(duì)評(píng)價(jià)組織過(guò)程的滿(mǎn)意度調(diào)查,應(yīng)包括考核內(nèi)容的實(shí)用性、考核形式等與真實(shí)工作任務(wù)和情境的契合度及對(duì)未來(lái)職業(yè)發(fā)展的影響等。對(duì)于職業(yè)院校而言,應(yīng)重點(diǎn)追蹤評(píng)價(jià)對(duì)課程和專(zhuān)業(yè)教學(xué)改革的影響。對(duì)于企業(yè)而言,應(yīng)關(guān)注企業(yè)對(duì)人才的評(píng)價(jià)與職業(yè)技能評(píng)價(jià)結(jié)果的相符程度,以及企業(yè)根據(jù)評(píng)價(jià)結(jié)果招收的人才是否符合企業(yè)人才需求等方面。為此,在職業(yè)技能評(píng)價(jià)中,應(yīng)加強(qiáng)對(duì)評(píng)價(jià)及其結(jié)果使用的論證和跟蹤,進(jìn)而增強(qiáng)職業(yè)技能評(píng)價(jià)及其結(jié)果的社會(huì)認(rèn)可度。
3.職業(yè)技能評(píng)價(jià)方法的設(shè)計(jì)應(yīng)注重利益相關(guān)者的參與
第四代評(píng)估理論強(qiáng)調(diào)評(píng)價(jià)是一個(gè)與所有利益相關(guān)者共同協(xié)商、共同建構(gòu)的過(guò)程[20]。職業(yè)技能評(píng)價(jià)方法的設(shè)計(jì)不應(yīng)僅關(guān)注工具本身,還應(yīng)注重從各利益相關(guān)者的角度出發(fā)收集證據(jù),鼓勵(lì)所有利益相關(guān)者參與到評(píng)價(jià)過(guò)程中,充分表達(dá)其價(jià)值和主張。只有這樣,才能保證利益相關(guān)者對(duì)評(píng)價(jià)結(jié)果的認(rèn)同??忌鳛樵u(píng)價(jià)中最重要、最直接的利益相關(guān)群體,經(jīng)常是被動(dòng)參與評(píng)價(jià),這不利于學(xué)生能力的自我建構(gòu)。根據(jù)建構(gòu)主義理論,知識(shí)和技能是學(xué)習(xí)者在真實(shí)工作情境下學(xué)習(xí)和完成工作任務(wù)的過(guò)程中,通過(guò)自我建構(gòu)獲得的。職業(yè)技能評(píng)價(jià)過(guò)程應(yīng)是評(píng)價(jià)主體和學(xué)生間建構(gòu)與感悟的過(guò)程[21],不應(yīng)該只是簡(jiǎn)單的成績(jī)?cè)u(píng)定,最重要的是促進(jìn)學(xué)習(xí)者學(xué)習(xí),應(yīng)將評(píng)價(jià)“所有權(quán)(ownership)歸還給學(xué)生”[22]。建構(gòu)主義學(xué)習(xí)理論強(qiáng)調(diào)學(xué)習(xí)的自我調(diào)控能力,認(rèn)為該能力形成的關(guān)鍵在于自我評(píng)價(jià)能力的提供??忌鲃?dòng)參與評(píng)價(jià)過(guò)程是培養(yǎng)其自我評(píng)價(jià)能力的前提條件。設(shè)計(jì)者在設(shè)計(jì)職業(yè)技能評(píng)價(jià)時(shí),不能為了評(píng)價(jià)而評(píng)價(jià),應(yīng)該關(guān)注利益相關(guān)者的發(fā)展需求,特別是考生的發(fā)展需要。在設(shè)計(jì)職業(yè)技能評(píng)價(jià)方法時(shí),搭建與利益相關(guān)者溝通的平臺(tái),特別是加強(qiáng)對(duì)考生、職業(yè)院校、用人單位的調(diào)研與交流,為利益相關(guān)者主動(dòng)參與評(píng)價(jià)創(chuàng)造空間,增強(qiáng)職業(yè)技能評(píng)價(jià)的適用性和針對(duì)性。827AFB11-E725-4353-B6B1-98A9710221ED
4.職業(yè)技能評(píng)價(jià)方法的設(shè)計(jì)要關(guān)注評(píng)價(jià)的公平性
評(píng)價(jià)的公平性是教育評(píng)價(jià)關(guān)注的重點(diǎn),存在程序公平、條件公平和事實(shí)公平三種公平[23]。程序公平是指評(píng)價(jià)組織程序、試題、評(píng)分標(biāo)準(zhǔn)和過(guò)程對(duì)所有考生都一視同仁;條件公平是指教育條件方面的公平;事實(shí)公平是指平等分享優(yōu)質(zhì)教育資源的權(quán)利。職業(yè)技能評(píng)價(jià)一般都是全國(guó)性、大規(guī)模、高利害關(guān)系測(cè)試,在設(shè)計(jì)和開(kāi)發(fā)時(shí)應(yīng)關(guān)注以上三個(gè)方面的公平性。只有保證了評(píng)價(jià)的公平性,評(píng)價(jià)結(jié)果才具有等值性和可比性。程序公平是最基本的公平,通過(guò)精心設(shè)計(jì)、控制評(píng)價(jià)組織過(guò)程是比較容易做到的,例如保證考生具有平等的機(jī)會(huì)了解考試內(nèi)容和實(shí)施程序、有同樣的報(bào)名機(jī)會(huì),考點(diǎn)的便利性、考試環(huán)境、設(shè)備的熟悉程度應(yīng)對(duì)所有考生都是公平的,如提供盡可能相同的學(xué)習(xí)硬件和軟件條件、明確參加考試的最低學(xué)習(xí)和實(shí)訓(xùn)時(shí)長(zhǎng)要求等,保證最基本的學(xué)習(xí)條件和教育資源的相對(duì)公平。
參 考 文 獻(xiàn)
[1]邵堅(jiān)鋼,張定華,許樂(lè)清.基于綜合素質(zhì)評(píng)價(jià)的高職提前招生研究[J].中國(guó)職業(yè)技術(shù)教育,2017(18):53-56.
[2]雷煒.深化高職院校招生模式改革的思考——以浙江省為例[J].中國(guó)高教研究,2016(10):98-102.
[3]張厚粲,劉紅云.提高考試的科學(xué)性完善考試的功能[J].中國(guó)考試(研究版),2007(1):9-11.
[4]TOULMIN, S. E. The uses of argument[M]. Cambridge: Cambridge University Press, 1958:11-217.
[5]KANE, M. T. An Argument-based approach to validity[J]. Psychological Bulletin, 1992(3):527-535.
[6]BRENNAN, R. L. Educational Measurement (4th ed.) [M]. Westport, CT: Praeger, 2006:17-64.
[7]BACHMAN, L. F., PALMER, S. A. Language assessment in practice: Developing language assessments and justifying their use in the real world[M]. Oxford: Oxford University Press, 2010:93-107.
[8]CROBACH, L. J. Designing evaluation of educational and social programs[M]. San Francisco: Jossery-Bass, 1982:279-324.
[9]SHARKEY, B., SHARPLES, Y. An approach to consensus building using the Delphi technique: developing a learning resource in mental health[J]. Nurse Education Today, 2001,21(5):398-408.
[10]萬(wàn)崇華,許傳志.調(diào)查研究方法與分析[M].北京:中國(guó)統(tǒng)計(jì)出版社,2016:140.
[11]漆書(shū)青,戴海崎,丁樹(shù)良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社,2002:261-264.
[12]BACHMAN, L. F. Fundamental considerations in language testing[M]. Oxford: Oxford UniversityPress, 1990:10-35.
[13]楊惠中.有效測(cè)試、有效教學(xué)、有效使用[J].外國(guó)語(yǔ),2015(1):2-26.
[14]BACHMAN, L.F., PALMER, S.A. Language Testing in Practice [M]. Oxford: Oxford University Press, 1996:1-24.
[15]趙志群,孫鈺林,羅喜娜.“1+X”證書(shū)制度建設(shè)對(duì)技術(shù)技能人才評(píng)價(jià)的挑戰(zhàn)——世界技能大賽試題的啟發(fā)[J].中國(guó)電化教育,2020(2):8-14.
[16]FRISBIE, D. A. Measurement: some fundamentals revisited[J]. Educational Measurement: Issues and Practice, 2005(3):21-28.
[17]STIGGINS, R. New assessment beliefs for new school mission[J]. Phi Dalta Kappan, 2004(9):22-27.
[18]KUNNAN, A. J. Test fairness[C]//MILANOVIC, M., WEIR, C. European language testing in a global context[C]. Cambridge: Cambridge University Press, 2004:27-48.
[19]姜大源.職業(yè)教育的考試方法論[J].中國(guó)職業(yè)技術(shù)教育,2007(34):1+8.
[20]埃貢G.古貝,伊馮娜S.林肯.第四代評(píng)估[M].北京:中國(guó)人民大學(xué)出版社,2008:2-23.
[21]閆寧.高等職業(yè)教育學(xué)生學(xué)業(yè)評(píng)價(jià)研究[D].西安:陜西師范大學(xué),2012:19.827AFB11-E725-4353-B6B1-98A9710221ED
[22]田中耕治.學(xué)習(xí)評(píng)價(jià)的挑戰(zhàn):表現(xiàn)性評(píng)價(jià)在學(xué)校中的應(yīng)用[M].上海:華東師范大學(xué)出版社,2015:26.
[23]謝小慶.考試公平的三種不同含義[C]//謝小慶.謝小慶教育測(cè)量學(xué)論文集.北京:北京語(yǔ)言大學(xué)出版社,2012:81-85.
Construction of Evidence-based Validity Framework for Vocational Competence Evaluation Method
Huang Fanghui, Zhao Zhiqun
Abstract? The study draws on the Assessment Use Argument framework of language testing, takes reliability and unified validity as the theoretical basis, and uses the modified Delphi method to construct a validity framework for vocational competence evaluation methods, and the results found that: reliability and validity are the most important quality standards of vocational competence evaluation methods at the technical level; the validity evaluation of vocational competence evaluation method not only pays attention to the validity of the evaluation tool itself, but also pays attention to the evaluation of the validity of evaluation results and their use; the validity evaluation of vocational competence evaluation method is based on evidence-based validity argument; the constructed validity framework has good application value and generalizability. It is suggested that, the reliability and validity theory should be used as the theoretical basis when designing vocational competence evaluation methods, the impact of the use of evaluation and its results on candidates, colleges and enterprises should be paid attention to, the participation of stakeholders and the fairness of the evaluation should be focused on when designing the evaluation method.
Key words? competence evaluation; vocational education; validity framework; evidence; modified delphi method
Author? Huang Fanghui, lecturer of China Fire and Rescue Institute (Beijing 102202); Zhao Zhiqun, professor of Beijing Normal University827AFB11-E725-4353-B6B1-98A9710221ED