□黃方慧 趙志群
隨著新職業(yè)教育法的頒布實施,職業(yè)教育進入了提質(zhì)增效的新發(fā)展階段,科學、有效且可行的學業(yè)評價,對職業(yè)教育質(zhì)量保障體系建設具有重要的意義?!渡罨聲r代教育評價改革總體方案》明確提出建立“富有時代特征、彰顯中國特色、體現(xiàn)世界水平”的教育評價體系,這對職業(yè)教育學業(yè)評價提出了具體的高質(zhì)量要求。
學業(yè)評價是以教育教學目標為依據(jù),運用恰當、有效的工具,系統(tǒng)收集學生在學習過程中認知行為變化的信息和證據(jù),根據(jù)一定標準對學生的知識、技能和能力水平做出客觀衡量和科學判定的過程。近年來,我國職業(yè)教育在兩大領(lǐng)域?qū)W業(yè)評價方法進行了深入探索實踐,一是建立“職教高考”制度,通過多種形式的“文化素質(zhì)+職業(yè)技能”考試進行高等職業(yè)院校生源選拔;二是“1+X”技能等級證書試點,通過職業(yè)技能等級水平評價,對反映學生職業(yè)活動和個人職業(yè)生涯發(fā)展所需要的綜合能力進行評定和認證。
與普通教育相比,職業(yè)教育學業(yè)評價更為復雜,它既要迎合勞動力市場的功利性需求,又要實現(xiàn)促進學生生涯發(fā)展的教育性目的,這在評價技術(shù)上面臨著很多挑戰(zhàn)。例如,通過對現(xiàn)場操作進行觀察和評分的傳統(tǒng)技能測試方法具有很多局限,特別是在對心智技能要求較高的專業(yè)領(lǐng)域。而且,如果開展大規(guī)模技能測試,要達到較高的信效度,測試費用會高到令人無法接受的地步。由于職業(yè)教育專業(yè)種類繁多、專業(yè)間差別巨大和職業(yè)技能本身的特點(如隱性知識和能力),實施統(tǒng)一的大規(guī)模技能測試既不科學也不現(xiàn)實[1],因此我們必須對各種技能考試進行深入分析和整體化設計。只有厘清不同類型職業(yè)技能評價方法的內(nèi)部規(guī)律和差異性,才能夠確保技能評價的科學性、有效性和可行性,保證技能評價結(jié)果的可信度,這也是保證X 證書質(zhì)量和實現(xiàn)“職教高考”公正公平的基礎。
本文針對不同類型職業(yè)的技能評價方式,以五個X 技能等級證書評價為例,研究不同技能評價方法的特征和差異,為科學的技能評價方法開發(fā)提供基礎。
本文“職業(yè)技能評價”指對職業(yè)技能的“測試”或“測量”,即社會組織根據(jù)特定職業(yè)(或崗位)的資格和(或)能力要求,采用一定工具對特定人群進行的測量、描述和評價。采用質(zhì)性研究范式,首先,通過文本分析對不同職業(yè)的技能評價方法的資料(如評價實施方案、評分說明、考場說明、評分表、試題等公開文件)進行編碼和分析。其次,采用非參與式觀察法收集技能評價實施過程的信息資料(如考生答題過程和狀態(tài)、評分者評分過程和狀態(tài))。技能評價一般在封閉環(huán)境中進行,為不打擾所觀察的場域,研究者充當場景中一個實際角色,如巡考員,在觀察場域或其邊緣進行觀察。再次,通過訪談對所收集的資料進行佐證和補充,調(diào)查技能評價利益相關(guān)者(設計者、考生、教師兼評分者)對技能評價的看法,為技能評價方法的分析提供證據(jù)。
采用目的性抽樣原則,以教育部X 職業(yè)技能等級證書采用的技能評價方法為研究對象,根據(jù)所屬職業(yè)類別不同和評價組織參與意愿,選取五個證書采用的技能評價方法作為研究對象,分為G 和Z(以技術(shù)為服務對象的服務類職業(yè)①)、S(以人為服務對象的服務類職業(yè))、J 和D(技術(shù)類職業(yè))。五種證書技能評價方法中既有理論考試和實操考試相結(jié)合的、也有理實一體化計算機輔助評價,代表我國當前典型的技能評價方式。通過“職業(yè)技能等級證書信息管理服務平臺”和評價組織搭建的網(wǎng)絡平臺,收集不同評價方法的信息資料,考題等保密資料由評價組織提供。對五種技能評價方法的31 位利益相關(guān)者進行訪談,其中設計者4 位、教師11 位、考生16 位,訪談錄音總計15 小時9 分鐘44 秒,對音頻資料進行轉(zhuǎn)錄和編碼,轉(zhuǎn)錄文字217797 字。采用非參與式觀察法對五個技能評價實施過程進行實地觀察,每個考試觀察時間不少于6 個小時,總觀察時間46 小時。
結(jié)合收集的資料和數(shù)據(jù),對五種技能評價方法進行分析,發(fā)現(xiàn)不同職業(yè)領(lǐng)域的技能評價方法的特點和差異,主要體現(xiàn)在:
工業(yè)社會學家米克勒(O.Mickler)曾將技術(shù)技能工作分為“基本”(primary)和“次級”(secondary)兩個領(lǐng)域[2]?!盎尽惫ぷ魇侵干a(chǎn)性職業(yè)從事的工作,如加工、生產(chǎn)和組裝等;“次級”工作針對以技術(shù)為服務對象的服務類職業(yè),如從事維修、保養(yǎng)和運維等復雜工作。布拉特(M.Brater)將“基本”和“次級”職業(yè)領(lǐng)域的行動分為“目的理性行動”和“設計與對話行動”[3]。由于職業(yè)的特殊性,不同職業(yè)完成工作任務的行動過程也呈現(xiàn)出“目的理性行動”和“設計與對話行動”兩種類型。
1.目的理性行動。目的理性行動的特點是,一旦任務目標確定,就明確了行動步驟,行動可設計空間很小,如生產(chǎn)、制造等技術(shù)類職業(yè)。本研究中J(機器人應用類職業(yè))和D(加工制造類職業(yè))證書的工作采用目的理性行動,目標確定后行動過程就基本確定,設計的工作過程與實際行動過程能夠保持較大的一致性。這類職業(yè)的計劃制定在一定程度上反映了計劃的實施能力。
調(diào)查發(fā)現(xiàn),J 和D 考試對工作過程中隨機應變能力、解決方案調(diào)整與設計能力的考查關(guān)注不多。如參加J 考試的個別考生在備考室就已初步完成了主程序的編程,考生表示“流程都大同小異,主程序我都編好了,到時候只要在子程序里面抓取那幾個都對一下點就可以了”。對D 考試現(xiàn)場觀察發(fā)現(xiàn),不同考生完成任務只有順序差異,工作過程大體一致,如有的考生工作順序是裝刀、對刀、建模、編程、加工;有的考生工作順序是建模、編程、再裝刀、對刀、加工??忌硎尽白龅捻樞虿煌?,只是個人習慣不同而已,有些同學一邊編程還一邊加工,有些是全部編完再加工,這都無所謂的”。
按照以上考試方案,只要實施方案確定,工作過程中的變化及影響因素對于任務結(jié)果而言并不重要,即能夠影響考生在工作過程中改變問題解決方案的因素較少,考生只需按照提前設計好的任務解決方案和工作過程實施即可。目的理性行動特征的工作受實施過程因素影響較少,但忽略對方案設計或?qū)嵤┻^程的評價,是需要注意的問題。因為僅僅通過完成任務結(jié)果的評價考核,是否可以全面反映考生的職業(yè)技能水平,如何保證方案設計的合理性或?qū)嵤┻^程符合相關(guān)企業(yè)/行業(yè)的要求(如規(guī)范性和安全性),保證考生具備基本的職業(yè)認知能力,這些都是不可忽視的。
2.設計與對話行動。設計與對話行動類型工作的特點是具有開放性目標,只能在一定程度上制定行動計劃,具體步驟只有在具體工作過程中才能被確定,像服務類的汽車維修、營銷等職業(yè),在故障診斷過程中可能會發(fā)現(xiàn)其他問題,在營銷服務中顧客會突然提出其他問題和要求。雖然在開始故障診斷和銷售服務前,工作人員會有一個大概、預期的工作過程,但由于問題不確定和人的易變性,很難完全預期實際工作過程。
G、Z 和S 屬于設計與對話行動類型。G(電站運維類職業(yè))考試重視完成真實工作任務的過程,如測量、排除故障過程,關(guān)注考生發(fā)現(xiàn)不可預測問題的處理和設計能力。G 的設計者表示考試設置了很多故障,考生沒辦法預知故障,需要在排查故障過程中不斷調(diào)整和設計方案。Z(汽車運維類職業(yè))和S(營銷服務類職業(yè))考試的設計者關(guān)注考生在工作中處理未知問題的設計能力,如車輛問診與故障分析,考生只有在車輛問診過程中才能進一步確定故障,進而設計故障診斷計劃并實施。工作計劃不是事先確定,而是隨著故障的顯現(xiàn)越來越清晰,這需要考生有較強的調(diào)整和修改解決方案的能力。特別是以人為服務對象的服務類職業(yè),由于人的易變性和不可確定性強,對工作人員隨機應變能力和解決方案的設計能力要求會更高,因此S 考試設計了語音交互題。語音交互題智能程度并不高,但可把不確定的情境真實展現(xiàn)在考生面前,需要考生根據(jù)客戶需求的變化及時調(diào)整和設計解決方案。
綜上所述,五種技能評價方法設計都考慮了職業(yè)行動特點,G、Z 和S 考試強調(diào)考生在完成工作任務過程中隨時調(diào)整和修改解決方案以及過程設計能力,S 考試在這方面要求更高;但D 和J 考試沒有涉及考生這方面的能力。這印證了布拉特的理念,即從事“次級”職業(yè)的人更需要獨創(chuàng)性,他要“在情境中尋找機會、想點子、找出路。這里重要的不是忠實執(zhí)行原有計劃,而是要有獨創(chuàng)性的工作”[3]。因此,在設計考試時要考慮不同職業(yè)的行動特點,特別是對開放性和獨創(chuàng)性要求較高的設計與對話行動特點的職業(yè)(如護士、工藝美術(shù)等)要關(guān)注工作過程評價、預留設計空間。對于目的理性行動特點的職業(yè),雖然影響工作過程的因素很少,但不可忽略對工作過程或方案設計的評價,特別要關(guān)注工作過程規(guī)范性、安全性及方案設計合理性等方面的考查。
試題(評價任務)是職業(yè)技能評價的有效載體,其質(zhì)量直接影響評價目標的實現(xiàn)。專家智能研究結(jié)果表明,對能力的直接評價是不可能的,只有在具體情境或工作行動中才能實現(xiàn)對能力的間接評價[4]。對職業(yè)技能的評價,特別是高級別技能的評價,需要在具體的任務情境中開展,即試題要具有情境性。對五個證書評價方法實操考試試題分析發(fā)現(xiàn),存在兩種試題,即去情境化試題和情境性試題。情境性試題來源于企業(yè)工作實踐的現(xiàn)實問題,是職業(yè)的典型工作任務,反映相應級別技能等級標準的要求,考查學生的實踐性知識。情境性試題的任務解決方案是開放性的,即考生采用多種方式完成任務(考題),去情境化試題則相反。分析發(fā)現(xiàn),G、Z 和S 考試采用情境性試題,J 和D 考試采用去情境化試題。
G(電站運維類職業(yè))實操考試試題由五個工作任務組成,按照工作過程進行任務排序,上一個任務是下一個任務的基礎。工作任務具有一定開放性和情境性。訪談中教師GT1 表示“按照生產(chǎn)的角度設計的,是有情境的,與企業(yè)真實工作任務相似”。Z(汽車運維類職業(yè))和S(營銷服務類職業(yè))考試通過虛擬仿真呈現(xiàn)一個虛擬情境,但工作過程的每個環(huán)節(jié)被拆分為客觀化和量化考題,通過固化流程(虛擬人物每一步做什么,都通過導航確定)消除了工作過程的開放性,無形中破壞了工作任務情境的完整性,成為一個個零碎的技能點和知識點。這說明,簡單任務分解式計算機虛擬仿真測試設計并不適用于對開放性要求較高的服務類職業(yè)的技能評價。
J(機器人應用類職業(yè))試題由兩個模塊組成,每個模塊細分為不同子任務。每個子任務均為去情境化的技能操作點,不是完整的工作過程,是為考查考生技能而設計的獨立、封閉性任務。訪談中教師JT1 表示考題與企業(yè)工作任務不太一樣。J 考試設計者表示任務是基于企業(yè)任務,按照職業(yè)院校教學要求進行教學化處理。但在教學化處理中,設計者去除了企業(yè)工作情境和工作過程,剩下可教、可考、可量化的知識點和操作技能點,成為缺失工作過程、與情境無關(guān)的操作任務,與企業(yè)真實工作要求差距較遠。D(加工制造類職業(yè))考試采用“典型工件”作為試題,要求考生按照圖紙要求加工零件,完全是技術(shù)操作封閉性工作任務,是去情境化試題。D 的設計者表示任務來自企業(yè),在企業(yè)基礎上加入教育元素。但從企業(yè)工作實際看,D 的考題只是完整工作過程的一個環(huán)節(jié),即實施環(huán)節(jié)。完整工作過程通常包括獲取信息、制定計劃、作出決策、實施、檢測和評價六個行動環(huán)節(jié),缺失任何一個環(huán)節(jié)都會造成學生能力結(jié)構(gòu)的缺陷。
評分標準是評分或判斷的依據(jù),是考生最佳表現(xiàn)的體現(xiàn),具體化表現(xiàn)為評價量規(guī)。評價量規(guī)有核查表、分值量規(guī)、分析性量規(guī)和整體性量規(guī)四種類型。技能評價量規(guī)用來判斷工作表現(xiàn)和任務完成情況。研究發(fā)現(xiàn),X 技能等級評價的評分標準設計與技能等級標準密切相關(guān)。注重綜合職業(yè)能力獲得的等級標準,其評分標準不是簡單的對錯之分,而是對工作結(jié)果和完成任務過程質(zhì)量的整體評價,主要采用分析性量規(guī)和整體性量規(guī)。例如G(電站運維類職業(yè))采用整體性量規(guī)和分值量規(guī)相結(jié)合方式,不僅對完成任務過程的整體情況進行評價,也對工作結(jié)果進行評價。
只關(guān)注知識點和技能點獲得的技能等級標準,偏向采用核查表和分值量規(guī),其評分標準是對知識點和技能點對錯的考核。本研究中,J、D、Z 和S 均采用核查表或分值量規(guī),關(guān)注技能點,注重結(jié)果評價,忽略對工作過程的評價。例如J 的評分項“調(diào)壓過濾器旁邊的手滑閥處于打開狀態(tài)”,評分員要對行為結(jié)果進行“是或否”判斷;D 的評分表是對加工工件尺寸精度的評價,采用分值量規(guī),如對重要面尺寸、精度的評價內(nèi)容“Φ8”,每超差0.02 扣1 分。Z 和S 考試是由計算機根據(jù)設計者提前設計好的交互點、觸發(fā)點自動評分,交互點/觸發(fā)點是事先確定了的標準答案或邏輯評分點。此類評分標準是對結(jié)果“對與錯”的判斷。
出于知識產(chǎn)權(quán)保護,評價組織未向研究者提供計算機評分的標準和邏輯。但從Z 和S 的考核方案可獲知,評分采取“答題正確得分,錯誤不得分”“系統(tǒng)自動抓取觸發(fā)點、觸發(fā)痕跡,錯誤按百分比扣除相應分數(shù)”??梢钥闯?,Z 和S 采用核查表和分值量規(guī)進行評分。核查表是根據(jù)行為發(fā)生先后順序,對可觀察的行為或技能,根據(jù)簡短、明確的行為或技能描述語句所列出行為或技能標準進行是與否的判斷[5]。分值量規(guī)是在核查表的基礎上,給每一項特征賦予分值,只有完全表現(xiàn)出來才能給分。很多專業(yè)行為沒有有無或?qū)﹀e之分,而是程度或水平高低之分,因此,僅憑核查表/分值量規(guī)很難客觀評價考生的技能水平。
五個技能評價方法中既有強調(diào)結(jié)果導向評價,也有結(jié)果導向與過程性評價相結(jié)合。由于過程性評價難度大,耗費大量人力物力,目前大部分技能評價偏向于采用結(jié)果評價。
本研究中的D、J、Z 和S 都是對操作結(jié)果進行核對和評價,不關(guān)注獲得結(jié)果的過程。雖然D 采用結(jié)果評價(占總分的90%)+過程評價(占總分的10%)相結(jié)合方式,但過程性評價只關(guān)注安全文明生產(chǎn),而且只有在出現(xiàn)重大安全事故和違規(guī)操作時才會扣分。現(xiàn)場觀察發(fā)現(xiàn),加工過程不是D 的評價內(nèi)容,考生完成任務(如工藝設計、程序編寫等)的過程性資料都被要求清空。在訪談中,D 的設計者表示企業(yè)只看工作結(jié)果,不看工作過程,對學生的評價也只評價結(jié)果。Z 和S 的設計者表示注意到了過程評價,但事實上采用的仍然是結(jié)果評價,他們將原本開放、復雜的工作過程進行固化,按照其意圖將(固化的)工作過程/流程分解為一個個量化考題/交互點(觸發(fā)點),并不對考生的工作過程進行評價,只對每一步的行為結(jié)果(交互點)進行評價。
G 的設計者表示:“看到結(jié)果后,評分員會詢問是從哪測量?怎么量的?考生得重新操作一遍?!诠收吓懦臅r候,也是看怎么查找故障,怎么排除故障的過程”,在此同時關(guān)注了結(jié)果和操作規(guī)范性,評分貫穿在考試過程中,因為有時操作結(jié)果看起來是對的,但操作不規(guī)范也會得到相同結(jié)果。結(jié)果與過程評價相結(jié)合的評價方式,不僅實現(xiàn)了對行為結(jié)果的評價,也對認知能力進行判定,有可能實現(xiàn)對綜合職業(yè)能力的全面評價。
1.從情境性和行動類型兩個維度劃分技能評價方法。情境性和行動類型對職業(yè)技能評價方法設計有決定性影響。真實企業(yè)中的工作任務是情境性的。按照情境學習理論,技能的獲得是在特定的情境中發(fā)生。懷特海(A.N.Whitehead)的“惰性知識”(inert knowledge)理論認為,在無背景情境下獲得的知識是惰性的、不具備實踐價值[6];職業(yè)能力只有在特定的情境中才能被辨識和調(diào)查[7]。去情境化和去工作過程的操作性工作任務,無法考查是否具備勝任企業(yè)工作任務的能力,特別是高級技能的評價對情境性要求更高。
按照布拉特(M.Brater)職業(yè)行動分類模式,對開放性和互動性較強的次級職業(yè)和互動性不強的基本職業(yè),其職業(yè)能力評價方法有所不同。應從“測試任務的情境性”和“完成任務的行動類型”兩個維度對技能評價方法進行分類。
按照測試任務的情境性,可分為情境性技能測試和去情境(標準化)技能測試。按照完成任務行動類型,可分為完整行動導向型測試(強調(diào)目的理性行動)和認知或技能導向型測試(強調(diào)設計與對話行動)。兩個維度都有不同的程度之分,有些測試(特別是對高級技能測試)對任務情境性要求較高,有些測試(對較低級技能的測試)對任務情境性要求較低。在設計與對話行動方面,以人為服務對象的服務類職業(yè)比以技術(shù)為服務對象的服務類職業(yè)要求更高。本研究中,G、S、Z 屬于情境性、認知或技能導向(強調(diào)設計與對話行動)型測試,J 和D 屬于去情境、完整行動導向(強調(diào)目的理性行動)型測試,如圖1 所示。
圖1 職業(yè)技能評價方法分類
2.簡單的“對—錯”標準無法實現(xiàn)對職業(yè)能力的評價。職業(yè)技能包含職業(yè)認知技能和職業(yè)操作技能,職業(yè)認知技能有水平高低之分,而不僅僅是對錯。簡單的“對—錯”評分標準無法用來客觀評價復雜技能(綜合能力)[8],也無法反映考生目標職業(yè)的相關(guān)表現(xiàn)。職業(yè)教育不是單純的技術(shù)或經(jīng)濟活動,而具有很強的社會性特征,不能用“對—錯”標準或“投入—產(chǎn)出”關(guān)系衡量[9]。當今社會對技術(shù)技能人才的要求越來越高,特別是新職業(yè)教育法所強調(diào)的職業(yè)綜合素質(zhì)和行動能力,即有能力參與設計工作計劃,按照經(jīng)濟性、創(chuàng)新性和環(huán)境可持續(xù)發(fā)展等方面的要求對工作的過程和成果進行控制評價,具備“參與設計和創(chuàng)造未來技術(shù)和勞動世界”[10]能力。
3.純結(jié)果導向評價無法實現(xiàn)對職業(yè)能力的評價。目前各行業(yè)普遍采用結(jié)果導向的標準化測試,它具有客觀性、易實施、成本低等優(yōu)勢,具有行為主義心理測量學基礎,曾一度被認為是科學的評價工具。然而近些年來,標準化測試由于忽視嚴密思考、推理和表達能力的培養(yǎng),不能考查學生的發(fā)散性思維能力[11],無法對學習提供有效支持[12]等原因,遭到了越來越多的質(zhì)疑和批評。人們認為其僅僅引導學生對事實性知識的掌握,無法對“高等級的思考技能”進行評價,鼓勵對知識的記憶而不是理解[13],因此“可能會導致最糟糕的學習”[14]?,F(xiàn)有技能評價多數(shù)按照結(jié)果導向評價理念,采用標準化測試,只對結(jié)果進行評價,不關(guān)注完成任務的過程,這可能是出于低成本和操作簡便的原因。但僅憑借一張試卷、一張行為結(jié)果檢驗單,就對考生職業(yè)技能水平做出整體化判斷,其證據(jù)顯然不足,因為職業(yè)認知能力只有在完成工作任務的過程中才能顯示出來。
4.計算機虛擬仿真測試無法代替線下實操考試。計算機虛擬仿真測試是基于計算機開展的測試,具有能實現(xiàn)跨區(qū)域大規(guī)模測試以及時間、人力成本低和效率高等優(yōu)點[15],已成為大規(guī)模測試發(fā)展的一種趨勢。但目前X 技能評價中的計算機虛擬仿真測試多是將設計者預先固化的工作過程/流程中的工作任務分解為一道道可考、可量化的客觀題,這破壞了工作任務的復雜性和工作過程的完整性。此類虛擬仿真測試雖然提供了虛擬工作場景和工作要求,但工作任務被拆分為碎片化的可考查的技能點,考生只能按照固化的工作流程和步驟,通過鼠標單擊和拖拽完成一個個“選擇題”。按照相同流程完成任務,無法體現(xiàn)考生的認知職業(yè)技能差異,考試結(jié)果只能反映考生對專業(yè)知識的掌握程度,無法真實反映其解決問題等認知方面的技能。計算機仿真考試在大規(guī)??荚嚨目尚行?、評分客觀性和成本方面具有優(yōu)勢,但簡單任務分解式虛擬仿真測試無法代替線下實操考試,更無法全面反映考生真實的職業(yè)能力和技能發(fā)展水平。
1.根據(jù)情境性要求和行動類型不同采用不同的技能評價方法。不同職業(yè)類別的技能評價應考慮采用不同的方法。例如以人為服務對象的服務類職業(yè)的技能評價強調(diào)情境性、認知或技能導向型評價方法,宜采用情境性的綜合理論考試+口試或技能考試;以技術(shù)為服務對象的服務類職業(yè)的技能評價強調(diào)情境性、認知和技能導向型評價方法,宜采用情境性試題的綜合理論考試,輔之以技能考試和(或)口試;技術(shù)類職業(yè)的技能評價強調(diào)情境性的、完整行動導向型評價方法,采用情境性的綜合理論考試,并輔之以操作技能考試。建議在設計技能評價方法時,充分考慮職業(yè)領(lǐng)域的工作情境和完成任務的行動類型的差異,有針對性地選擇和設計職業(yè)技能評價方法。對“目的理性行動”主導的職業(yè)(專業(yè))如數(shù)控加工等,可采用情境性的、完整行動導向型的技能評價方法,考核其從明確任務、制定計劃、做出決策的角度探討完成技術(shù)任務的過程,同時以操作技能考試作為輔助;對“設計與對話行動”主導的職業(yè)(專業(yè))如營銷、汽車維修等,可采用情境性的、認知或技能導向型技能評價方法,同時以口試作為輔助。
2.采用事實性標準,注重使用整體性量規(guī)和分析性量規(guī)。學業(yè)評價的評價標準分為事實性標準、社會性標準和個性化標準[16]。事實性標準是根據(jù)已有的教學標準或職業(yè)標準中明確的能力要求作為考生表現(xiàn)的評價依據(jù)。職業(yè)技能評價是根據(jù)職業(yè)技能標準設計的,目的是檢驗考生是否達到行業(yè)企業(yè)所要求的職業(yè)技能,應采用事實性標準,反映職業(yè)要求的效度[17]?!罢w性量規(guī)”是通過語言描述的方式對考生整體的表現(xiàn)進行判斷,“分析性量規(guī)”是對考生每一條評分指標的質(zhì)量作出等級判斷。在職業(yè)技能評價中,為判斷工作表現(xiàn)和任務完成情況,通常用“整體性量規(guī)”和“分析性量規(guī)”[18],例如世界技能大賽就采用分析性量規(guī),而不采用簡單的核查表和分值量規(guī)。核查表是對考生目標行為出現(xiàn)是與否的判斷,分值量規(guī)是在核查表基礎上賦予分值,兩者均是對行為有無的判斷,無法實現(xiàn)對能力水平高低的判斷。建議在設計職業(yè)技能評分標準時,圍繞職業(yè)技能評價目標,采用事實性標準,注重使用“整體性量規(guī)”和“分析性量規(guī)”,避免使用簡單的核查表和分值量規(guī)。
3.結(jié)果導向評價與過程性評價相結(jié)合。隨著評價理念的轉(zhuǎn)變,人們不僅希望獲得高效率且可靠性高的評價結(jié)果,還希望通過有效且可靠的評價促進學習[15]。結(jié)果導向評價(如總結(jié)性評價或終結(jié)性評價)注重學習結(jié)果,不關(guān)注考生內(nèi)在復雜的認知過程,無法實現(xiàn)對真實問題解決能力和批判性思維能力的考查,反而有可能將考生的學和教師的教導向片面的“唯分數(shù)論”的困境,“衍生教育生態(tài)的異化”[19]。由于結(jié)果導向評價的局限性,過程性評價成為評價的重要發(fā)展趨勢。過程性評價關(guān)注問題解決過程,強調(diào)過程導向理念。目前,大規(guī)模測試PISA 和TIMMS也非常重視過程性評價,通過對解決現(xiàn)實問題的過程和解答方案進行評價?!渡罨聲r代教育評價改革總體方案》中也強調(diào)“改進結(jié)果評價,強化過程評價”。拉德馬克(H.Rademacker)的研究也表明:強調(diào)結(jié)果導向的標準化測試無法用來檢驗職業(yè)技能[20]。標準化試題難度不是任務的復雜程度,而是設計者對錯誤選項的人為設計,如通過巧妙的文字表述等。特別是對于那些與生命安全相關(guān)的職業(yè)技能,不應允許使用結(jié)果導向的標準化測試的試題[21]。建議在職業(yè)技能評價中,重視學生解決問題的過程性評價,如引入表現(xiàn)性評價,將其與結(jié)果評價相結(jié)合,共同實現(xiàn)對考生職業(yè)技能的全面評價。
4.關(guān)注計算機虛擬仿真測試的效度和職業(yè)適切性。計算機虛擬仿真測試不是將紙筆測試或線下實操考試進行簡單的計算機化,而是在試題情境設計、組卷和統(tǒng)計方式等方面進行變革[22]。其在如何評估學習者最后的問題解決結(jié)果及問題解決的過程[15]等方面依然面臨挑戰(zhàn),例如PISA 早在2012 年數(shù)學素養(yǎng)測試中就引入計算化測試,但至今PISA采用的計算機化測試依然不能實現(xiàn)對開放性主觀題目的自動評分[23]。并且計算機虛擬仿真測試的效度受多方面的影響,如考生對計算機熟悉程度(計算機硬件操作,特別是鼠標和鍵盤操作的熟悉程度)、計算機的呈現(xiàn)方式(多屏幕、屏幕大小、字體字號、圖像分辨率等)、試聽感知能力等[24]。此外,并不是所有職業(yè)都能用計算機虛擬仿真測試代替實操考試,特別是對開放性和設計能力要求較高的職業(yè)領(lǐng)域,由于任務解決路徑無法提前確定或窮盡,計算機無法為其提供所有解決方案。因此,在設計計算機虛擬仿真測試時要充分考慮效度和職業(yè)領(lǐng)域的適切性。
注釋:
①國際上對服務類職業(yè)有不同的分類方式,如商業(yè)服務、生產(chǎn)服務和管理服務等。從20 世紀90 年代開始,德國大規(guī)模職業(yè)教育研究計劃“工作與技術(shù)研究”把服務類職業(yè)分兩大類,即“針對人的服務”(personenbezogene Dienstleistung)和“針對技術(shù)生產(chǎn)的服務”(produktionsbezogene Dienstleistung),這種分類一直沿用至今。參見Rauner,F(xiàn).,Grollmann,P.Eds.Handbuch Berufsbildungsforschung[M].Bielefeld: wbv,2018:571.