基于大語言模型的高職學(xué)生職業(yè)能力評(píng)估研究

2024-01-01 00:00:00劉小童張國奧

考試研究 2024年5期

[摘要] 大語言模型在職業(yè)能力評(píng)估領(lǐng)域有良好的適應(yīng)性和廣泛的應(yīng)用場景。以“高職學(xué)生職業(yè)能力評(píng)估”為研究對(duì)象，闡釋新時(shí)代職業(yè)能力的評(píng)估內(nèi)涵，分析基于LLM對(duì)職業(yè)能力進(jìn)行評(píng)估的可行性及其優(yōu)勢(shì)，進(jìn)一步提出職業(yè)能力評(píng)估路徑：以行業(yè)企業(yè)需求為目標(biāo)，對(duì)齊模型評(píng)價(jià)標(biāo)準(zhǔn)，對(duì)職業(yè)能力進(jìn)行交互式評(píng)估。結(jié)合評(píng)估案例，驗(yàn)證該方法的有效性。研究顯示：相較于傳統(tǒng)職業(yè)能力的評(píng)估方式，基于LLM的評(píng)估效果良好，智能化水平與易用性顯著提升，證明了基于LLM的自動(dòng)評(píng)估方法的顯著優(yōu)勢(shì)。

[關(guān)鍵詞] 職業(yè)能力評(píng)估；大語言模型；職業(yè)教育；自動(dòng)化評(píng)估

[中圖分類號(hào)] G424.74 [文獻(xiàn)標(biāo)識(shí)碼] A

[文章編號(hào)] 1673—1654（2024）05—024—008

一、引言

當(dāng)前社會(huì)分工快速變革，職業(yè)教育人才培養(yǎng)方向需要與企業(yè)需求契合，與產(chǎn)業(yè)發(fā)展匹配。職業(yè)能力評(píng)價(jià)是職業(yè)教育質(zhì)量監(jiān)控的重要手段，對(duì)于新時(shí)代背景下職業(yè)教育改革和發(fā)展具有重要意義。國務(wù)院頒布實(shí)施的《國家職業(yè)教育改革實(shí)施方案》（以下簡稱“職教20條”）提出，要“以學(xué)習(xí)者的職業(yè)道德技術(shù)技能水平為核心，建立職業(yè)教育質(zhì)量評(píng)價(jià)體系”，要求職業(yè)院校合理評(píng)估畢業(yè)生在職業(yè)活動(dòng)和個(gè)人職業(yè)生涯發(fā)展中所需要的綜合能力，即職業(yè)能力。

2021年7月，教育部等多部門聯(lián)合印發(fā)《關(guān)于推進(jìn)教育新型基礎(chǔ)設(shè)施建設(shè)構(gòu)建高質(zhì)量教育支撐體系的指導(dǎo)意見》，明確指出，應(yīng)用大數(shù)據(jù)、人工智能等新一代信息技術(shù)創(chuàng)新評(píng)價(jià)工具是可行路徑。同年7月13日，國家網(wǎng)信辦等七部門聯(lián)合發(fā)布《生成式人工智能服務(wù)管理暫行辦法》，鼓勵(lì)生成式人工智能技術(shù)在各行業(yè)、各領(lǐng)域的創(chuàng)新應(yīng)用，生成積極健康、向上向善的優(yōu)質(zhì)內(nèi)容，探索優(yōu)化應(yīng)用場景，構(gòu)建應(yīng)用生態(tài)體系。

隨著人工智能技術(shù)的快速發(fā)展，大語言模型（large language models，LLM）出色的語言處理能力和語義理解能力為職業(yè)能力評(píng)估提供了新的方向。LLM指包含數(shù)千億（或更多）參數(shù)的語言模型，這些參數(shù)是在大量文本數(shù)據(jù)的基礎(chǔ)上經(jīng)過訓(xùn)練得到的[1]。目前國外主流的LLM有ChatGPT、LaMDA、PaLM等；國內(nèi)則有百度的“文心一言”、阿里的“通義千問”、騰訊的“混元”、華為的“盤古”，以及科大訊飛的“星火認(rèn)知”等。LLM于2018年左右推出，它們能夠捕捉人類語言的大部分句法和語義，掌握大量的語言知識(shí)和常識(shí)，能夠在訓(xùn)練期間記憶海量文本，在各種任務(wù)中表現(xiàn)出色[2]。

當(dāng)前階段，有關(guān)職業(yè)能力本身的研究較多，在方法論層面的研究則較少。在傳統(tǒng)職業(yè)能力評(píng)估過程中，存在系統(tǒng)化、科學(xué)化不足的問題，同時(shí)難以避免地會(huì)出現(xiàn)評(píng)價(jià)主觀性過強(qiáng)的問題[3-4]。目前，人工智能技術(shù)廣泛應(yīng)用于教育評(píng)估領(lǐng)域，隨著教育評(píng)估場景和形式快速轉(zhuǎn)變，測評(píng)模型的通用性理論框架和核心步驟在不斷發(fā)展完善[5]。智能化的評(píng)估方式能夠顯著提高評(píng)估效率，增強(qiáng)評(píng)估結(jié)果的準(zhǔn)確性和公正性[6]。同時(shí)，智能化評(píng)估能夠?qū)崿F(xiàn)多維度個(gè)性化評(píng)估，極大豐富了評(píng)估結(jié)果的呈現(xiàn)形式[7-8]。LLM的出現(xiàn)使得智能化評(píng)估的使用門檻大大降低，評(píng)估形式更加多樣，實(shí)踐可行性顯著提升[9]。

為了提高職業(yè)能力評(píng)估水平，全面衡量學(xué)生的職業(yè)能力，本文旨在探討基于LLM的高職學(xué)生職業(yè)能力評(píng)估及反饋實(shí)踐研究。針對(duì)當(dāng)前職業(yè)教育評(píng)估實(shí)踐中存在的問題，提出新時(shí)代的職業(yè)能力評(píng)估內(nèi)涵。結(jié)合當(dāng)前職業(yè)能力評(píng)估的需求和特點(diǎn)，分析LLM在職業(yè)能力評(píng)估領(lǐng)域的適用范圍及其顯著優(yōu)勢(shì)，確定基于LLM的職業(yè)能力評(píng)估路徑，提出具體的實(shí)施方案。基于LLM的職業(yè)能力評(píng)估方法，利用LLM強(qiáng)大的自然語言理解和生成能力，對(duì)語義表達(dá)范疇內(nèi)的職業(yè)能力進(jìn)行自動(dòng)化、智能化、個(gè)性化的評(píng)估和反饋，極大提升了評(píng)估效率和質(zhì)量，減少了評(píng)分誤差和主觀干擾，為職業(yè)院校教育質(zhì)量評(píng)估和育人模式改革提供理論依據(jù)。

二、新時(shí)代職業(yè)能力評(píng)估內(nèi)涵

高職院校要落實(shí)立德樹人根本任務(wù)，高質(zhì)量實(shí)現(xiàn)職業(yè)院校教育目標(biāo)，職業(yè)能力的評(píng)估結(jié)果是重要參考。很多研究從不同研究領(lǐng)域和角度對(duì)職業(yè)能力進(jìn)行了界定，形成的共識(shí)是，職業(yè)能力是高職學(xué)生完成職業(yè)活動(dòng)所需的素養(yǎng)、知識(shí)、技能等一系列能力單元的綜合。國內(nèi)學(xué)者在廣泛研究德國職業(yè)教育的基礎(chǔ)上，將職業(yè)能力劃分為：專業(yè)能力與關(guān)鍵能力（也稱為“職業(yè)核心能力”）[10-11]。

專業(yè)能力是指學(xué)生未來從事某一特定職業(yè)活動(dòng)所必須具備的能力，強(qiáng)調(diào)專業(yè)的應(yīng)用性和針對(duì)性，注重專業(yè)知識(shí)和技能的掌握程度。專業(yè)能力是在具備一定專業(yè)理論知識(shí)的基礎(chǔ)上，經(jīng)過大量與職業(yè)活動(dòng)相關(guān)的實(shí)踐而獲得的能力，包括專業(yè)知識(shí)、專業(yè)技能和專業(yè)態(tài)度。

關(guān)鍵能力是德國社會(huì)教育學(xué)家梅爾騰斯于1972年首次提出的概念。應(yīng)世界教育發(fā)展趨勢(shì)，我國勞動(dòng)和社會(huì)保障部于 1998 年在《國家技能振興戰(zhàn)略》中提出了關(guān)鍵能力的概念，沿用至今。關(guān)鍵能力是專業(yè)能力的延伸和抽象，屬于與實(shí)際職業(yè)崗位所需知識(shí)和技能無直接聯(lián)系的能力范疇，是從事任何職業(yè)崗位都必不可少的一種能力[12]。它適用于各種職業(yè)，能適應(yīng)崗位不斷變化，是伴隨人終生的可持續(xù)發(fā)展能力。傳統(tǒng)的關(guān)鍵能力包括再學(xué)習(xí)能力、分析解決問題能力、創(chuàng)新能力、團(tuán)隊(duì)協(xié)作能力、適應(yīng)能力、人際交往能力等。

在職業(yè)教育高質(zhì)量發(fā)展的契機(jī)下，新時(shí)代職業(yè)能力評(píng)估的要求如下：

（一）突出專業(yè)能力評(píng)估的職業(yè)導(dǎo)向作用

高職人才培養(yǎng)具有明確的目標(biāo)導(dǎo)向，即服務(wù)于特定的產(chǎn)業(yè)、行業(yè)及崗位。專業(yè)能力的評(píng)估核心是從業(yè)者能否勝任本職工作任務(wù)。職業(yè)能力評(píng)估體系應(yīng)具備鮮明的行業(yè)特色，評(píng)估內(nèi)容應(yīng)對(duì)接崗位實(shí)際工作任務(wù)，評(píng)估結(jié)果應(yīng)能反映學(xué)生能力與崗位要求的匹配度。目前鮮有院校將學(xué)生職業(yè)能力作為一項(xiàng)獨(dú)立的評(píng)價(jià)內(nèi)容，大多仍沿用學(xué)生的綜合素質(zhì)測評(píng)方案對(duì)學(xué)生進(jìn)行評(píng)價(jià)。高職院校應(yīng)該發(fā)揮專業(yè)能力評(píng)估的職業(yè)導(dǎo)向作用，而不是將職業(yè)能力僅作為綜合素質(zhì)測評(píng)下的隱性能力。

（二）關(guān)鍵能力評(píng)估與時(shí)代發(fā)展同頻

關(guān)鍵能力具備普遍適用性和廣泛遷移性。在信息時(shí)代背景下，學(xué)習(xí)方法和工作模式都在快速變化，這對(duì)學(xué)生的適應(yīng)能力和終生學(xué)習(xí)能力提出了更高的要求。關(guān)鍵能力的評(píng)價(jià)需要聯(lián)系實(shí)際，與社會(huì)發(fā)展相適應(yīng)。關(guān)鍵能力的評(píng)估也要與國家 “立德樹人”的育人目標(biāo)相適應(yīng)。2020年10月，國務(wù)院印發(fā)了《深化新時(shí)代教育評(píng)價(jià)改革總體方案》（以下簡稱“《總體方案》”）?！犊傮w方案》重點(diǎn)評(píng)價(jià)職業(yè)學(xué)校（含技工院校）“德技并修”等情況，這不僅說明“德技并修”是中國特色職業(yè)教育立德樹人的根本特征，也是新時(shí)代我國職業(yè)教育評(píng)價(jià)導(dǎo)向的基本要求。職業(yè)院校面向的崗位對(duì)“德”的內(nèi)涵解讀不同但均有要求，職業(yè)道德、職業(yè)操守、職業(yè)素養(yǎng)是從事任何崗位事業(yè)的根基，也是關(guān)鍵能力評(píng)價(jià)中的重要組成部分。

（三）職業(yè)能力評(píng)價(jià)體系升級(jí)

目前，多數(shù)高職院校職業(yè)能力評(píng)價(jià)缺乏統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn)，主要參考各自的教學(xué)特點(diǎn)、管理習(xí)慣而自擬評(píng)價(jià)標(biāo)準(zhǔn)。評(píng)估過程缺乏系統(tǒng)性設(shè)計(jì)，評(píng)價(jià)結(jié)果波動(dòng)性大、準(zhǔn)確性低。無論是反映辦學(xué)質(zhì)量，還是學(xué)生的崗位勝任力水平，這樣的職業(yè)能力評(píng)估結(jié)果均缺乏說服力。健全職業(yè)能力評(píng)估體系，多方評(píng)價(jià)主體廣泛參與，采用科學(xué)的評(píng)價(jià)指標(biāo)和多樣的評(píng)價(jià)辦法，提高職業(yè)能力評(píng)價(jià)體系系統(tǒng)化和科學(xué)化水平，將有助于提高院校人才培養(yǎng)水平，增加行業(yè)對(duì)專業(yè)人才的認(rèn)可。

（四）職業(yè)能力評(píng)價(jià)方式智能化

《總體方案》明確提出，要充分利用人工智能、大數(shù)據(jù)等信息技術(shù)手段，提高職業(yè)能力評(píng)價(jià)智能化水平，促進(jìn)人工智能與職業(yè)能力評(píng)價(jià)融合發(fā)展。應(yīng)創(chuàng)新信息化評(píng)價(jià)工具，客觀分析學(xué)生的職業(yè)能力，鼓勵(lì)探索規(guī)模化職業(yè)能力在線評(píng)價(jià)系統(tǒng)，促進(jìn)職業(yè)教育高質(zhì)量發(fā)展。智能化評(píng)價(jià)技術(shù)能全面記錄學(xué)生的學(xué)習(xí)過程，豐富評(píng)價(jià)數(shù)據(jù)的采集維度和數(shù)量，通過海量數(shù)據(jù)促進(jìn)教師精準(zhǔn)教學(xué)和學(xué)生個(gè)性化發(fā)展。

三、LLM職業(yè)能力評(píng)估適用性分析

LLM是在大規(guī)模文本語料上訓(xùn)練、包含千億級(jí)別（或更多）參數(shù)的語言模型，具有強(qiáng)大的語言理解和生成能力，可以在多種任務(wù)和領(lǐng)域中展現(xiàn)出人類水平，甚至超越人類的表現(xiàn)[13]。

語言是職業(yè)能力評(píng)估的媒介，LLM強(qiáng)大的語言生成能力和理解能力能夠最大化地發(fā)揮語言在理論測評(píng)中的載體作用。通過LLM生成豐富、客觀、全面的評(píng)估題目，能夠引導(dǎo)學(xué)生完整表達(dá)，展現(xiàn)出全面的認(rèn)知水平。LLM強(qiáng)大的自然文字解析能力和語義理解能力，能夠?qū)Ρ辉u(píng)估者的表達(dá)內(nèi)容進(jìn)行處理和分析，對(duì)學(xué)生的掌握程度進(jìn)行精準(zhǔn)衡量，參考預(yù)設(shè)的標(biāo)準(zhǔn)給出具體的評(píng)價(jià)。

得益于LLM的可塑性，結(jié)合用戶的要求和反饋，利用對(duì)齊微調(diào)等其他模型訓(xùn)練技術(shù)，能夠?qū)崿F(xiàn)模型的價(jià)值觀或偏好向人類評(píng)估者看齊，更加符合用戶的期望，提高評(píng)估的客觀性和合理性。在人機(jī)交互層面，LLM的交互形式以文字為主，同時(shí)支持圖像交互、語音交互等多種輸入和輸出方式，完成評(píng)估過程的多樣化交互，提供了多樣的選擇空間[14]。

相較于傳統(tǒng)職業(yè)能力測試，通過LLM職業(yè)能力評(píng)估具有以下顯著優(yōu)勢(shì)：

第一，LLM可獲取性高、入口便捷、測試快速、反饋及時(shí)，極大方便了評(píng)估體系的構(gòu)建和部署。對(duì)于評(píng)估者而言，降低了使用門檻，提高了評(píng)估效率。對(duì)于學(xué)生而言，LLM是一個(gè)“私人導(dǎo)師”，能夠?yàn)閷W(xué)生的自我提升提供助力。

第二，模型的可塑性和針對(duì)性強(qiáng)。LLM具備上下文學(xué)習(xí)和指令遵循的能力，能夠根據(jù)不同的評(píng)估標(biāo)準(zhǔn)和要求，靈活適應(yīng)不同的職業(yè)能力評(píng)估任務(wù)?？梢酝ㄟ^針對(duì)性、定制性訓(xùn)練，讓模型在特定的領(lǐng)域和行業(yè)具有更強(qiáng)的適用性，匹配不同學(xué)科、不同深度的測試要求。

第三，評(píng)估方式多樣化。LLM能夠?qū)崿F(xiàn)以自然語言作為媒介的評(píng)估，借助AI交互方式，拓展出豐富的測評(píng)形式，包括口試、面談、分析報(bào)告、書面答卷等。

在當(dāng)前技術(shù)發(fā)展階段，LLM職業(yè)能力評(píng)估存在的不足和風(fēng)險(xiǎn)如下：

第一，意識(shí)形態(tài)問題。在西方主流的LLM訓(xùn)練數(shù)據(jù)集中，大部分內(nèi)容由英語或其他一些西方主流語言表述，主要應(yīng)用于西方語境，其中文性能、潛在風(fēng)險(xiǎn)還未得到深入充分的評(píng)估[15]。在職業(yè)能力評(píng)價(jià)的過程中，需要避免隱蔽的西方立場對(duì)學(xué)生價(jià)值觀塑造、主流意識(shí)形態(tài)認(rèn)同的潛在消極影響。因此開發(fā)適合于中國教育特色的LLM是可行之徑。

第二，訓(xùn)練數(shù)據(jù)集質(zhì)量要求高。當(dāng)前LLM的訓(xùn)練過程主要依賴無監(jiān)督機(jī)器學(xué)習(xí)技術(shù)，實(shí)現(xiàn)模型從大量無標(biāo)簽的數(shù)據(jù)中自動(dòng)學(xué)習(xí)?？梢詫?duì)模型進(jìn)行人工微調(diào)和干預(yù)，但LLM輸出的內(nèi)容主要反映其訓(xùn)練數(shù)據(jù)集中的內(nèi)容，因此模型水平與訓(xùn)練數(shù)據(jù)集質(zhì)量密切相關(guān)，如果質(zhì)量不佳則可能產(chǎn)生謬誤，在評(píng)估過程中會(huì)對(duì)評(píng)估效果和評(píng)估可信度產(chǎn)生一定影響。

第三，算力成本大。專業(yè)化的評(píng)估需要高質(zhì)量的數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，在模型訓(xùn)練過程中需要的算力資源龐大。因此，如何降低成本、提升安全性和可控性，是進(jìn)一步研究的方向。

第四，無法應(yīng)用于非文本化場景。LLM本質(zhì)是語言模型，只能評(píng)測語義表達(dá)范圍內(nèi)的內(nèi)容，如識(shí)記、認(rèn)知、程序性等知識(shí)，但不能應(yīng)用于真實(shí)環(huán)境和物理交互的場景。

四、基于LLM的職業(yè)能力理論評(píng)估路徑

結(jié)合LLM的特點(diǎn)及優(yōu)勢(shì)，本研究構(gòu)建了基于LLM的職業(yè)能力評(píng)估體系。首先，結(jié)合行業(yè)協(xié)會(huì)、企業(yè)需求及院校培養(yǎng)目標(biāo)制定評(píng)價(jià)標(biāo)準(zhǔn)，明確評(píng)價(jià)內(nèi)容。其次，確定評(píng)估框架下的具體評(píng)估指標(biāo)和評(píng)估形式，通過融入行業(yè)知識(shí)、對(duì)齊評(píng)價(jià)標(biāo)準(zhǔn)等手段對(duì)模型進(jìn)行針對(duì)性訓(xùn)練，使模型具備專業(yè)評(píng)估能力。再次，采用與評(píng)估目標(biāo)相適應(yīng)的評(píng)價(jià)形式，要求被評(píng)估者與LLM進(jìn)行交互，完成評(píng)估過程。最后，由LLM提供指標(biāo)評(píng)價(jià)結(jié)果，通過特定的統(tǒng)計(jì)方法，呈現(xiàn)最終的職業(yè)能力評(píng)估結(jié)果和反饋意見（見圖1）。

（一）評(píng)價(jià)標(biāo)準(zhǔn)建立及其依據(jù)

職業(yè)能力是衡量學(xué)生能否勝任崗位的重要參考，因而應(yīng)具備職業(yè)特色。評(píng)價(jià)標(biāo)準(zhǔn)必須與崗位的需求一致，應(yīng)充分了解企業(yè)的各項(xiàng)職業(yè)活動(dòng)，必要時(shí)可以由企業(yè)和行業(yè)協(xié)會(huì)參與制定，以確保評(píng)價(jià)標(biāo)準(zhǔn)的真實(shí)性、權(quán)威性和可信度。同時(shí)，評(píng)價(jià)標(biāo)準(zhǔn)應(yīng)基于可量化的具體指標(biāo)和某種顯性特征，以保證評(píng)估的客觀性和準(zhǔn)確性。職業(yè)能力評(píng)價(jià)標(biāo)準(zhǔn)與院校人才培養(yǎng)目標(biāo)密切相關(guān)，是衡量教學(xué)效果和辦學(xué)質(zhì)量的重要依據(jù)。

職業(yè)能力的評(píng)價(jià)過程應(yīng)始終貫徹《中華人民共和國職業(yè)教育法》的要求，遵循行業(yè)和企業(yè)的需求，反映職業(yè)活動(dòng)的本質(zhì)和特點(diǎn)。以能力本位為原則，明確評(píng)價(jià)目標(biāo)、評(píng)價(jià)內(nèi)容、評(píng)價(jià)方法、評(píng)價(jià)形式、評(píng)價(jià)時(shí)間和評(píng)價(jià)標(biāo)準(zhǔn)等要素，突出對(duì)知識(shí)技能和關(guān)鍵能力的評(píng)估。突出實(shí)踐性、靈活性和開放性，適應(yīng)不同的評(píng)價(jià)場景和評(píng)價(jià)對(duì)象。由第三方制定評(píng)價(jià)標(biāo)準(zhǔn)，保證公正性與客觀性。嚴(yán)格遵循行業(yè)標(biāo)準(zhǔn)的同時(shí)，充分聽取政府、行業(yè)、企業(yè)及高職院校等各方面的意見和建議，制定出多元化的評(píng)價(jià)標(biāo)準(zhǔn)機(jī)制。

（二）評(píng)估形式與問題設(shè)置

設(shè)置評(píng)估問題的核心目標(biāo)是考查學(xué)生的認(rèn)知能力水平。評(píng)估問題應(yīng)該與學(xué)科的教育標(biāo)準(zhǔn)和育人目標(biāo)相統(tǒng)一，反映被評(píng)估者所應(yīng)具備的基本知識(shí)、技能和素養(yǎng)。問題設(shè)置應(yīng)盡量參考真實(shí)案例，與實(shí)際工作場景密切相關(guān)。問題應(yīng)該是開放式的，要求評(píng)估者運(yùn)用分析、綜合、評(píng)價(jià)和創(chuàng)造等高階思維技能，提出多種觀點(diǎn)和解決方案。問題應(yīng)當(dāng)簡潔清晰，避免內(nèi)容模糊和存在偏見。問題應(yīng)全面和多樣化，涵蓋學(xué)科的不同方面和維度。例如，針對(duì)不同認(rèn)知水平的學(xué)生，可利用布魯姆分類框架設(shè)計(jì)不同層次的問題。

（三）模型訓(xùn)練與標(biāo)準(zhǔn)對(duì)齊

評(píng)價(jià)標(biāo)準(zhǔn)和評(píng)價(jià)形式完成確認(rèn)之后，需對(duì)LLM進(jìn)行針對(duì)性訓(xùn)練，使其具備完整的專業(yè)評(píng)估能力。訓(xùn)練的方法包括融入行業(yè)知識(shí)、對(duì)齊評(píng)價(jià)標(biāo)準(zhǔn)和優(yōu)化生成質(zhì)量等。訓(xùn)練過程需融入相關(guān)的行業(yè)知識(shí)，如基本的概念、原理、方法和工具等。同時(shí)訓(xùn)練過程可以對(duì)齊評(píng)價(jià)標(biāo)準(zhǔn)，根據(jù)不同的領(lǐng)域、維度和指標(biāo)，生成相應(yīng)的評(píng)分和反饋。另外，模型需要根據(jù)評(píng)估規(guī)則和應(yīng)試規(guī)范進(jìn)行調(diào)整，包括基本的考試規(guī)則和考試道德約束，防止出現(xiàn)作弊等情況。

（四）評(píng)估過程要求

評(píng)估者應(yīng)事先了解并熟悉這種新型的評(píng)估形式，參加有針對(duì)性的培訓(xùn)和指導(dǎo)。評(píng)估時(shí)應(yīng)引導(dǎo)被評(píng)估者充分表達(dá)他們的主張和觀點(diǎn)，遵循學(xué)術(shù)規(guī)范，采用清晰、連貫、準(zhǔn)確的語言描述評(píng)估過程中提出的問題。

（五）評(píng)估結(jié)果量化

評(píng)估過程的核心是對(duì)被評(píng)估者的表現(xiàn)進(jìn)行量化反映。評(píng)價(jià)標(biāo)準(zhǔn)應(yīng)透明、有效、可靠和公平，需要反映學(xué)科的期望和學(xué)習(xí)成果。評(píng)估的角度應(yīng)是多維的，涵蓋不同方面和不同領(lǐng)域的表現(xiàn)，如內(nèi)容知識(shí)、概念理解、批判性思維、問題解決、溝通能力和創(chuàng)造力等。評(píng)價(jià)標(biāo)準(zhǔn)應(yīng)盡量細(xì)化，提供清晰的反饋，具體指出被評(píng)估者的優(yōu)勢(shì)和劣勢(shì)。通過同一次評(píng)估下不同評(píng)估對(duì)象之間的橫向?qū)Ρ?、不同評(píng)估輪次之間的相互對(duì)比，保證評(píng)價(jià)標(biāo)準(zhǔn)的規(guī)范性，呈現(xiàn)更加可信的評(píng)估結(jié)果。最后，通過具體的分?jǐn)?shù)和字母等級(jí)量化評(píng)估結(jié)果。

（六）評(píng)估結(jié)果呈現(xiàn)

由LLM生成指標(biāo)評(píng)價(jià)結(jié)果，給出反饋意見，通過圖表、報(bào)告和建議等呈現(xiàn)最終的職業(yè)能力評(píng)估結(jié)果。例如，為呈現(xiàn)特定專業(yè)學(xué)生的職業(yè)能力評(píng)估結(jié)果，可使用圖表的方式展示被評(píng)估者在不同領(lǐng)域和維度下的分?jǐn)?shù)和排名，也可使用報(bào)告的方式總結(jié)出被評(píng)估者的優(yōu)勢(shì)和不足，給出具體的分析和解釋。

五、評(píng)估案例

以城市軌道交通專業(yè)學(xué)生職業(yè)能力評(píng)估為案例，闡釋基于LLM的職業(yè)能力評(píng)估流程。使用的LLM為GPT-4.0。

首先確定評(píng)價(jià)標(biāo)準(zhǔn)。結(jié)合交通運(yùn)輸部2022年發(fā)布的《城市軌道交通客運(yùn)服務(wù)規(guī)范》、城市軌道交通服務(wù)員國家職業(yè)技能標(biāo)準(zhǔn)，以及地鐵運(yùn)營公司從行業(yè)角度對(duì)培養(yǎng)計(jì)劃提出的指導(dǎo)意見，從行業(yè)、企業(yè)、崗位層面提煉評(píng)估指標(biāo)和職業(yè)能力的具體范圍，確定出城市軌道交通運(yùn)營管理專業(yè)學(xué)生的職業(yè)能力評(píng)估指標(biāo)體系。職業(yè)能力評(píng)估需要對(duì)學(xué)生進(jìn)行多能力多維度評(píng)估，以下是針對(duì)該專業(yè)的一項(xiàng)專業(yè)核心能力，客運(yùn)服務(wù)能力為例的職業(yè)能力評(píng)估流程。

客運(yùn)服務(wù)能力是指在城市軌道交通運(yùn)輸中，能夠?yàn)槌丝吞峁﹥?yōu)質(zhì)、安全、便捷、舒適服務(wù)的能力；是在具備較強(qiáng)的專業(yè)知識(shí)儲(chǔ)備的基礎(chǔ)上，能夠處理車站服務(wù)、票務(wù)、信息咨詢、投訴等多種復(fù)雜情景的一種職業(yè)能力。具體能力維度包括：基礎(chǔ)常識(shí)、服務(wù)規(guī)范語言、票務(wù)服務(wù)、車站服務(wù)、應(yīng)急處理、客傷處理等。

融入行業(yè)知識(shí)與教學(xué)資源，對(duì)齊評(píng)價(jià)標(biāo)準(zhǔn)，對(duì)模型進(jìn)行訓(xùn)練。將國家規(guī)范、地鐵站務(wù)員崗位細(xì)則、規(guī)劃教材等優(yōu)質(zhì)訓(xùn)練材料進(jìn)行整理，作為訓(xùn)練數(shù)據(jù)集和基礎(chǔ)知識(shí)對(duì)模型進(jìn)行預(yù)訓(xùn)練。訓(xùn)練模型后，采用技能大賽和案例對(duì)模型進(jìn)行測試，檢驗(yàn)?zāi)Ｐ蛯W(xué)習(xí)成果。通過專業(yè)教師和行業(yè)專家對(duì)模型進(jìn)行人工標(biāo)注，最大程度地保證模型輸出與行業(yè)標(biāo)準(zhǔn)對(duì)齊。經(jīng)過教學(xué)一線教師和企業(yè)專家檢測，訓(xùn)練后的LLM能夠根據(jù)要求輸出全面準(zhǔn)確、價(jià)值觀合理的評(píng)估內(nèi)容。

根據(jù)具體測試的要求擬定提示詞。在經(jīng)過預(yù)訓(xùn)練、提示微調(diào)后，需要通過提示策略與LLM進(jìn)行交互，以完成評(píng)估過程。合理的提示能夠顯著提升LLM在處理任務(wù)時(shí)的表現(xiàn)。受限于文章篇幅，核心提示詞如表1所示。

以某次測試過程為例，LLM評(píng)估過程部分生成內(nèi)容如表2所示。

分析表中內(nèi)容發(fā)現(xiàn)，經(jīng)過訓(xùn)練的LLM能夠高質(zhì)量輸出內(nèi)容，生成全面系統(tǒng)的評(píng)估結(jié)果，能夠考查被評(píng)估者的各項(xiàng)能力。在評(píng)估結(jié)束后，能夠輸出評(píng)估題目及題目設(shè)計(jì)意圖，方便監(jiān)督與反饋。

最后統(tǒng)計(jì)某學(xué)校城市軌道交通運(yùn)營管理專業(yè)30名學(xué)生完成LLM能力評(píng)估在不同行為指標(biāo)上的得分情況，與學(xué)生在相近科目的期末評(píng)測成績進(jìn)行比對(duì)。為避免因評(píng)判尺度導(dǎo)致的分?jǐn)?shù)差異，對(duì)數(shù)據(jù)進(jìn)行歸一化處理，處理后的LLM評(píng)估與紙質(zhì)測評(píng)成績對(duì)比如圖2所示。

對(duì)圖表進(jìn)行分析可知，學(xué)生整體評(píng)估情況與期末測評(píng)結(jié)果接近，成績相似度為84%，證明了基于LLM評(píng)估的有效性和可信度。采用自動(dòng)化的評(píng)估，能夠避免人工評(píng)價(jià)中存在的個(gè)人偏好，保證評(píng)估過程的客觀性。較傳統(tǒng)筆試評(píng)估而言，兩種方式在被評(píng)估者參與評(píng)估的過程中耗時(shí)基本相同，但基于LLM的職業(yè)能力評(píng)估在評(píng)估過程結(jié)束后即可生成結(jié)果，相較于傳統(tǒng)筆試，效率提升顯著。云平臺(tái)的部署能夠滿足大量學(xué)生同時(shí)在線評(píng)估，大幅提升評(píng)估效率。利用LLM生成技術(shù)增強(qiáng)型試題，對(duì)學(xué)生進(jìn)行技術(shù)評(píng)估，可以有效收集學(xué)生對(duì)試題的反饋，從而更好地考查學(xué)生的知識(shí)、能力和素養(yǎng)水平。在評(píng)估結(jié)束后，能夠針對(duì)每個(gè)評(píng)估對(duì)象的情況給出合適的提升意見，做到評(píng)估反饋的正面導(dǎo)向，顯著提升了評(píng)估的自動(dòng)化和系統(tǒng)化程度，對(duì)于推廣科學(xué)的教育教學(xué)評(píng)價(jià)有深刻意義。

六、結(jié)論與展望

基于LLM提出高職學(xué)生職業(yè)能力評(píng)估的設(shè)想，提供了完整的實(shí)施路徑，對(duì)推動(dòng)職業(yè)教育評(píng)估的改革具有現(xiàn)實(shí)意義。首先，針對(duì)當(dāng)前職業(yè)能力評(píng)估存在的問題進(jìn)行簡要分析，對(duì)新時(shí)代職業(yè)能力評(píng)估內(nèi)涵進(jìn)行具體闡釋，詮釋現(xiàn)階段職業(yè)能力評(píng)估的變革方向及導(dǎo)向作用。其次，論證LLM對(duì)職業(yè)能力評(píng)估的可行性和適用范圍。利用LLM的自然語言理解和生成能力，實(shí)現(xiàn)自動(dòng)化、智能化、個(gè)性化的客觀評(píng)估結(jié)果。隨后研究構(gòu)建出基于LLM的職業(yè)能力評(píng)估路徑，包括制定評(píng)價(jià)標(biāo)準(zhǔn)、設(shè)置評(píng)估形式、模型訓(xùn)練、過程要求、結(jié)果量化和呈現(xiàn)等具體步驟。最后，通過城市軌道交通專業(yè)的案例詳細(xì)分析了評(píng)估流程，驗(yàn)證了訓(xùn)練后的模型能夠輸出合理的評(píng)估內(nèi)容，表明了該方法的有效性。

由于LLM存在的解釋性不足問題會(huì)對(duì)評(píng)價(jià)結(jié)果可信度產(chǎn)生一定影響，后續(xù)研究將進(jìn)一步提升評(píng)估過程的穩(wěn)定性和公平性。在模型訓(xùn)練階段需要大量算力和優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)集等資源，在未來研究中，應(yīng)持續(xù)提升模型的通用性以降低應(yīng)用門檻和使用成本，將基于LLM的職業(yè)能力評(píng)估方法推向更為成熟和完善的階段。

本研究對(duì)于推進(jìn)職業(yè)教育評(píng)估體系的自動(dòng)化和科學(xué)化改革具有參考價(jià)值?；贚LM的職業(yè)能力評(píng)估為職業(yè)院校提供了一種新的評(píng)價(jià)方式，該方法還可廣泛應(yīng)用于教育質(zhì)量監(jiān)控、學(xué)習(xí)診斷、學(xué)習(xí)反饋等領(lǐng)域，為數(shù)字化育人、智能化輔助教育提供參考。

參考文獻(xiàn)：

[1] Wei J，Tay Y，Bommasani R，et al. Emergent Abilities of Large Language Models [J]. arXiv Preprint arXiv：2206.07682，2022.

[2] Brown T，Mann B，Ryder N，et al. Language Models Are Few-Shot Learners [J]. Advances in Neural Information Processing Systems，2020，（33）：1877-1901.

[3] 楊瓊.高職學(xué)生職業(yè)能力評(píng)價(jià)體系研究[D].金華：浙江師范大學(xué)，2010.

[4] 金洪勇.高職學(xué)生職業(yè)能力評(píng)價(jià)體系的構(gòu)建與實(shí)施研究[J].天津職業(yè)院校聯(lián)合學(xué)報(bào)，2018，20（08）：3-7.

[5] 楊華利，耿晶，胡盛澤，等.人工智能時(shí)代的教育測評(píng)通用理論框架與實(shí)踐進(jìn)路[J].中國遠(yuǎn)程教育，2022，（12）：68-77.DOI：10.13541/j.cnki.chinade.2022.12.007.

[6] 劉浩，劉笑笑，辛濤.人工智能賦能基礎(chǔ)教育監(jiān)測的應(yīng)用與挑戰(zhàn)[J].北京師范大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2022，（02）：136-142.

[7] 彭波，王偉清，張進(jìn)良，等.人工智能視域下教育評(píng)價(jià)改革何以可能[J].當(dāng)代教育論壇，2021，（06）：1-15.DOI：10.13694/j.cnki.ddjylt.20211012.001.

[8] 羅清萍.新時(shí)代高職學(xué)生職業(yè)核心能力評(píng)價(jià)體系研究[J].武漢工程職業(yè)技術(shù)學(xué)院學(xué)報(bào)，2022，34（03）：74-79.

[9] 蔣華林.人工智能聊天機(jī)器人對(duì)科研成果與人才評(píng)價(jià)的影響研究——基于ChatGPT、Microsoft Bing視角分析[J].重慶大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版），2023，29（02）：97-110.

[10] 姜大源，吳全全.當(dāng)代德國職業(yè)教育主流教學(xué)思想研究——理論、實(shí)踐與創(chuàng)新[M].北京：清華大學(xué)出版社，2007：25.

[11] 曾旭華，李彬，李福東.高職學(xué)生職業(yè)能力指標(biāo)體系構(gòu)建的實(shí)證研究[J].職教論壇，2014，（21）：28-32.

[12] 查英華，朱春杉.《悉尼協(xié)議》框架下高職學(xué)生職業(yè)核心能力評(píng)價(jià)指標(biāo)體系構(gòu)建[J].職業(yè)技術(shù)教育，2020，41（11）：54-58.

[13] 托雷·霍爾，李思琦，孫波.生成式人工智能對(duì)歐洲教育的影響及對(duì)中國的啟示[J].中國教育信息化，2023，29（06）：8-16.

[14] 李志民.ChatGPT本質(zhì)分析及其對(duì)教育的影響[J].中國教育信息化，2023，29（03）：12-18.

[15] 熊明輝，池驍.論生成式大語言模型應(yīng)用的安全性——以ChatGPT為例[J].山東社會(huì)科學(xué)，2023，（05）：79-90.DOI：10.14112/j.cnki.37-1053/c.2023.05.009.

Research on Assessment of Vocational Competence for Vocational Students Based on Large Language Models

Liu Xiaotong" Zhang Guo’ao

Qingdao Engineering Vocational College，Qingdao，Shandong，266000

Abstract：This study aims to explore the application of large language models in vocational competency assessment. The study analyzes the problems existing in current vocational competency assessment，and the feasibility and advantages of using LLM to assess vocational competencies. It then proposes an assessment approach based on LLM and analyzes its key elements. Finally，it verifies the effectiveness of this method by combining practical vocational competency assessment cases. The results show that，compared with traditional assessment methods，the assessment based on LLM achieves automation and accuracy，proving the effectiveness and feasibility of the automatic LLM on LLM. The realization of automated assessment and feedback via large language models is profoundly significant for promoting automation and scientization of vocational education assessment systems，and has extensive application potential in educational practice.

Key words：Vocational Competency Assessment，Large language Models，Vocational Education，Automated Assessment

（責(zé)任編輯：陳暢）

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于大語言模型的高職學(xué)生職業(yè)能力評(píng)估研究