林德力,范玉婷,廖心妍,林葉,林志遠(yuǎn),陳致州
(閩江師范高等??茖W(xué)校,福建福州 350108)
高等職業(yè)學(xué)校人才培養(yǎng)工作狀態(tài)數(shù)據(jù)采集與管理平臺(2022版)(以下簡稱數(shù)據(jù)平臺)是教育部職業(yè)教育與成人教育司根據(jù)我國職業(yè)教育發(fā)展的新特點,基于高等職業(yè)學(xué)校合格性評估基本統(tǒng)計要求開發(fā)的全新數(shù)據(jù)采集與管理平臺?!皵?shù)據(jù)平臺”基于“基礎(chǔ)數(shù)據(jù)+專項數(shù)據(jù)”的采集架構(gòu)進(jìn)行設(shè)計,指標(biāo)文件達(dá)54個,包含涉及專業(yè)、課程、教師、學(xué)生和合作單位的18張基礎(chǔ)數(shù)據(jù)表和涉及教學(xué)運行、頂崗實習(xí)、教材建設(shè)等的48張教學(xué)專項數(shù)據(jù)表,合計64張數(shù)據(jù)采集表,數(shù)以千計的采集字段。在實施2021—2022學(xué)年“數(shù)據(jù)平臺”數(shù)據(jù)采集過程中,采用傳統(tǒng)的數(shù)據(jù)采集和管理方式,各級人員需要應(yīng)對的系統(tǒng)問答服務(wù)繁多,疲于應(yīng)付各種重復(fù)性和個性化的問題。基于自然語言處理(NLP)任務(wù)開發(fā)的應(yīng)用產(chǎn)品ChatGPT的成功推出,為高等職業(yè)學(xué)校人才培養(yǎng)工作狀態(tài)數(shù)據(jù)采集與管理平臺建設(shè)專業(yè)領(lǐng)域的問答系統(tǒng)(以下簡稱“問答系統(tǒng)”)提供了技術(shù)支持手段。
20世紀(jì)60年代,信息科學(xué)領(lǐng)域提出以自然語言對話形式處理信息的問答系統(tǒng)理論雛形。經(jīng)過近40年的研究開發(fā),國內(nèi)外一些知名IT企業(yè)開發(fā)的語音助手或“問答系統(tǒng)”進(jìn)入商用領(lǐng)域,開始基于NLP的多方向應(yīng)用研究,其中AI問答系統(tǒng)就是其應(yīng)用新方向之一。人們對于“問答系統(tǒng)”智能化的追求在不斷提升,2022年11月30日,ChatGPT作為人工智能技術(shù)的一項研究成果,推出后快速火遍全球[1-2],引發(fā)人們對AI “問答系統(tǒng)”新一輪探索熱潮。各大AI研究應(yīng)用廠家紛紛響應(yīng)熱點,推出或者即將推出類似產(chǎn)品(如表1所示),促進(jìn)AI “問答系統(tǒng)”深入發(fā)展。
表1 國內(nèi)外AI “問答系統(tǒng)”現(xiàn)狀[3-5]
在AI“問答系統(tǒng)”領(lǐng)域,國外對于該領(lǐng)域的技術(shù)研發(fā)領(lǐng)先于國內(nèi)相同領(lǐng)域的進(jìn)度,其主要原因是對于該領(lǐng)域的研究技術(shù)發(fā)展方向的研判和抉擇,國內(nèi)聚焦于以Bert為代表的“雙向語言模型預(yù)訓(xùn)練+應(yīng)用Finetuning”模式研究[6],該模式目前并未有實質(zhì)性的轉(zhuǎn)變;以GPT 3.0為代表的“自回歸語言模型+Prompting”模式引領(lǐng)行業(yè)發(fā)展。國內(nèi)AI“問答系統(tǒng)”研發(fā)處于優(yōu)勢地位的主要是百度公司的“文心一言”AI“問答系統(tǒng)”,該系統(tǒng)已于2023年3月16日正式發(fā)布,且處于內(nèi)測階段,其成果可以與ChatGPT3.0效果媲美。
ChatGPT是NLP研究的重要領(lǐng)域,是作為對話構(gòu)建的大型語言模型(LLM)在人工智能技術(shù)領(lǐng)域成功應(yīng)用的產(chǎn)品,是強(qiáng)化學(xué)習(xí)和預(yù)訓(xùn)練模型巧妙結(jié)合的重要突破。在ChatGPT對話框中,嘗試驗證其對數(shù)據(jù)平臺認(rèn)知和邏輯的問答,由于其缺乏領(lǐng)域知識,導(dǎo)致其未能真實反映該平臺的數(shù)據(jù)信息認(rèn)知,證明在國內(nèi)的專屬領(lǐng)域,專業(yè)數(shù)據(jù)系統(tǒng)的數(shù)據(jù)是無法被商業(yè)化AI產(chǎn)品所獲得并應(yīng)用與分析的。因此,面對行業(yè)領(lǐng)域獨有的問題,構(gòu)建基于GPT模式的LLM模型問答系統(tǒng)是解決行業(yè)專業(yè)數(shù)據(jù)系統(tǒng)問答服務(wù)的有效途徑[7]。
“數(shù)據(jù)平臺”擁有全國各省份高職高專院校歷年采集的數(shù)據(jù)信息,涉及學(xué)校綜合信息、師資隊伍、學(xué)生情況、專業(yè)辦學(xué)、產(chǎn)教融合五個方面數(shù)據(jù)指標(biāo)。但是這些數(shù)據(jù)信息是特定字段下的數(shù)字,并未被二次學(xué)習(xí)、加工。基于對數(shù)據(jù)提取的需求,需要構(gòu)建一個能夠具備強(qiáng)大自主學(xué)習(xí)能力的數(shù)據(jù)模型,從中學(xué)習(xí)政策文件對數(shù)據(jù)邏輯關(guān)系的指導(dǎo)、數(shù)據(jù)采集字段之間的邏輯管理,而此過程不需要人為介入。經(jīng)過ChatGPT的驗證,LLM模型具備滿足以上需求的特征屬性(見圖1)。
圖1 LLM大型語言模型
同時,基于LLM模型,其能夠解決NLP中的任何子領(lǐng)域問題?!皵?shù)據(jù)平臺”統(tǒng)計字段和數(shù)據(jù)全部為基于文本的信息,屬于NLP中的一類,因此,LLM模型能夠勝任系統(tǒng)問答服務(wù)。LLM可以從“數(shù)據(jù)平臺”的文本信息中學(xué)習(xí)大量語言類知識,該類知識有助于LLM理解人類的自然語言體系。基于LLM對人類語言體系的理解,再構(gòu)建基于GPT模式的LLM模型問答系統(tǒng),就可以實現(xiàn)用人類習(xí)慣的表達(dá)方式(接口層的輸入信息)搜索信息或解決某個具體問題。
基于公開可查詢的ChatGPT訓(xùn)練過程可知[8],建立一個基于GPT模式的LLM模型,需要經(jīng)歷三個學(xué)習(xí)過程,主要分為訓(xùn)練監(jiān)督策略模型、訓(xùn)練獎勵模型和利用PPO算法微調(diào)SFT模型(見圖2),促使該領(lǐng)域采集的所有數(shù)據(jù)賦予LLM,使其自我學(xué)習(xí)更多數(shù)據(jù)關(guān)聯(lián)邏輯知識,就可以為解決領(lǐng)域獨有的問題創(chuàng)造條件。
圖2 基于GPT模式的LLM模型問答系統(tǒng)構(gòu)建
2.2.1 訓(xùn)練監(jiān)督策略模型的建立
“數(shù)據(jù)平臺”擁有大量的原始數(shù)據(jù),這些數(shù)據(jù)本身不具備理解人類不同類型指令的能力。GPT模式是一種新型的預(yù)訓(xùn)練語言模型,其可以在大量文本數(shù)據(jù)上訓(xùn)練出高質(zhì)量的語言表示。因此,訓(xùn)練監(jiān)督策略模型的建立用于解決NLP中的第一個環(huán)節(jié),該環(huán)節(jié)需要通過以下三個步驟完成。
(1)準(zhǔn)備訓(xùn)練數(shù)據(jù):需要向模型輸入大量的院校段數(shù)據(jù),作為訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)包含輸入文本和標(biāo)簽,以及相關(guān)的上下文信息。
(2)預(yù)訓(xùn)練模型:將輸入的院校數(shù)據(jù)作為基礎(chǔ),在數(shù)據(jù)集中隨機(jī)抽取問題,作為訓(xùn)練模型,由“數(shù)據(jù)平臺”標(biāo)注人員給出高質(zhì)量答案,進(jìn)行指示學(xué)習(xí)(Instruction Learning)。
(3)訓(xùn)練監(jiān)督策略模型:使用預(yù)訓(xùn)練好的模型,訓(xùn)練一個監(jiān)督策略模型,以獲得標(biāo)注好的數(shù)據(jù)來微調(diào)模型,獲得LM模型。
2.2.2 訓(xùn)練獎勵模型
基于訓(xùn)練監(jiān)督策略建立的LM模型進(jìn)行文本標(biāo)注。在[x=[prompt,模型回答],y=人類滿意度]構(gòu)成的標(biāo)注語料上微調(diào),“數(shù)據(jù)平臺”標(biāo)注人員的任務(wù)是對初始語言模型生成的文本進(jìn)行正確回答,生成符合政策和行業(yè)規(guī)則的答案,通過人工反饋的強(qiáng)化學(xué)習(xí)(RLHF)指導(dǎo)模型訓(xùn)練[9](見圖3)。把復(fù)雜問題拆解成子問題或子步驟,并產(chǎn)生一個由子步驟構(gòu)成的類似程序流程圖的結(jié)構(gòu)。最終,這些不同的結(jié)果會通過某種歸一化的方式變成標(biāo)量信號(即point-wise),傳遞給模型訓(xùn)練,經(jīng)過訓(xùn)練,形成一個獎勵模型。
圖3 “人工標(biāo)注數(shù)據(jù)+強(qiáng)化學(xué)習(xí)”(RLHF)
至此,系統(tǒng)建立了一個初始的語言模型來生成文本,用獎勵模型判斷模型生成的文本是否符合政策文件對“數(shù)據(jù)平臺”問題的解釋。
2.2.3 利用PPO算法強(qiáng)化學(xué)習(xí)SFT模型
PPO算法的核心思路是將Policy Gradient中Onpolicy的訓(xùn)練過程轉(zhuǎn)化為Off-policy,利用第二階段訓(xùn)練獎勵模型數(shù)據(jù)集,隨機(jī)抽取問題,利用PPO算法生成回答,是在線學(xué)習(xí)轉(zhuǎn)變?yōu)殡x線學(xué)習(xí)的過程,將這稱為Importance Sampling。
由此產(chǎn)生策略梯度,通過強(qiáng)化學(xué)習(xí)的方式以更新模型參數(shù)。由此不斷重復(fù)第二階段和第三階段,通過迭代,訓(xùn)練出更高質(zhì)量的基于GPT模式的LLM模型。
2022年9 月至11月,“數(shù)據(jù)平臺”進(jìn)行新版第一次全國高職高專院校數(shù)據(jù)采集。期間組織方通過QQ群、QQ在線文檔和系統(tǒng)自帶的“問題與建議”欄目收集、回復(fù)相關(guān)問答信息,其中包含登錄、數(shù)據(jù)接收和同步,填報頁面(業(yè)務(wù)),安裝部署升級,用戶管理,權(quán)限維護(hù),角色維護(hù)六個方面的問答數(shù)據(jù)信息。基于GPT模式的LLM模型問答系統(tǒng)構(gòu)建步驟,其已經(jīng)基本完成訓(xùn)練監(jiān)督策略模型建立中大量原始數(shù)據(jù)的收集。
建立訓(xùn)練監(jiān)督策略模型,需要對原始數(shù)據(jù)進(jìn)行標(biāo)記,對標(biāo)記數(shù)據(jù)給出符合政策和行業(yè)規(guī)則的高質(zhì)量答案,并進(jìn)行指示學(xué)習(xí),訓(xùn)練好一個監(jiān)督策略模型,以獲得標(biāo)注好的數(shù)據(jù)來微調(diào)模型,獲得LM模型。
基于訓(xùn)練監(jiān)督策略建立的LM模型進(jìn)行文本標(biāo)注,通過人工反饋的強(qiáng)化學(xué)習(xí)(RLHF)來指導(dǎo)模型的訓(xùn)練,形成一個獎勵模型。該模型的生成需要在次年的數(shù)據(jù)平臺數(shù)據(jù)采集時進(jìn)行,其原因在于基于 RLHF 范式訓(xùn)練模型不僅需要大量人工標(biāo)注,且RLHF 性能最終取決于標(biāo)注人員的知識水平。因此,需要平臺設(shè)計人員和參與數(shù)據(jù)統(tǒng)計的各院校都參與該模型的訓(xùn)練,集各方專業(yè)認(rèn)知和國家法規(guī),做出正確的答案。
在基于 RLHF 范式訓(xùn)練模型時,需要建立模型的推理能力。采用思維鏈(Chain of Thought)Prompting,其是典型的增強(qiáng)LLM推理能力的技術(shù),能大幅提升此類任務(wù)的完成效果[10]。根據(jù)數(shù)據(jù)邏輯關(guān)系,研究認(rèn)為平臺需要建立的思維鏈主要涉及以下五個方面。
在專業(yè)設(shè)置中,職業(yè)院校的專業(yè)培養(yǎng)方式包含普通班、現(xiàn)代學(xué)徒制、新型學(xué)徒制、現(xiàn)代職教體系、訂單班等多種類別的培養(yǎng)方式,其對應(yīng)的生源類型來源多元化,與學(xué)生來源信息形成互關(guān)邏輯聯(lián)系??己嘶趯I(yè)建設(shè)成果,建立專業(yè)群建設(shè)信息。對于本科職業(yè)教育院校,考核本科層次職業(yè)教育專業(yè)的數(shù)量不超過學(xué)校專業(yè)總數(shù)的30%。在新設(shè)專業(yè)上,按照要求,應(yīng)有相關(guān)行業(yè)企業(yè)參與建設(shè),與合作企業(yè)建設(shè)信息形成互關(guān)邏輯聯(lián)系。
在專業(yè)課程建設(shè)方面,包含公共基礎(chǔ)課程、專業(yè)(技能)課程、社會實踐和專題講座(活動)四個方面(見圖4)。核定每個專業(yè)課程設(shè)置中總學(xué)時是否大于等于2 500學(xué)時,其中實踐性教學(xué)學(xué)時是否大于等于1 250學(xué)時;每學(xué)年教學(xué)安排是否滿40周,且安排總頂崗實習(xí)時間是否大于等于6個月;公共基礎(chǔ)課程學(xué)時是否大于等于625學(xué)時,其中選修課程學(xué)時是否大于等于250學(xué)時,勞模精神、勞動精神、工匠精神專題教育每學(xué)年安排課時是否大于等于16學(xué)時,思想政治課程設(shè)置學(xué)分是否達(dá)到8學(xué)分;是否包含6~8門專業(yè)核心課程及若干門專業(yè)課程[11]。對于專業(yè)課程選用教材,重點考核該教材是否執(zhí)行了教材每3年修訂1次的政策;專業(yè)建設(shè)中是否引進(jìn)國際先進(jìn)的課程設(shè)計和教學(xué)管理體系[12]。
圖4 專業(yè)課程建設(shè)信息
基于專業(yè)課程設(shè)置的課程類型分類,將教師分為公共課教師和專業(yè)課教師(見圖5)。兩大類型教師按照來源又可分為校內(nèi)教師和校外教師。校內(nèi)教師由校內(nèi)專業(yè)教師和校內(nèi)兼課教師組成;校外教師由行業(yè)導(dǎo)師、校外兼課教師和外籍教師構(gòu)成。其中行業(yè)導(dǎo)師來源相對較廣,包括專業(yè)技術(shù)人員、高技能人才、能工巧匠、非物質(zhì)文化遺產(chǎn)傳承人等,是承擔(dān)專業(yè)建設(shè)的中堅力量之一。
圖5 師資力量建設(shè)
對于校內(nèi)專業(yè)教師,主要從教師接受的繼續(xù)教育、一線實踐、科研業(yè)績等7個方面進(jìn)行考核(見圖6)。專業(yè)教師考核的硬指標(biāo)包含:教師資格證書和國家職業(yè)技能等級證書獲取情況,5年內(nèi)企業(yè)實踐情況;“雙師型”教師占專業(yè)課教師總數(shù)比例;新任專業(yè)教師是否具備3年以上企業(yè)工作經(jīng)歷并符合相應(yīng)學(xué)歷要求;新任教師是否執(zhí)行1年的教育見習(xí)和3年的企業(yè)實踐制度[13];適應(yīng)“雙崗”需要的教師占專業(yè)課教師總數(shù)比例。對于公共課程教師,其考核硬指標(biāo)包含專職思政課教師崗位和專任輔導(dǎo)員師生比。對于行業(yè)導(dǎo)師,注重對其來源屬性與資質(zhì)考核。在來源屬性上,行業(yè)導(dǎo)師需要是來自對口專業(yè)的技術(shù)人員、高技能人才、能工巧匠、非物質(zhì)文化遺產(chǎn)傳承人等;在資質(zhì)考核上,行業(yè)導(dǎo)師應(yīng)該經(jīng)過職業(yè)學(xué)校相關(guān)部門相應(yīng)崗位任職條件考核認(rèn)定才可以上崗。
圖6 校內(nèi)專任教師考核指標(biāo)
在學(xué)生信息中,高等職業(yè)學(xué)校學(xué)生生源構(gòu)成由原先相對單一的高中畢業(yè)生轉(zhuǎn)變?yōu)槎嘣纳矗瑢崿F(xiàn)了職業(yè)教育與國家教育改革方向和一線產(chǎn)業(yè)需求步調(diào)一致。
高等職業(yè)學(xué)校全日制學(xué)生招錄包含基于高考直接招生、基于高考的“知識+技能”招生等11種方式(見圖7),招生對象包括高中應(yīng)屆畢業(yè)生、高中往屆畢業(yè)生、“三校生”、外國僑民等13類身份類型的人員。13類的生源類型又形成了包含普通高職教育、現(xiàn)代學(xué)徒制等6類培養(yǎng)方式,滿足企業(yè)對于多元化人才的需求。對于本科職業(yè)教育院校,考核本科層次職業(yè)教育專業(yè)學(xué)生總數(shù)不超過學(xué)校在校生總數(shù)的30%[14]。
圖7 高職學(xué)校全日制學(xué)生來源
高等職業(yè)學(xué)校非全日制繼續(xù)教育學(xué)生來源包含企業(yè)職(員)工、農(nóng)村人員、軍人、城鎮(zhèn)居民、特殊群體人員5大類18個細(xì)項[12](見圖8)??梢蚤_展企業(yè)職工技能培訓(xùn)、農(nóng)業(yè)技能培訓(xùn)等各類培訓(xùn),其囊括“雨露計劃”“技能脫貧千校行動”“求學(xué)圓夢計劃”等多項國家級就業(yè)扶持政策,具備可持續(xù)、多元化的資金支持,對職業(yè)院校服務(wù)社會、開展非全日制繼續(xù)教育提供源源不斷的動力,實現(xiàn)優(yōu)質(zhì)職業(yè)學(xué)校年培訓(xùn)人次達(dá)到在校生規(guī)模的2倍以上[12]。
圖8 高職學(xué)校非全日制繼續(xù)教育學(xué)生來源
行業(yè)導(dǎo)師建設(shè)包含企業(yè)向?qū)W校輸入的工程技術(shù)和管理人才。開展全日制和非全日制繼續(xù)教育培訓(xùn)教學(xué),其中在開展繼續(xù)教育培訓(xùn)、考核培訓(xùn)師資質(zhì)方面,要求教師來自行業(yè)企業(yè)專家的比例不低于40%;考核來自合作企業(yè)的行業(yè)教師,要求具有高級專業(yè)技術(shù)職稱的人員數(shù)量不低于高校專職教師的數(shù)量,以達(dá)到教育部關(guān)于校外教師占校內(nèi)專任教師總數(shù)比例不高于25%的要求(見圖9)。實訓(xùn)(踐)建設(shè)包含教師和在校學(xué)生參與的教育見習(xí)、企業(yè)實踐和基地建設(shè)三個部分。在實踐基地建設(shè)方面,考核接收實習(xí)生企業(yè)與學(xué)校合作期限信息,崗位實習(xí)學(xué)生的人數(shù)在實習(xí)單位在崗職工總數(shù)、同類崗位在崗職工總?cè)藬?shù)中的占比,企業(yè)支付崗位實習(xí)學(xué)生工資標(biāo)準(zhǔn)的落實情況;在專業(yè)建設(shè)方面,按照要求考核相關(guān)行業(yè)企業(yè)參與新設(shè)專業(yè)建設(shè)情況,包含專業(yè)規(guī)劃、專業(yè)教材和課程開發(fā)、教學(xué)設(shè)計、參與指導(dǎo)或組織技能競賽和訂單培養(yǎng);在專業(yè)的科研共建方面,考核企業(yè)與專業(yè)共同申報的科技成果、簽訂的技術(shù)服務(wù)合同信息;在企業(yè)在學(xué)校發(fā)展建設(shè)中的作用方面,考核其對學(xué)生的資助情況,主要考核設(shè)立獎學(xué)金和儀器設(shè)備捐助信息(見圖9)。
圖9 合作企業(yè)建設(shè)
按照教育部對高等職業(yè)院校辦學(xué)條件評估指標(biāo)信息,進(jìn)行辦學(xué)硬件指標(biāo)方面的考核(見圖10),涉及占地面積、教學(xué)科研及輔助用房、行政用房和學(xué)生宿舍面積、圖書資源、固定資產(chǎn)價值、財政收支等內(nèi)容。職業(yè)教育新理念踐行統(tǒng)計指標(biāo)主要包括書記校長走訪信息、優(yōu)秀案例表和學(xué)校輿情信息、學(xué)校獲獎信息、世賽基地、職業(yè)院?!耙M(jìn)來”“走出去”情況、學(xué)校宣傳等11項統(tǒng)計數(shù)據(jù)(見圖10)。涉及校企合作中促就業(yè)、人才培養(yǎng)、專業(yè)建設(shè)、校園安全和實驗室安全管理、學(xué)校輿情管理、學(xué)校對外開展的繼續(xù)教育與培訓(xùn)等相關(guān)數(shù)據(jù),構(gòu)成學(xué)校踐行職業(yè)教育發(fā)展成果數(shù)字畫像。
圖10 學(xué)校綜合數(shù)據(jù)信息
基于GPT模式的LLM模型開展高等職業(yè)學(xué)校人才培養(yǎng)工作狀態(tài)數(shù)據(jù)采集與管理平臺問答系統(tǒng)模型建設(shè),是高等職業(yè)教育數(shù)據(jù)統(tǒng)計系統(tǒng)與人工智能結(jié)合的一次嘗試,是教育系統(tǒng)結(jié)合信息技術(shù)變革的一次跨越?;谌斯ぶ悄芗夹g(shù)的發(fā)展趨勢,其必將成為數(shù)據(jù)統(tǒng)計的高效助理,完成大量重復(fù)性勞作。系統(tǒng)的使用者能更有效地開展基于此項功能的數(shù)據(jù)填報和統(tǒng)計,系統(tǒng)的設(shè)計者將更有效地開展系統(tǒng)開發(fā)和邏輯設(shè)計。結(jié)合大數(shù)據(jù)發(fā)掘,進(jìn)行全域數(shù)據(jù)資源開發(fā)和利用,為高等職業(yè)教育發(fā)展提供新動力。
創(chuàng)新創(chuàng)業(yè)理論研究與實踐2023年16期