摘要:通過對(duì)ChatGPT等大語言模型的發(fā)展及其存在問題的梳理,如AI“幻覺”,探討了自我調(diào)節(jié)學(xué)習(xí)(Self-Regulated Learning, SRL)理論與大語言模型(LLM)自我糾錯(cuò)技術(shù)在國際中文教育中的應(yīng)用。對(duì)基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)作為優(yōu)化模型交互表現(xiàn)的方法進(jìn)行分析,指出其依賴人類指導(dǎo)和自我調(diào)節(jié)能力不足的問題,回顧自我調(diào)節(jié)學(xué)習(xí)理論的發(fā)展歷程,討論了該理論在智慧學(xué)習(xí)環(huán)境中的應(yīng)用前景。以SRL理論為核心,提出了基于SRL的LLM自我糾錯(cuò)新技術(shù)框架路徑,討論了LLM自我糾錯(cuò)路徑在國際中文教育中的應(yīng)用,包括自我監(jiān)督與對(duì)比學(xué)習(xí)、元認(rèn)知分析、對(duì)學(xué)習(xí)者的個(gè)性化糾錯(cuò)與輔導(dǎo)等方面。通過將SRL理論與LLM自我糾錯(cuò)技術(shù)相結(jié)合,為LLM自我糾錯(cuò)提供理論框架指導(dǎo),促進(jìn)ChatGPT深度融入國際中文教育。
關(guān)鍵詞:自我調(diào)節(jié)學(xué)習(xí);LLM;人機(jī)交互;國際中文教育;ChatGPT
中圖分類號(hào):H195;G434" " "文獻(xiàn)標(biāo)識(shí)碼:" A" " " 文章編號(hào):2095-7734(2024)04-0116-09
一、引言
2022年ChatGPT的問世標(biāo)志著人工智能技術(shù)領(lǐng)域取得了又一次重大飛躍,它展現(xiàn)了強(qiáng)大的文本生成與理解能力,但也暴露出一個(gè)核心問題:目標(biāo)性輸入與隨機(jī)性輸出的非一致性,即AI“幻覺”。與此同時(shí),基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)作為ChatGPT等大語言模型的關(guān)鍵訓(xùn)練機(jī)制,借鑒了行為主義心理學(xué)中的正負(fù)反饋原則來優(yōu)化AI的交互表現(xiàn),對(duì)于提高交流質(zhì)量、減少AI的非理性推斷,以及快速適應(yīng)新興在線學(xué)習(xí)場景具有重要價(jià)值。然而,這一過程仍舊高度依賴于人類的指導(dǎo),AI雖能基于海量數(shù)據(jù)自我優(yōu)化,但在無外部引導(dǎo)下的自我調(diào)節(jié)能力仍顯不足,從而引發(fā)了關(guān)于學(xué)習(xí)主體自主性與外部引導(dǎo)機(jī)制之間關(guān)系的討論。
" 不同于行為主義理論,自我調(diào)節(jié)學(xué)習(xí)理論(SRL)基于社會(huì)認(rèn)知理論構(gòu)建,主張學(xué)習(xí)目標(biāo)與個(gè)體內(nèi)部動(dòng)機(jī)并重,旨在培養(yǎng)學(xué)習(xí)者的主動(dòng)性和策略性學(xué)習(xí)習(xí)慣。遺憾的是,當(dāng)前大語言模型在處理幻覺問題時(shí),缺乏高效的自我監(jiān)測機(jī)制、動(dòng)態(tài)適應(yīng)的學(xué)習(xí)策略,以及深層次的認(rèn)知反思能力,這限制了其在教育等垂直領(lǐng)域的應(yīng)用潛力。隨著大語言模型在教育領(lǐng)域的深度整合與個(gè)性化應(yīng)用落地及AI輔助語言教學(xué)的日益普及,智慧教育正逐步重塑傳統(tǒng)教育的格局,挑戰(zhàn)著既有教學(xué)模式的局限性,催生新的教學(xué)范式變革。
" 鑒于此,本研究聚焦于國際中文教育領(lǐng)域,依托自我調(diào)節(jié)學(xué)習(xí)理論框架,探索在大語言模型時(shí)代下減輕AI“幻覺”影響的技術(shù)途徑,旨在不僅提升AI輔助教學(xué)的精準(zhǔn)度與有效性,同時(shí)也為未來AI在語言教育中的角色定位與功能拓展開辟新的思路與實(shí)踐路徑,以期在技術(shù)創(chuàng)新與教育實(shí)踐的深度融合中推動(dòng)國際中文教育邁向智能化的新紀(jì)元。
二、文獻(xiàn)綜述
(一)自我調(diào)節(jié)學(xué)習(xí)(SRL)理論演變
" 自我調(diào)節(jié)學(xué)習(xí)理論(SRL)源自20世紀(jì)后半葉,強(qiáng)調(diào)學(xué)習(xí)者在學(xué)習(xí)過程中的主動(dòng)性和自主性。[1]早期研究聚焦于個(gè)體如何通過設(shè)定目標(biāo)、監(jiān)控進(jìn)度、部署策略和自我反思來控制學(xué)習(xí)過程。隨著時(shí)間的推進(jìn),SRL理論經(jīng)歷了從Zimmerman模型到Pintrich、Boekaerts和Winne等模型的發(fā)展。[2]Pintrich在其模型中,尤為注重元認(rèn)知和動(dòng)機(jī)的復(fù)雜性,將自我調(diào)節(jié)過程進(jìn)一步細(xì)分,強(qiáng)調(diào)動(dòng)機(jī)信念、目標(biāo)定向、自我效能感等因素對(duì)學(xué)習(xí)行為的影響。[3]Winne從社會(huì)文化理論出發(fā),發(fā)展自我調(diào)節(jié)交互觀。[4]SRL模型發(fā)展過程中的一大特點(diǎn)是強(qiáng)調(diào)自我調(diào)節(jié)學(xué)習(xí)的動(dòng)態(tài)性和發(fā)展性,不同于早期較為靜態(tài)地看待學(xué)習(xí)者的能力和策略,這些研究展示了自我調(diào)節(jié)能力是如何隨時(shí)間發(fā)展,如何在不同情境中變化,以及如何受到情緒、社會(huì)互動(dòng)等多方面因素的影響。[5]
" 隨著技術(shù)的發(fā)展,SRL理論逐漸融入智慧學(xué)習(xí)環(huán)境的應(yīng)用。[6]研究開始探索智慧學(xué)習(xí)環(huán)境如何影響學(xué)習(xí)者的自我調(diào)節(jié)能力,例如MOOC混合式教學(xué)與傳統(tǒng)課堂的比較。[7]智能學(xué)習(xí)環(huán)境為校園內(nèi)外和在線學(xué)生提供了技術(shù)服務(wù),促進(jìn)了學(xué)生與教師以及學(xué)生之間的本地和遠(yuǎn)程互動(dòng)。[8]探索SRL如何在智慧學(xué)習(xí)環(huán)境背景下支持學(xué)習(xí)者發(fā)展思維策略、元認(rèn)知和動(dòng)機(jī)以實(shí)現(xiàn)學(xué)習(xí)目標(biāo),成為了該領(lǐng)域較為重要的研究方向。[9]生成式AI由感知智能向認(rèn)知智能的跨越進(jìn)一步促進(jìn)了SRL的智能化應(yīng)用,使個(gè)性化學(xué)習(xí)路徑設(shè)計(jì)成為可能,生成式AI不僅能夠感知和處理各種形式的信息(如文本、圖像、聲音),還能通過深度學(xué)習(xí)技術(shù)理解和產(chǎn)生具有較高語義復(fù)雜度的內(nèi)容。這正是從感知智能向認(rèn)知智能轉(zhuǎn)變的表現(xiàn),AI增強(qiáng)了學(xué)習(xí)適應(yīng)性與反饋的有效性,并推動(dòng)了學(xué)習(xí)干預(yù)策略的自動(dòng)化實(shí)施。[10]由此可知,SRL理論在智能教育技術(shù)的輔助下,正面臨的數(shù)字化與智能化轉(zhuǎn)型。
(二)生成式AI幻覺的自我糾錯(cuò)機(jī)制
" 大語言模型幻覺,特別是事實(shí)性幻覺,指的是模型在生成內(nèi)容時(shí)可能出現(xiàn)的不準(zhǔn)確或錯(cuò)誤信息的表達(dá)。[11]針對(duì)這一問題,大語言模型的自我糾錯(cuò)技術(shù)應(yīng)運(yùn)而生。具體而言,現(xiàn)有研究主要有以下特點(diǎn):增強(qiáng)模型的自我監(jiān)督學(xué)習(xí)能力,讓模型能夠在生成過程中自我檢測并修正潛在的錯(cuò)誤;[12]集成實(shí)時(shí)的事實(shí)驗(yàn)證系統(tǒng),通過與權(quán)威數(shù)據(jù)庫或知識(shí)圖譜的比對(duì),即時(shí)糾正錯(cuò)誤信息;[13]引入用戶反饋循環(huán),利用用戶的標(biāo)記或評(píng)價(jià)作為額外的學(xué)習(xí)信號(hào),不斷優(yōu)化模型的輸出邏輯和內(nèi)容質(zhì)量,[14]但依然存在理論缺乏、實(shí)踐應(yīng)用有限、跨領(lǐng)域泛化不足等挑戰(zhàn)。
" 綜上所述,自我調(diào)節(jié)學(xué)習(xí)(SRL)雖然在智慧教學(xué)環(huán)境下能有效促進(jìn)學(xué)習(xí)者自我管理與高效學(xué)習(xí)能力的提升,但同時(shí)面臨著如何有效融合人工智能技術(shù)以實(shí)現(xiàn)個(gè)性化學(xué)習(xí)路徑的優(yōu)化挑戰(zhàn)。而生成式AI幻覺的自我糾錯(cuò)機(jī)制由于技術(shù)成熟度與數(shù)據(jù)依賴性的問題,也面臨準(zhǔn)確性與效率之間的平衡、用戶信任度建立等挑戰(zhàn)。二者相互影響,共同構(gòu)成了未來教育技術(shù)發(fā)展的核心議題,為教育創(chuàng)新與智能化轉(zhuǎn)型開辟新徑。深化SRL與AI技術(shù)的整合策略,不僅能夠拓展SRL理論的應(yīng)用邊界,還能夠?yàn)锳I幻覺自我糾錯(cuò)技術(shù)提供新穎的理論視角?;诖?,本研究擬提出以下三個(gè)研究問題:
(1)自我調(diào)節(jié)學(xué)習(xí)理論與大語言模型自我糾錯(cuò)技術(shù)有何共性?
(2)怎樣結(jié)合SRL原理,優(yōu)化大語言模型的自我監(jiān)督學(xué)習(xí)機(jī)制,減少生成內(nèi)容的錯(cuò)誤率?
(3)如何在智慧學(xué)習(xí)環(huán)境中構(gòu)建基于自我調(diào)節(jié)學(xué)習(xí)理論的大語言模型自我糾錯(cuò)技術(shù)路徑?
三、LLM糾錯(cuò)技術(shù)的自我性
" 人工智能作為學(xué)習(xí)與適應(yīng)的綜合體,通過模擬人類的自我反思和調(diào)整機(jī)制,目前正處于從被動(dòng)反應(yīng)到主動(dòng)學(xué)習(xí),從依賴人工指導(dǎo)到實(shí)現(xiàn)自我調(diào)節(jié)的新發(fā)展階段。[15]這一轉(zhuǎn)變不僅標(biāo)志著技術(shù)的進(jìn)步,更是向自主性和高效性的一大邁進(jìn),預(yù)示著AI系統(tǒng)能夠自我優(yōu)化并適應(yīng)復(fù)雜多變的環(huán)境。與此同時(shí),技術(shù)如何逐步推動(dòng)模型的自動(dòng)化與智能化水平提升,關(guān)鍵在于融合自我調(diào)節(jié)學(xué)習(xí)策略,以及不斷優(yōu)化的算法支持和大數(shù)據(jù)的高效利用。在此基礎(chǔ)上,建立一套能夠促進(jìn)AI自我進(jìn)化、自我糾錯(cuò)的機(jī)制,成為了推動(dòng)AI教育應(yīng)用深度發(fā)展的核心。通過持續(xù)監(jiān)測學(xué)習(xí)成效、靈活調(diào)整學(xué)習(xí)策略,并結(jié)合情境理解與情感感知能力,AI系統(tǒng)正逐步逼近能夠提供更加人性化、精準(zhǔn)教育輔導(dǎo)的目標(biāo)。
(一)理論層面人工智能理論演變脈絡(luò)
" “符號(hào)主義”與“聯(lián)結(jié)主義”的根本分歧凸顯了語言學(xué)習(xí)與智能理解問題的理論基礎(chǔ)差異,也標(biāo)示了大語言模型(Large Language Models, LLMs)邁向通用人工智能(Artificial General Intelligence,AGI)發(fā)展路徑上的核心爭議。[16]前者基于規(guī)則與邏輯推理,強(qiáng)調(diào)符號(hào)操作和明確的知識(shí)表示,以分解和程序化方式解構(gòu)智能,典型代表為專家系統(tǒng);后者則模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與學(xué)習(xí)機(jī)制,側(cè)重?cái)?shù)據(jù)驅(qū)動(dòng)與模式識(shí)別,以分布式、并行處理的連接主義方式模擬智能,典型代表為人工神經(jīng)網(wǎng)絡(luò)(ANN)。[17]而在提升AI學(xué)習(xí)能力的發(fā)展路徑上,尤其是在訓(xùn)練數(shù)據(jù)特征方式的獲取上,前者依賴于手動(dòng)設(shè)計(jì)的特征和規(guī)則集,強(qiáng)調(diào)先驗(yàn)知識(shí)的編碼;后者則通過端到端學(xué)習(xí)直接從原始數(shù)據(jù)中自動(dòng)提取特征,表現(xiàn)出了類似于行為主義的被動(dòng)學(xué)習(xí),即通過大量試錯(cuò)和獎(jiǎng)勵(lì)機(jī)制進(jìn)行優(yōu)化,而非預(yù)先定義行為。[18]因此,如何推動(dòng)被動(dòng)學(xué)習(xí)向主動(dòng)認(rèn)知的轉(zhuǎn)變,成為推動(dòng)現(xiàn)代AI技術(shù),尤其是大語言模型向更高水平發(fā)展的關(guān)鍵所在。
(二)智能化進(jìn)程的自我驅(qū)動(dòng)演變
" 機(jī)器翻譯作為自然語言處理領(lǐng)域的一項(xiàng)基礎(chǔ)應(yīng)用,不僅扮演著溝通不同語言橋梁的角色,而且隨著技術(shù)迭代,它逐漸成為了展示人工智能從規(guī)則驅(qū)動(dòng)向數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)變的典范。統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型,作為這一進(jìn)程的早期推手,諸如線性回歸、邏輯回歸、決策樹以及支持向量機(jī)(SVM)等,通過在數(shù)據(jù)中挖掘統(tǒng)計(jì)規(guī)律和模式,成功應(yīng)用于分類、回歸等任務(wù),為后續(xù)技術(shù)奠定了基礎(chǔ)。[16]盡管這些模型在處理簡單關(guān)系時(shí)表現(xiàn)穩(wěn)健,但在面對(duì)高維度和非線性數(shù)據(jù)時(shí)的局限性凸顯,促使技術(shù)向更高層次的自我調(diào)節(jié)和適應(yīng)性躍進(jìn)。傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的出現(xiàn),尤其是多層感知機(jī)(MLP),[19]標(biāo)志著AI開始嘗試模擬人腦的非線性處理能力,通過多層結(jié)構(gòu)捕捉數(shù)據(jù)中的復(fù)雜關(guān)聯(lián),而柯爾莫哥洛夫-阿諾德網(wǎng)絡(luò)KAN深度架構(gòu)的引入,進(jìn)一步加深了模型的抽象層次,提高了對(duì)復(fù)雜數(shù)據(jù)分布的學(xué)習(xí)能力。盡管如此,它們?cè)谏疃群鸵?guī)模上的擴(kuò)展受限于當(dāng)時(shí)的技術(shù)條件,直到預(yù)訓(xùn)練語言模型(PLM)的興起,如BERT和GPT系列,通過自注意力機(jī)制捕獲上下文依賴,實(shí)現(xiàn)了模型在大規(guī)模數(shù)據(jù)上的自我學(xué)習(xí)與優(yōu)化,這與自我調(diào)節(jié)學(xué)習(xí)理論中的自我監(jiān)控和策略調(diào)整過程不謀而合。[20]LLM通過數(shù)十億乃至數(shù)千億參數(shù)的規(guī)模,進(jìn)一步提升了NLP任務(wù)的完成度,不僅能夠生成內(nèi)容豐富、邏輯連貫的文本,還展現(xiàn)出了一定程度的通用智能,體現(xiàn)了AI系統(tǒng)從依賴外部指令向內(nèi)在驅(qū)動(dòng)、自我優(yōu)化的轉(zhuǎn)變。這一轉(zhuǎn)變與自我調(diào)節(jié)學(xué)習(xí)理論的核心——學(xué)習(xí)者主動(dòng)設(shè)定目標(biāo)、監(jiān)控進(jìn)度、調(diào)整策略和進(jìn)行自我反思的過程相呼應(yīng),兩者均強(qiáng)調(diào)了內(nèi)在動(dòng)力和動(dòng)態(tài)調(diào)整的重要性。
(三)關(guān)鍵技術(shù)的自我強(qiáng)化作用
" 海量數(shù)據(jù)的累積不僅觸發(fā)了大語言模型的涌現(xiàn)效應(yīng),這現(xiàn)象可以視為模型自我性初露端倪的一部分,尤其是在模型訓(xùn)練遵循的scaling law框架下,[12]數(shù)據(jù)量與性能提升之間的非線性關(guān)系,進(jìn)一步強(qiáng)調(diào)了預(yù)訓(xùn)練階段作為自我調(diào)節(jié)學(xué)習(xí)根基的重要性。有限的監(jiān)督微調(diào)策略展示了對(duì)下游任務(wù)的高適應(yīng)性,這是否標(biāo)志著通過微調(diào)有限的監(jiān)督數(shù)據(jù),模型能夠巧妙地?cái)U(kuò)展至無限多變的實(shí)際應(yīng)用情景,是自我性發(fā)展不可或缺的一環(huán)。[21]自注意力機(jī)制,作為大型語言模型(LLM)的核心組件,不僅管理著對(duì)訓(xùn)練數(shù)據(jù)中知識(shí)的高效存儲(chǔ)與訪問,是否也可視作人工智能展示智能特性的關(guān)鍵標(biāo)志,甚至是邁向“自我性”的一步。[22]該機(jī)制允許模型根據(jù)當(dāng)前任務(wù)的即時(shí)需求,在龐大的信息中精準(zhǔn)聚焦,有效應(yīng)對(duì)長期依賴問題,極大地提升了模型在復(fù)雜環(huán)境下的自我調(diào)節(jié)和深入理解語境的能力。
" RLHF(基于人類反饋的強(qiáng)化學(xué)習(xí))機(jī)制的引入,揭示了AI如何通過與人類的互動(dòng)學(xué)習(xí)深化其自我性。[14][23]從交互的維度審視,這一過程涵蓋了人類反饋的精密收集、獎(jiǎng)勵(lì)模型的精心訓(xùn)練以及強(qiáng)化學(xué)習(xí)策略的持續(xù)優(yōu)化。盡管此方法通過正向激勵(lì)促使模型行為更貼近人類預(yù)期,模擬了自我調(diào)節(jié)學(xué)習(xí)中至關(guān)重要的外界反饋,但它也暴露了現(xiàn)有AI訓(xùn)練技術(shù)的局限性——對(duì)AI內(nèi)部認(rèn)知過程的探索尚顯不足。盡管AI可解釋性研究已取得一定進(jìn)展,但在處理LLM訓(xùn)練時(shí),我們?nèi)院鲆暳藢?duì)情感認(rèn)知等抽象層面的深入理解。
(四)自我性與認(rèn)知智能的交融
" 基于統(tǒng)計(jì)學(xué)習(xí)理論的模式匹配技術(shù)側(cè)重于在數(shù)據(jù)中發(fā)現(xiàn)重復(fù)出現(xiàn)的模式,這在計(jì)算智能階段至關(guān)重要。[16]技術(shù)進(jìn)步推動(dòng)了注意力逐漸轉(zhuǎn)向文本統(tǒng)計(jì)特征的深入發(fā)掘,比如信息熵用來衡量文本的不確定性,困惑度評(píng)估模型的預(yù)測難度,以及流暢度確保生成文本的自然度。這些指標(biāo)不僅優(yōu)化了基礎(chǔ)的文本處理任務(wù),也為后續(xù)更復(fù)雜的認(rèn)知層面任務(wù)打下了堅(jiān)實(shí)的基礎(chǔ)。遷移至語言學(xué)領(lǐng)域,研究開始專注于文本的深層語義理解和生成,[17]其中涉及詞匯、句法乃至篇章結(jié)構(gòu)的精妙把握。通過模式識(shí)別與深度學(xué)習(xí)的融合,這些技術(shù)不僅支撐了機(jī)器翻譯的準(zhǔn)確性,提高了文本分類的精確度,還使得命名實(shí)體識(shí)別更為高效,情感分析更加細(xì)膩,均是基于模型表征的遷移學(xué)習(xí)與應(yīng)用的直接體現(xiàn)。
" 認(rèn)知智能的探索進(jìn)一步將焦點(diǎn)擴(kuò)大到了多模態(tài)大語言模型的構(gòu)建,這種框架不僅局限于文本,而是將視覺、聽覺等多種信息渠道整合起來,形成了對(duì)世界更全面的理解方式。[24]這不僅僅意味著模型能處理更多類型的數(shù)據(jù),更重要的是它學(xué)會(huì)了像人類一樣從多個(gè)感官獲取信息并綜合理解。在這一過程中,非言語線索,如說話者的語調(diào)、面部表情,以及文字間隱含的情緒色彩,[13]都成為模型理解情境的重要組成部分,進(jìn)而使得AI的判斷和反應(yīng)更加貼近人類的真實(shí)交流情境。這一發(fā)展路徑最終導(dǎo)向了對(duì)大語言模型自我性與認(rèn)知智能交融的深刻認(rèn)識(shí)。這種跨通道的信息整合能力,要求AI具備更高級(jí)別的自我調(diào)節(jié)和認(rèn)知協(xié)調(diào)機(jī)制,以確保在復(fù)雜多變的交流場景中,能夠靈活、恰當(dāng)?shù)仨憫?yīng),甚至預(yù)測交互伙伴的需求和反應(yīng)。
(五)LLM糾錯(cuò)技術(shù)的自我性
LLM的性能優(yōu)化核心在于系統(tǒng)性地規(guī)避錯(cuò)誤,尤其關(guān)注于跨越文本、圖像、語音乃至視頻等多模態(tài)數(shù)據(jù)處理時(shí)的復(fù)雜錯(cuò)誤形態(tài)。我們從人類認(rèn)知過程中的錯(cuò)誤分析策略汲取靈感,聚焦于生成式文本中的偏差現(xiàn)象,并將其精煉為顯性偏差與隱性偏差兩大維度,作為審視LLM自我糾錯(cuò)機(jī)制的雙重視角。
" 顯性偏差主要顯現(xiàn)在文本生成的直接成果中,諸如由AI幻覺觸發(fā)的信息失真,[25]以及對(duì)抗性文本測試中暴露的語法與拼寫失誤。AI幻覺揭示了輸入-輸出間存在的非決定性沖突,凸顯算法內(nèi)在的隨機(jī)性特征;而對(duì)抗性文本則暴露了外部攻擊者利用模型漏洞,蓄意引導(dǎo)錯(cuò)誤輸出的安全隱患,[26]對(duì)模型穩(wěn)健性構(gòu)成嚴(yán)峻考驗(yàn)。相比之下,隱性偏差,例如AI偏見,在文本及圖像等多個(gè)層面上暗流涌動(dòng),其隱蔽特性大大提升了探測與修正的復(fù)雜度。
" 針對(duì)目前AI偏差類型的響應(yīng)策略呈現(xiàn)出分散性與碎片化狀態(tài),亟需一個(gè)統(tǒng)一且綜合的語言學(xué)和心理學(xué)理論分析框架,以系統(tǒng)化整合各類偏差研究,催化出更精確的糾錯(cuò)技術(shù)發(fā)展。[12]鑒于此,我們深入探索了AI技術(shù)自我進(jìn)化與智能提升的路徑,強(qiáng)調(diào)大語言模型糾錯(cuò)機(jī)制亦需具備更強(qiáng)的自主性與高效進(jìn)化能力。[27]因此,本項(xiàng)研究采納自我調(diào)節(jié)學(xué)習(xí)(Self-Regulated Learning, SRL)理論為核心,旨在構(gòu)筑一個(gè)嚴(yán)謹(jǐn)?shù)腖LM自我糾錯(cuò)技術(shù)架構(gòu)。
" 自我監(jiān)督學(xué)習(xí)(SSL)實(shí)現(xiàn):可以補(bǔ)充在提到AI系統(tǒng)從被動(dòng)反應(yīng)到主動(dòng)學(xué)習(xí)的段落之后,具體描述如何使用未標(biāo)記的大量文本數(shù)據(jù)進(jìn)行自我驗(yàn)證和動(dòng)態(tài)生成正負(fù)樣本對(duì)。
" 對(duì)比學(xué)習(xí)(CL)實(shí)現(xiàn):可以插入在討論模型自我優(yōu)化與適應(yīng)性調(diào)整機(jī)制的段落中,解釋如何通過對(duì)比學(xué)習(xí)方法構(gòu)建正反例學(xué)習(xí)機(jī)制,并優(yōu)化模型生成策略。
" 元認(rèn)知分析與策略調(diào)整:應(yīng)當(dāng)在關(guān)于AI如何監(jiān)測學(xué)習(xí)成效和調(diào)整學(xué)習(xí)策略的段落之后,增加詳細(xì)描述,解釋如何利用元認(rèn)知策略來分析生成錯(cuò)誤的根源并動(dòng)態(tài)調(diào)整模型的生成策略。
動(dòng)態(tài)學(xué)習(xí)策略:補(bǔ)充在“動(dòng)態(tài)調(diào)整與自我優(yōu)化”部分,進(jìn)一步闡明如何通過元學(xué)習(xí)和動(dòng)態(tài)架構(gòu)調(diào)整技術(shù),使模型能夠自動(dòng)調(diào)整學(xué)習(xí)路徑,實(shí)現(xiàn)更有效的自我改進(jìn)。
四、建構(gòu)符號(hào)表征形式下的LLM自我糾錯(cuò)路徑
(一)自我調(diào)節(jié)學(xué)習(xí)的不同階段
" 自我調(diào)節(jié)學(xué)習(xí)是一個(gè)多階段、動(dòng)態(tài)的進(jìn)程,涉及學(xué)習(xí)者在學(xué)習(xí)旅程中的主動(dòng)規(guī)劃、執(zhí)行、監(jiān)控、反思與自我評(píng)價(jià)。[1]具體而言,這一過程可細(xì)分為以下幾個(gè)核心階段:
" 1.目標(biāo)設(shè)定(G):在計(jì)劃階段,學(xué)習(xí)者確立清晰、可度量的學(xué)習(xí)目標(biāo)G,這些目標(biāo)以向量形式展現(xiàn),每個(gè)分量指示不同學(xué)習(xí)維度(如理論知識(shí)、實(shí)踐技能)的期望成就水平,為學(xué)習(xí)活動(dòng)指明方向。[2]
" 2.策略選擇與執(zhí)行(S):緊接著,學(xué)習(xí)者依據(jù)任務(wù)特性和個(gè)人偏好,選取并實(shí)施一組策略S={S1, S2, ..., Sn},每種策略Si針對(duì)特定學(xué)習(xí)挑戰(zhàn),旨在優(yōu)化學(xué)習(xí)路徑與效率。
" 3.監(jiān)控過程與適應(yīng)性調(diào)整(M):在學(xué)習(xí)過程中,持續(xù)的自我監(jiān)控M充當(dāng)了一個(gè)動(dòng)態(tài)調(diào)節(jié)器,基于當(dāng)前學(xué)習(xí)狀態(tài)P(包括認(rèn)知負(fù)擔(dān)、情感體驗(yàn)和學(xué)習(xí)進(jìn)度等)來決定必要的行動(dòng)A,確保學(xué)習(xí)活動(dòng)與既定目標(biāo)保持一致。
4.反思與評(píng)價(jià)(R):反思與評(píng)價(jià)階段是自我調(diào)節(jié)循環(huán)中的關(guān)鍵轉(zhuǎn)折點(diǎn),通過映射學(xué)習(xí)成果O(如測驗(yàn)分?jǐn)?shù)、任務(wù)完成質(zhì)量)到學(xué)習(xí)者從中汲取的經(jīng)驗(yàn)教訓(xùn)L,促進(jìn)認(rèn)知深化與策略優(yōu)化,為下一輪學(xué)習(xí)設(shè)定新的起點(diǎn)。
" 5. 自我效能感的培養(yǎng)與強(qiáng)化(E):自我效能作為自我調(diào)節(jié)的動(dòng)力源泉,以標(biāo)量E衡量,反映了學(xué)習(xí)者對(duì)達(dá)成目標(biāo)信心的強(qiáng)度,對(duì)維持學(xué)習(xí)動(dòng)力、克服挑戰(zhàn)具有決定性影響。[21]整合上述要素,自我調(diào)節(jié)學(xué)習(xí)模型可抽象為一個(gè)緊密相連的流程圖,其中各階段相互作用、循環(huán)迭代:
" G行動(dòng)PE→G'
" 這里,箭頭指示了從目標(biāo)設(shè)定到策略執(zhí)行,再到監(jiān)控調(diào)整、反思總結(jié),并最終回到目標(biāo)調(diào)整的循環(huán)往復(fù)過程,G'代表在反思與新獲取信息的基礎(chǔ)上調(diào)整后的目標(biāo),體現(xiàn)了學(xué)習(xí)者在自我調(diào)節(jié)過程中不斷適應(yīng)、優(yōu)化目標(biāo)的能力。
(二)LLM的自我糾錯(cuò)或自我優(yōu)化過程
" 1.目標(biāo)定義(G): 首先明確模型訓(xùn)練或微調(diào)的目標(biāo),比如提高語義理解的準(zhǔn)確性、增強(qiáng)生成文本的連貫性等,這等同于自我調(diào)節(jié)學(xué)習(xí)中的目標(biāo)設(shè)定。
2.初始化與預(yù)訓(xùn)練(I): 大語言模型通?;诖罅繜o標(biāo)注文本進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)通用的語言結(jié)構(gòu)和模式。這一步可以看作是自我調(diào)節(jié)學(xué)習(xí)開始前的“背景知識(shí)”積累。
" 3.任務(wù)適應(yīng)與微調(diào)(T): 針對(duì)特定NLP任務(wù),模型會(huì)通過微調(diào)過程適應(yīng)新目標(biāo),調(diào)整權(quán)重參數(shù)以最小化特定任務(wù)的損失函數(shù)。此過程可以類比自我調(diào)節(jié)學(xué)習(xí)中的策略選擇與執(zhí)行,即學(xué)習(xí)者根據(jù)任務(wù)需求調(diào)整學(xué)習(xí)策略。[12]
" 4.性能監(jiān)控與調(diào)整(M): 在微調(diào)過程中,通過驗(yàn)證集監(jiān)控模型性能,根據(jù)評(píng)估結(jié)果調(diào)整學(xué)習(xí)率、提前終止訓(xùn)練或采用其他正則化手段,確保模型不會(huì)過擬合且持續(xù)優(yōu)化。這類似于自我調(diào)節(jié)學(xué)習(xí)中的監(jiān)控和策略調(diào)整。
" 5.動(dòng)態(tài)學(xué)習(xí)策略(DLS): 引入元學(xué)習(xí)或動(dòng)態(tài)架構(gòu)調(diào)整等技術(shù),使模型能夠基于過去的學(xué)習(xí)經(jīng)驗(yàn),自動(dòng)調(diào)整學(xué)習(xí)路徑或網(wǎng)絡(luò)結(jié)構(gòu),以更好地應(yīng)對(duì)新任務(wù)。這是自我調(diào)節(jié)中自我反思與策略優(yōu)化的體現(xiàn)。
" 6.反饋循環(huán)與迭代(F): 成功的自我糾錯(cuò)依賴于有效的反饋機(jī)制。模型通過多次迭代,利用來自測試集或在線反饋的信息不斷優(yōu)化自身,形成一個(gè)持續(xù)的自我改進(jìn)循環(huán)。[23]
I→T(,G)" ″…
五、基于SRL的LLM自我糾錯(cuò)新技術(shù)框架路徑
" 從自我調(diào)節(jié)學(xué)習(xí)(SRL)到大語言模型(LLM)的自我糾錯(cuò)技術(shù)的過渡,實(shí)現(xiàn)了學(xué)習(xí)理論與人工智能技術(shù)的有效融合。這一過程包括:
" (1)目標(biāo)設(shè)定轉(zhuǎn)化為LLM訓(xùn)練中的目標(biāo)定義,即從設(shè)定明確的學(xué)習(xí)目標(biāo)轉(zhuǎn)變?yōu)樵O(shè)定明確的優(yōu)化目標(biāo);(2)策略選擇與執(zhí)行映射為LLM的初始化與預(yù)訓(xùn)練過程,通過構(gòu)建基礎(chǔ)語言理解能力來模擬學(xué)習(xí)者選擇合適學(xué)習(xí)方法的行為;(3)監(jiān)控過程與適應(yīng)性調(diào)整對(duì)應(yīng)于LLM的任務(wù)適應(yīng)與微調(diào),確保模型能夠針對(duì)特定任務(wù)進(jìn)行調(diào)整;(4)反思與評(píng)價(jià)環(huán)節(jié)轉(zhuǎn)化為LLM的性能監(jiān)控與調(diào)整,通過對(duì)模型性能的評(píng)估來不斷優(yōu)化其參數(shù)。通過上述映射,SRL的核心指導(dǎo)理論將應(yīng)用于LLM的自我糾錯(cuò)技術(shù)中,構(gòu)建出一套完整的自我優(yōu)化流程。
(一)錯(cuò)誤檢測與初步分類(E→C)
LLM運(yùn)用自我監(jiān)督學(xué)習(xí)(SSL)與對(duì)比學(xué)習(xí)(CL)技術(shù),自動(dòng)識(shí)別生成文本中的錯(cuò)誤,形成初步分類。[15]這涵蓋語法錯(cuò)誤ge、邏輯不一致性li以及事實(shí)謬誤fm等,數(shù)學(xué)表示為E={ge,li,fm,...},并轉(zhuǎn)化為糾正需求C。
(二)元認(rèn)知分析與錯(cuò)誤根源定位(C→A)
" 采用元認(rèn)知策略,LLM進(jìn)行深入的自我分析,歸因錯(cuò)誤產(chǎn)生之源,包括數(shù)據(jù)偏斜db、算法缺陷ad或任務(wù)理解不足tu等,A={db,ad,tu,...}。這一過程類似于學(xué)習(xí)者進(jìn)行深度自我反思,數(shù)學(xué)表達(dá)為C→元認(rèn)知分析→A
(三)策略性調(diào)整與優(yōu)化路徑(A→S′)
" 基于錯(cuò)誤根源分析,模型動(dòng)態(tài)調(diào)整其內(nèi)部參數(shù)p和生成策略s,形成優(yōu)化后的策略集合S′,即S′=(p′, s′),反映了學(xué)習(xí)者遭遇障礙時(shí)策略變更的邏輯,A→策略調(diào)整→S′。
(四)效果驗(yàn)證、反饋整合與閉環(huán)優(yōu)化(S′→F→E′)
" 此階段集成用戶反饋uf與實(shí)時(shí)事實(shí)驗(yàn)證vf,形成綜合反饋F=uf∪vf,用于驗(yàn)證糾正效果并作為新的學(xué)習(xí)信號(hào)。[28]模型通過F對(duì)糾正策略的效果進(jìn)行評(píng)估E′,形成S′→效果驗(yàn)證E′的反饋回路。這不僅閉合了自我優(yōu)化的循環(huán)E→C→A→S′→F→E′,還促進(jìn)了模型的持續(xù)進(jìn)化,體現(xiàn)了SRL中的自我評(píng)估與調(diào)整?;谏鲜隽鞒堂枋觯覀兛梢杂靡粋€(gè)概括性的公式來表示整個(gè)自我糾錯(cuò)機(jī)制的流程:
E0CAS' F→E1 …
" 在這個(gè)公式中:
·E0代表初始錯(cuò)誤檢測階段,模型識(shí)別并分類錯(cuò)誤;
·C是錯(cuò)誤歸因過程,通過元認(rèn)知分析確定錯(cuò)誤根源;
·A表示錯(cuò)誤歸因分析得出的具體原因;
·S′為根據(jù)歸因分析調(diào)整后的優(yōu)化策略;
·F代表反饋循環(huán),包括用戶反饋與實(shí)時(shí)事實(shí)驗(yàn)證的整合,作為新的學(xué)習(xí)信號(hào);
·E1表示經(jīng)過一次糾錯(cuò)循環(huán)后的錯(cuò)誤狀態(tài),理論上應(yīng)優(yōu)于E0E0;
·迭代符號(hào)(...\)表示這一過程是循環(huán)往復(fù)的,每次迭代都在前一次的基礎(chǔ)上進(jìn)一步減少錯(cuò)誤,直至達(dá)到理想的自我糾錯(cuò)效果。
六、研究討論
(一)自我監(jiān)督與對(duì)比學(xué)習(xí)
" 在國際中文教育的背景下,LLM通過自我監(jiān)督學(xué)習(xí)(SSL)與對(duì)比學(xué)習(xí)(CL)技術(shù),能夠自動(dòng)識(shí)別生成內(nèi)容中的語法、邏輯和事實(shí)性錯(cuò)誤,這為構(gòu)建一個(gè)智能且靈敏的反饋系統(tǒng)奠定了基礎(chǔ)。[29]當(dāng)模型生成中文文本時(shí),SSL和CL技術(shù)會(huì)自動(dòng)對(duì)比模型輸出與正確的語言結(jié)構(gòu)和文化背景,確保輸出內(nèi)容的準(zhǔn)確性與適宜性,這對(duì)于非母語學(xué)習(xí)者尤為重要,因?yàn)樗鼈兡軌蛱峁┘磿r(shí)的反饋,幫助學(xué)習(xí)者迅速識(shí)別并糾正語言錯(cuò)誤。[30]
(二)元認(rèn)知分析與策略調(diào)整
" 元認(rèn)知分析使LLM能夠深入探究錯(cuò)誤產(chǎn)生的根源,無論是數(shù)據(jù)偏斜、算法缺陷還是對(duì)中文語言結(jié)構(gòu)理解的不足,都能夠被精準(zhǔn)定位?;谶@些分析,模型會(huì)動(dòng)態(tài)調(diào)整其參數(shù)和生成策略,形成一套優(yōu)化后的策略集合,以更有效地應(yīng)對(duì)國際中文教育中的語言挑戰(zhàn)。[31]例如,如果模型識(shí)別到對(duì)某些漢字或成語使用不當(dāng)?shù)膬A向,它會(huì)針對(duì)性地加強(qiáng)相關(guān)領(lǐng)域的學(xué)習(xí)和練習(xí),從而提高語言輸出的質(zhì)量,進(jìn)而提升學(xué)習(xí)者的語言理解和運(yùn)用能力。
(三)對(duì)學(xué)習(xí)者的個(gè)性化糾錯(cuò)與輔導(dǎo)
" 在智慧教學(xué)的國際中文教育場景下,自我調(diào)節(jié)學(xué)習(xí)(SRL)理論為學(xué)習(xí)者提供了強(qiáng)有力的自主學(xué)習(xí)框架。[32]SRL強(qiáng)調(diào)學(xué)習(xí)者主動(dòng)設(shè)定目標(biāo)、監(jiān)控進(jìn)度、選擇策略并進(jìn)行自我反思,這對(duì)于自學(xué)環(huán)境尤為重要。當(dāng)學(xué)習(xí)者在學(xué)習(xí)中文時(shí),他們可以借助SRL理論設(shè)定具體的學(xué)習(xí)目標(biāo),比如掌握一定數(shù)量的漢字或提升口語流利度。隨后,學(xué)習(xí)者通過在線平臺(tái)進(jìn)行自我監(jiān)控,跟蹤自己的學(xué)習(xí)進(jìn)度和技能掌握情況,適時(shí)調(diào)整學(xué)習(xí)策略,以克服遇到的困難或挑戰(zhàn)。這一過程中,學(xué)習(xí)者可以利用智能學(xué)習(xí)工具進(jìn)行自我測試,獲得即時(shí)反饋,這有助于他們及時(shí)識(shí)別和改正錯(cuò)誤,促進(jìn)語言技能的穩(wěn)步提升,同時(shí),LLM的自我糾錯(cuò)機(jī)制也能根據(jù)學(xué)習(xí)者的具體需求,提供更加個(gè)性化的輔導(dǎo)和支持。
(四)賦能國際中文教育智慧教學(xué)場景
" 在實(shí)際應(yīng)用中,LLM的自我糾錯(cuò)機(jī)制和SRL理論的結(jié)合創(chuàng)造了多種智慧教學(xué)場景。例如,通過智能對(duì)話平臺(tái),學(xué)習(xí)者可以與LLM進(jìn)行模擬對(duì)話,模型不僅能理解學(xué)習(xí)者的意圖,還能識(shí)別并糾正語法錯(cuò)誤,提供正確表達(dá)的示范。[33]在寫作輔助方面,LLM作為寫作助手,實(shí)時(shí)檢查作業(yè)中的錯(cuò)誤,提出修改建議,促進(jìn)學(xué)習(xí)者的語言精進(jìn)。[34]此外,LLM還能根據(jù)學(xué)習(xí)者的反饋進(jìn)行自我優(yōu)化,通過強(qiáng)化學(xué)習(xí)策略的持續(xù)調(diào)整,使模型的行為更貼合學(xué)習(xí)者的需求,提升教學(xué)效果,從而使整個(gè)學(xué)習(xí)過程更加流暢和高效。
(五)深化自我調(diào)節(jié)學(xué)習(xí)與AI技術(shù)的融合
" 深化自我調(diào)節(jié)學(xué)習(xí)(SRL)與AI技術(shù)的融合是提升AI輔助教學(xué)質(zhì)量的關(guān)鍵。將SRL理論的原理融入AI的自我監(jiān)督學(xué)習(xí)機(jī)制中,可以增強(qiáng)AI的教學(xué)適應(yīng)性和內(nèi)容準(zhǔn)確性,減少生成內(nèi)容的錯(cuò)誤率,從而提升教學(xué)效果。構(gòu)建基于SRL的大語言模型自我糾錯(cuò)技術(shù)路徑,意味著要將學(xué)習(xí)者的目標(biāo)設(shè)定、進(jìn)度監(jiān)控、策略部署和自我反思等過程,映射到AI模型的自我優(yōu)化流程中。這意味著AI不僅要具備自我監(jiān)測和修正錯(cuò)誤的能力,還要能夠根據(jù)學(xué)習(xí)者的反饋和需求,靈活調(diào)整教學(xué)策略,實(shí)現(xiàn)個(gè)性化教學(xué)路徑的設(shè)計(jì)。這種路徑的構(gòu)建,將使得AI能夠更好地理解學(xué)習(xí)者的學(xué)習(xí)風(fēng)格和需求,提供更為精準(zhǔn)和個(gè)性化的教學(xué)支持,最終實(shí)現(xiàn)教育智能化的全面升級(jí)。
七、結(jié)語
" 自我調(diào)節(jié)學(xué)習(xí)(SRL)理論與大語言模型(LLM)自我糾錯(cuò)技術(shù)的結(jié)合,為LLM自我糾錯(cuò)技術(shù)提供了具體的理論指導(dǎo),也為國際中文教育智慧教學(xué)打開了新的研究思路。在SRL的框架下,LLM的自我糾錯(cuò)路徑不再局限于傳統(tǒng)的錯(cuò)誤檢測與修正,而是向著一個(gè)更加自主、動(dòng)態(tài)、自我適應(yīng)的系統(tǒng)演進(jìn)。這一路徑不僅要求模型能夠自我監(jiān)督、自我分析并調(diào)整策略,還強(qiáng)調(diào)了模型在反思與迭代中不斷優(yōu)化自身能力的重要性。通過SRL理論的指導(dǎo),我們構(gòu)建了一個(gè)基于符號(hào)表征的LLM自我糾錯(cuò)技術(shù)路徑,它涵蓋了從錯(cuò)誤檢測到根源分析,再到策略調(diào)整與效果驗(yàn)證的完整閉環(huán)。這一路徑不僅能夠提升LLM在國際中文教育中的應(yīng)用效果,減少生成內(nèi)容的錯(cuò)誤率,還能夠促進(jìn)模型的持續(xù)進(jìn)化,使其更貼近人類學(xué)習(xí)者的需求。SRL與LLM自我糾錯(cuò)技術(shù)的融合將成為推動(dòng)教育智能化的關(guān)鍵力量。它不僅能夠促進(jìn)學(xué)習(xí)者自我管理與高效學(xué)習(xí)能力的提升,還將為AI在教育中的角色定位與功能拓展開辟新的道路。在智慧教學(xué)的背景下,國際中文教育將邁入一個(gè)全新的智能化紀(jì)元,LLM將以更加人性化、精準(zhǔn)的方式輔助教學(xué),實(shí)現(xiàn)國際中文教育的個(gè)性化與全球化。
參考文獻(xiàn):
[1]" Zimmerman, Barry J..A social cognitive view of self-" regulated academic learning.[J].J Educ Psychol,1989,81(03):329-339.
[2]" Monique Boekaerts.Self-regulated learning: a new concept embraced by researchers, policy makers,educators,teachers, and students[J].Learning and Instruction,1997,7(02):161-186.
[3]" Pintrich P R.Chapter 14 - the role of goal orientation in self-regulated learning[J].[s.n.],2000:451-502.
[4]" Hacker D J,Dunlosky J,Graesser A C.Metacogni tion in educational theory and practice[J].[s.n.],1998:277-304.
[5]" Panadero Ernesto.A review of self-regulated learning: six models and four directions for research.[J].Front Psychol,2017,8:422.
[6]" 韓中美,田甜,何濤,等.在線環(huán)境中自我調(diào)節(jié)學(xué)習(xí)和同伴互動(dòng)水平的關(guān)系研究[J].中國電化教育,2022,(05):99-106.
[7]" 張成龍,李麗嬌.基于MOOC的混合式教學(xué)對(duì)網(wǎng)絡(luò)自我調(diào)節(jié)學(xué)習(xí)的影響[J].現(xiàn)代教育技術(shù),2018,28(06):88-94.
[8]" 李月,姜強(qiáng),趙蔚.數(shù)字化時(shí)代在線學(xué)習(xí)行為結(jié)構(gòu)及其作用機(jī)理研究——自我調(diào)節(jié)理論視角[J].現(xiàn)代遠(yuǎn)距離教育,2023,(01):61-70.
[9]" 徐曉青,趙蔚,姜強(qiáng).學(xué)習(xí)分析支持自我調(diào)節(jié)學(xué)習(xí)的效能分析框架研究[J].電化教育研究,2023,44(02):114-120+128.
[10] 楊淼,董永權(quán),胡玥.基于學(xué)習(xí)者建模和數(shù)據(jù)挖掘的個(gè)性化學(xué)習(xí)路徑推薦研究[J].上海教育評(píng)估研究,2019,8(05):58-61.
[11] Lei Huang, Weijiang Yu, Weitao Ma, et al. A Survey on Hallucination in Large Language Models: Principles,"Taxonomy, Challenges, and Open Questions [J]. arXiv,2023, 2311.05232.
[12] Tao Z, Lin T-E, Chen X, et al. A Survey on Self-Evolution of Large Language Models [J]. arXiv, 2024, 2404.14387.doi:10.48550/arXiv.2404.14387.
[13] Yue S, Song S, Cheng X, et al. Do Large Language Models"Understand Conversational Implicature–A case study with a Chinese sitcom [J].arXiv,2024,2404.19509. doi:10.48550/arXiv.2404.19509.
[14] J?rvel? S, Nguyen A. Human and artificial intelligence"collaboration for socially shared regulation in learning[J].British Journal of Educational Technology, 2023, 54(5):1057-1076.
[15] Bommasani R, Hudson D, Adcock A, et al. On the opportunities and risks of foundation models [J]. arXiv,2021, 2108.07258.
[16] Bishop C M. Pattern recognition and machine learning [M]."Springer, 2006.
[17] Goodfellow I, Bengio Y, Courville A. Deep learning [M].MIT Press, 2016.
[18] Murphy K P. Machine learning: A probabilistic perspective[M]. MIT Press, 2012.
[19] Hochreiter S, Schmidhuber J. Long short-term memory [J]."Neural Computation, 1997, 9(8): 1735-1780.
[20] Devlin J, Chang M W, Lee K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding"[J]. arXiv, 2019, 1810.04805.
[21] Kaiyan Chang, Songcheng Xu, Chenglong Wang, et al.Efficient Prompting Methods for Large Language Models: A Survey [J]. arXiv, 2024,2404.01077.
[22] Liu Y, Ott M, Goyal N, et al. RoBERTa: A robustly optimized BERT pretraining approach [J]. arXiv, 2019,1907.11692.
[23] Christiano P F, Leike J, Brown T, et al. Deep reinforcement"learning from human preferences [J]. Advances in Neural Information Processing Systems, 2017.
[24] OpenAI. GPT-4 technical report [R]. OpenAI, 2023.
[25] Huang J, Chen X, Mishra S, Zheng HS, Yu AW, Song X,Zhou D. Large language models cannot self-correct"reasoning yet[J]. arXiv, 2023, 2310.01798,
[26] Cheng R, Ma H,Cao S,Shi T.RLRF:Reinforcement learning"from reflection through debates as feedback for bias"mitigation in LLMs[J]. arXiv, 2024, 2404.10160.
[27] Peng H. A brief summary of interactions between meta-"learning and self-supervised learning[J]. arXiv, 2021,"2103.00845.
[28] Chen M, Tworek J, Jun H, et al. Evaluating large language"models trained on code [J]. arXiv, 2021, 2107.03374.
[29] 韓悅,趙曉偉,沈書生.人機(jī)協(xié)同調(diào)節(jié):復(fù)合腦視角下自我調(diào)節(jié)學(xué)習(xí)的新路徑[J].電化教育研究,2024,45(05):20-26+34.
[30] 劉紅霞,李士平,姜強(qiáng),等.智能技術(shù)賦能自我調(diào)節(jié)學(xué)習(xí)的內(nèi)涵轉(zhuǎn)型、制約瓶頸與發(fā)展路徑[J].遠(yuǎn)程教育雜志,2020,38(04):105-112.
[31] 戴嶺,趙曉偉,祝智庭.智慧問學(xué):基于ChatGPT的對(duì)話式學(xué)習(xí)新模式[J].開放教育研究,2023,29(06):42-51+111.
[32] Li J, Ren X, Jiang X, et al. Exploring the Use of ChatGPT in Chinese Language Classrooms [J].International Journal of Chinese Language Teaching,2023,4(03):36-55.
[33] 金旋.ChatGPT深度融入國際中文教育的應(yīng)然功能、實(shí)踐困境和應(yīng)用策略[J].云南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2023,55(04):52-58.
[34] 宋飛,郭佳慧,曲暢.ChatGPT在漢語作為外語教學(xué)中的應(yīng)用體系及實(shí)踐[J].北京第二外國語學(xué)院學(xué)報(bào),2023,45(06):110-128.
Research on Constructing Self-Correction Paths for Large Language Models under the Theory of Self-Regulated Learning
YUAN Ruiting,YANG Youna,SHI Haoran
(Editorial Department of the Journal,Pu’er university,Pu’er" 665000,Yunnan;Pu’er Youth Extracurricular Activity Center,Pu’er" 665000,Yunnan;School of International Chinese Language Education,Yunnan University,Kunming 650000,Yunnan,China)
Abstract:This paper explores the application of Self-Regulated Learning (SRL) theory and Large Language Model (LLM) self-correction techniques in international Chinese education. It reviews the development and existing issues of large language models such as ChatGPT, including AI “hallucinations.” The paper analyzes Reinforcement Learning from Human Feedback (RLHF) as a method to optimize model interaction performance, highlighting its reliance on human guidance and insufficient self-regulation capabilities. It traces the development of SRL theory and discusses its application prospects in intelligent learning environments. Centered on SRL theory, the paper proposes a new framework for LLM self-correction based on SRL, discussing its application in international Chinese education, including self-supervision and contrastive learning, metacognitive analysis, and personalized error correction and tutoring for learners. By integrating SRL theory with LLM self-correction techniques, this paper provides a theoretical framework to guide LLM self-correction, promoting the deep integration of ChatGPT into international Chinese education.
Keywords:self-regulated learning;large language model;human-computer interaction;international chinese education;chatGPT
基金項(xiàng)目:普洱學(xué)院2023年度校級(jí)一般項(xiàng)目:自我調(diào)節(jié)學(xué)習(xí)理論下的chatGPT人機(jī)交互學(xué)習(xí)方案研究(PEXYXJYB202344)。
作者簡介:袁睿廷(1996-),男,云南曲靖,碩士,研究方向:國際中文教育人工智能智慧教學(xué);
" " " "楊優(yōu)娜(1991-),女,云南普洱,本科,二級(jí)教師,研究方向:教育學(xué)和小學(xué)教育教學(xué);
" " 施浩然(2000-),男,浙江溫州,在讀研究生,研究方向:人工智能與國際中文教育。