一、問(wèn)題提出
長(zhǎng)期以來(lái),傳統(tǒng)人工評(píng)價(jià)在教育評(píng)價(jià)中占據(jù)主導(dǎo)地位。然而,隨著教育規(guī)模擴(kuò)張和評(píng)價(jià)需求復(fù)雜化,人工評(píng)價(jià)的局限性日益顯現(xiàn)。1]人工評(píng)價(jià)不僅耗時(shí)費(fèi)力、成本高昂,且易受評(píng)價(jià)者主觀因素影響,難以保證評(píng)價(jià)的客觀性、公正性和一致性,制約了教育評(píng)價(jià)的整體效能。
近年來(lái),以ChatGPT為代表的生成式人工智能技術(shù)對(duì)各行各業(yè)產(chǎn)生了深遠(yuǎn)影響,教育領(lǐng)域也不例外。[2]自然語(yǔ)言處理(NLP)、機(jī)器學(xué)習(xí)(ML)等人工智能技術(shù)在文本分析、模式識(shí)別等方面取得了顯著進(jìn)展,為教育評(píng)價(jià)的自動(dòng)化、智能化提供了技術(shù)支撐。3]其中,智能評(píng)分作為一種新興的教育評(píng)價(jià)手段,受到了越來(lái)越多的關(guān)注[4]它利用計(jì)算機(jī)程序?qū)ξ谋具M(jìn)行自動(dòng)分析和評(píng)估,能夠快速、客觀地給出評(píng)分結(jié)果,具有高效、經(jīng)濟(jì)、可擴(kuò)展等優(yōu)勢(shì),為解決傳統(tǒng)人工評(píng)價(jià)面臨的困境提供了新的解決方案。2025年政府工作報(bào)告提出“持續(xù)推進(jìn)‘人工智能’ + 行動(dòng)”,并將“支持大模型廣泛應(yīng)用”首次寫入報(bào)告。5]這表明國(guó)家層面高度重視人工智能技術(shù)的發(fā)展和應(yīng)用,也為本研究提供了重要的政策背景和發(fā)展機(jī)遇。
在眾多大語(yǔ)言模型中,DeepSeek作為國(guó)內(nèi)自主研發(fā)的大規(guī)模語(yǔ)言模型,具有多項(xiàng)技術(shù)優(yōu)勢(shì)。Deep-Seek-R1在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩OpenAIo1正式版。[6DeepSeek-R1與o1定位相似,但其開源屬性和低成本API提供了更高性價(jià)比,較低的技術(shù)門檻便于社區(qū)二次開發(fā),特別是完整公開的“推理鏈”機(jī)制,為科研人員理解模型邏輯提供了獨(dú)特優(yōu)勢(shì)。7]與國(guó)際主流模型相比,Deep-Seek在中文語(yǔ)義理解、學(xué)術(shù)文本評(píng)估和教育場(chǎng)景適應(yīng)性方面具有獨(dú)特優(yōu)勢(shì),且支持本地化部署,有助于保護(hù)數(shù)據(jù)安全和隱私。[8]本研究選擇DeepSeek 作為研究對(duì)象,旨在通過(guò)將DeepSeek的評(píng)分結(jié)果與專家評(píng)分進(jìn)行系統(tǒng)對(duì)比分析,深入考察DeepSeek在教學(xué)創(chuàng)新報(bào)告評(píng)價(jià)中的效度、信度及應(yīng)用價(jià)值,全面揭示其在文本評(píng)分方面的優(yōu)勢(shì)與局限性,為智能評(píng)分技術(shù)在高等教育領(lǐng)域的科學(xué)應(yīng)用提供實(shí)證參考和理論依據(jù),并深入探索國(guó)產(chǎn)大語(yǔ)言模型在教育評(píng)價(jià)領(lǐng)域的應(yīng)用潛力,為“人工智能+”教育提供本土化解決方案。
二、文獻(xiàn)回顧
智能評(píng)分作為一種新興的教育評(píng)價(jià)手段,其研究歷史可以追溯到上世紀(jì)六十年代。早期的智能評(píng)分系統(tǒng)主要基于簡(jiǎn)單的詞匯統(tǒng)計(jì)和語(yǔ)法規(guī)則,對(duì)文本進(jìn)行淺層分析和評(píng)估。9隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)技術(shù)逐漸被引入到智能評(píng)分領(lǐng)域?;跈C(jī)器學(xué)習(xí)的智能評(píng)分系統(tǒng)能夠自動(dòng)學(xué)習(xí)文本的特征,并建立評(píng)分模型,從而提高評(píng)分的準(zhǔn)確性和可靠性。近年來(lái),深度學(xué)習(xí)技術(shù)的突破性進(jìn)展為智能評(píng)分帶來(lái)了新的機(jī)遇?;谏疃葘W(xué)習(xí)的智能評(píng)分系統(tǒng)能夠自動(dòng)學(xué)習(xí)文本的深層語(yǔ)義特征,從而更加準(zhǔn)確地評(píng)估文本的質(zhì)量。
在國(guó)外,智能評(píng)分的研究和應(yīng)用已經(jīng)相對(duì)成熟。Shermis和Burstein(2016)對(duì)智能評(píng)分領(lǐng)域的研究進(jìn)行了元分析,結(jié)果表明智能評(píng)分在整體上具有較高的效度和信度,能夠有效地輔助人工評(píng)價(jià)。[0]Zhai和Ma(2023)通過(guò)元分析發(fā)現(xiàn),自動(dòng)化寫作評(píng)估對(duì)寫作質(zhì)量具有顯著的積極影響,尤其對(duì)非英語(yǔ)母語(yǔ)學(xué)習(xí)者和議論文寫作效果更佳。[1]許多商業(yè)化的智能評(píng)分系統(tǒng),如e-rater、Criterion等,已經(jīng)被廣泛應(yīng)用于各種教育考試和寫作教學(xué)中。這些系統(tǒng)不僅能夠提供評(píng)分結(jié)果,還能夠?yàn)閷W(xué)生提供個(gè)性化的寫作反饋,幫助他們提高寫作水平。
在國(guó)內(nèi),智能評(píng)分的研究和應(yīng)用起步較晚,但近年來(lái)也取得了顯著進(jìn)展。江進(jìn)林和陳丹丹(2021)對(duì)國(guó)內(nèi)外英語(yǔ)作文、英/漢翻譯和英語(yǔ)口語(yǔ)自動(dòng)評(píng)分研究的發(fā)展脈絡(luò)進(jìn)行了回顧,并對(duì)各項(xiàng)技術(shù)的優(yōu)勢(shì)和不足之處進(jìn)行了評(píng)價(jià)。他們指出,當(dāng)前智能評(píng)分研究面臨的困難和挑戰(zhàn)包括:如何提高智能評(píng)分的準(zhǔn)確性和可靠性,如何應(yīng)對(duì)智能評(píng)分在應(yīng)用過(guò)程中可能出現(xiàn)的倫理和社會(huì)問(wèn)題等。[12]隨著人工智能技術(shù)的不斷發(fā)展,智能評(píng)分的應(yīng)用范圍也日益擴(kuò)大。王冠和魏蘭(2024)探討了人工智能大模型技術(shù)在教育考試全題型閱卷中的應(yīng)用,結(jié)果表明人工智能大模型技術(shù)在閱卷速度、輔助定標(biāo)成效、AI評(píng)分質(zhì)量等方面均得到有效驗(yàn)證。[13]宛平等(2024)構(gòu)建了一個(gè)生成式人工智能支持的人機(jī)協(xié)同評(píng)價(jià)實(shí)踐模式,并以上海市H大學(xué)開展的基于問(wèn)題解決的主觀作業(yè)評(píng)價(jià)活動(dòng)為例,解釋了如何應(yīng)用生成式人工智能支持人機(jī)協(xié)同評(píng)價(jià)。[14]
盡管智能評(píng)分具有諸多優(yōu)勢(shì),但其信度問(wèn)題仍然備受關(guān)注。白麗芳和王建(2018)以“中國(guó)學(xué)習(xí)者英語(yǔ)語(yǔ)料庫(kù)”中的大學(xué)英語(yǔ)四、六級(jí)考試作文為研究樣本,比較了專家評(píng)分和國(guó)內(nèi)某自動(dòng)評(píng)分系統(tǒng)結(jié)果的差異,結(jié)果顯示自動(dòng)批改系統(tǒng)整體評(píng)分效度有待提高,機(jī)器所依賴的語(yǔ)言類量化特征在人工批改中的作用有限,評(píng)分依據(jù)的不同造成兩者結(jié)果的差異。[15]何屹松等(2018)通過(guò)實(shí)驗(yàn)探索了人工智能評(píng)測(cè)技術(shù)在人工網(wǎng)上評(píng)卷質(zhì)量監(jiān)控中的應(yīng)用及其他相關(guān)應(yīng)用。實(shí)驗(yàn)結(jié)果表明,智能閱卷基本上達(dá)到了與評(píng)卷教師相當(dāng)?shù)乃?,且始終采用統(tǒng)一的評(píng)分標(biāo)準(zhǔn),更具客觀公正性,能為人工網(wǎng)上評(píng)卷提供有效的質(zhì)量監(jiān)控[16]孫海洋和張敏(2020)對(duì)比了訊飛口語(yǔ)自動(dòng)評(píng)分系統(tǒng)和專家評(píng)分員對(duì)學(xué)生的口試任務(wù)錄音的評(píng)分結(jié)果,發(fā)現(xiàn)機(jī)器對(duì)不同類型的口試任務(wù)的評(píng)分存在顯著的偏差,機(jī)評(píng)和人評(píng)以及專家評(píng)分員之間的嚴(yán)厲度均有顯著的差異。17]陸俊花(2022)以英語(yǔ)學(xué)習(xí)者故事復(fù)述評(píng)分為例,比較了人工智能背景下智能評(píng)分與專家評(píng)分的效度,結(jié)果表明人工評(píng)閱得分均值和機(jī)器評(píng)閱得分高度一致且無(wú)顯著差異。[18]王偉和趙英華(2023)基于多次CET-SET模擬考試智能評(píng)分技術(shù)實(shí)驗(yàn)數(shù)據(jù),探討了智能評(píng)分技術(shù)與專家評(píng)分相結(jié)合的人機(jī)協(xié)同評(píng)分質(zhì)量控制方法的可行性。研究發(fā)現(xiàn),不同定標(biāo)方式下,計(jì)算機(jī)評(píng)分結(jié)果穩(wěn)定、可靠;整卷評(píng)分方式下,計(jì)算機(jī)智能評(píng)分可作為一評(píng)或第三評(píng)質(zhì)檢;在不同任務(wù)維度上,對(duì)不同題型任務(wù)可靈活選擇不同評(píng)分方式。[19]
為了提高智能評(píng)分的效度,研究者們不斷探索新的技術(shù)和方法。楊麗萍和辛濤(2021)從能力測(cè)量視角出發(fā),探討了寫作自動(dòng)化評(píng)分研究的核心問(wèn)題。他們認(rèn)為,寫作自動(dòng)化評(píng)分體系的建構(gòu)需要以寫作評(píng)價(jià)標(biāo)準(zhǔn)為依據(jù),建立具備解釋性的特征體系,突破擬合專家評(píng)分的局限,從分?jǐn)?shù)預(yù)測(cè)模型拓展到能力測(cè)量模型,探索寫作各能力維度的評(píng)估模型。[20]肖國(guó)亮等(2023)提出了智能評(píng)分的研究和應(yīng)用框架,在文獻(xiàn)分析和實(shí)踐經(jīng)驗(yàn)基礎(chǔ)上提出面向機(jī)器學(xué)習(xí)專家和面向領(lǐng)域評(píng)分專家的評(píng)價(jià)指標(biāo),形成一套智能評(píng)分應(yīng)用效果綜合評(píng)價(jià)方案。[21]
綜上所述,智能評(píng)分作為一種新興的教育評(píng)價(jià)手段,具有廣闊的應(yīng)用前景和巨大的發(fā)展?jié)摿?。然而,智能評(píng)分在實(shí)際應(yīng)用中仍然面臨諸多挑戰(zhàn),例如如何提高評(píng)分的準(zhǔn)確性和可靠性,如何應(yīng)對(duì)智能評(píng)分在應(yīng)用過(guò)程中可能出現(xiàn)的倫理和社會(huì)問(wèn)題等。因此,需要對(duì)智能評(píng)分的效度、信度和可行性進(jìn)行系統(tǒng)而深入的研究,為智能評(píng)分在教育領(lǐng)域的應(yīng)用提供科學(xué)的依據(jù)和指導(dǎo)。
三、研究設(shè)計(jì)
(一)研究方法
本研究主要采用量化研究方法,側(cè)重于對(duì)評(píng)分?jǐn)?shù)據(jù)進(jìn)行精確測(cè)量和統(tǒng)計(jì)分析。我們將運(yùn)用相關(guān)性分析、t檢驗(yàn)、分位數(shù)比較等統(tǒng)計(jì)方法,采用SPSS28.0統(tǒng)計(jì)軟件進(jìn)行數(shù)據(jù)分析,量化DeepSeek評(píng)分與專家評(píng)分之間的關(guān)聯(lián)程度和差異程度。這種量化分析的手段有助于我們更準(zhǔn)確地評(píng)估DeepSeek的評(píng)分表現(xiàn)。
為了充分發(fā)揮智能評(píng)分在教育評(píng)價(jià)中的積極作用,并最大限度地減少其潛在風(fēng)險(xiǎn),需要對(duì)智能評(píng)分的效度、信度和可行性進(jìn)行系統(tǒng)而深人的研究。效度是衡量智能評(píng)分是否能夠準(zhǔn)確反映被評(píng)價(jià)對(duì)象真實(shí)水平的關(guān)鍵指標(biāo)。信度則關(guān)注智能評(píng)分結(jié)果的穩(wěn)定性和一致性??尚行詣t需要綜合考慮智能評(píng)分在實(shí)際應(yīng)用中的效率、成本、公平性等因素。只有在充分了解智能評(píng)分的效度、信度和可行性的基礎(chǔ)上,才能合理地將其應(yīng)用于教育評(píng)價(jià)實(shí)踐,從而提升教育評(píng)價(jià)的整體質(zhì)量和效率。
(二)研究樣本
研究選取了某高校教學(xué)創(chuàng)新大賽中提交的240份創(chuàng)新報(bào)告(以下簡(jiǎn)稱“報(bào)告”)作為研究樣本,覆蓋醫(yī)藥( 42% 、理工( 33% )、人文社科( 25% )的不同教學(xué)主題,具有一定的代表性和多樣性。該賽事對(duì)報(bào)告有非常規(guī)范嚴(yán)格的要求,并附有成熟科學(xué)的評(píng)價(jià)指標(biāo),具有標(biāo)準(zhǔn)、穩(wěn)定的特征,作為研究對(duì)象是非常理想的研究材料。
為了確保研究的客觀性和公正性,所有報(bào)告均已匿名處理,以避免任何潛在的偏見。報(bào)告文本以電子文檔的形式保存,并按照統(tǒng)一的命名規(guī)則進(jìn)行管理,以便后續(xù)的數(shù)據(jù)處理和分析。報(bào)告文本的內(nèi)容質(zhì)量直接影響DeepSeek模型的評(píng)分效果,同時(shí),為了方便DeepSeek模型進(jìn)行學(xué)習(xí)和評(píng)分,需要對(duì)報(bào)告文本進(jìn)行預(yù)處理,仔細(xì)檢查和校對(duì)每一份報(bào)告,例如去除格式標(biāo)記、糾正拼寫錯(cuò)誤、確保其內(nèi)容完整、表達(dá)清晰等。
(三)數(shù)據(jù)收集
本研究進(jìn)行了全面而嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)收集與整理工作。數(shù)據(jù)來(lái)源于兩個(gè)方面:專家評(píng)審的分?jǐn)?shù)和DeepSeek評(píng)審的分?jǐn)?shù)。
本研究的報(bào)告分為三組,每組邀請(qǐng)了七位全國(guó)高校遴選的具有豐富教學(xué)經(jīng)驗(yàn)和評(píng)審經(jīng)驗(yàn)的專家進(jìn)行線上評(píng)分。專家熟悉大賽的評(píng)分標(biāo)準(zhǔn),獨(dú)立閱讀和評(píng)估每一份報(bào)告,給出相應(yīng)的分?jǐn)?shù)。為了減少主觀因素的影響,研究采用了“去除最高分和最低分后取平均值”的方法,計(jì)算每份報(bào)告的專家平均分。這種方法可以有效降低個(gè)別專家評(píng)分偏差對(duì)最終結(jié)果的影響,提高評(píng)分的客觀性和準(zhǔn)確性。
本研究采用DeepSeek提供的應(yīng)用程序編程接口(API)實(shí)現(xiàn)對(duì)報(bào)告的自動(dòng)評(píng)分。首先,需要注冊(cè)并獲取DeepSeekAPI的訪問(wèn)密鑰。然后,編寫Python腳本,利用requests庫(kù)構(gòu)建HTTP請(qǐng)求,將大賽的通知、評(píng)價(jià)指標(biāo)和240份報(bào)告作為請(qǐng)求參數(shù)發(fā)送至DeepSeekAPI端點(diǎn)。程序?qū)⒀h(huán)遍歷所有報(bào)告,并解析 API返回的 JSON 格式數(shù)據(jù),從中提取 Deep-Seek給出的評(píng)分結(jié)果,并將評(píng)分結(jié)果與對(duì)應(yīng)的報(bào)告編號(hào)存儲(chǔ),以便后續(xù)的數(shù)據(jù)分析。
獲得兩組分?jǐn)?shù)后,研究者認(rèn)真檢查了數(shù)據(jù),并將兩組數(shù)據(jù)以表格的形式保存,內(nèi)容報(bào)告:編號(hào)、報(bào)告名稱、評(píng)分、排名等,可以確保本研究的數(shù)據(jù)具有較高的質(zhì)量和可靠性。
四、研究結(jié)果
(一)效度分析
效度指的是測(cè)量工具是否準(zhǔn)確地測(cè)量了它應(yīng)測(cè)量的內(nèi)容,換句話說(shuō),它反映了測(cè)量的結(jié)果與實(shí)際目標(biāo)之間的吻合程度。在這組數(shù)據(jù)中,以下指標(biāo)與效度相關(guān):
1.相關(guān)系數(shù)(r):相關(guān)系數(shù)反映了專家評(píng)分和智能評(píng)分之間的關(guān)系。它衡量了兩者之間的線性相關(guān)程度,因此可以用來(lái)評(píng)估智能評(píng)分系統(tǒng)是否能夠有效地模仿專家評(píng)分系統(tǒng)。根據(jù)對(duì)數(shù)據(jù)進(jìn)行的統(tǒng)計(jì)分析,得到專家評(píng)分和智能評(píng)分兩組的描述性統(tǒng)計(jì)
經(jīng)過(guò)計(jì)算,本研究的相關(guān)系數(shù) r=0.848 ,該值表示智能評(píng)分和專家評(píng)分之間有較強(qiáng)的正相關(guān)關(guān)系,表明智能評(píng)分在一定程度上具有較高的效度。
2.評(píng)分差異的分布:評(píng)分差異的分析也可以部分反映效度。如果智能評(píng)分和專家評(píng)分之間的差異較?。ń咏悖?,這意味著智能評(píng)分系統(tǒng)能夠準(zhǔn)確地反映專家評(píng)分的標(biāo)準(zhǔn),進(jìn)一步支持智能評(píng)分的效度。
圖1展示了智能評(píng)分與專家評(píng)分之間的差異分布:評(píng)分差異在0到1區(qū)間內(nèi)的柱子較高,這表示大多數(shù)評(píng)分的差異值都落在這個(gè)區(qū)間,表明智能評(píng)分與專家評(píng)分非常接近。評(píng)分差異的絕大部分在-4到3范圍內(nèi),差異較大的情況較少。這種分布表明智能評(píng)分和專家評(píng)分之間具有很高的一致性,差異較小,且沒有顯著的偏倚。
3.評(píng)分一致性。按比賽規(guī)定,本研究將組內(nèi)排名前 30% 的報(bào)告標(biāo)記為優(yōu)秀報(bào)告。專家評(píng)分識(shí)別出優(yōu)秀作品70件,智能評(píng)分識(shí)別出優(yōu)秀作品65件,其中兩者一致評(píng)為優(yōu)秀作品的有58件。那么,智能評(píng)分與專家評(píng)分在優(yōu)秀作品識(shí)別上的準(zhǔn)確率達(dá)到了(58/65)=89% 。這意味著,智能評(píng)分系統(tǒng)在識(shí)別優(yōu)秀作品時(shí),有 89% 的準(zhǔn)確率與專家評(píng)分一致。
(二)信度分析
信度指的是測(cè)量工具在重復(fù)測(cè)量時(shí)的一致性或穩(wěn)定性。信度高的測(cè)量工具能夠在不同時(shí)間、地點(diǎn)或不同評(píng)估者之間得到一致的結(jié)果。在這組數(shù)據(jù)中,以下指標(biāo)與信度相關(guān):
從表2看,在所有分位數(shù)( 25% 、 50% 、 75% ))上智能評(píng)分和專家評(píng)分之間的差異是負(fù)值,表示智能評(píng)分普遍高于專家評(píng)分。一致為負(fù)的評(píng)分差異可能表明智能評(píng)分系統(tǒng)中存在系統(tǒng)性偏差,即它傾向于略微高估評(píng)分。而且智能評(píng)分和專家評(píng)分的差異在 50% 和 75% 的分位數(shù)下,差異進(jìn)一步減小,表示對(duì)于較高質(zhì)量或表現(xiàn)較好的項(xiàng)目(即位于較高分位數(shù)段的項(xiàng)目),智能評(píng)分更接近專家評(píng)分。這進(jìn)一步說(shuō)明智能評(píng)分和專家評(píng)分之間的差異較為微小,且不會(huì)對(duì)總體評(píng)分分布產(chǎn)生顯著影響。
2.t值與p值:配對(duì)樣本t檢驗(yàn)的結(jié)果(例如t值和p值)主要用于評(píng)估評(píng)分差異是否顯著。如果p值較大(如 p= 0.035 ),說(shuō)明智能評(píng)分與專家評(píng)分之間存在一定的顯著差異,可能意味著智能評(píng)分的信度較低。若t值接近零且 p 值較大,則表明評(píng)分系統(tǒng)在不同時(shí)間或不同評(píng)估者間的一致性較高。
本研究 t=0.57 , p=0.23 ,且 pgt;0.05 ,意味著智能評(píng)分和專家評(píng)分之間不存在統(tǒng)計(jì)學(xué)意義上的顯著差異。
3.重測(cè)信度:本研究對(duì)DeepSeek進(jìn)行了重測(cè)信度評(píng)估,以檢驗(yàn)其評(píng)分結(jié)果的穩(wěn)定性。研究者間隔一周后,使用同一DeepSeek 模型再次對(duì)240份文本進(jìn)行評(píng)分,并計(jì)算兩次評(píng)分間的相關(guān)系數(shù)。結(jié)果顯示,重測(cè)信度 r=0.893 ,這表明DeepSeek的評(píng)分結(jié)果具有較高的穩(wěn)定性,不受時(shí)間因素的顯著影響。
(三)可行性分析
本研究對(duì)DeepSeek自動(dòng)評(píng)分系統(tǒng)的可行性進(jìn)行了多維度評(píng)估,主要考察了其在效率、成本、公平性及用戶反饋等方面的表現(xiàn)。通過(guò)深人分析這些關(guān)鍵要素,旨在全面評(píng)估該系統(tǒng)在實(shí)際應(yīng)用中的潛力和優(yōu)勢(shì)。
1.效率分析。比較DeepSeek自動(dòng)評(píng)分系統(tǒng)與專家評(píng)分所需的時(shí)間差異是至關(guān)重要的。結(jié)果表明,專家完成全部的評(píng)審任務(wù)用了10天時(shí)間(因其中兩位專家在規(guī)定的7天內(nèi)未能完成評(píng)審任務(wù),故延長(zhǎng)3天完成),DeepSeek完成一輪評(píng)審的時(shí)間不到兩個(gè)小時(shí),表明其在處理評(píng)分任務(wù)時(shí)具有更高的效率和顯著的時(shí)間節(jié)約優(yōu)勢(shì)。這種效率優(yōu)勢(shì)使其適用于需要快速批量評(píng)分的場(chǎng)景,例如大規(guī)模教育考試或內(nèi)容審核。
2.成本分析。DeepSeek自動(dòng)評(píng)分系統(tǒng)的使用能夠顯著降低評(píng)分成本。傳統(tǒng)的專家評(píng)分不僅需要支付專家的勞動(dòng)報(bào)酬,還需要考慮到專家的時(shí)間消耗和勞動(dòng)強(qiáng)度,而DeepSeek的評(píng)分系統(tǒng)則需要支付計(jì)算資源、算法開發(fā)及維護(hù)成本。但一旦系統(tǒng)投入運(yùn)行,它能夠通過(guò)大規(guī)模的自動(dòng)化評(píng)分降低整體評(píng)分成本,且隨著使用次數(shù)的增加,單次評(píng)分成本顯著低于專家評(píng)分。因此,從長(zhǎng)遠(yuǎn)來(lái)看,DeepSeek不僅提高了評(píng)分效率,還能夠節(jié)省人力成本,是一個(gè)經(jīng)濟(jì)高效的評(píng)分解決方案。
3.公平性分析。公平性是評(píng)估評(píng)分系統(tǒng)可行性的重要維度,尤其是在多樣化背景下。為考察DeepSeek的評(píng)分公正性,本研究設(shè)計(jì)了專門的測(cè)試,重點(diǎn)檢查系統(tǒng)是否存在對(duì)不同類型報(bào)告或作者的系統(tǒng)性偏差。結(jié)果顯示,DeepSeek在多個(gè)類別報(bào)告上的評(píng)分標(biāo)準(zhǔn)一致,未表現(xiàn)出顯著偏倚。這表明 Deep-Seek在評(píng)分過(guò)程中能夠保持較高的公正性,有效避免人工評(píng)分中可能存在的主觀偏差。
4.專家反饋。我們通過(guò)對(duì)參與評(píng)審的專家進(jìn)行問(wèn)卷調(diào)查,收集了他們對(duì)DeepSeek評(píng)分系統(tǒng)的看法和意見。調(diào)查結(jié)果表明,大多數(shù)專家對(duì)DeepSeek的評(píng)分效果表示認(rèn)可,認(rèn)為其能夠減輕他們的工作負(fù)擔(dān),提高評(píng)分效率,使得他們能夠?qū)⒏嗟臅r(shí)間投入到其他關(guān)鍵任務(wù)中,并且肯定評(píng)分結(jié)果與專家評(píng)分相近。此外,專家們也普遍支持以后使用Deep-Seek協(xié)助開展評(píng)審。然而,也有部分專家提出了一些技術(shù)上的建議,主要集中在系統(tǒng)的易用性和某些特殊情況下的評(píng)分準(zhǔn)確度問(wèn)題。這些反饋為我們進(jìn)一步改進(jìn)系統(tǒng)提供了寶貴的參考。
5.技術(shù)易用性。技術(shù)易用性是評(píng)估DeepSeek系統(tǒng)實(shí)際可操作性的關(guān)鍵因素。盡管DeepSeek系統(tǒng)的開發(fā)和運(yùn)行依賴于人工智能、自然語(yǔ)言處理及大數(shù)據(jù)分析等領(lǐng)域的專業(yè)知識(shí),但隨著技術(shù)成熟,系統(tǒng)已提供簡(jiǎn)化的用戶界面,降低了非專業(yè)用戶的操作難度。同時(shí),DeepSeek的部署和使用過(guò)程相對(duì)簡(jiǎn)便,用戶可通過(guò)網(wǎng)絡(luò)平臺(tái)直接訪問(wèn)評(píng)分功能,無(wú)需復(fù)雜的技術(shù)安裝和維護(hù)。
綜上所述,通過(guò)對(duì)效率、成本、可行性的全面分析,DeepSeek自動(dòng)評(píng)分系統(tǒng)在多個(gè)維度上展現(xiàn)了較強(qiáng)的可行性。其不僅能夠提高評(píng)分效率,降低成本,還能確保評(píng)分的公平性和準(zhǔn)確性。同時(shí),通過(guò)專家反饋,我們能夠發(fā)現(xiàn)并改進(jìn)其在實(shí)際應(yīng)用中的問(wèn)題,從而進(jìn)一步提升系統(tǒng)的實(shí)用性和可靠性。
五、結(jié)論與展望
(一)結(jié)論
本研究旨在評(píng)估基于DeepSeek的智能評(píng)分系統(tǒng)在文本評(píng)價(jià)中的應(yīng)用效果,重點(diǎn)分析其效度、信度與可行性。通過(guò)與專家評(píng)分進(jìn)行對(duì)比,本研究發(fā)現(xiàn)DeepSeek系統(tǒng)在評(píng)分的準(zhǔn)確性和一致性方面表現(xiàn)出較高的效度,并且在評(píng)分過(guò)程中的信度也得到了較好的驗(yàn)證。具體而言,DeepSeek的評(píng)分結(jié)果與專家評(píng)分之間呈現(xiàn)出較高的相關(guān)性,評(píng)分差異較小,且識(shí)別優(yōu)秀作品的準(zhǔn)確率達(dá)到了 89% 。特別是在中國(guó)高校教學(xué)創(chuàng)新這一特定語(yǔ)境下,DeepSeek表現(xiàn)出優(yōu)秀的領(lǐng)域適應(yīng)性和文化敏感性,能夠準(zhǔn)確理解中國(guó)教育背景下的創(chuàng)新理念和教學(xué)實(shí)踐。評(píng)分結(jié)果在學(xué)科多樣化背景下表現(xiàn)出較高的公平性,有效避免了人為偏倚。此外,該系統(tǒng)顯著提高了評(píng)分效率,為大規(guī)模評(píng)估節(jié)省了大量時(shí)間,并大幅降低了評(píng)分成本,經(jīng)濟(jì)效益顯著。專家反饋也證實(shí),DeepSeek能夠有效減輕評(píng)審工作負(fù)擔(dān)。這表明,DeepSeek作為國(guó)產(chǎn)大語(yǔ)言模型在模擬專家評(píng)分方面具有較強(qiáng)的能力,為教育評(píng)價(jià)提供一種更客觀、高效的輔助手段,同時(shí)在支持國(guó)產(chǎn)大模型應(yīng)用創(chuàng)新方面具有示范意義。
(二)展望
盡管DeepSeek表現(xiàn)良好,但在實(shí)際應(yīng)用中仍然存在一些局限性。首先,DeepSeek系統(tǒng)的本地部署投入成本較高,尤其是在開發(fā)與維護(hù)階段。其次,DeepSeek在面對(duì)特殊情況或復(fù)雜文本時(shí)的表現(xiàn)可能會(huì)受到一定的限制,如無(wú)法推理圖片的內(nèi)容并做出判斷,且難以捕捉評(píng)分標(biāo)準(zhǔn)的細(xì)微差異,表明系統(tǒng)在某些任務(wù)或文本類型的評(píng)分上可能存在一定的誤差。最后,對(duì)于組織者和評(píng)審者而言,無(wú)差別熟練掌握人工智能技術(shù)本身也是一個(gè)挑戰(zhàn)。
未來(lái)研究應(yīng)致力于以下幾個(gè)方向:一是優(yōu)化DeepSeek的評(píng)分算法,提高其對(duì)復(fù)雜文本和特殊情境的識(shí)別能力,特別是加強(qiáng)多模態(tài)理解能力,使其能夠綜合分析文本與圖表內(nèi)容;二是開發(fā)更加友好的用戶界面和操作流程,降低技術(shù)使用門檻,使教育工作者能夠便捷地應(yīng)用智能評(píng)分工具;三是探索DeepSeek在更多元化教育評(píng)價(jià)場(chǎng)景的適應(yīng)性,如實(shí)驗(yàn)報(bào)告、創(chuàng)新設(shè)計(jì)、跨學(xué)科項(xiàng)目等領(lǐng)域;四是建立健全的人機(jī)協(xié)同評(píng)價(jià)機(jī)制,充分發(fā)揮人工專家與智能系統(tǒng)各自優(yōu)勢(shì),實(shí)現(xiàn)評(píng)價(jià)質(zhì)量與效率的雙重提升;五是加強(qiáng)數(shù)據(jù)安全與倫理規(guī)范研究,確保在推進(jìn)智能評(píng)價(jià)普及過(guò)程中保護(hù)學(xué)生隱私和維護(hù)評(píng)價(jià)公平。通過(guò)這些努力,將有助于推動(dòng)“人工智能 + ”在教育評(píng)價(jià)領(lǐng)域的深度融合與創(chuàng)新發(fā)展,為構(gòu)建更加科學(xué)、高效的教育評(píng)價(jià)體系提供有力支持。
參考文獻(xiàn):
[1]SADLER D R. Indigestion and Regulation: AssigningMarks in Degree-Level Assessment[J].Assessmentamp; Evaluationin Higher Education,2009(5):481-497.
[2]石秀選,李均.生成式人工智能技術(shù)賦能大 學(xué)學(xué)術(shù)評(píng)價(jià):機(jī)遇、挑戰(zhàn)及應(yīng)對(duì)[J].高教探索,2024 (4):5-13.
[3][9]PAGE EB.The Imminence ofGradingEssaysby Computer[J].The Phi Delta Kappan,1966 (6):238-243.
[4][1O]SHERMIS M D,BURSTEIN J.Automated Essay Scoring:A Meta-Analysis and Synthesis of Recent Research[J].Journal of Educational Measurement,2016(3) :249-274.
[5]https://www. gov. cn/yaowen/liebiao/202503/ content_7010168.htm.
[6][8]GUOD,YANGD,ZHANGH,etal. Deepseek -rl: Incentivizing Reasoning Capability in Llms Via Reinforcement Learning[J].Arxiv Preprint Arxiv:2501.12948,2025.
[7]GIBNEY E.What are the Best AI Tools forResearch? Nature’s Guide.Nature.2025 Feb 17.doi:10. 1038/d41586-025 -00437-0. Epub ahead of print. PMID:39962251.
[11]ZHAI N,MA X. The Effectiveness of AutomatedWritingEvaluation on WritingQuality:A Meta-Analysis[J]. Journal of Educational Computing Research, 2023(4):875-900.
[12]江進(jìn)林,陳丹丹.主觀題自動(dòng)評(píng)分研究:回顧、反思與展望[J].中國(guó)外語(yǔ),2021,18(6):58-64.
[13]王冠,魏蘭.人工智能大模型技術(shù)在教育考試全題型閱卷中的應(yīng)用[J].教育測(cè)量與評(píng)價(jià),2024,(3):3-18.
[14]宛平,顧小清.生成式人工智能支持的人機(jī)協(xié)同評(píng)價(jià):實(shí)踐模式與解釋案例[J].現(xiàn)代遠(yuǎn)距離教育,2024(2):33-41.
[15]白麗芳,王建.人工和機(jī)器評(píng)分差異比較及成因分析[J].外語(yǔ)測(cè)試與教學(xué),2018(3):44-54.
[16]何屹松,孫媛媛,汪張龍,竺博.人工智能評(píng)測(cè)技術(shù)在大規(guī)模中英文作文閱卷中的應(yīng)用探索[J].中國(guó)考試,2018(6):63-71.
[17]孫海洋,張敏.英語(yǔ)口語(yǔ)機(jī)器評(píng)分和人工評(píng)分的對(duì)比研究[J].外語(yǔ)研究,2020,37(4):57-62.
[18]陸俊花.人工智能背景下機(jī)器評(píng)分與人工評(píng)分的效度比較:以英語(yǔ)學(xué)習(xí)者故事復(fù)述評(píng)分為例[J].成都師范學(xué)院學(xué)報(bào),2022,38(3):84-92.
[19]王偉,趙英華.人機(jī)協(xié)同評(píng)分質(zhì)量控制方法[J].外語(yǔ)學(xué)刊,2023(4):97-104.
[20]楊麗萍,辛濤.人工智能輔助能力測(cè)量:寫作自動(dòng)化評(píng)分研究的核心問(wèn)題[J].現(xiàn)代遠(yuǎn)程教育研究,2021,33(4):51-62.
[21]胡國(guó)平,竺博,盛志超,嚴(yán)峻.人工智能在教育評(píng)測(cè)領(lǐng)域的實(shí)踐[J].信息技術(shù)與標(biāo)準(zhǔn)化,2017,(11) :27-29.
(責(zé)任編輯 劉第紅)