崔冬
建造師執(zhí)業(yè)資格考試是建筑行業(yè)的重要考試之一,近年來報考人數(shù)達(dá)到百萬之眾??荚囬喚砉ぷ髟诠?、公正、安全的前提下有序、高效地開展才能保障每名考生的權(quán)益。主觀題閱卷工作量大,工作流程復(fù)雜,持續(xù)時間長。利用人工智能技術(shù)開展智能化閱卷工作能夠大大節(jié)約社會資源,提高閱卷工作效率。本文分析了建造師考試的特點以及采用智能化閱卷的可能性,在二級建造師考試主觀題人工雙評模式閱卷工作結(jié)束后采用智能化閱卷進(jìn)行了輔助質(zhì)檢,并將智能化閱卷結(jié)果與人工閱卷結(jié)果進(jìn)行對比分析。結(jié)果表明,智能化閱卷與人工閱卷的一致性較高,可以為人工閱卷提供有效的質(zhì)量監(jiān)控。
人工智能技術(shù)是一門利用計算機(jī)模擬人類智能行為科學(xué)的統(tǒng)稱,它涵蓋了訓(xùn)練計算機(jī)使用其完成自主學(xué)習(xí)、判斷決策等人類行為的范疇。人工智能技術(shù)在信息處理等方面的應(yīng)用已經(jīng)非常廣泛,文字和語音識別、人工智能應(yīng)答等應(yīng)用隨處可見。在我國各類升學(xué)考試、職業(yè)技能類考試參與人數(shù)迅猛增長,主觀題閱卷工作的面臨著極大的挑戰(zhàn),閱卷規(guī)模不斷擴(kuò)大,投入的人力、物力也在不斷增加。我國在國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃中明確提出,要利用人工智能技術(shù)對社會資源進(jìn)行優(yōu)化整合。教育領(lǐng)域、職業(yè)技能類等考試的主觀題閱卷大規(guī)模閱卷工作可以利用人工智能技術(shù)開展智能化閱卷工作。開展智能化閱卷可以提高閱卷工作效率,提升保密安全性,優(yōu)化社會資源配置,綠色節(jié)能環(huán)保,更好的保障考試的公平、公正。
最早對于人工智能技術(shù)運用將在考試評分工作是2005年美國教育考試服務(wù)中心利用作文自動評分系統(tǒng)進(jìn)行托福考試的作文評分。我國對于利用人工智能技術(shù)進(jìn)行主觀題考試閱卷工作的研究的起步相對較晚,發(fā)展至今,已經(jīng)有在高考英語作文、語文作文等考試中作為質(zhì)檢手段進(jìn)行應(yīng)用,人工評分和人工智能評分一致率達(dá)到90%以上。職業(yè)技能類考試有全國中級會計師考試、消防工程師采用了智能化閱卷作為正式評卷手段進(jìn)行評分。在考試閱卷的工作領(lǐng)域中,智能化閱卷在技術(shù)上已經(jīng)具備了一定的基礎(chǔ)。
建造師是從事建設(shè)工程項目總承包和施工管理關(guān)鍵崗位的執(zhí)業(yè)注冊人員,建造師是掌握管理、技術(shù)、經(jīng)濟(jì)、法規(guī)多方面技術(shù)的綜合型技術(shù)人員,既要具備相關(guān)的理論知識,又要有現(xiàn)場實踐經(jīng)驗和組織管理能力。建造師必須通過執(zhí)業(yè)資格考試獲得資格并注冊,才能擔(dān)任施工管理的項目施工負(fù)責(zé)人或其他符合法律規(guī)定的業(yè)務(wù)活動。建造師作為建筑行業(yè)發(fā)展的中堅力量,建造師執(zhí)業(yè)資格考試作為建筑行業(yè)準(zhǔn)入類考試,需要把握好人才選拔的標(biāo)準(zhǔn)。
建造師執(zhí)業(yè)資格考試分為綜合知識與能力和專業(yè)知識與能力兩個部分,其中,一級建造師的專業(yè)知識與能力共劃分為10個專業(yè)類別,二級建造師的專業(yè)知識與能力共劃分為6個專業(yè)類別。綜合知識與能力考試題型為客觀選擇題,專業(yè)知識與能力考試題型分為客觀選擇題和實務(wù)操作與案例分析題。實務(wù)操作與案例分析題考核內(nèi)容以考察施工現(xiàn)場實踐經(jīng)驗為主要目的,從多方面檢驗考生的知識結(jié)構(gòu)和能力。每道實務(wù)操作與案例分析題包含多個問題,根據(jù)建筑、市政、水利等各個不同專業(yè)類別需要的知識儲備進(jìn)行考核??己说慕ㄔO(shè)工程知識能力分層次遞進(jìn)。作答內(nèi)容包括文字論述、復(fù)雜公式計算、作圖等多種類型。
建造師執(zhí)業(yè)資格考試近年來報名人數(shù)都達(dá)到百萬人以上。建造師執(zhí)業(yè)資格考試采取人工雙評閱卷模式,主觀題閱卷工作量極大。建造師執(zhí)業(yè)資格考試的主觀題目考生作答字?jǐn)?shù)較多,每道大題的作答字?jǐn)?shù)在都在百字以上,且書寫字跡遠(yuǎn)不如高考考生的工整、好辨認(rèn)。人工閱卷工作需要在考生作答的海量內(nèi)容中篩選出有效信息,并在專業(yè)范圍內(nèi)判斷考生作答內(nèi)容的科學(xué)性和邏輯性是否與標(biāo)準(zhǔn)答案一致。閱卷工作枯燥繁瑣,且工作持續(xù)時間長,以一級建造師考試為例,閱卷工作時長至少三周。閱卷工作不僅要保障準(zhǔn)確率,同時還要做好各項安全保密措施。
人工智能技術(shù)通過深度學(xué)習(xí)能力模仿人工閱卷?,F(xiàn)今,少數(shù)有關(guān)考試采用智能化閱卷的研究已經(jīng)取得了一定成果,但針對作答內(nèi)容較為復(fù)雜的建造師執(zhí)業(yè)資格考試的主觀題閱卷工作適用程度尚未可知。本文在與建造師考試主觀題題型和作答類型相近的考試中,選取已經(jīng)采用智能化閱卷作為正式評卷員之一職業(yè)技能考試—全國中級會計師考試與建造師考試進(jìn)行比較。建造師考試題型和作答內(nèi)容在影響智能化閱卷實施效果的關(guān)鍵技術(shù)節(jié)點上依然很多不同之處:
(1)考試題型不同:會計考試題目不含作圖題目,近年一級、二級建造師考試部分科目中含有進(jìn)度計劃網(wǎng)絡(luò)圖、關(guān)系繪制等作圖要求;
(2)作答內(nèi)容復(fù)雜:會計考試提問針對性強,建造師考試考核內(nèi)容廣泛,作答內(nèi)容層次多,可能包含多個工作順序或者多個計算步驟;
(3)評判標(biāo)準(zhǔn)不同:會計考試計算題答案唯一,建造師考試計算題適用公式不唯一,計算最終結(jié)果也可能不唯一。某些建設(shè)工程知識名稱不唯一,工作順序不唯一,或者某些工程問題現(xiàn)場有多種處理辦法導(dǎo)致答案都不唯一。
與已經(jīng)采用智能化閱卷的全國中級會計師考試不同,建造師考試實施智能化閱卷還需對閱卷的適用性和閱卷效果進(jìn)行檢驗。
2021年度云南省開展了二級建造師執(zhí)業(yè)資格考試計算機(jī)化考試。計算機(jī)考試作答方式減少了智能化閱卷工作的開展技術(shù)上的困難,消除了由識別于作答字跡帶來的誤差。
本次考試的專業(yè)科目主觀題考核作答內(nèi)容包括文字論述、工程計算、工作順序等。智能化閱卷工作是在人工雙評模式閱卷工作完成后作為輔助質(zhì)量檢測開展的。
結(jié)合二級建造師的現(xiàn)有的閱卷工作流程,智能化閱卷的工作流程如下:
(1)接收基礎(chǔ)數(shù)據(jù):接收經(jīng)過保密處理的考生編碼和考生作答信息,進(jìn)行數(shù)據(jù)檢驗和核查。
(2)接收人工閱卷據(jù):接收部分由人工產(chǎn)生的閱卷數(shù)據(jù),進(jìn)行數(shù)據(jù)校驗。
(3)樣本選擇和模型訓(xùn)練:從產(chǎn)生人工閱卷的樣本中抽取訓(xùn)練樣本,抽選的樣本按不同分?jǐn)?shù)段抽取有代表性的樣本進(jìn)行多模型訓(xùn)練,在驗證集上進(jìn)行模型優(yōu)選。
(4)智能化閱卷:利用優(yōu)選的模型對考生作答內(nèi)容進(jìn)行評分,形成智能化閱卷評分?jǐn)?shù)據(jù)。
(5)提交復(fù)合卷:將智能化閱卷評分?jǐn)?shù)據(jù)反饋至專家組進(jìn)行復(fù)審。
(6)統(tǒng)計分析:對全部考生數(shù)據(jù)的智能化閱卷評分?jǐn)?shù)據(jù)、人工閱卷數(shù)據(jù)進(jìn)行綜合分析,形成智能化閱卷報告。
以二級建造師計算機(jī)化考試答卷作為智能化閱卷軟件的閱卷能力進(jìn)行檢測,針對閱卷時長、閱卷信度、閱卷準(zhǔn)確度等方面進(jìn)行分析對比。本次測試的試卷份數(shù)約5萬份,包含五個專業(yè)科目約20萬道試題。
(1)閱卷時長
智能化閱卷選取模型訓(xùn)練樣本,訓(xùn)練完成后進(jìn)行正式閱卷。單科目約4萬道試題從模型訓(xùn)練到完成閱卷需要大約2小時;多科目閱卷工作可同時進(jìn)行,20萬道試題單評模式閱卷花費時長約3~4小時,雙評模式不超過8小時。相同的工作采用人工閱卷雙評模式的工作時長約為23小時。采用智能化閱卷的工作時間大大縮短,不到人工閱卷花費時間的一半,效率非常高。人工閱卷工作中由于試卷量大導(dǎo)致工作持續(xù)長,不可避免地帶來評分準(zhǔn)確率下降和效率降低等問題。采用智能化閱卷輔助閱卷工作能夠幫助避免以上問題的發(fā)生。
(2)閱卷信度分析
信度是指測量結(jié)果的穩(wěn)定性程度。使用同一工具反復(fù)測量,多次測量結(jié)果間的一致性就被稱為信度。信度高的測量是不因操作者或者操作時間等方面發(fā)生變化而使得測量結(jié)果發(fā)生較大變化。
評分者間信度是指多個評分者對同一批考生的答卷進(jìn)行評分的一致性程度。智能化閱卷的信度高,則說明智能化閱卷與人工閱卷的評分一致性較高時,能夠說明智能化閱卷已經(jīng)成功掌握標(biāo)準(zhǔn)答案和評分規(guī)則,已經(jīng)具備正式閱卷工作的評分能力。
本文將基于經(jīng)典測量理論選擇評分者信度的測量方法,根據(jù)評分人數(shù)、數(shù)據(jù)類型選擇Spearman相關(guān)和Pearson積差相關(guān)進(jìn)行智能化閱卷的評分信度進(jìn)行測量。本文采用SPSS軟件針對五個專業(yè)科目的四道主觀題智能化閱卷評分值和人工閱卷評分值進(jìn)行了數(shù)據(jù)分析,結(jié)果如圖1所示。
圖1 五科目Spearman相關(guān)和Pearson積差數(shù)據(jù)
由圖1可得知,五個實務(wù)科目的Spearman相關(guān)和Pearson積差數(shù)值均在0.9以上。當(dāng)數(shù)值越接近1時,智能化閱卷和人工閱卷的評分一致性越高。
由人工閱卷與智能化閱卷的各分?jǐn)?shù)段評分分布的情況也能夠直觀的看出,智能化閱卷和人工閱卷的評分趨勢非常接近,一致性高。
圖2 科目1各分?jǐn)?shù)段評分分布圖
圖3 科目2各分?jǐn)?shù)段評分分布
圖4 科目3各分?jǐn)?shù)段評分分布
圖5 科目4各分?jǐn)?shù)段評分分布
圖6 科目5各分?jǐn)?shù)段評分分布
(3)閱卷準(zhǔn)確度
某實務(wù)科目的主觀題共四道題目,每題20分。以5000份人工評分作為學(xué)習(xí)樣本,共計11750份試卷,4×11750=47000道題。以10%(2分)的誤差率進(jìn)行控制。
四道題的智能化閱卷與人工閱卷的2分差以內(nèi)的評分一致率分別為:97.02%、98.15%、94.73%、99.06%。智能化閱卷與人工閱卷的分差統(tǒng)計如表1所示:
表1 智能化閱卷與人工閱卷分差統(tǒng)計
以10%(2分)作為誤差控制的情況下,智能化閱卷與人工閱卷的分差最大分差7分,僅有3例。出現(xiàn)智能化閱卷與人工閱卷分差大于誤差限值時,人工智能評卷系統(tǒng)將提示進(jìn)行評卷復(fù)檢。下面針對同一題目人工閱卷和智能化閱卷評出的不同分值進(jìn)行分析。
①分差分析
從表1中可以看出其中題目三的“分差>2分”一欄的百分比較其他題目高,分析其原因包括以下幾點:
a.該題目采分點較多;
b.該題目每個采分點分值高,智能化閱卷與人工閱卷評分不同時,分差也更大;
c.訓(xùn)練模型問題,針對該題目作答內(nèi)容模型無法捕捉到重要得分點的有效特征,出現(xiàn)錯評;
d.該題目評分規(guī)則比較復(fù)雜,難以形成較為統(tǒng)一的評分標(biāo)準(zhǔn)。
由以上幾點分析可以看出,智能化閱卷的訓(xùn)練模型需要根據(jù)考試作答特點,增加訓(xùn)練模型中習(xí)得多種、復(fù)雜評分規(guī)則的能力;在判斷得分方面不局限于個別關(guān)鍵詞語,不依賴于語句順序。
②誤評分析
針對該科目閱卷工作中智能化閱卷和人工閱卷產(chǎn)生的分差,對產(chǎn)生分差的題目進(jìn)行復(fù)檢。在復(fù)檢過程中,將存在的幾種誤評類型總結(jié)如下。
a.智能化閱卷與人工閱卷都錯誤:
該題包括兩問,共6分。本題目智能化閱卷與人工閱卷零分差率達(dá)到97.37%。該題目的評分對比如表2所示:
表2 考生作答評分情況對比1
按照標(biāo)準(zhǔn)答案,該考生作答內(nèi)容應(yīng)得4分;智能化閱卷與人工閱卷評分都不正確,需要修正考生得分。
b.人工閱卷錯誤:
該題共一問,共1分,零分差率達(dá)到99.06%。
表3 考生作答評分情況對比2
按照標(biāo)準(zhǔn)答案,該考生作答內(nèi)容應(yīng)得1分,需要修正考生得分。
c.智能化閱卷錯誤:
該題共兩問,共6分,零分差率達(dá)到92.62%。
表4 考生作答評分情況對比3
按照標(biāo)準(zhǔn)答案,該考生作答內(nèi)容應(yīng)得0分。
根據(jù)智能化閱卷的情況,智能化閱卷產(chǎn)生錯誤的原因可能是:模型訓(xùn)練樣本數(shù)量少,訓(xùn)練程度不夠;評分邏輯復(fù)雜,模型學(xué)習(xí)效果不能實現(xiàn)復(fù)雜評分規(guī)則;模型對考生作答內(nèi)容“理解”錯誤。
智能化閱卷作為人工閱卷的質(zhì)檢手段可以很好地檢查錯誤評分情況。人工閱卷采用雙評模式作為減少錯誤評卷控制的手段,但題目分值較低時,雙評模式對低分值的錯誤或誤差感知不明顯,智能化閱卷作為質(zhì)檢手段可以很好地幫助減少錯誤評卷。
智從本次閱卷工作看出,能化閱卷優(yōu)勢非常顯著:
(1)智能化閱卷速度快,工作效率高,大大減少人工閱卷的人力物力投入。
(2)智能化閱卷與人工閱卷一致性高,已經(jīng)具備正式閱卷工作的評分能力。
(3)智能化閱卷錯誤率低,能夠感知低分值評分錯誤,更好地保障考試的公平、公正。
(4)閱卷工作是一項保密工作,標(biāo)準(zhǔn)答案、評分標(biāo)準(zhǔn)以及考生作答內(nèi)容等都需要嚴(yán)格保密,采用智能化閱卷能夠嚴(yán)格控制保密內(nèi)容的知悉范圍,保密安全能夠得到有效控制。
智能化閱卷智有明顯的工作特點和適用范圍:
(1)能評卷適用范圍有數(shù)量限制,數(shù)量太少不適用智能評卷。本次評卷數(shù)量約5萬份,約20萬道題目。評分題目數(shù)量較少,出現(xiàn)的問題也比較少。在將來建造師考試的大規(guī)模試卷閱卷工作還應(yīng)進(jìn)行測評和調(diào)整,以發(fā)現(xiàn)更多的問題。
(2)作為訓(xùn)練模型的初始樣本篩選很重要。保留各個不同分?jǐn)?shù)段的得分樣本之外,還應(yīng)針對不同評分人群以及篩除誤評樣本之后在進(jìn)行正式閱卷。正確的、多樣的、優(yōu)秀的樣本才能在將模型訓(xùn)練成為一個擁有一定判別能力的合格 “閱卷員”。否則,模型就是一個拿著錯誤答案的“閱卷員”,無法公正共公平的完成閱卷工作。用于模型訓(xùn)練的初始樣本數(shù)量最小值和樣本篩選規(guī)則需要在技術(shù)上有更新的突破才能更廣泛的適用于閱卷工作。
適用于建造師考試閱卷工作的智能評卷模型需要有進(jìn)一步調(diào)整,首先要進(jìn)一步準(zhǔn)確“掌握”評分規(guī)則。除了對作答內(nèi)容的科學(xué)性、邏輯性等內(nèi)容進(jìn)行判斷之外,還應(yīng)包括在評判正確、錯誤之后的比較復(fù)雜的賦分規(guī)則。
其次,現(xiàn)今智能化閱卷尚未實現(xiàn)作圖題目的閱卷功能。建造師的考試是與工程實踐相結(jié)合的考核,需要對考生有作圖方面的綜合能力進(jìn)行考核。智能化閱卷需要在該方面的技術(shù)有待研究。
除此之外,智能化閱卷的訓(xùn)練模型無法完成建設(shè)工程行業(yè)知識、規(guī)范和標(biāo)準(zhǔn)的深層次內(nèi)容的累計,模型訓(xùn)練的每次學(xué)習(xí)從“零”開始。如果訓(xùn)練模型可以針對題目選擇保留知識內(nèi)容或者一直累知識,只清零賦分規(guī)則,則非常有利于復(fù)雜問題的評判。
人工閱卷工作在面對大規(guī)??荚嚂r候需要消耗大量的社會資源,智能化閱卷能夠很好的輔助閱卷工作,甚至成為正式閱卷的評卷員之一。推進(jìn)智能化閱卷的應(yīng)用將在主觀題閱卷工作中大大降低安全保密、人力、物力、方面的支出,更加綠色環(huán)保,更加高效,優(yōu)化社會資源配置,更好的保障考試的公平、公正。