亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于人工智能技術(shù)的二級建造師執(zhí)業(yè)資格考試智能化閱卷研究

2023-04-05 14:17:28崔冬

中華建設(shè) 2023年4期

崔冬

建造師執(zhí)業(yè)資格考試是建筑行業(yè)的重要考試之一，近年來報考人數(shù)達(dá)到百萬之眾?？荚囬喚砉ぷ髟诠?、公正、安全的前提下有序、高效地開展才能保障每名考生的權(quán)益。主觀題閱卷工作量大，工作流程復(fù)雜，持續(xù)時間長。利用人工智能技術(shù)開展智能化閱卷工作能夠大大節(jié)約社會資源，提高閱卷工作效率。本文分析了建造師考試的特點以及采用智能化閱卷的可能性，在二級建造師考試主觀題人工雙評模式閱卷工作結(jié)束后采用智能化閱卷進(jìn)行了輔助質(zhì)檢，并將智能化閱卷結(jié)果與人工閱卷結(jié)果進(jìn)行對比分析。結(jié)果表明，智能化閱卷與人工閱卷的一致性較高，可以為人工閱卷提供有效的質(zhì)量監(jiān)控。

一、智能化閱卷發(fā)展情況

人工智能技術(shù)是一門利用計算機(jī)模擬人類智能行為科學(xué)的統(tǒng)稱，它涵蓋了訓(xùn)練計算機(jī)使用其完成自主學(xué)習(xí)、判斷決策等人類行為的范疇。人工智能技術(shù)在信息處理等方面的應(yīng)用已經(jīng)非常廣泛，文字和語音識別、人工智能應(yīng)答等應(yīng)用隨處可見。在我國各類升學(xué)考試、職業(yè)技能類考試參與人數(shù)迅猛增長，主觀題閱卷工作的面臨著極大的挑戰(zhàn)，閱卷規(guī)模不斷擴(kuò)大，投入的人力、物力也在不斷增加。我國在國民經(jīng)濟(jì)和社會發(fā)展第十四個五年規(guī)劃中明確提出，要利用人工智能技術(shù)對社會資源進(jìn)行優(yōu)化整合。教育領(lǐng)域、職業(yè)技能類等考試的主觀題閱卷大規(guī)模閱卷工作可以利用人工智能技術(shù)開展智能化閱卷工作。開展智能化閱卷可以提高閱卷工作效率，提升保密安全性，優(yōu)化社會資源配置，綠色節(jié)能環(huán)保，更好的保障考試的公平、公正。

最早對于人工智能技術(shù)運用將在考試評分工作是2005年美國教育考試服務(wù)中心利用作文自動評分系統(tǒng)進(jìn)行托福考試的作文評分。我國對于利用人工智能技術(shù)進(jìn)行主觀題考試閱卷工作的研究的起步相對較晚，發(fā)展至今，已經(jīng)有在高考英語作文、語文作文等考試中作為質(zhì)檢手段進(jìn)行應(yīng)用，人工評分和人工智能評分一致率達(dá)到90%以上。職業(yè)技能類考試有全國中級會計師考試、消防工程師采用了智能化閱卷作為正式評卷手段進(jìn)行評分。在考試閱卷的工作領(lǐng)域中，智能化閱卷在技術(shù)上已經(jīng)具備了一定的基礎(chǔ)。

二、建造師考試

1. 建造師考試情況

建造師是從事建設(shè)工程項目總承包和施工管理關(guān)鍵崗位的執(zhí)業(yè)注冊人員，建造師是掌握管理、技術(shù)、經(jīng)濟(jì)、法規(guī)多方面技術(shù)的綜合型技術(shù)人員，既要具備相關(guān)的理論知識，又要有現(xiàn)場實踐經(jīng)驗和組織管理能力。建造師必須通過執(zhí)業(yè)資格考試獲得資格并注冊，才能擔(dān)任施工管理的項目施工負(fù)責(zé)人或其他符合法律規(guī)定的業(yè)務(wù)活動。建造師作為建筑行業(yè)發(fā)展的中堅力量，建造師執(zhí)業(yè)資格考試作為建筑行業(yè)準(zhǔn)入類考試，需要把握好人才選拔的標(biāo)準(zhǔn)。

建造師執(zhí)業(yè)資格考試分為綜合知識與能力和專業(yè)知識與能力兩個部分，其中，一級建造師的專業(yè)知識與能力共劃分為10個專業(yè)類別，二級建造師的專業(yè)知識與能力共劃分為6個專業(yè)類別。綜合知識與能力考試題型為客觀選擇題，專業(yè)知識與能力考試題型分為客觀選擇題和實務(wù)操作與案例分析題。實務(wù)操作與案例分析題考核內(nèi)容以考察施工現(xiàn)場實踐經(jīng)驗為主要目的，從多方面檢驗考生的知識結(jié)構(gòu)和能力。每道實務(wù)操作與案例分析題包含多個問題，根據(jù)建筑、市政、水利等各個不同專業(yè)類別需要的知識儲備進(jìn)行考核?？己说慕ㄔO(shè)工程知識能力分層次遞進(jìn)。作答內(nèi)容包括文字論述、復(fù)雜公式計算、作圖等多種類型。

2. 建造師考試閱卷

建造師執(zhí)業(yè)資格考試近年來報名人數(shù)都達(dá)到百萬人以上。建造師執(zhí)業(yè)資格考試采取人工雙評閱卷模式，主觀題閱卷工作量極大。建造師執(zhí)業(yè)資格考試的主觀題目考生作答字?jǐn)?shù)較多，每道大題的作答字?jǐn)?shù)在都在百字以上，且書寫字跡遠(yuǎn)不如高考考生的工整、好辨認(rèn)。人工閱卷工作需要在考生作答的海量內(nèi)容中篩選出有效信息，并在專業(yè)范圍內(nèi)判斷考生作答內(nèi)容的科學(xué)性和邏輯性是否與標(biāo)準(zhǔn)答案一致。閱卷工作枯燥繁瑣，且工作持續(xù)時間長，以一級建造師考試為例，閱卷工作時長至少三周。閱卷工作不僅要保障準(zhǔn)確率，同時還要做好各項安全保密措施。

人工智能技術(shù)通過深度學(xué)習(xí)能力模仿人工閱卷?，F(xiàn)今，少數(shù)有關(guān)考試采用智能化閱卷的研究已經(jīng)取得了一定成果，但針對作答內(nèi)容較為復(fù)雜的建造師執(zhí)業(yè)資格考試的主觀題閱卷工作適用程度尚未可知。本文在與建造師考試主觀題題型和作答類型相近的考試中，選取已經(jīng)采用智能化閱卷作為正式評卷員之一職業(yè)技能考試—全國中級會計師考試與建造師考試進(jìn)行比較。建造師考試題型和作答內(nèi)容在影響智能化閱卷實施效果的關(guān)鍵技術(shù)節(jié)點上依然很多不同之處：

（1）考試題型不同：會計考試題目不含作圖題目，近年一級、二級建造師考試部分科目中含有進(jìn)度計劃網(wǎng)絡(luò)圖、關(guān)系繪制等作圖要求；

（2）作答內(nèi)容復(fù)雜：會計考試提問針對性強，建造師考試考核內(nèi)容廣泛，作答內(nèi)容層次多，可能包含多個工作順序或者多個計算步驟；

（3）評判標(biāo)準(zhǔn)不同：會計考試計算題答案唯一，建造師考試計算題適用公式不唯一，計算最終結(jié)果也可能不唯一。某些建設(shè)工程知識名稱不唯一，工作順序不唯一，或者某些工程問題現(xiàn)場有多種處理辦法導(dǎo)致答案都不唯一。

與已經(jīng)采用智能化閱卷的全國中級會計師考試不同，建造師考試實施智能化閱卷還需對閱卷的適用性和閱卷效果進(jìn)行檢驗。

三、智能化閱卷應(yīng)用

1. 智能化閱卷工作開展背景

2021年度云南省開展了二級建造師執(zhí)業(yè)資格考試計算機(jī)化考試。計算機(jī)考試作答方式減少了智能化閱卷工作的開展技術(shù)上的困難，消除了由識別于作答字跡帶來的誤差。

本次考試的專業(yè)科目主觀題考核作答內(nèi)容包括文字論述、工程計算、工作順序等。智能化閱卷工作是在人工雙評模式閱卷工作完成后作為輔助質(zhì)量檢測開展的。

2. 智能化閱卷工作流程

結(jié)合二級建造師的現(xiàn)有的閱卷工作流程，智能化閱卷的工作流程如下：

（1）接收基礎(chǔ)數(shù)據(jù)：接收經(jīng)過保密處理的考生編碼和考生作答信息，進(jìn)行數(shù)據(jù)檢驗和核查。

（2）接收人工閱卷據(jù)：接收部分由人工產(chǎn)生的閱卷數(shù)據(jù)，進(jìn)行數(shù)據(jù)校驗。

（3）樣本選擇和模型訓(xùn)練：從產(chǎn)生人工閱卷的樣本中抽取訓(xùn)練樣本，抽選的樣本按不同分?jǐn)?shù)段抽取有代表性的樣本進(jìn)行多模型訓(xùn)練，在驗證集上進(jìn)行模型優(yōu)選。

（4）智能化閱卷：利用優(yōu)選的模型對考生作答內(nèi)容進(jìn)行評分，形成智能化閱卷評分?jǐn)?shù)據(jù)。

（5）提交復(fù)合卷：將智能化閱卷評分?jǐn)?shù)據(jù)反饋至專家組進(jìn)行復(fù)審。

（6）統(tǒng)計分析：對全部考生數(shù)據(jù)的智能化閱卷評分?jǐn)?shù)據(jù)、人工閱卷數(shù)據(jù)進(jìn)行綜合分析，形成智能化閱卷報告。

3. 智能化閱卷效果

以二級建造師計算機(jī)化考試答卷作為智能化閱卷軟件的閱卷能力進(jìn)行檢測，針對閱卷時長、閱卷信度、閱卷準(zhǔn)確度等方面進(jìn)行分析對比。本次測試的試卷份數(shù)約5萬份，包含五個專業(yè)科目約20萬道試題。

（1）閱卷時長

智能化閱卷選取模型訓(xùn)練樣本，訓(xùn)練完成后進(jìn)行正式閱卷。單科目約4萬道試題從模型訓(xùn)練到完成閱卷需要大約2小時；多科目閱卷工作可同時進(jìn)行，20萬道試題單評模式閱卷花費時長約3～4小時，雙評模式不超過8小時。相同的工作采用人工閱卷雙評模式的工作時長約為23小時。采用智能化閱卷的工作時間大大縮短，不到人工閱卷花費時間的一半，效率非常高。人工閱卷工作中由于試卷量大導(dǎo)致工作持續(xù)長，不可避免地帶來評分準(zhǔn)確率下降和效率降低等問題。采用智能化閱卷輔助閱卷工作能夠幫助避免以上問題的發(fā)生。

（2）閱卷信度分析

信度是指測量結(jié)果的穩(wěn)定性程度。使用同一工具反復(fù)測量，多次測量結(jié)果間的一致性就被稱為信度。信度高的測量是不因操作者或者操作時間等方面發(fā)生變化而使得測量結(jié)果發(fā)生較大變化。

評分者間信度是指多個評分者對同一批考生的答卷進(jìn)行評分的一致性程度。智能化閱卷的信度高，則說明智能化閱卷與人工閱卷的評分一致性較高時，能夠說明智能化閱卷已經(jīng)成功掌握標(biāo)準(zhǔn)答案和評分規(guī)則，已經(jīng)具備正式閱卷工作的評分能力。

本文將基于經(jīng)典測量理論選擇評分者信度的測量方法，根據(jù)評分人數(shù)、數(shù)據(jù)類型選擇Spearman相關(guān)和Pearson積差相關(guān)進(jìn)行智能化閱卷的評分信度進(jìn)行測量。本文采用SPSS軟件針對五個專業(yè)科目的四道主觀題智能化閱卷評分值和人工閱卷評分值進(jìn)行了數(shù)據(jù)分析，結(jié)果如圖1所示。

圖1 五科目Spearman相關(guān)和Pearson積差數(shù)據(jù)

由圖1可得知，五個實務(wù)科目的Spearman相關(guān)和Pearson積差數(shù)值均在0.9以上。當(dāng)數(shù)值越接近1時，智能化閱卷和人工閱卷的評分一致性越高。

由人工閱卷與智能化閱卷的各分?jǐn)?shù)段評分分布的情況也能夠直觀的看出，智能化閱卷和人工閱卷的評分趨勢非常接近，一致性高。

圖2 科目1各分?jǐn)?shù)段評分分布圖

圖3 科目2各分?jǐn)?shù)段評分分布

圖4 科目3各分?jǐn)?shù)段評分分布

圖5 科目4各分?jǐn)?shù)段評分分布

圖6 科目5各分?jǐn)?shù)段評分分布

（3）閱卷準(zhǔn)確度

某實務(wù)科目的主觀題共四道題目，每題20分。以5000份人工評分作為學(xué)習(xí)樣本，共計11750份試卷，4×11750=47000道題。以10%（2分）的誤差率進(jìn)行控制。

四道題的智能化閱卷與人工閱卷的2分差以內(nèi)的評分一致率分別為：97.02%、98.15%、94.73%、99.06%。智能化閱卷與人工閱卷的分差統(tǒng)計如表1所示：

表1 智能化閱卷與人工閱卷分差統(tǒng)計

以10%（2分）作為誤差控制的情況下，智能化閱卷與人工閱卷的分差最大分差7分，僅有3例。出現(xiàn)智能化閱卷與人工閱卷分差大于誤差限值時，人工智能評卷系統(tǒng)將提示進(jìn)行評卷復(fù)檢。下面針對同一題目人工閱卷和智能化閱卷評出的不同分值進(jìn)行分析。

①分差分析

從表1中可以看出其中題目三的“分差＞2分”一欄的百分比較其他題目高，分析其原因包括以下幾點：

a.該題目采分點較多；

b.該題目每個采分點分值高，智能化閱卷與人工閱卷評分不同時，分差也更大；

c.訓(xùn)練模型問題，針對該題目作答內(nèi)容模型無法捕捉到重要得分點的有效特征，出現(xiàn)錯評；

d.該題目評分規(guī)則比較復(fù)雜，難以形成較為統(tǒng)一的評分標(biāo)準(zhǔn)。

由以上幾點分析可以看出，智能化閱卷的訓(xùn)練模型需要根據(jù)考試作答特點，增加訓(xùn)練模型中習(xí)得多種、復(fù)雜評分規(guī)則的能力；在判斷得分方面不局限于個別關(guān)鍵詞語，不依賴于語句順序。

②誤評分析

針對該科目閱卷工作中智能化閱卷和人工閱卷產(chǎn)生的分差，對產(chǎn)生分差的題目進(jìn)行復(fù)檢。在復(fù)檢過程中，將存在的幾種誤評類型總結(jié)如下。

a.智能化閱卷與人工閱卷都錯誤：

該題包括兩問，共6分。本題目智能化閱卷與人工閱卷零分差率達(dá)到97.37%。該題目的評分對比如表2所示：

表2 考生作答評分情況對比1

按照標(biāo)準(zhǔn)答案，該考生作答內(nèi)容應(yīng)得4分；智能化閱卷與人工閱卷評分都不正確，需要修正考生得分。

b.人工閱卷錯誤：

該題共一問，共1分，零分差率達(dá)到99.06%。

表3 考生作答評分情況對比2

按照標(biāo)準(zhǔn)答案，該考生作答內(nèi)容應(yīng)得1分，需要修正考生得分。

c.智能化閱卷錯誤：

該題共兩問，共6分，零分差率達(dá)到92.62%。

表4 考生作答評分情況對比3

按照標(biāo)準(zhǔn)答案，該考生作答內(nèi)容應(yīng)得0分。

根據(jù)智能化閱卷的情況，智能化閱卷產(chǎn)生錯誤的原因可能是：模型訓(xùn)練樣本數(shù)量少，訓(xùn)練程度不夠；評分邏輯復(fù)雜，模型學(xué)習(xí)效果不能實現(xiàn)復(fù)雜評分規(guī)則；模型對考生作答內(nèi)容“理解”錯誤。

智能化閱卷作為人工閱卷的質(zhì)檢手段可以很好地檢查錯誤評分情況。人工閱卷采用雙評模式作為減少錯誤評卷控制的手段，但題目分值較低時，雙評模式對低分值的錯誤或誤差感知不明顯，智能化閱卷作為質(zhì)檢手段可以很好地幫助減少錯誤評卷。

四、結(jié)論與展望

智從本次閱卷工作看出，能化閱卷優(yōu)勢非常顯著：

（1）智能化閱卷速度快，工作效率高，大大減少人工閱卷的人力物力投入。

（2）智能化閱卷與人工閱卷一致性高，已經(jīng)具備正式閱卷工作的評分能力。

（3）智能化閱卷錯誤率低，能夠感知低分值評分錯誤，更好地保障考試的公平、公正。

（4）閱卷工作是一項保密工作，標(biāo)準(zhǔn)答案、評分標(biāo)準(zhǔn)以及考生作答內(nèi)容等都需要嚴(yán)格保密，采用智能化閱卷能夠嚴(yán)格控制保密內(nèi)容的知悉范圍，保密安全能夠得到有效控制。

智能化閱卷智有明顯的工作特點和適用范圍：

（1）能評卷適用范圍有數(shù)量限制，數(shù)量太少不適用智能評卷。本次評卷數(shù)量約5萬份，約20萬道題目。評分題目數(shù)量較少，出現(xiàn)的問題也比較少。在將來建造師考試的大規(guī)模試卷閱卷工作還應(yīng)進(jìn)行測評和調(diào)整，以發(fā)現(xiàn)更多的問題。

（2）作為訓(xùn)練模型的初始樣本篩選很重要。保留各個不同分?jǐn)?shù)段的得分樣本之外，還應(yīng)針對不同評分人群以及篩除誤評樣本之后在進(jìn)行正式閱卷。正確的、多樣的、優(yōu)秀的樣本才能在將模型訓(xùn)練成為一個擁有一定判別能力的合格 “閱卷員”。否則，模型就是一個拿著錯誤答案的“閱卷員”，無法公正共公平的完成閱卷工作。用于模型訓(xùn)練的初始樣本數(shù)量最小值和樣本篩選規(guī)則需要在技術(shù)上有更新的突破才能更廣泛的適用于閱卷工作。

適用于建造師考試閱卷工作的智能評卷模型需要有進(jìn)一步調(diào)整，首先要進(jìn)一步準(zhǔn)確“掌握”評分規(guī)則。除了對作答內(nèi)容的科學(xué)性、邏輯性等內(nèi)容進(jìn)行判斷之外，還應(yīng)包括在評判正確、錯誤之后的比較復(fù)雜的賦分規(guī)則。

其次，現(xiàn)今智能化閱卷尚未實現(xiàn)作圖題目的閱卷功能。建造師的考試是與工程實踐相結(jié)合的考核，需要對考生有作圖方面的綜合能力進(jìn)行考核。智能化閱卷需要在該方面的技術(shù)有待研究。

除此之外，智能化閱卷的訓(xùn)練模型無法完成建設(shè)工程行業(yè)知識、規(guī)范和標(biāo)準(zhǔn)的深層次內(nèi)容的累計，模型訓(xùn)練的每次學(xué)習(xí)從“零”開始。如果訓(xùn)練模型可以針對題目選擇保留知識內(nèi)容或者一直累知識，只清零賦分規(guī)則，則非常有利于復(fù)雜問題的評判。

人工閱卷工作在面對大規(guī)?？荚嚂r候需要消耗大量的社會資源，智能化閱卷能夠很好的輔助閱卷工作，甚至成為正式閱卷的評卷員之一。推進(jìn)智能化閱卷的應(yīng)用將在主觀題閱卷工作中大大降低安全保密、人力、物力、方面的支出，更加綠色環(huán)保，更加高效，優(yōu)化社會資源配置，更好的保障考試的公平、公正。