亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于相似度組合的主觀題評分方法研究

        2021-09-26 06:34肖靈云劉軍庫
        關(guān)鍵詞:主觀題語義向量

        肖靈云,劉軍庫

        (廣東海洋大學(xué)寸金學(xué)院 智能制造學(xué)院,廣東 湛江 524000)

        隨著互聯(lián)網(wǎng)技術(shù)、信息技術(shù)和經(jīng)濟(jì)的發(fā)展速度的提高,對現(xiàn)代教育以及企業(yè)的影響逐漸顯現(xiàn)出來,使得現(xiàn)代教育及企業(yè)的變革迎來了新的機(jī)遇及挑戰(zhàn)。在現(xiàn)代教育教學(xué)中,許多現(xiàn)代化教育手段(如線上授課、在線考試等)被普遍應(yīng)用于日常教學(xué)中[1]。通過自動評分系統(tǒng)的應(yīng)用,教師不僅可以減少閱卷的工作量,而且可以使閱卷結(jié)果更加公平公正[2]。在企業(yè)發(fā)展的過程中,企業(yè)進(jìn)行招聘人員及日??己思芭嘤?xùn)時,需要進(jìn)行考試。尤其是經(jīng)過疫情之后,現(xiàn)代教育中的線上授課及線上考試現(xiàn)象更加普遍,企業(yè)的招聘和日常測試的試題也轉(zhuǎn)到了線上。隨之而來的問題就更加明顯,如何對主觀題進(jìn)行自動評分,就成為困擾教師和企業(yè)考核者的難題。

        考試作為一種選拔人才及檢測考生水平的工具,普遍被用在學(xué)校、企業(yè)中,考試的題型主要有客觀題和主觀題??荚囍袑τ趩芜x題、多選題等的自動批改技術(shù)已經(jīng)較成熟,而主觀題自動評分方法涉及了自然語言處理、人工智能等多方面的理論知識,使得主觀題的評分難度增加。目前的主觀題評分方式仍采用人工方式,不僅時間耗量大、工作量大,而且不同批閱者之間的評分標(biāo)準(zhǔn)有差異,易受改卷人主觀因素影響,造成評分偏差,體現(xiàn)不出考試的公平性。因此,研究并實(shí)現(xiàn)主觀題自動評分系統(tǒng),能提高教師批改試卷的效率及公平性。

        由于主觀題題型的復(fù)雜性,目前還沒有完善且成熟的主觀題自動評分系統(tǒng)。而在已有的主觀題自動評分系統(tǒng)中,其可用性與實(shí)際的需求差距還很大。因此,對于主觀題的自動評分,不僅是當(dāng)前亟需解決的問題,也是一件難度很大的問題。通過對文本、語義、關(guān)鍵詞等方法計(jì)算主觀題相似度進(jìn)行研究,發(fā)現(xiàn)文本相似度、語義相似度、關(guān)鍵詞相似度計(jì)算算法都存在著不同的短板。文本語義所包含的信息較多,能夠代表文本所表達(dá)的整體意思,但這種方法有時會忽略掉關(guān)鍵詞的作用;語句語義能夠準(zhǔn)確地提取語句的信息,但容易忽略掉語句與前后文之間的關(guān)聯(lián);關(guān)鍵詞相似度能夠以更小的單位提取信息,但僅依據(jù)一些關(guān)鍵詞,往往會將語句信息和文本信息忽略掉,而且會存在只寫出關(guān)鍵詞就能得高分的弊端,如果這種弊端被考生利用,那么評分也就沒有意義。

        針對這些不足,本文對主觀題自動評分方法進(jìn)行研究,所涉及的核心技術(shù)是基于相似度組合的方法來計(jì)算考生得分。它涉及到人工智能(artificial intelligence,AI)、自然語言處理(natuarl language processing,NLP)等多方面理論知識[3],以及一些自然語言范疇的先進(jìn)關(guān)鍵技術(shù)。在理論意義上,將相似度組合模型應(yīng)用在主觀題自動評分上,擴(kuò)展了主觀題評分模型;在應(yīng)用意義上,可以積累主觀題自動評分的經(jīng)驗(yàn),為后續(xù)進(jìn)一步深入研究主觀題的自動評分提供一定的借鑒與參考。

        1 相關(guān)技術(shù)

        文本向量化的作用主要是將文本轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),即將文本用可以表達(dá)文本語義信息的向量來表示。對文本向量化的很多探究都是在Word2vec(詞向量化)的基礎(chǔ)上來完成,而Doc2vec(段向量化或句向量化)是將文本段落或句子作為文本處理的基礎(chǔ)單元進(jìn)行處理。這里僅介紹Doc2vec模型。

        1.1 Doc2vec模型

        基于分布假說理論,Word2vec能夠較好地挖掘出文本中詞語所蘊(yùn)含的潛在的語義信息,能夠計(jì)算詞語與詞語之間的相似度、句子與句子之間或其他長文本之間的相似度。由于該方法沒有將文本中的語序信息考慮進(jìn)去,從而也就丟失了很多的主要信息,所以Word2vec技術(shù)存在不足之處。

        Doc2vec技術(shù)中包含的模型有DM和DBOW兩種[4]。在DM模型中,增加了一個段向量,該段向量與詞向量的長度相同,也就是說該模型中上下文所包含的范圍更廣泛。它既涵蓋了文本中上下文中的單詞,又涵蓋了其所對應(yīng)的段落。它可以通過文本中上下文中的詞向量和段向量,對目標(biāo)詞的概率分布進(jìn)行預(yù)測。而且在對文本進(jìn)行向量訓(xùn)練的過程中,在DM模型中增加了一個paragraph ID,首先將其映射成一個向量。在后面的計(jì)算中,可以將段落向量與詞向量進(jìn)行累加,也可以將它們連接起來,并將其輸入給softmax層。在對文本中的語句或者整個文檔進(jìn)行訓(xùn)練時,要保證paragraph ID是固定的,它不發(fā)生改變,共同使用同一個paragraph vector,相當(dāng)于每次在預(yù)測目標(biāo)詞的概率時,都用到了該句子的整體語義信息。在對文本進(jìn)行預(yù)測時,需要給待預(yù)測的語句新分配一個paragraph ID,輸入到詞向量和輸出層softmax的參數(shù),應(yīng)該與訓(xùn)練階段得到的參數(shù)保持一致;然后利用隨機(jī)梯度下降算法對待預(yù)測的語句進(jìn)行訓(xùn)練;等誤差達(dá)到一定的要求,收斂后,即得到待預(yù)測語句的段向量。DM模型示意圖如圖1所示。

        圖1 DM模型示意圖Fig.1 Schematic diagram of DM model

        DBOW模型在只給出某個段落的情景下,應(yīng)用DBOW模型預(yù)測相應(yīng)段落中的一些隨機(jī)詞的概率。DBOW模型示意圖如圖2所示。

        圖2 DBOW模型示意圖Fig.2 Schematic diagram of DBOW model

        應(yīng)用Doc2vec技術(shù)既可以將文本中的語義信息進(jìn)一步提取出來,又能將文本中的語序信息有效保留。

        1.2 文本相似度技術(shù)

        本文采用余弦相似度[5-6]來計(jì)算考生提交的答案和參考答案之間的相似度,其中以參考答案作為標(biāo)準(zhǔn)。將考生答案和參考答案進(jìn)行段向量化,依據(jù)兩個文本答案的向量之間夾角的余弦值大小,評估兩個文本向量之間的相似程度,計(jì)算公式如式(1)所示:

        (1)

        其中,sim表示相似度,M為已給出的參考答案中文本的語義信息段向量,N為考生提交的答案中文本的語義信息段向量,θ為文本向量M和N之間的夾角,Mi、Ni為文本向量M、N中的各個分向量,n為各個分向量的總個數(shù)。

        2 基于相似度組合的評分方法

        通過分析對比基于TF-IDF相似度算法、Word2vec語義相似度及Doc2vec文本相似度算法,發(fā)現(xiàn)各種算法中存在的問題。為了充分應(yīng)用各種算法的優(yōu)點(diǎn),構(gòu)建了一種基于相似度組合的主觀題(簡答題、論述題)自動評分模型。

        2.1 基于Doc2vec計(jì)算文本相似度

        利用Doc2vec計(jì)算文本相似度的原理為:通過文本中上下文中的詞向量和段向量,對目標(biāo)詞的概率分布進(jìn)行預(yù)測,并利用該向量計(jì)算文本相似度。具體步驟如下:1)對文本進(jìn)行預(yù)處理;2)將文本向量化;3)進(jìn)行文本相似度計(jì)算。

        基于Doc2vec計(jì)算文本相似度的具體算法如圖3所示:

        圖3 基于Doc2vec計(jì)算文本相似度的具體算法Fig.3 Specific algorithm of text similarity calculation algorithm based on Doc2vec

        2.2 評分模型構(gòu)建

        評分模型構(gòu)建的思想為:1)考慮整體語義的準(zhǔn)確性;2)將文本、語義、關(guān)鍵詞相似度3種方法組合起來使用,并設(shè)置閥值,通過靈活調(diào)節(jié)閥值的大小來保證評分的公平性,閥值為C,取值范圍為[0.85,0.99]。本文設(shè)置的閥值為0.9。依次計(jì)算參考答案與考生答案的文本相似度、語義相似度及關(guān)鍵詞相似度。如果任一種算法的相似度值達(dá)到0.9,則將該考生答案判為滿分(該道題的分值);如果這3種算法的相似度值都低于0.9,則從這3種相似度中選擇最大的相似度值作為該考生答案的最終相似度值,并計(jì)算出考生的得分。構(gòu)建的評分模型如式(2)所示,構(gòu)建的評分模型流程如圖4所示。

        圖4 評分模型流程Fig.4 Scoring model flow

        (2)

        式中,yi為第i道題的評分,C為設(shè)置的閥值,Si為第i道題的分值,sim為相似度。

        3 實(shí)驗(yàn)數(shù)據(jù)收集與評價指標(biāo)

        3.1 實(shí)驗(yàn)數(shù)據(jù)集

        本文以《系統(tǒng)建模與仿真》考試中的簡答題、論述題構(gòu)建試題庫,共165道題目。55名考生參加考試, 155道題選自《系統(tǒng)建模與仿真》試題庫。通過考生答題情況,收集有效數(shù)據(jù)1 539份,作為實(shí)驗(yàn)數(shù)據(jù)集。將考生作答的答案輸入系統(tǒng)中,并由老師對簡答題、論述題進(jìn)行人工評分及系統(tǒng)自動評分,將評分結(jié)果存儲到系統(tǒng)中。

        3.2 實(shí)驗(yàn)評價指標(biāo)

        本文采用平均值、方差及偏離率3個指標(biāo)來衡量相似度組合評分與人工評分的一致程度。平均值的計(jì)算公式為

        (3)

        方差是指數(shù)據(jù)點(diǎn)的離散程度。其數(shù)學(xué)定義為

        (4)

        本文采用的偏差率是指實(shí)際值比理論值或者估計(jì)值的偏差程度[7],用于表征實(shí)驗(yàn)效果的好壞情況。偏差率計(jì)算公式為

        (5)

        (6)

        式中,D為偏差率,Davg為平均偏差率。

        3.3 實(shí)驗(yàn)結(jié)果分析與對比

        為了驗(yàn)證提出的基于相似度組合的主觀題自動評分方法的有效性、準(zhǔn)確率及實(shí)用性,以《系統(tǒng)建模與仿真》試題作為實(shí)驗(yàn)數(shù)據(jù),并將評分結(jié)果與傳統(tǒng)方法的評分結(jié)果進(jìn)行對比。

        1 539份《系統(tǒng)建模與仿真》試題利用本文構(gòu)建的基于相似度組合自動評分模型進(jìn)行評分,并與基于Word2vec算法評分、基于TF_IDF算法評分、基于Doc2vec算法評分進(jìn)行對比,然后再分別與人工評分進(jìn)行兩兩對比。表1僅展示了4種自動評分方法與人工評分結(jié)果對比的部分?jǐn)?shù)據(jù)。這幾種算法計(jì)算的簡答題、論述題的自動評分結(jié)果(共1 539份)的平均值、方差比較如表2所示。自動評分結(jié)果的偏差率比較如表3所示。

        表1 4種自動評分方法與人工評分結(jié)果對比表Tab.1 Analysis of four automatic scoring methods and manual scoring results

        表2 自動評分結(jié)果比較Tab.2 Automatic scoring result comparison

        表3 自動評分結(jié)果偏差率(D)Tab.3 Deviation rate(D) of automatic scoring results

        由表2可知,相對于其他評分方法,本文所提出的評分方法計(jì)算得到的分?jǐn)?shù)與人工評分的分?jǐn)?shù)最吻合。本文提出的算法,能夠準(zhǔn)確進(jìn)行整體文本語義分析,有效提高文本相似度計(jì)算的準(zhǔn)確性。而其他評分方法無法準(zhǔn)確分析文本語義信息,得到的評分結(jié)果與教師評分的結(jié)果就有較大的偏差。說明基于相似度組合算法評分較穩(wěn)定,評分效果較好。

        從表3,更能進(jìn)一步說明本文提出的基于相似度組合算法的評分是有效的,與其他幾種算法的自動評分結(jié)果相比,基于相似度組合算法自動評分結(jié)果的平均偏差率為0.199,偏差率波動范圍為1。

        4 結(jié)束語

        本文以《系統(tǒng)建模與仿真》的主觀題試題作為數(shù)據(jù)集,研究中文主觀題自動評分問題。針對文本相似度、語義相似度、關(guān)鍵詞相似度的不足,提出一種新的主觀題評分模型,實(shí)現(xiàn)了一個主觀題評分系統(tǒng)。

        采用本文構(gòu)建的基于相似度組合的主觀題評分模型進(jìn)行主觀題自動評分,通過對比分析,得出評分模型的評分結(jié)果波動性較小,穩(wěn)定性較好,說明提出的評分模型是可行有效的。由于構(gòu)建實(shí)驗(yàn)數(shù)據(jù)集需耗費(fèi)大量的人力,導(dǎo)致實(shí)驗(yàn)所使用的數(shù)據(jù)集的科目范圍較少,無法全面地評估主觀題自動化評分方法的有效性及普適性。因此,如何構(gòu)建一個文本覆蓋面廣、涉及多領(lǐng)域的評分?jǐn)?shù)據(jù)集,將是后續(xù)的一個研究方向。

        猜你喜歡
        主觀題語義向量
        淺談高中政治“認(rèn)識類”主觀題答題技巧
        真實(shí)場景水下語義分割方法及數(shù)據(jù)集
        極坐標(biāo)方程主觀題考點(diǎn)分析
        向量的分解
        高考政治主觀題對學(xué)生思維能力的考查
        聚焦“向量與三角”創(chuàng)新題
        向量垂直在解析幾何中的應(yīng)用
        “吃+NP”的語義生成機(jī)制研究
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        漢語依憑介詞的語義范疇
        免费欧洲毛片a级视频老妇女| 精品国产自拍在线视频| 国产无套粉嫩白浆内精| 国产午夜视频在线观看免费| 国产福利精品一区二区| 久久久窝窝午夜精品| 国产成年无码久久久久下载| 丰满又紧又爽又丰满视频| 玩弄白嫩少妇xxxxx性| 欧美国产成人精品一区二区三区| 国产亚洲欧美在线播放网站| 亚洲av成人永久网站一区| 亚洲无av在线中文字幕| 无码人妻少妇色欲av一区二区 | 亚洲国产精品久久久久久网站| 人妻熟女中文字幕在线视频| 国产99一区二区三区四区| 亚洲av无码xxx麻豆艾秋| 亚州AV无码乱码精品国产| 国产大屁股白浆一区二区三区| 男人吃奶摸下挵进去啪啪软件| 色偷偷久久一区二区三区| 亚洲国产欧美久久香综合| 在线观看国产一区二区av | 少妇高潮久久蜜柚av| 亚洲色成人www永久在线观看| 欧美在线区| 色婷婷一区二区三区77| 18禁裸体动漫美女无遮挡网站| 成在人线av无码免观看麻豆| 高潮喷水无遮挡毛片视频| 中文字幕人妻久久久中出| 青青国产揄拍视频| 亚洲a∨天堂男人无码| 日韩伦理av一区二区三区| 亚洲av中文无码乱人伦在线视色| 成人免费网站视频www| 亚洲伊人久久综合精品| 精品少妇一区二区av免费观看| 人人澡人人澡人人看添av| 久久久亚洲精品午夜福利|