亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT-BiLSTM模型的短文本自動評分系統(tǒng)

        2022-05-20 03:11:12夏林中葉劍鋒羅德安管明祥劉俊曹雪梅
        關(guān)鍵詞:子集短文語義

        夏林中,葉劍鋒,羅德安,管明祥,劉俊,曹雪梅

        深圳信息職業(yè)技術(shù)學(xué)院人工智能技術(shù)應(yīng)用工程實驗室,廣東深圳 518172

        短文本自動評分是指使用計算機(jī)對人工問題的語言文本進(jìn)行自動評分,由于回答問題的語言文本長度一般都較簡短,所以稱為短文本.近年來,隨著教育信息化水平的不斷提升,學(xué)生借助各種智能終端、互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)進(jìn)行同步學(xué)習(xí),學(xué)習(xí)過程中會產(chǎn)生大量的過程性語言文本信息.為進(jìn)一步提升學(xué)習(xí)效果,需要對這些過程性語言文本信息進(jìn)行實時分析,并及時向?qū)W生反饋分析評價結(jié)果,工作量非常大[1].文本自動評價的機(jī)器學(xué)習(xí)算法通過統(tǒng)計分析文本的字?jǐn)?shù)、單詞數(shù)、拼寫錯誤數(shù)、單詞平均字母數(shù)、句子數(shù)及詞頻-逆文本頻率指數(shù)(term frequency-inverse document frequency,TF-IDF)等特征來評價文本,可用于實時分析學(xué)習(xí)中產(chǎn)生的大量過程性語言文本信息.目前基于該思路的商用文本評分器主要包括 PEG(project essay grader)[2]和E-rater(electronic essay rater)[3],其應(yīng)用效果好,但無法抽取文本的語義特征.潛在語義分析(latent semantic analysis,LSA)算法[4]不僅能獲取文本的語義特征,還能解決同義詞問題,但計算消耗資源量大,無法獲取文本詞序信息.LDA(latent Dirichlet allocation)主題模型[5]很好解決了捕獲文本詞序信息的問題,其計算資源消耗也比LSA小.然而,上述各類算法對于文本深層語義信息與上下文關(guān)聯(lián)信息的挖掘能力非常有限.

        近些年深度神經(jīng)網(wǎng)絡(luò)(deep neural networks,DNN)算法在文本分析中得到廣泛應(yīng)用[6],其深層語義信息及上下文關(guān)聯(lián)信息的挖掘能力促進(jìn)了文本自動評分的發(fā)展[7].DNN算法中最重要的是如何通過詞向量表達(dá)文本[8],使用較多的詞向量獲取方法包括Word2Vec[9]、C&W[10]及GloVe[11]等.用獲取的詞向量表示文本并作為DNN 的輸入,從而實現(xiàn)對文本評分.DNN 主要分為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN),RNN 捕捉較短上下文依賴關(guān)系的能力非常強(qiáng),但上下文之間的距離越長,RNN 的捕捉能力就越弱.RNN 改進(jìn)型的長短時記憶(long short-term memory,LSTM)神經(jīng)網(wǎng)絡(luò)模型[12]更擅長捕捉長距離的上下文依賴關(guān)系信息[13].雙向長短時記憶(bidirectional LSTM,BiLSTM)神經(jīng)網(wǎng)絡(luò)由前后兩個方向的LSTM組合而成,能夠捕捉當(dāng)前詞與上下文的依賴關(guān)系,從而更好地執(zhí)行文本評分任務(wù)[14-15].

        BERT(bidirectional encoder representations from transformers)[16]模型是 Google 公司提出的一種基于深度學(xué)習(xí)的語言表示模型,在11 種不同的自然語言處理測試任務(wù)中效果最佳,其中也包括文本分類任務(wù)[17-18].基于BERT 模型的文本分類主要包括預(yù)訓(xùn)練(pre-training)和預(yù)微調(diào)(fine-tuning)兩個過程,前者利用大規(guī)模未經(jīng)標(biāo)注的文本語料進(jìn)行自監(jiān)督訓(xùn)練,有效學(xué)習(xí)文本語言特征及深層次文本向量表示,從而形成預(yù)訓(xùn)練BERT 模型;預(yù)微調(diào)則直接通過預(yù)訓(xùn)練好的BERT 模型作為起始模型,根據(jù)文本分類任務(wù)的特點,輸入人工標(biāo)注好的數(shù)據(jù)集,完成模型的進(jìn)一步擬合與收斂.本研究結(jié)合BiLSTM 與BERT模型的優(yōu)點,建立BERT-BiLSTM短文本自動評分模型,并針對已人工標(biāo)注好的短文本數(shù)據(jù)集進(jìn)行分析,克服了文本較短且因用語偏口語化帶來的特征稀疏與一詞多義問題.

        1 基于BERT-BiLSTM 短文本自動評分模型

        為解決短文本特征稀疏的問題,采用BiLSTM模型捕獲隱藏于上下文深度語義依賴關(guān)系中的更多特征;短文本的語義針對性強(qiáng),一詞多義現(xiàn)象普遍,采用BERT模型能夠較好解決這一問題.

        1.1 BiLSTM網(wǎng)絡(luò)層

        BiLSTM模型由1個正向LSTM與1個反向LSTM疊加而成,其具體結(jié)構(gòu)如圖1.其中,x1,x2,…,xN為輸入詞向量;為t時刻正向LSTM 隱藏層的輸出向量,由當(dāng)前時刻輸入向量xt和前一時刻的正向LSTM 輸出向量共同確定,記為為t時刻反向LSTM 隱藏層的輸出向量,由當(dāng)前xt和前一時刻反向 LSTM 輸出共同確定,記為ht為t時刻的BiLSTM 模型輸出,由共同確定的 , 記 為其 中 ,wt為 正 向LSTM輸出的權(quán)重矩陣;vt為反向LSTM輸出的權(quán)重矩陣;bt為權(quán)重矩陣的偏置.

        圖1 BiLSTM模型結(jié)構(gòu)Fig.1 The architecture of the BiLSTM model

        1.2 BERT語言模型

        BERT模型是一種旨在取代或改進(jìn)RNN或CNN的全新架構(gòu),其基于注意力機(jī)制對文本數(shù)據(jù)進(jìn)行建模[19].如圖2所示,BERT模型采用12或24層雙向Transformer 編碼結(jié)構(gòu),其中,E1,E2,…,EN為輸入向量;T1,T2,…,TN為經(jīng)過多層 Transformer 編碼器后的輸出向量.BERT 通過大規(guī)模語料對模型進(jìn)行預(yù)訓(xùn)練,獲取適應(yīng)通用自然語言處理任務(wù)的模型網(wǎng)絡(luò)參數(shù),再使用當(dāng)前任務(wù)的文本數(shù)據(jù)對預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)進(jìn)行預(yù)微調(diào),使模型適應(yīng)當(dāng)前任務(wù).

        圖2 BERT模型結(jié)構(gòu)Fig.2 The architecture of the BERT model

        1.2.1 Transformer編碼器結(jié)構(gòu)

        如圖3 所示,Transformer 編碼器結(jié)構(gòu)包括自注意力機(jī)制(self-attention)和前饋(feed forward)神經(jīng)網(wǎng)絡(luò)單元,單元之間設(shè)計殘差連接層(add&normal).Transformer 是一個基于自注意力機(jī)制的Seq2seq 模型,BERT 模型主要使用Seq2seq 的Encoder 部分.自注意力機(jī)制單元是Transformer編碼器的核心,其計算每個詞與其所在句子中所有詞的相互關(guān)系,據(jù)此調(diào)整每個詞的權(quán)重,從而獲取每個詞新的向量表達(dá)式.Encoder 的輸入是文本的詞向量表示(X1、X2)及每個詞的位置信息,將自注意力機(jī)制單元的輸出進(jìn)行相加和歸一化處理,使輸出具有固定均值(大小為0)和標(biāo)準(zhǔn)差(大小為1).歸一化后的向量傳入前饋神經(jīng)網(wǎng)絡(luò)進(jìn)行殘差處理和歸一化輸出.

        圖3 Transformer編碼器結(jié)構(gòu)Fig.3 The architecture of the Transformer encoder

        1.2.2 BERT模型的輸入表示

        BERT 模型的輸入由標(biāo)記嵌入、分段嵌入和位置嵌入部分疊加表示,如圖4.其中,標(biāo)記嵌入為第1 個標(biāo)志是E[CLS]的詞向量,其初始值可隨機(jī)產(chǎn)生,E[SEP]為句子間的分隔標(biāo)志;分段嵌入為區(qū)分不同句子向量;位置嵌入表示文本中每個詞的位置信息.可見,BERT 模型的輸入向量不僅含有短文本語義信息,還包括了不同句子之間的區(qū)分信息與每個詞的位置信息.

        圖4 BERT模型的輸入Fig.4 Input of the BERT model

        1.2.3 BERT模型的預(yù)訓(xùn)練與預(yù)微調(diào)

        BERT 模型的預(yù)訓(xùn)練過程使用大規(guī)模未經(jīng)標(biāo)注過的文本語料,經(jīng)過充分自監(jiān)督訓(xùn)練后有效學(xué)習(xí)文本的通用語言特征,得到深層次文本詞向量表示,并獲得預(yù)訓(xùn)練模型.具有邏輯關(guān)系與的優(yōu)點.預(yù)訓(xùn)練過程的掩藏語言模型(masked language model,MLM)依據(jù)上下文語義信息對隨機(jī)掩蓋的詞進(jìn)行預(yù)測,可以更好學(xué)習(xí)上下文內(nèi)容特征;下一句預(yù)測(next sentence predication,NSP)[20]為每個句子的句首和句尾分別插入[CLS]和[SEP]標(biāo)簽,通過學(xué)習(xí)句子間的關(guān)系特征預(yù)測兩個句子的位置是否相鄰.

        預(yù)微調(diào)過程直接將預(yù)訓(xùn)練獲取的網(wǎng)絡(luò)參數(shù)作為模型起始,根據(jù)下游任務(wù)輸入人工標(biāo)注好的數(shù)據(jù)集,使BERT 模型得到進(jìn)一步擬合與收斂,得到可用于下游任務(wù)的深度學(xué)習(xí)模型.

        1.3 BERT-BiLSTM模型

        本研究設(shè)計基于BERT-BiLSTM 的短文本自動評分模型,由BERT層和BiLSTM層構(gòu)成,如圖5.其中,為 BiLSTM 層反向 LSTM 隱藏層狀態(tài);為 BiLSTM 層正向 LSTM 隱藏層狀態(tài) ;T1,T2,…,TN為 BERT 層輸出向量;C為BERT短文本級輸出向量;E1,E2,…,EN為BERT層詞向量輸入;E[CLS]為BERT層自動添加的短文本開頭表示符號;Tok1,Tok2,…,TokN為短文本輸入;[CLS]為隨機(jī)賦予初值的短文本開頭;Softmax回歸模型通過分析輸入特征向量來對短文本進(jìn)行分類.BERT 模型針對大規(guī)模語料庫的預(yù)訓(xùn)練可以習(xí)得通用語言的語義特征,針對已標(biāo)注的短文本數(shù)據(jù)集微調(diào)BERT 模型參數(shù),以適應(yīng)短文本數(shù)據(jù)集的語義特點.本研究使用的短文本數(shù)據(jù)集中,有些詞的語義與其在通用語言中的語義存在差異,而BERT 模型的輸出可以根據(jù)上下文信息特點進(jìn)行調(diào)整,即同一詞語在不同上下文中對應(yīng)的向量編碼輸出不同,這樣就可以解決一詞多義的問題.BiLSTM 模型能夠從前向和后向獲取字詞與上下文的語義關(guān)聯(lián)信息,進(jìn)而捕獲深層次的上下文依賴關(guān)系.

        圖5 基于BERT-BiLSTM的短文本自動評分模型結(jié)構(gòu)Fig.5 The architecture of the short text automatic scoring model based on BERT-BiLSTM

        2 實驗與分析

        2.1 實驗設(shè)置

        2.1.1 數(shù)據(jù)集

        實驗使用的短文本數(shù)據(jù)集包括訓(xùn)練集和測試集,由Hewlett 基金會提供.訓(xùn)練集和測試集分別包含17 207 篇和5 224 篇已人工評分的短文本,實驗從訓(xùn)練集中隨機(jī)抽取20%的短文本作為校驗集.訓(xùn)練集和測試集分別由10個子集組成,見表1.

        表1 短文本數(shù)據(jù)集Table 1 Short text dataset

        2.1.2 評價指標(biāo)與參數(shù)設(shè)置

        本研究采用二次加權(quán)kappa(quadratic weighted kappa,QWK)系數(shù)[21]κ評估預(yù)測分?jǐn)?shù)與專家打分的一致性,且0 ≤κ≤1.κ= 0 表示作文不同評分之間的一致性完全隨機(jī);κ= 1 表示作文不同評分之間的一致性完全相同.在預(yù)訓(xùn)練好的BERT 模型基礎(chǔ)上,采用Adam 優(yōu)化器對短文本數(shù)據(jù)集進(jìn)行預(yù)微調(diào),學(xué)習(xí)率設(shè)置為2 × 10-5,權(quán)重衰減系數(shù)設(shè)置為1 × 10-5.

        2.2 實驗結(jié)果與討論

        將本研究BERT-BiLSTM模型的κ值與基準(zhǔn)模型CharCNN(character-level CNN)、 CNN、 LSTM 和BERT 進(jìn)行對比,結(jié)果見表2.所有模型均使用相同的數(shù)據(jù)集,訓(xùn)練集與測試集的短文本篇數(shù)相同.

        表2 BERT-BiLSTM模型與基準(zhǔn)模型的κ值對比1)Table 2 The quadratic weighted kappa coefficients comparison between BERT-BiLSTM model and benchmark models

        表2中的合并集表示將子集1至子集10合并為1 個大集合.可見,對比CharCNN、CNN 和LSTM模型,BERT 與 BERT-BiLSTM 的模型的κ值最優(yōu);相比BERT 模型,BERT-BiLSTM 模型在子集1、2、5、8、9 及10 上的κ值分別提升了6%、9%、8%、4%、2% 及1%;對比其他所有模型,BERTBiLSTM 模型的κ平均值最高.因此,BERTBiLSTM模型短文本自動評分的整體性能最優(yōu).

        由表2 還可見,子集3 的κ值最低,這是因為子集3為開放式英語語言文學(xué)問題,回答短文本多為學(xué)生根據(jù)自己的理解對相關(guān)語句進(jìn)行的解釋,因此,特征不明顯.該子集的上下文關(guān)聯(lián)信息較少,人工評分員在該子集上的評分一致性也很低.

        結(jié) 語

        本研究提出基于BERT-BiLSTM 的短文本自動評分模型,通過BERT 語言模型表示短文本向量、BiLSTM 捕獲短文本的上下文信息深層依賴關(guān)系,提升了短文本自動評分性能.實驗結(jié)果表明,本模型不僅在短文本數(shù)據(jù)集的子集上取得最好的自動評分效果,其整體自動評分性能也優(yōu)于其他基準(zhǔn)模型.后續(xù)研究將在本模型的句子表征上融入標(biāo)點符號及情感詞等位置信息,以豐富短文本的句子向量特征表示,并設(shè)計出更高效、簡潔的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提高短文本自動評分效果.

        猜你喜歡
        子集短文語義
        由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
        拓?fù)淇臻g中緊致子集的性質(zhì)研究
        語言與語義
        關(guān)于奇數(shù)階二元子集的分離序列
        KEYS
        Keys
        “上”與“下”語義的不對稱性及其認(rèn)知闡釋
        每一次愛情都只是愛情的子集
        都市麗人(2015年4期)2015-03-20 13:33:22
        認(rèn)知范疇模糊與語義模糊
        短文改錯
        久久久久成人亚洲综合精品| 色综合久久五月天久久久| 中文字幕一区二区网址| 国产精品女直播一区二区| 极品嫩模高潮叫床| 国产乱视频| 偷拍一区二区三区在线观看| 中文字幕一区二区三区综合网| 国产极品美女高潮无套| 免费观看又色又爽又黄的| 亚洲AV无码成人品爱| 亚洲精品中文字幕乱码三区99 | 久久视频在线视频精品| 亚洲美女毛多水多免费视频| 欧美日韩国产精品自在自线| 婷婷成人亚洲| 国产一区二区三区免费小视频 | 内射中出后入内射极品女神视频| 日韩人妻另类中文字幕 | 国产亚洲亚洲精品视频| 91九色成人蝌蚪首页| 亚洲熟妇av一区| 欧美国产日韩a在线视频| 国产精品一区二区AV不卡| 午夜国产精品视频在线观看| 国产成人av一区二区三区在线观看| 影音先锋每日av色资源站| 免费一级欧美大片久久网| 亚洲国产成人精品一区刚刚| 美女免费观看一区二区三区| 精品国产麻豆免费人成网站 | 麻豆国产精品久久天堂| 国产精品99精品久久免费| 国产97在线 | 亚洲| 亚州无线国产2021| 人妻少妇中文字幕久久hd高清| 一本加勒比hezyo无码专区 | 亚洲伊人久久一次| 中文字幕天天躁日日躁狠狠| 国产精品一二三区亚洲| 丝袜美腿亚洲一区二区|