亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于BERT模型的教育技術(shù)學(xué)領(lǐng)域?qū)嶓w抽取

        2022-10-24 01:39:42胡慧婷李建平董振榮白欣宇
        計算機技術(shù)與發(fā)展 2022年10期
        關(guān)鍵詞:文本信息模型

        胡慧婷,李建平,董振榮,白欣宇

        (東北石油大學(xué) 計算機與信息技術(shù)學(xué)院,黑龍江 大慶 163318)

        0 引 言

        隨著信息技術(shù)化被廣泛應(yīng)用于教育行業(yè),計算機輔助教學(xué)是教育領(lǐng)域的主要方向以及大趨勢[1]。在互聯(lián)網(wǎng)發(fā)展的大環(huán)境下,信息超限表現(xiàn)為信息迷航、信息爆炸、信息焦慮、信息污染等[2]。盡管網(wǎng)絡(luò)資源能夠輔助學(xué)習(xí)者學(xué)習(xí),但網(wǎng)絡(luò)中海量的數(shù)據(jù)使教育技術(shù)學(xué)專業(yè)學(xué)習(xí)者陷入信息超限,條理不清晰,學(xué)習(xí)者很難快速找到需要的信息,且不能幫助學(xué)生認(rèn)清自身的薄弱之處。因此對教育技術(shù)學(xué)文本進行自動化的細(xì)致化知識點顯得十分重要。使用結(jié)合命名實體識別(NER)教育技術(shù)學(xué),提取出教育技術(shù)學(xué)中重要的術(shù)語,能有效提高學(xué)習(xí)者的學(xué)習(xí)效率。

        教育技術(shù)學(xué)專業(yè)術(shù)語知識圖譜可以從多源平臺收集整理海量信息和知識,并能將知識及其關(guān)系可視化,為提高學(xué)習(xí)者學(xué)習(xí)效率提供了極大的幫助。教育技術(shù)學(xué)專業(yè)術(shù)語知識圖譜主要包括實體抽取、關(guān)系抽取以及屬性抽取等,實體抽取又稱為命名實體識別(NER),是構(gòu)建知識圖譜的首要工作[3]。

        1 相關(guān)研究

        NER是自然語言處理任務(wù)中的基本步驟之一,主要是從非結(jié)構(gòu)化文本中識別出句子中的人名、地名、機構(gòu)名等實體[4]。早期基于規(guī)則和詞典的模式匹配方法,翟菊葉等人[5]使用CRF與規(guī)則相結(jié)合的方法對中文電子病歷進行命名實體識別,但該方法的缺點是需要領(lǐng)域?qū)<抑贫ù罅康囊?guī)則,領(lǐng)域詞典需要定期維護,通用性不高,所以學(xué)者們使用機器學(xué)習(xí)方法來解決這一問題。傳統(tǒng)機器學(xué)習(xí)的命名實體識別方法主要有隱馬爾可夫模型、最大熵模型、支持向量機模型和條件隨機場模型,王紅斌等人[6]將隱馬爾可夫模型和條件隨機場模型應(yīng)用于泰語領(lǐng)域,盡管機器學(xué)習(xí)的方法避免使用手工構(gòu)造規(guī)則模板,但是繁瑣的特征工程依然需要大量人工參與。隨著深度學(xué)習(xí)近幾年的發(fā)展,由于其具有較強的泛化能力,使得命名實體識別領(lǐng)域逐漸使用該方法,取得了很好的效果[7];石春丹等人[8]提出一種基于雙向門控循環(huán)單元的實體抽取模型,該模型結(jié)合門控循環(huán)單元結(jié)構(gòu)簡單、參數(shù)更少的特點,以GRU并發(fā)進行多尺度的處理加速,從而更加快捷地完成序列數(shù)據(jù)的計算;秦婭等人[9]將CNN-BiLSTM-CRF應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,大大提高了識別精度;Yu等人[10]采用BERT模型,提出了一種融合句子內(nèi)容和上下文信息的隱式句子模型,對輸入進行重構(gòu),有效提高了分類模型的性能;黃煒等人[11]提出了一種基于BiLSTM-CRF的涉恐信息,獲得了更高的分類準(zhǔn)確率,但在文本數(shù)據(jù)中很多字詞會根據(jù)文本語境的不同有不同的含義,該模型難以學(xué)習(xí)到字詞的不同特征;李明揚等人[12]在BiLSTM-CRF模型中加入了自注意力機制,在Weibo NER語料庫上,能夠捕捉上下文信息,提升模型的識別精度;劉鵬等人[13]在提出礦山災(zāi)害模型時,提出HIDCNN模型,采用迭代法堆疊DCNN,避免了簡單堆疊多個DCNN導(dǎo)致的模型參數(shù)量大進而使得模型訓(xùn)練困難的問題,提高了模型訓(xùn)練效率和檢測的準(zhǔn)確性。

        因教育技術(shù)學(xué)專業(yè)術(shù)語識別是一種特定領(lǐng)域的命名實體識別,關(guān)于其研究相對較少,所以缺乏大量的專業(yè)語料庫。針對以上問題,該文采用自制數(shù)據(jù)集,通過人工標(biāo)注構(gòu)建實體語料;再利用BERT模型在預(yù)訓(xùn)練數(shù)據(jù)集中獲取詞向量表示,然后將詞向量輸入到BiLSTM中提取特征,最后使用CRF進行實體標(biāo)注修正后輸出。以BERT-BiLSTM-CRF的命名實體識別方法,抽取教育技術(shù)學(xué)專業(yè)術(shù)語,具有較高的準(zhǔn)確性。

        2 模型設(shè)計

        2.1 教育技術(shù)學(xué)文本語料特征分析

        由于教育技術(shù)學(xué)領(lǐng)域沒有開放的數(shù)據(jù)集,該文手動構(gòu)建了一個語料集用于研究。因《教育技術(shù)學(xué)研究方法》是教育技術(shù)學(xué)科必修課程,對學(xué)生掌握該專業(yè)的技能具有承上啟下的作用,該文以教育技術(shù)學(xué)專業(yè)教材《教育技術(shù)學(xué)研究方法》來構(gòu)建命名實體識別數(shù)據(jù)集。

        根據(jù)教學(xué)大綱以及目錄,將實體分為3類:“研究概述類”、“研究方法類”與“數(shù)據(jù)分析類”。

        教育技術(shù)學(xué)語料集共10 350句320 140個字,所用漢字2 150個,具體頻率如表1所示。

        表1 教育技術(shù)學(xué)主干課程實體出現(xiàn)頻率

        教育技術(shù)學(xué)語料通過BIO實現(xiàn)對序列數(shù)據(jù)的聯(lián)合標(biāo)注,其中,“B-”表示命名實體中的第一個字,“I-”表示命名實體中間字和結(jié)尾字,“O”表示非實體字符,教育技術(shù)學(xué)實體標(biāo)注示例如圖1所示。

        圖1 實體標(biāo)注方法及實體數(shù)量

        2.2 整體框架

        BERT-BiLSTM-CRF教育技術(shù)學(xué)領(lǐng)域術(shù)語抽取模型整體結(jié)構(gòu)如圖2所示。

        圖2 BERT-BiLSTM-CRF模型

        因為教育技術(shù)學(xué)主干課程實體的構(gòu)建中,文字中的內(nèi)容隱含于在上下文間、體現(xiàn)在字與字中的前后關(guān)系上。因此,首先使用2.1節(jié)生成的教育技術(shù)學(xué)命名實體識別數(shù)據(jù)庫,作為訓(xùn)練特征輸入到BERT預(yù)訓(xùn)練語言模型層中,在本模型層中被標(biāo)注的字符集語料經(jīng)過該層將每個字符轉(zhuǎn)化為低維詞向量。其次經(jīng)過BiLSTM模塊進行全局特征提取,將上一層輸出的詞向量序列輸入到這一層進行語義編碼,自動提取句子特征。最后是CRF層,利用這一層解碼輸出概率最大的預(yù)測標(biāo)簽序列,實現(xiàn)教育技術(shù)學(xué)研究方法術(shù)語的抽取。

        2.2.1 BERT

        因為教育技術(shù)學(xué)主干課程的知識點分布跨度大,一個知識點涉及多個知識點的概念,主要知識點層級由多個分級的知識點構(gòu)成。而BERT是一種自然語言處理預(yù)訓(xùn)練語言表征,能夠捕捉到文本語料的上下文信息,學(xué)習(xí)連續(xù)文本片段之間的關(guān)系并能夠計算詞語之間的相互關(guān)系。以BERT進行教育技術(shù)學(xué)主干課程知識點特征提取,不僅包含詞上下文的語境或語義,而且攜帶上下文語境信息的靜態(tài)詞向量。

        BERT[14]預(yù)訓(xùn)練模型主要由雙向Transformer編碼結(jié)構(gòu)組成,其中Transformer由自注意機制和前饋神經(jīng)網(wǎng)絡(luò)組成,其與LSTM相比能捕捉更遠(yuǎn)距離的序列特征。

        首先教育技術(shù)學(xué)語料庫向量經(jīng)過三個不同的全連接層,在Encoder部分得到Q(語料庫中當(dāng)前詞的表示)、K(Encoder中語料庫其他詞的表示)、V(Encoder中其他詞的表述)三個向量;在Decoder部分,得到解碼的Q(Decoder中當(dāng)前詞的表達)、K(Encoder結(jié)束后所有輸入詞的表達)、V(Encoder結(jié)束后所有輸入詞)三個向量;然后Q和KT進行矩陣相乘得到單詞和其他單詞相關(guān)程度的向量QKT,最后將標(biāo)準(zhǔn)化的KT放入到Softmax激活函數(shù)中,得到詞與詞之間的關(guān)聯(lián)度向量,再乘以V得到最終向量。如公式所示:

        (1)

        再通過多頭結(jié)構(gòu)拼接向量結(jié)果:

        MultiHead(Q,K,V)=Concat(head1,…,

        headh)W

        (2)

        (3)

        2.2.2 BiLSTM

        在教育技術(shù)學(xué)主干課程實體的構(gòu)建中,文字中的內(nèi)容隱含于上下文間、體現(xiàn)在字與字中的前后關(guān)系上。而BiLSTM不僅可以保存短期的輸入,對雙向的語義關(guān)系也能夠更好地捕捉。因此該模型以BiLSTM模型作為字處理器,提取單個字的信息以及輸入語句內(nèi)字與字之間的關(guān)系。

        BiLSTM由前向LSTM和后向LSTM組成用以提取全局的上下文特征[15]。LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),相比于傳統(tǒng)的RNN,LSTM神經(jīng)元結(jié)構(gòu)創(chuàng)新地采用了三個門控制單元,分別為輸入門、輸出門和遺忘門[16]。

        遺忘門決定遺忘神經(jīng)元中的哪些信息:對前一時刻的隱層狀態(tài)ht-1與當(dāng)前時刻的輸入詞Xt,選擇要遺忘的信息,計算方式如公式(4)所示:

        ft=σ(Wxfxt+Whfht-1+bf)

        (4)

        其中,σ為激活函數(shù),Wxf為輸入項Xt;Whf為輸入項ht-1;Wxf和Whf組成遺忘門的權(quán)重矩陣Wf,bf為偏置項。

        輸入門控制當(dāng)前信息:通過前一時刻的隱層狀態(tài)ht-1與當(dāng)前時刻的輸入詞Xt,選擇要記憶的信息,輸出記憶門的值it與臨時細(xì)胞狀態(tài)Ct,計算公式如公式(5):

        it=σ(Wxixt+Whiht-1+Wcict-1+bi)

        (5)

        其中,Wi為權(quán)重矩陣,bi為偏置項。當(dāng)前時刻單元狀態(tài)ct,由上一次的輸出和當(dāng)前的輸入確定,如公式(6):

        ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)

        (6)

        其中,ct-1為前一個的單元狀態(tài),ft為遺忘門。

        輸出門:決定的輸出信息,計算如公式(7):

        ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

        (7)

        輸入門和單元狀態(tài)確定了長短時記憶神經(jīng)網(wǎng)絡(luò)的輸出,如公式(8):

        ht=ottanh(ct)

        (8)

        其中,ht表示t時刻的隱藏狀態(tài),tanh是正切激活函數(shù)。通過三個門的控制,使得LSTM具有長序列特征的記憶功能,同時解決了RNN訓(xùn)練過程中出現(xiàn)的梯度消失和梯度爆炸問題。因此BiLSTM構(gòu)建模型,并根據(jù)文本中詞的分布式自動提取特征,生成上下文預(yù)測的標(biāo)簽。

        2.2.3 CRF

        因為BiLSTM的分類方式忽略字符對應(yīng)得分,會導(dǎo)致預(yù)測出非合法實體類型情況,而CRF的作用是對識別結(jié)果進行進一步的修正,即提取標(biāo)簽之間的依賴關(guān)系,使得識別的實體滿足標(biāo)注規(guī)則[16]。其主要的實現(xiàn)方法是給定一個輸入序列X=(x1,x2,…,xn),其對應(yīng)的預(yù)測序列為Y=(y1,y2,…,yn),通過計算Y的評分函數(shù),得到預(yù)測序列Y產(chǎn)生的概率,最后計算當(dāng)預(yù)測序列產(chǎn)生概率的似然函數(shù)為最大時的預(yù)測標(biāo)注序列作為輸出[17]。其中預(yù)測序列Y的評分函數(shù)的計算方法如公式(9)所示:

        (9)

        其中,X表示轉(zhuǎn)移分?jǐn)?shù)矩陣,Xyi-1,yi表示標(biāo)簽yi-1到標(biāo)簽yi的分?jǐn)?shù),Pi,yi表示第i個詞映射到標(biāo)簽yi的非歸一化概率。該文以Softmax函數(shù)來計算教育技術(shù)學(xué)語料預(yù)測序列概率p(Y|X):

        (10)

        兩頭取對數(shù)得到預(yù)測序列的似然函數(shù):

        (11)

        (12)

        3 實驗分析

        3.1 實驗環(huán)境

        實驗?zāi)P偷倪\行環(huán)境為64位Ubuntu18.04操作系統(tǒng),具有實驗的訓(xùn)練環(huán)境如表2所示。

        表2 實驗環(huán)境

        3.2 數(shù)據(jù)集與評價指標(biāo)

        實驗所用的數(shù)據(jù)集以教育技術(shù)學(xué)專業(yè)課本為例,對文本進行標(biāo)注,根據(jù)教學(xué)大綱以及目錄,將實體類別分為3種,分別為研究概論、研究方法以及數(shù)據(jù)分析。

        該文采用準(zhǔn)確率P、召回率R和F1值3個指標(biāo)作為評價標(biāo)準(zhǔn),計算公式如公式(13)~公式(15):

        (13)

        (14)

        (15)

        3.3 實驗結(jié)果與分析

        從表3可以看到,文中方法P為81.72%,這是因為教育技術(shù)學(xué)領(lǐng)域中命名實體詞組合比較靈活,相較于CNN-BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型自動學(xué)習(xí)實體特征,采用自適應(yīng)的特征模板從窗口提取的特征往往更有效。R為75.73%,F(xiàn)1值為78.61%,因為文中方法相較于BiFlaG更注重于字符級表示向量與詞嵌入向量連接,同時CRF損失函數(shù)中轉(zhuǎn)移概率矩陣可學(xué)習(xí)到很多約束的規(guī)則,使預(yù)測結(jié)果更加準(zhǔn)確。文中方法相較于IDCNN[18],能夠?qū)W習(xí)到字級詞級的特征,充分考慮到字詞在文本不同語境的不同含義,不存在深度神經(jīng)網(wǎng)絡(luò)帶來的模型有效信息衰減問題。文中方法相較于HIDCNN模型,解決了長距離依賴的問題,不僅保存了模型前后時刻的狀態(tài)信息,也保存了label之間的相互關(guān)系,因此在R值與F1值上高于HIDCNN模型。

        表3 命名實體識別實驗結(jié)果

        所采用的基于BERT-BiLSTM-CRF的教育技術(shù)學(xué)專業(yè)術(shù)語抽取模型在P、R和F1值3個方面都優(yōu)于其他模型。

        如表4所示,僅使用BERT模型時分類精度較低,因為只通過遷移學(xué)習(xí)了通用領(lǐng)域的詞語信息,在加入了BiLSTM訓(xùn)練本文的教育技術(shù)學(xué)命名實體識別數(shù)據(jù)集后,P、R、F1值均有提高。原因有二,第一是因為文中教育技術(shù)學(xué)命名實體識別的有效性,第二是BiLSTM-CRF通過獲取詞語前后的信息融入詞語的上下文信息,可以清楚地區(qū)分語料庫中的多義詞。經(jīng)過CRF再次修正后,通過大規(guī)模語料的預(yù)訓(xùn)練,可以有效提高教育技術(shù)學(xué)領(lǐng)域命名實體的識別精度。證明了所采用的基于BERT-BiLSTM-CRF的教育技術(shù)學(xué)專業(yè)術(shù)語抽取模型的有效性。

        表4 實驗結(jié)果有效性驗證

        4 結(jié)束語

        對教育技術(shù)學(xué)領(lǐng)域命名實體識別進行了研究,設(shè)計了一種基于BERT的教育技術(shù)學(xué)文本命名實體識別方法。首先根據(jù)網(wǎng)絡(luò)資料以及教育技術(shù)學(xué)主干課程的教材《教育技術(shù)學(xué)研究方法》完成了教育技術(shù)數(shù)據(jù)準(zhǔn)備工作,提出了基于“研究概述”、“研究方法”以及“數(shù)據(jù)分析”三個大類的教育技術(shù)學(xué)命名實體識別數(shù)據(jù)集。然后,根據(jù)數(shù)據(jù)集,知識點跨度大,字與字之間聯(lián)系緊密等特點,設(shè)計適用于文中的BERT-BiLSTM-CRF模型,完成對文本數(shù)據(jù)字級別的抽取,充分學(xué)習(xí)上下文的特征并且能提取出全局最優(yōu)標(biāo)注序列,最終得到教育技術(shù)學(xué)主干課程實體。在實驗中進行了驗證,為教育技術(shù)學(xué)主干課程知識圖譜的構(gòu)建提供了技術(shù)支撐。

        猜你喜歡
        文本信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        如何快速走進文本
        語文知識(2014年1期)2014-02-28 21:59:13
        人妻夜夜爽天天爽一区| 国产在线精品观看一区二区三区| 美女很黄很色国产av| 午夜福利一区二区三区在线观看| 亚洲av熟妇高潮30p| 亚洲国产成人久久综合三区| 无色码中文字幕一本久道久| 美女不带套日出白浆免费视频| 久久久久亚洲精品天堂| 亚洲国产精品综合福利专区 | 欧美人成在线播放网站免费| 中文字幕日韩一区二区不卡| 亚洲男人天堂黄色av| 精品麻豆国产色欲色欲色欲www| 国产福利小视频在线观看| 亚洲一区二区视频免费看| 四虎成人精品在永久免费| 中文字幕无码不卡一区二区三区 | 精品人妻va一区二区三区| 亚洲精品无人区| 国产精品亚洲A∨天堂不卡| 亚洲一区二区三区码精品色| 色综合久久久久综合体桃花网| 亚洲男同志网站| 日本色偷偷| 亚洲av乱码一区二区三区人人| 人妻夜夜爽天天爽三区麻豆av网站| 在线免费观看国产精品| 一本色道久久88综合| 国产免费av手机在线观看片| 午夜三级a三级三点| 国产在线视频h| 亚洲福利二区三区四区| 人妻无码一区二区不卡无码av| 中文字幕免费观看视频| 色视频日本一区二区三区| 欧美大片va欧美在线播放| 国产精品麻豆欧美日韩ww| 精品国产亚洲av麻豆尤物| 亚洲视频免费一区二区| 久久久久久国产精品无码超碰动画 |