胡慧婷,李建平,董振榮,白欣宇
(東北石油大學(xué) 計算機與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
隨著信息技術(shù)化被廣泛應(yīng)用于教育行業(yè),計算機輔助教學(xué)是教育領(lǐng)域的主要方向以及大趨勢[1]。在互聯(lián)網(wǎng)發(fā)展的大環(huán)境下,信息超限表現(xiàn)為信息迷航、信息爆炸、信息焦慮、信息污染等[2]。盡管網(wǎng)絡(luò)資源能夠輔助學(xué)習(xí)者學(xué)習(xí),但網(wǎng)絡(luò)中海量的數(shù)據(jù)使教育技術(shù)學(xué)專業(yè)學(xué)習(xí)者陷入信息超限,條理不清晰,學(xué)習(xí)者很難快速找到需要的信息,且不能幫助學(xué)生認(rèn)清自身的薄弱之處。因此對教育技術(shù)學(xué)文本進行自動化的細(xì)致化知識點顯得十分重要。使用結(jié)合命名實體識別(NER)教育技術(shù)學(xué),提取出教育技術(shù)學(xué)中重要的術(shù)語,能有效提高學(xué)習(xí)者的學(xué)習(xí)效率。
教育技術(shù)學(xué)專業(yè)術(shù)語知識圖譜可以從多源平臺收集整理海量信息和知識,并能將知識及其關(guān)系可視化,為提高學(xué)習(xí)者學(xué)習(xí)效率提供了極大的幫助。教育技術(shù)學(xué)專業(yè)術(shù)語知識圖譜主要包括實體抽取、關(guān)系抽取以及屬性抽取等,實體抽取又稱為命名實體識別(NER),是構(gòu)建知識圖譜的首要工作[3]。
NER是自然語言處理任務(wù)中的基本步驟之一,主要是從非結(jié)構(gòu)化文本中識別出句子中的人名、地名、機構(gòu)名等實體[4]。早期基于規(guī)則和詞典的模式匹配方法,翟菊葉等人[5]使用CRF與規(guī)則相結(jié)合的方法對中文電子病歷進行命名實體識別,但該方法的缺點是需要領(lǐng)域?qū)<抑贫ù罅康囊?guī)則,領(lǐng)域詞典需要定期維護,通用性不高,所以學(xué)者們使用機器學(xué)習(xí)方法來解決這一問題。傳統(tǒng)機器學(xué)習(xí)的命名實體識別方法主要有隱馬爾可夫模型、最大熵模型、支持向量機模型和條件隨機場模型,王紅斌等人[6]將隱馬爾可夫模型和條件隨機場模型應(yīng)用于泰語領(lǐng)域,盡管機器學(xué)習(xí)的方法避免使用手工構(gòu)造規(guī)則模板,但是繁瑣的特征工程依然需要大量人工參與。隨著深度學(xué)習(xí)近幾年的發(fā)展,由于其具有較強的泛化能力,使得命名實體識別領(lǐng)域逐漸使用該方法,取得了很好的效果[7];石春丹等人[8]提出一種基于雙向門控循環(huán)單元的實體抽取模型,該模型結(jié)合門控循環(huán)單元結(jié)構(gòu)簡單、參數(shù)更少的特點,以GRU并發(fā)進行多尺度的處理加速,從而更加快捷地完成序列數(shù)據(jù)的計算;秦婭等人[9]將CNN-BiLSTM-CRF應(yīng)用于網(wǎng)絡(luò)安全領(lǐng)域,大大提高了識別精度;Yu等人[10]采用BERT模型,提出了一種融合句子內(nèi)容和上下文信息的隱式句子模型,對輸入進行重構(gòu),有效提高了分類模型的性能;黃煒等人[11]提出了一種基于BiLSTM-CRF的涉恐信息,獲得了更高的分類準(zhǔn)確率,但在文本數(shù)據(jù)中很多字詞會根據(jù)文本語境的不同有不同的含義,該模型難以學(xué)習(xí)到字詞的不同特征;李明揚等人[12]在BiLSTM-CRF模型中加入了自注意力機制,在Weibo NER語料庫上,能夠捕捉上下文信息,提升模型的識別精度;劉鵬等人[13]在提出礦山災(zāi)害模型時,提出HIDCNN模型,采用迭代法堆疊DCNN,避免了簡單堆疊多個DCNN導(dǎo)致的模型參數(shù)量大進而使得模型訓(xùn)練困難的問題,提高了模型訓(xùn)練效率和檢測的準(zhǔn)確性。
因教育技術(shù)學(xué)專業(yè)術(shù)語識別是一種特定領(lǐng)域的命名實體識別,關(guān)于其研究相對較少,所以缺乏大量的專業(yè)語料庫。針對以上問題,該文采用自制數(shù)據(jù)集,通過人工標(biāo)注構(gòu)建實體語料;再利用BERT模型在預(yù)訓(xùn)練數(shù)據(jù)集中獲取詞向量表示,然后將詞向量輸入到BiLSTM中提取特征,最后使用CRF進行實體標(biāo)注修正后輸出。以BERT-BiLSTM-CRF的命名實體識別方法,抽取教育技術(shù)學(xué)專業(yè)術(shù)語,具有較高的準(zhǔn)確性。
由于教育技術(shù)學(xué)領(lǐng)域沒有開放的數(shù)據(jù)集,該文手動構(gòu)建了一個語料集用于研究。因《教育技術(shù)學(xué)研究方法》是教育技術(shù)學(xué)科必修課程,對學(xué)生掌握該專業(yè)的技能具有承上啟下的作用,該文以教育技術(shù)學(xué)專業(yè)教材《教育技術(shù)學(xué)研究方法》來構(gòu)建命名實體識別數(shù)據(jù)集。
根據(jù)教學(xué)大綱以及目錄,將實體分為3類:“研究概述類”、“研究方法類”與“數(shù)據(jù)分析類”。
教育技術(shù)學(xué)語料集共10 350句320 140個字,所用漢字2 150個,具體頻率如表1所示。
表1 教育技術(shù)學(xué)主干課程實體出現(xiàn)頻率
教育技術(shù)學(xué)語料通過BIO實現(xiàn)對序列數(shù)據(jù)的聯(lián)合標(biāo)注,其中,“B-”表示命名實體中的第一個字,“I-”表示命名實體中間字和結(jié)尾字,“O”表示非實體字符,教育技術(shù)學(xué)實體標(biāo)注示例如圖1所示。
圖1 實體標(biāo)注方法及實體數(shù)量
BERT-BiLSTM-CRF教育技術(shù)學(xué)領(lǐng)域術(shù)語抽取模型整體結(jié)構(gòu)如圖2所示。
圖2 BERT-BiLSTM-CRF模型
因為教育技術(shù)學(xué)主干課程實體的構(gòu)建中,文字中的內(nèi)容隱含于在上下文間、體現(xiàn)在字與字中的前后關(guān)系上。因此,首先使用2.1節(jié)生成的教育技術(shù)學(xué)命名實體識別數(shù)據(jù)庫,作為訓(xùn)練特征輸入到BERT預(yù)訓(xùn)練語言模型層中,在本模型層中被標(biāo)注的字符集語料經(jīng)過該層將每個字符轉(zhuǎn)化為低維詞向量。其次經(jīng)過BiLSTM模塊進行全局特征提取,將上一層輸出的詞向量序列輸入到這一層進行語義編碼,自動提取句子特征。最后是CRF層,利用這一層解碼輸出概率最大的預(yù)測標(biāo)簽序列,實現(xiàn)教育技術(shù)學(xué)研究方法術(shù)語的抽取。
2.2.1 BERT
因為教育技術(shù)學(xué)主干課程的知識點分布跨度大,一個知識點涉及多個知識點的概念,主要知識點層級由多個分級的知識點構(gòu)成。而BERT是一種自然語言處理預(yù)訓(xùn)練語言表征,能夠捕捉到文本語料的上下文信息,學(xué)習(xí)連續(xù)文本片段之間的關(guān)系并能夠計算詞語之間的相互關(guān)系。以BERT進行教育技術(shù)學(xué)主干課程知識點特征提取,不僅包含詞上下文的語境或語義,而且攜帶上下文語境信息的靜態(tài)詞向量。
BERT[14]預(yù)訓(xùn)練模型主要由雙向Transformer編碼結(jié)構(gòu)組成,其中Transformer由自注意機制和前饋神經(jīng)網(wǎng)絡(luò)組成,其與LSTM相比能捕捉更遠(yuǎn)距離的序列特征。
首先教育技術(shù)學(xué)語料庫向量經(jīng)過三個不同的全連接層,在Encoder部分得到Q(語料庫中當(dāng)前詞的表示)、K(Encoder中語料庫其他詞的表示)、V(Encoder中其他詞的表述)三個向量;在Decoder部分,得到解碼的Q(Decoder中當(dāng)前詞的表達)、K(Encoder結(jié)束后所有輸入詞的表達)、V(Encoder結(jié)束后所有輸入詞)三個向量;然后Q和KT進行矩陣相乘得到單詞和其他單詞相關(guān)程度的向量QKT,最后將標(biāo)準(zhǔn)化的KT放入到Softmax激活函數(shù)中,得到詞與詞之間的關(guān)聯(lián)度向量,再乘以V得到最終向量。如公式所示:
(1)
再通過多頭結(jié)構(gòu)拼接向量結(jié)果:
MultiHead(Q,K,V)=Concat(head1,…,
headh)W
(2)
(3)
2.2.2 BiLSTM
在教育技術(shù)學(xué)主干課程實體的構(gòu)建中,文字中的內(nèi)容隱含于上下文間、體現(xiàn)在字與字中的前后關(guān)系上。而BiLSTM不僅可以保存短期的輸入,對雙向的語義關(guān)系也能夠更好地捕捉。因此該模型以BiLSTM模型作為字處理器,提取單個字的信息以及輸入語句內(nèi)字與字之間的關(guān)系。
BiLSTM由前向LSTM和后向LSTM組成用以提取全局的上下文特征[15]。LSTM是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),相比于傳統(tǒng)的RNN,LSTM神經(jīng)元結(jié)構(gòu)創(chuàng)新地采用了三個門控制單元,分別為輸入門、輸出門和遺忘門[16]。
遺忘門決定遺忘神經(jīng)元中的哪些信息:對前一時刻的隱層狀態(tài)ht-1與當(dāng)前時刻的輸入詞Xt,選擇要遺忘的信息,計算方式如公式(4)所示:
ft=σ(Wxfxt+Whfht-1+bf)
(4)
其中,σ為激活函數(shù),Wxf為輸入項Xt;Whf為輸入項ht-1;Wxf和Whf組成遺忘門的權(quán)重矩陣Wf,bf為偏置項。
輸入門控制當(dāng)前信息:通過前一時刻的隱層狀態(tài)ht-1與當(dāng)前時刻的輸入詞Xt,選擇要記憶的信息,輸出記憶門的值it與臨時細(xì)胞狀態(tài)Ct,計算公式如公式(5):
it=σ(Wxixt+Whiht-1+Wcict-1+bi)
(5)
其中,Wi為權(quán)重矩陣,bi為偏置項。當(dāng)前時刻單元狀態(tài)ct,由上一次的輸出和當(dāng)前的輸入確定,如公式(6):
ct=ftct-1+ittanh(Wxcxt+Whcht-1+bc)
(6)
其中,ct-1為前一個的單元狀態(tài),ft為遺忘門。
輸出門:決定的輸出信息,計算如公式(7):
ot=σ(Wxoxt+Whoht-1+Wcoct+bo)
(7)
輸入門和單元狀態(tài)確定了長短時記憶神經(jīng)網(wǎng)絡(luò)的輸出,如公式(8):
ht=ottanh(ct)
(8)
其中,ht表示t時刻的隱藏狀態(tài),tanh是正切激活函數(shù)。通過三個門的控制,使得LSTM具有長序列特征的記憶功能,同時解決了RNN訓(xùn)練過程中出現(xiàn)的梯度消失和梯度爆炸問題。因此BiLSTM構(gòu)建模型,并根據(jù)文本中詞的分布式自動提取特征,生成上下文預(yù)測的標(biāo)簽。
2.2.3 CRF
因為BiLSTM的分類方式忽略字符對應(yīng)得分,會導(dǎo)致預(yù)測出非合法實體類型情況,而CRF的作用是對識別結(jié)果進行進一步的修正,即提取標(biāo)簽之間的依賴關(guān)系,使得識別的實體滿足標(biāo)注規(guī)則[16]。其主要的實現(xiàn)方法是給定一個輸入序列X=(x1,x2,…,xn),其對應(yīng)的預(yù)測序列為Y=(y1,y2,…,yn),通過計算Y的評分函數(shù),得到預(yù)測序列Y產(chǎn)生的概率,最后計算當(dāng)預(yù)測序列產(chǎn)生概率的似然函數(shù)為最大時的預(yù)測標(biāo)注序列作為輸出[17]。其中預(yù)測序列Y的評分函數(shù)的計算方法如公式(9)所示:
(9)
其中,X表示轉(zhuǎn)移分?jǐn)?shù)矩陣,Xyi-1,yi表示標(biāo)簽yi-1到標(biāo)簽yi的分?jǐn)?shù),Pi,yi表示第i個詞映射到標(biāo)簽yi的非歸一化概率。該文以Softmax函數(shù)來計算教育技術(shù)學(xué)語料預(yù)測序列概率p(Y|X):
(10)
兩頭取對數(shù)得到預(yù)測序列的似然函數(shù):
(11)
(12)
實驗?zāi)P偷倪\行環(huán)境為64位Ubuntu18.04操作系統(tǒng),具有實驗的訓(xùn)練環(huán)境如表2所示。
表2 實驗環(huán)境
實驗所用的數(shù)據(jù)集以教育技術(shù)學(xué)專業(yè)課本為例,對文本進行標(biāo)注,根據(jù)教學(xué)大綱以及目錄,將實體類別分為3種,分別為研究概論、研究方法以及數(shù)據(jù)分析。
該文采用準(zhǔn)確率P、召回率R和F1值3個指標(biāo)作為評價標(biāo)準(zhǔn),計算公式如公式(13)~公式(15):
(13)
(14)
(15)
從表3可以看到,文中方法P為81.72%,這是因為教育技術(shù)學(xué)領(lǐng)域中命名實體詞組合比較靈活,相較于CNN-BiLSTM-CRF神經(jīng)網(wǎng)絡(luò)模型自動學(xué)習(xí)實體特征,采用自適應(yīng)的特征模板從窗口提取的特征往往更有效。R為75.73%,F(xiàn)1值為78.61%,因為文中方法相較于BiFlaG更注重于字符級表示向量與詞嵌入向量連接,同時CRF損失函數(shù)中轉(zhuǎn)移概率矩陣可學(xué)習(xí)到很多約束的規(guī)則,使預(yù)測結(jié)果更加準(zhǔn)確。文中方法相較于IDCNN[18],能夠?qū)W習(xí)到字級詞級的特征,充分考慮到字詞在文本不同語境的不同含義,不存在深度神經(jīng)網(wǎng)絡(luò)帶來的模型有效信息衰減問題。文中方法相較于HIDCNN模型,解決了長距離依賴的問題,不僅保存了模型前后時刻的狀態(tài)信息,也保存了label之間的相互關(guān)系,因此在R值與F1值上高于HIDCNN模型。
表3 命名實體識別實驗結(jié)果
所采用的基于BERT-BiLSTM-CRF的教育技術(shù)學(xué)專業(yè)術(shù)語抽取模型在P、R和F1值3個方面都優(yōu)于其他模型。
如表4所示,僅使用BERT模型時分類精度較低,因為只通過遷移學(xué)習(xí)了通用領(lǐng)域的詞語信息,在加入了BiLSTM訓(xùn)練本文的教育技術(shù)學(xué)命名實體識別數(shù)據(jù)集后,P、R、F1值均有提高。原因有二,第一是因為文中教育技術(shù)學(xué)命名實體識別的有效性,第二是BiLSTM-CRF通過獲取詞語前后的信息融入詞語的上下文信息,可以清楚地區(qū)分語料庫中的多義詞。經(jīng)過CRF再次修正后,通過大規(guī)模語料的預(yù)訓(xùn)練,可以有效提高教育技術(shù)學(xué)領(lǐng)域命名實體的識別精度。證明了所采用的基于BERT-BiLSTM-CRF的教育技術(shù)學(xué)專業(yè)術(shù)語抽取模型的有效性。
表4 實驗結(jié)果有效性驗證
對教育技術(shù)學(xué)領(lǐng)域命名實體識別進行了研究,設(shè)計了一種基于BERT的教育技術(shù)學(xué)文本命名實體識別方法。首先根據(jù)網(wǎng)絡(luò)資料以及教育技術(shù)學(xué)主干課程的教材《教育技術(shù)學(xué)研究方法》完成了教育技術(shù)數(shù)據(jù)準(zhǔn)備工作,提出了基于“研究概述”、“研究方法”以及“數(shù)據(jù)分析”三個大類的教育技術(shù)學(xué)命名實體識別數(shù)據(jù)集。然后,根據(jù)數(shù)據(jù)集,知識點跨度大,字與字之間聯(lián)系緊密等特點,設(shè)計適用于文中的BERT-BiLSTM-CRF模型,完成對文本數(shù)據(jù)字級別的抽取,充分學(xué)習(xí)上下文的特征并且能提取出全局最優(yōu)標(biāo)注序列,最終得到教育技術(shù)學(xué)主干課程實體。在實驗中進行了驗證,為教育技術(shù)學(xué)主干課程知識圖譜的構(gòu)建提供了技術(shù)支撐。