亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

面向中文基礎(chǔ)教育知識圖譜的關(guān)系抽取模型

2021-03-03 09:24:26單婭輝田迎張龑

湖北大學(xué)學(xué)報(自然科學(xué)版) 2021年2期

單婭輝，田迎，張龑

(1.湖北大學(xué)計算機與信息工程學(xué)院，湖北武漢 430062;2.湖北省教育信息化工程技術(shù)研究中心，湖北武漢 430062;3.績效評價信息管理研究中心(湖北大學(xué))，湖北武漢 430062)

0 引言

隨著我國信息技術(shù)的發(fā)展，通過新興技術(shù)來直接或間接影響傳統(tǒng)教育教學(xué)方式，已成為教育信息化的新熱點.2012年，Google提出“Google Knowledge Graph”后，知識圖譜在各個領(lǐng)域受到了廣泛的關(guān)注，其中教育領(lǐng)域知識圖譜更是在近年來成為研究熱點.在構(gòu)建中文教育領(lǐng)域知識圖譜的過程中，面對急劇增長的數(shù)據(jù)，中文實體關(guān)系抽取成為其中的難點之一.

傳統(tǒng)的關(guān)系抽取方法主要包括兩類，一類是基于規(guī)則匹配的方法，另一類是基于深度學(xué)習(xí)的方法.其中基于規(guī)則匹配的方法是定義了一種表達實體關(guān)系的規(guī)則模版，然后在數(shù)據(jù)中找到與該模版相匹配的實體及關(guān)系.該方式對數(shù)據(jù)要求較高且靈活性很差[1]，已逐漸被深度學(xué)習(xí)的方法所取代.基于深度學(xué)習(xí)的方法目前流行的包括有監(jiān)督的方法和遠程監(jiān)督的方法[2].其中，有監(jiān)督的關(guān)系抽取方法主要是利用深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)模型能夠自動學(xué)習(xí)文本的特征，改善了經(jīng)典方法中需要人工特征選擇的缺點[3].遠程監(jiān)督的關(guān)系抽取方法是將大量無標(biāo)注的數(shù)據(jù)自動對準(zhǔn)已標(biāo)注的知識庫來自動標(biāo)注數(shù)據(jù)來提高關(guān)系抽取的效率.該方法的前提是，如果兩個實體間存在已定義的某種關(guān)系，那么所有包含這兩個實體的文本都存在該關(guān)系[4].Mintz等[5]提出使用Freebase知識庫與維基百科中的文本來對齊，獲取實體及其關(guān)系的三元組.在該前提下，基于遠程監(jiān)督的關(guān)系抽取能夠自動獲取大量的訓(xùn)練實例，但是同時也不可避免地存在許多噪聲數(shù)據(jù).王斌等[6]用遠程監(jiān)督的方法進行關(guān)系抽取時，通過采用LDA(latent dirichlet allocation)模型、對比類型相似度和對關(guān)鍵詞進行模式匹配去噪.Surdeanu等[7]提出加入多標(biāo)簽來減少噪聲數(shù)據(jù)對關(guān)系抽取性能的影響.Lin等[8]提出在加入注意力機制在訓(xùn)練過程中通過動態(tài)調(diào)整各實例的權(quán)重來降低噪聲數(shù)據(jù)的權(quán)重，從而減少錯誤實例對關(guān)系抽取模型性能的影響.

以上方式大多是基于英文語料或者中文通用語料上[9]提出的模型，而在中文教育領(lǐng)域，楊玉基等[10]提出在構(gòu)建領(lǐng)域知識圖譜過程中使用有監(jiān)督、無監(jiān)督、遠程監(jiān)督多種方法來進行關(guān)系抽取，最后使用大量人工標(biāo)注來獲取高質(zhì)量數(shù)據(jù)，耗費時間精力.黃煥等[11]在構(gòu)建java知識圖譜的過程中采用人工定義關(guān)系類型，且在識別實體關(guān)系的過程中采用手工標(biāo)注關(guān)系的方式，雖然保證了數(shù)據(jù)的準(zhǔn)確性，但適用性不強.本研究提出的實體關(guān)系抽取模型適用于中文基礎(chǔ)教育中的科目，將高質(zhì)量的教材教輔通過文本處理成已標(biāo)注的知識庫，通過遠程監(jiān)督能夠獲取大量數(shù)據(jù)并自動標(biāo)注，加入的句子層注意力更能有效減少噪聲數(shù)據(jù)對于關(guān)系抽取性能的影響.

1 遠程監(jiān)督構(gòu)建關(guān)系語料庫

由于中文領(lǐng)域公開的可供使用的數(shù)據(jù)很少，而基礎(chǔ)教育領(lǐng)域的就更少見，所以首先利用教育部發(fā)布的基礎(chǔ)教育的教材教輔，將其轉(zhuǎn)換成可供使用的電子文本；然后結(jié)合網(wǎng)絡(luò)爬蟲從百度百科上獲取的網(wǎng)頁數(shù)據(jù)，通過預(yù)處理得到關(guān)系實體對以及包含實體對的文本集；最后選取其中一部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)對關(guān)系抽取模型進行訓(xùn)練，另一部分作為測試數(shù)據(jù)來檢測模型關(guān)系抽取的效果.構(gòu)建流程如圖1所示.

圖1 構(gòu)建流程

1.1 構(gòu)建信息技術(shù)知識庫基于教育部發(fā)布的基礎(chǔ)教育中信息技術(shù)學(xué)科的教材教輔，利用OCR技術(shù)將圖像中的文字轉(zhuǎn)換成文本格式存儲，使用詞頻-逆向文件頻率[12](term frequency-inverse document frequency，TF-IDF)算法和 TextRank[13]算法對文本集進行關(guān)鍵詞抽取，TF-IDF算法是一個統(tǒng)計詞語在該文件中的重要程度的方法，其核心思想是詞語的重要性與它在該文件中出現(xiàn)的次數(shù)成正比，同時與它在語料庫中出現(xiàn)的次數(shù)成反比.TF-IDF算法考慮了詞語出現(xiàn)的頻率等因素，但是沒有考慮與其他詞語的關(guān)聯(lián)性，而TextRank算法就考慮到了詞語之間的關(guān)聯(lián)程度.TextRank算法起源于Google團隊的PageRank算法，其核心思想是，如果網(wǎng)頁節(jié)點代表一個字詞，那么這個詞語的重要性與連接其他詞語的多少和與它連接的詞語權(quán)值的高低成正比.

分別使用以上兩種算法對文本進行關(guān)鍵詞提取，得到了“數(shù)據(jù)庫”“信息安全”“信息資源管理”“計算機病毒”等核心概念，但同時也得到了一些出現(xiàn)頻率高，卻不是核心概念的詞，如“學(xué)生”“方法”“過程”等.結(jié)合信息技術(shù)領(lǐng)域?qū)＜业闹笇?dǎo)，得到最終的學(xué)科實體并且定義了基礎(chǔ)教育領(lǐng)域信息技術(shù)中實體的2種屬性關(guān)系：“同級”“父級”.如表1所示，構(gòu)建了包括2種屬性關(guān)系及其對應(yīng)的3 563個實例的知識庫.

表1 關(guān)系及其對應(yīng)實例

1.2 構(gòu)建關(guān)系實例集在遠程監(jiān)督構(gòu)建關(guān)系實例集中，如果我們文本集中的句子包含的實體對在知識庫中有對應(yīng)的關(guān)系，那么我們認(rèn)為該句子可以描述此關(guān)系.以關(guān)系實體對<信息技術(shù)，傳感技術(shù)，父級>為例，可以在文本集中找到包含“信息技術(shù)”和“傳感技術(shù)”的句子：1)[傳感技術(shù)]同計算機技術(shù)與通信一起被稱為[信息技術(shù)]的三大支柱；2)[信息技術(shù)]包括[傳感技術(shù)]，通信技術(shù)和電子計算機技術(shù)等，將這兩個句子分別提取出來，作為“父級”關(guān)系的兩個實例，“信息技術(shù) 傳感技術(shù) 父級傳感技術(shù)同計算機技術(shù)與通信一起被稱為信息技術(shù)的三大支柱”，“信息技術(shù) 傳感技術(shù) 父級信息技術(shù)包括傳感技術(shù)，通信技術(shù)和電子計算機技術(shù)等”，為了方便模型訓(xùn)練，我們將關(guān)系實例的各個部分用空格符分割，這些關(guān)系實例構(gòu)成我們使用的關(guān)系實例數(shù)據(jù)集.

2 關(guān)系抽取模型設(shè)計

本研究提出一種面向中文基礎(chǔ)教育知識圖譜的關(guān)系抽取模型，基于權(quán)威教材教輔和遠程監(jiān)督構(gòu)建的關(guān)系數(shù)據(jù)集，轉(zhuǎn)化成詞向量模型供模型訓(xùn)練，通過雙向門限循環(huán)單元獲得句子上下文語義，引入句子層注意力機制來動態(tài)降低句子噪聲權(quán)重，提升了關(guān)系抽取模型的準(zhǔn)確率.模型訓(xùn)練算法如圖2所示.

圖2 模型訓(xùn)練流程

2.1 詞向量映射訓(xùn)練為了將數(shù)據(jù)轉(zhuǎn)換成模型可識別的形式，我們需要將文本數(shù)據(jù)向量化.Mikolov等[14]提出了分布式的詞向量表征word2vec，即一個詞用一個低維向量來表示，詞與詞之間的相似性可以通過向量之間的相關(guān)性表示，其中包括2個模型，連續(xù)詞袋(Continuous Bag-of-Words，CBOW)模型和Skip-Gram模型，由于Skip-Gram模型在語義關(guān)系識別方面效果較好，所以本研究采用word2vec中的Skip-Gram模型來對詞向量模型進行訓(xùn)練，使用知識庫中所有的三元組來進行訓(xùn)練，其中模型參數(shù)設(shè)置的窗口數(shù)為5，向量維度為200.

2.2 BI-GRU傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)通過權(quán)重矩陣使神經(jīng)網(wǎng)絡(luò)具備了記憶功能，但是由于梯度爆炸和梯度消失的存在，它不能記憶太前和太后的內(nèi)容.GRU 網(wǎng)絡(luò)是由 Chung等[15]對 LSTM 網(wǎng)絡(luò)(一種循環(huán)神經(jīng)網(wǎng)絡(luò))進行改進得到的一種結(jié)構(gòu)，由于門控機制，很大程度上彌補了梯度爆炸或梯度消失所帶來的損失，同時它簡化了LSTM網(wǎng)絡(luò)，只有更新門(update gates)和重置門(reset gates)兩種門結(jié)構(gòu)，因此參數(shù)更少，也更容易收斂。其內(nèi)部結(jié)構(gòu)如圖3所示.

圖3 GRU內(nèi)部結(jié)構(gòu)

其更新表達式為：

ht=zt?ht-1+(1-zt)?h′

(1)

ht-1包含了前一時刻節(jié)點的相關(guān)信息，zt表示更新門，h′表示當(dāng)前時刻節(jié)點的相關(guān)信息，主要是包含了當(dāng)前的輸入xt.從公式中可以得到，zt能控制遺忘和記憶的信息量，它的取值范圍為0～1，越接近1，代表“記憶”下來的前一時刻節(jié)點信息越多；越接近0則代表“遺忘”的越多.zt計算表達式為：

zt=σ(Wz·[ht-1,xt])

(2)

σ為sigmoid函數(shù)，這個函數(shù)使數(shù)據(jù)的取值范圍為0～1來表示成門控信號，重置門rt計算表達式為:

rt=σ(Wr·[ht-1,xt])

(3)

h′計算表達式為：

h′=tanh(W·[rt*ht-1,xt])

(4)

上述公式中Wz，Wr，W為權(quán)值矩陣，用于模型訓(xùn)練，xt表示當(dāng)前的輸入信息.我們通過上一個節(jié)點傳輸下來隱狀態(tài)的ht-1和當(dāng)前輸入的信息xt來得到更新門zt和重置門rt，然后使用重置門rt將重置之后的數(shù)據(jù)通過σ激活函數(shù)縮放到-1～1的范圍，最后由更新門zt對原本隱藏狀態(tài)的選擇性“遺忘”和對當(dāng)前信息選擇性“記憶”.

為了能夠捕獲詞語的前后特征，本研究采用雙向GRU(Bi-GRU)網(wǎng)絡(luò)作為模型的一部分來提高模型的性能，從而更好地進行關(guān)系抽取.Bi-GRU的結(jié)構(gòu)如圖4所示.

圖4 Bi-GRU內(nèi)部結(jié)構(gòu)

在每一時刻，模型的輸入數(shù)據(jù)會同時經(jīng)過兩個方向相反的單向 GRU，而后通過它們進行輸出.

2.3 句子層注意力使用遠程監(jiān)督的方法構(gòu)建實例數(shù)據(jù)集中，自動獲取的實例有時候并不包含該關(guān)系，為了減少噪聲數(shù)據(jù)的影響，本文引入了句子層注意力機制.對于含有相同實體對的m個句子向量集合s={s1,s2,s3,…,sm}，si為句子向量，句子向量為s中所有句子的加權(quán)，其表達式T為：

(5)

其中，權(quán)重Ki表示句子Si與對應(yīng)關(guān)系R的相關(guān)程度，其表達式為：

ki=softmax(siAr)

(6)

其中，A為初始化的加權(quán)對角矩陣，r為對應(yīng)關(guān)系R的向量表示.

3 實驗與分析

3.1 實驗數(shù)據(jù)由于目前還沒有通用和權(quán)威的針對基礎(chǔ)教育信息技術(shù)這一領(lǐng)域的公開數(shù)據(jù)集，因此本研究基于教育部發(fā)布的教材教輔采用遠程監(jiān)督的方法構(gòu)建了關(guān)系實例數(shù)據(jù)集.針對基礎(chǔ)教育知識圖譜的特性，本文中所構(gòu)建的語料包含2類屬性關(guān)系：“同級”“父級”，包含了106 332個關(guān)系實例.本研究實驗隨機選取數(shù)據(jù)集80%的關(guān)系實例數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)，其余的20%的關(guān)系實例作為測試數(shù)據(jù)，圖5為關(guān)系實例數(shù)據(jù)集片段.

圖5 關(guān)系實例片段

3.2 評估標(biāo)準(zhǔn)本研究使用準(zhǔn)確率(PPrecision)、召回率(RRecall)、F值(F1-score)作為模型的評估標(biāo)準(zhǔn)，來評估關(guān)系抽取模型的效果.其計算公式如式(7)～(9)所示：

(7)

(8)

(9)

其中，TP(true positive)表示測試集中該關(guān)系的正例被匹配到的數(shù)值，F(xiàn)P(false positive)表示測試集中該關(guān)系的正例未被匹配到的數(shù)值，F(xiàn)N(false negatives)表示測試集中該關(guān)系的負(fù)例被錯誤匹配的數(shù)值.

3.3 實驗結(jié)果及分析為了驗證本文中方法的有效性和適用性，設(shè)置3組實驗進行對比.

實驗一：在遠程監(jiān)督構(gòu)建數(shù)據(jù)的實驗上，加入的句子層注意力機制能夠減少噪聲數(shù)據(jù)，為了驗證去噪數(shù)據(jù)和未去噪數(shù)據(jù)關(guān)系抽取效果，對于兩種關(guān)系類型，采用BIGRU與BIGRU+Attention模型進行對比實驗.實驗結(jié)果如表2所示.

表2 BIGRU與BIGRU+Attention模型實驗結(jié)果

從表2可以看出，加入了句子層注意力機制后，模型的實驗結(jié)果指標(biāo)均有提高.主要原因是句子層注意力機制能夠減少訓(xùn)練語料的噪聲數(shù)據(jù)，更有效地捕捉句子的特征，使得模型訓(xùn)練得更好，故關(guān)系抽取效果更好.

實驗二：通過神經(jīng)網(wǎng)絡(luò)進行遠程監(jiān)督的關(guān)系抽取模型中，PCNN+ Attention模型通過加入句子層注意力來減少噪聲標(biāo)注，對于兩種關(guān)系類型，采用BIGRU+Attention與PCNN+Attention模型進行對比實驗.實驗結(jié)果如表3所示.

表3 PCNN+Attention與BIGRU+Attention模型實驗結(jié)果

從表3可以看出，在同樣加入句子層注意力機制的遠程監(jiān)督方法中，相比于PCNN神經(jīng)網(wǎng)絡(luò)，BIGRU神經(jīng)網(wǎng)絡(luò)模型有著更高的準(zhǔn)確率和召回率，模型提高了5%左右，這表明BIGRU模型能夠提升關(guān)系抽取的效果.

實驗三：由于中文教育知識圖譜的實體關(guān)系不同于通用領(lǐng)域的實體關(guān)系，目前已知的一些中文教育領(lǐng)域知識圖譜實體關(guān)系使用支持向量機(SVM)，條件隨機場(CRF)進行關(guān)系抽取，為了驗證本文中關(guān)系抽取模型對于構(gòu)建中文教育知識圖譜的適用性，在相同條件下，采用SVM和CRF模型進行對比實驗.實驗結(jié)果如表4所示.

表4 SVM、CRF與本文中模型實驗結(jié)果

從表4可以看出，本研究所提出的關(guān)系抽取模型在中文基礎(chǔ)教育數(shù)據(jù)中的關(guān)系抽取的F值更高，模型性能更好，適用性更強.主要原因是本研究加入的句子層Attention機制能夠減少數(shù)據(jù)中的噪聲問題，同時雙向GRU能夠解決SVM模型在關(guān)系抽取的過程中丟失了詞語位置信息的缺點.

4 結(jié)束語

本研究針對中文基礎(chǔ)教育知識圖譜中的實體關(guān)系，提出一種基于注意力機制的遠程監(jiān)督關(guān)系抽取模型，為驗證模型的性能，本研究以信息技術(shù)知識圖譜為例，構(gòu)建基于中文信息技術(shù)教材教輔的知識庫并進行了對照試驗，實驗結(jié)果表明，相比于已知的知識圖譜中實體關(guān)系抽取方法，基于注意力機制的關(guān)系抽取模型能有效提高關(guān)系抽取的準(zhǔn)確率.后續(xù)工作將嘗試使用該模型參與中文基礎(chǔ)教育知識圖譜的構(gòu)建，提高知識圖譜構(gòu)建效率及準(zhǔn)確率，由于中文基礎(chǔ)教育領(lǐng)域的公開數(shù)據(jù)較少，數(shù)據(jù)前期處理工作量較大，本研究使用的數(shù)據(jù)不夠全面，模型還未達到理想的抽取效果，后期將考慮采用更多更全面的數(shù)據(jù)，結(jié)合更豐富的人工特征，如詞性等來改進模型.