亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向中文基礎(chǔ)教育知識圖譜的關(guān)系抽取模型

        2021-03-03 09:24:26單婭輝田迎張龑
        關(guān)鍵詞:實例圖譜實體

        單婭輝,田迎,張龑

        (1.湖北大學(xué)計算機與信息工程學(xué)院,湖北 武漢 430062;2.湖北省教育信息化工程技術(shù)研究中心,湖北 武漢 430062;3.績效評價信息管理研究中心(湖北大學(xué)),湖北 武漢 430062)

        0 引言

        隨著我國信息技術(shù)的發(fā)展,通過新興技術(shù)來直接或間接影響傳統(tǒng)教育教學(xué)方式,已成為教育信息化的新熱點.2012年,Google提出“Google Knowledge Graph”后,知識圖譜在各個領(lǐng)域受到了廣泛的關(guān)注,其中教育領(lǐng)域知識圖譜更是在近年來成為研究熱點.在構(gòu)建中文教育領(lǐng)域知識圖譜的過程中,面對急劇增長的數(shù)據(jù),中文實體關(guān)系抽取成為其中的難點之一.

        傳統(tǒng)的關(guān)系抽取方法主要包括兩類,一類是基于規(guī)則匹配的方法,另一類是基于深度學(xué)習(xí)的方法.其中基于規(guī)則匹配的方法是定義了一種表達實體關(guān)系的規(guī)則模版,然后在數(shù)據(jù)中找到與該模版相匹配的實體及關(guān)系.該方式對數(shù)據(jù)要求較高且靈活性很差[1],已逐漸被深度學(xué)習(xí)的方法所取代.基于深度學(xué)習(xí)的方法目前流行的包括有監(jiān)督的方法和遠程監(jiān)督的方法[2].其中,有監(jiān)督的關(guān)系抽取方法主要是利用深度學(xué)習(xí)中的神經(jīng)網(wǎng)絡(luò)模型能夠自動學(xué)習(xí)文本的特征,改善了經(jīng)典方法中需要人工特征選擇的缺點[3].遠程監(jiān)督的關(guān)系抽取方法是將大量無標(biāo)注的數(shù)據(jù)自動對準(zhǔn)已標(biāo)注的知識庫來自動標(biāo)注數(shù)據(jù)來提高關(guān)系抽取的效率.該方法的前提是,如果兩個實體間存在已定義的某種關(guān)系,那么所有包含這兩個實體的文本都存在該關(guān)系[4].Mintz等[5]提出使用Freebase知識庫與維基百科中的文本來對齊,獲取實體及其關(guān)系的三元組.在該前提下,基于遠程監(jiān)督的關(guān)系抽取能夠自動獲取大量的訓(xùn)練實例,但是同時也不可避免地存在許多噪聲數(shù)據(jù).王斌等[6]用遠程監(jiān)督的方法進行關(guān)系抽取時,通過采用LDA(latent dirichlet allocation)模型、對比類型相似度和對關(guān)鍵詞進行模式匹配去噪.Surdeanu等[7]提出加入多標(biāo)簽來減少噪聲數(shù)據(jù)對關(guān)系抽取性能的影響.Lin等[8]提出在加入注意力機制在訓(xùn)練過程中通過動態(tài)調(diào)整各實例的權(quán)重來降低噪聲數(shù)據(jù)的權(quán)重,從而減少錯誤實例對關(guān)系抽取模型性能的影響.

        以上方式大多是基于英文語料或者中文通用語料上[9]提出的模型,而在中文教育領(lǐng)域,楊玉基等[10]提出在構(gòu)建領(lǐng)域知識圖譜過程中使用有監(jiān)督、無監(jiān)督、遠程監(jiān)督多種方法來進行關(guān)系抽取,最后使用大量人工標(biāo)注來獲取高質(zhì)量數(shù)據(jù),耗費時間精力.黃煥等[11]在構(gòu)建java知識圖譜的過程中采用人工定義關(guān)系類型,且在識別實體關(guān)系的過程中采用手工標(biāo)注關(guān)系的方式,雖然保證了數(shù)據(jù)的準(zhǔn)確性,但適用性不強.本研究提出的實體關(guān)系抽取模型適用于中文基礎(chǔ)教育中的科目,將高質(zhì)量的教材教輔通過文本處理成已標(biāo)注的知識庫,通過遠程監(jiān)督能夠獲取大量數(shù)據(jù)并自動標(biāo)注,加入的句子層注意力更能有效減少噪聲數(shù)據(jù)對于關(guān)系抽取性能的影響.

        1 遠程監(jiān)督構(gòu)建關(guān)系語料庫

        由于中文領(lǐng)域公開的可供使用的數(shù)據(jù)很少,而基礎(chǔ)教育領(lǐng)域的就更少見,所以首先利用教育部發(fā)布的基礎(chǔ)教育的教材教輔,將其轉(zhuǎn)換成可供使用的電子文本;然后結(jié)合網(wǎng)絡(luò)爬蟲從百度百科上獲取的網(wǎng)頁數(shù)據(jù),通過預(yù)處理得到關(guān)系實體對以及包含實體對的文本集;最后選取其中一部分?jǐn)?shù)據(jù)作為訓(xùn)練數(shù)據(jù)對關(guān)系抽取模型進行訓(xùn)練,另一部分作為測試數(shù)據(jù)來檢測模型關(guān)系抽取的效果.構(gòu)建流程如圖1所示.

        圖1 構(gòu)建流程

        1.1 構(gòu)建信息技術(shù)知識庫基于教育部發(fā)布的基礎(chǔ)教育中信息技術(shù)學(xué)科的教材教輔,利用OCR技術(shù)將圖像中的文字轉(zhuǎn)換成文本格式存儲,使用詞頻-逆向文件頻率[12](term frequency-inverse document frequency,TF-IDF)算法和 TextRank[13]算法對文本集進行關(guān)鍵詞抽取,TF-IDF算法是一個統(tǒng)計詞語在該文件中的重要程度的方法,其核心思想是詞語的重要性與它在該文件中出現(xiàn)的次數(shù)成正比,同時與它在語料庫中出現(xiàn)的次數(shù)成反比.TF-IDF算法考慮了詞語出現(xiàn)的頻率等因素,但是沒有考慮與其他詞語的關(guān)聯(lián)性,而TextRank算法就考慮到了詞語之間的關(guān)聯(lián)程度.TextRank算法起源于Google團隊的PageRank算法,其核心思想是,如果網(wǎng)頁節(jié)點代表一個字詞,那么這個詞語的重要性與連接其他詞語的多少和與它連接的詞語權(quán)值的高低成正比.

        分別使用以上兩種算法對文本進行關(guān)鍵詞提取,得到了“數(shù)據(jù)庫”“信息安全”“信息資源管理”“計算機病毒”等核心概念,但同時也得到了一些出現(xiàn)頻率高,卻不是核心概念的詞,如“學(xué)生”“方法”“過程”等.結(jié)合信息技術(shù)領(lǐng)域?qū)<业闹笇?dǎo),得到最終的學(xué)科實體并且定義了基礎(chǔ)教育領(lǐng)域信息技術(shù)中實體的2種屬性關(guān)系:“同級”“父級”.如表1所示,構(gòu)建了包括2種屬性關(guān)系及其對應(yīng)的3 563個實例的知識庫.

        表1 關(guān)系及其對應(yīng)實例

        1.2 構(gòu)建關(guān)系實例集在遠程監(jiān)督構(gòu)建關(guān)系實例集中,如果我們文本集中的句子包含的實體對在知識庫中有對應(yīng)的關(guān)系,那么我們認(rèn)為該句子可以描述此關(guān)系.以關(guān)系實體對<信息技術(shù),傳感技術(shù),父級>為例,可以在文本集中找到包含“信息技術(shù)”和“傳感技術(shù)”的句子:1)[傳感技術(shù)]同計算機技術(shù)與通信一起被稱為[信息技術(shù)]的三大支柱;2)[信息技術(shù)]包括[傳感技術(shù)],通信技術(shù)和電子計算機技術(shù)等,將這兩個句子分別提取出來,作為“父級”關(guān)系的兩個實例,“信息技術(shù) 傳感技術(shù) 父級 傳感技術(shù)同計算機技術(shù)與通信一起被稱為信息技術(shù)的三大支柱”,“信息技術(shù) 傳感技術(shù) 父級 信息技術(shù)包括傳感技術(shù),通信技術(shù)和電子計算機技術(shù)等”,為了方便模型訓(xùn)練,我們將關(guān)系實例的各個部分用空格符分割,這些關(guān)系實例構(gòu)成我們使用的關(guān)系實例數(shù)據(jù)集.

        2 關(guān)系抽取模型設(shè)計

        本研究提出一種面向中文基礎(chǔ)教育知識圖譜的關(guān)系抽取模型,基于權(quán)威教材教輔和遠程監(jiān)督構(gòu)建的關(guān)系數(shù)據(jù)集,轉(zhuǎn)化成詞向量模型供模型訓(xùn)練,通過雙向門限循環(huán)單元獲得句子上下文語義,引入句子層注意力機制來動態(tài)降低句子噪聲權(quán)重,提升了關(guān)系抽取模型的準(zhǔn)確率.模型訓(xùn)練算法如圖2所示.

        圖2 模型訓(xùn)練流程

        2.1 詞向量映射訓(xùn)練為了將數(shù)據(jù)轉(zhuǎn)換成模型可識別的形式,我們需要將文本數(shù)據(jù)向量化.Mikolov等[14]提出了分布式的詞向量表征word2vec,即一個詞用一個低維向量來表示,詞與詞之間的相似性可以通過向量之間的相關(guān)性表示,其中包括2個模型,連續(xù)詞袋(Continuous Bag-of-Words,CBOW)模型和Skip-Gram模型,由于Skip-Gram模型在語義關(guān)系識別方面效果較好,所以本研究采用word2vec中的Skip-Gram模型來對詞向量模型進行訓(xùn)練,使用知識庫中所有的三元組來進行訓(xùn)練,其中模型參數(shù)設(shè)置的窗口數(shù)為5,向量維度為200.

        2.2 BI-GRU傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)通過權(quán)重矩陣使神經(jīng)網(wǎng)絡(luò)具備了記憶功能,但是由于梯度爆炸和梯度消失的存在,它不能記憶太前和太后的內(nèi)容.GRU 網(wǎng)絡(luò)是由 Chung等[15]對 LSTM 網(wǎng)絡(luò)(一種循環(huán)神經(jīng)網(wǎng)絡(luò))進行改進得到的一種結(jié)構(gòu),由于門控機制,很大程度上彌補了梯度爆炸或梯度消失所帶來的損失,同時它簡化了LSTM網(wǎng)絡(luò),只有更新門(update gates)和重置門(reset gates)兩種門結(jié)構(gòu),因此參數(shù)更少,也更容易收斂。其內(nèi)部結(jié)構(gòu)如圖3所示.

        圖3 GRU內(nèi)部結(jié)構(gòu)

        其更新表達式為:

        ht=zt?ht-1+(1-zt)?h′

        (1)

        ht-1包含了前一時刻節(jié)點的相關(guān)信息,zt表示更新門,h′表示當(dāng)前時刻節(jié)點的相關(guān)信息,主要是包含了當(dāng)前的輸入xt.從公式中可以得到,zt能控制遺忘和記憶的信息量,它的取值范圍為0~1,越接近1,代表“記憶”下來的前一時刻節(jié)點信息越多;越接近0則代表“遺忘”的越多.zt計算表達式為:

        zt=σ(Wz·[ht-1,xt])

        (2)

        σ為sigmoid函數(shù),這個函數(shù)使數(shù)據(jù)的取值范圍為0~1來表示成門控信號,重置門rt計算表達式為:

        rt=σ(Wr·[ht-1,xt])

        (3)

        h′計算表達式為:

        h′=tanh(W·[rt*ht-1,xt])

        (4)

        上述公式中Wz,Wr,W為權(quán)值矩陣,用于模型訓(xùn)練,xt表示當(dāng)前的輸入信息.我們通過上一個節(jié)點傳輸下來隱狀態(tài)的ht-1和當(dāng)前輸入的信息xt來得到更新門zt和重置門rt,然后使用重置門rt將重置之后的數(shù)據(jù)通過σ激活函數(shù)縮放到-1~1的范圍,最后由更新門zt對原本隱藏狀態(tài)的選擇性“遺忘”和對當(dāng)前信息選擇性“記憶”.

        為了能夠捕獲詞語的前后特征,本研究采用雙向GRU(Bi-GRU)網(wǎng)絡(luò)作為模型的一部分來提高模型的性能,從而更好地進行關(guān)系抽取.Bi-GRU的結(jié)構(gòu)如圖4所示.

        圖4 Bi-GRU內(nèi)部結(jié)構(gòu)

        在每一時刻,模型的輸入數(shù)據(jù)會同時經(jīng)過兩個方向相反的單向 GRU,而后通過它們進行輸出.

        2.3 句子層注意力使用遠程監(jiān)督的方法構(gòu)建實例數(shù)據(jù)集中,自動獲取的實例有時候并不包含該關(guān)系,為了減少噪聲數(shù)據(jù)的影響,本文引入了句子層注意力機制.對于含有相同實體對的m個句子向量集合s={s1,s2,s3,…,sm},si為句子向量,句子向量為s中所有句子的加權(quán),其表達式T為:

        (5)

        其中,權(quán)重Ki表示句子Si與對應(yīng)關(guān)系R的相關(guān)程度,其表達式為:

        ki=softmax(siAr)

        (6)

        其中,A為初始化的加權(quán)對角矩陣,r為對應(yīng)關(guān)系R的向量表示.

        3 實驗與分析

        3.1 實驗數(shù)據(jù)由于目前還沒有通用和權(quán)威的針對基礎(chǔ)教育信息技術(shù)這一領(lǐng)域的公開數(shù)據(jù)集,因此本研究基于教育部發(fā)布的教材教輔采用遠程監(jiān)督的方法構(gòu)建了關(guān)系實例數(shù)據(jù)集.針對基礎(chǔ)教育知識圖譜的特性,本文中所構(gòu)建的語料包含2類屬性關(guān)系:“同級”“父級”,包含了106 332個關(guān)系實例.本研究實驗隨機選取數(shù)據(jù)集80%的關(guān)系實例數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),其余的20%的關(guān)系實例作為測試數(shù)據(jù),圖5為關(guān)系實例數(shù)據(jù)集片段.

        圖5 關(guān)系實例片段

        3.2 評估標(biāo)準(zhǔn)本研究使用準(zhǔn)確率(PPrecision)、召回率(RRecall)、F值(F1-score)作為模型的評估標(biāo)準(zhǔn),來評估關(guān)系抽取模型的效果.其計算公式如式(7)~(9)所示:

        (7)

        (8)

        (9)

        其中,TP(true positive)表示測試集中該關(guān)系的正例被匹配到的數(shù)值,F(xiàn)P(false positive)表示測試集中該關(guān)系的正例未被匹配到的數(shù)值,F(xiàn)N(false negatives)表示測試集中該關(guān)系的負(fù)例被錯誤匹配的數(shù)值.

        3.3 實驗結(jié)果及分析為了驗證本文中方法的有效性和適用性,設(shè)置3組實驗進行對比.

        實驗一:在遠程監(jiān)督構(gòu)建數(shù)據(jù)的實驗上,加入的句子層注意力機制能夠減少噪聲數(shù)據(jù),為了驗證去噪數(shù)據(jù)和未去噪數(shù)據(jù)關(guān)系抽取效果,對于兩種關(guān)系類型,采用BIGRU與BIGRU+Attention模型進行對比實驗.實驗結(jié)果如表2所示.

        表2 BIGRU與BIGRU+Attention模型實驗結(jié)果

        從表2可以看出,加入了句子層注意力機制后,模型的實驗結(jié)果指標(biāo)均有提高.主要原因是句子層注意力機制能夠減少訓(xùn)練語料的噪聲數(shù)據(jù),更有效地捕捉句子的特征,使得模型訓(xùn)練得更好,故關(guān)系抽取效果更好.

        實驗二:通過神經(jīng)網(wǎng)絡(luò)進行遠程監(jiān)督的關(guān)系抽取模型中,PCNN+ Attention模型通過加入句子層注意力來減少噪聲標(biāo)注,對于兩種關(guān)系類型,采用BIGRU+Attention與PCNN+Attention模型進行對比實驗.實驗結(jié)果如表3所示.

        表3 PCNN+Attention與BIGRU+Attention模型實驗結(jié)果

        從表3可以看出,在同樣加入句子層注意力機制的遠程監(jiān)督方法中,相比于PCNN神經(jīng)網(wǎng)絡(luò),BIGRU神經(jīng)網(wǎng)絡(luò)模型有著更高的準(zhǔn)確率和召回率,模型提高了5%左右,這表明BIGRU模型能夠提升關(guān)系抽取的效果.

        實驗三:由于中文教育知識圖譜的實體關(guān)系不同于通用領(lǐng)域的實體關(guān)系,目前已知的一些中文教育領(lǐng)域知識圖譜實體關(guān)系使用支持向量機(SVM),條件隨機場(CRF)進行關(guān)系抽取,為了驗證本文中關(guān)系抽取模型對于構(gòu)建中文教育知識圖譜的適用性,在相同條件下,采用SVM和CRF模型進行對比實驗.實驗結(jié)果如表4所示.

        表4 SVM、CRF與本文中模型實驗結(jié)果

        從表4可以看出,本研究所提出的關(guān)系抽取模型在中文基礎(chǔ)教育數(shù)據(jù)中的關(guān)系抽取的F值更高,模型性能更好,適用性更強.主要原因是本研究加入的句子層Attention機制能夠減少數(shù)據(jù)中的噪聲問題,同時雙向GRU能夠解決SVM模型在關(guān)系抽取的過程中丟失了詞語位置信息的缺點.

        4 結(jié)束語

        本研究針對中文基礎(chǔ)教育知識圖譜中的實體關(guān)系,提出一種基于注意力機制的遠程監(jiān)督關(guān)系抽取模型,為驗證模型的性能,本研究以信息技術(shù)知識圖譜為例,構(gòu)建基于中文信息技術(shù)教材教輔的知識庫并進行了對照試驗,實驗結(jié)果表明,相比于已知的知識圖譜中實體關(guān)系抽取方法,基于注意力機制的關(guān)系抽取模型能有效提高關(guān)系抽取的準(zhǔn)確率.后續(xù)工作將嘗試使用該模型參與中文基礎(chǔ)教育知識圖譜的構(gòu)建,提高知識圖譜構(gòu)建效率及準(zhǔn)確率,由于中文基礎(chǔ)教育領(lǐng)域的公開數(shù)據(jù)較少,數(shù)據(jù)前期處理工作量較大,本研究使用的數(shù)據(jù)不夠全面,模型還未達到理想的抽取效果,后期將考慮采用更多更全面的數(shù)據(jù),結(jié)合更豐富的人工特征,如詞性等來改進模型.

        猜你喜歡
        實例圖譜實體
        繪一張成長圖譜
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        補腎強身片UPLC指紋圖譜
        中成藥(2017年3期)2017-05-17 06:09:01
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        振興實體經(jīng)濟地方如何“釘釘子”
        主動對接你思維的知識圖譜
        完形填空Ⅱ
        完形填空Ⅰ
        雜草圖譜
        国产精品黄色片在线观看| 99久久精品午夜一区二区| 夜夜欢性恔免费视频| 2021国内精品久久久久精免费| 久久蜜臀av一区三区| 亚洲伦理第一页中文字幕| 亚洲国产精品va在线看黑人| 亚洲一级毛片免费在线观看| 日韩精品极品视频在线免费| 手机av在线中文字幕| 国产农村妇女精品一二区| 五月婷一本到五月天| 少妇被搞高潮在线免费观看| 丰满少妇在线播放bd| 日韩精品无码中文字幕电影| 欧美三级免费网站| 日本大胆人体亚裔一区二区| 久久精品国产91精品亚洲| 老师粉嫩小泬喷水视频90| 国产无套视频在线观看香蕉| 国产三级在线观看不卡| 男吃奶玩乳尖高潮视频| 亚洲中文字幕无码久久| 日韩中文字幕久久久经典网 | 女优av一区二区在线观看| 国产成人综合亚洲看片| 国产毛片视频网站| 91成人自拍视频网站| 久久久精品午夜免费不卡| 亚洲av成人无码久久精品| 国产午夜精品久久久久九九| 美女脱了内裤洗澡视频| 成人国产精品一区二区视频| 中文字幕经典一区| 中文片内射在线视频播放| 超碰人人超碰人人| 久久综合给合久久狠狠狠97色69| 久久精品国产一区二区涩涩| 少妇无套裸按摩呻吟无呜| 亚洲av永久无码精品国产精品| 国产chinese在线视频|