亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合漢字字形信息的文本關(guān)系抽取

        2022-03-10 09:34:50覃俊廖立婷劉晶葉正劉璐
        關(guān)鍵詞:字形實體編碼

        覃俊,廖立婷,劉晶,葉正,劉璐

        (中南民族大學(xué) 計算機科學(xué)學(xué)院& 湖北省制造企業(yè)智能管理工程技術(shù)研究中心,武漢 430074)

        關(guān)系抽取作為信息抽取的核心任務(wù),旨在從文本中識別實體并抽取實體之間的語義關(guān)系,為構(gòu)建知識圖譜、自動問答系統(tǒng)等自然語言處理任務(wù)提供數(shù)據(jù)基礎(chǔ).早期應(yīng)用于關(guān)系抽取的方法主要是CNN、RNN 及其改進模型.LIU 等[1]最早將CNN 運用到自然語言處理任務(wù)中來自動提取特征,代替了手工特征,但結(jié)構(gòu)簡單無池化層.ZENG 等[2]是首次將Position Embedding 應(yīng)用到關(guān)系抽取中,使用最大池化,但提取特征單一.ZHANG 等[3]嘗試使用RNN 獲取更多的信息,但訓(xùn)練時間較長、易出現(xiàn)梯度消失和梯度爆炸.隨著LSTM[4]、GRU[5]、BERT[6]等模型的出現(xiàn),RNN的問題在一定程度上得以改進.

        綜合考慮關(guān)系抽取的實體之間的位置關(guān)系、句子的語義信息、以及漢字特點,提出了基于漢字字形的關(guān)系抽取方法,其主要貢獻如下:

        (1)根據(jù)漢字是象形字的特點,相同或相近意思的詞或多或少在漢字字形上都存在相似之處,故將漢字字形拆解并融合到關(guān)系抽取的模型中,以獲取更多未曾關(guān)注到的潛在信息.

        (2)使用能獲取更多特征信息的深度學(xué)習(xí)模型BERT 進行句子級、詞級編碼,并利用自注意力機制計算實體之間的語義關(guān)系.

        1 相關(guān)工作

        針對語料缺乏問題,MINTZ 等[7]首次提出不依賴人工標(biāo)注的關(guān)系抽取——遠程監(jiān)督.其基于一個大膽的假設(shè):如果兩個實體在已知知識庫中存在某種關(guān)系,那么當(dāng)這兩個實體在同一個句子中共現(xiàn)時,這個句子也表達這種關(guān)系.但帶來兩個主要問題:包含實體對的句子可能并未表達在知識庫的關(guān)系;二是兩個實體對可能存在多種關(guān)系,無法判斷是哪一種.RIEDEL 等[8]放寬該假設(shè):包含實體對句子中至少有一個表達這種關(guān)系.其有更好的準確性,但預(yù)測任務(wù)更為復(fù)雜.SURDEANU 等[9]提出多實例學(xué)習(xí)來緩解.LIN 等[10]引入attention 機制.XU 等[11]提出將關(guān)系抽取轉(zhuǎn)換成序列標(biāo)注任務(wù),使用LSTM 緩解長距離依賴問題.BELTAGY 等[12]提出將監(jiān)督學(xué)習(xí)與遠程監(jiān)督相結(jié)合的改進模型.YE 等[13]將注意力從bag內(nèi)擴展到bag 間.隨著Bert的問世,SHI等[14]提出基于Bert模型進行關(guān)系抽取.VASHISHTH 等[15]提出利用KBs中的附加邊信息改進關(guān)系抽取.

        中文語境的關(guān)系抽取借鑒已有的研究方法.文獻[16]提出在文本特征組織方面融合位置特征、最短依存特征等多元特征.文獻[17]利用文本向量和位置編碼得到局部特征作為輸入,通過多頭注意力機制的神經(jīng)網(wǎng)絡(luò)模型,得到全局特征.文獻[18]將雙向GRU 模型與PCNN 模型結(jié)合起來,并加入注意力機制.文獻[19]使用BiLSTM 獲取更為完整的上下文特征信息.通過深度學(xué)習(xí)框架來獲取文本的語義信息,忽略了數(shù)據(jù)集自身的特點.漢字,起源于記事的象形性圖畫,象形字是漢字體系得以形成和發(fā)展的基礎(chǔ).當(dāng)前我們使用的雖是簡化版的文字,但在一定程度上依舊保持著潛在的聯(lián)系.這種潛在的信息在先前的研究工作中很少被利用.

        2 語料預(yù)處理

        預(yù)處理的主要目的是獲取高質(zhì)量的訓(xùn)練數(shù)據(jù),預(yù)處理工作主要是對句子中的實體進行字形拆解.漢字屬于象形文字,其字形存在豐富的內(nèi)在特征.比如部首為氵的漢字(如江、海、河等)都表示一般與水有關(guān),也存在極少數(shù)例外,如法.

        模型輸入是包含實體對(eh,et)的句子和該句子的上下文、實體對以及其字形.假設(shè)包含實體對(eh,et)的文本數(shù)據(jù)的集合s={x1,x2,…,xn},xi為一個輸入語料,集合s的向量標(biāo)記為S,表示如公式(1).

        αi為xi權(quán)重,引入的注意力機制中權(quán)重越高的句子越能表示實體對的關(guān)系.其中αi的計算如公式(2).

        hi是實體對(eh,et)之間關(guān)系的相關(guān)性權(quán)重,在計算時考慮上下文信息對實體對關(guān)系的影響,hi的計算如公式(3).

        xi為包含實體對的句子,xi-1表示它的上一句,xi+1表示下一句.A是通過模型學(xué)習(xí)到的權(quán)重矩陣,r是實體對之間的關(guān)系,也是需要學(xué)習(xí)的.使用Sigmoid將句子對實體對的影響映射到[0,1]之間.

        包含實體對(eh,et)句子xi=(w1,w2,…,wj,..,wk,…,wp,…,wq,…,wn),其中wi為一個漢字,實體eh=(wj,..,wk),實體et=(wp,…,wq).一個實體由多個漢字組成,一個漢字由多個部件構(gòu)造而成,實體eh的字形表示為,其中表示實體第一個漢字的第一個構(gòu)造部件(比如‘漢’構(gòu)造部件為‘氵’和‘又’,其中為‘氵’為‘又’,n為eh的所有構(gòu)造部件總和),實體et的字形表示為字形信息均從新華字典(http://tool.Httpcn.com/Zi/)中獲得.

        3 基于字形融合的BERT 關(guān)系抽取模型

        基于深度學(xué)習(xí)BERT_BI-GRU_Glyph 關(guān)系抽取模型如圖1所示,其主要部分如下:

        圖1 融合多信息的實體關(guān)系抽取分類器Fig.1 Entity relationship extraction classifier based on multi-information fusion

        (1)輸入層:預(yù)處理階段通過新華字典得到實體的字形信息,句子、實體、實體字形作為模型的輸入;

        (2)嵌入層:通過BERT 得到句子編碼、實體編碼和實體字形編碼,作為BI-GRU的輸入;

        (3)BI-GRU 層:通過BI-GRU[20]豐富句子和字形上下文信息,并融合句子信息、實體信息和實體的字形信息得到輸入的向量表示;

        (4)Attention 層:通過生成一個代表注意力的權(quán)重向量,對上一層的輸出進行加權(quán)計算,得整體特征向量表示.

        (5)輸出層:將整體的特征向量輸入到softmax分類器,得到其關(guān)系的分類結(jié)果.

        模型是將句子輸入到BERT 中得到比較豐富的語義特征向量,再將句子編碼放入BI-GRU 模型中豐富句子的上下文信息,并融合實體和實體字形信息加強實體的特征表示,最后使用融合后的特征信息進行關(guān)系抽取.在本節(jié)中會介紹到句子信息編碼(3.1)、實體信息編碼(3.2)以及實體字形信息編碼(3.3).

        3.1 句子信息編碼

        實驗的數(shù)據(jù)集是中文數(shù)據(jù)集,首先利用BERT自帶的分詞工具得到Tok,其中輸入的文本信息有包含實體對句子的上文xi-1、包含實體對的句子xi和包含實體對句子的下文xi+1三個部分組成.經(jīng)過BERT模型得到句嵌入向量如公式(4).

        BERT 中文模型只支持字級別的編碼方式,不會根據(jù)時態(tài)等情況進行分詞,忽略掉句子具有序列結(jié)構(gòu)的特征.故融合BI-GRU[20]以獲取其上下文信息.其BI-GRU[20]的編碼方式如圖2.GRU[5]是RNN 網(wǎng)絡(luò)的一種,其思想和LSTM[4]相似.通過“門機制”來克服短時記憶的影響和梯度爆炸梯度消失問題.其中LSTM[4]和GRU[5]元 結(jié) 構(gòu) 對 比 如 圖3.相 比LSTM,GRU 只包含重置門和更新門,GRU 結(jié)構(gòu)簡單,參數(shù)少,訓(xùn)練容易.

        圖2 通過BI-GRU對句子編碼Fig.2 The sentence is encoded by Bi-GRU

        圖3 GRU和LSTM內(nèi)部結(jié)構(gòu)Fig.3 GRU and LSTM internal structure

        在圖3(b)中,xt為輸入,ht為GRU 神經(jīng)元的輸出,rt、zt分別為t時刻的重置門和更新門,共同控制上一層的隱藏狀態(tài)和這一層的輸入來計算當(dāng)前時刻的隱藏狀態(tài)ht.計算如公式(5~8):

        σ為Sigmoid函數(shù),wr、wz、wh分別為重置門、更新門和候選隱藏狀態(tài)~ht的權(quán)重矩陣.

        BI-GRU 中包含了正向傳播和反向傳播的隱藏層,兩個方向的隱藏層都會傳遞到輸出層,因此輸出信息既包含了正向信息也包含了反向信息.

        3.2 實體信息編碼

        中文分詞中對于邊界模糊的詞常存在錯誤傳播問題,故將實體信息進行編碼加強句子中實體的表示.在編碼時,使用BERT 進行預(yù)訓(xùn)練.給定實體eh=(wj,..,wk),實體et=(wp,…,wq)作為輸入,則其對應(yīng)的實體eh和et信息表示分別為Eh=(ej,..,ek)和Et=(ep,..,eq),其中ej+i表示實體eh的第i 個漢字.ei∈Rdc,dc為輸出維度.

        3.3 實體字形信息編碼

        數(shù)據(jù)預(yù)處理是通過新華字典(http://tool.Httpcn.com/Zi/)獲取實體的字形信息.在進行實體字形信息編碼時,采用BERT進行預(yù)訓(xùn)練.在形式上,給定實體eh字形 信 息,實 體et字 形 信 息作為輸入,則其對應(yīng)的實體字形信息表示分別為和其中i表示實體的第i個字形,表示如圖4.為輸出維度.將實體的信息和實體字形信息拼接融合表示實體信息,則輸出如公式(9~10).

        圖4 實體信息融合表示Fig. 4 Entity information fusion representation

        3.4 注意力層

        模型中引入注意力機制,對句子中的詞語添加權(quán)重,使神經(jīng)網(wǎng)絡(luò)更加注重句子中的重要詞語.對于BI-GRU 輸出的詞向量H=(h1,h2,…,hn),其中n表示輸入的句子文本的長度,首先通過tanh函數(shù)將原始的矩陣變換到[-1,1]之間,然后通過Softmax函數(shù)計算得到注意力權(quán)值α,最后用α對詞向量矩陣進行加權(quán)得到示例向量N,輸出如公式(11~13).

        Wc、Uc、bc參數(shù)均是通過訓(xùn)練模型得到的.

        輸出層使用Softmax對句子、實體融合特征進行分類,Softmax函數(shù)將會計算出對每類別的傾向概率,取最大值作為該句子的預(yù)測類別.表示如公式(13).

        W和b分別為權(quán)重參數(shù)與偏置參數(shù).

        4 實驗設(shè)計

        4.1 數(shù)據(jù)集與評判標(biāo)準

        數(shù)據(jù)集是中國科學(xué)院軟件研究所劉煥勇[21]和GUAN[22]發(fā)布的人物關(guān)系語料庫.其中劉煥勇發(fā)布的數(shù)據(jù)集中包含12類人物關(guān)系,其人物關(guān)系對數(shù)量如表1.由于數(shù)據(jù)集未進行訓(xùn)練集和測試劃分,所以以8∶2 劃分訓(xùn)練集和測試集.Guan 發(fā)布的數(shù)據(jù)集中包含12類人物關(guān)系,其人物關(guān)系對數(shù)量如表2.采用評測指標(biāo)為準確率.

        表1 數(shù)據(jù)集中的人物關(guān)系對數(shù)量Tab.1 The number of relationship pairs in the data set

        表2 數(shù)據(jù)集中的人物關(guān)系對數(shù)量Tab.2 The number of relationship pairs in the data set(a)測試集中人物關(guān)系對數(shù)量

        4.2 實驗環(huán)境及參數(shù)設(shè)置

        實驗中使用的語言是python 3.6,BERT 中文預(yù)訓(xùn)練模型使用的是Chinese_L-12_H-768_A-12,深度學(xué)習(xí)框架tensorflow1.15.句子的最大長度設(shè)為128,訓(xùn)練時的batch_size 設(shè)為30,學(xué)習(xí)率為0.001,epochs 設(shè)為30.為了獲得更好的泛化性能,防止過擬合,在訓(xùn)練時加入了early stopping 機制,還在模型中多處中加入了dropout,其中dropout rate 為0.2,最后通過Adma優(yōu)化器進行訓(xùn)練.

        4.3 實驗結(jié)果分析

        為了驗證融合了字形級特征的實體表示的效果,實驗采用未融合的模型BERT_BI-GRU,融合的模型BERT_BI-GRU_Glyph.其次考慮到實體的字形表示也存在空間聯(lián)系的、位置順序關(guān)系,選取CNN對BERT編碼后的向量進行信息增強BERT_BI-GRU_Glyph(CNN),選取BI-GRU 豐富字形的上下文信息BERT_BI-GRU_Glyph(GRU).實驗結(jié)果如表3(其中ALL 表示數(shù)據(jù)集全部數(shù)據(jù)).

        從表3中可以看到,對比實驗2和實驗4以及實驗3和實驗4,可以發(fā)現(xiàn)在模型中加入了BI-GRU后,關(guān)系抽取的準確率也有提升,在一定程度上彌補了Bert 官方的中文模型上的不足.對比基線模型(BERT_BI-GRU),使用實體字形信息的模型在不同量級的數(shù)據(jù)集上的所有關(guān)系抽取的準確率指標(biāo)上都有一定的提高.在數(shù)據(jù)量級相對較少的情況下,其提升值最大;在量級相對較高的情況下,其準確率的基數(shù)也相對較高,其提高的度相對于小量級的稍低.通過使用不同的模型處理實體以及實體字形信息,通過實驗發(fā)現(xiàn),實體信息中不僅存在先前工作中忽略掉的字形信息,而且字形信息在排列上也存在隱藏聯(lián)系.

        表3 模型在不同量級的數(shù)據(jù)集上的準確率(%)Tab.3 Accuracy of models on different magnitudes of data sets

        實驗中在數(shù)據(jù)集量級為5 萬的情況下,對關(guān)系類別上進行對比,如表4.

        表4 各關(guān)系類型上的準確性Tab.4 Accuracy of each relationship type

        如表4 所示,BERT_BI-GRU_Glyph(GRU)在大多關(guān)系上的準確率都有提高.但在有血緣關(guān)系的關(guān)系類型上相對明顯,在這類關(guān)系中,實體的字形信息更加的突出,比如在紅樓夢中賈母的三個兒女分別是賈赦、賈政和賈敏,他們?nèi)嗽诿种卸己小半丁逼?,其實在日常生活中也常常存在這樣的現(xiàn)象.在農(nóng)業(yè)領(lǐng)域、醫(yī)學(xué)領(lǐng)域等,其字形的特征更為突出,融合字形的實體表示更能發(fā)揮潛在的價值.

        5 總結(jié)與展望

        針對中文關(guān)系抽取任務(wù),本文提出了BERT_BI-GRU_Glyph 模型,基于漢字是象形字的特點,實體表示融合了字符級嵌入和字形級嵌入,豐富了語義信息.實驗表明,字形級嵌入在關(guān)系抽取中有效性.目前,只涉及到人物關(guān)系抽取人物,但農(nóng)業(yè)領(lǐng)域、醫(yī)學(xué)領(lǐng)域等特定領(lǐng)域,其字形的特征更為突出.此外,在關(guān)系抽取任務(wù)中還可以融入多方面的外部信息,如實體說明,實體類型等.在未來的工作中,將嘗試將其應(yīng)用到特定領(lǐng)域的關(guān)系抽取中以及擴展實體的表示.

        猜你喜歡
        字形實體編碼
        基于SAR-SIFT和快速稀疏編碼的合成孔徑雷達圖像配準
        《全元詩》未編碼疑難字考辨十五則
        子帶編碼在圖像壓縮編碼中的應(yīng)用
        電子制作(2019年22期)2020-01-14 03:16:24
        前海自貿(mào)區(qū):金融服務(wù)實體
        中國外匯(2019年18期)2019-11-25 01:41:54
        甲骨文“黍”字形義考
        甲骨文中的字形直立化二則
        Genome and healthcare
        復(fù)習(xí)生字字形的方法
        實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
        兩會進行時:緊扣實體經(jīng)濟“釘釘子”
        精品国产亚洲一区二区在线3d| 欧美国产激情18| 亚洲av无码精品国产成人| 丰满女人又爽又紧又丰满| 亚洲嫩模高清在线视频| 中文字幕一区二区三区6| 欧美老妇牲交videos| 久久aⅴ人妻少妇嫩草影院| 成人免费va视频| 日本女优中文字幕四季视频网站| 看女人毛茸茸下面视频| 亚洲人成77777在线播放网站 | 久久精品国产亚洲AV高清y w| 亚洲女同一区二区三区| 丰满熟妇乱又伦精品| 搡老熟女老女人一区二区| 日本一区二区三区激情视频| 亚洲av免费看一区二区三区 | 天天噜日日噜狠狠噜免费| 亚洲国产AV无码男人的天堂| 国产福利一区二区三区视频在线看| 成人性生交大全免费看| 国产成人a在线观看视频免费| 中文无码成人免费视频在线观看 | 97自拍视频国产在线观看| 亚洲av天堂免费在线观看| 久久亚洲国产成人精品性色| 毛片无遮挡高清免费久久| 日本97色视频日本熟妇视频| 亚洲av中文无码乱人伦在线视色| 亚洲综合精品成人| 中文字幕人妻系列一区尤物视频| 少妇高潮久久蜜柚av| 丰满人妻一区二区三区视频53| 国产污污视频| 综合中文字幕亚洲一区二区三区 | 欧美人与物videos另类xxxxx| 看全色黄大黄大色免费久久| 国产一区二区视频免费在线观看| 国产97色在线 | 日韩| av无码天堂一区二区三区|