亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于分層序列標(biāo)注的實(shí)體關(guān)系聯(lián)合抽取方法

2021-02-02 02:50:56田佳來呂學(xué)強(qiáng)游新冬肖剛韓君妹

北京大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年1期

田佳來呂學(xué)強(qiáng) 游新冬,? 肖剛韓君妹

田佳來1呂學(xué)強(qiáng)1游新冬1,?肖剛2韓君妹2

1.北京信息科技大學(xué), 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100101; 2.復(fù)雜系統(tǒng)仿真總體重點(diǎn)實(shí)驗(yàn)室,軍事科學(xué)院系統(tǒng)工程研究院, 北京 100101; ?通信作者, E-mail: youxindong@bistu.edu.cn

為了提高實(shí)體關(guān)系聯(lián)合抽取的效果, 提出一種端到端的聯(lián)合抽取模型(HSL)。HSL 模型采取一種新的標(biāo)記方案, 將實(shí)體和關(guān)系的聯(lián)合抽取轉(zhuǎn)化成序列標(biāo)注問題, 同時(shí)采用分層的序列標(biāo)注方式來解決三元組重疊問題。實(shí)驗(yàn)證明, HSL 模型能有效地解決三元組重疊問題, 在軍事語料數(shù)據(jù)集上 F1 值達(dá)到 80.84%, 在公開的 WebNLG 數(shù)據(jù)集上 F1 值達(dá)到 86.4%, 均超過目前主流的三元組抽取模型, 提升了三元組抽取的效果。

實(shí)體關(guān)系聯(lián)合抽取; 三元組重疊; 序列標(biāo)注; 知識(shí)圖譜; HSL

實(shí)體關(guān)系三元組抽取是知識(shí)圖譜構(gòu)建過程中不可缺少的步驟, 實(shí)體關(guān)系三元組抽取指從文本中抽取出實(shí)體對(duì), 并確定實(shí)體之間的關(guān)系。實(shí)體關(guān)系三元組結(jié)構(gòu)為(主語, 關(guān)系, 賓語), 例如(魯迅, 屬于, 中國)。

早期的三元組抽取一般采用流水線方法: 各個(gè)任務(wù)依次處理。例如 Nadeau 等[1]和Zelenko 等[2]都是首先識(shí)別文本中的實(shí)體, 然后抽取出文本中實(shí)體之間的關(guān)系。如果原文本句子中的實(shí)體相互之間沒有關(guān)系, 也會(huì)強(qiáng)制給任意兩實(shí)體之間附加一種關(guān)系。但是, 流水線方法忽略兩個(gè)任務(wù)之間的聯(lián)系[3], 所以有學(xué)者提出實(shí)體關(guān)系聯(lián)合抽取模型: 用單一模型抽取出文本中的實(shí)體關(guān)系三元組, 能夠增強(qiáng)實(shí)體抽取任務(wù)與關(guān)系抽取任務(wù)的聯(lián)系。Ren 等[4]、Li 等[5]和 Miwa 等[6]采用實(shí)體關(guān)系聯(lián)合抽取模型抽取文本中的實(shí)體關(guān)系三元組, 但其模型都需要人工構(gòu)造大量的特征, 同時(shí)也依賴相關(guān)的 NLP 工具包自動(dòng)抽取。由于 NLP 工具包抽取結(jié)果不穩(wěn)定, 可能導(dǎo)致錯(cuò)誤, 影響抽取的效果。隨著神經(jīng)網(wǎng)絡(luò)的發(fā)展, 其在NLP 任務(wù)中也取得成效。王國昱[7]將深度學(xué)習(xí)方法應(yīng)用在命名實(shí)體識(shí)別任務(wù)中, 取得不錯(cuò)的 F1 值。Zeng 等[8]和 Xu 等[9]使用深度學(xué)習(xí)的方法來解決關(guān)系分類問題, 得到的 F1 值比以往的機(jī)器學(xué)習(xí)模型提升明顯。Zheng 等[10]采用基于 LSTM 的神經(jīng)網(wǎng)絡(luò)實(shí)體關(guān)系聯(lián)合抽取模型, 選取序列標(biāo)注抽取實(shí)體關(guān)系三元組, 其模型按照就近原則的關(guān)系鏈接方式, 然而該模型忽略了實(shí)體對(duì)完全重疊(EPO)和單一實(shí)體重疊(SPO)的情況。Zeng 等[11]首先提出解決三元組重疊問題, 并基于 Seq2seq 思想, 提出實(shí)體關(guān)系聯(lián)合抽取模型, 能夠解決三元組重疊問題, 但模型依賴解碼的結(jié)果, 導(dǎo)致實(shí)體識(shí)別不完全。Fu 等[12]采用基于圖卷積神經(jīng)網(wǎng)絡(luò)改進(jìn)的方法, 進(jìn)行實(shí)體關(guān)系三元組抽取, 效果比 Zeng 等[11]的模型有所提高。

還有許多學(xué)者專注于三元組的抽取研究。李明耀等[13]對(duì)中文實(shí)體關(guān)系三元組抽取進(jìn)行研究, 根據(jù)依存句法分析和中文語法制定抽取規(guī)則, F1 值達(dá)到76.78%。黃培馨等[14]采用一種融合對(duì)抗學(xué)習(xí)的方法, 利用帶有偏置的激活函數(shù)來增強(qiáng)信息的多通道傳輸特性, 取得不錯(cuò)的效果。趙哲煥[15]對(duì)生物學(xué)實(shí)體關(guān)系三元組進(jìn)行抽取, 首先通過多標(biāo)簽卷積神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)體進(jìn)行抽取, 最后用領(lǐng)域詞典查詢的方法抽出實(shí)體關(guān)系三元組。張永真等[16]針對(duì)專利文本三元組抽取, 通過機(jī)器學(xué)習(xí)模型, 分析詞性特征、位置特征和上下文特征的重要性, 剔除弱的特征, 提升了專利文本三元組抽取的效果。王昊[17]構(gòu)建知識(shí)庫來協(xié)助實(shí)體關(guān)系抽取任務(wù), 當(dāng)目標(biāo)實(shí)體在知識(shí)庫三元組中出現(xiàn)的次數(shù)大于某個(gè)閾值時(shí), 將其關(guān)系定義為關(guān)系高頻詞, 同時(shí)采用 Word2vec 語言模型訓(xùn)練嵌入詞向量, 用于增強(qiáng)模型語義信息, 并通過定義關(guān)系高頻詞和增加先驗(yàn)特征來提高模型效果。

盡管目前主流的三元組抽取模型可以在一定程度上解決三元組重疊問題, 但是由于模型結(jié)構(gòu)的原因?qū)е戮幋a能力弱, 抽取效果差, F1 值低于 50%。為了提高具有三元組重疊中實(shí)例的三元組抽取效果, 本文提出一種端到端的聯(lián)合抽取模型(HSL), HSL 模型采取一種新的標(biāo)記方案, 將實(shí)體與關(guān)系的聯(lián)合提取轉(zhuǎn)化成序列標(biāo)注問題, 同時(shí)采用分層的序列標(biāo)注方式來解決三元組重疊問題。實(shí)驗(yàn)中采用人工標(biāo)記的軍事語料和 WebNLG 公開數(shù)據(jù)集。結(jié)果證明, 無論在特定領(lǐng)域的語料上還是在公開語料上, HSl 模型的準(zhǔn)確率和召回率都比目前主流的三元組抽取模型有所提升, 能夠更有效地抽取三元組。

1 實(shí)體關(guān)系三元組抽取模型-HSL

三元組抽取目標(biāo)為抽取句子中的(,,), 其中,為主語,為賓語,為與的關(guān)系。本文的三元組抽取模型設(shè)計(jì)思路來源于百度三元組抽取比賽中的一個(gè) Baseline[18], 參考 Seq2Seq 模型[19]的思路, 先抽取主語, 然后根據(jù)主語的先驗(yàn)信息抽取關(guān)系及賓語。Seq2Seq 模型的解碼公式如下:

其中,為先驗(yàn)句子。給定一個(gè), 在所有的上面建模, 使生成1,2, …,y的概率最大似然。首先輸入得到第一個(gè)1詞語, 再將和1作為先驗(yàn)特征輸入模型中, 解碼出2, 依此類推, 解碼出3, …,y。

由此, 可以得出三元組抽取公式:

其中,是輸入的句子。首先抽取出主語, 然后將主語和句子解碼出關(guān)系和賓語。

從式(2)來看, 一個(gè)句子中只能抽取出一組三元組, 所有我們將三元組抽取問題轉(zhuǎn)化成序列標(biāo)注問題。序列標(biāo)注時(shí), 對(duì)一個(gè)字符序列中的每一個(gè)字符打上相應(yīng)的標(biāo)簽(圖 1), 根據(jù)標(biāo)簽抽取出命名實(shí)體。將主語的識(shí)別過程轉(zhuǎn)化成序列標(biāo)注問題, 一個(gè)句子可以抽取出個(gè)主語, 再分別將各個(gè)主語作為先驗(yàn)特征進(jìn)行關(guān)系和客體的抽取。另外, 一個(gè)句子只能識(shí)別出一個(gè)客體和一種關(guān)系, 所以根據(jù)主語抽取的思想, 同樣通過對(duì)句子進(jìn)行序列標(biāo)注來抽取客體和關(guān)系。但是, 一個(gè)句子只能生成一條序列標(biāo)簽, 無法確定主語與賓語的關(guān)系。因此, 在序列標(biāo)注時(shí), 將標(biāo)簽設(shè)計(jì)成帶有關(guān)系類別的標(biāo)簽, 以便確定主語和賓語的關(guān)系。這種方法不能解決三元組抽取的實(shí)體對(duì)重疊問題(EPO), 即兩個(gè)三元組主語與賓語完全重疊而僅僅關(guān)系不同的情況。

為了解決實(shí)體對(duì)重疊(EPO)問題, 本文采用分層的序列標(biāo)注方法, 在抽取賓語和關(guān)系時(shí), 每層標(biāo)注序列產(chǎn)生的賓語都與主語對(duì)應(yīng)一種提前設(shè)定好的關(guān)系, 最終生成的標(biāo)注序列數(shù)量與關(guān)系的數(shù)量相同。

1.1 標(biāo)簽設(shè)計(jì)

本文中三元組抽取順序是先抽取主語, 再根據(jù)主語的先驗(yàn)特征來預(yù)測(cè)客體和關(guān)系。HSL 模型先標(biāo)注句子序列, 生成主語的標(biāo)注序列, 再生成賓語的標(biāo)注序列。

圖1 主語標(biāo)簽設(shè)計(jì)

圖 1 是抽取主語時(shí), 句子經(jīng)過序列標(biāo)注后生成對(duì)應(yīng)標(biāo)簽的一個(gè)例子。根據(jù)標(biāo)簽, 可以容易地提取出主語。采用 BIO 的標(biāo)注方案, B 代表當(dāng)前字符是主語的首個(gè)字符, I 表示當(dāng)前字符是主語的中間或結(jié)尾部分, O 表示當(dāng)前字符與主語無關(guān)。圖 1 的句子中, John 對(duì)應(yīng)的字符是 B, 表示其是主語的開頭字符, 向后搜尋, 如果下一個(gè)字符對(duì)應(yīng)的標(biāo)簽為 I, 說明當(dāng)前字符也是主體的一部分, 直到下一個(gè)字符為O 標(biāo)簽, 則主語提取完畢。所以, 從圖 1 的句子中最終提取出來的主語為John。

如圖 2 所示, 經(jīng)上一步驟抽取出主語 John 后, 結(jié)合主語的先驗(yàn)特征 John, 對(duì)句子進(jìn)行分層序列標(biāo)注, 生成帶有與主語對(duì)應(yīng)關(guān)系類別的賓語標(biāo)簽序列, 這種方法稱為分層序列標(biāo)注。HSL 模型基于有監(jiān)督學(xué)習(xí), 所以事先預(yù)定的關(guān)系類別是固定的, 有幾種關(guān)系類別就會(huì)生成幾條賓語標(biāo)簽序列, 從代表某一關(guān)系類別的賓語標(biāo)簽序列中提取的賓語就表示該賓語與先驗(yàn)主語之間的關(guān)系為該類別。同樣采用 BIO的標(biāo)注方案, 在圖 2 的句子中提取的賓語為 Jenny和 Tom, Jenny 所在的賓語標(biāo)簽序列對(duì)應(yīng)的關(guān)系類別為 wife, Tom 所在的賓語標(biāo)簽序列對(duì)應(yīng)的關(guān)系類別為 son。所以, 最終抽取出兩個(gè)三元組, 一個(gè)是(John, wife, Jenny), 另一個(gè)是(John, son, Tom)。如果Tom 被判斷為主語, 同樣會(huì)重復(fù)以上抽出三元組的操作。

1.2 三元組模型結(jié)構(gòu)

在早期序列標(biāo)注任務(wù)中, 通常采用條件隨機(jī)場(chǎng)和馬爾可夫模型。近年來, 序列標(biāo)注任務(wù)得到飛速發(fā)展, 隨著神經(jīng)網(wǎng)絡(luò)的出現(xiàn), 端到端模型逐漸應(yīng)用于序列標(biāo)注任務(wù)中。本文的端到端聯(lián)合抽取模型(HSL)將三元組抽取分成兩個(gè)序列標(biāo)注任務(wù), 模型結(jié)構(gòu)如圖 3 所示。首先, HSL 采用語言模型和位置編碼, 將文本轉(zhuǎn)化成具有語義和距離信息的詞向量; 然后, 將詞向量經(jīng)過 12 層的 GLU Dilated CNN 編碼, 得到句子編碼向量, 再通過 Self Attention 機(jī)制, 進(jìn)一步提取特征, 解碼出主語; 最后, 將主語作為先驗(yàn)特征輸入 BILSTM 模型中, 與句子編碼向量相加和, 通過 Self Attention 機(jī)制, 進(jìn)一步提取特征, 解碼出關(guān)系和賓語。

1.3 編碼器

采用 12 層 GLU Dilated CNN 編碼。卷積神經(jīng)網(wǎng)絡(luò)最早應(yīng)用在圖像領(lǐng)域中, 能充分地提取圖片中的特征。在自然語言處理中領(lǐng)域, Kim[20]最早提出利用文本卷積進(jìn)行文本分類任務(wù), 發(fā)現(xiàn)卷積能夠充分地提取文本特征與挖掘詞語之間的關(guān)聯(lián)。Dauphin等[21]提出一種新的非線性單元 GLU (gated linear units), 將激活函數(shù)轉(zhuǎn)化成另一種表達(dá)方式, 可以防止梯度消失現(xiàn)象, Gehring 等[22]在 Facebook 文章中也引用 GLU 方法。Yu 等[23]提出 Dilated 卷積方法, 過程如圖 4 所示, 當(dāng)膨脹率為 1 時(shí), 卷積為標(biāo)準(zhǔn)卷積; 當(dāng)膨脹率為 2 時(shí), 卷積操作會(huì)跳過中間詞語, 將輸入向量1和3關(guān)聯(lián)起來, 能夠增加遠(yuǎn)距離詞語間的相互關(guān)聯(lián)性。將詞嵌入后得到的向量all通過帶有 GLU 方法的 Dilated 卷積, 得到向量與通過閥門數(shù)值控制的all加和, 最終可以得到編碼后的向量。

圖2 賓語和關(guān)系標(biāo)簽設(shè)計(jì)

圖3 實(shí)體關(guān)系三元組抽取模型結(jié)構(gòu)

GLU Dilated CNN 的結(jié)構(gòu)如圖 5 所示, 計(jì)算方法如式(3)和(4)所示。GLU 方法能夠提高模型信息多通道傳輸能力, 膨脹卷積方法可以提高模型特征抽取能力。

1.4 解碼器

編碼完成后, 首先解碼主語, 再解碼關(guān)系及賓語。在兩次解碼過程中, 都采用 Self Attention 機(jī)制[24]來進(jìn)一步提取特征。

首先進(jìn)行主體解碼。圖 6 展示經(jīng)過 12 層 GLU Dilated CNN 編碼得到的向量通過 Self Attention機(jī)制的具體操作,向量經(jīng)過 3 個(gè)不同的全連接層, 得到,和。向量T表示詞語與其他詞語的相關(guān)程度, 對(duì)T進(jìn)行標(biāo)準(zhǔn)化, 并輸入 Softmax 激活函數(shù), 得到詞語之間的相關(guān)程度向量。將相關(guān)度程度向量與做點(diǎn)乘, 得到向量1, Self Attention 機(jī)制表達(dá)如下:

圖4 膨脹卷積[23]

圖5 GLU Dilated CNN結(jié)構(gòu)

圖6 Self Attention機(jī)制

其中,d為經(jīng)驗(yàn)參數(shù), 能夠使訓(xùn)練時(shí)梯度更加穩(wěn)定。

Linear 層為全連接層, 能通過點(diǎn)積的方式, 得到輸出維度為標(biāo)簽數(shù)量的向量, 從而獲得每個(gè)字對(duì)應(yīng)標(biāo)簽的概率。由于主語只需要一條標(biāo)簽序列, 所以對(duì)向量1只需做一次 Linear 層的操作。由于標(biāo)簽維度為 3, 所以 Linear 層輸出維度為 3, Linear 層的激活函數(shù)采用 Softmax,1通過 Linear 層得到每個(gè)詞語對(duì)應(yīng)的標(biāo)簽概率, 每個(gè)詞語取其對(duì)應(yīng)標(biāo)簽中概率最大的標(biāo)簽為最終標(biāo)簽, 生成主語標(biāo)簽序列(圖 3)。主語解碼過程如下:

其中, MaxpTag()為對(duì)應(yīng)標(biāo)簽概率最大的函數(shù)。

圖 7 為賓語和關(guān)系的解碼結(jié)構(gòu)。在對(duì)賓語和關(guān)系解碼時(shí), 需要將式(6)得到的主語作為先驗(yàn)特征, 加入賓語及關(guān)系解碼結(jié)構(gòu)中, 找到主語在文中的開始和結(jié)尾索引位置, 從 GLU Dilated CNN 編碼后的向量中取出對(duì)應(yīng)的向量subject, 使用 BILSTM 模型進(jìn)一步提取其特征。將向量與 Self Attention機(jī)制得到的結(jié)果向量和 BILSTM 模型的結(jié)果向量加和, 得到最終向量。由于關(guān)系數(shù)量與賓語標(biāo)簽序列數(shù)量相同, 假設(shè)關(guān)系有種, 解碼時(shí)將最終向量解碼成種關(guān)系類別的賓語標(biāo)簽序列, 每個(gè)賓語標(biāo)簽序列提取的賓語與主語的關(guān)系就是本條賓語標(biāo)簽序列預(yù)定義的關(guān)系, 即需要個(gè) Linear 層和 Softmax層, 最終生成圖 2 所示的賓語標(biāo)簽序列。

2 實(shí)驗(yàn)

2.1 實(shí)驗(yàn)數(shù)據(jù)

采用兩種數(shù)據(jù)源來驗(yàn)證 HSL 模型的有效性: 1)從環(huán)球軍事網(wǎng)采集數(shù)據(jù)并自行標(biāo)注構(gòu)建的軍事語料數(shù)據(jù)集; 2)WebNLG 數(shù)據(jù)集。數(shù)據(jù)集的具體信息如表 1 所示。

環(huán)球軍事網(wǎng)包含大量武器裝備信息, 內(nèi)容偏軍事文本描述。自行標(biāo)注數(shù)據(jù) 2925 條, 其中 2625 條用于訓(xùn)練, 299 條用于測(cè)試。

圖7 賓語和關(guān)系的解碼結(jié)構(gòu)

表1 軍事語料數(shù)據(jù)集和WebNLG數(shù)據(jù)集的重疊情況

WebNLG 數(shù)據(jù)集是評(píng)估三元組抽取模型效果最常用的通用領(lǐng)域數(shù)據(jù)集, 其中的每個(gè)句子都會(huì)包含多個(gè)實(shí)體關(guān)系三元組。公平起見, 本文采用其發(fā)布的 WebNLG 部分?jǐn)?shù)據(jù)集進(jìn)行模型評(píng)估, 其中 5019條句子進(jìn)行訓(xùn)練, 500 條進(jìn)行驗(yàn)證, 729 條進(jìn)行測(cè)試。根據(jù)句子的三元組重疊程度, 將句子分為正常(Normal)、主體客體完全重疊(EPO)和單個(gè)實(shí)體重疊(SEO)3 個(gè)類別。從表 1 可以看出, WebNLG 數(shù)據(jù)集中大多數(shù)句子都屬于 SEO 類別, 如果模型在該語料上的 F1 值較好, 則說明模型具備解決單個(gè)實(shí)體重疊問題的能力。

2.2 評(píng)價(jià)指標(biāo)

為了驗(yàn)證本文模型的有效性, 采用與 Gardent等[25]相同的準(zhǔn)確率()和召回率()相結(jié)合的 F1 值來評(píng)判。當(dāng)預(yù)測(cè)產(chǎn)生的三元組與真實(shí)三元組的名稱和類別完全一致時(shí), 稱為正確識(shí)別的三元組。

2.3 實(shí)驗(yàn)及結(jié)果分析

HSL 模型運(yùn)行在戴爾服務(wù)器的 Ubuntu 16.04 操作系統(tǒng)中, 服務(wù)器運(yùn)行內(nèi)存為 64G。GPU 為 8 塊Tesla V100 顯卡, 每塊顯存為 16G, 編碼語言為python3.6, 采用 Keras 深度學(xué)習(xí)框架。實(shí)驗(yàn)結(jié)果表明, 不同的參數(shù)對(duì)實(shí)體關(guān)系三元組的識(shí)別結(jié)果有一定程度的影響。經(jīng)過調(diào)參, 最終確定的最優(yōu)參數(shù)如表 2 所示。

將 HSL 模型與目前在三元組抽取任務(wù)中效果最好的 4 個(gè)模型(NovelTagging 模型[10]、CopyR 模型[11]、GraphRel 模型[12]和 Baseline 模型[18](BL 模型))進(jìn)行比較。除 BL 模型外, 其余模型在相同WebNLG 數(shù)據(jù)集上的得分都是從原始文章復(fù)制而來, 并在軍事語料數(shù)據(jù)集上對(duì)各個(gè)模型進(jìn)行測(cè)試。在 WebNLG 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表 3所示。

在 WebNLG 數(shù)據(jù)集上, HSL 的 F1 值比目前最優(yōu)的 BL 模型高 42.4%, 準(zhǔn)確率和召回率均超過其他模型, 證明了 HSL 模型的有效性。同時(shí), HSL 模型的召回率和準(zhǔn)確率相差不大, 說明模型比較穩(wěn)定。另外, WebNLG 數(shù)據(jù)集屬于通用數(shù)據(jù)集, 實(shí)體關(guān)系種類大于 100 種, 表明 HSL 在通用數(shù)據(jù)集上效果好且穩(wěn)定。在 WebNLG 數(shù)據(jù)集中, 單個(gè)實(shí)體重疊(SEO)的句子占比非常大, 由于 NovelTag-ging 方法假設(shè)每個(gè)實(shí)體標(biāo)簽只能對(duì)應(yīng)一種關(guān)系, 忽略了三元組抽取的三元組重疊問題, 所以其召回率僅為 19.3%。CopyR 模型和 GraphRel 模型考慮了重疊問題, 所以召回率有所上升。由于 BL 模型是先識(shí)別主語, 后識(shí)別關(guān)系賓語, 能夠解決三元組重疊問題, 所以召回率和準(zhǔn)確率達(dá)到 74.2%和 75.1%。HSL 在 BL 的基礎(chǔ)上增加更多先驗(yàn)信息(字詞向量和位置向量), 增加 GLU Dilated CNN 編碼器和 Self Attention 機(jī)制, 比 BL 模型的 F1 值提升 10%, 充分說明 HSL 的有效性。

表2 模型參數(shù)設(shè)置

表3 WebNLG數(shù)據(jù)集和軍事語料數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果(%)

軍事語料數(shù)據(jù)集是武器裝備領(lǐng)域的中文數(shù)據(jù)集, 在軍事語料數(shù)據(jù)集上不同模型的實(shí)驗(yàn)結(jié)果如表 3所示?？梢钥闯? BL 模型的準(zhǔn)確率最高, 但由于其編碼能力弱和無先驗(yàn)信息, 導(dǎo)致識(shí)別出的三元組偏少, 所以召回率只有 60.50%。HSL 模型的召回率為 76.28%, 說明其具有較強(qiáng)編碼能力, 能夠識(shí)別更多的三元組。由于其他模型需要先分詞, 再進(jìn)行分類任務(wù), 所以 F1 值肯定不理想, 本文不做比較。

為進(jìn)一步證明 HSL 具有良好的解決三元組重疊問題能力, 分別在不同重疊程度的WebNLG 數(shù)據(jù)集和軍事語料數(shù)據(jù)集上統(tǒng)計(jì) HSL 的準(zhǔn)確率、召回率和 F1 值(表 4)?？梢钥闯? HSL 在不同重疊程度數(shù)據(jù)集上的 F1 值都高于 75%, 說明其具有解決三元組重疊問題的能力。

3 結(jié)語

本文提出一種基于分層序列標(biāo)注的實(shí)體關(guān)系三元組抽取模型(HSL), 通過加入位置編碼向量來增加模型對(duì)位置的關(guān)注力, 采用 GLU Dilated CNN和 Self Attention 機(jī)制來增加模型特征抽取能力, 通過分層序列標(biāo)注的方式來解決三元組重疊問題。實(shí)驗(yàn)證明, 無論在哪種三元組重疊情況下, HSL 模型的 F1 值均高于目前主流的三元組抽取模型; 在WebNLG 數(shù)據(jù)集和軍事語料數(shù)據(jù)集上的 F1 值均高于主流三元組抽取模型。

表4 HSL在不同重疊程度的軍事語料數(shù)據(jù)集和WebNLG數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(%)

[1] Nadeau D, Sekine S. A survey of named entity recog-nition and classification. Lingvisticae Investigationes, 2007, 30(1): 3–26

[2] Zelenko D, Aone C, Richardella A. Kernel methods for relation extraction. Journal of Machine Learning Research, 2003, 3(6): 1083–1106

[3] Chan Y S, Roth D. Exploiting syntacticosemantic structures for relation extraction // Meeting of the Association for Computational Linguistics: Human Language Technologies. Portland, 2011: 551–560

[4] Ren Xiang, Wu Zeqiu, He Wenqi, et al. Cotype: joint extraction of typed entities and relations with know-ledge bases //26th International Conference. Interna-tional World Wide Web Conferences Steering Com-mittee. Perth, 2017: 1015–1024

[5] Li Qi, Ji Heng. Incremental joint extraction of entity mentions and relations // Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Baltimore, 2014: 402–412

[6] Miwa M, Sasaki Y. Modeling joint entity and relation extraction with table representation // Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP). Doha, 2014: 1858–1869

[7] 王國昱. 基于深度學(xué)習(xí)的中文命名實(shí)體識(shí)別研究[D]. 北京: 北京工業(yè)大學(xué), 2015

[8] Zeng Daojian, Liu Kang, Lai Siwei, et al. Relation classification via convolutional deep neural network // 25th International Conference on Computational Lin-guistics: Technical Papers. Dublin, 2014: 2335–2344

[9] Xu Kun, Feng Yansong, Huang Songfang, et al. Se-mantic relation classification via convolutional neural networks with simple negative sampling. Computer Science, 2015, 71(7): 941–9

[10] Zheng Suncong, Wang Feng, Bao Hongyun, et al. Joint extraction of entities and relations based on a novel tagging scheme [EB/OL]. (2017–07–07)[2020–05–20]. https://arxiv.org/abs/1706.05075

[11] Zeng Xiangrong, Zeng Daojian, He Shizhu, et al. Extracting relational facts by an end-to-end neural model with copy mechanism // Proceedings of the 56th Annual Meeting of the Association for Compu-tational Linguistics (Volume 1: Long Papers). Mel-bourne, 2018: 506–514

[12] Fu T J, Li P H, Ma W Y. GraphRel: modeling text as relational graphs for joint entity and relation extrac-tion // Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Florence, 2019: 1409–1418

[13] 李明耀, 楊靜. 基于依存分析的開放式中文實(shí)體關(guān)系抽取方法. 計(jì)算機(jī)工程, 2016, 42(6): 201–207

[14] 黃培馨, 趙翔, 方陽, 等. 融合對(duì)抗訓(xùn)練的端到端知識(shí)三元組聯(lián)合抽取. 計(jì)算機(jī)研究與發(fā)展, 2019, 56(12): 2536–2548

[15] 趙哲煥. 生物醫(yī)學(xué)實(shí)體關(guān)系抽取研究[D]. 大連: 大連理工大學(xué), 2017

[16] 張永真, 呂學(xué)強(qiáng), 申閆春, 等. 基于 SAO 結(jié)構(gòu)的中文專利實(shí)體關(guān)系抽取. 計(jì)算機(jī)工程與設(shè)計(jì), 2019, 40(3): 706–712

[17] 王昊. 面向網(wǎng)絡(luò)的中文實(shí)體關(guān)系抽取的研究[D]. 北京: 中國科學(xué)院大學(xué), 2015

[18] 蘇劍林. 百度三元組抽取比賽 Baseline [EB/OL]. (2019–06–03)[2020–05–20]. https://github.com/bojone/ kg-2019-baseline

[19] Sutskever I, Vinyals O, Le Q V. Sequence to sequence learning with neural networks [EB/OL]. (2014–12–14)[2020–05–20].https://arxiv.org/abs/1409.3215

[20] Kim Y. Convolutional neural networks for sentence classification [EB/OL]. (2014–09–03) [2020–05–20]. https://arxiv.org/abs/1408.5882

[21] Dauphin Y N, Fan A, Auli M, et al. Language mode-ling with gated convolutional networks // Procee-dings of the 34th International Conference on Ma-chine Learning-Volume 70. Sydney, 2017: 933–941

[22] Gehring J, Auli M, Grangier D, et al. Convolutional sequence to sequence learning // Proceedings of the 34th International Conference on Machine Learning-Volume 70. Sydney, 2017: 1243–1252

[23] Yu F, Koltun V. Multi-scale context aggregation by dilated convolutions [EB/OL]. (2016–04–30) [2020–05–20]. https://arxiv.org/abs/1511.07122

[24] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need // Advances in Neural Information Pro-cessing Systems. Red Hook, 2017: 5998–6008

[25] Gardent C, Shimorina A, Narayan S, et al. Creating training corpora for NLG micro-planning // Procee-dings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, 2017: hal-01623744

Joint Extraction of Entities and Relations Based on Hierarchical Sequence Labeling

TIAN Jialai1, Lü Xueqiang1, YOU Xindong1,?, XIAO Gang2, HAN Junmei2

1. Beijing Information Science and Technology University, Beijing Key Laboratory of Internet Culture and Digital Dissemination Research, Beijing 100101; 2. National Key Laboratory for Complex Systems Simulation, Institute of Systems Engineering,Beijing 100101; ? Corresponding author, E-mail: youxindong@bistu.edu.cn

In order to further improve the effect of entity relationship joint extraction, this paper proposes an end-to-end joint extraction model (HSL). HSL model adopts a new labeling scheme to transform the joint extraction of entities and relationships into sequence labeling problems, and uses a layered sequence labeling method to solve the problem of triple overlap. The experiments demonstrates that HSL model can effectively deal with the problem of triple overlap and improve the extraction effect. The F1 value on the military corpus data set reaches 80.84%, and 86.4% on the WebNLG open data set, which exceeds the current mainstream triple extraction model, impro-ving the effect of triple extraction.

entity relationship joint extraction; triple overlap; sequence annotation; knowledge graph; HSL

10.13209/j.0479-8023.2020.083

2020–06–11;

2020–08–14

國家自然科學(xué)基金(61671070)、國家語委重點(diǎn)項(xiàng)目(ZDI135-53)、國防科技重點(diǎn)實(shí)驗(yàn)室基金(6142006190301)、北京信息科技大學(xué)促進(jìn)高校內(nèi)涵發(fā)展科研水平提高項(xiàng)目(2019KYNH226)和北京信息科技大學(xué)“勤信人才”培育計(jì)劃(QXTCPB201908)資助