亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖卷積神經(jīng)網(wǎng)絡(luò)的中文實(shí)體關(guān)系聯(lián)合抽取

        2021-12-20 12:35:04張軍蓮張一帆汪鳴泉黃永健
        計(jì)算機(jī)工程 2021年12期
        關(guān)鍵詞:文本信息模型

        張軍蓮,張一帆,汪鳴泉,黃永健

        (1.中國科學(xué)院上海高等研究院 碳數(shù)據(jù)與碳評估研究中心,上海 201210;2.中國科學(xué)院大學(xué),北京 100049;3.中國科學(xué)院低碳轉(zhuǎn)化科學(xué)與工程重點(diǎn)實(shí)驗(yàn)室,上海 201210)

        0 概述

        實(shí)體關(guān)系抽取是信息抽取的下屬子任務(wù),信息抽取由美國國家標(biāo)準(zhǔn)技術(shù)研究院的自動(dòng)內(nèi)容抽?。ˋutomatic Content Extraction,ACE)[1]定義。實(shí)體關(guān)系抽取任務(wù)的目標(biāo)是從非結(jié)構(gòu)化文本中抽取出實(shí)體關(guān)系三元組,即<實(shí)體1,關(guān)系,實(shí)體2>,其中,“實(shí)體1”和“實(shí)體2”是“關(guān)系”涉及的2 個(gè)命名實(shí)體,“關(guān)系”指2 個(gè)實(shí)體間的關(guān)系類型。實(shí)體關(guān)系抽取是語義理解中的關(guān)鍵技術(shù),也是機(jī)器翻譯、知識圖譜構(gòu)建、自動(dòng)問答系統(tǒng)等應(yīng)用研究的基礎(chǔ)。

        目前,實(shí)體關(guān)系抽取任務(wù)有2 種主流研究框架:一是流水線方法,即在實(shí)體識別之后進(jìn)行實(shí)體關(guān)系提??;二是聯(lián)合抽取方法,即同時(shí)進(jìn)行實(shí)體識別和關(guān)系抽取。流水線方法在命名實(shí)體識別的基礎(chǔ)上進(jìn)行關(guān)系提取,實(shí)體識別中所產(chǎn)生的錯(cuò)誤會(huì)影響到關(guān)系預(yù)測結(jié)果,造成錯(cuò)誤傳播[2]。與流水線方法相比,聯(lián)合抽取方法被認(rèn)為具有更好的性能和潛力。2017 年,ZHENG 等[3]較早提出基于新標(biāo)注策略的實(shí)體關(guān)系聯(lián)合抽取方法,該方法把包含命名實(shí)體識別與關(guān)系分類2 個(gè)任務(wù)的聯(lián)合學(xué)習(xí)模型轉(zhuǎn)變成序列標(biāo)注問題,其取得了很好的效果。聯(lián)合關(guān)系抽取雖然避免了流水線方法中的錯(cuò)誤傳播問題,但是其需要更復(fù)雜的模型結(jié)構(gòu)以編碼更豐富的語義信息。

        依存分析的目的是通過分析句子中各個(gè)成分之間的依賴關(guān)系,從而揭示句子的句法結(jié)構(gòu)。表征文本語法句法結(jié)構(gòu)的依存分析信息可為聯(lián)合關(guān)系抽取提供有效的先驗(yàn)文本結(jié)構(gòu)化信息,幫助模型理清文本結(jié)構(gòu),從而提升實(shí)體關(guān)系抽取性能。文獻(xiàn)[4]首先利用依存分析并結(jié)合中文語法啟發(fā)式規(guī)則抽取關(guān)系表述,然后根據(jù)距離確定論元位置,最后輸出三元組,由此避免了中文復(fù)雜的語法規(guī)則、靈活的表達(dá)方式、多樣化的語義對關(guān)系抽取帶來的限制。文獻(xiàn)[5]在模型輸入中加入基于最短依存路徑的詞序列,通過雙向長短時(shí)記憶(Bidirectional Long Short Term Memory,Bi-LSTM)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)提取文本的語義信息,其在中文新聞?wù)Z料上取得了較好效果。依存分析構(gòu)建的是語法樹結(jié)構(gòu),考慮到中文語法結(jié)構(gòu)的復(fù)雜性,引入圖的方法對依存分析中的結(jié)構(gòu)信息進(jìn)行編碼,相比傳統(tǒng)的樹結(jié)構(gòu)具有更高的靈活性和適用性。圖卷積神經(jīng)網(wǎng)絡(luò)(Graph Convolutional neural Network,GCN)是卷積網(wǎng)絡(luò)在圖上的實(shí)現(xiàn),可以提取拓?fù)鋱D上的空間特征,能夠有效聚合包含實(shí)體關(guān)系的實(shí)體節(jié)點(diǎn),進(jìn)而提升實(shí)體關(guān)系抽取的性能。為減少信息冗余,研究人員對依存分析圖中的依賴關(guān)系進(jìn)行裁剪,僅保留部分依賴關(guān)系[6-7]。

        本文優(yōu)化ZHENG 等所提的新標(biāo)注策略[3],提出一種基于GCN 的中文實(shí)體關(guān)系聯(lián)合抽取方法,并構(gòu)建融合Bi-LSTM 網(wǎng)絡(luò)和GCN 的端到端實(shí)體關(guān)系聯(lián)合抽取模型LSTM-GCN-LSTM。借鑒新標(biāo)注策略的思路,優(yōu)化標(biāo)注模式,以標(biāo)注中文文本中的分詞,利用端到端序列標(biāo)注模型實(shí)現(xiàn)中文實(shí)體關(guān)系聯(lián)合抽取。通過GCN 編碼文本依存分析的圖結(jié)構(gòu)特征,從而表征文本所蘊(yùn)含的先驗(yàn)詞間關(guān)系并構(gòu)建包含文本序列特征和圖結(jié)構(gòu)特征的模型。

        1 相關(guān)工作

        1.1 共享模型參數(shù)的聯(lián)合抽取

        文獻(xiàn)[8]將神經(jīng)網(wǎng)絡(luò)方法用于實(shí)體與關(guān)系的聯(lián)合表示,建立用雙向序列和雙向樹結(jié)構(gòu)的LSTM-RNNs表示詞序列和依賴樹結(jié)構(gòu)的端到端關(guān)系提取模型,使實(shí)體識別與關(guān)系分類共享編碼層的Bi-LSTM 表示。該模型在數(shù)據(jù)集ACE2004 和ACE2005 上的表現(xiàn)優(yōu)于對比模型,為共享參數(shù)的聯(lián)合學(xué)習(xí)模型研究奠定基礎(chǔ)。文獻(xiàn)[9]不依賴依存樹與詞序列特征,僅將詞向量作為模型的輸入特征,利用多層Bi-LSTM 識別實(shí)體,同時(shí)借助Attention 機(jī)制[10]計(jì)算當(dāng)前位置上識別出的實(shí)體與已知實(shí)體的相似度,從而識別實(shí)體之間的關(guān)系。

        在針對中文語料的研究中,文獻(xiàn)[11]人工標(biāo)注某醫(yī)院臨床醫(yī)學(xué)記錄,將Bi-LSTM-CRF 和Bi-LSTM 組合到統(tǒng)一的框架中,在實(shí)體屬性的關(guān)系中引入關(guān)系約束以限制關(guān)系的預(yù)測結(jié)果,并通過組合系數(shù),利用實(shí)體或?qū)傩宰R別、實(shí)體屬性關(guān)系2 個(gè)子任務(wù)模塊的信息實(shí)現(xiàn)關(guān)系聯(lián)合抽取。文獻(xiàn)[12]在2 個(gè)子任務(wù)之間引入反饋機(jī)制,使用混合神經(jīng)網(wǎng)絡(luò)模型來實(shí)現(xiàn)聯(lián)合抽取,在從百度百科和專利文本中爬取到的26 399 句資源描述文本中,得到相比其他模型更高的F 值。

        1.2 基于新標(biāo)注策略的聯(lián)合抽取

        共享模型參數(shù)的聯(lián)合抽取方法改善了傳統(tǒng)流水線方法中忽視2 個(gè)子任務(wù)之間依賴關(guān)系的問題,但其在訓(xùn)練時(shí)需要先識別出實(shí)體,再根據(jù)實(shí)體信息對實(shí)體進(jìn)行匹配以完成關(guān)系分類子任務(wù),該過程中會(huì)產(chǎn)生沒有關(guān)系的實(shí)體,出現(xiàn)實(shí)體冗余現(xiàn)象。為解決該問題,基于新標(biāo)注策略的實(shí)體關(guān)系聯(lián)合抽取方法應(yīng)運(yùn)而生。

        2017 年,ZHENG 等[3]提出基于新標(biāo)注策略的實(shí)體關(guān)系聯(lián)合抽取方法,其把包含命名實(shí)體識別與關(guān)系分類的聯(lián)合學(xué)習(xí)模型轉(zhuǎn)變成序列標(biāo)注問題。該模型使用Bi-LSTM 對句子進(jìn)行編碼,利用LSTM 對其進(jìn)行解碼,最后輸出實(shí)體關(guān)系三元組,其解決了共享模型參數(shù)的聯(lián)合抽取方法帶來的實(shí)體冗余問題。文獻(xiàn)[13]基于新標(biāo)注策略,通過預(yù)訓(xùn)練實(shí)體識別模型中隱藏層向量得到實(shí)體特征,將其作為聯(lián)合模型的特征,引入Attention機(jī)制選擇對關(guān)系預(yù)測影響更大的句子成分。該模型有效提升了NYT(New York Times)數(shù)據(jù)集上的實(shí)體關(guān)系提取性能。文獻(xiàn)[14]為解決關(guān)系重疊問題,添加象征該詞所在實(shí)體參與多個(gè)關(guān)系類別的M 標(biāo)簽,并改進(jìn)實(shí)體與關(guān)系的匹配策略,改進(jìn)后的實(shí)體關(guān)系聯(lián)合抽取模型性能優(yōu)于使用相同模型的流水線方法,在藥物-藥物交互作用(Drug-Drug Interactions,DDI)數(shù)據(jù)集上,實(shí)體識別F 值為89.9%,關(guān)系抽取F 值為67.3%。文獻(xiàn)[15]借鑒該標(biāo)注策略,在模型中引入Attention機(jī)制以增強(qiáng)對文本中更能體現(xiàn)關(guān)系的詞語的編碼能力,在模型訓(xùn)練中使用對抗訓(xùn)練,該文所提出的LSTM-LSTM-ATT-Bias端到端模型在NYT 數(shù)據(jù)集上,實(shí)體1 識別F 值為53.4%,實(shí)體2 識別F 值為51.9%,實(shí)體關(guān)系抽取F 值為53%。

        1.3 基于圖的信息抽取

        語言是按照復(fù)雜的句法語法規(guī)則進(jìn)行組詞成句的,多數(shù)傳統(tǒng)方法僅提取文本中的序列特征,不足以表征文本的復(fù)雜語義。利用圖結(jié)構(gòu)特征將不同類型、不同結(jié)構(gòu)的分詞通過邊的形式連接起來[16],可以更全面地表達(dá)句中的語法關(guān)系,因此,該方法被廣泛應(yīng)用于信息抽取、關(guān)系抽取等領(lǐng)域。

        在信息抽取領(lǐng)域:文獻(xiàn)[17]為了突破多數(shù)信息抽取系統(tǒng)僅基于序列特征而實(shí)現(xiàn)的局限性,提出一種基于文本底層結(jié)構(gòu)且針對特定任務(wù)的在圖形拓?fù)渖蠈W(xué)習(xí)局部和全局表示的信息提取框架GraphIE(Graph Information Extraction),該框架聯(lián)合單詞的節(jié)點(diǎn)表示或句子的節(jié)點(diǎn)表示及其互相依賴關(guān)系;文獻(xiàn)[18]提出實(shí)現(xiàn)信息抽取多任務(wù)的動(dòng)態(tài)跨度圖框架DYGIE(Dynamic Graph Information Extraction),利用動(dòng)態(tài)跨度圖方法,將文本跨距視為圖形結(jié)構(gòu)中的節(jié)點(diǎn),根據(jù)預(yù)測的節(jié)點(diǎn)間相互參照關(guān)系以及與圖中其他節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系,為每個(gè)節(jié)點(diǎn)構(gòu)造加權(quán)弧。

        在關(guān)系抽取領(lǐng)域:文獻(xiàn)[19]將實(shí)體及其關(guān)系轉(zhuǎn)換為有向圖,并使用基于神經(jīng)轉(zhuǎn)換的解析系統(tǒng)實(shí)現(xiàn)求解,不僅對實(shí)體與關(guān)系之間的依賴關(guān)系進(jìn)行建模,而且對不同關(guān)系之間的依賴關(guān)系進(jìn)行建模,從而實(shí)現(xiàn)實(shí)體和關(guān)系的聯(lián)合抽??;文獻(xiàn)[20]提出基于圖LSTM 的通用框架,將句中關(guān)系抽取任務(wù)擴(kuò)展為跨句子的多元關(guān)系抽取。

        圖卷積神經(jīng)網(wǎng)絡(luò)是為了實(shí)現(xiàn)圖結(jié)構(gòu)數(shù)據(jù)編碼,在卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上改編得到的一種網(wǎng)絡(luò)[21]。文獻(xiàn)[21]在每個(gè)節(jié)點(diǎn)周圍的一階鄰域上操作限制濾波器,產(chǎn)生局部圖結(jié)構(gòu)和節(jié)點(diǎn)特征的編碼表示,從而簡化文獻(xiàn)[22-23]提出的圖神經(jīng)網(wǎng)絡(luò)。文獻(xiàn)[6-7]將GCN 與Bi-LSTM 等遞歸網(wǎng)絡(luò)相結(jié)合,提取文本中的語境化信息和句法知識,針對依存圖的信息冗余問題,分別提出以最近公共祖先為中心的剪枝技術(shù)和基于Attention 的剪枝策略,以忽略無關(guān)信息并降低計(jì)算復(fù)雜度。

        2 本文方法

        本文借鑒ZHENG 等所提的新標(biāo)注策略[3]對文本標(biāo)注其所蘊(yùn)含的實(shí)體與關(guān)系信息,利用Bi-LSTM提取文本序列特征和GCN 編碼文本中的先驗(yàn)詞間關(guān)系,通過分類網(wǎng)絡(luò)得到文本的標(biāo)簽預(yù)測結(jié)果,最后按照關(guān)系提取規(guī)則從文本中抽取出其蘊(yùn)含的實(shí)體關(guān)系三元組信息。

        2.1 標(biāo)注模式及提取規(guī)則

        英文分詞以空格作為分詞標(biāo)志,實(shí)體名多由2 個(gè)以上分詞組成,中文雖然無明顯的分詞標(biāo)志,但利用分詞工具得到的分詞結(jié)果大多可直接表達(dá)實(shí)體名。本文針對中文分詞的這一特點(diǎn),在新標(biāo)注策略的基礎(chǔ)上對標(biāo)注模式進(jìn)行優(yōu)化,采用更簡易的“BIO”標(biāo)注方案。另外,本文將關(guān)系三元組中2 個(gè)實(shí)體的實(shí)體類別也標(biāo)記在關(guān)系標(biāo)簽中。在本文的標(biāo)注模式下,文本的標(biāo)注結(jié)果如圖1 所示。

        圖1 本文標(biāo)注模式下的中文文本標(biāo)注結(jié)果Fig.1 Annotation results of Chinese texts under annotation mode in this paper

        文本的每個(gè)分詞都被標(biāo)注一個(gè)標(biāo)簽,標(biāo)簽中包含實(shí)體關(guān)系三元組信息。文本的標(biāo)注結(jié)果包括3 個(gè)組成部分:

        1)關(guān)系類型,即關(guān)系三元組中的關(guān)系,本文將數(shù)據(jù)集中預(yù)定義的關(guān)系和實(shí)體類別拼接構(gòu)成關(guān)系類型。

        2)實(shí)體角色,即分詞在關(guān)系三元組中的角色信息,用“E1”表示該分詞屬于首實(shí)體的組成之一,用“E2”表示該分詞屬于尾實(shí)體的組成之一。

        3)分詞位置,即分詞在實(shí)體名稱中的位置信息。

        本文采用“BIO”標(biāo)注方案標(biāo)注分詞位置信息。若實(shí)體僅由一個(gè)分詞構(gòu)成,用“B(Begin)”標(biāo)注該分詞;若實(shí)體由多個(gè)分詞構(gòu)成,用“B(Begin)”標(biāo)注第一個(gè)分詞,用“I(Inside)”標(biāo)注其后所有分詞。文本中包含在三元組中的分詞,其標(biāo)注結(jié)果由以上3 個(gè)部分拼接形成,而對于不包含在三元組中的分詞,本文用“O(Other)”做標(biāo)注。

        在圖1的示例中,原句包含實(shí)體關(guān)系三元組<陳路,PAP,秘魯首都利馬>,其中,“PAP”表示“人物/祖籍/地點(diǎn)(Person/Ancestor/Place)”,是由“陳路”的實(shí)體類別“人物”、“秘魯首都利馬”的實(shí)體類別“地點(diǎn)”以及預(yù)定義的關(guān)系“祖籍”這3 個(gè)信息拼接而成的關(guān)系類型。首實(shí)體僅含有一個(gè)分詞“陳路”,按照上文所述的標(biāo)注模式,其被標(biāo)注為“PAP_E1_B”;尾實(shí)體“秘魯首都利馬”含有“秘魯”“首都”“利馬”3 個(gè)分詞,根據(jù)其在尾實(shí)體中的位置,分別被標(biāo)注為“PAP_E2_B”“PAP_E2_I”“PAP_E2_I”。分詞“1937 年”和“生于”因沒有包含于三元組中而被標(biāo)注為“O”。

        分詞標(biāo)注結(jié)果指明實(shí)體關(guān)系三元組中首尾實(shí)體的分詞信息和所屬的關(guān)系類型。在模型預(yù)測出句子中分詞的標(biāo)注結(jié)果后,將標(biāo)注相同關(guān)系類型的分詞相結(jié)合,根據(jù)實(shí)體角色和分詞位置將分詞組合起來得到首尾實(shí)體名稱,最終獲取<實(shí)體1,關(guān)系,實(shí)體2>三元組。

        上述介紹的分詞標(biāo)注模式將實(shí)體關(guān)系三元組的抽取問題轉(zhuǎn)化為端到端的序列標(biāo)注問題。本文考慮一個(gè)實(shí)體僅屬于一個(gè)三元組的情況。在預(yù)測文本包含的實(shí)體關(guān)系時(shí),若預(yù)測標(biāo)注結(jié)果中包含多于一個(gè)具有相同關(guān)系類型的三元組,本文按照最鄰近原則將最近的2 個(gè)實(shí)體相組合形成三元組,并作為實(shí)體關(guān)系的預(yù)測結(jié)果。

        2.2 模型總體框架

        本文的實(shí)體關(guān)系聯(lián)合抽取模型包含4 個(gè)組成部分,分別為表示層、Bi-LSTM 與GCN 編碼層、LSTM解碼層、Softmax 層??傮w框架如圖2 所示。

        圖2 模型框架Fig.2 Model framework

        2.3 表示層

        通過詞向量表將中文分詞轉(zhuǎn)換成表征分詞信息的低維向量,作為下一層的輸入向量。本文使用百度百科語料庫訓(xùn)練語言模型得到詞向量表(https://github.com/Embedding/Chinese-Word-Vectors),該詞向量表包含語料庫中所有分詞通過語言模型訓(xùn)練得到的向量表示。檢索詞向量表得到分詞的向量表示的過程具體如下:對于包含n個(gè)分詞的輸入句子S,s={t1,t2,…,tn},句中的每個(gè)分詞為ti,從詞向量表中檢索到其對應(yīng)的詞向量表示xi,最終,句子S轉(zhuǎn)換成其分詞的向量表示序列:s={x1,x2,…,xn}。

        2.4 編碼層

        編碼層中使用Bi-LSTM 提取文本中的序列特征,再利用GCN 編碼文本中基于依存分析圖的局部依賴特征以及先驗(yàn)詞間關(guān)系。

        2.4.1 Bi-LSTM 編碼

        Bi-LSTM 編碼層由2 個(gè)平行的LSTM 層組成,即前向LSTM 層和反向LSTM 層[24]。Bi-LSTM 中前向網(wǎng)絡(luò)的神經(jīng)元結(jié)構(gòu)如圖3 所示。

        圖3 Bi-LSTM 編碼層中的前向網(wǎng)絡(luò)神經(jīng)元結(jié)構(gòu)Fig.3 Forward network neuron structure in Bi-LSTM coding layer

        LSTM 通過遺忘門、輸入門和輸出門來對輸入信息進(jìn)行保護(hù)和控制。在前向網(wǎng)絡(luò)中,每次新輸入一個(gè)分詞特征向量xt,并與上一時(shí)刻狀態(tài)ht-1共同產(chǎn)生下一時(shí)刻的狀態(tài)ht,其中,t代表時(shí)間步長。隱藏狀態(tài)ht的計(jì)算如下所示[25]:

        其中:i、f、o分別為輸入門、遺忘門、輸出門;b是偏置項(xiàng);W為參數(shù)矩陣。前向LSTM 層通過從分詞向量x1到xt,考慮xt的前文信息來編碼xt,輸出記為類似地,反向LSTM 層從分詞向量xn到xt,考慮xt的后文信息來編碼xt,輸出記為最后,級聯(lián)來表示第t個(gè)分詞編碼后的信息,如式(7)所示,⊕表示向量級聯(lián),de為單向LSTM 網(wǎng)絡(luò)維度。對于輸入的S,該層的輸出如式(8)所示,h輸出到下一層作為輸入。

        2.4.2 GCN 編碼

        GCN 是一種簡單有效的基于圖的卷積神經(jīng)網(wǎng)絡(luò),其能夠通過圖節(jié)點(diǎn)間的信息傳遞來有效捕捉數(shù)據(jù)之間的依賴性,因此,經(jīng)常被用來處理對象間關(guān)系豐富且存在相互依賴關(guān)系的數(shù)據(jù)。GCN 被直接作用于圖上[26],網(wǎng)絡(luò)的輸入是圖的結(jié)構(gòu)和圖中節(jié)點(diǎn)的特征表示。對于圖中的每個(gè)節(jié)點(diǎn),GCN 通過該節(jié)點(diǎn)附近其他節(jié)點(diǎn)的性質(zhì)融合歸納得到該節(jié)點(diǎn)的特征表示向量。

        不同于GCN 在圖像領(lǐng)域中直觀地將圖像中的每個(gè)像素點(diǎn)作為圖中的節(jié)點(diǎn),本文借助文本的依存分析結(jié)果,將文本的每個(gè)分詞經(jīng)Bi-LSTM 生成的特征向量表示作為圖中的節(jié)點(diǎn),依存分析結(jié)果中不同節(jié)點(diǎn)之間的關(guān)系作為圖中的邊,構(gòu)成圖卷積神經(jīng)網(wǎng)絡(luò)的基本圖結(jié)構(gòu)。依存分析圖展示的是文本分詞之間的依賴關(guān)系,在依存分析圖中,root 是虛擬根節(jié)點(diǎn),有且僅有一個(gè)節(jié)點(diǎn)依賴于根節(jié)點(diǎn),邊表示分詞之間的依賴關(guān)系。圖4 所示為“公司于2015 年02 月27 日在海淀分局登記成立”的依存分析圖:“公司”和“登記”之間是名詞性主語和動(dòng)詞之間的關(guān)系,該關(guān)系屬于nsubj關(guān)系;“登記”和“02月27 日”之間是動(dòng)詞和名詞組成的非核心依賴關(guān)系,該關(guān)系屬于nmod關(guān)系;“2015年”和“02月27日”之間是2個(gè)名詞之間的補(bǔ)語關(guān)系;“于”和“02 月27 日”之間則為介詞與其所依賴的名詞之間的關(guān)系,屬于case 關(guān)系。連接“公司”和“02 月27 日”的“登記”是表征公司成立日期關(guān)系的關(guān)鍵分詞,在依存分析圖中可以通過詞節(jié)點(diǎn)與邊將2 個(gè)實(shí)體聯(lián)系起來。

        圖4 依存分析圖示例Fig.4 Dependency analysis diagram example

        基于依存分析圖結(jié)構(gòu)的GCN 編碼層利用前面的Bi-LSTM 生成的分詞特征向量表示,將每個(gè)節(jié)點(diǎn)鄰域內(nèi)的相關(guān)信息編碼為一個(gè)新的表示向量。

        對于一個(gè)有n個(gè)節(jié)點(diǎn)的依存分析圖,本文使用n×n的鄰接矩陣Aij表示其圖結(jié)構(gòu),通常使Aij=1 代表節(jié)點(diǎn)i到節(jié)點(diǎn)j之間存在邊。因?yàn)橐来娣治鰣D的邊可能存在不同的依賴關(guān)系,本文對表征節(jié)點(diǎn)i與節(jié)點(diǎn)j之間邊的Aij賦予不同的數(shù)值,以區(qū)別不同的依賴關(guān)系。表征圖4 所示文本依存分析圖的鄰接矩陣如圖5(a)所示。

        圖5 鄰接矩陣Fig.5 Adjacency matrix

        在L層GCN 中表示輸入向量表示節(jié)點(diǎn)i在第l層的輸出向量,一個(gè)圖卷積操作如下所示:

        其中:W(l)是線性轉(zhuǎn)換;b(l)是偏置項(xiàng);σ是非線性函數(shù)(如ReLU);Aij是鄰接矩陣。在每一次圖卷積計(jì)算中,各節(jié)點(diǎn)匯集圖中其相鄰節(jié)點(diǎn)上的信息。

        直接使用式(9)會(huì)出現(xiàn)不同節(jié)點(diǎn)表示之間量級差距過大的現(xiàn)象,導(dǎo)致句子的特征表示不考慮節(jié)點(diǎn)中包含的信息內(nèi)容,僅僅偏向于高階節(jié)點(diǎn),為此,在實(shí)際使用中需要對鄰接矩陣Aij進(jìn)行歸一化處理。此外,式(9)依賴樹中的節(jié)點(diǎn)永遠(yuǎn)不會(huì)再連接到自身,即中的信息永遠(yuǎn)不會(huì)傳遞給因此,本文為圖中的每個(gè)節(jié)點(diǎn)添加自循環(huán),將歸一化后的Aij對角線元素設(shè)為1,形成改進(jìn)后的鄰接矩陣最后將其通過非線性函數(shù)反饋給GCN。上述改進(jìn)使圖中主要特征仍是節(jié)點(diǎn)本身,符合特征提取原則。表征圖4 所示文本依存分析圖的改進(jìn)鄰接矩陣如圖5(b)所示。式(9)改進(jìn)如下:

        2.5 LSTM 解碼層

        本文使用LSTM 結(jié)構(gòu)對編碼層基于圖結(jié)構(gòu)的編碼輸出進(jìn)行解碼。在基于依存分析圖的編碼結(jié)果中,根據(jù)代表文本分詞的節(jié)點(diǎn)特征向量,將圖結(jié)構(gòu)的特征表示轉(zhuǎn)換成序列結(jié)構(gòu)的特征向量。解碼層采用一個(gè)單向的LSTM 層,結(jié)構(gòu)如圖6 所示。

        圖6 LSTM 解碼層神經(jīng)元結(jié)構(gòu)Fig.6 LSTM decoding layer neuron structure

        在檢測分詞xt的標(biāo)簽時(shí),解碼層的輸入是從編碼層獲得的分詞xt的上下文表示向量ht,前一神經(jīng)元的預(yù)測標(biāo)簽表示為Tt-1,前一神經(jīng)元值為解碼層前一隱層向量為最終輸出是xt預(yù)測標(biāo)簽的向量表示Tt,解碼層表示為[3]:

        其中:i、f、o分別為輸入門、遺忘門、輸出門;b是偏置項(xiàng);W為參數(shù)矩陣。對于輸入的ht,該層的輸出為預(yù)測標(biāo)簽的向量序列,如式(18)所示,dd為編碼層的網(wǎng)絡(luò)維度。

        2.6 Softmax 層

        本文模型的分類層使用Softmax 分類器進(jìn)行標(biāo)簽分類。通過Softmax 層運(yùn)算得到條件概率即分詞t為標(biāo)簽i的概率,如下:

        其中:θ為模型需要用到的所有參數(shù);Nt表示總的標(biāo)簽數(shù)目表示yt中第i個(gè)元素。yt是模型對分詞t在所有標(biāo)簽類型上的評分,其定義為:

        其中:Wy∈RNtd是參數(shù)矩陣;by∈RNt是偏置項(xiàng)。

        在測試階段,將所學(xué)習(xí)到的標(biāo)簽特征Tt乘以概率p得到用進(jìn)行標(biāo)簽預(yù)測。最終,得到分詞t具有如下標(biāo)簽:

        3 實(shí)驗(yàn)結(jié)果與分析

        3.1 數(shù)據(jù)集和實(shí)驗(yàn)設(shè)置

        本文在2019 年百度語言與智能技術(shù)競賽的關(guān)系抽取任務(wù)所提供數(shù)據(jù)集基礎(chǔ)上進(jìn)行數(shù)據(jù)清洗與篩選,從而形成本文實(shí)驗(yàn)數(shù)據(jù)集,每個(gè)文本中僅包含一個(gè)目標(biāo)提取三元組。實(shí)驗(yàn)所用標(biāo)記數(shù)據(jù)集共包含50 種實(shí)體關(guān)系類別,分布在132 952 個(gè)句子中,其中,訓(xùn)練集包含118 121 句,測試集包含14 831 句。

        準(zhǔn)確率(Precision)、召回率(Recall)、F 值是目前實(shí)體關(guān)系抽取研究領(lǐng)域中通用的性能評測指標(biāo),其中,F(xiàn) 值是考慮準(zhǔn)確率和召回率的綜合性指標(biāo)。在實(shí)際的模型訓(xùn)練中,具體的超參數(shù)值如表1 所示。

        表1 模型超參數(shù)設(shè)置Table 1 Model hyper parameters setting

        3.2 基線模型與評估方案

        為驗(yàn)證GCN 可以有效編碼詞間先驗(yàn)關(guān)系,并評估所提2 個(gè)模型(LSTM-GCN-CRF、LSTM-GCN-LSTM)在中文實(shí)體關(guān)系抽取中的性能,本文選擇經(jīng)典模型LSTM-CRF 和LSTM-LSTM 以及LSTM-LSTM-Bias、LSTM-GCN-Pruned 作為基線模型,分別進(jìn)行中文實(shí)體關(guān)系抽取實(shí)驗(yàn),并對比分析各個(gè)模型的評價(jià)指標(biāo)結(jié)果。

        本文為證明GCN 編碼層能有效編碼詞間先驗(yàn)關(guān)系,在LSTM-CRF 和LSTM-LSTM 中加入GCN 編碼層,在文本序列特征的基礎(chǔ)上提取圖結(jié)構(gòu)特征,相應(yīng)地生成LSTM-GCN-CRF、LSTM-GCN-LSTM這2種模型。LSTM-CRF[27]采用LSTM編碼文本進(jìn)行實(shí)體識別,通過簡單的條件隨機(jī)場架構(gòu)對輸出標(biāo)簽進(jìn)行建模,預(yù)測實(shí)體標(biāo)簽序列。LSTM-LSTM[28]則使用LSTM 對通過之前網(wǎng)絡(luò)學(xué)習(xí)的信息進(jìn)行解碼,實(shí)現(xiàn)實(shí)體標(biāo)簽序列預(yù)測。LSTM-GCN-Pruned[6]在LSTM 編碼之后使用GCN 編碼,使詞向量融合上下文信息,同時(shí)提出以最近公共祖先為中心的剪枝技術(shù),以去除依存分析圖中的無關(guān)依賴信息。

        本文為驗(yàn)證LSTM-GCN-CRF、LSTM-GCN-LSTM模型對中文實(shí)體關(guān)系抽取性能的提升作用,選擇同樣基于標(biāo)注策略的實(shí)體關(guān)系聯(lián)合抽取模型,即ZHENG 等提出的LSTM-LSTM-Bias 作為對比基線模型,在中文實(shí)體關(guān)系數(shù)據(jù)集上訓(xùn)練模型,從而預(yù)測實(shí)體關(guān)系。上述模型以不同方式增強(qiáng)實(shí)體間的聯(lián)系:LSTM-LSTMBias 在模型訓(xùn)練時(shí)使用增加了偏置的目標(biāo)函數(shù)進(jìn)行訓(xùn)練,優(yōu)化模型參數(shù),增加文本中的實(shí)體標(biāo)簽對損失函數(shù)的影響,同時(shí)減少非實(shí)體標(biāo)簽對損失函數(shù)的影響,以此增強(qiáng)實(shí)體之間的聯(lián)系;本文所提模型通過GCN 編碼層提取文本中的圖結(jié)構(gòu)特征,通過依存分析圖中節(jié)點(diǎn)和不同關(guān)系的邊強(qiáng)調(diào)實(shí)體之間的連接。

        3.3 結(jié)果分析

        本文按照3.2 節(jié)的評估方案,在中文實(shí)體關(guān)系數(shù)據(jù)集上,訓(xùn)練本文所提模型(LSTM-GCN-CRF、LSTM-GCN-LSTM)、經(jīng)典實(shí)體關(guān)系抽取模型(LSTM-CRF、LSTM-LSTM)、對依存分析圖進(jìn)行裁剪去除冗余信息的LSTM-GCN-Pruned 模型以及LSTM-LSTM-Bias 模型。

        在中文數(shù)據(jù)集上,不同基線模型的實(shí)體關(guān)系抽取準(zhǔn)確率、召回率與F 值結(jié)果如表2 所示。從表2 可以看出:加入GCN 編碼層后的LSTM-GCN-CRF 和LSTMGCN-LSTM 這2 種模型的F 值分別達(dá)到61.4%、61.2%,相比只提取序列特征的LSTM-CRF 和LSTM-LSTM,F(xiàn)值分別提升3.0%、4.1%;LSTM-GCN-Pruned模型的3項(xiàng)指標(biāo)均高于未采用GCN 編碼的經(jīng)典模型,GCN 通過分詞節(jié)點(diǎn)和邊關(guān)系信息充分學(xué)習(xí)中文文本中蘊(yùn)含的復(fù)雜句法信息,能表征更豐富的語義信息,GCN 編碼之后的2個(gè)模型都取得更高的召回率和F值,說明GCN編碼層可改善實(shí)體關(guān)系抽取性能;相較于LSTM-GCN-CRF、LSTM-GCN-LSTM 模型,LSTM-GCN-Pruned 雖然沒有使用文本依存分析圖中的全部依賴關(guān)系,但是其實(shí)體關(guān)系抽取性能并未因此而降低,表2 中的3 項(xiàng)評價(jià)指標(biāo)略高于其他模型,這是因?yàn)榇蠖鄶?shù)與關(guān)系相關(guān)的信息通常包含在以2 個(gè)實(shí)體的最近公共祖先為根的子樹中,LSTM-GCN-Pruned 模型采用剪枝技術(shù)僅保留所有直接連接到依賴路徑上的節(jié)點(diǎn),從而保留了大部分關(guān)鍵信息。

        表2 不同模型的關(guān)系三元組預(yù)測性能比較Table 2 Comparison of relational triple prediction performance of different models %

        如表3 所示,LSTM-LSTM-Bias在英文實(shí)體關(guān)系抽取數(shù)據(jù)集(NYT)上的性能表現(xiàn)較好,但其直接用于中文數(shù)據(jù)集時(shí),3 項(xiàng)指標(biāo)明顯降低,F(xiàn) 值僅有41.2%:一方面是因?yàn)橹形脑诮M詞、句法語法規(guī)則上更加靈活,更容易對文本內(nèi)容產(chǎn)生語義理解分歧;另一方面是因?yàn)長STM-LSTM-Bias 僅用Bi-LSTM 提取文本的長距離依賴關(guān)系序列特征,不足以表征中文文本中復(fù)雜的句法信息。本文所提LSTM-GCN-CRF、LSTM-GCN-LSTM模型的F 值分別達(dá)到61.4%、61.2%,相比LSTM-LSTMBias模型分別提高了49.0%、48.5%,由此說明本文LSTMGCN-CRF、LSTM-GCN-LSTM 模型可有效提升中文實(shí)體關(guān)系抽取性能。

        表3 LSTM-LSTM-Bias 模型的預(yù)測性能Table 3 Prediction performance of LSTM-LSTM-Bias model %

        3.4 GCN 分析

        上文中經(jīng)過不同模型指標(biāo)數(shù)據(jù)的對比分析,證明了GCN 編碼層的加入可有效提升實(shí)體關(guān)系抽取性能。本文統(tǒng)計(jì)測試集中實(shí)體1、實(shí)體2 被正確預(yù)測的句子數(shù),進(jìn)一步驗(yàn)證GCN 編碼層對實(shí)體關(guān)系抽取結(jié)果的改善作用。實(shí)驗(yàn)結(jié)果如表4 所示,其中:E1T_E2T 表示實(shí)體1 和實(shí)體2 均預(yù)測正確;E1F_E2F表示實(shí)體1 和實(shí)體2 均預(yù)測錯(cuò)誤;E1T_E2F 表示實(shí)體1 預(yù)測正確、實(shí)體2 預(yù)測錯(cuò)誤;E1F_E2T 表示實(shí)體1 預(yù)測錯(cuò)誤、實(shí)體2 預(yù)測正確。

        表4 實(shí)體1、實(shí)體2 被正確預(yù)測的句子數(shù)Table 4 Number of sentences for entity 1 and entity 2 which are predicted correctly

        實(shí)體三元組包含首尾2 個(gè)實(shí)體以及兩者之間的關(guān)系。本文在觀察測試集中所有句子的實(shí)體關(guān)系三元組抽取結(jié)果時(shí)發(fā)現(xiàn),存在實(shí)體1、實(shí)體2 其中一個(gè)抽取錯(cuò)誤的現(xiàn)象,因此,統(tǒng)計(jì)LSTM-CRF、LSTM-LSTM 和LSTM-GCN-CRF、LSTM-GCN-LSTM 這4 個(gè)模型在包含14 831 個(gè)句子的測試集上實(shí)體1、實(shí)體2 被正確預(yù)測的句子數(shù)情況。從表4 可以看出,加入GCN 編碼層的LSTM-GCN-CRF、LSTM-GCN-LSTM 模型將實(shí)體1、實(shí)體2 同時(shí)預(yù)測正確的句子數(shù)多于原始模型,這是因?yàn)镚CN 基于依存分析圖的圖結(jié)構(gòu)提取文本語義信息,在依存分析圖上三元組中2 個(gè)實(shí)體通過攜帶句中分詞關(guān)系類別的邊而更加緊密地聯(lián)系起來,增加了2 個(gè)實(shí)體同時(shí)被提取出來作為同種關(guān)系涉及的實(shí)體對的可能性,從而提高了實(shí)體三元組的提取完整性。此外,4 個(gè)模型抽取結(jié)果中單個(gè)實(shí)體1 預(yù)測正確的句子數(shù)普遍多于單個(gè)實(shí)體2,這是因?yàn)閿?shù)據(jù)集里大多數(shù)中文文本的語言表達(dá)按照主語謂語賓語的語法順序,根據(jù)數(shù)據(jù)集中關(guān)系和實(shí)體的標(biāo)注規(guī)則可知,實(shí)體1 是主語,多位于句子靠前的位置,而實(shí)體2 是賓語,多位于句子靠后的位置,主語被作為實(shí)體關(guān)系三元組中的實(shí)體被抽取出來的可能性更大,而實(shí)體2 被抽取出來需要依靠句子更豐富的語義信息。

        3.5 實(shí)例分析

        為了更直觀地體現(xiàn)GCN 編碼層在中文文本實(shí)體關(guān)系抽取中的效果,本文列出2 個(gè)典型實(shí)體關(guān)系抽取結(jié)果實(shí)例,如圖7所示,其中加粗表示預(yù)測錯(cuò)誤的標(biāo)簽。圖中展示出關(guān)于實(shí)例的4 行信息,從上至下依次為原句、正確的實(shí)體關(guān)系抽取結(jié)果、LSTM-LSTM 的抽取結(jié)果以及LSTM-GCN-LSTM 的抽取結(jié)果。

        圖7 實(shí)體關(guān)系抽取結(jié)果Fig.7 Entity relationship extraction results

        原句1 中存在可能混淆抽取結(jié)果的其他實(shí)體名。對比LSTM-LSTM 和LSTM-GCN-LSTM 模型的抽取結(jié)果可以發(fā)現(xiàn),LSTM-GCN-LSTM 通過GCN編碼層獲取到句子依存信息,增強(qiáng)了“趙靈兒”與“李憶如”之間“母親”關(guān)系的連接,從而提取出正確的實(shí)體關(guān)系;而LSTM-LSTM 則誤將“撫養(yǎng)”關(guān)系當(dāng)成“母親”關(guān)系,提取出了錯(cuò)誤的實(shí)體關(guān)系。

        在原句2 中,目標(biāo)實(shí)體關(guān)系三元組中的某個(gè)實(shí)體同時(shí)存在于其他關(guān)系三元組中。LSTM-LSTM 僅提取出一個(gè)實(shí)體,無法構(gòu)成三元組,且錯(cuò)誤地將“誰偷了誰的憂傷”預(yù)測為“人物/作者/圖書作品”實(shí)體關(guān)系的實(shí)體;LSTM-GCN-LSTM 雖然提取出2 個(gè)實(shí)體并正確提取出“晉江文學(xué)城”的實(shí)體分類結(jié)果,卻將實(shí)體1“誰偷了誰的憂傷”歸類到“人物/作者/圖書作品”實(shí)體關(guān)系中,同時(shí)也未將“玲小旭”預(yù)測出來,造成實(shí)體三元組信息的不完整。從句子內(nèi)容來看,本句的后半部分確實(shí)提及本書的作者,存在2 個(gè)實(shí)體三元組,這說明LSTM-GCN-LSTM 在處理多個(gè)實(shí)體之間存在2 個(gè)實(shí)體關(guān)系三元組的實(shí)體重疊問題時(shí)仍有不足。

        在含有數(shù)字的文本中,包含數(shù)字的實(shí)體關(guān)系三元組中數(shù)字實(shí)體重疊現(xiàn)象較為普遍,如圖8 所示,例句中的數(shù)字“50”存在于4 個(gè)待提取的實(shí)體關(guān)系三元組中。數(shù)字作為特定領(lǐng)域(如能源領(lǐng)域)文本中的關(guān)鍵信息,提取其所描述的具體信息非常有必要。因此,實(shí)體重疊是后續(xù)工作中需要解決的重要問題。

        圖8 含有數(shù)字實(shí)體關(guān)系的中文文本標(biāo)注結(jié)果Fig.8 Chinese text annotation results with digital entity relationship

        4 結(jié)束語

        本文提出一種基于GCN 的中文實(shí)體關(guān)系聯(lián)合抽取方法,利用GCN 編碼依存分析圖中的先驗(yàn)詞間關(guān)系信息,通過改進(jìn)的標(biāo)注策略標(biāo)記實(shí)體關(guān)系,將實(shí)體關(guān)系聯(lián)合抽取問題轉(zhuǎn)化為序列標(biāo)注問題,最終輸出實(shí)體關(guān)系三元組。實(shí)驗(yàn)結(jié)果表明,GCN 具有編碼局部特征和先驗(yàn)詞間關(guān)系的能力,聯(lián)合抽取模型在加入GCN 編碼的信息后能夠提高三元組中2 個(gè)實(shí)體均被正確抽取的概率,從而提升網(wǎng)絡(luò)性能。下一步嘗試?yán)脠D網(wǎng)絡(luò)在非歐空間上對拓?fù)潢P(guān)系的編碼能力來解決實(shí)體重疊問題,從而提升模型的適用性。

        猜你喜歡
        文本信息模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        在808DA上文本顯示的改善
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        3D打印中的模型分割與打包
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        展會(huì)信息
        如何快速走進(jìn)文本
        語文知識(2014年1期)2014-02-28 21:59:13
        999久久久免费精品国产| 亚洲一区二区三区偷拍女| 亚洲一区精品无码| 性色av无码中文av有码vr| 国产毛片网| 99久久国语露脸国产精品| 特级黄色大片性久久久| 日日噜噜夜夜狠狠va视频v| 真人直播 免费视频| 日本久久久免费高清| 伊人狼人激情综合影院| 无人区乱码一区二区三区| 国精品无码一区二区三区在线| 亚洲第一无码精品久久| 日韩精品久久伊人中文字幕| 免费a级毛片18禁网站| 精品无码人妻一区二区三区品| 98国产精品永久在线观看| 亚洲免费精品一区二区| 亚洲av永久无码精品一福利| 亚洲国产成人va在线观看天堂| 91极品尤物国产在线播放| 久久久亚洲免费视频网| 亚洲妇女自偷自偷图片| 成人在线激情网| 亚洲精品在线观看一区二区| 在线观看免费日韩精品| 俄罗斯老熟妇色xxxx| 国内视频偷拍一区,二区,三区| 亚洲精彩av大片在线观看| av国产传媒精品免费| 色偷偷88888欧美精品久久久 | 亚洲国产视频精品一区二区| 亚洲av综合色区一区二区| 午夜福利试看120秒体验区| 亚洲欧洲国产日产国码无码| 成人性生交大片免费看i| 亚洲中文字幕久久精品蜜桃| 狠狠色婷婷久久一区二区| 国产高清精品在线二区| 国产精品亚洲av三区亚洲|