亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于深度學(xué)習(xí)的關(guān)系抽取研究綜述

        2019-12-30 02:36:06莊傳志靳小龍朱偉建劉靜偉程學(xué)旗
        中文信息學(xué)報(bào) 2019年12期
        關(guān)鍵詞:實(shí)體卷積單詞

        莊傳志,靳小龍,朱偉建,劉靜偉,白 龍,程學(xué)旗

        (1. 中國科學(xué)院 計(jì)算技術(shù)研究所 中國科學(xué)院網(wǎng)絡(luò)數(shù)據(jù)科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,北京 100190;2. 中國科學(xué)院大學(xué) 計(jì)算機(jī)與控制學(xué)院,北京 100049)

        0 引言

        伴隨著互聯(lián)網(wǎng)、云計(jì)算等技術(shù)的發(fā)展,產(chǎn)生了海量的文本數(shù)據(jù)信息,其中包含大量有價值的知識。然而由于這些信息內(nèi)容的多元異質(zhì)、組織松散,給知識利用帶來很多困難。信息抽取的目的就是將非結(jié)構(gòu)化或半結(jié)構(gòu)化描述的自然語言文本轉(zhuǎn)化成結(jié)構(gòu)化內(nèi)容以更好地利用知識,包括抽取指定類型的實(shí)體、關(guān)系、事件等信息。關(guān)系抽取是信息抽取的重要子任務(wù),主要負(fù)責(zé)從無結(jié)構(gòu)文本中識別出實(shí)體,并抽取實(shí)體之間的語義關(guān)系,被廣泛用在信息檢索[1]、問答系統(tǒng)[2]中。

        深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一個新領(lǐng)域,由Hinton等人于2006年提出,其概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。深度學(xué)習(xí)大量借鑒關(guān)于人腦、統(tǒng)計(jì)學(xué)和應(yīng)用數(shù)學(xué)的知識,通過組合低層特征形成更加抽象的高層特征表示,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示[3]。近年來,得益于更強(qiáng)大的計(jì)算機(jī)、更大的數(shù)據(jù)集和能夠訓(xùn)練更深的技術(shù),深度學(xué)習(xí)的普及性和實(shí)用性都有了極大的發(fā)展,并成為機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn),在圖像處理、語音處理等應(yīng)用領(lǐng)域均取得突破性的進(jìn)展,并已經(jīng)成為自然語言處理領(lǐng)域的重要研究工具,被廣泛用在詞性標(biāo)注[4]、命名實(shí)體識別[5]、語義角色標(biāo)注[6]等領(lǐng)域。

        由于社會各界對知識圖譜的深入研究,關(guān)系抽取作為知識圖譜構(gòu)建的重要環(huán)節(jié)引起了廣泛關(guān)注。很多學(xué)者將深度學(xué)習(xí)用于關(guān)系抽取領(lǐng)域的研究中,取得了突出成績[7-11]。近年來,基于神經(jīng)網(wǎng)絡(luò)的方法較多,一些學(xué)者做了梳理,如Kumar等[12]介紹了卷積神經(jīng)網(wǎng)絡(luò)在該領(lǐng)域的部分研究進(jìn)展,但缺少對整個領(lǐng)域開展的系統(tǒng)深入的梳理與總結(jié)工作。

        為此,本文對基于深度學(xué)習(xí)的關(guān)系抽取方法進(jìn)行了歸納總結(jié)。首先引入關(guān)系抽取簡介,詳細(xì)介紹方法的分類以及基于深度學(xué)習(xí)的關(guān)系抽取方法常用數(shù)據(jù)集,并提出基于深度學(xué)習(xí)的抽取框架。據(jù)此框架,本文詳細(xì)闡述了深度學(xué)習(xí)在關(guān)系抽取領(lǐng)域的研究進(jìn)展,并展望未來發(fā)展方向。本文集中于英文語料的二元關(guān)系抽取的研究討論,多元關(guān)系抽取和其他語言的關(guān)系抽取不在本文討論的范圍。

        1 關(guān)系抽取簡介

        關(guān)系抽取的定義和分類較多,一直以來缺少詳細(xì)的介紹,容易造成概念上的混淆。在介紹關(guān)系抽取方法之前,本節(jié)首先介紹關(guān)系抽取的基本概念、方法分類和基于深度學(xué)習(xí)的關(guān)系抽取方法常用的數(shù)據(jù)集,并給出基于深度學(xué)習(xí)的關(guān)系抽取框架。

        1.1 關(guān)系抽取基本概念

        完整的關(guān)系抽取包括實(shí)體抽取和關(guān)系分類兩個子過程。實(shí)體抽取子過程也就是命名實(shí)體識別,對句子中的實(shí)體進(jìn)行檢測和分類;關(guān)系分類子過程對給定句子中兩個實(shí)體之間的語義關(guān)系進(jìn)行判斷,屬于多類別分類問題。

        例如,對于句子“青島坐落于山東省的東部”,實(shí)體抽取子過程檢測出這句話具有“青島”和“山東”兩個實(shí)體。關(guān)系分類子過程檢測出這句話中“青島”和“山東”兩個實(shí)體具有“坐落于”關(guān)系而不是“出生于”關(guān)系。在關(guān)系抽取過程中,多數(shù)方法默認(rèn)實(shí)體信息是給定的,那么關(guān)系抽取就可以看作是分類問題。

        1.2 關(guān)系抽取方法的分類

        目前,常用的關(guān)系抽取方法有5類,分別是基于模式匹配、基于詞典驅(qū)動、基于機(jī)器學(xué)習(xí)、基于本體和混合的方法[13]。基于模式匹配和詞典驅(qū)動的方法依靠人工制定規(guī)則,耗時耗力,而且可移植性較差,基于本體的方法構(gòu)造比較復(fù)雜,理論尚不成熟[14]?;跈C(jī)器學(xué)習(xí)的方法以自然語言處理技術(shù)為基礎(chǔ),結(jié)合統(tǒng)計(jì)語言模型進(jìn)行關(guān)系抽取,方法相對簡單,并具有不錯的性能,成為當(dāng)下關(guān)系抽取的主流方法,下文提到的關(guān)系抽取方法均為機(jī)器學(xué)習(xí)的方法。

        可從多個視角對基于機(jī)器學(xué)習(xí)的關(guān)系抽取方法進(jìn)行劃分,比如根據(jù)文本抽取的范圍將其分為句子級關(guān)系抽取和篇章級關(guān)系抽取兩類,根據(jù)抽取目標(biāo)將其分為句子級關(guān)系抽取和實(shí)體對級關(guān)系抽取兩類。

        為了清晰地介紹基于深度學(xué)習(xí)的抽取方法,本文從訓(xùn)練數(shù)據(jù)的標(biāo)記程度、使用的機(jī)器學(xué)習(xí)方法、是否同時進(jìn)行實(shí)體抽取和關(guān)系分類子過程以及是否限定關(guān)系抽取領(lǐng)域和關(guān)系專制四個角度對機(jī)器學(xué)習(xí)的關(guān)系抽取方法進(jìn)行分類。

        1.2.1 根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)記程度分類

        根據(jù)訓(xùn)練數(shù)據(jù)的標(biāo)記程度可以將關(guān)系抽取方法分為有監(jiān)督、半監(jiān)督和無監(jiān)督三類[15],近年來,遠(yuǎn)程監(jiān)督被引入到關(guān)系抽取任務(wù)中,并成為關(guān)系抽取的一類重要方法。

        有監(jiān)督學(xué)習(xí)處理的基本單位是包含特定實(shí)體對的句子,每一個句子都有類別標(biāo)注。此類方法將關(guān)系抽取當(dāng)作多類別分類問題來解決,首先根據(jù)訓(xùn)練數(shù)據(jù)來獲取句子的有效表示,然后采用特定的方法來比較不同句子之間的語義相似性,并利用該模型對測試數(shù)據(jù)進(jìn)行預(yù)測。有監(jiān)督的關(guān)系抽取能夠有效利用樣本的標(biāo)記信息,準(zhǔn)確率和召回率都比較高,是關(guān)系抽取領(lǐng)域主流的研究方法。

        然而,有監(jiān)督的關(guān)系抽取方法的最大缺點(diǎn)是需要大量的人工標(biāo)記訓(xùn)練語料,代價較高,因此遠(yuǎn)程監(jiān)督被用于關(guān)系抽取。遠(yuǎn)程監(jiān)督基于這樣一種假設(shè): 如果兩個實(shí)體在知識庫中存在某種關(guān)系,那么特定語料中所有包含這兩個實(shí)體的非結(jié)構(gòu)化句子均能表示這種關(guān)系。遠(yuǎn)程監(jiān)督利用已有知識庫中的知識對語料進(jìn)行標(biāo)注,有效解決了關(guān)系抽取中的數(shù)據(jù)標(biāo)注問題,Mintz等[16]最早將Freebase中的三元組對齊到《紐約時報(bào)》新聞文本語料庫中,便捷地得到大量有標(biāo)注訓(xùn)練數(shù)據(jù),此類數(shù)據(jù)集被稱為遠(yuǎn)程監(jiān)督數(shù)據(jù)集。

        遠(yuǎn)程監(jiān)督關(guān)系抽取方法處理的基本單位是由包含特定實(shí)體對的多個句子所構(gòu)成的句包,對數(shù)據(jù)的標(biāo)注是句包級別的標(biāo)注,并未對句包中的每一個句子進(jìn)行明確標(biāo)注,因此可以將其看作是針對句包的有監(jiān)督學(xué)習(xí)。

        半監(jiān)督學(xué)習(xí)中,句子作為訓(xùn)練數(shù)據(jù)的基本單位,只有部分是有類別標(biāo)注的。半監(jiān)督的學(xué)習(xí)方法主要采用自助、協(xié)同訓(xùn)練等方法進(jìn)行關(guān)系抽取[17]。對于要抽取的關(guān)系,該方法首先通過人工為每種關(guān)系設(shè)定若干種子實(shí)例,然后迭代地在語料庫中獲得更多相關(guān)句子集合并抽取表達(dá)關(guān)系的模板和實(shí)例。此類方法讓學(xué)習(xí)器不依賴外界交互,自動地利用未標(biāo)記樣本來提升學(xué)習(xí)性能。

        無監(jiān)督學(xué)習(xí)中,完全不需要對訓(xùn)練數(shù)據(jù)進(jìn)行標(biāo)注,此類方法包含實(shí)體對標(biāo)記、關(guān)系聚類和關(guān)系詞選擇三個過程。無監(jiān)督學(xué)習(xí)假設(shè)相同語義關(guān)系的實(shí)體對具有相似的上下文信息,因此利用每個實(shí)體對對應(yīng)的上下文信息來代表實(shí)體對的語義關(guān)系,并對所有實(shí)體對的語義關(guān)系進(jìn)行聚類[18]和選擇。

        本文介紹的基于深度學(xué)習(xí)的關(guān)系抽取方法均屬于有監(jiān)督學(xué)習(xí)或遠(yuǎn)程監(jiān)督學(xué)習(xí)方法。

        1.2.2 根據(jù)使用的機(jī)器學(xué)習(xí)方法分類

        根據(jù)使用機(jī)器學(xué)習(xí)方法不同,可以將關(guān)系抽取劃分為三類: 基于特征向量的方法、基于核函數(shù)的方法以及基于神經(jīng)網(wǎng)絡(luò)的方法?;谔卣飨蛄康姆椒ê突诤撕瘮?shù)的方法,一般稱為傳統(tǒng)的關(guān)系抽取方法。

        基于特征向量的方法通過從包含特定實(shí)體對的句子中提取出語義特征,構(gòu)造特征向量, 然后通過使用支持向量機(jī)[19]、最大熵[20]、條件隨機(jī)場[21]等模型進(jìn)行關(guān)系抽取。基于核函數(shù)的方法充分利用句子的特定組織形式[22],可以是字符串序列或樹結(jié)構(gòu),不需要顯式定義復(fù)雜的語義特征,通過設(shè)計(jì)特定核函數(shù)來計(jì)算句子之間的相似度,根據(jù)相似度進(jìn)行分類。

        對于基于特征向量的方法而言,這些特征多需要人工設(shè)計(jì),最終選擇哪些特征往往通過啟發(fā)式的試驗(yàn)得出,因工作量較大,并且其所使用的實(shí)體類型、詞性標(biāo)簽、依存關(guān)系等特征,已經(jīng)覆蓋了大多數(shù)可利用的語言現(xiàn)象,在分類效果方面很難進(jìn)一步提升。對于基于核函數(shù)的方法而言,其重點(diǎn)是巧妙地設(shè)計(jì)核函數(shù)來計(jì)算不同關(guān)系實(shí)例特定表示之間的相似度,而如何設(shè)計(jì)核函數(shù)需要大量的人類工作,不適用于大規(guī)模語料上的關(guān)系抽取任務(wù)。

        針對上述問題,很多學(xué)者開始將深度學(xué)習(xí)應(yīng)用到有監(jiān)督和遠(yuǎn)程監(jiān)督關(guān)系抽取中,通過構(gòu)造不同的神經(jīng)網(wǎng)絡(luò)模型來自動學(xué)習(xí)句子的特征,減少了復(fù)雜的特征工程以及領(lǐng)域?qū)<抑R,具有很強(qiáng)的泛化能力。

        1.2.3 根據(jù)是否同時進(jìn)行實(shí)體抽取和關(guān)系分類子過程進(jìn)行分類

        根據(jù)是否在同一個模型里開展實(shí)體抽取和關(guān)系分類,可以將關(guān)系抽取方法分為流水線(pipeline)學(xué)習(xí)和聯(lián)合(joint) 學(xué)習(xí)兩種。流水線學(xué)習(xí)是指先對輸入的句子進(jìn)行實(shí)體抽取,將識別出的實(shí)體分別組合,然后再進(jìn)行關(guān)系分類,這兩個子過程是前后串聯(lián)的,完全分離。聯(lián)合學(xué)習(xí)是指在一個模型中實(shí)現(xiàn)實(shí)體抽取和關(guān)系分類子過程。

        流水線學(xué)習(xí)讓每一個子過程都更靈活,使關(guān)系抽取更容易,因此多數(shù)基于深度學(xué)習(xí)的關(guān)系抽取方法都默認(rèn)實(shí)體對是給定的,工作重點(diǎn)集中在關(guān)系分類子過程。然而此類方法忽視了兩個子任務(wù)之間存在的關(guān)系,比如“小明跳槽去了華為”, “小明”是人名實(shí)體,“華為”是公司實(shí)體,有助于確定兩者具有“受雇于”關(guān)系,而不是“出生于”關(guān)系;同樣,這句話具有“受雇于”關(guān)系可以幫助確定“小明”是人名實(shí)體,“華為”屬于公司實(shí)體。

        聯(lián)合學(xué)習(xí)的方法通過使兩個子過程共享網(wǎng)絡(luò)底層參數(shù)[23]以及設(shè)計(jì)特定的標(biāo)記策略[11]來解決上述問題,其中使用特定的標(biāo)記策略可以看作是一種序列標(biāo)注問題。

        1.2.4 根據(jù)是否限定關(guān)系抽取領(lǐng)域和關(guān)系類別分類

        根據(jù)是否限定抽取領(lǐng)域和關(guān)系類別,關(guān)系抽取方法可以劃分為預(yù)定義抽取和開放域抽取兩類。預(yù)定義關(guān)系抽取是指在一個或者多個固定領(lǐng)域內(nèi)對實(shí)體間關(guān)系進(jìn)行抽取,語料結(jié)構(gòu)單一,這些領(lǐng)域內(nèi)的目標(biāo)關(guān)系類型也是預(yù)先定義的。開放域關(guān)系抽取不限定領(lǐng)域的范圍和關(guān)系的類別?,F(xiàn)階段,基于深度學(xué)習(xí)的關(guān)系抽取研究集中于預(yù)定義關(guān)系抽取。

        1.3 常用數(shù)據(jù)集

        基于深度學(xué)習(xí)的關(guān)系抽取方法常用的數(shù)據(jù)集有ACE關(guān)系抽取任務(wù)數(shù)據(jù)集、SemEval2010 Task 8數(shù)據(jù)集、NYT2010數(shù)據(jù)集等。

        1.3.1 ACE關(guān)系抽取任務(wù)數(shù)據(jù)集

        ACE(automatic content extraction)評測會議[24]由美國國家標(biāo)準(zhǔn)技術(shù)研究院組織,其中一項(xiàng)重要評測任務(wù)就是實(shí)體關(guān)系識別。評測會議的各類任務(wù)語料來源包括網(wǎng)絡(luò)上的專線新聞和廣播新聞、新聞組、報(bào)紙新聞和電視對話、網(wǎng)絡(luò)日志等。其中ACE2005關(guān)系抽取數(shù)據(jù)集包含599篇與新聞和郵件相關(guān)的文檔,其數(shù)據(jù)集內(nèi)包含7大類25小類關(guān)系。

        1.3.2 SemEval2010 Task 8數(shù)據(jù)集[25]

        該數(shù)據(jù)集包含9種關(guān)系類型,分別是Compoent-Whole、Instrument-Agency、Member-Collection、Cause-Effect、Entity-Destination、Content-Container、Message-Topic、Product-Producer和Entity-Origin??紤]到實(shí)體之間關(guān)系的方向以及不屬于前面9種關(guān)系的“Other”關(guān)系,共生成19類實(shí)體關(guān)系。其中訓(xùn)練數(shù)據(jù) 8 000個,測試數(shù)據(jù) 2 717 個。

        1.3.3 NYT2010數(shù)據(jù)集[26]

        NYT2010數(shù)據(jù)集是Riedel等人在2010年將Freebase知識庫中的知識“三元組”對齊到“紐約時報(bào)”新聞中得到的訓(xùn)練數(shù)據(jù)。該數(shù)據(jù)集中,數(shù)據(jù)的單位是句包,一個句包由包含該實(shí)體對的若干句子構(gòu)成。其中,訓(xùn)練數(shù)據(jù)集從《紐約時報(bào)》2005—2006年語料庫中獲取,測試集從2007年語料庫中獲取。

        1.4 基于深度學(xué)習(xí)的關(guān)系抽取框架

        基于深度學(xué)習(xí)的關(guān)系抽取框架由輸入預(yù)處理、數(shù)據(jù)表示、網(wǎng)絡(luò)模型學(xué)習(xí)3個部分組成,如圖1所示。每一部分的輸出作為下一部分的輸入。在輸入預(yù)處理部分,將整個句子或者該句子的特定范圍作為神經(jīng)網(wǎng)絡(luò)的輸入,并使用自然語言處理工具獲取數(shù)據(jù)的顯式特征;在數(shù)據(jù)表示部分,獲取上述輸入對應(yīng)的低維向量表示;在網(wǎng)絡(luò)模型學(xué)習(xí)部分,針對之前的輸入范圍和特征信息,設(shè)計(jì)網(wǎng)絡(luò)模型,獲取句子或者句包的表示,并根據(jù)訓(xùn)練數(shù)據(jù)進(jìn)行模型的學(xué)習(xí)。

        圖1 基于深度學(xué)習(xí)的關(guān)系抽取方法框架

        基于深度學(xué)習(xí)的關(guān)系抽取,主要思想是選擇樣本中特定輸入信息并設(shè)計(jì)合理的網(wǎng)絡(luò)結(jié)構(gòu),將所要進(jìn)行抽取的樣本轉(zhuǎn)換成獨(dú)特的向量表示來進(jìn)行關(guān)系抽取。其中,有監(jiān)督的關(guān)系抽取學(xué)習(xí)的是句子的表示,遠(yuǎn)程監(jiān)督的關(guān)系抽取學(xué)習(xí)的是句包的表示,因此,遠(yuǎn)程監(jiān)督的關(guān)系抽取還要設(shè)計(jì)特定的方法將句子的表示轉(zhuǎn)換成句包的表示。這部分工作也是在網(wǎng)絡(luò)模型構(gòu)建過程中完成。

        近年來研究人員主要從輸入預(yù)處理和網(wǎng)絡(luò)模型設(shè)計(jì)兩部分入手,開展了廣泛深入的研究。本文在第2節(jié),詳細(xì)介紹面向深度學(xué)習(xí)的輸入數(shù)據(jù)預(yù)處理研究工作;第3節(jié)詳細(xì)介紹面向深度學(xué)習(xí)的關(guān)系抽取方法在網(wǎng)絡(luò)模型構(gòu)建方面的工作;第4節(jié)介紹了基于深度學(xué)習(xí)關(guān)系抽取方法未來研究重點(diǎn),并進(jìn)行展望。最后對本文進(jìn)行總結(jié)。

        2 面向深度學(xué)習(xí)的輸入數(shù)據(jù)預(yù)處理

        深度學(xué)習(xí)模型主要根據(jù)語言學(xué)知識,構(gòu)建特定的輸入,根據(jù)形式的不同可將輸入分為序列結(jié)構(gòu)和樹結(jié)構(gòu)兩大類。在數(shù)據(jù)預(yù)處理階段,研究人員的工作集中在根據(jù)自然語言處理的相關(guān)知識,選擇特定的輸入范圍,并根據(jù)句子的特征將其處理成特定的結(jié)構(gòu)。

        2.1 輸入語句的范圍

        一般認(rèn)為,將整個句子作為輸入,包含的信息量最大,不至于丟失任何信息[7,27]。然而,使用整個句子作為輸入時,卻可能包含冗余特征。盡管神經(jīng)網(wǎng)絡(luò)具有自動學(xué)習(xí)潛在特征的能力,研究人員仍然盡可能地在將語句送入神經(jīng)網(wǎng)絡(luò)之前去除不相關(guān)信息。在該階段,研究人員采用了不同范圍的輸入來表示句子中兩個實(shí)體所具有的關(guān)系信息。

        Santos等[28]研究發(fā)現(xiàn)大部分關(guān)系可以由句子中兩個實(shí)體之間的關(guān)鍵詞反映出來。例如,如果實(shí)體之間具有“實(shí)體—目的地(實(shí)體1,實(shí)體2)”關(guān)系,那么兩個實(shí)體之間很有可能有方向詞“到”或者“去”;如果實(shí)體之間具有“原因—結(jié)果(實(shí)體1,實(shí)體2)”關(guān)系,那么實(shí)體1和實(shí)體2之間很有可能有如“導(dǎo)致”或“由……引起”等詞語,并且這些詞語距離實(shí)體較近。Rink等[29]認(rèn)為對兩個實(shí)體關(guān)系進(jìn)行抽取,最重要的特征來自于兩個實(shí)體、兩個實(shí)體之間的單詞以及兩個實(shí)體周圍的單詞信息。

        根據(jù)上述發(fā)現(xiàn),研究認(rèn)為選擇局部關(guān)鍵信息作為輸入可有效降低冗余信息。Hou等[30]僅僅考慮實(shí)體周邊特定范圍的詞匯,如把兩個實(shí)體前后n個詞,作為輸入;Santos等[28]僅使用兩個實(shí)體及它們之間的子句來抽取句子的信息;Zheng等[31]顯式引入實(shí)體前后的詞來抽取實(shí)體的信息,以此作為補(bǔ)充來提升抽取效果。

        為了驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)模型在短文本上的效果,Qin等[32]使用比兩個實(shí)體之間的子句多前后兩個單詞的子句作為輸入。考慮到句子太長對關(guān)系抽取結(jié)果的影響,Liu等[33]選擇輸入的句子長度不超過一個特定的范圍。

        另一方面,利用句法分析的結(jié)果作為輸入也可以有效地豐富句子的表示,揭示實(shí)體對之間的語義關(guān)系。句法分析分為成分句法分析和依存句法關(guān)系分析兩種。

        成分句法分析,以獲取整個句子的句法結(jié)構(gòu)或者完全短語結(jié)構(gòu)為目的,把句子組織成短語組合的形式。Hashimoto等[34]使用整個句子的成分解析樹作為輸入;而Socher等[8]認(rèn)為,把句法成分樹上兩個實(shí)體之間的共同節(jié)點(diǎn)所在的子樹作為輸入,足夠表達(dá)出實(shí)體對之間的語法關(guān)系。

        依存句法分析主要詮釋詞間的依賴關(guān)系,可以識別句子中的“主謂賓”、 “定狀補(bǔ)”等語法成分,聚焦于句子的行為和主題。為了全面利用依存樹上的語義信息,Yang等[35]使用整個句法依存樹作為輸入,并重新定義當(dāng)前節(jié)點(diǎn)的上下文信息為其依存樹上的父節(jié)點(diǎn)和子節(jié)點(diǎn)。

        研究認(rèn)為[9],兩個實(shí)體之間的最短依存路徑可以描述兩個實(shí)體之間的關(guān)系。因此,Ebrahimi等[36]使用兩個實(shí)體之間的最短路徑上所有節(jié)點(diǎn)所在的子樹作為輸入,既保留了關(guān)系的關(guān)鍵詞,又減少了冗余信息的輸入。為了最大限度利用最短依存樹上的語義信息,Xu等[37]還使用了兩個實(shí)體之間的最短依存路徑上的箭頭方向、路徑上的關(guān)系標(biāo)記等內(nèi)容。

        Nguyen等[38]指出,僅僅使用兩個實(shí)體之間的最短路徑作為輸入,會忽略掉最短路徑上關(guān)鍵詞的子樹信息。針對這個問題,Liu等[39]根據(jù)依存樹給最短依存路徑上的每個節(jié)點(diǎn)附加其依存句法樹上的子樹作為神經(jīng)網(wǎng)絡(luò)模型的輸入,稱之為依存增強(qiáng)子樹。

        同時,Santos等[28]和Qin等[32]將額外的標(biāo)記信息作為輸入的組成部分。例如,由于訓(xùn)練樣本中已使用實(shí)體標(biāo)簽標(biāo)記目標(biāo)實(shí)體,則在句子訓(xùn)練的過程中將[e1] [e1] [e2] [e2]看作是四個單詞,有效提升了抽取效果。

        2.2 輸入語句的特征

        研究人員引入神經(jīng)網(wǎng)絡(luò)的初衷是為了盡量避免對句子進(jìn)行詞性標(biāo)注、句法分析等操作,減少人工構(gòu)造特征以及自然語言處理工具的錯誤帶來的誤差累積和傳播。然而后續(xù)研究發(fā)現(xiàn),在語義信息不完備的情況下,人工構(gòu)造的顯式特征在神經(jīng)網(wǎng)絡(luò)模型中對于關(guān)系抽取問題仍具有一定的促進(jìn)作用,因此,研究人員也使用多種特征的混合來表示單詞,主要可以分為兩大類,詞匯特征和相對位置特征。

        2.2.1 詞匯特征

        詞匯特征指通過對句子使用一系列的自然語言處理工具和外部知識庫提取的特征,是與語義相關(guān)的特征。常用的詞匯特征有詞性、命名實(shí)體類別、語法關(guān)系、Wordnet超詞等。

        由于同一個單詞在不同句子中的詞性不同,則其含義也有所變化,故Hashimoto 等[34]使用了詞性特征來表示單詞。命名實(shí)體類別也可有助于理解實(shí)體之間的關(guān)系,例如,人名—地名更可能是實(shí)體—目的地關(guān)系,而不是通信—主題關(guān)系,故Liu等[33]使用命名實(shí)體特征來表示單詞。Wordnet是一部語義詞典,該詞典有利于在具有相似概念的不同單詞間構(gòu)筑鏈接。例如,“parrot”這個詞的上位詞就是“bird”,這樣不同的單詞在Wordnet中有可能有相同的上位詞,可以引入更多語義信息,因此Xu等[10,37]使用Wordnet上位詞來表示單詞特征。

        2.2.2 相對位置特征

        相對位置特征是指當(dāng)前單詞與實(shí)體之間的距離。一般認(rèn)為,在句子中,單詞與實(shí)體的關(guān)系越近,其與對應(yīng)關(guān)系的關(guān)聯(lián)越重要。根據(jù)輸入范圍和內(nèi)容的不同,可以將位置特征分為基于句子的位置特征和基于依存樹的位置特征兩大類。

        基于句子的位置特征最早由Collbert等[40]用來進(jìn)行語義角色標(biāo)記,隨后Zeng等[7]將位置特征引入到關(guān)系抽取中。句子中包含兩個實(shí)體,因此每一個單詞的位置特征至少有兩個,例如,在句子“Convulsions that occur after DTap are caused by a fever”中,caused距離Convulsions和fever的距離分別是6和-3,這樣一組數(shù)字就代表這個單詞的位置信息。

        位置特征在關(guān)系抽取中有一定的作用,然而也面臨一些問題,例如,兩個實(shí)體間的副詞和不相關(guān)實(shí)體改變了實(shí)體間的相對距離,卻不提供任何有用的信息,導(dǎo)致抽取效果降低。依存樹能夠縮短標(biāo)記實(shí)體之間的距離,并且可以幫助去掉冗余單詞,因此很直接地想到把基于句子的位置特征遷移到依存樹上。

        Yang等[35]在依存樹上設(shè)計(jì)了兩類位置信息,分別記為tpf1和tpf2。圖2詳細(xì)標(biāo)識了當(dāng)前依存樹上每個節(jié)點(diǎn)距離其中一個實(shí)體[Convulsions] 的距離特征。

        tpf1用來表示依存樹上的單詞距離標(biāo)記實(shí)體的相對距離,如果該單詞為其中一個標(biāo)記實(shí)體的子節(jié)點(diǎn),那么該單詞的tpf1值為負(fù)數(shù),否則為正數(shù),如圖2中節(jié)點(diǎn)左側(cè)的數(shù)字所示。tpf2使用元組表示一個單詞和對應(yīng)標(biāo)記實(shí)體分別到其最小共同節(jié)點(diǎn)的距離,如圖2中節(jié)點(diǎn)的右側(cè)標(biāo)記。

        為了豐富位置特征,Zhang等[41]根據(jù)依存樹上兩個實(shí)體之間的最短路徑,還設(shè)計(jì)了以下三類相對依存位置特征: 相對于根節(jié)點(diǎn)的特征(是否為根節(jié)點(diǎn),是否為根節(jié)點(diǎn)的子節(jié)點(diǎn),或者其他節(jié)點(diǎn)),相對于實(shí)體e1的特征(是否為e1節(jié)點(diǎn),是否為e1的子節(jié)點(diǎn),其他節(jié)點(diǎn)),相對于e2的特征(是否為e2節(jié)點(diǎn),是否為e2的子節(jié)點(diǎn),其他節(jié)點(diǎn))。

        通過上述分析可以看到,不同的輸入范圍的含義是不同的,給關(guān)系抽取造成的影響也不相同,通過預(yù)處理抽取合適的句子特征有利于提升抽取效果。

        3 面向關(guān)系抽取的深度學(xué)習(xí)模型構(gòu)建

        基于深度學(xué)習(xí)的關(guān)系抽取方法模型構(gòu)建的重點(diǎn)在于利用不同神經(jīng)網(wǎng)絡(luò)的特點(diǎn)來抽取樣本的特征,以學(xué)習(xí)樣本的向量表示。在學(xué)習(xí)過程中,根據(jù)所用的神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)的不同,可將基于深度學(xué)習(xí)的關(guān)系抽取方法分為基于遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,Rec-NN)的方法、基于卷積神經(jīng)網(wǎng)絡(luò)的方法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)的方法和基于混合網(wǎng)絡(luò)模型的方法四類。

        3.1 基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

        在自然語言處理領(lǐng)域,句子的組合性是指短語是由一系列相鄰詞匯組合而成的,復(fù)雜句子的含義由其子句或短語根據(jù)特定的規(guī)則遞歸組合確定[42]。 遞歸神經(jīng)網(wǎng)絡(luò)是一種全連接的前向神經(jīng)網(wǎng)絡(luò),其用于自然語言處理的重要原因就是可以依據(jù)特定的規(guī)則對句子成分進(jìn)行組合。

        基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法首先利用自然語言處理工具對句子進(jìn)行處理,構(gòu)建特定的二叉樹,然后解析樹上所有的相鄰子節(jié)點(diǎn),以特定的語義順序?qū)⑵浣M合成一個父節(jié)點(diǎn),如圖3所示。這個過程遞歸進(jìn)行,最終計(jì)算出整個句子的向量表示。向量計(jì)算過程可以看作是將句子進(jìn)行一個特征抽取過程,該方法對所有的鄰接點(diǎn)采用相同的操作。

        Socher等[44]最早提出這種遞歸神經(jīng)網(wǎng)絡(luò),并將其用到情感分類中,取得了較好的效果。然而單詞在組合成短語的過程中,不同的單詞具有的意義不同,而且在改變其他單詞或短語意義上的作用也千差萬別。

        針對自然語言的這個特性,Socher等[8]提出了MV-RNN方法。MV-RNN為句法成分解析樹上的每個節(jié)點(diǎn)分別定義了一個元組(向量,矩陣),向量代表節(jié)點(diǎn)本身的含義,矩陣代表節(jié)點(diǎn)具有的改變與之結(jié)合的節(jié)點(diǎn)的詞義的能力。

        具體如圖4所示,這個方法的輸入是句法成分解析樹上兩個實(shí)體到它們的最小共同節(jié)點(diǎn)構(gòu)成的子樹,其中a和b表示該節(jié)點(diǎn)的向量,A和B表示該節(jié)點(diǎn)的矩陣。每一個非終端節(jié)點(diǎn)都要通過組合其子節(jié)點(diǎn)的語義得到對應(yīng)的向量和矩陣。該子樹的最終向量,通過自底向上地使用遞歸神經(jīng)網(wǎng)絡(luò)組合得到,作為句子的關(guān)系向量。

        針對同一短語詞性也可能具有不同詞性這個特點(diǎn),Hashimoto等[34]使用句法成分解析樹上包含兩個實(shí)體的最小子樹作為輸入,句法樹上的葉子節(jié)點(diǎn)的輸入不再是單詞,而是單詞—詞性對。在遞歸組合過程中,對每個子節(jié)點(diǎn)設(shè)計(jì)了不同的組合權(quán)重,權(quán)重的大小由當(dāng)前節(jié)點(diǎn)的詞性、短語類別、是否是句法頭、是否位于兩個實(shí)體之間句法樹路徑上等因素決定;在組合時,使用的組合矩陣也根據(jù)子節(jié)點(diǎn)—詞性對來確定。

        與句子的成分解析樹相比,依存解析樹可以對兩個實(shí)體之間的更豐富的關(guān)系進(jìn)行編碼。針對這個特性,Ebrahimi等[36]使用依存解析樹上兩個實(shí)體之間的最短依存路徑來構(gòu)造二叉樹,并適用于遞歸神經(jīng)網(wǎng)絡(luò)模型。

        Ebrahimi等[36]采用兩種方法構(gòu)造二叉樹。一種是基于啟發(fā)式的固定的樹結(jié)構(gòu),這種方法從葉子節(jié)點(diǎn)出發(fā),遞歸地組合從屬詞—支配詞對,構(gòu)造一個滿二叉樹,得到一個共同的祖先,這個祖先代表該句子的關(guān)系向量。第二種通過遞歸自編碼的方法進(jìn)行樹的構(gòu)建,目標(biāo)是最小化樹上原始輸入節(jié)點(diǎn)之間的重構(gòu)誤差,找到最可能的樹結(jié)構(gòu),最終根據(jù)構(gòu)建的樹來表示最終的節(jié)點(diǎn)。

        基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法的關(guān)鍵在于如何構(gòu)造解析樹,以及組合函數(shù)的選擇。這里的神經(jīng)網(wǎng)絡(luò)可以有多層,觸發(fā)函數(shù)也可以有多種選擇。

        3.2 基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

        卷積神經(jīng)網(wǎng)絡(luò)是當(dāng)今計(jì)算機(jī)視覺系統(tǒng)的核心技術(shù),在圖像分類領(lǐng)域做出了巨大貢獻(xiàn)。近些年,卷積神經(jīng)網(wǎng)絡(luò)被應(yīng)用于各類自然語言處理任務(wù),如語義解析、搜索檢索、句子分類和語義角色標(biāo)注等方面,均取得了較好成果。

        基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法接受一個特定的向量矩陣作為輸入,通過卷積層和池化層的操作將輸入轉(zhuǎn)換成一個固定長度的向量,并使用其他特征進(jìn)行語義信息匯總,再進(jìn)行抽取?;诰矸e神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法框架如圖5所示,除了輸入層、數(shù)據(jù)表示層之外,還有窗口層、卷積層、池化層、語義信息匯總層、分類層。

        圖5 基于卷積神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取框架圖[36]

        窗口層利用了語義分布假設(shè)的思想[42],即: 使用當(dāng)前單詞本身及單詞的上下文,可以更清晰地表達(dá)當(dāng)前單詞的含義。卷積層通過多個卷積核對句子進(jìn)行從上到下的卷積操作,來收集句子的局部的抽象特征。在實(shí)際操作中,窗口層一般通過設(shè)置卷積核的大小來完成。池化層的作用在于對卷積層特征做進(jìn)一步篩選,用來抽取句子級別的全局特征。語義信息匯總層是將池化層獲取的特征與部分顯式構(gòu)造的特征結(jié)合,作為句子的最終向量表示。最后將這個向量送入到一個全連接網(wǎng)絡(luò)進(jìn)行分類。

        Liu等[33]首次使用卷積神經(jīng)網(wǎng)絡(luò)來做關(guān)系抽取任務(wù),對于多特征組成的特征向量輸入,首先使用卷積層進(jìn)行卷積操作,將輸出進(jìn)行池化操作,使得最終得到的句子向量表示與句子的長度無關(guān)。最后將該結(jié)果作為句子的向量表示送入到分類層中。

        Zeng等[7]引入位置特征,并使用預(yù)訓(xùn)練的詞向量進(jìn)行關(guān)系抽取。在語義信息匯總層,Zeng等人將獲取的句子兩類語義特征組合作為句子的最終向量表示,一類是通過對句子使用窗口層和卷積層操作獲取句子語義特征,另一類是顯式地設(shè)計(jì)詞匯特征,包括兩個實(shí)體本身、兩個實(shí)體的前后單詞以及兩個實(shí)體在Wordnet中的超詞。然而,Zeng等人使用寬度為3的窗口層可以僅抽取特定大小的局部特征,卻不能抽取更大范圍的n-gram特征,并且他們在模型中加入了人工設(shè)定的詞匯特征。

        針對這個問題, Nguyen等[45]使用多窗口聯(lián)合抽取特征,以充分利用n-gram的特征并降低大窗口特征引起的噪音問題,同時完全不再使用詞匯特征,僅僅使用端到端的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)句子的特征,取得了比Zeng等[7]更好的效果。

        以上方法使用最大池操作可以快速地減少隱層參數(shù),但可能導(dǎo)致因此無法抽取句子的結(jié)構(gòu)信息以及其他有效信息。

        針對此問題,Zeng等[46]提出了PCNN模型,如圖6所示,將卷積層得到的特征向量進(jìn)行分段池化,即根據(jù)句子中兩個實(shí)體的位置將卷積結(jié)果分為3段,對每段分別進(jìn)行池化操作,將其組接作為當(dāng)前句子的特征向量。使用分段池化操作可以保存句子部分結(jié)構(gòu)信息,彌補(bǔ)句子太長對結(jié)果的影響。

        圖6 分段池化示意圖[46]

        為了學(xué)習(xí)關(guān)系的更魯棒表示,Xu等[9]在兩個實(shí)體之間的最短依存路徑上使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)關(guān)系表示,提出depLCNN模型,該模型的輸入包含了帶方向的箭頭標(biāo)記及關(guān)系類型。同時,Xu等人將兩個實(shí)體之間最短路徑的逆向作為一個負(fù)關(guān)系來增加訓(xùn)練樣本,使得模型顯著提升了抽取效果。

        在關(guān)系抽取任務(wù)中,每個單詞對關(guān)系語義的貢獻(xiàn)都是不等價的,因此注意力機(jī)制被自動地引入到神經(jīng)網(wǎng)絡(luò)中。Wang等[47]基于卷積神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了輸入注意力層和關(guān)系注意力層,并提出BiAtt-pooling-CNN模型。該方法使用捕獲單詞與目標(biāo)實(shí)體相關(guān)性的輸入注意力層和捕獲單詞與關(guān)系相關(guān)性的關(guān)系注意力層來獲取句子特征向量表示,以盡可能突出句子中那些對關(guān)系抽取有更大貢獻(xiàn)的部分。

        BiAtt-pooling-CNN模型僅僅使用輸入注意力層即可達(dá)到87.5%的效果, 再加上關(guān)系注意力層的效果則達(dá)到了88.0%,這是當(dāng)前研究中的最好結(jié)果。從這里可以看出,相比關(guān)系注意力層,輸入注意力層的作用更加重要。但是由于設(shè)計(jì)了關(guān)系注意力,使結(jié)構(gòu)復(fù)雜度增長很多,且文章中設(shè)計(jì)了兩個固定的權(quán)重矩陣,而事實(shí)上,不同的詞在不同關(guān)系中的權(quán)重是不同的。

        針對上述問題,Zhu等[48]提出TCA-CNN模型,僅使用捕獲單詞與目標(biāo)實(shí)體相關(guān)性的輸入注意力層,直接計(jì)算單詞與關(guān)系的相關(guān)度,而不是計(jì)算單詞與實(shí)體的相關(guān)性,同時去掉了關(guān)系注意力層。

        相較于有監(jiān)督方法而言,遠(yuǎn)程監(jiān)督方法雖然可以快速得到大量有標(biāo)注樣本,然而不可避免地引入噪聲。例如,包含“特朗普”和“美國”的句子可能還具有“特朗普出生于美國”的關(guān)系,或者這句話并不具有“特朗普是美國總統(tǒng)”關(guān)系。近年來,解決遠(yuǎn)程監(jiān)督關(guān)系抽取的主要研究工作集中于在深度學(xué)習(xí)框架下的學(xué)習(xí)句包的表示,重點(diǎn)在于減少數(shù)據(jù)集中的噪聲對關(guān)系抽取的影響。

        Zeng等[46]首先將深度學(xué)習(xí)模型與多示例學(xué)習(xí)結(jié)合起來,來進(jìn)行遠(yuǎn)程監(jiān)督關(guān)系抽取。Zeng等使用PCNN模型獲取句子的特征表示,在模型訓(xùn)練和預(yù)測階段,僅選擇每個句包中后驗(yàn)概率最大的句子作為句包的最終向量表示,來對模型參數(shù)進(jìn)行更新。這個方法僅選擇句包中最能表現(xiàn)句子中兩個實(shí)體之間關(guān)系的句子,是個很強(qiáng)的限制,忽略了句包中大量的其他有用句子的信息。

        針對“噪聲問題”,Lin等[49]在Zeng等[46]的基礎(chǔ)上提出使用注意力機(jī)制給句包中的句子賦予不同的權(quán)重以降低噪聲,因此可以更充分地利用信息。具體地,Lin等[49]首先使用CNN對原始句子進(jìn)行處理,得到句包中每個句子的向量表示;然后,使用注意力機(jī)制對每個句子計(jì)算一個權(quán)重,以表示在該關(guān)系上該句的重要程度;最后,使用該權(quán)重對句子向量表示進(jìn)行加權(quán)求和,得到句包的向量表示,并將其送入到softmax中進(jìn)行分類。每個句子根據(jù)關(guān)系的不同得到的權(quán)重都會不一樣,這樣就可以發(fā)現(xiàn)對于特定關(guān)系而言重要的句子與噪聲的句子,并且利用句包中的所有信息預(yù)測關(guān)系類型。該方法中,關(guān)系的向量表示是隨機(jī)初始化得到的。

        為了更好地利用先驗(yàn)知識,Ji等[50]在Lin等[49]的基礎(chǔ)上,使用PCNN來獲取句子的特征表示,同時基于Bordes等[51]提出的tranE的思想,使用兩個實(shí)體之間的差值作為關(guān)系的表示,并用來計(jì)算句子在句包中的權(quán)重,同時,引入Freebase和Wikipedia知識庫里實(shí)體的文本描述信息來增強(qiáng)實(shí)體的語義表示。

        卷積神經(jīng)網(wǎng)絡(luò)可以通過窗口層較好地學(xué)習(xí)句子中的局部特征,尤其是與關(guān)系相關(guān)的關(guān)鍵詞信息。與序列結(jié)構(gòu)的輸入相比,引入樹結(jié)構(gòu)的輸入可以減輕因?yàn)榫渥娱L度帶來的噪聲問題。

        3.3 基于循環(huán)神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取

        由于句子含義跟單詞出現(xiàn)的順序是相關(guān)的,因此關(guān)系抽取可以看作是一個時序?qū)W習(xí)任務(wù),可以使用循環(huán)神經(jīng)網(wǎng)絡(luò)來建模。

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)[52]的方法在模型設(shè)計(jì)上使用不同的循環(huán)神經(jīng)網(wǎng)絡(luò)來獲取句子信息,然后對每個時刻的隱狀態(tài)輸出進(jìn)行組合,在句子層級學(xué)習(xí)有效特征。在關(guān)系抽取問題中,對每一個輸入,關(guān)系的標(biāo)記一般只在序列的最后得到。

        Zhang等[27]首次使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)來進(jìn)行關(guān)系抽取,提出了BRNN模型。如圖7所示,在雙向循環(huán)神經(jīng)網(wǎng)絡(luò)中某一時刻的輸出不僅依賴序列中之前的輸入,也依賴于后續(xù)的輸入。

        圖7 雙向循環(huán)神經(jīng)網(wǎng)絡(luò)BRNN模型[27]

        對于給定的句子,Zhang等[27]首先將每個單詞按照正向和逆向兩個順序依次輸入到兩個方向不同的循環(huán)神經(jīng)網(wǎng)絡(luò)中,將正向和逆向隱狀態(tài)加和作為當(dāng)前時刻的隱狀態(tài)輸出。然后,對所有隱狀態(tài)輸出執(zhí)行最大池操作,將得到的結(jié)果作為該句子的最終向量表示,并送入到一個邏輯斯蒂回歸分類模型中。這里使用最大池操作的出發(fā)點(diǎn)在于文章假設(shè): 只有幾個重要的關(guān)鍵詞(觸發(fā)詞)以及少部分的模式對關(guān)系抽取而言是重要的。

        Hou等[30]也使用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行關(guān)系抽取,他們認(rèn)為關(guān)系的判定僅和實(shí)體附近的局部信息相關(guān),因此其模型的輸入是在兩個實(shí)體的前后固定長度的單詞序列,并且給距離實(shí)體近的單詞較大權(quán)重,給距離實(shí)體遠(yuǎn)的單詞較小權(quán)重。

        在簡單循環(huán)神經(jīng)網(wǎng)絡(luò)中,“循環(huán)”指的是隱藏層中對每一個神經(jīng)元的循環(huán)使用,隱藏層的輸入不僅包括當(dāng)前時刻的數(shù)據(jù)輸入,還包括隱藏層自身上一時刻的輸出[53-54],會引起“梯度爆炸”問題。為了解決該問題,Hochreiter等[55]采用門機(jī)制,提出了長短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory,LSTM)。

        Xu等[37]首次使用LSTM網(wǎng)絡(luò)捕捉句子信息來進(jìn)行關(guān)系抽取。該文使用單詞、詞性、語法關(guān)系、Wordnet超詞等特征構(gòu)建四個通道。在每個通道上,使用最短依存路徑構(gòu)造兩個從實(shí)體到最小共同祖先節(jié)點(diǎn)的子序列,對每個子路徑上的隱狀態(tài)采取最大池化操作并串聯(lián)組接,作為該句子在該通道的向量表示,最終將4個通道的結(jié)果組接起來,送入softmax函數(shù)中用來分類。

        針對單向LSTM網(wǎng)絡(luò)無法完全抽取上下文信息的問題,Zhang等[41]提出BiLSTM模型抽取句子雙向的隱狀態(tài)輸出,并通過組合詞匯特征和句子級別的兩類特征來豐富句子的特征表示。其中,詞匯特征有以下7個: 單詞本身、詞性、實(shí)體類型、Wordnet超詞、位置特征、依存關(guān)系特征、相對依存位置特征。句子級別的特征通過對網(wǎng)絡(luò)中兩個實(shí)體的隱狀態(tài)輸出使用雙重最大池化操作,加強(qiáng)兩個實(shí)體之間的文本對關(guān)系抽取的影響。該文雖然取得了一定的效果,卻仍然使用了大量的人工定義的特征。

        Zhou等[56]在Zhang等[27]的基礎(chǔ)上,結(jié)合注意力機(jī)制提出了Att-BiLSTM模型。如圖8所示,Zhou等人使用雙向LSTM網(wǎng)絡(luò)來獲取句子中每個單詞對應(yīng)的隱狀態(tài)輸出,使用注意力機(jī)制來抽取單詞級別特征,通過特定的向量來計(jì)算每個單詞對句子表示貢獻(xiàn)的權(quán)重,以得到句子的最終向量表示用來分類。

        事實(shí)上,實(shí)體對是關(guān)系抽取的基本成分,同一個單詞與不同關(guān)系的權(quán)重是不同的,不同單詞與實(shí)體對之間的順序也反映了重要語義信息。在Att-BiLSTM模型中,注意力機(jī)制通過定義一個隨機(jī)初始變量來表示當(dāng)前單詞與關(guān)系的相似度,這種設(shè)置并沒有反映這些先驗(yàn)信息。

        針對這個問題,Qin等[57]提出基于實(shí)體對的注意力機(jī)制,把(實(shí)體對,句子)作為輸入,將實(shí)體對信息作為先驗(yàn)知識放入到注意力層,同時通過構(gòu)建雙向GRU網(wǎng)絡(luò)[58]以減少雙向LSTM網(wǎng)絡(luò)的計(jì)算復(fù)雜性。具體地,首先通過單向GRU網(wǎng)絡(luò)得到實(shí)體對的先驗(yàn)知識嵌入表示,以自適應(yīng)地生成單詞級別的注意力權(quán)重,網(wǎng)絡(luò)的單向性也保證了這個嵌入表示與單詞出現(xiàn)的順序是相關(guān)的。隨后,將注意力權(quán)重與雙向GRU網(wǎng)絡(luò)上每個單詞的隱狀態(tài)輸出整合,以獲得句子的最終向量表示,并進(jìn)行分類。

        在Qin等人的基礎(chǔ)上,Sun等[59]將注意力機(jī)制中的網(wǎng)絡(luò)由GRU替換成LSTM,然后使用粗粒度的雙向LSTM網(wǎng)絡(luò)來抽取句子級別特征信息,使用基于實(shí)體對注意力機(jī)制的細(xì)粒度雙向LSTM來抽取關(guān)鍵信息。這種做法使得句子在包含很多噪聲且關(guān)鍵信息無法正確抽取時,這兩個粒度的網(wǎng)絡(luò)功能可以互補(bǔ)。

        一般認(rèn)為,低層次網(wǎng)絡(luò)能夠進(jìn)行足夠的局部信息抽取,深層次網(wǎng)絡(luò)可以探索不同層次和不同粒度的抽象特征。

        為此,Xu等[10]在其自身工作[37]的基礎(chǔ)上,提出深層循環(huán)神經(jīng)網(wǎng)絡(luò)模型(DRNN)。具體地,在不同特征構(gòu)成的通道上,使用多層循環(huán)神經(jīng)網(wǎng)絡(luò)沿著兩個子路徑捕獲抽象信息。深層網(wǎng)絡(luò)有更強(qiáng)大的表達(dá)和學(xué)習(xí)能力,但是復(fù)雜性也提高了,同時需要更多的訓(xùn)練數(shù)據(jù)。Xu等[10]提出通過僅僅改變兩個子路徑的方向得到一個新的具有相反關(guān)系的樣本的方法,以利用關(guān)系的方向性增加數(shù)據(jù)樣本。

        自注意力機(jī)制[60]可以無視詞之間的距離直接計(jì)算依賴關(guān)系,能夠?qū)W習(xí)一個句子的內(nèi)部結(jié)構(gòu),其中的多頭注意力可以允許模型在不同的表示子空間里學(xué)習(xí)到相關(guān)的信息的特點(diǎn)引起研究人員關(guān)注。為此,Lee等[61]使用多頭注意力對句子的每個單詞的上下文信息及隱實(shí)體類型信息進(jìn)行編碼,隨后使用雙向LSTM網(wǎng)絡(luò)對句子進(jìn)行編碼,并疊加詞語級別的注意力機(jī)制來獲取句子的向量表示。

        上述提到的方法在實(shí)際上僅考慮關(guān)系分類子過程的工作,未能將兩個子過程聯(lián)合考慮,屬于流水線學(xué)習(xí)方法范疇。為了解決該問題,Miwa等[62]在雙向序列LSTM的基礎(chǔ)上堆疊雙向樹結(jié)構(gòu)的LSTM進(jìn)行聯(lián)合關(guān)系抽取。具體地,Miwa等人先使用雙向序列LSTM來識別所有實(shí)體,然后再遍歷所有的實(shí)體對,使用樹結(jié)構(gòu)雙向LSTM網(wǎng)絡(luò)來輸出它們之間的關(guān)系。

        該方法在一個模型框架下進(jìn)行實(shí)體識別和關(guān)系分類,兩個子任務(wù)通過共享網(wǎng)絡(luò)參數(shù)的方式進(jìn)行聯(lián)合學(xué)習(xí)。但是在訓(xùn)練時,這兩個子過程是有先后關(guān)系的,需要先進(jìn)行實(shí)體識別,再根據(jù)實(shí)體識別的結(jié)果進(jìn)行兩兩匹配來進(jìn)一步進(jìn)行關(guān)系抽取。

        為了解決上述問題,Zheng等[11]采取聯(lián)合學(xué)習(xí)的方法,提出一種新的標(biāo)注策略來進(jìn)行關(guān)系抽取,將關(guān)系抽取轉(zhuǎn)換成了序列標(biāo)注問題。Zheng等人使用雙向LSTM網(wǎng)絡(luò)對句子進(jìn)行編碼,然后使用LSTM網(wǎng)絡(luò)對輸入單詞的隱狀態(tài)進(jìn)行解碼。進(jìn)行標(biāo)注的時候,每個輸入節(jié)點(diǎn)的標(biāo)注由三個部分組成,分別是: 單詞在實(shí)體中的位置;關(guān)系類型;關(guān)系角色(即關(guān)系方向)。最后,根據(jù)標(biāo)簽序列,將同樣關(guān)系類型的實(shí)體合并成一個三元組作為最后抽取結(jié)果。這種通過序列標(biāo)注的方法可以同時得到對應(yīng)的實(shí)體類型和實(shí)體對之間的關(guān)系,兩個子過程同時進(jìn)行。

        基于循環(huán)神經(jīng)網(wǎng)絡(luò)的方法通過合理地引入神經(jīng)網(wǎng)絡(luò)的各類機(jī)制,較好地學(xué)習(xí)句子中的特征,在對長距離關(guān)系建模時具有天然優(yōu)勢。

        3.4 基于混合網(wǎng)絡(luò)模型的關(guān)系抽取

        為了更好地抽取句子中的特征,研究人員使用遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)3種網(wǎng)絡(luò)及其他機(jī)器學(xué)習(xí)方法進(jìn)行組合建模來進(jìn)行關(guān)系抽取。

        為了更好地利用依存樹上的信息,Liu等[39]構(gòu)造了基于增強(qiáng)依存子樹的網(wǎng)絡(luò)模型DepNN。DepNN首先使用遞歸神經(jīng)網(wǎng)絡(luò)來對增強(qiáng)依存子樹上每個子樹進(jìn)行建模,獲取其子樹向量表示,然后使用卷積神經(jīng)網(wǎng)絡(luò)來捕獲最短依存路徑上的重要的局部特征,作為句子的最終向量表示進(jìn)行關(guān)系抽取。

        Vu等[63]提出了基于文本擴(kuò)展表示的ECNN和基于鏈接的UniBRNN模型,將每個神經(jīng)網(wǎng)絡(luò)得到的多個結(jié)果根據(jù)投票機(jī)制得到關(guān)系的最終抽取結(jié)果。文本擴(kuò)展表示的思想是: 大多數(shù)情況下,兩個實(shí)體中間的子句序列包含與實(shí)體抽取最相關(guān)的單詞,我們主要關(guān)注這個子序列,同時不能忽略其他子序列。ECNN首先用輸入的句子構(gòu)造兩個子序列,第一個子序列為第二個實(shí)體之前的子句,第二個子序列為第一個實(shí)體之后的子句,然后在Liu等[33]的基礎(chǔ)上分別對兩個子序列進(jìn)行處理,將其結(jié)果串聯(lián)得到句子的向量表示。UniBRNN區(qū)別于傳統(tǒng)的BRNN的地方在于: 對于一個輸入序列,特定時刻的隱狀態(tài)輸出與逆序列相同時刻的隱狀態(tài)進(jìn)行串聯(lián)組合,而不是序列在當(dāng)前節(jié)點(diǎn)的逆向隱狀態(tài)輸出,并且對于中間隱節(jié)點(diǎn)也進(jìn)行前向RNN操作。

        Xiao等[54]將注意力機(jī)制引入一個多級的循環(huán)神經(jīng)網(wǎng)絡(luò),該方法使用文本序列作為輸入,根據(jù)標(biāo)記實(shí)體的位置將句子分為5部分,使用同一個雙向LSTM網(wǎng)絡(luò)在3個子序列上獨(dú)立學(xué)習(xí),然后引入詞層級的注意力機(jī)制關(guān)注重要的單詞表示,分別得到子序列的向量表示;隨后,使用雙向RNN網(wǎng)絡(luò)進(jìn)一步抽取子序列和實(shí)體的特征,并再次使用注意力機(jī)制將其轉(zhuǎn)換成句子的最終向量表示,并送入到分類器中。Nguyen等[64]將傳統(tǒng)基于特征的方法(log-linear模型)、卷積神經(jīng)網(wǎng)絡(luò)方法和循環(huán)神經(jīng)網(wǎng)絡(luò)方法使用集成、投票等機(jī)制進(jìn)行組合。Zhang等[65]提出在雙向LSTM的基礎(chǔ)上疊加注意力機(jī)制,以及使用卷積神經(jīng)網(wǎng)絡(luò)層獲取句子的表示,再送入到一個全連接層和softmax層進(jìn)行分類。

        在包含兩個實(shí)體的最短依存路徑上,先前的工作多是把依存關(guān)系當(dāng)作單詞或者詞性等語法特征,忽略了特征之間的差異。針對這個問題,Cai等[66]提出雙向RCNN模型記為(BRCNN),通過在雙通道LSTM網(wǎng)絡(luò)上疊加卷積神經(jīng)網(wǎng)絡(luò),來利用最短依存樹上的依存關(guān)系。具體地,在每個方向的循環(huán)神經(jīng)網(wǎng)絡(luò)中,將整個最短依存樹中的單詞和單詞之間的關(guān)系使用不同類的嵌入表示,并且將單詞與關(guān)系分別使用獨(dú)立通道的LSTM編碼。在卷積層,將單向循環(huán)神經(jīng)網(wǎng)絡(luò)層獲取的相鄰詞對應(yīng)的LSTM輸出和它們的依存關(guān)系層的LSTM輸出連結(jié)起來作為卷積層的輸入,在卷積層后接池化層,在池化層后接softmax分類。

        從Wikipedia、Dbpedia、Wikidata等百科全書網(wǎng)站上有很多關(guān)于實(shí)體的描述,這些描述可以為實(shí)體提供額外的描述信息,提升分類效果。針對這個事實(shí),Ren等[67]在Cai等[66]的基礎(chǔ)上提出DesRC模型。模型的輸入為(句子,實(shí)體1的描述,實(shí)體2的描述),然后分別使用卷積神經(jīng)網(wǎng)絡(luò)抽取實(shí)體的描述信息,使用BRCNN模型抽取句子的向量表示,最后使用跨句子的注意力方法來將其整合成一個全局實(shí)值變量,隨后將其送入到softmax層進(jìn)行分類。

        為了更有效提升依存模型的計(jì)算效率,利用最短依存路徑有可能忽略的重要的信息,Zhang等[68]對依存解析樹使用path-centric的剪枝,即保留依存樹上和最短依存路徑上的每個節(jié)點(diǎn)鄰接的數(shù)個節(jié)點(diǎn),然后使用雙向LSTM網(wǎng)絡(luò)學(xué)習(xí)依存樹上節(jié)點(diǎn)的上下文信息,并在此基礎(chǔ)上設(shè)計(jì)了面向關(guān)系抽取的圖卷積神經(jīng)網(wǎng)絡(luò),通過池化操作來獲取剪枝的依存樹的句子表示,將其與兩個經(jīng)過圖卷積的實(shí)體的向量表示組合,作為句子的最終向量表示來進(jìn)行關(guān)系抽取。

        在聯(lián)合學(xué)習(xí)問題上,Zheng等[69]使用遞歸神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)組合來進(jìn)行聯(lián)合學(xué)習(xí),也是一種共享底層網(wǎng)絡(luò)參數(shù)的方法。具體地,對于輸入句子使用雙向LSTM網(wǎng)絡(luò)來進(jìn)行編碼,然后用一個LSTM網(wǎng)絡(luò)來進(jìn)行實(shí)體抽取,用一個卷積神經(jīng)網(wǎng)絡(luò)來進(jìn)行關(guān)系抽取。接下來將實(shí)體抽取的預(yù)測標(biāo)簽進(jìn)行嵌入表示,再傳入到實(shí)體抽取的解碼中來代替條件隨機(jī)場解決命名實(shí)體識別中的標(biāo)簽依賴問題。在進(jìn)行關(guān)系抽取的時候,需要先根據(jù)命名實(shí)體識別預(yù)測的結(jié)果對實(shí)體進(jìn)行配對,然后將實(shí)體之間的文本使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行關(guān)系抽取。

        在遠(yuǎn)程監(jiān)督問題上,針對噪聲問題,Chen等[70]使用PCNN來學(xué)習(xí)句子的表示,然后使用多層感知機(jī)和邏輯回歸來捕捉噪聲的信息,過濾掉信息量較小的句子,僅選擇句包中最重要的數(shù)個句子,隨后使用注意力機(jī)制對選定的句子以不同權(quán)重來計(jì)算句包的向量表示, 來減少噪聲殘留問題,最后再將其送入到softmax層中進(jìn)行分類。

        之前的方法,多是針對一個句子只有一個關(guān)系的情況進(jìn)行處理。實(shí)際上,一個句子可能存在多個關(guān)系。同時,之前采取的方法都是從句子級別的特征抽取,而不是跨句子的特征抽取,而事實(shí)上兩個實(shí)體之間的語義關(guān)系可能由多個句子組合來表達(dá)。

        針對上述問題,Jiang和Wang等人分別提出多示例多標(biāo)簽CNN模型[71]和DSNN模型[72]來進(jìn)行關(guān)系抽取。具體地,兩人分別使用CNN和PCNN獲取句子的向量表示,同時基于張量可以更好地描述特征之間的相關(guān)性的特點(diǎn),Wang還采取張量轉(zhuǎn)移的方法獲取句子更為最豐富的特征表示。然后二者均跳過句子級別的抽取,直接對句包內(nèi)部的所有句子的特征表示做最大池化操作。在訓(xùn)練階段,對于每個關(guān)系,使用訓(xùn)練集中所有句包來訓(xùn)練一個邏輯回歸分類器,在預(yù)測階段,每個句包就可能對應(yīng)多個關(guān)系。

        為了更有效學(xué)習(xí)句包的特征表示,F(xiàn)eng等[73]使用兩個內(nèi)存網(wǎng)絡(luò)來分別計(jì)算每個單詞與不同的實(shí)體對的相關(guān)性以及與不同關(guān)系之間的依賴性,以此來挖掘深層次的關(guān)系。第一個內(nèi)存網(wǎng)絡(luò)實(shí)現(xiàn)了單詞級別的注意力機(jī)制,即根據(jù)上下文與實(shí)體對的相似度,對單詞分配權(quán)重,將其與通過CNN網(wǎng)絡(luò)獲取的句子特征表示進(jìn)行組接,代表句子的最終表示。第二個內(nèi)存網(wǎng)絡(luò)實(shí)現(xiàn)了句子級別和句包級別的兩段注意力機(jī)制,第一段注意力與Lin等[49]的方法類似,通過計(jì)算當(dāng)前句包內(nèi)的句子與關(guān)系的權(quán)重,得到當(dāng)前句包在不同關(guān)系下的向量表示;第二段注意力通過分別計(jì)算當(dāng)前關(guān)系與其他關(guān)系之間的相關(guān)性權(quán)重,對每個句包在不同關(guān)系下的表示進(jìn)行加權(quán)求和,就可以得到融合多關(guān)系的句包的特征向量。對于最后得到的每一個句包的特征向量,使用邏輯回歸做多個二元分類器,得到句包的多個可能關(guān)系。

        上述方法中,句包的標(biāo)簽是固定不變的,而事實(shí)上,隨著學(xué)習(xí)的進(jìn)行,由于特定樣本與正確標(biāo)記示例的句法或者語義相似性,樣本被正確分類的可能性在提升,某些被錯誤分類的句子也可能被正確劃分。

        針對這個現(xiàn)象,Liu等[74]提出軟標(biāo)簽方法,該方法在訓(xùn)練過程中句包的標(biāo)簽是動態(tài)變化的,可以在訓(xùn)練階段利用這種語義或句法相似性來糾正誤標(biāo)記樣本。在訓(xùn)練過程中,Liu等人提出一個聯(lián)合得分函數(shù)來獲取軟標(biāo)記樣本,這個函數(shù)既考慮樣本的置信度,也考慮句包的表示。在得到句包的表示以后,由于使用軟標(biāo)簽,可以根據(jù)訓(xùn)練的關(guān)系矩陣計(jì)算當(dāng)前句包屬于每個關(guān)系的權(quán)重,最后使用一個置信向量來表示當(dāng)前標(biāo)簽的置信度,并將最可能的關(guān)系進(jìn)行放大。

        針對噪聲問題,F(xiàn)eng[75]、Zeng[76]和Qin[77]等均使用CNN網(wǎng)絡(luò)抽取句子的特征標(biāo)識,然后使用強(qiáng)化學(xué)習(xí)或生成對抗訓(xùn)練的策略來減少訓(xùn)練數(shù)據(jù)集中的假正樣本。

        Feng等[75]的模型有兩個部件,分別是實(shí)例選擇器和關(guān)系分類器,實(shí)例選擇器對每個句子執(zhí)行動作,選擇是否將句子放入訓(xùn)練集;分類器對樣本進(jìn)行預(yù)測,并將預(yù)測結(jié)果回傳給實(shí)例選擇器,幫助實(shí)例選擇器更好地選擇訓(xùn)練樣本。Zeng等[76]將“至少一次”假設(shè)進(jìn)行了重新表述: 在對句包進(jìn)行關(guān)系預(yù)測時,當(dāng)且僅當(dāng)每個句子的預(yù)測標(biāo)簽都是“無關(guān)系”時,句包才是“無關(guān)系”,否則句包的關(guān)系類型由其中的句子所表達(dá),從另一個角度使用了實(shí)例選擇器。Qin等[77]通過在訓(xùn)練數(shù)據(jù)集上訓(xùn)練生成器,使得生成器生成的數(shù)據(jù)被判別器標(biāo)識成負(fù)樣本,最終使用生成器過濾掉有噪聲樣本的方法來去除數(shù)據(jù)集合中的噪聲。

        基于混合網(wǎng)絡(luò)模型的關(guān)系抽取工作重點(diǎn)在于結(jié)合不同的語言學(xué)知識,使用不同的神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特點(diǎn)來共同設(shè)計(jì)網(wǎng)絡(luò)模型以達(dá)到理想的效果。

        3.5 小結(jié)

        本節(jié)主要從模型構(gòu)建的角度對基于深度學(xué)習(xí)的關(guān)系抽取方法進(jìn)行了分析和總結(jié),可以發(fā)現(xiàn)以下幾點(diǎn)。

        (1) 這幾種深度學(xué)習(xí)的模型在關(guān)系抽取任務(wù)上的區(qū)別主要其處理NLP領(lǐng)域任務(wù)中的作用不同: 遞歸神經(jīng)網(wǎng)絡(luò)考慮的是獲得符合語法規(guī)則的短語特征,卷積神經(jīng)網(wǎng)絡(luò)考慮的是所有可能的短語組合,循環(huán)神經(jīng)網(wǎng)絡(luò)在根據(jù)當(dāng)前詞的上下文來獲得有效特征方面具有獨(dú)特的優(yōu)勢。通過模型的組合也可以一定程度上提升關(guān)系抽取的效果,并且注意力機(jī)制已經(jīng)成為關(guān)系抽取領(lǐng)域的常見做法。

        (2) 從形式上來講,基于遞歸神經(jīng)網(wǎng)絡(luò)的關(guān)系抽取方法要求根據(jù)輸入構(gòu)造特定的樹結(jié)構(gòu),然而相同節(jié)點(diǎn)之間的組合方式過于簡單,捕捉語義的作用不是很明顯。由于解析樹的構(gòu)造比較復(fù)雜,而且在遞歸神經(jīng)網(wǎng)絡(luò)中進(jìn)行簡單的組合也難以足夠抽取句子的語義關(guān)系特征,給每個單詞賦予一個向量或矩陣也導(dǎo)致計(jì)算量太過龐大,現(xiàn)已較少使用。卷積神經(jīng)網(wǎng)絡(luò)由于訓(xùn)練過程中參數(shù)較少,效果優(yōu)異,成為在關(guān)系抽取領(lǐng)域模型構(gòu)建中獲取句子特征表示時的常用模型。

        (3) 在基于深度學(xué)習(xí)的關(guān)系抽取應(yīng)用早期,使用序列結(jié)構(gòu)的輸入是卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)的的常用做法。近年來,隨著研究的深入,圖結(jié)構(gòu)的輸入也引起了研究人員的關(guān)注。盡管構(gòu)建樹結(jié)構(gòu)的輸入需要利用其他自然語言處理工具,導(dǎo)致增加計(jì)算量,并存在誤差傳遞問題,但由于其在捕獲語義方面的獨(dú)特優(yōu)勢,使用樹結(jié)構(gòu)的輸入仍然作為基于深度學(xué)習(xí)的關(guān)系抽取的重要形式。

        (4) 這里將幾個經(jīng)典的基于深度學(xué)習(xí)的關(guān)系抽取模型在特定數(shù)據(jù)集上得到的結(jié)果進(jìn)行對比,如表1所示。可以發(fā)現(xiàn),為了獲得句子的向量表示, 構(gòu)建網(wǎng)絡(luò)模型時仍需考慮如何正確反映一些自然語言處理方面的先驗(yàn)知識,比如n-gram特征、依存關(guān)系特征、句法成分特征、單詞上下文特征等各類自然語言特征。

        另外,通過合理利用訓(xùn)練樣本數(shù)據(jù)標(biāo)記特征設(shè)計(jì)特定的損失函數(shù),如基于margin的ranking loss[28], Zhu等[48]提出基于margin的成對損失函數(shù),代替原來的交叉熵?fù)p失也可以提升抽取效果。其中margin的設(shè)定使得模型盡可能讓不同類別樣本在樣本空間中距離更遠(yuǎn)。通過負(fù)采樣技術(shù)和樣本增強(qiáng)技術(shù)可以高效增加樣本數(shù)量,一定程度上提升抽取效果。

        (5) 不論是有監(jiān)督關(guān)系抽取還是遠(yuǎn)程監(jiān)督關(guān)系抽取,從一個句子或者特定的語料中都很難獲得句中實(shí)體足夠的先驗(yàn)信息。采取融入外部知識或者已有知識庫的結(jié)構(gòu)化知識等方法,如通過Wordnet超詞獲取更加豐富的語義信息,以及從相關(guān)知識庫獲取實(shí)體文本描述信息和關(guān)系信息的方式引入領(lǐng)域常識,已成為提升抽取效果的有效做法。

        4 未來的研究重點(diǎn)

        近年來,深度學(xué)習(xí)作為關(guān)系抽取的主要技術(shù),得到了很好的發(fā)展,然而在具體應(yīng)用過程中還有較長的路要走。本節(jié)對使用深度學(xué)習(xí)的關(guān)系抽取的未來發(fā)展方向進(jìn)行展望。

        4.1 結(jié)合深度學(xué)習(xí)進(jìn)展的關(guān)系抽取研究

        在深度學(xué)習(xí)被廣泛使用后,其抽取效果也依賴于神經(jīng)網(wǎng)絡(luò)的研究發(fā)展。2014年至2016年,該領(lǐng)域的研究熱點(diǎn)集中于遞歸神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等基本網(wǎng)絡(luò)結(jié)構(gòu)的研究。2017至今,隨著Attenion機(jī)制[61]、強(qiáng)化學(xué)習(xí)[75]、生成對抗學(xué)習(xí)[72]、圖神經(jīng)網(wǎng)絡(luò)[78]以及預(yù)訓(xùn)練技術(shù)[79]等方法的研究深入,又有各類不同的網(wǎng)絡(luò)被設(shè)計(jì)用來抽取關(guān)系。在基于深度學(xué)習(xí)的關(guān)系抽取框架下,如何結(jié)合各類技術(shù)進(jìn)行關(guān)系抽取的研究是未來研究的一個重要方向。

        4.2 面向關(guān)系抽取的模型設(shè)計(jì)與研究

        現(xiàn)有的關(guān)系抽取方法已經(jīng)覆蓋了多數(shù)可能的輸入和特征,如何在引入領(lǐng)域知識的同時直接構(gòu)造端到端的抽取模型,不再使用各類自然語言處理工具,以減少誤差的傳遞,仍然值得探索。

        基于深度學(xué)習(xí)的模型往往依賴于網(wǎng)絡(luò)的復(fù)雜程度帶來的對隱含信息挖掘能力的提升?,F(xiàn)有網(wǎng)絡(luò)在設(shè)計(jì)時考慮的多是語言學(xué)直觀特性,在理論可解釋性方面有待開展更深層次的研究。

        4.3 面向關(guān)系抽取的遷移學(xué)習(xí)

        在關(guān)系抽取任務(wù)中,常用的關(guān)系抽取數(shù)據(jù)集面臨著關(guān)系類別和樣本數(shù)量較少的問題。事實(shí)上,在命名實(shí)體識別、文本分類等自然語言處理任務(wù)中,同樣有著大量的有標(biāo)注數(shù)據(jù)集合,而這些任務(wù)在語義級層面有著一定的相關(guān)性。因此,除了構(gòu)建新的有標(biāo)注訓(xùn)練數(shù)據(jù)集方法以外,在深度學(xué)習(xí)框架下,如何有效利用與關(guān)系抽取任務(wù)相關(guān)的數(shù)據(jù)集或模型,將已有的數(shù)據(jù)集及模型遷移到關(guān)系抽取任務(wù)中來,也值得期待。

        4.4 篇章級關(guān)系抽取

        僅僅從給定的實(shí)體和句子中判斷其關(guān)系往往缺少必要的語義知識,直觀上來講人們在具備一定的知識的基礎(chǔ)上,閱讀了整段文字或者整篇文章可能對實(shí)體之間的關(guān)系才能了解得更加深刻。因此,如何結(jié)合已有的知識信息進(jìn)行實(shí)體與關(guān)系的聯(lián)合抽取以及進(jìn)行跨句子、跨段落等更粗粒度的關(guān)系抽取,具有更實(shí)際的研究價值。

        4.5 多元關(guān)系抽取

        以往的文獻(xiàn)多集中于單個句子的二元關(guān)系抽取,然而在實(shí)際應(yīng)用中,我們面對的數(shù)據(jù)中存在著多個實(shí)體以及復(fù)雜關(guān)系,比如像事件類型的數(shù)據(jù),可能涉及事件名稱、時間、地點(diǎn)等層次語義信息,二元關(guān)系抽取無法一次性抽取上述論元,難以滿足任務(wù)需求。為此,有待開展更深層次的研究,進(jìn)行多元關(guān)系抽取。

        4.6 面向開放域的關(guān)系抽取

        本文提到的常用的數(shù)據(jù)集的關(guān)系類別和訓(xùn)練數(shù)據(jù)都是固定的,因此基于深度學(xué)習(xí)的關(guān)系抽取多屬于預(yù)定義的關(guān)系抽取。然而,僅僅在Freebase數(shù)據(jù)庫中,已有4 000多萬個實(shí)體,24億多個事實(shí)三元組,上萬個屬性關(guān)系。互聯(lián)網(wǎng)上每天都產(chǎn)生海量的跨領(lǐng)域的復(fù)雜數(shù)據(jù),而且這些數(shù)據(jù)往往包含著多種關(guān)系,封閉域的二元關(guān)系抽取很難滿足網(wǎng)絡(luò)文本抽取的需求。如何結(jié)合弱監(jiān)督和半監(jiān)督的知識,使用深度學(xué)習(xí)方法進(jìn)行開放域的關(guān)系抽取,具有重要的應(yīng)用價值。

        5 結(jié)論

        關(guān)系抽取作為信息抽取技術(shù)的一環(huán),一直以來受到了相當(dāng)廣泛的關(guān)注。深度學(xué)習(xí)在自然語言處理領(lǐng)域的重要突破,也受到了人們的重視,被引入到關(guān)系抽取領(lǐng)域中來。本文詳細(xì)闡述了基于深度學(xué)習(xí)的的一些關(guān)系抽取方法,對相關(guān)工作難點(diǎn)和挑戰(zhàn)進(jìn)行了總結(jié)。并在此基礎(chǔ)上,對未來的研究方向進(jìn)行了分析和展望。

        猜你喜歡
        實(shí)體卷積單詞
        基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
        單詞連一連
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        中國外匯(2019年18期)2019-11-25 01:41:54
        從濾波器理解卷積
        電子制作(2019年11期)2019-07-04 00:34:38
        看圖填單詞
        基于傅里葉域卷積表示的目標(biāo)跟蹤算法
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        看完這些單詞的翻譯,整個人都不好了
        兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
        都市激情亚洲综合一区| 女人让男人桶爽30分钟| 好吊色欧美一区二区三区四区| 中国一级免费毛片| 国产丝袜高跟美腿一区在线| 热re99久久精品国99热| 亚洲∧v久久久无码精品| 韩国一级成a人片在线观看| 色佬易精品视频免费在线观看| 精品激情成人影院在线播放| 99精品国产一区二区| 国产欧美va欧美va香蕉在线观| 伊人亚洲综合影院首页| 日本不卡的一区二区三区中文字幕| 无遮挡呻吟娇喘视频免费播放| 人人妻人人添人人爽日韩欧美| 亚洲乱码一区AV春药高潮| 日本中文字幕有码在线播放| 久久精品国产亚洲av麻豆色欲| av蓝导航精品导航| 亚洲xx视频| 国产一区二区三区在线男友| 亚洲av日韩aⅴ无码色老头| 国产精品嫩草影院AV| 精品丝袜一区二区三区性色| 亚洲一区二区三区中文字幕网| 亚洲一区免费视频看看| 无码精品国产一区二区三区免费 | 天天躁夜夜躁狠狠躁2021| yeyecao亚洲性夜夜综合久久| 精品熟妇av一区二区三区四区 | 蜜臀av 国内精品久久久| 亚洲成av人在线观看无堂无码 | 一区二区亚洲精美视频| 国精产品一区一区二区三区mba| 丰满少妇高潮惨叫正在播放| 日韩毛片久久91| 久久本道久久综合伊人| 97在线观看视频| 亚洲色自偷自拍另类小说| 免费人成视频欧美|