亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        深度學(xué)習(xí)實(shí)體關(guān)系抽取研究綜述*

        2019-07-08 08:55:14鄂海紅張文靜肖思琪胡鶯夕周筱松牛佩晴
        軟件學(xué)報(bào) 2019年6期
        關(guān)鍵詞:實(shí)體遠(yuǎn)程深度

        鄂海紅, 張文靜, 肖思琪, 程 瑞, 胡鶯夕, 周筱松, 牛佩晴

        1(北京郵電大學(xué) 計(jì)算機(jī)學(xué)院 數(shù)據(jù)科學(xué)與服務(wù)中心,北京 100876)

        2(教育部信息網(wǎng)絡(luò)工程研究中心(北京郵電大學(xué)),北京 100876)

        隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,人們需要處理的數(shù)據(jù)量激增,領(lǐng)域交叉現(xiàn)象突出.如何快速高效地從開(kāi)放領(lǐng)域的文本中抽取出有效信息,成為擺在人們面前的重要問(wèn)題.實(shí)體關(guān)系抽取作為文本挖掘和信息抽取[1]的核心任務(wù),其主要通過(guò)對(duì)文本信息建模,自動(dòng)抽取出實(shí)體對(duì)之間的語(yǔ)義關(guān)系,提取出有效的語(yǔ)義知識(shí).其研究成果主要應(yīng)用在文本摘要、自動(dòng)問(wèn)答[2]、機(jī)器翻譯[3]、語(yǔ)義網(wǎng)標(biāo)注、知識(shí)圖譜[4]等.隨著近年來(lái)對(duì)信息抽取的興起,實(shí)體關(guān)系抽取問(wèn)題進(jìn)一步得到廣泛關(guān)注和深入研究,一些研究成果及時(shí)出現(xiàn)在近幾年人工智能、自然語(yǔ)言處理等相關(guān)領(lǐng)域的國(guó)際會(huì)議上,如 ACL[5-13]、EMNLP[14-22]、ICLR[23,24]、AAAI[25]、KDD[26]、NAACL[27]、 ECML-PKDD[28]等.

        經(jīng)典的實(shí)體關(guān)系抽取方法主要分為有監(jiān)督、半監(jiān)督、弱監(jiān)督和無(wú)監(jiān)督這4類.有監(jiān)督的實(shí)體關(guān)系抽取主要分為基于特征和基于核函數(shù)的方法.Zhou[29]和郭喜躍[6]等人利用SVM作為分類器,分別研究詞匯、句法和語(yǔ)義特征對(duì)實(shí)體語(yǔ)義關(guān)系抽取的影響.有監(jiān)督方法需要手工標(biāo)注大量的訓(xùn)練數(shù)據(jù),浪費(fèi)時(shí)間精力,因此,人們[30]繼而提出了基于半監(jiān)督[31]、弱監(jiān)督和無(wú)監(jiān)督的關(guān)系抽取方法來(lái)解決人工標(biāo)注語(yǔ)料問(wèn)題,其中:Brin[32]利用Bootstrapping方法對(duì)命名實(shí)體之間的關(guān)系進(jìn)行抽取;Craven等人[33]在研究從文本中抽取結(jié)構(gòu)化數(shù)據(jù)、建立生物學(xué)知識(shí)庫(kù)的過(guò)程中,首次提出了弱監(jiān)督機(jī)器學(xué)習(xí)思想;Hasegawa等人[34]在 ACL會(huì)議上首次提出了一種無(wú)監(jiān)督的命名實(shí)體之間關(guān)系抽取方法.

        經(jīng)典方法存在特征提取誤差傳播問(wèn)題,極大影響實(shí)體關(guān)系抽取效果.隨著近些年深度學(xué)習(xí)的崛起,學(xué)者們逐漸將深度學(xué)習(xí)應(yīng)用到實(shí)體關(guān)系抽取任務(wù)中[7].基于數(shù)據(jù)集標(biāo)注量級(jí)的差異,深度學(xué)習(xí)的實(shí)體關(guān)系抽取任務(wù)分為有監(jiān)督和遠(yuǎn)程監(jiān)督兩類.基于深度學(xué)習(xí)的有監(jiān)督實(shí)體關(guān)系抽取方法是近年來(lái)關(guān)系抽取的研究熱點(diǎn),該方法能避免經(jīng)典方法中人工特征選擇等步驟,減少并改善特征抽取過(guò)程中的誤差積累問(wèn)題.根據(jù)實(shí)體識(shí)別及關(guān)系分類兩個(gè)子任務(wù)完成的先后順序不同,基于深度學(xué)習(xí)的有監(jiān)督實(shí)體關(guān)系抽取方法可以分為流水線(pipeline)方法和聯(lián)合學(xué)習(xí)(joint learning)方法.Zeng等人[20]在2014年首次提出使用CNN進(jìn)行關(guān)系分類,Katiyar等人[13]在2017年首次將注意力機(jī)制Attention與遞歸神經(jīng)網(wǎng)絡(luò)Bi-LSTM一起用于聯(lián)合提取實(shí)體和分類關(guān)系,神經(jīng)網(wǎng)絡(luò)模型在有監(jiān)督領(lǐng)域的拓展皆取得不錯(cuò)效果.同時(shí),基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法因具有緩解經(jīng)典方法中錯(cuò)誤標(biāo)簽和特征抽取誤差傳播問(wèn)題的能力而成為研究熱點(diǎn),主要基礎(chǔ)方法包括 CNN,RNN,LSTM 等網(wǎng)絡(luò)結(jié)構(gòu)[35,36].近年來(lái),學(xué)者們?cè)诨A(chǔ)方法之上提出了多種改進(jìn),如PCNN與多示例學(xué)習(xí)的融合方法[37]、PCNN與注意力機(jī)制的融合方法[10]等.Ji等人[38]提出在PCNN和Attention的基礎(chǔ)上添加實(shí)體的描述信息來(lái)輔助學(xué)習(xí)實(shí)體的表示,Ren等人[39]提出的COTYPE模型、Huang[40]提出的殘差網(wǎng)絡(luò)皆增強(qiáng)了關(guān)系提取效果.

        為了能夠系統(tǒng)綜述相關(guān)研究成果,我們查閱了近年來(lái)的綜述論文[30,35,41-43],從中可看出,基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取方法與經(jīng)典抽取方法相比,其主要優(yōu)勢(shì)在于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型可以自動(dòng)學(xué)習(xí)句子特征,無(wú)需復(fù)雜的特征工程.所以,本文重點(diǎn)圍繞深度學(xué)習(xí)來(lái)深入探討實(shí)體關(guān)系抽取方法.

        本文首先在第1節(jié)給出實(shí)體關(guān)系抽取的問(wèn)題定義和解決框架.著重在第2節(jié)、第3節(jié)介紹基于深度學(xué)習(xí)的有監(jiān)督和遠(yuǎn)程監(jiān)督領(lǐng)域的實(shí)體關(guān)系抽取研究進(jìn)展.之后,在第 4節(jié)介紹基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取新模型與新思路.并在第5節(jié)介紹基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取在領(lǐng)域知識(shí)圖譜構(gòu)建中的研究進(jìn)展.最后,在第6節(jié)、第7節(jié)給出數(shù)據(jù)集、評(píng)測(cè)效果以及對(duì)未來(lái)研究方向的展望.

        1 深度學(xué)習(xí)實(shí)體關(guān)系抽取的問(wèn)題定義和解決框架

        1.1 問(wèn)題定義

        實(shí)體關(guān)系抽取作為信息抽取的重要任務(wù),是指在實(shí)體識(shí)別的基礎(chǔ)上,從非結(jié)構(gòu)化文本中抽取出預(yù)先定義的實(shí)體關(guān)系.實(shí)體對(duì)的關(guān)系可被形式化描述為關(guān)系三元組〈e1,r,e2〉,其中,e1和e2是實(shí)體,r屬于目標(biāo)關(guān)系集R{r1,r2,r3,...,ri}.關(guān)系抽取的任務(wù)是從自然語(yǔ)言文本中抽取出關(guān)系三元組〈e1,r,e2〉,從而提取文本信息.

        基于深度學(xué)習(xí)實(shí)體關(guān)系抽取主要分為有監(jiān)督和遠(yuǎn)程監(jiān)督兩類.在有監(jiān)督中,解決實(shí)體關(guān)系抽取的方法可以分為流水線學(xué)習(xí)和聯(lián)合學(xué)習(xí)兩種:流水線學(xué)習(xí)方法是指在實(shí)體識(shí)別已經(jīng)完成的基礎(chǔ)上直接進(jìn)行實(shí)體之間關(guān)系的抽取;聯(lián)合學(xué)習(xí)方法主要是基于神經(jīng)網(wǎng)絡(luò)的端到端模型,同時(shí)完成實(shí)體的識(shí)別和實(shí)體間關(guān)系的抽取.與有監(jiān)督實(shí)體關(guān)系抽取相比,遠(yuǎn)程監(jiān)督方法缺少人工標(biāo)注數(shù)據(jù)集,因此,遠(yuǎn)程監(jiān)督方法比有監(jiān)督多一步遠(yuǎn)程對(duì)齊知識(shí)庫(kù)給無(wú)標(biāo)簽數(shù)據(jù)打標(biāo)的過(guò)程.而構(gòu)建關(guān)系抽取模型的部分,與有監(jiān)督領(lǐng)域的流水線方法差別不大.

        基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取、實(shí)體關(guān)系識(shí)別、實(shí)體關(guān)系分類是3個(gè)任務(wù)相近、彼此有關(guān)聯(lián)的概念.具體而言,關(guān)系抽取[7]在其流水線處理場(chǎng)景中與關(guān)系分類處理著相同的任務(wù),此時(shí),關(guān)系抽取具體是指在句子中的命名實(shí)體對(duì)已經(jīng)被識(shí)別的情況下,直接進(jìn)行實(shí)體對(duì)的關(guān)系分類;而關(guān)系抽取在聯(lián)合學(xué)習(xí)場(chǎng)景中是將關(guān)系分類作為自己的一個(gè)子任務(wù),此時(shí),關(guān)系抽取具體是指:將實(shí)體關(guān)系抽取任務(wù)分為命名實(shí)體識(shí)別和關(guān)系分類兩個(gè)子任務(wù),用聯(lián)合學(xué)習(xí)模型同時(shí)解決這兩個(gè)子任務(wù).而實(shí)體關(guān)系識(shí)別任務(wù)與關(guān)系抽取任務(wù)相同,在實(shí)際處理時(shí)也是發(fā)現(xiàn)和識(shí)別實(shí)體間的語(yǔ)義關(guān)系[44,45],因此在部分中外綜述文獻(xiàn)里,實(shí)體關(guān)系抽取有時(shí)也被稱為實(shí)體關(guān)系識(shí)別.

        1.2 解決問(wèn)題框架

        針對(duì)實(shí)體關(guān)系抽取任務(wù),基于深度學(xué)習(xí)的抽取框架如圖1所示.

        (1) 獲取有標(biāo)簽數(shù)據(jù):有監(jiān)督方法通過(guò)人工標(biāo)記獲取有標(biāo)簽數(shù)據(jù)集,遠(yuǎn)程監(jiān)督方法通過(guò)自動(dòng)對(duì)齊遠(yuǎn)程知識(shí)庫(kù)獲取有標(biāo)簽數(shù)據(jù)集;

        (2) 構(gòu)建詞語(yǔ)向量表示:將有標(biāo)簽句子分詞,將每個(gè)詞語(yǔ)編碼成計(jì)算機(jī)可以接受的詞向量,并求出每個(gè)詞語(yǔ)與句子中實(shí)體對(duì)的相對(duì)位置,作為這個(gè)詞語(yǔ)的位置向量,將詞向量與位置向量組合作為這個(gè)詞語(yǔ)的最終向量表示;

        (3) 進(jìn)行特征提取:將句子中每一個(gè)詞語(yǔ)的向量表示輸入神經(jīng)網(wǎng)絡(luò)中,利用神經(jīng)網(wǎng)絡(luò)模型提取句子特征,進(jìn)而訓(xùn)練一個(gè)特征提取器;

        (4) 關(guān)系分類:測(cè)試時(shí)根據(jù)預(yù)先定義好的關(guān)系種類,將特征提取出的向量放入非線性層進(jìn)行分類,提取最終的實(shí)體對(duì)關(guān)系;

        (5) 評(píng)估分類性能:最后,對(duì)關(guān)系分類結(jié)果進(jìn)行評(píng)估,評(píng)測(cè)指標(biāo)和相關(guān)數(shù)據(jù)集詳見(jiàn)第6節(jié).

        2 基于深度學(xué)習(xí)的有監(jiān)督實(shí)體關(guān)系抽取方法

        2.1 有監(jiān)督實(shí)體關(guān)系抽取框架演化流程

        基于深度學(xué)習(xí)方法中的有監(jiān)督方法進(jìn)行關(guān)系抽取,是近年來(lái)關(guān)系抽取的研究熱點(diǎn),其能解決經(jīng)典方法中存在的人工特征選擇、特征提取誤差傳播兩大主要問(wèn)題,將低層特征進(jìn)行組合,形成更加抽象的高層特征,用來(lái)尋找數(shù)據(jù)的分布式特征表示.從基于監(jiān)督學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型來(lái)看,研究主要集中在融合多種自然語(yǔ)言特征來(lái)提高識(shí)別精確度.有監(jiān)督的實(shí)體關(guān)系抽取框架的演化流程如圖2所示.

        基于深度學(xué)習(xí)的有監(jiān)督實(shí)體關(guān)系抽取可以分為:1) 流水線方法;2) 聯(lián)合學(xué)習(xí)方法.這兩種方法都基于CNN,RNN,LSTM這3種框架進(jìn)行擴(kuò)展優(yōu)化.

        · 流水線方法中,基于 RNN模型的擴(kuò)展包括在RNN基礎(chǔ)之上增加依存分析樹(shù)信息、詞依存矩陣信息;基于CNN模型的擴(kuò)展包括在CNN基礎(chǔ)之上增加類別排名信息、依存分析樹(shù)、注意力機(jī)制;基于LSTM模型的擴(kuò)展包括在LSTM基礎(chǔ)之上增加最短依存路徑(SDP)或?qū)STM與CNN結(jié)合.流水線方法存在錯(cuò)誤累積傳播、忽視子任務(wù)間關(guān)系依賴、產(chǎn)生冗余實(shí)體等問(wèn)題,因此,聯(lián)合模型逐漸開(kāi)始受到重視;

        · 聯(lián)合學(xué)習(xí)方法根據(jù)其建模對(duì)象不同,可分為參數(shù)共享和序列標(biāo)注兩類子方法:參數(shù)共享方法的編碼層均使用 Bi-LSTM,解碼層則基于 Bi-LSTM、依賴樹(shù)和注意力機(jī)制等方法紛紛進(jìn)行優(yōu)化擴(kuò)展;序列標(biāo)注方法則用一種新標(biāo)注策略的端到端模型解決流水線模型中冗余實(shí)體的問(wèn)題.

        下面依照流水線方法(基于 RNN模型的實(shí)體關(guān)系抽取方法、基于CNN模型的實(shí)體關(guān)系抽取方法、基于LSTM 模型的實(shí)體關(guān)系抽取方法)、聯(lián)合學(xué)習(xí)方法(基于參數(shù)共享的實(shí)體關(guān)系抽取方法、基于序列標(biāo)注的實(shí)體關(guān)系抽取方法)的順序來(lái)介紹有監(jiān)督領(lǐng)域?qū)嶓w關(guān)系抽取方法.

        2.2 流水線方法

        2.2.1 主要流程

        基于流水線的方法進(jìn)行關(guān)系抽取的主要流程可以描述為:針對(duì)已經(jīng)標(biāo)注好目標(biāo)實(shí)體對(duì)的句子進(jìn)行關(guān)系抽取,最后把存在實(shí)體關(guān)系的三元組作為預(yù)測(cè)結(jié)果輸出.一些基于流水線方法的關(guān)系抽取模型被陸續(xù)提出,其中,采用基于RNN,CNN,LSTM及其改進(jìn)模型的網(wǎng)絡(luò)結(jié)構(gòu),因其高精度獲得了學(xué)術(shù)界的大量關(guān)注.

        2.2.2 主流方法介紹

        (1) 基于RNN模型的實(shí)體關(guān)系抽取方法

        RNN在處理單元之間既有內(nèi)部的反饋連接又有前饋連接,可以利用其內(nèi)部的記憶來(lái)處理任意時(shí)序的序列信息,具有學(xué)習(xí)任意長(zhǎng)度的各種短語(yǔ)和句子的組合向量表示的能力,已成功應(yīng)用在多種NLP任務(wù)中.

        基于RNN模型進(jìn)行關(guān)系抽取的方法由Socher等人[46]于2012年首次提出,此方法為分析樹(shù)中的每個(gè)節(jié)點(diǎn)分配一個(gè)向量和一個(gè)矩陣,其中,向量捕獲組成部分的固有含義,而矩陣捕捉它如何改變相鄰單詞或短語(yǔ)的含義.這種矩陣向量 RNN可以在命題邏輯和自然語(yǔ)言中學(xué)習(xí)操作符的含義,解決了單詞向量空間模型(singleword vector space models)無(wú)法捕捉到長(zhǎng)短語(yǔ)的構(gòu)成意義,阻礙了它們更深入地理解語(yǔ)言的問(wèn)題.

        Hashimoto等人[19]在 2013年提出了基于句法樹(shù)的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)模型,與 Socher等人提出的模型不同的是,Hashimoto沒(méi)有使用需要昂貴計(jì)算成本的詞依存矩陣,而是使用了詞性(POS)標(biāo)簽、短語(yǔ)類別和句法頭等附加特征,并向RNN模型中引入平均參數(shù),為目標(biāo)任務(wù)的重要短語(yǔ)增加權(quán)重,Hashimoto的模型證明了增加特征及引入平均參數(shù)的有效性.

        RNN相比于前饋網(wǎng)絡(luò)更適合處理序列化輸入,但RNN也存在著以下兩個(gè)缺點(diǎn):(1) 在網(wǎng)絡(luò)訓(xùn)練時(shí),RNN容易出現(xiàn)梯度消失、梯度爆炸的問(wèn)題,因此,傳統(tǒng) RNN在實(shí)際中很難處理長(zhǎng)期依賴,這一點(diǎn)在 LSTM 網(wǎng)絡(luò)中有所改進(jìn);(2) 由于RNN的內(nèi)部結(jié)構(gòu)復(fù)雜,網(wǎng)絡(luò)訓(xùn)練周期較長(zhǎng),而CNN結(jié)構(gòu)相對(duì)簡(jiǎn)單,主要包括前置的卷積層和后置的全連接層,訓(xùn)練更快速.

        (2) 基于CNN模型的實(shí)體關(guān)系抽取方法

        CNN的基本結(jié)構(gòu)包括兩層:其一為特征提取層,每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征;其二是特征映射層,網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等,減少了網(wǎng)絡(luò)中自由參數(shù)的個(gè)數(shù).由于同一特征映射面上的神經(jīng)元權(quán)值相同,所以 CNN 網(wǎng)絡(luò)可以并行學(xué)習(xí).

        Zeng等人[20]在2014年首次提出了使用CNN進(jìn)行關(guān)系抽取,利用卷積深度神經(jīng)網(wǎng)絡(luò)(CDNN)來(lái)提取詞匯和句子層次的特征,將所有的單詞標(biāo)記作為輸入,而無(wú)需復(fù)雜的預(yù)處理,解決了從預(yù)處理系統(tǒng)中提取的特征可能會(huì)導(dǎo)致錯(cuò)誤傳播并阻礙系統(tǒng)性能的問(wèn)題.圖 3描述了該論文用于關(guān)系分類的神經(jīng)網(wǎng)絡(luò)的體系結(jié)構(gòu).網(wǎng)絡(luò)對(duì)輸入句子提取多個(gè)級(jí)別的特征向量,它主要包括以下3個(gè)組件:詞向量表示、特征提取和輸出.圖3右部分顯示了句子級(jí)特征向量構(gòu)建過(guò)程:每個(gè)詞語(yǔ)向量由詞特征(WF)和位置特征(PF)共同組成,將詞語(yǔ)向量放入卷積層提取句子級(jí)特征.圖 3左上部分為提取詞匯級(jí)和句子級(jí)特征的過(guò)程,然后直接連接以形成最終的句子特征向量.最后如圖3左下部分,通過(guò)隱藏層和Softmax層得到最終的分類結(jié)果.

        Xu等人[47]于2015年在Zeng等人工作的基礎(chǔ)上提出了基于依存分析樹(shù)的卷積神經(jīng)網(wǎng)絡(luò)的實(shí)體關(guān)系抽取模型,該模型與Zeng等人的CNN模型不同的是將輸入文本經(jīng)過(guò)了依存分析樹(shù),同時(shí)提出了一種負(fù)采樣策略:首先,利用依存路徑來(lái)學(xué)習(xí)關(guān)系的方向性;然后,使用負(fù)采樣方法來(lái)學(xué)習(xí)主體和對(duì)象的位置分配,采用從對(duì)象到主體的最短依存路徑作為負(fù)樣本,并將負(fù)樣本送到模型中學(xué)習(xí),以解決實(shí)體對(duì)距離較遠(yuǎn)時(shí),依存分析樹(shù)引入的無(wú)關(guān)信息問(wèn)題.同時(shí),顯著提高了關(guān)系抽取的性能.

        Santos等人[21]在2015年提出了CR-CNN模型,與Zeng等人的模型相比,CR-CNN將最后的Softmax輸出層替換為利用排名進(jìn)行分類輸出:對(duì)于給定的輸入文本段,網(wǎng)絡(luò)使用卷積層產(chǎn)生文本的分布向量表示,并將其與文本表示進(jìn)行比較,以便為每個(gè)類生成分?jǐn)?shù);同時(shí)提出了一種新的排名損失函數(shù),能夠給予正確的預(yù)測(cè)類更高的評(píng)分、錯(cuò)誤的預(yù)測(cè)類更低的評(píng)分.與Xu等人的模型相比,本文僅將詞向量作為輸入特征,而不需要依存分析樹(shù)等附加特征,因此可以降低NLP工具中提取到錯(cuò)誤特征的影響,并提升模型的效果.

        Vu等人[48]在 2016年提出了一種新的基于 CNN網(wǎng)絡(luò)的上下文表示(擴(kuò)展的中間上下文),與作為 Baseline的Zeng等人的標(biāo)準(zhǔn)CNN網(wǎng)絡(luò)不同的是,Vu提出的CNN模型沒(méi)有額外的全連接隱藏層;其次,Vu也嘗試使用雙向 RNN進(jìn)行關(guān)系抽取,并為其優(yōu)化引入 Santos[21]提出的排名損失,改善關(guān)系抽取結(jié)果.基于兩個(gè)實(shí)體位置可以將上下文分成 3個(gè)不相交的區(qū)域:左上下文、中間上下文和右上下文.由于在大多數(shù)情況下中間上下文包含關(guān)系的最相關(guān)信息,因此該文提出了使用兩個(gè)上下文:(1) 左上下文、左實(shí)體和中間上下文的組合;(2) 中間上下文、右實(shí)體和右上下文的組合.通過(guò)重復(fù)中間上下文,迫使網(wǎng)絡(luò)特別關(guān)注它.最后,使用簡(jiǎn)單的投票機(jī)制結(jié)合CNN和RNN網(wǎng)絡(luò),并達(dá)到了當(dāng)時(shí)的最新技術(shù).

        Zeng等人雖然使用了位置向量來(lái)表示指定詞與目標(biāo)實(shí)體間的相對(duì)距離,但是位置編碼不足以完全捕獲指定詞與目標(biāo)實(shí)體的關(guān)系以及它們可能對(duì)目標(biāo)關(guān)系的影響.由此,Wang等人[49]于2016年提出的CNN架構(gòu)依賴于一種新穎的多層次注意力機(jī)制來(lái)捕獲對(duì)指定實(shí)體的注意力(首先是輸入層級(jí)對(duì)于目標(biāo)實(shí)體的注意力)和指定關(guān)系的池化注意力(其次是針對(duì)目標(biāo)關(guān)系的注意力).這使得模型能夠檢測(cè)更細(xì)微的線索,盡管輸入的句子異構(gòu),但是模型還是能夠自動(dòng)了解句子中的哪些部分與給定的關(guān)系類別相關(guān).其次,模型在利用注意力機(jī)制來(lái)自動(dòng)識(shí)別與關(guān)系分類相關(guān)的輸入句子的部分之后,提出了一種Attention-based Pooling的混合方法,認(rèn)為利用這樣的方法會(huì)抽取出部分有意義的N-gram短語(yǔ),實(shí)驗(yàn)證明了在混合層上,能夠抽出對(duì)關(guān)系分類最為顯著的Trigram字段.最后,論文還引入了一種新的成對(duì)的基于邊緣的目標(biāo)函數(shù),并證明其優(yōu)于標(biāo)準(zhǔn)損失函數(shù).

        (3) 基于LSTM模型的實(shí)體關(guān)系抽取方法

        由于梯度消失、梯度爆炸的問(wèn)題,傳統(tǒng)的RNN在實(shí)際中很難處理長(zhǎng)期依賴,后面時(shí)間的節(jié)點(diǎn)對(duì)于前面時(shí)間的節(jié)點(diǎn)感知力下降.而LSTM網(wǎng)絡(luò)通過(guò)3個(gè)門控操作及細(xì)胞狀態(tài)解決了這些問(wèn)題,能夠從語(yǔ)料中學(xué)習(xí)到長(zhǎng)期依賴關(guān)系.

        Yan等人[11]在2015年提出了基于LSTM的融合句法依存分析樹(shù)的最短路徑以及詞向量特征、詞性特征、WordNet特征、句法類型特征來(lái)進(jìn)行關(guān)系抽取,該論文的模型圖如圖4所示.首先,如圖4左下部分,利用斯坦福解析器將句子解析為依賴樹(shù),并提取最短依賴路徑(SDP)作為網(wǎng)絡(luò)的輸入,沿著 SDP,使用 4種不同類型的信息(稱為通道),包括單詞、詞性標(biāo)簽、語(yǔ)法關(guān)系和WordNet上位詞;在每個(gè)通道中(圖4右部分是每個(gè)通道的細(xì)節(jié)圖),詞語(yǔ)被映射成向量,捕獲輸入的基本含義,兩個(gè)遞歸神經(jīng)網(wǎng)絡(luò)分別沿著 SDP的左右子路徑獲取信息,網(wǎng)絡(luò)中的 LSTM 單元用于有效信息的傳播;之后,如圖 4左上部分,最大池化層從每個(gè)路徑中的 LSTM 節(jié)點(diǎn)收集信息,來(lái)自不同通道的池化層連接在一起,然后輸入到隱藏層;最后,使用Softmax輸出層用于關(guān)系分類.

        Thien等人[22]基于已有工作經(jīng)驗(yàn),利用傳統(tǒng)特征工程并結(jié)合CNN,RNN網(wǎng)絡(luò)的優(yōu)勢(shì),在2015年提出一種融合傳統(tǒng)特征工程和神經(jīng)網(wǎng)絡(luò)的方法,首次系統(tǒng)地檢測(cè)了RNN架構(gòu)以及RNN與CNN和傳統(tǒng)的基于特征的關(guān)系抽取方法相結(jié)合的工作.本文采用LSTM網(wǎng)絡(luò)的一種變體GRU(gated recurrent unit)展開(kāi)實(shí)驗(yàn),同時(shí),首次提出了融合CNN和RNN網(wǎng)絡(luò)的3種不同的方式:Ensembling(集成)、Stacking(堆疊)、Voting(投票),提高了關(guān)系抽取的精確度.

        為避免 Yan等人提出的模型需要從 NLP預(yù)處理工具中提取附加特征帶來(lái)的錯(cuò)誤傳播問(wèn)題,Li等人[50]于2016年提出一種基于低成本序列特征的Bi-LSTM-RNN模型,利用實(shí)體對(duì)并將它們周圍的上下文分段表示來(lái)獲取更豐富的語(yǔ)義信息,無(wú)需詞性標(biāo)注、依存句法樹(shù)等額外特征.將文本經(jīng)過(guò) LSTM 網(wǎng)絡(luò)獲得隱藏向量表示后依照兩個(gè)實(shí)體分成五段式的方式輸入池化層獲得向量表示,再輸入分類器進(jìn)行關(guān)系分類,解決了基于句法或依賴性特征等高成本結(jié)構(gòu)特征問(wèn)題,并證明當(dāng)不使用依賴解析時(shí),兩個(gè)目標(biāo)實(shí)體之間的上下文可以用作最短依賴路徑的近似替換.

        基于Yan等人的工作,Cai等人[51]于2016年提出了一種基于最短依賴路徑(SDP)的深度學(xué)習(xí)關(guān)系抽取模型:雙向遞歸卷積神經(jīng)網(wǎng)絡(luò)模型(BRCNN),通過(guò)將卷積神經(jīng)網(wǎng)絡(luò)和基于 LSTM單元的雙通道遞歸神經(jīng)網(wǎng)絡(luò)相結(jié)合,進(jìn)一步探索如何充分利用SDP中的依賴關(guān)系信息.BRCNN模型結(jié)合了Yan等人的多通道LSTM以及Zeng等人的卷積關(guān)系抽取的特點(diǎn),利用基于雙向 LSTM 的遞歸神經(jīng)網(wǎng)絡(luò)對(duì)最短依存路徑中的全局模式進(jìn)行編碼,并利用卷積層捕獲依存關(guān)系鏈接的兩個(gè)相鄰詞的局部特征,增強(qiáng)了實(shí)體對(duì)之間關(guān)系方向分類的能力.

        2.2.3 流水線方法中存在的共性問(wèn)題

        然而,流水線方法存在著以下幾個(gè)缺點(diǎn).

        1) 錯(cuò)誤傳播:實(shí)體識(shí)別模塊的錯(cuò)誤會(huì)影響到接下來(lái)的關(guān)系分類性能;

        2) 忽視了兩個(gè)子任務(wù)之間存在的關(guān)系:丟失信息,影響抽取效果;

        3) 產(chǎn)生冗余信息:由于對(duì)識(shí)別出來(lái)的實(shí)體進(jìn)行兩兩配對(duì),然后再進(jìn)行關(guān)系分類,那些沒(méi)有關(guān)系的實(shí)體對(duì)就會(huì)帶來(lái)多余信息,提升錯(cuò)誤率.

        2.3 聯(lián)合學(xué)習(xí)方法

        相比于流水線方法,聯(lián)合學(xué)習(xí)[52]方法能夠利用實(shí)體和關(guān)系間緊密的交互信息,同時(shí)抽取實(shí)體并分類實(shí)體對(duì)的關(guān)系,很好地解決了流水線方法所存在的問(wèn)題.

        2.3.1 主要流程

        聯(lián)合學(xué)習(xí)方法通過(guò)實(shí)體識(shí)別和關(guān)系分類聯(lián)合模型,直接得到存在關(guān)系的實(shí)體三元組.因在聯(lián)合學(xué)習(xí)方法中建模的對(duì)象不同,聯(lián)合學(xué)習(xí)方法又可以分為參數(shù)共享方法和序列標(biāo)注方法:參數(shù)共享方法分別對(duì)實(shí)體和關(guān)系進(jìn)行建模,而序列標(biāo)注方法則是直接對(duì)實(shí)體-關(guān)系三元組進(jìn)行建模.下面分別對(duì)這兩種方法進(jìn)行說(shuō)明.

        2.3.2 主流方法介紹

        (1) 基于參數(shù)共享的實(shí)體關(guān)系抽取方法

        針對(duì)流水線方法中存在的錯(cuò)誤累積傳播問(wèn)題和忽視兩個(gè)子任務(wù)間關(guān)系依賴的問(wèn)題,基于參數(shù)共享的實(shí)體關(guān)系抽取方法被提出.在此方法中,實(shí)體識(shí)別子任務(wù)和關(guān)系抽取子任務(wù)通過(guò)共享聯(lián)合模型的編碼層來(lái)進(jìn)行聯(lián)合學(xué)習(xí),通過(guò)共享編碼層,在訓(xùn)練時(shí),兩個(gè)子任務(wù)都會(huì)通過(guò)后向傳播算法更新編碼層的共享參數(shù),以此來(lái)實(shí)現(xiàn)兩個(gè)子任務(wù)之間的相互依賴,最終找到全局任務(wù)的最佳參數(shù),實(shí)現(xiàn)性能更佳的實(shí)體關(guān)系抽取系統(tǒng).在聯(lián)合學(xué)習(xí)模型中,輸入的句子在通過(guò)共享的編碼層后,在解碼層會(huì)首先進(jìn)行實(shí)體識(shí)別子任務(wù),再利用實(shí)體識(shí)別的結(jié)果,并對(duì)存在關(guān)系的實(shí)體對(duì)進(jìn)行關(guān)系分類,最終輸出實(shí)體-關(guān)系三元組.

        Miwa等人[12]在2016年首次將神經(jīng)網(wǎng)絡(luò)的方法用于聯(lián)合表示實(shí)體和關(guān)系,其模型圖如圖5所示.在該模型中,實(shí)體識(shí)別子任務(wù)和關(guān)系分類子任務(wù)共享編碼層的 LSTM單元序列表示(編碼層包括 LSTM 單元和隱藏層).該方法將實(shí)體識(shí)別任務(wù)當(dāng)作序列標(biāo)注任務(wù),使用雙向序列LSTM輸出具有依賴關(guān)系的實(shí)體標(biāo)簽;之后,通過(guò)在雙向序列LSTM單元上堆疊雙向樹(shù)結(jié)構(gòu)LSTM的方法,使關(guān)系分類子任務(wù)和實(shí)體識(shí)別子任務(wù)共享編碼層的LSTM單元序列表示,同時(shí),在關(guān)系分類子任務(wù)中捕獲詞性標(biāo)簽等依賴特征和實(shí)體識(shí)別子任務(wù)中輸出的實(shí)體序列,形成依存樹(shù),最終根據(jù)依存樹(shù)中目標(biāo)實(shí)體間的最短路徑對(duì)文本進(jìn)行關(guān)系抽取.但該模型中的關(guān)系分類子任務(wù)和實(shí)體識(shí)別子任務(wù)僅共享了編碼層的雙向序列 LSTM 表示,從嚴(yán)格意義上來(lái)說(shuō)不是真正的聯(lián)合模型.但是該模型的提出,為之后真正意義上聯(lián)合學(xué)習(xí)模型的提出奠定了基礎(chǔ),是基于深度學(xué)習(xí)方法做聯(lián)合學(xué)習(xí)模型的啟發(fā)者.

        Li等人[53]在 2017年將該模型用于提取細(xì)菌和細(xì)菌位置之間存在的“Live-In”關(guān)系,并基于實(shí)際應(yīng)用對(duì)Miwa模型做出了兩點(diǎn)改進(jìn):1) 為改善從實(shí)體識(shí)別子任務(wù)到關(guān)系分類子任務(wù)可能會(huì)產(chǎn)生的錯(cuò)誤累積傳播問(wèn)題,在關(guān)系分類子任務(wù)中引入一種新的關(guān)系“Invalid_Entity”,對(duì)實(shí)體識(shí)別子任務(wù)中產(chǎn)生的實(shí)體進(jìn)行驗(yàn)證,以區(qū)分有效實(shí)體和無(wú)效實(shí)體,之后對(duì)有效實(shí)體再進(jìn)行“Lives_In”和“not Lives_In”關(guān)系的分類;2) 在實(shí)體識(shí)別子任務(wù)中,因貪婪的從左到右逐步預(yù)測(cè)實(shí)體標(biāo)簽的方式可能會(huì)在這些標(biāo)簽之間帶來(lái)錯(cuò)誤傳播,即先前預(yù)測(cè)中的錯(cuò)誤可能會(huì)在隨后的預(yù)測(cè)中引起新的錯(cuò)誤,故將模型中原來(lái)的貪婪搜索解碼換為波束搜索,因波束搜索中的每一步都可以有多個(gè)候選預(yù)測(cè),在最佳預(yù)測(cè)不正確的情況下,可以根據(jù)全局分?jǐn)?shù)排序來(lái)選擇候選預(yù)測(cè),并在波束搜索中用早期更新技術(shù)來(lái)訓(xùn)練模型,以緩解實(shí)體標(biāo)簽間的錯(cuò)誤傳播問(wèn)題.

        Katiyar等人[54]在2016年首次將深度雙向LSTM序列標(biāo)注的方法用于聯(lián)合提取觀點(diǎn)實(shí)體和IS-FROM,ISABOUT關(guān)系,同時(shí)還提出了在輸出層上添加句子級(jí)別的限制和關(guān)系級(jí)別的優(yōu)化來(lái)提高模型的精確度.但這種方法只能識(shí)別觀點(diǎn)實(shí)體和IS-FROM,IS-ABOUT關(guān)系,無(wú)法提取實(shí)體間的關(guān)系類型,模型也不能擴(kuò)展用于抽取其他關(guān)系類型.之后,為改進(jìn)模型無(wú)法擴(kuò)展應(yīng)用的問(wèn)題,Katiyar等人[13]在自己2016年模型的基礎(chǔ)上,于2017年首次將注意力機(jī)制與雙向LSTM一起用于聯(lián)合提取實(shí)體和分類關(guān)系.該方法的模型圖如圖5所示,實(shí)體識(shí)別子任務(wù)和關(guān)系分類子任務(wù)共享編碼層表示(編碼層包括LSTM單元和隱藏層).該模型在實(shí)體識(shí)別子任務(wù)中和Miwa等人[12]的模型一致,將實(shí)體識(shí)別子任務(wù)當(dāng)作序列標(biāo)注任務(wù),使用多層雙向LSTM網(wǎng)絡(luò)來(lái)進(jìn)行實(shí)體檢測(cè);在關(guān)系分類子任務(wù)上,該方法改善了Miwa等人[12]依賴于詞性標(biāo)簽、依賴樹(shù)等特征的缺點(diǎn),基于實(shí)體識(shí)別子任務(wù)輸出的實(shí)體序列表示和共享的編碼層表示,使用注意力模型進(jìn)行關(guān)系分類;同時(shí),該模型還可以擴(kuò)展提取各種定義好的關(guān)系類型,是真正意義上的第一個(gè)神經(jīng)網(wǎng)絡(luò)聯(lián)合抽取模型.

        其中,Miwa等人[12]和 Katiyar等人[13]的模型圖如圖 5所示.二者在實(shí)體識(shí)別子任務(wù)上的模型圖基本相同,如圖左下部分所示,均使用Bi-LSTM來(lái)進(jìn)行實(shí)體識(shí)別子任務(wù)(其中,紅色箭頭部分僅為Katiyar等人[13]的模型圖所有).圖左上部分為 Katiyar等人[13]的關(guān)系分類子任務(wù)示意圖,基于注意力機(jī)制來(lái)進(jìn)行關(guān)系分類;圖右上部分為Miwa等人[12]的關(guān)系分類子任務(wù)示意圖,基于Bi-TreeLSTM來(lái)進(jìn)行關(guān)系分類.

        (2) 基于序列標(biāo)注的實(shí)體關(guān)系抽取方法

        基于參數(shù)共享的實(shí)體關(guān)系抽取方法,改善了傳統(tǒng)流水線方法中存在的錯(cuò)誤累積傳播問(wèn)題和忽視兩個(gè)子任務(wù)間關(guān)系依賴的問(wèn)題.但因其在訓(xùn)練時(shí)還是需要先進(jìn)行命名實(shí)體識(shí)別子任務(wù),再根據(jù)實(shí)體預(yù)測(cè)信息對(duì)實(shí)體進(jìn)行兩兩匹配,最后進(jìn)行關(guān)系分類子任務(wù),因其在模型實(shí)現(xiàn)過(guò)程中分開(kāi)完成了命名實(shí)體識(shí)別和關(guān)系分類這兩個(gè)子任務(wù),仍然會(huì)產(chǎn)生沒(méi)有關(guān)系的實(shí)體這種冗余信息.為了解決這個(gè)問(wèn)題,基于新序列標(biāo)注方法的實(shí)體、關(guān)系聯(lián)合抽取方法被提出.

        Zheng等人[55]在 2017年提出了基于新的標(biāo)注策略的實(shí)體關(guān)系抽取方法,把原來(lái)涉及到命名實(shí)體識(shí)別和關(guān)系分類兩個(gè)子任務(wù)的聯(lián)合學(xué)習(xí)模型完全變成了一個(gè)序列標(biāo)注問(wèn)題.在該方法中,共包含 3種標(biāo)注信息:(1) 實(shí)體中詞的位置信息{B,I,E,S,O},分別表示{實(shí)體開(kāi)始,實(shí)體內(nèi)部,實(shí)體結(jié)束,單個(gè)實(shí)體,無(wú)關(guān)詞};(2) 實(shí)體關(guān)系類型信息,需根據(jù)實(shí)際需要自定義關(guān)系類型并編碼,如{CF,CP,…};(3) 實(shí)體角色信息{1,2},分別表示{實(shí)體 1,實(shí)體2}.該方法能使用序列標(biāo)注的方法同時(shí)識(shí)別出實(shí)體和關(guān)系,避免了復(fù)雜的特征工程,通過(guò)一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)模型直接得到實(shí)體-關(guān)系三元組,解決了基于參數(shù)共享的實(shí)體關(guān)系抽取方法可能會(huì)帶來(lái)的實(shí)體冗余的問(wèn)題.新序列標(biāo)注方法的模型圖如圖6所示.在該端到端的神經(jīng)網(wǎng)絡(luò)模型中,對(duì)輸入的句子,首先,編碼層使用Bi-LSTM來(lái)進(jìn)行編碼;之后,解碼層再使用LSTM進(jìn)行解碼;最終,輸出模型標(biāo)注好的實(shí)體-關(guān)系三元組.另外,Zheng等人[55]在這篇論文中還對(duì)該端到端模型增加了偏置損失函數(shù),該函數(shù)增強(qiáng)了相關(guān)實(shí)體對(duì)之間的聯(lián)系,削弱了無(wú)效實(shí)體標(biāo)簽的影響力,提高了關(guān)系分類的準(zhǔn)確率;并基于這種新的標(biāo)注方法,該論文中還學(xué)習(xí)用不同的端到端模型來(lái)解決關(guān)系抽取問(wèn)題.

        2.3.3 聯(lián)合學(xué)習(xí)方法中存在的共性問(wèn)題

        聯(lián)合學(xué)習(xí)方法包括基于參數(shù)共享的實(shí)體關(guān)系抽取方法和基于新序列標(biāo)注的實(shí)體關(guān)系抽取方法:前者很好地改善了流水線方法中存在的錯(cuò)誤累積傳播問(wèn)題和忽視兩個(gè)子任務(wù)間關(guān)系依賴的問(wèn)題;而后者不僅解決了這兩個(gè)問(wèn)題,還解決了流水線方法中存在的冗余實(shí)體的問(wèn)題.但這兩種方法對(duì)于現(xiàn)今有監(jiān)督領(lǐng)域存在的重疊實(shí)體關(guān)系識(shí)別問(wèn)題,并未能給出相關(guān)的解決方案.

        2.4 基于深度學(xué)習(xí)的有監(jiān)督領(lǐng)域關(guān)系抽取方法與經(jīng)典方法的對(duì)比

        基于有監(jiān)督學(xué)習(xí)的經(jīng)典方法嚴(yán)重依賴于詞性標(biāo)注、句法解析等自然語(yǔ)言處理標(biāo)注工具中提供的分類特征,而自然語(yǔ)言處理標(biāo)注工具中往往存在大量錯(cuò)誤,這些錯(cuò)誤會(huì)在關(guān)系抽取系統(tǒng)中不斷傳播放大,最終影響關(guān)系抽取的效果.而基于深度學(xué)習(xí)的有監(jiān)督方法可以在神經(jīng)網(wǎng)絡(luò)模型中自動(dòng)學(xué)習(xí)特征,將低層特征進(jìn)行組合,形成更加抽象的高層特征,用來(lái)尋找數(shù)據(jù)的分布式特征表示,能夠避免人工特征選擇等步驟,減少并改善特征抽取過(guò)程中的誤差積累問(wèn)題.

        2.5 有監(jiān)督領(lǐng)域?qū)嶓w關(guān)系抽取核心公式

        流水線和聯(lián)合方法是有監(jiān)督實(shí)體關(guān)系抽取領(lǐng)域主流的兩個(gè)派系,這兩個(gè)派系的實(shí)體關(guān)系抽取現(xiàn)今衍生出多種不同的抽取方法,其抽取方法的核心公式見(jiàn)表1.

        Table 1 Supervised entity relationship extraction core formula表1 有監(jiān)督實(shí)體關(guān)系抽取核心公式

        3 基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法

        3.1 遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取框架演化流程

        面臨大量無(wú)標(biāo)簽數(shù)據(jù)時(shí),有監(jiān)督的關(guān)系抽取消耗大量人力,顯得力不從心.因此,遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取應(yīng)運(yùn)而生.Mintz[14]于 2009年首次提出將遠(yuǎn)程監(jiān)督應(yīng)用到關(guān)系抽取任務(wù)中,其通過(guò)數(shù)據(jù)自動(dòng)對(duì)齊遠(yuǎn)程知識(shí)庫(kù)來(lái)解決開(kāi)放域中大量無(wú)標(biāo)簽數(shù)據(jù)自動(dòng)標(biāo)注的問(wèn)題.遠(yuǎn)程監(jiān)督標(biāo)注數(shù)據(jù)時(shí)主要有兩個(gè)問(wèn)題:噪聲和特征提取誤差傳播.噪聲問(wèn)題是由于遠(yuǎn)程監(jiān)督的強(qiáng)假設(shè)條件,導(dǎo)致大量數(shù)據(jù)的關(guān)系被錯(cuò)誤標(biāo)記,使得訓(xùn)練數(shù)據(jù)存在大量噪聲;而特征提取中的誤差傳播問(wèn)題是由于傳統(tǒng)的特征提取主要是利用 NLP工具進(jìn)行數(shù)據(jù)集的特征提取,因此會(huì)引入大量的傳播誤差.針對(duì)錯(cuò)誤標(biāo)簽問(wèn)題,Surdeanu[8]于2010年提出的多示例多標(biāo)簽學(xué)習(xí)方法、Lin[10]于2016年提出的Attention機(jī)制,都有效減弱了遠(yuǎn)程監(jiān)督錯(cuò)誤標(biāo)簽對(duì)抽取性能的影響.而自從深度學(xué)習(xí)的崛起和其在有監(jiān)督領(lǐng)域取得良好的關(guān)系抽取效果后,用深度學(xué)習(xí)提取特征的思路來(lái)替代特征工程是一個(gè)非常自然的想法:用詞向量、位置向量來(lái)表示句子中的實(shí)體和其他詞語(yǔ);用深度模型對(duì)句子建模,構(gòu)建句子向量;最后進(jìn)行關(guān)系分類.深度學(xué)習(xí)模型及其特點(diǎn)有:CNN的擴(kuò)展模型 PCNN+MIL[37]、PCNN+ATT[10](Attention機(jī)制作為多示例機(jī)制的一種泛化)弱化錯(cuò)誤標(biāo)簽問(wèn)題;LSTM[57]獲取實(shí)體對(duì)方向性信息;COTYPE[39]聯(lián)合抽取實(shí)體和關(guān)系信息;深度殘差網(wǎng)絡(luò)[40]防止錯(cuò)誤標(biāo)簽噪聲的逐層累積.基于遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取框架的演化流程如圖 7所示.下面按照 PCNN及其擴(kuò)展模型、LSTM、COTYPE、深度殘差網(wǎng)絡(luò)的順序來(lái)進(jìn)行遠(yuǎn)程監(jiān)督領(lǐng)域?qū)嶓w關(guān)系抽取的主流方法介紹.

        3.2 基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督領(lǐng)域?qū)嶓w關(guān)系抽取主流方法介紹

        3.2.1 基于PCNN及其擴(kuò)展模型的實(shí)體關(guān)系抽取

        經(jīng)典的實(shí)體關(guān)系抽取在提取特征時(shí)使用NLP工具,會(huì)導(dǎo)致誤差逐層傳播,影響關(guān)系抽取效果.深度學(xué)習(xí)中的PCNN方法有效解決了特征提取誤差傳播的問(wèn)題.而對(duì)于遠(yuǎn)程監(jiān)督中錯(cuò)誤標(biāo)簽引入噪聲的問(wèn)題,本模塊采用多示例和注意力兩種機(jī)制來(lái)緩解噪聲問(wèn)題.以下是基于PCNN及其擴(kuò)展模型的實(shí)體關(guān)系抽取過(guò)程.

        (1) 基于PCNN和多示例(MIL)的實(shí)體關(guān)系抽取

        Zeng[20]提出了PCNN結(jié)合多示例的方法進(jìn)行遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取,與CNN不同的是,PCNN根據(jù)實(shí)體所在位置將句子切分成 3段進(jìn)行池化,從而得到更多和實(shí)體相關(guān)的上下文信息.而多示例學(xué)習(xí)是將實(shí)體對(duì)看成包,基于At-least-one假設(shè),在包含實(shí)體對(duì)的所有句子中,選擇使得關(guān)系概率最大的示例語(yǔ)句作為實(shí)體對(duì)的表示.關(guān)系抽取的具體流程為:

        a) 示例語(yǔ)句編碼:詞向量、位置向量共同組成詞語(yǔ)表示向量;

        b) 卷積層:卷積部分是采用了常見(jiàn)的針對(duì)文本的卷積核設(shè)計(jì),單向滑動(dòng);

        c) 三段池化與最終關(guān)系分類:在池化層,是按照分段進(jìn)行Max Pooling的,而PCNN的P是Piecewise,將句子按照兩個(gè)實(shí)體進(jìn)行分割,分割得到3段,將這3段分別進(jìn)行Max Pooling.最后,使用一個(gè)Softmax分類器進(jìn)行類別判斷.

        PCNN結(jié)合多實(shí)例的方法雖然優(yōu)化了傳統(tǒng)遠(yuǎn)程監(jiān)督的效果,但多實(shí)例實(shí)際上是給包打標(biāo)簽而不是給語(yǔ)句打標(biāo)簽,即從包含實(shí)體對(duì)的所有語(yǔ)句中只選擇了一個(gè)語(yǔ)句,這必然導(dǎo)致丟失大量有用的句子信息.

        (2) 基于PCNN和注意力機(jī)制(ATT)的實(shí)體關(guān)系抽取

        Zeng的多示例方法只用了包中一條語(yǔ)句信息,這就在一定程度上丟失了很多信息.針對(duì)此問(wèn)題,Lin[10]在Zeng的基礎(chǔ)上采用 Attention機(jī)制,充分利用包內(nèi)的信息,進(jìn)一步減弱錯(cuò)誤打標(biāo)的示例語(yǔ)句產(chǎn)生的噪聲.最終,標(biāo)簽正確分類的示例語(yǔ)句貢獻(xiàn)較大,分配權(quán)重較高;標(biāo)簽錯(cuò)誤分類的示例語(yǔ)句貢獻(xiàn)較小,分配權(quán)重較低.從而提高分類的準(zhǔn)確率.具體流程主要分為:

        a) 包中示例分類:將實(shí)體對(duì)作為包,含實(shí)體對(duì)的句子作為包中示例;

        b) 示例語(yǔ)句編碼(句子特征提取):句子分詞,將句子詞語(yǔ)和實(shí)體轉(zhuǎn)化為稠密實(shí)數(shù)向量,然后利用卷積、池

        化和非線性轉(zhuǎn)換等操作構(gòu)建起對(duì)應(yīng)的句向量.句向量編碼過(guò)程如圖8所示;

        c) 給句子加入注意力機(jī)制:給不同的句子賦予不同的權(quán)重α1,α2,α3,…,αn,隱式地摒棄一些噪音語(yǔ)料,以此提升分類器的性能.這樣使得網(wǎng)絡(luò)的輸出數(shù)目和關(guān)系數(shù)目相等,方便后續(xù)Softmax層進(jìn)行分類.圖9為原始句子包生成句子包向量的過(guò)程,原始句子通過(guò) CNN提取句子特征,構(gòu)建句子向量,給包中不同句子添加不同的權(quán)重,構(gòu)建出一個(gè)句子包向量.

        Attention機(jī)制雖與多示例方法都是減弱錯(cuò)誤標(biāo)簽帶來(lái)的噪聲問(wèn)題,但多示例只用了包中一條語(yǔ)句信息,而Attention機(jī)制綜合利用了包中所有示例語(yǔ)句信息,更好地提升了遠(yuǎn)程監(jiān)督中關(guān)系抽取的效果.

        (3) 基于PCNN、注意力機(jī)制和實(shí)體表示信息的實(shí)體關(guān)系抽取

        目前的遠(yuǎn)程監(jiān)督關(guān)系抽取都集中在探索句子的語(yǔ)義信息層次上,忽略了實(shí)體本身的描述信息對(duì)關(guān)系抽取效果的影響.對(duì)此,Ji在文獻(xiàn)[38]中提出加入實(shí)體表示信息的深度學(xué)習(xí)實(shí)體關(guān)系抽取模型.此模型是在 PCNN和Attention的基礎(chǔ)上添加了實(shí)體的描述信息來(lái)輔助學(xué)習(xí)實(shí)體的表示,從而提高準(zhǔn)確率.其提取關(guān)系流程主要為:

        a) PCNN模塊:用PCNN提取句子特征,每個(gè)實(shí)體對(duì)對(duì)應(yīng)一個(gè)包,用句子級(jí)別注意力機(jī)制給包中每個(gè)句子分配一個(gè)權(quán)重,綜合利用包中所有句子的信息;

        b) 提取實(shí)體信息:從 Freebase和 Wikipedia頁(yè)面中提取實(shí)體描述以補(bǔ)充實(shí)體關(guān)系提取的背景知識(shí),用一個(gè)傳統(tǒng)的 CNN模型(一個(gè)卷積層和一個(gè)最大池化層)從實(shí)體描述中提取特征.背景知識(shí)不僅為預(yù)測(cè)關(guān)系提供了更多信息,而且為注意力機(jī)制模塊帶來(lái)了更好的實(shí)體表示;

        c) 特征融合:用交叉熵最小化目標(biāo)函數(shù),目標(biāo)函數(shù)由句子級(jí)別注意力機(jī)制和實(shí)體信息共同決定.

        本文實(shí)際檢測(cè)到:當(dāng)前遠(yuǎn)程監(jiān)督關(guān)系抽取模型如果在沒(méi)有實(shí)體背景信息的情況下,其在抽取某些實(shí)體對(duì)關(guān)系時(shí)效果不佳.針對(duì)此問(wèn)題,作者提出使用實(shí)體表示信息豐富其背景知識(shí),以便更好地預(yù)測(cè)關(guān)系.實(shí)驗(yàn)表明在前人模型的基礎(chǔ)上加入此創(chuàng)新點(diǎn),均明顯地提升了當(dāng)前模型的效果.

        3.2.2 基于LSTM的實(shí)體關(guān)系抽取方法

        傳統(tǒng)的遠(yuǎn)程監(jiān)督方法在提取特征時(shí)采用NLP工具包,加重了錯(cuò)誤傳播、錯(cuò)誤積累的問(wèn)題,所以He等人[57]提出一種SE-LSTM結(jié)合多示例學(xué)習(xí)的方法來(lái)解決遠(yuǎn)程監(jiān)督中錯(cuò)誤傳播、錯(cuò)誤積累問(wèn)題,其模型如圖10所示.

        a) LSTM網(wǎng)絡(luò)抽取實(shí)體對(duì)方向性信息(圖10左上部分):HE等人首先將句子的最短依存路徑(SDP)分割成兩個(gè)子路徑作為L(zhǎng)STM結(jié)構(gòu)的輸入,自動(dòng)地抽取特征,以此來(lái)抽取實(shí)體對(duì)的方向性信息;

        b) CNN網(wǎng)絡(luò)提取句子整體信息(圖10右部分):盡管SDP對(duì)關(guān)系抽取非常有效,但是這并不能捕捉到句子的全部特征.針對(duì)此問(wèn)題,作者將全部句子放進(jìn) CNN 網(wǎng)絡(luò),進(jìn)而抽取句子的全部信息(sentence embedding);

        c) 特征融合(圖10左下部分):最后,將LSTM隱藏層單元以及CNN的非線性單元相融合,通過(guò)Softmax層來(lái)標(biāo)注實(shí)體對(duì)對(duì)應(yīng)的關(guān)系.

        本文提出的 SE-LSTM 網(wǎng)絡(luò)結(jié)合多示例的方法,其可以在不需要任何 NLP工具包的幫助下自動(dòng)地抽取特征,并且通過(guò)兩個(gè)LSTM提取實(shí)體對(duì)的方向性信息.實(shí)驗(yàn)表明,該方法大大地提升了關(guān)系抽取的準(zhǔn)確率.

        3.2.3 基于COTYPE聯(lián)合抽取模型的實(shí)體關(guān)系抽取方法

        現(xiàn)有的遠(yuǎn)程監(jiān)督關(guān)系抽取模型通常只能在某一特定領(lǐng)域進(jìn)行關(guān)系抽取工作,并且將實(shí)體抽取和關(guān)系抽取兩項(xiàng)工作分開(kāi)進(jìn)行,分開(kāi)進(jìn)行的方式會(huì)導(dǎo)致錯(cuò)誤的累積傳播,不易優(yōu)化擴(kuò)展模型.針對(duì)此問(wèn)題,Ren在文獻(xiàn)[39]中提出了聯(lián)合抽取模型COTYPE,此模型的提出,主要解決在遠(yuǎn)程監(jiān)督關(guān)系抽取過(guò)程中面臨的3大挑戰(zhàn):1) 事先訓(xùn)練好的命名實(shí)體識(shí)別器限制了領(lǐng)域之間的擴(kuò)展;2) 將實(shí)體抽取和關(guān)系抽取分開(kāi)導(dǎo)致錯(cuò)誤的累積傳播;3) 在遠(yuǎn)程監(jiān)督中標(biāo)簽噪聲問(wèn)題.COTYPE的框架主要分為3個(gè)部分.

        a) 數(shù)據(jù)預(yù)處理:在訓(xùn)練語(yǔ)料上運(yùn)行文本分割算法,得到候選實(shí)體;給同一句話的兩個(gè)候選實(shí)體構(gòu)建關(guān)系,用三元組表示;最后分析文本,抽取文本特征;

        b) 聯(lián)合訓(xùn)練實(shí)體和關(guān)系向量空間:將候選實(shí)體、候選關(guān)系、文本特征等嵌入到關(guān)系空間以及實(shí)體空間,并對(duì)兩者進(jìn)行聯(lián)合建模;

        c) 對(duì)實(shí)體類型和關(guān)系類型進(jìn)行推理預(yù)測(cè).

        COTYPE模型與 PCNN等單模型相比不僅可以擴(kuò)展到不同領(lǐng)域,而且通過(guò)把實(shí)體抽取和關(guān)系抽取兩個(gè)任務(wù)結(jié)合,較好地減弱了錯(cuò)誤的累積傳播.實(shí)驗(yàn)結(jié)果表示,其明顯提升了當(dāng)時(shí)State-of-the-art的效果.

        3.2.4 基于深度殘差網(wǎng)絡(luò)的實(shí)體關(guān)系抽取方法

        一般來(lái)說(shuō),深層神經(jīng)網(wǎng)絡(luò)能抽取更深的語(yǔ)義特征,所以Huang[40]實(shí)驗(yàn)了9層CNN的實(shí)體關(guān)系抽取模型.但事實(shí)發(fā)現(xiàn),9層CNN抽取效果不如單層.Huang猜測(cè)可能是由于遠(yuǎn)程監(jiān)督的數(shù)據(jù)里有太多錯(cuò)誤標(biāo)簽的數(shù)據(jù),錯(cuò)誤標(biāo)簽帶來(lái)的噪聲隨著神經(jīng)網(wǎng)絡(luò)層次的加深逐漸被放大,導(dǎo)致 9層效果比單層的差.因此,提出一種深度殘差網(wǎng)絡(luò)模型來(lái)解決深層網(wǎng)絡(luò)增大噪聲的問(wèn)題,其采用殘差網(wǎng)絡(luò)設(shè)法使淺層網(wǎng)絡(luò)的特征跳躍傳遞至深層網(wǎng)絡(luò),讓網(wǎng)絡(luò)可以選擇較不被噪聲影響的那層網(wǎng)絡(luò)特征來(lái)進(jìn)行關(guān)系分類.在性能上,9層的殘差網(wǎng)絡(luò)可達(dá)到 State-of-the-art(PCNN+ATT)模型相似的效果.

        3.3 基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系抽取方法與經(jīng)典方法的對(duì)比

        經(jīng)典的遠(yuǎn)程監(jiān)督方法是在解決遠(yuǎn)程監(jiān)督中強(qiáng)假設(shè)條件造成大量錯(cuò)誤標(biāo)簽的問(wèn)題,而深度學(xué)習(xí)方法主要是是在解決特征提取中誤差傳播問(wèn)題.

        遠(yuǎn)程監(jiān)督的提出,是因?yàn)樵陂_(kāi)放域中存在大量無(wú)規(guī)則非結(jié)構(gòu)化數(shù)據(jù),人工標(biāo)注雖能使標(biāo)注的準(zhǔn)確率較高,但是時(shí)間和人力消耗巨大,在面對(duì)大量數(shù)據(jù)集時(shí)顯得不切實(shí)際.因此,遠(yuǎn)程監(jiān)督實(shí)現(xiàn)一種數(shù)據(jù)集自動(dòng)對(duì)齊遠(yuǎn)程知識(shí)庫(kù)進(jìn)行關(guān)系提取的方法,可進(jìn)行自動(dòng)標(biāo)注數(shù)據(jù).但由于其強(qiáng)假設(shè)條件造成大量錯(cuò)誤標(biāo)簽問(wèn)題,之后,經(jīng)典的遠(yuǎn)程監(jiān)督的改進(jìn)都是在改進(jìn)處理錯(cuò)誤標(biāo)簽的算法.

        深度學(xué)習(xí)的提出,是因數(shù)據(jù)特征構(gòu)造過(guò)程依賴于 NER等 NLP工具,中間過(guò)程出錯(cuò)會(huì)造成錯(cuò)誤傳播問(wèn)題.且現(xiàn)今基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取框架已包含經(jīng)典方法中對(duì)錯(cuò)誤標(biāo)簽的探討解決,因此可以認(rèn)為現(xiàn)今的遠(yuǎn)程監(jiān)督關(guān)系抽取框架是基于傳統(tǒng)方法的擴(kuò)展優(yōu)化.

        3.4 基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督關(guān)系抽取方法與有監(jiān)督方法的對(duì)比

        有監(jiān)督的實(shí)體關(guān)系抽取依靠人工標(biāo)注的方法得到數(shù)據(jù)集,數(shù)據(jù)集準(zhǔn)確率、純度較高,訓(xùn)練出的關(guān)系抽取模型效果較好,具有很好的實(shí)驗(yàn)價(jià)值.但其人工標(biāo)注數(shù)據(jù)集的方法耗費(fèi)大量人力成本,且標(biāo)注數(shù)據(jù)的數(shù)量有限、擴(kuò)展性差、領(lǐng)域性強(qiáng),導(dǎo)致構(gòu)造的關(guān)系抽取模型對(duì)人工標(biāo)注的數(shù)據(jù)具有依賴性,不利于模型的跨領(lǐng)域泛化能力,領(lǐng)域遷移性較差.

        遠(yuǎn)程監(jiān)督在面對(duì)大量無(wú)標(biāo)簽數(shù)據(jù)時(shí),相較于有監(jiān)督實(shí)體關(guān)系抽取具有明顯優(yōu)勢(shì).人力標(biāo)注大量無(wú)標(biāo)簽數(shù)據(jù)顯得不切實(shí)際,因此遠(yuǎn)程監(jiān)督采用對(duì)齊遠(yuǎn)程知識(shí)庫(kù)的方式自動(dòng)標(biāo)注數(shù)據(jù),極大地減少了人力的損耗且領(lǐng)域遷移性較強(qiáng).但遠(yuǎn)程監(jiān)督自動(dòng)標(biāo)注得到的數(shù)據(jù)準(zhǔn)確度較低,因此在訓(xùn)練模型時(shí),錯(cuò)誤標(biāo)簽的誤差會(huì)逐層傳播,最終影響整個(gè)模型的效果.因此,現(xiàn)今的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取模型的效果普遍比有監(jiān)督模型抽取效果效果差.基于深度學(xué)習(xí)的有監(jiān)督和遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取效果對(duì)比可見(jiàn)表2.

        Table 2 Comparison of supervised and remotely supervised entity relationships based on deep learning表2 基于深度學(xué)習(xí)的有監(jiān)督和遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取對(duì)比

        3.5 遠(yuǎn)程監(jiān)督領(lǐng)域?qū)嶓w關(guān)系抽取方法核心公式

        現(xiàn)今,基于深度學(xué)習(xí)的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取研究點(diǎn)主要集中在遠(yuǎn)程監(jiān)督的噪聲問(wèn)題和特征提取的誤差傳播兩方面,遠(yuǎn)程監(jiān)督部分實(shí)體關(guān)系抽取核心公式為表3.

        Table 3 Distant-supervised entity relationship extraction core formula表3 遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取核心公式

        4 基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取新模型與新思路

        4.1 融合深度增強(qiáng)學(xué)習(xí)的實(shí)體關(guān)系抽取

        近期,隨著增強(qiáng)學(xué)習(xí)方法的興起,給予實(shí)體關(guān)系抽取又一種新的思路.有學(xué)者試圖將增強(qiáng)學(xué)習(xí)[59]的方法與深度學(xué)習(xí)的方法融合起來(lái),進(jìn)行實(shí)體和關(guān)系的聯(lián)合抽取.Feng等人[60]在 2017年提出了基于增強(qiáng)學(xué)習(xí)和深度學(xué)習(xí)的聯(lián)合學(xué)習(xí)方法抽取實(shí)體和關(guān)系的模型.該模型中,增強(qiáng)學(xué)習(xí)將任務(wù)建模為兩步?jīng)Q策過(guò)程,如圖 11所示:第 1個(gè)決策根據(jù)實(shí)體抽取的初步結(jié)果,判斷包含目標(biāo)實(shí)體對(duì)的句子是否是一個(gè)關(guān)系;第 2個(gè)決策將關(guān)系進(jìn)行分類.通過(guò)設(shè)計(jì)每步的獎(jiǎng)勵(lì)函數(shù),可以將實(shí)體提取的信息傳遞給關(guān)系提取并獲得反饋,以便同時(shí)提取實(shí)體和關(guān)系.深度學(xué)習(xí)用于自動(dòng)捕獲非結(jié)構(gòu)化文本中最重要的信息,這些信息代表決策過(guò)程中的狀態(tài),首先使用Bi-LSTM來(lái)模擬上下文信息,將實(shí)體抽取任務(wù)視為序列標(biāo)注任務(wù),實(shí)現(xiàn)初步的實(shí)體提取;在提取結(jié)果的基礎(chǔ)上,基于注意力機(jī)制的方法可以表示包括目標(biāo)實(shí)體對(duì)的句子,以在決策過(guò)程中生成初始狀態(tài);接著使用Tree-LSTM來(lái)表示關(guān)系,在決策過(guò)程中生成過(guò)渡狀態(tài);最后采用Q-Learning算法,在兩步?jīng)Q策過(guò)程中得到控制策略π.該方法解決了在增強(qiáng)學(xué)習(xí)與深度學(xué)習(xí)的聯(lián)合模型中,如何將實(shí)體信息傳遞給關(guān)系抽取,使實(shí)體和關(guān)系信息能夠交互并獲得反饋的問(wèn)題.在ACE2005數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,比現(xiàn)有技術(shù)的方法獲得更好的性能,并且召回率評(píng)分提高了2.4%.

        Qin[61]于2018年ACL會(huì)議上提出一種深度增強(qiáng)學(xué)習(xí)的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取方法,認(rèn)為多示例和注意力機(jī)制并非最理想的降噪方法,那些被錯(cuò)誤打標(biāo)的數(shù)據(jù)依舊作為模型的訓(xùn)練數(shù)據(jù),影響著關(guān)系抽取的效果.因此,Qin用深度增強(qiáng)學(xué)習(xí)方法訓(xùn)練一個(gè)正例、負(fù)例數(shù)據(jù)識(shí)別器.不同于之前研究中將負(fù)例移除的方式,Qin是將不存在目標(biāo)關(guān)系的示例語(yǔ)句放入負(fù)例集中,將正例數(shù)據(jù)和負(fù)例數(shù)據(jù)正確分類,并充分利用了正例數(shù)據(jù)和負(fù)例數(shù)據(jù)的信息.

        4.2 融合生成對(duì)抗網(wǎng)絡(luò)的實(shí)體關(guān)系抽取

        生成對(duì)抗網(wǎng)絡(luò)是實(shí)體關(guān)系提取中的新興方法,其通過(guò)在詞向量表示階段引入對(duì)抗性噪聲并給出新的損失函數(shù)來(lái)增加模型的準(zhǔn)確率.其主要思路是:生成器和判別器為博弈對(duì)方,生成器擬合數(shù)據(jù)的產(chǎn)生過(guò)程生成模型樣本,判別器通過(guò)增加噪聲樣本增強(qiáng)模型準(zhǔn)確率和魯棒性,優(yōu)化目標(biāo)是達(dá)到納什均衡.

        生成對(duì)抗網(wǎng)絡(luò)是由GoodFellow等人[62]在2014年提出的一種生成模型,在圖像和視覺(jué)領(lǐng)域取得廣泛的研究和應(yīng)用.從2016年開(kāi)始,Miyato[23,63]逐漸將對(duì)抗訓(xùn)練引入文本分類任務(wù)中.Wu[24]于2017年將生成對(duì)抗網(wǎng)絡(luò)引入弱監(jiān)督實(shí)體關(guān)系抽取中,證明詞向量加入對(duì)抗性噪聲之后,其進(jìn)入CNN或RNN等深度模型中的提取效果比直接進(jìn)入深度模型提取關(guān)系的準(zhǔn)確率高.Qin在文獻(xiàn)[17]將對(duì)抗的思路加入模型中來(lái)對(duì)隱含話語(yǔ)的關(guān)系進(jìn)行分類,通過(guò)隱式網(wǎng)絡(luò)和競(jìng)爭(zhēng)特征鑒別器之間的競(jìng)爭(zhēng)來(lái)實(shí)現(xiàn)自適應(yīng)模仿方案,在 PDTB基準(zhǔn)測(cè)試中實(shí)現(xiàn)了最先進(jìn)的性能.Qin[64]于2018年將生成對(duì)抗網(wǎng)絡(luò)引入到遠(yuǎn)程監(jiān)督關(guān)系抽取中,用于篩選錯(cuò)誤標(biāo)簽,最終達(dá)到降噪的效果.實(shí)驗(yàn)結(jié)果表明,此模型優(yōu)于現(xiàn)今效果最好的遠(yuǎn)程監(jiān)督實(shí)體關(guān)系抽取模型.

        生成對(duì)抗網(wǎng)絡(luò)篩選錯(cuò)誤標(biāo)簽數(shù)據(jù)的流程如圖12所示.

        a) 預(yù)訓(xùn)練:對(duì)生成器和鑒別器進(jìn)行預(yù)訓(xùn)練,得到生成器和鑒別器的參數(shù)θG和θD.由于在良好初始化參數(shù)的情況下對(duì)抗訓(xùn)練很容易趨于收斂,因此預(yù)訓(xùn)練具有很好的優(yōu)化效果.本文生成器和鑒別器都用簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò),相比于循環(huán)神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)具有更少的參數(shù);

        b) 數(shù)據(jù)劃分:一次迭代(epoch)掃描遠(yuǎn)程監(jiān)督訓(xùn)練集中所有正例集P={s1,s2,…,sj,…},將其劃分為N個(gè)包:B={Bag1,Bag2,…,Bagk,…},一次處理一個(gè)包中的全部數(shù)據(jù);

        c) 生成器訓(xùn)練:生成器計(jì)算包中正樣本的概率分布,其產(chǎn)生的高置信樣本被認(rèn)為是真實(shí)的正例樣本,然后根據(jù)這個(gè)概率分布進(jìn)行抽樣;

        d) 對(duì)抗器訓(xùn)練:對(duì)抗器接收這些高置信度樣本,但將其視為負(fù)樣本;相反,低置信度的樣本仍被視為正樣本.在這個(gè)過(guò)程中,模型會(huì)以預(yù)訓(xùn)練的參數(shù)進(jìn)行初始化;

        e) 交替訓(xùn)練:對(duì)于生成的樣本,生成器使真正的概率最大;相反,對(duì)抗器使這個(gè)概率最小.兩個(gè)網(wǎng)絡(luò)交替進(jìn)行訓(xùn)練,更新θG和θD.

        對(duì)比實(shí)驗(yàn)結(jié)果表明,PCNN+ATT+DSGAN模型較PCNN+ATT而言,AUC和p-values均有明顯的改善.用生成對(duì)抗網(wǎng)絡(luò)進(jìn)行訓(xùn)練集噪聲數(shù)據(jù)篩選,會(huì)提高遠(yuǎn)程監(jiān)督領(lǐng)域?qū)嶓w關(guān)系抽取效果.

        5 基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取在生物醫(yī)藥領(lǐng)域中的最新應(yīng)用進(jìn)展

        實(shí)體關(guān)系抽取是信息抽取的核心任務(wù)[65,66],其主要通過(guò)對(duì)文本信息建模,自動(dòng)抽取出實(shí)體對(duì)之間的語(yǔ)義關(guān)系,提取出有效的語(yǔ)義知識(shí).目前,基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取已逐漸應(yīng)用到垂直領(lǐng)域并取得了不錯(cuò)的效果,其中,實(shí)體關(guān)系抽取在生物醫(yī)藥領(lǐng)域的應(yīng)用尤為廣泛.深度學(xué)習(xí)實(shí)體關(guān)系抽取可以發(fā)掘生物醫(yī)學(xué)中藥品實(shí)體與疾病間深層次的特征,在毒理學(xué)研究、藥物發(fā)現(xiàn)和藥物安全監(jiān)測(cè)方面有著廣泛的應(yīng)用.下面依次從CNN, LSTM模型的角度簡(jiǎn)要介紹深度學(xué)習(xí)實(shí)體關(guān)系抽取在醫(yī)藥領(lǐng)域的最新應(yīng)用.表 4為深度學(xué)習(xí)模型在生物醫(yī)藥領(lǐng)域中的應(yīng)用.

        Table 4 Deep learning entity relationship extraction usedin biomedicine field表4 深度學(xué)習(xí)實(shí)體關(guān)系抽取在生物醫(yī)藥領(lǐng)域中的應(yīng)用

        從文本中提取生物醫(yī)學(xué)實(shí)體及其關(guān)系,對(duì)生物醫(yī)學(xué)研究具有重要的應(yīng)用價(jià)值.以前的工作主要是利用基于特征的流水線模型來(lái)處理這個(gè)任務(wù),當(dāng)采用基于特征的模型時(shí),需要進(jìn)行大量特征工程工作,耗費(fèi)時(shí)間且抽取效果參差不齊.因此,學(xué)者們?cè)噲D將深度學(xué)習(xí)的方法引入生物醫(yī)藥領(lǐng)域的關(guān)系抽取中來(lái)提升效果.

        從生物醫(yī)療領(lǐng)域的科研文章、醫(yī)療報(bào)告、電子醫(yī)療記錄抽取相關(guān)信息,已經(jīng)成為了當(dāng)前生物醫(yī)藥領(lǐng)域的研究熱點(diǎn).2016年6月,Sahu等人[67]首次提出基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的臨床文本關(guān)系提取新框架,臨床文本相較于科研文章而言,內(nèi)容更具碎片化和不完整性,因此關(guān)系抽取的過(guò)程更具挑戰(zhàn)性.Sahu將每個(gè)句子用詞級(jí)向量、位置向量、詞性特征、詞干特征、實(shí)體類型信息來(lái)共同表示,豐富句子表示信息;并且用CNN網(wǎng)絡(luò)進(jìn)行關(guān)系抽取,減少了對(duì)專家特征知識(shí)定義質(zhì)量的依賴,模型在i2b2-2010臨床關(guān)系提取挑戰(zhàn)數(shù)據(jù)集超過(guò)了當(dāng)前state-of-theart的效果.

        2017年1月,Gu等人[68]的論文用最大熵改進(jìn)了Sahu的CNN模型,對(duì)化學(xué)藥物與疾病之間的關(guān)系進(jìn)行抽取.通過(guò) CNN網(wǎng)絡(luò)抽取了文本句子的上下文特征以及依存特征,獲得了更加精確、有效的句子信息.模型在BioCreative-V CDR語(yǔ)料庫(kù)(包括1 500篇美國(guó)國(guó)立醫(yī)學(xué)圖書(shū)館生物醫(yī)學(xué)數(shù)據(jù)庫(kù)論文(MEDLINE),所有論文都被手工標(biāo)注了化學(xué)與疾病)上達(dá)到了當(dāng)前State-of-the-art的效果.

        Peng等人在2018年BioCreative VI Workshop上發(fā)表的文獻(xiàn)[70]結(jié)合了SVM,CNN和RNN模型,聯(lián)合挖掘生物醫(yī)學(xué)文獻(xiàn)中化學(xué)品和蛋白質(zhì)之間的關(guān)系,從而證明了生物醫(yī)學(xué)文獻(xiàn)自動(dòng)關(guān)系提取方法的有效性.Peng將句子向量、位置向量、詞干特征、句子的依存特征作為SVM,CNN以及RNN模型的輸入,最終將3種模型預(yù)測(cè)的結(jié)果進(jìn)行投票,獲得最終的關(guān)系預(yù)測(cè).結(jié)果表明,在BioCreative VI的CHEMPROT系統(tǒng)精確度為0.726 6,召回率為0.573 5,F值為0.641 0.此模型在2017年挑戰(zhàn)期間取得了最高效果.

        Li[53]在2017年BMC Bioinformatics會(huì)議上提出將CNN和Bi-LSTM-RNN應(yīng)用于生物醫(yī)藥領(lǐng)域的關(guān)系抽取任務(wù)中,在藥物與疾病實(shí)體之間的關(guān)系抽取、細(xì)菌與位置實(shí)體之間的關(guān)系抽取這兩個(gè)任務(wù)中分別比最新技術(shù)提高了8.0%和9.2%.本文所用模型對(duì)應(yīng)上文的有監(jiān)督領(lǐng)域的聯(lián)合模型,同時(shí)進(jìn)行命名實(shí)體識(shí)別與實(shí)體間關(guān)系抽取兩個(gè)任務(wù).使用CNN提取字符級(jí)信息,用Bi-LSTM識(shí)別生物醫(yī)學(xué)實(shí)體,再結(jié)合Bi-LSTM-RNN沿著兩個(gè)目標(biāo)實(shí)體的最短依存路徑(SDP)方向?qū)W習(xí)實(shí)體間關(guān)系表示.這些表示用于確定實(shí)體間最后的關(guān)系類別.此模型在實(shí)際應(yīng)用中取得了杰出的效果,這也表明了深度學(xué)習(xí)實(shí)體關(guān)系抽取在生物醫(yī)學(xué)文本挖掘中研究的重要性.

        藥物引起的不良反應(yīng)是一個(gè)潛在的危險(xiǎn)問(wèn)題,可能導(dǎo)致患者死亡和發(fā)病.提取藥物不良事件以及挖掘藥物與疾病間關(guān)系,是生物醫(yī)學(xué)研究中的重要問(wèn)題.2018年1月,Ramamoorthy等人[69]采用Bi-LSTM結(jié)合注意力機(jī)制的序列模型進(jìn)行實(shí)體識(shí)別和不良藥物事件提取,利用臨床文本中的當(dāng)?shù)卣Z(yǔ)言實(shí)現(xiàn)序列內(nèi)相互作用,以便對(duì)藥物和疾病實(shí)體間關(guān)系進(jìn)行共同學(xué)習(xí),從而抽取到最合適的關(guān)系.模型證明,用此種方式進(jìn)行事件和關(guān)系抽取的性能優(yōu)于先前工作中使用的基于最短依存路徑(SDP)方法.

        Chikka等人[26]在2018KDD上提出一種結(jié)合深度學(xué)習(xí)和規(guī)則的關(guān)系抽取模型,解決如何抽取疾病與治療藥品間關(guān)系的問(wèn)題.文中利用深度學(xué)習(xí)的詞級(jí)和句子級(jí)表示信息來(lái)提取治療方案與醫(yī)療問(wèn)題之間的關(guān)系,使用基于規(guī)則的方法處理數(shù)據(jù)集中可用的樣本數(shù)量較少的關(guān)系,最終通過(guò) Bi-LSTM 和基于規(guī)則的模型聯(lián)合得出最終關(guān)系.最終結(jié)果在I2b2 2010關(guān)系提取任務(wù)的關(guān)系類上取得了良好的性能.結(jié)合深度學(xué)習(xí)和基于規(guī)則的模型可以深入挖掘疾病與藥品之間關(guān)系,在決策支持系統(tǒng)、安全監(jiān)視和新的藥品發(fā)現(xiàn)中有著廣泛應(yīng)用.

        Nguyen[71]在2018年BioNLP上提出通過(guò)CNN+CNNchar和CNN+LSTMchar模型來(lái)抽取生物醫(yī)學(xué)文本中化學(xué)藥品與疾病之間的關(guān)系.不同于之前模型中只用CNN提取詞語(yǔ)與字符級(jí)信息,Nguyen提出CNN和LSTM共同訓(xùn)練字符級(jí)別的詞向量,解決生物醫(yī)藥領(lǐng)域?qū)S忻~沒(méi)有特定的詞向量這一問(wèn)題,將字符集別詞向量和詞級(jí)別詞向量拼接作為CNN關(guān)系抽取網(wǎng)絡(luò)的輸入.將模型應(yīng)用于BioCreative-V CDR語(yǔ)料庫(kù)中的任務(wù)數(shù)據(jù),其結(jié)果表明:利用基于CNN和LSTM的字符級(jí)單詞表示模型改進(jìn)了不使用此信息模型的關(guān)系抽取效果,更好地抽取化學(xué)藥品與疾病之間的關(guān)系.

        6 基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取的數(shù)據(jù)集及其評(píng)測(cè)方法

        6.1 數(shù)據(jù)集介紹

        近年來(lái),用作深度學(xué)習(xí)關(guān)系抽取實(shí)驗(yàn)評(píng)估的標(biāo)準(zhǔn)數(shù)據(jù)集主要有SemEval-2010 Task 8公開(kāi)數(shù)據(jù)集、ACE2004實(shí)驗(yàn)語(yǔ)料、NYT-FB數(shù)據(jù)集等.

        (一) 有監(jiān)督領(lǐng)域

        有監(jiān)督領(lǐng)域的實(shí)體關(guān)系抽取主要采用MUC關(guān)系抽取任務(wù)數(shù)據(jù)集、ACE04、ACE05、SemEval-2010 Task 8公開(kāi)數(shù)據(jù)集,部分論文采用MPQA 2.0語(yǔ)料庫(kù)和BioNLP-ST 2016的BB任務(wù)數(shù)據(jù)集.有監(jiān)督方面評(píng)測(cè)標(biāo)準(zhǔn)主要以F1值來(lái)統(tǒng)計(jì).

        · MUC關(guān)系抽取任務(wù)數(shù)據(jù)集:MUC-7包含五大評(píng)測(cè)任務(wù):命名實(shí)體識(shí)別、指代消解、模版元素填充、模版關(guān)系確定和場(chǎng)景模版填充.其中,關(guān)系抽取首次作為一個(gè)獨(dú)立的評(píng)測(cè)任務(wù)被提出來(lái).MUC-7的數(shù)據(jù)語(yǔ)料主要是取自新聞?wù)Z料,主要是飛機(jī)失事事件報(bào)道和航天器發(fā)射事件報(bào)道.MUC會(huì)議停開(kāi)以后, ACE會(huì)議也將關(guān)系抽取任務(wù)作為會(huì)議的一個(gè)子任務(wù);

        · ACE關(guān)系抽取任務(wù)數(shù)據(jù)集:ACE會(huì)議從2002年~2007年一直將關(guān)系抽取任務(wù)作為一個(gè)子任務(wù),其中獲得廣泛認(rèn)可的是ACE04/ACE05.其中,ACE04語(yǔ)料庫(kù)來(lái)源于語(yǔ)言數(shù)據(jù)聯(lián)盟(linguistic data consortium,簡(jiǎn)稱LDC),分成廣播新聞(BNEWS)和新聞專線(NWIRE)兩個(gè)部分,總共包含451個(gè)文檔和5 702個(gè)關(guān)系實(shí)例.ACE04提供了豐富的標(biāo)注信息,從而為信息抽取中的實(shí)體識(shí)別、指代消解和關(guān)系抽取凳子任務(wù)提供基準(zhǔn)(benchmark)的訓(xùn)練和測(cè)試語(yǔ)料庫(kù).而ACE05作為ACE04的擴(kuò)充,對(duì)ACE04數(shù)據(jù)集進(jìn)行了適當(dāng)?shù)男薷呐c完善;

        · SemEval-2010 Task 8數(shù)據(jù)集:SemEval是由Senseval演變而來(lái)的語(yǔ)義評(píng)測(cè).Senseval是由ACL-SIGLEX組織的國(guó)際權(quán)威的詞義消歧評(píng)測(cè),但由于 Senseval中除詞義消歧外有關(guān)語(yǔ)義分析的任務(wù)越來(lái)越多,之后,Senseval委員會(huì)決定把評(píng)測(cè)名稱改為國(guó)際語(yǔ)義評(píng)測(cè)(SemEval).SemEval-2010 Task 8數(shù)據(jù)集是2010年SemEval語(yǔ)義評(píng)測(cè)的子任務(wù),構(gòu)建于2009年,此任務(wù)用于名詞間多種語(yǔ)義關(guān)系的分類.數(shù)據(jù)集根據(jù)預(yù)設(shè)定的9種互不相容關(guān)系從各大數(shù)據(jù)源收集而來(lái),數(shù)據(jù)源包括WordNet,Wikipedia data,Googlen-grams等.數(shù)據(jù)集共包含10 717條數(shù)據(jù),其中,訓(xùn)練集有8 000條,測(cè)試集有2 717條.數(shù)據(jù)集中9種關(guān)系,分別為:Cause-Effect(因果關(guān)系),Instrument-Agency(操作、使用關(guān)系),Product-Producer(產(chǎn)品-生產(chǎn)者關(guān)系),Content-Container(空間包含關(guān)系),Entity-Origin(起源關(guān)系),Entity-Destination(導(dǎo)向關(guān)系),Component-Whole(組件-整體關(guān)系),Member-Collection(成員-集合關(guān)系),Message-Topic(主題關(guān)系).每條數(shù)據(jù)是一個(gè)包含實(shí)體對(duì)的句子,類別標(biāo)簽為實(shí)體對(duì)在該句中表現(xiàn)出的關(guān)系;

        · MPQA 2.0語(yǔ)料庫(kù):包含來(lái)自各種新聞源的新聞文章和社論,數(shù)據(jù)集中共有482個(gè)文檔,包含9 471個(gè)帶有短語(yǔ)級(jí)別注釋的句子.數(shù)據(jù)集中包含觀點(diǎn)實(shí)體的黃金標(biāo)準(zhǔn)注釋,如觀點(diǎn)表達(dá)、觀點(diǎn)目標(biāo)和觀點(diǎn)持有者;還包含觀點(diǎn)關(guān)系的注釋,如觀點(diǎn)持有者和觀點(diǎn)表達(dá)之間的IS-FROM關(guān)系、觀點(diǎn)目標(biāo)和觀點(diǎn)表達(dá)之間的IS-ABOUT關(guān)系;

        · BioNLP-ST 2016的BB任務(wù):此任務(wù)是針對(duì)細(xì)菌/位置實(shí)體抽取和兩者間Lives_In關(guān)系抽取而設(shè)立的一個(gè)標(biāo)準(zhǔn)競(jìng)賽,數(shù)據(jù)集由來(lái)自 PubMed的161個(gè)科學(xué)論文摘要組成,數(shù)據(jù)集中包含 3種類型的實(shí)體:細(xì)菌、棲息地和地理位置;包含一種關(guān)系:Lives_In,指由細(xì)菌-棲息地構(gòu)成的Lives_In關(guān)系或由細(xì)菌-地理位置構(gòu)成的Lives_In關(guān)系.

        (二) 遠(yuǎn)程監(jiān)督領(lǐng)域

        遠(yuǎn)程監(jiān)督領(lǐng)域的實(shí)體關(guān)系抽取主要采用NYT-FB數(shù)據(jù)集.這個(gè)數(shù)據(jù)集是由Freebase知識(shí)庫(kù)對(duì)其紐約時(shí)報(bào)的文本獲得的數(shù)據(jù)集.訓(xùn)練數(shù)據(jù)為知識(shí)庫(kù)對(duì)其2005年、2006年文本獲得的,測(cè)試庫(kù)數(shù)據(jù)為知識(shí)庫(kù)對(duì)其2007年文本獲得的.NYT-FB數(shù)據(jù)集中共有53種關(guān)系,共計(jì)695 059條數(shù)據(jù)(其中訓(xùn)練集包含522 611條訓(xùn)練語(yǔ)句,訓(xùn)練數(shù)據(jù)中有近80%的句子的標(biāo)簽為NA,測(cè)試集包含172 448條測(cè)試語(yǔ)句),通過(guò)結(jié)合FreeBase對(duì)NYT語(yǔ)料做實(shí)體鏈接、關(guān)系對(duì)齊等操作進(jìn)行標(biāo)注,最終得到一個(gè)被廣泛使用的關(guān)系抽取數(shù)據(jù)集.

        6.2 評(píng)測(cè)方法介紹

        關(guān)系抽取領(lǐng)域有3項(xiàng)基本評(píng)價(jià)指標(biāo):準(zhǔn)確率(precision)、召回率(recall)和F值(Fmeasure).

        (一) 準(zhǔn)確率

        準(zhǔn)確率是從查準(zhǔn)率的角度對(duì)實(shí)體關(guān)系抽取效果進(jìn)行評(píng)估,其計(jì)算公式為

        (二) 召回率

        召回率是從查全率的角度對(duì)抽取效果進(jìn)行評(píng)估,其計(jì)算公式為

        (三)F值

        對(duì)與關(guān)系抽取來(lái)說(shuō),準(zhǔn)確率和召回率是相互影響的,二者存在互補(bǔ)關(guān)系,因此,F值綜合了準(zhǔn)確率和召回率的信息,其計(jì)算公式為β是一個(gè)調(diào)節(jié)準(zhǔn)確率與召回率比重的參數(shù),實(shí)際測(cè)試中,一般認(rèn)為準(zhǔn)確率與召回率同等重要,因此,β值一般設(shè)置成1.因此,上式可以表示為

        6.3 深度學(xué)習(xí)實(shí)體關(guān)系抽取典型論文的數(shù)據(jù)集與評(píng)測(cè)標(biāo)準(zhǔn)

        不同模型的數(shù)據(jù)集及其評(píng)測(cè)標(biāo)準(zhǔn)見(jiàn)表5.

        Table 5 Different models of data sets and their evaluation criteria表5 不同模型的數(shù)據(jù)集及其評(píng)測(cè)標(biāo)準(zhǔn)

        表5中,序號(hào)1~序號(hào)15是有監(jiān)督領(lǐng)域?qū)嶓w關(guān)系抽取的典型模型與其相關(guān)信息介紹,序號(hào)16~序號(hào)25是遠(yuǎn)程監(jiān)督領(lǐng)域?qū)嶓w關(guān)系抽取的典型模型與其相關(guān)信息介紹.其中,1~10是有監(jiān)督領(lǐng)域中流水線類別的模型,序號(hào)11~序號(hào)15是有監(jiān)督領(lǐng)域的聯(lián)合學(xué)習(xí)類別的模型.

        參考常耀成[77]在《軟件學(xué)報(bào)》中的數(shù)據(jù)集整理的方式,本文數(shù)據(jù)集描述與下載鏈接見(jiàn)表6.

        Table 6 Dataset description and download link表6 數(shù)據(jù)集描述與下載鏈接

        7 未來(lái)研究方向和總結(jié)

        目前,基于深度學(xué)習(xí)的實(shí)體關(guān)系抽取已經(jīng)取得了極大成功,但依舊值得學(xué)者們不斷探索.通過(guò)對(duì)現(xiàn)有實(shí)體關(guān)系抽取研究工作進(jìn)行總結(jié),未來(lái)可從以下幾個(gè)方面展開(kāi)相關(guān)研究.

        (1) 重疊實(shí)體關(guān)系識(shí)別

        目前,就重疊實(shí)體關(guān)系識(shí)別這一問(wèn)題,已有的實(shí)體關(guān)系識(shí)別模型還沒(méi)有給出相應(yīng)的解決方法.盡管 Zheng[55]提出的新標(biāo)注策略解決了參數(shù)共享方法存在冗余實(shí)體的問(wèn)題,真正做到了將兩個(gè)子任務(wù)合并成一個(gè)序列標(biāo)注問(wèn)題,但該方法仍然沒(méi)有解決重疊實(shí)體關(guān)系問(wèn)題.故未來(lái)重疊實(shí)體關(guān)系仍會(huì)是學(xué)者研究和攻克的一大難題.此外,因 Zheng[55]新標(biāo)注策略的提出,未來(lái)在這套標(biāo)注策略上也可以進(jìn)行更多的改進(jìn)和發(fā)展,來(lái)進(jìn)一步完善端到端的關(guān)系抽取任務(wù).

        (2) 跨句子級(jí)別關(guān)系抽取

        現(xiàn)今,關(guān)系抽取任務(wù)集中在對(duì)一句話內(nèi)識(shí)別出的實(shí)體對(duì)進(jìn)行關(guān)系分類,而按照自然語(yǔ)言的習(xí)慣,實(shí)體對(duì)分別位于不同句子中的情況也十分常見(jiàn).現(xiàn)有的指代消解任務(wù)可以通過(guò)指代對(duì)象識(shí)別和指代對(duì)象中心詞抽取有效影響多種自然語(yǔ)言處理任務(wù)系統(tǒng)的性能,但其存在依賴人工特征強(qiáng)、精確度不夠高的問(wèn)題.因此,融合并改進(jìn)指代消解和關(guān)系抽取模型,是未來(lái)解決跨句子級(jí)別關(guān)系抽取任務(wù)中可以研究探討的一種方案.

        此外,Peng等人[78]于2017年提出了基于圖的LSTM網(wǎng)絡(luò)(graph LSTM)的一般關(guān)系提取框架,可以很容易地?cái)U(kuò)展到跨句子N元關(guān)系提取.圖公式提供了一種探索不同LSTM方法的統(tǒng)一方法,它能結(jié)合各種句內(nèi)和句間的依賴關(guān)系,如順序、句法和語(yǔ)篇關(guān)系等;能學(xué)習(xí)實(shí)體的上下文表示,以用作關(guān)系分類器的輸入,簡(jiǎn)化與任意元關(guān)系的處理,并且能夠利用相關(guān)關(guān)系進(jìn)行多任務(wù)學(xué)習(xí).通過(guò)在兩個(gè)重要的精確醫(yī)學(xué)環(huán)境中評(píng)估該框架,證明了其在傳統(tǒng)監(jiān)督學(xué)習(xí)和遠(yuǎn)程監(jiān)督方面的有效性.因此,基于圖結(jié)構(gòu)進(jìn)行實(shí)體關(guān)系抽取也可作為解決跨句子級(jí)別關(guān)系抽取問(wèn)題的一種方案.

        (3) 關(guān)系類型OOV問(wèn)題

        現(xiàn)今,完成關(guān)系抽取任務(wù)的主流方法中,均沒(méi)有有效地解決關(guān)系類型OOV(out of vocabulary)問(wèn)題.對(duì)于沒(méi)出現(xiàn)在訓(xùn)練集中的關(guān)系類型,已有的模型框架無(wú)法準(zhǔn)確地預(yù)測(cè)出實(shí)體對(duì)所屬的正確關(guān)系類型.在SemEval-2010的評(píng)測(cè)任務(wù)8中,因考慮到句子實(shí)例中實(shí)體對(duì)的先后順序問(wèn)題,引入了Other類對(duì)不屬于已有關(guān)系類型的實(shí)例進(jìn)行描述,然而這只是減少了存在關(guān)系的實(shí)體對(duì)的損失,提升了模型判斷關(guān)系提及的能力,對(duì) Other類中實(shí)體對(duì)的關(guān)系卻難以定義,關(guān)系模糊,需要人工干預(yù)和判斷.因此,關(guān)系類型OOV問(wèn)題也是未來(lái)亟待解決的問(wèn)題之一.

        (4) 解決遠(yuǎn)程監(jiān)督的錯(cuò)誤標(biāo)簽問(wèn)題

        遠(yuǎn)程監(jiān)督中的假設(shè)過(guò)于肯定,難免引入大量的噪聲數(shù)據(jù).為緩解錯(cuò)誤標(biāo)注的問(wèn)題,目前主流的方式是:(a) 利用多示例學(xué)習(xí)方法對(duì)測(cè)試包打標(biāo)簽;(b) 采用 Attention機(jī)制對(duì)不同置信度的句子賦予不同的權(quán)值.但這兩種方法都不可避免地會(huì)將一些不具有某個(gè)關(guān)系的句子作為這個(gè)關(guān)系的訓(xùn)練語(yǔ)句:在多示例學(xué)習(xí)方法的情況下,若一個(gè)包中全是負(fù)例(包中沒(méi)有一個(gè)句子的關(guān)系是實(shí)體對(duì)對(duì)齊知識(shí)庫(kù)得到的關(guān)系),即使取出概率最大的語(yǔ)句作為這個(gè)包的訓(xùn)練語(yǔ)句,其仍是噪聲語(yǔ)句;而在 Attention機(jī)制下,雖將并不代表實(shí)體對(duì)關(guān)系的語(yǔ)句給予較小的權(quán)重,但本質(zhì)上仍是將其作為正例放入訓(xùn)練集中,仍是會(huì)引入噪聲.Qin[61]將深度增強(qiáng)學(xué)習(xí)引入遠(yuǎn)程監(jiān)督領(lǐng)域,將不存在目標(biāo)關(guān)系的示例語(yǔ)句放入負(fù)例集中,是遠(yuǎn)程監(jiān)督領(lǐng)域解決噪聲問(wèn)題的一個(gè)新興方法.但解決噪聲的方法遠(yuǎn)不止這3種,如何采用有效的方式來(lái)解決遠(yuǎn)程監(jiān)督的錯(cuò)誤標(biāo)簽問(wèn)題,是實(shí)體關(guān)系提取發(fā)展過(guò)程中研究的重要問(wèn)題.

        (5) 遠(yuǎn)程監(jiān)督領(lǐng)域錯(cuò)誤傳播問(wèn)題

        現(xiàn)今,實(shí)體關(guān)系抽取的典型模型是PCNN+ATT,但其主要利用的是句子的語(yǔ)義信息.雖已有論文利用句子的語(yǔ)法信息[79]將依存句法樹(shù)用于實(shí)體關(guān)系抽取,但效果并不驚人.因此,如何將語(yǔ)義與語(yǔ)法信息有效融合來(lái)抽取實(shí)體關(guān)系,也是今后優(yōu)化深度模型的主要方向之一.

        猜你喜歡
        實(shí)體遠(yuǎn)程深度
        讓人膽寒的“遠(yuǎn)程殺手”:彈道導(dǎo)彈
        軍事文摘(2022年20期)2023-01-10 07:18:38
        遠(yuǎn)程工作狂綜合征
        深度理解一元一次方程
        前海自貿(mào)區(qū):金融服務(wù)實(shí)體
        深度觀察
        深度觀察
        遠(yuǎn)程詐騙
        深度觀察
        實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
        兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
        免费看草逼操爽视频网站| a级黑人大硬长爽猛出猛进| 91天堂素人精品系列全集亚洲| 国产成人午夜av影院| 亚洲女同一区二区| 亚洲欧美综合在线天堂| 亚洲AV永久无码精品一区二国| 永久免费观看的黄网站在线| 久久久久亚洲av成人网人人软件| 国产精品国产三级国产av中文| 国产av无码专区亚洲av中文| 91麻豆精品激情在线观看最新| 日韩精品一二区在线视频| 精品久久久少妇一区二区| 中字幕人妻一区二区三区| 91在线在线啪永久地址| 一本色道久久综合亚州精品| 国产亚洲精品一区二区无| 骚小妹影院| 精品少妇人妻成人一区二区| 久久精品人妻中文av| 成人做爰69片免费看网站野花| 99久久综合狠狠综合久久| 色婷婷激情在线一区二区三区| 19款日产奇骏车怎么样| 亚洲精品国产av天美传媒| 在线播放国产女同闺蜜| 在线高清亚洲精品二区| 欧美激情一区二区三区成人 | 婷婷色中文字幕综合在线| 免费一级a毛片在线播出| 亚州av高清不卡一区二区| 亚洲av日韩av天堂久久| av大片在线无码免费| 日本一区二区三区的免费视频观看 | 台湾佬中文娱乐网22| 丰满少妇人妻无码专区| 人妻一区二区三区免费看| 日韩精品综合一本久道在线视频| 97se亚洲精品一区| 国产成人亚洲欧美三区综合|