亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

開放域信息抽取研究綜述

2021-05-12 10:52:44高躍

現(xiàn)代計(jì)算機(jī) 2021年7期

高躍

（四川大學(xué)計(jì)算機(jī)學(xué)院，成都610065）

0 引言

隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展，網(wǎng)絡(luò)上產(chǎn)生了海量的非結(jié)構(gòu)化數(shù)據(jù)，自然語(yǔ)言處理（Natural Language Processing，NLP）中的信息抽?。↖nformation Extraction，IE）技術(shù)被用于從海量的非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化的信息，這些結(jié)構(gòu)化信息常用關(guān)系三元組(實(shí)體1;關(guān)系;實(shí)體2)的形式表示。傳統(tǒng)的信息抽取任務(wù)預(yù)先給定一組關(guān)系類別集合，限定關(guān)系類別以及文本的領(lǐng)域，在給定實(shí)體對(duì)的情況下可以將信息抽取看作是對(duì)實(shí)體對(duì)的多分類問題。但開放域信息抽取（Open Domain Information Extraction，Open IE）[1]不限定關(guān)系類別，從文本中抽取所有可能的關(guān)系三元組，例如：給定句子“自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)的一個(gè)方向”，開放域信息抽取能夠從中提取出關(guān)系三元組(自然語(yǔ)言處理；是；計(jì)算機(jī)科學(xué)的一個(gè)方向)，其中的關(guān)系類別不受限制。這些提取出的關(guān)系三元組可以用于許多下游工作，如：?jiǎn)柎鹣到y(tǒng)[2]、信息檢索[3]和知識(shí)圖譜構(gòu)建[4]等。

Banko 等人[1]首次提出開放域信息抽取任務(wù)，吸引了大量研究者的關(guān)注，早期的開放域信息抽取方法大多使用從標(biāo)注文本中自動(dòng)學(xué)習(xí)[1,5-6]或者人工構(gòu)造的模板[7-9]，依賴句子的依存特征進(jìn)行關(guān)系三元組的抽取，由于使用領(lǐng)域獨(dú)立的句法特征等信息，這些方法可以適用于不同領(lǐng)域和關(guān)系類型。一些研究者認(rèn)為關(guān)系三元組缺失完整的上下文信息不利于下游任務(wù)的理解，且可能抽取出非事實(shí)性的、假設(shè)性的三元組，因此一些方法也探索了如何抽取具備完整上下文信息的關(guān)系三元組。Mausam 等人[5]分析三元組的上下文，并將其作為三元組的額外字段，Gashteovski 等人[10]用上下文信息對(duì)提取的三元組進(jìn)行標(biāo)注，一些系統(tǒng)[11-13]從三元組的上下文中提取額外的關(guān)系三元組，并使用修辭關(guān)系或依賴關(guān)系信息將其聯(lián)系起來，以獲得具有完整上下文信息的關(guān)系三元組。結(jié)構(gòu)復(fù)雜的句子對(duì)于Open IE 方法來說是一個(gè)巨大的挑戰(zhàn)，難以使用規(guī)則等方法從復(fù)雜句子中抽取關(guān)系三元組，因此為了提高關(guān)系三元組抽取的準(zhǔn)確度，一些方法[13-15]提出了將復(fù)雜的句子轉(zhuǎn)化為簡(jiǎn)單的子句，并在這些簡(jiǎn)單的子句中使用簡(jiǎn)單的模板抽取三元組。隨著近幾年深度學(xué)習(xí)方法發(fā)展，基于深度學(xué)習(xí)的開放域信息抽取成為主流，Cui 等人[16]、Stanovsky 等人[17]將開放域信息抽取轉(zhuǎn)換為序列生成和序列標(biāo)注問題，在多個(gè)數(shù)據(jù)集上取得了優(yōu)秀的成績(jī)。

1 相關(guān)工作

自從Banko 等人[1]首次提出，開放域信息抽取任務(wù)已經(jīng)獲得了長(zhǎng)足的發(fā)展，現(xiàn)有的開放域信息抽取方法大致可以分為四類：基于學(xué)習(xí)的方法、基于規(guī)則的方法、基于子句的方法和基于深度學(xué)習(xí)的方法。此外，一些研究者針對(duì)不同語(yǔ)言的開放域信息抽取也進(jìn)行了研究。

1.1 基于學(xué)習(xí)的方法

由于開放域信息抽取任務(wù)缺少大規(guī)模的標(biāo)注數(shù)據(jù)，早期的方法都通過啟發(fā)式方法、遠(yuǎn)監(jiān)督方法等自動(dòng)獲取大量標(biāo)注數(shù)據(jù)，使用這些自動(dòng)標(biāo)注的數(shù)據(jù)自動(dòng)學(xué)習(xí)得到抽取模板或者分類器進(jìn)行關(guān)系三元組的抽取。TextRunner[1]首先識(shí)別句子中可能的實(shí)體，然后利用一組啟發(fā)式規(guī)則自動(dòng)標(biāo)注句子中可能的三元組集合，使用這些標(biāo)注數(shù)據(jù)訓(xùn)練樸素貝葉斯分類器，判斷兩個(gè)實(shí)體之間的文本是否表達(dá)了關(guān)系。類似地，WOE[6]使用維基百科信息框中的數(shù)據(jù)作為監(jiān)督源進(jìn)行遠(yuǎn)監(jiān)督標(biāo)注，使用訓(xùn)練的分類器判斷實(shí)體對(duì)之間的最短依存路徑是否隱含表達(dá)關(guān)系。WOE 系統(tǒng)首次顯示利用依存解析特征相比于淺層語(yǔ)言特征（如：詞性序列）能取得更好的結(jié)果，大多數(shù)后續(xù)開放域信息抽取方法都利用了依存解析特征。后續(xù)的OLLIE[5]也使用了依存解析，從遠(yuǎn)監(jiān)督標(biāo)注數(shù)據(jù)的依存解析樹中自動(dòng)學(xué)習(xí)抽取模板，在依存解析上進(jìn)行關(guān)系三元組的抽取。最近有研究者提出ATP-OIE[18]，與OLLIE 類似地從依存解析樹上學(xué)習(xí)模板，但不同的是ATP-OIE 針對(duì)關(guān)系三元組的每個(gè)部分單獨(dú)學(xué)習(xí)抽取模板，取得了較好的效果。

1.2 基于規(guī)則的方法

除了從標(biāo)注數(shù)據(jù)中自動(dòng)學(xué)習(xí)抽取的模板，早期還有一些方法使用人工總結(jié)的規(guī)則進(jìn)行關(guān)系三元組的抽取，REVERB[7]通過定義一組人工定義的詞性序列模板對(duì)關(guān)系短語(yǔ)進(jìn)行句法約束，避免不連貫和無信息的抽取，同時(shí)REVERB 作者認(rèn)為正確的關(guān)系短語(yǔ)應(yīng)該在語(yǔ)料庫(kù)中和不同的論元共同出現(xiàn)，對(duì)關(guān)系短語(yǔ)進(jìn)行詞匯約束以減少關(guān)系短語(yǔ)的過度抽取。EXEMPLAR[8]使用一組人工構(gòu)造的基于依存解析樹的模板，檢測(cè)關(guān)系觸發(fā)詞和與它相連的論元實(shí)體。PropS[19]認(rèn)為從依存解析樹中直接抽取三元組很困難，使用一組規(guī)則將依存解析樹轉(zhuǎn)化為帶標(biāo)注的有向圖，由于有向圖的形式比依存解析樹更簡(jiǎn)單，只包含幾種節(jié)點(diǎn)和邊，因此從轉(zhuǎn)化后的有向圖中可以輕松抽取出關(guān)系三元組。與PropS 很相似，PredPatt[9]也基于普遍依存解析（Universal Dependency Parse）對(duì)句子構(gòu)建了有向圖，使用規(guī)則在其上進(jìn)行抽取。這些基于規(guī)則的方法往往能夠帶來精確的抽取，但構(gòu)造規(guī)則需要觀察大量語(yǔ)料，耗時(shí)耗力。

1.3 基于子句的方法

結(jié)構(gòu)復(fù)雜的長(zhǎng)句子一直是開放域信息抽取的挑戰(zhàn)，為了提高開放域信息抽取在復(fù)雜長(zhǎng)句子上的抽取效果，研究者嘗試將復(fù)雜的句子轉(zhuǎn)換為結(jié)構(gòu)簡(jiǎn)單的獨(dú)立子句，從這些子句中抽取關(guān)系三元組更簡(jiǎn)單。經(jīng)典的ClausIE[14]識(shí)別句子中的所有動(dòng)詞，然后根據(jù)語(yǔ)法知識(shí)和依存關(guān)系識(shí)別依賴于這些動(dòng)詞的子句部分，得到的子句會(huì)被判斷屬于哪一種類型，以便使用對(duì)應(yīng)的模板抽取關(guān)系三元組。Angeli 等人[15]提出了Stanford OIE，巧妙地使用一個(gè)依存解析樹上遞歸向下的邊搜索算法解決了子句位置的識(shí)別問題，同時(shí)采用自然邏輯對(duì)得到的子句進(jìn)行處理，使得從這些子句中抽取得到的三元組在下游任務(wù)中更有用。最近的Graphene[13]使用一組人工定義的簡(jiǎn)化規(guī)則移除句子中不重要的從句和短語(yǔ)，最終將復(fù)雜的句子轉(zhuǎn)換為簡(jiǎn)單緊湊的獨(dú)立句子，并使用模板從中抽取關(guān)系三元組。

1.4 基于深度學(xué)習(xí)的方法

近幾年，自然語(yǔ)言處理領(lǐng)域的許多任務(wù)運(yùn)用深度學(xué)習(xí)技術(shù)取得了不俗的成果，基于深度學(xué)習(xí)的方法也逐漸在開放域信息抽取任務(wù)中占據(jù)主流。目前這些方法主要將開放域信息抽取看作是序列生成、序列標(biāo)注和基于分塊（span-based）的選擇問題。Cui 等人[16]將開放域信息抽取看作是序列到序列的生成問題，使用編碼器-解碼器框架對(duì)輸入句子進(jìn)行編碼，生成包含關(guān)系三元組序列和分隔符的輸出序列。簡(jiǎn)單的序列生成模型可能會(huì)生成大量相似的冗余抽取，同時(shí)Beam 搜索無法很好處理句子中的三元組個(gè)數(shù)問題，Kolluru 等人[20]在序列生成模型的基礎(chǔ)上提出將生成的三元組序列添加到編碼端重新編碼，以指導(dǎo)后續(xù)三元組的生成。Stanovsky 等人[17]將開放域信息抽取轉(zhuǎn)化為序列標(biāo)注問題，首先識(shí)別句子中可能的關(guān)系詞，然后針對(duì)每個(gè)關(guān)系詞對(duì)輸入句子進(jìn)行BIO 標(biāo)注，得到對(duì)應(yīng)的關(guān)系三元組序列。SenseOIE[21]也使用序列標(biāo)注方法，但將多個(gè)開放域信息抽取方法的輸出作為序列標(biāo)注模型的輸入特征，利用了之前方法的優(yōu)點(diǎn)。使用一個(gè)基于分塊的選擇模型，SpanOIE[22]得到句子中每個(gè)分塊屬于各個(gè)標(biāo)簽的得分，為關(guān)系三元組中的每個(gè)角色(關(guān)系,論元)從句子中選擇得分最高的分塊作為相應(yīng)的抽取。這些基于深度學(xué)習(xí)的方法相比于之前的基于規(guī)則的系統(tǒng)更靈活，同時(shí)不存在錯(cuò)誤傳播等問題。

1.5 多語(yǔ)言方法

現(xiàn)有的開放域信息抽取研究大多集中在英語(yǔ)文本，但不同的語(yǔ)言在詞匯、句法和語(yǔ)義等層面具備很大差異，因此一些研究者針對(duì)英語(yǔ)之外的其他語(yǔ)言進(jìn)行研究，提出了特定語(yǔ)言的開放域信息抽取方法。ZORE[23]在中文的依存解析樹上使用模板和語(yǔ)法知識(shí)進(jìn)行抽取，最近有研究者提出使用端到端的指針-生成器的網(wǎng)絡(luò)[24]解決錯(cuò)誤傳播問題，在中文上取得了較好的效果。針對(duì)西班牙語(yǔ)，有方法使用與REVERB 類似的基于詞性序列模板的句法約束進(jìn)行開放域信息抽取[25]。

2 數(shù)據(jù)集

開放域信息抽取工作中常用的數(shù)據(jù)集有OIE2016、CaRB、PENN、Web、NYT 等，其中Web、NYT、PENN 數(shù)據(jù)集是人工標(biāo)注的數(shù)據(jù)集。Web 數(shù)據(jù)集[8]中的句子來自網(wǎng)頁(yè)和新聞，這些句子往往不完整或者包含錯(cuò)誤的語(yǔ)法，并且句子結(jié)構(gòu)一般比其他數(shù)據(jù)集更簡(jiǎn)單。NYT 數(shù)據(jù)集[8]中的句子來自《紐約時(shí)報(bào)》語(yǔ)料庫(kù)，書寫更加正式規(guī)范。OIE2016 數(shù)據(jù)集[26]是由QA-SRL 自動(dòng)轉(zhuǎn)換而來，被現(xiàn)有的開放域信息抽取方法廣泛采用作為評(píng)價(jià)數(shù)據(jù)集，最近IMOJIE[20]采用眾包對(duì)OIE2016中的驗(yàn)證集和測(cè)試集重新進(jìn)行了標(biāo)注，得到了更準(zhǔn)確的數(shù)據(jù)集CaRB。表1 顯示了這些數(shù)據(jù)集的更多細(xì)節(jié)。

表1 數(shù)據(jù)集

3 結(jié)語(yǔ)

隨著互聯(lián)網(wǎng)上海量非結(jié)構(gòu)化文本的產(chǎn)生，越來越多的研究工作從傳統(tǒng)的信息抽取轉(zhuǎn)向了開放域信息抽取，本文介紹了開放域信息抽取任務(wù)，對(duì)目前的開放域信息抽取研究工作進(jìn)行了總結(jié)和梳理，列舉了被廣泛使用的評(píng)價(jià)數(shù)據(jù)集。近幾年深度學(xué)習(xí)技術(shù)的使用使得開放域信息抽取模型更加靈活，解決了之前方法的錯(cuò)誤傳播問題，取得了不錯(cuò)的效果，但目前這方面研究還是有一定的問題。一方面深度學(xué)習(xí)方法需要更加大量的標(biāo)注數(shù)據(jù)，目前開放域信息抽取任務(wù)并沒有特別可靠的大規(guī)模標(biāo)注數(shù)據(jù)，另一方面復(fù)雜句子的抽取仍然是一個(gè)很大的挑戰(zhàn)，同時(shí)對(duì)于抽取結(jié)果的評(píng)價(jià)方式也存在爭(zhēng)議。未來的開放域信息抽取工作可以思考如何自動(dòng)標(biāo)注更可靠的數(shù)據(jù)，或者引入外部信息輔助抽取，例如對(duì)遠(yuǎn)監(jiān)督獲得的標(biāo)注數(shù)據(jù)進(jìn)行去噪。后續(xù)工作也可以考慮對(duì)復(fù)雜句子進(jìn)行處理，降低開放域信息抽取任務(wù)復(fù)雜度，使模型更好地學(xué)習(xí)到抽取需要的特征，同時(shí)在英語(yǔ)外的其他語(yǔ)言上的開放域信息抽取任務(wù)也還有很大的研究空間。