亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        開放域信息抽取研究綜述

        2021-05-12 10:52:44高躍
        現(xiàn)代計(jì)算機(jī) 2021年7期
        關(guān)鍵詞:子句三元組解析

        高躍

        (四川大學(xué)計(jì)算機(jī)學(xué)院,成都610065)

        0 引言

        隨著互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,網(wǎng)絡(luò)上產(chǎn)生了海量的非結(jié)構(gòu)化數(shù)據(jù),自然語(yǔ)言處理(Natural Language Processing,NLP)中的信息抽?。↖nformation Extraction,IE)技術(shù)被用于從海量的非結(jié)構(gòu)化文本中抽取出結(jié)構(gòu)化的信息,這些結(jié)構(gòu)化信息常用關(guān)系三元組(實(shí)體1;關(guān)系;實(shí)體2)的形式表示。傳統(tǒng)的信息抽取任務(wù)預(yù)先給定一組關(guān)系類別集合,限定關(guān)系類別以及文本的領(lǐng)域,在給定實(shí)體對(duì)的情況下可以將信息抽取看作是對(duì)實(shí)體對(duì)的多分類問題。但開放域信息抽取(Open Domain Information Extraction,Open IE)[1]不限定關(guān)系類別,從文本中抽取所有可能的關(guān)系三元組,例如:給定句子“自然語(yǔ)言處理是計(jì)算機(jī)科學(xué)的一個(gè)方向”,開放域信息抽取能夠從中提取出關(guān)系三元組(自然語(yǔ)言處理;是;計(jì)算機(jī)科學(xué)的一個(gè)方向),其中的關(guān)系類別不受限制。這些提取出的關(guān)系三元組可以用于許多下游工作,如:?jiǎn)柎鹣到y(tǒng)[2]、信息檢索[3]和知識(shí)圖譜構(gòu)建[4]等。

        Banko 等人[1]首次提出開放域信息抽取任務(wù),吸引了大量研究者的關(guān)注,早期的開放域信息抽取方法大多使用從標(biāo)注文本中自動(dòng)學(xué)習(xí)[1,5-6]或者人工構(gòu)造的模板[7-9],依賴句子的依存特征進(jìn)行關(guān)系三元組的抽取,由于使用領(lǐng)域獨(dú)立的句法特征等信息,這些方法可以適用于不同領(lǐng)域和關(guān)系類型。一些研究者認(rèn)為關(guān)系三元組缺失完整的上下文信息不利于下游任務(wù)的理解,且可能抽取出非事實(shí)性的、假設(shè)性的三元組,因此一些方法也探索了如何抽取具備完整上下文信息的關(guān)系三元組。Mausam 等人[5]分析三元組的上下文,并將其作為三元組的額外字段,Gashteovski 等人[10]用上下文信息對(duì)提取的三元組進(jìn)行標(biāo)注,一些系統(tǒng)[11-13]從三元組的上下文中提取額外的關(guān)系三元組,并使用修辭關(guān)系或依賴關(guān)系信息將其聯(lián)系起來,以獲得具有完整上下文信息的關(guān)系三元組。結(jié)構(gòu)復(fù)雜的句子對(duì)于Open IE 方法來說是一個(gè)巨大的挑戰(zhàn),難以使用規(guī)則等方法從復(fù)雜句子中抽取關(guān)系三元組,因此為了提高關(guān)系三元組抽取的準(zhǔn)確度,一些方法[13-15]提出了將復(fù)雜的句子轉(zhuǎn)化為簡(jiǎn)單的子句,并在這些簡(jiǎn)單的子句中使用簡(jiǎn)單的模板抽取三元組。隨著近幾年深度學(xué)習(xí)方法發(fā)展,基于深度學(xué)習(xí)的開放域信息抽取成為主流,Cui 等人[16]、Stanovsky 等人[17]將開放域信息抽取轉(zhuǎn)換為序列生成和序列標(biāo)注問題,在多個(gè)數(shù)據(jù)集上取得了優(yōu)秀的成績(jī)。

        1 相關(guān)工作

        自從Banko 等人[1]首次提出,開放域信息抽取任務(wù)已經(jīng)獲得了長(zhǎng)足的發(fā)展,現(xiàn)有的開放域信息抽取方法大致可以分為四類:基于學(xué)習(xí)的方法、基于規(guī)則的方法、基于子句的方法和基于深度學(xué)習(xí)的方法。此外,一些研究者針對(duì)不同語(yǔ)言的開放域信息抽取也進(jìn)行了研究。

        1.1 基于學(xué)習(xí)的方法

        由于開放域信息抽取任務(wù)缺少大規(guī)模的標(biāo)注數(shù)據(jù),早期的方法都通過啟發(fā)式方法、遠(yuǎn)監(jiān)督方法等自動(dòng)獲取大量標(biāo)注數(shù)據(jù),使用這些自動(dòng)標(biāo)注的數(shù)據(jù)自動(dòng)學(xué)習(xí)得到抽取模板或者分類器進(jìn)行關(guān)系三元組的抽取。TextRunner[1]首先識(shí)別句子中可能的實(shí)體,然后利用一組啟發(fā)式規(guī)則自動(dòng)標(biāo)注句子中可能的三元組集合,使用這些標(biāo)注數(shù)據(jù)訓(xùn)練樸素貝葉斯分類器,判斷兩個(gè)實(shí)體之間的文本是否表達(dá)了關(guān)系。類似地,WOE[6]使用維基百科信息框中的數(shù)據(jù)作為監(jiān)督源進(jìn)行遠(yuǎn)監(jiān)督標(biāo)注,使用訓(xùn)練的分類器判斷實(shí)體對(duì)之間的最短依存路徑是否隱含表達(dá)關(guān)系。WOE 系統(tǒng)首次顯示利用依存解析特征相比于淺層語(yǔ)言特征(如:詞性序列)能取得更好的結(jié)果,大多數(shù)后續(xù)開放域信息抽取方法都利用了依存解析特征。后續(xù)的OLLIE[5]也使用了依存解析,從遠(yuǎn)監(jiān)督標(biāo)注數(shù)據(jù)的依存解析樹中自動(dòng)學(xué)習(xí)抽取模板,在依存解析上進(jìn)行關(guān)系三元組的抽取。最近有研究者提出ATP-OIE[18],與OLLIE 類似地從依存解析樹上學(xué)習(xí)模板,但不同的是ATP-OIE 針對(duì)關(guān)系三元組的每個(gè)部分單獨(dú)學(xué)習(xí)抽取模板,取得了較好的效果。

        1.2 基于規(guī)則的方法

        除了從標(biāo)注數(shù)據(jù)中自動(dòng)學(xué)習(xí)抽取的模板,早期還有一些方法使用人工總結(jié)的規(guī)則進(jìn)行關(guān)系三元組的抽取,REVERB[7]通過定義一組人工定義的詞性序列模板對(duì)關(guān)系短語(yǔ)進(jìn)行句法約束,避免不連貫和無信息的抽取,同時(shí)REVERB 作者認(rèn)為正確的關(guān)系短語(yǔ)應(yīng)該在語(yǔ)料庫(kù)中和不同的論元共同出現(xiàn),對(duì)關(guān)系短語(yǔ)進(jìn)行詞匯約束以減少關(guān)系短語(yǔ)的過度抽取。EXEMPLAR[8]使用一組人工構(gòu)造的基于依存解析樹的模板,檢測(cè)關(guān)系觸發(fā)詞和與它相連的論元實(shí)體。PropS[19]認(rèn)為從依存解析樹中直接抽取三元組很困難,使用一組規(guī)則將依存解析樹轉(zhuǎn)化為帶標(biāo)注的有向圖,由于有向圖的形式比依存解析樹更簡(jiǎn)單,只包含幾種節(jié)點(diǎn)和邊,因此從轉(zhuǎn)化后的有向圖中可以輕松抽取出關(guān)系三元組。與PropS 很相似,PredPatt[9]也基于普遍依存解析(Universal Dependency Parse)對(duì)句子構(gòu)建了有向圖,使用規(guī)則在其上進(jìn)行抽取。這些基于規(guī)則的方法往往能夠帶來精確的抽取,但構(gòu)造規(guī)則需要觀察大量語(yǔ)料,耗時(shí)耗力。

        1.3 基于子句的方法

        結(jié)構(gòu)復(fù)雜的長(zhǎng)句子一直是開放域信息抽取的挑戰(zhàn),為了提高開放域信息抽取在復(fù)雜長(zhǎng)句子上的抽取效果,研究者嘗試將復(fù)雜的句子轉(zhuǎn)換為結(jié)構(gòu)簡(jiǎn)單的獨(dú)立子句,從這些子句中抽取關(guān)系三元組更簡(jiǎn)單。經(jīng)典的ClausIE[14]識(shí)別句子中的所有動(dòng)詞,然后根據(jù)語(yǔ)法知識(shí)和依存關(guān)系識(shí)別依賴于這些動(dòng)詞的子句部分,得到的子句會(huì)被判斷屬于哪一種類型,以便使用對(duì)應(yīng)的模板抽取關(guān)系三元組。Angeli 等人[15]提出了Stanford OIE,巧妙地使用一個(gè)依存解析樹上遞歸向下的邊搜索算法解決了子句位置的識(shí)別問題,同時(shí)采用自然邏輯對(duì)得到的子句進(jìn)行處理,使得從這些子句中抽取得到的三元組在下游任務(wù)中更有用。最近的Graphene[13]使用一組人工定義的簡(jiǎn)化規(guī)則移除句子中不重要的從句和短語(yǔ),最終將復(fù)雜的句子轉(zhuǎn)換為簡(jiǎn)單緊湊的獨(dú)立句子,并使用模板從中抽取關(guān)系三元組。

        1.4 基于深度學(xué)習(xí)的方法

        近幾年,自然語(yǔ)言處理領(lǐng)域的許多任務(wù)運(yùn)用深度學(xué)習(xí)技術(shù)取得了不俗的成果,基于深度學(xué)習(xí)的方法也逐漸在開放域信息抽取任務(wù)中占據(jù)主流。目前這些方法主要將開放域信息抽取看作是序列生成、序列標(biāo)注和基于分塊(span-based)的選擇問題。Cui 等人[16]將開放域信息抽取看作是序列到序列的生成問題,使用編碼器-解碼器框架對(duì)輸入句子進(jìn)行編碼,生成包含關(guān)系三元組序列和分隔符的輸出序列。簡(jiǎn)單的序列生成模型可能會(huì)生成大量相似的冗余抽取,同時(shí)Beam 搜索無法很好處理句子中的三元組個(gè)數(shù)問題,Kolluru 等人[20]在序列生成模型的基礎(chǔ)上提出將生成的三元組序列添加到編碼端重新編碼,以指導(dǎo)后續(xù)三元組的生成。Stanovsky 等人[17]將開放域信息抽取轉(zhuǎn)化為序列標(biāo)注問題,首先識(shí)別句子中可能的關(guān)系詞,然后針對(duì)每個(gè)關(guān)系詞對(duì)輸入句子進(jìn)行BIO 標(biāo)注,得到對(duì)應(yīng)的關(guān)系三元組序列。SenseOIE[21]也使用序列標(biāo)注方法,但將多個(gè)開放域信息抽取方法的輸出作為序列標(biāo)注模型的輸入特征,利用了之前方法的優(yōu)點(diǎn)。使用一個(gè)基于分塊的選擇模型,SpanOIE[22]得到句子中每個(gè)分塊屬于各個(gè)標(biāo)簽的得分,為關(guān)系三元組中的每個(gè)角色(關(guān)系,論元)從句子中選擇得分最高的分塊作為相應(yīng)的抽取。這些基于深度學(xué)習(xí)的方法相比于之前的基于規(guī)則的系統(tǒng)更靈活,同時(shí)不存在錯(cuò)誤傳播等問題。

        1.5 多語(yǔ)言方法

        現(xiàn)有的開放域信息抽取研究大多集中在英語(yǔ)文本,但不同的語(yǔ)言在詞匯、句法和語(yǔ)義等層面具備很大差異,因此一些研究者針對(duì)英語(yǔ)之外的其他語(yǔ)言進(jìn)行研究,提出了特定語(yǔ)言的開放域信息抽取方法。ZORE[23]在中文的依存解析樹上使用模板和語(yǔ)法知識(shí)進(jìn)行抽取,最近有研究者提出使用端到端的指針-生成器的網(wǎng)絡(luò)[24]解決錯(cuò)誤傳播問題,在中文上取得了較好的效果。針對(duì)西班牙語(yǔ),有方法使用與REVERB 類似的基于詞性序列模板的句法約束進(jìn)行開放域信息抽取[25]。

        2 數(shù)據(jù)集

        開放域信息抽取工作中常用的數(shù)據(jù)集有OIE2016、CaRB、PENN、Web、NYT 等,其中Web、NYT、PENN 數(shù)據(jù)集是人工標(biāo)注的數(shù)據(jù)集。Web 數(shù)據(jù)集[8]中的句子來自網(wǎng)頁(yè)和新聞,這些句子往往不完整或者包含錯(cuò)誤的語(yǔ)法,并且句子結(jié)構(gòu)一般比其他數(shù)據(jù)集更簡(jiǎn)單。NYT 數(shù)據(jù)集[8]中的句子來自《紐約時(shí)報(bào)》語(yǔ)料庫(kù),書寫更加正式規(guī)范。OIE2016 數(shù)據(jù)集[26]是由QA-SRL 自動(dòng)轉(zhuǎn)換而來,被現(xiàn)有的開放域信息抽取方法廣泛采用作為評(píng)價(jià)數(shù)據(jù)集,最近IMOJIE[20]采用眾包對(duì)OIE2016中的驗(yàn)證集和測(cè)試集重新進(jìn)行了標(biāo)注,得到了更準(zhǔn)確的數(shù)據(jù)集CaRB。表1 顯示了這些數(shù)據(jù)集的更多細(xì)節(jié)。

        表1 數(shù)據(jù)集

        3 結(jié)語(yǔ)

        隨著互聯(lián)網(wǎng)上海量非結(jié)構(gòu)化文本的產(chǎn)生,越來越多的研究工作從傳統(tǒng)的信息抽取轉(zhuǎn)向了開放域信息抽取,本文介紹了開放域信息抽取任務(wù),對(duì)目前的開放域信息抽取研究工作進(jìn)行了總結(jié)和梳理,列舉了被廣泛使用的評(píng)價(jià)數(shù)據(jù)集。近幾年深度學(xué)習(xí)技術(shù)的使用使得開放域信息抽取模型更加靈活,解決了之前方法的錯(cuò)誤傳播問題,取得了不錯(cuò)的效果,但目前這方面研究還是有一定的問題。一方面深度學(xué)習(xí)方法需要更加大量的標(biāo)注數(shù)據(jù),目前開放域信息抽取任務(wù)并沒有特別可靠的大規(guī)模標(biāo)注數(shù)據(jù),另一方面復(fù)雜句子的抽取仍然是一個(gè)很大的挑戰(zhàn),同時(shí)對(duì)于抽取結(jié)果的評(píng)價(jià)方式也存在爭(zhēng)議。未來的開放域信息抽取工作可以思考如何自動(dòng)標(biāo)注更可靠的數(shù)據(jù),或者引入外部信息輔助抽取,例如對(duì)遠(yuǎn)監(jiān)督獲得的標(biāo)注數(shù)據(jù)進(jìn)行去噪。后續(xù)工作也可以考慮對(duì)復(fù)雜句子進(jìn)行處理,降低開放域信息抽取任務(wù)復(fù)雜度,使模型更好地學(xué)習(xí)到抽取需要的特征,同時(shí)在英語(yǔ)外的其他語(yǔ)言上的開放域信息抽取任務(wù)也還有很大的研究空間。

        猜你喜歡
        子句三元組解析
        基于語(yǔ)義增強(qiáng)雙編碼器的方面情感三元組提取
        軟件工程(2024年12期)2024-12-28 00:00:00
        基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
        命題邏輯中一類擴(kuò)展子句消去方法
        三角函數(shù)解析式中ω的幾種求法
        命題邏輯可滿足性問題求解器的新型預(yù)處理子句消去方法
        關(guān)于余撓三元組的periodic-模
        西夏語(yǔ)的副詞子句
        西夏學(xué)(2018年2期)2018-05-15 11:24:42
        睡夢(mèng)解析儀
        電競(jìng)初解析
        商周刊(2017年12期)2017-06-22 12:02:01
        相機(jī)解析
        中文字幕一区二区人妻秘书| 亚洲中文字幕诱惑第一页| 国产美女遭强高潮网站| 一级免费毛片| 亚洲电影中文字幕| 成人国产精品高清在线观看| 国产最新一区二区三区| 日本女同av在线播放| 麻神在线观看免费观看| 中文字幕 亚洲精品 第1页| av无码av天天av天天爽| 海角国精产品一区一区三区糖心| 亚洲综合无码一区二区三区| 亚洲精品有码在线观看| 中国免费av网| 国产三级精品三级在线| 一区二区中文字幕在线观看污污| 在线播放av不卡国产日韩| 国产三级精品三级在线观看| 国产成人综合久久精品免费| 中文字幕少妇AV| 成人在线视频亚洲国产| 精品一区二区三区婷婷| 蜜臀av在线播放一区二区三区| 国产一极内射視颍一| 亚洲欧洲精品成人久久曰不卡| 中文字幕偷拍亚洲九色| 在线观看二区视频网站二区| 少妇无套裸按摩呻吟无呜| 狠狠色噜噜狠狠狠777米奇小说 | 国产午夜激无码AV毛片不卡| 一区二区三区精品偷拍av| 自拍视频在线观看国产| 无码精品国产一区二区三区免费| 亚洲中文字幕成人无码| 国产精品人妻一区夜夜爱| 久久精品—区二区三区无码伊人色| 国产高潮精品一区二区三区av| 久久国产精品美女厕所尿尿av| 国产精品久久久久久一区二区三区| 亚洲精品国产av成拍色拍|