亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        實(shí)體關(guān)系抽取技術(shù)的研究

        2020-12-03 01:54:22王瀚琳
        數(shù)碼設(shè)計(jì) 2020年13期

        王瀚琳

        摘要:實(shí)體關(guān)系信息抽取涉及基于實(shí)體的上下文信息和來自注釋的信息,從不規(guī)則文本中提取與任務(wù)關(guān)聯(lián)的實(shí)體之間的關(guān)系信息。實(shí)體關(guān)系抽取是指根據(jù)實(shí)體的上下文信息和命名實(shí)體的注釋信息,從不規(guī)則文本中提取任務(wù)相關(guān)實(shí)體之間的關(guān)系信息。本文介紹了幾種具有代表性的實(shí)體關(guān)系抽取技術(shù),以望為之后的研究者提供一定的參考。

        關(guān)鍵詞:實(shí)體關(guān)系;監(jiān)督學(xué)習(xí);半監(jiān)督學(xué)習(xí);無監(jiān)督學(xué)習(xí)

        中圖分類號:TP391.1文獻(xiàn)標(biāo)識碼:A文章編號:1672-9129(2020)13-0045-01

        隨著機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的發(fā)展,統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在挖掘相關(guān)任務(wù)中的應(yīng)用變得越來越普遍,包含的種類也有很多,本文將介紹它的幾個主要的類別。

        1關(guān)系抽取研究現(xiàn)狀

        目前,在信息抽取領(lǐng)域中,SemEval-2010的評測任務(wù)八數(shù)據(jù)集,至今仍然是關(guān)系抽取任務(wù)中重要的評測數(shù)據(jù)集。

        通過有監(jiān)督的機(jī)器學(xué)習(xí)方法從不規(guī)則的文本中抽取出實(shí)體之間的主要關(guān)系的方法主要有兩種:一是將文本的語義信息表示為向量;二是將文本的語義信息通過核函數(shù)映射到高維空間,從高維空間中抽取出實(shí)體之間主要關(guān)系的方法。

        基于半監(jiān)督機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取模型,首先,是用人工的方式選取少量的高質(zhì)量的規(guī)則作為模板。然后,根據(jù)模板不斷地從數(shù)據(jù)集中進(jìn)行迭代抽取出新的模板,新的模板評估結(jié)果符合預(yù)期后,會被添加到模板的集合中用于后續(xù)的迭代計(jì)算。具有代表性的基于半監(jiān)督機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取工作,是2015年Agichtein開發(fā)的Snowball系統(tǒng)。

        基于無監(jiān)督機(jī)器學(xué)習(xí)的實(shí)體關(guān)系抽取模型主要是通過聚類的方式從數(shù)據(jù)集中抽取出實(shí)體關(guān)系,此種方法雖然在技術(shù)和操作流程上比較簡答,但它在效果和性能方法并不令人滿意。

        2基于規(guī)則匹配的關(guān)系抽取

        在研究初期,研究者主要采用基于規(guī)則匹配的方法用于提取實(shí)體之間的關(guān)系,它適用于沒有規(guī)律的文本,但這些類型的規(guī)則對于較長范圍的模式和具有更大多樣性的序列來說是不適用的。這種方法在進(jìn)行實(shí)體關(guān)系抽取任務(wù)時需要較多的人工干預(yù),根據(jù)不同的任務(wù)需要相應(yīng)領(lǐng)域的專家設(shè)計(jì)抽取規(guī)則,因此基于規(guī)則匹配的關(guān)系抽取方法存在很強(qiáng)的局限性,而且泛化能力差可移植性不強(qiáng)。

        隨著規(guī)則集合的擴(kuò)充,使用基于規(guī)則匹配的方法處理復(fù)雜的實(shí)體關(guān)系類型抽取的任務(wù)時,規(guī)則之間可能會發(fā)生沖突從而降低模型的效果。

        3基于監(jiān)督學(xué)習(xí)的關(guān)系抽取

        在監(jiān)督學(xué)習(xí)的框架下,需要將數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行標(biāo)注。這一類方法一般將關(guān)系抽取任務(wù)作為分類問題進(jìn)行建模,從文本中抽取兩個實(shí)體之間的關(guān)系可以看作找到一個合適的映射函數(shù),通過映射函數(shù)計(jì)算出兩個實(shí)體之間概率最大的實(shí)體關(guān)系類型。

        監(jiān)督學(xué)習(xí)模型需要進(jìn)行數(shù)據(jù)的處理和特征的提取,以便使用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)過程中構(gòu)造分類器,從而有利于模型進(jìn)行分類和測試數(shù)據(jù)中實(shí)體之間的關(guān)系。

        根據(jù)句子的特征信息構(gòu)建表示句子特征的方法,常使用的特征信息有實(shí)體信息、實(shí)體類型信息、實(shí)體相對距離信息、實(shí)體之間單詞序列信息等。但是基于句子特征信息的關(guān)系抽取只獲取了淺層的句子信息,而基于核函數(shù)的關(guān)系抽取可以將特征映射到高維空間,從高維空間對句子進(jìn)行分析,常用的核函數(shù)有字符串核、句法樹核、詞袋核、依存句法核等核函數(shù)。

        優(yōu)點(diǎn)是高質(zhì)量的監(jiān)督信號和有明確的負(fù)樣本,缺點(diǎn)是標(biāo)注樣本成本高,增加新的關(guān)系難且成本高,對于新領(lǐng)域不具有很好的泛華性,使用范圍小,只對一小部分相關(guān)類型可用,不具有遷移性。

        無論是基于句子特征信息的關(guān)系抽取方法,還是基于核函數(shù)的關(guān)系抽取方法,都需要人工設(shè)計(jì)特征的表示方法。

        4基于半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的關(guān)系抽取

        基于半監(jiān)督學(xué)習(xí)中的bootstrap方法的關(guān)系抽取模型的研究重點(diǎn),是通過少量標(biāo)注的數(shù)據(jù)集進(jìn)行規(guī)則的學(xué)習(xí),然后根據(jù)少量的實(shí)例或模板,在大規(guī)模的未標(biāo)注的數(shù)據(jù)中抽取新的模板,為了防止誤差的疊加,需要對新模板進(jìn)行評估,將準(zhǔn)確率達(dá)到閾值標(biāo)準(zhǔn)的模板添加到模板庫中,然后繼續(xù)進(jìn)行迭代抽取。雖然基于無監(jiān)督學(xué)習(xí)的關(guān)系抽取方法省略了人工標(biāo)注數(shù)據(jù)集的步驟,減少了人工干預(yù),但是,通過聚類的方式抽取出的結(jié)果很難映射到實(shí)際的實(shí)體關(guān)系類型中,無法對結(jié)果進(jìn)行分類。

        半監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn)是可以發(fā)現(xiàn)比基于規(guī)則的關(guān)系提取更多的關(guān)系和更少的人力投入,因?yàn)樗恍枰哔|(zhì)量的種子。缺點(diǎn)是隨著每次迭代,模式的集合更容易出錯、在通過元組共現(xiàn)生成新模式時必須十分小心和新的關(guān)系類型需要新的種子,即需要手動提供。

        無監(jiān)督學(xué)習(xí)的優(yōu)點(diǎn)是幾乎不需要標(biāo)注訓(xùn)練數(shù)據(jù),且不需要我們手動預(yù)先指定每個甘心去的關(guān)系,而是考慮所有可能的關(guān)系類型。缺點(diǎn)是系統(tǒng)的表現(xiàn)在很大程度上取決于約束和啟發(fā)法的構(gòu)造有多好和關(guān)系不像預(yù)先指定的關(guān)系類型那樣規(guī)范化。

        5實(shí)體關(guān)系抽取技術(shù)的創(chuàng)新

        針對空間實(shí)體識別任務(wù),在傳統(tǒng)的雙向長短期記憶網(wǎng)絡(luò)和條件隨機(jī)場混合模型的基礎(chǔ)上進(jìn)行了改進(jìn)。在特征表示層增加用于提取詞向量語義特征的全連接神經(jīng)網(wǎng)絡(luò),這種改進(jìn)方式可以提升模型的特征提取能力。

        通過在關(guān)系抽取的流程中添加空間實(shí)體類型識別模塊,對傳統(tǒng)的關(guān)系抽取方法進(jìn)行了改進(jìn)。改進(jìn)后的方法可以識別出訓(xùn)練樣本中未出現(xiàn)的關(guān)系類型。

        6總結(jié)

        根據(jù)不同的應(yīng)用場景,選取合適的模型方法來對抽取實(shí)體之間的關(guān)系以滿足認(rèn)為的需求是重要的研究領(lǐng)域。實(shí)體關(guān)系技術(shù)作為信息抽取技術(shù)的重要組成部分,人具有重要意義,如何根據(jù)不同場景選取合適的實(shí)體關(guān)系抽取技術(shù),仍需要研究者們進(jìn)一步探索與創(chuàng)新。

        參考文獻(xiàn):

        [1] 張春云.實(shí)體關(guān)系抽取算法研究 [D].北京:北京郵電大學(xué),2015.

        [2] 譚鋒,李天真,崔亮亮.Web信息抽取系統(tǒng)研究綜述 [J].科技創(chuàng)新導(dǎo)報

        [3] 李保利,陳玉忠,俞士汶.信息抽取研究綜述 [J].計(jì)算機(jī)工程與應(yīng)用,2003 (10):1-5.

        中文字幕av无码一区二区三区电影| 国产免费内射又粗又爽密桃视频| 看全色黄大色大片免费久久| 免费jjzz在线播放国产| 丰满少妇一区二区三区专区| 精品乱色一区二区中文字幕| 色欲网天天无码av| 亚洲国产精品久久久久秋霞1| 国产欧美日韩图片一区二区| 国产一区二区亚洲一区| 亚洲 欧美 综合 在线 精品| 国产白丝无码视频在线观看| 丝袜欧美视频首页在线| 偷拍美女一区二区三区视频| 日韩人妻不卡一区二区三区| 色播久久人人爽人人爽人人片av| 日韩女人毛片在线播放| 在线久草视频免费播放| 日韩久久无码免费毛片软件| 国产精品jizz在线观看老狼| www.五月激情| 人妻精品一区二区三区蜜桃| 国产伦人人人人人人性| 欧美末成年videos在线观看| 国产不卡在线免费视频| 日本一区二区视频在线| 精品人妻无码视频中文字幕一区二区三区 | 在线免费观看亚洲毛片| 人妻少妇进入猛烈时中文字幕| 天天天天躁天天爱天天碰| 69av在线视频| 亚洲一区中文字幕一区| 玩弄放荡人妇系列av在线网站 | 亚洲黄色在线看| 免费人成黄页网站在线一区二区| 国产电影一区二区三区| 久久久精品久久波多野结衣av| 一区二区视频网站在线观看| 国产无套中出学生姝| 国产精品福利视频一区| 少妇高潮惨叫久久久久电影|