亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        細粒度實體分類的研究進展

        2023-07-17 07:28:22劉波
        科技資訊 2023年11期
        關(guān)鍵詞:自然語言處理深度學(xué)習(xí)

        劉波

        摘??要:細粒度實體分類是自然語言處理中一項重要的基礎(chǔ)任務(wù),實體的類別信息為實體鏈接、關(guān)系抽取、事件抽取等下游任務(wù)提供幫助。近年來,基于深度學(xué)習(xí)的細粒度實體分類研究成為熱點,該文從處理數(shù)據(jù)噪聲、對類別層級建模、少樣本學(xué)習(xí)和其他一些方法進行了綜述性介紹,此外介紹了常見的數(shù)據(jù)集和評測方法,并對未來的研究方向進行了展望。

        關(guān)鍵詞:自然語言處理??細粒度實體分類??深度學(xué)習(xí)??信息抽取

        中圖分類號:TP391.1??????????文獻標(biāo)識碼:A

        Research?Progress?of?Fine-Grained?Entity?Classification

        LIU?Bo

        (School?of?Mathematics?and?Statistics,?Hanshan?Normal?University,?Chaozhou,?Guangdong?Province,?521041?China)

        Abstract:?Fine-grained?entity?classification?is?an?important?basic?task?in?natural?language?processing,?and?the?category?information?of?entities?provides?help?for?downstream?tasks?such?as?entity?linking,?relation?extraction?and?event?extraction.?In?recent?years,?the?research?on?fine-grained?entity?classification?based?on?deep?learning?has?become?a?hot?topic.?This?paper?gives?an?overview?of?dealing?with?data?noise,?category-level?modeling,?few-sample?learning?and?some?other?methods,?introduces?common?datasets?and?evaluation?methods,?and?prospects?future?research?directions.

        Key?Words:?Natural?language?processing;?Fine-grained?entity?classification;?Deep?learning;?Information?extraction

        細粒度實體分類任務(wù)是給定一個實體和包含這個實體的上下文預(yù)測這個實體可能的類別集合。如表1所示,文本為“?Bennett?said?the?city-owned?arena?lacked?the?amenities?to?support?an?NBA?franchise?and?moved?the?team?to?Oklahoma?City?after?failing?to?secure?a?new?arena?here”,任務(wù)是識別出給定的實體“NBA”的類別為“organization”?和?“organization/sports_league”。它是很多自然語言處理領(lǐng)域重要的基礎(chǔ)工作。細粒度實體分類任務(wù)的一個特點就是實體的類別更加細致,如類別有“actor”“sports_team”“car”“power_station”等[1]。常用的細粒度實體分類數(shù)據(jù)集的類別數(shù)量在50-100個左右[2,3]。而且大部分的數(shù)據(jù)集的類別有層級關(guān)系,如粗粒度類別和細粒度類別,如表?1(a)的實體只有粗粒度類別,“/person”,?表?1(b)的實體類別有粗粒度類別“/organization”和細粒度類別“organization/sports_league”。

        細粒度實體分類為信息抽取下游任務(wù)提供幫助,如在關(guān)系抽取中實體的類別信息能夠提升關(guān)系抽取任務(wù)的效果[4]。實體的類別對實體之間的關(guān)系有很強的指示性,比如說如果知道頭尾實體類別分別是公司和人物,那么實體對之間的關(guān)系很可能是建立者這樣的關(guān)系。另外,實體類別信息也有助于實體消歧。在實體消歧任務(wù)中,已經(jīng)獲得了所有的候選實體集。如果知道其指代的知識庫中實體應(yīng)當(dāng)具有的類別,那么就能從候選實體集中確定應(yīng)該鏈接的實體是哪一個。

        1基于深度學(xué)習(xí)的方法

        在早期的工作中SHIMAOKA?S等人[5]提出了基于注意力機制的模型,通過編碼器得到實體的表示和上下文的表示,然后通過一個全連接網(wǎng)絡(luò)進行預(yù)測。XIN?J等人[6]提出了KNET模型,使用了語義注意力、實體注意力、知識注意力。實體使用知識圖譜中的實體表示。近年來隨著預(yù)訓(xùn)練語言模型的發(fā)展,?LIN?Y等人[7]使用了預(yù)訓(xùn)練語言模型ELMO和BERT進行實體和上下文的表示,而不是在之前的工作中使用的固定的詞嵌入。模型不是獨立預(yù)測每一種類別,而是預(yù)測一個低維向量,該向量由潛在類別特征編碼,并以這種潛在表示重建類別向量。以上模型使用了注意力機制、預(yù)訓(xùn)練語言模型等方法。

        2??處理數(shù)據(jù)噪聲

        針對遠程監(jiān)督產(chǎn)生的數(shù)據(jù)噪聲問題。XU?B等人[8]提出了類似投票的方法,將數(shù)據(jù)集分成兩部分,用其中一部分?jǐn)?shù)據(jù)訓(xùn)練多個分類器,并用這些分類器對另一部分?jǐn)?shù)據(jù)打標(biāo)簽,若這些分類器都預(yù)測某個類別是錯誤的,則將其從數(shù)據(jù)中刪除,此方法比較簡單但效果有限。XU?P等人[9]提出的模型將訓(xùn)練數(shù)據(jù)集劃分成純凈集合和噪聲集合,對于純凈集合和降噪集合分別建模設(shè)置不同的目標(biāo)函數(shù)提高效果。XIN?J等人[10]提出使用語言模型來降噪的方法。思想是把文本中的實體替換成類別,正確的類別要比錯誤的類別得到更加通順的句子。通過語言模型的作用,可以讓模型自動去關(guān)注那些符合上下文語境的類別。

        3??針對類別層級的方法

        針對類別的層級關(guān)系,?CHEN?B等人[11]提出了層次損失標(biāo)準(zhǔn)化的方法,根據(jù)類別在分類樹中的相關(guān)性具有不同程度的懲罰,修正預(yù)測的概率。XU?B等人[8]將一個實體的所有的上下文和類別匯集起來,然后在類別融合的過程中使用整數(shù)規(guī)劃的方法,將層級關(guān)系顯式地寫成整數(shù)規(guī)劃中的約束,實現(xiàn)類別融合過程中關(guān)于層級結(jié)構(gòu)的檢查。ONOE?Y等人[12]使用盒嵌入來捕獲潛在類別的層次結(jié)構(gòu),即模型不需要已知數(shù)據(jù)集的類別結(jié)構(gòu)。模型將類別和實體嵌入同一個盒子空間,可以通過盒子的關(guān)系確定他們之間的層級關(guān)系,用盒子的體積表示概率,可以用來衡量計算一個實體是否屬于某個類別的概率。

        4?最新的研究

        最近人們試圖通過使用更豐富、超細粒度的類別集來擴展細粒度實體類別。DAI?H等人[13]提出使用掩碼語言模型來獲取超細實體分類的訓(xùn)練數(shù)據(jù)。模型將上下文中的實體輸入到掩碼語言模型中,以便預(yù)測實體的上下文相關(guān)的超詞,它可以用作實體類別標(biāo)簽。借助這些自動生成的標(biāo)簽,超細粒度實體分類模型的性能可以顯著提高。DING?N等人[14]研究了提示學(xué)習(xí)在有監(jiān)督、少樣本和零次學(xué)習(xí)中細粒度實體分類的應(yīng)用。模型通過構(gòu)建實體的語言表達器和模板,并進行掩碼語言建模,提出了一個簡單而有效的提示學(xué)習(xí)方法。

        5?數(shù)據(jù)集和評估指標(biāo)

        5.1??數(shù)據(jù)集

        5.1.1?FIGER

        數(shù)據(jù)集從維基百科的文章和新聞報道中取樣,在這些文本中的實體被映像到來自Freebase的113個類別中。數(shù)據(jù)集有47個粗粒度類別,66個細粒度類別[1]。

        5.1.2?BBN

        數(shù)據(jù)集的類別層級有兩級,標(biāo)記了《華爾街日報》的Penn?Treebank語料庫(LDC95T7)中的一部分作為BBN實體分類語料庫。數(shù)據(jù)集有17個粗粒度類別,39個細粒度類別[3]。

        5.1.3?OntoNotes

        數(shù)據(jù)集從OntoNotes語料庫中抽取句子,并使用類別層級結(jié)構(gòu)中的89種類別對實體進行標(biāo)注。此數(shù)據(jù)集的類別有3個層級:一級類別4個、二級類別44個和三級類別41個[15]。

        5.2?評估指標(biāo)

        細粒度實體分類任務(wù)采用嚴(yán)格的準(zhǔn)確率(Strict?Accuracy,Acc)、宏平均F1值(Macro-F1?score,MaF1)和微平均F1值(Micro-F1?score,MiF1)進行評估。對于輸入,設(shè)預(yù)測的類別集合為,設(shè)數(shù)據(jù)集的標(biāo)注類別集為。嚴(yán)格的準(zhǔn)確率是滿足的實例的比率。宏平均F1值是計算所有樣本的召回率和精度的平均值,然后再計算F1值。而微平均F1值是計算所有樣本的真陽性、假陰性和假陽性總數(shù),然后計算F1值。3個指標(biāo)的具體計算公式如下。

        6?結(jié)語

        綜上所述,在細粒度實體分類任務(wù)中,研究者主要從處理數(shù)據(jù)噪聲和類別的層級關(guān)系建模,以及掩碼語言模型、提示學(xué)習(xí)或更好的嵌入方法等。隨著實體分類任務(wù)研究的進一步深入,未來有待進一步研究的方向有少樣本和零樣本學(xué)習(xí)問題,如何處理新的類別,以及如何結(jié)合具體的任務(wù)如關(guān)系抽取、實體鏈接等進行細粒度實體分類。

        參考文獻

        [1] LING?X,?WELD?D?S.Fine-grained?entity?recognition[C]//Twenty-Sixth?AAAI?Conference?on?Artificial?Intelligence.2012:94-100.[2]?Ren?X,He?W,Qu?M,et?al.Afet:?Automatic?fine-grained?entity?typing?by?hierarchical?partial-label?embedding[C]//Proceedings?of?the?2016?conference?on?empirical?methods?in?natural?language?processing.2016:1369-1378.

        [3] WEISCHEDEL?R,BRUNSTEIN?A.BBN?Pronoun?Coreference?and?Entity?Type?Corpus[EB/OL].[2005-09-20].https://doi.org/10.35111/9fx9-gz10.

        [4] VASHISHTH?S,JOSHI?R,PRAYAGA?S?S,et?al.RESIDE:?Improving?Distantly-Supervised?Neural?Relation?Extraction?using?Side?Information[C]//Proceedings?of?the?2018?Conference?on?Empirical?Methods?in?Natural?Language?Processing.2018:1257-1266.

        [5] SHIMAOKA?S,?STENETORP?P,?INUI?K,?et?al.?Neural?Architectures?for?Fine-grained?Entity?Type?Classification[C]//Association?for?Computational?Linguistics.In?Proceedings?of?the?15th?Conference?of?the?European?Chapter?of?the?Association?for?Computational?Linguistics.?2017:1271–1280.

        [6] XIN?J,ZHU?H,HAN?X,et?al.Put?It?Back:Entity?Typing?with?Language?Model?Enhancement[C]//Proceedings?of?the?2018?Conference?on?Empirical?Methods?in?Natural?Language?Processing.2018:993-998.

        [7] LIN?Y,?JI?H.An?Attentive?Fine-Grained?Entity?Typing?Model?with?Latent?Type?Representation[C]//Proceedings?of?the?2019?Conference?on?Empirical?Methods?in?Natural?Language?Processing?and?the?9th?International?Joint?Conference?on?Natural?Language?Processing.2019:6197-6202.

        [8] XU?B,?LUO?Z,HUANG?L,et?al.METIC:?Multi-Instance?Entity?Typing?from?Corpus[C]//Proceedings?of?the?27th?ACM?International?Conference?on?Information?and?Knowledge?Management.2018:?903-912.

        [9] XU?P,?BARBOSA?D.?Neural?Fine-Grained?Entity?Type?Classification?with?Hierarchy-Aware?Loss[C]//Association?for?Computational?Linguistics.?In?Proceedings?of?the?2018?Conference?of?the?North?American?Chapter?of?the?Association?for?Computational?Linguistics:?Human?Language?Technologies,?Volume?1.2018:16–25.

        [10] XIN?J,LIN?Y,LIU?Z,et?al.Improving?neural?fine-grained?entity?typing?with?knowledge?attention[C]//Thirty-second?AAAI?conference?on?artificial?intelligence.2018.

        [11] CHEN?B,GU?X,HU?Y,et?al.Improving?Distantly-supervised?Entity?Typing?with?Compact?Latent?Space?Clustering[C]//Proceedings?of?the?2019?Conference?of?the?North?American?Chapter?of?the?Association?for?Computational?Linguistics.2019:2862-2872.

        [12] ONOE?Y,BORATKO?M,MCCALLUM?A,et?al.Modeling?Fine-Grained?Entity?Types?with?Box?Embeddings[C]//Proceedings?of?the?59th?Annual?Meeting?of?the?Association?for?Computational?Linguistics?and?the?11th?International?Joint?Conference?on?Natural?Language?Processing.2021:2051-2064.

        [13] DAI?H,SONG?Y,WANG?H.Ultra-Fine?Entity?Typing?with?Weak?Supervision?from?a?Masked?Language?Model[C]//Proceedings?of?the?59th?Annual?Meeting?of?the?Association?for?Computational?Linguistics?and?the?11th?International?Joint?Conference?on?Natural?Language?Processing.2021:1790-1799.

        [14] DING?N,CHEN?Y,HAN?X,et?al.Prompt-Learning?for?Fine-Grained?Entity?Typing[J].Association?for?Computational?Linguistics.In?Findings?of?the?Association?for?Computational?Linguistics:EMNLP?2022:6888–6901.

        [15] GILLICK?D,LAZIC?N,GANCHEV?K,et?al.Context-Dependent?Fine-Grained?Entity?Type?Tagging[EB/OL].?https://dblp:?Context-Dependent?Fine-Grained?Entity?Type?Tagging.

        猜你喜歡
        自然語言處理深度學(xué)習(xí)
        基于組合分類算法的源代碼注釋質(zhì)量評估方法
        有體驗的學(xué)習(xí)才是有意義的學(xué)習(xí)
        電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識別研究
        MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
        大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
        深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
        基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
        軟件工程(2016年8期)2016-10-25 15:47:34
        面向機器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
        詞向量的語義學(xué)規(guī)范化
        漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
        无码少妇一区二区性色av| 少妇极品熟妇人妻高清| 一区二区三区在线观看视频免费| 国产精品高清视亚洲一区二区| 亚洲色图在线免费观看视频| 亚洲熟妇丰满多毛xxxx| 丰满熟妇乱子伦| 亚洲日本va99在线| 一区二区三区蜜桃在线视频| 懂色av一区二区三区网久久| 精品人妖一区二区三区四区| 国产成人精品a视频| 永久免费的av在线电影网无码| 久久露脸国产精品WWW| 亚洲美女av二区在线观看| 精品一级一片内射播放| 国产欧美va欧美va香蕉在| 成人妇女免费播放久久久| 精品亚洲女同一区二区| 视频在线播放观看免费| 国产精品一区二区av不卡| 日本最新免费二区| 人人妻人人澡av天堂香蕉| 日韩肥熟妇无码一区二区三区| 熟女少妇av一区二区三区| 国产在线无码精品无码| 国产一区二区内射最近更新 | 亚洲一区二区国产精品视频| 国产精品亚洲一区二区三区在线| 亚洲一区二区三区尿失禁| 欧美日韩国产一区二区三区不卡 | 国产影片一区二区三区| 国产老熟女网站| 国产欧美一区二区精品性色| 国产美女三级视频网站| 国产亚洲精品一区在线| 亚洲中文字幕久久精品无码a| 精品香蕉久久久爽爽 | 日本加勒比一区二区在线观看| 亚洲天堂成人av在线观看| 亚洲另类欧美综合久久图片区|