亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        命名實體識別綜述

        2016-09-23 05:51:43陳基
        現(xiàn)代計算機 2016年3期
        關鍵詞:監(jiān)督特征信息

        陳基

        (四川大學計算機學院,成都 610065)

        命名實體識別綜述

        陳基

        (四川大學計算機學院,成都610065)

        0 引言

        MUC-6第一次提出命名實體識別[1],現(xiàn)在在自然語言處理中已經(jīng)被廣泛使用。信息抽取就是從非結構化的文本中(例如,新聞)抽取結構化的數(shù)據(jù)和特定的關系。在定義任務的過程中人們注意到識別信息單元的名稱,像人名、機構名、地名、時間等是必不可少的。識別上面所說的實體的名稱,就叫做命名實體識別[1]。命名實體識別是信息抽取的子任務,識別的好壞直接關系到抽取的好壞。

        早期的命名實體識別工作,主要識別一般的“專有名詞”[2],包括三類名詞:人名、地名、機構名。這也是MUC-6最早定義的任務要識別的名詞。隨著研究的進行,人們對這些名詞進行更細致的劃分。對于地名,可以進行細分為:國家名、省/州、城市名、街道名等[3]。類似的人名可以細分為:政客、演員等[4]。除了識別一般的專有名詞,人們也開始關注對于特定領域的命名實體識別。在生物醫(yī)學領域,對于基因名、蛋白質(zhì)名的識別已經(jīng)有許多工作在開展,也取得了不錯的效果[5]。針對社交媒體文本中存在大量的電影、歌曲等,識別電影名、歌曲名、郵件地址等實體[6]。隨著研究范圍的擴大,針對不同的特定問題特定領域,越來越多的實體類型被提出。

        1 技術方法

        早期的研究大多數(shù)通過人工構造規(guī)則的方法,現(xiàn)在多采用監(jiān)督學習的方法,自動構造規(guī)則或者進行序列標注。監(jiān)督學習的從發(fā)點是從標注好的文檔的正負例里面學習特征,通過自動學習到的這些特征來識別命名實體。1.1部分對序列標注方法進行更細致的介紹。序列標注的方法的主要缺點是需要大量標注好的語料。當沒辦法獲取大規(guī)模的語料或者代價比較昂貴時,人們提出其他的解決方法,包括:半監(jiān)督和無監(jiān)督方法。這兩部分內(nèi)容在1.2和1.3中介紹。

        1.1有監(jiān)督方法

        有監(jiān)督學習方法將命名實體識別看做序列標注問題。序列標注模型包括:隱馬爾科夫模型 Hidden Markov Models(HMM)[7],最大熵馬爾科夫模型Maximum Entropy Markov Models(MEMM)和條件隨機場Conditional Random Fields(CRF)[8]等。這些模型都是基于大量的標注語料,定義一系列實體,通過學習得到基于特征的判別規(guī)則。隱馬爾科夫模型描述了一個含有隱含未知參數(shù)的馬爾可夫過程,針對命名實體識別這里的未知參數(shù)為實體類型。

        隱馬爾科夫模型考慮了上下文信息,測試時求得的解是全局最優(yōu)的解,得到最優(yōu)的馬爾科夫鏈,這是傳統(tǒng)分類算法做不到的。隱馬爾科夫模型缺點是假設可觀測變量之間獨立,而且限制觀測變量是詞語本身,限制了特征的選擇。例如像字數(shù)、DF詞頻、位置等對實體類型很有預示作用的特征都無法很方便地使用。

        最大熵馬爾科夫模型只計算給定可觀測變量下隱藏變量的概率,將模型由隱馬爾科夫的生成模型變成判別模型,克服了隱馬爾科夫的模型的缺點,可以方便使用各種特征。不過也帶來新的問題——標記偏置問題。

        條件隨機場模型將最大熵馬爾科夫模型里面的條件概率轉化為特征函數(shù)的形式,分解為兩部分:轉移特征和狀態(tài)特征。通過訓練得到不同特征的權值,測試的時候一般采用維特比(Viterbi)算法進行求解。條件隨機場模型克服最大熵馬爾科夫模型的標記偏置問題,不過也帶類訓練速度偏慢的問題。

        在這些模型基礎上,國內(nèi)外學者針對不同的問題還提出許多改進的版本:層疊隱馬爾科夫模型[9]、層疊條件隨機場[10]等。

        1.2半監(jiān)督方法

        半監(jiān)督也叫弱監(jiān)督,主要的技術叫拔靴法(Bootstrapping),只提供很少的標注數(shù)據(jù),例如一些種子用于開始的學習。例如識別疾病名的系統(tǒng),需要用戶提供一些樣例。然后系統(tǒng)就會搜索包含這些實體的句子,辨別它們的上下文環(huán)境。接著系統(tǒng)就會尋找其他跟之前樣例有相識的上下文的疾病名。學習的過程就是不斷地循環(huán)這個過程,發(fā)現(xiàn)新的上下文,發(fā)現(xiàn)新的疾病名,產(chǎn)生大量的基疾病名和上下文。辨別上下文環(huán)境的方法包括:M.Collins和Singer采用模板的方式[11]、A.Cucchiarelli和 Velardi采用句法分析樹[12]等。半監(jiān)督的方法可以在很少量的標注數(shù)據(jù)和大量無標注的數(shù)據(jù)條件下,取得比較好的效果。

        1.3無監(jiān)督方法

        無監(jiān)督學習最典型的方法是聚類。比如,通過相似的上下文將不同的命名實體聚到一起。當然還有其他的無監(jiān)督方法,包括:基于外部資源(wordNet)[13],當針對某個特定的領域的標注語料沒有時候,可以采用外部資源比如wordNet進行遷移學習。首先,通過詞在大規(guī)模語料中的共現(xiàn),對wordNet里面的同義詞分配一個實體類型。然后對于給定的文檔中一個詞,通過比較一定窗口的上下文,給它分配一個實體類型?;邳c互信息[14],將點互信息做為特征對給定的詞進行分類,判斷輸入哪個類型。還有基于詞匯模板[15]等。

        2 特征

        特征是在算法假設下描述詞的各種屬性。例如一個布爾型的特征,如果當前單詞是大寫則為真,否則為假。特征一般用特征向量表示,一個維度代表一個特征取值可以是布爾型、數(shù)值型等,整個向量就表示詞在假設條件下所有屬性。特征一般分為三類:詞級別特征,包括詞本身是否大小寫、前后文的詞、詞性等;字典級別特征,判斷當前詞是否屬于某個字典,如地名字典,姓名字典等;全局特征。

        3 評價指標

        命名實體識別一般采用這幾個評價指標:精確率(Precision)、召回率(Recall)和F值。

        表1 

        精確率p和召回率r定義如下:

        F值是精確率和召回率的調(diào)和平均值。

        4 結語

        命名實體識別作為信息抽取的子任務,從一開始提出就得到國內(nèi)外學者的重視,并成為研究熱點,取得眾多進展。本文主要從三類技術方法:監(jiān)督學習、無監(jiān)督學習、半監(jiān)督學習,介紹了相關的研究工作。一般文本的命名實體識別已經(jīng)相當成熟,目前大部分命名實體識別研究,側重于對特點領域的命名實體,例如生物醫(yī)學、社交媒體。

        [1]Grishman,Ralph;Sundheim,B.1996.Message Understanding Conference-6:A Brief History.In Proc.International Conference on Computational Linguistics.

        [2]hielen,Christine.1995.An Approach to Proper Name Tagging for German.In Proc.Conference of European Chapter of the Association for Computational Linguistics.SIGDAT.

        [3]Lee,Seungwoo;Geunbae Lee,G.2005.Heuristic Methods for Reducing Errors of Geographic Named Entities Learned by Bootstrapping.In Proc.International Joint Conference on Natural Language Processing.

        [4]Fleischman,Michael;Hovy.E.2002.Fine Grained Classification of Named Entities.In Proc.Conference on Computational Linguistics.

        [5]Settles,Burr.2004.Biomedical Named Entity Recognition Using Conditional Random Fields and Rich Feature Sets.In Proc.Conference on Computational Linguistics.Joint Workshop on Natural Language Processing in Biomedicine and Its Applications.

        [6]X Liu,M Zhou-Information Processing&Management,2013

        [7]Bikel,Daniel M.;Miller,S.;Schwartz,R.;Weischedel,R.1997.Nymble:a High-Performance Learning Name-finder.In Proc.Conference on Applied Natural Language Processing.

        [8]McCallum,Andrew;Li,W.2003.Early Results for Named Entity Recognition with Conditional Random Fields,Features Induction and Web-Enhanced Lexicons.In Proc.Conference on Computational Natural Language Learning.

        [9]劉杰.基于統(tǒng)計的中文機構名實體識別的研究[J].佳木斯大學學報(自然科學版),2010(03)

        [10]俞鴻魁,張華平,劉群,呂學強,施水才.基于層疊隱馬爾可夫模型的中文命名實體識別[J].通信學報,2006(02)

        [11]Collins,Michael;Singer,Y.1999.Unsupervised Models for Named Entity Classification.In Proc.of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora.

        [12]Cucchiarelli,Alessandro;Velardi,P.2001.Unsupervised Named Entity Recognition Using Syntactic and Semantic Contextual Evidence.Computational Linguistics 27:1.123-131,Cambridge:MIT Press.

        [13]Alfonseca,Enrique;Manandhar,S.2002.An Unsupervised Method for General Named Entity Recognition and Automated Concept Discovery.In Proc.International Conference on General WordNet.

        [14]Etzioni,Oren;Cafarella,M.;Downey,D.;Popescu,A.-M.;Shaked,T.;Soderland,S.;Weld,D.S.;Yates,A.2005.Unsupervised Named-Entity Extraction from the Web:An Experimental Study.Artificial Intelligence 165.91-134

        Named Entity Recognition;Conditional Random Fields;Information Extraction;Evaluation Index

        Survey of Named Entity Recognition

        CHEN Ji
        (College of Computer Science,Sichuan University,Chengdu,Chengdu 610065)

        1007-1423(2016)03-0024-03

        10.3969/j.issn.1007-1423.2016.03.006

        陳基(1990-),男,福建福州人,研究生碩士,研究方向為數(shù)據(jù)挖掘

        2015-12-15

        2015-12-30

        互聯(lián)網(wǎng)的普及和發(fā)展,信息資源得到極大的豐富,同時也造成信息過載的問題。人們迫切需要快速準確地獲取信息的技術方法,信息抽取技術就應運而生。命名實體識別作為信息抽取的一個子任務被提出,受到國內(nèi)外學者的重視,并進行一系列研究。探討命名實體的概念和意義,對現(xiàn)有的命名實體識別研究進行總結歸納。

        命名實體;條件隨機場;信息抽??;評價指標

        With the growing popularity and development of the Internet,information resources have been greatly enriched,but also result in information overload problem.For people's need of technical method that can find out information fast and accurately,information extraction technology is brought into being.Information extraction is presented as a subtask;named entity recognition is attached great importance. A series of studies are doing by scholars.Discusses the concept and significance of named entity,and gives a summary to named entity recognition.

        猜你喜歡
        監(jiān)督特征信息
        突出“四個注重” 預算監(jiān)督顯實效
        人大建設(2020年4期)2020-09-21 03:39:12
        如何表達“特征”
        不忠誠的四個特征
        當代陜西(2019年10期)2019-06-03 10:12:04
        抓住特征巧觀察
        監(jiān)督見成效 舊貌換新顏
        人大建設(2017年2期)2017-07-21 10:59:25
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        夯實監(jiān)督之基
        人大建設(2017年9期)2017-02-03 02:53:31
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        監(jiān)督宜“補”不宜“比”
        浙江人大(2014年4期)2014-03-20 16:20:16
        線性代數(shù)的應用特征
        河南科技(2014年23期)2014-02-27 14:19:15
        国产日本精品一二三四区| 久久久久久久妓女精品免费影院 | 人妻少妇精品无码专区二| 情色视频在线观看一区二区三区 | 五月色丁香婷婷网蜜臀av| 国产美女自慰在线观看| 国产激情久久99久久| 午夜婷婷国产麻豆精品| 少妇被猛烈进入到喷白浆| 婷婷中文字幕综合在线| 无码精品一区二区三区超碰| 少妇人妻偷人中文字幕| 久久久久亚洲av无码a片| 亚洲av之男人的天堂网站| 亚洲欧美日韩国产一区二区精品| 国产伦一区二区三区久久| 国产欧美在线观看不卡| 亚洲精品aa片在线观看国产| 91精品久久久久含羞草| 亚洲一区二区三区免费的视频| 摸丰满大乳奶水www免费| 在线观看国产成人av片| 成人无码激情视频在线观看| 高清少妇二区三区视频在线观看 | 日韩av无码中文无码电影| 少妇太爽了在线观看| 亚洲熟妇夜夜一区二区三区| 国产tv不卡免费在线观看| 亚洲色大成网站www久久九九| 四虎精品免费永久在线| 日本超骚少妇熟妇视频| 夜夜躁日日躁狠狠久久av| 午夜福利电影| 日本一区二区不卡超清在线播放 | 国产欧美精品一区二区三区四区| 婷婷综合缴情亚洲| 欧美—iGAO视频网| 97超碰国产成人在线| 亚洲一区二区三区中文字幂| 日韩一区二区不卡av| 人妻蜜桃日产一本久道综合在线|