亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文指代消解名詞短語的識別

        2013-12-31 00:00:00韋麗紅
        計算機光盤軟件與應(yīng)用 2013年21期

        摘 要:指代消解技術(shù)是自動文章的關(guān)鍵,介紹了指代消解的研究方式,分析了中文指代消解目前研究現(xiàn)狀,并且詳細闡述了語料庫和所使用的此類標記,同時提出了名詞短語識別和標記符號,分析了中文名詞短語的確定與英文的不同,對中文指代消解的前期語料的處理和后期應(yīng)用作了很好的介紹。

        關(guān)鍵詞:指代消解;規(guī)則;名詞短語

        中圖分類號:TP391.1

        1 研究的背景及意義

        1.1 自動文摘技術(shù)

        指代是自然語言處理領(lǐng)域的常見現(xiàn)象,廣泛的存在于自然語言的各種表達中。對于簡化表達,銜接上下文起著重要作用。在語言學(xué)中,指代也稱照應(yīng),英文單詞是Anaphora,所指的對象或內(nèi)容稱為先行語(Antecedent)。確定照應(yīng)語所指的先行語的過程稱為指代消解[1](Anaphora Resolution)。指代消解是在一個篇幅內(nèi)進行的。指代消解技術(shù)是信息抽取[2]IE(Information Extraction)評測的主要技術(shù)指標。伴隨計算機技術(shù)在非數(shù)字化領(lǐng)域研究的興起,指代消解被越來越多的應(yīng)用在自動文摘,信息檢索等領(lǐng)域。

        2 中文指代消解基本知識

        2.1 中文語料庫的規(guī)范

        中文指代消解所使用的語料庫是由富士通研究開發(fā)中心和北京大學(xué)計算語言學(xué)研究所,根據(jù)人民日報1998年上半年的語料為對象,從1999年4月起制作出了最大的漢語標注語料庫[3]。共有26個詞類標記,包括:處所詞s、名詞n、時間詞t、介詞p、數(shù)詞m、量詞q、區(qū)別詞b、詞r、動詞v、形容a、狀態(tài)詞z、副詞d、連詞c、助詞u、方位詞f、語氣詞y、嘆詞e、擬聲詞o、成語i、習(xí)用語l、簡稱j、前接成分h、后接成分k、語素g、非語素字x、標點符號w,并多加以下3類標記:

        專有名詞的分類標記即人名nr,地名ns,團體機關(guān)單位名稱nt,其他專有名詞nz;

        語素的子類標記即名語素Ng,動語素Vg,形容語素Ag,時間語素Tg,副語素Dg等;動詞和形容詞的名詞用法標記vn,an和副詞用法標記vd,ad。合計約40個左右。抽取方法采用隱馬爾可夫模型。

        例如句子:“他去南京”根據(jù)單詞出現(xiàn)的概率與詞性和詞性的連接概率,計算出所有切法的概率總值,概率值最大的為第一候選,這其中“他/r去/v南京/ns”的概率總值最大,是第一候選。

        2.2 名詞短語的識別

        本文研究的主要內(nèi)容是將代詞替換為它所指代的照應(yīng)詞,所以在消解過程中需要對命名實體和代詞進行標注,

        根據(jù)本文特定的語料內(nèi)容,只需要將源語料中動詞(v)、含有動詞意義的名詞(vn)、名詞(n)、時間詞(t)和命名實體進行標注,所以利用ICTCLAS所標注出來的詞性[4]和Perl編寫的程序?qū)⒎指钗募械拇~和命名實體都標注成了“<詞性>單詞”的形式,例如名詞“北京”就標記成為“北京”的形式存放于命名實體標記文件中。

        在命名實體識別中,將命名實體分為“Human”、“Place”、“Organization”、“Time”、“Pronoun”和“General”,六種類型進行標識,分別表示“人物”、“地點”、“機構(gòu)”、“時間”、“代詞”和“一般名詞”,其標注的方式與上述動詞的標注方式是一樣的,即張先生,指代消解就是把指代這類命名實體的代詞進行消解。

        指代消解最核心的問題是根據(jù)文章的兩個名詞和名詞短語來判斷是否存在指代關(guān)系[5]。名詞短語是以名詞為主體的短語,性質(zhì)和作用與名詞相同。例如:民俗風(fēng)情、甲級聯(lián)賽、社會風(fēng)氣等。

        在計算機指代消解中,處理的關(guān)鍵名詞短語包括:人名(Human Name)、地名(Place Name)、機構(gòu)名(Organization Name)、時間(Time)、代詞(Pronoun Name)和一般名詞(General),分別用符號H、P、O、T、D和G 表示不同類型的先行詞對應(yīng)的照應(yīng)語類型不同,如人稱代詞的先行語一般指代人名,絕對不會指代時間或者代詞,如表1所示:

        表1 基本名詞成分分組情況

        組別 詞性符號

        人名(Human Name)nr

        地名(Place Name)ns

        機構(gòu)名(Organization Name)nt

        時間(Time)Tg/t

        代詞(Pronoun Name)r

        一般名詞(General)an /Ng/n/nx/nz/vn

        判斷名詞短語的方式步驟如下:

        首先,根據(jù)上面的六種組別分類判斷出句子中的名詞短語;

        其次,根據(jù)距離屬性,判斷相鄰的短語如果組別相同,可以將兩個短語合二為一;

        最后,合并并列的名詞性短語。如句子中出現(xiàn)“和”、“與”或“、”兩側(cè)的短語的類型一致,就將兩側(cè)短語連同連接詞“和”、“與”或“、”一起合并為一個名詞短語。字母B用來表示并列詞如“和”、“與”、“、”,語料句子中的出現(xiàn)的其他成分均標記成字母Q。

        根據(jù)上面的方式,對人民日報標注語料基本實現(xiàn)了指代消解的名詞短語識別,識別結(jié)果舉例如下:

        19980118-01-001-007/m{災(zāi)情/n}G{驚動/v}Q{中南海/ns}P{。/w}Q{當(dāng)天/t}T{下午/t}T{,/w}Q{江/nr澤民/nr}H{總書記/n}G{和/c(Ag-c-Ng-p-q-v)}B{李/nr鵬/nr}H{總理/n}Q{打電話/l}Q{向/p(Ng-p-v)}Q{罹難者/n家屬/n}G{和/c(Ag-c-Ng-p-q-v)}B{災(zāi)區(qū)/n 群眾/n}G{表示/v}Q{親切/ad}q{慰問/v。/w}Q。

        3 中文指代消解的特點

        漢語和英語兩種語言之間存在差異,中文的指代消解,如果直接借鑒英文指代消解的處理方法是不科學(xué)的。如英語中的單復(fù)數(shù)信息、人名的性別信息等在漢語中都不明顯。例如英文中的“they”,針對不同的語境,在漢語中可以翻譯成“他們”、“她們”和“它們”三種。人名、地名、機構(gòu)名等命名實體的自動識別,是人稱代詞消解中需要首先解決的問題,但是目前這一問題并未完全解決,這在一定程度上影響了先行語的辨識,同樣也影響了人稱代詞的消解。詞匯與句法知識在指代消解中起著非常重要的作用,

        句法分析尚處在很不成熟的階段,句子之間的語義關(guān)系,甚至常識性知識更不容易分析得到。因此,要運用這些知識指代消解是困難的,也是目前自然語言處理中研究得最多的問題之一。

        參考文獻:

        [1]王厚峰.指代消解的基本方法和實現(xiàn)技術(shù)[J].中文信息學(xué)報,2002,16(6):9-17.

        [2]孔芳,周國棟.指代消解綜述[J].計算機工程,2010,36(8):33-36.

        [3]段慧明,松井久仁於.大規(guī)模漢語標注語料庫的制作與使用[J].語言文字應(yīng)用2000,02:72-777.

        [4]李國臣,羅云飛.采用優(yōu)先選擇策略的中文人稱代詞的指代消解[J].中文信息學(xué)報,2005,19(4):24-30.

        [5]郭志立.人稱代詞指代主體的辨析及其在在要抽取中的應(yīng)用[M].1998年中文信息處理國際會議論文集,北京:清華大學(xué)出版社,1998:310-315.

        作者簡介:韋麗紅(1982-),女,黑龍江人,碩士,講師,研究方向:語義web、文本挖掘、信息處理。

        作者單位:呼倫貝爾學(xué)院 計算機科學(xué)與技術(shù)學(xué)院,內(nèi)蒙古海拉爾 021008

        青青草大香蕉视频在线观看| 日本香蕉久久一区二区视频| 国内自拍视频在线观看h| 国产亚洲熟妇在线视频| 熟女人妇 成熟妇女系列视频| 亚洲欧美日韩综合久久久| 亚洲精品成人网线在线播放va| 国产自拍成人在线免费视频| 97一期涩涩97片久久久久久久| 欲色天天网综合久久| 美女爽好多水快进来视频| 国产丝袜美腿嫩模视频诱惑| 欧美a级在线现免费观看| 欧美孕妇xxxx做受欧美88| 99久久亚洲国产高清观看| 免费视频亚洲一区二区三区| 天天夜碰日日摸日日澡性色av| 国产在线无码一区二区三区| 人妻无码中文专区久久AV| 一区二区三区乱码专区| 国产熟女内射oooo| 久久精品国产亚洲av瑜伽| 偷拍激情视频一区二区| 中文字幕一区二区三区的| 高潮又爽又无遮挡又免费| 亚洲熟妇网| 亚洲蜜臀av一区二区三区漫画| 人妻av中文字幕久久| 性一乱一搞一交一伦一性| 国产成年无码AⅤ片日日爱| 亚洲av成人一区二区| 亚洲中字慕日产2020| 在线欧美精品二区三区| 中文字幕一区二区三区精品在线| 加勒比色老久久爱综合网| 中文字幕爆乳julia女教师| 无码a级毛片免费视频内谢| 久久精品女同亚洲女同| 中文字幕人妻少妇引诱隔壁| 亚洲AV秘 无码一区二区三区臀| 国产精品又污又爽又色的网站|