摘 要:指代消解技術(shù)是自動文章的關(guān)鍵,介紹了指代消解的研究方式,分析了中文指代消解目前研究現(xiàn)狀,并且詳細闡述了語料庫和所使用的此類標記,同時提出了名詞短語識別和標記符號,分析了中文名詞短語的確定與英文的不同,對中文指代消解的前期語料的處理和后期應(yīng)用作了很好的介紹。
關(guān)鍵詞:指代消解;規(guī)則;名詞短語
中圖分類號:TP391.1
1 研究的背景及意義
1.1 自動文摘技術(shù)
指代是自然語言處理領(lǐng)域的常見現(xiàn)象,廣泛的存在于自然語言的各種表達中。對于簡化表達,銜接上下文起著重要作用。在語言學(xué)中,指代也稱照應(yīng),英文單詞是Anaphora,所指的對象或內(nèi)容稱為先行語(Antecedent)。確定照應(yīng)語所指的先行語的過程稱為指代消解[1](Anaphora Resolution)。指代消解是在一個篇幅內(nèi)進行的。指代消解技術(shù)是信息抽取[2]IE(Information Extraction)評測的主要技術(shù)指標。伴隨計算機技術(shù)在非數(shù)字化領(lǐng)域研究的興起,指代消解被越來越多的應(yīng)用在自動文摘,信息檢索等領(lǐng)域。
2 中文指代消解基本知識
2.1 中文語料庫的規(guī)范
中文指代消解所使用的語料庫是由富士通研究開發(fā)中心和北京大學(xué)計算語言學(xué)研究所,根據(jù)人民日報1998年上半年的語料為對象,從1999年4月起制作出了最大的漢語標注語料庫[3]。共有26個詞類標記,包括:處所詞s、名詞n、時間詞t、介詞p、數(shù)詞m、量詞q、區(qū)別詞b、詞r、動詞v、形容a、狀態(tài)詞z、副詞d、連詞c、助詞u、方位詞f、語氣詞y、嘆詞e、擬聲詞o、成語i、習(xí)用語l、簡稱j、前接成分h、后接成分k、語素g、非語素字x、標點符號w,并多加以下3類標記:
專有名詞的分類標記即人名nr,地名ns,團體機關(guān)單位名稱nt,其他專有名詞nz;
語素的子類標記即名語素Ng,動語素Vg,形容語素Ag,時間語素Tg,副語素Dg等;動詞和形容詞的名詞用法標記vn,an和副詞用法標記vd,ad。合計約40個左右。抽取方法采用隱馬爾可夫模型。
例如句子:“他去南京”根據(jù)單詞出現(xiàn)的概率與詞性和詞性的連接概率,計算出所有切法的概率總值,概率值最大的為第一候選,這其中“他/r去/v南京/ns”的概率總值最大,是第一候選。
2.2 名詞短語的識別
本文研究的主要內(nèi)容是將代詞替換為它所指代的照應(yīng)詞,所以在消解過程中需要對命名實體和代詞進行標注,
根據(jù)本文特定的語料內(nèi)容,只需要將源語料中動詞(v)、含有動詞意義的名詞(vn)、名詞(n)、時間詞(t)和命名實體進行標注,所以利用ICTCLAS所標注出來的詞性[4]和Perl編寫的程序?qū)⒎指钗募械拇~和命名實體都標注成了“<詞性>單詞”的形式,例如名詞“北京”就標記成為“
在命名實體識別中,將命名實體分為“Human”、“Place”、“Organization”、“Time”、“Pronoun”和“General”,六種類型進行標識,分別表示“人物”、“地點”、“機構(gòu)”、“時間”、“代詞”和“一般名詞”,其標注的方式與上述動詞的標注方式是一樣的,即
指代消解最核心的問題是根據(jù)文章的兩個名詞和名詞短語來判斷是否存在指代關(guān)系[5]。名詞短語是以名詞為主體的短語,性質(zhì)和作用與名詞相同。例如:民俗風(fēng)情、甲級聯(lián)賽、社會風(fēng)氣等。
在計算機指代消解中,處理的關(guān)鍵名詞短語包括:人名(Human Name)、地名(Place Name)、機構(gòu)名(Organization Name)、時間(Time)、代詞(Pronoun Name)和一般名詞(General),分別用符號H、P、O、T、D和G 表示不同類型的先行詞對應(yīng)的照應(yīng)語類型不同,如人稱代詞的先行語一般指代人名,絕對不會指代時間或者代詞,如表1所示:
表1 基本名詞成分分組情況
組別 詞性符號
人名(Human Name)nr
地名(Place Name)ns
機構(gòu)名(Organization Name)nt
時間(Time)Tg/t
代詞(Pronoun Name)r
一般名詞(General)an /Ng/n/nx/nz/vn
判斷名詞短語的方式步驟如下:
首先,根據(jù)上面的六種組別分類判斷出句子中的名詞短語;
其次,根據(jù)距離屬性,判斷相鄰的短語如果組別相同,可以將兩個短語合二為一;
最后,合并并列的名詞性短語。如句子中出現(xiàn)“和”、“與”或“、”兩側(cè)的短語的類型一致,就將兩側(cè)短語連同連接詞“和”、“與”或“、”一起合并為一個名詞短語。字母B用來表示并列詞如“和”、“與”、“、”,語料句子中的出現(xiàn)的其他成分均標記成字母Q。
根據(jù)上面的方式,對人民日報標注語料基本實現(xiàn)了指代消解的名詞短語識別,識別結(jié)果舉例如下:
19980118-01-001-007/m{災(zāi)情/n}G{驚動/v}Q{中南海/ns}P{。/w}Q{當(dāng)天/t}T{下午/t}T{,/w}Q{江/nr澤民/nr}H{總書記/n}G{和/c(Ag-c-Ng-p-q-v)}B{李/nr鵬/nr}H{總理/n}Q{打電話/l}Q{向/p(Ng-p-v)}Q{罹難者/n家屬/n}G{和/c(Ag-c-Ng-p-q-v)}B{災(zāi)區(qū)/n 群眾/n}G{表示/v}Q{親切/ad}q{慰問/v。/w}Q。
3 中文指代消解的特點
漢語和英語兩種語言之間存在差異,中文的指代消解,如果直接借鑒英文指代消解的處理方法是不科學(xué)的。如英語中的單復(fù)數(shù)信息、人名的性別信息等在漢語中都不明顯。例如英文中的“they”,針對不同的語境,在漢語中可以翻譯成“他們”、“她們”和“它們”三種。人名、地名、機構(gòu)名等命名實體的自動識別,是人稱代詞消解中需要首先解決的問題,但是目前這一問題并未完全解決,這在一定程度上影響了先行語的辨識,同樣也影響了人稱代詞的消解。詞匯與句法知識在指代消解中起著非常重要的作用,
句法分析尚處在很不成熟的階段,句子之間的語義關(guān)系,甚至常識性知識更不容易分析得到。因此,要運用這些知識指代消解是困難的,也是目前自然語言處理中研究得最多的問題之一。
參考文獻:
[1]王厚峰.指代消解的基本方法和實現(xiàn)技術(shù)[J].中文信息學(xué)報,2002,16(6):9-17.
[2]孔芳,周國棟.指代消解綜述[J].計算機工程,2010,36(8):33-36.
[3]段慧明,松井久仁於.大規(guī)模漢語標注語料庫的制作與使用[J].語言文字應(yīng)用2000,02:72-777.
[4]李國臣,羅云飛.采用優(yōu)先選擇策略的中文人稱代詞的指代消解[J].中文信息學(xué)報,2005,19(4):24-30.
[5]郭志立.人稱代詞指代主體的辨析及其在在要抽取中的應(yīng)用[M].1998年中文信息處理國際會議論文集,北京:清華大學(xué)出版社,1998:310-315.
作者簡介:韋麗紅(1982-),女,黑龍江人,碩士,講師,研究方向:語義web、文本挖掘、信息處理。
作者單位:呼倫貝爾學(xué)院 計算機科學(xué)與技術(shù)學(xué)院,內(nèi)蒙古海拉爾 021008