徐 凡,朱巧明,周國棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006;蘇州大學(xué) 自然語言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)
篇章分析(Discourse Analysis)旨在研究自然語言文本的內(nèi)在結(jié)構(gòu)并理解文本單元(可以是句子、從句或段落)間的語義關(guān)系。它是一種續(xù)詞、句子之后的文本分析粒度,需要對文本單元的上下文進(jìn)行全局分析。因而,篇章分析更能挖掘出文本內(nèi)部豐富的結(jié)構(gòu)化信息,對自然語言理解和自然語言生成有著至關(guān)重要的作用。篇章分析技術(shù)自底向上可以分為三個(gè)研究子方向: 其一是面向語言學(xué)為主的篇章理論研究,主要解決篇章的表示問題,即篇章的建模。在英文方面,代表性的篇章理論主要有基于實(shí)體關(guān)系的中心理論(Centering)[1]、基于樹狀模型的修辭結(jié)構(gòu)理論(Rhetorical Structure Theory,簡稱RST)[2]、篇章詞匯化樹型連接語法(Discourse Lexicalized Tree Adjoining Grammar,簡稱D-LTAG)[3]和基于圖的篇章模型[4-5]等。在中文方面,代表性的篇章理論主要有句群理論[6]和復(fù)句理論[7]。其二是基于篇章理論之上的篇章分析器(Discourse Parsing)的自動構(gòu)建問題。在英文方面,篇章分析器的代表性成果主要有基于RST-DT(Rhetorical Structure Theory-Discourse Treebank,簡稱RST-DT)和基于PDTB(Penn Discourse TreeBank,簡稱PDTB)風(fēng)格的篇章分析器。在中文方面,目前的工作主要是在模擬英文篇章分析器的基礎(chǔ)之上展開的。其三是基于篇章分析技術(shù)的與自然語言處理相關(guān)的上層應(yīng)用,即通過使用篇章分析技術(shù)直接或間接地提升上層NLP(Natural Language Processing)系統(tǒng)的性能。
由于篇章分析技術(shù)的應(yīng)用范圍非常廣泛,所以它受到了學(xué)術(shù)界和產(chǎn)業(yè)界的高度重視。各大高校和科研院所都從不同角度從事篇章分析技術(shù)方面的研究。近10年來,在ACL、EMNLP、COLING、《軟件學(xué)報(bào)》、《計(jì)算機(jī)研究與發(fā)展》、《中文信息學(xué)報(bào)》等相關(guān)的自然語言處理國際頂級會議和國內(nèi)外核心期刊上都發(fā)表了很多高質(zhì)量的篇章分析方面的研究論文。但是到目前為止,并沒有文獻(xiàn)對篇章分析技術(shù)的綜合研究成果進(jìn)行整體上的介紹,而且近年來關(guān)于篇章分析的研究仍有很多高質(zhì)量的研究成果出現(xiàn)。鑒于此,綜述這方面的工作有重要意義。
本文對主流的中英文篇章分析技術(shù)工作進(jìn)行了分類、對比和綜述。第2節(jié)闡述了中英文篇章分析技術(shù)的應(yīng)用;第3節(jié)介紹了主流的英文篇章分析理論、英文篇章語料庫及評測;第4節(jié)分別針對PDTB和RST-DT篇章語料庫詳細(xì)分析了完整的英文篇章分析器的自動構(gòu)建過程;第5節(jié)闡述了與中文篇章分析有關(guān)的篇章理論、篇章語料庫和篇章分析器的自動構(gòu)建等內(nèi)容。最后總結(jié)全文,并展望未來的研究工作。
據(jù)引言所述,篇章分析技術(shù)具有重要意義,在NLP各傳統(tǒng)領(lǐng)域和新型領(lǐng)域都具有相關(guān)應(yīng)用*由于中文篇章分析技術(shù)的應(yīng)用相對較少,本文不專門區(qū)分中英文情況。,我們以下逐一介紹。
統(tǒng)計(jì)機(jī)器翻譯(Statistical Machine Translation,簡稱SMT)是自然語言處理最直接的上層應(yīng)用,篇章分析技術(shù)在此起到關(guān)鍵作用[8-12]?,F(xiàn)有研究主要從篇章連接詞的翻譯角度[8-9]、從采用中心理論和指代消解等篇章理論或技術(shù)角度[10-11]、從修辭關(guān)系角度[12]等來提升SMT的性能。
自動文摘(Text Summarization,簡稱TS)的主要任務(wù)是對給定的一篇或多篇文檔,由計(jì)算機(jī)自動生成相應(yīng)文檔或文檔集對應(yīng)的摘要。傳統(tǒng)的自動文摘技術(shù)主要采用詞串等方法,如考慮詞的TF-IDF(Term Frequency-Inverse Document Frequency)特性和命名實(shí)體等信息來抽取相關(guān)的句子,但用這些方法生成的文摘質(zhì)量通常不太高。相比較而言,篇章分析技術(shù)可以發(fā)揮重要作用[13-15]。文獻(xiàn)[13]提出了一種基于有向圖的篇章多級依存結(jié)構(gòu)的機(jī)內(nèi)表示法。文獻(xiàn)[14-15]分析了篇章結(jié)構(gòu)和篇章的意義表示,通過基于篇章理解的技術(shù)達(dá)到消除句子歧義的目的,并探索了句子級別和上下文級別兩個(gè)層次的自動文摘問題。
自動問答系統(tǒng)(Question Answering,簡稱QA)的主要任務(wù)是用計(jì)算機(jī)對人們提出的問句自動生成答案的過程,它有兩個(gè)步驟: 其一是問句的理解;其二是答案的抽取。篇章分析技術(shù)對此兩個(gè)步驟都具有重要應(yīng)用[16-20]。文獻(xiàn)[16]提出了一個(gè)富于語義的有向無環(huán)圖篇章表示模型,在問句理解步驟,作者將每個(gè)問題和對應(yīng)的答案都對應(yīng)為一個(gè)篇章狀態(tài),然后采用圖模型中的優(yōu)化算法去求解。文獻(xiàn)[17]在研究問題構(gòu)成序列時(shí)擴(kuò)充了中心理論的參照、前向和轉(zhuǎn)換等模型。文獻(xiàn)[18]針對閱讀理解的Why型問題提出了基于話題和修辭識別的方法,其核心思想是先利用基于倒文檔頻率和基于語義角色的兩種相似度計(jì)算方法識別出對應(yīng)問題話題的句子,然后進(jìn)一步識別出這些句子中與問題話題存在因果關(guān)系的句子或短語作為返回答案。文獻(xiàn)[19]研究了一種包括用戶目的、用戶可能性、用戶態(tài)度和用戶知識四個(gè)方面在內(nèi)的用戶模型,基于Schema和Process兩種生成策略探索了其對問答系統(tǒng)生成內(nèi)容和風(fēng)格的影響。文獻(xiàn)[20]研究了漢語篇章理解時(shí)以事實(shí)—事件網(wǎng)絡(luò)為基礎(chǔ)的知識表示和知識庫模型,并將其應(yīng)用于關(guān)于鳥類的問答系統(tǒng)中。
信息抽取(Information Extraction,簡稱IE)的主要任務(wù)是把文本里包含的信息抽取出來并形成結(jié)構(gòu)化的組織形式。同樣,篇章分析技術(shù)在信息抽取的模板生成階段將發(fā)揮重要作用[21-22]。這些文獻(xiàn)通過引入事件個(gè)數(shù)、事件在文檔中的位置等篇章特征來提升信息抽取系統(tǒng)的性能。文獻(xiàn)[23-24]分別探索了信息抽取領(lǐng)域的中文地名識別和中文模板約束問題。其中文獻(xiàn)[23]認(rèn)為出現(xiàn)在同一個(gè)篇章中的地名在語義上必然存在一定的關(guān)聯(lián)性,作者利用地名之間的同指關(guān)系、靜態(tài)和動態(tài)地理關(guān)系對篇章地名進(jìn)行擴(kuò)展,以此來提升識別性能。文獻(xiàn)[24]分析了語句的邏輯結(jié)構(gòu)和篇章結(jié)構(gòu)對信息模板類型的約束作用,并利用篇章結(jié)構(gòu)中的話題或先行語等元素來找回部分缺失的模板元素等信息。
信息檢索(Information Retrieval,簡稱IR)有兩方面的任務(wù): 其一是對海量信息的組織和存儲;其二是根據(jù)用戶的需求快速查找出相關(guān)的信息。傳統(tǒng)的IR系統(tǒng)僅僅關(guān)注文本的形態(tài)或句法分析,對于語義歧義或篇章一致性考慮比較少。文獻(xiàn)[25]擴(kuò)展了已有的檢索模型,對文檔的上下文信息建立圖模型,并對這種圖模型引入重排序策略。文獻(xiàn)[26]討論了篇章分析對于信息檢索和分類算法性能的影響問題,利用索引(N-gram過濾)和分類(K-means等)兩種算法對不同篇章類型的作用進(jìn)行了評估。
計(jì)算機(jī)輔助評估(Computer-Assisted Assessment,簡稱CAA)的主要任務(wù)是利用計(jì)算機(jī)來輔助個(gè)人的學(xué)習(xí),它可以對人們提交的小段文本進(jìn)行自動評分,需要利用NLP相關(guān)技術(shù)對提交的文本進(jìn)行語法或語義等方面的分析[27-28]。其中,文獻(xiàn)[27]提出了一種語義相似度計(jì)算和依存圖對齊相結(jié)合的方法,而文獻(xiàn)[28]將CAA問題轉(zhuǎn)化為排序問題,采用N元語言模型和詞性等淺層句法特征利用機(jī)器學(xué)習(xí)方法求解。
情感分析(Sentiment Analysis,簡稱SA)的主要任務(wù)是對給定一個(gè)待檢測項(xiàng)(可以是詞、句子、段落或篇章),由計(jì)算機(jī)自動分析其具有的正、負(fù)和中性情感。傳統(tǒng)的情感分析方法絕大多數(shù)沒有考慮篇章內(nèi)部的上下文信息,導(dǎo)致算法效率上相對不高。簽于此,文獻(xiàn)[29]探索了全局推導(dǎo)范型在篇章關(guān)系建模中的作用。
作者身份識別(Authorship Attribution,簡稱AA)的主要任務(wù)是利用計(jì)算機(jī)自動判別給定文檔的作者。文獻(xiàn)[30]提出了基于字符的局部直方圖的方法,認(rèn)為文學(xué)作品的作者在選詞時(shí)具有一定的篇章分布相關(guān)性,實(shí)驗(yàn)結(jié)果優(yōu)于傳統(tǒng)的BOW(Bag-Of-Words)模型和全局直方圖方法。
綜上所述,篇章結(jié)構(gòu)分析在上層自然語言處理系統(tǒng)中均存在著廣泛的應(yīng)用,從而使其成為一個(gè)非常重要的研究課題。這些研究從側(cè)面也充分說明了只有對文檔進(jìn)行深層次的語義信息挖掘,即只有基于篇章理解技術(shù),才能在現(xiàn)有統(tǒng)計(jì)方法的基礎(chǔ)上,取得突破性的進(jìn)展。
本節(jié)首先介紹兩個(gè)主流的英文篇章分析理論D-LTAG和RST,然后闡述篇章語料庫PDTB[31]和RST-DT[32]的標(biāo)注體系,最后介紹篇章分析的評測。
3.1.1 D-LTAG理論
D-LTAG是將傳統(tǒng)的詞匯化樹鄰接語法(Lexicalized Tree Adjunct Grammars,簡稱LTAG)應(yīng)用于篇章層。
面上而取得的謂詞—論元(Predicate-Argument)結(jié)構(gòu),是一種可以表達(dá)句法—語義(Syntactic-Semantic)意義和范圍的篇章模型[33]。D-LTAG將LTAG擴(kuò)展至篇章層面,主要有兩點(diǎn)改動: (1)將LTAG中的詞匯錨用篇章連接詞替代;(2)將部分LTAG中的輔助樹結(jié)構(gòu)修改為初始樹結(jié)構(gòu)。
圖1顯示了從屬連接句、并列連接句和篇章狀語對應(yīng)的D-LTAG樹結(jié)構(gòu),其中Dc代表篇章從句,“↓”代表可執(zhí)行替換操作,“*”代表可執(zhí)行連接操作,subconj代表從屬連接詞,conn代表顯式并列連接詞或空連接詞。這里,圖1(a)對應(yīng)從屬連接句的初始樹結(jié)構(gòu),圖1(b)對應(yīng)并列連接詞“so”的初始樹結(jié)構(gòu),圖1(c)對應(yīng)除連接詞“so”之外的其他并列連接句的輔助樹結(jié)構(gòu),圖1(d)對應(yīng)篇章狀態(tài)的輔助樹結(jié)構(gòu)。
圖1 從屬連接句、并列連接句和篇章狀語對應(yīng)的D-LTAG結(jié)構(gòu)
為清晰起見,我們采用D-LTAG理論描述帶有顯式篇章連接詞(例1)的D-LTAG的推導(dǎo)過程,限于篇幅,隱式篇章連接詞的情況可以參考文獻(xiàn)[34]。
例1帶有顯式篇章連接詞實(shí)例的D-LTAG推導(dǎo)過程
(1.a) John went to the zoo.
(1.b)However,he took his cellphone with him.
例1中“However”作為篇章連詞,從句“John went to the zoo”和從句“he took his cellphone with him”分別作為輔助樹上的兩個(gè)節(jié)點(diǎn)。圖2顯示了其對應(yīng)的D-LTAG推導(dǎo)過程。其中,T1代表從句1.a對應(yīng)的LTAG樹,T2代表從句1.b對應(yīng)的LTAG樹,γ代表篇章連接詞“However”的輔助樹,&代表描述擴(kuò)展輔助樹,“↓”下方代表推導(dǎo)過程: γ附加到T1的根節(jié)點(diǎn),T2替換成&,并且&附加到T2的根節(jié)點(diǎn),推導(dǎo)過程中的實(shí)線代表附加操作,虛線代表替換操作,τ1代表T1的推導(dǎo)樹,τ2代表T2的推導(dǎo)樹。
圖2 例1的D-LTAG推導(dǎo)過程圖
3.1.2 RST理論
RST的最初目的是用來研究基于計(jì)算機(jī)的文本生成的,但后來被廣泛應(yīng)用于篇章的功能和結(jié)構(gòu)描述方面[35]*http://www.sfu.ca/rst/05bibliographies/bib_downloads.html (RST Bibliographies)。RST認(rèn)為小句(Elemental Discourse Units,簡稱EDUs)是最基本的篇章單位,功能語句(Span)是篇章中功能明顯的組成部分。其中功能語句間存在各種關(guān)系,這種關(guān)系集合是開放并且可擴(kuò)充的,常見的關(guān)系有: Circumstance,Elaboration,Background,Enablement and Motivation,Other Relations等。同時(shí),RST定義了三個(gè)基本概念: (1)核心性: 它是指語篇的不對稱性,即語篇由核心和輔助部分組成;(2)制約因素: 對核心、輔助的分別或同時(shí)制約,從而指出命題存在的必要性;(3)效果: 使用關(guān)系達(dá)到的效果解釋。RST采用“核心—衛(wèi)星”表示結(jié)構(gòu),其中“核心”在文本中起到更重要的作用,而“衛(wèi)星”語句卻從屬于“核心”,每種關(guān)系由5種要素組成,分別為: (1)核心語句的制約因素;(2)衛(wèi)星語句的制約因素;(3)單個(gè)制約或共同制約因素;(4)結(jié)果: 即讀者使用這種關(guān)系后所產(chǎn)生的預(yù)期結(jié)果;(5)結(jié)果的位置: 指明的是核心語句、多核心語句或核心語句與衛(wèi)星語句的共同語句。RST采用葉子節(jié)點(diǎn)代表EDUs,內(nèi)部節(jié)點(diǎn)代表連續(xù)的文本跨度,弧上指明了具體的修辭關(guān)系,水平線表明文本跨度,垂直線表明此文本跨度為“核心”。
為清晰起見,我們采用RST來描述例2的篇章分析過程,其來自《香港城市理工學(xué)院的誕生》一文的第一段,讀者可參閱文獻(xiàn)[36]以了解《香港城市理工學(xué)院的誕生》全文對應(yīng)的RST篇章樹。
例2《香港城市理工學(xué)院的誕生》第一段對應(yīng)的RST樹分析過程
(2.a)The Genesis of the City Polytechnic of Hong Kong lay in the report of a committee appointed by the Governor in November 1980 to review the scope of post-secondary and technical education to Hong Kong. (2.b1)In its report of June 1981 it recommended (2.b2)that there should be a general and substantial increase in the number of places for tertiary education; (2.b3)one of the measures for achieving this was the establishment of a second polytechnic.
例2共有4個(gè)小句(2.a,2.b1,2.b2和2.b3)。其中,2.a和2.b1-b3構(gòu)成闡述關(guān)系,2.a為“核心”,2.b1-b3為“衛(wèi)星”;2.b1和2.b2-b3構(gòu)成了背景關(guān)系,2.b2-b3為“核心”,2.b1為“衛(wèi)星”;2.b2和2.b3構(gòu)成了條件關(guān)系,2.b2為“核心”,2.b3為“衛(wèi)星”,其完整RST篇章樹如圖3所示。
圖3 例2對應(yīng)的RST篇章樹
PDTB是由美國賓西法尼亞大學(xué)、意大利托里諾大學(xué)和英國愛丁堡大學(xué)聯(lián)合標(biāo)注,由LDC(Linguistic Data Consortium)*http://www.ldc.upenn.edu/于2008年發(fā)布。它是目前規(guī)模最大的英文篇章級別的語料庫,其標(biāo)注了以下幾種類型:(1)顯式和隱式篇章連接詞;(2)Alternative Lexicalization(AltLex):篇章關(guān)系可以被推導(dǎo),但加入篇章連接詞后會造成表達(dá)上的冗余;(3)Entity-based Coherence Relation(EntRel):不能推導(dǎo)出篇章關(guān)系,它是指第二個(gè)句子僅僅提供了第一個(gè)句子中相關(guān)實(shí)體的進(jìn)一步信息;(4)No Relation(NoRel):既不存在篇章關(guān)系又不存在基于實(shí)體的一致性。PDTB對顯式和隱式篇章連接詞和AltLex篇章關(guān)系定義了一個(gè)三級層次的語義結(jié)構(gòu):種類—類型—子類型。其中,第一層包括Temporal、Contingency、Comparison和Expansion在內(nèi)的4類
語義,第二層包括16類語義,第三層包括23類語義。另外,PDTB還標(biāo)注了屬性,它反映的是顯式連接詞、隱式連接詞和AltLex關(guān)系的內(nèi)部單個(gè)對象和抽象對象間以及它們參數(shù)的“擁有關(guān)系”,同時(shí)對屬性的類型、范圍極性、確定性和跨度進(jìn)行了標(biāo)記。
RST-DT由美國南加利福尼亞大學(xué)和華盛頓國防部聯(lián)合標(biāo)注,由LDC于2002年發(fā)布。它先利用RST-Tool工具對文本進(jìn)行預(yù)標(biāo)注,主要包括文本的切割(生成小句)和初始修辭關(guān)系的生成,然后通過人工方式驗(yàn)證預(yù)標(biāo)注的結(jié)果,判斷文本切分是否正確,并為功能語句對標(biāo)注一個(gè)最可能的修辭關(guān)系。
為了清晰起見,表1列舉了兩個(gè)篇章語料庫的相同點(diǎn)和不同點(diǎn)。
表1 PDTB和RST-DT比較
目前,篇章分析的評測主要考慮算法的正確度和F1值兩個(gè)性能指標(biāo)。正確度采用式(1)進(jìn)行度量。
這里,TruePositive代表本來是正樣例,同時(shí)分類成正樣例的個(gè)數(shù);TrueNegative代表本來是負(fù)樣例,同時(shí)分類成負(fù)樣例的個(gè)數(shù);All代表樣例總個(gè)數(shù)。
F1值由準(zhǔn)確率(Precision)和召回率(Recall)共同體現(xiàn),采用式(2)進(jìn)行度量。
(2)
其中,
這里,F(xiàn)alsePositive代表本來是負(fù)樣例,但被分類成正樣例的個(gè)數(shù)(通常叫誤報(bào));FalseNegative代表本來是正樣例,但被分類成負(fù)樣例的個(gè)數(shù)(通常叫漏報(bào))。
本節(jié)分別針對PDTB和RST-DT介紹如何實(shí)現(xiàn)
一個(gè)完整的英文篇章分析器,并分析和對比了不同的方法體系并報(bào)告自然語言處理國際頂級會議上的最新評測性能。
PDTB作為目前最大的篇章語料庫,在其上進(jìn)行篇章分析的研究者也相對較多。為清晰起見,我們先給出PDTB的一些標(biāo)注實(shí)例,然后分析篇章分析器的算法細(xì)節(jié)。例3和例4是文獻(xiàn)[31]中介紹的顯式和隱式篇章關(guān)系實(shí)例,括號中對應(yīng)了三層次的篇章關(guān)系語義以及實(shí)例對應(yīng)的WSJ文章編號*按照PDTB的標(biāo)注風(fēng)格,Argument 1采用斜體表示,Argument 2采用粗體表示,連接詞采用下劃線表示。。
例3顯式篇章連接詞實(shí)例
Inaddition,itsmachinesaretypicallyeasiertooperate, socustomersrequirelessassistancefromsoftware. (CONTINGENCY:Cause:result) (WSJ 1887)
例4隱式篇章連接詞實(shí)例
MrsYearginislying. Implicit=BECAUSETheyfoundstudentsinanadvancedclassayearearlierwhosaidshegavethemsimilarhelp. (CONTINGENCY:PragmaticCause:justification) (WSJ 0044)
文獻(xiàn)[37]實(shí)現(xiàn)了第一個(gè)PDTB風(fēng)格的端對端的完整英文篇章分析器,主要完成了四個(gè)子任務(wù): (1)篇章連接詞分類;(2)論元(Argument)標(biāo)記;(3)顯式和隱式連接詞以及AltLex關(guān)系的語義識別;(4)屬性標(biāo)記。下面我們分別闡述這四個(gè)子任務(wù),同時(shí)綜述每個(gè)子任務(wù)的相關(guān)文獻(xiàn)。
4.1.1 篇章連接詞分類
此步驟的主要任務(wù)就是確定待輸入文本中的連接詞是否充當(dāng)篇章連接詞的角色。如果此連接詞充當(dāng)篇章連接詞角色,則進(jìn)行論元(Argument)的定位和抽取,否則將判斷兩個(gè)相鄰句子的篇章關(guān)系語義。文獻(xiàn)[38]采用完全監(jiān)督的機(jī)器學(xué)習(xí)方法,利用連接詞本身、Self category、Parent category等句法特征,取得了96.26%的Accuracy和94.19%的F1性能。文獻(xiàn)[39]僅使用篇章連接詞作為特征取得了93%以上的Accuracy。文獻(xiàn)[37]除了利用文獻(xiàn)[38]提到的一些特征外,另外加入了連接詞的上下文信息、相應(yīng)的詞性(Part of Speech,簡稱POS)以及從連接詞到根節(jié)點(diǎn)的路徑等相關(guān)特征,利用正確句法樹下取得了97.34%的Accuracy和95.76%的F1性能,利用自動生成句法樹取得了96.02%的Accuracy和93.62%的F1性能。由于此子任務(wù)相對簡單,其所取得的性能已達(dá)到實(shí)用階段,所以它將不再是篇章分析器的研究重點(diǎn)。
4.1.2 論元(Argument)標(biāo)記
此步驟的主要任務(wù)就是要在輸入文本中抽取第一步識別出來的篇章連接詞的兩個(gè)論元(Argument 1和Argument 2)。其具有兩個(gè)子任務(wù),其一是Argument 1和Argument 2的定位,其二是確定Argument 1和Argument 2對應(yīng)的文本跨度。文獻(xiàn)[37]僅考慮Argument 1與Argument 2出現(xiàn)在同一句或在Argument 2的前面句子中這兩種情況來完成Argument 1的定位和跨度識別工作。對于Argument的定位,仍將其看成分類問題,采用了連接詞、連接詞的上下文及詞性等特征,利用正確的句法樹下取得了97.95%的F1性能,利用自動句法樹下取得了91.44%的F1性能;對于Argument的跨度確定任務(wù),通過計(jì)算句法樹上的每個(gè)內(nèi)部節(jié)點(diǎn)所具有的概率值,最后將最高概率作為分類結(jié)果。對于Argument的部分匹配和精確匹配情況下,利用正確句法樹分別取得了86.24%和53.85%的F1性能,利用自動句法樹分別取得了80.96%和40.37%的F1性能。文獻(xiàn)[40]把Argument的跨度確定任務(wù)看成是Argument的中心詞識別任務(wù),其不識別完整的文本跨度,僅識別每個(gè)Argument的中心詞(Head word)。作者采用對數(shù)線性重排序模型,考慮連接詞本身、Argument中的單詞、成分路徑等在內(nèi)的平面特征,對于Argument1標(biāo)記,利用自動句法樹取得了69.8%的Accuracy。但是,這類研究中潛在的問題是PDTB中并沒有標(biāo)注Argument對應(yīng)的中心詞。對于此任務(wù),我們可以明確Argument的抽取和標(biāo)記任務(wù),尤其是Argument的精確匹配問題,仍然是一個(gè)很有挑戰(zhàn)性的后續(xù)研究問題。
4.1.3 顯式和隱式連接詞以及AltLex關(guān)系的語義識別
篇章關(guān)系語義識別的主要任務(wù)就是對文本中顯式篇章連接詞、隱式篇章連接詞和AltLex關(guān)系分別指定相應(yīng)的語義(第一層次、第二層次或第三層次的語義類別)。由于顯式連接詞的語義識別任務(wù)比較簡單,所以目前的篇章關(guān)系語義識別的研究主要集中在AltLex和隱式連接詞關(guān)系的語義關(guān)系識別上。
文獻(xiàn)[41]詳細(xì)介紹了AltLex的概念,同時(shí)分析了PDTB的標(biāo)注方法,作者建議標(biāo)注工作應(yīng)該采用開放類項(xiàng)目對待,而不應(yīng)受到句法概率等方面的約束。文獻(xiàn)[37]采用完全監(jiān)督的機(jī)器學(xué)習(xí)方法,考慮篇章關(guān)系上下文、成分和依存句法等在內(nèi)的平面特征,將AltLex和隱式關(guān)系統(tǒng)一看成非顯式關(guān)系,利用正確句法樹下僅取得39.63%的F1性能,利用自動句法樹僅取得25.46%的F1性能。此實(shí)驗(yàn)結(jié)果從另一側(cè)面也反映了AltLex和隱式連接詞的語義識別將是又一大挑戰(zhàn)。
文獻(xiàn)[42-47]研究了隱式篇章關(guān)系識別子任務(wù),分別采用了全監(jiān)督[42-46]、無監(jiān)督[44]和半監(jiān)督方法[47]。文獻(xiàn)[42]提出了一種復(fù)核樹核方法,將平面特征與結(jié)構(gòu)化特征相結(jié)合,同時(shí)探索了與時(shí)態(tài)相關(guān)的語言學(xué)特征,取得了40%的Accuracy。文獻(xiàn)[43-44]探索了連接詞在隱式篇章關(guān)系識別中的作用問題,利用語言模型對無連接詞的相鄰兩個(gè)句子預(yù)先恢復(fù)最可能的連接詞,然后把它看作分類問題,針對PDTB第一層語義,取得了49.95%的Accuracy和35.10%的F1性能。文獻(xiàn)[45]針對PDTB的第二層語義進(jìn)行識別,提出了成分句法樹產(chǎn)生規(guī)則和依存句法樹規(guī)則等有效特征,取得了40.2%的Accuracy。文獻(xiàn)[46]提出了豐富的語言學(xué)特征,對PDTB第一層語義進(jìn)行識別,取得了44.58%的Accuracy。文獻(xiàn)[47]考慮了非頻繁篇章關(guān)系語義識別問題,核心思想為首先在非標(biāo)注數(shù)據(jù)下取得特征共現(xiàn)向量,然后將其擴(kuò)充傳統(tǒng)的特征向量,取得了21.3%的Accuracy。文獻(xiàn)[42-47]作為隱式篇章關(guān)系的語義識別主流方法,雖然都是采用PDTB篇章語料庫,但是各種方法之間的直接可比性程度仍然不夠。主要原因在于: (1)由于有些文獻(xiàn)對語料庫做了局限的預(yù)處理,如文獻(xiàn)[46]把EntRel和NoRel兩種類型的實(shí)例歸為隱式關(guān)系,而其他文獻(xiàn)不考慮這兩類語義對應(yīng)的實(shí)例;(2)文獻(xiàn)[42-47]中對PDTB的訓(xùn)練和測試數(shù)據(jù)的劃分也不完全一致,并沒有采用PDTB建議的類別(訓(xùn)練集: Section2-21;開發(fā)集: Section22;測試集: Section23)。例如,文獻(xiàn)[43,44,46]采用的訓(xùn)練集為Section2-20,開發(fā)集為Section0-1,測試集為Section21-22;文獻(xiàn)[42]采用的訓(xùn)練集為Section2-22,測試集為Section23-24;而文獻(xiàn)[45,47]采用的訓(xùn)練集為Section2-21,測試集為Section23。
4.1.4 屬性標(biāo)記
此步驟的主要任務(wù)是針對PDTB中顯式、隱式和AltLex三種篇章關(guān)系,確定輸入文本中的哪些從句為其對應(yīng)的屬性。它又可以分為四個(gè)子問題:屬性的類型、范圍極性、確定性和跨度確定。
文獻(xiàn)[37]僅考慮了屬性的跨度確定問題,并將其看成是分類問題,首先根據(jù)句法和標(biāo)點(diǎn)符號特征將文本分割成從句,考慮當(dāng)前從句、前一個(gè)從句、下一個(gè)從句的單詞、小寫單詞和詞干化動詞等在內(nèi)的平面特征。對于Attribute的部分匹配和精確匹配問題,利用正確句法樹下分別取得了79.68%和65.95%的F1性能,利用自動句法樹下分別取得了57.34%和42.59%的F1性能。實(shí)驗(yàn)結(jié)果表明Attribute的跨度標(biāo)記工作又將是一個(gè)富有挑戰(zhàn)性的后續(xù)研究工作。
相對于PDTB風(fēng)格的篇章分析器而言,RST-DT風(fēng)格的篇章分析研究文獻(xiàn)相對較少。筆者認(rèn)為潛在的原因可能在于RST-DT在規(guī)模上不及PDTB語料?;赗ST風(fēng)格的篇章分析器自動構(gòu)建過程主要有以下兩個(gè)子任務(wù):(1)EDUs的生成,即對文本進(jìn)行正確切割;(2)修辭關(guān)系的確定,即對第一個(gè)子過程的輸出采用自底向上方法,為功能子句對確定一個(gè)最可能的修辭關(guān)系。
4.2.1 EDUs的生成
文獻(xiàn)[48]綜合考慮了句法和詞匯等特征對文本進(jìn)行分割,并取得了84%的F1性能。文獻(xiàn)[49]研究了句子級的篇章分析器構(gòu)建任務(wù),但其不足之處在于其僅生成一個(gè)句子內(nèi)部的篇章結(jié)構(gòu)。對于EDUs的生成,其采用概率模型p(b|w,t)(w為文本中的每個(gè)單詞,t為句法樹,b為二元變量{邊界,非邊界}),結(jié)合最大似然估計(jì)和相應(yīng)的數(shù)據(jù)平滑算法進(jìn)行文本切分,取得了84.7%的F1性能。文獻(xiàn)[50]采用句法特征,結(jié)合分割規(guī)則和線索短語對文本進(jìn)行分割,并取得了86.9%的F1性能。文獻(xiàn)[51]將篇章分割問題看成序列化標(biāo)注問題,抽取出文本中的單詞、POS標(biāo)記、詞匯中心詞等在內(nèi)的平面特征,并取得了94%的F1性能。
4.2.2 修辭關(guān)系的確定
文獻(xiàn)[47]探索了RST-DT下的非頻繁篇章關(guān)系語義識別問題,其核心思想為: 首先在非標(biāo)注數(shù)據(jù)下取得特征共現(xiàn)向量,然后將其擴(kuò)充傳統(tǒng)的特征向量,并取得了18.9%的宏平均F1性能。文獻(xiàn)[49]采用概率模型生成句子級的篇章結(jié)構(gòu),首先利用結(jié)構(gòu)函數(shù)和關(guān)系函數(shù)計(jì)算出篇章樹的概率,然后將控制集作為過濾的條件參數(shù),分別在18種和110種修辭關(guān)系下取得了接近于人工評測的性能值。文獻(xiàn)[50]同時(shí)考慮了句子級和文本級的兩種篇章分析器構(gòu)建問題,對于句子級情況,其首先采用句法信息和線索短語生成EDUs,然后生成句子級的篇章結(jié)構(gòu);對于文本級情況,其融合文本的相鄰句子和文本的組織信息至集束搜索算法中,以期望生成最好的篇章結(jié)構(gòu)。文獻(xiàn)[52]是一種完全監(jiān)督的機(jī)器學(xué)習(xí)方法,考慮了潛層詞匯、結(jié)構(gòu)化成份句法等在內(nèi)的平面特征,取得了48.1%的F1性能。文獻(xiàn)[49]與文獻(xiàn)[51-52]的區(qū)別在于: 文獻(xiàn)[49]僅考慮了句子級的篇章樹構(gòu)建算法,其提出的基于句子內(nèi)部的一些特征不能直接應(yīng)用于跨句子的篇章分析器構(gòu)建情況,反之,文獻(xiàn)[50,52]考慮了跨句子的篇章分析器構(gòu)建算法,應(yīng)用范圍相對更廣。
相對于英文篇章分析技術(shù)的長期研究而言,中文篇章分析技術(shù)研究才剛剛起步。本節(jié)將圍繞中文篇章理論、中文篇章語料庫和中文篇章分析器的自動構(gòu)建三個(gè)方面分別闡述。
文獻(xiàn)[53-55]對中文篇章研究進(jìn)行了較深入的綜述,它們認(rèn)為當(dāng)前中文篇章理論還處于內(nèi)省階段,可操作性不強(qiáng),具有“本土特征”的句群理論和復(fù)句理論創(chuàng)立的出發(fā)點(diǎn)也不是著眼于篇章理論,而是更偏重于漢語語法方面的研究。然而,文獻(xiàn)[56]卻認(rèn)為句群理論可以經(jīng)過修改后作為切實(shí)可行的中文篇章分析理論。其認(rèn)為句群理論和RST在研究對象、研究內(nèi)容、研究方法和呈現(xiàn)形式等方面都極其相似,但由于句群理論根植于句子層面的定位模式直接導(dǎo)致了其沒有發(fā)揮應(yīng)有的價(jià)值,句群理論本身及其發(fā)展和應(yīng)用可以借鑒RST的發(fā)展和應(yīng)用模式。文獻(xiàn)[57]認(rèn)為復(fù)句和RST在超句結(jié)構(gòu)、研究對象、語義關(guān)系、標(biāo)記和圖式等方面都極其相似,復(fù)句理論本身的可操作性比較強(qiáng),經(jīng)過略微修改后同樣可以作為切實(shí)可行的中文篇章理論?;诖?,我們分別介紹句群理論和復(fù)句理論的定義、分類、實(shí)際操作和兩者的區(qū)別與聯(lián)系等內(nèi)容。
5.1.1 句群理論
文獻(xiàn)[6]認(rèn)為句群是語義上有邏輯關(guān)系,語法上有結(jié)構(gòu)關(guān)系,語流中銜接連貫的一群句子的組合,它是介于句子和段落之間的,或者說是大于句子、小于段落的語言表達(dá)單位。其將句群按如下體系進(jìn)行分類: (1)按照結(jié)構(gòu)上,將其分為并列關(guān)系、連貫關(guān)系、遞進(jìn)關(guān)系、選擇關(guān)系等12大類;(2)按照功能上,將其分為主體句群(包括記敘句群、描寫句群、說明句群、議論句群、抒情句群和對話句群)、過渡句群和插入句群;(3)按照形式上,將其分為一重句群和多重句群。在實(shí)際操作層面上,可以按句群的內(nèi)部和外部接應(yīng)對其進(jìn)行組合和切分。其中,內(nèi)部接應(yīng)是指句子和句子的組合,主要有詞語接應(yīng)、句式接應(yīng)、辭格接應(yīng)等類型。外部接應(yīng)指句群和句群,或句群和句子組合成為段落的手段,可以是時(shí)間詞語、處所詞語、同義詞詞語等類型。
文獻(xiàn)[58]把句群定義為一些句子結(jié)合而成的單位,這種結(jié)合具有條件性,主要體現(xiàn)在句子都是前后相連的、各句子都圍繞一個(gè)基本意思進(jìn)行表述、內(nèi)部不能分出比句子大的單位、且所有句子緊密地結(jié)合成一個(gè)比句子大一級的單位等方面。并從構(gòu)成方式上把句群分為詞語的關(guān)聯(lián)、句式的重復(fù)、總括性提示和說明等五種類型。文獻(xiàn)[59]其把句群定義為一組有明晰的中心意思的、前后銜接連貫的句子,也稱為句組或語段,句子間有語義上的聯(lián)系、邏輯事理上的聯(lián)系和語法上的聯(lián)系三種類型。句群中句子和句子的組合方式和詞與詞組合成短語、分句與分句組合成復(fù)句有相同之處,即也有兩種形式: 一是句子和句子直接組合,靠語序來表示句與句之間的關(guān)系;一是借助虛詞(關(guān)聯(lián)詞語等)來組合。同時(shí),把句群分為并列、承接、遞進(jìn)、選擇、轉(zhuǎn)折等幾大類。
5.1.2 復(fù)句理論
文獻(xiàn)[7]認(rèn)為復(fù)句是包含兩個(gè)或兩個(gè)以上分句的句子,它包括三個(gè)方面的詮解。其一,凡是復(fù)句,都包含兩個(gè)或兩個(gè)以上的分句;其二,任何一個(gè)復(fù)句,在口頭上都具有“句”的基本特征;其三,復(fù)句的構(gòu)成單位,從構(gòu)成的基礎(chǔ)看是小句,從構(gòu)成的結(jié)果看是分句。其將復(fù)句按如下體系進(jìn)行分類: (1)按照關(guān)系上,將其分為聯(lián)合復(fù)句(包括并列復(fù)句、連貫復(fù)句、選擇復(fù)句、解說復(fù)句和遞進(jìn)復(fù)句)和偏正復(fù)句(包括假設(shè)復(fù)句、轉(zhuǎn)折復(fù)句、條件復(fù)句、因果復(fù)句和目的復(fù)句);(2)按照非關(guān)系上,將其分為單重與多重,有間與緊縮,有標(biāo)與無標(biāo),陳述和非陳述等幾大類。在實(shí)際操作層面上,目前主要還是基于關(guān)聯(lián)詞上的操作,例如: “因?yàn)椤浴?、“如果…就…”等句式可以表示因果關(guān)系;“既…又…”、“不但…而且…”等句式可以表示并列關(guān)系;“…但是…”、“…否則…”等句式可以表示轉(zhuǎn)折關(guān)系等。
文獻(xiàn)[59]認(rèn)為復(fù)句是由兩個(gè)或兩個(gè)以上的單句所構(gòu)成的,同時(shí)分句是構(gòu)成單句的單位。其中分句可以是主謂句也可以是非主謂句。在形式上,分句和分句間由逗號或分號隔開,可以直接組合,也可以借助虛詞構(gòu)成。其按照分句和分句間的關(guān)系,把復(fù)句分為并列、承接、遞進(jìn)、選擇等類型,同時(shí)也指出了復(fù)句具有一定的層次性。文獻(xiàn)[60]從句子的分類、結(jié)構(gòu)和句法變化上詳細(xì)討論了漢語句子。從結(jié)構(gòu)上把句子分為簡句和繁句,并將復(fù)句歸為繁句當(dāng)中,研究了復(fù)句在諸如數(shù)量、指稱、方所、時(shí)間、正反等范疇上的語義內(nèi)容表達(dá)手段和形容事情之間的諸如離合、向背、異同、高下等語義關(guān)系。同時(shí),其指出單句和復(fù)句的劃分是非常困難的問題,涉及到句子中主謂結(jié)構(gòu)的個(gè)數(shù)、句子中是否存在關(guān)聯(lián)詞語、句子中有無停頓等三個(gè)相互交錯的因素。文獻(xiàn)[61]把復(fù)句定義為可以用語音停頓隔斷的兩個(gè)句子形式的構(gòu)成者。其著重強(qiáng)調(diào)了兩種語言現(xiàn)象: 其一是句子形式,它是指一個(gè)連系式。其二是復(fù)句中的語間停頓現(xiàn)象。其把復(fù)句進(jìn)一步區(qū)分為等立復(fù)句和主從復(fù)句兩種類型,其中等立復(fù)句中所包含的句子形式具有平等價(jià)值,而主從復(fù)句所包含的句子形式具有“主要”和“從屬”分別。文獻(xiàn)[62]提出了與傳統(tǒng)的復(fù)句概念極為類似的整句概念,把整句定義為一個(gè)前后都各有一個(gè)全停頓的主謂形式。在結(jié)構(gòu)上,整句僅指前后有全停頓的主謂形式的語言片段。文獻(xiàn)[63]把復(fù)句分為包孕復(fù)句、等立復(fù)句和主從復(fù)句三種類型。其中,包孕復(fù)句由兩個(gè)以上的單句構(gòu)成,且“母句”包孕著其余的“子句”;等立復(fù)句由兩個(gè)以上單句構(gòu)成,且構(gòu)成彼此接近或互相聯(lián)絡(luò)卻都是平等而并立的關(guān)系;主從復(fù)句是由兩個(gè)以上的單句構(gòu)成,不能平等而并立,具有主從性質(zhì)。
5.1.3 句群與復(fù)句的比較
為清晰起見,表2列出了句群理論和復(fù)句理論之的相同點(diǎn)和不同點(diǎn)。
表2 句群和復(fù)句比較
除了句群和復(fù)句中文篇章理論之外,文獻(xiàn)[64]提出了一種混合確定性中文篇章分析方法,它是RST分析、主位模式分析、向量空間模型等方法的混合,利用主述位分析、平行句式分析等多種方法來推測輸入文本最可能的篇章結(jié)構(gòu)。作為一種混合方法,此方法較比傳統(tǒng)的向量空間模型等方法在適用范圍上也相對更廣。文獻(xiàn)[65]探索了中文篇章理解的元指代消解問題,提出了句焦點(diǎn)概念,采用相應(yīng)的規(guī)則過濾算法生成較為連貫的語篇。文獻(xiàn)[66]深入分析了指代消解問題,研究了基于樹核函數(shù)的指代消解技術(shù),并在中心理論的指導(dǎo)下,采用平面特征與結(jié)構(gòu)化特征相結(jié)合的方法,較大程度地提升了中文篇章指代消解的性能。
由于中文篇章理論的不成熟性直接導(dǎo)致了中文篇章語料庫的缺乏。根據(jù)我們的調(diào)研,目前的中文篇章語料庫方面的工作都比較初步,可以大致分為三大類:其一,以“本土”句群和復(fù)句理論為代表的中文篇章語料庫;其二,以借鑒西方RST為代表的中文篇章語料庫;其三,以借鑒西方PDTB體系為代表的中文篇章語料庫。下面我們分別介紹。
5.2.1 “本土”句群和復(fù)句理論為代表的中文篇章語料庫
文獻(xiàn)[67]對國內(nèi)外幾個(gè)主流的漢語樹庫的建設(shè)過程和主要特點(diǎn)進(jìn)行了綜述,其中清華漢語樹庫作為國內(nèi)第一個(gè)大規(guī)模漢語短語結(jié)構(gòu)樹庫,已經(jīng)標(biāo)注的復(fù)雜句子比例為56.8%,說明清華漢語樹庫已經(jīng)成為中文篇章語料庫的雛形。據(jù)文獻(xiàn)[68]介紹,作者已經(jīng)開發(fā)了100萬詞規(guī)模的漢語句法樹庫,標(biāo)注體系中采用的標(biāo)記組{單句句型、復(fù)句句型、整句、句群}較好地體現(xiàn)了句子間的組合關(guān)系,其中單句句型和復(fù)句句型既可以靈活地充當(dāng)句子特定的成分又可以構(gòu)成整句,但整句則不充當(dāng)句子中的句法成分,多個(gè)整句便構(gòu)成句群。另外,華中師范大學(xué)語言與語言教育研究中心開發(fā)了一個(gè)面向漢語復(fù)句研究的專用語料庫,采用《人民日報(bào)》和《長江日報(bào)》作為語料來源,已收有標(biāo)復(fù)句 658 447句,約44 395 000字,收錄了各種句式的現(xiàn)代漢語有標(biāo)復(fù)句*http://ling.ccnu.edu.cn:8089/jiansuo/TestFuju.jsp。
5.2.2 借鑒西方RST為代表的中文篇章語料庫
文獻(xiàn)[69]是迄今為止較完整的中文篇章語料庫,其采用RST預(yù)計(jì)對395篇財(cái)經(jīng)評論文章進(jìn)行標(biāo)注。第一階段已經(jīng)完成了97篇中文文章的標(biāo)注,在句子切分時(shí)考慮句號、問號、嘆號、分號、冒號等進(jìn)行自然切分,對有主次重要成分的單模型采用二叉樹結(jié)構(gòu)進(jìn)行標(biāo)注,對多個(gè)同等重要成分的多模型采用多叉樹結(jié)構(gòu)進(jìn)行標(biāo)注。其首先利用RST-Tool工具對文本預(yù)標(biāo)注,然后人工驗(yàn)證和修改,但初步取得的人工標(biāo)注一致性程度不是很高(Kappa系數(shù)為0.638)。實(shí)驗(yàn)結(jié)果初步說明了將RST不加修改地直接應(yīng)用于中文篇章是否切實(shí)可行,其需要篇章研究人員進(jìn)一步探索。
5.2.3 借鑒西方PDTB體系為代表的中文篇章語料庫
文獻(xiàn)[70]分析了中文樹庫上的篇章連接詞標(biāo)注工作,其采用類似PDTB的標(biāo)注標(biāo)準(zhǔn)對中文樹庫中的顯式連接詞進(jìn)行標(biāo)注,分析了中文篇章連接詞的分布情況,探索了中文篇章連接詞的意義消歧和中文篇章連接詞的變形等問題。文獻(xiàn)[71]是中國臺灣大學(xué)在中文篇章關(guān)系識別方面的最新工作,其主要貢獻(xiàn)之一是基于Sinica Treebank3.1之上手工標(biāo)注了81篇中文文章,完成了3 081個(gè)句對的小規(guī)模的中文篇章樹庫。但筆者認(rèn)為其當(dāng)前的版本主要存在以下兩個(gè)問題: 其一是在篇章連接詞的參數(shù)定位上,他們以句子作為基本單位,然而實(shí)際情況卻更加復(fù)雜,這種參數(shù)單位可以是從句、一個(gè)句子或多個(gè)句子;其二是標(biāo)注一致性有待于驗(yàn)證,文獻(xiàn)作者并沒有給出標(biāo)注一致性Kappa值,但筆者認(rèn)為Kappa值是任何語料不可缺少的一部分,因?yàn)镵appa值可以從另一側(cè)面反映出中文篇章語料庫標(biāo)注工作的難度和語料本身的質(zhì)量。
據(jù)我們調(diào)研,目前僅有文獻(xiàn)[71]提到中文篇章分析器的自動構(gòu)建工作,總體來說,它采用類似英文篇章分析器的構(gòu)建思路,將其看成分類問題,利用了句子長度、標(biāo)點(diǎn)符號、連接詞、詞性、上位詞等在內(nèi)的平面特征,采用完全監(jiān)督的機(jī)器學(xué)習(xí)方法,對于顯式和隱式篇章關(guān)系取得了88.28%的Accuracy和63.69%的F1性能。
多年來,篇章分析的研究工作主要圍繞篇章建模、篇章分析器自動構(gòu)建、基于篇章分析的上層應(yīng)用三個(gè)子方向進(jìn)行。篇章分析的這三個(gè)子方向形成了一個(gè)自底向上的關(guān)系,其中篇章理論是基石,它的成熟性和完備性將直接影響到篇章語料庫的質(zhì)量,進(jìn)而影響篇章分析器的性能,最終影響到基于篇章分析的自然語言處理的上層應(yīng)用的性能。通過對這些已有研究的分析和總結(jié),我們可以歸結(jié)出篇章分析的后續(xù)研究的幾個(gè)方向:
(1) 篇章分析器的自動構(gòu)建
通過上文分析,我們可以明確到,目前不管是基于PDTB風(fēng)格的還是基于RST-DT風(fēng)格的篇章分析器的整體性能都不高。鑒于此,仍有以下子問題需要探索:其一,隱式篇章關(guān)系識別問題:當(dāng)前隱式篇章關(guān)系的第一、二層次語義的識別性能均僅在40%左右,從目前的研究看來,詞匯級、短語級等平面特征相對較多,但結(jié)構(gòu)化特征如樹核、復(fù)合樹核相對較少。文本中較深層次的語言學(xué)特征的挖掘、提取和選擇需要篇章分析研究者和語言學(xué)工作者長期不懈的努力。其二,論元識別問題:雖然Subordinating和Coordinating類別的Argument識別達(dá)到82%左右的性能,但它考慮的是句內(nèi)的情況。隨著時(shí)間的推移,筆者相信跨句的Argument的定位和識別以及Discourse adverbial的Argument的識別將逐漸會成為研究熱點(diǎn);其三,除了顯示和隱式篇章關(guān)系之外,如何確定AltLex、EntRel和NoRel幾大類型將是篇章分析器的又一難點(diǎn);其四,篇章分析器的整體性能提升問題:自動生成一個(gè)離適用階段性能要求相近的且較為完整的篇章分析器仍需要很長一段時(shí)間的努力。
(2) 篇章級的語義分析
傳統(tǒng)的文本語義分析大部分都是建立在單個(gè)句子層面上的,沒有綜合考慮句子所處的上下文方面的信息,而這些信息對于文本的較深層次的語義挖掘起到非常關(guān)鍵的作用。我們認(rèn)為篇章級的語義分析至少存在以下三個(gè)研究點(diǎn),其一,篇章語義樹模型。對文本建立類似RST的篇章樹,同時(shí)對篇章樹中的節(jié)點(diǎn)引入對應(yīng)WordNet語義信息(同義詞、上位詞、下位詞、反義詞等),可以避免傳統(tǒng)BOW模型缺乏深層次語義信息的缺陷;其二,篇章中實(shí)體間的語義關(guān)系網(wǎng)絡(luò)模型。通過對篇章中的句子進(jìn)行淺層語義分析(Semantic Role Labeling,簡稱SRL),然后對SRL標(biāo)記的每個(gè)Argument建立類似中心理論的實(shí)體關(guān)系網(wǎng)絡(luò),并結(jié)合實(shí)體間的指代消解技術(shù),可以生成較豐富的篇章實(shí)體關(guān)系網(wǎng)絡(luò)模型;其三,基于篇章級語義模型的上層應(yīng)用。上述兩個(gè)篇章模型都可以應(yīng)用在篇章的一致性和連貫性評估、文本的相似度檢測、科技論文的復(fù)制檢測、計(jì)算機(jī)輔助評估等領(lǐng)域。
(3) 篇章級的“話題”結(jié)構(gòu)分析
“話題”是現(xiàn)代語言學(xué)的一個(gè)重要概念,它是指文本中被討論的對象。它包括針對單個(gè)句子的句內(nèi)話題和針對整個(gè)語篇的篇章話題兩種形式?!霸掝}”對于篇章的一致性和連貫性非常重要,有良好延續(xù)性的“話題”可以使整個(gè)篇章更易于理解,相反,頻繁轉(zhuǎn)換“話題”的篇章則不易于理解。關(guān)于篇章級的“話題”結(jié)構(gòu)研究方面,我們認(rèn)為至少存在以下三個(gè)研究點(diǎn),其一,語篇“話題”的識別問題。隨著自然語言處理的句法分析和淺層語義分析等工具性能的不斷提高,我們可以借助這些工具對文本預(yù)先進(jìn)行句法和語義分析,抽取出文本中的名詞短語、動詞短語、時(shí)間詞、地點(diǎn)詞和小句等這些潛在的“話題”對象,然后采用中心理論或指代消解技術(shù),利用回指頻度和回指方式等特征(例如,我們可以把回指次數(shù)相對比較多和具有大量回指的實(shí)體看成整個(gè)語篇的“話題”)進(jìn)行“話題”的識別工作;其二,“話題鏈”識別問題?!霸掝}鏈”具有強(qiáng)大的篇章組織功能。通過對自然語言文本抽取出不同的“話題鏈”,可以分析出“話題鏈”內(nèi)部和“話題鏈”之間的延續(xù)或跳轉(zhuǎn)關(guān)系,對于探索語篇的組織形式和篇章意識的培養(yǎng)具有關(guān)鍵作用;其三,基于篇章級“話題”結(jié)構(gòu)分析的上層NLP應(yīng)用。通過確定整個(gè)篇章的“話題”和“話題鏈”后,可以在“話題”的指導(dǎo)下探索基于“話題鏈”的教學(xué)、基于篇章“話題”結(jié)構(gòu)的機(jī)器翻譯等等??傊?,針對整個(gè)語篇的篇章級的“話題”結(jié)構(gòu)研究將逐漸成為研究熱點(diǎn)。
(4) 中文篇章分析技術(shù)
通過本文的分析,當(dāng)前篇章分析技術(shù)的研究者主要集中在歐美國家,中文篇章分析技術(shù)研究相對較少。雖然部分英文篇章分析技術(shù)可以直接移植到中文篇章環(huán)境,但我們?nèi)孕枰槍χ形乃哂械奶攸c(diǎn),專門設(shè)計(jì)和完善相應(yīng)的中文篇章理論、中文篇章語料庫和中文篇章分析器。這些工作都將切實(shí)推動中文篇章分析技術(shù)的前進(jìn)。
致謝在此,我們向?qū)Ρ狙芯抗ぷ魈峁椭睦蠋熀屯瑢W(xué)表示感謝。
[1] Grosz B J, Joshi A K, Weinstein S. Centering:A Framework for Modeling the Local Coherence of Discourse[J]. Computational Linguistics, 1995, 21(2): 203-225.
[2] Mann W C, Thompson S A. Rhetorical Structure Theory: Toward a functional theory of text organization[J]. Text, 1988, 8(3): 243-281.
[3] Webber B. D-LTAG: extending lexicalized TAG to discourse[J]. Cognitive Science, 2004, 28(5): 751-779.
[4] Jerry R H. On the coherence and structure of discourse[R]. USA: Stanford CA, 1985.
[5] Wolf F, Gibson E. Representing discourse coherence: a corpus-based analysis[C]//Proceedings of the 20th International Conference on Computational Linguistics.Morristown: Association for Computational Linguistics, 2004: 134-140.
[6] 吳為章, 田小琳.漢語句群[M].北京: 商務(wù)印書館, 2000: 1-246.
[7] 邢福義.漢語復(fù)句研究[M].北京: 商務(wù)印書館, 2001: 1-693.
[8] Meyer T. Disambiguating Temporal-Contrastive Discourse Connectives for Machine Translation[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies.Morristown: Association for Computational Linguiscs, 2011: 46-51.
[9] Meyer T, Belis A P. Multilingual Annotation and Disambiguation of Discourse Connectives for Machine Translation[C]//Proceedings of the 10th Annual Sigdial Meeting on Discourse and Dialogue.Morristown: Association for Computational Linguiscs, 2011: 194-203.
[10] Nagard R L, Koehn P. Aiding Pronoun Translation with Co-Reference Resolution[C]//Proceedings of Workshop on SMT and MetricsMATR.Morristown: Association for Computational Linguiscs, 2010: 252-261.
[11] Haenelt K. Towards a Quality Improvement in Machine Translation: Modelling Discourse Structure and Including Discourse Development in the Determination of Translation Equivalents[C]//Proceedings of the 4th International Conference on Theoretical and Methodological Issues in Machine Translation.Morristown: Association for Computational Linguiscs, 1992: 205-212.
[12] Mitkov R. How could rhetorical relations be used in machine translation (and at least two open questions)?[C]//Proceedings of ACL Workshop on Intentionality and Structure in Discourse Relations.Morristown: Association for Computational Linguiscs, 1993: 86-89.
[13] 劉挺, 王開鑄.基于篇章多級依存結(jié)構(gòu)的自動文摘研究[J].計(jì)算機(jī)研究與發(fā)展, 1999, 36(4): 479-488.
[14] 王建波, 王開鑄.自然語言篇章理解及基于理解的自動文摘研究[J].中文信息學(xué)報(bào), 1992, 6(2): 1-7.
[15] 王建波, 杜春玲, 王開鑄.基于篇章理解的自動文摘研究[J].中文信息學(xué)報(bào), 1995, 9(3): 33-42.
[16] Chai J, Jing R. Discourse Structure for Context Question Answering[C]//Proceedings of the Workshop on Pragmatics of Question Answering at the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics.Morristown: Association for Computational Linguistics, 2004: 23-30.
[17] Sun M, Chai J Y. Discourse processing for context question answering based on linguistic knowledge[J]. Knowledge-based Systems, 2007, 20(6): 511-526.
[18] 張志昌,張宇,劉挺,等.基于話題和修辭識別的閱讀理解Why型問題回答[J].計(jì)算機(jī)研究與發(fā)展, 2011, 48(2): 216-223.
[19] 吳華, 黃泰翼.問答篇章生成系統(tǒng)中的用戶模型和文本規(guī)劃[J].中文信息學(xué)報(bào), 2001, 15(4): 28-34.
[20] 崔耀, 陳永明.一個(gè)實(shí)驗(yàn)性的漢語篇章理解系統(tǒng)[J].中文信息學(xué)報(bào), 1994, 8(3): 24-34.
[21] Huttunen S, Vihavainen A, Etter P V, et al. Relevance Prediction in Information Extraction using Discourse and Lexical Features[C]//Proceedings of the 18th Nordic Conference of Computational Linguistics.Latvia, 2011: 114-121.
[22] Cimiano P, Reyle U, Saric J. Ontology-driven discourse analysis for information extraction[J]. Data & Knowledge Engineering, 2005(55): 59-83.
[23] 唐旭日,陳小荷,許超,等.基于篇章的中文地名識別研究[J].中文信息學(xué)報(bào), 2010, 24(2): 24-32.
[24] 袁毓林.用邏輯和篇章知識來約束模板匹配——邏輯結(jié)構(gòu)和篇章結(jié)構(gòu)知識在信息抽取中的運(yùn)用[J].中文信息學(xué)報(bào), 2004, 19(4): 39-45.
[25] Wang D Y, Luk R W P, Wong K F, et al. An Information Retrieval Approach Based on Discourse Type[C]//Proceedings of the 11th International Conference on Applications of Natural Language to Information System. Springer.2006: 197-202.
[26] Morato J, Llorens J, Genova G, et al. Experiments in discourse analysis impact on information classification and retrieval algorithms[J]. Information Processing and Management, 2003, 39(6): 825-851.
[27] Mohler M, Bunescu R, Mihalcea R. Learning to Grade Short Answer Questions using Semantic Similarity Measures and Dependency Graph Alignments[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Morristown: Association for Computational Linguistics, 2011: 752-762.
[28] Yannakoudakis H, Briscoe T, Medlock B. A New Dataset and Method for Automatically Grading ESOL Texts[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Morristown: Association for Computational Linguistics, 2011: 180-189.
[29] Somasundaran S, Namata G, Wiebe J, et al. Supervised and Unsupervised Methods in Employing Discourse Relations for Improving Opinion Polarity Classification[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.Morristown: Association for Computational Linguistics, 2009: 170-179.
[30] Escalante H J, Solorio T. Local Histograms of Character N-grams for Authorship Attribution[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics.Morristown: Association for Computational Linguistics, 2011: 288-298.
[31] Prasad R, Miltsakaki E, Dinesh N, et al. The Penn Discourse Treebank 2.0 Annotation Manual[R].USA: University of Pennsylvania, 2008.
[32] Carlson L, Marcu D, Okurowski M E. Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory[C]//Proceedings of the Annual Sigdial Meeting on Discourse and Dialogue, Morristown: Association for Computational Linguiscs, 2001: 30-39.
[33] Forbes K, Miltsakaki E, Prasad R, et al. D-LTAG System: Discourse Parsing with a Lexicalized Tree-adjoining Grammar[J]. Journal of Logic, Language and Information, 2001, 12(3): 261-279.
[34] Joshi A K, Schabes Y. Tree-Adjoing Grammar and Lexicalized Grammars[R]. USA: University of Pennsylvania, 1991.
[35] Taboada M, Mann W C.Applications of Rhetorical Structure Theory[J].Discourse Studies, 2006, 8(4): 567-588.
[36] 衛(wèi)真道(著),徐赳赳(譯).篇章語言學(xué)[M].北京: 中國社會科學(xué)出版社, 2002: 1-171.
[37] Lin ZH, Ng H T, Kan M Y. A PDTB-styled end-to-end discourse parser[R]. Singapore: National University of Singapore, 2010.
[38] Pitler E, Nenkova A. Using Syntax to Disambiguate Explicit Discourse Connectives in Text[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Morristown: Association for Computational Linguistics, 2009: 13-16.
[39] Pitler E, Raghupathy M, Mehta H, et al. Easily Identifiable Discourse Relations[C]//Proceedings of the 22nd International Conference on Computational Linguistics.Morristown: Association for Computational Linguistics, 2008: 85-88.
[40] Wellner B, Pustejovsky J. Automatically Identifying the Arguments of Discourse Connectives[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning.Morristown: Association for Computational Linguistics, 2007: 92-101.
[41] Prasad R, Joshi A, Webber B. Realization of Discourse Relations by Other Means: Alternative Lexicalizations[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Morristown: Association for Computational Linguistics, 2010: 1023-1031.
[42] Wang WT, Su J, Tan C L. Kernel Based Discourse Relation Recognition with Temporal Ordering Information[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics. Morristown: Association for Computational Linguistics, 2010: 710-719.
[43] Zhou ZM, Xu Y, Niu ZY, et al. Predicting Discourse Connectives for Implicit Discourse Relation Recognition[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Morristown: Association for Computational Linguistics, 2010: 1507-1514.
[44] Zhou ZM, Lan M, Niu ZY, et al. The Effects of Discourse Connectives Prediction on Implicit Discourse Relation Recognition[C]//Proceedings of the 9th Annual Sigdial Meeting on Discourse and Dialogue.Morristown: Association for Computational Linguiscs, 2010: 139-146.
[45] Lin ZH, Kan M Y, Ng H T. Recognizing Implicit Discourse Relations in the Penn Discourse Treebank[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing.Morristown: Association for Computational Linguistics, 2009: 343-351.
[46] Pitler E, Louis A, Nenkova A. Automatic Sense Prediction for Implicit Discourse Relations in Text[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Morristown: Association for Computational Linguistics, 2009: 683-691.
[47] Hernault H, Bollegala D, Ishizuka M. A Semi-Supervised Approach to Improve Classification of Infrequent Discourse Relations using Feature Vector Extension[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing.Morristown: Association for Computational Linguistics, 2010: 399-409.
[48] Tofiloski M, Brooke J, Taboada M. A Syntactic and Lexical-Based Discourse Segmenter[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Morristown: Association for Computational Linguistics, 2009: 77-80.
[49] Soricut R, March D. Sentence Level Discourse Parsing Using Syntactic and Lexical Information[C]//Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics. Morristown: Association for Computational Linguistics, 2003: 149-156.
[50] LeThanh H, Abeysinghe G, Huyck C. Generating Discourse Structures for Written Texts[C]//Proceedings of the 20th International Conference on Computational Linguistics.Morristown: Association for Computational Linguistics, 2004: 329-335.
[51] Hernault H, Bollegala D, Ishizuka M.A Sequential Model for Discourse Segmentation[C]//Proceedings of the 11th International Conference on Intelligent Text Processing and Computational Linguistics. Morristown: Association for Computational Linguistics, 2010: 315-326.
[52] DuVerle D A, Prendinger H. A Novel Discourse Parser Based on Support Vector Machine Classification[C]//Proceedings of the Joint Conference of the 47th Annual Meeting of the ACL and the 4th International Joint Conference on Natural Language Processing of the AFNLP. Morristown: Association for Computational Linguistics, 2009: 665-673.
[53] 田然.近二十年漢語語篇研究述評[J].漢語學(xué)習(xí), 2005, 1: 51-55.
[54] 鄭貴友.中文篇章分析的興起與發(fā)展[J].漢語學(xué)習(xí), 2005, 5: 40-48.
[55] 聶仁發(fā).漢語語篇研究回顧與展望[J].寧波大學(xué)學(xué)報(bào)(人文科學(xué)版),2009, 22(3): 40-45.
[56] 陳莉萍.修辭結(jié)構(gòu)理論與句群研究[J].蘇州大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2008, 4: 118-121.
[57] 徐赳赳, Webster J J.復(fù)句研究與修辭結(jié)構(gòu)理論[J].外語教學(xué)與研究, 1999, 4: 16-22.
[58] 曹政.句群初探[M].杭州: 浙江教育出版社, 1984: 1-130.
[59] 張志公.張志公文集①漢語語法[M].上海: 上海教育出版社, 1962: 1-651.
[60] 呂叔湘.中國文法要略[M].北京: 商務(wù)印書館, 1956: 1-463.
[61] 王力.中國現(xiàn)代語法[M].北京: 商務(wù)印書館, 1985: 1-402.
[62] 陸儉明.現(xiàn)代漢語句法[M].北京: 商務(wù)印書館, 1993: 1-235.
[63] 黎錦熙. 新著國語文法[M].湖南: 湖南教育出版社, 2007: 1-347.
[64] 張益民,陸汝占,沈李斌.一種混合型的中文篇章結(jié)構(gòu)自動分析方法[J].軟件學(xué)報(bào), 2000, 11(11): 1527-1533.
[65] 張威,周昌樂.漢語語篇理解中元指代消解初步[J].軟件學(xué)報(bào), 2002, 13(4): 732-738.
[66] 孔芳.指代消解關(guān)鍵問題研究[D].蘇州: 蘇州大學(xué), 2009.
[67] 王躍龍,姬東鴻.漢語樹庫綜述[J].當(dāng)代語言學(xué), 2009, 11(1): 47-55.
[68] 周強(qiáng).漢語句法樹庫標(biāo)注體系[J].中文信息學(xué)報(bào), 2004, 18(3): 1-8.
[69] 樂明.中文篇章修辭結(jié)構(gòu)的標(biāo)注研究[J].中文信息學(xué)報(bào), 2008, 22(4): 19-23.
[70] Xue Nianwen.Annotating Discourse Connectives in the Chinese Treebank[C]//Proceedings of CorpusAnno.Morristown: Association for Computational Linguistics, 2005: 84-91.
[71] Hen-Hsen Huang, Hsin-His Chen.Chinese Discourse Relation Recognition[C]//Proceedings of the 5th International Joint Conference on Natural Language.
[72] Processing. Asian Federation of Natural Language Processing.2011: 1442-1446.