呂國英,蘇 娜,李 茹,2,王智強
(1. 山西大學 計算機與信息技術學院,山西 太原 030006;2. 山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
基于CFN的漢語篇章連貫性研究
呂國英1,蘇 娜1,李 茹1,2,王智強1
(1. 山西大學 計算機與信息技術學院,山西 太原 030006;2. 山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006)
篇章連貫性研究是篇章分析領域的重要課題之一?;贑hinese FrameNet(CFN),該文構建了漢語篇章連貫性描述體系,該描述體系研究了框架語義與篇章單元的關系,探討了篇章如何通過框架與框架之間的語義關系實現(xiàn)篇章的連貫,為篇章連貫提供了合適的描寫機制和計算基礎。從《人民日報》選取了160篇文章進行標注實踐,在篇章結(jié)構和篇章關系兩方面均取得了大于0.8的kappa值,驗證了描述體系具有較高的人工標注一致性,可作為進一步進行大規(guī)模篇章標注語料構建的依據(jù)。
框架;篇章單元;篇章結(jié)構;篇章關系;kappa值
篇章連貫性是指篇章中所表達的各種概念和關系的彼此關聯(lián),從而使人們能夠合理推理篇章的深層意義[1]。它在自然語言處理的許多應用領域都發(fā)揮了重要作用,如在統(tǒng)計機器翻譯(statistical machine translation,SMT)[2]領域,能夠通過修辭關系來提升SMT的性能;在自動問答系統(tǒng)(question answering,QA)[3]領域,篇章連貫性對于復雜的答案確定能起到很大作用。相比英語,漢語的篇章連貫性研究工作仍然偏少,這主要是由于適用于漢語自身的篇章連貫性描述體系及其大規(guī)模篇章標注語料庫的缺乏。
目前針對篇章的連貫性描述體系,從依賴的核心內(nèi)容來看主要有基于篇章關系的連貫性和基于話題鏈的連貫性等。在基于篇章關系的連貫性表示方面, 主要包括以修辭結(jié)構理論(rhetorical structure theory,RST)[4]為理論基礎的英語篇章語料庫(RST discourse Treebank,RST-DT)[5]和以篇章詞匯化樹型鄰接語法(discourse lexicalized tree adjoining grammar,D-LTAG)[6]為理論基礎的賓州篇章樹庫(Penn discourse Treebank,PDTB)[7]。RST理論以篇章中的初級篇章單元(elemental discourse units,EDUs)為基本單位,依據(jù)篇章單元之間的修辭關系,自底向上組合形成了二叉或多叉的有層次修辭結(jié)構樹。在國內(nèi),孫靜[8]等在RST體系上進行了改良,構建了中文的篇章語料庫。PDTB選擇篇章連接詞作為“謂詞”,通過分析連接詞所控制的論元來分析論元之間的關系。張牧宇[9]等在PDTB體系上進行改良,提出了面向中文的層次化篇章關系體系,并對大規(guī)模的漢語新聞語料進行了篇章關系標注實驗。RST和PDTB因其具有完整的理論體系、很強的可操作性受到了篇章研究者的青睞,但是這種表示方式局限于篇章內(nèi)部的句子關系分析,忽略了句子內(nèi)部的分析,沒有考慮其他影響和支配篇章連貫的因素,如情境語境因素、心理認知因素等。
在基于話題鏈的連貫性表示方面,周強[10]等認為無論是漢語話題鏈理論研究,還是廣義話題結(jié)構分析和實體鏈、事件鏈上的可計算性,都初步證明了話題鏈對篇章連貫性有很大意義。在此基礎上,他們形成了一套以話題鏈為主,融合關聯(lián)詞語和其他連貫形式的描述機制,重構了現(xiàn)有的連貫關系描述集。話題鏈具有強大的篇章組織功能,通過話題之間的相互關系可以將篇章連接為一個完整的語義體,這種表示方式在一定程度上既反映了語義內(nèi)容,又反映了結(jié)構信息。
隨著認知語言學的迅速發(fā)展,人們開始采用認知框架的相關概念,構建篇章連貫的認知框架模型,來探索篇章連貫研究的新方法。李天賢[11]從對形式連貫的批評出發(fā),側(cè)重探討篇章連貫的認知框架因素,考察了篇章語言單位所激活的概念之間的關系在實現(xiàn)篇章意圖中的認知模式等。鑒于框架語義學能夠充分考慮篇章的背景知識、挖掘語言符號所蘊含的語義信息的優(yōu)勢,本文利用山西大學在Fillmore[12]提出的框架語義學理論基礎上構建的漢語框架網(wǎng)(Chinese Framenet,簡稱CFN)[13-14],將篇章連貫這個篇章語言學中的問題轉(zhuǎn)化為一個可計算的篇章框架語義結(jié)構樹分析問題,建立了方便計算機實現(xiàn)的框架篇章連貫性描述體系。該體系從形式上實現(xiàn)了篇章語義一級表示,探討了篇章如何通過詞語激活框架,以及框架之間的語義關系,以此實現(xiàn)篇章的連貫,這既在一定程度上模擬了篇章的語義內(nèi)容,又具有可計算性。本文在第二節(jié)詳細闡述了漢語篇章連貫性描述體系;第三節(jié)在描述體系的基礎上進行語料標注實踐,并做標注一致性檢驗;第四節(jié)總結(jié)全文,并展望未來研究工作。
篇章連貫可以從語言表層形式來體現(xiàn),更重要的則是表層語言形式背后的意義關系。從框架語義學角度出發(fā),假設語言符號是表達篇章意義的形式標記,通過它們激活人腦中已存儲的框架,以及在框架語義關系基礎上形成的篇章框架語義結(jié)構,從而完成篇章的連貫。依據(jù)此假設,本文將探討如何從形式上來表示連貫篇章的這種結(jié)構形式,即探討什么是篇章的基本構成單元、如何將這些基本構成單元組合在一起構成語義的整體,以及如何表示篇章的單元和篇章整體結(jié)構。
2.1 篇章基本構成單元與框架語義
篇章作為一個較復雜的語言單位,不同的學派對其定義也不盡相同。Kinneavy[15]認為篇章不僅包括口語和書面語中合乎邏輯而相互關聯(lián)的內(nèi)容,而且還指為了解各種目的或事件所涉及的言語活動。黃國文[16]則把篇章視為一系列連續(xù)的語段或句子構成的語言整體。本文從框架語義學角度出發(fā),認為篇章是框架的載體,篇章中的基本構成單元至少對應一個框架語義結(jié)構。
定義2.1框架[13-14]
框架(frame,F(xiàn))提供詞語在語言中使用的背景和動因,是人類在理解語言時,儲存在人類認知經(jīng)驗中的圖式化場境,場景內(nèi)容可以是一個動作、一個活動事件,也可以是一個實體、抽象體的狀態(tài)??蚣苷Z義學將具有相同基本意義、支配相同類型語義角色的詞語歸入一個框架,比如“渴望”框架下的詞語有“渴望”“希望”“盼望”“向往”等,描述的是某個經(jīng)歷者渴望某個事件發(fā)生。這些詞語雖然意義不盡相同,但在表述“渴望”框架下的場景意義時卻是相同或相似的。
定義2.2框架元素[13-14]
框架元素(frame element,F(xiàn)E)是框架語義場景中涉及的語義參與者,如“渴望”框架下,涉及“經(jīng)歷者”“事件”“事件目的”等語義角色。
定義2.3目標詞[13-14]
目標詞(target,tgt)是指在一個具體的句子中能夠激起句子所描述框架語義場景的詞語,本文所用到的目標詞主要是指句子中的謂詞(主要包括動詞和形容詞),同時也包含部分名詞。
框架語義學能夠在框架語義結(jié)構與句子結(jié)構之間建立起形式上的映射關系。形式上,每個框架對應一個語義結(jié)構,反映框架內(nèi)部各框架元素之間的組合關系;每個句子對應一個句法結(jié)構,反映句內(nèi)各成分之間的關系。通常情況下,一個框架語義結(jié)構可以通過不同句法結(jié)構形式的句子來表示。在語言學中,篇章的基本構成單元是小句,大多數(shù)簡單小句只能激起一個框架,但漢語真實文本的小句往往能激起多個框架。本文將框架與小句的映射關系具體形式化描述為:
C= {f1(tgt,FE1,FE2,…,FEn),…,
fm(tgt,FE1,FE2,…,FEn)}
其中,C是一個小句,fx(1≤x≤m)是小句激活的第x個框架,tgt是目標詞,F(xiàn)Ex(1≤x≤n)是小句的某個句法成分充當該框架下的第x個框架元素。例如, “他希望專家學者持續(xù)關注教育實踐活動”是一個由一個小句構成的句子,由目標詞“希望”與“關注”激起的框架可表示為:S={渴望(tgt(希望),經(jīng)歷者(他),事件(專家學者持續(xù)關注教育實踐活動)),重視(tgt(關注),致動者(專家學者),頻率(持續(xù)),考慮事項(教育實踐活動))}。其中,“經(jīng)歷者”和“事件”是“渴望”框架下的兩個框架元素,“致動者”“頻率”和“考慮事項”是“重視”框架下的三個框架元素。
由上可知,框架語義學中的框架是以語言符號為載體的語義系統(tǒng),通過句中的目標詞和其攜帶的框架元素來表示語義場景,是人們體驗和認知客觀世界的基本單位。因此,本文將至少包含一個框架的小句作為篇章的基本構成單元,這樣操作可以通過框架元素與句法成分之間的映射關系建立起篇章的局部結(jié)構關系,這對于篇章連貫研究來說,可以提高篇章連貫結(jié)構分析的計算模型的局部可操作性。
2.2 框架語義與篇章連貫性描述體系
包含框架的小句作為篇章的基本構成單位,那么研究篇章連貫就是研究語言符號激活的框架所表示語義場景之間的相互語義關系,并通過構建篇章框架的結(jié)構來表示篇章的整體結(jié)構。借鑒徐盛桓的篇章情景組合理論[17],可以將基本構成單元形成篇章整體結(jié)構的過程描述為: 篇章中較小的場景之間不斷通過語義關系合成稍大的上層語義場景,直至合成篇章最大的語義場景。其中,最小的語義場景是篇章中的小句激起的框架語義場景,每個合成的稍大場景都由下層較小的場景表示。
人們憑借過去的經(jīng)驗,發(fā)現(xiàn)兩個或多個框架經(jīng)常結(jié)合在一起,那么這些框架之間就會存在某種語義關系。結(jié)合2.1節(jié)框架與語言符號之間的關系,發(fā)現(xiàn)框架間的這種語義關系體現(xiàn)在語言符號上,與RST理論所探討篇章關系是相似的。如“造成傷害”框架與“身體感知”框架經(jīng)常結(jié)合在一起出現(xiàn)在人的大腦里,構成因果關系。把這兩個框架所描述的場景轉(zhuǎn)換成語句時,就會出現(xiàn)“他受傷了,傷口很痛”這樣的句子。句中“受傷”激起框架“造成傷害”,“痛”激起框架“身體感知”,在人的認知中建立起“造成傷害”框架與“身體感知”框架這兩個場景的因果關系。同時,在“造成傷害”框架下的其他詞語,都能與“身體感知”框架下的詞語建立起因果關系。由此可知,框架之間的語義聯(lián)系即篇章關系,與句子之間的搭配是內(nèi)容與形式的關系。
由上可知,本文可以將框架語義學下的漢語篇章連貫性描述體系描述為: 一個篇章由與篇章內(nèi)容相關的框架集組合而成,其中較小的框架集描述的場景按照篇章關系組合形成更大的場景,并進一步再與相鄰的框架集所描述的場景組合,最終形成一棵具有層次的篇章框架語義結(jié)構樹,描述一個完整的最大的語義場景,結(jié)構樹中的葉子節(jié)點是篇章的基本構成單元──包含框架的小句。由于連接詞對于判定場景間的篇章關系具有很強的作用,如出現(xiàn)“因為……,所以……”這樣的連詞時,就可判定兩個場景之間是因果關系,因此本文將出現(xiàn)連接詞的篇章關系定義為顯式的,將沒有出現(xiàn)連接詞的篇章關系定義為隱式的[7]。
2.2.1 篇章單元的框架表示
針對漢語篇章由一系列句子構成,每個句子由一系列小句構成的特點,在分析篇章關系時,既包括句子之間的關系,也包括句子內(nèi)各小句的關系,本文將含一個段落的篇章(discourse,D)中的句子經(jīng)“,”、“: ”等分割的語義單元定義為初級篇章單元(primary discourse unit,PDU),一些初級篇章單元沒有能激起框架的目標詞,也就是說不能構成篇章的基本構成單元,因此將不具有框架的初級篇章單元與相鄰具有框架的初級篇章單元合并在一起構成一級篇章單元(first discourse unit,F(xiàn)DU),其他含有框架的PDU直接向上構成FDU;經(jīng)“?!薄ⅰ??”和“!”等分割的篇章單元定義為二級篇章單元(second discourse unit,SDU)。從形式上看,一個篇章由數(shù)個二級篇章單元連接構成,二級篇章單元又由數(shù)個一級篇章單元連接而成,一級篇章單元至少對應一個框架語義結(jié)構,也就是篇章的基本構成單元──至少包含一個框架的小句。如例1所示,三個句子構成一個篇章,篇章的每一級篇章單元都可以由框架進行表示,“()”中內(nèi)容為初級篇章單元,“[]”中內(nèi)容為一級篇章單元,“{}”中內(nèi)容為二級篇章單元,斜體字是目標詞,黑體字是目標詞激起的框架。
例1{[(美國方面表示表達)PDU1]FDU1,[(美國將與烏克蘭及歐洲盟友合作合作)PDU2]FDU2}SDU1。 {[(美國開始著手準備通過輸歐天然氣管道向烏供提供氣)PDU1]FDU1,[(以使烏方獲得獲得價格適中的天然氣)PDU2]FDU2}SDU2。 {[(此外)PDU1,(美國將采取緊急措施援助協(xié)助烏克蘭)PDU2]FDU1,[(包括包含立即向烏提供提供財政支持)PDU3]FDU2,[(在能源安全和能源改革領域向烏提供提供支持)PDU4]FDU3}SDU3。
上述篇章的篇章單元構成情況可轉(zhuǎn)換為如圖1所示的篇章單元構成圖(注: 圖中篇章單元進行框架表示時,由于框架元素較多,本文用…省略表示)。
圖1 篇章單元構成圖
從例1和圖1中可以看出,在PDU層級,從每個初級篇章單元中識別出—框架(目標詞),其中第三個句子的“PDU1此外”沒有能激起框架的目標詞,具體表示如下:
SDU1.PDU1={表達(tgt(表示),信息傳遞者(美國方面))}
SDU1.PDU2={合作(tgt(合作),合作者(參加座談的同志)),信息交流(tgt(交流),信息傳遞者(參加座談的同志))}
SDU2.PDU1={提供(tgt(供),接收者(烏),轉(zhuǎn)移體(氣),方法(通過輸歐天然氣管道))}
SDU2.PDU2={獲得(tgt(獲得),認知者(各位專家學者),新觀點(思想觀點、意見建議))}
SDU3.PDU1=?
SDU3.PDU2={協(xié)助(tgt(援助),施助者(美國),受助者(烏克蘭),方法(緊急措施))}
SDU3.PDU3={包含(tgt(包括),部分(向烏提供財政支持)),提供(tgt(提供),接收者(烏),轉(zhuǎn)移體(財政支持))}
SDU3.PDU4={提供(tgt(提供),接收者(烏克蘭),轉(zhuǎn)移體(能源安全和能源改革領域的支持))}
在FDU層級,SDU3下的PDU1沒有框架,與PDU2合并為FDU1,SDU下其他含有框架的PDU直接向上構成FDU;在SDU層級,SDU1包含F(xiàn)DU1和FDU2,SDU2包含F(xiàn)DU1和FDU2,SDU3包含F(xiàn)DU1、FDU2和FDU3;在D層級,D包含三個SDU,分別是SDU1、SDU2、SDU3。本文主要分析研究一級篇章單元和二級篇章單元之間的語義關系及在其語義關系上的場景組合。
2.2.2 篇章框架語義結(jié)構樹
在篇章單元的框架表示下,根據(jù)篇章單元激起的框架,通過框架關系建立不同語義場景之間的聯(lián)系,從最底層的一級篇章單元開始,自下向上生成一個具有層級結(jié)構的篇章框架語義結(jié)構樹,用三元組表示: Tree=(T(l,p),F(l,p),R,C)。 其中T(l,p)=(T1(l,m),T2(m+1,n),…,Tn(o,p))是n(ngt;0)個篇章單元范圍為l至q的篇章單元樹,T1(l,m)表示第一個篇章單元的范圍為l至m,T2(m+1,k)表示第二個篇章單元的范圍為m+1至k,Tn(o,p)表示第n個篇章單元的范圍為o至p,F(xiàn)是篇章單元范圍為l至p的框架集合,F(xiàn)(l,p)={f1,f2,…,fq},q(qgt;0),R表示框架集之間的篇章關系類型,葉子節(jié)點是一級篇章單元,C表示連接詞,如果出現(xiàn)連接詞,用具體連接詞表示;如果未出現(xiàn)連接詞,用I(Implicit,I)表示。例1的篇章框架語義結(jié)構樹如圖2所示。
如圖2所示,篇章框架語義結(jié)構樹的構建過程如下:
(1) SDU1.FDU1的“表示”激起“表達”框架,描述信息傳遞者表達他們的思想、感情或某種態(tài)度(內(nèi)容)的場景,SDU1.FDU2的“合作”激起的“合作”框架是信息傳遞者美國表達的內(nèi)容,它們之間構成屬于關系,形成SDU1描述美國表達與烏克蘭及歐洲盟友合作的較大場景,在圖2中用T(SDU1.FDU1,SDU1.FDU2)=((SDU1.FDU1,SDU1.FDU2),F(SDU1.FDU1,SDU1.FDU2),屬于關系)節(jié)點來表示;
圖2 例1的篇章框架語義結(jié)構樹
(2) SDU2.FDU1的“供”激起“提供”框架,描述供應者為接收者提供轉(zhuǎn)移體,用以滿足接收者的需要或目的(接收目的)的場景,SDU2.FDU2的“獲得”激起“獲得”框架,是“提供”框架中接受者的目的——烏方獲得價格適中的天然氣,它們之間構成目的關系,形成SDU2描述美國向烏提供價格適中天然氣的較大場景,在圖2中用T(SDU2.FDU1,SDU2.FDU2)=((SDU2.FDU1,SDU2.FDU2),F(SDU2.FDU1,SDU2.FDU3),顯式目的關系)節(jié)點來表示;
(3) SDU3.FDU2與SDU3.FDU3的“提供”都激起“提供”框架,SDU3.FDU2的“包括”激起框架“包含”,描述部分包含在整體中,部分指集合體的一部分或簡單實體的一個組成部分的場景,預示著SDU3.FDU2與SDU3.FDU3的兩個“提供”框架是一個整體中的兩個部分,因此SDU3.FDU2與SDU3.FDU2構成平列關系;SDU3.FDU1的“援助”激起“協(xié)助”框架,描述某施助者通過某種方法幫助受助者實現(xiàn)某個目標來使受助者受益的場景,SDU3.FDU2與SDU3.FDU3的兩個“提供”框架是SDU3.FDU1的“協(xié)助”框架中施助者采用的兩個方法,他們之間構成總分關系,形成SDU3具體描述美國通過財政支持和能源安全和能源改革領域支持援助烏克蘭的較大場景,在圖2中用T(SDU3.FDU1,SDU3.FDU3)=((SDU3.FDU1,T(SDU3.FDU2,SDU3.FDU3)),F(SDU3.FDU1,SDU3.FDU3),隱式總分關系)節(jié)點來表示;
(4) 在(1)、(2)、(3)一級篇章單元按照篇章關系形成的較大場景SDU上,繼續(xù)向上生成篇章結(jié)構樹,SDU1場景中的子場景“合作”激起“合作”框架,描述合作者一起從事某項工作的情景,SDU2與SDU3所描述的場景是美國與烏克蘭這兩個合作者一起從事的兩項工作,因此SDU2、SDU3之間構成平列關系,SDU1與SDU2、SDU3之間構成總分關系,形成本篇章最大的語義場景,反映在圖2中分別是T(SDU2,SDU3)=((T(SDU2.FDU1,SDU2.FDU3),T(SDU3.FDU1,SDU3.FDU3)),F(SDU2,SDU3),顯式平列關系)節(jié)點和T(SDU1,SDU3)=((T(SDU1.FDU1,SDU1.FDU2),T(SDU2,SDU3)),F(SDU1,SDU3),隱式總分關系)節(jié)點。
2.2.3 篇章關系
由上可知,框架之間的語義關系在篇章內(nèi)的表現(xiàn)與篇章關系是相似的,因此本文基于黃伯榮和廖序東的《現(xiàn)代漢語》中關于復句及句群之間關系分類體系[18],建立了三層級篇章關系結(jié)構,如表1所示。
表1 篇章關系集
在三層級篇章關系結(jié)構中,第一層級沿用《現(xiàn)代漢語》根據(jù)篇章單元間意義是否平等將篇章關系劃分為聯(lián)合關系和偏正關系兩大類別。其中,聯(lián)合關系是指各篇章單元間意義平等,偏正關系是指各篇章單元間意義不平等。在第二層級篇章關系中, 聯(lián)合關系可分為并列關系、承接關系、遞進關系、選擇關系、解說關系。偏正關系可分為條件關系、假設關系、因果關系、目的關系、轉(zhuǎn)折關系、屬于關系。本文在傳統(tǒng)的偏正關系中加入屬于關系這一類別,屬于關系表示篇章的意圖及意圖的所有者的所屬關系。第三層級篇章關系, 根據(jù)前后篇章單元的功能繼續(xù)進行細分。在篇章關系層級中,如果無法區(qū)分篇章單元之間的關系,將其歸入承接關系的連貫關系中。
3.1 標注流程
為檢驗篇章理論體系的人工標注一致性,選擇《人民日報》中160篇新聞體裁的篇章進行了標注實踐及研究。在標注時,只針對篇章結(jié)構良好且包含較多框架的段落進行標注,并不進行全文標注。篇章中,最小的篇章只包含1個句子,最大的篇章包含5個句子,平均每個篇章有2.65個句子。標注流程如圖3所示。
圖3 標注流程圖
在確定語料的標注格式后,篇章標注的具體步驟如下:
(1) 將一個篇章進行初步切分,切分出初級篇章單元和二級篇章單元。本文規(guī)定“,”“: ”等作為初級篇章單元的分隔符,“。”“?”“!”等作為二級篇章單元的分隔符;
(2) 在初級篇章單元中,識別能激起框架的目標詞并標注框架名及框架元素,將沒有框架存在的初級篇章單元與后面相鄰的含有框架的初級篇章單元進行合并,構成一級篇章單元;
(3) 從一級篇章單元開始,自底向上組合形成篇章框架語義結(jié)構。在標注篇章關系時,根據(jù)具有關聯(lián)的篇章單元之間是否有連接詞,先標記其顯隱式,再確定它們具體的篇章關系類型。
3.2 一致性檢驗
3.2.1 標注設置
本次標注的語料數(shù)據(jù)集在經(jīng)過初步切分并標注了目標詞激起框架的基礎上,三名均具有篇章關系研究經(jīng)歷的標注人員執(zhí)行了篇章框架語義結(jié)構生成及篇章關系識別的標注任務。本文采用標準kappa 值[19]計算多名標注人員的標注一致性,并統(tǒng)計了多名標注者之間結(jié)果完全相同的實例數(shù)目,如式(1)所示。
式中:P(A)表示多名標注者評定一致的百分比,P(E)表示理論上評定一致的百分比。
3.2.2 標注分析
(1) 標注基本情況
在本語料庫中,初級篇章單元和二級篇章單元按照標點符號進行切割,篇章中的目標詞及目標詞所激起的框架是確定的,初級篇章單元合并后生成的一級篇章單元是確定的,因此標注者在這三個方面的標注幾乎沒有差異,但是他們形成的篇章框架語義結(jié)構及篇章單元之間的篇章關系,卻會因為不同的理解而產(chǎn)生標注差異。本文總共標注了 1 241個目標詞,其中968個目標詞能在CFN框架中找到框架,所占比例為78%,涉及的框架總數(shù)共有154個。篇章標注基本情況如表2所示,由表2可以看出,在160個篇章中,共有1 138個初級篇章單元,1 033個一級篇章單元,445個二級篇章單元。三名標注人員在標注的關系總數(shù)方面分別是779、785、783。
隨機抽取一名標注人員的標注數(shù)據(jù)進行統(tǒng)計,得到了如圖4和圖5所示的結(jié)果。
表2 篇章標注基本情況
圖4 一級篇章單元篇章關系分布圖
圖5 二級篇章單元篇章關系分布圖
從圖5~6可以看出,在160個篇章中,篇章關系的分布呈現(xiàn)不均勻的狀況。在一級篇章單元篇章關系分布中,并列關系(LB)、承接關系(LS)、因果關系(PY)、屬于關系(AT)所占比例較大;在二級篇章單元篇章關系分布中,并列關系(LB)、承接關系(LS)、解說關系(LJ)、因果關系(PY)、目的關系(PZ)所占比例較大,選擇關系(LX)、條件關系(PT)、假設關系(PJ)、目的關系(PM)、屬于關系(AT)所占比例為0。
(2) 篇章層次結(jié)構的一致性
在確定了各級篇章單元之后,本文計算了各個標注者之間的篇章標注層次結(jié)構的一致性。由于本文只考慮相鄰兩個篇章單元之間是否具有篇章關系,因此當相鄰數(shù)個篇章單元發(fā)生關系時,從左向右依次將相鄰兩個篇章單元組合,來考慮它們之間的篇章結(jié)構一致性。在計算篇章層次結(jié)構的一致性時,本文參考了Marcu (1999)等人開發(fā)的方法[20],下面結(jié)合例2來介紹操作過程。
例2[(因為懂當?shù)卣Z言)PDU1]FDU1,[(所以主要由我負責對外溝通和會談)PDU2]FDU2,[(由此認識許多比利時主流社會朋友)PDU3,[(并積累不少工作經(jīng)驗)PDU2]FDU2]FDU3。
在本例中,有4個一級篇章單元,經(jīng)兩名標注人員標注后形成的層級結(jié)構如圖6所示。
圖6 標注者標注情況
將例2中四個一級篇章單元之間可能發(fā)生篇章關系的篇章單元對映射到篇章單元層次中。如表3所示,每一組具有篇章關系的篇章單元對可以用R([i,m],[m+1,j])來表示, 其中R表示篇章單元對具有的篇章關系,[i,m]表示篇章單元對中第一個篇章單元的范圍為i至m,[m+1,j]表示篇章單元對中第二個篇章單元的范圍為m+1至j。 針對每一組篇章單元對,如果標注者認為它們之間具有篇章關系則標注為Y,不具有篇章關系則標注為N。如果多個篇章單元之間具有關系,則將其分解成依次相鄰兩個篇章單元具有關系,如R([i,m],[m+1,j],[j+1,k]),可分解為R([i,m],[m+1,j])和R([m+1,j],[j+1,k]),根據(jù)表3列出的篇章單元對,將標注者A和標注者B的標注情況(見圖6)映射到表3中。
依據(jù)表3的情況,對標注者之間的層次結(jié)構一致性進行kappa計算,結(jié)果如表4所示,三個標注者分別記為A、B和C。從表4的結(jié)果中可看出,在一級篇章單元的層次結(jié)構、二級篇章單元的層次結(jié)構及整體的層次結(jié)構方面,A與B的kappa值都是最高,均大于0.9;三名標注者之間的kappa值也均大于0.9,說明三名標注者在層次結(jié)構方面的一致性較好;二級篇章單元的層次結(jié)構的kappa值小于一級篇章單元的層次結(jié)構kappa值,說明篇章單元范圍越大,越容易產(chǎn)生層次結(jié)構不一致的現(xiàn)象。
表3 標注者標注示例
表4 篇章結(jié)構一致性
(3) 篇章關系的一致性
在篇章結(jié)構一致的基礎上,分別驗證了標注人員在一級篇章單元、 二級篇章單元和整體的篇章關系方面細化至第三層關系的一致性,結(jié)果如表5所示。
表5 篇章關系一致性
從表5可以看出: 三個標注者在一級篇章單元、二級篇章單元及篇章整體關系方面的kappa值分別為0.897、0.829、0.874,說明標注者在篇章關系方面的一致性較好;二級篇章單元之間的篇章關系Kappa值小于一級篇章單元之間的篇章關系Kappa值,說明篇章單元范圍越大,越容易產(chǎn)生不一致;在篇章關系種類方面,由于二級篇章單元的選擇關系、條件關系、假設關系、目的關系、屬于關系的實例數(shù)目很少,導致標注者在這幾類關系方面的相同數(shù)目為0,說明一級篇章單元和二級篇章單元之間的關系類型分布具有一定的差異。
通過以上對篇章進行kappa計算可知: ①標注人員在篇章結(jié)構及篇章關系等方面的一致性都較好,標注質(zhì)量穩(wěn)定可靠,可以繼續(xù)后續(xù)的標注工作; ②不論篇章結(jié)構,還是篇章關系,二級篇章單元之間的kappa值均小于一級篇章單元之間的kappa,說明隨著篇章單元的范圍擴大,標注者之間產(chǎn)生的差異性隨之擴大。
本描述體系以框架概念為基礎,探討了篇章連貫的框架表示模型,把篇章連貫這個篇章語言學問題轉(zhuǎn)化為一個可計算的篇章框架語義結(jié)構樹分析問題,構建了基于框架的篇章連貫性描述體系。描述體系中的篇章框架語義結(jié)構樹的框架含有較多的語義信息,既在一定程度上模擬了篇章的語義內(nèi)容,又具有可計算性。在此基礎上,選用人民日報的新聞語料作為原始的標注語料,并采用kappa值來檢驗人工標注的一致性。較高的檢驗結(jié)果kappa值驗證了篇章框架語義連貫性描述體系能夠作為漢語篇章語料標注的依據(jù),未來將依據(jù)篇章描述體系針對不同領域構建一定規(guī)模的篇章標注語料,同時依據(jù)真實篇章標注數(shù)據(jù)開展篇章關系及篇章結(jié)構的自動識別工作。
[1] Crystal D.The Cambridge encyclopedia of language [M]. Cambridge: Cambridge University Press, 1987.
[2] Mitkov R. How could rhetorical relations be used in machine translation (and at least two open questions)? [C]//Proceedings of ACL Workshop on intentionality and structure in discourse relations. Morristown: A-ssociation for Computational Linguistics, 1993: 86-89.
[3] Santhosh S. Discourse based advancement on question answering system [J]. International Journal on Soft Computing, 2012: 11.
[4] Mann W C, Thompson S A. Rhetorical structure theory: toward a foundational theory of text organization [J]. Text, 1988,8(3): 243-281.
[5] Carlson L, Marcu D. Building a discourse-tagged corpus in the framework of rhetorical structure theory [C]//Proceedings of the Second SIGdial Workshop on Discourse and Dialogue, 2001.
[6] Forbes K, Mihsakaki E, Prasad R, et al. D-LTAG System: Discourse parsing with a lexicalized treeadjoining grammar [J]. Journal of Logic, Language and Information, 2001, 12(3):261-279.
[7] PDTB Research Group. The Penn discourse treebank 2.0 annotation manual [R]. Philadelphia: University of Pennsylvania, 2008.
[8] 孫靜,李艷翠,周圍棟,等. 漢語隱式篇章關系識別[J]. 北京大學學報(自然科學版),2014,50(1):111-117.
[9] 張牧宇,秦兵,劉挺. 中文篇章級句間語義關系體系及標注[J]. 中文信息學報,2014,28(2):28-36.
[10] 周強,周驍聰. 基于話題鏈的漢語語篇連貫性描述體系[J].中文信息學報,2014,28(5):102-110.
[11] 李天賢.認知框架視角下的語篇連貫研究[D]. 浙江大學博士學位論文. 2012.
[12] Fillmore C J. Frame semantics [M]//Linguistics in the Morning Calm, the Linguistic Society of Korea, Seoul: Hanshin. 1982:111-137.
[13] 李茹.漢語句子框架語義結(jié)構分析技術研究[D]. 山西大學博士學位論文. 2012.
[14] 郝曉燕,劉偉,李茹,等. 漢語框架語義知識庫及軟件描述體系[J]. 中文信息學報, 2007, 21(5): 96-100.
[15] Kinneavy J L. A Theory of discourse: the aim of discourse [M]. Englewood Cliffs, NJ: Prentice-Hall International, 1971.
[16] 黃國文. 語篇分析概要[M]. 長沙: 湖南教育出版社, 1988.
[17] 徐盛桓. 篇章:情景的組合[J]. 外國語(上海外國語大學學報), 1990, 6:3-13.
[18] 黃伯榮,廖序東. 現(xiàn)代漢語[M]. 北京: 高等教育出版社, 2011.
[19] 欒建安,王紀憲,蘇炳華,等. 多類別多評估者的kappa分析[J]. 中國衛(wèi)生統(tǒng)計,1995,12(6):20-22.
[20] Daniel M, Estibaliz A, Magdelena R. Experiments in constructing a corpus of discourse trees [C]//Proceedings of the ACL Workshop on Standards and Tools for Discourse Tagging, College Park MD, 1999: 48-57.
呂國英(1964—),碩士,副教授,碩士生導師,主要研究領域為自然語言處理。
E-mail: english@sxu.edu.cn
蘇娜(1989—),碩士研究生,主要研究領域為中文信息處理。
E-mail: 374286185@qq.com
李茹(1963—),博士,教授,博士生導師,主要研究領域為自然語言處理。
E-mail: lim@sxu.edu.cn
AStudyonChineseDiscourseCoherenceBasedonCFN
LV Guoying1,SU Na1, LI Ru1,2,WANG Zhiqiang1
(1. School of Computer amp; Information Technology, Shanxi University, Taiyuan, Shanxi 030006, China; 2. Key Laboratory of Computation Intelligence and Chinese Information Processing of Ministry of Education, Shanxi University, Taiyuan, Shanxi 030006, China)
The research on discourse coherence is an important issue in discourse analysis. Based on Chinese FrameNet(CFN), this paper presents a coherence description scheme for Chinese discourse. It establishes the relationship between the frames and discourse units, and discusses the ways to achieve the discourse coherence by the frames and semantic relationships between frames. This provides a description mechanism and computation basis for discourse coherence. Annotations of 160 articles are selected from the People's Daily shows a more than 0.8 kappa value in both discourse structure annotation and discourse relation annotation. This proves that the proposed scheme guarantee a high consistent manual annotation, which is crucial to larger-scale discourse annotating.
frame; discourse unit; discourse structure; discourse relation; kappa value
1003-0077(2017)05-0040-10
TP391
A
2015-11-01定稿日期2016-07-25
國家863計劃(2015AA015407);國家自然科學基金(61373082);山西省回國留學人員科研資助項目(2013-015);山西省科技基礎條件平臺建設項目(2014091004-0103);中國民航大學信息安全測評中心開放課題基金(CAAC-ISECCA-201402)