李國臣,張雅星,李 茹,3,4
(1. 山西大學 計算機與信息技術學院,山西 太原 030006;2. 太原工業(yè)學院 計算機工程系,山西 太原 030008;3. 山西大學 計算智能與中文信息處理教育部重點實驗室,山西 太原 030006;4. 山西省大數據挖掘與智能技術協(xié)同創(chuàng)新中心,山西 太原 030006)
篇章關系識別是篇章分析中重要的子任務,它研究的是篇章中兩個篇章單元的關系。例如,本文給出一個簡單篇章: “令人欣喜的是,現在媒體對會議進行了相當廣泛的評論和報道?!蓖ㄟ^對該篇章中的兩個篇章單元進行篇章關系識別,可以得到前置篇章單元“令人欣喜的是”與后置篇章單元“現在媒體對會議進行了相當廣泛的評論和報道”的篇章關系為解說關系。
目前,篇章關系的分析主要是面向英文,其中最主要的原因是英文的篇章分析理論體系比較完善。英文的篇章分析理論體系主要有修辭結構理論(rhetorical structure theory,RST)和賓州篇章樹庫(penn discourse TreeBank,PDTB)。
修辭結構理論[1]是由美國學者William C. Mann和Sandra A. Thompson 等首創(chuàng)于1988年,是一套關于自然語篇結構描寫的理論體系?;赗ST的篇章關系識別主要有兩個子任務: ①基本篇章單元的生成;②根據RST對篇章單元之間的篇章關系進行分析。根據話語效果的位置,RST將篇章中的修辭關系分為兩個大類: 并列型的“多級核心(multinuclear)關系”和主從型的“核心(nuclear)/輔助(satellite)關系”。其中并列型關系分為對比、結合、列舉、多級核心重述和序列,主從型關系分為“表述”和“主題”關系。目前,已有許多學者在修辭結構理論篇章樹庫(rhetorical structure theory-discourse TreeBank,RST-DT)[2]上展開了研究和實驗。Marcu[3]提出了一種無監(jiān)督的方法來識別篇章關系,該方法從訓練語料中抽取詞對信息作為基本特征訓練貝葉斯分類模型,其中某些句間關系分類模型取得了93%的準確率。
賓州篇章樹庫[4]主要標注與篇章連接詞相關的篇章關系。賓州篇章樹庫根據兩個篇章單元之間是否存在連接詞,將篇章關系分為顯式篇章關系和隱式篇章關系。其中隱式篇章關系又分為替代詞匯化(AItLex)、基于實體一致性關系(EntRel)、沒有關系(NoRel)。賓州篇章樹庫還另外對所有的篇章關系定義了一個三層的語義結構: 第一層是種類,第二層是類型,第三層是子類型。其中,第一層包括四種最常見的語義: 擴展(expansion)、時序偶然(contingency)、對比(comparison)和時序(temporal),第二層包括16類語義,第三層包括23類語義。在篇章關系識別方面,Pilter[5]等人在連接詞識別的基礎上使用樸素貝葉斯方法依據連接詞和句法信息特征對第一層顯式關系進行識別,其準確率達到了94.15%。Lan[6]等人在交互結構優(yōu)化多任務學習框架下,抽取論元的動詞、極性等基本語言學特征訓練基于現實語境的隱式論元對數據的主分類器和基于人造偽隱式論元對數據的輔分類器,提升隱式關系推理性能至42.30%。
在漢語方面,孫靜[7]等人在自建的漢語篇章結構語料庫(Chinese discourse TreeBank,CDTB)上進行了隱式篇章關系的識別。張牧宇[8-11]等人在哈工大中文篇章關系樹庫(HIT-CDTB)上進行了篇章分析的相關研究。目前篇章關系分析方法主要采用短語結構、依從句法、詞共現等一些篇章的淺層特征進行分析,雖然這些特征對篇章關系分析具有很大的作用,但是篇章關系識別是一項有挑戰(zhàn)性的任務,僅依靠這些淺層特征不能有效地完成篇章關系識別任務。篇章分析只有在分析了篇章上下文知識、理解了有聯系的篇章單元的語義之后,才能更好地分析出篇章單元之間的語義關系。因此,本文在蘇娜[12]基于漢語框架語義所構建的理論體系上進行篇章關系的識別。在該理論體系中,篇章由與該篇章內容相關的框架集組合而成,具體描述為: 較小的框架集描述的場景按照篇章關系組合形成更大的場景,并進一步再與相鄰的框架集所描述的場景組合,最終形成一棵具有層次的篇章框架語義結構樹,描述一個完整的最大的語義場景。根據該理論體系,每個篇章單元的場景可以由框架集進行描述,因此,每個篇章單元都可以由相應的框架集代替。本文找出可以代替要分析的篇章單元的場景的框架集,用該框架集中的核心框架來代替該語義場景,因此將分析兩個篇章單元間的關系改為分析兩個框架的關系。而且在本文所用的方法中,用框架語義識別篇章關系,可以有效改善篇章關系識別性能。
本文在第1節(jié)簡單介紹了漢語框架語義網;在第2節(jié)具體介紹了篇章關系識別的步驟;在第3節(jié)描述了實驗設置并對實驗結果進行分析;在第4節(jié)總結全文并展望未來的研究工作。
漢語框架語義網(Chinese FrameNet,CFN)[13-14]是山西大學在Fillmore提出的框架語義學基礎上所構建的,以加州大學伯克利分校的FrameNet為參照,以漢語真實語料為依據,是一個供計算機使用的漢語詞匯語義知識庫。該知識庫包括框架庫、句子庫、詞元庫三部分。
框架庫以框架為單位,對詞語進行分類描述。框架是一些與激活性語境相一致的結構化范疇系統(tǒng),它是存儲在人類認知經驗中的圖示化情境,是理解詞語的背景和動因,場景內容可以是一個動作、一個活動事件、一個實體或者一個抽象體的狀態(tài)??蚣艹袚~包括動詞、形容詞、名詞、成語及一些約定俗語,它們是能夠激起漢語框架語義網某個框架所對應的語義場景的詞語,是標注工作的著眼點,稱為詞元。一般情況下,一個框架包括多個詞元。在實際例句中出現的可以激起框架語義場景的詞元是目標詞。
例1篇章單元“這位負責人表示這些年各地高度重視保障工資支付工作?!敝械哪繕嗽~有“表示”“重視”?!氨硎尽迸c“重視”可以激起的框架分別為“陳述”“重視”,也即“表示”為框架“陳述”的詞元,“重視”為框架“重視”的詞元。以“表示”為例對該篇章單元進行分析后可得:
本文基于漢語框架語義網識別篇章關系,通過使用篇章單元對的框架集合,對篇章單元對的框架對進行抽取,得到框架對關系表,將待測篇章單元對的核心目標詞對對應的框架對與框架對關系表進行對照,得到待測篇章單元對的篇章關系。篇章關系識別的具體流程如圖1所示。
圖1 篇章關系識別流程圖
本文對篇章關系的識別主要包括以下三個步驟:
(1) 將已標注語料分為訓練數據集和測試數據集,對訓練數據集進行框架對的抽取,得到框架對與對應關系的映射,計算每個框架對的最大概率關系,生成框架對關系表;
(2) 抽取特征訓練核心目標詞識別模型,對測試數據集的篇章單元對進行核心目標詞的識別,生成核心目標詞對;
(3) 將測試數據集的核心目標詞對對應的框架對與第一步生成的框架對關系表進行對照,得到測試數據集對應的篇章關系。
2.1.1 框架對抽取
對所標注語料進行框架對抽取的具體步驟為:
(1) 抽取前置篇章單元的所有框架,獲得框架集合FrameSet1,FrameSet1包含m個框架{Frame11,Frame12,…,Frame1m};同理,抽取后置篇章單元的所有框架,獲得框架集合FrameSet2,FrameSet2包含n個框架{Frame21,Frame22,…,Frame2n};
(2) 對FrameSet1和FrameSet2中的所有框架進行兩兩配對,形成所有可能的框架對{Frame1i,Frame2j}i =1…m,j = 1…n;
(3) 該篇章單元對形成的所有的框架對都對應于該篇章單元對已經標注的篇章關系;
(4) 對所有的篇章單元對進行上面三個步驟,得到所有訓練集形成的框架對與對應關系的映射。
下面以例2為例,對抽取框架對的步驟進行詳細說明。
例2篇章單元對: 在新的歷史時期中國夢的本質是國家富強、民族振興、人民幸福,我們的奮斗目標是到2020年全面實現小康社會。
前置篇章單元: 在新的歷史時期中國夢的本質是國家富強、民族振興、人民幸福
后置篇章單元: 我們的奮斗目標是到2020年全面實現小康社會
篇章關系: 并列關系
在例2中,前置篇章單元和后置篇章單元包含的目標詞和對應框架如表1所示。
表1 篇章單元對的目標詞與框架
從表1可以看出,前置篇章單元的框架集合FrameSet1為{等同},后置篇章單元的框架集合FrameSet2為{等同,實現},則對FrameSet1和
FrameSet2中的框架兩兩配對形成的框架對為{等同,等同}、{等同,實現}。根據該篇章單元對的篇章關系為并列關系,則這兩對框架對的對應關系為并列關系。對所有的篇章單元對進行如例2所示的步驟,得到所有訓練集形成的框架對與對應關系的映射。
2.1.2 框架對的最大概率關系
將得到的所有框架對以及每個框架對在不同篇章單元對中的相應關系進行不去重合并,得到框架對與篇章關系的關系映射表Fmap。
借助關系映射表Fmap,本文對每種框架對最可能對應的關系進行計算。將篇章關系的11種關系進行編號i,i∈{1,2,…,11}。特定框架對{Frame1i,Frame2j}i =1...m,j = 1...n在關系映射表Fmap中對應這11種關系出現的頻次分別為ri,i∈{1,2,…,11},在關系映射表中出現的總數為n。本文用ri除以n計算特定框架對{Frame1i,Frame2j}i =1...m,j = 1...n在每種關系上的分布概率,其分布概率最大的數值對應的關系r為該框架對的篇章關系,計算i的公式如式(1)所示。
例2中的框架對{等同,等同},在關系映射表中對應遞進關系出現1次,對應解說關系出現1次,對應因果關系出現4次,對應并列關系出現9次,其余關系類都沒有出現,則出現總次數為15次。分別用1,1,4,9除以15,可以得到概率最大的出現次數為9次的并列關系,則框架對{等同,等同}對應的篇章關系為并列關系。
本文對關系映射表Fmap中的每種框架都進行上述計算,得到框架對關系表FRmap。獲得FRmap的算法如下:
算法1:獲取框架對關系表FRmap算法輸入:篇章單元對集合D={D1,D2,...,Dn},每個篇章單元對Di的前置篇章單元Di1和后置篇章單元Di2的篇章關系Ri輸出:框架對關系表FRmap1.FORDiIND2. FORDijINDi //j∈{1,2}3. 獲得Dij的框架集合FrameSetj={Framej1,Framej2,....,Framejm}4. ENDFOR5. FORFrame1xINFrameSet16. FORFrame2yINFrameSet27. Frame1x與Frame2y配對,并將{Frame1x,Frame2y,Ri}放入表Fmap8. ENDFOR9. ENDFOR //得到篇章單元對Di前置篇章單元的所有框架和后置篇章單元的所有框架的兩兩配對 10.ENDFOR 11.FORFmapiINFmap12. IF!Fmapi∈FRmap //只進行框架對的對照13. 根據公式(1)計算框架對Fmapi的篇章關系,并將該框架對和對應篇章關系放入表FRmap14. ENDIF15.ENDFORReturnFRmap
識別核心目標詞的著眼點是篇章單元中的一個詞,識別該詞是否是核心目標詞,因此本文將這項任務看做分類問題來解決,使用最大熵模型構建分類模型。
在本實驗中,用向量X表示篇章單元,用y表示候選目標詞是否是核心目標詞,p(y|X)為預測X為y的概率,熵定義為:
采用拉格朗日乘數法求解最大熵,計算公式為:
其中,fi表示每個特征,n表示特征總數,λi為特征的權重。
抽取詞形、詞性、當前詞前一個詞的詞性、當前詞后一個詞的詞性、依從關系來分別表示訓練集數據和測試集數據,用最大熵分類模型在訓練數據集上進行訓練,在測試數據集上進行識別,得到篇章單元的核心目標詞。
將測試數據集中的篇章單元對進行核心目標詞識別,得到每個篇章單元的核心目標詞,從而可以得到篇章單元對的核心目標詞對,得到所對應的框架對。
將篇章單元對的核心目標詞對對應的框架對與FRmap進行對照,得到該框架對對應的篇章關系。該篇章關系就是待測篇章單元對的關系。下面以例3為例,對篇章關系的識別步驟進行說明。
例3篇章單元對: 僅2012年全國共發(fā)生0到12歲兒童傷亡交通事故11 117起,造成12 153名兒童傷亡。
前置篇章單元: 僅2012年全國共發(fā)生0到12歲兒童傷亡交通事故11 117起
后置篇章單元: 造成12 153名兒童傷亡
例3中,前置篇章單元的核心目標詞是“發(fā)生”,所屬框架為事件;后置篇章單元的核心目標詞是“造成”,所屬框架是因果。因此可以得到該待測篇章單元對的核心目標詞對對應的框架對為{事件,因果},與框架對關系表FRmap對照,可以得到{事件,因果}的篇章關系為承接關系,所以該篇章單元對的篇章關系為承接關系。
本文基于框架語義的篇章關系識別算法如下:
算法2:篇章關系識別算法輸入:待測篇章單元對D,框架對關系表FRmap輸出:待測篇章單元對的篇章關系1.FORDiIND //i∈{1,2}2. 將Di經過核心目標詞識別模型,識別出核心目標詞Wi3.ENDFOR4.將核心目標詞對{M1,M2}在FRmap中查找對應的篇章關系RReturnR。
3.1.1 篇章關系
本文所采用的篇章關系[12]是基于黃伯榮和廖序東的《現代漢語》中關于復句以及句群之間關系分類體系而建立的。該篇章關系結構分為三層。第一層根據篇章單元之間意義是否平等分為聯合關系和偏正關系。第二層中,聯合關系可分為并列關系、承接關系、遞進關系、選擇關系、解說關系。偏正關系可分為條件關系、假設關系、因果關系、目的關系、轉折關系、屬于關系。該體系在傳統(tǒng)的偏正關系中加入“屬于關系”這一類別,屬于關系表示篇章的意圖以及意圖的所有者的所屬關系。第三層根據前后篇章單元的功能分為24類。在該篇章關系中,如果無法區(qū)分篇章單元之間的關系,就將其歸為承接關系中的連貫關系。前兩層篇章關系如表2所示。
表2 前兩層篇章關系
3.1.2 篇章語料庫
本文研究的是相鄰的兩個篇章單元之間的關系,并且本文的實驗方法是基于漢語框架語義網的,因此所用語料必須具有下列特點:
(1) 具有前置篇章單元和后置篇章單元;
(2) 前置篇章單元和后置篇章單元必須且至少包含一個可以激起框架的目標詞。
本文對所獲得的語料都進行了人工標注,對每對篇章單元對都標注了框架與篇章關系。這些語料主要來源于新聞語料和語料庫在線。語料中各個篇章關系的分布概率如表3所示。
表3 篇章語料庫
在訓練識別核心目標詞模型時,本文使用哈爾濱工業(yè)大學信息檢索研究中心的語言處理集成平臺LTP[15]對語料進行預處理。實驗語料的統(tǒng)計結果如表4所示。
表4 標注語料
本文使用準確率Acc(Accuracy)、精確率P(Precision)、召回率R(Recall)和F值F作為篇章關系識別性能的度量指標。假設i∈{1,2,…,11},分別對應11種篇章關系中的一種,Ri為實驗中預測出關系為i的個數,Ci為實驗中預測正確的關系為i的個數,Ai為測試集中關系為i的個數,則:
(1) 計算11種關系總的性能時,本文將準確率、精確率、召回率和F值表示如下:
(6)
(8)
(2) 分別計算每種關系的性能時,本文將準確率、精確率、召回率和F值表示如下:
(9)
(12)
3.3.1 框架對關系表FRmap的生成
本文選用了2 774篇篇章單元對作為訓練數據集生成框架對關系表FRmap,200篇篇章單元對作為測試數據集。
生成的框架對關系表FRmap共有2 216對不同框架對,其中11種篇章關系的分布概率如表5所示。
3.3.2 核心目標詞的識別
本文對要測試的200篇篇章單元對即400個篇章單元經過預處理,然后用生成的核心目標詞識別模型進行識別。識別結果如表6所示。
表5 FRmap
表6 核心目標詞識別結果
經過分析,識別核心目標詞正確率不高的原因是: 訓練語料無法包含所有的目標詞,存在未登錄詞,使得核心目標詞的識別存在困難。對于篇章單元對,對各位專家學者提出的思想觀點、意見建議,要認真歸納、研究、吸收。識別后置篇章單元“要認真歸納、研究、吸收”的核心目標詞時,經過核心目標詞識別模型的識別,目標詞“歸納”“研究”“吸收”為核心目標詞的概率相同,無法準確判斷核心目標詞。
3.3.3 篇章關系的識別
按照本文所說實驗步驟進行,所得到的最終結果如表7所示。
表7 篇章關系識別結果
通過表7可以看出,“選擇類”沒有識別出來,“目的類”和“假設類”的識別率較低,這是由于數據稀疏引起的,在所有語料中,“選擇類”僅有五例,“目的類”所占比例為6.36%,“假設類”所占比例為3.03%?!俺薪宇悺焙汀斑f進類”的識別效率低,則是由于承接類和遞進類的語義比較相近,比較難以區(qū)分這兩個類別。“屬于類”識別效果最好,這是由于“識別類”的篇章單元多由“說”“稱”“強調”等可以激起“陳述”框架詞語進行引導,而且屬于類的實例也比較多,因此“屬于類”效果最好。
在測試集中,將每個篇章單元對中的框架都進行兩兩配對,生成框架對的步驟與生成框架對關系表FRmap的步驟一樣。將生成的每一對框架對都和FRmap進行對照,得到框架對對應的篇章關系,將該篇章單元對的所有框架對對應的篇章關系進行統(tǒng)計,篇章關系相同的進行相加,最后出現最多的關系為該篇章單元對的關系。所得實驗結果如表8所示。
表8 篇章單元時關系識別結果
表8中,“選擇類”和“假設類”都沒有識別出來,這是由于數據稀疏引起的,在整個語料中,“選擇類”僅僅有五例,“假設類”所占比例為3.03%。與表7對比可以發(fā)現,表7中只有“選擇類”沒有識別出來,說明該方法更加依賴于語料規(guī)模的大小。圖2中對兩個實驗的精確率進行對比。
通過圖2可以看出,表8的篇章關系識別結果只有“遞進類”和“目的類”比表7好,因此可以看出識別篇章單元的核心目標詞可以提高識別篇章關系的準確率。這是由于表8所示的實驗采用的是簡單配對的方法,觸發(fā)核心框架的概率小,所形成的框架對無法較好地表達篇章單元的核心語義,因此識別篇章單元對的篇章關系效果差。
我們運用嚴為絨等[16]的方法,計算待測篇章單元對中的框架對的互信息,選取互信息排序前四的框架對,將每一對框架對都和FRmap進行對照,得到框架對對應的篇章關系,將在這四個篇章關系中出現次數最多的關系判斷為待測篇章單元對的篇章關系。在本文語料庫上進行測試,所得結果如表9 所示。
圖2 實驗結果對比
識別方法Ours(核心框架)Ours(簡單配對)互信息Acc/%43.5532.2534.65
對比結果顯示,運用核心框架進行識別的性能最好。造成這一結果最主要的原因便是本文的語料規(guī)模較小,而互信息對語料的依賴性較大。目前,有關中文篇章關系的語料庫規(guī)模都較小,因此本文的算法對中文篇章關系分析有更大的適用性。
本文基于漢語框架語義網識別篇章關系,研究了如何在框架語義層面進行篇章關系的識別?;跐h語框架語義所構建的理論體系中篇章是由與該篇章內容相關的框架集組合而成的,因此本文用核心框架代表篇章單元。在識別核心框架過程中,本文用的是最大熵分類模型。在該實驗中由于所用語料有限,因此最大的問題便是數據稀疏問題,導致框架配對中無法包含所有的框架對,在未來的工作中可以在這方面進行優(yōu)化,同時有效使用漢語框架語義網的相關資源,如框架的語義角色、框架關系等。
[1] Mann W C,Thompson S A. Rhetorical structure theory: Toward a functional theory of text organization[J]. Text,1988,8(3):243-281.
[2] Carlson L, Marcu D, Okurowski M E. Building a discourse-tagged corpus in the framework of rhetorical structure theory[C]//Proceedings of 2nd SIGdial Workshop on Discourse and Dialogue,2001:1-10.
[3] Marcu D, Echihabi A. An unsupervised approach to recognizing discourse relations[C]//Proceedings of the
40th Annual Meeting on Association for Computational Linguistics(ACL),2002:368-375.
[4] Prasad R,Dinesh N,Lee A,et al. The Penn discourse treebank 2.0[C]//Proceeding of the 6th International Conference on Language Resources and Evalution(LREC),Marrakech,Morocco,2008:2961-2968.
[5] Piter E, Nenkova A. Using syntax to disambiguate explicit discourse connectives in text[C]//Proceedings of the ACL-IJCNLP 2009 Conference Short Papers,2009: 13-16.
[6] Lan M,Xu Y,Niu Z Y. Leveraging synthetic discourse data via multi-task learning for implicit discourse relation recognition[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics,2013:476-485.
[7] 孫靜,李艷翠,周國棟,等. 漢語隱式篇章關系識別[J]. 北京大學學報(自然科學版),2014,50(1):111-117.
[8] 張牧宇,宋原,秦兵,等. 中文篇章級句間語義關系識別[J]. 中文信息學報,2013,27(6):51-57.
[9] 張牧宇,秦兵,劉挺. 中文篇章級句間語義關系體系及標注[J]. 中文信息學報,2014,28(2):28-36.
[10] 姬建輝,張牧宇,秦兵,等. 中文篇章級句間關系自動分析[J]. 江西師范大學學報(自然科學版),2015,39(2):124-131.
[11] 張牧宇,秦兵,劉挺. 中文篇章關系任務分析及語料標注[J]. 智能計算機與應用,2016,6(5):1-4.
[12] 蘇娜. 基于框架語義的漢語篇章連貫性研究[D]. 山西大學碩士學位論文,2016.
[13] 李茹. 漢語句子框架語義結構分析技術研究[D]. 山西大學博士學位論文,2012.
[14] 郝曉燕,劉偉,李茹,等. 漢語框架語義知識庫及軟件描述體系[J]. 中文信息學報, 2007,21(5): 96-100.
[15] 劉挺,車萬翔,李正華. 語言技術平臺[J]. 中文信息學報,2012,25(6):53-62.
[16] 嚴為絨,朱珊珊,洪宇,等. 基于框架語義的隱式篇章關系推理[J]. 中文信息學報,2015,29(3):88-99.