亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中文篇章級句間語義關(guān)系識別

        2013-10-15 01:52:02張牧宇
        中文信息學(xué)報 2013年6期
        關(guān)鍵詞:關(guān)聯(lián)詞因果關(guān)系語料

        張牧宇,宋 原,秦 兵,劉 挺

        (哈爾濱工業(yè)大學(xué),黑龍江 哈爾濱150001)

        1 引言

        隨著詞匯語義、句子語義研究的逐漸成熟,篇章級語義分析逐漸成為研究熱點。作為篇章語義分析的重要內(nèi)容,篇章句間關(guān)系識別(Discourse Relation Recognition)也受到了越來越多的關(guān)注。該研究檢測同一篇章內(nèi),兩個文本單元(片段、分句、復(fù)句、句群、段落等)之間的邏輯語義關(guān)聯(lián)(例如,因果關(guān)系)。通過定義層次化的語義關(guān)系類型體系將句內(nèi)的語義分析結(jié)果擴展為篇章級的語義信息,從而成為語義分析的重要解決途徑之一,對自動文摘[1]、自動問答[2]、傾向性分析[3-4]以及文本質(zhì)量評價[5]、文本連貫性評價[6]等許多NLP任務(wù)起到了很大的幫助。

        根據(jù)文本單元間是否存在篇章連接詞(也稱作篇章關(guān)聯(lián)詞),可將篇章句間關(guān)系分為顯式篇章句間關(guān)系(Explicit Discourse Relation,簡稱顯式關(guān)系)與隱式篇章句間關(guān)系(Implicit Discourse Relation,簡稱隱式關(guān)系)兩類。其中顯式關(guān)系包含篇章關(guān)聯(lián)詞,如例1所示,篇章關(guān)聯(lián)詞“因為”指示因果類型的關(guān)系實例;隱式關(guān)系缺少顯式關(guān)聯(lián)詞,需要根據(jù)上下文推測語義類型,如例2所示。

        例1:因為我是你爸爸,我愿意為你做所有一切。(顯式因果關(guān)系)

        例2:他生病了,今天沒有來上課。(隱式因果關(guān)系)

        已有篇章句間關(guān)系識別研究主要針對英文[7],印度語[8]、土耳其語[9]和阿拉伯語[10]。雖然已有一些面向中文的研究[11-13],但主要集中在分析和語料標(biāo)注,對關(guān)系識別研究不足;另外,已有研究大都直接使用了英文關(guān)系類型體系,忽略了中文本身的特點。

        本文對中文篇章句間關(guān)系識別進行了探索,包括顯式關(guān)系識別和隱式關(guān)系識別兩方面。

        針對顯式關(guān)系識別,我們提出一種基于關(guān)聯(lián)詞的識別方案,通過分析中文篇章句間關(guān)系語料獲得關(guān)聯(lián)詞對關(guān)系類型的指示能力,并根據(jù)關(guān)聯(lián)詞指示規(guī)則決定顯式關(guān)系的語義關(guān)系類型。針對隱式關(guān)系識別,由于缺少篇章關(guān)聯(lián)詞,我們主要采用機器學(xué)習(xí)方法,抽取詞匯、句法和語義等特征訓(xùn)練分類模型,根據(jù)模型輸出判定最終的關(guān)系類型。以上識別研究均采用面向中文的篇章句間關(guān)系體系,更好的適應(yīng)中文特點。

        實驗結(jié)果顯示,基于關(guān)聯(lián)詞的顯式關(guān)系識別方法取得了非常好的效果,取得了90%左右的識別準(zhǔn)確率,F(xiàn)值達到80%;此外,我們的隱式關(guān)系識別方法也取得了較好的效果。文章內(nèi)容組織如下:第2節(jié)介紹相關(guān)工作;第3節(jié)介紹顯式關(guān)系識別方法,給出實驗結(jié)果與分析;第4節(jié)介紹隱式關(guān)系特征、識別方法及實驗結(jié)果;第5節(jié)分給出結(jié)論。

        2 相關(guān)工作

        篇章句間關(guān)系體系及語料:作為有指導(dǎo)方法的基礎(chǔ),英文中已經(jīng)出現(xiàn)一些篇章句間關(guān)系語料[14-16]。這些語料采用不同的關(guān)系類型體系[14-17]描述文本單元之間的語義關(guān)系。典型的篇章句間關(guān)系語料包括以下兩種:基于RST理論[17]的修辭結(jié)構(gòu)理論樹庫(Rhetorical Structure Theory Discourse Treebank)[15]和基于PDTB體系的賓州篇章樹庫(Penn Discourse Tree Bank)[16],它們采用不同的關(guān)系類型體系和標(biāo)注標(biāo)準(zhǔn)[18]。目前已有的語料和標(biāo)注理論關(guān)注英語、印度語[8]、土耳其語[9]和阿拉伯語[10]。Xue[11]、Zhou和 Xue[12]、Huang 和 Chen[13]在中文上做了部分分析工作,不過這些研究直接將英文關(guān)系類型體系平移到中文,忽略了中文本身的特點。本文采用了Zhang在2012年提出的面向中文的篇章句間關(guān)系類型體系[19],更好的適應(yīng)中文問題。

        顯式篇章句間關(guān)系識別:顯式篇章句間關(guān)系通常由篇章關(guān)聯(lián)詞作為指示,Pitler et al.[7]使用無指導(dǎo)方法,僅僅利用關(guān)聯(lián)詞的統(tǒng)計特征識別顯式篇章句間關(guān)系類型,取得了較好的效果,證明關(guān)聯(lián)詞對顯式關(guān)系識別的重要性。除無指導(dǎo)方法之外,有指導(dǎo)模型也被用于顯式關(guān)系識別,Pitler et al.[20]使用關(guān)聯(lián)詞相關(guān)的標(biāo)準(zhǔn)句法特征幫助提高顯式關(guān)系識別性能;Wellner和Pustejovsky[21]采用有指導(dǎo)方法識別篇章句間關(guān)系元素范圍;Elwell和 Baldridge[22]使用關(guān)聯(lián)詞排序器識別關(guān)系元素范圍。本文提出基于中文關(guān)聯(lián)詞統(tǒng)計信息的識別方案探索顯式關(guān)系識別,并且取得比較好的效果。

        隱式篇章句間關(guān)系識別:隱式篇章句間關(guān)系通常存在于相鄰句子之間,同時缺少關(guān)聯(lián)詞。類似于顯式關(guān)系識別,隱式關(guān)系識別的相關(guān)研究最早出現(xiàn)在英文中,主要關(guān)注詞匯特征,例如,詞匯之間的依存關(guān)系[23-24]、詞匯的語義類別[20]和關(guān)聯(lián)詞預(yù)測[25]。

        由于隱式關(guān)系識別不同于顯式關(guān)系[26],除了詞匯特征之外,一些額外信息被逐漸引入,例如,句法限制[20,27]、核函數(shù)[28]、實體特征[29]以及事件配對特征[30]。這些研究提高了隱式關(guān)系識別效果,但到目前為止,隱式關(guān)系識別效果依然不佳,而且缺少面向中文的隱式關(guān)系識別研究。本文提出基于中文篇章句間關(guān)系體系的隱式關(guān)系識別模型,通過引入詞匯、句法和語義特征識別隱式篇章句間關(guān)系。

        3 顯式篇章句間關(guān)系識別

        顯式關(guān)系的具體類型通常由關(guān)聯(lián)詞標(biāo)識,如例3、例4所示。

        例3:如果大家都同意這個方案,咱們就按照它來執(zhí)行;(條件關(guān)系)

        例4:因為大家都同意這個方案,咱們就按照它來執(zhí)行;(因果關(guān)系)

        例3、例4中,除關(guān)聯(lián)詞外的句子成分完全一

        在顯式關(guān)系識別中,關(guān)聯(lián)詞往往作為關(guān)系類型的指示標(biāo)志出現(xiàn)。本文提出基于關(guān)聯(lián)詞的中文顯式關(guān)系識別模型,利用關(guān)聯(lián)詞規(guī)則識別顯式關(guān)系。

        3.1 基于關(guān)聯(lián)詞的識別方案

        致,但不同的關(guān)聯(lián)詞使得兩個句子具有不同的語義和關(guān)系類型??梢酝茰y:關(guān)聯(lián)詞標(biāo)識了具體關(guān)系類型?;谶@種想法,我們提出了基于關(guān)聯(lián)詞的顯式篇章句間關(guān)系識別方案。據(jù)我們了解,這是首個利用中文篇章關(guān)聯(lián)詞識別顯式關(guān)系類型的研究工作。

        3.1.1 識別方案

        我們將中文篇章句間關(guān)系語料分為兩部分:Set 1包含996篇文本,用于抽取篇章關(guān)聯(lián)詞和對應(yīng)的關(guān)系類型;Set 2包含100篇文本,用于測試識別方案。首先,我們從Set 1中抽取所有的篇章關(guān)聯(lián)詞和相應(yīng)的關(guān)系類型;之后采用極大似然估計計算關(guān)聯(lián)詞對各關(guān)系類型的指示能力,獲得“關(guān)聯(lián)詞—關(guān)系類型”矩陣:其中橫軸對應(yīng)某一篇章關(guān)聯(lián)詞,縱軸對應(yīng)某一具體關(guān)系類型。具體的計算方法如式(1)所示。

        其中ci對應(yīng)某一關(guān)聯(lián)詞;sj表示待計算的關(guān)系類型;S是所有關(guān)系類型的集合。

        對Set 2中的每一個測試實例,我們首先抽取篇章關(guān)聯(lián)詞;隨后查找“關(guān)聯(lián)詞—關(guān)系類型”矩陣,獲得該關(guān)聯(lián)詞對各關(guān)系類型的指示能力,從中選取最大值;并將該類型作為測試實例的最終標(biāo)簽。

        3.2 實驗設(shè)置

        3.2.1 類型體系及語料獲取

        為了支持關(guān)聯(lián)詞分析和后續(xù)的有指導(dǎo)識別方法,我們采用Zhang[19]提出的中文篇章句間關(guān)系體系,我們從 OntoNotes 4.0[31]中隨機篩選出1 096篇文本并進行了人工標(biāo)注。在這份語料中,三名標(biāo)注人員獨立標(biāo)注了顯式關(guān)系和隱式關(guān)系。為了驗證標(biāo)注質(zhì)量,檢驗標(biāo)注一致性,我們計算了用于統(tǒng)計多類、多標(biāo)注人員標(biāo)注一致性的Fleiss Kappa指標(biāo)[32]。

        在最終的計算結(jié)果中,我們獲得了66.52%的Fleiss’Kappa值,根據(jù)Fleiss’Kappa指標(biāo)的性能分布區(qū)間,該數(shù)值反映了較好的標(biāo)注一致性;此外,該結(jié)果包括顯式關(guān)系和隱式關(guān)系在所有類別上的標(biāo)注一致性,如果單獨計算顯式關(guān)系的標(biāo)注一致性,我們會獲得更好的結(jié)果。據(jù)我們所知,這是第一份中文篇章句間關(guān)系語料。

        3.2.2 實驗結(jié)果

        訓(xùn)練語料中共標(biāo)記出1 273個不同的篇章關(guān)聯(lián)詞,利用這1 273個關(guān)聯(lián)詞構(gòu)成“關(guān)聯(lián)詞-關(guān)系類型”矩陣,并根據(jù)該矩陣對測試實例進行分類。對每一個測試實例,我們抽取相應(yīng)的篇章關(guān)聯(lián)詞,之后檢索矩陣,找到概率最大的關(guān)系類別作為最終結(jié)果。

        我們在中文篇章句間關(guān)系體系[19]的六個頂層類別進行實驗,包括“時序關(guān)系”、“因果關(guān)系”、“條件關(guān)系”、“比較關(guān)系”、“擴展關(guān)系”、“并列關(guān)系”,采用標(biāo)準(zhǔn)P、R、F進行評價,結(jié)果如表1所示。

        表1 基于關(guān)聯(lián)詞的顯式關(guān)系識別方法實驗結(jié)果

        分析表1,我們在“因果關(guān)系”、“條件關(guān)系”、“比較關(guān)系”三類獲得了非常好的效果:準(zhǔn)確率均高于0.96,F(xiàn)值均高于0.91。效果最好的“條件關(guān)系”精確率達到0.989 0,召回率為0.904 5,F(xiàn)值則是0.944 9。這意味著絕大多數(shù)情況下,“條件關(guān)系”對應(yīng)的篇章關(guān)聯(lián)詞(例如,如果)都是無歧義的;一旦這些關(guān)聯(lián)詞出現(xiàn),我們可以以非常高的概率將該關(guān)系實例判定為條件關(guān)系。類似的情況同樣存在于 “因果關(guān)系”和“比較關(guān)系”中。

        “時序關(guān)系”的實驗結(jié)果略有不同,我們獲得了較高的準(zhǔn)確率(0.951 2),但召回率較低(0.715 6)。高準(zhǔn)確率說明“時序關(guān)系”對應(yīng)的篇章關(guān)聯(lián)詞歧義性較小,低召回率說明統(tǒng)計信息的覆蓋率較差。對于“擴展關(guān)系”和“并列關(guān)系”情況則比較復(fù)雜。在這兩類中,準(zhǔn)確率和召回率都相對較低,這意味著除了覆蓋率問題外,兩類關(guān)系對應(yīng)的篇章關(guān)聯(lián)詞歧義性也比較高。對于歧義問題,很難單純通過語料擴充或分析解決,需要后續(xù)工作的更多關(guān)注。

        總的來說,基于關(guān)聯(lián)詞的識別方案在各個類別上的平均表現(xiàn)較好。但是,最高的F值(0.944 9)和最低的F值(0.563 8)之間差距較大,說明不同的關(guān)系類型之間差異非常明顯,這提示我們:不同的關(guān)系類型適合不同的處理方法。

        3.2.3 錯誤分析與討論

        進一步分析實驗結(jié)果,我們發(fā)現(xiàn),大部分篇章關(guān)聯(lián)詞歧義較?。蛔R別錯誤主要由少部分高歧義導(dǎo)致。這些關(guān)聯(lián)詞種類較少,但常用關(guān)聯(lián)詞較多(例如,而)。圖1描述出現(xiàn)次數(shù)Top 10的篇章關(guān)聯(lián)詞在各關(guān)系類型上的分布情況:柱狀圖的不同顏色代表關(guān)聯(lián)詞對應(yīng)的關(guān)系類型;不同的高度代表對應(yīng)關(guān)系類型所占的比例;同一關(guān)聯(lián)詞對應(yīng)的關(guān)系類型越少、類型越集中,該詞的歧義性越小。從圖中可知,大部分關(guān)聯(lián)詞(例如,因為)的歧義性較小,90%以上指示同一關(guān)系類型,但同時存在部分高歧義關(guān)聯(lián)詞。

        圖1 Top 10關(guān)聯(lián)詞的關(guān)系類型分布情況

        以關(guān)聯(lián)詞“而”為例,它對應(yīng)的關(guān)系類型分布情況包括以下幾類:

        (1)48.6% 對應(yīng)“擴展關(guān)系”;

        (2)41.8% 對應(yīng)“比較關(guān)系”;

        (3)7.6% 對應(yīng)“并列關(guān)系”;

        (4)2% 對應(yīng)“因果關(guān)系”。

        根據(jù)3.1.1的計算公式,“擴展關(guān)系”對應(yīng)的得分最高。在分類過程中,所有由“而”標(biāo)識的篇章句間關(guān)系實例都被分為“擴展關(guān)系”類別。對于48.6%的實例而言,我們獲得了正確結(jié)果;然而對于剩余的51.4%,則發(fā)生了分類錯誤。實驗分析發(fā)現(xiàn),大部分分類錯誤都和該類關(guān)聯(lián)詞有關(guān)。這提示我們對于歧義性大,出現(xiàn)次數(shù)較多的關(guān)聯(lián)詞,需要特殊的處理方案。

        4 隱式篇章句間關(guān)系識別

        隱式篇章句間關(guān)系缺少篇章關(guān)聯(lián)詞,沒有明顯的語義類型標(biāo)志,需要人類推理才能判斷關(guān)系的存在和具體類型。這使得隱式篇章句間關(guān)系具有不同于顯式關(guān)系的分布特點。

        4.1 隱式關(guān)系分析

        在很多情況下,關(guān)聯(lián)詞不僅僅起銜接作用,還會影響關(guān)系類型的分布,如例5、例6所示。

        例5:如果你身體還沒恢復(fù),就先不用來上班了。(條件關(guān)系)

        例6:你身體還沒恢復(fù),先不用來上班了。(因果關(guān)系)

        例5首先描述某一假設(shè)條件,隨后說明假設(shè)成立時的結(jié)果,屬于“條件關(guān)系”;例6首先描述某一事實,隨后指出事實引發(fā)的結(jié)果,屬于“因果關(guān)系”。除關(guān)聯(lián)詞“如果……就……”之外兩個例句內(nèi)容完全相同,但卻具有完全不同的語義類型。換言之,對某些關(guān)系類型來說(例如,條件關(guān)系),如果刪除篇章句間關(guān)系關(guān)聯(lián)詞,句子語義會發(fā)生翻轉(zhuǎn)。這種現(xiàn)象使得對應(yīng)類型的隱式關(guān)系實例大大減少,形成和顯式關(guān)系完全不同的分布特征。圖2描述了隱式關(guān)系和顯式關(guān)系在中文篇章句間關(guān)系體系[19]中六個頂層類別上的分布情況,其中圖2(a)為顯式關(guān)系分布圖,圖2(b)為隱式關(guān)系分布圖。

        分析圖2可知,相較于顯式關(guān)系,隱式關(guān)系的分布非常不均衡,其中“擴展關(guān)系”的比例大大增加,占到了總數(shù)的60.37%;而“條件關(guān)系”、“時序關(guān)系”、“比較關(guān)系”的數(shù)量則大大壓縮,其中“條件關(guān)系”和“時序關(guān)系”分別只占0.72%和2.57%;只有“并列關(guān)系”和“因果關(guān)系”比例相對穩(wěn)定。

        分析原因,對“條件關(guān)系”和“時序關(guān)系”而言,由于關(guān)聯(lián)詞的省略導(dǎo)致了語義翻轉(zhuǎn),使得對應(yīng)類型很少出現(xiàn)在隱式關(guān)系中,而“擴展關(guān)系”則非常適合用隱式關(guān)系來表達,這導(dǎo)致了圖2中分布現(xiàn)象的出現(xiàn)。該特點提示我們,在隱式關(guān)系識別中,不同關(guān)系類型具有不同的分布特性,適合不同的識別方法。考慮到隱式關(guān)系中“條件關(guān)系”和“時序關(guān)系”數(shù)量極少,我們主要識別“擴展關(guān)系”、“因果關(guān)系”、“比較關(guān)系”、“并列關(guān)系”四類。

        圖2 顯式/隱式關(guān)系類型分布圖

        4.2 基于有指導(dǎo)方法的隱式關(guān)系識別模型

        根據(jù)以上的分析,對隱式關(guān)系識別主要集中在“擴展關(guān)系”、“因果關(guān)系”、“比較關(guān)系”、“并列關(guān)系”四類。我們抽取了詞匯、句法、語義等多層次的特征,采用最大熵和SVM兩類學(xué)習(xí)方法訓(xùn)練四元分類模型,根據(jù)模型輸出判定隱式篇章句間關(guān)系類型。

        4.2.1 特征集合

        核心動詞:作為句子的主要成分,動詞往往在語義表達中起很重要的作用,動詞之間的關(guān)系常常反映了句子間的語義關(guān)系。如例7所示。

        例7:塔利班10日晚襲擊了阿富汗北部一個村落,導(dǎo)致18人喪生。(因果關(guān)系)

        上例中,“襲擊—喪生”之間存在因果聯(lián)系,同時也指示了兩個分句之間的因果關(guān)系。通過挖掘動詞之間的搭配特性,有助于識別篇章句間關(guān)系類型。這兩詞在依存句法分析結(jié)果中均作為“SBV(主謂關(guān)系)”的謂語動詞出現(xiàn),因此我們利用依存句法分析找到前后分句中的“SBV”關(guān)系,抽取其中的謂語動詞;同時為了避免稀疏,我們將兩個謂語動詞在同義詞詞林中泛化至第三層,并將泛化結(jié)果配對構(gòu)成核心動詞特征。

        極性特征:不同的極性信息常常指示特定的篇章句間關(guān)系類型,如例8所示。

        例8:他很喜歡 蘋果公司的產(chǎn)品,遺憾的是價格太高了。(轉(zhuǎn)折關(guān)系)

        例8中“喜歡”指示“Positive”的極性信息;“價格太高”指示“Negative”的極性信息,前后分句的極性信息相反,指示該實例屬于“轉(zhuǎn)折關(guān)系”。基于這種現(xiàn)象,我們引入了篇章單元的極性特征,采用極性詞匹配的方法判定篇章單元極性,并作為特征使用。

        依存句法特征:篇章單元的句法結(jié)構(gòu)中,最核心的關(guān)系包括“SBV(主謂)”和“VOB(動賓)”兩類,它們描述了文本單元的主要信息。本文將兩個篇章單元中的“SBV”和“VOB”關(guān)系抽取出來,并將對應(yīng)詞匯在同義詞詞林中泛化至第三層,作為特征使用。

        Unigram(句首):在中文里,句首詞語通常起承上啟下的作用,對篇章句間關(guān)系類型具有一定的指示作用。本文分別抽取兩個篇章單元中的第一個詞,作為識別特征使用。

        Bigram(句首):中文里承上啟下的可以是單個詞,也可以是雙詞或短語。因此除Unigram特征之外,本文還抽取兩個篇章單元中的前兩個詞,作為識別特征使用。

        4.3 實驗結(jié)果

        我們?nèi)匀徊捎?.2.1中提到的中文篇章句間關(guān)系語料庫進行實驗,該語料庫包含1 096篇文本,手工標(biāo)注了顯式篇章句間關(guān)系和隱式篇章句間關(guān)系兩類信息。我們將其中996篇作為訓(xùn)練語料,另外100篇作為測試語料,抽取前文提出的詞匯、句法、語義等特征,分別訓(xùn)練最大熵和SVM兩種模型進行分類。我們在中文篇章句間關(guān)系體系的四個頂層類別進行分類,包括:“擴展關(guān)系”、“因果關(guān)系”、“比較關(guān)系”、“并列關(guān)系”,結(jié)果如表2所示。

        分析表2,除“擴展關(guān)系”外,其他類型存在高準(zhǔn)確率、低召回率的特性。以最大熵模型下的“因果關(guān)系”為例,識別準(zhǔn)確率達到0.687 5,召回率卻只有0.080 3。而“擴展關(guān)系”情況恰恰相反。這說明數(shù)據(jù)不均衡性使得模型傾向于將測試實例分為“擴展關(guān)系”,導(dǎo)致“擴展關(guān)系”類型召回率增加,準(zhǔn)確率下降;同時使得其他類型召回率降低。系統(tǒng)的整體性能不佳,很大一個原因是由于低召回率導(dǎo)致的。這提示我們在類別分布嚴(yán)重不均衡的情況下,傳統(tǒng)的統(tǒng)一識別思路存在很大的困難。

        表2 隱式篇章句間關(guān)系識別結(jié)果

        注意到SVM實驗結(jié)果普遍高于最大熵,這主要是由于隱式關(guān)系在各類型上分布不均衡,而SVM模型對邊界實例敏感,但對數(shù)據(jù)不平衡有較強的容忍度,因此取得了相對較好的效果。此外,對比前文的顯式關(guān)系識別結(jié)果,我們發(fā)現(xiàn)“并列關(guān)系”識別效果始終不佳,這在一定程度上反映該類型的特征不明顯,區(qū)分度較弱;同時考慮圖1,主要的關(guān)聯(lián)詞歧義集中在“擴展關(guān)系”和“并列關(guān)系”,說明這兩個類別特征接近。從語義體系定義上來說,是否有必要將“擴展關(guān)系”和“并列關(guān)系”區(qū)分開來,是值得考慮的一個問題。

        5 結(jié)論與展望

        本文首次探索面向中文的篇章句間關(guān)系識別任務(wù),嘗試了顯式篇章句間關(guān)系識別和隱式篇章句間關(guān)系識別兩方面研究。對于顯式篇章句間關(guān)系識別,我們首次提出基于篇章關(guān)聯(lián)詞的顯式關(guān)系識別方法,在關(guān)聯(lián)詞統(tǒng)計的基礎(chǔ)上識別關(guān)系類型,取得了非常好的效果。對于隱式篇章句間關(guān)系識別,我們首先分析了隱式關(guān)系和顯式關(guān)系在類型分布上的差別,指出隱式關(guān)系的特點,并在識別過程中進行了針對性處理;隨后我們提出詞匯、句法、語法等一系列特征,采用最大熵和SVM兩種方案嘗試了隱式篇章句間關(guān)系識別。本文的分析和實驗結(jié)果為后續(xù)的工作提供了參考,推動了中文篇章分析研究,尤其是篇章句間關(guān)系分析的進一步發(fā)展。

        [1]D Marcu.The rhetorical parsing of unrestricted texts:A surface-based approach[J].Computational Linguistics,2000,26(3):395-448.

        [2]R Girju.Automatic detection of causal relations for question answering[C]//Proceedings of the ACL 2003 workshop on multilingual summarization and question answering.2003,12:76-83.

        [3]S Somasundaran,J Wiebe,J Ruppenhofer.Discourselevel opinion interpretation[C]//Proceedings of Coling 2008.

        [4]Zhou L,Li B,Gao W,et al.Unsupervised Discovery of Discourse Relations for Eliminating Intra-sentence Polarity Ambiguities[C]//Proceedings of the EMNLP 2011(Oral presentation),Edinburgh,Scotland,July:27-31.

        [5]E Pitler,A Nenkova.Revisiting readability:A unified framework for predicting text quality[C]//Proceedings of EMNLP 2008:186-195.

        [6]Ziheng Lin,Hwee Tou NG,Min-Yen Kan.Automatically Evaluating Text Coherence Using Discourse Relations.[C]//Proceedings of ACL-HLT,2011:997-1006.

        [7]E Pitler,M Raghupathy,H Mehta,et al.Easily identifiable discourse relations[C]//Proceedings of COLING 08.

        [8]Rashmi Prasad,Samar Husain,Dipti Sharma,et al.Towards an annotated corpus of discourse relations in Hindi[C]//Proceedings of the IJCNLP 2008,Hyderabad,India,2008.

        [9]Deniz Zeyrek,Bonnie Webber.A Discourse Resource for Turkish:Annotating Discourse Connectives in theMETU Corpus[C]//Proceedings of IJCNLP-2008.Hyderabad,India,2008.

        [10]A AlSaif,K Markert.The leeds arabic discourse treebank:Annotating discourse connectives for arabic[C]//Proceedings of LREC 2010.

        [11]Xue Nianwen.Annotating discourse connectives in the Chinese Treebank[C]//Proceedings of the ACL Workshop in Frontiers in Annotation II.2005.

        [12]Hen-Hsen Huang, Hsin-Hsi Chen.Chinese Discourse Relation Recognition[C]//Proceedings of IJCNLP 2011:1442-1446.

        [13]Yuping Zhou,Nianwen Xue.PDTB-style Discourse Annotation of Chinese Text[C]//Proceedings of ACL 2012.

        [14]J.R.Hobbs.On the coherence and structure of dis-course[M].CSLI,1985:37-85.

        [15]Carlson L,Marcu D,Okurowski ME.Building a discourse-tagged corpus in the framework of rhetorical structure theory[M].Springer Netherlands,2003:85-112.

        [16]R Prasad,N Dinesh,A Lee,et al.The Penn discourse treebank 2.0[C]//Proceedings of LREC 2008.

        [17]William Mann,Sandra Thompson.Rhetorical structure theory:Toward a functional theory of text organization[J].Text,1988,8(3):243-281.

        [18]A AlSaif,K Markert.The leeds arabic dis-course treebank:Annotating discourse connectives for arabic[C]//Proceedings of LREC 2010.

        [19]張牧宇,秦兵,劉挺.中文篇章級句間語義關(guān)系體系及標(biāo)注[C]//Proceedings of CCIR 2012.

        [20]Pitler E,Louis A,Nenkova A.Automatic Sense Predication for Implicit Discourse Relations in Text[C]//Proceedings of ACL-IJCNLP 2009.

        [21]Ben Wellner,James Pustejovsky.Automati-cally identifying the arguments of discourse connec tives[C]//Proceedings of EMNLP-CoNLL 2007,Prague,Czech Republic.

        [22]R Elwell,J Baldridge.Discourse connective argument identification with connective specific rankers[C]//Proceedings of the International Conference on Semantic Computing.2008.

        [23]D Marcu,A Echihabi.An unsupervised approach to recognizing discourse relations[C]//Proceedings of ACL 2001:368-375.

        [24]S Blair-Goldensohn,K R McKeown,O C Rambow.Building and Refining Rhetorical-Semantic Relation Models[C]//Proceedings of NAACL HLT,2007:428-435.

        [25]Z Zhou,Y Xu,Z Niu,et al.Predicting discourse connectives for implicit discourse relation recognition[C]//Proceedings of Coling 2010:1507-1514.

        [26]C Sporleder,A Lascarides.Using automatically labelled examples to classify rhetorical relations:an assessment[J].NLE 2008:14(3).

        [27]Lin Z,Kan M,Ng H.Recognizing Implicit Discourse Relations in the Penn Discourse Tree-bank[C]//Proceedings of EMNLP 2009,Singapore,August.

        [28]W Wang,J Su,C Tan.Kernel-based discourse relation recognition with temporal ordering information[C]//Proceedings of ACL 2010:710-719.

        [29]A Louis,A Nenkova.Creating local coherence:An empirical assessment[C]//Proceedings of NAACL 2010.

        [30]C Chiarcos.Towards the Unsupervised Acquisition of Discourse Relations[C]//Proceedings of ACL 2012.

        [31]Eduard Hovy,Mitchell Marcus,Martha Palmer,et al.Ontonotes:The 90%solution[C]//Proceedings of the Human Language Technology Conference of the NAACL,Companion Volume:Short Papers,2012:57-60.

        [32]Fleiss,J.L.Measuring nominal scale agreement among many raters[J].Psychological Bulletin,1971,76(5):378-382.

        猜你喜歡
        關(guān)聯(lián)詞因果關(guān)系語料
        巧用關(guān)聯(lián)詞
        用關(guān)聯(lián)詞造句
        Your high school friends are your lifelong friends
        玩忽職守型瀆職罪中嚴(yán)重不負責(zé)任與重大損害后果的因果關(guān)系
        做完形填空題,需考慮的邏輯關(guān)系
        基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
        幫助犯因果關(guān)系芻議
        華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
        介入因素對因果關(guān)系認(rèn)定的影響
        《苗防備覽》中的湘西語料
        国产高清一区二区三区视频| 国产一区曰韩二区欧美三区| 一区二区三区国产在线网站视频| 亚洲欧洲日产国码无码AV一 | 久久99久久99精品免视看国产成人| 一区二区三区蜜桃在线视频| 在线免费午夜视频一区二区| 中文字幕一区二区中文| 51国产偷自视频区视频| 亚洲av无码乱码国产精品久久| 日日婷婷夜日日天干| 亚洲中文字幕无码专区| 波多野结衣视频网址| 精品国产91久久久久久久a| 亚洲av网一区二区三区成人| 免费人成视频网站在线不卡| 岳好紧好湿夹太紧了好爽矜持| 日本亚洲国产一区二区三区| 国产91 对白在线播放九色| 亚洲免费无毛av一区二区三区 | 久久人妻少妇嫩草av无码专区| 日韩a无v码在线播放| 欧美激情在线不卡视频网站| 亚洲精彩视频一区二区| 女优av性天堂网男人天堂| 亚洲中文字幕在线综合| 欧美激情一区二区三区 | 国产99一区二区三区四区| 久久精品国产亚洲av四虎| 中国极品少妇videossexhd| 女同av在线观看网站| 精品国产av一区二区三区| 亚洲成人中文字幕在线视频| 国产精品久久久久久婷婷| 亚洲自拍愉拍| 男女啪啪动态视频在线观看| 我和丰满妇女激情视频| 免费看美女被靠的网站| 欧美亚洲午夜| 亚洲天堂av在线免费播放| 久久精品国产亚洲av久|