亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        漢英篇章結(jié)構(gòu)平行語料庫的對齊標(biāo)注研究

        2013-10-15 01:52:18馮文賀
        中文信息學(xué)報 2013年6期
        關(guān)鍵詞:層次結(jié)構(gòu)漢英平行

        馮文賀

        (河南科技學(xué)院 中文系,河南 新鄉(xiāng)453003;武漢大學(xué) 計算機(jī)學(xué)院,湖北 武漢430072)

        1 前言

        篇章結(jié)構(gòu)平行語料庫是對具有對譯關(guān)系的雙語文本標(biāo)注了平行篇章結(jié)構(gòu)信息(含篇章單位和層次化結(jié)構(gòu)及關(guān)系等)的語料庫。例1給出了一個漢英篇章結(jié)構(gòu)的平行標(biāo)注文本。

        例1 少年姓孫,//[并列]屬馬,/[并列]比小水小著一歲,///[并列]個頭也沒小水高,//[轉(zhuǎn)折]人卻本分實誠。(賈平凹《浮躁》)

        This boy,a member of the Sun family,//[并列]had been born in the year of the horse./[并列]Although he was a year younger///[并列]and a head shorter than Water Girl,//[轉(zhuǎn)折]he was honest and sincere.(Goldblatt,1991)

        平行語料庫和篇章結(jié)構(gòu)語料庫近年來都有較大發(fā)展。國際上平行語料庫20世紀(jì)90年代以來快速發(fā)展,漢英平行語料庫基本同步并取得較多進(jìn)展[1-3]。然而整體上,現(xiàn)有漢英平行語料庫除做了一般性段落、句子、短語對齊工作外,很少進(jìn)行句法、語義等深度標(biāo)注加工,特別是篇章結(jié)構(gòu)的標(biāo)注加工,還沒見到相關(guān)工作。另一方面,國際上篇章結(jié)構(gòu)語料庫已有成熟工作[4-6],漢語方面也有一些理論探索和實踐[7-9],但至今未見到漢英(及其他雙語)篇章結(jié)構(gòu)平行語料庫工作。篇章結(jié)構(gòu)平行語料庫的匱乏制約了基于篇章的機(jī)器翻譯等技術(shù)的發(fā)展。我們在基本完成漢語篇章語料庫600篇標(biāo)注(CNDB1.0版)工作基礎(chǔ)之上,提出并開始漢英平行語料庫的建設(shè)工作。本文內(nèi)容是基于已進(jìn)行的標(biāo)注實踐。

        對齊標(biāo)注是漢英篇章結(jié)構(gòu)平行語料庫的核心理論基礎(chǔ)。不同于一般平行語料庫工作,它既要求單位對齊(篇章單位對齊),還要求結(jié)構(gòu)與關(guān)系對齊(篇章結(jié)構(gòu)與篇章關(guān)系對齊)。不同于一般單語篇章結(jié)構(gòu)語料庫工作,它要在篇章結(jié)構(gòu)標(biāo)注同時考慮對齊問題。可以認(rèn)為,漢英篇章結(jié)構(gòu)語料庫實質(zhì)是對齊與標(biāo)注合二為一的工作。由此,它富有挑戰(zhàn)性和創(chuàng)新性;在機(jī)器翻譯等領(lǐng)域?qū)⒂歇毺貞?yīng)用價值,對于其他平行語料庫工作也將有一定理論啟示意義。

        2 已有研究

        首先,關(guān)于平行語料庫的對齊和標(biāo)注。就此問題,目前的平行語料庫工作有以下主要特點:(1)理論上認(rèn)為對齊和標(biāo)注可以相對獨立進(jìn)行。通常對齊在前,然后單獨進(jìn)行各類標(biāo)注,這也是平行語料庫前期多對齊而少深層標(biāo)注的原因。(2)對于對齊,多理解為單位對齊,如有段落、句子、小句、短語、詞語等各級語言單位的對齊工作;一般不進(jìn)行各層級的結(jié)構(gòu)對齊工作。(3)由于標(biāo)注獨立于對齊,標(biāo)注基本等同單語上的標(biāo)注,并不考慮雙語問題。

        這種“對齊和標(biāo)注相對獨立,有單位對齊而無結(jié)構(gòu)對齊”工作模式的形成,與理論上認(rèn)為雙語的語言結(jié)構(gòu),特別是句法結(jié)構(gòu)有巨大差異有關(guān),由此,不可能有對齊的句法結(jié)構(gòu),也不可能有對齊的詞性標(biāo)注等,這就從根本上造成了目前的工作模式。由于對齊和標(biāo)注獨立,又由于有單位對齊而無結(jié)構(gòu)對齊,平行語料庫不能高效指導(dǎo)后續(xù)的語言技術(shù)。例如,在基于結(jié)構(gòu)轉(zhuǎn)換的機(jī)器翻譯中[10],結(jié)構(gòu)對齊和轉(zhuǎn)換不能在現(xiàn)有平行語料庫中得到高效指導(dǎo)。

        這種工作模式在篇章結(jié)構(gòu)平行語料庫中可能得到改變。在漢英篇章結(jié)構(gòu)平行語料庫中,將實現(xiàn)“對齊和標(biāo)注并行,單位對齊和結(jié)構(gòu)對齊共進(jìn)”。這主要與客觀上篇章結(jié)構(gòu)的雙語差異可能沒有句法結(jié)構(gòu)差異那么大、那么精細(xì)有關(guān)。其次也與主觀上語言學(xué)理論對于篇章結(jié)構(gòu)的認(rèn)識還沒有那么根深蒂固有關(guān)。

        其次,關(guān)于篇章結(jié)構(gòu)語料庫標(biāo)注。雖然目前的篇章結(jié)構(gòu)語料庫主要是單語工作,但有關(guān)的基本篇章單位定義、結(jié)構(gòu)分析、關(guān)系體系及標(biāo)注等工作,仍可作為平行篇章結(jié)構(gòu)語料庫的重要基礎(chǔ)。然而,由于要考慮雙語對齊,特別是結(jié)構(gòu)對齊,雙語平行語料庫對于基本篇章單位、結(jié)構(gòu)分析、關(guān)系分析等將有一些特別考慮,某些標(biāo)注可能會和單語上的工作有很大不同。由于雙語對齊視野,對于篇章結(jié)構(gòu)及其分析我們將會有一些不同認(rèn)識。

        3 漢英篇章結(jié)構(gòu)平行語料庫的對齊標(biāo)注策略

        3.1 對齊標(biāo)注總原則

        漢英篇章結(jié)構(gòu)平行語料庫的對齊標(biāo)注總原則是“結(jié)構(gòu)對齊,關(guān)系對齊”。例1即是此原則下的對齊標(biāo)注,該例結(jié)構(gòu)層次和篇章關(guān)系完全相同。關(guān)于這一原則有幾點需要說明。

        第一,本原則的基本假設(shè)是具有對譯關(guān)系的篇章,其內(nèi)部的層次結(jié)構(gòu)和結(jié)構(gòu)關(guān)系一一對應(yīng)。本質(zhì)上篇章結(jié)構(gòu)是一種邏輯語義結(jié)構(gòu),對于一個優(yōu)質(zhì)的翻譯文本,源語中的因果、轉(zhuǎn)折、并列等邏輯語義關(guān)系必然在目的語中得到反映,而且該邏輯語義關(guān)系的結(jié)構(gòu)層級等也會得到較好反映。所以這里的“結(jié)構(gòu)對齊、關(guān)系對齊”本質(zhì)上是邏輯語義結(jié)構(gòu)對齊。

        第二,本原則沒有明確體現(xiàn)單位對齊,并不意味著沒有單位對齊,因為單位對齊是結(jié)構(gòu)對齊的必然結(jié)果之一。標(biāo)注過程中,主要著力于從上到下的層層結(jié)構(gòu)對齊,其間及最終自然帶來各級篇章單位、直至最小篇章單位的對齊。

        第三,本原則在實現(xiàn)雙語結(jié)構(gòu)對齊、關(guān)系對齊的同時實現(xiàn)標(biāo)注。所以它實質(zhì)上是一個“標(biāo)注中有對齊,對齊中有標(biāo)注”的對齊與標(biāo)注合二為一的過程。

        漢英篇章結(jié)構(gòu)的對齊標(biāo)注,包括切分對齊、結(jié)構(gòu)對齊、關(guān)系對齊、中心判定對齊等幾個關(guān)鍵對齊標(biāo)注任務(wù),下面分述它們的具體處理。

        3.2 切分對齊

        切分對齊指篇章單位對齊,它用來解決某一語段能否切分或切分到何處的問題。其關(guān)鍵是基本篇章單位對齊問題?;酒聠挝皇瞧陆Y(jié)構(gòu)從上到下切分的終點(在從下到上的結(jié)構(gòu)組合中是起點)。漢英的基本篇章單位有重要差異,要給出一個同時適合兩種語言的基本篇章單位定義,并用以工程實踐是困難的。在這個問題上,我們采用“源語優(yōu)先”的對齊策略,即首先按既定的漢語基本篇章單位進(jìn)行切分,然后以英語對齊(最終可根據(jù)結(jié)果歸納英語基本篇章單位)。例1的切分對齊就是在這一原則下實現(xiàn)的。對于漢語基本篇章單位,我們采用了一個操作性強(qiáng)的標(biāo)準(zhǔn)[11]:

        “子句是篇章分析的基本單位,含傳統(tǒng)單句和復(fù)句中的分句。結(jié)構(gòu)上,子句至少包含一個謂語部分,至少表達(dá)一個命題;功能上,子句對外不作為其他子句結(jié)構(gòu)的語法成分,子句和子句間發(fā)生命題關(guān)系;形式上,子句間一定有標(biāo)點分割,通常是逗號、分號和句號等。實際語料中,一些與典型子句在結(jié)構(gòu)、功能、形式上類似的傳統(tǒng)所謂短語在特定條件下也作為子句處理?!?/p>

        需要指出,漢英基本篇章單位的差異主要在內(nèi)部結(jié)構(gòu),其對外語義功能是一致的,即均與其他篇章單位發(fā)生命題間“因果、轉(zhuǎn)折”等關(guān)系,而非發(fā)生句法成分之間的語義關(guān)系。從處理結(jié)果上看,這種對齊切分的結(jié)果表現(xiàn)為以下兩點。

        (1)雙語文本都是典型基本篇章單位

        典型基本篇章單位既具備一定結(jié)構(gòu)要素,又具備特定功能要素。其中結(jié)構(gòu)要素一般包含謂語部分,功能要素是對外發(fā)生命題關(guān)系。例2、例3中對齊的基本篇章單位都比較典型①下文各例均自《中國憲法》(中英文),語料來源為中國人大網(wǎng)http://law.npc.gov.cn:87/home/begin1.cbs。

        下文各例均自《中國憲法》(中英文),語料來源為中國人大網(wǎng)http://law.npc.gov.cn:87/home/begin1.cbs

        例2 中國是世界上歷史最悠久的國家之一。/中國各族人民共同創(chuàng)造了光輝燦爛的文化,//具有光榮的革命傳統(tǒng)。

        China is a country with one of the longest histories in the world./The people of all of China’s nationalities have jointly created a culture of grandeur//and have a glorious revolutionary tradition.

        例3 一九一一年孫中山先生領(lǐng)導(dǎo)的辛亥革命,廢除了封建帝制,//創(chuàng)立了中華民國。/但是,中國人民反對帝國主義和封建主義的歷史任務(wù)還沒有完成。

        The Revolution of 1911,led by Dr.Sun Yatsen,abolished the feudal monarchy//and gave birth to the Republic of China./But the historic mission of the Chinese people to overthrow imperialism and feudalism remained unaccomplished.

        (2)源語是典型基本篇章單位,目的語不是典型基本篇章單位

        注意對照例4、例5中英文的劃線部分的內(nèi)部結(jié)構(gòu)。

        例4 人民依照法律規(guī)定,通過各種途徑和形式,管理國家事務(wù),/管理經(jīng)濟(jì)和文化事業(yè),//管理社會事務(wù)。

        The people administer State affairs/and manage economic and cultural undertakings//and social affairs through various channels and in various ways in accordance with the provisions of law.

        例5 在維護(hù)民族團(tuán)結(jié)的斗爭中,要反對大民族主義,//主要是大漢族主義,/也要反對地方民族主義。

        In the struggle to safeguard the unity of the nationalities,it is necessary to combat big-nation chauvinism,//mainlyHan chauvinism,/and to combat local national chauvinism.

        3.3 層次結(jié)構(gòu)對齊

        層次結(jié)構(gòu)對齊要求雙語的篇章層次結(jié)構(gòu)分析一致。層次結(jié)構(gòu)是篇章單位語義親近程度的反映,具有一定客觀性,通常雙語的篇章層次結(jié)構(gòu)會自然對應(yīng),如例2、例3。這種情況下各自獨立標(biāo)注雙語,也會得到雙語篇章層次結(jié)構(gòu)對齊。但由于雙語差異和篇章層次結(jié)構(gòu)的理解主觀性,目的語中會加入特定語言特征和翻譯者的理解主觀性,并進(jìn)而影響目的語的層次結(jié)構(gòu)。這種情況下,使用目的語優(yōu)先原則進(jìn)行層次結(jié)構(gòu)對齊。對比例6~例8的A、B兩種可能處理,其中B為目的語優(yōu)先原則下的處理。

        例6 A.人民依照法律規(guī)定,通過各種途徑和形式,管理國家事務(wù),/管理經(jīng)濟(jì)和文化事業(yè),/管理社會事務(wù)。

        B.人民依照法律規(guī)定,通過各種途徑和形式,管理國家事務(wù),/管理經(jīng)濟(jì)和文化事業(yè),//管理社會事務(wù)。

        The people administer State affairs/and manage economic and cultural undertakings//andso-cial affairs through various channels and in various ways in accordance with the provisions of law.

        例7 A.一九四九年,以毛澤東主席為領(lǐng)袖的中國共產(chǎn)黨領(lǐng)導(dǎo)中國各族人民,在經(jīng)歷了長期的艱難曲折的武裝斗爭和其他形式的斗爭以后,終于推翻了帝國主義、封建主義和官僚資本主義的統(tǒng)治,///取得了新民主主義革命的偉大勝利,//建立了中華人民共和國。/從此,中國人民掌握了國家的權(quán)力,//成為國家的主人。

        B.一九四九年,以毛澤東主席為領(lǐng)袖的中國共產(chǎn)黨領(lǐng)導(dǎo)中國各族人民,在經(jīng)歷了長期的艱難曲折的武裝斗爭和其他形式的斗爭以后,終于推翻了帝國主義、封建主義和官僚資本主義的統(tǒng)治,//取得了新民主主義革命的偉大勝利,//建立了中華人民共和國。/從此,中國人民掌握了國家的權(quán)力,//成為國家的主人。

        After waging protracted and arduous struggles,armed and otherwise,along a zigzag course,the Chinese people of all nationalities led by the Communist Party of China with Chairman Mao Zedong as its leader ultimately,in 1949,overthrew the rule of imperialism,feudalism and bureaucratcapitalism,//won a great victoryin the New-Democratic Revolution//andfounded the People's Republic of China./Since then the Chinese people have taken control of state power and become masters of the country.

        例8 A.中國人民和中國人民解放軍戰(zhàn)勝了帝國主義、霸權(quán)主義的侵略、破壞和武裝挑釁,/維護(hù)了國家的獨立和安全,/增強(qiáng)了國防。

        B.中國人民和中國人民解放軍戰(zhàn)勝了帝國主義、霸權(quán)主義的侵略、破壞和武裝挑釁,維護(hù)了國家的獨立和安全,增強(qiáng)了國防。

        The Chinese people and the Chinese People’s Liberation Army have defeated imperialist and hegemonist aggression,sabotage and armed provocations/and have thereby safeguarded China’s national independence and security//and strengthened its national defence.

        這種處理在目的語中往往有形式標(biāo)志。如例6英文謂詞administer和manage所引導(dǎo)的篇章單位首先構(gòu)成第一層并列,而中文原有的后一個并列項為第二層并列,因為英文中后一個并列項與前一并列項共享一個謂詞manage。例7中,邏輯上“終于……統(tǒng)治”“取得……勝利”前二分句的關(guān)系比與后一分句“建立……共和國”的關(guān)系近一點,但對應(yīng)英文采用“,,and”一般并列結(jié)構(gòu)的連接形式,故采用B的結(jié)構(gòu)分析。而例8,直觀上中文的三個分句可構(gòu)成并列,但對應(yīng)英文采用的“and…and”并不是英文連接同層并列的一般方式,分析后可知,第一個and的地位要高于第二個and,故相應(yīng)結(jié)構(gòu)劃分采用B。這種“注重形式,目的語優(yōu)先”的層次結(jié)構(gòu)對齊方式,有利于指導(dǎo)機(jī)器翻譯中的結(jié)構(gòu)轉(zhuǎn)換等工作。

        3.4 關(guān)系對齊

        關(guān)系對齊要求雙語對應(yīng)結(jié)構(gòu)的篇章關(guān)系類別判定要一致。篇章關(guān)系本質(zhì)上是邏輯關(guān)系,由于邏輯關(guān)系的客觀性,通常判定一種語言的篇章關(guān)系,同時運用于兩種語言即可。不過,篇章關(guān)系的理解具有主觀性,特別是翻譯文本中會加入翻譯者的主觀理解,從而會影響到目的語。這種情況下按照目的語優(yōu)先原則進(jìn)行關(guān)系對齊。例9、例10所標(biāo)記關(guān)系即為目的語優(yōu)先原則下的對齊標(biāo)注。目的語優(yōu)先通常要求目的語有形式標(biāo)志,例9的連接詞“and…thereby”,例10的“to”提示了相應(yīng)關(guān)系。目的語優(yōu)先的關(guān)系對齊有利于指導(dǎo)機(jī)器翻譯的關(guān)系翻譯等。

        例9 中國人民和中國人民解放軍戰(zhàn)勝了帝國主義、霸權(quán)主義的侵略、破壞和武裝挑釁,/[遞進(jìn),因果]維護(hù)了國家的獨立和安全,//增強(qiáng)了國防。

        The Chinese people and the Chinese People’s Liberation Army have defeated imperialist and hegemonist aggression,sabotage and armed provocations/[遞進(jìn);因果]and have thereby safeguarded China’s national independence and security//and strengthened its national defence.

        例10 各少數(shù)民族聚居的地方實行區(qū)域自治,/設(shè)立自治機(jī)關(guān),//行使自治權(quán)。

        Regional autonomy is practised in areas where people of minority nationalities live in concentrated communities;/in these areas organs of self-government are established//[目的]to exercise the power of autonomy.

        3.5 中心對齊

        中心通常是關(guān)系項的主旨或重點,中心對齊要求雙語文本對于關(guān)系項主次地位的判定一致。中心項的確定有客觀性,但也有理解主觀性,翻譯中會加入翻譯者的理解,進(jìn)而影響目的語的語言結(jié)構(gòu),我們使用目的語優(yōu)先原則進(jìn)行對齊。這時候目的語一般有形式標(biāo)志,如例11下劃線所示英文篇章單位的不定式形式提示該項在相應(yīng)關(guān)系中的非中心地位,例12下劃線英文篇章單位的名詞短語限定形式、定語從句形式和主要謂語形式提示相應(yīng)項的主次地位。采用目的語優(yōu)先的中心對齊標(biāo)注,對于機(jī)器翻譯中主從結(jié)構(gòu)轉(zhuǎn)換等會有一定指導(dǎo)意義。

        例11 各少數(shù)民族聚居的地方實行區(qū)域自治,/設(shè)立自治機(jī)關(guān),*//行使自治權(quán)。

        Regional autonomy is practised in areas where people of minority nationalities live in concentrated communities;//in these areas organs of self-government are established//to exercise the power of autonomy.(注:這里用*標(biāo)記相應(yīng)層次結(jié)構(gòu)的中心項,下同)

        例12 中國人民政治協(xié)商會議是有廣泛代表性的統(tǒng)一戰(zhàn)線組織,*//過去發(fā)揮了重要的歷史作用,/*今后在國家政治生活、社會生活和對外友好活動中,在進(jìn)行社會主義現(xiàn)代化建設(shè)、維護(hù)國家的統(tǒng)一和團(tuán)結(jié)的斗爭中,將進(jìn)一步發(fā)揮它的重要作用。

        The Chinese People’s Political Consultative Conference,a broadly based representative organization of the united front* //which has played a significant historical role,/* will playa still more important role in the country's political and social life,in promoting friendship with other countries and in the struggle for socialist modernization and for the reunification and unity of the country.

        3.6 角色分布對齊

        角色指篇章關(guān)系中關(guān)系項的角色地位,如因果關(guān)系中,一個關(guān)系項為“原因”項,一個關(guān)系項為“結(jié)果”項。角色分布指關(guān)系項的位置分布或順序,例如,漢語“因果關(guān)系”通?!霸颉痹谇埃敖Y(jié)果”在后。我們以漢語的角色分布常規(guī)作為角色分布的對齊標(biāo)準(zhǔn)。對于一個“原因”在后,“結(jié)果”在前的文本,無論中英文,均認(rèn)為其“不合常規(guī)”。這種對齊對于機(jī)器翻譯中的語序調(diào)整將起一定作用。

        4 對齊標(biāo)注實現(xiàn)

        4.1 標(biāo)注平臺

        為了獲得高效、一致的標(biāo)注,我們開發(fā)了一個漢英篇章結(jié)構(gòu)的輔助對齊標(biāo)注平臺。實現(xiàn)的功能包括雙語導(dǎo)入、篇章單位切分、層次結(jié)構(gòu)標(biāo)注、連接詞標(biāo)注、關(guān)系標(biāo)注、角色分布標(biāo)注、中心標(biāo)注。標(biāo)注平臺工作界面見圖1。為了便于結(jié)果直觀對比,中英雙語的對齊標(biāo)注均給出樹圖顯示,見圖2,圖式例子為例3。直觀上雙語篇章結(jié)構(gòu)對齊,樹圖結(jié)構(gòu)完全一致。

        圖1 漢英篇章結(jié)構(gòu)平行語料庫標(biāo)注平臺界面

        4.2 標(biāo)注操作

        為了保證對齊標(biāo)注,我們制定了對齊標(biāo)注操作流程規(guī)范。主要有:

        第一,從漢到英,從英到漢,形式優(yōu)先。從漢到英,指切分首先從漢語判定,以漢語為標(biāo)準(zhǔn)切分對齊,這主要與本工作是“漢—英”方向的平行語料庫有關(guān)。從英到漢,指層次結(jié)構(gòu)、篇章關(guān)系、中心等由英語而漢語進(jìn)行判定,這一方面與英語有較多的形式結(jié)構(gòu)可把握有關(guān),另一方面也與這首先是一項服務(wù)于機(jī)器翻譯的工作有關(guān)。

        第二,從上到下,從左至右,步步對齊。從上到下,從左至右,指標(biāo)注中層次結(jié)構(gòu)的劃分遵循從上到下、從左至右的結(jié)構(gòu)切分流程,并且要求漢英篇章結(jié)構(gòu)平行分析,步步對齊。

        4.3 標(biāo)注結(jié)果

        標(biāo)注結(jié)果保存為XML格式,雙語標(biāo)注結(jié)果各自獨立保存,二者的對齊關(guān)系通過段落號(P ID)、關(guān)系號(R ID)等體現(xiàn)。下面給出例3的標(biāo)注結(jié)果實例。

        中文標(biāo)注實例:

        <P ID="4">

        <R ID="4"StructureType="逐層切分"ConnectiveType="顯式關(guān)系"Layer="1"RelationNumber="單個關(guān)系"Connective="但是"RelationType="轉(zhuǎn)折關(guān)系"ConnectivePosition="35…36"ConnectiveAttribute="不可刪除"RoleLocation="normal"LanguageSense="true"Sen-tence="一九一一年孫中山先生領(lǐng)導(dǎo)的辛亥革命,廢除了封建帝制,創(chuàng)立了中華民國。|但是,中國人民反對帝國主義和封建主義的歷史任務(wù)還沒有完成。"SentencePosition="1…34|35…63"Center="2"ChildList="5"ParentId="-1"UseTime="20"/>

        <R ID="5"StructureType="逐層切分"ConnectiveType="隱式關(guān)系"Layer="2"RelationNumber="單個關(guān)系"Connective=""RelationType="順承關(guān)系"ConnectivePosition=""ConnectiveAttribute="不可添加"RoleLocation="normal"LanguageSense="true"Sentence="一九一一年孫中山先生領(lǐng)導(dǎo)的辛亥革命,廢除了封建帝制,|創(chuàng)立了中華民國。"SentencePosition="1…26|27…34"Center="3"ChildList=""ParentId="4"UseTime="72"/>

        英文標(biāo)注實例:

        <P ID="4">

        <R ID="4"StructureType="逐層切分"ConnectiveType="顯式關(guān)系"Layer="1"RelationNumber="單個關(guān)系"Connective="But"RelationType="轉(zhuǎn)折關(guān)系"ConnectivePosition="116…119"ConnectiveAttribute="不可刪除"RoleLocation="normal"LanguageSense="true"Sentence="The Revolution of 1911,led by Dr.Sun Yat-sen,abolished the feudal monarchy and gave birth to the Republic of China.|But the historic mission of the Chinese people to overthrow imperialism and feudalism remained unaccomplished."SentencePosition="1…115|116…225"Center="2"ChildList="5"ParentId="-1"UseTime="25"/>

        <R ID="5"StructureType="逐層切分"ConnectiveType="顯式關(guān)系"Layer="2"RelationNumber="單個關(guān)系"Connective="and"RelationType="順承關(guān)系"ConnectivePosition="76…78"ConnectiveAttribute="不可刪除"RoleLocation="normal"LanguageSense="true"Sentence="The Revolution of 1911,led by Dr.Sun Yat-sen,abolished the feudal monarchy|and gave birth to the Republic of China."SentencePosition="1…74|76…115"Center="3"ChildList=""ParentId="4"UseTime="14"/>

        5 難點問題及其解決

        5.1 基本篇章單位問題

        對齊切分以漢語標(biāo)準(zhǔn)為優(yōu)先原則,漢語切分中篇章結(jié)構(gòu)和復(fù)雜句結(jié)構(gòu)的區(qū)分是個難點。如例13,如果認(rèn)為“在…以后,終于”是表順承關(guān)系的連接詞,可以認(rèn)為劃線部分就是一個基本篇章單位。不過,傳統(tǒng)語法一般把其分析為狀語,作為句法結(jié)構(gòu)的一部分。這是篇章結(jié)構(gòu)和句法結(jié)構(gòu)有過渡地帶的反映。我們暫按傳統(tǒng)語法,把劃線部分的分析留給句法結(jié)構(gòu)。

        例13 一九四九年,以毛澤東主席為領(lǐng)袖的中國共產(chǎn)黨領(lǐng)導(dǎo)中國各族人民,在經(jīng)歷了長期的艱難曲折的武裝斗爭和其他形式的斗爭以后,終于推翻了帝國主義、封建主義和官僚資本主義的統(tǒng)治,取得了新民主主義革命的偉大勝利,建立了中華人民共和國。

        5.2 篇章關(guān)系問題

        由于目前的篇章關(guān)系體系還不是一個嚴(yán)格邏輯體系,以及篇章關(guān)系理解的主觀性,當(dāng)缺少明顯關(guān)系標(biāo)記的時候,關(guān)系對齊標(biāo)注就比較困難。我們采取兩種策略解決這個問題。

        第一,制定形式策略,保證篇章關(guān)系判定的客觀性。常用方法如下。

        添加連接詞法:為當(dāng)前關(guān)系添加某類關(guān)系的典型連接詞,如果連貫順暢,該關(guān)系可能即為當(dāng)前關(guān)系的所屬類別。如例14通過添加“但是”測試,可以判定相應(yīng)關(guān)系為轉(zhuǎn)折關(guān)系。

        提問回答法:用適合于某類關(guān)系的提問方式測定當(dāng)前關(guān)系,如果當(dāng)前關(guān)系的前后項比較適合該提問方式則認(rèn)定當(dāng)前關(guān)系即為該類關(guān)系。如例14對前項提問“怎樣區(qū)域自治”,而后項適合作為該項回答,可以認(rèn)定當(dāng)前關(guān)系為解釋關(guān)系。

        例14 各少數(shù)民族聚居的地方實行區(qū)域自治,//[解釋](提問:“怎樣區(qū)域自治?”)設(shè)立自治機(jī)關(guān),///[目的](添加連接詞:“以”)行使自治權(quán)。/[轉(zhuǎn)折](添加連接詞:“但是”)各民族自治地方都是中華人民共和國不可分離的部分。

        第二,允許多種篇章關(guān)系存在,但一般不超過三種。從不同角度看,可能同時存在多種關(guān)系。見例15。這既可減少關(guān)系判斷的困難與分歧,也較真實的反映了篇章關(guān)系事實。

        例15 平等、團(tuán)結(jié)、互助的社會主義民族關(guān)系已經(jīng)確立,/[順承;并列;遞進(jìn)]并將繼續(xù)加強(qiáng)。

        5.3 中心問題

        由于中心的理解主觀性,在缺少一定形式標(biāo)志的時候,中心對齊就成為困難問題,通過兩種策略解決。

        第一,制定形式策略,保證中心判定的客觀性。通??捎脛h除法測試。見例16。

        刪除法:關(guān)系中的中心項不可刪除,非中心項可以刪除。二者的區(qū)別在于非中心項刪除后句子仍然保持原有連貫關(guān)系,而中心項對外具有代表性,刪除后不能保持原有連貫關(guān)系。

        例16 各少數(shù)民族聚居的地方實行區(qū)域自治,*//設(shè)立自治機(jī)關(guān),*///行使自治權(quán)。*/*各民族自治地方都是中華人民共和國不可分離的部分。

        第二,允許多個中心存在。當(dāng)無法利用形式標(biāo)志和既定策略判定中心項的時候允許多個中心存在。如例16第一層前后項均為中心。另外,并列結(jié)構(gòu)一般是多中心結(jié)構(gòu)。

        值得指出,以上的一些難點問題,大多是單語篇章結(jié)構(gòu)標(biāo)注中就存在的問題。

        6 結(jié)語

        對齊標(biāo)注是漢英篇章結(jié)構(gòu)平行語料庫的核心理論基礎(chǔ),本文提出“結(jié)構(gòu)對齊,關(guān)系對齊”的對齊標(biāo)注策略,應(yīng)用于切分對齊、層次結(jié)構(gòu)對齊、關(guān)系標(biāo)注對齊、中心對齊等環(huán)節(jié),實現(xiàn)了“對齊和標(biāo)注并行,單位對齊和結(jié)構(gòu)對齊共進(jìn)”的平行語料庫構(gòu)建模式。本策略輔之以相應(yīng)工作平臺和工作程序,和相應(yīng)難點解決方案,被證明是一種高效的篇章結(jié)構(gòu)平行語料庫工作方式。下一步工作中,我們將不斷完善本標(biāo)注策略,進(jìn)一步擴(kuò)大標(biāo)注實驗,形成完整的對齊標(biāo)注規(guī)范和其他相關(guān)篇章結(jié)構(gòu)標(biāo)注規(guī)范,最終研制一個大規(guī)模的漢英篇章結(jié)構(gòu)平行語料庫供學(xué)界和工業(yè)界使用。

        致謝:匿名評審專家和李艷翠為本文提出了寶貴意見,苗圖文、常偉開發(fā)了輔助標(biāo)注平臺,郭海芳、王筱錚、王玉夢、胡炎磊參與了項目標(biāo)注工作。

        [1]柏曉靜,常寶寶,詹衛(wèi)東,等.構(gòu)建大規(guī)模的漢英雙語平行語料庫[C]//機(jī)器翻譯研究進(jìn)展—2002年全國機(jī)器翻譯研討會論文集.2002.

        [2]王克非.雙語對應(yīng)語料庫:研制與應(yīng)用[M].北京:外語教學(xué)與研究出版社.2004.

        [3]劉澤權(quán),田璐,劉超朋.《紅樓夢》中英文平行語料庫的創(chuàng)建[J].當(dāng)代語言學(xué),2008,10(4):329-339.

        [4]Carlson L,Marcu D,Okurowski M E.Building a discourse-tagged corpus in the framework of rhetorical structure theory[C]//Proceedings of Jan van Kuppev-elt and Ronnie W.Smith(eds.),Current and New Directions in Discourse and Dialogue,Kluwer Academic Publishers,2003:85-112.

        [5]Wolf F,Gibson E.Representing discourse coherence:A corpus-based study[J].Computational Linguistics,2005,31(2):249-287.

        [6]Prasad R,Dinesh N,Lee A,et al.The Penn Discourse Treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and E-valuation.2008.

        [7]Xue N.Annotating discourse connectives in the Chinese Treebank[C]//Proceedings of the Workshop on Frontiers in Corpus Annotations II:Pie in the Sky.Association for Computational Linguistics,2005:84-91.

        [8]樂明.漢語篇章修辭結(jié)構(gòu)的標(biāo)注研究[J].中文信息學(xué)報,2008,22(4):19-23.

        [9]Zhou Y,Xue N.PDTB-style Discourse Annotation of Chinese Text[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics.2012:69-77.

        [10]劉群.漢英機(jī)器翻譯若干關(guān)鍵技術(shù)研究[M].北京:清華大學(xué)出版社.2008.

        [11]李艷翠,馮文賀,周固棟,等.基于逗號的漢語子句識別研究[J].北京大學(xué)學(xué)報:自然科學(xué)版,2013(1):7-14.

        猜你喜歡
        層次結(jié)構(gòu)漢英平行
        向量的平行與垂直
        平行
        逃離平行世界
        基于級聯(lián)網(wǎng)絡(luò)和語義層次結(jié)構(gòu)的圖像自動標(biāo)注方法
        論立法修辭功能的層次結(jié)構(gòu)
        法律方法(2017年2期)2017-04-18 09:00:37
        話題鏈在漢英篇章翻譯中的統(tǒng)攝作用
        從目的論看環(huán)保公示語的漢英翻譯
        建構(gòu)利益相關(guān)者管理的三層次結(jié)構(gòu)分析
        再頂平行進(jìn)口
        汽車觀察(2016年3期)2016-02-28 13:16:36
        漢英文字的幽默修辭功能淺探
        語言與翻譯(2014年1期)2014-07-10 13:06:14
        手机在线观看日韩不卡av| 日本岛国一区二区三区四区| 无码熟妇人妻av在线影片最多| 久久久亚洲av午夜精品| 精品国产免费久久久久久| 欧美激情综合色综合啪啪五月| 国产精品一区二区偷拍| 久久一二三四区中文字幕| 成人亚洲欧美久久久久| 草草网站影院白丝内射| 欧洲精品免费一区二区三区| 国产一级一区二区三区在线播放| 午夜国产精品视频免费看电影| 免费啪啪视频一区| 久久无码字幕中文久久无码| 一区二区三区蜜桃av| 国产韩国精品一区二区三区| 久久老子午夜精品无码怎么打 | 人禽杂交18禁网站免费| 国产精品亚洲av网站| 久久婷婷香蕉热狠狠综合| 天堂а√在线最新版中文在线| 91九色国产老熟女视频| 夫妻一起自拍内射小视频| 精品国产亚洲AⅤ麻豆| 1000部夫妻午夜免费| 亚洲爆乳精品无码一区二区| 亚洲av无码乱码国产麻豆| 日本少妇一区二区三区四区| 中文字幕亚洲精品第一页| 草莓视频在线观看无码免费| 精品成人乱色一区二区| 最新国产精品久久精品| 一区二区和激情视频| 日本一区二区在线高清观看| av网页免费在线观看| 亚洲蜜臀av一区二区三区漫画 | 国产精品久久久久久久y| 国产欧美va欧美va香蕉在线观| 中文字幕影片免费在线观看| 中文字幕一区二区人妻秘书|