亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        借助漢-越雙語詞對齊語料構建越南語依存樹庫

        2015-04-12 11:30:56李發(fā)杰余正濤郭劍毅周蘭江
        中文信息學報 2015年6期
        關鍵詞:越南語語料短語

        李發(fā)杰,余正濤,郭劍毅,李 英,周蘭江

        (1.昆明理工大學信息工程與自動化學院,云南昆明650500;2.昆明理工大學智能信息處理重點實驗室,云南昆明650500)

        1 引言

        越南與云南山水相連,兩國人民之間的交往歷史悠久,語言溝通在雙方人民友好往來與相處、相互學習方面起到了十分重要地作用。因此,針對漢越雙語的研究工作具有重要地現實意義。在越南語和漢語的互譯過程中,越南語的句法分析是十分重要的基礎工作。完全句法分析要求通過一系列分析過程,最終得到句子的完整的句法樹;而淺層句法分析不要求得到完全的句法分析樹,只要求識別其中的某些結構相對簡單的成分,即它將句法分析分解為兩個子任務:語塊的識別和分析;語塊之間的依附關系分析。由于采用完全句法分析難度相對比較大,因此淺層句法分析成為當前句法分析主流[1]。依存句法分析是機器分析語言句法特征非常有效的方法之一,本文對越南語采用依存樹的方法進行句法分析。越南語依存標注體系和越南語依存樹庫的構建,已經成為整個越南語依存分析的核心工作,對該問題加以有效合理的解決,對越南語的句法分析、機器翻譯、信息獲取等上層應用可以提供有力支撐。依存句法分析的研究工作以及依存樹庫的建設工作,在國內外都已經展開。比較著名的依存樹庫有:捷克語的布拉格樹庫[2],英語的PARC樹庫[3],以及俄語、意大利語等語言的樹庫[4-5]。在中文方面也建立了一些比較有影響力的依存樹庫,如哈爾濱工業(yè)大學社會計算與信息檢索研究中心漢語樹庫HIT-CIR-CDT,其中包括120萬個詞,六萬個句子。在越南語的依存樹庫建設方面,P T Nguyen等人開展了依存樹庫的構建工作[6],但其規(guī)模較小,共有一萬個句子左右,不能滿足漢-越雙語機器翻譯的需求。

        從以上分析可以看出,大語種樹庫的建設工作已取得了一些成果,但對于越南語而言,其研究工作相對比較少,還缺乏一定規(guī)模的依存樹庫。越南語與中文一樣,已經標記好的依存句法樹庫資源是統(tǒng)計依存句法結構分析必備資源,如何實現構建越南語的依存樹庫也成為本文工作主要解決的問題。

        本文針對越南語言特點,提出了借助漢-越雙語詞對齊語料構建越南語依存樹庫的方法,實驗結果表明:本文提出的方法相比采用機器學習的方法在依存弧準確率(Unlabeled Attachment Score,UAS)、標識準確率(Labeled Attachment Score,LAS)和根節(jié)點正確率(Root Accuracy,RA)都有一定的提高。

        2 漢越兩種語言之間的差異

        經過對越南語和漢語的對比研究發(fā)現,兩種語言在語法結構上存在一些差異:(1)越南語定語位置和漢語不同,越南語定語一般在中心詞后邊,例如,漢語“她是美麗的女孩?!痹侥险Z(她是)只有表示數量的詞語(數詞、量詞)或指示代詞(各、每等)充當定語時,定語排在中心語之前,例如,漢語句子“我吃了一個蘋果?!睂脑侥险Z“(一個)(蘋果).”(2)越南語與漢語描寫性定語的位置完全不同,但定語修飾中心語的順序(定語與中心語的遠近距離)一致,越南語描寫性多層定語的結構順序與漢語呈鏡像關系,漢語中描寫性定語的順序是:1-2-3-4-中心語;與之相反,越南語的順序是:中心語-4-3-2-1。例如,漢語句子“她是我見過的最美麗的女孩。”,對應的越南語(女孩(最美麗的)(我見過)”;(3)越南語狀語成分與漢語大多數情況下是一致的,但漢語常把表示時間的狀語放在主語之后,而越南人更習慣把表示時間的狀語放在句首,另外,越南語表示時間的狀語若是由介詞短語充當,其位置常在句末。例如,漢語“他今天沒來上課?!痹侥险Z(他沒來上課)(今天)”(4)越南語表示處所的狀語一般位于謂語動詞之后,與漢語不同。例如,漢語“我常常在食堂吃飯。”越南語(我常常吃飯)(在食堂).”(5)題語一般放在主語前(若出現賓語前置時即被動式表示時,此賓語越南語也稱為“題語”)。例如,漢語“他寄信走了。”,越南語為(此句中,信是題語);有時放在主語后,稱為“次題語”,如句子,,中,“煙”和“酒”就是次題語。

        3 漢語-越南語詞對齊

        詞對齊是統(tǒng)計機器翻譯中一個非常重要的概念,圖1給出了一個漢語句子和一個越南語句子詞對齊的例子。在這個實例里有六個需要對齊的詞對:(學生)。本文中,我們以等人的表示方法為例,那么這個漢語-越南語句對詞對齊的關系可以表示成如下形式:我(1)是(2)張(6)老師(5)的(4)學生(3))。其中,漢語單詞后面的數字表示的是越南語句子中與其對齊的越南語單詞的位置。例如,學生(3)表示名詞學生與越南語語句子中的第3個單詞對齊。本文使用開源工具GIZA++[7]來對漢語-越南語的平行句對進行詞對齊處理,得到的詞對齊結果準確率為49.32%,所以需要再進行人工調整校對,詞對齊的語料都是平行句對,校對的時候就是由相關人員進行一一甄別校對的,這里沒有做統(tǒng)一的規(guī)范,調整的詞數量大概是40萬詞,最后得到高質量的詞對齊平行句對。GIZA軟件包最早由約翰·霍普金斯大學的機器翻譯夏令營實現的,后來,Och等人對GIZA軟件包進行了優(yōu)化處理,稱之為GIZA++。GIZA++實現了IBM公司提出的五個機器翻譯模型,它的主要思想是利用雙語平行語料來進行詞對齊訓練,由句子對的訓練得到詞語的對齊結果?,F今,GIZA++依然是大部分統(tǒng)計機器翻譯系統(tǒng)的核心構成部分,在詞對齊方面有著廣泛的應用。

        圖1 詞對齊的例子

        4 漢語的依存分析

        句法分析的任務是根據給定的語法,自動推導出句子的語法結構。目前,在句法分析的研究中主要有短語結構語法和依存語法。短語結構樹由終結符、非終結符以及短語標記這三種符號按照特定的語法規(guī)則構成。短語結構語法規(guī)則,若干終結符構成一個短語,作為非終結符參與下一次歸約,直至將整個句子歸約為根節(jié)點。依存語法認為句子中的述語動詞是支配其他成分的中心,而它本身卻不受其他任何成分的支配,所有的受支配成分都以某種依存關系從屬于其支配者。可以看出,依存語法以其形式簡潔、易于標注、便于應用等優(yōu)點,逐漸成為當今研究人員的研究主題。因此依存語法的研究在許多種語言中均已開展。本文實驗中采用了依存語法作為句法分析的語法體系[8]。圖2為一棵漢語依存句法樹,從圖中可以看出:依存語法的表示形式簡潔,易于理解。依存語法直接表示詞語之間的關系,沒有額外增加語法符號。所以即使是非專業(yè)的人也能很容易理解該語法形式,這對樹庫的建設工作十分有利。

        漢語和越南語主要的語義關系相似,漢語的依存句法分析是建設越南語依存樹庫的前提。針對越南語的結構特點和語義關系,同時也為了避免數據稀疏問題,本文定義了如表1所示的依存關系集,實驗主要基于所定義的14種主要依存關系。

        圖2 漢語依存樹的結構

        表1 越南語依存關系表

        5 漢語到越南語句法樹的映射

        基于前述的漢語-越南語詞對齊以及針對漢語的句法分析,接下來要做的就是從漢語到越南語的依存關系映射,即根據漢語依存句法樹和漢語-越南語詞對齊的關系,進一步生成越南語的依存句法樹。對兩種語言進行研究發(fā)現,雖然越南語句子中的詞序與漢語句子中的詞序不一致,但是依存關系卻是一致的,所以可以把漢語句子的依存關系直接映射到越南句子上,具體方法如下例所示:

        越南語:

        漢語:她的先生在加拿大工作。 (1-2)

        經過詞對齊處理之后的結果為:

        越南語:

        漢語:她(1)的先生(2)在(4)加拿大(5)工作(3) (2-2)

        以上括號中數字代表其前面的詞在本句子中的順序。

        對漢語句子進行句法分析得到漢語的句法分析樹,如圖3所示。

        接下來我們要做的就是結合越南語言的語法特點,并基于前面的詞對齊和漢語的依存句法樹來生成越南語句子的依存句法樹,如圖4所示。

        圖3 漢語句子的依存樹

        圖4 越南語依存樹生成方式一

        從圖4中可見,盡管漢語句子中的“工作”和越南語句子中的“c?ngtác”在句子中的前后順序不一致,但是對依存關系沒有影響。經過對越南語和中文語法結構的研究發(fā)現兩種語言的依存結構是存在等價性的。所以,可以直接把漢語句子的依存關系直接映射到越南語句子上,來生成越南語的依存句法分析樹。然而,由于兩種語言的差異性,映射存在歧義性,本例中,從式(2-1)和(2-2)句對中的詞對齊可以看出,中文句子中的“的”對空了,所以式(2-2)中文句子的“的”相關的依存關系沒有映射對象,但從圖中可以看出越南語句子的依存關系都已經分析出來了,因此這并不影響對越南語句子的分析效果[9]。

        由于越南語中存在一些詞對應一個漢語短語,本文總結出一個特殊越南語詞典如表2所示。

        字典中,有132個越南語詞,每一個越南語詞都對應著一個漢語短語,除了這些相對特殊的越南語詞外,其他的越南語詞語與漢語詞語的關系都是一一對應的。實驗中,這些特殊越南語詞的依存關系我們是根據漢語短語中的核心詞來判定的,文中規(guī)定:漢語短語的核心詞就是依存樹中短語部分的根節(jié)點。用越南語詞“”來做一個映射實例,”的漢語意思是“打電話”,如圖5所示。

        表2 漢語短語——越南語詞的對照表

        圖5 越南語依存樹生成方式二

        6 實驗及結果分析

        6.1 實驗數據

        實驗數據來自七個新聞網站的國際頻道的新聞。這些網站覆蓋了各大主流的新聞網站,且包含的新聞覆蓋:體育、政治、娛樂、軍事等各個方面,因此,保證了實驗數據的多樣性。

        6.2 評價方法

        整句依存句法分析評測指標選擇:依存弧準確率(Unlabeled Attachment Score,UAS)、標識準確率(Labeled Attachment Score,LAS)和根節(jié)點正確率(Root Accuracy,RA),定義如下:

        6.3 結果分析

        采用漢語為中介構建越南語依存樹庫的方法使用的是三萬條漢語-越南語句子對;漢語的依存句法分析是采用哈爾濱工業(yè)大學的LTP平臺①http://ir.hit.edu.cn.完成的,LTP工具的標注集我們按照實驗的要求和越南語的特點進行了統(tǒng)一的改動;通過漢語-越南語的映射生成三萬條越南句子的依存樹庫。三萬句的語料是第一階段的語料,隨著語料的不斷增加,實驗也會不斷的完善。分別統(tǒng)計數量為10 000、20 000、30 000條句對的實驗結果,如表3所示。

        表3 漢語為中介構建越南語依存樹庫實驗結果

        同時,本文以5 000條人工標注的越南語句子為初始集,用MaltParser[10]和MSTParser[11]工具對其進行機器學習建模,生成依存樹模型,再用生成的越南語依存樹模型對越南語句子進行擴展。實驗中擴展了30 000句越南語依存樹庫。這樣,我們就有了基于統(tǒng)計機器學習方法生成的依存樹庫。使其與采用漢語為中介構建的越南語依存樹庫的實驗方法進行比較。實驗結果如表4所示。

        從表3和表4中可以看出,在越南語語料相對比較少的情況下,采用以漢語依存庫為基礎,基于規(guī)則的映射方法所生成的越南語依存樹庫,準確率相比采用機器學習的方法明顯提高。

        表4 其他方法和本文方法的比較

        將5 000句人工標注數據和30 000句利用中間語轉化的數據一起訓練依存分析模型,然后用來訓練新的越南語依存句法樹,得到的依存樹的準確率會比以5 000句人工標注的數據低一些,而selftraining之后得到的依存樹的準確率又低一些。這是由本文提出的方法得到的越南語依存樹庫存在一些錯誤造成的。

        分析實驗結果,由于越南語言結構在一定程度上和中文語言結構類似,但又具有其特殊的語言特點,因此可以采用以漢語依存庫為基礎、基于規(guī)則的映射方法來生成越南語的依存樹庫,這樣可以避免越南語語料的人工標注過程;在越南語語料相對少的條件下,可以獲得比機器學習高的準確率。隨著語料的不斷增加,機器學習的baseline的準確率也會得到相應的提高。本文對錯誤實例經過分析發(fā)現,本文提出的方法對短句效果好,而長句的處理效果相對較差。這是由于長句句式復雜,且兩種語言有很大差異,還需結合深層次的語言結構分析。還有一部分錯誤是由中文依存自動分析結果不準確造成的。另外,通過本文方法得到的依存樹存在有些詞和句中其他詞之間不存在任何依存關系的情況,而人工標注的越南語依存樹不存在這種情況,這也是由兩種語言之間的差異造成的。在下一步的研究中,我們將針對長句依存關系和兩種語言之間的差異進行研究,同時會對中文的依存結構進行校正調整,不斷提高中文依存樹庫的準確率,最后得到準確率更高的越南語依存樹庫。

        結束語

        本文提出了基于漢-越語言對齊關系的越南語依存樹庫的構建方法,該方法避免了人工標注越南語依存樹庫的過程。相對于傳統(tǒng)的統(tǒng)計機器學習的方法此方法更加簡單,準確率得到了一定程度上的提升。解決了越南語依存樹庫資源建設困難等問題。下一步,我們將基于不同語言與越南語對齊關系進行越南語依存樹庫的構建實驗,并與基于漢-越語言對齊關系構建的越南語依存樹庫進行比較分析,最終實現融合多語-越南語的對齊特性來進行越南語依存樹庫的構建實驗。

        [1] 馬金山.基于統(tǒng)計方法的漢語依存句法分析研究[D],哈爾濱工業(yè)大學博士學位論文,2007.

        [2] J Hajic.Building a Syntactically Annotated Corpus:The Prague Dependency Treebank[C]//Proceedings of the Issues of Valency and Meaning,1998:106-132.

        [3] Tracy Holloway King,Richard Crouch,Stefan Riezler,et al.The PRAC700dependency bank[C]//Proceedings of the EACL03:4th International Workshop on Linguistically Interpreted Corpora(LINC-03).2003:1-8.

        [4] I Boguslavsky,S Grigorieva,N Grigoriev,et al.Dependency treebank for Russian:concept,tools,types of information[C]//Proceedings of the 18th International Conference on Computational Linguistically(COLING),2000:987-991.

        [5] C Bosco and V Lombardo.Dependency and relational structure in treebank annotation.[C]//Proceedings of the Workshop on Recent Advances in Dependency Grammar,2004:1-8.

        [6] P T Nguyen,L V Xuan,T M H Nguyen,et al.Building a large syntactically-annotated corpus of Vietnamese[C]//Proceeding of the 3rd Linguistic Annotation Workshop,ACL-IJCNLP,Singapore,2009:182-185.

        [7] SU Xiang,LI Yu-jian.Computational Performance A-nalysis of GIZA++[J].Computer Engineering &Science,2010.ztyu@bit.edu.cn.

        [8] 車萬翔,張梅山,劉挺.基于主動學習的中文依存句法分析[J].中文信息學報,2012,5(6),18-22.

        [9] Luong Nguyen Thi,Dalat Univ,Lamdong,et al.Building a Treebank for Vietnamese Dependency Parsing[C]//Proceedings of the IEEE RIVF International Conference on Computing and Communication Technologies-Research,Innovation,and Vision for the Future(RIVF),2013,NOV 10-13.

        [10] Joakim Nivre,Johan Hall,Jens Nilsson.MaltParser:A Data-Driven Parser-Generator for Dependency Parsing[C]//Proceedings of the 15th International Conference on Language Resources and Evaluation,2006:2216-2219.

        [11] R McDonald,K Lerman,F Pereira.Multilingual Dependency Analysis with a Two-Stage Discriminative Parser[C]//Proceedings of the 12th Conference on Computational Natural Language Learning,2006:216-220.

        [12] 陳鑫.基于主動學習的漢語依存樹庫構建[D],哈爾濱工業(yè)大學碩士學位論文,2011.

        猜你喜歡
        越南語語料短語
        納蘇彝語越南語親屬稱謂特征及其文化內涵異同研究
        基于語料調查的“連……都(也)……”出現的語義背景分析
        漢語經歷體標記“過”及其在越南語中的對應形式
        現代漢語與越南語存在句否定形式與情態(tài)特征的比較研究
        華語電影作為真實語料在翻譯教學中的應用
        《苗防備覽》中的湘西語料
        國內外語用學實證研究比較:語料類型與收集方法
        漢語介詞“跟”和越南語介詞“voi”的異同
        熟女少妇丰满一区二区| 国产成人综合美国十次| 久久精品无码一区二区三区免费| 欧美喷潮久久久xxxxx| 免费va国产高清不卡大片| 日本免费播放一区二区| 91九色最新国产在线观看| 免费a级毛片无码a∨中文字幕下载 | 99久久国内精品成人免费| 亚洲高清一区二区三区在线观看 | 国产免费人成视频在线观看| 一二三四五区av蜜桃| 伊在人天堂亚洲香蕉精品区| 日本在线视频网站www色下载 | 91国产视频自拍在线观看| 日本视频二区在线观看| 五十路丰满中年熟女中出| 日本www一道久久久免费榴莲| 欧美片欧美日韩国产综合片| 青青草成人免费在线观看视频| 久久亚洲精品国产亚洲老地址| 久久伊人色av天堂九九| 亚洲精品有码在线观看| 国产成人久久精品二区三区| 国产成人精品日本亚洲i8| 国产精品r级最新在线观看| 99热精品国产三级在线观看| 久久精品女人天堂av麻| 欧美丰满老熟妇aaaa片| a在线观看免费网站大全| 在线看片国产免费不卡| 男女搞黄在线观看视频 | 7878成人国产在线观看| 日韩在线精品在线观看| 中文字幕人妻互换激情| 放荡的少妇2欧美版| 国产欧美乱夫不卡无乱码| 亚洲黑寡妇黄色一级片| 美利坚日韩av手机在线| 亚洲av无码之国产精品网址蜜芽| 色丁香在线观看|