亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于漢維映射關(guān)系構(gòu)建維吾爾語依存樹庫

        2019-02-25 05:31:56吐爾洪吾司曼楊雅婷
        中文信息學(xué)報(bào) 2019年1期
        關(guān)鍵詞:句法單詞信息

        吐爾洪·吾司曼,楊雅婷,王 磊,周 喜,程 力

        (1.中國科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2.中國科學(xué)院大學(xué),北京 100049;3.新疆民族語音語言信息處理實(shí)驗(yàn)室,新疆 烏魯木齊 830011)

        0 引言

        句法分析是自然語言處理中的關(guān)鍵技術(shù)之一,其基本任務(wù)是確定句子的句法結(jié)構(gòu)或句子中詞匯之間的依存關(guān)系[1],從而有助于提高人類對(duì)自然語言的理解程度,因此句法分析研究具有重要的理論依據(jù)和廣泛的應(yīng)用前景。目前句法分析的結(jié)果可以用在統(tǒng)計(jì)機(jī)器翻譯[2]、情感分析[3]、問答系統(tǒng)[4]及自動(dòng)摘要[5]等應(yīng)用系統(tǒng)中。

        依存句法是句法分析的重要分支之一,由于其關(guān)注的對(duì)象是句中詞與詞之間的句法功能關(guān)系,因此容易表示和理解。早期的依存句法分析主要采用基于規(guī)則的方法,有動(dòng)態(tài)規(guī)劃算法、約束滿足的方法以及確定性分析策略等,而隨著基于統(tǒng)計(jì)的方法在自然語言處理領(lǐng)域中的廣泛使用,出現(xiàn)了生成式依存分析、判別式依存分析和確定性依存分析等一批基于數(shù)據(jù)驅(qū)動(dòng)的分析方法[6],并相繼構(gòu)建漢語[7]、俄語[8]、荷蘭語[9]、捷克語[10]及土耳其語[11]等語言的依存樹庫,這些樹庫所采用的標(biāo)注規(guī)則及標(biāo)注集互相不兼容,因此后來又提出了跨語種依存句法標(biāo)注框架UD (universal dependencies)[12],旨在促進(jìn)多語種分析器的開發(fā)、跨語種學(xué)習(xí)及從語言學(xué)角度進(jìn)行分析研究。

        維吾爾語是一門相對(duì)于漢語和英語而言資源缺乏的語言,雖然新疆大學(xué)和新疆師范大學(xué)在維吾爾語語料庫建設(shè)方面做了大量的工作[13-15],但大部分研究工作集中在詞法層面展開,并且這些語料庫到目前為止還沒有可用的公開版本。維吾爾語依存句法研究是維吾爾語自然語言處理中起步較晚的研究方向之一,目前面向句法分析的維吾爾語樹庫建設(shè)工作還處于初始階段,文獻(xiàn)[16]開展維吾爾語語義角色標(biāo)注集的研究;文獻(xiàn)[17-18]中討論如何建立維吾爾語依存關(guān)系標(biāo)注語料庫及標(biāo)注規(guī)范等問題,并介紹了維吾爾語依存樹庫UDT (Uyghur Dependency Treebank)規(guī)范;文獻(xiàn)[19]提出了從UDT到UD的轉(zhuǎn)換方法。

        樹庫是一種屬于深度加工的語料庫,其中不僅包括詞干、詞性以及詞綴等形態(tài)學(xué)層面的信息,還包含句法結(jié)構(gòu)、句法功能及語義角色等句法層面的信息,是給統(tǒng)計(jì)自然語言處理研究提供了數(shù)據(jù)支撐。雖然通過人工標(biāo)注構(gòu)建樹庫具有規(guī)范化、質(zhì)量高等特點(diǎn),但是也存在標(biāo)注難度大、耗時(shí)長、成本高等弊端,因此出現(xiàn)了利用已有語言的樹庫,借助知識(shí)轉(zhuǎn)移、詞對(duì)齊等方法獲取第二種語言樹庫的研究工作[20-21]。

        本文借鑒雙語之間依存信息的轉(zhuǎn)移思想,利用現(xiàn)有的漢維平行語料庫,通過漢維雙語句子之間的詞對(duì)齊關(guān)系,把漢語句子的依存關(guān)系映射到維吾爾語句子獲得維吾爾語依存樹庫。在此過程中維吾爾語的復(fù)雜形態(tài)特性導(dǎo)致數(shù)據(jù)稀疏問題,從而降低對(duì)齊精度,最終影響到映射結(jié)果的正確性;而漢維語種之間的差異也會(huì)影響最終的結(jié)果。針對(duì)復(fù)雜形態(tài)導(dǎo)致的數(shù)據(jù)稀疏問題,本文先做形態(tài)分析獲取詞干,再進(jìn)行詞對(duì)齊;而針對(duì)語種之間差異造成的問題,則利用語言學(xué)規(guī)則來降低其對(duì)最終結(jié)果的影響。

        1 研究背景

        1.1 維吾爾語依存句法

        維吾爾語是一種黏著性語言,其句法具有如下特性。

        第一,維吾爾語是采用S—O—V結(jié)構(gòu)(主—賓—謂)的語種,采用從右往左的書寫方式;

        第三,維吾爾語句子中單詞之間的協(xié)調(diào)由構(gòu)形詞綴來完成,它們不僅能確保句子的通順,而且還攜帶相應(yīng)的語義信息。

        (廣州白云機(jī)場今天一共取消了436個(gè)航班。)

        表1 形態(tài)和依存分析結(jié)果

        注:*此列顯示最后一個(gè)詞綴。

        維吾爾語依存句法除了包括上述例子中的主謂關(guān)系、動(dòng)賓關(guān)系、狀中關(guān)系、定中關(guān)系、復(fù)合關(guān)系、領(lǐng)屬關(guān)系、標(biāo)點(diǎn)符號(hào)及中心詞等依存關(guān)系之外,常用的依存關(guān)系還有以下幾種。

        通過以上分析可以發(fā)現(xiàn),維吾爾語句子中從屬成分的形態(tài)信息取決于支配成分的形態(tài)信息,反過來,從屬成分的形態(tài)信息在確定依存關(guān)系時(shí)起到參考作用,因此形態(tài)分析對(duì)依存句法分析有一定的幫助作用。

        1.2 漢語和維吾爾語的對(duì)比

        維吾爾語是黏著性語言,黏著性語言的最大特點(diǎn)是具有豐富的形態(tài)特性和音變現(xiàn)象(弱化、脫落及增音),其詞干按規(guī)律由不同的詞綴構(gòu)形,形成新的詞語,而且構(gòu)形過程中還會(huì)發(fā)生音變現(xiàn)象。

        而漢語是分析語(又叫孤立語),其最大的特點(diǎn)是沒有形態(tài)變化,但有聲調(diào),不同的聲調(diào),其表達(dá)的意思會(huì)完全不同。

        漢語跟維吾爾語不僅在詞法上具有較大的不同,而且句法上也存在較大的差異,具體如下。

        (1) 書寫方式不一樣,漢語是從左往右書寫,而維吾爾語是從右往左書寫;漢語句子中詞語之間沒有分隔符;而維吾爾語句子中的詞語必須由空格隔開。

        雖然漢語和維吾爾語在詞法和句法上具有較大的差異,但是依存句法研究的對(duì)象是詞語跟詞語之間的依存關(guān)系,和詞序、句法結(jié)構(gòu)的關(guān)系不大,圖2分別給出了例7和例8的依存關(guān)系圖,從圖中可以發(fā)現(xiàn),這兩個(gè)句子的依存關(guān)系沒有因詞序的改變而發(fā)生變化。

        圖2 依存關(guān)系圖

        圖3 例9的依存關(guān)系圖

        圖4 例9譯文的依存關(guān)系圖

        表2 例9和譯文的詞對(duì)齊矩陣

        2 基于漢維映射關(guān)系的依存信息轉(zhuǎn)移方法

        2.1 算法介紹

        本文利用漢維平行語料庫,采用依存關(guān)系映射的思路,根據(jù)漢語句子的依存關(guān)系得到維吾爾語句子的依存關(guān)系,并借助詞法、語法等規(guī)則優(yōu)化最終結(jié)果,圖5是算法流程圖。

        圖5 算法流程圖

        2.2 維吾爾語形態(tài)分析

        由于維吾爾語依存句法分析依賴于形態(tài)分析,因此,首先對(duì)漢維雙語語料中的維吾爾語句子進(jìn)行形態(tài)分析,形態(tài)分析的內(nèi)容有詞干提取、詞綴切分及詞性標(biāo)注。表3顯示例9的形態(tài)分析結(jié)果,其中切分形式的第一項(xiàng)為該詞的詞干。

        表3 例9的形態(tài)分析結(jié)果

        2.3 漢維詞對(duì)齊

        本文中漢維之間的詞對(duì)齊信息是依存關(guān)系從漢語映射到維吾爾語的重要依據(jù),因此詞對(duì)齊結(jié)果的好壞直接影響到最終得到的維吾爾語依存樹庫的質(zhì)量。

        圖6 詞對(duì)齊的對(duì)比結(jié)果

        2.4 依存信息轉(zhuǎn)移

        詞對(duì)齊完成之后,通過對(duì)齊信息把漢語句子的依存信息映射到平行的維吾爾語句子,此過程包括預(yù)處理和映射。

        2.4.1 預(yù)處理

        預(yù)處理要過濾包含過長句子的句對(duì)和對(duì)齊不合理的句對(duì),其中對(duì)齊不合理情況包括如下兩種情況:

        (1) 一個(gè)漢語單詞對(duì)齊過多的維吾爾語單詞;

        (2) 一個(gè)漢語單詞對(duì)齊不連續(xù)的幾個(gè)維吾爾語單詞。

        表4給出對(duì)齊之后同時(shí)出現(xiàn)以上兩種不合理情況的對(duì)齊例子。

        表4 不合理的對(duì)齊結(jié)果

        表4中的漢語詞語“挨家挨戶”不僅對(duì)齊到維吾爾語中的四個(gè)單詞,而且這四個(gè)單詞不是連續(xù)出現(xiàn)的。

        2.4.2 依存信息映射

        假設(shè)依存信息Di={Reli,Hi,Ei},其中Reli,Hi,Ei分別表示第i個(gè)依存信息的依存關(guān)系名稱、支配成分以及從屬成分,那么一個(gè)句子的依存信息可表示為D={D1,D2,D3,…,Dl},其中l(wèi)表示句子中依存關(guān)系的數(shù)量,因此漢維依存信息的映射函數(shù)可由式(1)表示。

        Du=f(Dc,Mu,Aligncu)

        (1)

        其中Dc為漢語句子的依存信息,Mu為對(duì)應(yīng)的維吾爾語句子的形態(tài)切分信息,Aligncu為漢維句子的詞對(duì)齊信息。映射函數(shù)f的具體功能是根據(jù)詞對(duì)齊信息Aligncu,查找依存關(guān)系Dci中支配成分Hci和從屬成分Eci所對(duì)應(yīng)的維吾爾語詞做Huj和Euj,并把依存關(guān)系Relci的值賦予Reluj,最終形成對(duì)應(yīng)的維吾爾語依存信息Duj={Reluj,Huj,Euj}。

        由于漢維雙語句對(duì)在對(duì)齊過程中存在一個(gè)漢語單詞對(duì)齊連續(xù)幾個(gè)維吾爾語單詞的情況,因此映射之后這些連續(xù)的維吾爾語單詞當(dāng)目標(biāo)依存關(guān)系的依存成分,此時(shí)這些維吾爾語單詞中各詞語之間的依存關(guān)系暫時(shí)未知。針對(duì)具體的對(duì)齊情況以及對(duì)它們的處理策略如下:

        (1)Huj,Euj都是單詞

        (2)Huj,Euj中至少有一個(gè)是詞組

        最后形成:

        如果漢語依存關(guān)系中的支配單詞或者從屬單詞的詞性為名詞,其對(duì)應(yīng)維吾爾語詞組之間的未知復(fù)合關(guān)系改成復(fù)合關(guān)系,因此上述映射關(guān)系改為:

        第三條依存關(guān)系中的未知復(fù)合關(guān)系在后續(xù)優(yōu)化部分中進(jìn)行處理。

        2.5 優(yōu)化

        由于通過映射形成的依存信息中存在一些不符合維吾爾語依存句法的依存關(guān)系以及還未處理的未知復(fù)合關(guān)系,因此利用規(guī)則來完成進(jìn)一步的優(yōu)化處理。本文針對(duì)以上情況,結(jié)合維吾爾語句法給出如下的優(yōu)化規(guī)則:

        (1) 主語必須以主格形式出現(xiàn);

        (2) 主謂關(guān)系中的主語和做謂語的動(dòng)詞必須擁有一致的人稱和數(shù)信息;

        (3) 帶賓格的成分跟動(dòng)詞的依存關(guān)系為動(dòng)賓關(guān)系;

        (4) 名詞跟后續(xù)的動(dòng)詞之間形成動(dòng)賓關(guān)系;

        (5) 帶屬格的成分依存于離它最近,由人稱構(gòu)形的成分形成領(lǐng)屬關(guān)系,而且支配成分跟從屬成分的人稱信息必須一致;

        (6) 體助動(dòng)詞不能當(dāng)中心詞,主動(dòng)詞做中心詞,體助動(dòng)詞跟主動(dòng)詞形成體助關(guān)系;

        (7) 副詞或副動(dòng)詞跟動(dòng)詞之間的依存關(guān)系為狀中關(guān)系;

        (8) 形容詞和形容詞短語跟名詞短語形成定中關(guān)系;

        (9) 帶向格的成分跟動(dòng)詞形成指向關(guān)系;

        (10) 標(biāo)點(diǎn)符號(hào)依存中心詞形成標(biāo)點(diǎn)符號(hào)關(guān)系;

        (11) 當(dāng)名詞跟形容詞之間形成依存關(guān)系,其中形容詞為中心詞時(shí),其依存關(guān)系為主謂關(guān)系;

        (12) 形容詞跟動(dòng)詞之間的依存關(guān)系為狀中關(guān)系;

        (13) 代詞修飾名詞形成限定關(guān)系。

        3 實(shí)驗(yàn)和結(jié)論

        3.1 實(shí)驗(yàn)

        本文利用新聞?wù)?wù)領(lǐng)域60萬句對(duì)的漢維平行語料庫,首先采用文獻(xiàn)[22]的方法對(duì)維吾爾語進(jìn)行形態(tài)分析,第二步用GIZA++[注]http://www.statmt.org/moses/giza/GIZA++.html進(jìn)行漢維詞對(duì)齊操作,第三步用Stanford Neural Network Dependency Parser[注]https://nlp.stanford.edu/software/nndep.shtml進(jìn)行漢語依存分析,之后用依存轉(zhuǎn)移方法得到維吾爾語依存信息,最后通過基于規(guī)則優(yōu)化得到3萬句的維吾爾語依存樹庫。

        為了驗(yàn)證所得到的依存樹庫的質(zhì)量以及優(yōu)化規(guī)則對(duì)樹庫質(zhì)量的有效性,本文用CoNLL 2017 Shared Task[注]http://universaldependencies.org/conll17/提供的訓(xùn)練工具UDPipe[注]https://ufal.mff.cuni.cz/udpipe及測試語料ug-ud-test.conll(100句)進(jìn)行模型訓(xùn)練并測試。表5給出優(yōu)化之前的樹庫訓(xùn)練得到的模型Model1,優(yōu)化之后的樹庫訓(xùn)練得到的模型Model2以及CoNLL 2017 Shared Task基線系統(tǒng)所提供的模型Model3在同樣測試集上的得分情況。

        表5 測試結(jié)果

        從表5得知,本文訓(xùn)練得到的模型在兩個(gè)指標(biāo)上的得分均低于CoNLL 2017 Shared Task基線系統(tǒng)所提供的模型,針對(duì)得分偏低的情況,本文經(jīng)分析之后得出以下結(jié)論。

        (1) 本文用的Stanford Neural Network Dependency Parser在中文樹庫上UAS和LAS指標(biāo)分別得分83.90%和82.40%[23]。從圖5可以發(fā)現(xiàn),實(shí)驗(yàn)中各子任務(wù)以串行方式執(zhí)行,它們之間存在一定的錯(cuò)誤傳播問題,因此分析得到的漢語樹庫的錯(cuò)誤率會(huì)影響到最終的維吾爾語依存樹庫的質(zhì)量。

        (2) 模型Model3是由人工標(biāo)注的語料庫訓(xùn)練得到的,而我們的模型Model1和Model2訓(xùn)練所用的語料庫由算法從漢維語料庫中映射而得,因此語料庫的質(zhì)量不如由人工標(biāo)注而得到的語料庫的質(zhì)量。

        (3) CoNLL 2017 Shared Task的測試集屬于文學(xué)領(lǐng)域,而本文所用的語料屬于新聞?wù)?wù)領(lǐng)域。語料領(lǐng)域不同,會(huì)對(duì)實(shí)驗(yàn)結(jié)果產(chǎn)生一定的影響。

        除此之外,模型Model2在兩個(gè)指標(biāo)上的得分都比模型Model1高,說明實(shí)驗(yàn)中所采用的優(yōu)化規(guī)則在處理未知依存關(guān)系和不符合維吾爾語依存句法的依存關(guān)系時(shí)起到作用,因此進(jìn)一步完善語法規(guī)則,可以降低語種差異導(dǎo)致的映射錯(cuò)誤問題,從而提高最終得到的維吾爾語依存樹庫的質(zhì)量。

        3.2 結(jié)論

        本文介紹了從漢維平行語料庫中,借助GIZA++、Stanford Neural Network Dependency Parser等工具,利用映射方法獲取維吾爾語依存樹庫的過程。本文的研究成果不僅對(duì)人工構(gòu)建維吾爾語依存庫具有參考意義,而且對(duì)研究漢維之間的語義聯(lián)系也有一定的參考價(jià)值。

        猜你喜歡
        句法單詞信息
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        述謂結(jié)構(gòu)與英語句法配置
        單詞連一連
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        看圖填單詞
        詩詞聯(lián)句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        看完這些單詞的翻譯,整個(gè)人都不好了
        展會(huì)信息
        單詞拾趣
        海外英語(2006年8期)2006-09-28 08:49:00
        国产精品狼人久久久久影院| 97久久久一区二区少妇| av中文字幕在线直播| 亚洲av色欲色欲www| 18成人片黄网站www| 亚洲日韩欧美一区二区三区| 成人偷拍自拍在线视频| 99久久婷婷国产亚洲终合精品 | 日韩精品人妻视频一区二区三区 | 亚洲一区免费视频看看| 日韩精品无码熟人妻视频| 日本做受高潮好舒服视频| 国产精品久久久久孕妇| 日本在线无乱码中文字幕| 国产无遮挡aaa片爽爽| 搡老熟女老女人一区二区| a级国产精品片在线观看| 亚洲一区二区懂色av| 五月丁香六月综合缴清无码| 国产乱子伦精品免费无码专区| 国产精品无码mv在线观看| 亚洲中文字幕人成乱码在线| 日本大片免费观看视频| 国产天堂网站麻豆| 亚洲av人片在线观看调教| 色熟妇人妻久久中文字幕| 精品无码日韩一区二区三区不卡 | 亚洲长腿丝袜中文字幕| 粗大的内捧猛烈进出少妇| 99久久精品国产一区二区蜜芽| aa视频在线观看播放免费| 国内揄拍国内精品人妻久久| 亚洲av天天做在线观看| 久久久久国产亚洲AV麻豆| 国产专区亚洲专区久久| 狠狠躁日日躁夜夜躁2020| 精品日韩国产欧美在线观看| 一区二区视频网站在线观看| 免费的日本一区二区三区视频| 国产免费av片在线观看播放| 久久99精品久久久久久国产人妖|