亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        藏語依存樹庫構建的理論與方法探析

        2015-12-14 09:39:56扎西加多拉
        西藏大學學報(自然科學版) 2015年2期
        關鍵詞:藏語藏文句法

        扎西加 多拉

        (①西藏大學藏文信息技術研究中心 西藏拉薩850000②西北民族大學中國藏文典籍全文數(shù)字化研究所 甘肅蘭州730030)

        藏語依存樹庫構建的理論與方法探析

        扎西加①多拉②

        (①西藏大學藏文信息技術研究中心 西藏拉薩850000②西北民族大學中國藏文典籍全文數(shù)字化研究所 甘肅蘭州730030)

        依存語法又稱“從屬關系語法”,研究句子各構成成分之間的支配和從屬關系。依存結構是指句子中詞與詞之間的句法結構關系,該結構以樹狀結構進行描述,被稱之為依存結構樹庫。文章以依存語法的理論框架作為藏語樹庫構建的理論指導,充分借鑒依存語法的思想精髓,結合藏語語法體系,設立出符合藏語語法體系的句法和語義標注關系體系,設計了判別式的句法分析算法,從而構建了多維視窗的藏語依存樹庫。具體分析時,首先,對依存語法的由來、定義、依存關系的適用性等背景知識做了簡要的闡釋;其次,在藏語句子的篩選、藏語依存結構的形式化模型、藏語依存的骨架結構以及藏語依存樹的多維關系等方面進行了研究和分析。

        依存語法;藏語樹庫;藏語句法分析;藏語語義分析

        引言

        依存語法又稱“從屬關系語法”,研究句子各構成成分之間的支配和從屬關系。依存結構是指句子中詞語與詞語之間的句法結構關系,該結構以樹狀形式進行描述,被稱之為依存結構樹。賦有句法和語義結構信息的知識庫是自然語言處理的重要資源,同時,計算機要模擬人腦,理解自然語言具有很大的價值。依存樹庫的構建在近期機器翻譯研究領域倍受青睞,原因是其具有結構清晰明了、形式簡單了然、句法語義兼顧等優(yōu)勢,逐漸引起學界的重視。

        在自然語言理解中,形式模型扮演的角色很重要。形式模型即形式化體系由一系列符號以及一套如何操作這些符號的指令組成。Maxwel l為依存句法分析的智能處理需求,設立了依存關系模型應遵循的

        各種依存關系種類,比如,德語設立26種關系,丹麥語設立15種關系,波蘭語設立18種關系,孟加拉語設立20種關系,芬蘭語設立21種關系,匈牙利語設立21種關系,日語設立20種關系,法語設立21種關系,漢語設立36種關系。為了降低計算機處理自然語言的代價,周明、黃昌寧等人[1]曾將漢語的依存關系數(shù)從106種關系減少為44種關系。本文根據(jù)藏語語言的結構特點設立了24種句法依存關系和18種語義依存關系。

        當前藏文信息處理在詞法、句法的研究處于起步階段,構建藏語依存樹庫是藏語句法和語義研究必不可少的數(shù)據(jù)支撐。但目前尚未見到利用依存和配價理論對藏語句法進行研究的相關成果。本文在充分利用現(xiàn)有研究成果基礎上,嘗試用依存理論開展藏語句法樹庫的研究,這項工作的開展將在藏語自然語言處理領域發(fā)揮重要作用。

        1 藏語依存樹庫的理論框架

        1.1 依存語法的由來

        在學界有人認為“依存語法的概念可以追溯到公元前4世紀,由印度語言學家Panini創(chuàng)始”[2],但一般視為依存語法理論的創(chuàng)始人是著名的法國語言學家特斯尼耶爾,他的《結構句法基礎》中體現(xiàn)了依存語法的理論核心,其著作中首次提出了“結構句法”的一般理論,“結構句法”后來被稱之為“依存語法”或“從屬關系語法”。為了提出一種通用的語法理論,特斯尼耶爾對古希臘語和古羅馬語、羅滿族語、斯拉夫語等10幾種語言做了大量的對比研究后提出了“結構句法”理論,該語法理論對人類語言進行了深層對比研究,探尋出了不同語言之間的共性,側重建立跨語言的適用體系,客觀地揭示了人類語言中深層普遍的內在句法規(guī)律。該理論的提出對語言學的發(fā)展做出了重要貢獻,意義重大。

        1.2 依存語法的定義

        句子結構中詞與詞之間勾勒出層層遞進的從屬關系,貌似金字塔結構,塔尖是所有從屬關系的支配節(jié),被稱之為“中心結”。中心結是整個句子的核心、重心和中心,一般情況下大多數(shù)中心結為動詞,這種用詞與詞之間的依存關系來描述語言結構的框架稱之為依存語法(dependence grammar),也稱為從屬關系語法(Dependency grammar)。語言學家特斯尼耶爾在《結構句法基礎》中雖未對依存語法提出明確的定義,但他在理論與實踐驗證的過程中循序漸進地提出了依存語法的核心精髓。歷來研究依存語法的諸多學者鑒于其理論,提出了各自對依存語法的理解和闡釋。周國光對依存語法定義為:“一種結構語法,它主要研究以謂詞為中心而構句時由深層語義結構映現(xiàn)為表層句法結構的狀況及條件,謂詞與體詞之間的同現(xiàn)關系,并據(jù)此劃分謂詞的詞類?!盵3]此定義直觀地反映了依存語法的本質內涵。

        1.3 依存關系的適用性

        依存語法的最小單位是詞語,它所關注的對象是詞與詞之間的從屬關系,該關系用來描述句子的深層和表層結構。特斯尼耶爾認為:“關聯(lián)(eonnexion)、組合(jonetion)和轉位(translation)是概括一切結構句法現(xiàn)象的三大核心。”[4]其中,關聯(lián)指建立詞與詞之間的依存關系,它是由支配項與從屬項聯(lián)結形成;組合是指詞與詞之間的并列關系,粗略地說并列關系是一個支配項擁有多個從屬項;轉位則指一個實詞成分在句法上轉移成另一個實詞成分,或者能夠改變詞匯元素的句法范疇中所支持其他元素關系的功能詞,確切地講“結構聯(lián)系建立起詞與詞之間的依存關系,每一項聯(lián)系原則上將一個上項和一個下項聯(lián)結起

        來,上項叫支配詞,下項叫從屬詞。一個詞可以同時是某個上項詞的從屬詞和另一個下項詞的支配詞。”[5]句子里的所有詞便構成一個真正的分層次的體系。動詞是一個句子的中心,支配句中的其他成分。

        20世紀70年代,美國語言學家羅賓松(Robinson)首次提出了依存語法的4條公理,“一個句子中只有一個成分是獨立的;其他成分直接依存于某一成分;任何一個成分都不能依存于兩個或兩個以上的成分;如果A成分直接依存于B成分,而C成分在句中位于A和B之間,那么C或者直接依存于A,或者直接依存于B,或者直接依存于A和B之間的某一成分?!盵6]

        這四條公理保證了依存句法分析時遵循的原則是單一父結點(single headed)、連通(connective)、無環(huán)(acycl icity)、可投影(Projective)。對依存語法的形式化描述提供了形式上的約束,為計算語言學中的應用奠定了良好的基礎。20世紀80年代,舒貝爾特(K.Schuber t)在多語言機器翻譯系統(tǒng)DLT研發(fā)中,提出了面向自然語言處理的12條依存語法原則,其中含有上述4條公理,并且拓寬了依存語法的研究領域。20世紀90年代,我國著名學者馮志偉先生將依存語法的理論引進國內自然語言處理研究領域,馮先生根據(jù)機器翻譯的實踐經驗,提出了滿足依存結構樹的5種條件。在藏語自然語之外領域通過描述藏語依存樹結構發(fā)現(xiàn),藏語的依存樹契合以上所有的條件,并且在句法樹和語義樹的對應關系方面一致性更強。

        2 藏語依存樹庫構建方法

        2.1 藏語句子的篩選原則

        在選擇研究句子時,綜合考慮句型、體裁、時代、語體等,使選擇的句子具有代表性和針對性。藏語傳統(tǒng)語法理論將藏語句型分為他動句、自動句、依存句、主謂句及述謂句等5種類型,在選擇句子時可以以這些基本句型作為依據(jù),對句子分類進行深入研究,使其涵蓋藏語的所有句型。

        在內容方面,根據(jù)藏語實際應用范圍,選擇典型句子的語料中應包含文學、學術、新聞、歷史、傳記、宗教等藏語應用領域中的主要體裁。鑒于藏語各種方言的不同和書面文字的差別,擬選擇統(tǒng)一的書面表達的句子。同時,在選擇句子時還充分考慮時代等特點,使選擇的句子具有代表性。按照以上原則從大規(guī)模藏文文本中篩選10000個句子,以此形成包括單句、復句、句群等在內的藏語典型句型庫。

        2.2 樹庫構建的基本流程

        第一步,大規(guī)模藏文原始文本作為處理對象,通過藏語句子末端的規(guī)則進行篩選句子;對整理完成的文本進行機器自動分詞和詞性標注,再用人工方法對分詞和詞性標注的結果進行校對,校對分為一校和二校兩步,首先由4名藏語語法學專業(yè)的碩士生進行一校,完成一校后,為了保證藏文分詞及詞性標注的一致性,負責人完成第二校的工作。在分詞、詞性標注方面主要采用西藏大學制定的“信息處理用現(xiàn)代藏語分詞規(guī)范”和“信息處理用現(xiàn)代藏語詞類標記集規(guī)范”,以上兩種規(guī)范已提交國家信標委藏文信息技術標準工作組。

        第二步,分詞和詞性標注的基礎上建立藏語依存樹庫的標注體系,包括藏語依存關系的層次體系和語義次級體系。根據(jù)藏語句子的成分進行分類研究,對精加工過的句子成分進行結構和關聯(lián)標注,形成較大規(guī)模的語法單位句法成分標注庫,從而找出其依存關系,形成完整的依存句法樹庫。最后,依據(jù)藏語依存句法的形式化模型,建立藏語依存分析的概率模型,設計分析藏語依存的算法。樹庫構建的基本流

        程見圖1。

        圖1 樹庫構建的基本流程

        3 藏語依存結構的形式化模型

        語法是剖析語言現(xiàn)象的一種理論,通過自然語言來描述所涉及對象的特性,從而達到理論的精確表達。另外一種有關對象的描述是建立模型,模型是將對象的某些特征提取出來形成的一種人造結構。在語言中,廣為使用的一種形式模型是圖,圖的主要元素是頂點和邊,“樹”就是一種特殊的圖。這樣可以更清楚地認識到所謂語言或語法研究的形式化實際上就是用一套標注符號體系來對研究對象進行抽象的方法。換言之,“語句的理解和生成是一個在線性次序(一維)和結構(二維)之間的轉換過程。在這個過程中,圖式的作用不可忽略,因為它可以抽象的、潛在的概念,形象地表示出來。”[7]為了能夠讓計算機模仿一維線性串轉換為二維樹形結構的過程,采用模型及形式化的方法研究語言結構有助于在計算機上實現(xiàn)。也可以說形式化是程序化的基礎。

        3.1 藏語依存結構分析

        依存語法的4公理和5條件均為形式化描述,用來制定藏語依存句法結構的形式約束或其合乎性,其實依存關系指的是詞與詞之間的支配與從屬關系,而藏語中的這種關系是一種具有方向的不對等關系。簡單地講,置于支配及控制地位的成分項被稱為支配者,處于被支配及被控制地位的成分項稱之為從屬者,換句話說,“句子的結構是一種自上而下的,有層級,有等級關系。”[8]一般支配和從屬關系被描述為父子結點的關系類型。支配和被支配的關系以帶有方向性的有向弧線圖來表示;帶多標記立體結構的支配和被支配的關系以依存樹的圖式來表示;格標記和中心詞的從屬關系以詞格標記樹形圖來表示;在依存投影樹中,如從屬關系包含著潛在的依存關系時,可以用虛線來表示。

        在藏語依存句法分析的過程中,由以圖式和符號表示的依存句法結構形式為聯(lián)接依存語法和依存分析算法的中介。將以形式化的文法規(guī)則或形式約束來描述邊結點所附帶的各種信息。常用藏語依存結構的圖式有有向圖(見圖2)、藏語依存樹(見圖3)、格標記樹形圖(見圖4)及藏語依存投影樹(見圖5)4種。

        如圖2所示的有向關系圖中不同標記代表不同的詞類,比如:nr代表人名,bo代表施事格標記,nn代表一般名詞,ba代表工具格標記,nn代表一般名詞,ls代表業(yè)格標記,nn代表一般名詞,vt代表及物動詞,

        依存弧線用來表示各詞類之間的關系,箭頭端為從屬詞,無箭頭端為支配詞,這樣能夠更形象地了解詞間依存關系的層次體系。

        圖2 有向圖

        參照依存骨架分析的結果,形成攜帶多標記立體結構的依存樹的圖形表示見圖3。

        在藏語中,N(名詞)和Det(格標記)與之間的依存關系是:N是中心詞,Det是從屬詞,Det處于名詞的右側,該從屬關系如圖4所示。

        圖3 依存樹

        圖4 藏語格標記的樹形圖

        圖5 依存投影樹

        另外,在依存投影樹中,從屬詞與支配詞之間的依存關系可以用虛線來表示,這種從屬關系還包含著潛在的依存關系(見圖5)。

        藏語依存樹庫的建設屬于句法分析和語義分析的重要數(shù)據(jù)支撐。句法分析和語義分析的主要任務是自動剖析句子的表層和深層的結構關系,換言之,將一個線性呈現(xiàn)的句子轉換成一個結構化的一顆語法樹。本文根據(jù)藏語依存關系的形式化體系,確定了藏語句子中詞與詞之間的依存關系,并且采用4種圖式對藏語句法、語義依存骨架結構進行細致入微的分析,并直觀地刻畫出形式多樣的藏語依存關系圖式。

        3.2 藏語依存樹的多維分析

        藏語依存樹的多維分析采用了判別式的句法分析,以詞性判斷句法、以句法推到語義的多維遞進、互為映照的分析模式,這種分析模式符合藏語句法語義的的推理機制。依存語法本身并未對依存關系進行詳細分類,但是為了更加豐富依存結構映射的句法和語義信息,在應用分析時,一般會對依存樹的各個邊結點賦上不同的標記。邊結點可以附帶的信息有:藏語詞匯本身(Tibetan words),藏文分詞標記(Tibetan Segmentation),pos藏語詞性標記(Tibetan par t of speechtags),藏語句法(語法)功能(Tibetan syntactic funetions),藏語語義角色(Tibetan semantieroles)等多種信息。具體如圖6和圖7。

        第一層(最底層)表示詞性及其序列號,第二層為藏文詞匯本身或字符串及其分詞標記,第三層為依存句法標記。在依存句法標記中,ADV為狀中關系,RAD為后附加,ls為業(yè)格,SBV為主謂關系,RAD為后附加,QUN為數(shù)量定中關系,VOB為涉事賓語,ic為小句核心,cn為銜接連詞,ADV為狀中關系,ld為同體格,HED為整句核心。

        第一層(最底層)表示詞性及其序列號,第二層為藏文詞匯本省或字符串及其分詞標記,第三層為依存語義標記。在依存語義標記中,LNF為與事對,RLD為范圍,ls為業(yè)格,ATV為施事,RLD為范圍,RLD為范圍,PVT涉事對象,ic為小句核心,cn為銜接連詞,RLD為謂語同體,ld為同體格,HED為整句核心。

        圖6 藏語依存句法樹

        圖7 藏語依存語義樹

        3.3 數(shù)據(jù)庫表示藏語依存關系

        對形式化的藏語依存關系,根據(jù)樹結構的信息可以確定樹庫的格式,樹庫采用的格式見表1,此格式便于標注者采用Excel、Access等常用辦公軟件進行標注。

        表1 藏語依存句法樹庫的格式

        上述藏語依存句法形式化模型中,可以獲取賦有標注的藏語依存關系樹,此樹庫含有豐富的句法和詞匯信息。通過對藏語依存樹庫的深度學習和統(tǒng)計分析,獲取該樹庫中的詞匯依存關系的各種信息,從而構建詞匯化概率分析模型,然后引入詞匯支配度的概念,再充分利用句子中的結構信息,設計一個分析句子依存關系的算法。用該算法不僅驗證提出的形式化的藏文依存關系,同時找出更多的依存關系。

        表1中的每一行對應的是藏語句子結構中的一種依存關系,在一個句子中含有n個詞時,應有n-1的依存關系。我們利用這種方式逐步分析句子時,如果某種語言中含有m個句子,則可以形成(m×n)-m個依存關系。而這些句子的依存關系集合,可以稱之為藏語依存樹庫。

        4 結語

        藏語樹庫是藏語自然語言處理研究中的一項關鍵環(huán)節(jié),也是藏語句法與語義分析銜接的重要橋梁。經過藏語自身的語法特點出發(fā),以依存語法理論與方法為導向,研究和構建適合藏語語言本體的依存樹庫,重點解決了藏語句法和語義同步分析的策略問題,具體分析中力求從句法形式得到語義的邏輯驗證,從語義映射句法形式的結構驗證,為藏語句法和語義分析提供了較為理想的形式化描寫策略。這種研究對推動藏文信息處理技術的發(fā)展有著重要意義,藏語依存樹庫的構建正是這方面的努力和嘗試。

        [1]周明,黃昌寧.面向語料庫標注的漢語依存體系探討[J].中文信息學報,1994(3):35-50.

        [2]宗成慶.統(tǒng)計自然語言處理[M].北京:清華大學出版社,2008:181.

        [3]周國光.漢語配價語法論略[J].南京師范大學學報,1994(4):103-106.

        [4]劉海濤.依存語法和機器翻譯[J].語言文字應用,1997(3):89.

        [5]袁毓林.漢語配價語法研究[M].北京:商務印書館,2010:314.

        [6]劉海濤.依存語法和機器翻譯[J].語言文字應用,1997,23(3):89.

        [7]劉海濤.依存語法的理論與實踐[M].北京:科學出版社,2009:120.

        [8]明揚.西方語言學名著選讀[M].北京:中國人民大學出版社,2011:229.

        Theory and M ethod of Tibetan dependency Treebank construction

        Tashi-Gyal①Duo-La②
        (①Research Centerof Tibetan Information Technology,TibetUniversity,Lhasa 850000,China;②NorthwestUniversity forNationalities,Lanzhou 730030,China)

        Dependency grammar also called"subordinate relationship grammar",and it research on the relation?ship between the dominantand subordinate constituentsofa sentence.Dependency structure refers to the syntac?tic relations between thewords in the sentence and the structure described in a tree structure,called for depen?dency treebank.The theoretical framework of dependency grammar as the theoretical guidance for the Tibetan treebank construction,fully drawing ideological essence of dependency grammar and combining with Tibetan grammar system,a syntactic and semantic tagging system in line with the Tibetan grammar system was set up and the discrimination of the syntax analysis algorithm was designed in order to building a Tibetan dependency treebank ofmultidimensionalwindows.In the specific analysis,firstofall,the background knowledgewasbriefly explained in terms of the dependency grammar origin,definition and the applicability of dependency relation?ship,secondly,the selection of Tibetan sentences,formalmodelof dependency structure,dependency framework structure andmultidimensional relationship of Tibetan dependency treewere analyzed aswell.

        dependency grammar;Tibetan treebank;Tibetan syntactic analysis;Tibetan semantic analysis

        10.16249/j.cnki.54-1034/c.2015.02.013

        TP391.1

        A

        1005-5738(2015)02-076-08

        2015-05-25

        2012年度國家自然科學基金項目“藏語依存樹庫的構建”(項目號:61163043);2014年度國家哲學社會科學基金重大項目“基于地理信息平臺的藏語方言數(shù)據(jù)庫建設”(項目號:14ZDB101);2015年度西藏自治區(qū)高校青年教師創(chuàng)新支持計劃項目“經典藏文文獻標注語料庫建設與詞匯計量研究”(項目號:QC2015-19);2015年度西藏大學珠峰學者人才發(fā)展支持計劃主體計劃“杰出青年學者”項目階段性成果。

        扎西加,男,藏族,青海海南人,西藏大學藏文信息技術研究中心副教授,主要研究方向為計算語言學、藏文信息處理。

        [責任編輯:索郎桑姆]

        猜你喜歡
        藏語藏文句法
        淺談藏語中的禮儀語
        客聯(lián)(2022年2期)2022-04-29 22:05:07
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        述謂結構與英語句法配置
        漢藏語及其音樂
        中國音樂學(2020年2期)2020-12-14 03:07:24
        西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
        布達拉(2020年3期)2020-04-13 10:00:07
        黑水城和額濟納出土藏文文獻簡介
        西夏學(2019年1期)2019-02-10 06:22:34
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        詩詞聯(lián)句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        藏語拉達克話的幾個語音特征
        西藏研究(2017年3期)2017-09-05 09:44:58
        藏文音節(jié)字的頻次統(tǒng)計
        国产精品久久777777| 国产精品1区2区| 伊人不卡中文字幕在线一区二区| 亚洲国产精品夜男人天堂| 日本免费一区二区在线看片| 亚洲精品天天影视综合网| 无码人妻av一二区二区三区| 色丁香久久| 色综合久久精品中文字幕| 国产成人久久精品流白浆| 亚洲精品在线观看自拍| 看日本全黄色免费a级| 日夜啪啪一区二区三区| 久久99国产伦精品免费| 久久久精品2019免费观看| 日韩av一区二区三区精品久久| 色哟哟亚洲色精一区二区| 欧美一区二区三区激情| 欧美成人形色生活片| 国产午夜视频免费观看| 日本一区二区高清视频在线播放| 国产人妖网站在线视频| 无码人妻丰满熟妇区bbbbxxxx| 国产免费又色又爽又黄软件| 2021年最新久久久视精品爱| 91久久国产精品综合| 国产av剧情刺激对白| 东京热人妻系列无码专区| 国产精品_国产精品_k频道 | 在线观看av中文字幕不卡| 女同国产日韩精品在线| 国产精品成人亚洲一区| 中文字幕乱码熟妇五十中出 | 久久久男人天堂| 亚洲欧美成人在线免费| 亚洲激情一区二区三区视频| 亚洲国产一区二区三区| 无码福利写真片视频在线播放| 91精品国产色综合久久不卡蜜| 精品亚洲一区二区视频| 亚洲中文字幕高清av|