亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于樹庫轉換的藏語依存句法樹庫構建方法

        2022-09-05 09:26:44周毛克龍從軍趙小兵李林霞
        中文信息學報 2022年7期
        關鍵詞:句法結構語言

        周毛克,龍從軍,趙小兵,李林霞

        (1. 中央民族大學 中國少數(shù)民族語言文學學院,北京 100081;2. 國家語言資源監(jiān)測與研究少數(shù)民族語言中心,北京 100081;3. 中國社會科學院 民族學與人類學研究所,北京 100081;4. 中央民族大學 信息工程學院,北京 100081)

        0 引言

        句法分析(Syntactic Parsing)根據(jù)給定的語法規(guī)則,自動推導出句子的語法結構,是計算機實現(xiàn)自然語言語義理解的一項關鍵任務。近年來,依存句法分析(Dependency Syntactic Parsing)以形式簡潔、直接面向語義、便于分析處理等優(yōu)點受到研究人員的關注[1-2]。藏語依存句法分析是藏語自然語言處理的重要任務,對藏語本體研究和計算處理都具有重要價值。

        相較于英語和漢語,藏語作為低資源語言(Low Resource Languages),句法研究成果積累較少[3]。目前,藏語依存句法分析存在三個問題亟待解決: 一是藏語依存句法分析標注體系不一致。研究單位或研究者提出的標注體系存在較大差異;二是沒有開源可共享的語言資源庫?,F(xiàn)有的藏語依存句法分析研究都基于小規(guī)模數(shù)據(jù),句子覆蓋率低,依存分析效果差;三是依存分析算法和模型都基于傳統(tǒng)研究方法。盡管深度學習在資源豐富的語言處理領域獲得了巨大的成就,但是在如藏語一樣語言資源匱乏的語言研究中沒有得到充分發(fā)揮。由上述問題可知,語言資源建設仍是實現(xiàn)藏語依存句法分析的首要任務。基于此,本文提出了一種基于樹庫轉換的藏語依存樹庫構建方法,通過半自動的方式構建藏語依存樹庫,實現(xiàn)藏語依存句法分析。

        1 建立藏語依存句法分析標注體系

        依存句法標注體系建設是構建藏語依存樹庫的重要前提。近幾年,研究者在依存語法和藏語傳統(tǒng)語言文法的基礎上建立了藏語依存句法標注體系,如華卻才讓等[4]制定了33種藏語依存關系類型;扎西加、多拉等[5]提出了24種依存關系類型和18種語義依存關系類型;頭旦才讓、尼瑪扎西等[6]將藏語依存關系分為5個大類36個小類;夏吾吉等[7]設計了62種語義依存關系類型等。由此可見,當前藏語并沒有統(tǒng)一且標準的依存句法標注體系,現(xiàn)存的依存關系類型因研究者而異。本文在依存語法理論[8-12]指導下,結合藏語本身的形態(tài)、句法等語言特性,同時借鑒英語、漢語現(xiàn)有依存句法標注體系構建經(jīng)驗建立了藏語依存關系類型。

        結合藏語語言文法[13-15],本文總結出了藏語句子內部的實詞與實詞、實詞與功能詞、短語和短語之間的依存關系,構建了藏語依存關系標注體系。在制定依存關系類型時,如果把藏語的復雜依存關系描述清楚,就需要建立許多關系類型,例如,按照謂語成分,可以把主語分為系動詞的主語、存在動詞的主語、自主動詞和非自主動詞的主語等,甚至可以再細化,這樣做雖然可以全面細致地描述藏語的復雜語言現(xiàn)象,但是考慮到建模時過于龐大的依存關系標注集會導致句法分析器的魯棒性和可操作性下降,數(shù)據(jù)稀疏問題突顯,因此在確定藏語依存關系類型時,本文采用“大類為主”的原則,對語言描寫和計算做了折中處理。最終建立的依存句法標注體系基本涵蓋了藏語的句法語義關系。表1是本文制定的33類依存關系,在后續(xù)研究中,將不斷完善此標注集。

        表1 藏語依存關系標注集

        2 樹庫轉換

        句法樹庫標注了十分豐富的詞語形態(tài)信息、詞類信息、句法結構信息、句法功能信息及語義角色信息。一個標注精細、合理的句法樹庫不僅可以供語言學家更好地研究語言的詞匯、短語、句法等問題,也可為計算機處理自然語言提供優(yōu)質的實驗數(shù)據(jù)。目前,中、英文樹庫資源建設取得了較大的成果,但是蒙古文、藏文、維吾爾文等我國民族語言資源建設滯后,一定程度上影響了我國民族語言文字信息化進程。

        隨著藏語自然語言處理的深入推進,建設藏語語言資源知識庫的需求逐漸增加。國內以中國社會科學院、西藏大學、西北民族大學、青海師范大學為首的研究單位通過手動或半自動方式建立了一定規(guī)模的語言資源庫[16],如中國社會科學院民族學與人類學研究所的龍從軍等[17]建立了1萬句基本句型的藏語短語結構樹庫;華卻才讓等[18]以半自動的方式構建了1.1萬句藏語依存樹庫,扎西加、多拉等[6]構建了1萬句藏語依存樹庫;夏吾吉等[19]人工構建了2 106句藏語語義依存樹庫。但是,與英語、漢語相比,藏語信息處理研究成果零散,研究隊伍分散,短期內難以形成合力,導致規(guī)模性的句法樹庫構建困難,在一定程度上限制了藏語句法分析進程。

        2.1 藏語樹庫情況

        圖1 前期構建的藏語短語結構樹

        2.2 藏語句法樹庫轉換過程

        2.2.1 擴充藏語短語結構樹庫

        前期構建的藏語短語結構樹庫規(guī)模較小,因此在實現(xiàn)句法樹庫轉換之前,需要對短語結構樹庫進行擴充。本文使用中國社會科學院民族學與人類學研究所的藏語短語結構句法分析器擴充了現(xiàn)有短語結構樹庫。擴充短語結構樹庫的生語料來源為Essentials of Modern Literary Tibetan: A Reading Course and Reference Grammar和The New Tibetan-English Dictionary of Modern Tibetan中的例句。以上兩種文獻中包含豐富的藏語例句,例句基本涵蓋藏語所有的句子類型,是一種可靠的數(shù)據(jù),故將其作為實驗數(shù)據(jù)來源。

        在前期構建的1萬句數(shù)據(jù)集基礎上,本文收集了1.2萬個句子,作為擴充語料。借助短語結構句法分析器,將1.2萬句生語料轉換成短語結構格式。經(jīng)過擴充,最終獲得規(guī)模約為2.2萬句的藏語短語結構樹庫,其中包含21萬個詞,38.9萬個藏文音節(jié),短語結構樹庫擴充情況如表2所示。

        表2 短語結構樹庫擴充情況

        2.2.2 設計樹庫轉換規(guī)則

        在短語結構樹中,每個短語結構都有一個中心子節(jié)點決定著短語的主要性質,其他節(jié)點(非中心子節(jié)點)都是該中心子節(jié)點的修飾子節(jié)點[20]?,F(xiàn)有藏語短語結構樹僅僅標注了每個句子的短語層次結構而沒有標注每個短語的中心子節(jié)點,所以在實現(xiàn)樹庫轉換之前,首先需要確定藏語短語結構樹中的中心子節(jié)點。

        中心子節(jié)點過濾表是確定中心子節(jié)點的經(jīng)典方法之一[21]。中心子節(jié)點過濾表主要由短語類型、優(yōu)先級和搜索方向三部分組成,其中,短語類型是非終端節(jié)點的短語類型;搜索方向是在非終端節(jié)點內部搜索中心子節(jié)點的方向,包括向左(Left,L)和向右(Right,R)搜索。當搜索方向取值為L時,從短語的左側開始向右搜索;當搜索方向取值為R時,從短語的右側向左搜索;優(yōu)先級決定著短語內部各類子節(jié)點的優(yōu)先搜索次序。

        確定藏語短語結構樹中每個短語的中心子節(jié)點,需要根據(jù)現(xiàn)有藏語短語結構樹庫的標注特點構造完整的中心子節(jié)點過濾表。本文結合短語結構樹庫特點制定了藏語中心子節(jié)點過濾表,表3展示了過濾表的部分內容。

        表3 藏語中心子節(jié)點過濾表

        現(xiàn)以動詞短語類型(VP)為例,確定該短語的中心子節(jié)點。動詞短語的中心子節(jié)點過濾表條目為< VP,R,VP;VVP;V;ADJP;.*>,藏語是SOV型語言,動詞居于句尾,所以VP短語的搜索方向為R,即從右向左搜索VP短語的每一個節(jié)點。按照優(yōu)先級首先需要搜索VP,如果沒有找到VP就搜索下一個優(yōu)先級VVP,以此類推,匹配到則返回。當遍歷完所有的優(yōu)先級且沒有找到匹配項時,根據(jù)搜索方向,我們就默認最右側的子節(jié)點為中心子節(jié)點,同理,若搜索方向為L,則最左側的子節(jié)點為中心子節(jié)點。

        圖2 已標注句法語義信息的短語結構樹

        圖3 未標注句法語義信息的短語結構樹

        表4 短語標記與依存關系映射表(部分)

        續(xù)表

        2.2.3 轉換算法

        設計好過濾表和映射表后,就可以根據(jù)表中的規(guī)則開始轉換樹庫。為了降低轉換過程中句法樹的復雜度,首先需要將長難句分塊處理;其次按照過濾表中規(guī)定的短語搜索方向,依據(jù)優(yōu)先級從右往左或從左往右依次搜索,搜索過程中如果某一項匹配成功,則立即確定并返回該短語的中心子節(jié)點,其他子節(jié)點依次依存于中心子節(jié)點;最后根據(jù)映射表標注詞與詞之間的依存關系類型, 初步實現(xiàn)樹庫轉換工作。

        上述為藏語樹庫轉換的基本流程,在設計算法時,藏語短語結構樹庫(Tibetan Phrase Structure Treebank)和藏語依存樹庫(Tibetan Dependency Treebank)分別用TPST和TDT表示,具體的算法流程如下所示。

        (1) 需求藏語短語結構樹: TPST={pi}ni=1藏語中心子節(jié)點過濾表(Tibetan Priority Table),簡寫為TPT()藏語短語標記與依存關系映射表(Tibetan Phrase to De-pendency Table),簡寫為P2D()多層塊標簽: C={w,p,s}(2) 初始化藏語依存樹庫: TDT={dj}nj=1(3) 程序從藏語短語結構樹庫TPST中讀取pi;步驟1: 為快速實現(xiàn)樹庫TPST轉換,在此借助短語結構樹的分層分塊特點,將復雜句分成多個小塊,使用chunk=(pi,C),確定句子pi的塊邊界;步驟2: 確定pi的中心詞: searchRoot(pi)步驟3: 采用中序遍歷的方法實現(xiàn)從短語結構樹到依存結構樹的轉換: 中序遍歷(pi): 如果當前節(jié)點r為根節(jié)點: 繼續(xù)搜索根節(jié)點r的子節(jié)點 否則: createTree(TPT(),P2D(),r) dj=str("n","w","w","p","p","_","id","arc","_","_") 最后: 將dj添加到TDT中,直到TPST的長度和TDT的長度等于n時結束 返回TDT={dj}nj=0

        3 樹庫轉換結果及分析

        3.1 樹庫轉換結果

        本文將2.2萬句藏語短語結構樹作為源樹庫,通過樹庫轉換的方法構建依存樹庫。理論上,如果短語結構樹庫的短語標記和依存樹庫的依存關系標簽能夠一一對應,則轉換結果就會有較高的準確率。但是,在實際操作中,由于源短語結構樹庫在構建過程中不可避免地出現(xiàn)了標注錯誤、標注缺失等問題,因此難以做到一一對應的轉換。

        通過上節(jié)樹庫轉換算法,初步實現(xiàn)了源短語結構樹到目標依存樹的轉換。為了對轉換后的結果做出定量評價,本文從轉換后的依存樹庫中抽取了5%的依存樹進行人工校驗。

        經(jīng)過對抽取的1 100個樣本樹的依存關系個數(shù)進行統(tǒng)計,得到8 329個依存關系類型,然后使用依存可視化工具對所有樣本的依存關系進行人工校驗。最終計算出樹庫轉換的準確率,如表5所示。

        表5 樣本依存關系準確率

        對樣本的準確率進行驗證我們發(fā)現(xiàn),通過初步轉換,本文提出的樹庫轉換方法在實現(xiàn)藏語句法樹庫轉換和構建藏語依存樹庫任務中具有良好的表現(xiàn),準確率達到了89.36%。此外,在人工校對5%的樣本時,對句子中心詞(ROOT)的標注準確性也進行了統(tǒng)計。1 100個句子中,除87個句子中心詞標注錯誤外,其余1 013個句子都準確地找到了句子的中心詞,準確率達到92.09%,如表6所示。

        表6 ROOT轉換的準確率

        圖4 源藏語短語結構樹

        圖5 目標藏語依存樹

        綜合樹庫轉換實驗,本文最終構建了規(guī)模為2.2萬句的藏語依存樹庫,與華卻才讓、扎西加等構建的藏語依存樹庫規(guī)模相比,本文的樹庫規(guī)模較大。轉換后的藏語依存樹庫使用CoNLL格式保存,具體如圖6所示。

        圖6 CoNLL格式的依存樹樣例

        3.2 結果分析

        基于樹庫轉換的藏語依存樹庫構建方法能夠有效實現(xiàn)兩種樹庫之間的轉換,但是在實際轉換過程中,無論是源藏語短語結構樹庫、中心子節(jié)點過濾表、映射表,還是轉換算法等都存在一些問題。

        3.2.1 句法樹庫問題

        圖7 短語結構樹標注錯誤例子

        另外,如果短語結構樹標注了完整的句法功能信息和語義角色信息,那么在確定短語標記和依存關系之間的映射關系時,就可以借助句法和語義信息快速地獲取映射關系。但是,目前的藏語短語結構樹中,只標注了最常見的7類句法功能信息,通過這7類句法功能信息能夠簡單地找出對應的映射關系,而本文制定的藏語依存標注體系中有33種依存關系,已標注的句法功能只能確定約1/5的映射關系,剩下約4/5的映射關系需要通過人工確定。因此句法樹標注的完善程度會影響映射表的完整性和準確性,從而間接影響樹庫轉換任務。

        3.2.2 過濾表和映射表問題

        圖8 特殊結構之結構并列

        在本文制定的短語標記與依存關系的映射表中,部分映射關系是通過句法功能信息和語義角色信息確定的,這一部分的映射關系比較可靠且準確率較高,例如,7個句法功能標記(SBJ、PRE、OBJ、ADV、CON、APP、ATT)能直觀地確定短語結構標記與依存關系的映射關系。但是,其他映射關系基本以人工觀察樹庫總結規(guī)律得來,這類映射關系具有局限性,一方面受到研究者的主觀影響,另一方面還會受到整個句法樹庫的影響,因此我們不能排除這類映射關系出現(xiàn)錯誤的可能。另外,映射表中的映射關系存在重復問題,例如,主謂關系(SBV)、直賓關系(DOB)和間賓關系(IOB)等都與短語標記NP-VP對應,所以在轉換過程中遇到NP-VP標記時,就無法確定優(yōu)先選擇哪種依存關系類型。

        3.2.3 轉換算法問題

        本文的樹庫轉換方法包括轉換和標注兩部分。轉換過程中,由于過濾表中列舉出來的優(yōu)先級不一定全面,因此在遍歷優(yōu)先級的過程中,對于匹配不到的情況,本文的計算處理方式為直接按搜索方向確定優(yōu)先級,即從右向左搜索,右邊的第一個節(jié)點為中心子節(jié)點;從左向右搜索,則左邊的第一個節(jié)點為中心子節(jié)點,這樣的處理方式比較武斷且錯誤產(chǎn)生率較高。另外,在標注過程中,短語標記和依存關系的映射表中出現(xiàn)了重復的情況,例如,依存關系“SBV”“DOB”“IOB”與同一個短語標記“NP-VP”對應,“POS”“ATT”也是與同一個短語標記“NP-G”,遇到這種一對多現(xiàn)象時,我們直接用特殊符號“-”標記,轉換結束后按照特殊符號搜索進行人工校對。這種處理方式加大了后續(xù)人工校對的成本。

        3.2.4 語言本身的歧義問題

        圖9 標注錯誤引發(fā)的轉換錯誤例子

        圖10 轉換結果1

        圖11 轉換結果2

        4 藏語依存句法分析

        目前的藏語依存句法分析模型幾乎都是基于統(tǒng)計的方法,華卻才讓、扎西加、夏吾吉等使用感知機、最大熵等建立語言模型,雖然取得了不錯的結果,但是這種傳統(tǒng)的模型需要做大量的特征工程,特征向量稀疏且泛化能力差,特征存儲和計算代價大。為了提高計算效率和準確率,本文使用Chen和Manning等[22]提出的基于神經(jīng)網(wǎng)絡的依存句法分析模型實現(xiàn)藏語依存句法分析,從而驗證依存樹庫的有效性。

        基于神經(jīng)網(wǎng)絡的依存句法分析模型最早由Chen和Manning提出,后來的模型大多是在其基礎上調整改進而來。本文調用該模型,使用ARC-Standard轉換算法實現(xiàn)轉換處理,然后在此基礎上使用神經(jīng)網(wǎng)絡作為分類器自動提取特征預測依存關系。本文的神經(jīng)網(wǎng)絡模型共有三層,分別為輸入層、隱藏層和輸出層,層與層之間以全連接的方式連接,模型框架如圖12所示。

        圖12 神經(jīng)網(wǎng)絡模型框架

        根據(jù)詞向量的原理得知,如果詞和詞之間具有相似的關系,那么其詞性、依存弧也應該能夠表現(xiàn)出許多語義上的相似性,這些具有相似性的向量導入模型后,能夠有效地提升模型的性能,所以本模型的輸入層是由一組詞向量(WORDS)、詞性標簽向量(POS TAGS)、依存弧標簽向量(ARC LABELS)的拼接層;模型的輸入層到隱藏層之間使用cube激活函數(shù),該函數(shù)能夠將輸入層的特征向量充分組合起來,從而提高模型的性能;本任務是一個多分類任務,softmax函數(shù)在多分類任務中具有較高表現(xiàn)性能,因此模型的輸出層使用了softmax函數(shù)。

        本文以9∶0.5∶0.5的比例將語料分為訓練集、驗證集和測試集,使用UAS值和LAS值作為評價指標[23],運用Pytorch框架建立神經(jīng)網(wǎng)絡模型。實驗過程中,經(jīng)過多次迭代,模型的loss值從0.184 039 748降到0.069 148 814,驗證集上的UAS值、LAS值隨著loss值的下降而上升,如表7所示。

        表7 loss值與驗證集上的UAS值、LAS值

        在模型基本達到最佳狀態(tài)后,驗證集上的UAS值和LAS值分別達到83.57%、81.83%,變化趨勢如圖13所示。

        圖13 loss、UAS、LAS值變化趨勢圖

        經(jīng)過訓練獲得最佳的藏語依存句法分析模型后,進行了測試實驗。在測試集上,UAS值為83.62%,LAS值為81.90%,如表8所示。

        表8 測試集實驗結果

        經(jīng)過分析實驗中出現(xiàn)的錯誤實例后發(fā)現(xiàn),大多數(shù)實例包含3~7個詞,其中很多錯誤是由于句子中的歧義詞、罕見詞或未登錄詞造成的。另外,由于語料規(guī)模較小,訓練過程中每個單詞出現(xiàn)的頻次有限,導致模型性能偏低。總體而言,本文構建的依存樹庫在神經(jīng)網(wǎng)絡模型上具有良好的表現(xiàn)。

        5 結語

        句法分析既是藏語自然語言處理的重難點,也是語言信息化處理的關鍵基礎任務之一。長期以來,由于語言資源匱乏等因素影響,藏語句法分析方面的研究進展相對緩慢,成果較少。本文提出了一種基于樹庫轉換的依存句法樹庫構建方法,為藏語依存句法分析構建基礎數(shù)據(jù)。我們在擴充源短語結構樹庫的基礎上,根據(jù)樹庫特征設計轉換規(guī)則,通過規(guī)則實現(xiàn)短語結構樹到依存句法樹的轉換,最終得到了一個規(guī)模為2.2萬句的藏語依存句法樹庫。為了驗證樹庫的有效性,本文使用神經(jīng)網(wǎng)絡建立藏語依存句法分析模型,實驗證明,藏語依存句法分析能夠達到較高的水平。在后續(xù)研究中,擴大句法樹庫規(guī)模仍然是研究的首要任務,其次,需要探索更多的方法,從技術上突破,節(jié)省構建樹庫的各項成本,將理論和實踐結合起來,更好地為藏語自然語言處理的其他任務服務。

        猜你喜歡
        句法結構語言
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        《形而上學》△卷的結構和位置
        哲學評論(2021年2期)2021-08-22 01:53:34
        述謂結構與英語句法配置
        語言是刀
        文苑(2020年4期)2020-05-30 12:35:30
        論結構
        中華詩詞(2019年7期)2019-11-25 01:43:04
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        讓語言描寫搖曳多姿
        詩詞聯(lián)句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        累積動態(tài)分析下的同聲傳譯語言壓縮
        論《日出》的結構
        亚洲AV无码一区二区三区人| 隔壁老王国产在线精品| 69一区二三区好的精华| 久久久久99精品成人片试看| 熟女少妇av免费观看| 中文字幕乱码亚洲一区二区三区| 国产亚洲成av人片在线观黄桃| 激情 人妻 制服 丝袜| 丝袜美腿网站一区二区| 日本国产一区二区在线观看| √天堂资源中文www| 成人无码一区二区三区网站| 亚州毛色毛片免费观看| 亚洲免费在线视频播放| 亚洲精品蜜夜内射| 亚洲女人被黑人巨大进入| 日本精品久久久久中文字幕1| 亚洲一区二区三区视频免费看| 国产超碰人人做人人爽av大片| 成人无码视频| 黄色三级视频中文字幕| 日本av一级片免费看| 亚洲av无码久久精品蜜桃| 亚洲精品综合第一国产综合| 最新中文字幕乱码在线| 亚洲国产精品综合久久网络| 国产精品美女久久久久久久久| 色yeye在线观看| 中文字幕综合一区二区| 51看片免费视频在观看| 国产精品久久国产精品99gif| 国产一区二区三区蜜桃av| 99久久国产精品网站| 国产精品久久久久影院嫩草| 国产成人精品三上悠亚久久| 日本女优久久精品久久| 人妻 日韩 欧美 综合 制服| 香蕉成人啪国产精品视频综合网| 一区二区中文字幕蜜桃| 厨房人妻hd中文字幕| 人人妻人人澡av天堂香蕉|