仁青卓么 張丹 完么措
(1.青海師范大學計算機學院 青海省西寧市 810001)
(2.西北民族大學中國語言文學學部 甘肅省蘭州市 730000)
在任何一種語言中,短語結(jié)構(gòu)的分析與描述是進行句法研究的核心內(nèi)容。如果我們把各類詞組的結(jié)構(gòu)和功能都足夠詳細地描述清楚了,那么句子的結(jié)構(gòu)實際上也就描述清楚了,因為句子不過是獨立的詞組而已[1]。短語是最重要的語法單位,在語言分析中起著舉足輕重的作用,其構(gòu)造原則同句子的構(gòu)造原則基本一致,內(nèi)部結(jié)構(gòu)也比較穩(wěn)定,往往作為一個整體與句子中的其他成分發(fā)生作用。在自然語言處理中,短語作為語言分析的一個層次,占有十分重要的位置。有效的短語分析對降低其后句法分析難度,縮小句法分析器的搜索空間,提高機器翻譯的翻譯正確率是很有幫助的[2]。
藏語短語結(jié)構(gòu)標注樹庫是依據(jù)句子的核心成分(即謂語),通過分析句子中各個語言單位之間的句法功能和語義關系,從大到小,從長到短的依次分析構(gòu)成句子的各類短語結(jié)構(gòu),直至詞層面為止,而這樣產(chǎn)生的短語結(jié)構(gòu)規(guī)則庫在處理涉及短語和句子的各類語言現(xiàn)象時能夠作為一定的依據(jù)和標準,對短語結(jié)構(gòu)進行深入分析,從而進一步加強對句法結(jié)構(gòu)的分析和研究。同時,在語言運用中能夠有效提高短語和句子結(jié)構(gòu)的識別和處理能力。而構(gòu)建語言分析模型可以自動識別各類短語結(jié)構(gòu),實現(xiàn)短語的自動劃分與標注,還可以進一步對藏語短語進行深層次的分析,為藏漢機器翻譯系統(tǒng)的設計與實現(xiàn)提供規(guī)則庫的支持。
在進行語料的加工和處理時,詞和短語等的自動劃分和標注研究顯得至關重要。藏語短語劃分和標注的理論,以及有關技術的研究和實現(xiàn)等不僅可以為構(gòu)建大規(guī)模的,其他各種類型的藏語語料庫提供理論和方法支持,也能應用到各類藏語語料庫的深入分析和研究當中。
樹庫是指對自然語言進行句法或語義標注后,以樹形結(jié)構(gòu)存儲的一種語言資源[3]。構(gòu)建樹庫的過程實際上就是分析句子生成的過程,可以對不同層次的,構(gòu)成句子的每一個成分進行特征與組合規(guī)則的詳細描述。短語結(jié)構(gòu)樹庫是依據(jù)句子的核心成分(即謂語),從大到小,從長到短的依次分析構(gòu)成句子的各類短語,直至詞層面為止,從而分析句子的構(gòu)成過程,標注其句法結(jié)構(gòu)或語義關系。樹庫的構(gòu)建工作在任何一個語言當中都顯得至關重要,尤其在自然語言處理領域,樹庫是很重要的語言知識資源,能夠為語言研究和語言信息處理提供很好的數(shù)據(jù)平臺。目前,世界上成規(guī)模的樹庫主要有短語結(jié)構(gòu)樹庫和依存結(jié)構(gòu)樹庫兩種類型。在中文領域,成規(guī)模的中文樹庫主要有賓州中文樹庫、Sinica 中文樹庫、清華中文樹庫、國家語委中文樹庫、北大中文樹庫、哈工大中文依存樹庫及北師大句本位句式結(jié)構(gòu)樹庫[4]。
國外關于句法分析的研究是從20 紀50年代開始的。國外在樹庫構(gòu)建方面取得了較好的成效,其中從規(guī)模和質(zhì)量上在看,英語樹庫的構(gòu)建工作相對成熟,其中比較大的樹庫有英國Lancaster 大學UCREL 的Lancaster 樹庫和美國的Pennsyvania 大學的Penn 樹庫,前者的標記體系規(guī)模較大,從不同層面描述了詳細的短語句法信息,而后者的標記則較為簡單,只有14 個句法標記。以下是對各類語言的樹庫構(gòu)建情況所做的概況,如表1所示。
表1:各類語言的樹庫構(gòu)建情況
雖然全部機器學習技術都可以被認為是基于過去的觀測學習如何做出預測,但是深度學習方法不僅學習預測,而且學習正確地表示數(shù)據(jù),以使其更有助于預測[5]。近年來,越來越多的研究人員在藏語短語和句子的層次分析方面進行了大量探索和深入研究,積累了許多有價值和可供參考的研究成果,可運用到短語結(jié)構(gòu)樹庫的標注過程當中,為樹庫的構(gòu)建工作提供有力的支持。
在藏文傳統(tǒng)文法中,有關短語的論述并不多,然而這并不表示在藏文文法體系完善,欠缺有關內(nèi)容,而是沒有在語言運用層面進行相應的分析研究。在藏文傳統(tǒng)文法中,對藏語短語的名稱和概念,以及分類等都沒有形成一個統(tǒng)一的標準。關于短語的名稱,藏族學者的看法有所不一,分別有“??????? ???????? ??????????????”三種,其中以“??????????????”居多;關于短語的定義,分別在五個藏文語法書中有所界定,基本都是根據(jù)短語的形式和功能進行的定義。根據(jù)本人之前做過的一些研究工作和進行的總結(jié),藏語短語的概念可定義為:相關聯(lián)的兩個或兩個以上的詞用格助詞進行連接,能區(qū)別意義的,充當句子成分的語言單位。這是依據(jù)短語在句子中的位置和功能進行的概念界定。而對短語的分類大多是依據(jù)藏語的四大根本詞類進行相應的四類短語的劃分,即動詞短語,名詞短語,數(shù)量詞短語和形容詞短語。
近年來,從信息處理的角度藏語短語進行研究的論文層出不窮。其中,《面向語言信息處理的藏語短語及其分類方法研究》[6-9]等文章中,主要研究藏語短語的結(jié)構(gòu)和規(guī)則,分布特征,分類信息等內(nèi)容;《基于短語的藏英統(tǒng)計機器翻譯關鍵技術研究》[10-12]等文章中,通過對藏漢,藏英機器翻譯系統(tǒng)工作原理的研究,提出了構(gòu)建基于短語的統(tǒng)計機器翻譯模型,嘗試提高藏英或藏漢機器翻譯的性能;《基于句法樹的藏語最長名詞短語識別》[13-15]等文章中,通過分析的藏語短語的統(tǒng)計特征,提出了識別和抽取有關藏語短語結(jié)構(gòu)的算法和模型等。藏語樹庫的構(gòu)建工作也相繼起步,有關研究成果有扎西加,多拉的《藏語依存樹庫構(gòu)建的理論與方法探析》[16]等,這些論文結(jié)合藏語自身的語法特點,在論文中提到了相關樹庫構(gòu)建的理論和方法,樹庫的構(gòu)建模式和構(gòu)建技術,并通過樹庫的構(gòu)建,制定出了相應的標記和規(guī)范,設計實現(xiàn)了標注工具,對相關樹庫進行了較為詳盡的分析研究。
語料庫是對語言知識的表示,而樹庫是對語料進行過深加工之后形成的資源庫,既可作為對語言學和自然語言進行深入分析研究的重要依據(jù),也是語料庫語言學和自然語言處理技術發(fā)展到一定階段的產(chǎn)物。標注樹庫是一項費時費力的工作,需要完善的標注體系和規(guī)范的標注流程以保證標注的質(zhì)量。另一方面,由于標注規(guī)范的復雜性,需要標注者擁有相關的專業(yè)背景。即使這樣,標注者對句子的不同理解也會產(chǎn)生不同的標注結(jié)果,這為樹庫的建設帶來了一定的困難[17]。藏語是謂語后置性語言,加之藏語虛詞,即自由虛詞和不自由虛詞在句子中的功能非常強大,起著連接句子前后的紐帶作用,因此,在進行藏語短語標注樹庫的建設時,在借鑒其他語言樹庫構(gòu)建的理論和方法外,還要根據(jù)藏語自身的特點,進行細致入微的分析。
樹結(jié)構(gòu)這種層次標注方法可以很詳細的描述出句法信息等,但是必須遵循一定的語法規(guī)則。樹庫的構(gòu)建都是在特定的語法理論的框架下制定標注規(guī)范的,不同結(jié)構(gòu)類型的樹庫之間最本質(zhì)的區(qū)別不在于采用了何種標注體系,而在于依照何種語法體系制定的該標注體系。從這個角度上講,短語結(jié)構(gòu)樹庫最本質(zhì)的特征在于其標注體系的制定是站在“短語”的角度,采用了“短語中心”的語法理論,這種語法理論是通過直接描寫句子“直接成分”(如主謂、定中、述賓、附加等)的方式分析句子的結(jié)構(gòu),進而制定標注體系[18]。因此,在進行短語結(jié)構(gòu)的標注實踐時,需要以完整的層次結(jié)構(gòu)樹為基礎,通過對10000 個藏語句子進行標注,首先完成對各種復雜的語言現(xiàn)象的分析和標記,進而對結(jié)構(gòu)樹上的每個短語結(jié)構(gòu)節(jié)點進行標記,即結(jié)構(gòu)標記和關系標記 ,形成雙標記集的句法信息描述體系,進而制定藏語短語結(jié)構(gòu)樹庫的標注體系。樹庫的標注工作是在對藏語短語結(jié)構(gòu)的句法語義進行深入研究的基礎上,通過對句子層次結(jié)構(gòu)的標注實踐過程,形成一個計算機可分析和理解的藏語短語結(jié)構(gòu)規(guī)則庫。
2.1.1 通過標記的形式進行語料中短語邊界的確定檢測
首先選取各類藏語句子進行短語結(jié)構(gòu)的標注,目的在于建立一個較為完整的藏語短語結(jié)構(gòu)樹庫。因為句子的長短不一,為了節(jié)省空間,便于標注,對短語結(jié)構(gòu)的劃分主要采用括號(bracket)標注的方式,將句子中由兩個或以上詞類形成的短語左右添加括號,形成相應的括號對后標記相應的短語結(jié)構(gòu)類型的標記,依靠語言知識進行校對。而從短語結(jié)構(gòu)標注語料中提取各類短語結(jié)構(gòu)時,采用統(tǒng)計和規(guī)則相結(jié)合的方法,從各類短語的結(jié)構(gòu)出發(fā),以構(gòu)成各類短語的核心成分作為標志,獲得短語結(jié)構(gòu)的候選項,利用統(tǒng)計算法和短語規(guī)則庫對候選項進行檢測,以獲得各類短語結(jié)構(gòu)。
藏語短語標注和規(guī)范的制訂是藏語自然語言處理的重點內(nèi)容。通過句法語義分析,對各類藏語句子中的短語進行劃分與標注,制定相應的工程規(guī)范是開展各項研究的基礎。此項任務開展的關鍵是:在一個完整的句子當中,需要著重分析句子的組成成分和結(jié)構(gòu),以及組成句子的詞和短語間的組合形式及搭配規(guī)則,進行對不同類型的短語的分析和同一類型下不同類型短語的形式和區(qū)分規(guī)則的歸納總結(jié),以制定在尊重語言事實的情況下,符合藏語自身規(guī)律和全面概括藏語短語規(guī)則的短語標注體系。
2.1.2 建立藏語短語結(jié)構(gòu)標注樹庫
如圖1所示,藏語短語結(jié)構(gòu)標注樹庫構(gòu)建的基本流程為:首先,在保證藏語句子的完整性的前提下,借助表示一個藏語句子的單垂符或雙垂符的標志,從大規(guī)模的藏文原始文本中抽取各類藏語句子作為處理文本;然后采用詞類、短語劃分與標注的國家標準對整理完成的文本進行詞類和短語的劃分與標注,進行人工校對。在建立短語結(jié)構(gòu)樹庫時,采用人工標注的方式,并結(jié)合其他的一些標注工具進行5000 句的短語結(jié)構(gòu)樹的構(gòu)建工作,進行初步測試,之后再進行剩下5000 句的短語結(jié)構(gòu)樹的構(gòu)建工作,以便最后建立一個藏語短語結(jié)構(gòu)樹庫的標注體系。
圖1:短語結(jié)構(gòu)標注樹庫構(gòu)建基本流程圖
一直以來,藏語語言學家在藏語語法研究方面進行了很深入研究,積累了很多有價值的研究經(jīng)驗,這些可充分吸收到藏語短語結(jié)構(gòu)標注樹庫的構(gòu)建工作當中。
藏語句法分析是藏語自然語言處理中最根本的理論基礎和關鍵技術。句法樹庫是以句子的構(gòu)成成分和組合規(guī)則為依據(jù)生成不同類型的短語結(jié)構(gòu)樹,從而揭示句子中詞與詞、短語與短語間的語法結(jié)構(gòu)和語義關系。短語結(jié)構(gòu)樹可以對句子的不同層次的短語結(jié)構(gòu)及其組成成分的特點進行細致入微的描述,但由于有些句子太長,層次太多,標注和分析會顯得較為麻煩,而且在中心詞的判定上會出現(xiàn)判定不準的情況。因此,在藏語短語結(jié)構(gòu)標注的過程中要兼顧對句子層次和句法信息的觀察,以獲取任一句子完整準確的句法層次樹,從而制訂藏語短語結(jié)構(gòu)標注規(guī)范尤為重要。
對各類短語結(jié)構(gòu)類型的統(tǒng)計和分析能夠為樹庫的構(gòu)建提供豐富的資源。藏文信息處理的研究內(nèi)容包括詞法分析,句法分析,語義分析和語用分析等,而在詞法分析階段已經(jīng)取得了較好的成果,目前正轉(zhuǎn)向句法和語義分析階段。在運用有關短語結(jié)構(gòu)的語法理論,參照漢英等其他民族語言中的短語研究和處理實踐等相關研究成果的基礎上,從各類藏語短語結(jié)構(gòu)樹中得到較為詳細和全面的句法結(jié)構(gòu)和語義信息的研究漸趨重要。短語的句法成分分析,指各種藏語短語在句子中充當了哪些成分;短語的語義角色分析,分析藏語短語在語言運用中扮演的角色[19]。通過句法和語義標注的短語結(jié)構(gòu)規(guī)則庫在處理涉及藏語短語和句子的各類語言現(xiàn)象時能夠作為一定的依據(jù)和標準。此外,在對短語結(jié)構(gòu)規(guī)則進行深入研究的基礎上,進一步加強句法結(jié)構(gòu)的分析和研究,能夠?qū)Χ陶Z的結(jié)構(gòu)規(guī)則產(chǎn)生更為深刻的理解,在語言運用過程中,能夠有效提高短語和句子結(jié)構(gòu)的識別和處理能力。通過構(gòu)建樹庫進行句法分析等的方法不僅行之有效,在實際應用當中也取得了較好的成效。
本課題的研究將在遵循有關短語樹庫的構(gòu)建與藏語語法理論的前提下,依托句子的環(huán)境,試圖從句法和語義兩個層級上分析和歸納藏語各類短語結(jié)構(gòu)的組合規(guī)則,對短語進行深層分析,以解決在面向自然語言處理時遇到的有關藏語短語研究的各類問題。
對于短語結(jié)構(gòu)的規(guī)則的描述,應該考慮以下因素:
(1)核心詞的描述:分析短語結(jié)構(gòu)中核心詞的功能和語義搭配能力;
(2)外部特征和功能描述:在較長的短語或者嵌套短語中,分析其組合特征和與其他短語間的從屬關系和組合規(guī)則;
(3)短語結(jié)構(gòu)中的內(nèi)部關系描述:分析短語結(jié)構(gòu)中各組成成分間的語義關系。
句法分析和標注是對語料庫進行深加工和處理的一個重要的環(huán)節(jié)。句法分析和標注的結(jié)果對進一步進行藏語句子語義關系等的分析和標注提供有力的支持。通過正確的和完整的句法信息的描述,借助一個語義知識庫和自動標注工具,可以準確地標注出有關句子或短語等的語義信息。
藏語短語結(jié)構(gòu)標注樹庫的構(gòu)建需要進行短語結(jié)構(gòu)的劃分和標注,因此,依據(jù)相關分析理論,應用一些實體標注工具和句法分析器主要進行句法信息的描述尤為重要。句法標注(Syntax Tagging,ST)是以一定的語法理論為指導,將句法結(jié)構(gòu)形式化,便于計算機處理。短語結(jié)構(gòu)語法(Phrase Structure Grammar,PSG)和依存語法(Dependency Grammar,DG)是現(xiàn)有句法標注的兩種理論[20]。從自然語言處理的角度對藏語短語進行句法功能和語義關系等的描述時,使用這兩種理論體系能夠詳細準確的標注出藏語短語的句法和語義關系。在語料中對短語結(jié)構(gòu)的標記形式如表2所示。
表2:藏語短語的標注形式
短語結(jié)構(gòu)語法(Phrase Structure Grammar,PSG)和依存語法(Dependency Grammar,DG)的句法分析技術;
Chomsky 將語言分成句法,語義,語音三個部分,其中,句法部分是最為重要的,它不僅構(gòu)成了句子的深層結(jié)構(gòu),也能將其轉(zhuǎn)換成表層結(jié)構(gòu)。語義部分對句子的深層結(jié)構(gòu)進行語義結(jié)構(gòu)的說明,而語音部分對表層結(jié)構(gòu)做出語音說明(語言的神經(jīng)機制)。Chomsky 語言學的特點是更注重于語言的結(jié)構(gòu)轉(zhuǎn)換規(guī)則的研究。他認為,短語規(guī)則是形成句子的一套規(guī)則。短語結(jié)構(gòu)的標注是通過句子層面到詞層面,句子的外部結(jié)構(gòu)到內(nèi)部關系,從最長短語到最短短語(準短語)進行的描述出藏語句子的句法信息,覆蓋藏語詞,短語,句段等各個層次的句法單元。
規(guī)則(1)S →NP VP(2)NP →NP NP(3)VP →VP NP(4)NP →NP NP(5)NP →nn gi(6)NP →nn gi(7)VP →vt VP(8)NP →nn qj(9)VP →vu gi
其短語結(jié)構(gòu)樹庫如圖2所示。
圖2:藏語短語結(jié)構(gòu)樹示意圖
圖3:藏語依存關系分析圖
本文通過對藏語句子進行句法結(jié)構(gòu)和語義信息的標注后,提出了符合藏語規(guī)范的句法樹庫標注體系,對句子中各種結(jié)構(gòu)進行了很好的分析與標注,并在應用階段能夠得到驗證。
通常情況下,使用一些工具去進行數(shù)據(jù)的挖掘是需要用到不同的數(shù)據(jù)分析模型的。傳統(tǒng)的研究方法主要是基于統(tǒng)計學的模型,近年來基于神經(jīng)網(wǎng)路的語言模型也得到廣泛應用,并取得了一定的成效。將深度學習的方法運用到構(gòu)建藏語短語結(jié)構(gòu)分析模型的工作中,需要把藏語短語句法結(jié)構(gòu)標注樹庫作為語義知識資源,采用以句法功能為主,語義為輔的策略,先為短語中的每一個實詞構(gòu)造“詞圖”,然后合并“詞圖”而組成“短語圖”,最后得到一個關于藏語短語結(jié)構(gòu)信息和語義信息的知識圖[21]。
非線性神經(jīng)網(wǎng)絡語言模型可以解決一些傳統(tǒng)語言模型中的問題:它可以在增加上下文規(guī)模的同時參數(shù)僅呈線性增長,緩解了手工設計退避規(guī)則的需要,支持不同上下文的泛化性能。
神經(jīng)網(wǎng)絡的輸入是k元文法w1:k,輸出是下一個詞的概率分布。k個上下文詞w1:k當作一個單詞窗口:每個詞w和詞嵌入的對應,輸入向量x是k個詞的串拼接。
輸入的x 之后被傳給一個擁有一個或多個隱層的多層感知器(MLP):
V 是一個有限的詞表,包括針對未登錄單詞的唯一標識UNK,句子開頭的補齊符號。詞表的大小|V 丨在10 000 到1 000 000 詞之間,常見規(guī)模大概在70 000 左右[22]。
綜上所述,藏語短語結(jié)構(gòu)標注樹庫構(gòu)建技術的研究工作顯得刻不容緩,是進行藏語句法分析和構(gòu)建藏語短語分析模型的主要依據(jù)?!霸诶碚撜Z言學和計算語言學研究中,樹庫的重要性都日益凸顯,是連接兩者的橋梁:在理論語言學領域,樹庫為語言學家提供了基于真實語言的數(shù)據(jù),為完善和驗證傳統(tǒng)的語言學理論奠定了堅實的基礎;在計算語言學領域,依據(jù)樹庫建立的語言模型提高了自動句法分析和機器翻譯的準確率,推進了機器理解自然語言的步伐。[23]”藏語短語結(jié)構(gòu)樹庫的構(gòu)建,可以對構(gòu)成句子成分的每一個短語結(jié)構(gòu)進行詳細的觀察,依托句子的環(huán)境定義短語的概念,劃分短語的類別,進行大類之下一些小類短語的細致區(qū)分,明確句子和短語的區(qū)別,可填補有關藏語短語研究在傳統(tǒng)文法中提及甚少,未詳細定義的空白。對于短語的識別問題,采用基于深度學習的短語結(jié)構(gòu)樹的識別技術,不僅可以快速有效大量處理相關數(shù)據(jù),而且還能綜合提高識別性能。在自然語言處理領域中,短語的正確識別和分析對機器翻譯、信息檢索、文本分類以及句法分析都具有重要作用。
Chomsky 在《信息論雜志》中指出,語言理論試圖解釋說話人在其有限的語言經(jīng)驗的基礎上生成和理解新的句子并拒絕其他不合語法的新序列的能力。這是研究語言學理論的實質(zhì)問題。構(gòu)建樹庫的一個重要意義在于通過生成一定的語言規(guī)則,結(jié)合一定的理論體系分析和驗證各種語言現(xiàn)象,進而自動生成更多的合乎語法的結(jié)構(gòu)。因此,通過觀察各種語言現(xiàn)象,根據(jù)語言經(jīng)驗,歸納總結(jié)其中的語言規(guī)則是非常重要的。短語結(jié)構(gòu)分析模型的建立是要通過統(tǒng)計歸納的語言規(guī)則,建立一個統(tǒng)計語言模型,以期能夠自動生成合乎語法的新序列的能力,即從任一句子中能夠自動生成各類短語結(jié)構(gòu)。
藏語短語結(jié)構(gòu)的劃分與標注是構(gòu)建樹庫,進行句法語義分析的基礎,亦是進行相關任務研究必不可少的條件。本文的研究是跨藏語語法研究和藏文信息處理兩個領域進行的。一方面,研究的具體結(jié)果對推進藏文信息處理技術的發(fā)展有直接的應用和參考價值;另一方面,從藏文信息處理的角度來審視藏語語法研究,可以從多方位的研究視角去觀察藏語語法中的相關問題,進行詳細和規(guī)范的描述,進而完善藏語語法體系。
本文研究的主要目的在于面向自然語言處理的實際需要,以形式化的方式對藏語各類短語結(jié)構(gòu)規(guī)則進行較為全面的描述,預期目標是完成一個帶有句法語義信息標注的藏語短語結(jié)構(gòu)樹庫,這樣的樹庫可以給一些應用系統(tǒng)的開發(fā)提供直接的規(guī)則庫的支持。隨著自然語言處理的迅速發(fā)展,對自然語言進行深層分析,比如機器翻譯,信息檢索,自動文摘等成為當下最為主要的工作,開發(fā)這類應用系統(tǒng),需要計算機掌握盡可能多的有關自然語言的知識和非語言知識,以便進行語言模型等的構(gòu)建,實現(xiàn)有關技術的進一步發(fā)展與應用。