亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        計算機識別藏語虛詞的方法研究

        2014-02-27 05:51:04高定國扎西加趙棟材
        中文信息學報 2014年1期
        關鍵詞:兼類藏語藏文

        高定國,扎西加,趙棟材

        (1. 西藏大學 藏文信息技術研究中心,西藏 拉薩 850000;2. 西藏大學 工學院計算機科學系, 西藏 拉薩 850000)

        1 引言

        近年來,隨著藏文信息處理技術的發(fā)展,藏語的信息處理已經在字處理方面取得了很好的成績,現進入到了語句研究的階段,語句處理的前提是對藏語詞的處理。藏語中的實詞由于其意義的實在以及在藏語的語義句法結構中的重要地位,受到了藏文信息處理學者們的普遍重視,也取得了一定的成績,但面向信息處理的虛詞研究還有待于加強。虛詞自身雖然用法靈活,但虛詞與虛詞、虛詞與實詞的搭配常常構成比較穩(wěn)定的語義塊標記[1]。因此,從藏語的虛詞入手,根據虛詞的搭配及其在形成藏語語義塊結構中的標記作用來分析藏語語句的句法結構,并據此進行藏語語句的語義塊自動切分等研究,對藏文句子研究有很重要的作用。

        藏語虛詞在藏語文檔中出現的頻度很高,虛詞搭配規(guī)則形式化分析的可行性則由藏語虛詞自身的特點決定: 虛詞是封閉集合,其中的各個詞匯是可以一一枚舉的[2];虛詞盡管用法靈活,但它們是語言中性質比較穩(wěn)定,不易產生變化的部分;虛詞與其他詞匯構成的搭配是確定的,也是可以枚舉的[3]。虛詞搭配的可枚舉性、穩(wěn)定性和確定性等特點,使得虛詞搭配關系的形式化規(guī)則特別有利于被擅長搜索和匹配的計算機所直接利用,從而對計算機句法分析提供簡單、高效和健壯的句法規(guī)則。

        現代藏語虛詞搭配規(guī)則形式化分析研究以及由此派生的藏語語義塊自動切分技術的研究應用于新一代Internet搜索引擎、藏語問答系統、自動抽取、自動語義塊切分、機器翻譯、自然語言理解、人工智能等多個領域。藏文虛詞的研究是藏文信息處理技術中詞、句及語義研究的基礎和前提,為進一步研究藏語短語、藏語句法分析等提供依據,也為開展藏文文法及語義的研究工作奠定基礎,而計算機自動識別藏文虛詞又是藏語虛詞研究的前提。

        2 藏文虛詞分析

        2.1 藏語虛詞的重要性

        藏語的詞匯可以分為實詞和虛詞兩大類。實詞是名詞、動詞、形容詞等具有實在意義的詞匯,能夠在藏語語句中充當主要成分。虛詞是格助詞、關聯詞等沒有實在意義的、不能作為語句的主要成分,不能單獨用來回答問題[4]。與實詞相比,虛詞本身的意義雖然不夠“實在”,但是它能夠配合實詞表達出確切的語義,是將實詞連接起來構成藏語語句表達確切語義的“粘合劑”。研究現代藏語語句的計算機句法分析,就不能不對這類具有將實詞組織起來形成一定句法結構的功能性詞匯加以重點研究。藏語語句的構成具有其他語言所不具備的特色: 一個藏語語句是由實詞經過虛詞的再編碼從而有規(guī)則地進入句法結構而形成的語義塊序列[5]。按照這一思想,藏語語句的構成過程可以大致描述如下: 首先由實詞和結構助詞形成語義比較集中的語義塊,再由虛詞將這些語義塊按照一定的順序構成語義塊序列。因此,虛詞是藏語語句結構的有機組成部分,并且在藏文句子中藏語虛詞的出現頻率又很高,所以,虛詞對藏語句子的研究很重要。

        藏語虛詞的研究,歷來受到語言學研究者的重視。但是,這些研究的目的主要是幫助人們更好地理解藏語,面向的是人而不是計算機。因此,這些語法書籍常常以將虛詞的用法分門別類舉例說明的方式編排,對于采用計算機的藏語語言處理來說,必須首先將這些語言學知識進行形式化的處理,才能應用于計算機自動句法分析。

        2.2 藏語虛詞的使用方法

        顧名思義,自由虛詞的使用就不受前后字符的添接限制。理論上,在使用自由虛詞時,可選擇與格相符的任何一個自由虛詞都可以,但實際使用時,也受語言習慣等限制。有些格的虛詞中自由與不自由兼而有之,例如,作格、位格、飾集詞等。使用時按照該虛詞本身是自由還是不自由來確定該虛詞的使用情況。

        2.3 計算機識別藏語虛詞的難點分析

        藏文虛詞有兼類性、組合性、黏著變體性、結合性等特點,這些特點加大了計算機識別藏語虛詞的難度。

        1. 虛詞的兼類性。有些虛詞與實詞兼類,它既是虛詞又是實詞。例如,(虛詞后面括號中的中文就是該虛詞作為實詞時的意義)(隊)、(病)、(坡)、(山羊)、(青稞)、(宿命)、(懂)、(臉)、(母)、(吻)、(尸體)、(年)、(齒)、(天)、(人)等; 部分虛詞與虛詞也兼類,例如,等。甚至有些虛詞兼多種類,例如:是實詞“煙”,又是位格的虛詞,還兼疑問代詞“多少”。藏語虛詞的兼類性增加了計算機識別虛詞的難度。

        3 藏文虛詞的識別方法

        懂藏文的人在閱讀一句話時,主要通過語義來確定虛詞的,但計算機不能像人一樣從語義來判斷,要理解語義的前提還是先分詞。藏文分詞算法基本上采用“規(guī)則+特征”的方法,首先通過虛詞把句子劃分成“塊”,再對“塊”用“最大匹配”算法來切分成詞[8],計算機識別藏文虛詞非常重要,按照藏文虛詞的使用方法和計算機識別藏文虛詞的難點分析,制定了首先排除虛詞的兼類性、再利用不自由虛詞的接續(xù)規(guī)則來判斷虛詞、再識別和還原黏著虛詞、最后結合中嵌否定詞和指人后綴的方法來識別藏文虛詞。藏文文本中識別虛詞和文本劃“塊”的過程如圖1所示。

        圖1 藏文文本中識別虛詞和文本劃“塊”的過程

        3.1 兼類虛詞的排除

        3.2 利用不自由虛詞的接續(xù)規(guī)則判斷虛詞

        不自由虛詞的使用受到前后字符的限制,充分利用該特點建立一個虛詞詞典,格式如: {虛詞前導字符后接字符}。在藏文連續(xù)文本中找到這類虛詞時,利用其“前導字符”和“后接字符”,即不自由虛詞的接續(xù)規(guī)則來識別這類虛詞。

        3.3 黏著虛詞的識別還原法

        按照藏語虛詞的黏著變體性特點,分了三種情況來識別虛詞的黏著性。

        if(“整塊與詞典匹配”成功)

        該“塊”就是一個詞;

        else{

        if( “塊”與詞典匹配成功)

        else{

        if(“新塊”與詞典匹配成功)

        分離黏著虛詞;

        還原“被黏著”對象;

        還原黏著虛詞;

        else

        “塊”中去掉最后一個藏文音節(jié);

        }

        else

        “塊”中去掉最后一個藏文音節(jié);

        }

        }

        “塊”中被劃出了詞和虛詞以后,剩下的部分又組成新的塊,調用同樣的算法來進一步劃分詞和識別虛詞。

        3.4 結合中嵌后綴虛詞

        4 結果分析

        綜合考慮文獻的年代、類別、體裁、地域、風格等,從經典作品中選擇了2 525句。根據以上提到的“藏語虛詞的識別方法”,設計出了相應的藏文虛詞的識別程序,識別藏文虛詞的同時進行了藏文分詞。對結果進行分析,2 525句藏文句子中有45 685個藏文音節(jié),其中包括10 126個藏文虛詞,程序正確識別了9 830個藏文虛詞,正確率高達97.076 8%,但同時也存在以下缺陷。

        4.1 詞典不完善導致的錯誤

        4.2 僅基于規(guī)則導致的錯誤

        4.3 規(guī)則的缺陷導致的錯誤

        5 結語

        藏文虛詞在藏文自然語言處理研究中占有很重要的地位,文本詳細分析了藏文虛詞的兼類性、組合性、黏著變體性和結合型等現象,提出了首先排除虛詞的兼類性、其次利用不自由虛詞的接續(xù)規(guī)則來判斷虛詞、再識別和還原黏著虛詞、最后結合中嵌否定詞和指人后綴來識別藏文虛詞的方法。利用該方法識別藏文虛詞的正確率達97.076 8%。

        文本還對結果的錯誤類型進行了分析,指出了其錯誤主要由詞典的不完善和規(guī)則的缺陷導致,以后還需要在大量真實的藏文文本中不斷測試、不斷補充詞典和完善規(guī)則。同時引入統計模型來嘗試是否對識別藏文虛詞有利。

        [1] 孫茂松,陳群秀.中國計算語言學研究前沿進展(2007—2009)[M].清華大學出版社,2009.

        [2] 吉太加.現在藏文語法通論[M].甘肅民族出版社.2000.

        [3] Daniel Jurafsky,James H.Martin著,馮志偉、孫樂翻譯.自然語言處理綜論[M].電子工業(yè)出版社,2005.

        [4] 色多五世羅桑崔臣嘉措.藏文文法根本頌色多氏大疏[M],民族出版社,2007.

        [5] 江荻. 現代藏語動詞的句法語義分類及相關語法句式[J].中文信息學報.2006(1):37-43.

        [6] 格桑居冕,格桑央京.實用藏文文法教程[M].四川出版集團,四川民族出版社.2008.

        [7] 扎西加,珠杰.面向信息處理的藏文分詞規(guī)范研究[J].中文信息學報,2009,23(4):113-117.

        [8] 陳玉忠,李保利,俞士汶,等.藏文自動分詞系統的設計與實現[J].中文信息學報,2003,17(3):15-20.

        [9] 才智杰藏文自動分詞系統中緊縮詞的識別[J].中文信息學報,2009,23(1):35-37.

        [10] 劉匯丹,諾明花,趙維納,等.SegT: 一個實用的藏文分詞系統[J].中文信息學報,2003,26(1):97-103.

        [11] 宗成慶.統計自然語言處理[M].清華大學出版社,2008.

        猜你喜歡
        兼類藏語藏文
        淺談藏語中的禮儀語
        客聯(2022年2期)2022-04-29 22:05:07
        現代韓國語兼類詞表征研究
        ——以《新國語詞典》(第5版)為例
        外國語文(2021年4期)2021-09-16 07:17:50
        漢藏語及其音樂
        中國音樂學(2020年2期)2020-12-14 03:07:24
        基于統計的《HSK詞匯等級大綱》動名兼類詞標注研究*
        西藏大批珍貴藏文古籍實現“云閱讀”
        布達拉(2020年3期)2020-04-13 10:00:07
        黑水城和額濟納出土藏文文獻簡介
        西夏學(2019年1期)2019-02-10 06:22:34
        藏語拉達克話的幾個語音特征
        西藏研究(2017年3期)2017-09-05 09:44:58
        藏文音節(jié)字的頻次統計
        現代語境下的藏文報刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        藏語地理分布格局的形成原因
        西藏研究(2016年5期)2016-06-15 12:56:42
        午夜视频一区二区在线观看| 国产黄色免费网站| 国产亚洲欧美日韩国产片| 国产三级精品三级在专区中文| 中文字幕一区二区三区久久网 | 欧美色欧美亚洲另类二区不卡| 亚洲av午夜福利精品一区二区| 日韩精品久久午夜夜伦鲁鲁| 久久婷婷五月综合色欧美| 伊人久久无码中文字幕| 亚洲AⅤ男人的天堂在线观看| 综合成人亚洲网友偷自拍| 日本真人边吃奶边做爽电影| 少妇人妻200篇白洁| 久久99精品久久久久九色| 国产另类人妖在线观看| 成人a级视频在线播放| 丰满爆乳一区二区三区| 大胸美女吃奶爽死视频| 亚洲视频一区二区免费看| 亚洲国产成人精品无码区在线秒播| 久久久精品人妻一区亚美研究所| 无码AⅤ最新av无码专区| 亚洲av产在线精品亚洲第三站 | 亚洲先锋影院一区二区| 在线不卡av一区二区| 久久婷婷五月国产色综合| 少妇高潮惨叫喷水在线观看| 精品人妻av一区二区三区不卡| 中文字幕av长濑麻美| 欧美成人精品三级网站| 日韩中文在线视频| 精品不卡视频在线网址| 国产特黄级aaaaa片免| 999久久久精品国产消防器材| 日本午夜理伦三级好看| 亚洲男人天堂一区二区| 精品无码人妻一区二区三区品| 久久国产精品99精品国产987| 亚洲1区第2区第3区在线播放| 奇米影视第四色首页|