亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        初中藏文信息處理中自動分詞方法研究

        2016-04-29 00:00:00格桑
        雜文月刊·教育世界 2016年8期

        西藏自治區(qū)昌都市洛隆縣初級中學

        【摘 要】藏文分詞是藏文信息處理領域的一項不可缺少的基礎性工作,也是智能化藏文信息處理的關鍵所在。在藏文分詞的研究過程中藏文分詞的準確性,直接制約著藏文輸入法研究、藏文電子詞典建設、藏文詞頻統計、搜索引擎的設計和實現、機器翻譯系統的開發(fā)、藏文語料庫建設以及藏語語義分析研究等高層藏文信息處理技術的進一步發(fā)展。本文借鑒漢語的分詞理論和方法,提出符合藏文特性的分詞方法,以及歧義字段切分和未登錄詞識別等相關問題,并舉例說明。

        【關鍵詞】信息處理 藏文分詞 分詞方法

        藏文分詞是藏文信息處理中一項不可缺少的基礎性工作。從文本的輸入系統(如智能語句輸入法、語音輸入、手寫輸入),到文字處理(如文本校對)以及語音合成、文本檢索、文本分類、自然語言接口、自動文摘等,無處不滲透著分詞系統的應用,它是藏文信息處理重要基礎之一。眾所周知,英文以詞為單位,以空格隔開。計算機可以容易地理解英文單詞。而藏文句子中,詞與詞之間沒有明顯的分隔符(如空格)。藏文以字(音節(jié)字)為單位,連字成句才能描述一個完整的意思。而對由詞組成的藏文句子,必須通過藏文分詞技術才得以理解。把藏文的音節(jié)字序列切分成有意義的詞,是藏文分詞的研究工作。通過研究和分析藏文分詞的概念以及國內外相關成果,本文系統地提出了分詞系統中藏文分詞切分單位的劃定原則以及藏文分詞技術方法,結合藏文自然標記斷句、以格助詞來為分塊、塊內匹配與統計相結合的分詞方法,提出了藏文自動分詞方法、格助詞的識別方法、交集型和組合型歧義的識別方法及未登錄詞識別方法。進而提出了藏文自動分詞的基礎理論知識及分詞技術方法。

        一、制定藏語詞性標記集規(guī)范

        為了使藏文與漢文信息處理同步,建立統一的中文多文種信息處理平臺,本項研究借鑒北京大學現代漢語詞類及詞性標記集規(guī)范、語料庫詞性標記集,制定了藏語詞性標記集規(guī)范。

        二、研究了藏文分詞的單位與原則

        分詞系統可以面向解決實際問題的需求和真實語料中使用的頻繁程度來規(guī)定“分詞單位”。

        1.分詞既要符合語言學的一般規(guī)則,同時也要便于詞類和句法分析,不能分得過細,也不能分得過粗。

        2.分詞單位必須是在藏語言中出現的,而不是憑空臆造的任何字符串。

        該成果采用《信息處理用現代漢語分詞規(guī)范》和《資訊處理用中文分詞規(guī)范》兩者之長,為藏文分詞單位確立兩條基本原則和諸多輔助原則。

        三、藏文自動分詞研究

        (一)藏文分詞方法

        1.格分析法:這是藏語語法理論體系中固有的語法規(guī)律,藏語有比較完善的形式邏輯格語法理論體系。格關系理論和方法可以分析藏文句子的語義邏輯關系;可以做格關系的逆過程,就是通過格助詞與格關系來判斷通過格切分后詞匯的準確度。

        2.概念層次網絡理論:HNC主要應用在藏文詞匯概念的語義網絡中,藏文詞匯語義網絡用手工+統計的方法創(chuàng)建,其核心是聯想意義和上下位所屬關系。

        3.二元屬性描寫方法。

        4.匹配方法:在藏文中將格分析之后的藏語短語作為匹配的對象。根據匹配單位的需求可分為最大匹配法和最小匹配,根據消歧需求可分為正向匹配和逆向匹配等。

        5.統計方法:主要應用在獲取先驗知識方面,例如,藏文大丁字符信息表、藏文音節(jié)(擦青)表,藏文各種語言單位的二元模型、藏文格助詞的配價概率、藏文動詞詞表等。

        (二)分詞系統模塊

        藏文自動分詞系統,在基于規(guī)則和統計的基礎上,增加了聯想回溯算法,引入了句法、語義信息。系統包含預處理模塊、分割模塊、匹配識詞和規(guī)則識詞4個模塊。

        1.預處理模塊:包括切分句子和語言分類兩個部分。切分句子是將源藏文文本語料依據藏文分句形態(tài)標志信息(主要是藏文分句符號)分解成相對獨立的藏文句子,這個過程要考慮英、藏、漢多語種混排文本,即切句要考慮多語言的句子邊界信息。同時要保留原始文本的所有信息,保證文本的原貌不發(fā)生變化。語言分類是以句子為處理單位,把句子按不同的語言分割成若干不同的語塊。在以后的處理過程中,根據不同的語言塊進行處理。

        2.分割模塊:以預處理后的藏文語塊為對象識別藏文詞。此模塊分詞邊界特征識別和改進的算法。詞邊界特征識別是以特征詞庫中的詞作為詞切分標志,依靠聯想規(guī)則將一個音節(jié)串語塊分割成更小的語塊,對每個特征詞建立不同的規(guī)則來處理特征詞的左右邊界。改進的算法是依據分詞詞表將藏文語塊識別成詞,方法中正向和逆向合一進行,然后判斷并確定歧義結構,將歧義結構交付排歧模塊處理,以便修改錯誤的分詞結果。該分詞系統可以對藏文文本分詞正確率已經達到了95%以上。

        (三)藏文分詞測評

        1.開放性:易擴充性、可維護性和可移植性等特點。要求在開放環(huán)境下切分精度和處理速度穩(wěn)定在實用的程度。

        2.通用性:藏文自動分詞是高層藏語言信息處理的共同基礎。分詞系統應該支持不同的應用領域;支持不同學科領域的應用;支持不同地區(qū)的語言處理需要;要適應不同地區(qū)的語言風格。

        3.獨立性:不同的應用系統對分詞系統的要求不同,因此分詞系統要有不同的版本,系統內部的各種信息資源,以及處理信息資源的各個模塊要具有較高的獨立性,方便裝入系統或者從系統中卸載,提高系統處理精度和處理速度。

        該成果從藏文字的產生,藏文的文字、音節(jié)、結構、語法特征,討論了藏語詞類劃分,詞與其語言單位的區(qū)別,信息處理用藏語詞類,藏語詞性標記集,研究了藏文分詞規(guī)范的設計,藏語分詞的基本特征,使用范圍,用途,參考標準、藏語分詞用術語、藏語分詞單位、藏語分詞原則,這些工作在國內學術界相關研究較少。藏文自動分詞是藏文自然語言理解的一項基礎性工程,藏語自然語言理解在機器翻譯、信息檢索、智能輸入、校對、自動摘要、自動分類和詞典編纂等領域有著廣泛的應用價值。

        无遮挡粉嫩小泬| 中文字幕人妻中文| 久热综合在线亚洲精品| 国产一级三级三级在线视| 国产99视频一区二区三区| 少妇下面好爽好紧好湿一区二区| 白丝兔女郎m开腿sm调教室| 全免费a级毛片免费看视频| 国产亚洲成年网址在线观看| 精品少妇一区二区三区入口| 国产精品人人做人人爽人人添 | 性感熟妇被我玩弄到高潮| 琪琪色原网站在线观看| 亚洲精品无码久久久久| 91精品国产免费青青碰在线观看| 日韩产的人妻av在线网| 新婚人妻不戴套国产精品| 1000部夫妻午夜免费| 亚洲日本在线va中文字幕| 五月婷婷开心五月播五月| а√中文在线资源库| 艳妇乳肉豪妇荡乳av无码福利| 国产成人精品人人做人人爽| 青青草好吊色在线观看| 国产日产精品一区二区三区四区的特点| 男人天堂网在线视频| 日本在线中文字幕一区二区| 成年人观看视频在线播放| 无码日韩精品一区二区三区免费| 99久久综合九九亚洲| 久久精品国产黄片一区| 狼狼综合久久久久综合网| 中文在线天堂网www| 亚洲av一二三又爽又爽又色| 桃红色精品国产亚洲av| 亚洲色欲综合一区二区三区| 日韩在线观看网址| 亚洲三级中文字幕乱码| 国模无码一区二区三区| 欧美亚洲午夜| 亚洲av中文字字幕乱码软件 |