亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        信息處理用彝文特殊詞類分詞規(guī)則概述

        2013-12-31 00:00:00金騁
        大觀周刊 2013年10期

        摘要:分詞技術(shù)是中文所特有的計算機自然語言處理技術(shù),而分詞規(guī)則是實現(xiàn)分詞技術(shù)的前提。彝文分詞規(guī)則的制定是彝文信息處理技術(shù)最重要的組成部分。本文詳細制定了彝文信息技術(shù)特殊詞類的分詞規(guī)則,為彝文信息處理向智能化階段邁進打好最堅實的基礎(chǔ)。

        關(guān)鍵詞:分詞 彝文分詞 分詞規(guī)則

        分詞技術(shù)是中文信息處理技術(shù)的基礎(chǔ),先進的計算機自然語言處理技術(shù)要進入中文信息領(lǐng)域,首先要解決的就是分詞問題,計算機彝文信息處理同樣面臨這個問題。

        在彝文信息技術(shù)領(lǐng)域,計算機在執(zhí)行彝文文本或語句的分詞程序命令時,都要遵循一定的規(guī)則,即是彝文分詞規(guī)則。彝文分詞規(guī)則的制定為彝文信息處理技術(shù)向智能化階段邁進提供了可能。

        一、基本概念解釋

        詞:能獨立運用的最小的語言單位。

        詞組:由兩個或兩個以上的詞,按一定的語法規(guī)則組成、表達一定意義的語言單位。

        彝文分詞:基于彝文信息處理的需要,按照一定的方法,對彝文按分詞單位進行切分的過程。

        彝文分詞單位:用于彝文信息處理并具有明確的語義或者語法功能的基本的單位。

        彝文分詞技術(shù):基于彝文信息處理的需要,按照一定的方法,對彝文按分詞單位進行切分的技術(shù)。

        二、彝文分詞規(guī)則概述

        本規(guī)則以彝文分詞為目的,根據(jù)彝文的特點及規(guī)律,規(guī)定基于信息處理的彝文分詞原則。

        1.標點符號或空格是計算機彝文分詞的最明顯的分隔標記。其包括:逗號“,”、句號“。”、冒號“:”、頓號“、”、嘆號“!”、分號“;”、問號“?”、引號““””、括號“()”、破折號“——”、書名號“《》”、省略號“……”、間隔號“·”、正斜杠“/” 及連接號“-”等。

        2.單音詞直接為分詞單位。如,名詞單音詞:“syr”(木)、“chyt”(山羊)、“jji”(蜜蜂)等;動詞單音詞:“ndup”(打)、“zze”(吃)、“ngop”(想)等;形容詞單音詞:“zhet”(可以)、“he”(好)、“vat”(好)等;數(shù)詞單音詞:“cyp”(一)、“ggu”(九)、“hxa”(百)、“dur”(千)等;代詞單音詞:“nga”(我)、“cy”(他)、“nop”(你們)、“xix”(什么)等;量詞單音詞:“jo”(圈)、“ji”(條)、“vit”(次)等。

        3.雙音詞或三音詞,以及結(jié)合緊密、使用穩(wěn)定的雙音詞或三音詞詞組,一律為分詞單位。如:“pobbo”(旗子)、“bboxrre”(超過)、“kaxddi”(誰)、“gopchadax”(共產(chǎn)黨)、“vitcyjy”(洗衣機)等。

        4.四音詞或四字成語以及結(jié)合緊密、使用穩(wěn)定的四字詞組,一律為分詞單位。如:“nyopbbopzaxie”(勞動)、“rremoplatma”(錢財)、“suopnyiesotnyie”(優(yōu)柔寡斷)、“coddiemujy”(人造衛(wèi)星)等。

        5.五音或五音以上的格言、諺語等,切開后若沒違背原來組合之意義,則應(yīng)予切分。如:“apshuggaapbbu,shuxneggaqujjip(不走無路,走了成大道)”等。

        6.習慣用語、轉(zhuǎn)義后的詞(詞組)等,在轉(zhuǎn)義后的語境下一律為分詞單位。如:“ngaixgodadiepbburjyhxep”(我在家看電視)、“sihnimomyggurxpadur”(女人頂半邊天)、“ngaxlisypchuohmatmopyyssoxddegossoxddursu(我畢業(yè)于四川師范大學)”等。

        7.略語一律為分詞單位。如:“sexwox”(省委)、“zhozhepfux”(州政府)、“getmonyop”(工農(nóng)業(yè))等。

        8.外來詞一律為分詞單位。如:“kafi”(咖啡)、“hoxche”(火車)等。

        9.不同的語義環(huán)境中的同形異構(gòu)現(xiàn)象,根據(jù)具體的語言環(huán)境的語義,按本規(guī)則進行靈活的切分。如:“muxqielotyijjyyi!”(木且的手很癢)、“muxqielotyizzipnditnjuo。”(木且戴了雙手套)等。

        三、分詞規(guī)則在特殊詞類上的具體說明

        1.專用名詞

        (1)不能單獨存在且必須保持原有意義的地名,不予切分。如:“athxopnoyy”(安寧河)、“ndapssypbbo”(瀘山)等。

        (2)有關(guān)時間的名詞或名詞詞組的分詞規(guī)則

        <1>一年中的十二個月以及每周當中的七天,一律為分詞單位。如:“l(fā)yhlep”(四月)、“cixzyhlep”(十一月)、“muhlep”(馬月)、“netat”(周日)、“netatsuo”(周三)等。

        <2>“年、日、時、分、秒”分別為分詞單位。如:“2008kut12hlep29nyip22ma20fi15mi”中的“kut”、“hlep”、“nyip”、“ma”、“fi”、“mi”為分詞單位。

        <3>“miep(前)”、“l(fā)iexmiep(之前)”、“wa(后)”、“shoxmo” 、“nyiethxa” 等直接與時間名詞或量詞組合時,切分為獨立的分詞單位。如:“miepddiepkut”(前一年)、“waxddiepkut”(第二年)、“shoxmocypkur”(前年)等。

        <4>“dduo”或“dduox”(上半月)和“yy”或“yyx”(下半月)加十五及以內(nèi)的數(shù)字一律為分詞單位。如:“dduocypnyip”(月初一)、“dduoxngenyip”(月初五)等。

        2.特殊動詞

        (1)動詞重疊使用時,不作獨立切分。如:“hxephxex”(看看)、“ggepwu”(玩玩)、“mahxajjipwu”(下雨嗎)、“ddejjixwu”(知道嗎)等。

        (2)動詞前的否定副詞一律單獨切分為分詞單位。如:“apmu”(不做)、“tatzhet”(別壓)等。

        (3)以肯定加否定來表示疑問的詞組應(yīng)以切分,省略的則不予切分。如:“zhetddapapzhet”(行不行)、“hmubiddaphmuapbi”(清不清楚);省略句也即是動詞的重疊使用,如“hxipwu”(說不說)、“njypwu”(信不信)等。

        (4)結(jié)構(gòu)緊密或使用穩(wěn)定的二字動補詞或詞組,不予切分。如:“yundox”(逮住)、“shuzzi”(做得好)、“katsy”(開心)、“hxippie”(說明)等。

        三字和三字以上的動補詞組一律切分。如:“zzenjixguo”(吃太快)、“ddiexhmozzi”(打扮得好)\"等。

        (5)復(fù)合趨向動詞一律為分詞單位。如:“hxiyipyy”(回去)、“hxiyipli”(回去)、“bbopyy”(進去)等。

        趨向動詞中間插入“ap”時應(yīng)予切分。如:“kuxapla”(不進來)、“bbopapyy”(不去)、“mgotapla”(上不去)等。

        3.形容詞

        (1)形容詞的重疊形式ABB、AABB、ABAB、ABCB、ABAC一律為分詞單位。如:“kanratwu”(美麗無比)、“kaxguowu”(強大無比)、“aquwu”(白白)、“axnuowu”(黑漆漆)等。

        (2)各自保持原有語義的并列形容詞或詞組,應(yīng)予切分。如:“aquahni”(紅白)、“ietzyraxyy”(大小)、“ajjyixjjy”(寬窄)、“axguoixnu”(軟硬)、“nryndonryyit”(喝酒醉酒)等。

        (下轉(zhuǎn)第2頁)

        (上接第3頁)

        4.駢儷詞

        現(xiàn)代彝文中的駢儷詞十分豐富,屬于彝文語詞中十分活躍的部分。這些詞與一般的詞匯相比,具有很多獨特的風格,所以我們規(guī)定駢儷詞一律為分詞單位。

        (1)從音節(jié)數(shù)目來看,彝文駢儷詞有雙音和四音兩種。

        <1>雙音駢儷詞舉例:“zzayy”(糧食)、“hxophmat”(教育)、“sithly”(殺戮)等。

        <2>四音駢儷詞舉例:“vuplutvupga”(鄰居)、“bboxshoganzyt”(清潔)等。

        (2)從語音形式上看,可分為AABB式、ABAC式、ABCB式、ABCD式、ABAB式等。

        <1>AABB式駢儷詞舉例:“zzipwunyopwu”(剩余)、“nguoxwuxiewu”(規(guī)矩)等。

        <2>ABAC式駢儷詞舉例:“syrxysyrlot”(樹枝)、“l(fā)ytcilytmop”(利息)、“axbbiala”(渣滓)、“mugumuhlit”(電閃雷鳴)等。

        <3>ABCB式駢儷詞舉例:“muxddewaxdde”(土地)、“bbutcyhlurcy”(中草藥)、“ggupddieggaxddie”(修路)等。

        <4>ABCD式駢儷詞舉例:“mupnyopvixke”(糾紛)、“nyopbbopzaxie”(勞動)、“hmubizazzyt”(清楚)等。

        <5>ABAB式駢儷詞舉例:“voplevoxle”(猶豫不決)、“tiplitixli”(疙疙瘩瘩)等 。

        四、結(jié)語

        彝文信息處理起步于20世紀80年代初期,“沙馬拉毅輸入法”的問世打破千年的沉寂,使古老的彝文插上了信息化的翅膀。之后,彝文輸入系統(tǒng)被廣泛應(yīng)用于出版社、報社、印刷廠、教學、科研、辦公自動化等領(lǐng)域,不斷地走向成熟和完善。彝文信息處理的下一步工作重點將轉(zhuǎn)移到詞、句和篇章的處理,信息處理用彝文特殊詞類分詞規(guī)則正是基于這個目標而制定的,但由于剛起步,有許多基礎(chǔ)性研究工作需要進一步展開,我們只有在實踐中不斷改進和完善這些規(guī)則,才能推動彝文信息處理研究領(lǐng)域向更深層次發(fā)展。

        參考文獻:

        [1]沙馬拉毅.計算機彝文信息處理[M].四川民族出版社,2000-03.

        [2]劉開瑛.中文文本自動分詞和標注[M].商務(wù)印書館,2000-05.

        久草视频这里只有精品| 在线播放亚洲第一字幕| 亚洲欧洲日产国码av系列天堂| 成人丝袜激情一区二区| 无码人妻少妇久久中文字幕蜜桃| 亚洲熟妇av日韩熟妇在线| a级毛片内射免费视频| 无码国产亚洲日韩国精品视频一区二区三区 | 成人av片在线观看免费| 久久一道精品一区三区| 一 级做人爱全视频在线看| 777国产偷窥盗摄精品品在线| 国产成人免费一区二区三区| 亚洲国产AV无码男人的天堂| 亚洲综合色区无码专区| 亚洲最大av免费观看| 亚洲av区一区二区三区| 亚洲综合偷自成人网第页色| 日本爽快片100色毛片| 特级做a爰片毛片免费看无码| 亚洲av无码一区二区乱子伦as | 亚洲色无码中文字幕| 白嫩少妇在线喷水18禁| 噜噜中文字幕一区二区| 日日日日做夜夜夜夜做无码| 国模欢欢炮交啪啪150| 麻豆精产国品| 亚洲色拍拍噜噜噜最新网站| 国产精品视频一区二区三区,| 粉嫩的18在线观看极品精品| 中文字幕一区二区人妻性色av| 又硬又粗进去好爽免费| 中文无码精品a∨在线观看不卡| 特黄熟妇丰满人妻无码| 无套内射蜜桃小视频| 日韩欧美中文字幕不卡| 色综合久久无码中文字幕app| 日本熟妇中文字幕三级| 偷偷夜夜精品一区二区三区蜜桃| 深夜福利国产精品中文字幕| 国语自产视频在线|