亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于有限狀態(tài)自動機的藏文音節(jié)組織研究

        2021-06-08 12:10:49更桑吉安見才讓
        計算機時代 2021年1期

        更桑吉 安見才讓

        摘? 要: 通過對藏文的字形特征、拼寫規(guī)律,以及文法規(guī)則的分析和研究,實現(xiàn)藏文詞語的實時檢錯。借助形式語言有限狀態(tài)自動機的方法,對藏文字結構中的基字、前加字、上加字、下加字、后加字、再后加字之間的搭配規(guī)則設計了狀態(tài)圖和鄰接矩陣。該方法提高了藏文文本質量,使原本復雜的書面語法規(guī)則變得簡單直觀,從而使符合現(xiàn)代藏文音節(jié)組織結構的詞語能實時檢錯。該研究為實現(xiàn)藏文的自動校對提供了基礎。

        關鍵詞: 藏文; 文法規(guī)則; 有限狀態(tài)自動機; 校對

        中圖分類號:TP391.1????????? 文獻標識碼:A???? 文章編號:1006-8228(2021)01-65-03

        Research on Tibetan syllable organization using finite state automata

        Geng Sangji, Anjian Cairang

        (School of computer, Qinghai University for Nationalities, Xining, Qinghai 810007, China)

        Abstract: By analyzing and studying the characteristics of Tibetan character, the spelling rule and grammar rule, the real-time error detection of Tibetan words is realized. With the help of finite state automata of formal language, this paper designs the state diagram and adjacency matrix for the matching rules among the basic characters, prefix letters, superfixed letters, subjoined letters, suffixed letters and up-adding characters in the Tibetan character structure. This method improves the quality of Tibetan text, makes the complex original written grammar rules simple and intuitive, so that the words in line with the modern Tibetan syllable organization structure can be error detected in real time. This research provides a basis for the realization of Tibetan automatic proofreading.

        Key words: Tibetan; grammar rules; finite state automata; proofreading

        0 引言

        隨著藏區(qū)人民對信息數字化需求的提高,學習和利用信息數字化的技術手段來記載和傳承民族文字顯得非常重要,而人工智能領域對藏語信息研究發(fā)展有著不可忽略的重要性。通過研究藏文音節(jié)和字形結構[1-2],判斷基字所在位置、特殊音節(jié)的處理等步驟解決藏文構件元素的識別[3];基于規(guī)則和CNN模型、基字定位等方法實現(xiàn)檢錯[4-6],這些方法都各有利弊,因此本研究提出基于有限狀態(tài)自動機的藏文音節(jié)組織結構的研究方法處理檢錯。

        研究藏文或文本校對的主要對象是語言單位,在藏語言中最小的語言單位是字母,其次是音節(jié),音節(jié)由字母組成。而字形是字的形狀和結構,藏文字形以一個輔音字母為核心其余字母以此為基礎前后附加和上下疊加組合成一個字的結構,因此人們都說藏文是由字母組合而成的一種拼音文字。藏文字母包括30個輔音字母和四個元音字母,藏文的音節(jié)分為七個構件,核心的輔音字符稱為基字,其余的字符按照相對于基字的位置來分別命名,加在基字前面的稱為前加字,基字的上方和下方的分別稱為上加字和下加字,基字后面的稱為后加字和再后加字,元音位置在基字的上或下、上下加字的上方或下方[7]。藏文音節(jié)的組合形式比較多樣化,但是總體的組合規(guī)則相對固定,藏文音節(jié)可以只包含一個輔音字母,也可以包含多個輔音字母(最多六個),由此可知藏文音節(jié)中基字是必不可少的一個構件,其他位置的構件都可以空缺。

        1 藏文字形結構特點

        藏文音節(jié)的組織結構或書寫順序是前加字、上加字、基字、下加字、元音、后加字和再后加字七種構件組成,藏文的一個音節(jié)最多可包含七個構件,每一種構件都有它不可代替代的作用和功能。藏文字是按照從左至右的順序進行書寫,因此它不僅具有線性結構(橫向拼寫性)同時也具有疊加結構(縱向拼寫性)的一種復雜文字,其中基字所在的水平方向上由前加字、基字、后加字、再后加字的橫向拼寫,基字所在的豎直方向上由上加字、基字、下加字和元音的縱向拼寫,如圖1-圖4所示。

        本研究的依據或前提條件須滿足以下條件:

        ⑴ 藏文音節(jié)中所有音節(jié)的組合形式必須滿足現(xiàn)代藏文音節(jié)的結構;

        ⑵ 藏文音節(jié)結構中所有構件的組合要符合藏文拼寫規(guī)律或組合規(guī)則。

        2 藏文音節(jié)組合的語法規(guī)則

        2.1 基字與前加字

        2.2 基字與上加字

        上加字有三個(?????),不同的上加字做上置輔音時的基字不相同,組合規(guī)則如表2所示。

        2.3 基字與下加字

        下加字有四個(? ? ? ? ),不同的下加字做下置輔音時的基字也不同,組合規(guī)則如表3所示。

        2.4 基字與后加字

        后加字有十個(???????????????????)與基字的組合規(guī)則如表4。

        后加字與基字之間的組合規(guī)則不像其他組合規(guī)則,它沒有明確一一對應的組合規(guī)則。

        2.5 后加字與再后加字

        再后加字是與后加字組合的,再后加字有兩個(???),與后加字的組合規(guī)則如表5。

        3 基于有限狀態(tài)自動機的規(guī)則表示

        3.1 狀態(tài)圖

        有限狀態(tài)自動機也稱為有限狀態(tài)轉移網絡,通常采用狀態(tài)圖表示,圖中的每一個結點表示不同的狀態(tài),其中一個圓圈(○)的代表開始狀態(tài),雙圓圈(◎)的代表終止狀態(tài)即結束標志,狀態(tài)之間用有方向的弧線鏈接表示轉移狀態(tài),弧線上的標記表示轉移的條件,也可看作是輸入符號,轉移也可以是無條件的,即標記為空字符(N)。從狀態(tài)轉移網絡的起始狀態(tài)開始出發(fā),根據弧線上的條件決定向哪一個狀態(tài)轉移,這個過程一直持續(xù)下去,直到當前狀態(tài)是終止狀態(tài)(雙圓圈結點),則狀態(tài)過程可以結束[8-9],如圖5所示。

        3.2 鄰接矩陣

        鄰接矩陣是表示頂點之間相鄰關系的矩陣,用一個二位數組存放頂點之間關系(?。┑臄祿?,鄰接矩陣分為有向圖鄰接矩陣和無向圖鄰接矩陣。

        有向圖鄰接矩陣的特點是,矩陣中第i行非零元素的個數為第i個頂點的出度(下一個狀態(tài)),第i列非零元素的個數為第i個頂點的入度(開始狀態(tài)),直至遇到雙圓圈的頂點時結束,用鄰接矩陣表示圖,很容易確定圖中任意兩個頂點之間是否有邊(?。┫噙B,如表6所示。

        4 實驗分析

        藏文音節(jié)組織結構的檢錯研究在精度方面已經達到一定的程度,本文主要在檢錯速度上做研究。選用900個常用的藏文詞語對此方法進行測試,符合現(xiàn)代藏文音節(jié)組織結構的詞語能達到實時的檢錯速度,以下是檢錯的流程。

        選()字做實例講解,鄰接矩陣最左邊的列為狀態(tài),最上面的行為?。ㄞD移條件)。

        ⑴ 首先從S0開始,S0的下一個狀態(tài)有六個,分別是S1、S2、S3、S4、S5、S6本實驗所選例子第一個字母是(?)也是第一個轉移條件,尋找行為S0,列為S3。

        ⑵ 列S3做下一個開始狀態(tài)變?yōu)樾蠸3,下一個狀態(tài)有四個,分別是S15、S16、S17、S18第二個轉移條件是上加字(?),行為S3,列為S17。

        ⑶ 以此類推最后一個轉移條件是再后加字(?),行為S119,列為S131,雙圓圈結束。

        5 結束語

        音節(jié)是構成藏文字最基本的單位,也是文本校對的依據點,藏文音節(jié)具有獨特的構造方法,根據不同的組合方法構成了千變萬化的現(xiàn)代藏文,本文以音節(jié)為研究對象,借助語法規(guī)則描述和分析了音節(jié)結構,組成成分及組合規(guī)則,采用有限狀態(tài)自動機的方法對藏文音節(jié)的傳統(tǒng)搭配規(guī)則設計了狀態(tài)圖和鄰接矩陣,這不僅起到減小人、物力資源的作用,同時提高了文本質量和工作效率,而且書面語法規(guī)則變得更加簡單直觀,使得文本校對技術不斷的提高,這對進一步處理藏文文本校對的研究具有重要的意義。但該方法還存在圖形復雜,鄰接矩陣偏長的問題,這在未來工作中仍需不斷優(yōu)化和改進,不斷突破新技術使得文本校對在精度和速度上得到進一步改善。

        參考文獻(References):

        [1] 陳小瑩.現(xiàn)代藏文音節(jié)結構分析研究[J].智能計算機與應用,2019.9(2).

        [2] 才智杰,才讓卓瑪.藏文字形結構分布研究[J].中文信息學報,2016.30(4).

        [3] 邊巴旺堆,卓嘎,陳延利,武強.藏文構件元素識別算法研究[J].中文信息學報,2014.28(3).

        [4] 王文玲,王雙成.藏文基字定位實現(xiàn)方法與過程[J].中國藏學,2019.4.

        [5] 才讓叁智,關白.基于規(guī)則的現(xiàn)代藏文音節(jié)字檢錯研究[J].西藏大學學報(自然科學版),2017.1.

        [6] 色差甲,貢保才讓,才讓加.藏文音節(jié)拼寫檢查的CNN模型[J].中文信息學報,2019.33(1).

        [7] 毛爾蓋·桑木旦.藏文語法明悅[M].青海民族出版社,2005.[8] 俞士汶.計算語言學概論[M].商務印書館,2003.

        [9] 安見才讓.藏文信息處理原理與技術實現(xiàn)[M].青海民族出版社,2017.

        收稿日期:2020-09-02

        基金項目:國家自然科學基金項目(61862054); 青海省應用基礎研究項目(2019-ZJ-7066)

        作者簡介:更桑吉(1994-),女,藏族,青海同德人,碩士研究生,主要研究方向:藏文信息處理及應用。

        通訊作者:安見才讓(1969-),男,藏族,青海西寧人,教授,主要研究方向:藏文信息處理及應用。

        欧美最猛黑人xxxxx猛交| 五月天激情综合网| 久久精品国产自清天天线| 国产女人91精品嗷嗷嗷嗷| 亚洲女同av一区二区在线观看| 久久精品人妻中文av| 日本护士xxxxhd少妇| 久久久亚洲av成人网站| 亚洲日韩成人av无码网站| 四虎欧美国产精品| 一区二区三区岛国av毛片| 亚洲国产成人va在线观看天堂| 国产成人精品免费视频大全软件| 人人妻人人狠人人爽天天综合网| 亚洲国产精品嫩草影院久久| 在线亚洲综合| 欧美亚洲国产丝袜在线| 成人大片在线观看视频| 亚洲av成人综合网成人| 亚洲成av人在线观看天堂无码| 无码人妻一区二区三区免费| 国产免费看网站v片不遮挡| 久热re在线视频精品免费| 极品少妇被后入内射视| 与漂亮的女邻居少妇好爽| 强开少妇嫩苞又嫩又紧九色 | 久青草久青草视频在线观看| 久热这里只有精品99国产| 亚洲综合久久久中文字幕| 91精品国产综合久久精品密臀| 狠狠躁日日躁夜夜躁2022麻豆| 精品久久久久久无码人妻热| 四虎影视永久在线精品| 成在线人免费无码高潮喷水| 国产一区二区熟女精品免费| 久久久国产乱子伦精品| 亚洲精华国产精华液的福利| 麻豆久久五月国产综合| 亚洲中文字幕人妻诱惑| 小池里奈第一部av在线观看| 中文字幕人乱码中文字幕|