亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Linux平臺(tái)的Sunpinyin輸入法的研究與分析

        2014-04-29 00:00:00王亞君

        摘 要:在Windows操作系統(tǒng)中,谷歌、搜狗等多種拼音輸入法因詞庫(kù)大、識(shí)別率高等優(yōu)點(diǎn),幾乎已經(jīng)成為裝機(jī)必不可少的輸入法。與之相比,雖然Linux不缺乏類似scim、fcitx的輸入法平臺(tái),但仍很難找到得心應(yīng)手的輸入法。然而,Sunpinyin輸入法的橫空出世彌補(bǔ)了這個(gè)遺憾。本文首先對(duì)Sunpinyin輸入法進(jìn)行整體介紹[1];然后對(duì)Sunpinyin輸入法引擎進(jìn)行詳細(xì)解讀,并提出Sunpinyin輸入法的優(yōu)化設(shè)想;最后對(duì)將蒙古文與Sunpinyin輸入法的融合做出了大膽構(gòu)想。

        關(guān)鍵詞:Sunpinyin輸入法;蒙古文;語(yǔ)言;信息處理

        中圖分類號(hào):TP393.08

        目前,雖然windows操作系統(tǒng)中各種各樣的輸入法爭(zhēng)奇斗艷,但是Windows操作系統(tǒng)作為一種商業(yè)性的產(chǎn)品,它對(duì)外界是完全封閉[2]。我們都期盼輸入法能的源代碼能夠允許所有的用戶對(duì)其進(jìn)行瀏覽、使用并且加以改進(jìn)。Linux作為一種將源代碼完全開(kāi)放的Unix類操作系統(tǒng),它的源代碼的開(kāi)放性以及技術(shù)的先進(jìn)性,為我們提供了一個(gè)良好的應(yīng)用平臺(tái)。

        1 Sunpinyin輸入法的構(gòu)成

        Sunpinyin輸入法的代碼總共包括了后端(src/slm)、前端(src/ime-core)和語(yǔ)言模型(wrapper)三個(gè)部分。其中,src/slm目錄下存放的是統(tǒng)計(jì)語(yǔ)言模型代碼,src/ime-core目錄下存放的是和輸入法相關(guān)的一些接口,而各個(gè)輸入法平臺(tái)的前端則存放在wrapper目錄下。

        SunPinyin 輸入法的后端即是輸入法引擎,它的主要作用是負(fù)責(zé)SunPinyin輸入法的算法并提供最基本的輸入法功能,在GNU/Linux上它是以動(dòng)態(tài)鏈接庫(kù)的形式存在的。SunPinyin 輸入法的前端是輸入法的內(nèi)核和輸入法平臺(tái)的交互界面。SunPinyin 輸入法的語(yǔ)言模型由一些數(shù)據(jù)文件構(gòu)成,其中包含了我們所熟悉的詞庫(kù)等數(shù)據(jù)。

        2 SunPinyin輸入法引擎

        2.1 ime部分的概念模型

        SunPinyin輸入法ime部分的概念模型包括如圖1所示的幾部分。

        其中,位于ime/src/slm目錄中的Static SLM部分存放的是訪問(wèn)統(tǒng)計(jì)語(yǔ)言模型的代碼,位于ime/src/lexicon目錄中的Lexicon部分存放的是拼音詞表的代碼。在View部分中,由Window-Handler接收用戶的輸入后通過(guò)發(fā)送call-back(回調(diào))命令,將pre-edit string和candidates返回給Window-Handler用來(lái)顯示。另外,拼音串的切分是在音節(jié)切分器部分使用Lexicon完成的[3]。而歷史輸入緩存部分的功能是使用一個(gè)類Bigram的模型來(lái)記錄用戶最近提交的句子。

        2.2 SunPinyin輸入法的數(shù)據(jù)結(jié)構(gòu)及核心算法

        早先的SunPinyin組織search lattice的方式是通過(guò)使用CBone/Cskeleton進(jìn)行的,每一個(gè)Bone對(duì)應(yīng)一個(gè)syllable。SunPinyin 的最新版本SunPinyin2為了加強(qiáng)對(duì)模糊切分的支持,lattice采用以單個(gè)的拼音字符為單位用來(lái)取代以syllable為單位。SunPinyin2中定義了一個(gè)CLattice的類對(duì)應(yīng)于原來(lái)的CSkeleton,用來(lái)表示整個(gè)的search lattice。同時(shí),為了對(duì)應(yīng)于原來(lái)的CBone/CBoneInnerData,將每一個(gè)列稱為一個(gè)CLatticeFrame。SunPinyin2還在TlexiconState中加入了一些類似m_syls 和m_words等相應(yīng)的字段已達(dá)到支持用戶詞典的效果。

        2.3 用戶詞典

        之前的SunPinyin只是通過(guò)用戶歷史緩存記錄用戶最近輸入的bi-gram信息,并沒(méi)有應(yīng)用用戶詞典。假如出現(xiàn)一個(gè)bi-gram的概率比系統(tǒng)詞典中的某個(gè)uni-gram的概率低的情況,它將不會(huì)出現(xiàn)在用戶的候選列表中。例如,即使用戶頻繁的輸入即期,但是“機(jī)器”這個(gè)unigram的概率更高些,所以它很難出現(xiàn)在候選列表中。假如“即期”這個(gè)詞出現(xiàn)在了候選中,那么它就一定會(huì)是第一候選,會(huì)有這種情況的發(fā)生是因?yàn)樗且砸粋€(gè)最佳候選句子的形式來(lái)呈現(xiàn)給用戶的。一旦用戶選擇了“機(jī)器”,將會(huì)很難預(yù)測(cè)“即期”這個(gè)詞多久出現(xiàn),此缺陷也是廣受用戶詬病的。

        3 Sunpinyin輸入法的優(yōu)化構(gòu)想

        雖然SunPinyin對(duì)于廣大用戶來(lái)說(shuō)是一款非常實(shí)用的輸入法,但目前SunPinyin2還沒(méi)有能夠重新實(shí)現(xiàn)微軟拼音的輸入風(fēng)格并且現(xiàn)有的 Sunpinyin輸入法的配置項(xiàng)還比較分散。另外,當(dāng)前的SunPinyin輸入法的拼音切分部分代碼中的start的信息是冗余的。現(xiàn)有的CIMIContext可以根據(jù)最佳路徑搜索來(lái)得到正確的切分路徑已達(dá)到深層優(yōu)化。

        4 基于Linux平臺(tái)蒙古文Sunpinyin輸入法的實(shí)現(xiàn)構(gòu)想

        隨著現(xiàn)代計(jì)算機(jī)技術(shù)的迅猛發(fā)展,蒙古文信息處理工作獲得了不小的突破[4]。蒙古文的書(shū)寫(xiě)是按列從上到下,多列從左到右排列書(shū)寫(xiě),不與中英文相同[5]。除此之外,蒙古文字庫(kù)中的蒙文字符的存放方式也是匠心獨(dú)運(yùn),都是呈現(xiàn)逆時(shí)針旋轉(zhuǎn)90度后存放[6]。目前,Windows操作系統(tǒng)為了迎合廣大蒙古文用戶的書(shū)寫(xiě)習(xí)慣,利用Windows API函數(shù)在顯示豎直排版的蒙文字符時(shí)將字符順時(shí)針旋轉(zhuǎn)90度后輸出[7],但是Linux操作系統(tǒng)并不支持字符旋轉(zhuǎn)[8]。

        通過(guò)上述的分析可知,今后研究的目標(biāo)將是在Linux操作系統(tǒng)上實(shí)現(xiàn)蒙古文Sunpinyin輸入法,并且不再讓顯示的蒙文字采用“躺姿”。為了實(shí)現(xiàn)輸入法字符編碼的統(tǒng)一,防止之前“萬(wàn)碼奔騰”局面的重現(xiàn),該Linux平臺(tái)上的蒙古文Sunpinyin輸入法需要采用Unicode國(guó)際標(biāo)準(zhǔn)編碼處理蒙古文字符,這也將能夠極大地維持蒙古文信息的傳播與交流,對(duì)滿足習(xí)慣于使用蒙古文書(shū)寫(xiě)的用戶需求意義深遠(yuǎn)。

        5 結(jié)束語(yǔ)

        本文通過(guò)對(duì)Sunpinyin輸入法進(jìn)行解讀,首先概括性介紹了Sunpin輸入法的后端、前端、語(yǔ)言模型三部分內(nèi)容,繼而著重描述了Sunpinyin輸入法引擎,同時(shí)對(duì)Sunpinyin輸入法的優(yōu)化提出了一些設(shè)想,并對(duì)蒙古文與Sunpinyin的融合提出了一些構(gòu)想,這些設(shè)想還僅僅是初步的,仍需要在實(shí)踐中進(jìn)一步檢索和深化。

        參考文獻(xiàn):

        [1]周克蘭.漢字?jǐn)?shù)碼輸入法評(píng)價(jià)體系研究[D].蘇州大學(xué),2005.

        [2]田寄遠(yuǎn).基于Linux SCIM的傳統(tǒng)蒙古文Unicode拼音輸入法的設(shè)計(jì)與實(shí)現(xiàn)[D].內(nèi)蒙古師范大學(xué),2009.

        [3]劉政怡.中文整句智能輸入方法研究[D].安徽大學(xué),2007.

        [4]張瑾.規(guī)則與統(tǒng)計(jì)相結(jié)合的蒙古文編碼轉(zhuǎn)換的研究與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2009.

        [5]額日和木.基于嵌入式Linux的蒙古文字處理方法的研究與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2011.

        [6]李佳妍.嵌入式Linux環(huán)境下蒙文編輯器的設(shè)計(jì)與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2008.

        [7]吳常福.基于嵌入式Linux的傳統(tǒng)蒙古文垂直風(fēng)格圖形用戶界面設(shè)計(jì)與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2009.

        [8]王魯瑞.基于生長(zhǎng)函數(shù)的植物生長(zhǎng)建模研究[D].重慶大學(xué),2011.

        作者簡(jiǎn)介:王亞君(1989-),女,河北保定人,2012級(jí)學(xué)術(shù)型研究生,研究方向:自然語(yǔ)言處理;指導(dǎo)老師:紅梅。

        作者單位:內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,呼和浩特 010022

        国产精品伦理久久一区| 国产精品18禁久久久久久久久 | 男人无码视频在线观看| 无码国产精品色午夜| 人妻中文字幕在线一二区| 婷婷伊人久久大香线蕉av| 久久综合狠狠综合久久| 亚洲毛片αv无线播放一区| 国产大片在线观看三级| 日韩一区av二区三区| 麻豆国产在线精品国偷产拍| 尤物视频一区二区| 在线观看日韩精品视频网站| 国产内射视频在线免费观看| 欧美内射深喉中文字幕| 国产香蕉尹人综合在线观| 最近中文字幕一区二区三区| 色大全全免费网站久久| 无码少妇一区二区浪潮av| 亚洲AV成人无码久久精品在| 97久久综合精品国产丝袜长腿| 有坂深雪中文字幕亚洲中文| 中文亚洲av片在线观看| 国产网站视频| 亚洲高清自偷揄拍自拍| 亚洲综合精品中文字幕| 亚洲日韩中文字幕一区| 禁止免费无码网站| 蜜桃av中文字幕在线观看| 啦啦啦中文在线观看日本| 午夜性刺激免费视频| 亚洲在中文字幕乱码熟女| 亚洲色偷偷综合亚洲avyp| 色猫咪免费人成网站在线观看| 无码人妻一区二区三区免费手机| 亚洲一区二区三区免费av在线| 街拍丝袜美腿美女一区| 人妻少妇精品无码专区| 999久久久精品国产消防器材| 精品的一区二区三区| 久久久人妻一区二区三区蜜桃d|