亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于Linux平臺(tái)的Sunpinyin輸入法的研究與分析

        2014-04-29 00:00:00王亞君

        摘 要:在Windows操作系統(tǒng)中,谷歌、搜狗等多種拼音輸入法因詞庫(kù)大、識(shí)別率高等優(yōu)點(diǎn),幾乎已經(jīng)成為裝機(jī)必不可少的輸入法。與之相比,雖然Linux不缺乏類似scim、fcitx的輸入法平臺(tái),但仍很難找到得心應(yīng)手的輸入法。然而,Sunpinyin輸入法的橫空出世彌補(bǔ)了這個(gè)遺憾。本文首先對(duì)Sunpinyin輸入法進(jìn)行整體介紹[1];然后對(duì)Sunpinyin輸入法引擎進(jìn)行詳細(xì)解讀,并提出Sunpinyin輸入法的優(yōu)化設(shè)想;最后對(duì)將蒙古文與Sunpinyin輸入法的融合做出了大膽構(gòu)想。

        關(guān)鍵詞:Sunpinyin輸入法;蒙古文;語(yǔ)言;信息處理

        中圖分類號(hào):TP393.08

        目前,雖然windows操作系統(tǒng)中各種各樣的輸入法爭(zhēng)奇斗艷,但是Windows操作系統(tǒng)作為一種商業(yè)性的產(chǎn)品,它對(duì)外界是完全封閉[2]。我們都期盼輸入法能的源代碼能夠允許所有的用戶對(duì)其進(jìn)行瀏覽、使用并且加以改進(jìn)。Linux作為一種將源代碼完全開(kāi)放的Unix類操作系統(tǒng),它的源代碼的開(kāi)放性以及技術(shù)的先進(jìn)性,為我們提供了一個(gè)良好的應(yīng)用平臺(tái)。

        1 Sunpinyin輸入法的構(gòu)成

        Sunpinyin輸入法的代碼總共包括了后端(src/slm)、前端(src/ime-core)和語(yǔ)言模型(wrapper)三個(gè)部分。其中,src/slm目錄下存放的是統(tǒng)計(jì)語(yǔ)言模型代碼,src/ime-core目錄下存放的是和輸入法相關(guān)的一些接口,而各個(gè)輸入法平臺(tái)的前端則存放在wrapper目錄下。

        SunPinyin 輸入法的后端即是輸入法引擎,它的主要作用是負(fù)責(zé)SunPinyin輸入法的算法并提供最基本的輸入法功能,在GNU/Linux上它是以動(dòng)態(tài)鏈接庫(kù)的形式存在的。SunPinyin 輸入法的前端是輸入法的內(nèi)核和輸入法平臺(tái)的交互界面。SunPinyin 輸入法的語(yǔ)言模型由一些數(shù)據(jù)文件構(gòu)成,其中包含了我們所熟悉的詞庫(kù)等數(shù)據(jù)。

        2 SunPinyin輸入法引擎

        2.1 ime部分的概念模型

        SunPinyin輸入法ime部分的概念模型包括如圖1所示的幾部分。

        其中,位于ime/src/slm目錄中的Static SLM部分存放的是訪問(wèn)統(tǒng)計(jì)語(yǔ)言模型的代碼,位于ime/src/lexicon目錄中的Lexicon部分存放的是拼音詞表的代碼。在View部分中,由Window-Handler接收用戶的輸入后通過(guò)發(fā)送call-back(回調(diào))命令,將pre-edit string和candidates返回給Window-Handler用來(lái)顯示。另外,拼音串的切分是在音節(jié)切分器部分使用Lexicon完成的[3]。而歷史輸入緩存部分的功能是使用一個(gè)類Bigram的模型來(lái)記錄用戶最近提交的句子。

        2.2 SunPinyin輸入法的數(shù)據(jù)結(jié)構(gòu)及核心算法

        早先的SunPinyin組織search lattice的方式是通過(guò)使用CBone/Cskeleton進(jìn)行的,每一個(gè)Bone對(duì)應(yīng)一個(gè)syllable。SunPinyin 的最新版本SunPinyin2為了加強(qiáng)對(duì)模糊切分的支持,lattice采用以單個(gè)的拼音字符為單位用來(lái)取代以syllable為單位。SunPinyin2中定義了一個(gè)CLattice的類對(duì)應(yīng)于原來(lái)的CSkeleton,用來(lái)表示整個(gè)的search lattice。同時(shí),為了對(duì)應(yīng)于原來(lái)的CBone/CBoneInnerData,將每一個(gè)列稱為一個(gè)CLatticeFrame。SunPinyin2還在TlexiconState中加入了一些類似m_syls 和m_words等相應(yīng)的字段已達(dá)到支持用戶詞典的效果。

        2.3 用戶詞典

        之前的SunPinyin只是通過(guò)用戶歷史緩存記錄用戶最近輸入的bi-gram信息,并沒(méi)有應(yīng)用用戶詞典。假如出現(xiàn)一個(gè)bi-gram的概率比系統(tǒng)詞典中的某個(gè)uni-gram的概率低的情況,它將不會(huì)出現(xiàn)在用戶的候選列表中。例如,即使用戶頻繁的輸入即期,但是“機(jī)器”這個(gè)unigram的概率更高些,所以它很難出現(xiàn)在候選列表中。假如“即期”這個(gè)詞出現(xiàn)在了候選中,那么它就一定會(huì)是第一候選,會(huì)有這種情況的發(fā)生是因?yàn)樗且砸粋€(gè)最佳候選句子的形式來(lái)呈現(xiàn)給用戶的。一旦用戶選擇了“機(jī)器”,將會(huì)很難預(yù)測(cè)“即期”這個(gè)詞多久出現(xiàn),此缺陷也是廣受用戶詬病的。

        3 Sunpinyin輸入法的優(yōu)化構(gòu)想

        雖然SunPinyin對(duì)于廣大用戶來(lái)說(shuō)是一款非常實(shí)用的輸入法,但目前SunPinyin2還沒(méi)有能夠重新實(shí)現(xiàn)微軟拼音的輸入風(fēng)格并且現(xiàn)有的 Sunpinyin輸入法的配置項(xiàng)還比較分散。另外,當(dāng)前的SunPinyin輸入法的拼音切分部分代碼中的start的信息是冗余的。現(xiàn)有的CIMIContext可以根據(jù)最佳路徑搜索來(lái)得到正確的切分路徑已達(dá)到深層優(yōu)化。

        4 基于Linux平臺(tái)蒙古文Sunpinyin輸入法的實(shí)現(xiàn)構(gòu)想

        隨著現(xiàn)代計(jì)算機(jī)技術(shù)的迅猛發(fā)展,蒙古文信息處理工作獲得了不小的突破[4]。蒙古文的書(shū)寫(xiě)是按列從上到下,多列從左到右排列書(shū)寫(xiě),不與中英文相同[5]。除此之外,蒙古文字庫(kù)中的蒙文字符的存放方式也是匠心獨(dú)運(yùn),都是呈現(xiàn)逆時(shí)針旋轉(zhuǎn)90度后存放[6]。目前,Windows操作系統(tǒng)為了迎合廣大蒙古文用戶的書(shū)寫(xiě)習(xí)慣,利用Windows API函數(shù)在顯示豎直排版的蒙文字符時(shí)將字符順時(shí)針旋轉(zhuǎn)90度后輸出[7],但是Linux操作系統(tǒng)并不支持字符旋轉(zhuǎn)[8]。

        通過(guò)上述的分析可知,今后研究的目標(biāo)將是在Linux操作系統(tǒng)上實(shí)現(xiàn)蒙古文Sunpinyin輸入法,并且不再讓顯示的蒙文字采用“躺姿”。為了實(shí)現(xiàn)輸入法字符編碼的統(tǒng)一,防止之前“萬(wàn)碼奔騰”局面的重現(xiàn),該Linux平臺(tái)上的蒙古文Sunpinyin輸入法需要采用Unicode國(guó)際標(biāo)準(zhǔn)編碼處理蒙古文字符,這也將能夠極大地維持蒙古文信息的傳播與交流,對(duì)滿足習(xí)慣于使用蒙古文書(shū)寫(xiě)的用戶需求意義深遠(yuǎn)。

        5 結(jié)束語(yǔ)

        本文通過(guò)對(duì)Sunpinyin輸入法進(jìn)行解讀,首先概括性介紹了Sunpin輸入法的后端、前端、語(yǔ)言模型三部分內(nèi)容,繼而著重描述了Sunpinyin輸入法引擎,同時(shí)對(duì)Sunpinyin輸入法的優(yōu)化提出了一些設(shè)想,并對(duì)蒙古文與Sunpinyin的融合提出了一些構(gòu)想,這些設(shè)想還僅僅是初步的,仍需要在實(shí)踐中進(jìn)一步檢索和深化。

        參考文獻(xiàn):

        [1]周克蘭.漢字?jǐn)?shù)碼輸入法評(píng)價(jià)體系研究[D].蘇州大學(xué),2005.

        [2]田寄遠(yuǎn).基于Linux SCIM的傳統(tǒng)蒙古文Unicode拼音輸入法的設(shè)計(jì)與實(shí)現(xiàn)[D].內(nèi)蒙古師范大學(xué),2009.

        [3]劉政怡.中文整句智能輸入方法研究[D].安徽大學(xué),2007.

        [4]張瑾.規(guī)則與統(tǒng)計(jì)相結(jié)合的蒙古文編碼轉(zhuǎn)換的研究與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2009.

        [5]額日和木.基于嵌入式Linux的蒙古文字處理方法的研究與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2011.

        [6]李佳妍.嵌入式Linux環(huán)境下蒙文編輯器的設(shè)計(jì)與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2008.

        [7]吳常福.基于嵌入式Linux的傳統(tǒng)蒙古文垂直風(fēng)格圖形用戶界面設(shè)計(jì)與實(shí)現(xiàn)[D].內(nèi)蒙古大學(xué),2009.

        [8]王魯瑞.基于生長(zhǎng)函數(shù)的植物生長(zhǎng)建模研究[D].重慶大學(xué),2011.

        作者簡(jiǎn)介:王亞君(1989-),女,河北保定人,2012級(jí)學(xué)術(shù)型研究生,研究方向:自然語(yǔ)言處理;指導(dǎo)老師:紅梅。

        作者單位:內(nèi)蒙古師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,呼和浩特 010022

        亚洲V日韩V精品v无码专区小说| 国产午夜在线视频观看| 国产又大又硬又粗| 失禁大喷潮在线播放| 91久久综合精品国产丝袜长腿| 亚洲av区一区二区三区| 97se色综合一区二区二区| 亚洲 精品 综合 精品 自拍| av天堂精品久久久久| 亚洲中文字幕高清在线视频一区| 无遮挡激情视频国产在线观看| аⅴ资源天堂资源库在线| 亚洲成AⅤ人在线观看无码| 蜜桃av噜噜噜一区二区三区| 国产自拍精品一区在线观看| 久久精品国产亚洲av四虎| 精品亚洲国产探花在线播放| 久久久精品久久久国产| 欲求不満の人妻松下纱荣子| 131美女爱做视频| 污污污国产免费网站| 你懂的视频在线看播放| 国产乱子伦| 国产男女猛烈无遮挡免费视频| 国产精品久久国产精品久久| 国产精华液一区二区三区| 美女又色又爽视频免费| 99精品欧美一区二区三区美图| 日本在线一区二区免费| 欧美最猛黑人xxxx黑人猛交| 五月天激情小说| 日本一区二区三区在线观看免费 | 日日躁欧美老妇| 亚洲色图专区在线视频| 内射少妇36p亚洲区| 岛国大片在线免费观看| 日本久久大片中文字幕| 天天摸夜夜摸摸到高潮| 国产污污视频| 亚洲蜜臀av一区二区三区漫画| 亚洲国产一二三精品无码|