亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        文字軟件處理實論

        2012-08-15 00:44:35西安外事學院工學院楊小輝
        電子世界 2012年7期
        關鍵詞:鍵位輸入法分詞

        西安外事學院工學院 楊小輝

        一、前言

        還在八十年代輸入軟件智能化先行者林才松先生設計了第一個智能拼音軟件盡管林氏的創(chuàng)舉得到語委的支持和周有光教授的幫助,但PC/XT和CCDOS卻表示“愛莫能助”,林先生只得無功而返。

        十年過去了,計算機軟、硬件的發(fā)展速度以幾何級數(shù)的形態(tài)增長。計算機系統(tǒng)資源的豐富為人們開發(fā)出實用的、算法各異的漢字輸入智能軟件創(chuàng)造了條件。各種類型輸入軟件智能化的共同目標是山軟件來識別和選定上屏的重碼字、詞與縮短平均碼長,促使編碼簡中北和規(guī)范化。

        二、基于模板匹配的智能輸入軟件

        1.原理

        寓漢語語法知識于巨量的短語串中,進而利用這些短語串來消化同音字、詞,以及化解歧義分詞。這種短語串通常稱之為“模板詞”。

        這種系統(tǒng)通過模板詞搜索引擎來完成漢語語法體系的組織。需要搜索巨量的語料,獲取巨量的短語串,才有可能大體上包容漢語語法知識,例如:智能狂拼搜索了100億字語料,模板詞庫最大時需要約540MB存儲空間。根據(jù)分詞后的輸入語句查找模板詞庫和句法規(guī)則庫,然后進行匹配處理。如果匹配結果唯一,則不必再用概率推理;若存在兩個以上的候選結果時,則根據(jù)句法規(guī)則或概率推斷進一步判定,選出一個最有希望的可能結果作為輸出。

        2.典型作品

        中文之星數(shù)碼科技有限公司推出的智能狂拼;

        黑馬新技術公司推出的黑馬智能輸入軟件;大自然軟件開發(fā)有限責任公司推出的自然碼2000(句輸入版)。

        3.優(yōu)點從與存在的問題

        優(yōu)點:對于幾己經(jīng)搜索過模板詞的或者具有相同類型的領域,系統(tǒng)的轉(zhuǎn)換正確率比較高,或者說模板詞庫具有偏向性。對每一個用戶而言,在使用過程中,模板詞庫將會從最初的通用型逐漸改變?yōu)榉线@個用戶語用習慣的專用型。

        存在的問題:(1)模板詞數(shù)量巨大,對電腦硬件有一定的要求,486及以卜的低檔機難以使用。(2)對拼音輸入的模板匹配智能輸入軟件而言,通常只支持漢語拼音的26鍵位輸入,注重連續(xù)和完整的音節(jié)輸入,平均碼長較長,采用簡化拼音輸入時鍵選率較高。(3)偏重整句處理,當出現(xiàn)匹配錯誤時,需要使用者回頭去糾正,干擾了正常的思維。自動分詞的準確度只能達到98%使鍵選率的降低受到限制。

        三、基于上下文關聯(lián)的智能輸入軟件

        1.原理

        文獻[5]采用語用統(tǒng)計來實現(xiàn)上下字關聯(lián)智能輸入。下面介紹的是一種基于模糊控制理,利用上下文關聯(lián)(向上關聯(lián)4個詞語,向下關聯(lián)1個詞語)的語用環(huán)境來智能選擇重碼字。在學科分類中屬自動控制分支非線性控制范疇。將自然語言看成是一個模糊的集合,將漢字輸入系統(tǒng)作為一個非線性控制范疇的模糊控制系統(tǒng)來對待,預學習工具(或者轉(zhuǎn)換出現(xiàn)錯誤時的手工鍵選信號),相當于一個傳感器,算法程序、漢語知識庫和動態(tài)語用統(tǒng)計庫作為非線性調(diào)節(jié)器,使得系統(tǒng)的鍵選率和平均碼長逐漸趨于最優(yōu)。例如,青月亮漢字通上文關聯(lián)4個詞,下文關聯(lián)1個詞,合計上下文關聯(lián)5個詞,這一調(diào)節(jié)機制涉及到許多相互矛盾和相互牽制的受控參數(shù),模糊集合的特征函數(shù)從[0,1]區(qū)間連續(xù)取值,可以較為準確地表現(xiàn)各種語言現(xiàn)象差異,獲得比較好的效果。

        2.典型作品

        青月亮科技開發(fā)有限公司推出的青月亮漢字通智能輸入軟件平臺GM 3.1;

        一筆軟件有限公司推出的一筆智能輸入軟件(26鍵位和10鍵位);

        字原科技有限公司推出的101智能輸入軟件TZ8.2/9.1/2000 0

        3.優(yōu)點從與存在的問題

        優(yōu)點:(1)對學習過或者具有相同類型的語料,鍵選率比較低,或者說漢語知識庫具有偏向性。對每一個用戶而言,在使用過程中,漢語知識庫將會從最初的通用型逐漸改變?yōu)榉线@個用戶語用習慣的專用型。(2)青月亮漢字通作為一種音碼、形碼和筆畫碼二位一體的通用智能處理平臺,支持26鍵位、10鍵位、8鍵位和5鍵位規(guī)模的鍵兀集,支持GB18030的27533超大字符集,為各種輸入法增加上卜文關聯(lián)智能輸入的后處理支持,讓這些輸入法變得更易學、更好用。(3)采用字段輸入,不使用語句級輸入,使語法規(guī)則簡約化,易于知識表達。此舉不但降低了鍵選率,還大大緩解了輸入過程中“回頭看”的問題,基木上貼近了人們的使用習慣。(4)程序開銷積木化,在CPU為486的機器上就能運行。遵從一系列信急處理用的國家標準和規(guī)范,特別是與漢字輸入密切相關的兩個標準《GB/T 18031-2000信急技術數(shù)字鍵盤漢字輸入通用要求》和《GB(待定)信息技術通用鍵盤漢字輸入通用要求》。(5)旅拼音輸入時,采用人工分詞,在形式上與英文接軌,既可以避免3%的歧義分詞錯誤,也可以兼容簡拼輸入,大幅度降低鍵選率和平均碼長。青月亮漢字通在保證支持完整拼音輸入的同時,尤其提倡使用簡拼輸入(一個音節(jié)要么只取音節(jié)的首字母,要么就取完整音節(jié))。

        存在的問題:(1)字段輸入還未能完全根治輸入過程中“回頭看”的問題,每當終選字詞有錯時,仍然需要近距離的即時修改。(2)對“上下文關聯(lián)”機制的人機界而,用戶需要一個熟悉的過程。因此,青月亮漢字通也允許使用者關閉“上下文關聯(lián)”智能輸入,僅保留“上文關聯(lián)”機制和恢復逐字、逐詞上屏的輸入方式。

        四、實例舉證

        GBK字集以外生僻字的輸入:使用Windows自帶的“造字程序”。該程序操作簡單,使用方便,既可以用兩個字重新拆分組合成一個新字;也可以選一個相近的字加以修改而造一個新字;還可以直接在編輯框中畫出您所需要的字,比較便利的是前兩種方法,其步驟如下。

        取兩個字中有用的部分,重新組合成一個新字。以“腘”字為例(為便于排版,沒有選用GBK以外的字作為例字,下同),單擊“開始”按鈕,選“程序”、“附件”、“造字程序”,出現(xiàn)“造字程序”窗口。在彈出的“選定代碼”窗口中確定所造的字的代碼位置,比如AAA1后按“確定”按鈕(如沒有出現(xiàn),則選“編輯”中的“選定代碼”命令),此時在“造字”窗中出現(xiàn)“編輯”工作區(qū)。再選“編輯”菜單中的“調(diào)用”命令(在Windows2000、XP中則為“復制字符”命令),單擊“字體”按鈕,選擇字體后,在“形狀”框中輸入?yún)⒖甲帧芭D”,按“確定”按鈕。在“編輯”框中出現(xiàn)“臘”字。再選“窗口”中的“引用”命令(在Windows2000、XP中則為“參照”命令),一樣選定字體,輸入?yún)⒖甲帧皳潯?,在“造字”窗中出現(xiàn)帶有“摑”字的引用框。用“造字”窗左邊的圈選工具圈選“編輯”框中的“昔”,按Del鍵。圈選“引用(參照)”框中的“國”,將它拖到編輯框中合適的位置,然后關閉“引用”框。再選“編輯”菜單中的“保存字符”命令,在對話框中按“確定”按鈕。此時該字已經(jīng)建立,如文章中需要用到“腘”字只要將輸入法切換至區(qū)位輸入法,鍵入AAA1,即可出現(xiàn)“腘”字。

        [1]夏瑩等.利用上下文相關信急的漢字文本識別[J].中文信息學報,1996(2).

        [2]郭進.統(tǒng)計語言模型及漢語音字轉(zhuǎn)換的一些新結果[J].中文信息學報,1993(1).

        [3]仲興國.多詞組一次性拼音漢字變換[J].中文信息學報,1990(6).

        [4]張普.智能化漢字鍵盤輸入法的最重要發(fā)展方向[M].中國標準出版社,1997(2).

        [5]陳一凡.漢字編碼輸入技術的發(fā)展趨勢[J].計算機世界,1987,11(8).

        [6]黃昌寧.中文信息處理的主流技術是什么?[J].計算機世界報,2002(24).

        猜你喜歡
        鍵位輸入法分詞
        要命的輸入法
        結巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        小學信息技術課堂中鍵盤錄入的教學策略
        值得重視的分詞的特殊用法
        百度被訴侵犯商標權和不正當競爭
        淺談提高小學中年級學生中文錄入速度的策略和研究
        主機游戲全拿下 無線游戲手柄導購
        電腦愛好者(2016年3期)2016-02-25 10:20:57
        淺談有效進行計算機的指法教學
        高考分詞作狀語考點歸納與疑難解析
        iOS中為什么找不到安裝的第三方輸入法
        電腦迷(2012年22期)2012-04-29 23:34:02
        亚洲国产18成人中文字幕久久久久无码av | 在线观看免费无码专区| 亚洲精品乱码久久久久久蜜桃图片| 人人妻人人澡人人爽欧美一区 | 在线免费观看亚洲天堂av| 中文字幕在线乱码亚洲| 日本视频二区在线观看| 亚洲一区 日韩精品 中文字幕| 欧美freesex黑人又粗又大| 国产精美视频| 亚洲欧美日韩精品久久亚洲区色播| 日韩男女av中文字幕| 人人妻人人澡人人爽精品日本| 国产在线一区二区三区av| 中文 国产 无码免费| 日本美女性亚洲精品黄色 | 中国人妻与老外黑人| 三年片在线观看免费大全电影| 丰满人妻一区二区乱码中文电影网| 蜜桃av中文字幕在线观看| 精品国产麻豆免费人成网站| 亚洲日韩欧美一区二区三区| 久久迷青品着产亚洲av网站| 国产久久久自拍视频在线观看| 九九在线中文字幕无码| 国产免费av片无码永久免费| 久久精品免费一区二区喷潮| 亚洲国产成人精品久久成人| 亚洲国产精品高清一区| 一区二区三区av波多野结衣| 亚洲av无码av日韩av网站 | 国产av无毛无遮挡网站| 五月天国产成人av免费观看| 亚洲依依成人综合在线网址| 蜜桃av区一区二区三| 午夜视频国产在线观看| 激情综合色五月丁香六月亚洲| 无码超乳爆乳中文字幕| 免费精品人妻一区二区三区| 粗大猛烈进出白浆视频| 亚洲女人被黑人巨大进入|