【摘 要】作為輸入編碼的后處理,各種類型輸入軟件智能化的共同目標(biāo)是由軟件來(lái)識(shí)別和選定重碼字詞與縮短平均碼長(zhǎng)并促使編碼簡(jiǎn)化和規(guī)范化。
【關(guān)鍵詞】計(jì)算機(jī)應(yīng)用;漢字庫(kù);自然語(yǔ)言理解;模板匹配
一、前言
中文信息學(xué)會(huì)原理事長(zhǎng)錢偉長(zhǎng)教授于上世紀(jì)八十年代中期推出他親自設(shè)計(jì)的“錢碼”的同時(shí)指出:“理想的輸入方法還沒有實(shí)現(xiàn)”。十多年的實(shí)踐表明:從漢字編碼上下功夫,要得到一個(gè)易學(xué)、易用兼?zhèn)涞摹袄硐氲妮斎敕椒ā?,著?shí)艱難,就像人們很難將蒸汽機(jī)車的熱效率大幅度提高而不得不換成內(nèi)燃機(jī)車、電氣機(jī)車。
計(jì)算機(jī)軟、硬件的發(fā)展速度以幾何級(jí)數(shù)的形態(tài)增長(zhǎng)。計(jì)算機(jī)系統(tǒng)資源的豐富為人們開發(fā)出實(shí)用的、算法各異的漢字輸入智能軟件創(chuàng)造了條件。各種類型輸入軟件智能化的共同目標(biāo)是山軟件來(lái)識(shí)別和選定上屏的重碼字、詞與縮短平均碼長(zhǎng),促使編碼簡(jiǎn)中北和規(guī)范化。
二、漢字庫(kù)發(fā)展簡(jiǎn)介
1.GB 2312漢字編碼字符集
從1975年開始,我國(guó)為了研究漢字的使用頻度,進(jìn)行了大規(guī)模的字頻統(tǒng)計(jì)工作,內(nèi)容包括工業(yè)、農(nóng)業(yè)、軍事、科技、政治、經(jīng)濟(jì)、文學(xué)、藝術(shù)、教育、體育、醫(yī)藥衛(wèi)生、天文地理、自然、化學(xué)、文字改革、考古等多方面的出版物,在數(shù)以億計(jì)的浩瀚文獻(xiàn)資料中,統(tǒng)計(jì)出實(shí)際使用的不同的漢字?jǐn)?shù)為6335個(gè),而其中有3000多個(gè)漢字的累計(jì)使用頻度達(dá)到了99.9%,而另外的3000多個(gè)累計(jì)頻度不到0.1%,說(shuō)明了常用漢字與次常用漢字的數(shù)量不足7000個(gè),這就為國(guó)家制定漢字庫(kù)標(biāo)準(zhǔn)提供了依據(jù)。1980年頒布了《信息交換用漢字編碼字符集—基本集》的國(guó)標(biāo)交換碼,國(guó)家標(biāo)準(zhǔn)號(hào)為:GB2312-80,選入了6763個(gè)漢字,分為兩級(jí),一級(jí)字庫(kù)中有3755個(gè),是常用漢字,二級(jí)字庫(kù)中有3008個(gè),是次常用漢字;還選入了682個(gè)字符,包含有數(shù)字、一般符號(hào)、拉丁字母、日本假名、希臘字母、俄文字母、拼音符號(hào)、注音字母等。
2.大字符集字庫(kù)(又叫GBK字庫(kù))
國(guó)際標(biāo)準(zhǔn)化組織為了將世界各民族的文字進(jìn)行統(tǒng)一編碼,制定了UCS標(biāo)準(zhǔn)。根據(jù)這一標(biāo)準(zhǔn),中、日、韓三國(guó)共同制定了《CJK統(tǒng)一漢字編碼字符集》,其國(guó)際標(biāo)準(zhǔn)號(hào)為:ISO/IEC10646,國(guó)家標(biāo)準(zhǔn)號(hào)為:GB13000-90,該漢字編碼字符集就是通常人們所說(shuō)的大字符集,它編入了20902個(gè)漢字,收集了大陸一二級(jí)字庫(kù)中的簡(jiǎn)體字,臺(tái)灣《通用漢字標(biāo)準(zhǔn)交換碼》中的繁體字,58個(gè)香港特別用字和92個(gè)延邊地區(qū)朝鮮族“吏讀”字,甚至涵蓋了日文與韓文中的通用漢字,滿足了方方面面的需要。Windows95/98/NT/2000中都裝入了大字符集漢字庫(kù),人們一般稱它為GBK(“國(guó)家標(biāo)準(zhǔn)擴(kuò)展”的拼音縮寫)字庫(kù)。
3.新標(biāo)準(zhǔn)漢字
2000年3月,國(guó)家信息產(chǎn)業(yè)部和質(zhì)量技術(shù)監(jiān)督局在北京聯(lián)合發(fā)布了《信息技術(shù)和信息交換用漢字編碼字符集、基本集的擴(kuò)充》,國(guó)家標(biāo)準(zhǔn)號(hào)為:GB18030-2000,收錄了27000多個(gè)漢字,還收錄了藏、蒙、維等主要少數(shù)民族的文字,以期一舉解決郵政、戶政、金融、地理信息系統(tǒng)等生僻漢字與主要少數(shù)民族語(yǔ)言的輸入,該標(biāo)準(zhǔn)于2000年12月31日強(qiáng)制執(zhí)行。GB 18030-2000作為GBK for Unicode 3.0的更新而誕生,它帶有包含所有Unicode的擴(kuò)展,完全向下兼容GB 2312-1980和GBK。
三、基于理解的智能輸入軟件
1.原理
主要利用漢語(yǔ)語(yǔ)法知識(shí)來(lái)消化同音字、詞、以及化解歧義分詞。通常表述為計(jì)算機(jī)能夠識(shí)別和處理的一系列固定搭配、公式和自定義規(guī)則。在學(xué)科分類中屬」幾人工智能分支自然語(yǔ)言理解。這類軟件是最旱出現(xiàn)的也是最理想化的智能輸入軟件。根據(jù)自動(dòng)分詞得到同音字、詞的候選集.查找知識(shí)庫(kù)得到相關(guān)的規(guī)則.再經(jīng)過歸約推理.得出轉(zhuǎn)換結(jié)果。利用句內(nèi)編輯實(shí)時(shí)修正轉(zhuǎn)換錯(cuò)誤和批量學(xué)習(xí)可以使得系統(tǒng)知識(shí)不斷完善和充實(shí),也就是自學(xué)習(xí)功能。
2.典型作品
哈爾濱工業(yè)大學(xué)王曉龍等研制的拼音語(yǔ)句輸入系統(tǒng)InSun;
北京大學(xué)朱守濤研制的智能ABC。
3.優(yōu)點(diǎn)從與存在的問題
優(yōu)點(diǎn):(1)這一種自行構(gòu)造的“語(yǔ)法體系”大體上能夠包括最基本和較少歧義的漢語(yǔ)語(yǔ)法知識(shí),因此系統(tǒng)的正確率比較穩(wěn)定。(2)軟件開銷視知識(shí)庫(kù)的規(guī)??纱罂尚。⌒拖到y(tǒng)在CPU為486的機(jī)器上就能運(yùn)行。存在的問題:逐字連續(xù)拼音整句輸入時(shí),平均碼長(zhǎng)較長(zhǎng),采用簡(jiǎn)化拼音輸入時(shí)鍵選率較高。偏重整句處理,當(dāng)出現(xiàn)轉(zhuǎn)換錯(cuò)誤時(shí),需要使用者回頭去糾正,干擾了正常的思維。當(dāng)前,建立知識(shí)庫(kù)時(shí),漢語(yǔ)知識(shí)表達(dá)的困難;自動(dòng)分詞過程中切分歧義等因素對(duì)分詞精度的影響;輸入語(yǔ)句的語(yǔ)法不規(guī)范都使鍵選率的降低受到限制。最理想化的模型沒有達(dá)到理想化的效果,因此人們不得不尋找不那么理想?yún)s比較實(shí)用的理論模型與方法。
四、基于語(yǔ)用統(tǒng)計(jì)的智能輸入軟件
1.原理
主要利用語(yǔ)用統(tǒng)計(jì)的數(shù)據(jù)來(lái)消化同音字、詞.以及化解歧義分詞。在學(xué)科分類中屬于運(yùn)籌學(xué)范疇。
使用概率統(tǒng)計(jì)運(yùn)籌決策的方案很多。文獻(xiàn)[5]通過統(tǒng)計(jì)字字相關(guān)的同現(xiàn)概率矩陣來(lái)完成漢語(yǔ)語(yǔ)用統(tǒng)計(jì)庫(kù)結(jié)構(gòu).這個(gè)矩陣的大小是固定不變的.只與字符集的大小有關(guān)。文獻(xiàn)[5]作者通過搜索了500萬(wàn)字語(yǔ)料給出了一個(gè)3673 X 3673的同現(xiàn)概率矩陣。文獻(xiàn)[4]是基于幾理解和基于語(yǔ)用統(tǒng)計(jì)相結(jié)合的設(shè)計(jì)。該設(shè)計(jì)根據(jù)分詞后的輸入語(yǔ)句查找知識(shí)庫(kù).用句法、詞法、語(yǔ)義和自定義的規(guī)則作為制約對(duì)文章進(jìn)行解析推理.當(dāng)存在同音詞時(shí)。采用最優(yōu)評(píng)價(jià)法來(lái)確定最佳選擇作為轉(zhuǎn)換結(jié)果。同音詞的評(píng)價(jià)值需要考慮詞性、同現(xiàn)概率、近期使用狀況等因素。具有最優(yōu)評(píng)價(jià)值的選擇即為轉(zhuǎn)換結(jié)果。當(dāng)具有最優(yōu)評(píng)價(jià)值的第一選擇而非日標(biāo)選擇時(shí),可選用次優(yōu)選擇或用手工方式進(jìn)行修正,候補(bǔ)修正或人工修正均被記錄,作為下次轉(zhuǎn)換時(shí)修改計(jì)算評(píng)價(jià)值因素的依據(jù),也就是自學(xué)習(xí)功能。
2.典型作品
蔡榕先生設(shè)計(jì)的最優(yōu)評(píng)價(jià)函數(shù)法拼音漢字轉(zhuǎn)換系統(tǒng);
蔣先生設(shè)計(jì)的Autoway;
清華大學(xué)人工智能實(shí)驗(yàn)室夏瑩等研制的智能輸入軟件。
3.優(yōu)點(diǎn)與存在的問題
(1)優(yōu)點(diǎn)
1)對(duì)于己經(jīng)進(jìn)行過語(yǔ)用統(tǒng)計(jì)或者具有相同類型的領(lǐng)域,系統(tǒng)的轉(zhuǎn)換正確率比較高,或者說(shuō)語(yǔ)用統(tǒng)計(jì)具有偏向性。對(duì)每一個(gè)用戶而言,在使用過程中,語(yǔ)用統(tǒng)計(jì)庫(kù)將會(huì)從最初的通用型逐漸改變?yōu)榉线@個(gè)用戶語(yǔ)用習(xí)慣的專用型。
2)軟件開銷較小,在CPU為486的機(jī)器上就能運(yùn)行。
(2)存在的問題
1)作為一個(gè)整體的同現(xiàn)概率矩陣,不能做到模塊化、積木化。偏重整句處理,當(dāng)出現(xiàn)轉(zhuǎn)換錯(cuò)誤時(shí),需要使用者回頭去糾正,干擾了正常的思維。
2)當(dāng)前,自動(dòng)分詞的準(zhǔn)確度只能達(dá)到98%左右,鍵選率的降低受到限制。
五、結(jié)束語(yǔ)
上世紀(jì)八十年代我國(guó)學(xué)者提出的“從開發(fā)人腦到開發(fā)電腦”、“字為基礎(chǔ)、詞為主導(dǎo)、智能處理”,只是指明了漢字輸入技術(shù)的發(fā)展方向。時(shí)至今日,己有近十種輸入法采用了智能化處理重碼的技術(shù)。這些智能輸入軟件中有的采用人工智能理論,有的依據(jù)概率統(tǒng)計(jì)方法,有的依靠自動(dòng)控制技術(shù),多數(shù)軟件設(shè)計(jì)兩種方法。效果較好的青月亮軟件更是在模糊控制的框架內(nèi)使用了語(yǔ)法規(guī)則和動(dòng)態(tài)語(yǔ)用統(tǒng)計(jì)。如果像當(dāng)年“萬(wàn)馬奔騰”一樣,智能化軟件也形成“百花齊放、百家爭(zhēng)鳴”的局而,則錢偉長(zhǎng)教授要求的易學(xué)、易用的理想的輸入方法的實(shí)現(xiàn)為期己經(jīng)不遠(yuǎn)了。
參考文獻(xiàn):
[1]俞士汶.中文輸入中語(yǔ)法分析技術(shù)的應(yīng)用[J].中文信息學(xué)報(bào),1988(3).
[2]王曉龍等.語(yǔ)句級(jí)漢字輸入技術(shù)[J].中文信息學(xué)報(bào),1996(12).
[3]章森等.語(yǔ)句拼音漢字轉(zhuǎn)換的智能處理機(jī)制分析[J].中文信息學(xué)報(bào),1998(2).
[4]蔡榕.最優(yōu)拼音漢字一次輸入變換法及拼音漢字轉(zhuǎn)換系統(tǒng)的實(shí)現(xiàn)[C].第三屆中文信息處理國(guó)際會(huì)議論文集,1992.10.
作者簡(jiǎn)介:崔羅羅,男,現(xiàn)就讀于西安外事學(xué)院工學(xué)院電子信息工程專業(yè)。