文|吳勰,印金成
貴州彝文信息技術(shù)研究概述
文|吳勰,印金成
從上世紀80年代開始,我國少數(shù)民族語言文字信息化建設(shè)工作就啟動了,經(jīng)過30多年不斷發(fā)展,取得一系列標志性成果。其中我國藏文、蒙文、維吾爾文、現(xiàn)代彝文等少數(shù)民族語言文字成績斐然,先后完成了“文字編碼字符集、字型、鍵盤等國家標準研制工作,并先后獲得了國際ISO/IEC 10646標準,即每個民族文字字符在Unicode編碼體系中的唯一性,實現(xiàn)與全世界多文種的統(tǒng)一編碼、同平臺顯示。通過民族文字信息處理學(xué)科的基礎(chǔ)研究工作的扎實推進,成功解決了民族文字信息技術(shù)的輸入、輸出難題。在現(xiàn)代移動通訊手機上也實現(xiàn)了民族文字的數(shù)字化傳輸與應(yīng)用。近幾年,藏文、現(xiàn)代彝文等在語料庫建設(shè)、智能機器翻譯、民族語言文字網(wǎng)站、大數(shù)據(jù)云平臺等信息化產(chǎn)業(yè)方面獲得很大的發(fā)展,與現(xiàn)代社會信息技術(shù)發(fā)展共同進步。
運用現(xiàn)代信息技術(shù)充分發(fā)掘民族語言文字資源,開發(fā)的各種民族語言文字信息化產(chǎn)品在民族地區(qū)社會生產(chǎn)、生活等各個領(lǐng)域得到了廣泛應(yīng)用。少數(shù)民族語言文字信息化建設(shè),是民族地區(qū)信息化產(chǎn)業(yè)建設(shè)的重要組成部分,是基礎(chǔ)性建設(shè)工作。早在2008年北京語言大學(xué)黨委書記李宇明教授就指出,“民族語言文字是中華民族的寶貴財富,是非物質(zhì)文化遺產(chǎn)的重要內(nèi)容。對其進行規(guī)范化、標準化、信息化建設(shè),成為當務(wù)之急,是信息時代提出的新任務(wù)”。
彝文是我國少數(shù)民族文字之一,開展彝文信息處理研究工作是現(xiàn)代信息社會發(fā)展的必然要求。開發(fā)彝文信息處理技術(shù),實現(xiàn)彝文的數(shù)字化應(yīng)用,才能更有效地發(fā)揮彝文傳承民族文化的載體作用。
彝文信息處理技術(shù)是隨著現(xiàn)代計算機信息技術(shù)的快速發(fā)展應(yīng)運而生的一門新興的應(yīng)用技術(shù),是指利用計算機技術(shù)對彝文字符的音、形、義等信息進行處理。即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作與加工技術(shù),是實現(xiàn)彝文信息化的關(guān)鍵性技術(shù)。
貴州在彝文信息處理基礎(chǔ)研究工作中,目前主要以開發(fā)貴州彝文計算機輸入軟件為突破口,開發(fā)具有自主知識產(chǎn)權(quán)的核心專利技術(shù),同時積極研制相關(guān)規(guī)范標準,開創(chuàng)了貴州彝語文信息化產(chǎn)業(yè)大繁榮、大發(fā)展的新格局。
(一)整理彝文字符,建立《信息技術(shù) 彝文編碼字符集﹒大字符集》
字符(Character)是各種文字和符號的總稱,包括彝文字符、標點符號、圖形符號、數(shù)字符號等。本文中“彝文字符集”(Yi Character Set)是指在貴州境內(nèi)使用的彝文字、標點符號、圖形符號、數(shù)字符號等彝文信息交換所需的多個字符集合。
彝文字符整理是彝文信息處理的基礎(chǔ)研究工作。從2012年貴州開展貴州彝文字符整理工作,筆者通過負責(zé)貴州省2012年社科基金項目“貴州彝文編碼字符集研制”,在畢節(jié)市彝文文獻翻譯研究中心主任王繼超老師的支持下,以貴州《簡明彝漢字典》、《彝文字釋》為選字藍本,以貴州經(jīng)典傳世彝文文獻《彝族源流》、《宇宙人文論》等為選字范本,在常用字整理工作中,采用“源自古籍,保持風(fēng)貌,字形美觀,便于書寫,符合用字規(guī)律”原則來開展工作。對于異體字整理按照“最大限度剔除異體字數(shù)量,選擇使用頻率高的字形,充分遵循彝文的構(gòu)字規(guī)律,選擇結(jié)構(gòu)合理、筆畫簡易的字形”為選字原則。構(gòu)建5000余字《信息技術(shù) 彝文編碼字符集.基本集》,為貴州彝文信息處理學(xué)科發(fā)展奠定基礎(chǔ)。
2014年根據(jù)貴州彝文古籍文獻數(shù)字化整理翻譯的用字需求,筆者與貴州工程應(yīng)用技術(shù)學(xué)院(原畢節(jié)學(xué)院)的劉云老師合作,依據(jù)《滇川黔桂彝文字集?貴州卷》里彝文字符,同時參考貴州傳世彝文文獻。對彝文字符進行增補,對于同組異體字整理中盡量選擇結(jié)構(gòu)合理、筆畫簡潔的字形,放棄彎曲復(fù)雜疑難筆畫,糾正有的使用者在日常使用中故意增加筆畫,或手寫錯誤字形,整理出4000余字,并對彝文字形進行矯正、規(guī)范,建立9000余字《信息技術(shù) 貴州彝文編碼字符集?大字符集》,能滿足彝文日常應(yīng)用、彝語文教學(xué)、彝文文獻整理、翻譯等用字需求,達到彝文信息技術(shù)開發(fā)的用字需求。
(二)開發(fā)彝文印刷字體,建立彝文字庫
彝文印刷字體是以《信息技術(shù) 彝文編碼字符集.大字符集》為研究藍本,采用True Type這種新型數(shù)字化字形描述技術(shù),根據(jù)彝文字體設(shè)計“易讀性、藝術(shù)性和思想性”的基本原理,按照“平、直、正、方、圓、勻”的要求設(shè)計彝文基礎(chǔ)筆畫。在此基礎(chǔ)之上設(shè)計True Type彝文“正體”字形,建立彝文字庫。
此外2014年在貴州省民委古籍辦支持下,筆者與研究團隊合作開發(fā)出“彝文楷書字體”。彝文楷書字體是以彝文經(jīng)典古籍文獻為基礎(chǔ),以彝文經(jīng)典書法作品為依托,如“水西大渡
河建石橋碑記”,同時參照學(xué)界前期研究成果,如《簡明彝漢字典》,《貴州彝族語言文字》等學(xué)科著作,對彝文書寫規(guī)律、筆畫特征、字型結(jié)構(gòu)、書寫筆順等研究成果,歸納彝文楷書字體的藝術(shù)特征及基本規(guī)律。按照“筆形塑造規(guī)范、字型重心平穩(wěn)、文本編排合理”的要求,由貴州工程應(yīng)用技術(shù)學(xué)院(原畢節(jié)學(xué)院)彝學(xué)研究院的王明亮老師用毛筆書寫而成,再用專業(yè)字體軟件Font Creator對彝文字形進行修整,建立彝文楷書字庫。彝文楷書字體實現(xiàn)與彝文傳統(tǒng)手寫字體風(fēng)格相一致(見圖1),不僅能滿足彝文日常辦公應(yīng)用,同時也能滿足彝文古籍文獻數(shù)字化整理的用字需求。
建立的彝文計算機字庫,實現(xiàn)彝文字體在計算機中的顯示應(yīng)用,彝文字在計算機文檔中像其他文字一樣可進行排版和打印輸出,實現(xiàn)開發(fā)彝文輸出技術(shù)目標。
(三)研制貴州彝文計算機編碼輸入方案,設(shè)計彝文筆畫輸入方法,開發(fā)彝文計算機輸入法軟件
貴州彝文計算機編碼輸入方案主要包括以下幾個方面研究內(nèi)容:第一,根據(jù)彝文構(gòu)字規(guī)律、字型結(jié)構(gòu)、書寫筆順等基本要素,在《彝文編碼字符集》基礎(chǔ)之上,整理彝文構(gòu)字部件,建立彝文部件系統(tǒng),設(shè)計出彝文部件碼,為設(shè)計彝文字形輸入碼打下基礎(chǔ)。第二,基于現(xiàn)有英文鍵盤字母區(qū),根據(jù)人體工學(xué)原理對字母鍵盤的合理化要求,依據(jù)彝文部件與英文字母鍵形狀相似的特點,在英文鍵盤字母區(qū),對彝文部件碼進行規(guī)律分布,設(shè)計出彝文筆畫鍵位圖。
第三,在上述研究基礎(chǔ)之上,根據(jù)彝文書寫筆順,設(shè)計出彝文筆畫“傳統(tǒng)和簡易”兩種輸入方法。同時根據(jù)彝文字形構(gòu)字特征,設(shè)計彝文末筆結(jié)構(gòu)識別碼,以減少彝文筆畫輸入碼的重碼率。
如上所述,彝文筆畫輸入方法是在彝文字形特征基礎(chǔ)之上,依據(jù)彝文基本字型結(jié)構(gòu),按照彝文書寫筆順,結(jié)合不同用戶使用需求,成功研制出彝文筆畫輸入方案,解決彝文字符輸入問題。
基于Windows平臺的核心組件輸入法管理器(IMM)-輸入法編輯器(IME)結(jié)構(gòu)開發(fā)彝文輸入法程序,攻克“輸入法與操作系統(tǒng)的關(guān)系,IME用戶界面”等技術(shù)難題,采用VC++編程開發(fā)接口式貴州彝文輸入法,生成彝文輸入法安裝程序,實現(xiàn)彝文輸入法軟件在計算機中方便快捷的安裝使用,實現(xiàn)開發(fā)彝文計算機輸入法軟件目標。
彝文計算機輸入法軟件的成功開發(fā),實現(xiàn)了彝文方便快捷的數(shù)字化輸入,徹底改變彝文手寫的歷史現(xiàn)狀,使得彝文以電子文本形式得以永久保存,為保護和弘揚彝文古籍文獻搭建數(shù)字化平臺。
開發(fā)的貴州彝文信息技術(shù)在日常辦公應(yīng)用、彝語文教學(xué)和彝文古籍文獻翻譯整理方面得到很好應(yīng)用?,F(xiàn)在主要在貴州工程應(yīng)用技術(shù)學(xué)院和貴州民族大學(xué)兩個單位的彝文古籍文獻數(shù)字化翻譯整理中得到有效使用,改變彝文手寫應(yīng)用現(xiàn)狀,實現(xiàn)彝文在計算機中的數(shù)字化應(yīng)用。
(一)用彝文輸入法軟件編輯出版《通用彝文字典》
由貴州工程應(yīng)用技術(shù)學(xué)院(原畢節(jié)學(xué)院)承擔(dān)的教育部"國家語委民族語言文字規(guī)范標準建設(shè)及信息化項目“古彝文整理及計算機輸入軟件”,研究成果為“超方言古彝文輸入法軟件”。該軟件用于錄入、編輯排版了2016年出版的《通用彝文字典》,該部字典采用數(shù)字化整理方式,字典中的國際音標、彝文字、漢文以及標點符號等全部實現(xiàn)電腦錄入,編輯排版整部字典86萬字內(nèi)容。比較以前出版彝文書籍,書中的彝文字均是在漢文、國際音標等字符已經(jīng)排版好的前提下,在打印出的樣稿中手寫彝文字符,因此用彝文輸入法軟件編輯排版《通用彝文字典》,這不僅極大地減輕了彝文書籍編輯排版的繁瑣工作量,提高了彝文應(yīng)用質(zhì)量,更是開拓了彝文新興的應(yīng)用領(lǐng)域。
(二)實現(xiàn)彝文古籍文獻數(shù)字化整理
貴州目前用彝文軟件整理的彝文文獻有貴州工程應(yīng)用技術(shù)學(xué)院翻譯整理《彝族盧比精選譯著》,貴州民族大學(xué)與六盤水市檔案局合作翻譯整理《彝文通書》,這兩部彝文古籍都用貴州彝文軟件來編輯整理,其中彝文字符的錄入、編輯、排版與修改均采用數(shù)字化技術(shù),文獻中的彝文字符、國際音標、漢字等字符實現(xiàn)了同平臺應(yīng)用,開啟貴州彝文古籍文獻數(shù)字化整理新征程。
運用現(xiàn)代計算機技術(shù)對貴州彝文字符進行全面、系統(tǒng)的開發(fā),著力解決了“彝文的輸出、輸入技術(shù)和基于IMMIME輸入法結(jié)構(gòu)開發(fā)彝文輸入法程序”等3個關(guān)鍵性技術(shù),自足開發(fā)出貴州彝文計算機輸入法軟件系統(tǒng),具有重大的應(yīng)用價值和長遠的社會意義。
通過開展彝文信息技術(shù)研究,開發(fā)彝文計算機輸入系統(tǒng),解決彝文字符人機交際問題,實現(xiàn)彝文在計算機中方便、快捷、高效的數(shù)字化應(yīng)用,使得彝文告別手寫應(yīng)用現(xiàn)狀,使古老的彝文獲得新興承載方式,滿足了現(xiàn)代信息社會對彝文數(shù)字化應(yīng)用需求。
在彝文信息處理學(xué)科基礎(chǔ)研究之上開發(fā)彝文信息技術(shù),解決彝文字符信息數(shù)字化輸出和輸入的基礎(chǔ)性實用技術(shù),構(gòu)建彝文信息處理技術(shù)平臺,實現(xiàn)彝文數(shù)字化關(guān)鍵性技術(shù)突破,為貴州彝語文信息化產(chǎn)業(yè)的發(fā)展奠定堅實基礎(chǔ),同時填補貴州彝語文信息處理技術(shù)的空白局面。
(一)存在的問題
首先,目前我國傳統(tǒng)彝文沒有國際標準化組織ISO的國際標準ISO/IEC 10646編碼空間,鑒于彝文這種情況,貴州彝文字庫只能借用其他民族文字的編碼空間,但會影響彝文計算機輸入法軟件系統(tǒng)使用的穩(wěn)定性。
其次,隨著彝文古籍文獻數(shù)字化建設(shè)進程的加快,目前建立的彝文計算機字庫中彝文字還不能完全滿足彝文古籍文獻翻譯整理的用字需求。
第三,在學(xué)界現(xiàn)有研究基礎(chǔ)之上,貴州開發(fā)的彝文計算機筆畫輸入法軟件,僅實現(xiàn)了彝文筆畫輸入,彝文拼音、手寫、語音等輸入方法還沒有實現(xiàn),限制彝文在相關(guān)領(lǐng)域的應(yīng)用。
(二)發(fā)展建議
第一,目前我國傳統(tǒng)彝文沒有國際統(tǒng)一的編碼標準,需要相關(guān)單位繼續(xù)向國際標準化組織ISO,提交申請我國傳統(tǒng)彝文的ISO/IEC 10646的正式提案,實現(xiàn)傳統(tǒng)彝文與全世界多文種的統(tǒng)一編碼,同平臺顯示應(yīng)用。
第二,隨著彝文古籍文獻數(shù)字化工作開展的需要,不斷增加彝文字符、包括生僻字、疑難字等,進一步完善彝文計算機字庫,才能滿足彝文計算機用字需求。
第三,今后需要另立項目來開展彝文拼音輸入方法研究工作。針對彝文讀音各按方音念讀,彝文讀音不統(tǒng)一,且采用了國際音標注音等情況,研制貴州彝文拉丁字母拼音輸入方案,開展彝文拼音輸入法技術(shù)開發(fā)研究工作,實現(xiàn)彝文在計算機中拼音輸入。
第四,隨著研究成果推廣應(yīng)用,根據(jù)用戶在實踐中使用彝文輸入軟件反饋信息,需要對彝文部件碼、鍵位等作少量的微觀調(diào)整,進一步完善彝文筆畫編碼輸入方案,不斷提高彝文計算機使用效率。
筆者從參加工作以來,就一直從事彝文信息處理基礎(chǔ)理論和彝文信息技術(shù)開發(fā)研究工作,多年實踐證明,彝文字符作為彝文信息處理的研究對象,筆者深知由于彝文字符數(shù)量極大,對貴州境內(nèi)彝文字符整理與開發(fā)研究工作不可能一蹴而就,需要緊密結(jié)合彝語文學(xué)科建設(shè)、彝文古籍文獻翻譯整理等實際用字需求,進行合理、科學(xué)規(guī)劃,結(jié)合彝文信息處理學(xué)科特征,分階段、有步驟地有序推進。
從2012年到2015年,貴州彝文信息研究工作是在充分利用學(xué)界前期研究成果基礎(chǔ)之上,開展彝文信息技術(shù)研究工作,取得突破性成就,基本上解決了彝文字符輸入和輸出問題,實現(xiàn)彝文在計算機中的數(shù)字化日常應(yīng)用。但上述研究成果僅是階段性的,還沒有完成彝文信息處理基礎(chǔ)研究任務(wù)。
從2016年開始,貴州彝文信息處理研究團隊從彝文古籍文獻數(shù)字化整理入手,在已建立《信息技術(shù) 彝文編碼字符字符集·大字符集》基礎(chǔ)上,繼續(xù)開展彝文字符整理工作。目前研究團隊對貴州經(jīng)典傳世彝文文獻《西南彝志》全26卷進行數(shù)字化整理,《西南彝志》全26卷中僅彝文字就有30多萬字,不僅字量大,而且質(zhì)量上乘?,F(xiàn)階段在計算機中用彝文軟件錄入彝文字,對《西南彝志》中彝文字符進行系統(tǒng)梳理,增補400多個彝文編碼字符集中沒有的字符,不斷擴充彝文編碼字符集、彝文字庫,完善彝文計算機輸入系統(tǒng)。目前以彝文古籍文獻數(shù)字化整理為突破口,尤其是像《西南彝志》這樣傳世經(jīng)典文獻,繼續(xù)開展貴州彝文信息處理學(xué)科基礎(chǔ)研究工作,才能開發(fā)出高質(zhì)量的彝文信息技術(shù)。這一階段通過研究團隊未來3至5年不斷努力,才能完成貴州彝文輸入和輸出信息技術(shù)開發(fā)研究工作。
貴州彝文信息技術(shù)開發(fā)工作,只有在扎實基礎(chǔ)研究之上,才能開發(fā)出實用數(shù)字化產(chǎn)品,真正解決彝語文、彝文古籍文獻數(shù)字化難題,實現(xiàn)彝文被越來越多用戶使用,真正發(fā)揮其傳承民族文化的載體作用,用科技力量助推民族文化的保護和弘揚。
作者單位:貴州民族大學(xué)
2016年國家語委語言文字科研項目優(yōu)秀成果后期資助計劃項目“基于彝文古籍文獻的貴州傳統(tǒng)彝文字符整理及其輸入法軟件開發(fā)研究”(HQ135-7)成果之一。