董 軍,蔣同海,艾孜麥提·艾尼瓦爾,程 力,徐 春
(1. 中國科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2. 中國科學(xué)院大學(xué),北京 100049;3. 新疆民族語音語言信息處理實驗室,新疆 烏魯木齊 830011;4. 新疆財經(jīng)大學(xué) 計算機科學(xué)與工程學(xué)院,新疆 烏魯木齊 830012)
一種改進的哈薩克文編碼字符處理方法
董 軍1,2,3,蔣同海1,3,艾孜麥提·艾尼瓦爾1,2,3,程 力1,3,徐 春1,2,4
(1. 中國科學(xué)院 新疆理化技術(shù)研究所,新疆 烏魯木齊 830011;2. 中國科學(xué)院大學(xué),北京 100049;3. 新疆民族語音語言信息處理實驗室,新疆 烏魯木齊 830011;4. 新疆財經(jīng)大學(xué) 計算機科學(xué)與工程學(xué)院,新疆 烏魯木齊 830012)
哈薩克文;編碼字符;Unicode;OpenType
Key words: Kazakh; coded character; Unicode; OpenType
收稿日期: 2016-03-09 定稿日期: 2016-05-18
基金項目: 中科院西部之光項目(YG2012114);中科院儀器設(shè)備功能開發(fā)技術(shù)創(chuàng)新項目(YBXM-2014-04)
我國哈薩克族人口約146萬,其中絕大多數(shù)生活在新疆的伊犁哈薩克自治州、木壘哈薩克自治縣和巴里坤哈薩克自治縣[1]。哈薩克文是新疆哈薩克族群眾使用的主要文字。根據(jù)我國憲法和民族區(qū)域自治法,哈薩克文和漢文在哈薩克族自治地方并行使用,在自治地方的行政、司法、教育、新聞出版等領(lǐng)域發(fā)揮著重要作用。另外,隨著我國與哈薩克斯坦等國家貿(mào)易往來和文化交流的日益頻繁,哈薩克文在我國的國際交流中也發(fā)揮著重要作用。
哈薩克文繼承了阿拉伯文從右向左書寫和連寫的書寫習(xí)慣。所謂連寫即字母在書寫的時候需要與前后相鄰的字母連接。這導(dǎo)致每個字母有多種書寫形式,如圖1所示。字母在書寫時必須根據(jù)自身及其前后字母的連接特性選擇正確的書寫形式,如圖2所示。
圖1 哈薩克文字母的四種書寫形式
圖2 三個相鄰哈薩克文字母的連寫
國際標(biāo)準(zhǔn)Unicode對哈薩克文處理提供了基本的支持。Unicode在阿拉伯文編碼字符的基本區(qū)(字符編碼: 0600-06FF)包含了全部哈薩克文字母以及符號的編碼字符。其中編碼字符(0674)、(0675)、(0676)、(0677)和(0678)專用于處理哈薩克文字母[2-3]。此外,Unicode定義的用于處理字母從右向左書寫的雙向算法[4],以及用于處理字母連寫的字符連寫規(guī)則也適用于哈薩克文字母的處理[5]。但除字母獨立書寫形式(FBDD)的編碼字符外,Unicode沒有定義字母其它書寫形式的編碼字符[6-7]。我國于2008年頒布的國家標(biāo)準(zhǔn)GB 21669定義了字母各種書寫形式的編碼字符[8]。但是Unicode和GB 21669都沒有提供字母特殊書寫習(xí)慣的處理方法。
當(dāng)前,在哈薩克文信息處理工作中,普遍采用字母替換法處理字母
。字母替換法即使用另外四個哈薩克文字母
與字符
結(jié)合表示哈薩克文字母
[10]
。例如,
(我們)用字母替換法就表示為
。我們分析了新疆人民政府網(wǎng)哈薩克文版、昆侖網(wǎng)哈薩克文版、天山網(wǎng)哈薩克文版、人民網(wǎng)哈薩克文版等政府主辦的哈薩克文網(wǎng)站使用的字符編碼,它們無一例外都采用字母替換法處理字母
。圖4是采用字母替換法輸入單詞
(我們)在Windows 7記事本應(yīng)用程序中的顯示結(jié)果。字母替換法產(chǎn)生的哈薩克文文本看上去是正確的,因為人們在閱讀的時候不會覺察到字母被替換。字母替換法的實現(xiàn)很容易,主流操作系統(tǒng)只需要安裝哈薩克文輸入法,以及包含哈薩克文字母字形及其連寫規(guī)則的OpenType字體,就可以具備哈薩克文處理能力。
表1 字母替換前后的單詞排序
4個分區(qū)根據(jù)不同標(biāo)高主要包括C組填料回填、A、B組填料和級配砂礫墊層回填。填筑采用薄層輪加法,填筑時,每層松鋪厚度不得超過30cm,由路基中心向兩側(cè)分層填筑壓實。
表2 改進后哈薩克文單詞排序
表3 字母的全部書寫形式
表4 處理字母各種書寫形式和字形需要的判斷和操作
正確設(shè)置字形替換規(guī)則是哈薩克文OpenType字體制作的關(guān)鍵。有很多工具可以用來設(shè)置OpenType字體中的字形替換規(guī)則,例如,VOLT、AFDKO、Fontlab等。字形替換規(guī)則由若干字段構(gòu)成,所有類型字形替換規(guī)則擁有的字段是相同的。制作哈薩克文OpenType字體需要分別對六個規(guī)則的三個字段進行設(shè)置。這六個規(guī)則是
每種類型的規(guī)則都有特定的用途。規(guī)則
[1] 中華人民共和國國家統(tǒng)計局.第六次人口普查數(shù)據(jù).[EB/OL]. http://www.stats.gov.cn/tjsj/.html,2015-12-16.
[2] Unicode 8.0.0 Character Code Charts. Arabic [EB/OL].http://www.unicode.org/charts/PDF/U0600.pdf,2015-12-16.
[3] 陳壯. 中國在ISO/ IEC JTC1/ SC2 的活動與中文編碼的國際標(biāo)準(zhǔn)化[J]. 中文信息學(xué)報, 2007, 21(4): 122-128.
[4] Unicode Bidirectional Algorithm.[EB/OL]. http://www.unicode.org/reports/tr9/tr9-33.html,2015-12-16.
[5] The Unicode Standard Version 8.0.0-Core Specification, Middle East-I Modern and Liturgical Scripts Eastern Script [EB/OL].http://www.unicode.org/versions/Unicode8.0.0/ch09.pdf,2015-12-20.
[6] Unicode 8.0.0 Character Code Charts. Arabic Presentation Forms-A[EB/OL].http://www.unicode.org/charts/PDF/UFB50.pdf,2015-12-16.
[7] Unicode 8.0.0 Character Code Charts. Arabic Presentation Forms-B[EB/OL].http://www.unicode.org/charts/PDF/UFE70.pdf,2015-12-20.
[8] 全國信息技術(shù)標(biāo)準(zhǔn)化技術(shù)委員會.GB 21669-2008,信息技術(shù) 維吾爾文、哈薩克文、柯爾克孜文編碼字符集[S].北京: 中國標(biāo)準(zhǔn)出版社,2008: 4.
[9] 肖明,胡金柱,趙慧. 字形技術(shù)及OpenType字體文件格式研究[J]. 中文信息學(xué)報, 1999, 13(6): 54-61.
[10] 木合亞提·尼亞孜別克, 古力沙吾利. 哈薩克文信息處理的現(xiàn)狀和發(fā)展方向[J]. 中文信息學(xué)報, 2010, 24(4): 111-114.
[11] Microsoft Typography Home. OpenType Registered features[EB/OL].http://www.microsoft.com/typography/otspec/features_ae.html,2015-12-20.
董軍(1975—),博士,主要研究領(lǐng)域為自然語言處理、軟件測試。
E-mail: dongjun@ms.xjb.ac.cn
蔣同海(1963—),通信作者,博士,主要研究領(lǐng)域為計算機應(yīng)用技術(shù)、自然語言處理。
E-mail: jth@ms.xjb.ac.cn
艾孜麥提·艾尼瓦爾(1988—),碩士,主要研究領(lǐng)域為自然語言處理。
E-mail: azmat@ms.xjb.ac.cn
An Improved Kazakh Letter Representation
DONG Jun1,2,3, JIANG Tonghai1,3, Aizimaiti Ainiware1,2,3, CHENG Li1,3XU Chun1,2,4
(1. The Xinjiang Technical Institute of Physics & Chemistry, Chinese Academy of Sciences, Urumqi, Xinjiang 830011, China;2. University of Chinese Academy of Sciences, Beijing 100049,China;3. Xinjiang Laboratory of Minority Speech and Language Information Processing, Urumqi, Xinjiang 830011, China;4. College of Computer Science and Engineering, Xinjiang University of Finance and Economics, Urumqi, Xinjiang 830012, China)
1003-0077(2017)04-0094-06
TP391
A