(中國科學院新疆理化技術(shù)研究所,新疆烏魯木齊,830011)
斯拉夫哈薩克文與現(xiàn)行哈薩克文編碼字符轉(zhuǎn)換規(guī)則的探究
劉金龍,張 巖,董 軍
(中國科學院新疆理化技術(shù)研究所,新疆烏魯木齊,830011)
哈薩克語在發(fā)展變化的過程中,在世界范圍內(nèi)形成了基于同一語言的兩種文字形式的特殊情況,分別是國外的以斯拉夫文字母為基礎(chǔ)的哈薩克斯拉夫文字,稱之為斯拉夫哈薩克文,以及我國的以阿拉伯文字母為基礎(chǔ)的哈薩克阿拉伯文字,稱之為現(xiàn)行哈薩克文。由于兩種哈薩克文發(fā)音相同,而且均是一音一字的文字形式,所以斯拉夫哈薩克文與現(xiàn)行哈薩克文是可以通過規(guī)則互相轉(zhuǎn)換的,但至今并沒有相關(guān)的國家或地方標準對轉(zhuǎn)換規(guī)則進行明確描述。因此,本文通過對斯拉夫哈薩克文和現(xiàn)行哈薩克文的研究,提出兩種文字的字符編碼轉(zhuǎn)換規(guī)則。
斯拉夫哈薩克文;現(xiàn)行哈薩克文;轉(zhuǎn)換規(guī)則
哈薩克文是一種拼音文字,主要有兩種書寫形式,一種是以斯拉夫字母為基礎(chǔ)的斯拉夫哈薩克文,主要在哈薩克斯坦、烏茲別克斯坦、俄羅斯、蒙古國、土庫曼斯坦、吉爾吉斯斯坦和土耳其等國家使用,使用人口近1200萬;另一種是以阿拉伯字母為基礎(chǔ)的現(xiàn)行哈薩克文,是我國哈薩克族民眾使用的書面文字,共有約154萬人使用。由于兩種文字的書寫方式截然不同,在國內(nèi)的哈薩克民眾對外交流往來時,無法認知國外使用的斯拉夫哈薩克文,造成諸多不便,而現(xiàn)在,世界范圍內(nèi)的交流與合作日益頻繁和重要,迫切需要制定準確嚴謹?shù)淖址幋a轉(zhuǎn)換規(guī)則。
(1) 由42個西里爾字母構(gòu)成,書寫方向是從左向右;
(2) 有大寫字母和小寫字母之分,句首字母、雙引號內(nèi)的首字母、專有名詞的首字母以及縮略語的字母須大寫
(3) 存在不發(fā)音也無實意的軟音符“Ь”,和硬音符“Ъ”。
(1) 有33個阿拉伯字母組成,書寫方向是從右向左;
(2) 沒有大小寫之分,但根據(jù)字母在單詞中位置的不同,有四種形態(tài)變化,分為獨立體、首寫體、中寫體和尾寫體,并有三種其特有的標點符號;
(6) 縮略語的每個字母之間有一個且僅有一個空格。
3.1總則
3.1.1 擴展區(qū)編碼字符的轉(zhuǎn)換
斯拉夫哈薩克文編碼字符轉(zhuǎn)換為對應現(xiàn)行哈薩克文字母名義形式的編碼字符就完成了轉(zhuǎn)換工作。但是某些信息系統(tǒng)不能依據(jù)現(xiàn)行哈薩克文字母名義形式的編碼字符選擇正確的變形顯現(xiàn)形式編碼字符用于顯示。針對這種信息系統(tǒng),需將現(xiàn)行哈薩克文字母名義形式的編碼字符依據(jù)現(xiàn)行哈薩克文的書寫習慣進一步轉(zhuǎn)換為正確的變形顯現(xiàn)形式編碼字符。
3.1.2 斯拉夫哈薩克文字母大小寫形式的處理
在斯拉夫哈薩克文編碼字符轉(zhuǎn)換為現(xiàn)行哈薩克文編碼字符的過程中,對同一個西里爾字母的大寫形式和小寫形式采用同樣的方式處理。
3.1.3 鏡像字符的處理
由于書寫方向不同,在斯拉夫哈薩克文轉(zhuǎn)換為現(xiàn)行哈薩克文的過程中,需將一個鏡像字符的編碼字符轉(zhuǎn)換為與之鏡像的另一個編碼字符。表1列出了部分鏡像字符的鏡像關(guān)系,完整的鏡像字符列表可以參考unicode。
表1
3.2一個西里爾字母與一個阿拉伯字母的轉(zhuǎn)換
(1) 表2所示的29個斯拉夫哈薩克文字母,其編碼字符直接轉(zhuǎn)換為對應的現(xiàn)行哈薩克文字母的編碼字符。
表2
(2) 如果1個單詞中存在多于1個如表3所示的斯拉夫哈薩克文元音字母,則單詞中這些元音字母除第一個外,其它全部直接轉(zhuǎn)換為對應現(xiàn)行哈薩克文元音字母的編碼字符。
表3
(3) 如果單詞中存在表3所示的斯拉夫哈薩克文元音字母,同時單詞中也存在如表4所示的斯拉夫哈薩克文字母,則單詞中這些斯拉夫哈薩克文元音字母全部直接轉(zhuǎn)換為對應現(xiàn)行哈薩克文元音字母的編碼字符。
表4
(4) 表5所示的斯拉夫哈薩克文字母й和и,其編碼字符都轉(zhuǎn)換為現(xiàn)行哈薩克文字母的編碼字符,斯拉夫哈薩克文字母э和е都轉(zhuǎn)換為現(xiàn)行哈薩克文字母的編碼字符。
表5
3.3一個西里爾字母與多個阿拉伯字母的轉(zhuǎn)換
(1) 如果1個單詞中存在至少1個如表3所示的斯拉夫哈薩克文元音字母,且單詞中不存在如表4所示的斯拉夫哈薩克文字母,則單詞中這些元音字母的第一個轉(zhuǎn)換為對應現(xiàn)行哈薩克文元音字母的編碼字符,同時在詞首添加字符。
(2) 表6所示的4個斯拉夫哈薩克文字符直接轉(zhuǎn)換為對應的現(xiàn)行哈薩克文字母序列的編碼字符。
表6
(3) 斯拉夫哈薩克文字符ц,當出現(xiàn)在非詞首時,直接轉(zhuǎn)換為對應的現(xiàn)行哈薩克文字母序列的編碼字符。當出現(xiàn)在詞首時,需根據(jù)專用詞匯表確定轉(zhuǎn)換為現(xiàn)行哈薩克文字母或字母序列的編碼字符。
3.4Ъ和Ь的處理
斯拉夫哈薩克文字母Ъ和Ь的編碼字符在轉(zhuǎn)換為現(xiàn)行哈薩克文時忽略。
3.5縮略語的編碼字符轉(zhuǎn)換
相鄰的多個大寫斯拉夫哈薩克文字母編碼字符轉(zhuǎn)換為現(xiàn)行哈薩克文編碼字符時,直接轉(zhuǎn)換為對應的現(xiàn)行哈薩克文編碼字符,然后在現(xiàn)行哈薩克文字母編碼字符之間加1個空格編碼字符。
3.6標點符號的編碼字符轉(zhuǎn)換
現(xiàn)行哈薩克文中因為從右向左的書寫方向,有三個特有的標點符號,分別是逗號() ,問號()和分號(),轉(zhuǎn)換為對應的斯拉夫哈薩克文標點符號的編碼字符逗號(,),問號(?)和分號(;)。
3.7非現(xiàn)行哈薩克文編碼字符的轉(zhuǎn)換
3.7.1 斯拉夫哈薩克文中阿拉伯字符的處理
斯拉夫哈薩克文中的阿拉伯字符應保留不變,同時在阿拉伯字符的前后分別增加零寬空格和零寬不中斷空格。
3.7.2 零寬空格和零寬不中斷空格的處理
忽略斯拉夫哈薩克文中的零寬空格和零寬不中斷空格,同時零寬空格和零寬不中斷空格之間的字符保留不變。
3.7.3 布局和格式控制字符的處理
斯拉夫哈薩克文中的布局和格式控制字符保留不變。
當今世界,各個地的交流和合作日益密切,通過轉(zhuǎn)換規(guī)則和根據(jù)轉(zhuǎn)換規(guī)則設計開發(fā)的轉(zhuǎn)換軟件,使國內(nèi)的哈薩克民眾能夠認知國外的斯拉夫哈薩克文,這對整個哈薩克民族之間的溝通和了解,以及中國與哈薩克斯坦等國的政治經(jīng)濟文化的交流都有著重大意義。
[1] 新疆維吾爾自治區(qū)民語委,《哈薩克語正音法基本規(guī)則》,1997年。
[2] 古麗扎達·海沙,古麗拉·阿東別克,《我國哈薩克族詞匯與哈薩克斯坦詞匯間自動轉(zhuǎn)換的研究》計算機應用與軟件,第29 卷第7 期。
[3] 新疆維吾爾自治區(qū)民語委,《現(xiàn)代哈薩克語》,新疆人民出版社,2002:182-18。
劉金龍(1983.1-),男,漢族,碩士,研究方向:計算機技術(shù)。
The study on the conversion rules between character encodings of Slavic- based Kazakh and Arabic- based Kazakh
Liu Jinlong,Zhang Yan,Dong Jun
(Xinjiang Technical Institute of Physics & Chemistry,Chinese Academy of Sciences,Urumqi,830011,China)
Kazakh language,in the process of its development,has evolved two different writing forms globally- Slavic-based Kazakh and Arabic-based Kazakh.Slavic- based Kazakh is derived from the Slavic letters.But Arabic- based Kazakh is derived from the Arabic letters,which is also called the modern Kazakh. The two writing Kazakh have the same pronunciation, and there is also sound-to-spelling correspondencein Kazakh,so the conversion between the two writing forms are feasible under certain rules.But until now, there is no clear description of the conversion rules in any national or regional standards.Thus,based on the study of the Slavic Kazakh and Arabic Kazakh,this paper advanced a conversion rule between character encodings of the two writing forms.
Slavic- based Kazakh;Arabic- based Kazakh;conversion regulations