亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

維吾爾語、哈薩克語、柯爾克孜語在圖書館編目系統(tǒng)的應(yīng)用

2010-07-18 03:12:04吾守爾斯拉木曹錦梅朱雪蓮陳少鴻

中文信息學(xué)報 2010年4期

吾守爾?斯拉木,曹錦梅,朱雪蓮,陳少鴻

(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046;2.新疆醫(yī)科大學(xué)高等職業(yè)技術(shù)學(xué)院,新疆烏魯木齊830054;3.新疆藝術(shù)學(xué)院基礎(chǔ)部,新疆烏魯木齊830049;4.新疆會計干部培訓(xùn)中心,新疆烏魯木齊830002)

1 操作系統(tǒng)和數(shù)據(jù)庫的UNICODE的發(fā)展歷程

盡管中國的維、哈、柯文字已經(jīng)在 UNICODE 3.1以后得到批準(zhǔn),目前操作系統(tǒng)中,W INDOWS VISTA支持中國少數(shù)民族語言藏語、蒙古語、維吾爾語、彝語,但數(shù)據(jù)庫系統(tǒng)中,卻并不是完全支持,如微軟的SQL SERVER2008。雖然增加了維、哈、柯文字?jǐn)?shù)據(jù)庫的排序,但不是本語,而是維吾爾語的拉丁字母的排序,這樣不能完全滿足少數(shù)民族語種的網(wǎng)絡(luò)信息檢索需求[1]。

2 多語種圖書館編目系統(tǒng)整體解決方案

2.1 統(tǒng)一存儲各種語言數(shù)據(jù)

操作系統(tǒng)：數(shù)據(jù)庫服務(wù)器端是WINDOWSVISTA,JAVA應(yīng)用服務(wù)器端是比較普及的W INDOWS XP。數(shù)據(jù)庫采用支持UNICODE5.0的Oracle10,支持UNICODE5.0的J2EE開發(fā)環(huán)境。數(shù)據(jù)庫的安裝按照全球化語言設(shè)置,定制為NLS-LANG=SIMPLIFIED CHINESE_CH INA.AL32UTF8,字符集編號為873,相應(yīng)的文件是lx20369.nlb,是所有語言的超集,無論什么語言,只要是UNICODE中定義的就包含。完全支持藏語、維吾爾語、哈薩克語、柯爾克孜語、蒙古語、彝語,這樣就可以正常存儲一些少數(shù)民族文字了。表1是維、哈、柯文字在ORACLE數(shù)據(jù)庫中的對照編碼轉(zhuǎn)換實驗測試情況。

以上可以看出,圖書館編目軟件要面對長度不一樣的語言文字的編碼：

占一個字節(jié)的英文字母和阿拉伯?dāng)?shù)字;

占二個或三個字節(jié)的阿拉伯字符(維吾爾語、哈薩克語、柯爾克孜語);

占三個字符的漢語、藏語、蒙古語、彝語等。

(占四個字符的中國古文字,因為沒有安裝輸入法,沒有測試。由于32除以 8等于4,正好目前UNICODE支持的最長四個字節(jié),所以理論上也是沒問題的。)

2.2 統(tǒng)一邏輯存儲

數(shù)據(jù)庫中字段存儲的維吾爾語(阿拉伯語字符)是按邏輯順序存儲的[2],機讀目錄的格式也是按照邏輯順序存儲,子字段順序也是按字母大小寫順序從左到右邏輯存儲。這樣無論是什么語種,無論顯示的方向是從左到右,還是從右到左(維吾爾語、哈薩克語、柯爾克孜語),從上到下(蒙古語、察合臺語),都是邏輯順序,這樣機讀目錄在多語種圖書館內(nèi)部的業(yè)務(wù)規(guī)則各語種是統(tǒng)一的[3]。

邏輯順序的統(tǒng)一意味著檢索順序的統(tǒng)一。檢索的一致性使我們不再為各個語種設(shè)計單獨的檢索策略,使多語種圖書館編目系統(tǒng)的設(shè)計簡單。

2.3 統(tǒng)一顯示字符

不再像過去采用微軟的WEFT軟件將字庫嵌入到網(wǎng)頁文件上,這樣非常麻煩,也是過時的做法。針對XP操作系統(tǒng)的只需下載符合UNICODE的各少數(shù)民族文字的輸入法和字庫(XP補丁不能太舊,要支持UPS10.DLL以上),在VISTA中本身就可以支持蒙、藏、維、彝。我們安裝了新疆大學(xué)維、哈、柯語輸入法,除維吾爾語和微軟的輸入法完全一樣,哈薩克語、柯爾克孜語都正常使用顯示。

2.4 統(tǒng)一字符編碼的轉(zhuǎn)換

采用通用的網(wǎng)絡(luò)服務(wù)器和客戶端瀏覽器的方式,客戶端輸入的維、哈、柯文字是UTF-8格式[4],通過瀏覽器傳到J2EE應(yīng)用服務(wù)器,不進(jìn)行轉(zhuǎn)換,仍然以UTF-8的格式通過JDBC接口傳入數(shù)據(jù)庫,不存在轉(zhuǎn)換問題,避免了亂碼等問題。例如：多語種機讀目錄表”MARC”為例,下列對應(yīng)的SQL數(shù)據(jù)類型對應(yīng)表如表2、表3所示。

表2 機讀目錄表列與SQL數(shù)據(jù)類型對應(yīng)表

表3 機讀目錄表列與Java類型對應(yīng)表

2.5 統(tǒng)一的多語種編目規(guī)則

由于系統(tǒng)要處理多種語言,中文的機讀目錄實際上是脫胎于美國的機讀目錄,對中國少數(shù)民族文字編目涉及較少,國內(nèi)各少數(shù)民族地區(qū)如內(nèi)蒙古也研制本語種的機讀目錄格式(推廣的不充分),這樣容易混亂,所以我們完全采用中文機讀目錄的格式,增加了880字段(可以不增加,系統(tǒng)完全支持民文,為了響應(yīng)國家版權(quán)圖書館的在版編目數(shù)據(jù)CIP,國內(nèi)所有的圖書都有規(guī)范的漢語的目錄),進(jìn)行過渡,系統(tǒng)嵌入民文拉丁字母轉(zhuǎn)換程序,在正文和880字段著錄原文和拉丁羅馬化的民文。

2.6 統(tǒng)一的檢索策略

由于存儲了多語種,所以采用什么檢索方式是非常重要的。因為英文存在大小寫問題,維吾爾語、哈薩克語、柯爾克孜語存在語中、語首、語尾、獨立形式,蒙古語也存在變形字母連接問題。這些問題如果單獨處理,要在程序上增加分支,實際上我們采用了一個非常簡單的辦法,只要在檢索的SQL語句上增加個函數(shù)UPPER()函數(shù)[5],就解決了上述問題,至于漢字的簡體、繁體的聯(lián)連問題,以后再考慮(香港地區(qū)、新加坡用的多,國內(nèi)很少使用,特點是簡體、繁體一并檢索)。這樣就可以達(dá)到字段中的任意檢索,不管形式。另一方面,在SQL語句中增加入口,比如書名字段和880書名替換拉丁羅馬化民文,可同時進(jìn)行檢索。

條件格式：

2.7 統(tǒng)一頁面流程

由于基于統(tǒng)一策略,多語種編目程序流程不設(shè)立分支,一套程序流程,即在應(yīng)用服務(wù)器端運行的程序都是一樣的,各語種在一套程序中運行,將各個語種的差別全部不考慮,讓程序簡單化。瀏覽器首選語言設(shè)置,表4給出了維、哈、柯文字語種代碼。

表 4 中國維、哈、柯文字語種代碼表

系統(tǒng)根據(jù)客戶端瀏覽器的首選語言從服務(wù)器發(fā)送相應(yīng)的語言標(biāo)記的頁面[6]。

2.8 統(tǒng)一用戶界面

針對不同文字流方向的問題,統(tǒng)一原則采用表格頁面的方式,將各個控件都限制在類似單元格中,在一套英文界面中以提示的英文為核心,建立多語種的名稱數(shù)據(jù)庫。

2.9 統(tǒng)一多語言排序

采用 UNICODE編碼,數(shù)據(jù)庫排序只能按照UNICODE的排序方式,即：按照UNICODE編碼的碼位順序排序(按字符代碼的二進(jìn)制排序(漢字的UNICODE是按部首排序的))。雖然可以按照ORACLE的本地化設(shè)置進(jìn)行維、哈、柯語種字符自選設(shè)計排序順序,但意義不大,而且本研究是以實現(xiàn)統(tǒng)一的原則,縮小了個性化的問題。針對各個語種字符特有的排序方式(比如英語的單詞語音排序、維吾爾語字符集特有的排序方式等)都暫時不能直接使用了。準(zhǔn)備以后在查詢語句中添加各民文語種規(guī)范排序文件名。

2.10 統(tǒng)一定義數(shù)據(jù)庫的名稱

由于ORACLE支持維、哈、柯文字的字段名,這就存在選擇什么語言來定義字段,由于涉及計算機數(shù)據(jù)庫字段名,編目員看到的規(guī)范字段名與讀者看到的供顯示的字段名都是不一樣的,如表5所示。

表5 數(shù)據(jù)庫、實體對象、視圖對象、屬性對應(yīng)表

例如,維吾爾語小說《阿凡提的故事》,讀者看到的是“書名：阿凡提的故事”;編目員看到的是“200＄a阿凡提的故事”;機讀目錄書名的字段名是“200＄a”;J2EE定義的O racle數(shù)據(jù)庫字段名是“200”;系統(tǒng)自動轉(zhuǎn)換為：數(shù)據(jù)庫字段名是“M 200”。機讀目錄在數(shù)據(jù)庫內(nèi)容上是不存儲“200”,只有在組裝成機讀目錄,進(jìn)行交換時才進(jìn)行組裝成純文本的字符流的。

書名實體對象(數(shù)據(jù)庫內(nèi)部存儲)、視圖對象(單一數(shù)據(jù)庫的各種顯示表格)、標(biāo)簽(顯示的機讀目錄字段的名稱)是數(shù)據(jù)庫、J2EE開發(fā)環(huán)境、機讀目錄三方對于定義的規(guī)定是不同的,這三方在編程時是要統(tǒng)一協(xié)調(diào)的。

2.11 統(tǒng)一長度的定義

字段定義時,按照字符的長度,將一個字節(jié)的阿拉伯?dāng)?shù)字、英文;兩個字節(jié)的維、哈、柯文;三個字節(jié)的維哈柯擴展區(qū)字符;三個字節(jié)的漢字;四個字節(jié)的中日韓的擴展區(qū)的漢字都統(tǒng)一到“1”的定義,根據(jù)ORACLE數(shù)據(jù)庫字符集UTF-8屬性,自動乘以字節(jié)長度,而得到實際長度。所以在編程時,全部采用符合UNICODE的函數(shù),從根本上破解所有不規(guī)范的問題。

3 民族語言的顯示特性

以上是將維、哈、柯文字統(tǒng)一化處理的策略。但各語言的特性不同,維吾爾語、哈薩克語、柯爾克孜語是橫向,從右到左;簡體中文是從上到下,從左到右。不管文字流的特性如何,只是呈現(xiàn)出來的顯示問題,在數(shù)據(jù)庫中全部按照邏輯順序存儲,數(shù)據(jù)庫與應(yīng)用程序和客戶端都是按照邏輯順序傳送,文字顯示上的語言內(nèi)部的變形、邏輯關(guān)系由操作系統(tǒng)的程序決定,文字方向流由瀏覽器的參數(shù)決定,如表6所示。

表6 各語言顯示方向及語種

4 結(jié)束語

通過以上的整體規(guī)劃實現(xiàn)了圖書館編目的分層管理,如表7所示。

表7 分層管理與分層實現(xiàn)

本文對我國維、哈、柯文字進(jìn)入數(shù)字圖書館系統(tǒng)做了深入研究,通過UTF-8的統(tǒng)一字符編碼格式,使維、哈、柯文字達(dá)到了與漢字同等的應(yīng)用,為少數(shù)民族文化的數(shù)字化發(fā)展提供了具有現(xiàn)實意義的實施方案。同時 UNICODE也解決了漢字與維、哈、柯文字的統(tǒng)一處理問題,目前由我國提案,正在計劃將古維吾爾文添加到UNICODE[7],這樣加快了新疆燦爛悠久的歷史文獻(xiàn)的數(shù)字化進(jìn)程。

[1] 吐爾地?托合提,維尼拉?木沙江,艾斯卡爾?艾木都拉.維、哈、柯多文種全文搜索引擎的設(shè)計與實現(xiàn)[J].計算機應(yīng)用與軟件,2009,26(6)：96-98.

[2] 吉虹.新疆少數(shù)民族圖書館自動化與數(shù)字圖書館[J].現(xiàn)代圖書館情報技術(shù),2002,2：10-12.

[3] 陳少鴻.多語種圖書館編目系統(tǒng)分析與設(shè)計[D].新疆大學(xué),2009.

[4] 吳俊森,吐爾根?依不拉音.基于內(nèi)容的維文文本檢索系統(tǒng)[J].現(xiàn)代計算機,2006.

[5] 蓋國強.循序漸進(jìn)O racle數(shù)據(jù)庫管理、優(yōu)化與備份恢復(fù)[M].北京：人民郵電出版社,2007.

[6] 鄒竹彪.JSP網(wǎng)絡(luò)編程從入門到精通[M].北京：清華大學(xué)出版社,2007.

[7] 地里木拉提?吐爾遜,瓦依提?阿不力孜,吐爾根?伊布拉音.古維吾爾文(察合臺文)及轉(zhuǎn)寫符號的智能輸入法研究[J].中文信息學(xué)報,2007,21(6)：125-128.