亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

圖書(shū)館文本資源數(shù)字化加工標(biāo)準(zhǔn)研究及其應(yīng)用

2014-02-12 15:41:35國(guó)家圖書(shū)館北京100081

圖書(shū)館建設(shè) 2014年3期

龍偉（國(guó)家圖書(shū)館北京 100081）

文本資源是數(shù)字圖書(shū)館資源建設(shè)中最主要、最基礎(chǔ)的資源類型。讀者在圖書(shū)館使用圖書(shū)、報(bào)紙、雜志、報(bào)告等文獻(xiàn)，主要是為了獲取文本內(nèi)容。就目前來(lái)說(shuō)，現(xiàn)代信息技術(shù)對(duì)文本資源的處理是最為先進(jìn)和完善的，比圖像、音頻、視頻信息領(lǐng)域的技術(shù)發(fā)展更加成熟和穩(wěn)定。文本資源在信息檢索、內(nèi)容挖掘、資源共享等各方面都具有顯著的優(yōu)勢(shì)。

1 圖書(shū)館文本資源數(shù)字化加工現(xiàn)狀

圖書(shū)館針對(duì)文本資源數(shù)字化加工形成更為有序的信息內(nèi)容，使文獻(xiàn)信息價(jià)值更加顯著和突出。伴隨著信息技術(shù)的發(fā)展，文本資源數(shù)字化加工方法有很多，采用不同標(biāo)準(zhǔn)，各有所長(zhǎng)。同時(shí)，標(biāo)準(zhǔn)多樣性和復(fù)雜性又制約了文本資源數(shù)字化的發(fā)展。

1.1 國(guó)內(nèi)外信息機(jī)構(gòu)文本資源的數(shù)字化加工

國(guó)外圖書(shū)館在文本資源加工方面開(kāi)展較早，通過(guò)多年的交流和合作，圖書(shū)館、各機(jī)構(gòu)之間相互借鑒和協(xié)調(diào)。美國(guó)國(guó)會(huì)圖書(shū)館的美國(guó)記憶項(xiàng)目[1]、澳大利亞國(guó)家圖書(shū)館藏品數(shù)字化項(xiàng)目[2]、哈佛大學(xué)圖書(shū)館數(shù)字化工程項(xiàng)目[3]針對(duì)文本資源數(shù)字化加工制定了適用的標(biāo)準(zhǔn)和技術(shù)體系。美國(guó)國(guó)會(huì)圖書(shū)館的文本編碼指南為圖書(shū)館不同目的的文本數(shù)字化項(xiàng)目提供了最佳實(shí)踐建議[4]。該指南制定了5個(gè)不同的編碼級(jí)別，使建議盡可能全面，以適用于不同的實(shí)際操作，包括全文自動(dòng)的文本創(chuàng)建和編碼，以及需要專門(mén)內(nèi)容知識(shí)、分析、編輯的編碼內(nèi)容。此外，不少圖書(shū)館及信息保存機(jī)構(gòu)還進(jìn)行了跨機(jī)構(gòu)合作，美國(guó)的FADI（Federal Agencies Digitization Guidelines Initiative，聯(lián)邦政府機(jī)構(gòu)數(shù)字化指南計(jì)劃）制定了用途更廣的一系列資源加工的標(biāo)準(zhǔn)，這使得不同機(jī)構(gòu)的文本資源數(shù)字化加工可以更緊密地合作[5]。

我國(guó)圖書(shū)館文本資源數(shù)字化加工已有10多年的歷史，其加工和保存的技術(shù)方法有很多。早期文本資源數(shù)字化加工以圖像轉(zhuǎn)化為主，在此基礎(chǔ)上我國(guó)探索了數(shù)字圖書(shū)館資源建設(shè)標(biāo)準(zhǔn)，如中國(guó)數(shù)字圖書(shū)館標(biāo)準(zhǔn)建設(shè)項(xiàng)目（Chinese Digital Library Standards，簡(jiǎn)稱CDLS）[6]、大學(xué)數(shù)字圖書(shū)館國(guó)際合作計(jì)劃（China Academic Digital Associative Library，簡(jiǎn)稱CADAL）[7]。我國(guó)在實(shí)施這些項(xiàng)目的過(guò)程中，積累了大量的文本資源數(shù)字化加工的經(jīng)驗(yàn)和成果。在商業(yè)機(jī)構(gòu)中，以北大方正和清華同方為代表，他們?cè)谶@方面進(jìn)行了卓有成效的實(shí)踐。方正電子書(shū)目前已在全球3 000多家學(xué)校、政府機(jī)構(gòu)應(yīng)用。清華同方《中國(guó)知識(shí)資源總庫(kù)》已擁有國(guó)內(nèi)8 500種期刊、700多種報(bào)紙和來(lái)自1 600家機(jī)構(gòu)的學(xué)位論文和會(huì)議論文[8]54-60。在電子文件格式和元數(shù)據(jù)方面，各公司自行研制數(shù)據(jù)加工規(guī)范。

1.2 文本資源數(shù)字化加工的局限性

隨著文本資源數(shù)字化應(yīng)用需求的不斷增長(zhǎng)，文本資源類型和數(shù)量發(fā)展迅速。同時(shí)，文本資源數(shù)字化加工存在的問(wèn)題也就凸現(xiàn)出來(lái)。

1.2.1 缺乏文本資源數(shù)字化加工項(xiàng)目可持續(xù)發(fā)展規(guī)劃

文本資源數(shù)字化加工項(xiàng)目通常是依據(jù)本單位的加工規(guī)范或幾個(gè)合作機(jī)構(gòu)之間臨時(shí)制定的加工方案，故其加工規(guī)范表現(xiàn)出較強(qiáng)的專用性，而這樣的規(guī)范常常立意高度不夠，故在內(nèi)容編碼、數(shù)據(jù)格式、元數(shù)據(jù)方案、質(zhì)量控制等方面缺乏全面考慮，造成同一個(gè)機(jī)構(gòu)的不同文本資源加工項(xiàng)目遵循的標(biāo)準(zhǔn)不一致，給文本資源的長(zhǎng)期保存、利用帶來(lái)一定的挑戰(zhàn)。

1.2.2 缺乏系統(tǒng)性、可操作性的標(biāo)準(zhǔn)

由于歷史、地區(qū)的原因，文本資源加工轉(zhuǎn)化時(shí)采用的標(biāo)準(zhǔn)不同。不同的編碼標(biāo)準(zhǔn)互不兼容，不同標(biāo)準(zhǔn)下處理過(guò)的信息不能通用。雖然數(shù)字圖書(shū)館前期對(duì)文本資源的圖像化做了很多研究和實(shí)踐，但針對(duì)文本資源的不同來(lái)源、不同形式、不同載體資源建設(shè)工作的指導(dǎo)需求，缺乏系統(tǒng)的、可操作程度高的標(biāo)準(zhǔn)。

1.2.3 缺乏體系化的標(biāo)準(zhǔn)

數(shù)字圖書(shū)館建設(shè)需要資源加工和管理標(biāo)準(zhǔn)體系化。文本資源與數(shù)字圖書(shū)館其他類型資源（如圖像、音頻、視頻等）的加工標(biāo)準(zhǔn)沒(méi)有形成體系化，標(biāo)準(zhǔn)間不能相互協(xié)調(diào)、配合，導(dǎo)致依據(jù)不同標(biāo)準(zhǔn)加工的數(shù)字資源可以獨(dú)立使用，但在數(shù)字資源整合時(shí)不能調(diào)用全部資源對(duì)象，造成應(yīng)用障礙。

2 圖書(shū)館文本資源數(shù)字化加工標(biāo)準(zhǔn)研究的重要性

數(shù)字圖書(shū)館是一個(gè)不斷發(fā)展的概念，隨著數(shù)字圖書(shū)館的范式演變，文本資源數(shù)字化加工過(guò)程中的標(biāo)準(zhǔn)問(wèn)題顯得越來(lái)越重要。

2.1 制定文本資源數(shù)字化加工標(biāo)準(zhǔn)的意義

文本資源的內(nèi)容編碼和數(shù)據(jù)格式在國(guó)內(nèi)外都有人研究，并相繼成為正式頒布的標(biāo)準(zhǔn)或事實(shí)應(yīng)用標(biāo)準(zhǔn)。從標(biāo)準(zhǔn)層面來(lái)說(shuō)，它們支持不同的應(yīng)用，各有千秋，但往往不能相互兼容。隨著我國(guó)數(shù)字圖書(shū)館的發(fā)展，標(biāo)準(zhǔn)化已經(jīng)成為我國(guó)數(shù)字圖書(shū)館建設(shè)中的薄弱環(huán)節(jié)和最突出的問(wèn)題。當(dāng)前，為滿足文本資源建設(shè)和服務(wù)的需要，指定一個(gè)通用的文本資源數(shù)字化加工標(biāo)準(zhǔn)十分必要。文本資源數(shù)字化加工標(biāo)準(zhǔn)的研制，有利于控制圖書(shū)館信息資源數(shù)字化質(zhì)量，避免重復(fù)加工，節(jié)省投入，提高信息資源的共享能力，同時(shí)有利于與國(guó)際接軌，其現(xiàn)實(shí)意義巨大。

2.2 文本資源數(shù)字化加工標(biāo)準(zhǔn)的研制

2012年，全國(guó)圖書(shū)館標(biāo)準(zhǔn)化委員會(huì)委托國(guó)家圖書(shū)館牽頭并召集上海圖書(shū)館、北京大學(xué)圖書(shū)館、中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心、首都圖書(shū)館、浙江大學(xué)圖書(shū)館、漢王科技股份有限公司、北京方正阿帕比技術(shù)有限公司研制國(guó)家標(biāo)準(zhǔn)《圖書(shū)館文本資源數(shù)字化加工規(guī)范》。該標(biāo)準(zhǔn)是針對(duì)一般印刷型文獻(xiàn)或其經(jīng)過(guò)數(shù)字化轉(zhuǎn)換后的圖像文件進(jìn)行的文本資源的數(shù)字化加工制定的，涵蓋了文本資源數(shù)字化加工的級(jí)別及內(nèi)容編碼、加工準(zhǔn)備、資源采集與處理、元數(shù)據(jù)加工、文件規(guī)則、質(zhì)量管理等方面的內(nèi)容。在聯(lián)合、開(kāi)放、合作、共享的機(jī)制下，研究成果更具備開(kāi)放性、可靠性和廣泛的應(yīng)用性。

2.3 文本資源數(shù)字化加工標(biāo)準(zhǔn)解決的問(wèn)題

研究文本資源數(shù)字化加工標(biāo)準(zhǔn)的目的是解決文本資源數(shù)字化加工過(guò)程中的通用性、操作性、開(kāi)放性問(wèn)題。

2.3.1 通用性問(wèn)題

文本資源數(shù)字化加工標(biāo)準(zhǔn)或方法只有符合國(guó)際上的通行標(biāo)準(zhǔn)、事實(shí)標(biāo)準(zhǔn)或通行做法，才不會(huì)在國(guó)際交流中產(chǎn)生問(wèn)題，從而保證一定的互操作性。在信息資源全球互通的大環(huán)境下，如果過(guò)于強(qiáng)調(diào)中國(guó)特色、閉門(mén)造車、拒絕國(guó)際通用標(biāo)準(zhǔn)，就無(wú)法在國(guó)際標(biāo)準(zhǔn)環(huán)境下生存。

通用性有利于對(duì)文本資源數(shù)字化加工標(biāo)準(zhǔn)進(jìn)行質(zhì)量控制，一方面，能夠借此建立起統(tǒng)一的質(zhì)量體系和衡量標(biāo)準(zhǔn)；另一方面，具有通用性的標(biāo)準(zhǔn)會(huì)有更多的軟硬件支持，我們可以很容易地利用一些實(shí)用工具來(lái)幫助控制質(zhì)量或改善品質(zhì)。

2.3.2 操作性問(wèn)題

首先，數(shù)字資源建設(shè)是一個(gè)勞動(dòng)密集型的行業(yè)，雖然其對(duì)工作人員具有相當(dāng)?shù)闹R(shí)要求，但大量的基礎(chǔ)工作不能要求一般工作人員都具備應(yīng)付復(fù)雜工作的能力，過(guò)于復(fù)雜的標(biāo)準(zhǔn)和處理過(guò)程也不利于品質(zhì)的控制。標(biāo)準(zhǔn)操作的難易程度要符合工作人員的實(shí)際能力和技術(shù)水平，使一般工作人員經(jīng)過(guò)短時(shí)間的培訓(xùn)就能夠操作。

其次，從發(fā)展趨勢(shì)看，文本資源應(yīng)用的范圍更廣泛，互聯(lián)網(wǎng)、移動(dòng)終端、數(shù)字電視都支持文本資源的應(yīng)用。文本資源數(shù)字化加工標(biāo)準(zhǔn)實(shí)現(xiàn)了統(tǒng)一操作，使異構(gòu)平臺(tái)加工的數(shù)字資源可以滿足多種媒介的服務(wù)。

2.3.3 開(kāi)放性問(wèn)題

數(shù)字圖書(shū)館的資源是各國(guó)乃至全球的知識(shí)信息寶庫(kù)，在資源建設(shè)時(shí)應(yīng)采用盡可能開(kāi)放的數(shù)據(jù)格式。文本資源數(shù)字化加工標(biāo)準(zhǔn)給出的內(nèi)容編碼和格式編碼，從中文信息處理和數(shù)字資源交換共享的兼容性考慮，應(yīng)避免數(shù)字圖書(shū)館資源建設(shè)受制于個(gè)別公司、組織的技術(shù)壟斷或是因?yàn)楣尽⒔M織的倒閉或變更導(dǎo)致缺乏必要的技術(shù)支持。

3 圖書(shū)館文本資源數(shù)字化加工標(biāo)準(zhǔn)的應(yīng)用分析

3.1 文本資源的特征

文本是以字符、符號(hào)、詞、短語(yǔ)、段落、句子、表格或其他字符排列形成的數(shù)據(jù)，用于表達(dá)意義，其解釋基本上取決于讀者對(duì)于某種自然語(yǔ)言或者人工語(yǔ)言的知識(shí)[9]。文本是計(jì)算機(jī)表示文字及符號(hào)等信息的最基本的數(shù)據(jù)類型，一直以來(lái)，文本都是人和計(jì)算機(jī)交互的重要方式。文本資源是文本的表現(xiàn)形式。文本資源的提供方和獲得方都應(yīng)具備一定的文字或符號(hào)的識(shí)別和表達(dá)能力，在相同的文字或符號(hào)體系下通過(guò)對(duì)字符的識(shí)別和表達(dá)進(jìn)行信息交流[10]。文本資源由文本表示屬性及格式信息組成。其中，表示屬性包括字體大小、字體類型、字體格式（加黑、斜體等）、字體定位排版等，格式信息包括標(biāo)題、段落和間距等信息。文本資源可以有邏輯結(jié)構(gòu)，如一本電子圖書(shū)，信息可以邏輯地組織成內(nèi)容摘要、章、節(jié)、術(shù)語(yǔ)表、索引等。其結(jié)構(gòu)由文本包含的信息類型決定。

3.2 文本資源采集方式

大多數(shù)文本資源制作依靠計(jì)算機(jī)鍵盤(pán)錄入。通常，創(chuàng)建數(shù)字文本效率不高，但這是一種較為普及的字符輸入方法，適合處理字體過(guò)小、圖文模糊、版面復(fù)雜的文獻(xiàn)。但圖書(shū)館所擁有的浩如煙海的文獻(xiàn)大都是存在紙質(zhì)媒介上的，因此我們必須先把印刷文獻(xiàn)轉(zhuǎn)換成電子格式，通過(guò)圖像技術(shù)記錄和保存原始文檔的外觀、結(jié)構(gòu)和內(nèi)容，再轉(zhuǎn)換為文本資源。圖像光學(xué)字符識(shí)別是這一轉(zhuǎn)換過(guò)程運(yùn)用的主要技術(shù)。

3.2.1 文本錄入

計(jì)算機(jī)錄入是廣泛使用的文字轉(zhuǎn)換方法，用于文獻(xiàn)原稿重新錄入，并手工增加標(biāo)記。這種方法通常比自動(dòng)識(shí)別加人工校對(duì)的費(fèi)用低。文本資源轉(zhuǎn)換最大的項(xiàng)目之一是美國(guó)國(guó)家數(shù)字圖書(shū)館項(xiàng)目（The National Digital Library Program，簡(jiǎn)稱 NDLP）[11]。

文本分為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)，因此對(duì)文本錄入應(yīng)有一些要求：制作結(jié)構(gòu)化數(shù)據(jù)，應(yīng)忠實(shí)于原稿信息，保留原始文獻(xiàn)中的字符、文字變體等版式信息；而非結(jié)構(gòu)化的文本數(shù)據(jù)制作，則應(yīng)按照內(nèi)容的邏輯順序進(jìn)行錄入，強(qiáng)調(diào)字符、數(shù)字、標(biāo)點(diǎn)、各種可打印的符號(hào)的準(zhǔn)確性和完整性，可以忽略版式信息，如一個(gè)表格或者分欄的文本應(yīng)以單元格或欄目順序進(jìn)行錄入，而不是逐行錄入。

3.2.2 掃描或照相采集

圖像感光技術(shù)（Charge-Coupled Device，簡(jiǎn)稱CCD）、圖像傳感技術(shù)（Complementary Metal Oxide Semiconductor，簡(jiǎn)稱CMOS）等成像技術(shù)是掃描儀或照相機(jī)獲取信息運(yùn)用的采集技術(shù)。圖像采集技術(shù)將文字、符號(hào)等各種信息都看成圖像，因此可以準(zhǔn)確地再現(xiàn)文獻(xiàn)實(shí)物的外貌。在實(shí)際應(yīng)用中，圖像采集必須與光學(xué)字符識(shí)別技術(shù)結(jié)合使用，將圖像轉(zhuǎn)換成計(jì)算機(jī)可識(shí)別的ASCII碼（American Standard Code for Information Interchange，美國(guó)標(biāo)準(zhǔn)信息交換碼），通過(guò)標(biāo)記文本和字符尋找到指定的文字信息。

3.2.3 光學(xué)字符識(shí)別

光學(xué)字符識(shí)別（Optical Character Recognition，簡(jiǎn)稱OCR）是一種自動(dòng)識(shí)別掃描儀、照相機(jī)等采集的圖像中字符的技術(shù)。其基本技術(shù)是先由計(jì)算機(jī)程序?qū)蝹€(gè)字符個(gè)體分離，然后將它們與精確的模版進(jìn)行比較，從而識(shí)別并轉(zhuǎn)換圖像信息中的字符[10]。OCR技術(shù)識(shí)別字符的準(zhǔn)確率與圖像采集質(zhì)量有直接關(guān)系，出錯(cuò)率隨原稿的可辨認(rèn)程度而不同。圖像質(zhì)量受圖像清晰度、噪點(diǎn)、色彩等因素影響。在一般印刷型中文圖書(shū)、報(bào)刊的采集分辨率達(dá)到300dpi、英文等其他語(yǔ)種采集分辨率300dpi的情況下，文字字符識(shí)別的正確率可達(dá)到95%以上[8]27。

3.3 文本資源格式加工系統(tǒng)

3.3.1 標(biāo)記語(yǔ)言格式加工系統(tǒng)

HTML（Hypertext Markup Language，超文本標(biāo)記語(yǔ)言）和XML（Extensible Markup Language，擴(kuò)展標(biāo)記語(yǔ)言）是標(biāo)記語(yǔ)言主要的數(shù)據(jù)文檔格式。

HTML文檔可利用網(wǎng)頁(yè)編輯器創(chuàng)建和查看內(nèi)容信息，使用Internet Explorer瀏覽器顯示文本、圖形和其他的任何內(nèi)容，并可用專門(mén)的Notepad 或 Text Edit 等制作工具進(jìn)行編輯。

專業(yè)的 XML 編輯器會(huì)幫助編寫(xiě)無(wú)錯(cuò)的 XML 文檔，根據(jù)某種 DTD（Document Type Definition，文檔類型定義）或者 schema（一般指XML架構(gòu)）來(lái)驗(yàn)證 XML，以及強(qiáng)制創(chuàng)建合法的 XML 結(jié)構(gòu)。可用的編輯器有基于Windows平臺(tái)的專業(yè)XML writer以及Easy XML和專門(mén)用來(lái)修改、編輯XML文件的工具——XML Blueprint XML Editor。當(dāng)然，也可以通過(guò)一些軟件把其他文件格式轉(zhuǎn)換成XML格式，如把PDF（Portable Document Format，便攜式文檔格式）文件內(nèi)容存成XML的Adobe Acrobat外掛插件或利用Adobe Acrobat編輯器的批處理命令，通過(guò)JAVA Script代碼將PDF轉(zhuǎn)換為XML。

3.3.2 純文本格式加工系統(tǒng)

純文本格式由可打印的字符組成，可以直接閱讀和理解其形式，沒(méi)有任何文本修飾。文本格式的加工和編輯系統(tǒng)在Windows操作系統(tǒng)環(huán)境下，除了系統(tǒng)自帶的Notepad記事本以外，有字處理器（如微軟的Word）可進(jìn)行帶有版式的文字編輯；文本處理器（如Simple Text）則是一款簡(jiǎn)單的、用于ASCII碼的字符編輯器。在DOS環(huán)境下，使用最廣泛的是EDIT文本編輯器，通常是用命令行方式編輯一些程序和批處理文件。

3.3.3 便攜式文檔格式加工系統(tǒng)

PDF由Adobe公司開(kāi)發(fā)，是一種用于文檔交換的電子文件格式。這種文件格式的應(yīng)用與操作系統(tǒng)平臺(tái)無(wú)關(guān)，也就是說(shuō)，PDF文件不管是在Windows、Unix還是在蘋(píng)果公司的Mac OS等各種操作系統(tǒng)中都是通用的。這一特點(diǎn)使PDF文件成為在互聯(lián)網(wǎng)上進(jìn)行電子文檔發(fā)行和數(shù)字化信息傳播的理想文檔格式，越來(lái)越多的電子圖書(shū)、產(chǎn)品說(shuō)明、網(wǎng)絡(luò)資料、電子郵件開(kāi)始使用PDF文件。PDF能保留文件原有格式（Layout），是一個(gè)開(kāi)放的國(guó)際標(biāo)準(zhǔn)。

PDF文檔需要通過(guò)Adobe Acrobat Reader來(lái)閱讀。PDF的電子圖書(shū)可以使用Adobe Acrobat軟件來(lái)制作和編輯，也可以通過(guò)Adobe Acrobat軟件把PDF文件內(nèi)容存成XML格式、HTML格式或TXT純文本格式。

3.4 文本資源內(nèi)容編碼及應(yīng)用

內(nèi)容編碼涉及具體數(shù)據(jù)內(nèi)容的計(jì)算機(jī)編碼形式和標(biāo)記形式，是制約數(shù)字信息可實(shí)用性乃至可持續(xù)性的最基本條件[12]。

3.4.1 ISO/IEC 10646及GB13000

ISO/IEC10646也稱大字符集。該標(biāo)準(zhǔn)規(guī)定了全球現(xiàn)代書(shū)面語(yǔ)言文字所使用的全部字符的標(biāo)準(zhǔn)編碼，用于世界上各種語(yǔ)言文字、字母符號(hào)的數(shù)字化表示、傳輸、交換、處理、儲(chǔ)存、輸入及顯現(xiàn)。在ISO/IEC10646中，中日韓編碼漢字簡(jiǎn)稱CJK。CJK由三部分構(gòu)成，基本級(jí)收錄20 902個(gè)漢字，擴(kuò)充A有6 582個(gè)漢字，擴(kuò)充B有42 771個(gè)漢字，漢字編碼超過(guò)7萬(wàn)個(gè)漢字。

GB13000《信息技術(shù) 通用多八位編碼字符集（UCS）第一部分：體系結(jié)構(gòu)與基本多文種平面》是我國(guó)的國(guó)家標(biāo)準(zhǔn)，與ISO/IEC10646相對(duì)應(yīng)。該標(biāo)準(zhǔn)的漢字編碼空間巨大，可以容納多種文字編碼體系，是我國(guó)編碼體系未來(lái)的發(fā)展方向。它編入了20 902個(gè)漢字，收集了大陸一二級(jí)字庫(kù)中的簡(jiǎn)體字、臺(tái)灣《通用漢字標(biāo)準(zhǔn)交換碼》中的繁體字，基本涵蓋了日文與韓文中的通用漢字，滿足了方方面面的需要。

長(zhǎng)期以來(lái)，各種漢字內(nèi)容編碼互不兼容，使得中文文字編碼呈現(xiàn)多樣性的特點(diǎn)。由于內(nèi)容編碼是數(shù)字資源建設(shè)最基礎(chǔ)的問(wèn)題，因此它的多樣性和混亂會(huì)給數(shù)字資源建設(shè)和應(yīng)用過(guò)程帶來(lái)一系列嚴(yán)重且無(wú)法逆轉(zhuǎn)的問(wèn)題。但是，隨著ISO/IEC10646及GB13000的推進(jìn)，中、日、韓多語(yǔ)種及少數(shù)民族文字使用等問(wèn)題得到重視，兩個(gè)標(biāo)準(zhǔn)在漢字系統(tǒng)的應(yīng)用中發(fā)揮了重要作用。

3.4.2 Unicode

Unicode（統(tǒng)一編碼）是公司聯(lián)盟制定的工業(yè)標(biāo)準(zhǔn)。Unicode3.0與 ISO 10646-1:2000的內(nèi)容、編碼與命名完全相同。1991年10月，兩個(gè)標(biāo)準(zhǔn)的制定者達(dá)成協(xié)議，采用統(tǒng)一編碼字符集。當(dāng)然，兩個(gè)標(biāo)準(zhǔn)在細(xì)節(jié)上有一些差別，如Unicode提供漢字部首/筆畫(huà)索引，ISO10646不提供。在現(xiàn)實(shí)應(yīng)用中Unicode被稱為ISO10646的實(shí)踐版。因此，支持統(tǒng)一編碼的產(chǎn)品亦支持 ISO10646 國(guó)際編碼標(biāo)準(zhǔn)。Unicode有多種傳輸格式，常見(jiàn)的有UTF8、UTF16、UCS-2、UCS-4等。2013年9月，Unicode 6.3版本推出。

Unicode對(duì)我國(guó)的貢獻(xiàn)是解決了簡(jiǎn)繁漢字的統(tǒng)一處理與跨操作系統(tǒng)的自由信息交換問(wèn)題，同時(shí)也解決了漢字與少數(shù)民族文字統(tǒng)一處理的問(wèn)題[13]。在圖書(shū)館、信息機(jī)構(gòu)中，有很多數(shù)字化項(xiàng)目、商業(yè)數(shù)據(jù)庫(kù)采用Unicode編碼，如國(guó)家圖書(shū)館數(shù)字方志，其涉及大量繁體字、異體字轉(zhuǎn)換，為保證異構(gòu)平臺(tái)的加工和應(yīng)用，規(guī)定統(tǒng)一使用Unicode編碼。

3.4.3 ASCII碼

ASCII碼是信息處理領(lǐng)域最基本的字符編碼，主要用于顯示現(xiàn)代英語(yǔ)和其他西歐語(yǔ)言。ASCII碼共定義了256個(gè)代碼，其有兩種形式：標(biāo)準(zhǔn)形式和擴(kuò)展形式。標(biāo)準(zhǔn)ASCII碼也稱基礎(chǔ)ASCII碼，共有128個(gè)字符，包含所有的大小寫(xiě)字母、數(shù)字、標(biāo)點(diǎn)符號(hào)及在美式英語(yǔ)中使用的特殊控制字符。后128個(gè)字符稱為擴(kuò)展ASCII碼，用于特殊符號(hào)字符、外來(lái)語(yǔ)字母和圖形符號(hào)的編碼。

無(wú)格式控制的純文字文件是最簡(jiǎn)單的文檔。其實(shí)說(shuō)純文本也不盡然，其文字編碼方式、空格、換行都是格式問(wèn)題。不同系統(tǒng)對(duì)換行標(biāo)志的不同規(guī)定給純文本文檔的轉(zhuǎn)換帶來(lái)了麻煩。MacOS系統(tǒng)采用的是回車符（ASCII碼13），Unix系統(tǒng)采用的是換行符（ASCII碼10），而DOS和Windows系統(tǒng)則在每行的結(jié)尾加上換行和回車兩個(gè)字符。但對(duì)于純西文字符、符號(hào)、數(shù)字處理，采用ASCII碼進(jìn)行編碼是最佳選擇。

4 圖書(shū)館文本資源數(shù)字化加工標(biāo)準(zhǔn)的發(fā)展

文本資源數(shù)字化加工標(biāo)準(zhǔn)的研制將有益于數(shù)字圖書(shū)館建設(shè)。在對(duì)其的實(shí)際應(yīng)用中應(yīng)該注意以下幾點(diǎn)。

4.1 文本資源數(shù)字化加工標(biāo)準(zhǔn)的適應(yīng)性

國(guó)際標(biāo)準(zhǔn)化組織將“標(biāo)準(zhǔn)”定義為“由一個(gè)公認(rèn)的機(jī)構(gòu)制定和批準(zhǔn)的文件。它對(duì)活動(dòng)或活動(dòng)的結(jié)果規(guī)定了規(guī)則、導(dǎo)則或特殊值，供共同和反復(fù)使用，以實(shí)現(xiàn)在預(yù)定領(lǐng)域內(nèi)最佳秩序的效果”[14]。筆者認(rèn)為，標(biāo)準(zhǔn)是宏觀層面的規(guī)則。在具體應(yīng)用中，標(biāo)準(zhǔn)內(nèi)容與實(shí)際要求特別是細(xì)節(jié)處理的需求存在一定差異。當(dāng)“標(biāo)準(zhǔn)”給出的選擇比較寬泛的情況下，如有多種內(nèi)容編碼和格式編碼，應(yīng)根據(jù)建設(shè)目的，做適應(yīng)性、理性的選擇。

4.2 文本資源數(shù)字化加工標(biāo)準(zhǔn)的實(shí)用性

標(biāo)準(zhǔn)既來(lái)自于實(shí)踐的需要，同時(shí)也是長(zhǎng)期實(shí)踐經(jīng)驗(yàn)的總結(jié)。文本資源在數(shù)字化加工中涉及技術(shù)、內(nèi)容等多個(gè)方面。隨著信息技術(shù)的發(fā)展，數(shù)字化加工技術(shù)也會(huì)不斷提高，在經(jīng)過(guò)實(shí)踐驗(yàn)證之后，一旦產(chǎn)生新的具有普遍需要的加工方法，應(yīng)及時(shí)對(duì)文本資源數(shù)字化加工技術(shù)和方法進(jìn)行標(biāo)準(zhǔn)化、規(guī)范化的統(tǒng)一處理，以保持標(biāo)準(zhǔn)的實(shí)用性。另外，隨著生產(chǎn)加工服務(wù)需求的演變，我們既要對(duì)現(xiàn)有標(biāo)準(zhǔn)進(jìn)行靈活應(yīng)用，也要看到標(biāo)準(zhǔn)的不足，針對(duì)標(biāo)準(zhǔn)中的不適應(yīng)內(nèi)容進(jìn)行及時(shí)修訂，加強(qiáng)標(biāo)準(zhǔn)的維護(hù)和管理。

4.3 數(shù)字圖書(shū)館標(biāo)準(zhǔn)之間的協(xié)調(diào)性

數(shù)字圖書(shū)館資源類型的多樣化需要一套完整的數(shù)字資源建設(shè)標(biāo)準(zhǔn)體系來(lái)支撐，只依靠一個(gè)“文本資源加工標(biāo)準(zhǔn)”顯然是不行的。文本資源數(shù)字化加工標(biāo)準(zhǔn)應(yīng)與數(shù)字對(duì)象加工標(biāo)準(zhǔn)、元數(shù)據(jù)應(yīng)用、數(shù)字資源唯一標(biāo)識(shí)符等相關(guān)標(biāo)準(zhǔn)之間有著密切的關(guān)系，既相互聯(lián)系又相互影響。處理好各種標(biāo)準(zhǔn)應(yīng)用之間的關(guān)系，是數(shù)字資源建設(shè)有效性的保障。

[1]Requests Proposals for Digital Images from Original Documents Text Conversion and SGML-Encoding National Digital Library Program[EB/OL].[2012-09-10]. http://memory.loc.gov/ammem/prpsal/rfp18.pdf.

[2]Digitisation Guidelines [EB/OL].[2012-09-10]. http://www.nla.gov.au/standards/digitisation-guidelines.

[3]Guidance for Digitizing Text [EB/OL]. [2012-09-10]. http://preserve.harvard.edu/guidelines/textdig.html.

[4]TEI Text Encoding in Libraries Guidelines for Best Encoding Practices [EB/OL].[2012-09-20].http://old.diglib.org/standards/tei.htm.

[5]Federal Agencies Digitization Guidelines Initiative [EB/OL].[2012-09-20].http://www.digitizationguidelines.gov/.

[6]我國(guó)數(shù)字圖書(shū)館標(biāo)準(zhǔn)規(guī)范建設(shè)項(xiàng)目[EB/OL]. [2012-09-10]. http://cdls.nstl.gov.cn.

[7]CADAL項(xiàng)目[EB/OL].[2012-09-10].http://www.cadal.cn/.

[8]龍偉,羅云川.國(guó)家圖書(shū)館文本數(shù)據(jù)加工標(biāo)準(zhǔn)和操作指南[M].北京:國(guó)家圖書(shū)館出版社,2012.

[9]顧 .國(guó)家標(biāo)準(zhǔn)《信息與文獻(xiàn) 術(shù)語(yǔ)》 [M].北京:中國(guó)標(biāo)準(zhǔn)出版社,2010.

[10]孫一鋼, 聶華, 常林,等.通用數(shù)字資源(文本數(shù)據(jù))格式標(biāo)準(zhǔn)分析報(bào)告[EB/OL].[2012-09-10]. http://cdls.nstl.gov.cn/2003/Process/.

[11]About the Collections[EB/OL].[2012-10-10].http://memory.loc.gov/ammem/about/about.html.

[12]彭緒庶,蔣穎.資源數(shù)字化標(biāo)準(zhǔn)問(wèn)題研究[M].北京:北京圖書(shū)館出版社,2005.

[13]代紅,陳壯.中文信息技術(shù)的基礎(chǔ)標(biāo)準(zhǔn)與中文編碼字符集的國(guó)際標(biāo)準(zhǔn)化[J].信息技術(shù)與標(biāo)準(zhǔn)化,2008(7):36-40.

[14]孫衛(wèi)，趙悅. 圖書(shū)館信息化標(biāo)準(zhǔn)工作評(píng)析[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2009(7/8):33.