龍 偉 (國(guó)家圖書(shū)館 北京 100081)
文本資源是數(shù)字圖書(shū)館資源建設(shè)中最主要、最基礎(chǔ)的資源類型。讀者在圖書(shū)館使用圖書(shū)、報(bào)紙、雜志、報(bào)告等文獻(xiàn),主要是為了獲取文本內(nèi)容。就目前來(lái)說(shuō),現(xiàn)代信息技術(shù)對(duì)文本資源的處理是最為先進(jìn)和完善的,比圖像、音頻、視頻信息領(lǐng)域的技術(shù)發(fā)展更加成熟和穩(wěn)定。文本資源在信息檢索、內(nèi)容挖掘、資源共享等各方面都具有顯著的優(yōu)勢(shì)。
圖書(shū)館針對(duì)文本資源數(shù)字化加工形成更為有序的信息內(nèi)容,使文獻(xiàn)信息價(jià)值更加顯著和突出。伴隨著信息技術(shù)的發(fā)展,文本資源數(shù)字化加工方法有很多,采用不同標(biāo)準(zhǔn),各有所長(zhǎng)。同時(shí),標(biāo)準(zhǔn)多樣性和復(fù)雜性又制約了文本資源數(shù)字化的發(fā)展。
國(guó)外圖書(shū)館在文本資源加工方面開(kāi)展較早,通過(guò)多年的交流和合作,圖書(shū)館、各機(jī)構(gòu)之間相互借鑒和協(xié)調(diào)。美國(guó)國(guó)會(huì)圖書(shū)館的美國(guó)記憶項(xiàng)目[1]、澳大利亞國(guó)家圖書(shū)館藏品數(shù)字化項(xiàng)目[2]、哈佛大學(xué)圖書(shū)館數(shù)字化工程項(xiàng)目[3]針對(duì)文本資源數(shù)字化加工制定了適用的標(biāo)準(zhǔn)和技術(shù)體系。美國(guó)國(guó)會(huì)圖書(shū)館的文本編碼指南為圖書(shū)館不同目的的文本數(shù)字化項(xiàng)目提供了最佳實(shí)踐建議[4]。該指南制定了5個(gè)不同的編碼級(jí)別,使建議盡可能全面,以適用于不同的實(shí)際操作,包括全文自動(dòng)的文本創(chuàng)建和編碼,以及需要專門(mén)內(nèi)容知識(shí)、分析、編輯的編碼內(nèi)容。此外,不少圖書(shū)館及信息保存機(jī)構(gòu)還進(jìn)行了跨機(jī)構(gòu)合作,美國(guó)的FADI(Federal Agencies Digitization Guidelines Initiative,聯(lián)邦政府機(jī)構(gòu)數(shù)字化指南計(jì)劃)制定了用途更廣的一系列資源加工的標(biāo)準(zhǔn),這使得不同機(jī)構(gòu)的文本資源數(shù)字化加工可以更緊密地合作[5]。
我國(guó)圖書(shū)館文本資源數(shù)字化加工已有10多年的歷史,其加工和保存的技術(shù)方法有很多。早期文本資源數(shù)字化加工以圖像轉(zhuǎn)化為主,在此基礎(chǔ)上我國(guó)探索了數(shù)字圖書(shū)館資源建設(shè)標(biāo)準(zhǔn),如中國(guó)數(shù)字圖書(shū)館標(biāo)準(zhǔn)建設(shè)項(xiàng)目(Chinese Digital Library Standards,簡(jiǎn)稱CDLS)[6]、大學(xué)數(shù)字圖書(shū)館國(guó)際合作計(jì)劃(China Academic Digital Associative Library,簡(jiǎn)稱CADAL)[7]。我國(guó)在實(shí)施這些項(xiàng)目的過(guò)程中,積累了大量的文本資源數(shù)字化加工的經(jīng)驗(yàn)和成果。在商業(yè)機(jī)構(gòu)中,以北大方正和清華同方為代表,他們?cè)谶@方面進(jìn)行了卓有成效的實(shí)踐。方正電子書(shū)目前已在全球3 000多家學(xué)校、政府機(jī)構(gòu)應(yīng)用。清華同方《中國(guó)知識(shí)資源總庫(kù)》已擁有國(guó)內(nèi)8 500種期刊、700多種報(bào)紙和來(lái)自1 600家機(jī)構(gòu)的學(xué)位論文和會(huì)議論文[8]54-60。在電子文件格式和元數(shù)據(jù)方面,各公司自行研制數(shù)據(jù)加工規(guī)范。
隨著文本資源數(shù)字化應(yīng)用需求的不斷增長(zhǎng),文本資源類型和數(shù)量發(fā)展迅速。同時(shí),文本資源數(shù)字化加工存在的問(wèn)題也就凸現(xiàn)出來(lái)。
1.2.1 缺乏文本資源數(shù)字化加工項(xiàng)目可持續(xù)發(fā)展規(guī)劃
文本資源數(shù)字化加工項(xiàng)目通常是依據(jù)本單位的加工規(guī)范或幾個(gè)合作機(jī)構(gòu)之間臨時(shí)制定的加工方案,故其加工規(guī)范表現(xiàn)出較強(qiáng)的專用性,而這樣的規(guī)范常常立意高度不夠,故在內(nèi)容編碼、數(shù)據(jù)格式、元數(shù)據(jù)方案、質(zhì)量控制等方面缺乏全面考慮,造成同一個(gè)機(jī)構(gòu)的不同文本資源加工項(xiàng)目遵循的標(biāo)準(zhǔn)不一致,給文本資源的長(zhǎng)期保存、利用帶來(lái)一定的挑戰(zhàn)。
1.2.2 缺乏系統(tǒng)性、可操作性的標(biāo)準(zhǔn)
由于歷史、地區(qū)的原因,文本資源加工轉(zhuǎn)化時(shí)采用的標(biāo)準(zhǔn)不同。不同的編碼標(biāo)準(zhǔn)互不兼容,不同標(biāo)準(zhǔn)下處理過(guò)的信息不能通用。雖然數(shù)字圖書(shū)館前期對(duì)文本資源的圖像化做了很多研究和實(shí)踐,但針對(duì)文本資源的不同來(lái)源、不同形式、不同載體資源建設(shè)工作的指導(dǎo)需求,缺乏系統(tǒng)的、可操作程度高的標(biāo)準(zhǔn)。
1.2.3 缺乏體系化的標(biāo)準(zhǔn)
數(shù)字圖書(shū)館建設(shè)需要資源加工和管理標(biāo)準(zhǔn)體系化。文本資源與數(shù)字圖書(shū)館其他類型資源(如圖像、音頻、視頻等)的加工標(biāo)準(zhǔn)沒(méi)有形成體系化,標(biāo)準(zhǔn)間不能相互協(xié)調(diào)、配合,導(dǎo)致依據(jù)不同標(biāo)準(zhǔn)加工的數(shù)字資源可以獨(dú)立使用,但在數(shù)字資源整合時(shí)不能調(diào)用全部資源對(duì)象,造成應(yīng)用障礙。
數(shù)字圖書(shū)館是一個(gè)不斷發(fā)展的概念,隨著數(shù)字圖書(shū)館的范式演變,文本資源數(shù)字化加工過(guò)程中的標(biāo)準(zhǔn)問(wèn)題顯得越來(lái)越重要。
文本資源的內(nèi)容編碼和數(shù)據(jù)格式在國(guó)內(nèi)外都有人研究,并相繼成為正式頒布的標(biāo)準(zhǔn)或事實(shí)應(yīng)用標(biāo)準(zhǔn)。從標(biāo)準(zhǔn)層面來(lái)說(shuō),它們支持不同的應(yīng)用,各有千秋,但往往不能相互兼容。隨著我國(guó)數(shù)字圖書(shū)館的發(fā)展,標(biāo)準(zhǔn)化已經(jīng)成為我國(guó)數(shù)字圖書(shū)館建設(shè)中的薄弱環(huán)節(jié)和最突出的問(wèn)題。當(dāng)前,為滿足文本資源建設(shè)和服務(wù)的需要,指定一個(gè)通用的文本資源數(shù)字化加工標(biāo)準(zhǔn)十分必要。文本資源數(shù)字化加工標(biāo)準(zhǔn)的研制,有利于控制圖書(shū)館信息資源數(shù)字化質(zhì)量,避免重復(fù)加工,節(jié)省投入,提高信息資源的共享能力,同時(shí)有利于與國(guó)際接軌,其現(xiàn)實(shí)意義巨大。
2012年,全國(guó)圖書(shū)館標(biāo)準(zhǔn)化委員會(huì)委托國(guó)家圖書(shū)館牽頭并召集上海圖書(shū)館、北京大學(xué)圖書(shū)館、中國(guó)科學(xué)院文獻(xiàn)情報(bào)中心、首都圖書(shū)館、浙江大學(xué)圖書(shū)館、漢王科技股份有限公司、北京方正阿帕比技術(shù)有限公司研制國(guó)家標(biāo)準(zhǔn)《圖書(shū)館文本資源數(shù)字化加工規(guī)范》。該標(biāo)準(zhǔn)是針對(duì)一般印刷型文獻(xiàn)或其經(jīng)過(guò)數(shù)字化轉(zhuǎn)換后的圖像文件進(jìn)行的文本資源的數(shù)字化加工制定的,涵蓋了文本資源數(shù)字化加工的級(jí)別及內(nèi)容編碼、加工準(zhǔn)備、資源采集與處理、元數(shù)據(jù)加工、文件規(guī)則、質(zhì)量管理等方面的內(nèi)容。在聯(lián)合、開(kāi)放、合作、共享的機(jī)制下,研究成果更具備開(kāi)放性、可靠性和廣泛的應(yīng)用性。
研究文本資源數(shù)字化加工標(biāo)準(zhǔn)的目的是解決文本資源數(shù)字化加工過(guò)程中的通用性、操作性、開(kāi)放性問(wèn)題。
2.3.1 通用性問(wèn)題
文本資源數(shù)字化加工標(biāo)準(zhǔn)或方法只有符合國(guó)際上的通行標(biāo)準(zhǔn)、事實(shí)標(biāo)準(zhǔn)或通行做法,才不會(huì)在國(guó)際交流中產(chǎn)生問(wèn)題,從而保證一定的互操作性。在信息資源全球互通的大環(huán)境下,如果過(guò)于強(qiáng)調(diào)中國(guó)特色、閉門(mén)造車、拒絕國(guó)際通用標(biāo)準(zhǔn),就無(wú)法在國(guó)際標(biāo)準(zhǔn)環(huán)境下生存。
通用性有利于對(duì)文本資源數(shù)字化加工標(biāo)準(zhǔn)進(jìn)行質(zhì)量控制,一方面,能夠借此建立起統(tǒng)一的質(zhì)量體系和衡量標(biāo)準(zhǔn);另一方面,具有通用性的標(biāo)準(zhǔn)會(huì)有更多的軟硬件支持,我們可以很容易地利用一些實(shí)用工具來(lái)幫助控制質(zhì)量或改善品質(zhì)。
2.3.2 操作性問(wèn)題
首先,數(shù)字資源建設(shè)是一個(gè)勞動(dòng)密集型的行業(yè),雖然其對(duì)工作人員具有相當(dāng)?shù)闹R(shí)要求,但大量的基礎(chǔ)工作不能要求一般工作人員都具備應(yīng)付復(fù)雜工作的能力,過(guò)于復(fù)雜的標(biāo)準(zhǔn)和處理過(guò)程也不利于品質(zhì)的控制。標(biāo)準(zhǔn)操作的難易程度要符合工作人員的實(shí)際能力和技術(shù)水平,使一般工作人員經(jīng)過(guò)短時(shí)間的培訓(xùn)就能夠操作。
其次,從發(fā)展趨勢(shì)看,文本資源應(yīng)用的范圍更廣泛,互聯(lián)網(wǎng)、移動(dòng)終端、數(shù)字電視都支持文本資源的應(yīng)用。文本資源數(shù)字化加工標(biāo)準(zhǔn)實(shí)現(xiàn)了統(tǒng)一操作,使異構(gòu)平臺(tái)加工的數(shù)字資源可以滿足多種媒介的服務(wù)。
2.3.3 開(kāi)放性問(wèn)題
數(shù)字圖書(shū)館的資源是各國(guó)乃至全球的知識(shí)信息寶庫(kù),在資源建設(shè)時(shí)應(yīng)采用盡可能開(kāi)放的數(shù)據(jù)格式。文本資源數(shù)字化加工標(biāo)準(zhǔn)給出的內(nèi)容編碼和格式編碼,從中文信息處理和數(shù)字資源交換共享的兼容性考慮,應(yīng)避免數(shù)字圖書(shū)館資源建設(shè)受制于個(gè)別公司、組織的技術(shù)壟斷或是因?yàn)楣尽⒔M織的倒閉或變更導(dǎo)致缺乏必要的技術(shù)支持。
文本是以字符、符號(hào)、詞、短語(yǔ)、段落、句子、表格或其他字符排列形成的數(shù)據(jù),用于表達(dá)意義,其解釋基本上取決于讀者對(duì)于某種自然語(yǔ)言或者人工語(yǔ)言的知識(shí)[9]。文本是計(jì)算機(jī)表示文字及符號(hào)等信息的最基本的數(shù)據(jù)類型,一直以來(lái),文本都是人和計(jì)算機(jī)交互的重要方式。文本資源是文本的表現(xiàn)形式。文本資源的提供方和獲得方都應(yīng)具備一定的文字或符號(hào)的識(shí)別和表達(dá)能力,在相同的文字或符號(hào)體系下通過(guò)對(duì)字符的識(shí)別和表達(dá)進(jìn)行信息交流[10]。 文本資源由文本表示屬性及格式信息組成。其中,表示屬性包括字體大小、字體類型、字體格式(加黑、斜體等)、字體定位排版等,格式信息包括標(biāo)題、段落和間距等信息。文本資源可以有邏輯結(jié)構(gòu),如一本電子圖書(shū),信息可以邏輯地組織成內(nèi)容摘要、章、節(jié)、術(shù)語(yǔ)表、索引等。其結(jié)構(gòu)由文本包含的信息類型決定。
大多數(shù)文本資源制作依靠計(jì)算機(jī)鍵盤(pán)錄入。通常,創(chuàng)建數(shù)字文本效率不高,但這是一種較為普及的字符輸入方法,適合處理字體過(guò)小、圖文模糊、版面復(fù)雜的文獻(xiàn)。但圖書(shū)館所擁有的浩如煙海的文獻(xiàn)大都是存在紙質(zhì)媒介上的,因此我們必須先把印刷文獻(xiàn)轉(zhuǎn)換成電子格式,通過(guò)圖像技術(shù)記錄和保存原始文檔的外觀、結(jié)構(gòu)和內(nèi)容,再轉(zhuǎn)換為文本資源。圖像光學(xué)字符識(shí)別是這一轉(zhuǎn)換過(guò)程運(yùn)用的主要技術(shù)。
3.2.1 文本錄入
計(jì)算機(jī)錄入是廣泛使用的文字轉(zhuǎn)換方法,用于文獻(xiàn)原稿重新錄入,并手工增加標(biāo)記。這種方法通常比自動(dòng)識(shí)別加人工校對(duì)的費(fèi)用低。文本資源轉(zhuǎn)換最大的項(xiàng)目之一是美國(guó)國(guó)家數(shù)字圖書(shū)館項(xiàng)目(The National Digital Library Program,簡(jiǎn)稱 NDLP)[11]。
文本分為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),因此對(duì)文本錄入應(yīng)有一些要求:制作結(jié)構(gòu)化數(shù)據(jù),應(yīng)忠實(shí)于原稿信息,保留原始文獻(xiàn)中的字符、文字變體等版式信息;而非結(jié)構(gòu)化的文本數(shù)據(jù)制作,則應(yīng)按照內(nèi)容的邏輯順序進(jìn)行錄入,強(qiáng)調(diào)字符、數(shù)字、標(biāo)點(diǎn)、各種可打印的符號(hào)的準(zhǔn)確性和完整性,可以忽略版式信息,如一個(gè)表格或者分欄的文本應(yīng)以單元格或欄目順序進(jìn)行錄入,而不是逐行錄入。
3.2.2 掃描或照相采集
圖像感光技術(shù)(Charge-Coupled Device,簡(jiǎn)稱CCD)、圖像傳感技術(shù)(Complementary Metal Oxide Semiconductor,簡(jiǎn)稱CMOS)等成像技術(shù)是掃描儀或照相機(jī)獲取信息運(yùn)用的采集技術(shù)。圖像采集技術(shù)將文字、符號(hào)等各種信息都看成圖像,因此可以準(zhǔn)確地再現(xiàn)文獻(xiàn)實(shí)物的外貌。在實(shí)際應(yīng)用中,圖像采集必須與光學(xué)字符識(shí)別技術(shù)結(jié)合使用,將圖像轉(zhuǎn)換成計(jì)算機(jī)可識(shí)別的ASCII碼(American Standard Code for Information Interchange,美國(guó)標(biāo)準(zhǔn)信息交換碼),通過(guò)標(biāo)記文本和字符尋找到指定的文字信息。
3.2.3 光學(xué)字符識(shí)別
光學(xué)字符識(shí)別(Optical Character Recognition,簡(jiǎn)稱OCR)是一種自動(dòng)識(shí)別掃描儀、照相機(jī)等采集的圖像中字符的技術(shù)。其基本技術(shù)是先由計(jì)算機(jī)程序?qū)蝹€(gè)字符個(gè)體分離,然后將它們與精確的模版進(jìn)行比較,從而識(shí)別并轉(zhuǎn)換圖像信息中的字符[10]。OCR技術(shù)識(shí)別字符的準(zhǔn)確率與圖像采集質(zhì)量有直接關(guān)系,出錯(cuò)率隨原稿的可辨認(rèn)程度而不同。圖像質(zhì)量受圖像清晰度、噪點(diǎn)、色彩等因素影響。在一般印刷型中文圖書(shū)、報(bào)刊的采集分辨率達(dá)到300dpi、英文等其他語(yǔ)種采集分辨率300dpi的情況下,文字字符識(shí)別的正確率可達(dá)到95%以上[8]27。
3.3.1 標(biāo)記語(yǔ)言格式加工系統(tǒng)
HTML(Hypertext Markup Language,超文本標(biāo)記語(yǔ)言)和XML(Extensible Markup Language,擴(kuò)展標(biāo)記語(yǔ)言)是標(biāo)記語(yǔ)言主要的數(shù)據(jù)文檔格式。
HTML文檔可利用網(wǎng)頁(yè)編輯器創(chuàng)建和查看內(nèi)容信息,使用Internet Explorer瀏覽器顯示文本、圖形和其他的任何內(nèi)容,并可用專門(mén)的Notepad 或 Text Edit 等制作工具進(jìn)行編輯。
專業(yè)的 XML 編輯器會(huì)幫助編寫(xiě)無(wú)錯(cuò)的 XML 文檔,根據(jù)某種 DTD(Document Type Definition,文檔類型定義)或者 schema(一般指XML架構(gòu))來(lái)驗(yàn)證 XML,以及強(qiáng)制創(chuàng)建合法的 XML 結(jié)構(gòu)。可用的編輯器有基于Windows平臺(tái)的專業(yè)XML writer以及Easy XML和專門(mén)用來(lái)修改、編輯XML文件的工具——XML Blueprint XML Editor。當(dāng)然,也可以通過(guò)一些軟件把其他文件格式轉(zhuǎn)換成XML格式,如把PDF(Portable Document Format,便攜式文檔格式)文件內(nèi)容存成XML的Adobe Acrobat外掛插件或利用Adobe Acrobat編輯器的批處理命令,通過(guò)JAVA Script代碼將PDF轉(zhuǎn)換為XML。
3.3.2 純文本格式加工系統(tǒng)
純文本格式由可打印的字符組成,可以直接閱讀和理解其形式,沒(méi)有任何文本修飾。文本格式的加工和編輯系統(tǒng)在Windows操作系統(tǒng)環(huán)境下,除了系統(tǒng)自帶的Notepad記事本以外,有字處理器(如微軟的Word)可進(jìn)行帶有版式的文字編輯;文本處理器(如Simple Text)則是一款簡(jiǎn)單的、用于ASCII碼的字符編輯器。在DOS環(huán)境下,使用最廣泛的是EDIT文本編輯器,通常是用命令行方式編輯一些程序和批處理文件。
3.3.3 便攜式文檔格式加工系統(tǒng)
PDF由Adobe公司開(kāi)發(fā),是一種用于文檔交換的電子文件格式。這種文件格式的應(yīng)用與操作系統(tǒng)平臺(tái)無(wú)關(guān),也就是說(shuō),PDF文件不管是在Windows、Unix還是在蘋(píng)果公司的Mac OS等各種操作系統(tǒng)中都是通用的。這一特點(diǎn)使PDF文件成為在互聯(lián)網(wǎng)上進(jìn)行電子文檔發(fā)行和數(shù)字化信息傳播的理想文檔格式,越來(lái)越多的電子圖書(shū)、產(chǎn)品說(shuō)明、網(wǎng)絡(luò)資料、電子郵件開(kāi)始使用PDF文件。PDF能保留文件原有格式(Layout),是一個(gè)開(kāi)放的國(guó)際標(biāo)準(zhǔn)。
PDF文檔需要通過(guò)Adobe Acrobat Reader來(lái)閱讀。PDF的電子圖書(shū)可以使用Adobe Acrobat軟件來(lái)制作和編輯,也可以通過(guò)Adobe Acrobat軟件把PDF文件內(nèi)容存成XML格式、HTML格式或TXT純文本格式。
內(nèi)容編碼涉及具體數(shù)據(jù)內(nèi)容的計(jì)算機(jī)編碼形式和標(biāo)記形式,是制約數(shù)字信息可實(shí)用性乃至可持續(xù)性的最基本條件[12]。
3.4.1 ISO/IEC 10646及GB13000
ISO/IEC10646也稱大字符集。該標(biāo)準(zhǔn)規(guī)定了全球現(xiàn)代書(shū)面語(yǔ)言文字所使用的全部字符的標(biāo)準(zhǔn)編碼,用于世界上各種語(yǔ)言文字、字母符號(hào)的數(shù)字化表示、傳輸、交換、處理、儲(chǔ)存、輸入及顯現(xiàn)。在ISO/IEC10646中,中日韓編碼漢字簡(jiǎn)稱CJK。CJK由三部分構(gòu)成,基本級(jí)收錄20 902個(gè)漢字,擴(kuò)充A有6 582個(gè)漢字,擴(kuò)充B有42 771個(gè)漢字,漢字編碼超過(guò)7萬(wàn)個(gè)漢字。
GB13000《信息技術(shù) 通用多八位編碼字符集(UCS)第一部分:體系結(jié)構(gòu)與基本多文種平面》是我國(guó)的國(guó)家標(biāo)準(zhǔn),與ISO/IEC10646相對(duì)應(yīng)。該標(biāo)準(zhǔn)的漢字編碼空間巨大,可以容納多種文字編碼體系,是我國(guó)編碼體系未來(lái)的發(fā)展方向。它編入了20 902個(gè)漢字,收集了大陸一二級(jí)字庫(kù)中的簡(jiǎn)體字、臺(tái)灣《通用漢字標(biāo)準(zhǔn)交換碼》中的繁體字,基本涵蓋了日文與韓文中的通用漢字,滿足了方方面面的需要。
長(zhǎng)期以來(lái),各種漢字內(nèi)容編碼互不兼容,使得中文文字編碼呈現(xiàn)多樣性的特點(diǎn)。由于內(nèi)容編碼是數(shù)字資源建設(shè)最基礎(chǔ)的問(wèn)題,因此它的多樣性和混亂會(huì)給數(shù)字資源建設(shè)和應(yīng)用過(guò)程帶來(lái)一系列嚴(yán)重且無(wú)法逆轉(zhuǎn)的問(wèn)題。但是,隨著ISO/IEC10646及GB13000的推進(jìn),中、日、韓多語(yǔ)種及少數(shù)民族文字使用等問(wèn)題得到重視,兩個(gè)標(biāo)準(zhǔn)在漢字系統(tǒng)的應(yīng)用中發(fā)揮了重要作用。
3.4.2 Unicode
Unicode(統(tǒng)一編碼)是公司聯(lián)盟制定的工業(yè)標(biāo)準(zhǔn)。Unicode3.0與 ISO 10646-1:2000的內(nèi)容、編碼與命名完全相同。1991年10月,兩個(gè)標(biāo)準(zhǔn)的制定者達(dá)成協(xié)議,采用統(tǒng)一編碼字符集。當(dāng)然,兩個(gè)標(biāo)準(zhǔn)在細(xì)節(jié)上有一些差別,如Unicode提供漢字部首/筆畫(huà)索引,ISO10646不提供。在現(xiàn)實(shí)應(yīng)用中Unicode被稱為ISO10646的實(shí)踐版。因此,支持統(tǒng)一編碼的產(chǎn)品亦支持 ISO10646 國(guó)際編碼標(biāo)準(zhǔn)。Unicode有多種傳輸格式,常見(jiàn)的有UTF8、UTF16、UCS-2、UCS-4等。2013年9月,Unicode 6.3版本推出。
Unicode對(duì)我國(guó)的貢獻(xiàn)是解決了簡(jiǎn)繁漢字的統(tǒng)一處理與跨操作系統(tǒng)的自由信息交換問(wèn)題,同時(shí)也解決了漢字與少數(shù)民族文字統(tǒng)一處理的問(wèn)題[13]。在圖書(shū)館、信息機(jī)構(gòu)中,有很多數(shù)字化項(xiàng)目、商業(yè)數(shù)據(jù)庫(kù)采用Unicode編碼,如國(guó)家圖書(shū)館數(shù)字方志,其涉及大量繁體字、異體字轉(zhuǎn)換,為保證異構(gòu)平臺(tái)的加工和應(yīng)用,規(guī)定統(tǒng)一使用Unicode編碼。
3.4.3 ASCII碼
ASCII碼是信息處理領(lǐng)域最基本的字符編碼,主要用于顯示現(xiàn)代英語(yǔ)和其他西歐語(yǔ)言。ASCII碼共定義了256個(gè)代碼,其有兩種形式:標(biāo)準(zhǔn)形式和擴(kuò)展形式。標(biāo)準(zhǔn)ASCII碼也稱基礎(chǔ)ASCII碼,共有128個(gè)字符,包含所有的大小寫(xiě)字母、數(shù)字、標(biāo)點(diǎn)符號(hào)及在美式英語(yǔ)中使用的特殊控制字符。后128個(gè)字符稱為擴(kuò)展ASCII碼,用于特殊符號(hào)字符、外來(lái)語(yǔ)字母和圖形符號(hào)的編碼。
無(wú)格式控制的純文字文件是最簡(jiǎn)單的文檔。其實(shí)說(shuō)純文本也不盡然,其文字編碼方式、空格、換行都是格式問(wèn)題。不同系統(tǒng)對(duì)換行標(biāo)志的不同規(guī)定給純文本文檔的轉(zhuǎn)換帶來(lái)了麻煩。MacOS系統(tǒng)采用的是回車符(ASCII碼13),Unix系統(tǒng)采用的是換行符(ASCII碼10),而DOS和Windows系統(tǒng)則在每行的結(jié)尾加上換行和回車兩個(gè)字符。但對(duì)于純西文字符、符號(hào)、數(shù)字處理,采用ASCII碼進(jìn)行編碼是最佳選擇。
文本資源數(shù)字化加工標(biāo)準(zhǔn)的研制將有益于數(shù)字圖書(shū)館建設(shè)。在對(duì)其的實(shí)際應(yīng)用中應(yīng)該注意以下幾點(diǎn)。
國(guó)際標(biāo)準(zhǔn)化組織將“標(biāo)準(zhǔn)”定義為“由一個(gè)公認(rèn)的機(jī)構(gòu)制定和批準(zhǔn)的文件。它對(duì)活動(dòng)或活動(dòng)的結(jié)果規(guī)定了規(guī)則、導(dǎo)則或特殊值,供共同和反復(fù)使用,以實(shí)現(xiàn)在預(yù)定領(lǐng)域內(nèi)最佳秩序的效果”[14]。筆者認(rèn)為,標(biāo)準(zhǔn)是宏觀層面的規(guī)則。在具體應(yīng)用中,標(biāo)準(zhǔn)內(nèi)容與實(shí)際要求特別是細(xì)節(jié)處理的需求存在一定差異。當(dāng)“標(biāo)準(zhǔn)”給出的選擇比較寬泛的情況下,如有多種內(nèi)容編碼和格式編碼,應(yīng)根據(jù)建設(shè)目的,做適應(yīng)性、理性的選擇。
標(biāo)準(zhǔn)既來(lái)自于實(shí)踐的需要,同時(shí)也是長(zhǎng)期實(shí)踐經(jīng)驗(yàn)的總結(jié)。文本資源在數(shù)字化加工中涉及技術(shù)、內(nèi)容等多個(gè)方面。隨著信息技術(shù)的發(fā)展,數(shù)字化加工技術(shù)也會(huì)不斷提高,在經(jīng)過(guò)實(shí)踐驗(yàn)證之后,一旦產(chǎn)生新的具有普遍需要的加工方法,應(yīng)及時(shí)對(duì)文本資源數(shù)字化加工技術(shù)和方法進(jìn)行標(biāo)準(zhǔn)化、規(guī)范化的統(tǒng)一處理,以保持標(biāo)準(zhǔn)的實(shí)用性。另外,隨著生產(chǎn)加工服務(wù)需求的演變,我們既要對(duì)現(xiàn)有標(biāo)準(zhǔn)進(jìn)行靈活應(yīng)用,也要看到標(biāo)準(zhǔn)的不足,針對(duì)標(biāo)準(zhǔn)中的不適應(yīng)內(nèi)容進(jìn)行及時(shí)修訂,加強(qiáng)標(biāo)準(zhǔn)的維護(hù)和管理。
數(shù)字圖書(shū)館資源類型的多樣化需要一套完整的數(shù)字資源建設(shè)標(biāo)準(zhǔn)體系來(lái)支撐,只依靠一個(gè)“文本資源加工標(biāo)準(zhǔn)”顯然是不行的。文本資源數(shù)字化加工標(biāo)準(zhǔn)應(yīng)與數(shù)字對(duì)象加工標(biāo)準(zhǔn)、元數(shù)據(jù)應(yīng)用、數(shù)字資源唯一標(biāo)識(shí)符等相關(guān)標(biāo)準(zhǔn)之間有著密切的關(guān)系,既相互聯(lián)系又相互影響。處理好各種標(biāo)準(zhǔn)應(yīng)用之間的關(guān)系,是數(shù)字資源建設(shè)有效性的保障。
[1]Requests Proposals for Digital Images from Original Documents Text Conversion and SGML-Encoding National Digital Library Program[EB/OL].[2012-09-10]. http://memory.loc.gov/ammem/prpsal/rfp18.pdf.
[2]Digitisation Guidelines [EB/OL].[2012-09-10]. http://www.nla.gov.au/standards/digitisation-guidelines.
[3]Guidance for Digitizing Text [EB/OL]. [2012-09-10]. http://preserve.harvard.edu/guidelines/textdig.html.
[4]TEI Text Encoding in Libraries Guidelines for Best Encoding Practices [EB/OL].[2012-09-20].http://old.diglib.org/standards/tei.htm.
[5]Federal Agencies Digitization Guidelines Initiative [EB/OL].[2012-09-20].http://www.digitizationguidelines.gov/.
[6]我國(guó)數(shù)字圖書(shū)館標(biāo)準(zhǔn)規(guī)范建設(shè)項(xiàng)目[EB/OL]. [2012-09-10]. http://cdls.nstl.gov.cn.
[7]CADAL項(xiàng)目[EB/OL].[2012-09-10].http://www.cadal.cn/.
[8]龍 偉,羅云川.國(guó)家圖書(shū)館文本數(shù)據(jù)加工標(biāo)準(zhǔn)和操作指南[M].北京:國(guó)家圖書(shū)館出版社,2012.
[9]顧 .國(guó)家標(biāo)準(zhǔn)《信息與文獻(xiàn) 術(shù)語(yǔ)》 [M].北京:中國(guó)標(biāo)準(zhǔn)出版社,2010.
[10]孫一鋼, 聶 華, 常 林,等.通用數(shù)字資源(文本數(shù)據(jù))格式標(biāo)準(zhǔn)分析報(bào)告[EB/OL].[2012-09-10]. http://cdls.nstl.gov.cn/2003/Process/.
[11]About the Collections[EB/OL].[2012-10-10].http://memory.loc.gov/ammem/about/about.html.
[12]彭緒庶,蔣 穎.資源數(shù)字化標(biāo)準(zhǔn)問(wèn)題研究[M].北京:北京圖書(shū)館出版社,2005.
[13]代 紅,陳 壯.中文信息技術(shù)的基礎(chǔ)標(biāo)準(zhǔn)與中文編碼字符集的國(guó)際標(biāo)準(zhǔn)化[J].信息技術(shù)與標(biāo)準(zhǔn)化,2008(7):36-40.
[14]孫 衛(wèi),趙 悅. 圖書(shū)館信息化標(biāo)準(zhǔn)工作評(píng)析[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2009(7/8):33.