劉 雅
國家圖書館中文采編部
〔北京市海淀區(qū) 100081〕
*劉 雅女,出生于1981年,館員。
目次是書刊上的目錄,表示內(nèi)容的篇目次序,由篇、章、條、款、項、附錄、題錄等序號、名稱和頁碼組成。目次數(shù)據(jù)是數(shù)字化了的目次信息,目次數(shù)據(jù)庫則是按照一定的格式與數(shù)據(jù)模型組織起來的目次數(shù)據(jù)集合。近幾年數(shù)字圖書館如雨后春筍般紛紛建立,與此同時,傳統(tǒng)紙質(zhì)文獻的電子化、數(shù)據(jù)化工作也開展得如火如荼。為了讓讀者能更全面、更深入地利用文獻資源,目次數(shù)據(jù)的制作與利用已經(jīng)得到了國內(nèi)很多圖書館的重視,越來越多的圖書館開始制作目次數(shù)據(jù),并將其與系統(tǒng)掛接供讀者檢索使用。
圖書的目次是圖書的內(nèi)容大綱,可以完整真實地反映圖書的整體結(jié)構(gòu),使用戶在閱讀前對圖書的架構(gòu)能一目了然。無論是傳統(tǒng)圖書館,還是數(shù)字圖書館,相對于圖書的題名、責(zé)任者、分類號而言,圖書的目次具有更多、更重要的信息內(nèi)容。目次可以更深層次地揭示圖書內(nèi)容,查閱一本書的目次,有助于了解圖書的結(jié)構(gòu)和內(nèi)容概要,讓讀者對書了解更全面[1]。
關(guān)重要的參考作用
目次數(shù)據(jù)是對文獻內(nèi)容客觀忠實的反映,它能讓讀者大致了解文獻內(nèi)容,從而判斷該文獻是否為自己所需要的。曾有學(xué)者通過問卷進行調(diào)查統(tǒng)計,其中一項針對圖書書名、著者、出版時間、圖書目次、內(nèi)容簡介等項目對讀者借書決策所起的作用進行調(diào)查,調(diào)查結(jié)果是讀者選擇圖書目次的人數(shù)最多。由此可以看出,目次對用戶在選擇圖書方面起到了重要的作用[2]。
對編目員來說,其關(guān)注的是如何讓用戶得到更準確、更全面和組織更為合理的信息,他們甚至希望用戶可以只通過對書目數(shù)據(jù)的瀏覽即可確定對該文獻的需要程度,因此,目次數(shù)據(jù)對用戶和圖書館員來說都是同等重要的。
2009年,OCLC發(fā)表了《Online Catalogs:What Users and Librarians Want:An OCLC Report》(聯(lián)機目錄:用戶和圖書館工作人員需要什么)。報告做了基于對WorldCat用戶的三個調(diào)查,以不同用戶(最終用戶與圖書館工作人員)對目錄數(shù)據(jù)質(zhì)量認識作為調(diào)查重點,得出改善目錄數(shù)據(jù)的建議[3]。調(diào)查結(jié)果顯示:圖書館員和工作人員希望用目次來加強目錄中的數(shù)據(jù),其強烈愿望僅次于“合并重復(fù)數(shù)據(jù)”。在對用戶的調(diào)查中顯示,終端用戶認為“提高目錄數(shù)據(jù)質(zhì)量”是最希望實現(xiàn)的,排名前兩位的是“增加網(wǎng)絡(luò)內(nèi)容/全文的鏈接”以及“更多的主題信息”。并列排在第三的是“更多的目次”以及“增加概要/摘要”。
可見,目次數(shù)據(jù)在對文獻內(nèi)容的揭示、資源的查找等方面具有較強的優(yōu)勢,對于完善書目數(shù)據(jù)來說是不可或缺的。
目前,從圖書生產(chǎn)到流通的各個環(huán)節(jié)都有目次數(shù)據(jù)產(chǎn)生。大致可以分成四個來源:(1)出版社。出版社交付印刷的圖書都是電子版,所以出版社擁有圖書的電子目次。有些出版社還將一部分圖書的目次數(shù)據(jù)放在出版社網(wǎng)站上以供檢索,比如北京大學(xué)出版社、當代世界出版社等。瀏覽者只要通過點擊一本書,就能看到該書的內(nèi)容簡介、前言、目次等信息。(2)圖書供應(yīng)商。當當網(wǎng)、卓越等網(wǎng)上書店一般都提供了數(shù)字化的目次、作者簡介、內(nèi)容簡介等信息。圖書館供應(yīng)商提供的目次數(shù)據(jù)雖然多且全,但缺點是格式不規(guī)范,目次的等級錄入?yún)⒉畈积R。(3)數(shù)字化公司。萬方數(shù)據(jù)、方正等,他們制作了很多電子圖書,其中都包含目次數(shù)據(jù)。但目次數(shù)據(jù)只是圖書數(shù)字化的附屬產(chǎn)品,并非這些公司的主營業(yè)務(wù)。(4)圖書館類機構(gòu)。比如,中國科學(xué)院國家科學(xué)圖書館的UNICAT聯(lián)合目錄提供目次數(shù)據(jù)。
既然目次數(shù)據(jù)的產(chǎn)生渠道這么多,各圖書館可以根據(jù)自身特點,整合各種渠道的目次數(shù)據(jù),采取以下一種或綜合多種方式制作目次數(shù)據(jù),建設(shè)目次數(shù)據(jù)庫。
一方面,可由圖書館員采用傳統(tǒng)人工方式制作目次數(shù)據(jù),這種方式的最大優(yōu)勢在于:遵循一定的著錄規(guī)則,格式相對規(guī)范,方便用戶檢索和進行數(shù)據(jù)交換。但是,由人工來制作目次數(shù)據(jù)的劣勢在于:速度是制作目次數(shù)據(jù)的瓶頸,還需要投入大量的人力物力進行制作、校對,錯誤量也居高不下。國家圖書館從2000年4月開始手工輸入制作中文學(xué)術(shù)性圖書的目次數(shù)據(jù),主要選擇匯編、個人全集、選集、學(xué)術(shù)論文集、會議錄等目次有檢索意義的圖書,將每一條目次信息著錄到一個獨立的自定義970字段中,970字段的第二個指示符表示標題的層級,比如子字段$h表示章節(jié)號、$i表示章節(jié)標題、$f表示著者。截至2009年8月,國家圖書館已經(jīng)完成77 000多種圖書近840萬條目次數(shù)據(jù)的制作。在數(shù)字化、信息化高速發(fā)展的今天,手工輸入目次數(shù)據(jù)的方式顯然缺乏效率。
另一方面,是采取外包方式委托制作。將目次數(shù)據(jù)從掃描、OCR識別、校對、數(shù)據(jù)查重等全流程外包給有編目經(jīng)驗的第三方,圖書館主要負責(zé)校對和驗收工作。這種方式的優(yōu)勢在于:可以從最初選擇外包公司到最終數(shù)據(jù)的校對進行全過程的控制,效率高。缺點則是投入較大。
購買的主要對象是數(shù)據(jù)庫廠商、圖書供應(yīng)商,主要形式是在購買數(shù)據(jù)庫或圖書的同時要求其附贈目次數(shù)據(jù)或通過增值購買目次數(shù)據(jù)。目前,可獲取目次數(shù)據(jù)的電子圖書數(shù)據(jù)庫商中較大的有方正電子圖書。方正電子圖書所收錄內(nèi)容來自400多家出版社,大概100多萬冊,這些電子圖書一般都帶有目次數(shù)據(jù),但它們是單獨保存的XML格式,一種圖書有一個或多個XML目次文件,這些數(shù)據(jù)的特點是,章節(jié)號、章節(jié)名和著者是放在同一個標簽字段的同一個屬性中,頁碼是放在另一個屬性中。如果要導(dǎo)出目次數(shù)據(jù),需要開發(fā)工具批量導(dǎo)出,導(dǎo)出后的數(shù)據(jù)沒有目次層級關(guān)系。
這種方式的優(yōu)點是:以相對小的成本獲取目次數(shù)據(jù),此種方式相對于外包制作而言,可降低40%左右的費用;目次數(shù)據(jù)完整。缺點是:每個制作商在格式與標引規(guī)則上會與各圖書館的既有數(shù)據(jù)存有較大差異,影響數(shù)據(jù)的再整合;購買的目次數(shù)據(jù)會限制使用范圍,無法與其他公益性圖書館共享。
網(wǎng)絡(luò)采集包括兩種形式:一種是抓取網(wǎng)絡(luò)上提供的免費的目次數(shù)據(jù),與書目數(shù)據(jù)進行掛接;當當網(wǎng)、瑯瑯圖書、豆瓣圖書以及一些出版社的網(wǎng)站上會提供圖書的內(nèi)容簡介、前言、目次等信息,可以通過自動抓取技術(shù)獲取這些目次信息。網(wǎng)頁抓取目次數(shù)據(jù)是使用解析程序?qū)W(wǎng)頁內(nèi)容進行解析,得出圖書目次。主要有兩種技術(shù)路線,一種是使用網(wǎng)頁爬蟲抓取web數(shù)據(jù),另一種方式是按照ISBN號訪問鏈接地址,進行抓取。另一種是在采集網(wǎng)絡(luò)電子圖書的過程中,同時采集目次數(shù)據(jù),通過技術(shù)處理,與電子圖書全文一起為用戶提供服務(wù)。網(wǎng)絡(luò)電子圖書作為網(wǎng)絡(luò)資源的重要組成部分,正在逐漸成為數(shù)字圖書館的館藏。2010年建設(shè)的國家開放存取資源總庫采集了約5萬本電子圖書。在這個資源庫中,可以利用數(shù)字技術(shù)對電子圖書的目次數(shù)據(jù)進行提取,實現(xiàn)目次數(shù)據(jù)與全文的鏈接,使用戶可以方便地從目次直接定位到正文。
網(wǎng)絡(luò)采集方式的優(yōu)勢在于:成本低,易操作,效率高。劣勢在于:目次數(shù)據(jù)格式五花八門,十分復(fù)雜;目次數(shù)據(jù)的正確性、完整性得不到保證,有的只有一級目錄,而且沒有進行質(zhì)量控制,錯誤率很高,要利用的話需要進行大量校對工作;有些PDF格式的電子圖書被放到網(wǎng)上前經(jīng)過了處理,如:加密不能復(fù)制,或者復(fù)制后與原文不一致,或者復(fù)制內(nèi)容粘貼后顯示亂碼。這些問題的出現(xiàn)無任何規(guī)律可循,若要加以利用需耗費很大功夫。
國外圖書館都比較重視目次數(shù)據(jù)庫的建設(shè)。美國國會圖書館處理目次數(shù)據(jù)的方式之一是采用856字段方式進行鏈接,將目次數(shù)據(jù)集中放到一個服務(wù)器上后,根據(jù)每一條目次所在的地址通過系統(tǒng)為相應(yīng)的書目數(shù)據(jù)自動追加一個856字段。英國國家圖書館的部分圖書都提供了目次顯示,主要通過在MARC數(shù)據(jù)中以字段注釋方式提供鏈接。日本國會圖書館的目次數(shù)據(jù)是放在書目記錄的“contents”字段中,并進行顯示。
相對而言,國內(nèi)圖書館在目次數(shù)據(jù)庫的建設(shè)方面還處于落后狀態(tài),也是近幾年才開始重視目次數(shù)據(jù)庫的建設(shè)。目前,國內(nèi)提供目次數(shù)據(jù)的圖書館主要有國家圖書館、中科院國家科學(xué)圖書館、上海交通大學(xué)圖書館等幾家。國家圖書館的特色資源庫、方正電子圖書中都含有目次數(shù)據(jù),因各種原因,2009年前手工輸入的目次數(shù)據(jù)尚未掛接到系統(tǒng)中以供檢索使用。中國科學(xué)院國家科學(xué)圖書館的UNICAT聯(lián)合目錄集成服務(wù)系統(tǒng),2007年開發(fā)了圖書目次服務(wù)功能,在書目數(shù)據(jù)中嵌入目次、書評信息。目前,UNICAT聯(lián)合目錄集成服務(wù)系統(tǒng)有近16 000種圖書數(shù)據(jù)嵌入了目次信息,3 000余種圖書數(shù)據(jù)嵌入了書評內(nèi)容,并逐年增加[4]。
目次數(shù)據(jù)的制作是一項長期的任務(wù),若是涵蓋所有中文圖書的話,每年需要制作的數(shù)量也頗為可觀,如果每個圖書館均按照自己的格式、方式方法建設(shè)目次數(shù)據(jù)庫,將會造成大量人力、物力、財力的浪費。因此,共建共享目次數(shù)據(jù)庫是信息時代圖書館的最好選擇。
上文已介紹,各種渠道獲取的目次數(shù)據(jù)格式不一,有的是掃描的圖像格式,只能閱讀不能修改;有的是TXT文本格式;有的是MARC格式。因格式千差萬別,要把各種渠道所獲得的目次數(shù)據(jù)經(jīng)過轉(zhuǎn)化成為各個圖書館能利用的格式有點難度,因此,要想共享目次數(shù)據(jù)首先要統(tǒng)一目次數(shù)據(jù)的相關(guān)標準規(guī)范,避免由于標準、規(guī)則等不統(tǒng)一而造成混亂。國家圖書館應(yīng)發(fā)揮行業(yè)引領(lǐng)作用,適時制訂目次的生產(chǎn)標準和規(guī)范,并推廣到全國。
用戶對目次數(shù)據(jù)的呼聲越來越高將會推動目次數(shù)據(jù)庫在全國范圍內(nèi)的建設(shè)與發(fā)展,而共建共享是建設(shè)目次數(shù)據(jù)庫的發(fā)展方向。要達到這個目的,必然需要一個公益性目次數(shù)據(jù)采集平臺供上傳和下載目次數(shù)據(jù),這個平臺的目次數(shù)據(jù)可以來自兩個聯(lián)合:(1)圖書館界的橫向聯(lián)合,即所有生產(chǎn)目次數(shù)據(jù)(格式統(tǒng)一)的圖書館將其制作的目次數(shù)據(jù)上傳到該平臺供其他圖書館下載使用;(2)圖書出版商、發(fā)行商、用戶的縱向聯(lián)合,其提供的目次數(shù)據(jù)(格式符合規(guī)范或能轉(zhuǎn)化為規(guī)范格式)經(jīng)審核后可以上傳。這樣,通過建設(shè)良好的溝通、互動機制,可以將大家的智慧與力量引入目次數(shù)據(jù)的建設(shè)中來,實現(xiàn)資源的最大利用。
目前,已經(jīng)有一個現(xiàn)成的平臺可以利用——全國聯(lián)合編目中心。
共建共享目次數(shù)據(jù)庫的最終目標是在圖書館界的聯(lián)盟基礎(chǔ)上實現(xiàn)目次數(shù)據(jù)的無障礙交流和共享。近年來,我國圖書館界在聯(lián)盟建設(shè)方面有了一些發(fā)展,已具備在圖書館界的聯(lián)盟基礎(chǔ)上進行中文圖書目次數(shù)據(jù)庫建設(shè)工作的條件??梢杂蓢覉D書館進行牽頭,由全國聯(lián)合編目中心這個機構(gòu)進行統(tǒng)一管理,將目次數(shù)據(jù)與書目數(shù)據(jù)掛接達到資源的共建共享。
之所以選擇全國聯(lián)合編目中心,一是目次數(shù)據(jù)必須依托書目數(shù)據(jù)存在和加以利用;二是該中心包括二十幾個書目數(shù)據(jù)庫,具備推廣共建共享目次數(shù)據(jù)庫的實力。該中心書目數(shù)據(jù)的使用單位已超過1 000家,成員館的隊伍已發(fā)展到600多家,成立了十四家分中心[5],在書目數(shù)據(jù)的共建共享方面摸索出很多經(jīng)驗,在此基礎(chǔ)上進行目次數(shù)據(jù)的共建共享應(yīng)是水到渠成。
建設(shè)中文圖書目次數(shù)據(jù)庫是圖書館滿足信息時代讀者的檢索需求,提升服務(wù)的一個重要方面,采取共建共享的模式來建設(shè)中文圖書目次數(shù)據(jù)庫既節(jié)省了大量的人力、物力、財力,又能在最大程度上實現(xiàn)資源共享,是一個很好的舉措。
[1]武漢大學(xué),北京大學(xué)《目錄學(xué)概論》編寫組.目錄學(xué)概論[M].北京:中華書局,1982:107.
[2]孫維鈞.圖書目錄的缺陷及MARC的完善[J].大學(xué)圖書館學(xué)報,1999,17(4):65~67.
[3]OCLC報告——聯(lián)機目錄:用戶和館員需要什么[EB/OL].[2010-08-06].http://catwizard.blogbus.com/logs/38491121.html.
[4]中國科學(xué)院國家科學(xué)圖書館.UNICAT聯(lián)合目錄集成服務(wù)系統(tǒng)[EB/OL].[2011-3-5].http://union.csdl.a(chǎn)c.cn/2.jsp.
[5]國家圖書館聯(lián)合編目中心.全國聯(lián)合編目中心[EB/OL].[2011-5-1].http://olcc.nlc.gov.cn/about-zxjj.html.