李湜清
關(guān)鍵詞:CNMARC數(shù)據(jù);數(shù)據(jù)檢查;批處理
摘 要:本文總結(jié)了書目數(shù)據(jù)庫中數(shù)據(jù)的來源及建立,詳盡地介紹通過計(jì)算機(jī)排序方式批檢查數(shù)據(jù)中的錯(cuò)誤,以進(jìn)一步提高書目數(shù)據(jù)的準(zhǔn)確性和一致性。
中圖分類號(hào):G254.3文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1003-1588(2009)03-0104-03
書目數(shù)據(jù)庫是圖書館自動(dòng)化建設(shè)的基礎(chǔ)和保障,也是文獻(xiàn)檢索網(wǎng)絡(luò)化、信息資源共享的重要依據(jù),同時(shí)還是圖書館為讀者服務(wù)的重要途徑。館藏?cái)?shù)據(jù)庫的質(zhì)量直接代表了圖書館的基礎(chǔ)業(yè)務(wù)水平。書目數(shù)據(jù)的標(biāo)準(zhǔn)化、規(guī)范化、準(zhǔn)確化、一致化是數(shù)據(jù)庫建設(shè)的核心問題,定期對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行批處理檢查維護(hù)可減少錯(cuò)誤率,尤其是采用人工校對(duì)在前,批處理檢查在后兩者相互結(jié)合的方式,可以極大地降低書目數(shù)據(jù)中不必要的錯(cuò)誤和不一致的著錄問題。作為圖書館的編目部門,應(yīng)建立起一套書目數(shù)據(jù)的維護(hù)機(jī)制,將批處理維護(hù)工作納入日常工作之中。
以首都圖書館具體情況為例,本文所談到的關(guān)于批處理維護(hù)的數(shù)據(jù)主要指經(jīng)人工審校進(jìn)入總書目庫的數(shù)據(jù),其中包括自建數(shù)據(jù)和套錄數(shù)據(jù)。經(jīng)過人工審校過的數(shù)據(jù)一般不存在著錄方面的錯(cuò)誤,如200字段題名責(zé)任者的選取著錄、各類附注字段詳細(xì)著錄、名稱標(biāo)目的規(guī)范等,但是有不少不一致,不統(tǒng)一的地方,如自建數(shù)據(jù)與套錄數(shù)據(jù)中叢書與附注著錄的不一致,數(shù)據(jù)各字段相互對(duì)應(yīng)點(diǎn)沒有著錄一致等問題。通過批處理檢查的方式可以快速全面地找到錯(cuò)誤點(diǎn),比起人工翻查數(shù)據(jù)審校費(fèi)時(shí)、費(fèi)力是占有絕對(duì)優(yōu)勢(shì)的。
1 目前數(shù)據(jù)庫中存在的主要問題
1.1 叢書著錄不一致
叢書著錄一致性是最大的問題。首先,由于總書目庫中的數(shù)據(jù)是由自建數(shù)據(jù)與套錄數(shù)據(jù)共同組成的,審校人員也是分組的,所以就造成了對(duì)數(shù)據(jù)著錄理解不一樣、著錄不一致的問題;其次由于套錄數(shù)據(jù)主要是下載國家圖書館和幾大聯(lián)合編目中心數(shù)據(jù),各家數(shù)據(jù)著錄本身就有不一致的問題存在。另外,還有一些比較模糊、難以界定的系列書也是當(dāng)前編目人員在著錄225字段與300字段的疑難點(diǎn)。
1.2 數(shù)據(jù)中對(duì)應(yīng)點(diǎn)的問題
圖書館的編目工作是一項(xiàng)非常重注專業(yè)技術(shù)和認(rèn)真負(fù)責(zé)的工作,一條CNMARC數(shù)據(jù)小至幾百個(gè)字節(jié),大至兩千多個(gè)字節(jié),十幾項(xiàng)字段幾十個(gè)子字段確實(shí)需要編目員具備踏實(shí)的態(tài)度和高度的責(zé)任心。從數(shù)據(jù)檢查上來說,數(shù)據(jù)上的細(xì)節(jié)問題也是比較重要的,數(shù)據(jù)中的各字段中有許多與其它字段相互對(duì)應(yīng)的地方,比如說210字段與102字段是相關(guān)字段;105字段與215字段、6字段都有相關(guān)的對(duì)應(yīng)點(diǎn)。
1.3 對(duì)于主題字段的檢查
相對(duì)于數(shù)據(jù)中的格式檢查來說,主題字段的情況比較復(fù)雜,但是通過批處理校對(duì),對(duì)于主題標(biāo)引、分類還是可以發(fā)現(xiàn)一些一致性的問題。將600、601、602、605、606、607字段中的子字段$a$x$j$y$z分別抽取出來,并給予排序,可以校對(duì)出著錄錯(cuò)誤的字段,例如600字段錯(cuò)著為606字段等常規(guī)性問題,還可以將各字段的主題詞與分類號(hào)分別給予排序,查找出不規(guī)范的用詞和同類書著錄不一致的問題。
2 通過批處理檢查數(shù)據(jù)庫中錯(cuò)誤的方法
我館的批處理數(shù)據(jù)方法主要是對(duì)進(jìn)入總書庫的數(shù)據(jù)進(jìn)行定期的檢查,一般每批的數(shù)據(jù)在一萬至兩萬種之間比較適宜。在檢查時(shí),針對(duì)某一方面的問題將字段中的相關(guān)子字段按文本文件(TXT文件)抽取出來,導(dǎo)入至EXCLE表格中進(jìn)行計(jì)算機(jī)排序。通過排序這種方法,檢查人員可以更直觀地檢查到出現(xiàn)的問題。
流程為:將要檢查的子字段抽取至TXT文件中→自建表格→工具→導(dǎo)入外部數(shù)據(jù)→導(dǎo)入數(shù)據(jù)→選擇我的信息源→選擇文件→導(dǎo)入→按檢查問題排序→檢查。
2.1 對(duì)子字段中固定內(nèi)容的檢查方法
對(duì)于字段中有固定內(nèi)容的子字段,通過一級(jí)排序方式是比較容易排查錯(cuò)誤的。我館在批檢查時(shí),主要有這些子字段:010字段的$a$b$d、102字段的$a、300字段的$a、305字段的$a、306字段的$a、307字段的$a、310字段的$a、905字段的$a、801字段的$a$b$c、905字段的$f。上述這些子字段可以一次性抽取至表格中的各個(gè)列中,由于各個(gè)子字段的檢查問題不相互對(duì)應(yīng),所以可以依次對(duì)每列中的內(nèi)容進(jìn)行排序檢查。以上述幾個(gè)子字段為例,抽取至表格中的形式如下:
一級(jí)排序010@d后發(fā)現(xiàn)錯(cuò)誤的表格:
2.2 對(duì)子字段中對(duì)應(yīng)點(diǎn)問題的檢查方法
對(duì)于字段中相關(guān)子字段排查一致性問題時(shí),就要將問題所相對(duì)應(yīng)的子字段一并抽取出來,通過二級(jí)或三級(jí)排序的方法進(jìn)行檢查。我館所批檢查的對(duì)應(yīng)子字段主要有:
100字段$a中第8-16位與210字段的$d$h、205字段的$a
102字段的$b與210字段的$a$c
105字段的$a與215字段的$c
106字段的$a與215字段的$d
200字段的$a、$e與517字段的$a
200字段的$d$z與510字段的$a、304字段的$a、312字段的$a
225字段的$a$h$i與461字段、462字段、300字段
200字段的$f$g與701字段、702字段、711、字段、712字段的$a$4
二級(jí)排序以102字段的$b與210字段的$a$c為例,相對(duì)應(yīng)子字段抽取:
經(jīng)102$b、210$a和210$c依次三級(jí)排序后檢出的問題:
2.3 對(duì)主題字段的檢查方法
相對(duì)于書目數(shù)據(jù)中批處理檢查這種方式,對(duì)主題和分類的檢查比起對(duì)格式的檢查就有很大的局限性。首先主題標(biāo)引和分類是比較靈活多變,一條數(shù)據(jù)經(jīng)常會(huì)出現(xiàn)兩個(gè)以上的標(biāo)引字段;其次,同一主題字段的同一子字段會(huì)分入不同的大類中,與格式的固定對(duì)比是不同的。所以,我們?cè)谂幚碇黝}標(biāo)引和分類字段時(shí),要按照大類號(hào)進(jìn)行抽取,數(shù)據(jù)一次抽取在五至六萬條(一個(gè)表格最多存貯6萬行),然后按類號(hào)、書名和主題字段三級(jí)排序進(jìn)行檢查,這樣既可以檢查出規(guī)范用詞,也可以查找到同一類、同一題名的分類標(biāo)引情況。如,同一類號(hào)不同主題詞:
3 通過批處理審校檢查出的一些問題
對(duì)于做書目數(shù)據(jù)格式校對(duì)的工作人員來說,通過批校對(duì)可以既快速又全面地檢查數(shù)據(jù)中的錯(cuò)誤點(diǎn),不但節(jié)省時(shí)間和精力,而且從錯(cuò)誤的查全率和查準(zhǔn)率上都比人工校對(duì)要準(zhǔn)確。以下列舉一些通過批校對(duì)在具體工作中發(fā)現(xiàn)的錯(cuò)誤:
其一:
010 ##$a978-7-5006-8417-6$bCNY58.00
2001#$a民營經(jīng)濟(jì)“試驗(yàn)田”:溫州$9min ying jing ji“shi yan tian”:wen zhou$f盧建文著(010字段子字段著錄錯(cuò)誤,通過一級(jí)排序校出)
其二:
010##$a978-7-5317-2373-8$b精裝$dCNY29.00
102##$aCN$b110000
2001#$a愛?配方$9ai?pei fang$f(美)戴安娜?德?盧卡著$g李永燦譯
210##$a哈爾濱$c北方文藝出版社$d2009
(102字段$b與210字段$a$c不對(duì)應(yīng),通過二級(jí)排序校出)
其三:
2001#$a宗教論$9zong jiao lun$f馮天策著
215 ##$a341$d21cm
(215子字段$a頁數(shù)無“頁”字)
2001#$a贏在深圳$9ying zai shen zhen$e陳志列的研祥創(chuàng)業(yè)之道$f樊榮編著
2252#$a中國制造系列
2001#$a化蛹為蝶$9hua yong wei die$e金蝶集團(tuán)的成功之路$f田宏文編著
300##$a中國制造系列
(叢書與附注項(xiàng)著錄不一致的問題)
其四:
2001#$a信息霍亂$9xin xi huo luan$e世紀(jì)末的冷面殺手$f劉樹秀主編$g聶巧等編著
6060#$a互連網(wǎng)絡(luò)$x基本知識(shí)
6060#$a計(jì)算機(jī)犯罪
2001#$a暢游網(wǎng)絡(luò)世界$9chang you wang luo shi jie$f卓越文化編著
6060#$a互聯(lián)網(wǎng)絡(luò)$x基本知識(shí)
(主題詞改為用代關(guān)系,批處理替換)
4 小結(jié)
書目數(shù)據(jù)人工審校后進(jìn)入總數(shù)據(jù)庫并不意味著大功告成,還要進(jìn)行經(jīng)常性的更新和維護(hù)。通過收集編目人員在平時(shí)使用過程中的反饋信息,定期對(duì)數(shù)據(jù)內(nèi)容進(jìn)行更新追加、維護(hù)和修改,從而可以極大地提高數(shù)據(jù)信息資源的質(zhì)量。
參考文獻(xiàn):
[1] 逯仰章.CNMARC的關(guān)聯(lián)字段[J].圖書館園地,2007,(3).
[2] 張智慧.中文圖書套錄編目中出現(xiàn)的問題及解決方法[J].圖書館工作與研究,2006,(6).
[3] 倪娟.CNMARC數(shù)據(jù)套錄問題之我見[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2007,(6).
[4] 陳曉蘭,張德云.論圖書館聯(lián)機(jī)聯(lián)合編目中套錄數(shù)據(jù)質(zhì)量控制問題[J].圖書館,2008,(2).
[5] 陳艷茹.叢編字段標(biāo)準(zhǔn)化著錄淺析[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2007,(7).