司新霞
摘 要:先探討編目數(shù)據(jù)質(zhì)量的評(píng)價(jià)標(biāo)準(zhǔn),再?gòu)膶?shí)際工作中總結(jié)出編目數(shù)據(jù)常見(jiàn)的質(zhì)量問(wèn)題,最后探討大數(shù)據(jù)環(huán)境下如何利用大數(shù)據(jù)技術(shù)來(lái)及時(shí)發(fā)現(xiàn)和糾正這些問(wèn)題。
關(guān)鍵詞:大數(shù)據(jù)環(huán)境;中文圖書(shū);編目數(shù)據(jù);質(zhì)量控制
中圖分類號(hào):F27 文獻(xiàn)標(biāo)識(shí)碼:A doi:10.19311/j.cnki.1672-3198.2019.34.025
0 引言
圖書(shū)館編目工作的主要任務(wù)是按相關(guān)標(biāo)準(zhǔn)對(duì)文獻(xiàn)資源進(jìn)行分類,并編制目錄,建立館藏目錄體系。編目數(shù)據(jù)是圖書(shū)館的基礎(chǔ)性數(shù)據(jù),高質(zhì)量的編目數(shù)據(jù)可以提高讀者查找文獻(xiàn)的效率,提高他們的查準(zhǔn)率和查全率,同時(shí)也為圖書(shū)館利用數(shù)據(jù)為讀者提供專題服務(wù)等奠定數(shù)據(jù)基礎(chǔ)。
1 編目數(shù)據(jù)質(zhì)量
1.1 編目數(shù)據(jù)
編目數(shù)據(jù)是指編目工作人員先依據(jù)《中國(guó)圖書(shū)館分類法》等,并結(jié)合對(duì)圖書(shū)內(nèi)容的分析,賦予每種圖書(shū)一個(gè)分類號(hào),然后按照CNMARC格式,將圖書(shū)書(shū)名、分類號(hào)、作者等信息輸入相應(yīng)的書(shū)目數(shù)據(jù)庫(kù)中而形成的結(jié)構(gòu)化數(shù)據(jù)。編目數(shù)據(jù)主要有編目工作人員自編數(shù)據(jù)和套錄數(shù)據(jù),其中套錄數(shù)據(jù)主要來(lái)源有:國(guó)家圖書(shū)館編目數(shù)據(jù)、CALIS編目數(shù)據(jù)、圖書(shū)出版機(jī)構(gòu)提供的編目數(shù)據(jù)等。
1.2 編目數(shù)據(jù)質(zhì)量
編目數(shù)據(jù)的質(zhì)量與圖書(shū)館讀者服務(wù)的質(zhì)量和水平存在著密切的關(guān)系。編目數(shù)據(jù)質(zhì)量通??梢詮臏?zhǔn)確性、規(guī)范性、一致性、有效性、相容性等幾個(gè)方面衡量,如圖1所示。
準(zhǔn)確性:編目員在著錄數(shù)據(jù)時(shí)要準(zhǔn)確無(wú)誤地描述出圖書(shū)的各項(xiàng)信息,如果錄入數(shù)據(jù)時(shí)出現(xiàn)錯(cuò)誤,尤其是關(guān)鍵信息出現(xiàn)錯(cuò)誤,這樣的編目數(shù)據(jù)遲早會(huì)影響讀者對(duì)圖書(shū)的檢索操作和利用,也會(huì)影響圖書(shū)館相關(guān)的業(yè)務(wù)工作。
規(guī)范性:編目數(shù)據(jù)的規(guī)范性是指編目數(shù)據(jù)的錄入必須符合CNMARC的相關(guān)要求,相關(guān)的內(nèi)容要錄入到對(duì)應(yīng)的字段中。
一致性:數(shù)據(jù)一致性是指在CNMARC格式下同一種中文圖書(shū)的編目數(shù)據(jù)必須是一致的,避免不必要的數(shù)據(jù)重復(fù)。
有效性:這里指編目數(shù)據(jù)的正確性和合理性。
相容性:整個(gè)圖書(shū)館編目系統(tǒng)中的數(shù)據(jù)應(yīng)彼此協(xié)調(diào),且與其他的數(shù)據(jù)集沒(méi)有任何沖突。
2 編目數(shù)據(jù)常見(jiàn)的質(zhì)量問(wèn)題
2.1 著錄標(biāo)準(zhǔn)不夠統(tǒng)一
在編目工作的實(shí)踐中,因各館所用軟件系統(tǒng)不同,對(duì)編目要求不同,以及每位編目員對(duì)編目規(guī)則理解程度的深淺,業(yè)務(wù)水平的高低,對(duì)工作質(zhì)量的追求不同等因素,導(dǎo)致普遍存在著錄標(biāo)準(zhǔn)不統(tǒng)一的現(xiàn)象,主要表現(xiàn)有:第一,對(duì)多卷書(shū)的處理不同。多卷書(shū)有的是采用集中著錄,用叢書(shū)題名作為正題名,在327字段,對(duì)每個(gè)分冊(cè)作了分卷附注,整套書(shū)作了一條記錄,有的是采用分散著錄,對(duì)分卷逐冊(cè)著錄,作了多條記錄,而在進(jìn)行分散著錄時(shí)對(duì)題名的處理也有不同,有的是把分冊(cè)名作為了正題名,而把叢書(shū)的正題名放到了225叢書(shū)項(xiàng)字段,作了叢編題名,有的是把叢書(shū)題名作為正題名,把分卷的題名作為分冊(cè)名,二者都做在了200字段;第二,著錄的詳簡(jiǎn)程度不一。例如,第一責(zé)任者達(dá)三個(gè)或三個(gè)以上時(shí),有的在200字段$f子字段將所有責(zé)任者全部著錄,在7--字段中也會(huì)著錄出所有的責(zé)任者,有的則在200字段只著錄第一個(gè)責(zé)任者,其余的用“等”表示,然后在 304字段題名與責(zé)任說(shuō)明附注中予以說(shuō)明,在7--字段中只做第一個(gè)責(zé)任者。對(duì)其他責(zé)任者的著錄,也存在類似情況;第三,對(duì)副題名、并列題名、封面題名,書(shū)脊題名等是否作檢索點(diǎn)不統(tǒng)一。有的根據(jù)情況,在相應(yīng)的 5--字段作了著錄,給了檢索點(diǎn),有的則沒(méi)著錄;第四,屬于交叉學(xué)科的圖書(shū),可以給出兩到三個(gè)分類號(hào),有的在690字段中只給出一個(gè)或者兩個(gè)分類號(hào),而且將哪一個(gè)作為首選,也會(huì)因編目員對(duì)文獻(xiàn)內(nèi)容的理解不同而產(chǎn)生取號(hào)不一致的情況;第五,因?yàn)閷W(xué)科發(fā)展,學(xué)科間的整合與分類發(fā)生變化,導(dǎo)致同一種書(shū)以前取的分類號(hào)和現(xiàn)在給出的分類號(hào)不一樣,有的編目員選擇與館藏的大多數(shù)或者與原來(lái)的數(shù)據(jù)保持一致,有的編目員會(huì)按照新的分類標(biāo)準(zhǔn)取號(hào)。
2.2 著錄內(nèi)容不規(guī)范
隨著網(wǎng)絡(luò)技術(shù)在圖書(shū)館的運(yùn)用與發(fā)展,圖書(shū)館在不同時(shí)期對(duì)文獻(xiàn)的著錄標(biāo)準(zhǔn)要求也逐步提高,不同時(shí)期館藏?cái)?shù)據(jù)著錄的級(jí)次存在著明顯的差異。回溯建庫(kù)時(shí)的編目數(shù)據(jù)(如表1所示),會(huì)發(fā)現(xiàn)二十世紀(jì)九十年代初期一般使用簡(jiǎn)易編目,著錄級(jí)次要求不高,除了必備的字段,225,330,410,702 等字段都少有著錄,在605,606字段,對(duì)作為主要檢索點(diǎn)的主題詞和關(guān)鍵詞的標(biāo)引,有的進(jìn)行較深的標(biāo)引,有的完全沒(méi)有進(jìn)行標(biāo)引,編目數(shù)據(jù)給人粗淺的整體印象。隨著文獻(xiàn)編目規(guī)則的完善以及各館對(duì)編目工作的重視及對(duì)編目質(zhì)量要求的提高,各館現(xiàn)時(shí)期的編目工作,一般著錄的級(jí)次較高,著錄詳盡細(xì)致,對(duì)文獻(xiàn)信息作了很好地揭示,方便了讀者對(duì)文獻(xiàn)的檢索和利用。
2.3 著錄信息不準(zhǔn)確
編目員完成手頭的編目任務(wù)后,通常會(huì)通過(guò)互相審核數(shù)據(jù)以確保編目的質(zhì)量,在審核中往往會(huì)發(fā)現(xiàn)一些具有共性的問(wèn)題,例如同書(shū)異號(hào),錄入時(shí)存在錯(cuò)字漏字加字,分類和主題標(biāo)引不對(duì)應(yīng),字段和子字段使用錯(cuò)誤,以及數(shù)據(jù)不完善,需要補(bǔ)充字段說(shuō)明等問(wèn)題。這些問(wèn)題有的是由于使用的系統(tǒng)軟件的局限性造成,有的則有賴于編目員業(yè)務(wù)水平的提高以及工作專注度的加強(qiáng)。
3 大數(shù)據(jù)環(huán)境下中文編目數(shù)據(jù)質(zhì)量控制的探討
3.1 大數(shù)據(jù)技術(shù)
Gartner認(rèn)為 “大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。大數(shù)據(jù)具有4V特征,即數(shù)據(jù)規(guī)模大、數(shù)據(jù)流轉(zhuǎn)快、數(shù)據(jù)類型多和價(jià)值密度低。在《大數(shù)據(jù)時(shí)代》一書(shū)中,維克托認(rèn)為,大數(shù)據(jù)的核心就是預(yù)測(cè),這個(gè)核心代表著分析信息時(shí)的三個(gè)轉(zhuǎn)變,即全部而非抽樣,混雜而非精確,相關(guān)而非因果。隨著機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、可視化分析等大數(shù)據(jù)技術(shù)的成熟,其逐步應(yīng)用于其他行業(yè),并推動(dòng)其他行業(yè)的進(jìn)步。
3.2 改善已有編目數(shù)據(jù)的質(zhì)量問(wèn)題
已有編目數(shù)據(jù)質(zhì)量存在著不規(guī)范、不準(zhǔn)確、重復(fù)記錄等問(wèn)題,人工發(fā)現(xiàn)并更正這些問(wèn)題工作量很大,可以利用大數(shù)據(jù)技術(shù)來(lái)改善這種情況。在現(xiàn)有編目數(shù)據(jù)中,利用大數(shù)據(jù)技術(shù),按書(shū)名或分類號(hào)聚類,并利用推送技術(shù)將同書(shū)異號(hào)、異書(shū)同號(hào)的數(shù)據(jù)推送給相關(guān)的圖書(shū)編目人員,同時(shí)在編目大數(shù)據(jù)中選擇一個(gè)國(guó)家圖書(shū)館、中國(guó)科學(xué)院文獻(xiàn)信息中心等權(quán)威機(jī)構(gòu)給出的編目數(shù)據(jù),或大多數(shù)其它編目人員給出的編目數(shù)據(jù)推薦給圖書(shū)編目人員供其參考。
3.3 控制未編目數(shù)據(jù)的質(zhì)量
(1)可在《中國(guó)圖書(shū)館分類法》上查分類號(hào)的未編目數(shù)據(jù)的質(zhì)量控制。
在《中國(guó)圖書(shū)館分類法》上能查分類號(hào)的圖書(shū),可以利用大數(shù)據(jù)技術(shù)發(fā)現(xiàn)圖書(shū)編目的權(quán)威機(jī)構(gòu)賦予這類圖書(shū)的分類號(hào),并以“信息提示”的方式推送給編目人員,這樣可以節(jié)省編目人員查找分類號(hào)的時(shí)間,提高工作效率,比如當(dāng)編目工作人員在書(shū)名框中輸入《圖書(shū)館閱讀推廣研究》時(shí),則計(jì)算機(jī)會(huì)利用大數(shù)據(jù)技術(shù)在分類號(hào)框中出現(xiàn)“G252”的信息提示,當(dāng)在著者框輸入王余光時(shí),則計(jì)算機(jī)會(huì)利用大數(shù)據(jù)技術(shù)在著者碼框中出現(xiàn)“W441”的信息提示。
(2)不能在《中國(guó)圖書(shū)館分類法》上查分類號(hào)的未編目數(shù)據(jù)的質(zhì)量控制。
科學(xué)技術(shù)的發(fā)展促進(jìn)了一些交叉學(xué)科,新興學(xué)科的產(chǎn)生,而《中國(guó)圖書(shū)館分類法》一般10年左右改版1次,這樣可能導(dǎo)致在《中國(guó)圖書(shū)館分類法》中找不到與這些新學(xué)科有關(guān)的圖書(shū)資料的分類號(hào)。在這種情況下,可以利用機(jī)器學(xué)習(xí)等大數(shù)據(jù)技術(shù),讓計(jì)算機(jī)通過(guò)已有分類數(shù)據(jù)的學(xué)習(xí),掌握?qǐng)D書(shū)分類的規(guī)律,從而給不能在《中國(guó)圖書(shū)館分類法》上查到分類號(hào)的圖書(shū)資料賦予對(duì)應(yīng)的分類號(hào),這樣可以避免因不同編目人員對(duì)這些圖書(shū)資料的理解不同出現(xiàn)多種不同分類號(hào)的情況。
參考文獻(xiàn)
[1]孫紅艷.圖書(shū)編目數(shù)據(jù)的來(lái)源及應(yīng)用[J].長(zhǎng)春大學(xué)學(xué)報(bào),2006,(11):141-143.
[2]趙英智.中文圖書(shū)編目數(shù)據(jù)質(zhì)量分析與控制淺議[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2006,(17):70-71.
[3]羅金姍.圖書(shū)館中文圖書(shū)編目數(shù)據(jù)質(zhì)量?jī)?yōu)化之我見(jiàn)[J].辦公室業(yè)務(wù),2011,(12):37+43.