孫金娟
(常熟理工學(xué)院 圖書館,江蘇 常熟 215500)
基于匯文系統(tǒng)的數(shù)據(jù)提取與應(yīng)用研究
孫金娟
(常熟理工學(xué)院 圖書館,江蘇 常熟 215500)
自動(dòng)化系統(tǒng)固化的統(tǒng)計(jì)模塊功能已不能滿足圖書館個(gè)性化的數(shù)據(jù)資源需求,為了解決這一問題,本文提出了數(shù)據(jù)提取的概念。數(shù)據(jù)提取有別于數(shù)據(jù)挖掘,是利用數(shù)據(jù)庫(kù)技術(shù),從大量的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含的、潛在有用信息的過程,更側(cè)重于數(shù)據(jù)的收集,目的在于簡(jiǎn)化圖書館的工作程序,提高工作效率,滿足圖書館的個(gè)性化需求。
數(shù)據(jù)提取;匯文系統(tǒng);自動(dòng)化系統(tǒng);圖書館資源
自動(dòng)化管理系統(tǒng)在圖書館的廣泛應(yīng)用促進(jìn)了數(shù)據(jù)量的飛速增長(zhǎng),經(jīng)過長(zhǎng)年累月的運(yùn)行,數(shù)據(jù)庫(kù)忠實(shí)地記錄了圖書館的各種運(yùn)行信息。圖書館界對(duì)數(shù)據(jù)資源的關(guān)注從未間斷,近年來更是引入了數(shù)據(jù)挖掘技術(shù),研究成果斐然,但其重點(diǎn)大都集中在為圖書館運(yùn)行狀態(tài)的評(píng)估和管理決策提供支持信息,以及提高圖書館對(duì)讀者的個(gè)性化服務(wù)水平上。事實(shí)上,自動(dòng)化系統(tǒng)提供的準(zhǔn)確、系統(tǒng)、全面的數(shù)據(jù)資源并未惠及圖書館普通工作人員,對(duì)大多數(shù)人來說,自動(dòng)化系統(tǒng)的功能只是把日常工作從手工操作轉(zhuǎn)換成了計(jì)算機(jī)操作,并未見有更多助益。
筆者兼任常熟理工學(xué)院圖書館系統(tǒng)管理員多年,見證了數(shù)據(jù)庫(kù)容量與日俱增,每次整理數(shù)據(jù)都有“入寶山而空手回”的感慨和遺憾。為在數(shù)據(jù)挖掘方面做一些事情,筆者多次與圖書館一線工作人員交流和反饋,利用Access數(shù)據(jù)庫(kù)和ODBC技術(shù),對(duì)數(shù)據(jù)資源的提取和應(yīng)用有了一些自己的體會(huì)。
本文中提到的 “數(shù)據(jù)提取”有別于目前炙手可熱的“數(shù)據(jù)挖掘”。數(shù)據(jù)挖掘技術(shù)是一門交叉學(xué)科,它把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢提升到對(duì)數(shù)據(jù)進(jìn)行更高層次的提煉和分析,[1]涉及數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)等多門學(xué)科。分析該定義,數(shù)據(jù)挖掘強(qiáng)調(diào)的是對(duì)數(shù)據(jù)的更高層次的提煉和分析,目標(biāo)定位在為戰(zhàn)略決策和知識(shí)管理提供信息支持。就圖書館普通工作人員而言,數(shù)據(jù)挖掘技術(shù)是高深而遙遠(yuǎn)的,歸納學(xué)習(xí)方法、仿生物技術(shù)、公式發(fā)現(xiàn)、統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)方法和可視化技術(shù)等數(shù)據(jù)挖掘的方法和技術(shù)讓人望而生畏。[2]而“數(shù)據(jù)提取”是利用數(shù)據(jù)庫(kù)技術(shù),從大量的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含的、潛在有用信息的過程,更側(cè)重于數(shù)據(jù)的收集,目的在于簡(jiǎn)化圖書館的工作程序,提高工作效率。
1.系統(tǒng)情況介紹
匯文文獻(xiàn)信息服務(wù)系統(tǒng)(libsys,下文簡(jiǎn)稱“匯文系統(tǒng)”)是基于大型圖書館管理模式,以江蘇省高校文獻(xiàn)保障服務(wù)系統(tǒng)(JALIS)為宗旨,面向網(wǎng)絡(luò)化、標(biāo)準(zhǔn)化、數(shù)字化和區(qū)域化的圖書館自動(dòng)化管理系統(tǒng)。截止到2008年底,國(guó)內(nèi)400多家知名高校和公共圖書館選用該系統(tǒng),其中包括教育部公布的39所 “985工程”高校中的11所,112所211高校中的41所大學(xué),[3]成為單個(gè)系統(tǒng)占有量之最。
匯文系統(tǒng)基于Windows Server、Unix操作系統(tǒng),以先進(jìn)的大型關(guān)系型數(shù)據(jù)庫(kù)Oracle數(shù)據(jù)庫(kù)為支撐,包括采訪、編目、典藏、流通、期刊、統(tǒng)計(jì)、系統(tǒng)管理等業(yè)務(wù)處理和管理功能,覆蓋圖書館現(xiàn)階段所有的工作范圍。系統(tǒng)統(tǒng)計(jì)模塊提供5大項(xiàng)42小項(xiàng)統(tǒng)計(jì),其中流通17項(xiàng),采訪11項(xiàng),編目2項(xiàng),典藏7項(xiàng),期刊5項(xiàng),可謂功能強(qiáng)大。同大多數(shù)自動(dòng)化管理系統(tǒng)的統(tǒng)計(jì)模塊一樣,該模塊是采用列舉法進(jìn)行設(shè)計(jì)和實(shí)現(xiàn)的。盡管某些統(tǒng)計(jì)項(xiàng)目采用了參數(shù)化設(shè)計(jì)和實(shí)現(xiàn)的技術(shù),但仍未脫離列舉法的框架,因此,其統(tǒng)計(jì)內(nèi)容和報(bào)表格式基本是不變的。由于各個(gè)圖書館管理水平和關(guān)注內(nèi)容在不同時(shí)期會(huì)有所變化,這種不變性造成了圖書館所關(guān)注的內(nèi)容無法統(tǒng)計(jì),而不關(guān)注的統(tǒng)計(jì)項(xiàng)大量浪費(fèi)。[4]數(shù)據(jù)提取技術(shù)可以彌補(bǔ)這一缺憾,根據(jù)圖書館的實(shí)際需求從數(shù)據(jù)庫(kù)中提取相關(guān)統(tǒng)計(jì)信息。
2.工具的選擇
Access是一個(gè)小型的開放式數(shù)據(jù)庫(kù)管理系統(tǒng),通過ODBC(開放式數(shù)據(jù)庫(kù)互連)能與其他數(shù)據(jù)庫(kù)(例如SQL Server,Oracle、Sybase、Visual FoxPro 等)相連,實(shí)現(xiàn)數(shù)據(jù)交換與共享。[5]在本文中,筆者正是使用Access和ODBC實(shí)現(xiàn)數(shù)據(jù)提取。
我校的匯文系統(tǒng)采用Oracle9I數(shù)據(jù)庫(kù),基于安全考慮,數(shù)據(jù)提取嚴(yán)禁在服務(wù)器上直接操作。我館采用的方法是在客戶端上建立ODBC數(shù)據(jù)源,以Access數(shù)據(jù)庫(kù)為載體,把匯文Oracle數(shù)據(jù)庫(kù)的用戶表鏈接(或?qū)耄┑奖緳C(jī)上,然后再操作。需要注意的是,操作必須是在圖書館網(wǎng)絡(luò)范圍內(nèi)、裝有Oracle客戶端并配置好服務(wù)命名的工作機(jī)上進(jìn)行。
3.匯文數(shù)據(jù)庫(kù)常用用戶表介紹
配置好ODBC數(shù)據(jù)源后,新建一個(gè)Access數(shù)據(jù)庫(kù)(命名為library),打開數(shù)據(jù)庫(kù)library,把獲取查重?cái)?shù)據(jù)所需要的用戶表鏈接(或?qū)耄┻^來。在操作過程中,系統(tǒng)會(huì)提示輸入Oracle數(shù)據(jù)庫(kù)服務(wù)器名、用戶名和密碼。如果是鏈接表,那么每次操作用戶表時(shí)都會(huì)要求輸入相關(guān)賬號(hào)信息,是對(duì)Oracle數(shù)據(jù)庫(kù)的直接操作,存在一定風(fēng)險(xiǎn),不建議使用。穩(wěn)妥的做法是把用戶表導(dǎo)入數(shù)據(jù)庫(kù)library,再對(duì)用戶表操作就單純是對(duì)本機(jī)數(shù)據(jù)的調(diào)用,不再需要輸入賬戶信息,安全性高,缺點(diǎn)就是導(dǎo)入速度稍慢,而且數(shù)據(jù)每有更新就需重新導(dǎo)入一次。
匯文系統(tǒng)使用的Oracle數(shù)據(jù)庫(kù)十分龐大,僅以libsys開頭的用戶表就有200多個(gè)。好在我們需要的數(shù)據(jù)大部分集中在以下常用表中,見表1。
表1 匯文數(shù)據(jù)庫(kù)常用用戶表
這24個(gè)表基本囊括了圖書館業(yè)務(wù)流程除閱覽模塊的所有數(shù)據(jù),其中MARC_REC_NO為所有表之間的對(duì)應(yīng)關(guān)鍵字,可以通過Access查詢的方法進(jìn)行對(duì)應(yīng)鏈接,實(shí)現(xiàn)數(shù)據(jù)提取的目的。Access數(shù)據(jù)庫(kù)的操作十分簡(jiǎn)單,在此不再贅述。
三、應(yīng)用案例
在實(shí)際工作中,具體哪些數(shù)據(jù)是我們需要而統(tǒng)計(jì)模塊不能提供的呢?這些數(shù)據(jù)對(duì)我們的工作能起到怎樣的促進(jìn)作用呢?本文擬用以下幾個(gè)案例進(jìn)行分析。
由于脫離了圖書館的自動(dòng)化系統(tǒng),現(xiàn)場(chǎng)采購(gòu)的查重工作一直是困擾圖書館界的難題。一般來講,現(xiàn)場(chǎng)采購(gòu)查重工作要實(shí)現(xiàn)的目標(biāo)就是快速反映本館藏書信息,具體有以下幾點(diǎn):
(1)判斷手里文獻(xiàn)是否為非重復(fù)的。由于現(xiàn)在圖書的初次查重都是基于ISBN號(hào)的簡(jiǎn)單查重,ISBN號(hào)相同的就認(rèn)為是重復(fù)圖書,不同的就認(rèn)為是非重復(fù)的。但是因?yàn)閰矔姹?、多卷書等因素的存在,都?huì)導(dǎo)致異書同號(hào)的現(xiàn)象存在。因此有必要進(jìn)行詳細(xì)字段的查重,需要的信息為:ISBN號(hào),書名,作者,出版社,出版日期,價(jià)格,叢書項(xiàng),版次。
(2)手里的文獻(xiàn)如果重復(fù),是否需要追加采購(gòu)。一般來講,圖書館采訪時(shí)都會(huì)對(duì)館藏圖書復(fù)本量小的和流通量大的進(jìn)行追加采購(gòu),我館還根據(jù)我校的情況,對(duì)全部借出的圖書(即全部不在館)進(jìn)行有選擇的追加。需要的信息為:館藏量,總的流通量,在館是否為0。
(3)手里的文獻(xiàn)是否已經(jīng)在書目圈訂時(shí)訂購(gòu),如果訂購(gòu),是在哪個(gè)書商處訂購(gòu)以及訂購(gòu)的其他詳細(xì)信息。需要的信息為:是否訂購(gòu),書商名稱,訂購(gòu)時(shí)間,訂購(gòu)批次,訂購(gòu)量。有了這些信息,采購(gòu)人員可以根據(jù)經(jīng)驗(yàn),比較方便地判斷出哪些圖書是不需要現(xiàn)場(chǎng)采購(gòu)的,哪些圖書是書商難以配齊需要采購(gòu)的,哪些是需要適量補(bǔ)充復(fù)本的。
總結(jié)一下,現(xiàn)場(chǎng)采購(gòu)查重的數(shù)據(jù)需求是:ISBN號(hào),書名,作者,出版社,出版日期,價(jià)格,叢書項(xiàng),版次,館藏量,總的流通量,在館是否為0,是否訂購(gòu),書商名稱,訂購(gòu)時(shí)間,訂購(gòu)批次,訂購(gòu)量,共16個(gè)字段。匯文系統(tǒng)的統(tǒng)計(jì)模塊雖然提供了強(qiáng)大的統(tǒng)計(jì)功能,但是我們尷尬地發(fā)現(xiàn),這些統(tǒng)計(jì)項(xiàng)目只是提供了一個(gè)固化的統(tǒng)計(jì)報(bào)表,并沒有提供字段導(dǎo)出的功能。即便是把所需的這些數(shù)據(jù)全部統(tǒng)計(jì)出來,數(shù)據(jù)的整合也是一項(xiàng)不小的工程?,F(xiàn)場(chǎng)采購(gòu)查重所需16個(gè)字段中除前8個(gè)字段可以直接通過系統(tǒng)管理模塊的“MARC導(dǎo)出程序”導(dǎo)出外,其他8個(gè)字段直接從數(shù)據(jù)庫(kù)中提取更為方便,具體涉及LIBSYS_CALLNOCHILD,LIBSYS_MARC,LIBSYS_INDI_ACCT,LIBSYS_ITEMCHILD,LIBSYS_ITEM,LIBSYS_ORDER_RECORD,LIBSYS_MARC_IDX等用戶表。
隨書光盤借閱一直是圖書館流通工作的一大難點(diǎn),排架和檢索工作量大,借出的光盤容易損毀。為了解決這一問題,很多圖書館都建立了非書資源系統(tǒng),把包括隨書光盤在內(nèi)的多媒體資料錄入數(shù)據(jù)庫(kù),供讀者檢索下載。以本館為例,其加工流程是采編部把隨書光盤隨書著錄,然后附清單轉(zhuǎn)交數(shù)字化部,數(shù)字化部清點(diǎn)無誤后把清單轉(zhuǎn)交數(shù)據(jù)加工商,由加工商在其總庫(kù)中檢索并把匹配到的數(shù)據(jù)返還圖書館,未匹配到的數(shù)據(jù)再手工錄入。這一流程中,“隨書光盤清單”扮演著重要角色,但匯文系統(tǒng)并沒有提供隨書光盤數(shù)據(jù)的導(dǎo)出功能,手工錄入不僅工作量繁重(本館2009年采購(gòu)新書8萬余冊(cè),隨書光盤計(jì)8900張)而且容易出錯(cuò)。數(shù)據(jù)提取可以輕松解決這一問題,從表LIBSYS_INDI_ACCT和LIBSYS_MARC中導(dǎo)出隨書光盤數(shù)據(jù),包括書名、作者、ISBN號(hào)、光盤數(shù)量等信息,每次操作只需要幾分鐘時(shí)間。
表2 隨書光盤數(shù)據(jù)
龐大的匯文系統(tǒng)數(shù)據(jù)庫(kù)就像阿里巴巴寶藏一樣,只要找到了“芝麻開門”的密碼,就有不斷的驚喜等著我們?nèi)ネ诰颉;趨R文系統(tǒng)的數(shù)據(jù)提取也絕不僅僅限于應(yīng)用在現(xiàn)場(chǎng)采購(gòu)查重和隨書光盤數(shù)據(jù)獲取上,如總流通量為零的數(shù)據(jù)可以為書庫(kù)剔舊提供數(shù)據(jù)支撐等。本文謹(jǐn)以此拋磚引玉,大家共同探索,進(jìn)一步提高圖書館的工作效率。
[1]陸覺民,鄭宇.基于矩陣的數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書館中的應(yīng)用[J].現(xiàn)代情報(bào),2007(12):92.
[2]張玉峰,艾丹祥,王翠波.智能信息系統(tǒng)[M].武漢:武漢大學(xué)出版社,2008:248-249.
[3]http://www.libsys.com.cn/about.php[EB/OL].2010-4-7.
[4]趙立宏,吳學(xué)毅.基于圖書館自動(dòng)化系統(tǒng)的自定義統(tǒng)計(jì)分析技術(shù)研究[J].情報(bào)雜志,2006(3):35.
[5]郭力平,雷東升,高涵編著.數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用 Access 2003篇(第2版)[M].北京:人民郵電出版社,2008,10.
(編輯:隗爽)
G250.7
A
1673-8454(2010)21-0079-03