亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于匯文系統(tǒng)的數(shù)據(jù)提取與應(yīng)用研究

2010-10-20 05:16:24孫金娟

中國(guó)教育信息化 2010年21期

關(guān)鍵詞：數(shù)據(jù)挖掘數(shù)據(jù)庫(kù)圖書館

孫金娟

（常熟理工學(xué)院圖書館，江蘇常熟 215500）

基于匯文系統(tǒng)的數(shù)據(jù)提取與應(yīng)用研究

孫金娟

（常熟理工學(xué)院圖書館，江蘇常熟 215500）

自動(dòng)化系統(tǒng)固化的統(tǒng)計(jì)模塊功能已不能滿足圖書館個(gè)性化的數(shù)據(jù)資源需求，為了解決這一問題，本文提出了數(shù)據(jù)提取的概念。數(shù)據(jù)提取有別于數(shù)據(jù)挖掘，是利用數(shù)據(jù)庫(kù)技術(shù)，從大量的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含的、潛在有用信息的過程，更側(cè)重于數(shù)據(jù)的收集，目的在于簡(jiǎn)化圖書館的工作程序，提高工作效率，滿足圖書館的個(gè)性化需求。

數(shù)據(jù)提取；匯文系統(tǒng)；自動(dòng)化系統(tǒng)；圖書館資源

自動(dòng)化管理系統(tǒng)在圖書館的廣泛應(yīng)用促進(jìn)了數(shù)據(jù)量的飛速增長(zhǎng)，經(jīng)過長(zhǎng)年累月的運(yùn)行,數(shù)據(jù)庫(kù)忠實(shí)地記錄了圖書館的各種運(yùn)行信息。圖書館界對(duì)數(shù)據(jù)資源的關(guān)注從未間斷，近年來更是引入了數(shù)據(jù)挖掘技術(shù)，研究成果斐然，但其重點(diǎn)大都集中在為圖書館運(yùn)行狀態(tài)的評(píng)估和管理決策提供支持信息，以及提高圖書館對(duì)讀者的個(gè)性化服務(wù)水平上。事實(shí)上，自動(dòng)化系統(tǒng)提供的準(zhǔn)確、系統(tǒng)、全面的數(shù)據(jù)資源并未惠及圖書館普通工作人員，對(duì)大多數(shù)人來說，自動(dòng)化系統(tǒng)的功能只是把日常工作從手工操作轉(zhuǎn)換成了計(jì)算機(jī)操作，并未見有更多助益。

筆者兼任常熟理工學(xué)院圖書館系統(tǒng)管理員多年，見證了數(shù)據(jù)庫(kù)容量與日俱增，每次整理數(shù)據(jù)都有“入寶山而空手回”的感慨和遺憾。為在數(shù)據(jù)挖掘方面做一些事情，筆者多次與圖書館一線工作人員交流和反饋，利用Access數(shù)據(jù)庫(kù)和ODBC技術(shù)，對(duì)數(shù)據(jù)資源的提取和應(yīng)用有了一些自己的體會(huì)。

一、“數(shù)據(jù)提取”的概念分析

本文中提到的 “數(shù)據(jù)提取”有別于目前炙手可熱的“數(shù)據(jù)挖掘”。數(shù)據(jù)挖掘技術(shù)是一門交叉學(xué)科,它把人們對(duì)數(shù)據(jù)的應(yīng)用從低層次的簡(jiǎn)單查詢提升到對(duì)數(shù)據(jù)進(jìn)行更高層次的提煉和分析，[1]涉及數(shù)據(jù)庫(kù)技術(shù)、人工智能技術(shù)等多門學(xué)科。分析該定義，數(shù)據(jù)挖掘強(qiáng)調(diào)的是對(duì)數(shù)據(jù)的更高層次的提煉和分析，目標(biāo)定位在為戰(zhàn)略決策和知識(shí)管理提供信息支持。就圖書館普通工作人員而言，數(shù)據(jù)挖掘技術(shù)是高深而遙遠(yuǎn)的，歸納學(xué)習(xí)方法、仿生物技術(shù)、公式發(fā)現(xiàn)、統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)方法和可視化技術(shù)等數(shù)據(jù)挖掘的方法和技術(shù)讓人望而生畏。[2]而“數(shù)據(jù)提取”是利用數(shù)據(jù)庫(kù)技術(shù)，從大量的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含的、潛在有用信息的過程，更側(cè)重于數(shù)據(jù)的收集，目的在于簡(jiǎn)化圖書館的工作程序，提高工作效率。

二、基于匯文系統(tǒng)的數(shù)據(jù)提取

1.系統(tǒng)情況介紹

匯文文獻(xiàn)信息服務(wù)系統(tǒng)（libsys，下文簡(jiǎn)稱“匯文系統(tǒng)”）是基于大型圖書館管理模式，以江蘇省高校文獻(xiàn)保障服務(wù)系統(tǒng)（JALIS）為宗旨，面向網(wǎng)絡(luò)化、標(biāo)準(zhǔn)化、數(shù)字化和區(qū)域化的圖書館自動(dòng)化管理系統(tǒng)。截止到2008年底，國(guó)內(nèi)400多家知名高校和公共圖書館選用該系統(tǒng)，其中包括教育部公布的39所 “985工程”高校中的11所，112所211高校中的41所大學(xué)，[3]成為單個(gè)系統(tǒng)占有量之最。

匯文系統(tǒng)基于Windows Server、Unix操作系統(tǒng),以先進(jìn)的大型關(guān)系型數(shù)據(jù)庫(kù)Oracle數(shù)據(jù)庫(kù)為支撐,包括采訪、編目、典藏、流通、期刊、統(tǒng)計(jì)、系統(tǒng)管理等業(yè)務(wù)處理和管理功能,覆蓋圖書館現(xiàn)階段所有的工作范圍。系統(tǒng)統(tǒng)計(jì)模塊提供5大項(xiàng)42小項(xiàng)統(tǒng)計(jì)，其中流通17項(xiàng)，采訪11項(xiàng)，編目2項(xiàng)，典藏7項(xiàng)，期刊5項(xiàng)，可謂功能強(qiáng)大。同大多數(shù)自動(dòng)化管理系統(tǒng)的統(tǒng)計(jì)模塊一樣，該模塊是采用列舉法進(jìn)行設(shè)計(jì)和實(shí)現(xiàn)的。盡管某些統(tǒng)計(jì)項(xiàng)目采用了參數(shù)化設(shè)計(jì)和實(shí)現(xiàn)的技術(shù),但仍未脫離列舉法的框架，因此,其統(tǒng)計(jì)內(nèi)容和報(bào)表格式基本是不變的。由于各個(gè)圖書館管理水平和關(guān)注內(nèi)容在不同時(shí)期會(huì)有所變化,這種不變性造成了圖書館所關(guān)注的內(nèi)容無法統(tǒng)計(jì),而不關(guān)注的統(tǒng)計(jì)項(xiàng)大量浪費(fèi)。[4]數(shù)據(jù)提取技術(shù)可以彌補(bǔ)這一缺憾，根據(jù)圖書館的實(shí)際需求從數(shù)據(jù)庫(kù)中提取相關(guān)統(tǒng)計(jì)信息。

2.工具的選擇

Access是一個(gè)小型的開放式數(shù)據(jù)庫(kù)管理系統(tǒng)，通過ODBC（開放式數(shù)據(jù)庫(kù)互連）能與其他數(shù)據(jù)庫(kù)（例如SQL Server，Oracle、Sybase、Visual FoxPro 等）相連，實(shí)現(xiàn)數(shù)據(jù)交換與共享。[5]在本文中，筆者正是使用Access和ODBC實(shí)現(xiàn)數(shù)據(jù)提取。

我校的匯文系統(tǒng)采用Oracle9I數(shù)據(jù)庫(kù)，基于安全考慮，數(shù)據(jù)提取嚴(yán)禁在服務(wù)器上直接操作。我館采用的方法是在客戶端上建立ODBC數(shù)據(jù)源，以Access數(shù)據(jù)庫(kù)為載體，把匯文Oracle數(shù)據(jù)庫(kù)的用戶表鏈接（或?qū)耄┑奖緳C(jī)上，然后再操作。需要注意的是，操作必須是在圖書館網(wǎng)絡(luò)范圍內(nèi)、裝有Oracle客戶端并配置好服務(wù)命名的工作機(jī)上進(jìn)行。

3.匯文數(shù)據(jù)庫(kù)常用用戶表介紹

配置好ODBC數(shù)據(jù)源后，新建一個(gè)Access數(shù)據(jù)庫(kù)（命名為library），打開數(shù)據(jù)庫(kù)library，把獲取查重?cái)?shù)據(jù)所需要的用戶表鏈接（或?qū)耄┻^來。在操作過程中，系統(tǒng)會(huì)提示輸入Oracle數(shù)據(jù)庫(kù)服務(wù)器名、用戶名和密碼。如果是鏈接表，那么每次操作用戶表時(shí)都會(huì)要求輸入相關(guān)賬號(hào)信息，是對(duì)Oracle數(shù)據(jù)庫(kù)的直接操作，存在一定風(fēng)險(xiǎn)，不建議使用。穩(wěn)妥的做法是把用戶表導(dǎo)入數(shù)據(jù)庫(kù)library，再對(duì)用戶表操作就單純是對(duì)本機(jī)數(shù)據(jù)的調(diào)用，不再需要輸入賬戶信息，安全性高，缺點(diǎn)就是導(dǎo)入速度稍慢，而且數(shù)據(jù)每有更新就需重新導(dǎo)入一次。

匯文系統(tǒng)使用的Oracle數(shù)據(jù)庫(kù)十分龐大，僅以libsys開頭的用戶表就有200多個(gè)。好在我們需要的數(shù)據(jù)大部分集中在以下常用表中，見表1。

表1 匯文數(shù)據(jù)庫(kù)常用用戶表

這24個(gè)表基本囊括了圖書館業(yè)務(wù)流程除閱覽模塊的所有數(shù)據(jù)，其中MARC_REC_NO為所有表之間的對(duì)應(yīng)關(guān)鍵字,可以通過Access查詢的方法進(jìn)行對(duì)應(yīng)鏈接，實(shí)現(xiàn)數(shù)據(jù)提取的目的。Access數(shù)據(jù)庫(kù)的操作十分簡(jiǎn)單，在此不再贅述。

三、應(yīng)用案例

在實(shí)際工作中，具體哪些數(shù)據(jù)是我們需要而統(tǒng)計(jì)模塊不能提供的呢？這些數(shù)據(jù)對(duì)我們的工作能起到怎樣的促進(jìn)作用呢？本文擬用以下幾個(gè)案例進(jìn)行分析。

1.現(xiàn)場(chǎng)采購(gòu)查重?cái)?shù)據(jù)的獲取

由于脫離了圖書館的自動(dòng)化系統(tǒng)，現(xiàn)場(chǎng)采購(gòu)的查重工作一直是困擾圖書館界的難題。一般來講，現(xiàn)場(chǎng)采購(gòu)查重工作要實(shí)現(xiàn)的目標(biāo)就是快速反映本館藏書信息，具體有以下幾點(diǎn)：

（1）判斷手里文獻(xiàn)是否為非重復(fù)的。由于現(xiàn)在圖書的初次查重都是基于ISBN號(hào)的簡(jiǎn)單查重，ISBN號(hào)相同的就認(rèn)為是重復(fù)圖書，不同的就認(rèn)為是非重復(fù)的。但是因?yàn)閰矔姹?、多卷書等因素的存在，都?huì)導(dǎo)致異書同號(hào)的現(xiàn)象存在。因此有必要進(jìn)行詳細(xì)字段的查重，需要的信息為：ISBN號(hào)，書名，作者，出版社，出版日期，價(jià)格，叢書項(xiàng)，版次。

（2）手里的文獻(xiàn)如果重復(fù)，是否需要追加采購(gòu)。一般來講，圖書館采訪時(shí)都會(huì)對(duì)館藏圖書復(fù)本量小的和流通量大的進(jìn)行追加采購(gòu)，我館還根據(jù)我校的情況，對(duì)全部借出的圖書（即全部不在館）進(jìn)行有選擇的追加。需要的信息為：館藏量，總的流通量，在館是否為0。

（3）手里的文獻(xiàn)是否已經(jīng)在書目圈訂時(shí)訂購(gòu)，如果訂購(gòu)，是在哪個(gè)書商處訂購(gòu)以及訂購(gòu)的其他詳細(xì)信息。需要的信息為：是否訂購(gòu)，書商名稱，訂購(gòu)時(shí)間，訂購(gòu)批次，訂購(gòu)量。有了這些信息，采購(gòu)人員可以根據(jù)經(jīng)驗(yàn)，比較方便地判斷出哪些圖書是不需要現(xiàn)場(chǎng)采購(gòu)的，哪些圖書是書商難以配齊需要采購(gòu)的，哪些是需要適量補(bǔ)充復(fù)本的。

總結(jié)一下，現(xiàn)場(chǎng)采購(gòu)查重的數(shù)據(jù)需求是：ISBN號(hào)，書名，作者，出版社，出版日期，價(jià)格，叢書項(xiàng)，版次，館藏量，總的流通量，在館是否為0，是否訂購(gòu)，書商名稱，訂購(gòu)時(shí)間，訂購(gòu)批次，訂購(gòu)量，共16個(gè)字段。匯文系統(tǒng)的統(tǒng)計(jì)模塊雖然提供了強(qiáng)大的統(tǒng)計(jì)功能，但是我們尷尬地發(fā)現(xiàn)，這些統(tǒng)計(jì)項(xiàng)目只是提供了一個(gè)固化的統(tǒng)計(jì)報(bào)表，并沒有提供字段導(dǎo)出的功能。即便是把所需的這些數(shù)據(jù)全部統(tǒng)計(jì)出來，數(shù)據(jù)的整合也是一項(xiàng)不小的工程?，F(xiàn)場(chǎng)采購(gòu)查重所需16個(gè)字段中除前8個(gè)字段可以直接通過系統(tǒng)管理模塊的“MARC導(dǎo)出程序”導(dǎo)出外，其他8個(gè)字段直接從數(shù)據(jù)庫(kù)中提取更為方便，具體涉及LIBSYS_CALLNOCHILD，LIBSYS_MARC，LIBSYS_INDI_ACCT，LIBSYS_ITEMCHILD，LIBSYS_ITEM，LIBSYS_ORDER_RECORD，LIBSYS_MARC_IDX等用戶表。

2.輕松制作隨書光盤清單

隨書光盤借閱一直是圖書館流通工作的一大難點(diǎn)，排架和檢索工作量大，借出的光盤容易損毀。為了解決這一問題，很多圖書館都建立了非書資源系統(tǒng)，把包括隨書光盤在內(nèi)的多媒體資料錄入數(shù)據(jù)庫(kù)，供讀者檢索下載。以本館為例，其加工流程是采編部把隨書光盤隨書著錄，然后附清單轉(zhuǎn)交數(shù)字化部，數(shù)字化部清點(diǎn)無誤后把清單轉(zhuǎn)交數(shù)據(jù)加工商，由加工商在其總庫(kù)中檢索并把匹配到的數(shù)據(jù)返還圖書館，未匹配到的數(shù)據(jù)再手工錄入。這一流程中，“隨書光盤清單”扮演著重要角色，但匯文系統(tǒng)并沒有提供隨書光盤數(shù)據(jù)的導(dǎo)出功能，手工錄入不僅工作量繁重（本館2009年采購(gòu)新書8萬余冊(cè)，隨書光盤計(jì)8900張）而且容易出錯(cuò)。數(shù)據(jù)提取可以輕松解決這一問題，從表LIBSYS_INDI_ACCT和LIBSYS_MARC中導(dǎo)出隨書光盤數(shù)據(jù)，包括書名、作者、ISBN號(hào)、光盤數(shù)量等信息，每次操作只需要幾分鐘時(shí)間。

表2 隨書光盤數(shù)據(jù)

四、結(jié)語(yǔ)

龐大的匯文系統(tǒng)數(shù)據(jù)庫(kù)就像阿里巴巴寶藏一樣，只要找到了“芝麻開門”的密碼，就有不斷的驚喜等著我們?nèi)ネ诰颉；趨R文系統(tǒng)的數(shù)據(jù)提取也絕不僅僅限于應(yīng)用在現(xiàn)場(chǎng)采購(gòu)查重和隨書光盤數(shù)據(jù)獲取上，如總流通量為零的數(shù)據(jù)可以為書庫(kù)剔舊提供數(shù)據(jù)支撐等。本文謹(jǐn)以此拋磚引玉，大家共同探索，進(jìn)一步提高圖書館的工作效率。

[1]陸覺民,鄭宇.基于矩陣的數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書館中的應(yīng)用[J].現(xiàn)代情報(bào),2007（12）:92.

[2]張玉峰,艾丹祥,王翠波.智能信息系統(tǒng)[M].武漢：武漢大學(xué)出版社,2008:248-249.

[3]http://www.libsys.com.cn/about.php[EB/OL].2010-4-7.

[4]趙立宏,吳學(xué)毅.基于圖書館自動(dòng)化系統(tǒng)的自定義統(tǒng)計(jì)分析技術(shù)研究[J].情報(bào)雜志,2006（3）:35.

[5]郭力平,雷東升,高涵編著.數(shù)據(jù)庫(kù)技術(shù)與應(yīng)用 Access 2003篇（第2版）[M].北京：人民郵電出版社,2008,10.

（編輯：隗爽）

G250.7

1673-8454（2010）21-0079-03

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于匯文系統(tǒng)的數(shù)據(jù)提取與應(yīng)用研究

一、“數(shù)據(jù)提取”的概念分析

二、基于匯文系統(tǒng)的數(shù)據(jù)提取

1.現(xiàn)場(chǎng)采購(gòu)查重?cái)?shù)據(jù)的獲取

2.輕松制作隨書光盤清單

四、結(jié)語(yǔ)

四、結(jié)語(yǔ)