亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于匯文系統(tǒng)的數(shù)據(jù)提取與應(yīng)用研究

        2010-04-12 00:00:00孫金娟
        中國教育信息化 2010年11期

        摘 要:自動(dòng)化系統(tǒng)固化的統(tǒng)計(jì)模塊功能已不能滿足圖書館個(gè)性化的數(shù)據(jù)資源需求,為了解決這一問題,本文提出了數(shù)據(jù)提取的概念。數(shù)據(jù)提取有別于數(shù)據(jù)挖掘,是利用數(shù)據(jù)庫技術(shù),從大量的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含的、潛在有用信息的過程,更側(cè)重于數(shù)據(jù)的收集,目的在于簡化圖書館的工作程序,提高工作效率,滿足圖書館的個(gè)性化需求。

        關(guān)鍵詞:數(shù)據(jù)提取;匯文系統(tǒng);自動(dòng)化系統(tǒng);圖書館資源

        中圖分類號(hào):G250.7文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1673-8454(2010)21-0079-03

        自動(dòng)化管理系統(tǒng)在圖書館的廣泛應(yīng)用促進(jìn)了數(shù)據(jù)量的飛速增長,經(jīng)過長年累月的運(yùn)行,數(shù)據(jù)庫忠實(shí)地記錄了圖書館的各種運(yùn)行信息。圖書館界對數(shù)據(jù)資源的關(guān)注從未間斷,近年來更是引入了數(shù)據(jù)挖掘技術(shù),研究成果斐然,但其重點(diǎn)大都集中在為圖書館運(yùn)行狀態(tài)的評估和管理決策提供支持信息,以及提高圖書館對讀者的個(gè)性化服務(wù)水平上。事實(shí)上,自動(dòng)化系統(tǒng)提供的準(zhǔn)確、系統(tǒng)、全面的數(shù)據(jù)資源并未惠及圖書館普通工作人員,對大多數(shù)人來說,自動(dòng)化系統(tǒng)的功能只是把日常工作從手工操作轉(zhuǎn)換成了計(jì)算機(jī)操作,并未見有更多助益。

        筆者兼任常熟理工學(xué)院圖書館系統(tǒng)管理員多年,見證了數(shù)據(jù)庫容量與日俱增,每次整理數(shù)據(jù)都有“入寶山而空手回”的感慨和遺憾。為在數(shù)據(jù)挖掘方面做一些事情,筆者多次與圖書館一線工作人員交流和反饋,利用Access數(shù)據(jù)庫和ODBC技術(shù),對數(shù)據(jù)資源的提取和應(yīng)用有了一些自己的體會(huì)。

        一、“數(shù)據(jù)提取”的概念分析

        本文中提到的“數(shù)據(jù)提取”有別于目前炙手可熱的“數(shù)據(jù)挖掘”。數(shù)據(jù)挖掘技術(shù)是一門交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢提升到對數(shù)據(jù)進(jìn)行更高層次的提煉和分析,[1]涉及數(shù)據(jù)庫技術(shù)、人工智能技術(shù)等多門學(xué)科。分析該定義,數(shù)據(jù)挖掘強(qiáng)調(diào)的是對數(shù)據(jù)的更高層次的提煉和分析,目標(biāo)定位在為戰(zhàn)略決策和知識(shí)管理提供信息支持。就圖書館普通工作人員而言,數(shù)據(jù)挖掘技術(shù)是高深而遙遠(yuǎn)的,歸納學(xué)習(xí)方法、仿生物技術(shù)、公式發(fā)現(xiàn)、統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)方法和可視化技術(shù)等數(shù)據(jù)挖掘的方法和技術(shù)讓人望而生畏。[2]而“數(shù)據(jù)提取”是利用數(shù)據(jù)庫技術(shù),從大量的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含的、潛在有用信息的過程,更側(cè)重于數(shù)據(jù)的收集,目的在于簡化圖書館的工作程序,提高工作效率。

        二、基于匯文系統(tǒng)的數(shù)據(jù)提取

        1.系統(tǒng)情況介紹

        匯文文獻(xiàn)信息服務(wù)系統(tǒng)(libsys,下文簡稱“匯文系統(tǒng)”)是基于大型圖書館管理模式,以江蘇省高校文獻(xiàn)保障服務(wù)系統(tǒng)(JALIS)為宗旨,面向網(wǎng)絡(luò)化、標(biāo)準(zhǔn)化、數(shù)字化和區(qū)域化的圖書館自動(dòng)化管理系統(tǒng)。截止到2008年底,國內(nèi)400多家知名高校和公共圖書館選用該系統(tǒng),其中包括教育部公布的39所“985工程”高校中的11所,112所211高校中的41所大學(xué),[3]成為單個(gè)系統(tǒng)占有量之最。

        匯文系統(tǒng)基于Windows Server、Unix操作系統(tǒng),以先進(jìn)的大型關(guān)系型數(shù)據(jù)庫Oracle數(shù)據(jù)庫為支撐,包括采訪、編目、典藏、流通、期刊、統(tǒng)計(jì)、系統(tǒng)管理等業(yè)務(wù)處理和管理功能,覆蓋圖書館現(xiàn)階段所有的工作范圍。系統(tǒng)統(tǒng)計(jì)模塊提供5大項(xiàng)42小項(xiàng)統(tǒng)計(jì),其中流通17項(xiàng),采訪11項(xiàng),編目2項(xiàng),典藏7項(xiàng),期刊5項(xiàng),可謂功能強(qiáng)大。同大多數(shù)自動(dòng)化管理系統(tǒng)的統(tǒng)計(jì)模塊一樣,該模塊是采用列舉法進(jìn)行設(shè)計(jì)和實(shí)現(xiàn)的。盡管某些統(tǒng)計(jì)項(xiàng)目采用了參數(shù)化設(shè)計(jì)和實(shí)現(xiàn)的技術(shù),但仍未脫離列舉法的框架,因此,其統(tǒng)計(jì)內(nèi)容和報(bào)表格式基本是不變的。由于各個(gè)圖書館管理水平和關(guān)注內(nèi)容在不同時(shí)期會(huì)有所變化,這種不變性造成了圖書館所關(guān)注的內(nèi)容無法統(tǒng)計(jì),而不關(guān)注的統(tǒng)計(jì)項(xiàng)大量浪費(fèi)。[4]數(shù)據(jù)提取技術(shù)可以彌補(bǔ)這一缺憾,根據(jù)圖書館的實(shí)際需求從數(shù)據(jù)庫中提取相關(guān)統(tǒng)計(jì)信息。

        2.工具的選擇

        Access是一個(gè)小型的開放式數(shù)據(jù)庫管理系統(tǒng),通過ODBC(開放式數(shù)據(jù)庫互連)能與其他數(shù)據(jù)庫(例如SQL Server,Oracle、Sybase、Visual FoxPro等)相連,實(shí)現(xiàn)數(shù)據(jù)交換與共享。[5]在本文中,筆者正是使用Access和ODBC實(shí)現(xiàn)數(shù)據(jù)提取。

        我校的匯文系統(tǒng)采用Oracle9I數(shù)據(jù)庫,基于安全考慮,數(shù)據(jù)提取嚴(yán)禁在服務(wù)器上直接操作。我館采用的方法是在客戶端上建立ODBC數(shù)據(jù)源,以Access數(shù)據(jù)庫為載體,把匯文Oracle數(shù)據(jù)庫的用戶表鏈接(或?qū)?到本機(jī)上,然后再操作。需要注意的是,操作必須是在圖書館網(wǎng)絡(luò)范圍內(nèi)、裝有Oracle客戶端并配置好服務(wù)命名的工作機(jī)上進(jìn)行。

        3.匯文數(shù)據(jù)庫常用用戶表介紹

        配置好ODBC數(shù)據(jù)源后,新建一個(gè)Access數(shù)據(jù)庫(命名為library),打開數(shù)據(jù)庫library,把獲取查重?cái)?shù)據(jù)所需要的用戶表鏈接(或?qū)?過來。在操作過程中,系統(tǒng)會(huì)提示輸入Oracle數(shù)據(jù)庫服務(wù)器名、用戶名和密碼。如果是鏈接表,那么每次操作用戶表時(shí)都會(huì)要求輸入相關(guān)賬號(hào)信息,是對Oracle數(shù)據(jù)庫的直接操作,存在一定風(fēng)險(xiǎn),不建議使用。穩(wěn)妥的做法是把用戶表導(dǎo)入數(shù)據(jù)庫library,再對用戶表操作就單純是對本機(jī)數(shù)據(jù)的調(diào)用,不再需要輸入賬戶信息,安全性高,缺點(diǎn)就是導(dǎo)入速度稍慢,而且數(shù)據(jù)每有更新就需重新導(dǎo)入一次。

        匯文系統(tǒng)使用的Oracle數(shù)據(jù)庫十分龐大,僅以libsys開頭的用戶表就有200多個(gè)。好在我們需要的數(shù)據(jù)大部分集中在以下常用表中,見表1。

        這24個(gè)表基本囊括了圖書館業(yè)務(wù)流程除閱覽模塊的所有數(shù)據(jù),其中MARC_REC_NO為所有表之間的對應(yīng)關(guān)鍵字,可以通過Access查詢的方法進(jìn)行對應(yīng)鏈接,實(shí)現(xiàn)數(shù)據(jù)提取的目的。Access數(shù)據(jù)庫的操作十分簡單,在此不再贅述。

        三、應(yīng)用案例

        在實(shí)際工作中,具體哪些數(shù)據(jù)是我們需要而統(tǒng)計(jì)模塊不能提供的呢?這些數(shù)據(jù)對我們的工作能起到怎樣的促進(jìn)作用呢?本文擬用以下幾個(gè)案例進(jìn)行分析。

        1.現(xiàn)場采購查重?cái)?shù)據(jù)的獲取

        由于脫離了圖書館的自動(dòng)化系統(tǒng),現(xiàn)場采購的查重工作一直是困擾圖書館界的難題。一般來講,現(xiàn)場采購查重工作要實(shí)現(xiàn)的目標(biāo)就是快速反映本館藏書信息,具體有以下幾點(diǎn):

        (1)判斷手里文獻(xiàn)是否為非重復(fù)的。由于現(xiàn)在圖書的初次查重都是基于ISBN號(hào)的簡單查重,ISBN號(hào)相同的就認(rèn)為是重復(fù)圖書,不同的就認(rèn)為是非重復(fù)的。但是因?yàn)閰矔?、版本、多卷書等因素的存在,都?huì)導(dǎo)致異書同號(hào)的現(xiàn)象存在。因此有必要進(jìn)行詳細(xì)字段的查重,需要的信息為:ISBN號(hào),書名,作者,出版社,出版日期,價(jià)格,叢書項(xiàng),版次。

        (2)手里的文獻(xiàn)如果重復(fù),是否需要追加采購。一般來講,圖書館采訪時(shí)都會(huì)對館藏圖書復(fù)本量小的和流通量大的進(jìn)行追加采購,我館還根據(jù)我校的情況,對全部借出的圖書(即全部不在館)進(jìn)行有選擇的追加。需要的信息為:館藏量,總的流通量,在館是否為0。

        (3)手里的文獻(xiàn)是否已經(jīng)在書目圈訂時(shí)訂購,如果訂購,是在哪個(gè)書商處訂購以及訂購的其他詳細(xì)信息。需要的信息為:是否訂購,書商名稱,訂購時(shí)間,訂購批次,訂購量。有了這些信息,采購人員可以根據(jù)經(jīng)驗(yàn),比較方便地判斷出哪些圖書是不需要現(xiàn)場采購的,哪些圖書是書商難以配齊需要采購的,哪些是需要適量補(bǔ)充復(fù)本的。

        總結(jié)一下,現(xiàn)場采購查重的數(shù)據(jù)需求是:ISBN號(hào),書名,作者,出版社,出版日期,價(jià)格,叢書項(xiàng),版次,館藏量,總的流通量,在館是否為0,是否訂購,書商名稱,訂購時(shí)間,訂購批次,訂購量,共16個(gè)字段。匯文系統(tǒng)的統(tǒng)計(jì)模塊雖然提供了強(qiáng)大的統(tǒng)計(jì)功能,但是我們尷尬地發(fā)現(xiàn),這些統(tǒng)計(jì)項(xiàng)目只是提供了一個(gè)固化的統(tǒng)計(jì)報(bào)表,并沒有提供字段導(dǎo)出的功能。即便是把所需的這些數(shù)據(jù)全部統(tǒng)計(jì)出來,數(shù)據(jù)的整合也是一項(xiàng)不小的工程?,F(xiàn)場采購查重所需16個(gè)字段中除前8個(gè)字段可以直接通過系統(tǒng)管理模塊的“MARC導(dǎo)出程序”導(dǎo)出外,其他8個(gè)字段直接從數(shù)據(jù)庫中提取更為方便,具體涉及LIBSYS_CALLNOCHILD,LIBSYS_MARC,LIBSYS_INDI_ACCT,LIBSYS_ITEMCHILD,LIBSYS_ITEM,LIBSYS_ORDER_RECORD,LIBSYS_MARC_ IDX等用戶表。

        2.輕松制作隨書光盤清單

        隨書光盤借閱一直是圖書館流通工作的一大難點(diǎn),排架和檢索工作量大,借出的光盤容易損毀。為了解決這一問題,很多圖書館都建立了非書資源系統(tǒng),把包括隨書光盤在內(nèi)的多媒體資料錄入數(shù)據(jù)庫,供讀者檢索下載。以本館為例,其加工流程是采編部把隨書光盤隨書著錄,然后附清單轉(zhuǎn)交數(shù)字化部,數(shù)字化部清點(diǎn)無誤后把清單轉(zhuǎn)交數(shù)據(jù)加工商,由加工商在其總庫中檢索并把匹配到的數(shù)據(jù)返還圖書館,未匹配到的數(shù)據(jù)再手工錄入。這一流程中,“隨書光盤清單”扮演著重要角色,但匯文系統(tǒng)并沒有提供隨書光盤數(shù)據(jù)的導(dǎo)出功能,手工錄入不僅工作量繁重(本館2009年采購新書8萬余冊,隨書光盤計(jì)8900張)而且容易出錯(cuò)。數(shù)據(jù)提取可以輕松解決這一問題,從表LIBSYS_INDI_ACCT和LIBSYS_MARC中導(dǎo)出隨書光盤數(shù)據(jù),包括書名、作者、ISBN號(hào)、光盤數(shù)量等信息,每次操作只需要幾分鐘時(shí)間。

        四、結(jié)語

        龐大的匯文系統(tǒng)數(shù)據(jù)庫就像阿里巴巴寶藏一樣,只要找到了“芝麻開門”的密碼,就有不斷的驚喜等著我們?nèi)ネ诰颉;趨R文系統(tǒng)的數(shù)據(jù)提取也絕不僅僅限于應(yīng)用在現(xiàn)場采購查重和隨書光盤數(shù)據(jù)獲取上,如總流通量為零的數(shù)據(jù)可以為書庫剔舊提供數(shù)據(jù)支撐等。本文謹(jǐn)以此拋磚引玉,大家共同探索,進(jìn)一步提高圖書館的工作效率。

        參考文獻(xiàn):

        [1]陸覺民,鄭宇.基于矩陣的數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書館中的應(yīng)用[J].現(xiàn)代情報(bào),2007(12):92.

        [2]張玉峰,艾丹祥,王翠波.智能信息系統(tǒng)[M].武漢:武漢大學(xué)出版社,2008:248-249.

        [3]http://www.libsys.com.cn/about.php[EB/OL].2010-4-7.

        [4]趙立宏,吳學(xué)毅.基于圖書館自動(dòng)化系統(tǒng)的自定義統(tǒng)計(jì)分析技術(shù)研究[J].情報(bào)雜志,2006(3):35.

        [5]郭力平,雷東升,高涵編著. 數(shù)據(jù)庫技術(shù)與應(yīng)用 Access 2003篇(第2版)[M]. 北京:人民郵電出版社,2008,10.

        (編輯:隗爽)

        亚洲蜜桃视频在线观看| 18禁高潮出水呻吟娇喘蜜芽| 国产精品福利影院| 日本精品久久性大片日本| 91久久国产香蕉熟女线看| av色综合久久天堂av色综合在 | 亚洲中文字幕午夜精品| 特黄特色的大片观看免费视频| 91免费永久国产在线观看| 色综合中文综合网| 亚洲嫩模高清在线视频| 亚洲女同精品一区二区久久| 8x国产精品视频| 国产精品久久久| 91精品国产91热久久p| 人妻少妇中文字幕久久hd高清| 人成午夜大片免费视频77777| 免费观看又色又爽又黄的韩国| 日韩美无码一区二区三区| 国产精品视频免费一区二区三区| av在线免费观看网站,| 99riav国产精品视频| 国产午夜亚洲精品午夜鲁丝片| 亚洲五月婷婷久久综合| 激情一区二区三区视频| 日韩精品人妻中文字幕有码在线| 午夜福利院电影| 国内无遮码无码| 日本高清在线播放一区二区| 97人人模人人爽人人喊网| 亚洲av理论在线电影网| 亚洲精品日本久久久中文字幕| 久久一本日韩精品中文字幕屁孩| 国产精品亚洲一区二区在线观看| 国精品无码一区二区三区在线看| 极品少妇一区二区三区四区视频 | 97在线视频人妻无码| 国产精品污www一区二区三区| 国产一区二区精品网站看黄 | 色婷婷久久99综合精品jk白丝 | 欧美日韩综合网在线观看|