亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于匯文系統(tǒng)的數(shù)據(jù)提取與應(yīng)用研究

        2010-10-20 05:16:24孫金娟
        中國教育信息化 2010年21期
        關(guān)鍵詞:匯文光盤數(shù)據(jù)挖掘

        孫金娟

        (常熟理工學(xué)院 圖書館,江蘇 常熟 215500)

        基于匯文系統(tǒng)的數(shù)據(jù)提取與應(yīng)用研究

        孫金娟

        (常熟理工學(xué)院 圖書館,江蘇 常熟 215500)

        自動化系統(tǒng)固化的統(tǒng)計模塊功能已不能滿足圖書館個性化的數(shù)據(jù)資源需求,為了解決這一問題,本文提出了數(shù)據(jù)提取的概念。數(shù)據(jù)提取有別于數(shù)據(jù)挖掘,是利用數(shù)據(jù)庫技術(shù),從大量的實際應(yīng)用數(shù)據(jù)中提取隱含的、潛在有用信息的過程,更側(cè)重于數(shù)據(jù)的收集,目的在于簡化圖書館的工作程序,提高工作效率,滿足圖書館的個性化需求。

        數(shù)據(jù)提?。粎R文系統(tǒng);自動化系統(tǒng);圖書館資源

        自動化管理系統(tǒng)在圖書館的廣泛應(yīng)用促進(jìn)了數(shù)據(jù)量的飛速增長,經(jīng)過長年累月的運行,數(shù)據(jù)庫忠實地記錄了圖書館的各種運行信息。圖書館界對數(shù)據(jù)資源的關(guān)注從未間斷,近年來更是引入了數(shù)據(jù)挖掘技術(shù),研究成果斐然,但其重點大都集中在為圖書館運行狀態(tài)的評估和管理決策提供支持信息,以及提高圖書館對讀者的個性化服務(wù)水平上。事實上,自動化系統(tǒng)提供的準(zhǔn)確、系統(tǒng)、全面的數(shù)據(jù)資源并未惠及圖書館普通工作人員,對大多數(shù)人來說,自動化系統(tǒng)的功能只是把日常工作從手工操作轉(zhuǎn)換成了計算機(jī)操作,并未見有更多助益。

        筆者兼任常熟理工學(xué)院圖書館系統(tǒng)管理員多年,見證了數(shù)據(jù)庫容量與日俱增,每次整理數(shù)據(jù)都有“入寶山而空手回”的感慨和遺憾。為在數(shù)據(jù)挖掘方面做一些事情,筆者多次與圖書館一線工作人員交流和反饋,利用Access數(shù)據(jù)庫和ODBC技術(shù),對數(shù)據(jù)資源的提取和應(yīng)用有了一些自己的體會。

        一、“數(shù)據(jù)提取”的概念分析

        本文中提到的 “數(shù)據(jù)提取”有別于目前炙手可熱的“數(shù)據(jù)挖掘”。數(shù)據(jù)挖掘技術(shù)是一門交叉學(xué)科,它把人們對數(shù)據(jù)的應(yīng)用從低層次的簡單查詢提升到對數(shù)據(jù)進(jìn)行更高層次的提煉和分析,[1]涉及數(shù)據(jù)庫技術(shù)、人工智能技術(shù)等多門學(xué)科。分析該定義,數(shù)據(jù)挖掘強(qiáng)調(diào)的是對數(shù)據(jù)的更高層次的提煉和分析,目標(biāo)定位在為戰(zhàn)略決策和知識管理提供信息支持。就圖書館普通工作人員而言,數(shù)據(jù)挖掘技術(shù)是高深而遙遠(yuǎn)的,歸納學(xué)習(xí)方法、仿生物技術(shù)、公式發(fā)現(xiàn)、統(tǒng)計分析方法、模糊數(shù)學(xué)方法和可視化技術(shù)等數(shù)據(jù)挖掘的方法和技術(shù)讓人望而生畏。[2]而“數(shù)據(jù)提取”是利用數(shù)據(jù)庫技術(shù),從大量的實際應(yīng)用數(shù)據(jù)中提取隱含的、潛在有用信息的過程,更側(cè)重于數(shù)據(jù)的收集,目的在于簡化圖書館的工作程序,提高工作效率。

        二、基于匯文系統(tǒng)的數(shù)據(jù)提取

        1.系統(tǒng)情況介紹

        匯文文獻(xiàn)信息服務(wù)系統(tǒng)(libsys,下文簡稱“匯文系統(tǒng)”)是基于大型圖書館管理模式,以江蘇省高校文獻(xiàn)保障服務(wù)系統(tǒng)(JALIS)為宗旨,面向網(wǎng)絡(luò)化、標(biāo)準(zhǔn)化、數(shù)字化和區(qū)域化的圖書館自動化管理系統(tǒng)。截止到2008年底,國內(nèi)400多家知名高校和公共圖書館選用該系統(tǒng),其中包括教育部公布的39所 “985工程”高校中的11所,112所211高校中的41所大學(xué),[3]成為單個系統(tǒng)占有量之最。

        匯文系統(tǒng)基于Windows Server、Unix操作系統(tǒng),以先進(jìn)的大型關(guān)系型數(shù)據(jù)庫Oracle數(shù)據(jù)庫為支撐,包括采訪、編目、典藏、流通、期刊、統(tǒng)計、系統(tǒng)管理等業(yè)務(wù)處理和管理功能,覆蓋圖書館現(xiàn)階段所有的工作范圍。系統(tǒng)統(tǒng)計模塊提供5大項42小項統(tǒng)計,其中流通17項,采訪11項,編目2項,典藏7項,期刊5項,可謂功能強(qiáng)大。同大多數(shù)自動化管理系統(tǒng)的統(tǒng)計模塊一樣,該模塊是采用列舉法進(jìn)行設(shè)計和實現(xiàn)的。盡管某些統(tǒng)計項目采用了參數(shù)化設(shè)計和實現(xiàn)的技術(shù),但仍未脫離列舉法的框架,因此,其統(tǒng)計內(nèi)容和報表格式基本是不變的。由于各個圖書館管理水平和關(guān)注內(nèi)容在不同時期會有所變化,這種不變性造成了圖書館所關(guān)注的內(nèi)容無法統(tǒng)計,而不關(guān)注的統(tǒng)計項大量浪費。[4]數(shù)據(jù)提取技術(shù)可以彌補(bǔ)這一缺憾,根據(jù)圖書館的實際需求從數(shù)據(jù)庫中提取相關(guān)統(tǒng)計信息。

        2.工具的選擇

        Access是一個小型的開放式數(shù)據(jù)庫管理系統(tǒng),通過ODBC(開放式數(shù)據(jù)庫互連)能與其他數(shù)據(jù)庫(例如SQL Server,Oracle、Sybase、Visual FoxPro 等)相連,實現(xiàn)數(shù)據(jù)交換與共享。[5]在本文中,筆者正是使用Access和ODBC實現(xiàn)數(shù)據(jù)提取。

        我校的匯文系統(tǒng)采用Oracle9I數(shù)據(jù)庫,基于安全考慮,數(shù)據(jù)提取嚴(yán)禁在服務(wù)器上直接操作。我館采用的方法是在客戶端上建立ODBC數(shù)據(jù)源,以Access數(shù)據(jù)庫為載體,把匯文Oracle數(shù)據(jù)庫的用戶表鏈接(或?qū)耄┑奖緳C(jī)上,然后再操作。需要注意的是,操作必須是在圖書館網(wǎng)絡(luò)范圍內(nèi)、裝有Oracle客戶端并配置好服務(wù)命名的工作機(jī)上進(jìn)行。

        3.匯文數(shù)據(jù)庫常用用戶表介紹

        配置好ODBC數(shù)據(jù)源后,新建一個Access數(shù)據(jù)庫(命名為library),打開數(shù)據(jù)庫library,把獲取查重數(shù)據(jù)所需要的用戶表鏈接(或?qū)耄┻^來。在操作過程中,系統(tǒng)會提示輸入Oracle數(shù)據(jù)庫服務(wù)器名、用戶名和密碼。如果是鏈接表,那么每次操作用戶表時都會要求輸入相關(guān)賬號信息,是對Oracle數(shù)據(jù)庫的直接操作,存在一定風(fēng)險,不建議使用。穩(wěn)妥的做法是把用戶表導(dǎo)入數(shù)據(jù)庫library,再對用戶表操作就單純是對本機(jī)數(shù)據(jù)的調(diào)用,不再需要輸入賬戶信息,安全性高,缺點就是導(dǎo)入速度稍慢,而且數(shù)據(jù)每有更新就需重新導(dǎo)入一次。

        匯文系統(tǒng)使用的Oracle數(shù)據(jù)庫十分龐大,僅以libsys開頭的用戶表就有200多個。好在我們需要的數(shù)據(jù)大部分集中在以下常用表中,見表1。

        表1 匯文數(shù)據(jù)庫常用用戶表

        這24個表基本囊括了圖書館業(yè)務(wù)流程除閱覽模塊的所有數(shù)據(jù),其中MARC_REC_NO為所有表之間的對應(yīng)關(guān)鍵字,可以通過Access查詢的方法進(jìn)行對應(yīng)鏈接,實現(xiàn)數(shù)據(jù)提取的目的。Access數(shù)據(jù)庫的操作十分簡單,在此不再贅述。

        三、應(yīng)用案例

        在實際工作中,具體哪些數(shù)據(jù)是我們需要而統(tǒng)計模塊不能提供的呢?這些數(shù)據(jù)對我們的工作能起到怎樣的促進(jìn)作用呢?本文擬用以下幾個案例進(jìn)行分析。

        1.現(xiàn)場采購查重數(shù)據(jù)的獲取

        由于脫離了圖書館的自動化系統(tǒng),現(xiàn)場采購的查重工作一直是困擾圖書館界的難題。一般來講,現(xiàn)場采購查重工作要實現(xiàn)的目標(biāo)就是快速反映本館藏書信息,具體有以下幾點:

        (1)判斷手里文獻(xiàn)是否為非重復(fù)的。由于現(xiàn)在圖書的初次查重都是基于ISBN號的簡單查重,ISBN號相同的就認(rèn)為是重復(fù)圖書,不同的就認(rèn)為是非重復(fù)的。但是因為叢書、版本、多卷書等因素的存在,都會導(dǎo)致異書同號的現(xiàn)象存在。因此有必要進(jìn)行詳細(xì)字段的查重,需要的信息為:ISBN號,書名,作者,出版社,出版日期,價格,叢書項,版次。

        (2)手里的文獻(xiàn)如果重復(fù),是否需要追加采購。一般來講,圖書館采訪時都會對館藏圖書復(fù)本量小的和流通量大的進(jìn)行追加采購,我館還根據(jù)我校的情況,對全部借出的圖書(即全部不在館)進(jìn)行有選擇的追加。需要的信息為:館藏量,總的流通量,在館是否為0。

        (3)手里的文獻(xiàn)是否已經(jīng)在書目圈訂時訂購,如果訂購,是在哪個書商處訂購以及訂購的其他詳細(xì)信息。需要的信息為:是否訂購,書商名稱,訂購時間,訂購批次,訂購量。有了這些信息,采購人員可以根據(jù)經(jīng)驗,比較方便地判斷出哪些圖書是不需要現(xiàn)場采購的,哪些圖書是書商難以配齊需要采購的,哪些是需要適量補(bǔ)充復(fù)本的。

        總結(jié)一下,現(xiàn)場采購查重的數(shù)據(jù)需求是:ISBN號,書名,作者,出版社,出版日期,價格,叢書項,版次,館藏量,總的流通量,在館是否為0,是否訂購,書商名稱,訂購時間,訂購批次,訂購量,共16個字段。匯文系統(tǒng)的統(tǒng)計模塊雖然提供了強(qiáng)大的統(tǒng)計功能,但是我們尷尬地發(fā)現(xiàn),這些統(tǒng)計項目只是提供了一個固化的統(tǒng)計報表,并沒有提供字段導(dǎo)出的功能。即便是把所需的這些數(shù)據(jù)全部統(tǒng)計出來,數(shù)據(jù)的整合也是一項不小的工程。現(xiàn)場采購查重所需16個字段中除前8個字段可以直接通過系統(tǒng)管理模塊的“MARC導(dǎo)出程序”導(dǎo)出外,其他8個字段直接從數(shù)據(jù)庫中提取更為方便,具體涉及LIBSYS_CALLNOCHILD,LIBSYS_MARC,LIBSYS_INDI_ACCT,LIBSYS_ITEMCHILD,LIBSYS_ITEM,LIBSYS_ORDER_RECORD,LIBSYS_MARC_IDX等用戶表。

        2.輕松制作隨書光盤清單

        隨書光盤借閱一直是圖書館流通工作的一大難點,排架和檢索工作量大,借出的光盤容易損毀。為了解決這一問題,很多圖書館都建立了非書資源系統(tǒng),把包括隨書光盤在內(nèi)的多媒體資料錄入數(shù)據(jù)庫,供讀者檢索下載。以本館為例,其加工流程是采編部把隨書光盤隨書著錄,然后附清單轉(zhuǎn)交數(shù)字化部,數(shù)字化部清點無誤后把清單轉(zhuǎn)交數(shù)據(jù)加工商,由加工商在其總庫中檢索并把匹配到的數(shù)據(jù)返還圖書館,未匹配到的數(shù)據(jù)再手工錄入。這一流程中,“隨書光盤清單”扮演著重要角色,但匯文系統(tǒng)并沒有提供隨書光盤數(shù)據(jù)的導(dǎo)出功能,手工錄入不僅工作量繁重(本館2009年采購新書8萬余冊,隨書光盤計8900張)而且容易出錯。數(shù)據(jù)提取可以輕松解決這一問題,從表LIBSYS_INDI_ACCT和LIBSYS_MARC中導(dǎo)出隨書光盤數(shù)據(jù),包括書名、作者、ISBN號、光盤數(shù)量等信息,每次操作只需要幾分鐘時間。

        表2 隨書光盤數(shù)據(jù)

        四、結(jié)語

        龐大的匯文系統(tǒng)數(shù)據(jù)庫就像阿里巴巴寶藏一樣,只要找到了“芝麻開門”的密碼,就有不斷的驚喜等著我們?nèi)ネ诰??;趨R文系統(tǒng)的數(shù)據(jù)提取也絕不僅僅限于應(yīng)用在現(xiàn)場采購查重和隨書光盤數(shù)據(jù)獲取上,如總流通量為零的數(shù)據(jù)可以為書庫剔舊提供數(shù)據(jù)支撐等。本文謹(jǐn)以此拋磚引玉,大家共同探索,進(jìn)一步提高圖書館的工作效率。

        [1]陸覺民,鄭宇.基于矩陣的數(shù)據(jù)挖掘技術(shù)在數(shù)字化圖書館中的應(yīng)用[J].現(xiàn)代情報,2007(12):92.

        [2]張玉峰,艾丹祥,王翠波.智能信息系統(tǒng)[M].武漢:武漢大學(xué)出版社,2008:248-249.

        [3]http://www.libsys.com.cn/about.php[EB/OL].2010-4-7.

        [4]趙立宏,吳學(xué)毅.基于圖書館自動化系統(tǒng)的自定義統(tǒng)計分析技術(shù)研究[J].情報雜志,2006(3):35.

        [5]郭力平,雷東升,高涵編著.數(shù)據(jù)庫技術(shù)與應(yīng)用 Access 2003篇(第2版)[M].北京:人民郵電出版社,2008,10.

        (編輯:隗爽)

        G250.7

        A

        1673-8454(2010)21-0079-03

        猜你喜歡
        匯文光盤數(shù)據(jù)挖掘
        光盤行動
        幼兒園(2021年13期)2021-12-02 05:13:48
        在機(jī)器人的陪伴中自信成長——記南京市金陵匯文學(xué)校的“墨者”宋澤卿
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        空白
        莫愁(2018年15期)2018-11-14 06:51:45
        光盤小熊
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        第10章 分式
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        “圖形的相似”測試題
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        国产av在线观看91| 青青草免费观看视频免费| 精品国产亚洲第一区二区三区| 婷婷伊人久久大香线蕉av| 国产色系视频在线观看| 天天躁日日躁狠狠躁av| 曰韩精品无码一区二区三区| 国产伦精品一区二区三区在线| 在线日本看片免费人成视久网 | а天堂中文地址在线| 亚洲午夜精品a片久久www慈禧| 无国产精品白浆免费视| 青春草在线观看免费视频| 日本一区二区在线高清观看 | 亚洲av无码一区二区乱子伦as| 欧美伊人网| av免费看网站在线观看| 凹凸世界视频a一二三| 脱了老师内裤猛烈进入 | 久久这里只有精品9| 手机在线观看亚洲av| 精品人妻伦一二三区久久| 99re热视频这里只精品| 久久男人av资源网站无码| 国语对白自拍视频在线播放| 日本a片大尺度高潮无码| 国产欧美精品区一区二区三区| 亚洲av永久无码精品成人| 日本刺激视频一区二区| 最近2019年好看中文字幕视频| 亚洲免费视频播放| 蜜桃在线观看免费高清| 国产内射爽爽大片| 国产va免费精品高清在线| 日韩中文字幕精品免费一区| 91熟女av一区二区在线| 北条麻妃国产九九九精品视频| 欧美色五月| 中文字幕人妻在线少妇完整版| 极品粉嫩嫩模大尺度无码视频| 又黄又爽又色又刺激的视频|