張競(jìng)元
(宿遷市圖書館,江蘇 宿遷 223800)
隨著計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,圖書館信息資源管理已經(jīng)由傳統(tǒng)的手工操作模式轉(zhuǎn)變?yōu)槁?lián)機(jī)事務(wù)處理模式,這不僅給圖書管理人員提供了極大的便利,也產(chǎn)生了海量的且需要管理的數(shù)據(jù),不然很難甚至無法從零散分布的數(shù)據(jù)中獲得有價(jià)值的信息[1]。在此背景下,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,在圖書館信息資源管理系統(tǒng)中發(fā)揮著十分積極的作用,可對(duì)原始數(shù)據(jù)進(jìn)行歸納和整理,使之成為有參考價(jià)值的信息,從而為圖書館管理人員的相關(guān)決策提供現(xiàn)實(shí)依據(jù)。而數(shù)據(jù)挖掘得以開展的前提是建立一個(gè)完善的數(shù)據(jù)倉(cāng)庫。有鑒于此,筆者對(duì)基于數(shù)據(jù)倉(cāng)庫的圖書館信息資源管理系統(tǒng)設(shè)計(jì)進(jìn)行研究,旨在更好地服務(wù)于圖書館。
1993年,有著“數(shù)據(jù)倉(cāng)庫之父”之稱的W.H.Inmon在其創(chuàng)作的《Building the Data Warehouse》一書中針對(duì)“數(shù)據(jù)倉(cāng)庫”這一概念進(jìn)行了如下描述[2]:“一個(gè)直接面向主題的,隨時(shí)間推移而不斷完善的,具有集成以及非易失性特點(diǎn)的數(shù)據(jù)集合,能夠?yàn)楣芾韺酉嚓P(guān)決策的制訂與實(shí)施提供現(xiàn)實(shí)依據(jù)。”
圖書館數(shù)據(jù)倉(cāng)庫的特點(diǎn)有:①數(shù)據(jù)倉(cāng)庫屬于一種信息技術(shù)方法,以數(shù)據(jù)資源為目標(biāo)對(duì)象,對(duì)其進(jìn)行集成和整理。數(shù)據(jù)倉(cāng)庫和常規(guī)意義上的數(shù)據(jù)庫有所區(qū)別,其是遵循相關(guān)標(biāo)準(zhǔn),圍繞某具體主題,對(duì)既有的呈分散或彼此獨(dú)立的操作型數(shù)據(jù)予以高度集成;②對(duì)于數(shù)據(jù)倉(cāng)庫,其存儲(chǔ)的數(shù)據(jù)通常具有理想的穩(wěn)定性;③數(shù)據(jù)倉(cāng)庫中數(shù)據(jù)的基礎(chǔ)作用是為管理決策提供參考依據(jù)[3]。
數(shù)據(jù)倉(cāng)庫的上述特點(diǎn),為數(shù)據(jù)倉(cāng)庫技術(shù)的進(jìn)一步發(fā)展和應(yīng)用提供了理想空間?,F(xiàn)階段,越來越多的行業(yè)開始關(guān)注數(shù)據(jù)倉(cāng)庫技術(shù),并采用該技術(shù)以實(shí)現(xiàn)對(duì)信息資源的高效管理,同時(shí)為相關(guān)決策提供參考依據(jù),創(chuàng)造了巨大的經(jīng)濟(jì)效益?;跀?shù)據(jù)倉(cāng)庫的圖書館信息資源管理系統(tǒng)的設(shè)計(jì)便是該技術(shù)實(shí)踐應(yīng)用的一個(gè)代表。
構(gòu)建基于數(shù)據(jù)倉(cāng)庫的圖書館信息資源管理系統(tǒng)具有以下重要意義:①圖書采購(gòu)是圖書館信息資源管理的核心工作,而該系統(tǒng)的建立,能夠?yàn)樵擁?xiàng)工作的高效開展提供決策支持,也是圖書館邁入現(xiàn)代化管理階段的標(biāo)志之一;②能夠明顯提高圖書館的服務(wù)水平,如對(duì)相關(guān)信息進(jìn)行收集,從而總結(jié)出圖書的一般借閱規(guī)律,為管理人員的管理工作提供便利;③極大地推動(dòng)了圖書館的數(shù)字化建設(shè),與此同時(shí),也在某種程度上為圖書館管理模式以及管理理念的創(chuàng)新提供了良好的外部環(huán)境。
需求分析是系統(tǒng)數(shù)據(jù)倉(cāng)庫設(shè)計(jì)的基礎(chǔ)。該環(huán)節(jié)需要設(shè)定一個(gè)合理的、現(xiàn)實(shí)的目標(biāo),不僅要明確全部需求,同時(shí)還需要確定主題以及數(shù)據(jù)源。
對(duì)于數(shù)據(jù)倉(cāng)庫,主題設(shè)計(jì)是重中之重,基于圖書館信息資源管理系統(tǒng)的客觀需求,可總結(jié)出三大主題:一是讀者,二是圖書,三是圖書借閱[4]。在上述主題中,又以圖書借閱這一主題為核心。以圖書借閱數(shù)據(jù)為目標(biāo)對(duì)象,進(jìn)行相關(guān)分析,便能獲得與主題相關(guān)的一系列分析結(jié)果,進(jìn)而為決策的制定提供參考。讀者和圖書這兩大主題占次要地位,發(fā)揮輔助決策作用,與此同時(shí),還反映了圖書館目前發(fā)展過程中應(yīng)當(dāng)注意的一些問題。
在整個(gè)數(shù)據(jù)庫設(shè)計(jì)工作中,首先應(yīng)確立一個(gè)中心思想,并圍繞該中心思想選出與之配套的一系列數(shù)據(jù)信息。該部分設(shè)計(jì)工作結(jié)束之后,以篩選出來的數(shù)據(jù)為目標(biāo)對(duì)象,對(duì)其進(jìn)行深入分析以及整體匯總,并得到一個(gè)具有多元特點(diǎn)的數(shù)據(jù)信息表以為接下來的設(shè)計(jì)工作提供支持。其次應(yīng)設(shè)立相應(yīng)分析以及查詢工具,從而為數(shù)據(jù)倉(cāng)庫的及時(shí)有效更新提供技術(shù)支持[5]。
所謂邏輯設(shè)計(jì)指的是對(duì)數(shù)據(jù)倉(cāng)庫邏輯結(jié)構(gòu)所對(duì)應(yīng)的表現(xiàn)形式進(jìn)行確定。結(jié)合圖書館業(yè)務(wù)需求分析,準(zhǔn)確確定數(shù)據(jù)倉(cāng)庫的主題,一方面要確定事實(shí)表的粒度以及必要的維,另一方面還應(yīng)確定維的具體屬性。設(shè)計(jì)作業(yè)時(shí)建議采用星型多維模型,這一模型具有諸多優(yōu)點(diǎn),如采用的數(shù)據(jù)結(jié)構(gòu),不僅直觀,而且簡(jiǎn)單,能夠在一定程度上提高查詢的效率和質(zhì)量。在數(shù)據(jù)倉(cāng)庫中,主題和星型模型結(jié)構(gòu)呈一一對(duì)應(yīng)關(guān)系,主要由事實(shí)表與一系列維表組成,并根據(jù)粒度差異以完成數(shù)據(jù)的存儲(chǔ)工作,其結(jié)構(gòu)如圖1所示。
圖1 星型模型數(shù)據(jù)結(jié)構(gòu)
物理結(jié)構(gòu)設(shè)計(jì)主要包括兩大內(nèi)容,一個(gè)是數(shù)據(jù)倉(cāng)庫物理模型的構(gòu)建,另一個(gè)是硬件平臺(tái)的配置。在物理結(jié)構(gòu)設(shè)計(jì)工作中,應(yīng)重視并做好存儲(chǔ)策略的制定以及索引技術(shù)的選用,從而最大限度地提升數(shù)據(jù)倉(cāng)庫的工作性能。在數(shù)據(jù)倉(cāng)庫的技術(shù)條件下,主要借助位圖索引以及聯(lián)合索引以提升和保證查詢速度,與此同時(shí),還可根據(jù)實(shí)際需要設(shè)計(jì)相關(guān)的匯總表以及視圖等。
在數(shù)據(jù)倉(cāng)庫設(shè)計(jì)工作中,ETL設(shè)計(jì)主要包括數(shù)據(jù)抽?。‥xtract)、數(shù)據(jù)轉(zhuǎn)換(Transformation)以及數(shù)據(jù)加載(Loading)[6]。ETL設(shè)計(jì)是至關(guān)重要的,甚至決定了系統(tǒng)整體設(shè)計(jì)的成功與否,且具有一定的難度。數(shù)據(jù)抽取方法多種多樣,比較常用的有:①基于存儲(chǔ)過程的數(shù)據(jù)抽?。虎诨诰幊坦ぞ咭约罢{(diào)用接口的數(shù)據(jù)抽?。虎刍贠DBC的數(shù)據(jù)抽?。虎芑谀_本的數(shù)據(jù)抽?。虎莼谏虡I(yè)工具的數(shù)據(jù)抽取等。不論采用上述哪一種方法,均需要保證如下基本功能:第一,保證數(shù)據(jù)格式的一致性;第二,保證抽取數(shù)據(jù)的高質(zhì)量;第三,保證數(shù)據(jù)源數(shù)據(jù)具有良好的異構(gòu)獲取能力;第四,保證數(shù)據(jù)處理(抽取、轉(zhuǎn)換以及加載)的自動(dòng)化等。
一般設(shè)計(jì)步驟及內(nèi)容如下:先是在SQL Server數(shù)據(jù)服務(wù)器上創(chuàng)建一個(gè)所謂的數(shù)據(jù)準(zhǔn)備區(qū),并將其當(dāng)作數(shù)據(jù)倉(cāng)庫的中間存儲(chǔ)區(qū),接下來將維表以及事實(shí)表所對(duì)應(yīng)的一系列數(shù)據(jù)源將會(huì)應(yīng)用到的表均借助該設(shè)計(jì)工具導(dǎo)入SQL Server的“數(shù)據(jù)準(zhǔn)備區(qū)”的數(shù)據(jù)庫中,并對(duì)其進(jìn)行初步清理,將可能存在的NULL值及時(shí)且徹底地清除掉。然后,再借助ETL工具提供的數(shù)據(jù)轉(zhuǎn)換模塊,對(duì)上述表予以相應(yīng)轉(zhuǎn)換,從而獲得與之對(duì)應(yīng)的事實(shí)表以及維度表。
圖書館信息資源管理系統(tǒng)在功能上應(yīng)滿足3大方面的需求:一是應(yīng)滿足來自圖書借閱者的需求,主要包括圖書館存書查詢、個(gè)人借閱情況以及個(gè)人信息修改等;二是應(yīng)滿足來自圖書館工作人員的需求,主要包括對(duì)圖書館借閱者的借閱和還書要求進(jìn)行相關(guān)操作,與此同時(shí),制作關(guān)于借書以及還書的報(bào)表以供借閱者隨時(shí)查看與確認(rèn);三是應(yīng)滿足來自圖書館管理人員的需求。該功能需求最為復(fù)雜,不僅包括對(duì)上述兩大群體的管理以及維護(hù),還包括對(duì)系統(tǒng)狀態(tài)的實(shí)時(shí)查看以及維護(hù),同時(shí)還涉及圖書催還報(bào)表的制作等[7]。
基于面向?qū)ο蟮姆治龇椒▽?duì)圖書館信息資源管理系統(tǒng)的一系列功能需求進(jìn)行深入分析和具體劃分,最終將其劃分為兩大部分,一個(gè)是管理員對(duì)功能的需求,另一個(gè)是讀者對(duì)功能的需求。
管理員對(duì)功能的需求:①讀者基本信息的輸入、查詢以及修改;②書籍信息的輸入、查詢以及修改;③借書信息的輸入;④還書信息的輸入;⑤購(gòu)書決策功能[9]。
讀者對(duì)功能的需求:①圖書信息檢索;②個(gè)人信息檢索。其系統(tǒng)功能結(jié)構(gòu)詳見圖2。
圖2 圖書館信息資源管理系統(tǒng)功能架構(gòu)
由圖2可知,系統(tǒng)的功能架構(gòu)主要包括6大部分,分別是:①圖書管理,主要包括新書入庫以及圖書出庫;②圖書館流通管理,主要包括借書操作以及還書操作;③讀者管理,主要包括添加/刪除讀者以及修改密碼;④查詢,主要包括查詢目標(biāo)圖書以及查詢借閱情況;⑤系統(tǒng)管理,主要包括添加管理員以及刪除管理員;⑥采購(gòu),圖書采購(gòu)以及藏書剔除。
以基于數(shù)據(jù)挖掘的圖書館用戶資源管理為例。用戶資源管理是圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)的主要領(lǐng)域之一,相關(guān)應(yīng)用主要體現(xiàn)在兩個(gè)方面[8]:一是圖書館借助數(shù)據(jù)挖掘技術(shù)以強(qiáng)化既有的用戶資源管理能力,從而完成對(duì)當(dāng)前用戶資源管理模式的分析及調(diào)整;二是圖書館以數(shù)據(jù)挖掘得到的相關(guān)需求為牽引,更加高效地完成用戶資源管理的一系列工作,從最基本的用戶數(shù)據(jù)獲取發(fā)展到數(shù)據(jù)發(fā)掘內(nèi)容的獲取,從而為工作目標(biāo)及標(biāo)準(zhǔn)的制定提供有益參考。具體設(shè)計(jì)過程如下:①用戶數(shù)據(jù)搜集以及存儲(chǔ),主要包括搜集用戶數(shù)據(jù)和構(gòu)建用戶了數(shù)據(jù)倉(cāng)庫;②用戶多維特征分析和群體分類;③面向用戶生命周期的數(shù)據(jù)挖掘,主要包括用戶的獲取、用戶的保持和流失。
借助數(shù)據(jù)分析與展現(xiàn)工具能夠針對(duì)圖書館信息資源管理系統(tǒng)中的數(shù)據(jù)展開多維分析與匯總,并生成相應(yīng)的圖表或報(bào)表,如此一來,能夠清晰且直觀地表現(xiàn)分析結(jié)果。在圖書館信息流通的常規(guī)情況下,基于數(shù)據(jù)倉(cāng)庫的圖書館信息資源管理系統(tǒng)應(yīng)具備以下分析以及決策能力。
①對(duì)圖書館借閱情況進(jìn)行分析。對(duì)圖書的平均借閱次數(shù)進(jìn)行分析,從而進(jìn)行熱門圖書以及冷門圖書的劃分;對(duì)讀者常借圖書的出版社、類別以及語種具體分布情況進(jìn)行統(tǒng)計(jì);確定最受讀者喜歡的圖書以及出版社,從而制定合理的圖書采購(gòu)方案[9]。
②對(duì)圖書館讀者情況進(jìn)行分析。在分析的基礎(chǔ)上,掌握不同級(jí)別、不同類型、不同學(xué)科專業(yè)的讀者的具體分布情況以及圖書的具體使用情況。如對(duì)不同專業(yè)讀者借閱圖書的種類予以統(tǒng)計(jì)和分析,從而了解和掌握讀者的態(tài)度以及興趣等,并向他們推薦相關(guān)書籍。這種做法能夠大幅節(jié)省讀者的查詢時(shí)間,或者提供非常有用的信息[10];統(tǒng)計(jì)和分析不同讀者對(duì)不同圖書的需求以及表現(xiàn)出來的階段性特征,從而實(shí)現(xiàn)不同圖書的實(shí)際需求量的預(yù)測(cè)。
③對(duì)圖書館藏書進(jìn)行分析。對(duì)圖書館館藏的具體使用情況以及讀者反饋的相關(guān)信息進(jìn)行全面統(tǒng)計(jì)和深入分析,能夠比較客觀地對(duì)現(xiàn)階段的館藏質(zhì)量進(jìn)行評(píng)價(jià),從而為圖書館藏書質(zhì)量的提高提供有益指導(dǎo);對(duì)圖書館藏書的文種及其學(xué)科結(jié)構(gòu)進(jìn)行全面統(tǒng)計(jì)和深入分析,能夠讓館員在圖書采購(gòu)環(huán)節(jié)充分考慮館藏的實(shí)際情況,從而持續(xù)調(diào)整圖書館藏書結(jié)構(gòu),最終有目的且有計(jì)劃地形成具有自身特色的藏書體系。
數(shù)據(jù)倉(cāng)庫技術(shù)是上世紀(jì)90年代發(fā)展起來的一種先進(jìn)的信息技術(shù),為以圖書館為代表的諸多領(lǐng)域的信息化建設(shè)注入了新的活力。對(duì)于圖書館數(shù)據(jù)倉(cāng)庫,它和圖書館數(shù)據(jù)庫是兩個(gè)不同的概念,它支持對(duì)圖書館各種歷史數(shù)據(jù)的即時(shí)訪問,圖書館用戶可利用圖書館數(shù)據(jù)倉(cāng)庫提供的面向用戶的統(tǒng)一數(shù)據(jù)接口進(jìn)行相關(guān)訪問及查詢,從而為圖書館的各類決策提供有益支持?,F(xiàn)階段,圖書館數(shù)據(jù)倉(cāng)庫技術(shù)尚未完全成熟,未能形成一套通用的、完備的技術(shù)及理論體系,在實(shí)踐應(yīng)用之中還有很多問題亟待解決,如異構(gòu)數(shù)據(jù)庫之間的集成等,但相信在信息技術(shù)的不斷發(fā)展推動(dòng)下,相關(guān)問題將會(huì)得到有效解決。
[1]劉晶.基于數(shù)據(jù)倉(cāng)庫的高校圖書館管理的設(shè)計(jì)與實(shí)現(xiàn)[J].圖書情報(bào)工作,2009(15):126-128.
[2]李穎,等.基于GIS的數(shù)據(jù)倉(cāng)庫管理系統(tǒng)開發(fā)與實(shí)現(xiàn)[J].遼寧工程技術(shù)大學(xué)學(xué)報(bào):自然科學(xué)版,2010(3):451-453.
[3]侯杰.基于數(shù)據(jù)倉(cāng)庫的數(shù)據(jù)挖掘技術(shù)在高校圖書館管理中的應(yīng)用[J].沿海企業(yè)與科技,2010(6):51-53.
[4]唐曦文,崔希振.基于數(shù)據(jù)倉(cāng)庫的試驗(yàn)數(shù)據(jù)管理系統(tǒng)[J].制造業(yè)自動(dòng)化,2011(3):16-17,149.
[5]劉繼紅.基于數(shù)據(jù)倉(cāng)庫的質(zhì)量信息管理系統(tǒng)設(shè)計(jì)[J].情報(bào)科學(xué),2012(4):583-585.
[6]張維明.數(shù)據(jù)倉(cāng)庫原理與應(yīng)用[M].北京:電子工業(yè)出版社,2002:15-17.
[7]李英珍.高校圖書館管理的數(shù)據(jù)倉(cāng)庫技術(shù)研究[J].蘭臺(tái)世界,2013(35):32-33.
[8]陳進(jìn).關(guān)于數(shù)據(jù)倉(cāng)庫元數(shù)據(jù)管理系統(tǒng)的研究與建立[D].青島:中國(guó)海洋大學(xué),2011.
[9]李小平,李軍.圖書館管理系統(tǒng)中的數(shù)據(jù)挖掘應(yīng)用[J].貴州工業(yè)大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2007(3):101-103.
[10]陳利民.論網(wǎng)絡(luò)環(huán)境下圖書館信息資源共享[J].圖書情報(bào)工作,2008(S1):170-173.