[摘 要] 當(dāng)今的高校圖書(shū)館每天都要產(chǎn)生大量的統(tǒng)計(jì)數(shù)據(jù),而如何從這些數(shù)據(jù)中挖掘出有利于圖書(shū)管理的信息就顯得尤為重要。本文在介紹數(shù)據(jù)挖掘相關(guān)概念的基礎(chǔ)上,重點(diǎn)分析了數(shù)據(jù)挖掘中的決策樹(shù)和關(guān)聯(lián)規(guī)則方法在圖書(shū)流通和圖書(shū)采編中具體應(yīng)用,以期為圖書(shū)的有效管理提供決策支持。
[關(guān)鍵詞] 數(shù)據(jù)挖掘; 圖書(shū)館; 圖書(shū)管理; 決策
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 09. 070
[中圖分類號(hào)] G251; TP391 [文獻(xiàn)標(biāo)識(shí)碼] A [文章編號(hào)] 1673 - 0194(2012)09- 0113- 02
數(shù)據(jù)挖掘已經(jīng)成為非?;钴S的研究領(lǐng)域,它被廣泛應(yīng)用于制造業(yè)、零售業(yè)、供應(yīng)鏈分析和電子商務(wù)等領(lǐng)域。在當(dāng)今的圖書(shū)管理系統(tǒng)中,每天都產(chǎn)生大量的統(tǒng)計(jì)數(shù)據(jù)和表單,這些數(shù)據(jù)背后往往隱含著諸如讀者興趣、借閱習(xí)慣及學(xué)科關(guān)聯(lián)等重要信息,如何有效利用這些有價(jià)值的信息正是圖書(shū)管理中亟待研究解決的重要課題,而數(shù)據(jù)挖掘技術(shù)為這類問(wèn)題的解決提供了新的途徑。
1 數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘是近年來(lái)隨著數(shù)據(jù)庫(kù)技術(shù)和人工智能技術(shù)的發(fā)展而出現(xiàn)的一種全新的信息技術(shù),它是從大量的、不完全的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中提取隱含在其中的但不為人們所知、且又有潛在價(jià)值的信息和知識(shí),如趨勢(shì)、特征以及相關(guān)的過(guò)程等。隨著圖書(shū)館自動(dòng)化程度的不斷提高,自動(dòng)化管理系統(tǒng)已經(jīng)在圖書(shū)館日常工作中占有了非常重要的地位,它每天產(chǎn)生的流通日志數(shù)據(jù)、數(shù)字圖書(shū)館各種資源的訪問(wèn)記錄以及圖書(shū)館網(wǎng)站的 Web日志等,都為數(shù)據(jù)挖掘工作提供了原始數(shù)據(jù)。要讓這些數(shù)據(jù)發(fā)揮更大的作用,必須對(duì)它們進(jìn)行深層次挖掘分析,以便為圖書(shū)館工作提供技術(shù)支持和決策管理支持。
數(shù)據(jù)挖掘也稱知識(shí)發(fā)現(xiàn),它通過(guò)對(duì)查詢內(nèi)容進(jìn)行模式的總結(jié)和內(nèi)在規(guī)律的搜索,幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),進(jìn)而發(fā)現(xiàn)隱藏的關(guān)系和模式,從而為決策行為提供有利的支持。數(shù)據(jù)挖掘有許多種方法,其中最常用方法的是關(guān)聯(lián)分析、決策樹(shù)和聚類分析等。
2 基于數(shù)據(jù)挖掘的圖書(shū)管理決策
2.1 基于關(guān)聯(lián)規(guī)則挖掘的圖書(shū)流通決策
2.1.1 關(guān)聯(lián)規(guī)則概述
在數(shù)據(jù)挖掘技術(shù)中,關(guān)聯(lián)規(guī)則由Agrawal等人在1993年首先提出,是數(shù)據(jù)挖掘領(lǐng)域一個(gè)重要的研究?jī)?nèi)容,它是通過(guò)發(fā)現(xiàn)描述數(shù)據(jù)庫(kù)中數(shù)據(jù)項(xiàng)之間潛在的關(guān)聯(lián),找出大量數(shù)據(jù)之間未知的依賴關(guān)系。
關(guān)聯(lián)規(guī)則的產(chǎn)生源于交易事務(wù)的信息利用,規(guī)則給出的信息是以“if-then”的形式出現(xiàn),其采用如X ?圯Y的蘊(yùn)涵式,其中X ?奐I,Y?奐I,并且X∩Y = ?準(zhǔn),I稱為項(xiàng)集(事務(wù)集),可以理解為數(shù)據(jù)記錄中所有字段取值構(gòu)成的最大合集 。關(guān)聯(lián)規(guī)則一般用支持度Support和可信度Confidence兩個(gè)參數(shù)描述其屬性。其中,支持度是包含項(xiàng)集X 和Y 的事務(wù)數(shù)與所有事務(wù)數(shù)之比,記為Support(X ?圯Y),它描述了X 和Y 這兩個(gè)項(xiàng)集在所有事務(wù)中同時(shí)出現(xiàn)的概率;可信度是包含項(xiàng)集X 和Y 的事務(wù)數(shù)與包含X 的事務(wù)數(shù)之比,記為Confidence(X?圯Y),它描述了在出現(xiàn)項(xiàng)集X 的事務(wù)集中,項(xiàng)集Y 也同時(shí)出現(xiàn)的概率。在關(guān)聯(lián)規(guī)則的研究中,最著名的算法有Apriori算法、FP-growth算法和DWAR算法等。
2.1.2 流通決策過(guò)程
圖書(shū)館自動(dòng)化管理系統(tǒng)每天都會(huì)產(chǎn)生大量的流通數(shù)據(jù), 這些數(shù)據(jù)不僅包含讀者當(dāng)前的借還記錄、賬單記錄,還包括曾經(jīng)發(fā)生過(guò)的借還操作,它們以日志的方式寫(xiě)入系統(tǒng)文件中, 如果用關(guān)聯(lián)分析的方法對(duì)日志數(shù)據(jù)進(jìn)行挖掘,我們會(huì)發(fā)現(xiàn)其中的某些規(guī)律。例如: 特征A:借閱《管理學(xué)》;特征B:借閱《計(jì)算機(jī)網(wǎng)絡(luò)》;特征C:借閱《信息管理與信息系統(tǒng)》。布爾型關(guān)聯(lián)規(guī)則為A,B→C。它的含義是:借閱《管理學(xué)》和《計(jì)算機(jī)網(wǎng)絡(luò)》兩本書(shū)的人也會(huì)借閱《信息管理與信息系統(tǒng)》。如果通過(guò)計(jì)算得出支持度為0.4,可信度為0.6,則表示在所有讀者中,有40%的人同時(shí)借閱了這3 本書(shū),在借閱《管理學(xué)》和《計(jì)算機(jī)網(wǎng)絡(luò)》的讀者中,有60%的人也借閱了《信息管理與信息系統(tǒng)》。
通過(guò)這樣的關(guān)聯(lián)分析,可以發(fā)現(xiàn)讀者借閱行為中的規(guī)律。也就是說(shuō),從圖書(shū)管理決策的角度來(lái)看,應(yīng)加強(qiáng)相關(guān)圖書(shū)的科學(xué)排架和合理擺放,將這幾類書(shū)放置在離入口較近的書(shū)架上,這樣可以幫助讀者提高借閱效率,同時(shí)也可減輕工作人員的勞動(dòng)量,以及由于減少圖書(shū)的搬運(yùn)活動(dòng)而減少對(duì)圖書(shū)的損壞。
2. 2 基于決策樹(shù)的圖書(shū)采編決策
2.2.1 決策樹(shù)概念
決策樹(shù)是分類的一種方法,其目標(biāo)是從數(shù)據(jù)集中提取出能夠描述數(shù)據(jù)類基本特征的模型,并利用這些模型把數(shù)據(jù)集中的每個(gè)對(duì)象都?xì)w入到其中某個(gè)已知的數(shù)據(jù)類中。它以決策樹(shù)或一組分類規(guī)則展現(xiàn),在最終生成的分類模型中,每條分類規(guī)則都應(yīng)該覆蓋一定量的數(shù)據(jù), 而被同一條分類規(guī)則覆蓋的數(shù)據(jù)應(yīng)該具有比較高的相似性。
決策樹(shù)是這樣的一棵樹(shù),它的每個(gè)非葉節(jié)點(diǎn)均表示考察數(shù)據(jù)項(xiàng)目的測(cè)試或決策。根據(jù)測(cè)試結(jié)果,選擇某個(gè)分枝,為了分類一個(gè)特定數(shù)據(jù)項(xiàng)目,從根節(jié)點(diǎn)開(kāi)始,一直向下判定,直到達(dá)到一個(gè)終端節(jié)點(diǎn)(葉子節(jié)點(diǎn))為止。這樣,一個(gè)決策就形成了。
2.2.2 采編決策過(guò)程
假定系統(tǒng)書(shū)目數(shù)據(jù)的屬性字段中有索書(shū)號(hào)、建立日期,借出總數(shù) (即從建立之日起共被借過(guò)幾次 ) 3個(gè)屬性,通過(guò)這 3個(gè)屬性 ,在借閱次數(shù)已知情況下,那么就可以設(shè)計(jì)一種決策樹(shù)分類方法,如圖1所示。
圖1中的決策樹(shù)用關(guān)聯(lián)規(guī)則表示更容易理解:N類圖書(shū),2003年入藏 →借出總數(shù)是 2 410次;…; H類圖書(shū),2009年入藏 →借出總數(shù)是 2 600次。
決策樹(shù)方法伸縮性好,分類速度快,能夠轉(zhuǎn)換成容易理解的分類規(guī)則。在本例中,可以很快地將書(shū)目數(shù)據(jù)按設(shè)定條件分類,分析出文獻(xiàn)的利用率,及時(shí)補(bǔ)充短缺的文獻(xiàn),剔除過(guò)時(shí)的文獻(xiàn),為圖書(shū)館的采購(gòu)決策提供支持。同時(shí),利用決策樹(shù)通過(guò)對(duì)歷年借閱數(shù)據(jù)進(jìn)行相關(guān)分析,相應(yīng)增幅較大的圖書(shū)種類在上架時(shí)可根據(jù)預(yù)測(cè)趨勢(shì)預(yù)留架位;對(duì)借閱頻率較大且連續(xù)續(xù)借的書(shū)目,應(yīng)以量化方式反饋給采編部門(mén)以加大采編力度。
3 結(jié) 語(yǔ)
數(shù)據(jù)挖掘在數(shù)據(jù)組織與分析和知識(shí)發(fā)現(xiàn)以及信息深層次挖掘等方面體現(xiàn)出整體優(yōu)勢(shì)。隨著圖書(shū)館自動(dòng)化程度的不斷提高,自動(dòng)化管理系統(tǒng)每天都要產(chǎn)生大量的統(tǒng)計(jì)數(shù)據(jù),如何從這些數(shù)據(jù)中挖掘出有用的圖書(shū)管理信息已成為一個(gè)亟待研究解決的重要課題。為此,本文詳細(xì)分析了決策樹(shù)和關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法對(duì)圖書(shū)流通和圖書(shū)采編工作的決策支持作用,以期用于指導(dǎo)圖書(shū)館的各項(xiàng)工作,使圖書(shū)館的館藏資源得以進(jìn)一步優(yōu)化和利用,使管理水平和服務(wù)質(zhì)量得到進(jìn)一步提高。
主要參考文獻(xiàn)
[1] 王新筠. 數(shù)據(jù)挖掘技術(shù)在圖書(shū)館自動(dòng)化管理系統(tǒng)中的應(yīng)用[J]. 科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2007(26).
[2] 黃蘭. 數(shù)據(jù)挖掘技術(shù)在圖書(shū)館工作中的應(yīng)用[J]. 圖書(shū)館學(xué)研究,2005(7).
[3] 張應(yīng)征,成新紅. 數(shù)據(jù)挖掘在高校圖書(shū)管理信息化中的應(yīng)用[J]. 科技信息,2010(23).