摘要:在介紹數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)上,從資源建設(shè)、用戶分析等方面探討數(shù)據(jù)挖掘在圖書館服務(wù)管理中的作用及實(shí)施數(shù)據(jù)挖掘的具體過程。
關(guān)鍵詞:數(shù)據(jù)挖掘;圖書館
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2008)14-20796-02
1 引言
圖書館作為文獻(xiàn)資源的提供機(jī)構(gòu),擁有大量的文獻(xiàn)資源供用戶使用。但隨著圖書館館藏文獻(xiàn)的增多,會(huì)有這種現(xiàn)象發(fā)生:用戶在眾多的信息中,不知道哪一個(gè)才是真正需要的;隨著用戶的不斷增多,圖書管理人員發(fā)現(xiàn),用戶的需求千差萬別,想讓每一個(gè)用戶都滿意越來越困難。圖書館和用戶之間的這種矛盾,成為當(dāng)前急需解決的問題。其實(shí),圖書館除了擁有大量的文獻(xiàn)資源外,還擁有海量的其他信息。如:用戶的基本信息、借閱信息、檢索信息、咨詢信息等。從這些信息中就能找到解決圖書館和用戶之間矛盾的答案,這需要應(yīng)用數(shù)據(jù)挖掘技術(shù)。通過對(duì)圖書館的信息資源進(jìn)行數(shù)據(jù)挖掘分析,能發(fā)現(xiàn)隱含其中的潛在信息,可以幫助用戶更好的使用圖書館的信息資源,幫助圖書館為用戶提供更好的服務(wù)。
2 數(shù)據(jù)挖掘概述
2.1 內(nèi)涵
數(shù)據(jù)挖掘(Data Mining)也叫數(shù)據(jù)開采、數(shù)據(jù)采掘等,是從大量的、不完整的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在而又有用的信息和知識(shí)的過程。通過數(shù)據(jù)挖掘,有價(jià)值的知識(shí)、規(guī)則或深層次的信息就能從數(shù)據(jù)庫(kù)的相關(guān)數(shù)據(jù)集合中抽取出來,并從不同角度顯示,使用戶可以在信息的荒漠中更容易找到知識(shí)的綠洲,解決了用戶“信息豐富而知識(shí)貧乏”的尷尬。
2.2 功能
2.2.1 趨勢(shì)和行為預(yù)測(cè)
預(yù)測(cè)是根據(jù)數(shù)據(jù)對(duì)象的屬性、過去的觀察值對(duì)該屬性的未來值進(jìn)行預(yù)測(cè)。數(shù)據(jù)挖掘可以自動(dòng)地從數(shù)據(jù)(倉(cāng))庫(kù)中尋找預(yù)測(cè)性信息,根據(jù)時(shí)間序列數(shù)據(jù),由歷史的和當(dāng)前的數(shù)據(jù)預(yù)測(cè)未來的趨勢(shì)和行為。
2.2.2 關(guān)聯(lián)分析
關(guān)聯(lián)分析就是要挖掘隱藏在數(shù)據(jù)(倉(cāng))庫(kù)中的數(shù)據(jù)關(guān)聯(lián)關(guān)系或規(guī)則,即發(fā)現(xiàn)一個(gè)事件和其它事件之間依賴或關(guān)聯(lián)的規(guī)律或知識(shí)。
2.2.3 分類分析
分類分析就是研究已分類資料的特征,分析對(duì)象屬性,據(jù)此建立一個(gè)分類函數(shù)或分類模型,然后運(yùn)用該模型計(jì)算總結(jié)出的數(shù)據(jù)特征,將其它未經(jīng)分類或新的數(shù)據(jù)分派到不同的組中。
2.2.4 聚類分析
聚類分析是在事先不知道的條件下,根據(jù)對(duì)象的一些相似特征分組,根據(jù)事物本身潛在的特性把數(shù)據(jù)集合中的個(gè)體或?qū)ο蟀凑障嗨菩詺w結(jié)成若干類,從而將數(shù)據(jù)庫(kù)中的記錄化分為一系列有意義的子集。
2.2.5 孤立點(diǎn)分析
數(shù)據(jù)(倉(cāng))庫(kù)中經(jīng)常存在一些數(shù)據(jù)對(duì)象,它們與數(shù)據(jù)的其他部分不同或不一致,而且不符合數(shù)據(jù)的一般模型,這樣的異常數(shù)據(jù)對(duì)象被稱為孤立點(diǎn)。對(duì)孤立點(diǎn)進(jìn)行數(shù)據(jù)分析稱為孤立點(diǎn)分析,也稱為偏差分析。
3 數(shù)據(jù)挖掘在圖書館服務(wù)管理中應(yīng)用
通過數(shù)據(jù)挖掘技術(shù)并結(jié)合圖書館的服務(wù)管理工作,具體可應(yīng)用于以下幾個(gè)方面:
3.1 資源建設(shè)
合理的進(jìn)行信息資源配置是圖書館管理工作的核心,是為用戶提供優(yōu)質(zhì)服務(wù)的基礎(chǔ)。資源建設(shè)主要包括圖書文獻(xiàn)資源的建設(shè)、網(wǎng)絡(luò)信息資源的建設(shè)。無論是圖書文獻(xiàn)資源還是網(wǎng)絡(luò)資源都存館藏結(jié)構(gòu)問題。在網(wǎng)絡(luò)化、數(shù)字化的今天,不能單憑領(lǐng)導(dǎo)或?qū)<业膫€(gè)人意見,決定采購(gòu)哪些書目及書目的多少,應(yīng)該通過數(shù)據(jù)挖掘技術(shù)對(duì)圖書館日常工作中產(chǎn)生的大量借閱信息、檢索信息、咨詢信息、館藏書目信息等從多方面進(jìn)行分析,發(fā)現(xiàn)并了解當(dāng)前的文獻(xiàn)結(jié)構(gòu)還有哪些缺漏,及時(shí)進(jìn)行補(bǔ)充。這樣就可以利用有限的經(jīng)費(fèi),進(jìn)行有針對(duì)性的補(bǔ)充、豐富或剔除某些信息資源,進(jìn)行合理的資源配置,滿足用戶的需要。
3.2 圖書上架、信息資源存儲(chǔ)
世界著名商業(yè)零售連鎖企業(yè)沃爾瑪(Wal Mart)意外發(fā)現(xiàn)“跟尿布一起購(gòu)買最多的商品竟是啤酒”,并通過調(diào)查分析找到了其中的原因。于是沃爾瑪就在其一個(gè)個(gè)門店將尿布與啤酒并排擺放在一起,結(jié)果是尿布與啤酒的銷售量雙雙增長(zhǎng)。圖書館的圖書上架、信息資源存儲(chǔ)和超市的商品上架一樣,也是有規(guī)律的。所以,在圖書館的管理中,也應(yīng)該對(duì)通過數(shù)據(jù)的挖掘、分析找到文獻(xiàn)資源之間的相互關(guān)系,這樣才能更好地進(jìn)行圖書上架及信息資源的有效存儲(chǔ)。如:應(yīng)該把哪些書籍放在一起、把信息資源按照什么方式進(jìn)行存儲(chǔ)更方便用戶的查找。
3.3 用戶分析
在企業(yè)理論中二八法則又稱“馬特萊法則”,是國(guó)際上公認(rèn)的一種企業(yè)法則。即企業(yè)80%的利潤(rùn)來自20%的客戶,而發(fā)展新客戶所需費(fèi)用是維持老客戶的6~8倍。圖書館可以借鑒這一法則,利用數(shù)據(jù)挖掘?qū)τ脩舻慕栝?、咨詢、檢索等信息進(jìn)行分析,從中找出20%的核心用戶,并根據(jù)核心用戶的信息需求,組織人力、物力資源,為他們提供周到、快捷、滿意的服務(wù)。同時(shí)也不能忽視另外80%的用戶,要從中發(fā)現(xiàn)潛在的用戶,培養(yǎng)新的客戶。因?yàn)樗麄円部赡軙?huì)成為圖書館的新的核心用戶。利用數(shù)據(jù)分析還可以找到其他用戶流失的原因,這樣可以進(jìn)行有針對(duì)性的工作。
結(jié)合數(shù)據(jù)挖掘、數(shù)據(jù)倉(cāng)庫(kù)和聯(lián)機(jī)分析技術(shù),對(duì)圖書館數(shù)據(jù)倉(cāng)庫(kù)中的海量數(shù)據(jù)進(jìn)行分析,并根據(jù)分析結(jié)果找出用戶需求的特征及圖書管理中的各種問題,以便能及時(shí)做出正確的決策,調(diào)整戰(zhàn)略,以適應(yīng)不斷變化的用戶需求,為各類用戶提供有針對(duì)性的、個(gè)性化的服務(wù)。
4 數(shù)據(jù)挖掘?qū)嵤┻^程
數(shù)據(jù)挖掘是一個(gè)復(fù)雜的工作,一般由三個(gè)階段組成:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果解釋與評(píng)價(jià)。
4.1 數(shù)據(jù)準(zhǔn)備階段
數(shù)據(jù)準(zhǔn)備對(duì)于數(shù)據(jù)挖掘的成功應(yīng)用至關(guān)重要,一般需要消耗整個(gè)數(shù)據(jù)挖掘過程中50%~90%的時(shí)間和精力。這一階段通常包括如下工作:
首先,確定數(shù)據(jù)挖掘目標(biāo)。例如:考慮使用關(guān)聯(lián)規(guī)則對(duì)某一時(shí)間段的歷史數(shù)據(jù)進(jìn)行分析,從中發(fā)現(xiàn)用戶對(duì)資源的借閱模式,如果發(fā)現(xiàn)有很多讀者借閱A 文獻(xiàn)同時(shí)也會(huì)借閱B 文獻(xiàn),就可以則向借閱A文獻(xiàn)的用戶推薦B文獻(xiàn),并在上架時(shí)把這兩種文獻(xiàn)放在相鄰或相近的位置。這些規(guī)則的發(fā)現(xiàn)對(duì)提高數(shù)據(jù)資源的利用率和為讀者提供個(gè)性化服務(wù)有著重要的意義。
其次,數(shù)據(jù)采集和數(shù)據(jù)理解。數(shù)據(jù)挖掘必須基于大量數(shù)據(jù)基礎(chǔ)之上,因此必須針對(duì)確定的目標(biāo)進(jìn)行廣泛而全面地?cái)?shù)據(jù)采集。如:用戶基本信息、借閱歷史信息記錄、檢索歷史記錄、文獻(xiàn)書目記錄等。但只有大量的數(shù)據(jù)是沒有任何作用的,在進(jìn)行信息采集和以后的數(shù)據(jù)挖掘過程中,如果不理解數(shù)據(jù)的含義,數(shù)據(jù)挖掘的結(jié)果沒任何作用。所以必須全面獲取和理解數(shù)據(jù),確定數(shù)據(jù)的含義。
再次,進(jìn)行數(shù)據(jù)預(yù)處理。從采集的數(shù)據(jù)中選擇與此次挖掘有關(guān)的數(shù)據(jù),并進(jìn)一步研究數(shù)據(jù)的質(zhì)量,采用適合的預(yù)處理技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理。如:一般情況圖書館的數(shù)據(jù)多為日常的業(yè)務(wù)數(shù)據(jù),不能直接作為挖掘的數(shù)據(jù),所以可通過預(yù)處理方法對(duì)數(shù)據(jù)進(jìn)行集成。還可通過填寫空缺值,平滑噪聲數(shù)據(jù),識(shí)別刪除孤立點(diǎn)等方法來實(shí)現(xiàn)格式標(biāo)準(zhǔn)化、異常數(shù)據(jù)清除、錯(cuò)誤糾正、重復(fù)數(shù)據(jù)的清除等等。
最后,建立模型。對(duì)經(jīng)過預(yù)處理后的數(shù)據(jù)進(jìn)行挖掘前,要將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,并從現(xiàn)有數(shù)據(jù)中衍生出所需要的指標(biāo),這有賴于數(shù)據(jù)挖掘者的分析經(jīng)驗(yàn)和工具的方便性。分析模型的建立是針對(duì)挖掘算法建立的,建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。
4.2 數(shù)據(jù)挖掘
對(duì)經(jīng)過數(shù)據(jù)準(zhǔn)備階段之后所得到的數(shù)據(jù),利用選定的數(shù)據(jù)挖掘工具進(jìn)行挖掘,用選定的算法或算法組合在模型空間中進(jìn)行反復(fù)迭代搜索,從數(shù)據(jù)集中抽取出隱藏的、新穎的模式和知識(shí)。在本過程中大部分工作都是自動(dòng)完成的,但這并不意味著不需要人的參與。事實(shí)上在數(shù)據(jù)挖掘過程中需要不斷的進(jìn)行人機(jī)交互,以期得到更加符合實(shí)際情況的模式和知識(shí)。
4.3 結(jié)果的解釋與評(píng)價(jià)
結(jié)果的解釋與評(píng)價(jià)是指根據(jù)最終用戶的目的和需要,對(duì)數(shù)據(jù)挖掘發(fā)現(xiàn)的模式和知識(shí)進(jìn)行解釋與評(píng)價(jià)。例如:對(duì)開學(xué)初兩個(gè)月的圖書館借閱記錄,進(jìn)行挖掘分析后的結(jié)果顯示:大部分的文獻(xiàn)借閱次數(shù)很少,只有少部分與外文考試相關(guān)的文獻(xiàn)被頻繁地、大量地借閱。經(jīng)過分析發(fā)現(xiàn)開學(xué)初由于學(xué)生的學(xué)習(xí)壓力不大,且外語是一項(xiàng)與學(xué)位掛鉤的科目,學(xué)生都非常重視是英語考試類書籍被頻繁地借閱的原因。意外的結(jié)果是大學(xué)生四、六級(jí)詞匯的借閱頻度卻很小。這是因?yàn)榫幠矿w系的原因,把詞匯類書籍與政治類書籍編在了一起,用戶沒有看到,當(dāng)然,也與用戶沒有很好利用館藏?cái)?shù)據(jù)庫(kù)檢索有一定的關(guān)系。通過挖掘,找到了隱藏在大量數(shù)據(jù)背后的潛在的信息并對(duì)其進(jìn)行客觀的解釋與評(píng)價(jià)最終的目的是用于圖書館服務(wù)、管理的實(shí)踐。所以最后要將評(píng)價(jià)和解釋的結(jié)果同化為圖書館的知識(shí),并應(yīng)用于圖書館服務(wù)管理為用戶提供優(yōu)質(zhì)的、個(gè)性化的服務(wù)。
5 結(jié)束語
數(shù)據(jù)挖掘在圖書館服務(wù)管理中的應(yīng)用尚處于起步階段,但隨著數(shù)據(jù)挖掘技術(shù)、工具、算法的不斷改進(jìn),應(yīng)用的普及和對(duì)數(shù)據(jù)挖掘知識(shí)的積累,數(shù)據(jù)挖掘技術(shù)將更加廣泛地應(yīng)用于圖書館的服務(wù)管理中。
參考文獻(xiàn):
[1] 王偉,張征芳,王海明.基于數(shù)據(jù)挖掘的圖書館讀者行為分析[J].北京:現(xiàn)代圖書情報(bào)技術(shù),2006(11):51-54.
[2] 肖建國(guó).數(shù)據(jù)挖掘在圖書館中的應(yīng)用[J].北京:中國(guó)信息導(dǎo)報(bào), 2005(3):55-56.
[3] 胡國(guó)芳.數(shù)據(jù)挖掘技術(shù)在圖書館創(chuàng)新服務(wù)中的應(yīng)用[J].北京:情報(bào)資料工作,2007(2):104-106.
[4] 盧云.基于CRM 的圖書館可持續(xù)發(fā)展研究[J].北京:圖書情報(bào)知識(shí),2004(4):34-35.