【摘 要】本文以數(shù)據(jù)挖掘的定義出發(fā),對(duì)數(shù)據(jù)挖掘的功能及分類進(jìn)行簡(jiǎn)要的概述,最終探討了數(shù)據(jù)挖掘技術(shù)在圖書館管理以及讀者服務(wù)這兩方面的應(yīng)用,希望給我們圖書員的工作起到一定的指導(dǎo)效果。
【關(guān)鍵詞】數(shù)據(jù)挖掘;圖書管理
0.引言
隨著社會(huì)的發(fā)展,圖書管理工作相對(duì)于以往面臨著更大的難題,比如海量的數(shù)據(jù)、個(gè)性化需求等。在這種背景下,數(shù)據(jù)挖掘技術(shù)在解決這些問題的過程中具有非常大的優(yōu)勢(shì),因此,本文關(guān)于數(shù)據(jù)挖掘在圖書管理方面運(yùn)用有著很強(qiáng)的實(shí)踐意義。
1.數(shù)據(jù)挖掘定義
數(shù)據(jù)挖掘的英文全稱為 Data Mining,被我們簡(jiǎn)稱為DM,主要是指從數(shù)據(jù)庫中抽取具備潛在應(yīng)用價(jià)值、以前未知、隱含信息的過程,主要用途是為決策者提供數(shù)據(jù)之間的關(guān)聯(lián),找尋被忽視的因素,因此,能夠?qū)ξ覀兊念A(yù)測(cè)及決策行為起到很強(qiáng)的促進(jìn)效果。
在數(shù)據(jù)挖掘技術(shù)中,一個(gè)相關(guān)性非常強(qiáng)的概念為知識(shí)發(fā)現(xiàn),這是指在信息背景下從很多數(shù)據(jù)中找出有效的、新穎的、可信的模式的處理過程,其主要的應(yīng)用對(duì)象為VLDB,目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)庫中規(guī)律性的知識(shí)。可以說,數(shù)據(jù)挖掘?qū)儆谝环N特定的知識(shí)發(fā)現(xiàn),也是知識(shí)發(fā)現(xiàn)過程中最為重要的一部分。
2.數(shù)據(jù)挖掘的分類
數(shù)據(jù)具有多種多樣的表現(xiàn)形式,因此,我們可以以研究對(duì)象數(shù)據(jù)結(jié)構(gòu)的形式對(duì)數(shù)據(jù)挖掘進(jìn)行劃分,具體來說,數(shù)據(jù)挖掘可以分為數(shù)據(jù)挖掘、文本數(shù)據(jù)挖掘以及WEB數(shù)據(jù)挖掘這三類。
首先,數(shù)據(jù)挖掘。這一類的數(shù)據(jù)挖掘?qū)ο笾饕墙Y(jié)構(gòu)化數(shù)據(jù),比如在包括 SQL Server Qracle Informix在內(nèi)的一些數(shù)據(jù)庫中可以應(yīng)用這一類數(shù)據(jù)挖掘。
其次,WEB數(shù)據(jù)挖掘。在廣義上說,這一類數(shù)據(jù)挖掘可以看做是從互聯(lián)網(wǎng)中發(fā)現(xiàn)及分析有用的信息,具體來說,其定義具有兩種意義:WEB內(nèi)容挖掘,這是從數(shù)量極大的在線數(shù)據(jù)庫及WEB站點(diǎn)中對(duì)信息、資料進(jìn)行搜索及獲取;WEB使用挖掘,在這個(gè)過程中將建立并分析讀者所訪問站點(diǎn)及服務(wù)的模型。一般情況下,在WEB 挖掘過程中所使用的工具主要有:Speed Tracer以及Web Log Miner 等。
第三,用戶挖掘。在數(shù)字圖書館中,用戶挖掘主要是通過對(duì)用戶訪問圖書館留下的記錄進(jìn)行分析,進(jìn)而對(duì)用戶訪問模式及挖掘,最終為網(wǎng)站的經(jīng)營及管理提供決策服務(wù)。這類數(shù)據(jù)挖掘主要又可以分為訪問模式的追蹤以及個(gè)性化使用記錄的追蹤這兩類。
3.數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘技術(shù)不但能夠幫助我們查詢及遍歷過去的數(shù)據(jù),還可以預(yù)測(cè)將來趨勢(shì)及行為,并對(duì)以前沒有發(fā)現(xiàn)的模式進(jìn)行自動(dòng)探索,進(jìn)而提升我們決策的可靠性。總結(jié)起來其功能可以分為以下幾個(gè)方面:
首先,關(guān)聯(lián)分析,在數(shù)據(jù)庫中,如果一些能夠被發(fā)現(xiàn)的、重要的兩個(gè)或者多個(gè)變量之間存在著一種規(guī)律性的取值則可以認(rèn)為它們之間存在著關(guān)聯(lián)。我們進(jìn)行關(guān)聯(lián)分析的主要作用是探尋出數(shù)據(jù)庫里的隱藏關(guān)聯(lián)網(wǎng)。
其次,聚類。所謂聚類主要是指數(shù)據(jù)庫中的記錄能夠被劃為一系列具有意義的子集。這一技術(shù)包含了傳統(tǒng)模式識(shí)別方法數(shù)學(xué)分類學(xué)。它能夠提升我們認(rèn)識(shí)客觀事實(shí)的效率,屬于偏差分析以及概念描述的基礎(chǔ)和前提。
第三,概念描述。這主要是描述某對(duì)象的內(nèi)涵,并對(duì)其中的有關(guān)特征進(jìn)行概括,它包括區(qū)別性描述以及特征性描述,在生成區(qū)別性描述的過程中主要的方法有遺傳算法、決策樹算法等,而生成特征性描述的過程中則只會(huì)對(duì)所有對(duì)象的共性進(jìn)行涉及。
最后,偏差檢測(cè)。在數(shù)據(jù)庫中,數(shù)據(jù)往往會(huì)存在異常記錄,對(duì)于這些偏差進(jìn)行檢測(cè)具有很強(qiáng)的意義。偏差中存在很多潛在知識(shí),舉例來說,分類過程中的反常實(shí)例、不符合規(guī)則特例、模型預(yù)測(cè)及觀測(cè)結(jié)果的偏差等。
4.圖書管理中數(shù)據(jù)挖掘技術(shù)的應(yīng)用
4.1應(yīng)用于圖書館的管理
圖書館的管理是圖書管理的前提和基礎(chǔ),在圖書管理中,數(shù)據(jù)挖掘技術(shù)主要起到以下作用:
首先,數(shù)據(jù)挖掘技術(shù)能夠?yàn)閳D書館更好的發(fā)展提供定位。在圖書館經(jīng)營的過程中,服務(wù)現(xiàn)實(shí)需求以及客觀條件制約都是不可避免的,做好自身發(fā)展定位極為重要。因此我們要對(duì)面向服務(wù)群及自身的潛在資源產(chǎn)生足夠的了解,而通過數(shù)據(jù)挖掘技術(shù)則可以幫助我們提升規(guī)劃結(jié)果的科學(xué)性。
其次,圖書館的經(jīng)營過程中,人才是至關(guān)重要的,而所謂人才無外乎專業(yè)水平、思想道德、現(xiàn)代化信息技術(shù)水平等。因此,我們可以在收集相關(guān)文獻(xiàn)的基礎(chǔ)上,從中建立一個(gè)可執(zhí)行、可調(diào)整以及可預(yù)測(cè)的模型,為人才的規(guī)劃提供科學(xué)依據(jù)。
第三,文獻(xiàn)管理歸根結(jié)底屬于知識(shí)管理,而知識(shí)管理又是從數(shù)據(jù)中對(duì)有效知識(shí)進(jìn)行管理的過程,數(shù)據(jù)挖掘技術(shù)作為從數(shù)據(jù)庫中抽取未知、隱含、具有潛在價(jià)值信息的過程,二者兩雖有區(qū)別,但具有更大的一致性。因此,文獻(xiàn)信息管理是可以利用數(shù)據(jù)挖掘技術(shù)來發(fā)現(xiàn)及解決問題的。尤其在當(dāng)前的環(huán)境下,資金比較受限制,如何做好各學(xué)科的分配更是非常重要。
4.2應(yīng)用于讀者服務(wù)
(1)為讀者起到導(dǎo)讀的作用。在圖書館中,讀者導(dǎo)讀一直屬于一項(xiàng)工作重點(diǎn)。當(dāng)前屬于數(shù)字化時(shí)代,信息資源無論在數(shù)量上,還是在速度和來源上,相對(duì)以往都有很大的不同,這就導(dǎo)致我們讀者容易產(chǎn)生信息過剩反而無從下手的感覺。因此,導(dǎo)讀工作的重要性不言而喻。具體來說,分類技術(shù)能夠?qū)?shù)量龐大的信息資源進(jìn)行分類;聚類技術(shù)則可以對(duì)雜亂無序的信息進(jìn)行歸類,進(jìn)而給其標(biāo)引或者建立一個(gè)相應(yīng)數(shù)據(jù)庫,這能夠幫助信息用戶群的不同信息需求。舉例來說,我們可以以用戶角度出發(fā),對(duì)用戶在何種情況下需要何種信息解決何種問題進(jìn)行了解,也就是對(duì)用戶信息需求進(jìn)行全面的了解,進(jìn)而確定信息使用模式,然后設(shè)計(jì)更為有效地信息服務(wù)系統(tǒng)。
此外,在讀者檢索的過程中,傳統(tǒng)的信息數(shù)據(jù)庫定題情報(bào)服務(wù)當(dāng)前存在著很大的難題,對(duì)于一些排列不規(guī)范或者無序的電子信息要要在不同平臺(tái)上操作,效率很多。而通過數(shù)據(jù)挖掘技術(shù)能夠?qū)Ω鞣N數(shù)據(jù)進(jìn)行整合,把不同平臺(tái)電子版信息及紙質(zhì)圖書利用四種規(guī)則建立一惡搞統(tǒng)一平臺(tái),這能夠極大地提升檢索效率。
(2)服務(wù)競(jìng)爭(zhēng)情報(bào)。當(dāng)前隨著市場(chǎng)化的加劇,圖書館服務(wù)更為重視經(jīng)濟(jì)及社會(huì)效益,使得不論是高校科研教育服務(wù),還是企業(yè)服務(wù),競(jìng)爭(zhēng)性都成為了一個(gè)重要的課題。在這種背景下,數(shù)據(jù)挖掘技術(shù)可以對(duì)競(jìng)爭(zhēng)情報(bào)起到服務(wù)的作用,這方面的研究成果主要有專題情報(bào)價(jià)值數(shù)據(jù)挖掘、面向集成競(jìng)爭(zhēng)情報(bào)系統(tǒng)數(shù)據(jù)挖掘等,可以說已經(jīng)獲得了較為廣泛的應(yīng)用。
(3)提供個(gè)性化 Web服務(wù)。所謂Web個(gè)性化,主要是通過web數(shù)據(jù)對(duì)網(wǎng)站的信息及服務(wù)進(jìn)行調(diào)節(jié),進(jìn)而滿足不同客戶的不同需求。在這一過程中,我們主要的過程是對(duì)服務(wù)器中保存的訪問日志數(shù)據(jù)、代理日志數(shù)據(jù)以及引用日志數(shù)據(jù)進(jìn)行收集,然后利用模型化算法或者一些其他信息處理技術(shù)對(duì)這些數(shù)據(jù)進(jìn)行加工,獲取我們所需要的決策信息,最終以此為基礎(chǔ)建設(shè)特殊數(shù)字資源以及網(wǎng)絡(luò)虛擬資源,實(shí)現(xiàn)web個(gè)性化服務(wù)。
5.結(jié)語
在圖書管理中,數(shù)據(jù)挖掘技術(shù)將來必然會(huì)有有著更為廣泛的應(yīng)用,這些應(yīng)用將體現(xiàn)在資源建設(shè)、讀者服務(wù)以及決策管理等各個(gè)方面。因此,對(duì)于我們圖書館員來說,要加強(qiáng)自身在這方面的水平,不僅要對(duì)一些基本技能進(jìn)行掌握,平時(shí)工作中還要注重這方面的學(xué)習(xí)和探索,這樣才能提升自身的業(yè)務(wù)技能,使信息服務(wù)工作上升到一個(gè)新的檔次,實(shí)現(xiàn)技術(shù)到生產(chǎn)力的轉(zhuǎn)化。
【參考文獻(xiàn)】
[1]李璐璐.基于數(shù)據(jù)挖掘技術(shù)的信息服務(wù)研究及系統(tǒng)模型設(shè)計(jì)[J].大學(xué)圖書情報(bào)學(xué)刊,2008,(04).
[2]邵曉紅.數(shù)據(jù)挖掘技術(shù)在高校圖書館中的應(yīng)用[J].鄂州大學(xué)學(xué)報(bào),2009,(02).