張靖
摘 要:本文概述了數(shù)據(jù)挖掘的相關(guān)知識(shí)和理論,分析了數(shù)據(jù)挖掘技術(shù)在高校圖書館中的應(yīng)用情況。
關(guān)鍵詞:數(shù)據(jù)挖掘;圖書館
隨著數(shù)據(jù)庫技術(shù)在高校圖書館數(shù)據(jù)庫中的廣泛應(yīng)用,面對(duì)數(shù)據(jù)積累越來越多以及讀者不知如何從海量的圖書資源中快速找到自己感興趣的信息的問題,啟發(fā)我們將數(shù)據(jù)挖掘技術(shù)運(yùn)用到高校圖書館中,以實(shí)現(xiàn)對(duì)不同的讀者提供個(gè)性化的信息推薦服務(wù)。
1 數(shù)據(jù)挖掘的定義
當(dāng)前比較公認(rèn)的數(shù)據(jù)挖掘定義是由U.M.Fayyad等人提出來的,所給出的定義是:“數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫中提取出人們感興趣的知識(shí),而這些知識(shí)是隱含的、先前未知的、對(duì)決策有潛在價(jià)值的;提取的知識(shí)可以表示為概念、規(guī)則等形式。這些規(guī)則蘊(yùn)涵了數(shù)據(jù)庫中一組對(duì)象之間存在的特定關(guān)系,揭示出某些有用的信息,可以為市場策劃、金融預(yù)測、經(jīng)營決策等提供依據(jù)?!焙唵蝸碚f,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或者“挖掘”知識(shí),但這些數(shù)據(jù)是不完全的、模糊的、含噪聲的和隨機(jī)的,而數(shù)據(jù)挖掘就是要從中提取出那些隱含的、未知的和有價(jià)值的潛在的信息的過程。它也可以看作是一種決策支持過程,通過對(duì)各組織的海量數(shù)據(jù)進(jìn)行分析,歸納推理并從中挖掘出潛在的模式,其結(jié)果將可為管理層的決策提供支持。
數(shù)據(jù)挖掘的過程實(shí)際上就是一個(gè)知識(shí)發(fā)現(xiàn)的過程,通過運(yùn)用各種數(shù)據(jù)處理技術(shù)從大量事實(shí)數(shù)據(jù)和觀察數(shù)據(jù)的集合中挖掘出潛在的模式或規(guī)則,幫助我們真正理解這些數(shù)據(jù)的含義,并對(duì)數(shù)據(jù)之間所存在的關(guān)系產(chǎn)生更好的理解。通過數(shù)據(jù)挖掘,可以從大型數(shù)據(jù)庫或數(shù)據(jù)倉庫中的相關(guān)數(shù)據(jù)集中抽取出潛在的、有效的、新穎的、有價(jià)值的、最終可理解的知識(shí)信息,并從不同的角度顯示,從而使存放有大量豐富可靠資源的大型數(shù)據(jù)庫為知識(shí)歸納服務(wù)。因此,數(shù)據(jù)挖掘被認(rèn)為是解決目前“數(shù)據(jù)豐富,但信息貧乏”問題的一種有效方法。許多人把數(shù)據(jù)挖掘視為另一個(gè)常用術(shù)語“數(shù)據(jù)庫中知識(shí)發(fā)現(xiàn)(KDD)”的同義詞。而另一些人只是把數(shù)據(jù)挖掘視為KDD過程的一個(gè)基本步驟。因此在通常情況下,人們對(duì)數(shù)據(jù)挖掘與KDD不進(jìn)行嚴(yán)格區(qū)分。
2 數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
高校圖書館最基本和最主要的工作就是面向讀者的圖書借閱服務(wù),而要做好圖書借閱服務(wù)工作的一個(gè)重要環(huán)節(jié)就是要了解讀者的借閱需求并掌握他們的借閱規(guī)律和習(xí)慣。做好圖書借閱服務(wù)是高校圖書館開展以讀者為主體的各項(xiàng)圖書館服務(wù)工作的基礎(chǔ),也是圖書館建設(shè)合理的信息資源保障體系的重要依據(jù)。數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用,主要有以下幾個(gè)方面:
2.1 圖書文獻(xiàn)推薦工作中的應(yīng)用
利用數(shù)據(jù)挖掘技術(shù)對(duì)讀者的歷史借閱數(shù)據(jù)進(jìn)行聚類分析或者關(guān)聯(lián)分析,可以發(fā)現(xiàn)讀者所借閱的圖書文獻(xiàn)之間存在一定的關(guān)聯(lián)規(guī)則,即讀者在借閱一類圖書的同時(shí)也會(huì)借閱其他相關(guān)類別的圖書,通過計(jì)算這種關(guān)聯(lián)規(guī)則的支持度和置信度,得到讀者的借閱模式,建立圖書推薦數(shù)據(jù)庫,在讀者發(fā)生借閱行為時(shí)通過分析比較為讀者推薦相關(guān)有價(jià)值的圖書文獻(xiàn)資源。例如,通過關(guān)聯(lián)分析發(fā)現(xiàn)大多數(shù)讀者在借閱了計(jì)算機(jī)編程語言教程圖書的同時(shí)又借閱了數(shù)據(jù)庫方面的書籍,說明這兩類圖書之間有較強(qiáng)的關(guān)聯(lián),那么在其他讀者借閱前一類圖書時(shí)可以為讀者推薦后一類圖書的相關(guān)資料。這樣就可以幫助讀者更好地學(xué)習(xí),同時(shí)節(jié)省讀者的大量查找時(shí)間,從而提高圖書館服務(wù)的質(zhì)量。
2.2 文獻(xiàn)檢索中的應(yīng)用
文獻(xiàn)檢索是反映高校圖書館個(gè)性化信息推薦服務(wù)的重要方面。傳統(tǒng)的文獻(xiàn)檢索功能只能為讀者提供簡單的文獻(xiàn)信息,而不能根據(jù)讀者的閱讀興趣愛好提供個(gè)性化推薦服務(wù)。利用數(shù)據(jù)挖掘技術(shù)可輕松實(shí)現(xiàn)為讀者提供個(gè)性化推薦服務(wù)的目的。首先,準(zhǔn)備所需要的數(shù)據(jù)。收集有關(guān)讀者借閱行為的大量數(shù)據(jù)信息,包括圖書館系統(tǒng)數(shù)據(jù)庫中的讀者借閱記錄、預(yù)約信息和續(xù)借信息等。其次,數(shù)據(jù)的篩選和處理。對(duì)所收集的數(shù)據(jù)進(jìn)行消除噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等篩選操作,再對(duì)篩選后的數(shù)據(jù)進(jìn)行預(yù)處理和轉(zhuǎn)換等,建立結(jié)構(gòu)化數(shù)據(jù)庫,這樣有利于數(shù)據(jù)挖掘算法的運(yùn)行。再次,挖掘數(shù)據(jù)。對(duì)先前建立的數(shù)據(jù)庫進(jìn)行聚類分析和關(guān)聯(lián)分析,從中可以分析出不同類型讀者所借書目的集合、閱讀興趣愛好特征等信息。最后,利用數(shù)據(jù)挖掘的結(jié)果結(jié)合可視化技術(shù)為讀者提供個(gè)性化的文獻(xiàn)檢索服務(wù)。當(dāng)讀者檢索文獻(xiàn)時(shí),通過數(shù)據(jù)挖掘形成的推薦集,檢索結(jié)果會(huì)自動(dòng)為讀者推薦與這些文獻(xiàn)相關(guān)的其他文獻(xiàn),并自動(dòng)提取呈現(xiàn)有價(jià)值的相關(guān)文獻(xiàn)的數(shù)據(jù)信息,并且將這些數(shù)據(jù)信息以可視化的、動(dòng)態(tài)改變的方式呈現(xiàn)在讀者面前。
2.3 優(yōu)化館藏書架管理
由于圖書館館藏種類繁多,因此優(yōu)化館藏書架管理工作就成了影響高校圖書館科學(xué)發(fā)展的一個(gè)重要內(nèi)容,而優(yōu)化館藏書架管理工作的一個(gè)方向就是預(yù)測圖書文獻(xiàn)的變化趨勢,做到為最新的文獻(xiàn)在書架中預(yù)留位置,減少圖書館藏圖書倒架次數(shù),還要及時(shí)做好剔除舊文獻(xiàn)添加最新文獻(xiàn)的工作。
利用數(shù)據(jù)挖掘技術(shù)就可以實(shí)現(xiàn)上文所述的工作內(nèi)容。首先利用預(yù)測分析技術(shù)中的回歸與時(shí)序分析方法對(duì)歷年的圖書文獻(xiàn)借閱日志進(jìn)行分析,找出文獻(xiàn)被借閱的周期性變化,然后分類分析圖書館借閱圖書流通日志,可以發(fā)現(xiàn)借閱頻繁的圖書類別和增加幅度比較大的圖書類別。將兩部分分析的結(jié)果相結(jié)合,根據(jù)排架規(guī)則,在上架那些借閱量大且頻繁的圖書時(shí)盡可能地預(yù)留位置,減少圖書館藏圖書倒架次數(shù)。最后就是剔除舊文獻(xiàn)添加最新文獻(xiàn)的工作。對(duì)館藏中的文獻(xiàn)數(shù)據(jù)進(jìn)行分類分析,根據(jù)規(guī)定時(shí)間內(nèi)未流通的圖書和有過多的復(fù)本圖書等分類要求,統(tǒng)計(jì)出符合這些規(guī)定的文獻(xiàn)的數(shù)量和藏書位置,將其及時(shí)下架。
2.4 情報(bào)咨詢工作中的應(yīng)用
互聯(lián)網(wǎng)所包含的信息浩如煙海,想要及時(shí)有效地獲取所需的知識(shí)信息是一個(gè)很大的難題,同時(shí)也是衡量情報(bào)咨詢工作的一個(gè)標(biāo)準(zhǔn)。利用Web挖掘技術(shù)就可以比較容易地解決上述難題。首先,準(zhǔn)備一臺(tái)與互聯(lián)網(wǎng)相連接的Web挖掘服務(wù)器,根據(jù)學(xué)校的教學(xué)安排、科學(xué)研究以及學(xué)校未來發(fā)展方向等各方面的需要,利用Web挖掘技術(shù)在服務(wù)器上對(duì)互聯(lián)網(wǎng)上網(wǎng)頁進(jìn)行挖掘。Web挖掘可根據(jù)用戶所提出的需求自動(dòng)地從互聯(lián)網(wǎng)上搜索相關(guān)網(wǎng)頁,對(duì)這些海量數(shù)據(jù)信息進(jìn)行深層次地分析,并能夠保證數(shù)據(jù)的完整性和安全性。其次,通過對(duì)檢索所得結(jié)果進(jìn)行聚類分析和分類分析,將從互聯(lián)網(wǎng)上檢索到的相關(guān)數(shù)據(jù)信息按照學(xué)科建設(shè)和科研方向等進(jìn)行分類分析,然后建立摘要、索引或者其他有效鏈接。最后建立檢索界面,通過可視化的方式服務(wù)用戶。用戶可以通過代理服務(wù)器根據(jù)關(guān)鍵詞、主題詞或者其他一些檢索條件進(jìn)行檢索。這樣,就大大提高了檢索服務(wù)響應(yīng)的速度,節(jié)省了用戶的時(shí)間,而且也豐富了圖書館的信息資源。
3 結(jié)語
作為圖書館的未來發(fā)展趨勢,數(shù)字圖書館在研究中遭遇了重重困難,知識(shí)的有效組織與發(fā)現(xiàn)就是一段時(shí)期內(nèi)數(shù)字圖書館所面臨的重要課題之一。數(shù)據(jù)挖掘作為方興未艾的信息技術(shù)之一,由于其在數(shù)據(jù)組織、分析和知識(shí)發(fā)現(xiàn)等方面的巨大優(yōu)勢和對(duì)信息的深層挖掘能力,并隨著硬件環(huán)境,挖掘算法的改進(jìn)、應(yīng)用的普及和經(jīng)驗(yàn)的積累等,數(shù)據(jù)挖掘在圖書館的發(fā)展中將顯示出強(qiáng)大的發(fā)展?jié)摿蛷V闊的應(yīng)用前景。
參考文獻(xiàn)
[1]劉顯顯.基于數(shù)據(jù)挖掘的高校圖書館個(gè)性化信息推薦方法研究[D].遼寧大學(xué),2013
[2]袁媛.數(shù)據(jù)挖掘在高校圖書館個(gè)性化服務(wù)中的應(yīng)用研究[D].廣州大學(xué),2011
[3]陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M].清華大學(xué)出版社,2008,4
[4]石軍.數(shù)據(jù)挖掘在高校圖書館的應(yīng)用[J].江西圖書館學(xué)刊,2005,3