李體紅,豐樹(shù)謙
(焦作大學(xué) 信息工程學(xué)院,河南 焦作 454000)
基于數(shù)據(jù)挖掘技術(shù)的圖書(shū)館改進(jìn)方案
李體紅,豐樹(shù)謙
(焦作大學(xué) 信息工程學(xué)院,河南 焦作 454000)
基于數(shù)據(jù)挖掘技術(shù),以SQL 2000數(shù)據(jù)庫(kù)為基礎(chǔ),設(shè)計(jì)了一種圖書(shū)館改進(jìn)方案。詳細(xì)描述了借閱記錄、個(gè)性化服務(wù)、館藏布置、圖書(shū)分布和決策支持等管理和服務(wù)方面設(shè)計(jì)思路,初步建立了圖書(shū)館綜合化的管理服務(wù)平臺(tái)。
圖書(shū)館;數(shù)據(jù)挖掘技術(shù);管理服務(wù)平臺(tái)
隨著計(jì)算機(jī)技術(shù)和通信技術(shù)的發(fā)展,高校圖書(shū)館的職能已從傳統(tǒng)的讀者服務(wù)和教育功能逐漸向讀者提高、領(lǐng)導(dǎo)決策的職能轉(zhuǎn)變,在豐富的信息資源中為用戶(hù)提供有效的信息和知識(shí)參考咨詢(xún),完善圖書(shū)館的資源建設(shè),進(jìn)行數(shù)字化的科學(xué)管理[1-2]?,F(xiàn)代圖書(shū)館正向自動(dòng)化、數(shù)字化、信息化方向發(fā)展,數(shù)據(jù)挖掘技術(shù)可在促進(jìn)職能轉(zhuǎn)變、建設(shè)圖書(shū)館資源、提高服務(wù)質(zhì)量、拓寬服務(wù)范圍等方面提供強(qiáng)有力的技術(shù)和服務(wù)支持。
本文針對(duì)焦作大學(xué)圖書(shū)館管理和建設(shè)工作的現(xiàn)狀和不足,采用數(shù)據(jù)挖掘技術(shù),提出一種圖書(shū)館改進(jìn)方案設(shè)計(jì),為校圖書(shū)館的資源建設(shè)、讀者服務(wù)提供有效保證,并根據(jù)采集的信息和數(shù)據(jù),為教學(xué)和科研的發(fā)展提供依據(jù)。
數(shù)據(jù)挖掘[3-5]DM(Data Mining)是從大量數(shù)據(jù)中提取隱含在其中的事先不知道但又有潛在的有用信息和知識(shí)的過(guò)程,而這些信息和知識(shí)是不完全的、有噪聲的、模糊的、隨機(jī)的。發(fā)現(xiàn)的知識(shí)主要用于信息管理、查詢(xún)優(yōu)化、決策支持、過(guò)程控制等,也可以用于數(shù)據(jù)的自我維護(hù)。狹義上的數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)KDD(Knowledge Discovery in Database)的一個(gè)關(guān)鍵步驟,是提取數(shù)據(jù)和建立模型的重要環(huán)節(jié)。
數(shù)據(jù)挖掘大致可以分為四個(gè)步驟:(1)資源發(fā)現(xiàn),即提取信息所需要的數(shù)據(jù);(2)信息的選擇和預(yù)處理,即從檢索到的數(shù)據(jù)和信息中篩選和處理有用的信息;(3)模型化,即從單個(gè)或多個(gè)信息發(fā)現(xiàn)其中的規(guī)律,建立普遍的模型;(4)評(píng)價(jià),即對(duì)挖掘出的模型進(jìn)行確認(rèn)或者解釋。
根據(jù)挖掘的類(lèi)型不同,數(shù)據(jù)挖掘的方法主要有以下四種[6]:
(1)關(guān)聯(lián)分析。從大量不同屬性數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)聯(lián)性,挖掘出數(shù)據(jù)間潛在的相互關(guān)系或者結(jié)構(gòu),如超級(jí)市場(chǎng)的“購(gòu)物籃”問(wèn)題研究。
(2)序列分析。從一定時(shí)間間隔內(nèi)接連發(fā)生的事件中發(fā)現(xiàn)各數(shù)據(jù)之間的聯(lián)系。把這些事件用一個(gè)序列表示,序列中的各事件除具有時(shí)間屬性外,還具有統(tǒng)計(jì)上的概率性,與關(guān)聯(lián)分析的算法相似。
(3)分類(lèi)分析。把具有相同屬性的樣本看作同一個(gè)類(lèi)別,通過(guò)分析類(lèi)別樣本的特點(diǎn),得到?jīng)Q定樣本屬性的規(guī)則和方法。如全國(guó)受教育程度分析中,可以依據(jù)文化程度來(lái)劃分樣本。
(4)聚類(lèi)分析。與分類(lèi)分析不同,聚類(lèi)分析是把數(shù)據(jù)按照其相似性和差異性分成若干具有一定意義的子集,然后再分別描述不同的類(lèi)別。
焦作大學(xué)圖書(shū)館始建于1981年,經(jīng)過(guò)近30年的發(fā)展,擁有了豐富的館藏資源,可提供圖書(shū)借閱、期刊查詢(xún)、讀者服務(wù)等基本功能,為全校教學(xué)和科研提供了強(qiáng)有力的支撐。針對(duì)我校圖書(shū)館的資源布置、信息檢索和服務(wù)方面的缺點(diǎn),采用數(shù)據(jù)挖掘技術(shù),在現(xiàn)有圖書(shū)館資源和管理的基礎(chǔ)上,提出了圖書(shū)館改進(jìn)方案。方案設(shè)計(jì)原理框圖如圖1所示。
系統(tǒng)以SQL 2000數(shù)據(jù)庫(kù)為基礎(chǔ),分為用戶(hù)數(shù)據(jù)庫(kù)和館藏資源數(shù)據(jù)庫(kù),并根據(jù)兩個(gè)數(shù)據(jù)庫(kù)的信息提供服務(wù)支持。用戶(hù)數(shù)據(jù)庫(kù)主要用來(lái)為圖書(shū)館館藏資源的使用者提供有用戶(hù)檢索、借閱記錄和個(gè)性化等主要功能;館藏資源數(shù)據(jù)庫(kù)用于搜集和提供圖書(shū)館的資源,包括紙質(zhì)圖書(shū)、電子資源等;服務(wù)支持根據(jù)系統(tǒng)搜集的信息,提高圖書(shū)館在館舍布置、圖書(shū)分布及決策服務(wù)等管理方面的服務(wù),促進(jìn)圖書(shū)館的科學(xué)管理。在圖1所示的方案設(shè)計(jì)中,數(shù)據(jù)庫(kù)挖掘技術(shù)主要應(yīng)用于借閱記錄、個(gè)性化服務(wù)和服務(wù)支持等功能中。
讀者借閱記錄存儲(chǔ)于用戶(hù)數(shù)據(jù)庫(kù)中,每條記錄包含讀者的標(biāo)識(shí)碼和借閱圖書(shū)的標(biāo)識(shí)碼,如表1所示。
表1 借閱記錄用戶(hù)數(shù)據(jù)庫(kù)
采用數(shù)據(jù)挖掘技術(shù)挖掘讀者信息和對(duì)應(yīng)的圖書(shū)信息時(shí),為提高挖掘效率,采用數(shù)據(jù)表形式存放挖掘記錄,并根據(jù)讀者的標(biāo)識(shí)碼和圖書(shū)的分類(lèi)及存放地址的表鏈接,如表2和表3所示。
借閱記錄采用關(guān)聯(lián)分析方法,通過(guò)唯一的讀者標(biāo)識(shí)碼在數(shù)據(jù)庫(kù)內(nèi)部自動(dòng)把三者連接起來(lái),顯示完整的圖書(shū)借閱信息供管理人員、讀者查詢(xún)。同時(shí),數(shù)據(jù)庫(kù)自動(dòng)記錄圖書(shū)的借閱頻率、圖書(shū)類(lèi)別的使用頻率和圖書(shū)的交叉借閱頻率,并存儲(chǔ)為管理人員提供的參考信息。
表2 讀者信息表
表3 圖書(shū)信息表
采用數(shù)據(jù)挖掘技術(shù),根據(jù)數(shù)據(jù)庫(kù)記錄的圖書(shū)借閱頻率和圖書(shū)類(lèi)別使用頻率,數(shù)據(jù)庫(kù)在讀者查詢(xún)相關(guān)圖書(shū)時(shí),自動(dòng)把頻率較高的圖書(shū)置前,并根據(jù)讀者的興趣愛(ài)好向讀者推薦相關(guān)圖書(shū)。當(dāng)讀者所需要的圖書(shū)已被全部借閱或者圖書(shū)館沒(méi)有收藏時(shí),自動(dòng)向讀者推薦3~5種的相關(guān)替代圖書(shū)或電子資源。
服務(wù)支持主要包括圖書(shū)館館藏布置、圖書(shū)分布和決策服務(wù)。
館藏布置根據(jù)數(shù)據(jù)庫(kù)統(tǒng)計(jì)的圖書(shū)類(lèi)別使用頻率和圖書(shū)交叉借閱頻率來(lái)布置不同類(lèi)別的圖書(shū)庫(kù)在圖書(shū)館的位置,使關(guān)聯(lián)度較高的圖書(shū)庫(kù)緊鄰。如借閱了文學(xué)類(lèi)圖書(shū)的讀者同時(shí)借閱藝術(shù)類(lèi)圖書(shū)的頻率較高,則可把文學(xué)圖書(shū)庫(kù)和藝術(shù)圖書(shū)庫(kù)相鄰。同時(shí),對(duì)于同一類(lèi)目的圖書(shū),可根據(jù)使用率的大小在圖書(shū)庫(kù)內(nèi)設(shè)置閱覽桌的數(shù)量,使圖書(shū)館利用更加合理。
圖書(shū)分布根據(jù)同一類(lèi)目的圖書(shū)使用率,把借閱率高的圖書(shū)放在圖書(shū)館的前面,方便讀者借閱的同時(shí)也提高了圖書(shū)館的利用率。
決策支持為圖書(shū)館的科學(xué)管理提供可靠依據(jù)。根據(jù)圖書(shū)借閱頻率和圖書(shū)類(lèi)別使用頻率,圖書(shū)館管理人員在購(gòu)買(mǎi)新的圖書(shū)時(shí)可優(yōu)先考慮頻率較高的相關(guān)圖書(shū)和圖書(shū)類(lèi)目,使資金利用效果最大化。
基于數(shù)據(jù)挖掘技術(shù)的圖書(shū)館比傳統(tǒng)圖書(shū)館在圖書(shū)管理、服務(wù)等方面具有更大的優(yōu)勢(shì)。通過(guò)關(guān)聯(lián)分析方法,使圖書(shū)借閱記錄成為圖書(shū)館管理和服務(wù)的基礎(chǔ),為個(gè)性化服務(wù)、館藏布置、圖書(shū)分布、決策服務(wù)等提供了可靠的參考,使圖書(shū)館成為一個(gè)綜合化的管理和服務(wù)平臺(tái)。本方案在建立高效的數(shù)據(jù)挖掘規(guī)則和服務(wù)體系方面仍需要進(jìn)一步研究。
[1]司徒浩臻.數(shù)據(jù)挖掘技術(shù)在圖書(shū)館信息服務(wù)中的應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2005,10(129):15-19.
[2]董云鵬.數(shù)據(jù)挖掘技術(shù)在圖書(shū)館中的應(yīng)用[J].現(xiàn)代情報(bào),2006,11(11):131-132.
[3]陳文偉,黃金才,趙新昱.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社,2002:189-200.
[4]孟曉明.淺談數(shù)據(jù)挖掘技術(shù)[J].計(jì)算機(jī)應(yīng)用與軟件,2004,24(8):34-36.
[5]唐笑林.數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用[J].華東理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2008,34(2):290-295.
[6]梁協(xié)雄,雷汝煥,曹長(zhǎng)修.現(xiàn)代數(shù)據(jù)挖掘技術(shù)研究進(jìn)展[J].重慶大學(xué)學(xué)報(bào),2004,27(3):21-27.
Improved scheme of library based on data mining technology
Li Tihong,F(xiàn)eng Shuqian
(School of Information Engineering,Jiaozuo University,Jiaozuo 454000,China)
Improved scheme of library was designed based on data mining technology and SQL 2000 database.Design idea of management and service was described,such as lending record,personalized service,library layout,books distribution and decision support,the combined platform of management and service was established.
library;data mining technology;platform of management and service
TP392
A
1674-7720(2011)03-0004-02
2010-10-15)
李體紅,女,1965年生,副教授,主要研究方向:軟件工程、操作系統(tǒng)。
豐樹(shù)謙,男,1965年生,副教授,碩士,主要研究方向:軟件工程、數(shù)據(jù)庫(kù)工程。
網(wǎng)絡(luò)安全與數(shù)據(jù)管理2011年3期