摘要:隨著數(shù)據(jù)庫(kù)管理系統(tǒng)在圖書館中的應(yīng)用,大量的數(shù)據(jù)積累在系統(tǒng)中,如何選擇、利用數(shù)據(jù)挖掘工具充分挖掘出數(shù)據(jù)中隱含的有價(jià)值的信息,為讀者提供更加人性化的服務(wù)是當(dāng)前圖書館管理員面臨的嚴(yán)峻問(wèn)題。本文就利用SQL Server2008這一數(shù)據(jù)庫(kù)管理系統(tǒng)對(duì)學(xué)校圖書館中的數(shù)據(jù)進(jìn)行挖掘進(jìn)行探討。
關(guān)鍵詞:數(shù)據(jù)挖掘;SQL Server2008;聚類分析
中圖分類號(hào):G258.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9599 (2012) 17-0000-02
在高校里圖書館是一個(gè)非常重要部分,圖書館的管理方式最重要的體現(xiàn)就在于高校管理信息化。圖書館里的圖書由于資料很多,有大量的數(shù)據(jù)都是需要嚴(yán)格的管理。但是采用人工方式進(jìn)行管理的話,整體效率就會(huì)低下?,F(xiàn)在,大部分的圖書館都是采取數(shù)據(jù)庫(kù)管理系統(tǒng),但是數(shù)據(jù)的挖掘功能卻沒(méi)有很好的被利用。SQL Server2008這是一款很重要的數(shù)據(jù)庫(kù)管理系統(tǒng),它能夠很好的把圖書館管理系統(tǒng)當(dāng)中具有價(jià)值的信息挖掘出來(lái),給管理者一個(gè)很好的參考價(jià)值,讓讀者有更好的個(gè)性化服務(wù)。
數(shù)據(jù)挖掘建模應(yīng)用圖書構(gòu)建中:
1 挖掘工具的選擇
SQL Server2008 中的數(shù)據(jù)挖掘組件是數(shù)據(jù)挖掘工具的典型代表,系統(tǒng)中引入了多個(gè)新的數(shù)據(jù)挖掘算法,與傳統(tǒng)的數(shù)據(jù)挖掘工具相比,SQLServer2008數(shù)據(jù)挖掘功能具備很多優(yōu)勢(shì)?;赟QL Server2008有著非常實(shí)用的數(shù)據(jù)挖掘功能,所以選擇其作為挖掘工具。[1]
2 數(shù)據(jù)收集和整理
本校采用的圖書管理系統(tǒng)不成熟,所以它的應(yīng)用系統(tǒng)功能是比較簡(jiǎn)單的,因此對(duì)于數(shù)據(jù)的整理相對(duì)來(lái)說(shuō)比較雜亂。
(1)從服務(wù)器端導(dǎo)出相關(guān)數(shù)據(jù)的信息表。由于系統(tǒng)功能簡(jiǎn)單,相關(guān)的數(shù)據(jù)表當(dāng)中只有類別的編號(hào),沒(méi)有名稱,所以不能完整的表達(dá)出圖書類別的相關(guān)信息,所以我們需要應(yīng)用人工將數(shù)據(jù)導(dǎo)出來(lái)之后,進(jìn)行數(shù)據(jù)匯總。
(2)啟動(dòng)SQL Server 2008 Management Studio,在對(duì)象資源管理器中新建一個(gè)數(shù)據(jù)庫(kù)“l(fā)ibrary”數(shù)據(jù)庫(kù),然后建立“l(fā)ib”表,將數(shù)據(jù)填寫在表中,如圖一。ID:編號(hào),yxzy:是否是醫(yī)學(xué)專業(yè),sjlx:書籍類型,js:借書情況,xj:是否續(xù)借,jdrs:接待人數(shù)。
3 對(duì)library數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)挖掘,建立模型
(1)啟動(dòng) SQL Server Business Intelligence Development Studio,新建一個(gè)商業(yè)智能項(xiàng)目。
(2)新建數(shù)據(jù)源(DS),把library數(shù)據(jù)庫(kù)添加進(jìn)來(lái)。
(3)新建一個(gè)數(shù)據(jù)庫(kù)數(shù)據(jù)源視圖(DSV)。
(4)使用數(shù)據(jù)挖掘向?qū)Ы?shù)據(jù)挖掘結(jié)構(gòu)和挖掘模型。
(5)處理挖掘模型。
(6)使用挖掘模型進(jìn)行分析、預(yù)測(cè)。
4 對(duì)挖掘的信息進(jìn)行分析匯總
(1)該表通過(guò)數(shù)據(jù)匯總之后,摘錄了18條有代表性的記錄,進(jìn)行分析。按是否是醫(yī)學(xué)專業(yè)類別分書籍,共為兩類:是和否;借書情況分為三類:好、一般、差。是否續(xù)借,分為兩類:是和否;接待人數(shù)分為三類:<100,100~200,>200。以100和200為基準(zhǔn)的原則是按照各個(gè)系別的人數(shù)劃分,有些醫(yī)學(xué)專業(yè)的人數(shù)比較多,例如臨床醫(yī)學(xué),有些則適中如解剖,有些則是非醫(yī)學(xué)專業(yè)的人數(shù)比較少,如:計(jì)算機(jī)。
(2)采用聚類分析數(shù)據(jù)挖掘方法繼續(xù)分析
聚類分析(clustering)。聚類分析可以建立宏觀的概念, 發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的相互關(guān)系。聚類算法對(duì)dbo.lib,得出如下結(jié)果,如圖二。
圖二直接給圖書館管理人員提供了決策依據(jù),為以后的工作提供了理論依據(jù)。比如根據(jù)圖二依懶關(guān)系網(wǎng)絡(luò)圖,可以發(fā)現(xiàn),書籍的是否續(xù)借直接和該書籍接待人數(shù)和是否借書的情況有關(guān)系。根據(jù)圖三發(fā)現(xiàn),接待人數(shù)多的則是醫(yī)學(xué)專業(yè)的人比較多,而非醫(yī)學(xué)專業(yè)的人則少,可能是因?yàn)檫@方面的圖書太少,相關(guān)書目更新速度太慢,沒(méi)有新的書籍,還有就是這些專業(yè)是學(xué)校新興的學(xué)科,沒(méi)有及時(shí)的購(gòu)買書籍。但是非醫(yī)學(xué)專業(yè)的書籍,如文學(xué)類的圖書被借閱的次數(shù)最多,這也是讓非醫(yī)學(xué)專業(yè)接待人數(shù)在其中占一個(gè)大比例的原因,應(yīng)該把該類圖書置
于易于存放的位置,以便為讀者提供更人性化的服務(wù)等。同時(shí)也應(yīng)該增加一些圖書館中,書籍的種類。
5 結(jié)語(yǔ)
在圖書管理中,引進(jìn)數(shù)據(jù)庫(kù)系統(tǒng)以后,節(jié)約了大量的人力、物力,大大提高了辦事效率,使用數(shù)據(jù)挖掘技術(shù)可以挖掘出大量數(shù)據(jù)中隱含的信息,通過(guò)這些信息可以為管理者提供更直觀的決策依據(jù),采取更及時(shí)有效的措施,為讀者提供更加人性化的服務(wù)。
參考文獻(xiàn):
[1]張堯庭.數(shù)據(jù)采掘入門及應(yīng)用[M].北京:中國(guó)統(tǒng)計(jì)出版社,2001.
[2](加)韓家煒,(加)坎伯(Kamber,M.).數(shù)據(jù)挖掘概念與技術(shù)[M].范明等,譯.北京:機(jī)械工業(yè)出版社,200.
[3]郭華偉.基于內(nèi)容聚合BLOG學(xué)習(xí)平臺(tái)的輔助教學(xué)研究與實(shí)踐[D],北京:首都師范大學(xué),2006.
[4]王夕寧,王曉平.JSP通用模塊及典型系統(tǒng)開發(fā)實(shí)例導(dǎo)航[M].北京:人民郵電出版社,2006:288-296.
[5]方睿,刁仁宏,吳四九編著.網(wǎng)絡(luò)數(shù)據(jù)庫(kù)原理及應(yīng)用[M].四川:四川大學(xué)出版社,2005,8.