楊江麗,高 凡,董若劍
(西南交通大學(xué)圖書館,四川 成都 610031)
圖書館是高校師生學(xué)習(xí)與科研的知識后盾。 即使在信息資源高速發(fā)展的今天,圖書的流通借閱依然是高校圖書館基本的服務(wù)內(nèi)容。 因此,圖書館每天會產(chǎn)生大量的圖書借閱流通記錄數(shù)據(jù),目前大多數(shù)圖書館只是將這些數(shù)據(jù)用做一些常規(guī)的工作量統(tǒng)計, 圖書館管理系統(tǒng)無法發(fā)現(xiàn)這些數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法預(yù)測讀者的信息需求。 利用數(shù)據(jù)挖掘技術(shù),分析這些數(shù)據(jù)之間的關(guān)聯(lián),有利于合理配置資源和提高圖書館資源的利用率,同時能提高服務(wù)水平,使圖書館的服務(wù)能真正滿足師生的需求。
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程, 這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。 它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為。 數(shù)據(jù)挖掘的主要特點(diǎn)是對數(shù)據(jù)庫中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘是KDD(Knowledge Discovery in Database)中的重要技術(shù),它并不是用規(guī)范的數(shù)據(jù)庫查詢語言(如SQL)進(jìn)行查詢,而是對查詢的內(nèi)容進(jìn)行模式的總結(jié)和內(nèi)在規(guī)律的搜索。
數(shù)據(jù)挖掘的研究融合了多個不同學(xué)科領(lǐng)域的技術(shù)與成果, 使得目前的數(shù)據(jù)挖掘方法表現(xiàn)出多種多樣的形式。從統(tǒng)計分析類的角度來說,統(tǒng)計分析技術(shù)中使用的數(shù)據(jù)挖掘模型有線形分析和非線形分析、回歸分析、邏輯回歸分析、單變量分析、多變量分析、時間序列分析、最近序列分析、最近鄰算法和聚類分析等方法。 圖書館領(lǐng)域一般使用知識發(fā)現(xiàn)類數(shù)據(jù)挖掘技術(shù),它是一種與統(tǒng)計分析類數(shù)據(jù)挖掘技術(shù)完全不同的挖掘技術(shù),包括人工神經(jīng)元網(wǎng)絡(luò)、支持向量機(jī)、決策樹、遺傳算法、粗糙集、規(guī)則發(fā)現(xiàn)和關(guān)聯(lián)順序等。
數(shù)據(jù)挖掘一般分為三個階段:數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、結(jié)果的評價和表達(dá)。 詳細(xì)流程見圖1。
圖1 數(shù)據(jù)挖掘的過程
我國從20 世紀(jì)90 年代中期開始開展數(shù)據(jù)挖掘的研究,但發(fā)展十分迅速。 隨著計算機(jī)、人工智能、數(shù)理統(tǒng)計科學(xué)的迅速發(fā)展及數(shù)據(jù)庫技術(shù)的大規(guī)模應(yīng)用而越來越顯示出其強(qiáng)大的生命力。
在國內(nèi),數(shù)據(jù)挖掘技術(shù)在圖書館領(lǐng)域中的研究才剛剛起步,研究主要集中在高校的科研隊伍中,沒有形成整體的研究團(tuán)隊。 通過對中國期刊全文數(shù)據(jù)庫網(wǎng)站(CNKI)的檢索分析,共有298 篇該主題研究的相關(guān)報道。 從2000 年開始就有相關(guān)文獻(xiàn)對數(shù)據(jù)挖掘技術(shù)在圖書館中的應(yīng)用的研究報道,2005 年進(jìn)入了高速發(fā)展期,2010 年相關(guān)文獻(xiàn)有41 篇,截至2011 年9 月已經(jīng)有39 篇相關(guān)研究報道。 由此看來,數(shù)據(jù)挖掘技術(shù)在我國圖書館領(lǐng)域中的應(yīng)用研究還趨于上升階段。
本文以高校本科生讀者作為研究對象,研究該類讀者在校期間的借閱行為,讀者從入學(xué)到畢業(yè)的時間是一個完整的學(xué)習(xí)階段,通過對其在校期間借閱數(shù)據(jù)的分析,可以分析出本科生和研究生讀者在校幾年中的表現(xiàn)和特點(diǎn),還有其借閱行為的不同之處;同時研究不同類別的圖書在該專業(yè)的利用率,其結(jié)論可以給圖書館優(yōu)化館藏資源提供有效、科學(xué)的依據(jù),更好地滿足讀者的閱讀要求。
圖2 西南交通大學(xué)2006 級本科生原始借閱數(shù)據(jù)(部分)
本文選用西南交通大學(xué)圖書館BSLC 圖書館管理系統(tǒng)中的借閱記錄、館藏記錄、讀者信息記錄等數(shù)據(jù)庫中的數(shù)據(jù)。 西南交通大學(xué)為“211 院校”,讀者具有知識、地域多元性,對于數(shù)據(jù)挖掘的樣本提取也具有多樣性和代表性。 圖書館數(shù)據(jù)庫系統(tǒng)中有眾多的數(shù)據(jù)表, 通過SQL 查詢語言從數(shù)據(jù)表中提取所需數(shù)據(jù),導(dǎo)出數(shù)據(jù)的主要字段包括:借閱證號、姓名、讀者類型、題名、索書號、借閱時間,參見圖2。 本文采用西南交通大學(xué)2006 級土木學(xué)院本科生在圖書館系統(tǒng)中記錄的33 634 條借閱數(shù)據(jù)作為分析的數(shù)據(jù)來源。
按照借閱時間分別整理2006 級土木學(xué)院本科生四個學(xué)年的借閱數(shù)據(jù), 將整理后的數(shù)據(jù)導(dǎo)入spss 軟件進(jìn)行數(shù)據(jù)分析,得出這些讀者在各年級的借閱情況,見表1。 可以看出,讀者在大一到大三的借閱量逐年增長,在大三時借閱量達(dá)到最高的9 640 冊次,占四個學(xué)年比例的28.7%,大四時借閱量最少,低于大一的圖書借閱量。
表1 各年級大學(xué)生讀者借閱量統(tǒng)計
用中圖法將原始數(shù)據(jù)中的分類號進(jìn)行轉(zhuǎn)換, 并且用spss 軟件對該級讀者整個本科階段的借閱量進(jìn)行分析后,得出讀者借閱各類圖書的情況,見圖3。 土木學(xué)院屬于工科學(xué)科范疇,所以學(xué)生對工業(yè)技術(shù)類的書籍需求量最大,在借閱圖書時主要以與專業(yè)相關(guān)的參考書和基礎(chǔ)理論書籍為主,該類書籍占到了總借閱量的31.2%;同時文學(xué)、語言類的圖書也是該類讀者的熱門借閱類型。 因此,圖書館在采購圖書時應(yīng)根據(jù)其借閱特點(diǎn),對讀者需求量大的圖書應(yīng)適當(dāng)增加復(fù)本,以滿足讀者的借閱需求。
圖3 各類圖書借閱情況柱形圖
為了觀察同級讀者在不同年級借閱情況的變化,將整理后數(shù)據(jù)進(jìn)行分類,并將最后的數(shù)據(jù)導(dǎo)入spss軟件,針對不同年級學(xué)生對不同類型圖書的借閱情況進(jìn)行分析比較,參見表2。
利用卡方檢驗來考察圖書類型變量和讀者所在年級兩個變量是否有關(guān)系, 該檢驗?zāi)茌^精確地給出這種判斷的可靠程度。經(jīng)過對變量的檢驗,從表3 可以明顯看出借閱圖書的類型與讀者所在年級變量存在顯著性關(guān)系,相同的讀者,隨著年級的不同,借閱圖書類型也在發(fā)生變化。
表2 不同年級大學(xué)生對不同類型圖書借閱統(tǒng)計表(部分)
表3 卡方檢驗
圖4 不同年級的借閱情況條形圖
將表2 中的結(jié)果用條形圖表示(見圖4),從中可以很直觀地看出借閱圖書的類型與讀者所在年級存在顯著性關(guān)系,這個結(jié)論和表3 卡方檢驗的結(jié)論相吻合。 對于土木學(xué)院本科生讀者來說,大一主要是學(xué)習(xí)基礎(chǔ)知識,所以對基礎(chǔ)學(xué)科的書籍需求量較大,因為還沒有具體的接受專業(yè)課學(xué)習(xí),所以對專業(yè)書籍需求較少,隨著對專業(yè)課學(xué)習(xí)研究的不斷深入,讀者對專業(yè)書籍需求量呈明顯的逐年增長態(tài)勢,大三達(dá)到最高峰,占當(dāng)年總借閱量的32.5%;語言類、文學(xué)類的書籍在大一、大二、大三需求相對穩(wěn)定,大四由于要完成畢業(yè)論文、找工作等借閱量呈減少趨勢,但整體來看,以工科為主的該類讀者群體,除了對相關(guān)專業(yè)的學(xué)習(xí)外,對語言文化及文學(xué)修養(yǎng)也非常重視,對這些書籍的需求相對較大,僅次于專業(yè)書籍的需求。圖書館利用數(shù)據(jù)挖掘技術(shù),可以準(zhǔn)確地把握讀者的需求,提高讀者借閱的滿意度。同時也將圖書館采購圖書中的人為的主觀性降到最低,最大限度地提高決策的科學(xué)性、準(zhǔn)確性和全面性。
專業(yè)類書籍是土木學(xué)院本科生讀者的主要閱讀類型, 讀者借閱專業(yè)類書籍?dāng)?shù)據(jù)描述如表4 所示,通過spss 軟件分析隨著學(xué)生年級的變化與對專業(yè)類書籍的需求是否存在顯著性變化,對兩個變量的分析見表5,顯著性(0.000)〈0.05 表示兩個變量之間存在顯著性差異,這說明隨著年級的不同,學(xué)生對工業(yè)用書的需求量也在發(fā)生著明顯的變化。
表4 專業(yè)類書籍借閱數(shù)據(jù)描述
表5 顯著性分析
在數(shù)字化時代,圖書館需要在龐大信息資源中挖掘信息,為個性化優(yōu)質(zhì)服務(wù)提供有效的決策依據(jù)。讀者的借閱數(shù)據(jù)可以帶給圖書館決策者很多不同的有價值的信息,文中的研究分析方法及結(jié)果只是其中的一小部分。 根據(jù)數(shù)據(jù)挖掘技術(shù)對高校圖書館讀者行為分析的結(jié)果,圖書館可以掌握高校圖書館讀者的借閱規(guī)律,把握讀者的借閱傾向,進(jìn)而優(yōu)化館藏資源,提高高校圖書館館藏資源的利用率,準(zhǔn)確提供讀者所需要的書籍。
[1] 王斌.數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用研究[D].西安:西安理工大學(xué),2010.
[2] 王桂芹,黃道.數(shù)據(jù)挖掘技術(shù)綜述[J].電腦應(yīng)用技術(shù),2007(69):9-14.
[3] 楊光,張學(xué)潮.數(shù)據(jù)挖掘在高校圖書館用戶行為分析中的應(yīng)用——以山西大學(xué)圖書館為例[J].晉圖學(xué)刊,2011(2):19-28.
[4] 廖秋榮.基于數(shù)據(jù)挖掘的圖書館的讀者借閱行為分析[J].柳州職業(yè)技術(shù)學(xué)院學(xué)報,2011(11):90-93.
[5] 譚云江,凌云,閆海峰,等.基于數(shù)據(jù)挖掘技術(shù)的高校圖書館讀者行為研究[J].圖書情報工作,2010(Z2):359-362.