劉承真
(臨沂報業(yè)集團,山東 臨沂 276004)
隨著高等教育事業(yè)的發(fā)展,各大高校出現多校區(qū)辦學的局面,各種教育資源的共享成為高校基礎建設的重要工作,其中圖書資源優(yōu)化配置是研究應用的一個關鍵問題。目前各高校都在使用圖書管理系統(tǒng),每天能產生大量的統(tǒng)計數據和表單,合理分析這些海量數據對圖書館的采購、館藏、咨詢等業(yè)務都有指導作用[1,2]。
由于當前圖書管理系統(tǒng)無法發(fā)現隱藏在海量數據中的知識,對讀者的需求信息不能預測,因此無法對多校區(qū)的圖書館藏結構和館間分布進行合理優(yōu)化。筆者主要是應用數據挖掘技術分析圖書館管理系統(tǒng)中的數據,尋找讀者的需求信息,然后提供給圖書館部署管理系統(tǒng)作為決策的依據。主要貢獻是合理地分析歷史數據,應用數據挖掘中的重要算法開發(fā)了可實際運行的決策支持系統(tǒng),該系統(tǒng)對每批新書上架都能提供較合理的指導依據。這對優(yōu)化配置多校區(qū)的圖書資源產生了較大收益。
圖書部署決策系統(tǒng)主要模塊如圖1所示。讀者庫是指最原始的數據集合,包括讀者信息、借閱日志及書目信息。除此之外還要包括校區(qū)劃分及院系的信息。該數據庫主要從圖書自動化管理系統(tǒng)中導入,本系統(tǒng)中應用Oracle9.0。預處理模塊對原始數據集進行處理。主要任務是刪除冗余數據,簡化數據表中的屬性,合并數據表。數據挖掘模塊的主要任務就是利用相應的挖掘算法尋找未知知識,對隱藏在海量數據中的讀者需求信息進行捕獲,為更好地部署圖書資源提供支撐。該模塊采用面向對象的設計思想,盡量降低系統(tǒng)的控制耦合度,便于對算法的更新維護。核心管理模塊的任務是對其他子模塊發(fā)出控制命令,如圖1虛線所示。比如啟動預處理模塊讀取原始數據;調用數據挖掘模塊發(fā)現未知讀者需求信息等。圖書部署策略創(chuàng)建模塊利用數據挖掘提供的規(guī)則和已有的先驗知識對圖書的上架及館藏的調整提出相應的決策支持。目前系統(tǒng)主要提供了兩種常用的決策支持應用。首先是新書上架功能,當購入新書后,只需根據圖書的種類便能提供在哪個校區(qū)上架及上架數量;其次是定期對借閱頻繁的圖書進行一次調整,逐漸優(yōu)化館藏圖書結構來解決大學生跨校區(qū)借閱的現象。
高校圖書館信息系統(tǒng)只是普通的信息管理系統(tǒng),并沒有智能決策功能,該系統(tǒng)每日都將產生大量的業(yè)務數據。其中包括讀者基本信息、書目信息和流通信息。筆者在此以山東臨沂師范學院圖書自動化系統(tǒng)為例。讀者基本信息取自讀者表,讀者借書記錄來自流通日志表。利用讀者條碼信息對以上各表數據進行合并。讀者借閱歷史數據庫為R={D1,D2,…,Dn}。其中Di記錄了讀者對圖書的借閱信息,Di={IDi,S1,S2,…,Sm},IDi為讀者條碼標識,Si(1<=i<=m)記錄了讀者的借閱信息。Si中包括讀者類別、所屬單位、圖書條碼、館藏地、圖書類別等。
對于原始的數據首先進行冗余數據和無效數據的刪除。因為涉及的讀者表和流通日志數據結構比較龐大,有47個相關屬性。根據數據規(guī)約與概化原則刪除不相關或冗余屬性。比如刪除讀者姓名、聯(lián)系電話等屬性;對于辦證時間和證件有效期則概念化為讀者類型;對于書目信息刪除出版時間、出版社等無關屬性,只保留類別、價格、所屬校區(qū)等相關屬性。
數據預處理要解決的另一個問題是增加讀者所屬校區(qū)的信息。高校圖書管理系統(tǒng)中因為采用統(tǒng)一的數據庫系統(tǒng),所以并未在流通記錄中體現讀者來自哪個校區(qū)?,F實中存在跨校區(qū)借閱的現象,為了將這種信息保存到數據庫中,根據讀者所屬的單位添加讀者所屬校區(qū)這個屬性。根據高校院系與校區(qū)的對應關系對全部讀者借書記錄進行自動追加,有利于數據挖掘的準確性,便于對圖書部署作出正確決策。
在該系統(tǒng)中主要應用兩種基本的數據挖掘技術。對于新書分配相應校區(qū)及上架數量比例的任務使用決策樹方法[3]。決策樹方法是分類發(fā)現算法中最常用的一種方法,適合探索式知識發(fā)現。首先對數據進行處理,利用歸納算法生成可讀的規(guī)則和決策樹,然后利用這些規(guī)則對新數據進行分類預測[4]。在此要對典型的決策樹分類算法做一些調整來解決新書上架比例的問題。
例如新近一批美術類圖書,位于東校區(qū)美術學院的大部分學生需要借閱這些專業(yè)性強的圖書。而位于主校區(qū)的信息學院動漫專業(yè)的學生也有相應的需求,如果將此類圖書全部放入東校區(qū),必然出現小批量動漫專業(yè)的大學生跨校區(qū)借閱現象,導致圖書資源共享效果差。如果只是簡單將該批圖書平分投放在主校區(qū)和東校區(qū),必然出現東校區(qū)圖書借閱緊張而主校區(qū)空閑的狀態(tài)。為解決這個問題,對每本圖書必須分配適當的副本存放于不同校區(qū)的圖書館中。技術上使用數據挖掘關聯(lián)規(guī)則中的支持度S=(x?y)=T(X∪Y)/。 T(X∪Y)數據集中包括X∪Y的事務數;T表示數據集中的事務總數。將決策樹進行廣度優(yōu)先搜索,對每個葉子節(jié)點,求出從根節(jié)點到該葉子節(jié)點的路徑。該路徑上所有節(jié)點的劃分條件并為一類,為每個節(jié)點創(chuàng)建IF…Then的分類規(guī)則。然后對每條分類規(guī)則增加支持度,例如為解決上面的實際問題,創(chuàng)建了一條分類規(guī)則。Rule1:IF美術類圖書Then東校區(qū),Suppor(t Rule1)=0.63。那么如果一本圖書購進10個副本,則向東校區(qū)發(fā)放7本,其余發(fā)放于主校區(qū)。具體修改后的決策樹算法如下:
算法1
①創(chuàng)建一棵空樹及訓練樣本屬性表;
②若訓練數據集T中的所有元素都屬于同一類,則創(chuàng)建節(jié)點T,并終止該算法;
③選擇訓練樣本屬性表中館藏地點屬性A作為結果屬性,再根據隨機策略從樣本表中選擇測試屬性B;
④如果B的取值為V1,V2,…,Vm,則根據B的取值不同,將T劃分為m個子集T1,T2,…,Tm;
⑤從訓練樣本屬性表中刪除屬性B;
⑥調整②,對每個子集遞歸調用;
⑦生成決策樹DT;
⑧對DT進行廣度優(yōu)先搜索;
⑨為每個葉子節(jié)點求出根節(jié)點到葉節(jié)點的路徑;
⑩歸并此路徑上的劃分條件,生成一條規(guī)則Ri;
?循環(huán)執(zhí)行⑨~⑩,直到處理完全部葉子節(jié)點。
另外一個需要用數據挖掘解決的問題是對專業(yè)性不強的圖書部署問題。比如說應試類圖書,考研、公務員考試、公共英語、公共計算機考試等。對于該問題按照校區(qū)進行聚類,類間差別盡可能大,類內差別盡可能小。因為校區(qū)的劃分每學年要進行調整,因此與分類模式不同,聚類前并不知道劃分為幾類和什么樣的類,屬于無導師學習。
①根據校區(qū)取定C=5及終止條件δ;初始化聚類中心V0;逐步迭代;
②對于V1,修正U1;
④用一個矩陣比較Vl與Vl+1,對于取定的ε>0,若Vl+1-Vl≤ε,則停止迭代,否則l=l+1,轉②。
圖書部署模塊主要是根據數據挖掘模塊提供的分類規(guī)則對圖書進行分類,將其調整到分校區(qū)的館藏中。其算法如下:
①讀取要分類的圖書信息及分類規(guī)則庫;
②根據分類圖書中的測試屬性遍歷規(guī)則庫;
③如果存在對應規(guī)則,則提取該規(guī)則;
④如果存在多條規(guī)則,進行規(guī)則合并;
⑤計算規(guī)則的支持度后,執(zhí)行該規(guī)則;
⑥輸出部署決策知識。
對于不具有明顯分類標準的圖書或者是綜合類圖書則根據算法2按校區(qū)進行聚類分析,得出相應的部署決策信息。
該系統(tǒng)運行后,首先對借閱量前5000次的圖書進行了館藏調整。為了驗證該系統(tǒng)的有效性,設計了如下驗證方案:選擇借閱量排名前500名的圖書,統(tǒng)計歷史數據庫中每本圖書的月借閱次數,然后將其平均值定義為借閱率。即借閱率=借閱次數/月 500。首先統(tǒng)計2008年歷史數據庫中未使用該系統(tǒng)前的圖書借閱率信息,如圖2所標定的歷史借閱率。然后統(tǒng)計2009年一年時間里這些圖書的借閱率,如圖2所示的當前借閱率。
通過圖2可以發(fā)現當前借閱率比歷史借閱率有了較大提高,因此可證明啟用圖書部署系統(tǒng)后優(yōu)化了圖書資源。圖2中3月、4月、5月、6月、9月、10月、11月均為學期的主要學習階段,借閱率提高比較明顯;而1月、2月、7月、8月、12月均為學期的考試階段和寒暑假前后,借閱率提高不明顯。這種現象與實際情況吻合,因為考試前大學生對于需要的圖書無論在哪個校區(qū)都設法去借閱,而寒暑假前后大學生有充足的時間去各校區(qū)借閱圖書。
現代圖書管理系統(tǒng)每天都會產生海量信息數據,這些數據日積月累成為了數據挖掘、機器學習的寶貴資源。應當積極地利用數據挖掘技術發(fā)現讀者的潛在需求,用于指導圖書館的采購、館藏和信息咨詢等業(yè)務工作。筆者重點研究了圖書的按校區(qū)分類、聚類問題,通過開發(fā)新的決策支持系統(tǒng)來調整高校各校區(qū)的圖書部署問題。經過實踐驗證取得了較好的效果,提高了大學生對圖書資源的利用率,優(yōu)化了學校教育資源。由于該系統(tǒng)采用面向對象思想設計,各算法模塊間呈松耦合狀態(tài),因此具有較好的可擴展性。下一步的應用是通過讀者對某類圖書的借閱數據及文獻的查詢數據預測圖書采購,對圖書采購的投入產出進行優(yōu)化。
[1] 魏育輝,潘潔.圖書流通數據的關聯(lián)挖掘量化分析方法[J].現代情報,2005(11):108-110.
[2] 司徒浩臻.數據挖掘技術在圖書館信息服務中的應用[J].現代圖書情報技術,2005(10):15-18.
[3]Han Jiawei,KamberMicheline.數據挖掘——概念與技術[M].范明,孟小峰譯.北京:機械工業(yè)出版社,2007.
[4] 馬秀紅,宋建社,董晟飛.數據挖掘中決策樹的探討[J].計算機工程與應用,2004(1):185,214.
[5] 范九倫,裴繼紅,謝維信.聚類有效性函數:熵公式[J].模糊系統(tǒng)與數學,1998(3).
[6] 姚清耘.基于向量空間模型的中文文本聚類方法的研究[D].上海:上海交通大學,2008.
[7] 孫學剛,陳群秀,馬亮.基于主題的Web文檔聚類研究[J].中文信息學報,2003(3):12-16.