喻正紅
摘 要:高校圖書館在每天的讀者借閱服務中都會產(chǎn)生大量的用戶數(shù)據(jù),這些數(shù)據(jù)隱藏著一些與用戶相關(guān)的知識,而數(shù)據(jù)挖掘技術(shù)在分析處理數(shù)據(jù)方面有著自己強大的優(yōu)勢。通過利用Apriori算法對這些數(shù)據(jù)進行科學分析,不僅可以得出讀者的借閱規(guī)律、借閱特點,而且把它作為選擇購買數(shù)字、紙質(zhì)資源,調(diào)整服務策略,開展個性化推送服務等工作的參考標準,使得讀者的信息需求能夠更加快速、有效、完整地得到滿足。同時還可以為圖書館提供科學管理的依據(jù),優(yōu)化圖書館的資源結(jié)構(gòu),提高圖書館紙本圖書和電子資源利用率。
關(guān)鍵詞:數(shù)據(jù)挖掘;圖書館;行為分析;Apriori算法
隨著計算機技術(shù)和網(wǎng)絡技術(shù)的出現(xiàn)和發(fā)展,大量數(shù)據(jù)庫應用系統(tǒng)隨之出現(xiàn),面對數(shù)據(jù)規(guī)模爆炸式的增長趨勢,傳統(tǒng)的小樣本專家驗證式統(tǒng)計分析已不能適應從大數(shù)據(jù)中發(fā)現(xiàn)知識為人類服務的要求。運用數(shù)據(jù)挖掘技術(shù)對圖書館讀者數(shù)據(jù)進行挖掘,能有效地解決這個問題。研究針對湖南工程學院圖書館管理系統(tǒng)的讀者數(shù)據(jù),旨在分析讀者借閱記錄中找出蘊藏的對于管理有用的規(guī)則、描述,對讀者借閱行為做出分析,挖掘出潛在的有用信息,為圖書購買、用戶服務、館藏目錄設置等管理工作提供決策支持,為日常圖書館信息服務提供決策參考,使圖書館朝著自動化、數(shù)字化和信息化的方向發(fā)展。鑒于讀者借閱信息的屬性均是數(shù)值型數(shù)據(jù),挖掘技術(shù)選用能有效處理數(shù)值型數(shù)據(jù)的關(guān)聯(lián)規(guī)則算法。
關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一種,它從大量的數(shù)據(jù)中挖掘出有價值的、描述數(shù)據(jù)項之間相互聯(lián)系的有關(guān)知識[1]。Apriori算法是關(guān)聯(lián)規(guī)則挖掘算法中最經(jīng)典的算法,此算法使用頻繁項集性質(zhì)的先驗知識,通過逐層搜索的迭代方法來查找頻繁項集[2]。由于關(guān)聯(lián)規(guī)則具有以下特點:形式簡潔、易于解釋和理解、并且可以非常高效捕捉數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系,所以近年來數(shù)據(jù)挖掘領域的一個熱點就是從大數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則之間的理論。通過應用關(guān)聯(lián)規(guī)則的Apriori 算法在數(shù)據(jù)挖掘中,對讀者借閱信息進行數(shù)據(jù)分析。使用最小支持度和最小置信度對頻繁項集進行挖掘,并且從中尋找存在的關(guān)系和規(guī)則,以用于指導今后的圖書采購和推薦。
1 Apriori算法
Apriori算法在挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集中是最有影響的一種的算法?;趦呻A段頻集思想的遞推算法是這個算法的核心。該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。在這里,所有支持度大于最小支持度的項集稱為頻繁項集,簡稱頻集。Apriori尋找頻繁項集的過程是一個不斷迭代的過程,每次都是兩個步驟,產(chǎn)生候選集Ck(可能成為頻繁項集的項目組合);基于候選集Ck計算支持度、確定Lk。Apriori的尋找策略就是從包含少量的項目開始逐漸向多個項目的項目集搜索[3]。
算法的基本思想可以歸納為:第一步找出所有頻集,把和預定義的最小支持度一樣的頻集找出來。第二步由頻集產(chǎn)生強關(guān)聯(lián)規(guī)則,這些規(guī)則必須滿足最小可信度和最小支持度。第三步中利用第一步找到的頻集所產(chǎn)生期望的規(guī)則,產(chǎn)生只包含集合的項的所有規(guī)則,其中每一條規(guī)則的右部只有一項。這些規(guī)則被生成以后,留下來的只有那些大于用戶給定的最小可信度的規(guī)則。使用遞歸的方法來生成所有頻集。
由于以上算法中,存在產(chǎn)生侯選項目集時循環(huán)產(chǎn)生的組合過多等問題,我們對Apriori算法中尋找最大項目集做了以下改進:
第一步:對所有含一個元素的項目出現(xiàn)的頻率進行統(tǒng)計,把大于或等于最小支持度的項目集找出來,產(chǎn)生一維頻繁項目集Lt。
第二步:對頻繁項目集做循環(huán)處理,直到?jīng)]有再產(chǎn)生維數(shù)更高的情況。
第三步:按Apriori算法再檢驗新的K 維頻繁項目集的所有k-1維項目集是否已經(jīng)包含在已經(jīng)求出的K-1維頻繁項目集。
第四步:經(jīng)過運算得到候選項目集后,掃描數(shù)據(jù)庫B的每一個事務,如果該事務中包含候選項目集Ck中的元素不少于一項,就保留該項事務,否則把該事物記錄與沒有作刪除標記的數(shù)據(jù)庫末端事務記錄進行對換,并把移到數(shù)據(jù)庫末端的事務記錄作刪除標記,對整個數(shù)據(jù)庫進行掃描,完成后作為新的事務數(shù)據(jù)庫D[4]。
我們可以看到本算法的思路基本上與Apriori算法保持一致,但是又有不同之處。
第一,新算法在計算組合Ck前,將對參與組合的元素進行計數(shù)處理,根據(jù)計數(shù)結(jié)果從中剔除一些不符合組合條件的元素,這就降低了組合的可能性,也就是降低了循環(huán)判斷的次數(shù)。
第二,新算法雖然對數(shù)據(jù)庫進行了掃描后會生產(chǎn)新的數(shù)據(jù)庫,這樣在記錄重寫中會浪費時間和輸入、輸出的開銷,但是隨著循環(huán)次數(shù)的增加,本算法對新生成的數(shù)據(jù)庫中進行掃描時會減少很多的掃描次數(shù)。
2 Apriori算法在讀者借閱信息中的應用
數(shù)據(jù)準備:數(shù)據(jù)來源為湖南工程學院圖書館2015年讀者借閱數(shù)據(jù),在電氣學院系和管理學院中隨機抽取兩個院系進行分析,一方面可以針對不同時間的數(shù)據(jù)進行分析,另一方面,由于高校圖書館學生讀者群體所學專業(yè)不同,學習動機、興趣、愛好的不同,因而形成了個人意識傾向和心理素質(zhì)的差異,因此在借閱活動中表現(xiàn)出不同的心理需求,構(gòu)成了不同的讀者群體特征。由于文科和理科學生學習的特點有不同的地方,所以分別在文科院系和理科院系中抽出一個典型作為代表,這樣可以針對性地對不同學生群體進行分析,得出相應的結(jié)論。數(shù)據(jù)時間范圍為2014年12月-2015年12月,數(shù)據(jù)源為湖南工程學院圖書館管理系統(tǒng)數(shù)據(jù)庫,導出數(shù)據(jù)格式為TXT文本格式。
數(shù)據(jù)處理:利用 Apriori算法來對圖書館讀者借閱信息進行關(guān)聯(lián)規(guī)則的挖掘,檢查以上數(shù)據(jù),經(jīng)過篩選加工、統(tǒng)一數(shù)據(jù)格式,去掉冗余數(shù)據(jù)以及不合理數(shù)據(jù),分析所需要的信息后,分別建立讀者信息表、借閱圖書詳情表、圖書信息表,進行數(shù)據(jù)分析工作,將各種表導入excel數(shù)據(jù)庫中,完成一些查詢的工作。
3 總結(jié)
基于關(guān)聯(lián)規(guī)則的Apriori 算法應用領域非常廣泛,將它對數(shù)據(jù)的關(guān)聯(lián)性進行分析和挖掘后的結(jié)果在制定決策過程中具有重要的參考價值[5]。本文將Apriori算法應用到圖書館讀者借閱記錄中,并且針對經(jīng)典Apriori挖掘算法存在的不足進行了改進,先將事務數(shù)據(jù)庫映射為一個布爾矩陣,用一種逐層遞增的思想來動態(tài)的分配內(nèi)存進行存儲,再利用向量求"與"運算,尋找頻繁項集。實驗結(jié)果表明,改進后的Apriori算法在運行效率上有了很大的提升,挖掘出的規(guī)則也可以有效地輔助圖書館部門有針對性的開展圖書購買和推薦工作。
參考文獻
[1]陳德良,鄧德勝,劉永紅.大學畢業(yè)生就業(yè)影響因素的關(guān)聯(lián)規(guī)則挖掘[J]. 教育與業(yè),2012
[2]亓文娟,晏杰.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則Apriori算法[J].計算機系統(tǒng)應用,2013
[3]楊光,張學潮. 數(shù)據(jù)挖掘在高校圖書館用戶行為分析中的應用[J]. 晉圖學刊,2011,3:19-22
[4]張瑞雪.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法研究及應用[D].哈爾濱: 哈爾濱工程大學碩士學位論文,2006
[5]李宏運.關(guān)聯(lián)規(guī)則挖掘在圖書館管理中的應用[D].上海: 華東師范大學碩士學位論文,2009
[6]付開遠.數(shù)據(jù)挖掘在高校圖書館個性化信息服務中的應用研究[D]. 貴州: 貴州大學碩士學位論文,2010
[7]趙艷. Apriori算法在學生成績分析中的應用[J].河北企業(yè),2015,9:10