梁欣祺 張鈺莎
摘要:基于關(guān)聯(lián)規(guī)則的序列模式挖掘在圖書館的數(shù)據(jù)分析中應(yīng)用非常廣泛。該文針對管理學(xué)院三個不同專業(yè)學(xué)生借閱書目的序列挖掘得出,該專業(yè)書目借閱之間的關(guān)聯(lián)關(guān)系及序列模式。所得結(jié)論能很好的應(yīng)用于圖書館的管理服務(wù)及學(xué)生學(xué)習(xí)過程的指導(dǎo)。
關(guān)鍵詞:數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;序列模式
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2015)10-0083-03
隨著信息技術(shù)的不斷進(jìn)步,各行各業(yè)都聚集有大量的運行數(shù)據(jù)。如何有效利用和挖掘這些大數(shù)據(jù)潛在的價值和內(nèi)涵,是我們現(xiàn)在急需解決的問題。作為高校運營管理的重要組成部分,圖書館也因每日的讀者借閱行為產(chǎn)生了大量的日志文件和數(shù)據(jù)。有效挖掘這些數(shù)據(jù)可以為圖書館的圖書布局,新書購買和讀者服務(wù)提供有價值的參考意見。數(shù)據(jù)挖掘技術(shù)即是從大量、不完全、有噪聲、模糊的數(shù)據(jù)中,提取或挖掘出未知的,有價值的模式或規(guī)律等知識的復(fù)雜過程[1]。關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘技術(shù)中的描述型任務(wù)之一,主要應(yīng)用于市場營銷,事物分析等領(lǐng)域。而序列模式挖掘是關(guān)聯(lián)規(guī)則的有效應(yīng)用之一。它能更好地挖掘出圖書館學(xué)生借閱書目之間存在的某種序列及先到后續(xù)的關(guān)系。
1 序列模式挖掘
序列模式挖掘最早是針對購物籃數(shù)據(jù)的關(guān)聯(lián)分析,目的是發(fā)現(xiàn)事物之間項與項的序列關(guān)系。序列是指兩個或多個數(shù)據(jù)項先后出現(xiàn)的統(tǒng)計規(guī)律性,相對于關(guān)聯(lián),序列中的項有時間先后[2]。它最早由Agrawal等人提出。序列模式的發(fā)現(xiàn)可使用枚舉的方式統(tǒng)計支持度計數(shù)而得到。但是手工計算方式費時費力。在序列模式中Apriori算法是通常采用的方法之一。該算法通常分為五步,分別為:排序階段,頻繁項集階段,轉(zhuǎn)換階段,序列階段,最大化階段[3]。
2 圖書館數(shù)據(jù)的序列模式挖掘
圖書館在每日的運行中產(chǎn)生了大量的讀者借閱書目數(shù)據(jù),因此基于序列模式的讀者借閱行為識別過程主要包括提取借閱事務(wù)集,序列模式挖掘和讀者行為分析三個階段[4]。本文的挖掘?qū)ο鬄閺V東外語外貿(mào)大學(xué)南國商學(xué)院管理學(xué)院學(xué)生借閱書目,分別挖掘財務(wù)管理、旅游管理和市場營銷3個專業(yè)的借閱數(shù)據(jù)。查看圖書分類書目的編號,我們發(fā)現(xiàn)在該系學(xué)生的專業(yè)課借閱書目均為F開頭的書目。因此,我們的目標(biāo)是挖掘在時間方面上各專業(yè)以F開頭的書目之間潛在的關(guān)聯(lián)。
2.1對挖掘數(shù)據(jù)的處理
2.1.1數(shù)據(jù)集合
通過圖書館拷貝數(shù)據(jù)中我們導(dǎo)出數(shù)據(jù)庫的圖書信息表,讀者信息表,半年借書信息表,應(yīng)用數(shù)據(jù)庫SQL將三個表相連,選擇各自專業(yè)的讀者借閱記錄,最后導(dǎo)出得到五個專業(yè)各自讀者借閱記錄表,如圖所示。
2.1.2數(shù)據(jù)排序
以學(xué)號(即SNO)為主,日期(即DATE)為次對“同專業(yè)讀者借閱記錄表”進(jìn)行排序。
2.1.3添加屬性
由于圖書的名稱繁多而實際它們的內(nèi)容十分近似,我們將書目名(即TITLE)按照其書目內(nèi)容和類型泛化為書目的一個小類,并且將其做為一個新屬性“CLASSIFI”添加到“同專業(yè)讀者借閱記錄表”。
2.1.4轉(zhuǎn)換表
根據(jù)時間將新“同專業(yè)讀者借閱記錄表”轉(zhuǎn)化為序列形式的表。亦即為對于同一個讀者,根據(jù)時間推移其所有的借閱記錄合成為一條記錄;同時將時間(即DATE)和書目名(即TITLE)刪除。
3序列模式挖掘過程
3.1基于財務(wù)管理專業(yè)書目的序列模式挖掘
財務(wù)管理專業(yè)有170條借閱課內(nèi)書目記錄,51位讀者,即有51項事務(wù)。挖掘過程如下:
3.1.1找出頻繁項集
設(shè)置支持度閾值為3%。最小事務(wù)支持度計數(shù)為2(由51*3%=1.53所得)。
3.1.2找出序列模式
頻繁1序列L1={<1><2><3><4><5><6
><9><11><12><13><17><18><24><25><28><29><32><33><35>}。利用頻繁1-序列生成候選2-序列C2。掃描數(shù)據(jù)庫并對候選2序列計數(shù),得到頻繁2序列為L2={<{2}{5}>
<{2}{12}><{4}{28}><{4}{32}><{5}{11}><{6}{5}><{6}{24}><{6}{24}><{29}{5}}>}。頻繁2-序列連接后得到候選3序列C3={<
{2}{5}{12}><{2}{12}{5}><{4}{28}{32}><{4}{32}{28}><{6}{5}{24}><{6}{24}{5}>}
由于候選3-序列中沒有支持度計數(shù)大于閾值的,亦就是沒有新的序列模式出現(xiàn),因此頻繁2-序列為我們最后得到的序列模式。將頻繁序列轉(zhuǎn)換成真實的序列模式。我們得出五個結(jié)論。結(jié)論一,當(dāng)該專業(yè)的讀者先借“基礎(chǔ)會計(理論知識)”這類書后,一段時間后很有可能會借“綜合會計(理論加實踐)”類書或者“企業(yè)會計”類書;結(jié)論二,當(dāng)該專業(yè)讀者先借“財務(wù)管理”類書后,一段時間后很有可能會借“財務(wù)趣味”類書或者“財經(jīng)趣味”類書;結(jié)論三,當(dāng)該專業(yè)讀者先借“綜合會計(理論加實踐)”類書后,一段時間后很有可能會借“出納”類書;結(jié)論四,當(dāng)該專業(yè)讀者先借“會計準(zhǔn)則”類書后,一段時間后很有可能會借“綜合會計(理論加實踐)”類書或者“高級會計”類書;結(jié)論五,當(dāng)該專業(yè)讀者先借“企業(yè)會計準(zhǔn)則”類書后,一段時間后很有可能會借“綜合會計(理論加實踐)”類書。
3.2基于旅游管理專業(yè)書目的序列模式挖掘
旅游管理專業(yè)有177條借閱課內(nèi)書目記錄,50位讀者,即有50項事務(wù)。序列模式挖掘過程如下:
3.2.1找出頻繁項集
設(shè)置支持度閾值為3%。最小事務(wù)支持度計數(shù)為2(由50*%=2所得)
3.2.2找出序列模式?,F(xiàn)在已有頻繁1-序列L1=<1><2><3><4><6><7><8><9>
<11><18><19><20><22><24><25><26><27><28><29><30><33><34><37>}。利用頻繁1-序列生成候選2-序列C2。掃描數(shù)據(jù)庫并對候選2-序列計數(shù),得到頻繁2-序列為L2={<{4}{6}>,<{8}{26}>,<{20}{8}>。
由于頻繁2-序列中沒有再可合拼的序列,亦就是沒有新的序列模式出現(xiàn),因此頻繁2-序列為我們最后得到的序列模式。將頻繁序列轉(zhuǎn)換成真實的序列模式。我們得出三個結(jié)論。結(jié)論一,當(dāng)該專業(yè)的讀者先借“經(jīng)營管理”這類書后,一段時間后很有可能會借“生態(tài)旅游”類書;結(jié)論二,當(dāng)該專業(yè)讀者先借“營銷”類書后,一段時間后很有可能會借“經(jīng)濟(jì)學(xué)”類書;結(jié)論三,當(dāng)該專業(yè)讀者先借“旅游發(fā)展”類書后,一段時間后很有可能會借“營銷”類書。
3.3基于市場營銷專業(yè)書目間序列模式挖掘
旅游管理專業(yè)有509條借閱課內(nèi)書目記錄,113位讀者,即有113項事務(wù)。序列模式挖掘過程如下:
3.3.1找出頻繁項集
設(shè)置支持度閾值為4%。最小事務(wù)支持度計數(shù)為5(由113*4%=4.52所得)。
3.3.2找出序列模式
現(xiàn)在已有頻繁1-序列L1={<4><5><7><9><10><11><12><15><18><21><23><28><29><35><38><45><51><54>}。利用頻繁1-序列生成候選2-序列C2。掃描數(shù)據(jù)庫并對候選2-序列計數(shù),得到頻繁2-序列為L2={<{4}{5}><{18}{4}><{5}{4},<{5}{7}><{5}{18}><{5}{23}><{5}{35}><{35}{5}><{18}{5}><{7}{5}>。頻繁2-序列連接后得到候選3-序列C3。
由于候選3-序列中沒有支持度計數(shù)大于閾值的,亦就是沒有新的序列模式出現(xiàn),因此頻繁2-序列為我們最后得到的序列模式。將頻繁序列轉(zhuǎn)換成真實的序列模式。我們得出五個結(jié)論:結(jié)論一,當(dāng)該專業(yè)的讀者先借“推銷與銷售”這類書后,一段時間后很有可能會借“經(jīng)營管理”類書;結(jié)論二,當(dāng)該專業(yè)讀者先借“營銷”類書后,一段時間后很有可能會借“推銷與銷售”類書;結(jié)論三,當(dāng)該專業(yè)讀者先借“經(jīng)營管理”類書后,一段時間后很有可能會借“推銷與銷售”類書或者“市場營銷”類書或者“營銷”類書或者“企業(yè)傳記”類書或者“創(chuàng)業(yè)”類書;結(jié)論四,當(dāng)該專業(yè)讀者先借“創(chuàng)業(yè)”類書后,一段時間后很有可能會借“經(jīng)營管理”類書;結(jié)論五,當(dāng)該專業(yè)讀者先借“營銷”類書后,一段時間后很有可能會借“經(jīng)營管理”類書;結(jié)論六,當(dāng)該專業(yè)讀者先借“市場營銷”類書后,一段時間后很有可能會借“營銷”類書。
4結(jié)論
通過上述實驗數(shù)據(jù)的分析,采用序列模式挖掘的方法我們可以方便的得出特定專業(yè)學(xué)生借閱書目之間的規(guī)律和順序。通過挖掘結(jié)論我們可以為學(xué)生借閱提供個性化的推薦,為學(xué)生今后的學(xué)習(xí)過程提供指導(dǎo),亦可為圖書館的信息管理和服務(wù)提供參考意見。
參考文獻(xiàn):
[1] 付沙.基于序列模式挖掘的圖書館用戶借閱行為分析[J].情報理論與實踐,2014(37):103-106.
[2] 郭宇紅,毛玉琪,蘇展輝.讀者借閱書目序列模式挖掘[J].中國科技信息,2014(7):261-263.
[3] 蔣盛益,李霞,鄭琪.數(shù)據(jù)挖掘原理與實踐[M].北京.電子工業(yè)出版社,2011.8.
[4] 陳春穎,熊擁軍.基于序列模式挖掘的讀者借閱行為分析[J].圖書情報知識,2011,7(4):92-96.