【摘 要】關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的主要的技術(shù)之一,本文闡述了圖書館個(gè)性化信息推送服務(wù)以及關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),介紹了基于Apriori關(guān)聯(lián)算法在圖書館讀者借閱歷史數(shù)據(jù)分析中的應(yīng)用,論述了關(guān)聯(lián)挖掘分析結(jié)果對(duì)圖書館推送服務(wù)的積極作用。指出了在使用關(guān)聯(lián)規(guī)則中可能會(huì)存在的若干問(wèn)題,并對(duì)相關(guān)問(wèn)題提出了一些解決方法。
【關(guān)鍵詞】數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;圖書館;推送服務(wù)
1.引言
隨著信息技術(shù)的飛速發(fā)展,大部分圖書館由傳統(tǒng)意義上的圖書館轉(zhuǎn)變?yōu)楝F(xiàn)代化的數(shù)字圖書館。在圖書館自動(dòng)化程度不斷提高的同時(shí),也帶來(lái)了圖書館數(shù)據(jù)量的成倍增長(zhǎng),這些數(shù)據(jù)除了用于記錄讀者的賬戶信息外,一般只用來(lái)做一些常規(guī)的業(yè)務(wù)數(shù)據(jù)統(tǒng)計(jì),其潛在的使用價(jià)值還遠(yuǎn)沒(méi)能得到充分的挖掘和利用。[1]由于目前大多數(shù)圖書館缺乏數(shù)據(jù)的集成和分析,更缺乏對(duì)統(tǒng)計(jì)數(shù)據(jù)中隱含的關(guān)聯(lián)進(jìn)行歸納與揭示,使圖書館對(duì)讀者信息需求的捕獲停留在比較淺顯的層面,更談不上輔助決策和知識(shí)的自動(dòng)獲取。數(shù)據(jù)關(guān)聯(lián)挖掘技術(shù)正好為我們提供了解決上述問(wèn)題的有效方法,它通過(guò)對(duì)海量數(shù)據(jù)的分析,從中挖掘出有價(jià)值的知識(shí)和規(guī)則,挖掘和發(fā)現(xiàn)讀者借閱行為中隱含的規(guī)律,為圖書館管理、信息服務(wù)、信息資源采集提供了科學(xué)決策的有效方法。
2.關(guān)聯(lián)挖掘技術(shù)
2.1 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是近年來(lái)隨著人工智能和數(shù)據(jù)庫(kù)技術(shù)的發(fā)展而出現(xiàn)的一門新興技術(shù)。數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD:Knowledge Discovery in Database),是指從大量的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含的、未知的和潛在有用的信息的非平凡的過(guò)程。簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中提取或“挖掘”出有用的知識(shí)。
數(shù)據(jù)挖掘?qū)嵸|(zhì)上不能算是一門新技術(shù),它只是集合了人工智能、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的理論和技術(shù)。數(shù)據(jù)挖掘的方法按其功能可劃分為:關(guān)聯(lián)分析、分類和預(yù)測(cè)、聚類分析、孤立點(diǎn)分析、演變分析等。其中最廣泛的應(yīng)用方法之一就是關(guān)聯(lián)規(guī)則挖掘算法。
2.2 關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性,可用于表示數(shù)據(jù)庫(kù)中諸多屬性(項(xiàng)集)之間的關(guān)聯(lián)程度。如果兩個(gè)或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個(gè)事物就能夠通過(guò)其他事物預(yù)測(cè)到。
關(guān)聯(lián)規(guī)則挖掘,在1993年的SIGMOD會(huì)議上被首次提出,在事務(wù)、關(guān)系數(shù)據(jù)庫(kù)中的項(xiàng)集和對(duì)象中發(fā)現(xiàn)頻繁模式、關(guān)聯(lián)規(guī)則、相關(guān)性或者因果結(jié)構(gòu),其目的是為了發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。隨著對(duì)大量數(shù)據(jù)的不停收集與存儲(chǔ),數(shù)據(jù)庫(kù)中挖掘關(guān)聯(lián)規(guī)則顯得越來(lái)越重要。[2]
2.3 關(guān)聯(lián)規(guī)則挖掘求解問(wèn)題的步驟
從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則的步驟為:①預(yù)處理與挖掘任務(wù)有關(guān)的數(shù)據(jù),根據(jù)具體問(wèn)題的要求對(duì)數(shù)據(jù)庫(kù)進(jìn)行相應(yīng)的處理,從而生成規(guī)格化的數(shù)據(jù)庫(kù);②從數(shù)據(jù)庫(kù)中找到所有支持度大于最小支持度的項(xiàng)集,這些項(xiàng)集稱為頻繁項(xiàng)集;③使用第2步找到的頻繁項(xiàng)集產(chǎn)生期望的規(guī)則,這些規(guī)則必須滿足最小置信度,形成輸出規(guī)則。
2.4 關(guān)聯(lián)規(guī)則Apriori算法
Apriori算法是最著名的關(guān)聯(lián)規(guī)則算法,Apriori算法命名源于算法使用了頻繁項(xiàng)集性質(zhì)的先驗(yàn)(Prior)知識(shí),它將發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過(guò)程分為兩個(gè)步驟:①通過(guò)迭代,檢索出事務(wù)數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集,即支持度不低于用戶設(shè)定的閾值的項(xiàng)集。挖掘或識(shí)別出所有頻繁項(xiàng)集是該算法的核心,占整個(gè)計(jì)算量的大部分。②利用頻繁項(xiàng)集構(gòu)造出滿足用戶最小信任度的規(guī)則。
3.關(guān)聯(lián)規(guī)則在圖書館推送服務(wù)中的應(yīng)用
3.1 圖書館個(gè)性化信息推送服務(wù)
數(shù)字圖書館個(gè)性化信息推送服務(wù)是一種能滿足用戶的特定信息需求的服務(wù),即根據(jù)用戶提出的明確或模糊的要求,或通過(guò)對(duì)用戶借閱歷史信息的分析,在研究用戶行為、興趣、愛(ài)好、專業(yè)和習(xí)慣的基礎(chǔ)上,根據(jù)用戶的個(gè)性化需求而主動(dòng)向用戶提供其可能需要的信息的服務(wù)。它包括兩層含義:首先是針對(duì)不同的用戶需求提供不同的服務(wù);其次是發(fā)現(xiàn)用戶的潛在需求,進(jìn)行主動(dòng)的信息服務(wù)。[3]
個(gè)性化信息推送服務(wù)是數(shù)字圖書館服務(wù)發(fā)展的根本要求,這種服務(wù)方式在數(shù)字圖書館中的實(shí)現(xiàn)不僅能夠滿足用戶的個(gè)性化信息需求,而且可以大大提高圖書館的資源利用率,便于圖書館服務(wù)的大眾化及服務(wù)效率和質(zhì)量的提高。
推送服務(wù)的有效開展必須基于對(duì)數(shù)字圖書館中用戶歷史事務(wù)數(shù)據(jù)庫(kù)中信息的挖掘來(lái)實(shí)現(xiàn)。隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)在圖書館的廣泛應(yīng)用,在圖書館積累了大量的用戶對(duì)資源的歷史訪問(wèn)數(shù)據(jù),這些數(shù)據(jù)背后隱藏著許多重要的信息,如用戶類型與圖書類型存在某種關(guān)聯(lián),A類圖書與B類圖書存在某種關(guān)聯(lián)等。如果能夠?qū)ζ溥M(jìn)行更高層次的分析,就可以更好地利用這些數(shù)據(jù)為用戶服務(wù)。因此,需要獲取“不同類型的用戶喜歡哪類書籍”的統(tǒng)計(jì)分析,以便向不同類型的用戶推薦相關(guān)圖書;需要了解“有多大比例的用戶借閱了圖書A同時(shí)又借閱了圖書B”,以便向已借閱圖書A的用戶推薦圖書B。所以,我們可以利用關(guān)聯(lián)規(guī)則對(duì)用戶群的流通歷史數(shù)據(jù)進(jìn)行挖掘分析,發(fā)現(xiàn)隱含的規(guī)律,更好地為用戶服務(wù),更深入地開展圖書館的工作。
3.2 關(guān)聯(lián)規(guī)則應(yīng)用于圖書館推送服務(wù)
在進(jìn)行關(guān)聯(lián)分析前,首先要進(jìn)行數(shù)據(jù)準(zhǔn)備工作,將圖書館借閱數(shù)據(jù)進(jìn)行預(yù)處理,形成關(guān)聯(lián)分析所需的事務(wù)數(shù)據(jù)庫(kù),然后應(yīng)用關(guān)聯(lián)算法進(jìn)行關(guān)聯(lián)分析,最后挖掘出有效的關(guān)聯(lián)規(guī)則。
(1)數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)預(yù)處理
在圖書館的用戶信息數(shù)據(jù)庫(kù)中存有大量的用戶信息,如果需要找出用戶年齡、職業(yè)、學(xué)歷與其借閱文獻(xiàn)的關(guān)聯(lián)規(guī)則時(shí),我們需要關(guān)心的是用戶信息中的年齡、職業(yè)、學(xué)歷,其他的如姓名、性別等可以認(rèn)為是一些無(wú)關(guān)的信息,有時(shí)某些字段屬性值可能存在空缺值或者噪聲不一致的現(xiàn)象。因此可以在數(shù)據(jù)挖掘前使用清理、集成、變換、歸約等預(yù)處理方法改善數(shù)據(jù)質(zhì)量,將原始數(shù)據(jù)形式轉(zhuǎn)換成需要的數(shù)據(jù)形式,從而提高數(shù)據(jù)挖掘的效率和質(zhì)量。[4]
(2)基于Apriori算法的圖書借閱關(guān)聯(lián)規(guī)則的挖掘
下面我們將對(duì)圖書館圖書借閱問(wèn)題進(jìn)行討論,通過(guò)分析發(fā)現(xiàn)哪些種類的圖書被用戶同時(shí)借閱,計(jì)算不同種類圖書的支持度和置信度。經(jīng)過(guò)關(guān)聯(lián)分析形成借閱模式,根據(jù)這些借閱模式,主動(dòng)地向用戶推薦相關(guān)的書目,從而提高圖書館的服務(wù)質(zhì)量。
在下面的例子中,我們期望在圖書館流通歷史記錄中找出有多大比例的用戶借閱A類圖書的同時(shí)又借閱了B類圖書。如果我們挖掘出了A類圖書和B類圖書之間的強(qiáng)的關(guān)聯(lián)規(guī)則,就可以向用戶推薦相關(guān)的圖書,提高圖書館的服務(wù)質(zhì)量。我們以5位到館用戶借閱記錄為例來(lái)說(shuō)明關(guān)聯(lián)規(guī)則的應(yīng)用,表1是用戶借閱事務(wù)數(shù)據(jù)表,設(shè)定最小支持度為4O%。[5]
運(yùn)用Apriori算法進(jìn)行數(shù)據(jù)挖掘,首先掃描事務(wù)數(shù)據(jù),生成候選的頻繁1-項(xiàng)集的集合C1,見表2。
根據(jù)C并結(jié)合我們?cè)O(shè)定的最小支持度40%,從而產(chǎn)生頻繁1-項(xiàng)集的集合L1,見表3。
由頻繁1-項(xiàng)集L1。生成的候選頻繁2一項(xiàng)集的集合C2,見表4。
根掘C2并結(jié)合事先設(shè)定的最小支持度40%,從而產(chǎn)生頻繁2-項(xiàng)集的集合L2,見表5。
由頻繁2-項(xiàng)集L2生成的候選頻繁3-項(xiàng)集的集合C3,見表6。
根據(jù)C3并結(jié)合事先設(shè)定的最小支持度40%,從而產(chǎn)生頻繁3-項(xiàng)集的集合L3,見表7。
在此例中,頻繁3-項(xiàng)集無(wú)法產(chǎn)生候選的頻繁4-項(xiàng)集,由此我們得出下列規(guī)則:(1)借程序設(shè)計(jì)類圖書的用戶同時(shí)借高數(shù)類和英語(yǔ)類圖書的支持度是40%,置信度是50%;(2)借高數(shù)類圖書的用戶同時(shí)借程序設(shè)計(jì)類和英語(yǔ)類圖書的支持度是4O%,置信度是67%;(3)借英語(yǔ)類圖書的用戶同時(shí)借高數(shù)類和程序設(shè)計(jì)類圖書的支持度是4O%,置信度是50%;(4)借程序設(shè)計(jì)類和高數(shù)類圖書的用戶同時(shí)借英語(yǔ)類圖書的支持度是40%,置信度是100%;(5)借程序設(shè)計(jì)類和英語(yǔ)類圖書的用戶同時(shí)借高數(shù)類圖書的支持度是40%,置信度是5O%:(6)借英語(yǔ)類和高數(shù)類圖書的用戶同時(shí)借程序設(shè)計(jì)類圖書的支持度是4O%,置信度是5O%。
關(guān)聯(lián)分析:對(duì)于第一條規(guī)則,我們發(fā)現(xiàn),如果用戶是以借程序設(shè)計(jì)類圖書為目的,那么他同時(shí)借高數(shù)類和英語(yǔ)類圖書的可能性不是很大,置信度只有50%,第三條規(guī)則同理;對(duì)于第五條規(guī)則,如果用戶是以借閱程序設(shè)計(jì)類和英語(yǔ)類圖書為目的,那么他同時(shí)借閱高數(shù)類圖書的可能性不是很大,置信度只有50%,第六條規(guī)則同理;而對(duì)于第二條規(guī)則,我們發(fā)現(xiàn),如果用戶是以借高數(shù)類圖書為目的的,那么他同時(shí)借程序設(shè)計(jì)類和英語(yǔ)類圖書的可能性就大大增加,達(dá)到67%;對(duì)于第四條規(guī)則,我們發(fā)現(xiàn),如果用戶是以借閱程序設(shè)計(jì)類和高數(shù)類圖書為目的,那么他同時(shí)借閱英語(yǔ)類圖書的將大大增加,達(dá)到100%(一般情況是不會(huì)達(dá)到100%的,這是因?yàn)槭聞?wù)數(shù)據(jù)太少只有5條導(dǎo)致的)。因此可以向借高數(shù)類圖書的用戶推薦程序設(shè)計(jì)類和英語(yǔ)類的圖書;特別是借閱程序設(shè)計(jì)類和高數(shù)的用戶,一般對(duì)英語(yǔ)類的圖書都較感興趣,可以向其推薦。[6]
4.進(jìn)行關(guān)聯(lián)規(guī)則挖掘過(guò)程中應(yīng)注意的問(wèn)題
4.1 確定恰當(dāng)?shù)捻?xiàng)集和恰當(dāng)?shù)膶哟?/p>
在進(jìn)行關(guān)聯(lián)挖掘前要選擇合適的用戶群,對(duì)于過(guò)于寬泛的用戶群會(huì)使我們?cè)邶嬰s的數(shù)據(jù)中,很難發(fā)現(xiàn)任何有價(jià)值的信息。在一個(gè)圖書館里,存有幾十萬(wàn)甚至上百萬(wàn)冊(cè)圖書,這些圖書擁有不同的編碼和不同層次的代碼,當(dāng)我們?cè)诜治鲋惺褂玫膶訑?shù)增加的時(shí)候,要考慮到的組合數(shù)會(huì)非常快速的增長(zhǎng)。這就要求使用分層中較高層次的項(xiàng),比如使用“數(shù)據(jù)庫(kù)類”而不是具體的某本數(shù)據(jù)庫(kù)書。另外,項(xiàng)越具體,結(jié)果的可操作性可能越高。例如,知道什么書與算法設(shè)計(jì)搭配,可以更好地為用戶進(jìn)行書籍的推薦。由于數(shù)據(jù)挖掘的時(shí)間視數(shù)據(jù)的規(guī)模而定,要保證數(shù)據(jù)處理的順利進(jìn)行,必須要確定適當(dāng)?shù)臄?shù)據(jù)規(guī)模,數(shù)據(jù)過(guò)少很難說(shuō)明問(wèn)題的普遍性,而數(shù)據(jù)過(guò)大也會(huì)降低數(shù)據(jù)處理的效率。
4.2 確定合理的挖掘時(shí)間段
由于關(guān)聯(lián)挖掘是從大量的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,挖掘過(guò)程需要占用大量的系統(tǒng)資源,因此數(shù)據(jù)挖掘通常是在系統(tǒng)空閑的時(shí)候進(jìn)行,或者是將系統(tǒng)的數(shù)據(jù)導(dǎo)出以后再進(jìn)行。[7]
4.3 從所有數(shù)據(jù)中產(chǎn)生最佳規(guī)則
在關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘過(guò)程中必需的最小支持度和最小置信度是人為設(shè)置的,如果設(shè)置不合理,最終得到的規(guī)則將會(huì)很多或者非常的少,為了避免這種情況的出現(xiàn),我們?cè)谶M(jìn)行數(shù)據(jù)挖掘的過(guò)程中要根據(jù)規(guī)則產(chǎn)生的實(shí)際數(shù)量和預(yù)定的目標(biāo)適時(shí)地調(diào)整最小支持度和最小置信度。
5.結(jié)語(yǔ)
數(shù)字圖書館的流通信息為我們提供了最基礎(chǔ)的原始的數(shù)據(jù),通過(guò)對(duì)流通數(shù)據(jù)的關(guān)聯(lián)挖掘,不僅能揭示隱藏在大量數(shù)據(jù)后的重要關(guān)系信息,同時(shí)也為這種關(guān)系提供了量化描述手段。這些定性定量的信息不僅能對(duì)圖書館的各項(xiàng)工作提供技術(shù)上的支持,也是圖書館開展以用戶需求為導(dǎo)向的各項(xiàng)服務(wù)工作的基礎(chǔ)。
參考文獻(xiàn):
[1]石軍.數(shù)據(jù)挖掘在高校圖書館的應(yīng)用[J].江西圖書館學(xué)刊,2005(3):35-36.
[2]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].機(jī)械工業(yè)出版社,2001,162-176.
[3]石巖.智能推送技術(shù)在數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用[J].情報(bào)探索,2006(11):71-72.
[4]王磊,劉東蘇.關(guān)聯(lián)規(guī)則挖掘在圖書館信息服務(wù)中的應(yīng)用[J].情報(bào)雜志,2008(2):154-158.
[5]胡麗蓉.關(guān)聯(lián)規(guī)則挖掘在醫(yī)學(xué)圖書館信息服務(wù)中的應(yīng)用探討[J].晉圖學(xué)刊,2010(4):23-26.
[6]胡根橋.基于關(guān)聯(lián)挖掘技術(shù)的圖書館個(gè)性化信息服務(wù)[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2007(21):12-14.
[7]羅鳳莉.圖書流通數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘[J].情報(bào)探索,2006(8):40-41.
作者簡(jiǎn)介:蘇帆(1988—),女,西南大學(xué)2010級(jí)情報(bào)學(xué)碩士研究生,研究方向:網(wǎng)絡(luò)信息組織與服務(wù)。