亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

關(guān)聯(lián)挖掘技術(shù)在圖書館推送服務(wù)中的應(yīng)用研究

2012-04-29 00:00:00蘇帆

網(wǎng)友世界 2012年8期

【摘要】關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的主要的技術(shù)之一，本文闡述了圖書館個(gè)性化信息推送服務(wù)以及關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)，介紹了基于Apriori關(guān)聯(lián)算法在圖書館讀者借閱歷史數(shù)據(jù)分析中的應(yīng)用，論述了關(guān)聯(lián)挖掘分析結(jié)果對(duì)圖書館推送服務(wù)的積極作用。指出了在使用關(guān)聯(lián)規(guī)則中可能會(huì)存在的若干問(wèn)題，并對(duì)相關(guān)問(wèn)題提出了一些解決方法。

【關(guān)鍵詞】數(shù)據(jù)挖掘；關(guān)聯(lián)規(guī)則；圖書館；推送服務(wù)

1.引言

隨著信息技術(shù)的飛速發(fā)展，大部分圖書館由傳統(tǒng)意義上的圖書館轉(zhuǎn)變?yōu)楝F(xiàn)代化的數(shù)字圖書館。在圖書館自動(dòng)化程度不斷提高的同時(shí)，也帶來(lái)了圖書館數(shù)據(jù)量的成倍增長(zhǎng)，這些數(shù)據(jù)除了用于記錄讀者的賬戶信息外，一般只用來(lái)做一些常規(guī)的業(yè)務(wù)數(shù)據(jù)統(tǒng)計(jì)，其潛在的使用價(jià)值還遠(yuǎn)沒(méi)能得到充分的挖掘和利用。[1]由于目前大多數(shù)圖書館缺乏數(shù)據(jù)的集成和分析，更缺乏對(duì)統(tǒng)計(jì)數(shù)據(jù)中隱含的關(guān)聯(lián)進(jìn)行歸納與揭示，使圖書館對(duì)讀者信息需求的捕獲停留在比較淺顯的層面，更談不上輔助決策和知識(shí)的自動(dòng)獲取。數(shù)據(jù)關(guān)聯(lián)挖掘技術(shù)正好為我們提供了解決上述問(wèn)題的有效方法，它通過(guò)對(duì)海量數(shù)據(jù)的分析，從中挖掘出有價(jià)值的知識(shí)和規(guī)則，挖掘和發(fā)現(xiàn)讀者借閱行為中隱含的規(guī)律，為圖書館管理、信息服務(wù)、信息資源采集提供了科學(xué)決策的有效方法。

2.關(guān)聯(lián)挖掘技術(shù)

2.1 數(shù)據(jù)挖掘

數(shù)據(jù)挖掘是近年來(lái)隨著人工智能和數(shù)據(jù)庫(kù)技術(shù)的發(fā)展而出現(xiàn)的一門新興技術(shù)。數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD：Knowledge Discovery in Database)，是指從大量的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中，提取隱含的、未知的和潛在有用的信息的非平凡的過(guò)程。簡(jiǎn)單地說(shuō)，數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中提取或“挖掘”出有用的知識(shí)。

數(shù)據(jù)挖掘?qū)嵸|(zhì)上不能算是一門新技術(shù)，它只是集合了人工智能、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的理論和技術(shù)。數(shù)據(jù)挖掘的方法按其功能可劃分為：關(guān)聯(lián)分析、分類和預(yù)測(cè)、聚類分析、孤立點(diǎn)分析、演變分析等。其中最廣泛的應(yīng)用方法之一就是關(guān)聯(lián)規(guī)則挖掘算法。

2.2 關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性，可用于表示數(shù)據(jù)庫(kù)中諸多屬性(項(xiàng)集)之間的關(guān)聯(lián)程度。如果兩個(gè)或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系，那么其中一個(gè)事物就能夠通過(guò)其他事物預(yù)測(cè)到。

關(guān)聯(lián)規(guī)則挖掘，在1993年的SIGMOD會(huì)議上被首次提出，在事務(wù)、關(guān)系數(shù)據(jù)庫(kù)中的項(xiàng)集和對(duì)象中發(fā)現(xiàn)頻繁模式、關(guān)聯(lián)規(guī)則、相關(guān)性或者因果結(jié)構(gòu)，其目的是為了發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。隨著對(duì)大量數(shù)據(jù)的不停收集與存儲(chǔ)，數(shù)據(jù)庫(kù)中挖掘關(guān)聯(lián)規(guī)則顯得越來(lái)越重要。[2]

2.3 關(guān)聯(lián)規(guī)則挖掘求解問(wèn)題的步驟

從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則的步驟為：①預(yù)處理與挖掘任務(wù)有關(guān)的數(shù)據(jù)，根據(jù)具體問(wèn)題的要求對(duì)數(shù)據(jù)庫(kù)進(jìn)行相應(yīng)的處理，從而生成規(guī)格化的數(shù)據(jù)庫(kù)；②從數(shù)據(jù)庫(kù)中找到所有支持度大于最小支持度的項(xiàng)集，這些項(xiàng)集稱為頻繁項(xiàng)集；③使用第2步找到的頻繁項(xiàng)集產(chǎn)生期望的規(guī)則，這些規(guī)則必須滿足最小置信度，形成輸出規(guī)則。

2.4 關(guān)聯(lián)規(guī)則Apriori算法

Apriori算法是最著名的關(guān)聯(lián)規(guī)則算法，Apriori算法命名源于算法使用了頻繁項(xiàng)集性質(zhì)的先驗(yàn)（Prior）知識(shí)，它將發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過(guò)程分為兩個(gè)步驟：①通過(guò)迭代，檢索出事務(wù)數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集，即支持度不低于用戶設(shè)定的閾值的項(xiàng)集。挖掘或識(shí)別出所有頻繁項(xiàng)集是該算法的核心，占整個(gè)計(jì)算量的大部分。②利用頻繁項(xiàng)集構(gòu)造出滿足用戶最小信任度的規(guī)則。

3.關(guān)聯(lián)規(guī)則在圖書館推送服務(wù)中的應(yīng)用

3.1 圖書館個(gè)性化信息推送服務(wù)

數(shù)字圖書館個(gè)性化信息推送服務(wù)是一種能滿足用戶的特定信息需求的服務(wù)，即根據(jù)用戶提出的明確或模糊的要求，或通過(guò)對(duì)用戶借閱歷史信息的分析，在研究用戶行為、興趣、愛(ài)好、專業(yè)和習(xí)慣的基礎(chǔ)上，根據(jù)用戶的個(gè)性化需求而主動(dòng)向用戶提供其可能需要的信息的服務(wù)。它包括兩層含義：首先是針對(duì)不同的用戶需求提供不同的服務(wù)；其次是發(fā)現(xiàn)用戶的潛在需求，進(jìn)行主動(dòng)的信息服務(wù)。[3]

個(gè)性化信息推送服務(wù)是數(shù)字圖書館服務(wù)發(fā)展的根本要求，這種服務(wù)方式在數(shù)字圖書館中的實(shí)現(xiàn)不僅能夠滿足用戶的個(gè)性化信息需求，而且可以大大提高圖書館的資源利用率，便于圖書館服務(wù)的大眾化及服務(wù)效率和質(zhì)量的提高。

推送服務(wù)的有效開展必須基于對(duì)數(shù)字圖書館中用戶歷史事務(wù)數(shù)據(jù)庫(kù)中信息的挖掘來(lái)實(shí)現(xiàn)。隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)在圖書館的廣泛應(yīng)用，在圖書館積累了大量的用戶對(duì)資源的歷史訪問(wèn)數(shù)據(jù)，這些數(shù)據(jù)背后隱藏著許多重要的信息，如用戶類型與圖書類型存在某種關(guān)聯(lián)，A類圖書與B類圖書存在某種關(guān)聯(lián)等。如果能夠?qū)ζ溥M(jìn)行更高層次的分析，就可以更好地利用這些數(shù)據(jù)為用戶服務(wù)。因此，需要獲取“不同類型的用戶喜歡哪類書籍”的統(tǒng)計(jì)分析，以便向不同類型的用戶推薦相關(guān)圖書；需要了解“有多大比例的用戶借閱了圖書A同時(shí)又借閱了圖書B”，以便向已借閱圖書A的用戶推薦圖書B。所以，我們可以利用關(guān)聯(lián)規(guī)則對(duì)用戶群的流通歷史數(shù)據(jù)進(jìn)行挖掘分析，發(fā)現(xiàn)隱含的規(guī)律，更好地為用戶服務(wù)，更深入地開展圖書館的工作。

3.2 關(guān)聯(lián)規(guī)則應(yīng)用于圖書館推送服務(wù)

在進(jìn)行關(guān)聯(lián)分析前，首先要進(jìn)行數(shù)據(jù)準(zhǔn)備工作，將圖書館借閱數(shù)據(jù)進(jìn)行預(yù)處理，形成關(guān)聯(lián)分析所需的事務(wù)數(shù)據(jù)庫(kù)，然后應(yīng)用關(guān)聯(lián)算法進(jìn)行關(guān)聯(lián)分析，最后挖掘出有效的關(guān)聯(lián)規(guī)則。

（1）數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)預(yù)處理

在圖書館的用戶信息數(shù)據(jù)庫(kù)中存有大量的用戶信息，如果需要找出用戶年齡、職業(yè)、學(xué)歷與其借閱文獻(xiàn)的關(guān)聯(lián)規(guī)則時(shí)，我們需要關(guān)心的是用戶信息中的年齡、職業(yè)、學(xué)歷，其他的如姓名、性別等可以認(rèn)為是一些無(wú)關(guān)的信息，有時(shí)某些字段屬性值可能存在空缺值或者噪聲不一致的現(xiàn)象。因此可以在數(shù)據(jù)挖掘前使用清理、集成、變換、歸約等預(yù)處理方法改善數(shù)據(jù)質(zhì)量，將原始數(shù)據(jù)形式轉(zhuǎn)換成需要的數(shù)據(jù)形式，從而提高數(shù)據(jù)挖掘的效率和質(zhì)量。[4]

（2）基于Apriori算法的圖書借閱關(guān)聯(lián)規(guī)則的挖掘

下面我們將對(duì)圖書館圖書借閱問(wèn)題進(jìn)行討論，通過(guò)分析發(fā)現(xiàn)哪些種類的圖書被用戶同時(shí)借閱，計(jì)算不同種類圖書的支持度和置信度。經(jīng)過(guò)關(guān)聯(lián)分析形成借閱模式，根據(jù)這些借閱模式，主動(dòng)地向用戶推薦相關(guān)的書目，從而提高圖書館的服務(wù)質(zhì)量。

在下面的例子中，我們期望在圖書館流通歷史記錄中找出有多大比例的用戶借閱A類圖書的同時(shí)又借閱了B類圖書。如果我們挖掘出了A類圖書和B類圖書之間的強(qiáng)的關(guān)聯(lián)規(guī)則，就可以向用戶推薦相關(guān)的圖書，提高圖書館的服務(wù)質(zhì)量。我們以5位到館用戶借閱記錄為例來(lái)說(shuō)明關(guān)聯(lián)規(guī)則的應(yīng)用，表1是用戶借閱事務(wù)數(shù)據(jù)表，設(shè)定最小支持度為4O%。[5]

運(yùn)用Apriori算法進(jìn)行數(shù)據(jù)挖掘，首先掃描事務(wù)數(shù)據(jù)，生成候選的頻繁1-項(xiàng)集的集合C1，見表2。

根據(jù)C并結(jié)合我們?cè)O(shè)定的最小支持度40%，從而產(chǎn)生頻繁1-項(xiàng)集的集合L1，見表3。

由頻繁1-項(xiàng)集L1。生成的候選頻繁2一項(xiàng)集的集合C2，見表4。

根掘C2并結(jié)合事先設(shè)定的最小支持度40%，從而產(chǎn)生頻繁2-項(xiàng)集的集合L2，見表5。

由頻繁2-項(xiàng)集L2生成的候選頻繁3-項(xiàng)集的集合C3，見表6。

根據(jù)C3并結(jié)合事先設(shè)定的最小支持度40%，從而產(chǎn)生頻繁3-項(xiàng)集的集合L3，見表7。

在此例中，頻繁3-項(xiàng)集無(wú)法產(chǎn)生候選的頻繁4-項(xiàng)集，由此我們得出下列規(guī)則：(1)借程序設(shè)計(jì)類圖書的用戶同時(shí)借高數(shù)類和英語(yǔ)類圖書的支持度是40%，置信度是50%；(2)借高數(shù)類圖書的用戶同時(shí)借程序設(shè)計(jì)類和英語(yǔ)類圖書的支持度是4O%，置信度是67%；(3)借英語(yǔ)類圖書的用戶同時(shí)借高數(shù)類和程序設(shè)計(jì)類圖書的支持度是4O%，置信度是50%；(4)借程序設(shè)計(jì)類和高數(shù)類圖書的用戶同時(shí)借英語(yǔ)類圖書的支持度是40%，置信度是100%；(5)借程序設(shè)計(jì)類和英語(yǔ)類圖書的用戶同時(shí)借高數(shù)類圖書的支持度是40%，置信度是5O%：(6)借英語(yǔ)類和高數(shù)類圖書的用戶同時(shí)借程序設(shè)計(jì)類圖書的支持度是4O%，置信度是5O%。

關(guān)聯(lián)分析：對(duì)于第一條規(guī)則，我們發(fā)現(xiàn)，如果用戶是以借程序設(shè)計(jì)類圖書為目的，那么他同時(shí)借高數(shù)類和英語(yǔ)類圖書的可能性不是很大，置信度只有50%，第三條規(guī)則同理；對(duì)于第五條規(guī)則，如果用戶是以借閱程序設(shè)計(jì)類和英語(yǔ)類圖書為目的，那么他同時(shí)借閱高數(shù)類圖書的可能性不是很大，置信度只有50%，第六條規(guī)則同理；而對(duì)于第二條規(guī)則，我們發(fā)現(xiàn)，如果用戶是以借高數(shù)類圖書為目的的，那么他同時(shí)借程序設(shè)計(jì)類和英語(yǔ)類圖書的可能性就大大增加，達(dá)到67%；對(duì)于第四條規(guī)則，我們發(fā)現(xiàn)，如果用戶是以借閱程序設(shè)計(jì)類和高數(shù)類圖書為目的，那么他同時(shí)借閱英語(yǔ)類圖書的將大大增加，達(dá)到100%(一般情況是不會(huì)達(dá)到100%的，這是因?yàn)槭聞?wù)數(shù)據(jù)太少只有5條導(dǎo)致的)。因此可以向借高數(shù)類圖書的用戶推薦程序設(shè)計(jì)類和英語(yǔ)類的圖書；特別是借閱程序設(shè)計(jì)類和高數(shù)的用戶，一般對(duì)英語(yǔ)類的圖書都較感興趣，可以向其推薦。[6]

4.進(jìn)行關(guān)聯(lián)規(guī)則挖掘過(guò)程中應(yīng)注意的問(wèn)題

4.1 確定恰當(dāng)?shù)捻?xiàng)集和恰當(dāng)?shù)膶哟?/p>

在進(jìn)行關(guān)聯(lián)挖掘前要選擇合適的用戶群，對(duì)于過(guò)于寬泛的用戶群會(huì)使我們?cè)邶嬰s的數(shù)據(jù)中，很難發(fā)現(xiàn)任何有價(jià)值的信息。在一個(gè)圖書館里，存有幾十萬(wàn)甚至上百萬(wàn)冊(cè)圖書，這些圖書擁有不同的編碼和不同層次的代碼，當(dāng)我們?cè)诜治鲋惺褂玫膶訑?shù)增加的時(shí)候，要考慮到的組合數(shù)會(huì)非常快速的增長(zhǎng)。這就要求使用分層中較高層次的項(xiàng)，比如使用“數(shù)據(jù)庫(kù)類”而不是具體的某本數(shù)據(jù)庫(kù)書。另外，項(xiàng)越具體，結(jié)果的可操作性可能越高。例如，知道什么書與算法設(shè)計(jì)搭配，可以更好地為用戶進(jìn)行書籍的推薦。由于數(shù)據(jù)挖掘的時(shí)間視數(shù)據(jù)的規(guī)模而定，要保證數(shù)據(jù)處理的順利進(jìn)行，必須要確定適當(dāng)?shù)臄?shù)據(jù)規(guī)模，數(shù)據(jù)過(guò)少很難說(shuō)明問(wèn)題的普遍性，而數(shù)據(jù)過(guò)大也會(huì)降低數(shù)據(jù)處理的效率。

4.2 確定合理的挖掘時(shí)間段

由于關(guān)聯(lián)挖掘是從大量的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律，挖掘過(guò)程需要占用大量的系統(tǒng)資源，因此數(shù)據(jù)挖掘通常是在系統(tǒng)空閑的時(shí)候進(jìn)行，或者是將系統(tǒng)的數(shù)據(jù)導(dǎo)出以后再進(jìn)行。[7]

4.3 從所有數(shù)據(jù)中產(chǎn)生最佳規(guī)則

在關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘過(guò)程中必需的最小支持度和最小置信度是人為設(shè)置的，如果設(shè)置不合理，最終得到的規(guī)則將會(huì)很多或者非常的少，為了避免這種情況的出現(xiàn)，我們?cè)谶M(jìn)行數(shù)據(jù)挖掘的過(guò)程中要根據(jù)規(guī)則產(chǎn)生的實(shí)際數(shù)量和預(yù)定的目標(biāo)適時(shí)地調(diào)整最小支持度和最小置信度。

5.結(jié)語(yǔ)

數(shù)字圖書館的流通信息為我們提供了最基礎(chǔ)的原始的數(shù)據(jù)，通過(guò)對(duì)流通數(shù)據(jù)的關(guān)聯(lián)挖掘，不僅能揭示隱藏在大量數(shù)據(jù)后的重要關(guān)系信息，同時(shí)也為這種關(guān)系提供了量化描述手段。這些定性定量的信息不僅能對(duì)圖書館的各項(xiàng)工作提供技術(shù)上的支持，也是圖書館開展以用戶需求為導(dǎo)向的各項(xiàng)服務(wù)工作的基礎(chǔ)。

參考文獻(xiàn)：

[1]石軍.數(shù)據(jù)挖掘在高校圖書館的應(yīng)用[J].江西圖書館學(xué)刊，2005(3):35-36.

[2]Jiawei Han，Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].機(jī)械工業(yè)出版社，2001，162-176.

[3]石巖.智能推送技術(shù)在數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用[J].情報(bào)探索，2006(11):71-72.

[4]王磊，劉東蘇.關(guān)聯(lián)規(guī)則挖掘在圖書館信息服務(wù)中的應(yīng)用[J].情報(bào)雜志，2008(2):154-158.

[5]胡麗蓉.關(guān)聯(lián)規(guī)則挖掘在醫(yī)學(xué)圖書館信息服務(wù)中的應(yīng)用探討[J].晉圖學(xué)刊，2010(4):23-26.

[6]胡根橋.基于關(guān)聯(lián)挖掘技術(shù)的圖書館個(gè)性化信息服務(wù)[J].科技情報(bào)開發(fā)與經(jīng)濟(jì)，2007(21):12-14.

[7]羅鳳莉.圖書流通數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘[J].情報(bào)探索，2006(8):40-41.

作者簡(jiǎn)介：蘇帆（1988—），女，西南大學(xué)2010級(jí)情報(bào)學(xué)碩士研究生，研究方向：網(wǎng)絡(luò)信息組織與服務(wù)。

網(wǎng)友世界2012年8期

網(wǎng)友世界的其它文章: 小學(xué)英語(yǔ)課堂的提問(wèn)技巧; 環(huán)藝專業(yè)課程有效教學(xué)模式的改革; 化學(xué)學(xué)習(xí)興趣的自我培養(yǎng); 多媒體輔助教學(xué)在英語(yǔ)課堂教學(xué)中的合理應(yīng)用; 淺析孤子求解的微擾理論; 高等學(xué)校創(chuàng)建和諧校園策略探討