亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)挖掘技術(shù)在圖書館推送服務(wù)中的應(yīng)用研究

        2012-04-29 00:00:00蘇帆
        網(wǎng)友世界 2012年8期

        【摘 要】關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的主要的技術(shù)之一,本文闡述了圖書館個(gè)性化信息推送服務(wù)以及關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù),介紹了基于Apriori關(guān)聯(lián)算法在圖書館讀者借閱歷史數(shù)據(jù)分析中的應(yīng)用,論述了關(guān)聯(lián)挖掘分析結(jié)果對(duì)圖書館推送服務(wù)的積極作用。指出了在使用關(guān)聯(lián)規(guī)則中可能會(huì)存在的若干問(wèn)題,并對(duì)相關(guān)問(wèn)題提出了一些解決方法。

        【關(guān)鍵詞】數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;圖書館;推送服務(wù)

        1.引言

        隨著信息技術(shù)的飛速發(fā)展,大部分圖書館由傳統(tǒng)意義上的圖書館轉(zhuǎn)變?yōu)楝F(xiàn)代化的數(shù)字圖書館。在圖書館自動(dòng)化程度不斷提高的同時(shí),也帶來(lái)了圖書館數(shù)據(jù)量的成倍增長(zhǎng),這些數(shù)據(jù)除了用于記錄讀者的賬戶信息外,一般只用來(lái)做一些常規(guī)的業(yè)務(wù)數(shù)據(jù)統(tǒng)計(jì),其潛在的使用價(jià)值還遠(yuǎn)沒(méi)能得到充分的挖掘和利用。[1]由于目前大多數(shù)圖書館缺乏數(shù)據(jù)的集成和分析,更缺乏對(duì)統(tǒng)計(jì)數(shù)據(jù)中隱含的關(guān)聯(lián)進(jìn)行歸納與揭示,使圖書館對(duì)讀者信息需求的捕獲停留在比較淺顯的層面,更談不上輔助決策和知識(shí)的自動(dòng)獲取。數(shù)據(jù)關(guān)聯(lián)挖掘技術(shù)正好為我們提供了解決上述問(wèn)題的有效方法,它通過(guò)對(duì)海量數(shù)據(jù)的分析,從中挖掘出有價(jià)值的知識(shí)和規(guī)則,挖掘和發(fā)現(xiàn)讀者借閱行為中隱含的規(guī)律,為圖書館管理、信息服務(wù)、信息資源采集提供了科學(xué)決策的有效方法。

        2.關(guān)聯(lián)挖掘技術(shù)

        2.1 數(shù)據(jù)挖掘

        數(shù)據(jù)挖掘是近年來(lái)隨著人工智能和數(shù)據(jù)庫(kù)技術(shù)的發(fā)展而出現(xiàn)的一門新興技術(shù)。數(shù)據(jù)挖掘又稱為數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KDD:Knowledge Discovery in Database),是指從大量的、不完全的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含的、未知的和潛在有用的信息的非平凡的過(guò)程。簡(jiǎn)單地說(shuō),數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中提取或“挖掘”出有用的知識(shí)。

        數(shù)據(jù)挖掘?qū)嵸|(zhì)上不能算是一門新技術(shù),它只是集合了人工智能、數(shù)據(jù)庫(kù)、機(jī)器學(xué)習(xí)等多個(gè)領(lǐng)域的理論和技術(shù)。數(shù)據(jù)挖掘的方法按其功能可劃分為:關(guān)聯(lián)分析、分類和預(yù)測(cè)、聚類分析、孤立點(diǎn)分析、演變分析等。其中最廣泛的應(yīng)用方法之一就是關(guān)聯(lián)規(guī)則挖掘算法。

        2.2 關(guān)聯(lián)規(guī)則

        關(guān)聯(lián)規(guī)則反映一個(gè)事物與其他事物之間的相互依存性和關(guān)聯(lián)性,可用于表示數(shù)據(jù)庫(kù)中諸多屬性(項(xiàng)集)之間的關(guān)聯(lián)程度。如果兩個(gè)或者多個(gè)事物之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個(gè)事物就能夠通過(guò)其他事物預(yù)測(cè)到。

        關(guān)聯(lián)規(guī)則挖掘,在1993年的SIGMOD會(huì)議上被首次提出,在事務(wù)、關(guān)系數(shù)據(jù)庫(kù)中的項(xiàng)集和對(duì)象中發(fā)現(xiàn)頻繁模式、關(guān)聯(lián)規(guī)則、相關(guān)性或者因果結(jié)構(gòu),其目的是為了發(fā)現(xiàn)數(shù)據(jù)中的規(guī)律。隨著對(duì)大量數(shù)據(jù)的不停收集與存儲(chǔ),數(shù)據(jù)庫(kù)中挖掘關(guān)聯(lián)規(guī)則顯得越來(lái)越重要。[2]

        2.3 關(guān)聯(lián)規(guī)則挖掘求解問(wèn)題的步驟

        從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)強(qiáng)關(guān)聯(lián)規(guī)則的步驟為:①預(yù)處理與挖掘任務(wù)有關(guān)的數(shù)據(jù),根據(jù)具體問(wèn)題的要求對(duì)數(shù)據(jù)庫(kù)進(jìn)行相應(yīng)的處理,從而生成規(guī)格化的數(shù)據(jù)庫(kù);②從數(shù)據(jù)庫(kù)中找到所有支持度大于最小支持度的項(xiàng)集,這些項(xiàng)集稱為頻繁項(xiàng)集;③使用第2步找到的頻繁項(xiàng)集產(chǎn)生期望的規(guī)則,這些規(guī)則必須滿足最小置信度,形成輸出規(guī)則。

        2.4 關(guān)聯(lián)規(guī)則Apriori算法

        Apriori算法是最著名的關(guān)聯(lián)規(guī)則算法,Apriori算法命名源于算法使用了頻繁項(xiàng)集性質(zhì)的先驗(yàn)(Prior)知識(shí),它將發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的過(guò)程分為兩個(gè)步驟:①通過(guò)迭代,檢索出事務(wù)數(shù)據(jù)庫(kù)中的所有頻繁項(xiàng)集,即支持度不低于用戶設(shè)定的閾值的項(xiàng)集。挖掘或識(shí)別出所有頻繁項(xiàng)集是該算法的核心,占整個(gè)計(jì)算量的大部分。②利用頻繁項(xiàng)集構(gòu)造出滿足用戶最小信任度的規(guī)則。

        3.關(guān)聯(lián)規(guī)則在圖書館推送服務(wù)中的應(yīng)用

        3.1 圖書館個(gè)性化信息推送服務(wù)

        數(shù)字圖書館個(gè)性化信息推送服務(wù)是一種能滿足用戶的特定信息需求的服務(wù),即根據(jù)用戶提出的明確或模糊的要求,或通過(guò)對(duì)用戶借閱歷史信息的分析,在研究用戶行為、興趣、愛(ài)好、專業(yè)和習(xí)慣的基礎(chǔ)上,根據(jù)用戶的個(gè)性化需求而主動(dòng)向用戶提供其可能需要的信息的服務(wù)。它包括兩層含義:首先是針對(duì)不同的用戶需求提供不同的服務(wù);其次是發(fā)現(xiàn)用戶的潛在需求,進(jìn)行主動(dòng)的信息服務(wù)。[3]

        個(gè)性化信息推送服務(wù)是數(shù)字圖書館服務(wù)發(fā)展的根本要求,這種服務(wù)方式在數(shù)字圖書館中的實(shí)現(xiàn)不僅能夠滿足用戶的個(gè)性化信息需求,而且可以大大提高圖書館的資源利用率,便于圖書館服務(wù)的大眾化及服務(wù)效率和質(zhì)量的提高。

        推送服務(wù)的有效開展必須基于對(duì)數(shù)字圖書館中用戶歷史事務(wù)數(shù)據(jù)庫(kù)中信息的挖掘來(lái)實(shí)現(xiàn)。隨著數(shù)據(jù)庫(kù)技術(shù)的迅速發(fā)展以及數(shù)據(jù)庫(kù)管理系統(tǒng)在圖書館的廣泛應(yīng)用,在圖書館積累了大量的用戶對(duì)資源的歷史訪問(wèn)數(shù)據(jù),這些數(shù)據(jù)背后隱藏著許多重要的信息,如用戶類型與圖書類型存在某種關(guān)聯(lián),A類圖書與B類圖書存在某種關(guān)聯(lián)等。如果能夠?qū)ζ溥M(jìn)行更高層次的分析,就可以更好地利用這些數(shù)據(jù)為用戶服務(wù)。因此,需要獲取“不同類型的用戶喜歡哪類書籍”的統(tǒng)計(jì)分析,以便向不同類型的用戶推薦相關(guān)圖書;需要了解“有多大比例的用戶借閱了圖書A同時(shí)又借閱了圖書B”,以便向已借閱圖書A的用戶推薦圖書B。所以,我們可以利用關(guān)聯(lián)規(guī)則對(duì)用戶群的流通歷史數(shù)據(jù)進(jìn)行挖掘分析,發(fā)現(xiàn)隱含的規(guī)律,更好地為用戶服務(wù),更深入地開展圖書館的工作。

        3.2 關(guān)聯(lián)規(guī)則應(yīng)用于圖書館推送服務(wù)

        在進(jìn)行關(guān)聯(lián)分析前,首先要進(jìn)行數(shù)據(jù)準(zhǔn)備工作,將圖書館借閱數(shù)據(jù)進(jìn)行預(yù)處理,形成關(guān)聯(lián)分析所需的事務(wù)數(shù)據(jù)庫(kù),然后應(yīng)用關(guān)聯(lián)算法進(jìn)行關(guān)聯(lián)分析,最后挖掘出有效的關(guān)聯(lián)規(guī)則。

        (1)數(shù)據(jù)準(zhǔn)備與數(shù)據(jù)預(yù)處理

        在圖書館的用戶信息數(shù)據(jù)庫(kù)中存有大量的用戶信息,如果需要找出用戶年齡、職業(yè)、學(xué)歷與其借閱文獻(xiàn)的關(guān)聯(lián)規(guī)則時(shí),我們需要關(guān)心的是用戶信息中的年齡、職業(yè)、學(xué)歷,其他的如姓名、性別等可以認(rèn)為是一些無(wú)關(guān)的信息,有時(shí)某些字段屬性值可能存在空缺值或者噪聲不一致的現(xiàn)象。因此可以在數(shù)據(jù)挖掘前使用清理、集成、變換、歸約等預(yù)處理方法改善數(shù)據(jù)質(zhì)量,將原始數(shù)據(jù)形式轉(zhuǎn)換成需要的數(shù)據(jù)形式,從而提高數(shù)據(jù)挖掘的效率和質(zhì)量。[4]

        (2)基于Apriori算法的圖書借閱關(guān)聯(lián)規(guī)則的挖掘

        下面我們將對(duì)圖書館圖書借閱問(wèn)題進(jìn)行討論,通過(guò)分析發(fā)現(xiàn)哪些種類的圖書被用戶同時(shí)借閱,計(jì)算不同種類圖書的支持度和置信度。經(jīng)過(guò)關(guān)聯(lián)分析形成借閱模式,根據(jù)這些借閱模式,主動(dòng)地向用戶推薦相關(guān)的書目,從而提高圖書館的服務(wù)質(zhì)量。

        在下面的例子中,我們期望在圖書館流通歷史記錄中找出有多大比例的用戶借閱A類圖書的同時(shí)又借閱了B類圖書。如果我們挖掘出了A類圖書和B類圖書之間的強(qiáng)的關(guān)聯(lián)規(guī)則,就可以向用戶推薦相關(guān)的圖書,提高圖書館的服務(wù)質(zhì)量。我們以5位到館用戶借閱記錄為例來(lái)說(shuō)明關(guān)聯(lián)規(guī)則的應(yīng)用,表1是用戶借閱事務(wù)數(shù)據(jù)表,設(shè)定最小支持度為4O%。[5]

        運(yùn)用Apriori算法進(jìn)行數(shù)據(jù)挖掘,首先掃描事務(wù)數(shù)據(jù),生成候選的頻繁1-項(xiàng)集的集合C1,見表2。

        根據(jù)C并結(jié)合我們?cè)O(shè)定的最小支持度40%,從而產(chǎn)生頻繁1-項(xiàng)集的集合L1,見表3。

        由頻繁1-項(xiàng)集L1。生成的候選頻繁2一項(xiàng)集的集合C2,見表4。

        根掘C2并結(jié)合事先設(shè)定的最小支持度40%,從而產(chǎn)生頻繁2-項(xiàng)集的集合L2,見表5。

        由頻繁2-項(xiàng)集L2生成的候選頻繁3-項(xiàng)集的集合C3,見表6。

        根據(jù)C3并結(jié)合事先設(shè)定的最小支持度40%,從而產(chǎn)生頻繁3-項(xiàng)集的集合L3,見表7。

        在此例中,頻繁3-項(xiàng)集無(wú)法產(chǎn)生候選的頻繁4-項(xiàng)集,由此我們得出下列規(guī)則:(1)借程序設(shè)計(jì)類圖書的用戶同時(shí)借高數(shù)類和英語(yǔ)類圖書的支持度是40%,置信度是50%;(2)借高數(shù)類圖書的用戶同時(shí)借程序設(shè)計(jì)類和英語(yǔ)類圖書的支持度是4O%,置信度是67%;(3)借英語(yǔ)類圖書的用戶同時(shí)借高數(shù)類和程序設(shè)計(jì)類圖書的支持度是4O%,置信度是50%;(4)借程序設(shè)計(jì)類和高數(shù)類圖書的用戶同時(shí)借英語(yǔ)類圖書的支持度是40%,置信度是100%;(5)借程序設(shè)計(jì)類和英語(yǔ)類圖書的用戶同時(shí)借高數(shù)類圖書的支持度是40%,置信度是5O%:(6)借英語(yǔ)類和高數(shù)類圖書的用戶同時(shí)借程序設(shè)計(jì)類圖書的支持度是4O%,置信度是5O%。

        關(guān)聯(lián)分析:對(duì)于第一條規(guī)則,我們發(fā)現(xiàn),如果用戶是以借程序設(shè)計(jì)類圖書為目的,那么他同時(shí)借高數(shù)類和英語(yǔ)類圖書的可能性不是很大,置信度只有50%,第三條規(guī)則同理;對(duì)于第五條規(guī)則,如果用戶是以借閱程序設(shè)計(jì)類和英語(yǔ)類圖書為目的,那么他同時(shí)借閱高數(shù)類圖書的可能性不是很大,置信度只有50%,第六條規(guī)則同理;而對(duì)于第二條規(guī)則,我們發(fā)現(xiàn),如果用戶是以借高數(shù)類圖書為目的的,那么他同時(shí)借程序設(shè)計(jì)類和英語(yǔ)類圖書的可能性就大大增加,達(dá)到67%;對(duì)于第四條規(guī)則,我們發(fā)現(xiàn),如果用戶是以借閱程序設(shè)計(jì)類和高數(shù)類圖書為目的,那么他同時(shí)借閱英語(yǔ)類圖書的將大大增加,達(dá)到100%(一般情況是不會(huì)達(dá)到100%的,這是因?yàn)槭聞?wù)數(shù)據(jù)太少只有5條導(dǎo)致的)。因此可以向借高數(shù)類圖書的用戶推薦程序設(shè)計(jì)類和英語(yǔ)類的圖書;特別是借閱程序設(shè)計(jì)類和高數(shù)的用戶,一般對(duì)英語(yǔ)類的圖書都較感興趣,可以向其推薦。[6]

        4.進(jìn)行關(guān)聯(lián)規(guī)則挖掘過(guò)程中應(yīng)注意的問(wèn)題

        4.1 確定恰當(dāng)?shù)捻?xiàng)集和恰當(dāng)?shù)膶哟?/p>

        在進(jìn)行關(guān)聯(lián)挖掘前要選擇合適的用戶群,對(duì)于過(guò)于寬泛的用戶群會(huì)使我們?cè)邶嬰s的數(shù)據(jù)中,很難發(fā)現(xiàn)任何有價(jià)值的信息。在一個(gè)圖書館里,存有幾十萬(wàn)甚至上百萬(wàn)冊(cè)圖書,這些圖書擁有不同的編碼和不同層次的代碼,當(dāng)我們?cè)诜治鲋惺褂玫膶訑?shù)增加的時(shí)候,要考慮到的組合數(shù)會(huì)非常快速的增長(zhǎng)。這就要求使用分層中較高層次的項(xiàng),比如使用“數(shù)據(jù)庫(kù)類”而不是具體的某本數(shù)據(jù)庫(kù)書。另外,項(xiàng)越具體,結(jié)果的可操作性可能越高。例如,知道什么書與算法設(shè)計(jì)搭配,可以更好地為用戶進(jìn)行書籍的推薦。由于數(shù)據(jù)挖掘的時(shí)間視數(shù)據(jù)的規(guī)模而定,要保證數(shù)據(jù)處理的順利進(jìn)行,必須要確定適當(dāng)?shù)臄?shù)據(jù)規(guī)模,數(shù)據(jù)過(guò)少很難說(shuō)明問(wèn)題的普遍性,而數(shù)據(jù)過(guò)大也會(huì)降低數(shù)據(jù)處理的效率。

        4.2 確定合理的挖掘時(shí)間段

        由于關(guān)聯(lián)挖掘是從大量的數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,挖掘過(guò)程需要占用大量的系統(tǒng)資源,因此數(shù)據(jù)挖掘通常是在系統(tǒng)空閑的時(shí)候進(jìn)行,或者是將系統(tǒng)的數(shù)據(jù)導(dǎo)出以后再進(jìn)行。[7]

        4.3 從所有數(shù)據(jù)中產(chǎn)生最佳規(guī)則

        在關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘過(guò)程中必需的最小支持度和最小置信度是人為設(shè)置的,如果設(shè)置不合理,最終得到的規(guī)則將會(huì)很多或者非常的少,為了避免這種情況的出現(xiàn),我們?cè)谶M(jìn)行數(shù)據(jù)挖掘的過(guò)程中要根據(jù)規(guī)則產(chǎn)生的實(shí)際數(shù)量和預(yù)定的目標(biāo)適時(shí)地調(diào)整最小支持度和最小置信度。

        5.結(jié)語(yǔ)

        數(shù)字圖書館的流通信息為我們提供了最基礎(chǔ)的原始的數(shù)據(jù),通過(guò)對(duì)流通數(shù)據(jù)的關(guān)聯(lián)挖掘,不僅能揭示隱藏在大量數(shù)據(jù)后的重要關(guān)系信息,同時(shí)也為這種關(guān)系提供了量化描述手段。這些定性定量的信息不僅能對(duì)圖書館的各項(xiàng)工作提供技術(shù)上的支持,也是圖書館開展以用戶需求為導(dǎo)向的各項(xiàng)服務(wù)工作的基礎(chǔ)。

        參考文獻(xiàn):

        [1]石軍.數(shù)據(jù)挖掘在高校圖書館的應(yīng)用[J].江西圖書館學(xué)刊,2005(3):35-36.

        [2]Jiawei Han,Micheline Kamber.數(shù)據(jù)挖掘:概念與技術(shù)[M].機(jī)械工業(yè)出版社,2001,162-176.

        [3]石巖.智能推送技術(shù)在數(shù)字圖書館個(gè)性化服務(wù)中的應(yīng)用[J].情報(bào)探索,2006(11):71-72.

        [4]王磊,劉東蘇.關(guān)聯(lián)規(guī)則挖掘在圖書館信息服務(wù)中的應(yīng)用[J].情報(bào)雜志,2008(2):154-158.

        [5]胡麗蓉.關(guān)聯(lián)規(guī)則挖掘在醫(yī)學(xué)圖書館信息服務(wù)中的應(yīng)用探討[J].晉圖學(xué)刊,2010(4):23-26.

        [6]胡根橋.基于關(guān)聯(lián)挖掘技術(shù)的圖書館個(gè)性化信息服務(wù)[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2007(21):12-14.

        [7]羅鳳莉.圖書流通數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘[J].情報(bào)探索,2006(8):40-41.

        作者簡(jiǎn)介:蘇帆(1988—),女,西南大學(xué)2010級(jí)情報(bào)學(xué)碩士研究生,研究方向:網(wǎng)絡(luò)信息組織與服務(wù)。

        国产精品国产三级国产专播| 日本av一区二区播放| 亚洲视频综合在线第一页| 亚洲av手机在线播放| 国产亚洲aⅴ在线电影| 色哟哟精品视频在线观看| 中文字幕熟妇人妻在线视频| 在线毛片一区二区不卡视频| 91国语对白在线观看| 偷拍一区二区三区高清视频| 精品视频一区二区三区在线观看 | 国语自产啪在线观看对白| 亚洲国产精品国自产拍性色 | 青青草视频在线观看绿色| 免费a级毛片18禁网站免费| 日日婷婷夜日日天干| 亚洲AV伊人久久综合密臀性色| 中文字幕一二区中文字幕| 尤物精品国产亚洲亚洲av麻豆| 欧美成人午夜免费影院手机在线看 | 999久久久精品国产消防器材| 日本女优一区二区在线免费观看 | 亚洲精品一区二区三区在线观| 亚洲a无码综合a国产av中文| 免费a级毛片无码| 国产女高清在线看免费观看| 手机av在线观看视频| 亚洲人成网站色在线入口口| 国产精品刮毛| 人人妻人人澡人人爽人人精品电影| 黄色网页在线观看一区二区三区| 中文字幕综合一区二区三区| 日本一区二区在线播放| 竹菊影视欧美日韩一区二区三区四区五区 | 国产熟女自拍av网站| 国产a∨天天免费观看美女| 亚洲色欲久久久综合网| 日韩欧美在线观看成人| 国产又湿又爽又猛的视频| 久久精品国产亚洲夜色av网站| 台湾无码av一区二区三区|