亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字圖書館個(gè)性化信息推薦系統(tǒng)

        2013-09-23 01:27:42
        圖書館學(xué)刊 2013年4期
        關(guān)鍵詞:項(xiàng)集數(shù)據(jù)挖掘關(guān)聯(lián)

        付 兵

        (湛江師范學(xué)院基礎(chǔ)教育學(xué)院圖書館,廣東 湛江 524037)

        數(shù)字圖書館就是數(shù)字化的信息資源庫[1],其主要功能是為用戶提供信息服務(wù)。隨著Internet技術(shù)及信息技術(shù)的快速發(fā)展,信息資源內(nèi)容豐富、形式多樣,但質(zhì)量卻良莠不齊,信息的“爆炸”式增長使得信息的利用率反而降低,出現(xiàn)“信息超載”現(xiàn)象。如何從浩如煙海的信息海洋中快速找到自己所需的優(yōu)質(zhì)信息資源,是廣大信息用戶面臨的主要難題。隨著Lib2.0技術(shù)的出現(xiàn)和應(yīng)用,個(gè)性化信息推薦服務(wù)逐漸成為數(shù)字圖書館新型服務(wù)模式的主流,其改變了傳統(tǒng)圖書館的被動(dòng)服務(wù)方式,能根據(jù)用戶的興趣愛好主動(dòng)為其推薦信息,從而提高了數(shù)字圖書館信息服務(wù)的質(zhì)量。個(gè)性化推薦系統(tǒng)的主要算法有基于內(nèi)容的推薦、基于協(xié)同過濾的推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于用戶統(tǒng)計(jì)信息的推薦、基于知識(shí)的推薦等[2],個(gè)性化推薦在圖書館的研究應(yīng)用主要是針對(duì)圖書的推薦,因此筆者設(shè)計(jì)了一個(gè)基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)的數(shù)字圖書館個(gè)性化信息推薦系統(tǒng)。

        1 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘

        關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的主要技術(shù)之一[3]。所謂關(guān)聯(lián)規(guī)則,就是尋找描述數(shù)據(jù)庫中數(shù)據(jù)項(xiàng)(屬性、變量)之間存在或潛在的相關(guān)性。利用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù),可以找出大量數(shù)據(jù)之間未知的相互依賴關(guān)系[4]。由于關(guān)聯(lián)規(guī)則形式簡潔、易于解釋和理解并能有效捕捉數(shù)據(jù)間的重要關(guān)系,因此從大型數(shù)據(jù)庫中挖掘關(guān)聯(lián)規(guī)則已成為近年來數(shù)據(jù)挖掘領(lǐng)域的一個(gè)熱點(diǎn)。目前關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應(yīng)用于電子商務(wù)、人工智能、信息檢索、統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫等眾多領(lǐng)域,并取得了一定的研究成果。

        1.1 關(guān)聯(lián)規(guī)則的有關(guān)概念[5]

        設(shè)I={i1,i2,…,im}是事務(wù)數(shù)據(jù)庫D中數(shù)據(jù)項(xiàng)的集合,則I稱為項(xiàng)集。含有k個(gè)數(shù)據(jù)項(xiàng)的項(xiàng)集稱為k-項(xiàng)集。事務(wù)T是項(xiàng)集I中的一些元素組成的集合,即T?I,在關(guān)系數(shù)據(jù)庫中相當(dāng)于記錄。事務(wù)數(shù)據(jù)庫D是所有事務(wù)T的集合。關(guān)聯(lián)規(guī)則是形如 A?B 的蘊(yùn)含式,其中,A?I,B?I,并且 A∩B=?。若規(guī)則A?B在事務(wù)集D中成立,則具有支持度(support)s和置信度(confidence)c,其中s是D中事務(wù)包含A∪B(即A和B二者)的百分比,c是D中包含A的事務(wù)同時(shí)也包含B的百分比。同時(shí)滿足最小支持度閾值(min_sup)和最小置信度閾值(min_conf)的規(guī)則稱作強(qiáng)規(guī)則,這些閾值可以由用戶或者專家設(shè)定。項(xiàng)集的出現(xiàn)頻率是包含項(xiàng)集的事務(wù)數(shù),如果項(xiàng)集的出現(xiàn)頻率大于或等于min_sup與D中事務(wù)總數(shù)的乘積,則稱項(xiàng)集滿足最小支持度min_sup。如果項(xiàng)集滿足最小支持度,則稱它為頻繁項(xiàng)集。頻繁k-項(xiàng)集的集合通常記作Lk。

        關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘可分為兩個(gè)步驟:第一步,找出數(shù)據(jù)庫中支持度大于最小支持閾值的所有頻繁項(xiàng)集;第二步,由這些頻繁項(xiàng)集中產(chǎn)生滿足最小置信度的強(qiáng)關(guān)聯(lián)規(guī)則。從兩個(gè)步驟中尋找所有頻繁項(xiàng)集是關(guān)鍵問題,它決定著關(guān)聯(lián)規(guī)則的整體性能。尋找頻繁項(xiàng)集的算法很多,下面我們介紹由Agrawa和Srikant提出的Apriori算法。

        1.2 Apriori算法

        Apriori算法是一種最有影響的挖掘關(guān)聯(lián)規(guī)則頻繁項(xiàng)集的算法,它的主要思想是利用逐層搜索的迭代方法,來尋找數(shù)據(jù)庫中的頻繁項(xiàng)集。算法描述如下:

        算法 1(Apriori)[5]:使用逐層迭代找出頻繁項(xiàng)集

        輸入:事務(wù)數(shù)據(jù)庫D;最小支持閾值min_sup。

        輸出:D中的頻繁項(xiàng)集L。

        方法:

        ①L1=find_frequent_1_itemsets(D);//找出頻繁 1-項(xiàng)集的集合L1;

        ②for(k=2;Lk-1≠?;k++){;

        ③Ck=apriori-gen(Lk-1,min_sup);//用 Lk-1產(chǎn)生候選 Ck;

        ④for each transition t∈D{//找出事務(wù)中是候選的所有子集,并對(duì)每個(gè)這樣的候選累加計(jì)數(shù);

        ⑤Ct=Subset(Ck,t);

        ⑥for each candidate c∈Ct;

        ⑦c.count++;

        ⑧};

        ⑨Lk={c∈Ck|c.count>=min_sup};

        ⑩};

        ?return L={所有的 Lk}。

        2 個(gè)性化信息推薦系統(tǒng)設(shè)計(jì)

        2.1 設(shè)計(jì)思路

        數(shù)字圖書館個(gè)性化信息推薦系統(tǒng)構(gòu)建的最終目的是能夠在實(shí)際中得以應(yīng)用,因此在設(shè)計(jì)時(shí)應(yīng)當(dāng)遵循易操作性、完整性、可更新性、可擴(kuò)展性以及針對(duì)性的原則[6]。

        首先,對(duì)數(shù)字圖書館中的各種信息資源數(shù)據(jù)庫進(jìn)行分析,統(tǒng)計(jì)出信息資源的使用情況。同時(shí),不同用戶群具有不同的特點(diǎn)和喜好,因此可以通過對(duì)信息資源的聚類分析,找到不同用戶群所需的信息資源,為個(gè)性化信息推薦提供參考。

        其次,對(duì)用戶進(jìn)行聚類分析。在數(shù)字圖書館的用戶中,由于專業(yè)背景、從事行業(yè)、興趣愛好等的不同,所需信息也不盡相同。因此,可以把具有相似專業(yè)背景、工作行業(yè)、興趣愛好等特點(diǎn)的用戶聚在一起,為同一類用戶推薦相似的信息。通過對(duì)用戶的聚類分析,可以了解用戶對(duì)數(shù)字圖書館信息資源的使用程度,為不同的用戶提供針對(duì)性的服務(wù)。

        最后,分析信息資源之間的關(guān)聯(lián)性。例如,大多數(shù)對(duì)資源A感興趣的用戶對(duì)資源B也感興趣,當(dāng)用戶在使用資源A的時(shí)候,可以將資源B推薦給他。也可以根據(jù)用戶的信息資源使用情況,將相關(guān)的資源推薦給用戶。

        2.2 系統(tǒng)結(jié)構(gòu)

        個(gè)性化信息推薦系統(tǒng)主要包含3個(gè)層次,即數(shù)據(jù)存儲(chǔ)層、數(shù)據(jù)挖掘?qū)雍陀脩艚缑鎸?,如圖1。

        圖1 個(gè)性化信息推薦系統(tǒng)結(jié)構(gòu)

        2.2.1 數(shù)據(jù)存儲(chǔ)層

        數(shù)據(jù)庫是數(shù)據(jù)挖掘的基礎(chǔ),數(shù)據(jù)存儲(chǔ)層就是數(shù)字圖書館的各種數(shù)據(jù)庫,包括資源數(shù)據(jù)庫(館藏書目數(shù)據(jù)庫、電子資源數(shù)據(jù)庫)、用戶數(shù)據(jù)庫等。

        2.2.2 數(shù)據(jù)挖掘?qū)?/p>

        數(shù)據(jù)挖掘?qū)邮莻€(gè)性化信息推薦系統(tǒng)的核心,主要是對(duì)數(shù)據(jù)進(jìn)行處理,利用數(shù)據(jù)挖掘技術(shù)對(duì)信息資源和用戶信息進(jìn)行采集和挖掘,對(duì)挖掘結(jié)果歸納分析后,針對(duì)不同用戶推薦其感興趣的信息。該層的主要功能模塊包括數(shù)據(jù)采集模塊、數(shù)據(jù)挖掘模塊以及信息推薦模塊。

        2.2.3 用戶界面層

        用戶界面層主要提供系統(tǒng)和用戶之間交流的平臺(tái)界面,是個(gè)性化信息推薦系統(tǒng)的輸入輸出層。用戶可通過該界面進(jìn)行注冊、登錄,輸入各種個(gè)人信息、個(gè)性化信息要求、評(píng)價(jià)反饋信息等;系統(tǒng)可通過此界面展示數(shù)字圖書館信息資源,向用戶輸出個(gè)性化信息推薦結(jié)果。

        2.3 系統(tǒng)功能模塊

        2.3.1 數(shù)據(jù)采集模塊

        該模塊包含信息資源采集模塊和用戶信息采集模塊。信息資源采集模塊從數(shù)字圖書館信息資源數(shù)據(jù)庫中獲取資源數(shù)據(jù),為用戶提供各種信息資源的詳細(xì)信息(如資源的題名、作者、來源等)。用戶信息采集模塊收集用戶個(gè)人注冊以及興趣愛好等信息,并將用戶的歷史使用行為記錄、評(píng)價(jià)反饋等錄入用戶信息數(shù)據(jù)庫。

        2.3.2 數(shù)據(jù)挖掘模塊

        此模塊對(duì)信息資源和用戶信息進(jìn)行挖掘,找出強(qiáng)關(guān)聯(lián)規(guī)則,建立規(guī)則庫,并對(duì)用戶進(jìn)行聚類分析(可根據(jù)用戶所學(xué)專業(yè)、從事職業(yè)等聚類),找到各類用戶群。由于需要處理的數(shù)據(jù)量很大,非常耗時(shí),所以該模塊主要是采用離線處理的工作模式。離線處理不會(huì)影響推薦結(jié)果,因?yàn)閺?qiáng)關(guān)聯(lián)規(guī)則結(jié)果是通過對(duì)大量的用戶歷史記錄進(jìn)行挖掘的結(jié)果,在一定的時(shí)間段內(nèi)新增的數(shù)據(jù)量相對(duì)較少,對(duì)挖掘結(jié)果的影響是很小的,等達(dá)到了一定的時(shí)間,并積累了一定量的新記錄后,再重新加入數(shù)據(jù)進(jìn)行挖掘計(jì)算,定時(shí)更新,所以關(guān)聯(lián)規(guī)則的離線發(fā)現(xiàn)是科學(xué)合理的。離線數(shù)據(jù)挖掘的工作流程是:首先把挖掘所需的所有存儲(chǔ)在數(shù)據(jù)庫中的用戶歷史使用行為記錄導(dǎo)出;其次把導(dǎo)出的原始數(shù)據(jù)按照挖掘規(guī)則刪除各種噪聲數(shù)據(jù)、空值數(shù)據(jù)以及不需要的數(shù)據(jù),合并同類數(shù)據(jù);最后將清理過的數(shù)據(jù)進(jìn)行聚類和關(guān)聯(lián)規(guī)則挖掘,將挖掘結(jié)果進(jìn)行結(jié)構(gòu)化存儲(chǔ),寫入規(guī)則數(shù)據(jù)庫,以供推薦使用。

        2.3.3 信息推薦模塊

        通過用戶登錄獲取其專業(yè)背景、興趣愛好、歷史使用行為以及正在瀏覽的信息,將這些信息與規(guī)則數(shù)據(jù)庫中的規(guī)則進(jìn)行匹配,最終得到針對(duì)性很強(qiáng)的推薦結(jié)果,并將結(jié)果推薦給用戶。

        3 個(gè)性化信息推薦過程

        3.1 獲取信息

        系統(tǒng)通過顯式和隱式兩種方式獲取用戶信息。對(duì)用戶的基本信息,如性別、年齡、學(xué)歷、專業(yè)、職業(yè)、興趣愛好等,采用顯式方式獲取,在用戶注冊時(shí),要求用戶填寫。用戶的歷史瀏覽、借閱、下載、評(píng)價(jià)反饋等信息,系統(tǒng)隱式地記錄下來。系統(tǒng)將對(duì)獲取的用戶信息進(jìn)行加工處理,提取用戶個(gè)體特征描述詞,動(dòng)態(tài)地更新到用戶信息數(shù)據(jù)庫中。用戶信息的準(zhǔn)確性和完整性將直接影響到信息推薦結(jié)果的質(zhì)量。

        3.2 匹配信息

        用戶登錄系統(tǒng)后,系統(tǒng)將描述用戶的特征詞與規(guī)則數(shù)據(jù)庫中的規(guī)則進(jìn)行匹配,將符合用戶個(gè)性化信息需求的信息資源檢索出來,并按照匹配度降序排列,將“TOP-N”個(gè)資源作為推薦結(jié)果。

        3.3 推薦信息

        系統(tǒng)可以通過網(wǎng)上實(shí)時(shí)推薦、電子郵件或手機(jī)短信等友好的方式,將推薦結(jié)果主動(dòng)推送給用戶。用戶可以對(duì)推薦結(jié)果提出評(píng)價(jià)意見,系統(tǒng)根據(jù)用戶反饋的意見調(diào)整推薦結(jié)果,以更好地滿足用戶的個(gè)性化信息需求。

        4 結(jié)語

        個(gè)性化信息推薦系統(tǒng)涉及數(shù)據(jù)獲取、數(shù)據(jù)處理、算法選擇、參數(shù)優(yōu)化、反饋信息收集、效果測試和改進(jìn)等,不僅僅是一個(gè)或幾個(gè)推薦服務(wù)新的功能開發(fā),還需要長期維護(hù)和改進(jìn),需要專業(yè)的團(tuán)隊(duì)和持續(xù)的投入才能完成[7]。筆者采用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù),對(duì)數(shù)字圖書館的信息資源和用戶數(shù)據(jù)進(jìn)行挖掘,并以此設(shè)計(jì)了個(gè)性化信息推薦系統(tǒng)。圖書館利用此系統(tǒng),可以有效獲取用戶的個(gè)性化信息需求,變被動(dòng)服務(wù)為主動(dòng)推送服務(wù),最大限度地提高信息資源的利用率。另外,數(shù)據(jù)挖掘結(jié)果還可為圖書館建立科學(xué)、合理的館藏資源結(jié)構(gòu)提供重要的參考依據(jù)。

        [1] 徐文伯.關(guān)于數(shù)字圖書館的幾點(diǎn)認(rèn)識(shí)[J].情報(bào)資料工作,2001(3):16-17.

        [2]劉飛飛.基于多目標(biāo)優(yōu)化雙聚類的數(shù)字圖書館協(xié)同過濾推薦系統(tǒng)[J].圖書情報(bào)工作,2011(7):111-113.

        [3]Mehmed Kantardzic;閃四清,等譯.數(shù)據(jù)挖掘:概念、模型、方法和算法[M].北京:清華大學(xué)出版社,2003.

        [4] 蔡會(huì)霞,朱潔,蔡瑞英.關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘在高校圖書館系統(tǒng)中的應(yīng)用[J].南京工業(yè)大學(xué)學(xué)報(bào),2005(1):85-88.

        [5]JiaweiHan,Micheline Kamber;范明,等譯.數(shù)據(jù)挖掘——概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001.

        [6] 楊靜.電子商務(wù)中個(gè)性化推薦模型的研究[D].天津:天津師范大學(xué),2006.

        [7] gary.推薦系統(tǒng)五大問題[EB/OL].[2012-10-26].http://www.resyschina.com/2010/03/five_problems_of_resys.html.

        猜你喜歡
        項(xiàng)集數(shù)據(jù)挖掘關(guān)聯(lián)
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        “一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
        奇趣搭配
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        關(guān)聯(lián)規(guī)則中經(jīng)典的Apriori算法研究
        卷宗(2014年5期)2014-07-15 07:47:08
        一種頻繁核心項(xiàng)集的快速挖掘算法
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        語言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
        91精品国产91久久久无码色戒| 草草浮力影院| 亚洲色无码播放| 亚洲男人堂色偷偷一区 | 国产黄片一区二区三区| 熟女体下毛荫荫黑森林| 无码人妻精品中文字幕免费| 亚洲一区日本一区二区| 永久免费视频网站在线| 亚洲妇女无套内射精| 激情五月婷婷综合| 日韩精品中文字幕免费人妻| 免费人成视网站在线剧情| 国产精品无码久久久久成人影院| 四虎影视亚洲精品| 都市激情亚洲综合一区| 久久天堂一区二区三区av| 欧美男生射精高潮视频网站| 女同一区二区三区在线观看 | 亚洲视频在线视频在线视频| 日韩在线观看入口一二三四| 夜先锋av资源网站| 亚洲 欧美 激情 小说 另类| 日本在线综合一区二区| 波多野结衣中文字幕一区二区三区| 性色av 一区二区三区| 最新国产美女一区二区三区| 一本一道AⅤ无码中文字幕| 三级网站亚洲三级一区| 国产精品毛片无遮挡| 无遮挡又爽又刺激的视频| 亚洲国产精品线观看不卡| 国产精品女同一区二区免| 疯狂做受xxxx高潮视频免费| 欧美午夜一区二区福利视频| 久久久婷婷综合亚洲av| 一本色道久久亚洲综合| 久久人人玩人妻潮喷内射人人 | 天干天干啦夜天干天2017| 天天澡天天揉揉AV无码人妻斩 | 国产中文字幕免费视频一区|