亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于圖書館借閱行為數(shù)據(jù)的關(guān)聯(lián)分析

        2015-05-30 18:42:05張憲錄
        2015年48期
        關(guān)鍵詞:Apriori算法關(guān)聯(lián)規(guī)則

        張憲錄

        摘 要:本文主要介紹了關(guān)聯(lián)規(guī)則的基本概念和使用方法,并且對高校圖書館的借閱數(shù)據(jù)進(jìn)行挖掘,獲得了圖書館之間的一些關(guān)聯(lián)規(guī)則以及學(xué)生借閱時(shí)的偏好,這些結(jié)果對于圖書館提高服務(wù)質(zhì)量提供了有力保障。

        關(guān)鍵詞:關(guān)聯(lián)規(guī)則;借閱行為數(shù)據(jù);Apriori算法

        目前,高校圖書館存儲(chǔ)了大量的讀者借閱圖書的信息,怎么分析借閱數(shù)據(jù)并將分析結(jié)果用于提升圖書館服務(wù)工作,這已經(jīng)成為圖書館工作人員不斷探索的問題。隨著數(shù)據(jù)挖掘技術(shù)應(yīng)用的不斷的拓展,圖書館可以利用數(shù)據(jù)挖掘技術(shù)挖掘出借閱數(shù)據(jù)背后的規(guī)律,本文主要介紹了關(guān)聯(lián)規(guī)則,主要使用Apriori算法分析高校圖書館借閱數(shù)據(jù)的關(guān)聯(lián)規(guī)則。

        一、關(guān)聯(lián)規(guī)則

        (一)關(guān)聯(lián)規(guī)則定義。在數(shù)據(jù)挖掘中,關(guān)聯(lián)分析主要使用的技術(shù)為關(guān)聯(lián)規(guī)則(Association Rule),其最早由Agrawal、Imielinski以及Swami提出,用來研究超市顧客所購買的商品之間的規(guī)律,目的是希望發(fā)現(xiàn)顧客經(jīng)常同時(shí)購買哪些商品,進(jìn)而合理布局貨架,方便顧客選取。

        關(guān)聯(lián)規(guī)則研究的主要對象就是事務(wù)數(shù)據(jù)庫,事務(wù)數(shù)據(jù)庫可以看做是I={i1,i2,L,im},是m個(gè)項(xiàng)集集合,其中ik{k=1,2,Lm}為數(shù)據(jù)項(xiàng)。事務(wù)T為I的一個(gè)子集。每個(gè)事務(wù)T都有一個(gè)唯一的TID作為其標(biāo)識符,事務(wù)T的全體構(gòu)成了事務(wù)數(shù)據(jù)庫[31]。

        設(shè)施XI數(shù)據(jù)項(xiàng)集,數(shù)據(jù)項(xiàng)集X的支持度(Support)定義為:

        SX=|T(X)||T|

        設(shè)X,YI為數(shù)據(jù)集,為了了解X的事務(wù)中包含Y事務(wù)的概率,從而引進(jìn)了置信度(Confidence)概念,其表達(dá)式為:

        CX→Y=|T(X∩Y)||T(X)|

        雖然現(xiàn)有大量的關(guān)聯(lián)規(guī)則算法以及其改進(jìn)算法,但是各種關(guān)聯(lián)規(guī)則的挖掘算法有相似的尋找規(guī)則的過程。關(guān)聯(lián)規(guī)則的生成基本可以分解為兩部分:第一部分是根據(jù)支持度找到頻繁集的過程;第二部分在第一步的基礎(chǔ)上,由置信度篩選出關(guān)聯(lián)規(guī)則的過程。

        (二)Apriori算法。第一階段:是一種通過逐層迭代的方法尋找候選集C,然后根據(jù)支持度尋找出頻繁集L-項(xiàng)的集合。其初始候選集C1然后找出頻繁集L1,不斷的循環(huán)直到尋找出所有的頻繁集。

        第二階段:是在所找到的頻繁集的基礎(chǔ)上,根據(jù)置信度的計(jì)算方法,遍歷尋找滿足大于等于最小置信度的關(guān)聯(lián)規(guī)則。

        二、借閱行為的Apriori算法分析過程及結(jié)果

        (一)數(shù)據(jù)預(yù)處理。實(shí)驗(yàn)數(shù)據(jù)選取的是從2011年9月到2015年1月24號期間入學(xué)的讀者的借閱數(shù)據(jù)。數(shù)據(jù)字段包括學(xué)生學(xué)號、院系、借閱圖書編號、借閱日期、借閱時(shí)間,以及相應(yīng)字段對應(yīng)的數(shù)字編碼。

        由于關(guān)聯(lián)所需數(shù)據(jù)選取的為所有借閱圖書讀者的信息,并且關(guān)聯(lián)所需字段為學(xué)生學(xué)號、圖書編號,因此將這三個(gè)字段從文本中提取出來,并進(jìn)行舍棄缺失值處理,獲取完整的數(shù)據(jù)。然后對數(shù)據(jù)進(jìn)行事務(wù)化處理,即每行代表一個(gè)讀者,每列代表借閱圖書的類別。

        (二)Apriori算法分析結(jié)果。本文通過利用SPSS Modeler軟件實(shí)現(xiàn)Apriori算法,其中最小支持度設(shè)置為0.1,最小置信度設(shè)置為0.5,通過運(yùn)行總共得出120條關(guān)聯(lián)規(guī)則。

        表3-4 關(guān)聯(lián)規(guī)則結(jié)果表

        ConsequentAntecedentSupport %Confidence %

        常用外國語財(cái)政、金融19.57254.194

        常用外國語財(cái)政、金融and經(jīng)濟(jì)計(jì)劃與管理10.97961.415

        中國人物傳記各國人物傳記11.97750.712

        ……

        心理學(xué)中國人物傳記and中國文學(xué)10.08951.126

        挖掘出的關(guān)聯(lián)規(guī)則結(jié)果來分,可分為四大類:

        (1)關(guān)聯(lián)規(guī)則結(jié)果為語言類。通過對關(guān)聯(lián)規(guī)則結(jié)果為語言類書籍的規(guī)則觀察,從關(guān)聯(lián)規(guī)則數(shù)量上可以看出涉及常用外國語的規(guī)則有39條,支持度在0.1到0.43之間,置信度在0.5到0.67之間。從數(shù)據(jù)背后反應(yīng)的問題看,發(fā)現(xiàn)讀者在借閱心理學(xué)、倫理學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、貿(mào)易經(jīng)濟(jì)、財(cái)政、金融、經(jīng)濟(jì)計(jì)劃與管理、各國人物傳記、各國文學(xué)、世界文學(xué)、中國史、中國人物傳記、繪畫、管理學(xué)、計(jì)算技術(shù)、計(jì)算機(jī)技術(shù)等書籍或者這些書籍的某些組合時(shí),都會(huì)以超過0.5的概率借閱常用外國語圖書。出現(xiàn)這種結(jié)果應(yīng)該在意料之中,由于英語作為大學(xué)生必修的基礎(chǔ)課程,在大學(xué)一、二年級學(xué)習(xí)中以及大四學(xué)生考研過程中都是很重要的一部分。因此不管什么專業(yè)的同學(xué)為了學(xué)好這門功課,都會(huì)在借閱本專業(yè)課程書籍或在借閱自己喜歡的書籍時(shí),很大一部分學(xué)生會(huì)借閱英語類書籍。

        (2)關(guān)聯(lián)規(guī)則結(jié)果為文學(xué)類。通過對關(guān)聯(lián)規(guī)則結(jié)果為文學(xué)類書籍的規(guī)則觀察,從數(shù)量上可以看出結(jié)果涉及文學(xué)類的規(guī)則的占62條,其中各國文學(xué)占18條,世界文學(xué)占7條,中國人物傳記占4條,中國文學(xué)占33條,支持度在0.1到0.43范圍,置信度在0.5到0.97范圍之間。從數(shù)據(jù)背后所反映的問題來看發(fā)現(xiàn)讀者在借閱世界文學(xué)、中國文學(xué)倫理學(xué)、心理學(xué)、常用外國語、計(jì)劃與管理、繪畫、各國人物傳記、中國史等書籍后都會(huì)以0.5以上的概率借閱各國文學(xué)。借閱各國文學(xué)、中國文學(xué)、中國傳記、各國文學(xué)、常用外國語的都會(huì)以0.5以上的概率借閱世界文學(xué)。借閱中國史、中國文學(xué)、各國人物傳記的都會(huì)以0.5以上的概率借閱中國人物傳記。借閱社會(huì)學(xué)、倫理學(xué)、心理學(xué)、管理學(xué)、財(cái)政、金融、貿(mào)易經(jīng)濟(jì)、經(jīng)濟(jì)學(xué)、世界文學(xué)、中國人物傳記、各國文學(xué)、中國史的都會(huì)以0.69以上的概率借閱中國文學(xué)書籍。由此也能看出中國文學(xué)書籍在大學(xué)生的受歡迎程度是最高的。這也反映了大學(xué)生在課余時(shí)間的一部分時(shí)間是花費(fèi)在閱讀文學(xué)類書籍上。

        (3)關(guān)聯(lián)規(guī)則結(jié)果為經(jīng)濟(jì)類。通過對關(guān)聯(lián)規(guī)則結(jié)果為經(jīng)濟(jì)類書籍的規(guī)則觀察,從數(shù)量上可以看出結(jié)果涉及文學(xué)類的規(guī)則的占12條,支持度在0.1到0.20范圍,置信度在0.5到0.63范圍之間。從數(shù)據(jù)背后所反映的問題來看發(fā)現(xiàn)讀者在借閱貿(mào)易經(jīng)濟(jì)、財(cái)政、金融、中國文學(xué)、心理學(xué)、常用外國語、倫理學(xué)、經(jīng)濟(jì)學(xué)等書籍或這些書籍的某幾個(gè)組合后會(huì)借閱經(jīng)濟(jì)計(jì)劃與管理。

        (4)關(guān)聯(lián)規(guī)則結(jié)果為哲學(xué)、宗教類。通過對關(guān)聯(lián)規(guī)則結(jié)果為哲學(xué)類書籍的規(guī)則觀察,從數(shù)量上可以看出結(jié)果涉及文學(xué)類的規(guī)則的占8條,支持度在0.1到0.20范圍,置信度在0.5到0.6范圍之間。從數(shù)據(jù)背后所反映的問題來看發(fā)現(xiàn)讀者在借閱心理學(xué)、各國文學(xué)、中國文學(xué)后會(huì)以0.5的概率借閱倫理學(xué)。讀者在借閱倫理學(xué)、經(jīng)濟(jì)計(jì)劃與管理、常用外國語、中國文學(xué)、社會(huì)學(xué)、中國人物傳記、各國文學(xué)等書籍或這些書籍的某幾個(gè)組合后會(huì)以超過0.5的概率借閱心理學(xué)。

        綜上所述,通過對關(guān)聯(lián)結(jié)果四大類的分析,可以看出文學(xué)類,語言類書籍產(chǎn)生關(guān)聯(lián)規(guī)則較多,說明讀者對于文學(xué)類、語言類圖書的喜歡,但是讀者對于專業(yè)課的借閱量太少。因此圖書館可以根據(jù)關(guān)聯(lián)規(guī)則(1)向讀者做一些圖書推薦;(2)將關(guān)聯(lián)強(qiáng)的圖書放在一個(gè)圖書室或鄰近圖書室方便讀者借閱,(3)向各個(gè)院系反應(yīng)讀者借閱圖書情況,建議各個(gè)學(xué)院鼓勵(lì)讀者借閱專業(yè)課程圖書,提高專業(yè)圖書的利用率。

        三、結(jié)語

        本文通過使用關(guān)聯(lián)規(guī)則挖掘出了讀者借閱數(shù)據(jù)的一些規(guī)律,對于提高圖書館的管理水平和服務(wù)水平提供了很大的幫助。針對Apriori算法在擴(kuò)大候選集時(shí),引起計(jì)算機(jī)I/O開銷增大問題,將是以后工作的重點(diǎn)。(作者單位:河北經(jīng)貿(mào)大學(xué))

        參考文獻(xiàn):

        [1] Rakesh Agrawal;Tomasz Imieliński;Arun Swami.Mining association rules between sets of items in large databases[J].ACM SIGMOD Record.1993(No.2).

        [2] Han J,Kamber M.Data Mining:Concepts and Techniques.2000

        [3] 薛薇,陳歡歌.數(shù)據(jù)挖掘方法及應(yīng)用[M].北京:電子工業(yè)出版社2014.1。

        猜你喜歡
        Apriori算法關(guān)聯(lián)規(guī)則
        基于Hadoop平臺的并行DHP數(shù)據(jù)分析方法
        基于Apriori算法的高校學(xué)生成績數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘分析
        基于云平臺MapReduce的Apriori算法研究
        基于關(guān)聯(lián)規(guī)則和時(shí)間閾值算法的5G基站部署研究
        關(guān)聯(lián)規(guī)則,數(shù)據(jù)分析的一把利器
        數(shù)據(jù)挖掘在高校課堂教學(xué)質(zhì)量評價(jià)體系中的應(yīng)用
        關(guān)聯(lián)規(guī)則挖掘Apriori算法的一種改進(jìn)
        中國市場(2016年36期)2016-10-19 04:10:44
        基于關(guān)聯(lián)規(guī)則的計(jì)算機(jī)入侵檢測方法
        基于RFID的汽車零件銷售策略支持模型
        關(guān)聯(lián)規(guī)則在高校評教系統(tǒng)中的應(yīng)用
        亚洲av综合av国产av| 中文字幕亚洲精品在线| 色综合久久久久综合体桃花网| 久久久久亚洲av片无码下载蜜桃 | 亚洲AⅤ无码日韩AV中文AV伦| 麻美由真中文字幕人妻| 青青草小视频在线观看| 国产乱子伦| av大片在线无码免费| 久久久精品人妻一区二区三区日本| 国产高清人肉av在线一区二区| 亚洲香蕉成人av网站在线观看 | 无码人妻丰满熟妇区五十路| 草莓视频成人| 青青草免费激情自拍视频| 亚洲中文字幕乱码一二三| 极品少妇小泬50pthepon| 国产精品久久久久久久成人午夜 | 国产91久久精品成人看网站| 免费看美女被靠到爽的视频| 欧美gv在线观看| 久久与欧美视频| 青青草视频在线观看绿色| 国产精品毛片无遮挡| 精品午夜福利1000在线观看| 日韩国产自拍精品在线| 青青草手机在线免费观看视频| 国产真实乱对白精彩| 国产一级片毛片| 日韩伦理av一区二区三区| 国产精品理论片在线观看| 久久久久国产一区二区三区| 色窝窝手在线视频| 亚洲一区二区三区偷拍视频| 48久久国产精品性色aⅴ人妻 | 国产一区二区三区不卡在线播放| www夜片内射视频在观看视频| 日本高清aⅴ毛片免费| 久久久调教亚洲| av色一区二区三区精品| 欧美另类高清zo欧美|