亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        關(guān)聯(lián)規(guī)則在流通庫讀者數(shù)據(jù)挖掘中的應(yīng)用*

        2015-03-13 13:21:52金松根王琳琳
        關(guān)鍵詞:類圖書分類號數(shù)據(jù)挖掘

        金松根 王琳琳 石 丹 付 佳

        (牡丹江醫(yī)學(xué)院圖書館 牡丹江 157011)

        ?

        關(guān)聯(lián)規(guī)則在流通庫讀者數(shù)據(jù)挖掘中的應(yīng)用*

        金松根 王琳琳 石 丹 付 佳

        (牡丹江醫(yī)學(xué)院圖書館 牡丹江 157011)

        介紹關(guān)聯(lián)規(guī)則在圖書館的應(yīng)用,以不同專業(yè)大一讀者借閱數(shù)據(jù)為挖掘?qū)ο?,從學(xué)院不同專業(yè)和年級兩個角度出發(fā),提取出適合進(jìn)行數(shù)據(jù)挖掘的部分記錄,從數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘兩個階段進(jìn)行關(guān)聯(lián)規(guī)則分析,為深入開展讀者服務(wù)工作提供技術(shù)支撐。

        閱讀行為;關(guān)聯(lián)規(guī)則; Weka

        1 引言

        隨著網(wǎng)絡(luò)化的發(fā)展以及數(shù)字圖書館的崛起,高校圖書館也開始走入了數(shù)字化時代。高校圖書館現(xiàn)有的自動化管理系統(tǒng)中存儲著大量的書目數(shù)據(jù),讀者流通借還數(shù)據(jù)、書目檢索記錄、Web訪問記錄等,為實現(xiàn)數(shù)據(jù)挖掘技術(shù)在圖書館的應(yīng)用提供了基礎(chǔ)。其中,流通日志挖掘可以幫助圖書館更好地了解讀者的閱讀目的、動機、內(nèi)容、興趣特點及層次等閱讀行為特征,不僅能為館藏建設(shè)提供參考依據(jù),而且還有助于圖書館積極主動地開展個性化服務(wù),提高讀者滿意度。目前,國內(nèi)高校圖書館積極投入到流通日志數(shù)據(jù)挖掘工作中,充分利用以往讀者借閱服務(wù)中產(chǎn)生的海量數(shù)據(jù),以關(guān)聯(lián)規(guī)則、決策樹、聚類分析等多種方法進(jìn)行了實踐研究。本文以金盤圖書館集成管理系統(tǒng)中流通日志文件為原始數(shù)據(jù),在Weka智能分析環(huán)境中利用關(guān)聯(lián)規(guī)則方法進(jìn)行了讀者閱讀行為挖掘分析研究。

        2 關(guān)聯(lián)規(guī)則在圖書館的應(yīng)用

        2.1 關(guān)聯(lián)規(guī)則簡介

        關(guān)聯(lián)規(guī)則是研究較多的數(shù)據(jù)挖掘方法,也是在圖書館數(shù)據(jù)挖掘中應(yīng)用最為廣泛的方法。關(guān)聯(lián)規(guī)則的概念由Agrawal、Imielinski和Swami提出,是一種簡單但很實用的規(guī)則。關(guān)聯(lián)規(guī)則模式屬于描述型模式,發(fā)現(xiàn)關(guān)聯(lián)規(guī)則的算法屬于無監(jiān)督學(xué)習(xí)的方法[1]。關(guān)聯(lián)分析中最著名的算法是Apriori算法,其核心是基于兩階段頻繁項集思想的遞推算法。尋找最大項集合(頻繁項集)的基本思想是:算法需要對數(shù)據(jù)集進(jìn)行多步處理。第1步,簡單統(tǒng)計所有含有1個元素項集出現(xiàn)的頻數(shù),找出那些小于最小支持度的項集,即一維最大項集。從第2步開始循環(huán)處理,直到再沒有最大項集生成。循環(huán)過程是:第k步中,根據(jù)第k-1步生成的(k-1)維最大項集產(chǎn)生k維候選項集,然后對數(shù)據(jù)庫進(jìn)行搜索,得到候選項集的支持度,與最小支持度進(jìn)行比較,從而找到k維最大項集。

        2.2 已有研究情況

        從中國知網(wǎng)等數(shù)據(jù)庫檢索相關(guān)文獻(xiàn),發(fā)現(xiàn)大多數(shù)關(guān)聯(lián)規(guī)則挖掘研究選取圖書館自動化系統(tǒng)里的數(shù)據(jù), 主要提取讀者借閱日志數(shù)據(jù), 按照專業(yè)、年級、借閱時間、讀者層次等開展挖掘任務(wù)。如儲文靜等在“基于Weka讀者借閱行為分析”一文中,通過關(guān)聯(lián)挖掘,挖掘出讀者和各個院系之間的關(guān)系,主題文獻(xiàn)與院系或單位間的關(guān)聯(lián)度、文獻(xiàn)借閱相似度[2];陸覺民等在“基于數(shù)據(jù)挖掘技術(shù)的圖書館流通數(shù)據(jù)的關(guān)聯(lián)分析”一文中,運用改進(jìn)的Apriori算法,不同置信度設(shè)置下的頻繁三項集,挖掘出兩個專業(yè)大一和大三學(xué)生借閱數(shù)據(jù)中強關(guān)聯(lián)規(guī)則并進(jìn)行了量化描述[3];彭儀普等在“關(guān)聯(lián)挖掘在文獻(xiàn)借閱歷史數(shù)據(jù)分析中的應(yīng)用”一文中,描述了文獻(xiàn)A到文獻(xiàn)B的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)[4];王磊等在“關(guān)聯(lián)規(guī)則挖掘在圖書館信息服務(wù)中的應(yīng)用”一文中,對確定恰當(dāng)?shù)捻椉?、?shù)據(jù)層次和產(chǎn)生最佳規(guī)則進(jìn)行了理論描述,對引入提升度和增益度指標(biāo)的必要性進(jìn)行了解釋[5],但未進(jìn)行實際指標(biāo)對照,無法了解最佳規(guī)則產(chǎn)生情況。針對醫(yī)學(xué)生的閱讀特點,韋耘耕[6]、何衛(wèi)華等[7]、毛景珠[8]進(jìn)行了閱讀傾向和閱讀圖書分類調(diào)查分析;馮研等[9]、孟凡紅等[10]主要關(guān)注點集中在數(shù)據(jù)挖掘?qū)n},利用文獻(xiàn)計量學(xué)等方法對醫(yī)學(xué)生的信息行為進(jìn)行系統(tǒng)研究。

        3 讀者閱讀行為關(guān)聯(lián)分析

        3.1 概述

        本文利用Weka3.7作為數(shù)據(jù)挖掘開發(fā)工具,Weka的全名是懷卡托智能分析環(huán)境,是一款免費、非商業(yè)化的基于Java環(huán)境的開源機器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件。Weka3.7實現(xiàn)了多種關(guān)聯(lián)規(guī)則挖掘算法,包括FP-Growth算法、FilteredAssociator算法及典型的Apriori算法[11-12]。從數(shù)據(jù)挖掘流程來看,讀者閱讀行為關(guān)聯(lián)規(guī)則大致要經(jīng)歷數(shù)據(jù)準(zhǔn)備階段、數(shù)據(jù)挖掘階段和關(guān)聯(lián)規(guī)則分析階段,其流程見圖1。在具體挖掘?qū)嵺`工作中,根據(jù)預(yù)期挖掘目標(biāo),讀者、專業(yè)、圖書分類號的屬性選擇和參數(shù)優(yōu)化上可反復(fù)調(diào)整,直到得到有效關(guān)聯(lián)規(guī)則。

        圖1 流通日志中挖掘關(guān)聯(lián)規(guī)則流程

        3.2 數(shù)據(jù)準(zhǔn)備階段

        在進(jìn)行讀者閱讀行為關(guān)聯(lián)分析前,要進(jìn)行數(shù)據(jù)挖掘之前的準(zhǔn)備工作,將金盤圖書館集成管理系統(tǒng)流通日志中操作代碼為“借書”的記錄,下載到本地形成Excel文件。原始的流通記錄中含有讀者條碼、讀者級別、專業(yè)、借閱日期、圖書條碼、索書號、作者項等字段,其中讀者條碼、讀者專業(yè)、索書號字段可作為屬性參與關(guān)聯(lián)規(guī)則挖掘運算,其余可刪除或屏蔽。接下來的操作包括:(1)索書號到圖書分類號。流通日志索書號字段中,提取圖書分類號時以簡表為基準(zhǔn)表,凡是包含簡表分類號的統(tǒng)一按簡表分類號屬性處理;若涉及復(fù)分表的圖書分類號則獨立作為一個屬性出現(xiàn),如E-49、E-53等。(2)文件格式轉(zhuǎn)換。格式轉(zhuǎn)換涉及兩個方面:一是Excel文件轉(zhuǎn)換為csv格式,需要在Excel2007中選擇另存為“csv”格式;二是csv格式轉(zhuǎn)換成Arff格式,需要在Weka3.7中選擇Arffviewer功能進(jìn)行轉(zhuǎn)換。(3)分類號離散化。利用Ultraedit等文本編輯工具,需要把形成的Arff文件中分類號屬性的數(shù)據(jù)類型從字符串型(string)或數(shù)字型(numeric)替換為為關(guān)聯(lián)模式可理解的二元屬性形式{ 1},完成分類號屬性離散化。

        數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的重要步驟,數(shù)據(jù)挖掘的大部分時間和精力都要花在預(yù)處理階段。經(jīng)過以上3個數(shù)據(jù)預(yù)處理操作后,獲取了多個適合在Weka平臺下進(jìn)行關(guān)聯(lián)規(guī)則挖掘的數(shù)據(jù)集,如圖2所示為“不同專業(yè)大一讀者.csv.arff”。

        圖2 不同專業(yè)大一讀者.csv.arff

        3.3 數(shù)據(jù)挖掘階段

        關(guān)聯(lián)規(guī)則反映一個對象與其他對象之間的相互依賴性,如果多個對象之間存在一定的關(guān)聯(lián)關(guān)系,那么其中一個對象就能夠通過其他對象進(jìn)行預(yù)測。應(yīng)用到圖書館流通日志中讀者借閱行為關(guān)聯(lián)規(guī)則挖掘,通過分析每個讀者所借圖書的不同分類號,發(fā)現(xiàn)所借圖書之間的關(guān)系,從而分析讀者的借閱習(xí)慣。

        3.3.1 不同專業(yè)同年級讀者 從圖書館集成管理系統(tǒng)中提取了2009-2014年不同專業(yè)同年級讀者流

        通數(shù)據(jù)發(fā)現(xiàn):一是不同專業(yè)讀者數(shù)存在非常大的差異,特別是2012年后新增專業(yè)讀者數(shù)據(jù)樣本偏少,半數(shù)以上的圖書分類沒有借閱記錄;二是大四以后讀者借書冊數(shù)明顯下滑,提取出適合進(jìn)行關(guān)聯(lián)規(guī)則挖掘的有效樣本難度較大。本研究選取樣本較為穩(wěn)定的2009-2011年共計3年不同專業(yè)大一讀者借閱數(shù)據(jù)為挖掘?qū)ο?,?jīng)過數(shù)據(jù)預(yù)處理后得到6 478實例、519屬性的數(shù)據(jù)集。在Weka系統(tǒng)中導(dǎo)入試驗數(shù)據(jù)之后,選擇關(guān)聯(lián)規(guī)則挖掘Apriori算法,最小置信度為0.9,最小支持度為0.1,其他參數(shù)設(shè)置保留系統(tǒng)默認(rèn)[12],見表1。

        Scheme:weka.associations.Apriori -N 10 -T 0 -C 0.9 -D 0.05 -U 1.0 -M 0.1 -S -1.0 -c -1

        Relation:不同專業(yè)大一讀者

        Instances: 6478

        Attributes:519

        經(jīng)過挖掘數(shù)據(jù)集試驗,不同專業(yè)大一讀者借閱數(shù)據(jù)集中,按參數(shù)設(shè)置挖掘出關(guān)聯(lián)規(guī)則10條,見表2。

        表1 不同專業(yè)大一讀者關(guān)聯(lián)規(guī)則Apriori挖掘參數(shù)設(shè)置

        表2 不同專業(yè)大一讀者關(guān)聯(lián)規(guī)則挖掘結(jié)果

        從表2中發(fā)現(xiàn),大一讀者所借圖書中:(1)同時借閱B84、I24、R3類圖書的讀者,有98%的讀者會借閱H31類圖書。(2)同時借閱I5、R3類圖書的讀者,有97%的讀者會借閱H31類圖書。(3)同時借閱I26、R3類圖書的讀者,有97%的讀者會借閱H31類圖書。(4)同時借閱B82、R3類圖書的讀者,有97%的讀者會借閱H31類圖書。(5)同時借閱I24、R4類圖書的讀者,有97%的讀者會借閱H31類圖書。(6)同時借閱R3、R4類圖書的讀者,有97%的讀者會借閱H31類圖書。(7)同時借閱B84、R3類圖書的讀者,有96%的讀者會借閱H31類圖書。(8)同時借閱B84、I24類圖書的讀者,有96%的讀者會借閱H31類圖書。(9)同時借閱I24、I5類圖書的讀者,有96%的讀者會借閱H31類圖書。(10)同時借閱B82、I24類圖書的讀者,有96%的讀者會借閱H31類圖書。分析得出,關(guān)聯(lián)規(guī)則前項集中在B82、B84、I24、I26、I5、R3、R4等圖書分類,后項均指向H31類。醫(yī)學(xué)院校讀者出于專業(yè)學(xué)習(xí)需要R3、R4等基礎(chǔ)醫(yī)學(xué)圖書借閱頻率較高;大一新生又處在價值觀形成的關(guān)鍵時期,出自提高修養(yǎng)等目的B82、B84等倫理學(xué)、心理學(xué)圖書借閱頻率保持較高水平;從拓展知識、休閑的需求出發(fā),大一讀者中I24、I26、I5等中外文學(xué)類圖書也頗受歡迎;再者由于大學(xué)期間在校生都要面臨四、六級英語考試,過級考試大多又集中在大二、大三期間,因此大一讀者中H31類圖書始終保持較高的借閱頻次。最為有趣的發(fā)現(xiàn)是喜歡閱讀文學(xué)類圖書的讀者群中,I24、I5類圖書和I26類圖書出現(xiàn)了明顯的分界線,支持度10%的條件下,沒有出現(xiàn)共存關(guān)系;再如讀者所借圖書當(dāng)中B84類和B82類之間,也存在相同的分界現(xiàn)象。為了發(fā)現(xiàn)更多讀者借閱行為,在挖掘參數(shù)保持不變條件下,本文依次利用Weka系統(tǒng)中的“移除(Remove)”功能移除H31、I24、B84、R3屬性后,進(jìn)行了多次關(guān)聯(lián)規(guī)則挖掘,除了移除R3圖書分類時,置信度降為0.6以外,移除其他屬性時所挖掘出的前10項最佳關(guān)聯(lián)規(guī)則順序接近統(tǒng)一,置信度較高,均保持在0.9以上。

        3.3.2 同專業(yè)不同年級讀者 學(xué)科服務(wù)和學(xué)科文獻(xiàn)建設(shè)中,圖書館常以二級學(xué)院為單位進(jìn)行劃分研究,因此針對同一專業(yè)不同年級讀者閱讀行為研究,以二級學(xué)院為大專業(yè)概念。以護理學(xué)院為例,利用Weka分析軟件,設(shè)置置信度為0.6,支持度為0.1,得到了護理學(xué)院不同年級讀者的前10最佳關(guān)聯(lián)規(guī)則。研究發(fā)現(xiàn),大一時護理學(xué)院讀者借閱量不大,所借圖書主要集中在I24和R3兩個大類;大二時借閱量逐漸增加,但所借圖書分類變化不大;大三開始讀者借書關(guān)聯(lián)規(guī)則發(fā)生了較大變化,H31和R4類圖書為主要借閱對象;大四時讀者所借醫(yī)學(xué)圖書份量正在增長,分類趨于分散,除了R3、R4類圖書,R71、R9、R6等多個醫(yī)學(xué)類圖書也有了較高頻率外借,而90%以上最佳規(guī)則都指向了H31類。從挖掘結(jié)果可以分析到護理學(xué)院不同年級讀者的閱讀路徑,大一、大二時期集中在基礎(chǔ)醫(yī)學(xué)和心理學(xué)方面,而大三以后對外語的需求逐年增加,醫(yī)學(xué)類圖書借書范圍也擴展到了內(nèi)科學(xué)和其他臨床醫(yī)學(xué),興趣趨于分散。其他二級學(xué)院的讀者借閱規(guī)則挖掘方法與護理學(xué)院相同,這里不再贅述。

        4 結(jié)語

        閱讀動機、興趣、情緒、能力等閱讀意向活動是推動讀者閱讀的一種內(nèi)部動力, 直接影響讀者的閱讀傾向和效果。此次研究從學(xué)院不同專業(yè)和不同年級兩個角度,在海量的數(shù)據(jù)庫系統(tǒng)中提取適合進(jìn)行數(shù)據(jù)挖掘的部分記錄,經(jīng)過索書號轉(zhuǎn)換分類號、分類號離散化、數(shù)據(jù)記錄格式轉(zhuǎn)換等步驟完成數(shù)據(jù)預(yù)處理,利用關(guān)聯(lián)規(guī)則Apriori算法進(jìn)行了不同專業(yè)同一年級、不同年級同一專業(yè)挖掘工作,預(yù)置支持度和置信度屬性參數(shù)得到了與讀者借閱行為相關(guān)的最佳關(guān)聯(lián)規(guī)則。在關(guān)聯(lián)規(guī)則分析階段,從增減屬性和調(diào)整支持度和置信度兩個方面,對得出的關(guān)聯(lián)規(guī)則進(jìn)行了挖掘結(jié)果分析。本次研究旨在對用戶閱讀行為數(shù)據(jù)進(jìn)行隱性知識的分析與整理,對深入開展圖書館讀者服務(wù)工作提供技術(shù)支撐。

        1 史忠植. 知識發(fā)現(xiàn).第2版[M].北京:清華大學(xué)出版社,2011:140-148.

        2 儲文靜,奉國和. 基于Weka讀者借閱行為分析[J]. 情報科學(xué),2010,28(3):424-429.

        3 陸覺民,馬國棟,鄭宇. 基于數(shù)據(jù)挖掘技術(shù)的圖書館流通數(shù)據(jù)的關(guān)聯(lián)分析[J]. 現(xiàn)代情報,2009,29(9):108-110.

        4 彭儀普,熊擁軍. 關(guān)聯(lián)挖掘在文獻(xiàn)借閱歷史數(shù)據(jù)分析中的應(yīng)用[J]. 情報雜志,2005,(8):40-41,44.

        5 王磊,劉東蘇. 關(guān)聯(lián)規(guī)則挖掘在圖書館信息服務(wù)中的應(yīng)用[J]. 情報雜志,2008,(2):154-155,158.

        6 韋耘耕. 從圖書館流通數(shù)據(jù)分析讀者閱讀傾向及館藏結(jié)構(gòu)[J]. 醫(yī)學(xué)信息學(xué)雜志,2010,31(2):75-78.

        7 何衛(wèi)華,陳志才,邱廣鳴,等. 醫(yī)學(xué)生閱讀心理及閱讀傾向調(diào)查分析[J]. 醫(yī)學(xué)信息學(xué)雜志,2010,(3):71-74.

        8 毛景珠. 醫(yī)學(xué)院校學(xué)生閱讀圖書種類分析[J]. 醫(yī)學(xué)信息學(xué)雜志,2007,28(4):397-399.

        9 馮研,劉薇薇,張兵兵,等. 國內(nèi)圖書館數(shù)據(jù)挖掘研究及應(yīng)用的文獻(xiàn)計量分析[J]. 醫(yī)學(xué)信息學(xué)雜志,2011,32(6):57-60.

        10 孟凡紅,樊紅雨,侯酉娟. 基于數(shù)據(jù)挖掘技術(shù)的用戶信息需求研究[J]. 醫(yī)學(xué)信息學(xué)雜志,2011,32(9):43-46.

        11 馬國棟. 基于WEKA的高校圖書館流通數(shù)據(jù)的關(guān)聯(lián)分析[J]. 圖書館工作與研究,2010,(12):42-45.

        12 袁梅宇. 數(shù)據(jù)挖掘與機器學(xué)習(xí)——WEKA應(yīng)用技術(shù)與實踐[M]. 北京:清華大學(xué)出版社,2014:102-112.

        Application of Association Rules in Data Mining of Circulation Library Readers

        JINSong-gen,WANGLin-lin,SHIDan,F(xiàn)UJia,

        LibraryofMudanjiangMedicalUniversity,Mudanjiang157011,China

        The paper introduces the application of association rules in the library. With circulation data of freshmen in different majors, in terms of different majors and grades of the college, it extracts partial records suitable for data mining, analyzes phases of data preparation and data mining by use of association rules, and provides technical support for in-depth conduction of reader services.

        Reading behavior; Association rules; Weka

        2015-09-24

        金松根,副研究館員,碩士,發(fā)表論文10余篇。

        黑龍江省高校圖工委項目 “泛在環(huán)境下高校大學(xué)生閱讀行為研究”(項目編號: 2013-A-113);“面向Y一代的高校圖書館用戶信息行為研究”(項目編號:2013-A-109)。

        R-058

        A 〔DOI〕10.3969/j.issn.1673-6036.2015.09.018

        猜你喜歡
        類圖書分類號數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        新形勢下教育類圖書編輯如何全面提升編輯素質(zhì)
        新聞傳播(2018年2期)2018-12-07 00:56:02
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        A Study on the Change and Developmentof English Vocabulary
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        航天類圖書的出版現(xiàn)狀與選題策劃研究
        新聞傳播(2015年4期)2015-07-18 11:11:31
        從一本書的出版到一門課程的建設(shè):淺談教育類圖書編輯的作用
        新聞傳播(2015年12期)2015-07-18 11:02:41
        Translation on Deixis in English and Chinese
        The law of exercise applies on individual behavior change development
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        日韩在线免费| 欧洲精品免费一区二区三区| 国内精品久久人妻性色av| 六月丁香婷婷色狠狠久久| 日韩欧美中文字幕公布| 亚洲视频一区二区三区免费| 国产精品后入内射日本在线观看 | 美女视频一区| 久久国产免费观看精品3 | 猫咪免费人成网站在线观看| 美女扒开屁股让男人桶| 国产成人激情视频在线观看| 亚洲视频一区| 精品亚洲国产成人av色哟哟| 成人无码网www在线观看| 闺蜜张开腿让我爽了一夜| 久久国产黄色片太色帅| av在线高清观看亚洲| 偷拍一区二区三区黄片| 久久亚洲中文字幕精品二区 | 综合色区亚洲熟妇另类| japanesehd中国产在线看| 国产一区二区在线视频| 亚洲日韩精品欧美一区二区三区不卡 | 青春草免费在线观看视频| 最近中文字幕视频完整版在线看| 日韩亚洲制服丝袜中文字幕| 韩国黄色三级一区二区| 国产成人综合美国十次| 99re久久精品国产| 国产精品亚洲av国产| 免费久久99精品国产| 国产白丝无码视频在线观看| 91久久国产情侣真实对白| 精品日本一区二区三区| 国产在线观看无码免费视频 | 中文字幕日韩精品无码内射| 欧美日韩免费一区中文字幕| 中文字幕乱码人妻在线| 亚洲人成人无码www影院| 亚洲丁香婷婷综合久久小说|